数据标注是一项枯燥的工作,不少数据标注员喜欢戴着耳机听音乐。向凯 摄
在上海徐家汇一家广告公司做文案的索琳,从未想过自己也能参与打磨人工智能的应用。她最近接到任务,教一位只存在于手机应用程序里的“老爷爷”与用户对话。比如,当用户问“世界上谁最美”,他就会回答“当然是你最美”。一问一答均由索琳事先写好,再由一家擅长语音识别的人工智能(AI)公司植入。索琳编写了近3000条问答,一心想把“老爷爷”培养得更风趣、睿智。不过,实际上她只是提供了最基础的数据。
一千多公里之外的贵州惠水县百鸟河数字小镇,一家提供数据服务的公司,22岁的吴潘威正对着电脑用鼠标“贴标签”:将一张普通道路交通图中的机动车、行人、非机动车逐一框中……和索琳教机器对话一样,吴潘威贴标签的目的是教人工智能看图识物,他们被叫作“数据标注员”。
当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告;而大数据,已经成为世界认识贵州的新名片。在脱贫攻坚主战场的贵州,大数据的经济增速已连续7年位居全国前列。
产业勃兴,数据标注员因此成为新兴职业。多名业内人士告诉记者,目前国内至少有大小近千家标注公司,共20余万名数据标注员。
在百鸟河数字小镇,仅吴潘威所在的梦动科技有限公司就有400多名标注员。他们是踩着信息技术浪潮的流水线工人。
“教机器认识这个世界”
这是一张微笑的普通女性的脸,她的鼻子、嘴巴、眼睛、眉毛和脸部轮廓布满了点,一共有149个,它们被叫做“人脸关键点”。
在百鸟河数字小镇,吴潘威与同事们坐在电脑前,将图片放大,用鼠标移动这些小点,使它们落在合适的位置。吴潘威浏览了成千上万张人脸图片,在他的眼中,这些人脸没有肤色、性别、老少之分,只有清晰与模糊的区别,一张像是从监控摄像里截取的模糊图片会让他多花几倍时间。
人工智能本身不会识别物体,而要依靠海量训练。当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法?!拔馀送恰敝恍璋凑杖斯ぶ悄芄こ淌γ巧瓒ǖ氖抗娣独幢曜??;谎灾?,这些数据标注员并不需要了解算法之复杂,他们所做的,更像在工厂流水线重复作业。
百度无人驾驶汽车,是梦动科技接手的第一个项目。公司人工智能服务部总监曾芸说:“刚接到无人车项目时,我们所有人都是蒙的,觉得这个事情不大靠谱,毕竟无人驾驶在我们眼里是高精尖的科技?!?/p>
2016年5月,百度派技术人员来开讲座,开诚布公——“你们就是在训导机器,教机器认识这个世界?!蹦鞘?,所有人都不知道有“数据标注员”这个职业,吴潘威和一起实习的小伙伴们互相称呼“画框的”。
可不就是“画框的”?几十个人坐在电脑前按动鼠标画框,机动车分成大型车、小型车,非机动车分成自行车、摩托车、三轮车,还有行人、交通信号灯,都要一一框起来。
“标注员都是‘滚雪球’带教带出来的,那时一个人一天要画几百个框,以至于后来走在路上看什么东西都想画个框把它框住?!痹炕匾渌?。
“后来,看到无人驾驶汽车在美国的硅谷跑,在乌镇的世界互联网大会跑,说实话还是蛮振奋的?!蔽馀送锾蟮匦ψ潘?,不管科技有多先进,至少无人车里出现的路况扫描图像他是熟悉的,“也许那就是我之前标注过的?!?/p>
那种感觉,就像一不小心踩到了时代潮流的浪尖上。
“指数级增长”
吴潘威是贵州盛华职业学院新近毕业的大学生,2016年初到梦动科技当实习生。在这里,一间办公室大约能容纳60名数据标注员,每张办公桌后面都藏着一张稚嫩的脸,几乎每个人都戴着耳机听音乐,同时不停地切换图片、移动鼠标,在屏幕上打点或者画框。
他们大多是像吴潘威一样年轻的大学生。除了盛华职业学院,还有来自黔南民族医学高等专科学校等4所学校的实习生。
但最早,这项工作并不是由实习生来做,而是那些年薪百万的人工智能工程师。
31岁的杜霖是倍赛(北京深度搜索科技有限公司)的首席执行官,公司在北京、山西、山东、河南、四川、贵州、福建等地建设数据标注工厂,有近3000人的数据标注员团队?!岸訟I 和数据的研究,我们很早就开始了?!北弦底陨虾=煌ù笱У亩帕馗嬷?,他的创始团队均来自上海交大。
最早在2014年,杜霖注意到,随着人工智能在商业场景的应用逐渐落地,原来由工程师在实验室完成的数据标注呈“指数级增长”,工程师们应接不暇,专业的数据加工服务公司应运而生。
国务院发布的《新一代人工智能发展规划》显示,到2020年,我国人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。杜霖判断,未来人工智能领域一定会出现巨大缺口——对于由人标注的数据的需求?!耙蛭衷诘娜斯ぶ悄芑怪皇橇饺甑暮⒆?,需要我们不断地教它认识杯子、水果、玩具和汽车?!?/p>
作为人工智能产业的下游端,“吴潘威们”对行业勃兴的感知或许是最敏感的。
“从去年起,一个个项目接踵而至?!痹克?,“目前梦动所承接的项目几乎囊括所有人工智能领域:图片、文本信息、语音、视频、在线审核等,其中图片是最大的一块?!?/p>
吴潘威已经记不清标注过多少项目,“五花八门,难以想象”。无人售货超市里,商品种类数以万计,光背包就有十几种;甚至有美甲店要求训练能识别指甲区域的机器人,那样就不会把指甲油涂到指甲外……
6月29日,在梦动科技,记者看到办公室的柜子上摆放着几十种可口可乐饮料。项目组长蒋纯洁介绍,标注员需要先记住所有产品的类别、口味、容积,同一款产品要仔细看包装颜色和图案细微的不同之处,“否则标注的时候再去看就太慢了”。
“最奇怪的是给猫脸和狗脸打点?!毕钅恐鞴芗秩缢伤?。两个多月前,他们花了整整两个星期给一万多张猫和狗的图片打点,每张脸上要打34个点,“想来想去也没想明白这到底是用来干啥的”。
“大学生为什么要来做这个”
吴潘威是最早一批来梦动科技的实习生之一。做数据标注员两年多,当初和他一起实习的同学大多都离开了;而在他实习期间,数不清的实习生来来往往。他们抱怨工作枯燥乏味,没什么前途。
“大学生为什么要来做这个事情?”吴潘威也不止一次问过自己。
出生于1999年的陆森霖是贵州盛华职业学院计算机专业的大一学生,实习近3个月了。学校离公司只有1公里左右,这是学校在产教融合方面的部署。
陆森霖正在做的项目是语音识别,每天的基本任务是将约1800秒的语音输出成文字,将重叠在一起的几个音色分开,这会花费他五六个小时;最麻烦的是专业术语,不懂的名词要上网查;做完之后由质检员核对,如果有错误就会被打回来重新修改。
“我完全不知道意义在哪里?!甭缴厮?,“你看我开着音乐,听几百秒就切过来放首歌放松,否则一直听会受不了?!?/p>
标注工作单调重复?!霸倌训南钅?天之内就能随便耍了?!北曜⒃绷汉焖?,他是记者碰到的少有的对人工智能感兴趣才来实习的学生。
数据标注行业有一套明确流程:上游的人工智能公司将项目交给中游的数据加工公司或众包平台,后者自行加工或分包给下游的小公司、小作坊,有的小作坊还会分发给“散兵游勇”,比如学生或二三线城市的兼职人员。
而到了下游,项目经过层层转包,利润已经低得吓人?!罢庥胛颐且幌弑曜⒃钡母冻鍪遣欢缘鹊??!痹克?,早期梦动科技只能从中游的众包平台获取项目,现在则尽量直接对接上游客户。
如今,上游的人工智能公司仍保留少量数据标注员?!拔颐堑娜氨曜⑼哦又饕谴硪叫愿吆陀刑厥庖蟮氖?,比如处理医疗领域的数据就需要有一定专业背景?!痹拼涌萍佳芯吭焊痹撼ぶ芟杞樯?,“其余的数据处理便交给下游几十家数据标注团队?!痹诒怀谱鳌肮谑椎等斯ぶ悄芴粽嚼嘟谀俊钡难胧尤让沤谀俊痘枪恕分?,曾与模拟画像专家林宇辉在同一舞台竞技的,就是云从科技所打造的人工智能“御眼重明”。
对一般的数据标注员而言,职业生涯是一眼望得见头的:从一线标注员做起,然后是质培专员(相当于质检)、项目组长、项目主管、项目经理,最后是部门总监。
“简而言之,就像上世纪80年代的来料加工,大工厂可以,家庭作坊也可以?!泵味萍剂洗词既伺┱?,“甚至有人把数据标注员比作流水线上的工人,几个学生、几个零散人员都可以接单?!?/p>
农政并不否认目前数据标注确实是一个需要大量劳动力的行业,但他强调,应该看到行业发展的未来,“不能现在看到他们在画框,就判断未来十年他们还在画框?!?/p>
今年7月,吴潘威终于作为正式员工与公司签约,成为一名商务助理。实际上,他从未想过自己能留下来。当初一起实习的有近百人,和他一样最终成为正式职工的仅有11人。他们不再做标注员,而是走上项目组长等管理岗位。
“也许这是我们接触最前沿科技唯一的机会?!蔽馀送?,他的大多数同学毕业后都去从事销售、中介等工作,而在梦动,他能与最先进的科技公司对接,感受信息技术带来的震撼。
“不如我们发明标注机器人来解放自己”
每天早上9时,吴潘威准时到公司。一旦进入工作角色,每个人都是紧张而严肃的,相互之间很少交流,若遇到紧急项目,他们还需要加班加点完成。
短短两年间,从小小的鼠标一端,吴潘威便感受到了另一端世界前沿科技进步的速度,“以前无人驾驶汽车框出基本轮廓就可以了,现在不只是从2D平面进化到3D立体,还要标注车头的方向?!?/p>
在梦动科技,“大数据,让一切变得更智慧”等标语随处可见。医疗、金融等人工智能近年来踏进的领域,都在日新月异地改变,而起点就在小镇年轻人的手指尖。百鸟河数字小镇聚集了大数据、教育文化、健康养老、文化旅游等众多公司,是当地着力发展大数据产业所建的新型园区。一幢幢彩色尖顶的欧式小楼,令小镇充满异域风情。
实际上,数据标注本身也是一个要用人工智能来改造的行业,标注工具也正在迭代升级。比如,人脸识别最早均由人工标注关键点,但眼下吴潘威接到的项目里,机器已经打好点,标注员要做的只是最后的校正。
在杜霖看来,其实不必把数据标注看得过于神秘,“说到底人工智能数据标注只是商业外包行业一个非常细的分类,几十年前这种数据外包业务就已存在,比如替银行处理电子表格的公司,但因为人工智能,数据标注才变成了一个独立的行业”。
在数据标注领域,更大的潜在威胁可能并非同行竞争,而是来自机器——当算法足够先进时,少量的数据就能达到效果,到那时,还需要这么多的数据标注员吗?
“也许有一天人工智能会全面取代人类,但数据标注员一定是最后被取代的那批人?!倍帕囟源吮3掷止厶?,“最高明的算法也需要基础的数据学习,而数据标注员,一定是坚持到最后一班岗才把数据交付给机器模型的?!?/p>
梦动科技人工智能服务部助理总监龚芳芳也说:“想象把人工智能当作婴儿,而我们可以把他训练成天才?!?/p>
人们似乎乐意见到“机器天才”与人类的竞争。根据百度搜索指数,公众对人工智能的关注从2016年起呈显著上升趋势,当年3月的围棋人机大战——AlphaGo击败围棋世界冠军李世石,第一次将人工智能带入大众视野。
人工智能是否会替代人类?
对吴潘威来说,这并不是个沉重的话题?!氨曜⒃敝浠钩3?嫘?,不如我们自己发明一个标注机器人来解放我们自己?!彼ψ潘?,“毕竟,人都是懒惰的?!?/p>
而在通往未来无限可能性的路上,数据标注员们最大的挑战依旧是克服乏味与寂寞。
一名年轻的标注员说,以前他与一位小伙伴会在一起比,谁今天画的框多,“他框了300个我框了400个,第二天他就不跟我说话,一直框。但是现在,他走了,我才觉得这个工作真是无趣”。(见习记者 向凯)