人工智能背后,站着大量人工。
在很多人的观念中,被简称为AI的人工智能,意味着智能取代人工,以及大量的失业。但其实,AI离不开大量无名英雄的“喂养”,他们就是数据标注员,又称人工智能训练师。
为什么AI需要数据“喂养”呢?这涉及机器学习和人的区别,AI被称为“勤奋但没灵性的天才”,要用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
如果一个AI业务没有标注过的数据,即使写出再好的算法,也会是一盘散沙。而投喂的数据质量越高,AI就越强大。因此,业界流传着一句话:人工有多强大,智能才有多强大。
时代奔涌向前,发展机会也足够多元,黄土高原的沟壑间曾有过太多寂寥。但从2019年开始,在国家卫健委的指导下,清涧县大胆想象小心求证,决定在数字经济浪潮中找到一席之地,创办了陕西第一家人工智能数字标注企业,实现“我在清涧,服务世界”的愿景。
“喂养”AI
2012年,一个叫 AlexNet的AI模型,在ImageNet挑战赛中一鸣惊人,催生了新一轮的人工智能浪潮。著名华裔计算机科学家李飞飞是该数据库项目的发起人之一。在那之前,业内普遍的研究方向是模型与算法。李飞飞另辟蹊径,从数据质量入手。
今天,ImageNet已经是世界上最大的图像识别数据库,它拥有1400万张已被标注的图片。在这个数据库背后,是来自160多个国家的近5万名数据标注员,他们足足花了3年时间才把这些图片全部标注完。没有这些被标注的图片,AI就不可能完成历史性的一跃。
数据标注究竟有多重要?可以用业界流传的一个故事来说明。几年前,美国一辆自动驾驶汽车追尾了一辆白色大卡车,最终导致车毁人亡的惨剧。事故调查显示,追尾汽车的摄像系统把白色卡车误认成了白云,原因是:数据标注没有做好。
“我们就像AI的眼睛,带它看世界,理解世界,快速成长。”对于数据标注的重要性,一位从业者如此形容。正是成千上万的数据标注员日复一日地拉框标记,才教会了人工智能理解人类世界。
而真正让数据标注工作受到进一步重视的是ChatGPT。它构建一个AI系统,彻底改变人类与计算机交互的方式。
在互联网头部企业中,仅字节跳动在济南、天津、武汉的数据标注员就多达4万人。如果再加上第三方数据标注服务公司,比如全国最大的Testin云测,从业者总数更是惊人。
从数据标注业务诞生的那刻起,就注定了外包的命运。与高大上的算法、算力不同的是,训练算法模型所需的数据是海量的,而训练AI的过程,不能用AI技术代替,那就不得不依靠大量的人工处理数据。而且80%的数据都是不涉密且技术难度不高,因此,出于成本的考虑,很少有公司愿意自建标注团队,大多以外包形式运营。
有媒体报道,仅北京一地就有100多家从事数据标注的公司,全国从事这项工作的人可能超过千万。
随着数字中国、数字乡村战略的推进,中国数字化的发展场域正逐渐从城市拓展到乡村。人工智能是国家“新基建”的重要内容,也是新一轮科技革命和产业变革的重点领域。
国家卫健委干部柳清海在清涧挂职期间,关注到人工智能产业和互联网经济蓬勃发展释放出的大量就业机会,协调引入蚂蚁集团“AI豆计划”,这是陕西省首个落地的人工智能数字产业项目,也是蚂蚁集团“AI豆计划”在全国探索的第一个县级试点。
“在增加欠发达县域女性非农就业机会上,数字经济大有可为。”西安交大人文社会学教授杨江华说,随着信息通讯技术和数字媒体技术的飞速发展,数字劳动同样成为当今世界和中国经济发展中不可小视的劳动形式。
增量破局
清涧是革命老区,这里拥有黄土高原的壮美,也长期因现代化产业的缺位导致县域经济难以突围。作为“中国红枣之乡”,近些年,受气候、市场等因素冲击,加之产业链条短、科技含量低,曾经引以为傲的红枣产业逐渐萎缩,枣林撂荒弃管严重。
清涧县是国家卫健委定点帮扶县,在这里引入阿里、蚂蚁、高德这类浪潮之巅的企业项目,在过去是想都不敢想的。
“只有从今天开始努力的人,美好明天才会到来。”在清涧爱豆科技有限公司经理鱼涛看来,存量博弈下的无解难题,在增量创新的视角里往往没那么难搞。
数据标注员在工作中
2019年11月15日,清涧县第一批人工智能训练师开始培训;半个月后,清涧县成立县属国有企业清涧县爱豆科技有限公司;半年后,清涧爱豆科技公司被授予“阿里巴巴数字产业扶持基地”,人工智能产业开始落地生根。
“强势当中蕴含着天然的劣势,一定要在对手的强势当中找劣势,用兵法来讲,就是避其锋芒,放弃存量,寻求增量。”鱼涛说,在脱贫地区发展人工智能数据标注产业,投入小、见效大、绿色环保、带动就业多。
在国家卫健委80万元健康暖心基金和中国妇女基金会、蚂蚁公益基金会25万元孵化基金的共同支持下,清涧爱豆科技公司很快发展起来。
通过清涧爱豆科技公司的选址,就能看出企业的初心。公司仅隔一条马路,就是清涧最大易地搬迁安置小区,小区居住脱贫户929户3066人。优先招募脱贫户、留守妇女、残疾人等群体,从一开始就被列入了企业招聘准则。实际在岗员工中,防返贫重点人口占比高达68.07%。
“数据标注产业是一个基于人工智能高科技的劳动密集型产业。发展数据标注产业,我们既能积极探索县域的传统产业转型问题,又可以带动更多劳动力稳定就业,吸引外出务工人员回乡工作。同时,通过对接互联网经济,搭上‘信息高速公路’,破除资源劣势,探索产业转型升级,实现弯道超车。”清涧县委书记孙利斌说,如今爱豆科技公司已成为当地最大的用工企业。
不同于农业生产和工厂流水线等就业机会,“AI豆计划”培训的数据标注工作更注重技能,受人员体力、健康情况限制更少,工作时间和地点也更加灵活,为女性、残障等特殊人群就业带来了更多包容性机会。
目前,清涧爱豆科技公司所有在岗员工中,女性总体占比66%,残障员工占比超2%。随着业务不断熟练,各数字就业中心员工收入稳步增加,多人月入过万元。
“赛博”县城
画框、贴标签、排序、找不同等方式,为文字、图像、视频等做标注……在清涧县工业园五楼的格子间里,数据标注员们手随眼动,正在不断点着鼠标,而她们每点一次鼠标,都意味着使用高德地图的用户感受到更加精准的导航,亦或是在点开支付宝的某个按钮时有更智能的体验。
清涧爱豆科技公司副总经理郝莉华还记得,刚开始招聘的时候,很多应聘者完全不了解这个行业,有人在面试时直白地提问:“哪有玩电脑还能挣到钱的?”
但随着第一批入职者在培训后迅速上手,并且其中有人一个月挣到了过万元的工资,清涧爱豆科技公司一夜之间在当地火了。之后再发招聘信息,几天就收到了300多份报名表。
想在县城里找份体制外的体面工作并不容易,尤其对女性而言,月薪在两三千元的服务员、售货员是最为普遍的选择。男性则多从事体力活,做电焊、搞装修,收入也并不稳定。有人在办公室里坐着“玩玩电脑”就能拿到上万元的月薪,无疑突破了清涧人原先的认知。
“鼠标一点就是钱啊。”虽然这里的大部分标注员没有接受过高等教育,对她们每日所标注的数据具体服务于什么说不清楚,更不太明白其中的关联,但每月按时到账的实打实工资却能让她们对公司产生最朴素的依赖与信任。
在清涧爱豆科技公司,员工工位是格子间,上下班打卡用的是钉钉系统,楼道里也模仿互联网大厂设置了茶水间,年末也会有以员工为主角且气氛活跃的年会,时常组织大家周末去山野间烧烤团建,甚至还贴心的为宝妈员工建了“儿童成长空间”,在寒暑假里有老师帮忙辅导作业、组织孩子搭乐高……
尽管这份工作并不轻松,平均每天要标注3万张图。但一想到,像这样体面且高薪的工作在县城难寻第二家,绝大多数人还是格外珍视这个工作机会。
“人工智能不只属于大城市,东数西算也可以给我们小县城带来机会。”在爱豆科技落地清涧的这几年里,鱼涛最大的感受就是:这个在大城市可能不值一提的小公司,不但改变了很多人的命运,也在悄然间改变着县城的面貌。
很多变化都是意料之喜:员工从本地全职宝妈、残疾人为主,到渐渐返乡大学生多起来;一对又一对在清涧爱豆科技公司相遇相爱的年轻人喜结连理;不断有员工喜提新车、或在县城买房;曾经生意冷清到濒临倒闭的奶茶店被清涧爱豆科技公司员工的消费救活……
几年间,清涧爱豆科技公司接到的订单越来越多,而本地的人力资源已不足以支撑这样的体量,但到手的业务不做实在可惜,况且还有很多与清涧相似的县城有承接数据标注业务的能力,而由公益孵化而来的清涧爱豆科技公司骨子里本就自带慈善的基因。
2020年,清涧爱豆启动了片区扩展计划,以直接成立子公司或远程指导的方式帮助其他县域发展数字产业。陪伴式孵化了铜川宜君县的数字就业中心,协助孵化了邻县子洲、绥德还有邻省的山西永和县、甘肃积石山、宁夏石嘴山、贵州遵义等数字科技公司,助力当地乡村振兴,分享数字经济成果。
相应子公司成立后交由所在县域地方管理,清涧爱豆科技公司不抽取任何利润。为帮助其他县域数字就业中心顺利进入正轨,清涧爱豆科技公司还抽选精英员工组建线上导师团队,通过在线答疑、培训等方式,常态化帮助其他基地成长。
与此同时,对于清涧爱豆科技公司来说,商业化运营是保证项目可持续运作的重要基础,也是区别于传统公益模式的关键。为此,在每个项目落地县,蚂蚁集团除了通过设立“数字木兰”教育培训专项基金为项目提供人员培训及爬坡期补贴、持续为项目县引入孵化订单外,还特别为每个在地运营社会企业设立了3年孵化期,聘请专业机构对数字提供长期陪伴指导,助力在地运营企业成长为有独立运营能力的市场竞争主体,实现公益项目可持续发展。
吕梁山片区数字就业中心已先后承接了蚂蚁、高德、阿里云、蜂鸟配送、网商银行等公司的70多种数据标注业务。目前,清涧爱豆科技及孵化公司已有员工677人在地就业,2023年总营收约2500万元。
“我在清涧,服务世界。”不知是哪位员工有感而发的,这句话,鱼涛一直记在心里。