秦娇目前所在的这家公司,瞄准的就是这片市场——人工智能公司需要的数据既要根据需求定制,又要保证标注质量,同时数量还十分庞大。大部分人工智能公司自身和众包平台都无法同时满足这三种要求,因而诞生了专业的数据标注公司。
这家「数据加工」公司的一二层,全部是负责标注数据的员工。为满足不同订单需求,员工们被划分成不同小组:
有的小组负责勾画图片中人体的关节点,将复杂的瑜伽姿势抽象成点和线,可以用来训练识别人体体态的模型;
有的小组要为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防摄像头的识别能力;
有的小组需要分毫不差的描绘建筑物的边缘,将静止画面中鳞次栉比的大楼一一分割,标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知;
有的正将雷达扫描出的障碍物 3D 线条一一还原成实物,长方体是建筑、绿色的是树木,这些内容会被用来训练雷达数据和真实世界的关联性。
标注作业有时并不简单,比如这种关联性标注
除图片外,这里还有负责视频标注的员工。她们需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化。这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。
与大部分制造业类似,这里的各个小组都有自己的管理者。管理者之上是项目经理,然后才是秦娇这样为数不多的高层管理者。员工「生产」的内容会经过质检人员的核验,全部合格后才会最终交付项目方。严格的流程和管理制度,保证了稳定的标注效率和质量。
「很多人认为大数据就是呼叫中心,我们发展的大数据和其他人不一样,整个贵州只有我们做数据精加工。」对于公司目前在做的业务,秦娇显得非常骄傲。
的确,这些结构化后数据,将成为这场人工智能大潮中的公司们的立足之本。不仅帮助它们提升模型的准确度、提升产品的可靠性,甚至影响它们的发展轨迹和融资进程。
三
「数据加工」公司所在地距「大数据之城」贵阳五十多公里,是一座只接受科技公司入驻的「数字小镇」。刚刚落成入驻率不高,加上位置偏远、人迹罕至,园区显得十分安静。
小镇多是这样的彩色尖顶小楼,绿化丰富,十分安静
有趣的是尽管位处山林之中,小镇的隔壁有一间规模不小的高职学校,学校的学生构成了这家公司目前主要的员工来源。除上课外,学生们每天有大约 6 个小时可以工作,「易于管理、尽职尽责」是秦娇给这些学生的评价。
高职学校初建的目的是教育扶贫,因此学生们大多来自贫困山区,学校会提供不少补助和奖学金。在数据加工公司兼职赚来的钱不仅足够生活,有些学生还会拿出一部分补贴家用。偶尔这份工作还能成为职业跳板,「我们的学生踏实又努力,有的去北京实习,因为熟悉标注工作、又认真,反馈回来说比同样实习的北京大学生强得多」。
学校走廊的墙上也贴着不少相似的学生案例。在描述学生们入学前情况的文字中,不可避免的包含着「贫穷」、「双亡」、「残疾」等词汇。其中一张照片中父亲、母亲和学生坐在寨楼的木板地上,身后昏暗的空间里没有任何摆设;另一张照片中的学生搂着患病的哥哥;还有一张照片,面无表情的学生正坐在床一样的地方,背景是用黑白报纸糊着的墙。后来,她们都凭努力改变了自己和家庭的命运。
对这份工作能带给学生的机会与回报,「数据加工」公司的 COO 李政同样十分笃定。但比起秦娇对于数据标注行业的信心满满,他则显得有些忧心忡忡。毕业于北京航空航天大学的他清晰的意识到,现阶段的数据标注还是劳动密集型产业,和南方工厂没什么不同。学生们都只是流水线上来料加工的一环,处在价值链的底端。只有向前一步,找到更深入行业的业务模式,才能从已经开始热络的数据加工行业中脱颖而出。