在大部分人看来,人工智能是个有些「科幻」的词汇,代表小说电影中和人类长相相似、或温柔或冷酷的机器人。
稍微熟悉一点,这份印象又变成冷冰冰的GPU阵列、复杂多层的神经网络和一大串佶屈聱牙的专有名词。能接触它们的除了工程师,就是科学家。
也许这份印象需要再度刷新一次——人工智能,真的需要不少「人工」。
一
秦娇今年刚满30岁,几个月前刚刚从呼叫中心跳槽到一家「数据加工」公司。虽然跨了行业,她并不觉得两份工作有什么不同,都是按照甲方的要求和己方的工作节奏,把人手安排到一个又一个项目中去。
公司刚成立不到一年,眼下业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别等不同领域。
通常来说,数据标注得越准确、数量越多,模型的效果就越好。自然,产品的效果就会更好。
一旦要求质量,每个人的产出量就不会太多。熟练者平均一天可以标注40张图片,前提是只需要为图片中的物体打框、标注类别和前后关系。如果涉及到刻画建筑物边缘等复杂细节,一天标注 10 张已是极限。
图片为简单标注方式的一种
但需要处理的数据订单往往以「万」为单位。最新的需求是 6 万张图片,7 天内完成。理论上这个订单需要 214 个人共同工作 7 天,秦娇手头只有不到 100 个人,其中一部分还要完成其它项目。几次秦娇都对着电话那头摆出不耐烦的神情,「你跟他说,要我去死好不好」。
与拥有 1,500 万张标注图片的数据集ImageNet相比,只有 6 万张图片的项目显得十分渺校不过大部分人可能很难想象,是来自 167 个国家的 48,940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个有 1,500 万张图片的数据集。其所耗费的时间与人力,远非一般项目可比。
数据庞大又开源,ImageNet很快成为成为研究图像识别的首眩不论Andrew Ng(吴恩达)还是 Jeff Dean,涉足这一领域研究者都使用过 ImageNet。但 ImageNet 有自己的弱点,标注框太大、标注方式少和不时出现的错误,使它难以被用来训练实际应用的算法模型。
人工智能公司们必须想尽办法,积累符合自身应用方向,标注得更细致、更准确的数据。在初创公司招聘工程师的需求中,「有收集标注数据的能力」有时也会被写进其中。某种程度上,高质量的标注数据决定了一家人工智能公司竞争力。
尽管互联网的确催生了浩如烟海的内容,但标注这件需要耐心和专注的「小事」,暂且还要靠人的帮忙。
二
在专业的数据标注公司出现前,众包平台往往是大部分公司的选择。
人们认为灵活性更高的众包方式能适应不稳定的数据需求,价格成本也更低。某知名数据众包平台据称拥有超过 5,000 名数据标注专员,单日可处理超过 200 万条数据,能「稳定提供数据标注服务」。
数据标注是所有数据众包平台的核心业务,除此之外还有数据清洗、数据采集等等
不过从单日单人数据比(400 条数据/人)可以推测出,其标注质量也许并非所说的那么可靠。由于参与众包标注的工作者数量很多,专业背景和工作能力参差不齐,「收集到的标注内容中存在噪声甚至错误,不能直接作为正确的标注使用」早已是不争的事实。如何解决众包平台的质量缺陷,已经成为近年来博硕士论文的议题之一。
通过数据交易平台购买已标注好的数据包也是一种选择。但问题似乎又绕回为什么人工智能公司要自己标注数据:不同的应用方向需要的数据内容不同,甚至标注方式也不同。