当你们狂热追捧人工智能时，想过背后的高职生吗_人工智能_计算头条_中国计算网——工业互联网一站式服务平台—

在大部分人看来，人工智能是个有些「科幻」的词汇，代表小说电影中和人类长相相似、或温柔或冷酷的机器人。

稍微熟悉一点，这份印象又变成冷冰冰的GPU阵列、复杂多层的神经网络和一大串佶屈聱牙的专有名词。能接触它们的除了工程师，就是科学家。

也许这份印象需要再度刷新一次——人工智能，真的需要不少「人工」。

一

秦娇今年刚满30岁，几个月前刚刚从呼叫中心跳槽到一家「数据加工」公司。虽然跨了行业，她并不觉得两份工作有什么不同，都是按照甲方的要求和己方的工作节奏，把人手安排到一个又一个项目中去。

公司刚成立不到一年，眼下业务大多是标注数据，即根据项目方要求，人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型，然后应用到图像识别、语音识别等不同领域。

通常来说，数据标注得越准确、数量越多，模型的效果就越好。自然，产品的效果就会更好。

一旦要求质量，每个人的产出量就不会太多。熟练者平均一天可以标注40张图片，前提是只需要为图片中的物体打框、标注类别和前后关系。如果涉及到刻画建筑物边缘等复杂细节，一天标注 10 张已是极限。

图片为简单标注方式的一种

但需要处理的数据订单往往以「万」为单位。最新的需求是 6 万张图片，7 天内完成。理论上这个订单需要 214 个人共同工作 7 天，秦娇手头只有不到 100 个人，其中一部分还要完成其它项目。几次秦娇都对着电话那头摆出不耐烦的神情，「你跟他说，要我去死好不好」。

与拥有 1,500 万张标注图片的数据集ImageNet相比，只有 6 万张图片的项目显得十分渺校不过大部分人可能很难想象，是来自 167 个国家的 48,940 名工作者，花费了 2 年时间，清理、分类、标记了近十亿张通过互联网搜集到的图片，才得到这个有 1,500 万张图片的数据集。其所耗费的时间与人力，远非一般项目可比。

数据庞大又开源，ImageNet很快成为成为研究图像识别的首眩不论Andrew Ng（吴恩达）还是 Jeff Dean，涉足这一领域研究者都使用过 ImageNet。但 ImageNet 有自己的弱点，标注框太大、标注方式少和不时出现的错误，使它难以被用来训练实际应用的算法模型。

人工智能公司们必须想尽办法，积累符合自身应用方向，标注得更细致、更准确的数据。在初创公司招聘工程师的需求中，「有收集标注数据的能力」有时也会被写进其中。某种程度上，高质量的标注数据决定了一家人工智能公司竞争力。

尽管互联网的确催生了浩如烟海的内容，但标注这件需要耐心和专注的「小事」，暂且还要靠人的帮忙。

二

在专业的数据标注公司出现前，众包平台往往是大部分公司的选择。

人们认为灵活性更高的众包方式能适应不稳定的数据需求，价格成本也更低。某知名数据众包平台据称拥有超过 5,000 名数据标注专员，单日可处理超过 200 万条数据，能「稳定提供数据标注服务」。

数据标注是所有数据众包平台的核心业务，除此之外还有数据清洗、数据采集等等

不过从单日单人数据比（400 条数据／人）可以推测出，其标注质量也许并非所说的那么可靠。由于参与众包标注的工作者数量很多，专业背景和工作能力参差不齐，「收集到的标注内容中存在噪声甚至错误，不能直接作为正确的标注使用」早已是不争的事实。如何解决众包平台的质量缺陷，已经成为近年来博硕士论文的议题之一。

通过数据交易平台购买已标注好的数据包也是一种选择。但问题似乎又绕回为什么人工智能公司要自己标注数据：不同的应用方向需要的数据内容不同，甚至标注方式也不同。

1/4 1 2 3 4 下一页尾页