摸索了近一年,李政拓展了包括采集数据在内的不少业务。所谓采集数据,是指自主拍摄符合项目方要求的人像图片,如一个人正面、45 度、60 度以及佩戴各类装饰物的照片。这些图片可以用来训练计算机对于同一张人脸在不同状态下识别的准确性和关联性,是目前大部分专注人脸的计算机视觉公司都有的需求。
有时,表情也在规定在数据采集的要求中
在自己搭建的摄影棚中,「数据加工」公司已经完成了好几份订单。主角当然还是学生们,她们排队依次进入影棚,按照要求摆好姿势拍下几张照片后,再分别戴上口罩、墨镜、帽子继续拍摄。一套照片往往包含 10 几张,一天能拍摄 100 多套。比起安防公司自己搜集或拍摄照片,这套标准流程和足够的样本数(学校至少有上千个学生)的确有不小竞争力。
除此之外,她们还可以承接小语种的语料收集工作。地处西南、临近东南亚,当地的人际关系链和频繁的商务交往能提供不少便利。
「只做来料加工肯定不行,」李政非常坚定,「我们最近正在培训一些技术人员,懂技术才能和项目方更好的沟通需求,把需求更好的描述出来,我们才能更好的满足。」
四
「标注真的是个辛苦活。」提起「数据标注」四个字,华院数据的首席科学家尹相志不禁咧了咧嘴。
几个月前,华院数据刚刚举办过一次大数据应用比赛,包含识别复杂图像中的动物、通过行车纪录仪的图像还原驾车操作场景等多个环节。在「通过卖场货架图片自动计算产品的货架占有率」这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据。
比赛的目的,是通过不到两千张的「小数据样本」,实现往往需要大量样本才能实现的图像识别。为了让比赛的难度不那么「变态」,她们还为选手们提供了「精细化标注」后的货架图片——所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。
图中左侧为从真实货架照片中挖取出的同类商品碎片;右侧为对货架上不同商品的标注,每种灰度对应一种商品
「深度学习最大的问题还是样本数,这里考的其实是怎样通过小样本进行学习。」通过这项挑战的诀窍之一,是将原本 1000 多张图片根据提供的边缘裁切保留纯粹的产品图像,透过数据增强技术放大到数十万张,再根据这些增强后的图片建模就可以减少误差。精细化标注不仅能帮助解决样本稀少的问题,对于过往需要几十万图片才能训练模型的模式也带来了启发。
不过精细化标注并不是什么容易事,这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的组员「几近崩溃」。如果有人能承担复杂标注这项令人「崩溃」的工作,并善于满足复杂的标注要求,人工数据标注能成为一项长远发展的产业吗?
「近期需求还是很大,」尹相志想了想,「但这个行业可能只有 5 年时间,大家都在想各种办法,比如开源,比如小样本学习本身。」
除了小样本学习,人们也在思考是否能合成数据。图像识别领域的研究者们正在尝试通过图形学方法,制造出逼真的、和真正训练图像非常相似的图片。理论上这种方法能够产生大量直接带有标注的数据,但能不能「真实」,还需要图形学上的进步。
ImageNet 的缔造者李飞飞同样意识到精细化标注的力量,正在进行一份名为「Visual Genome」的工作。Visual Genome 有更多、更窄的框,更详细的名词标注,以及位置关系和动作关系。
目前 Visual Genome 中有 10.8 万张图片。
对于数据标注这件不大不小的麻烦事,每个从业者都有自己的看法。有人讳莫如深,将话题转换成互联网是最庞大的数据集;但事实上所有人都知道采集到的数据无法直接使用。有人坦诚不少数据需要学生兼职或靠自己的员工标注,对质量的不满促使有些公司干脆成立了数据标注部门;还有人透露,如果用对了关键词,在淘宝也能找到不少外包商。