在未来,实现“所见即所得”会是电商的重要方向,图片搜索更将成为人们获取信息的常态。图像识别在手机淘宝的“拍立淘”产品中已经开始应用,通过手机拍照即可搜索相似商品,2015年双11当天,千万消费者使用了“拍立淘”功能,创造了超过数千万元的销售额。
图中文字识别(OCR)一直是计算机视觉领域的难点。阿里巴巴平台很多营销创意、商品都以图片形式存在,同时,也有一些商家在图片中内嵌违规的信息实现恶意推广的目的,图片内文字违规是比例相当大的一类,而传统监控手段多以人工肉眼来审核,费时费力,尤其是随着图片数量越来越大,这几乎已成为不可完成的任务。从2014年开始,阿里妈妈图像团队开始重点攻坚OCR技术,通过机器视觉的方式从图片中识别出文字,从而鉴别出违规的文案信息。
2016年6月,阿里巴巴旗下广告交易平台阿里妈妈图像团队的OCR(图中文字识别)技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩,并大幅超越第二名。借助这一领先的OCR技术,阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息,有效过滤商家恶意推广,维护消费者权益。2015年,阿里妈妈累计屏蔽了4600万条恶意推广。
阿里绿网依托于阿里巴巴全生态体系,拥有海量的特征样本及丰富的数据模型分析经验,也利用OCR技术进行了黄色图片鉴别。根据技术人员的测试,通过人工智能技术鉴别黄色图片,准确率高达99.6%以上。