人脸识别的难题真的解决了吗?

  人脸识别是公认的模式识别难题,在过去几十年间,世界顶尖科研机构和科研人员一直在为计算机全自动人脸识别而努力。最近几年,随着理论发展和硬件计算能力的指数增长,人脸识别迎来了一次研究热潮。微软亚洲研究院、Facebook、Face++、香港中文大学,在LFW(业内用于评估非受限环境下人脸识别技术的权威数据库)上都得到了接近乃至超过人类识别水平的结果,在公众一片惊呼声中,人脸识别的谜题,是不是被彻底解决了?

  优图团队是来自腾讯的专业图像团队,也在直面这个问题并形成了自己的独特思考:人脸识别技术当前远没有达到放诸四海皆准的水准,特定场景的实际应用远比通用性指标评测更为重要。

  优图项目组建于2012年下半年,致力于为腾讯业务提供图像领域最专业的技术。至今已有五十项以上公司业务接入优图服务,日处理图片数过2亿。优图团队累积获公司微创新奖数十次,并在2013年凭借优图服务获得了公司重大技术突破奖。在人脸识别技术领域,优图在两年不到的时间,逐步解决了人脸检测、人脸配准、人脸特征表示等关键问题,目前已经深入到人脸识别的核心:赋予计算机与人类相当的自动验证人脸身份的能力。针对人脸识别技术,优图团队有着自己的独特理解。

  实际场景应用更重要。优图认为,近期在LFW上获得超过人类的结果并不足以说明技术的真正实用化。虽然LFW提供了绝佳的人脸算法学术评估平台,但其规模、场景、人群分布仍然无法代表真实的应用环境。Face++在其CVPR 2014年的论文中特别指出,在LFW的成功并不代表问题的终结,在规模更为庞大的互联网环境中,控制错误率0.1%时,命中率仅为44%。学术界大量研究表明:在一个特殊集合上训练得到的模型,无法很好的应用到别的集合上。人脸识别技术的完全实用化还有很多挑战,比如:如何适应各种人脸姿态、各种表情、年龄变化、人种、性别、变化的光线、分辨率的差别、图像退化;根据目前的科研积累,要全部解决这些问题并实现通用人脸技术的难度极高。优图团队在半年不到的时间内,基于统计学习框架迅速积累起人脸认证技术,在LFW上也已经达到96%的准确率。然而优图的目标,不仅仅限于在LFW上获得高分,而是致力于应用人脸识别技术去真正解决社交网络和互联网应用中的实际问题。比如随着互联网的飞速发展,基于移动设备的人脸身份认证变得越来越重要。在面向移动端人脸认证的1000人的优图内部人脸身份验证测试集合中,优图着力于解决自拍照片与标准照片之间的对比认证,当控制错误率小于0.1%时, 优图可以达到57%的命中率(与之对比的是,某权威人脸技术开放平台仅达到48%的命中率)在通用性和专用性上,优图选择了后者。

  深度学习并不是唯一的选择。人脸识别是一项高度复杂的技术,其中最关键问题的是人脸特征表示和相似度计算。特征表示分为人工特征设计和自动特征学习,人工特征包括Gabor小波、LBP等,深度学习则属于自动特征学习的一种框架。这几年,深度学习被广泛的应用于模式识别的诸多应用场景。然而优图团队在人脸识别研究的过程中也发现,当前最成功的人脸识别框架中,深度学习和非深度学习都可以取得很好的结果。比如 Facebook、Face++是基于深度学习的人脸识别框架,而微软和CUHK是基于非深度学习的框架。优图尝试了各种深度和非深度的特征表示,但最终还是在相似度计算方面取得了更大的突破。相似度计算是给出两个人脸之间的相似度数值,具体包括欧氏距离、非欧氏距离到广义的度量学习,这也是人脸识别中关键的一环。优图基于微软研究院提出的高维LBP特征的变体,同时结合最新度量学习成果,从统计推理的角度出发,利用海量训练集合中的对等约束来快速训练马氏矩阵,最后通过似然比来计算两张人脸的相似度距离,获得了很好的人脸识别结果。在仅使用LFW训练图像时,在LFW上达到93.7%的准确率,同等条件比公开的最好结果93.18%还要高;而在采用数十万外部训练数据以后,可以在LFW上迅速达到96%以上的准确率。

  拥有海量数据和海量计算能力才有更多的机会。互联网时代,数据为王。优图人脸技术的进步也是依托互联网平台海量数据的结果。人脸识别的一个挑战来自于千变万化的实际环境,光照、场景、姿态、表情、人群等等都是多种多样。为此,人脸技术对于训练数据的需求量很大。优图通过对互联网公开照片的数据收集和筛选,至今已经积累了百万人脸训练数据用于学术研究。另一方面,优图团队为QQ空间圈人功能部署了人脸检测处理平台,通过上千台服务器,日处理图片能力达到5亿,累计已处理数百亿人脸。于此同时,优图团队也会根据实际应用场景来调整训练数据和人脸技术并快速部署,根据实际应用反馈来迭代更新算法。