人脸检测发展:从VJ到深度学习(上)

  雷锋网按:本文作者邬书哲, 中科院计算所智能信息处理重点实验室VIPL课题组博士生,研究方向:目标检测,尤其关注基于深度学习的目标检测方法。

  本文分上下两篇,上篇主要介绍人脸检测的基本流程,以及传统的VJ人脸检测器及其改进,下篇介绍基于深度网络的检测器,以及对目前人脸检测技术发展的思考与讨论。为了让本文更适合非计算机视觉和机器学习背景的读者,文中对所涉及到的专业术语尽量以通俗的语言和用举例的方式来进行解释,同时力求严谨,以体现实事求是和一丝不苟的科学研究精神。

  这是一个看脸的世界!自拍,我们要艺术美颜;出门,我么要靓丽美妆。上班,我们要刷脸签到;回家,我们要看脸相亲。 当手机把你的脸变得美若天仙,当考勤机认出你的脸对你表示欢迎,你知道是什么魔力让冷冰冰的机器也变得温情脉脉,让呆呆的设备也变得善解人意吗?今天就让我们走近它们的内心,了解这些故事背后的一项关键技术: 人脸检测 。

  看人先看脸,走在大街上,我们可以毫不费劲地看到所有人的脸:棱角分明的国字脸,娇小可人的瓜子脸,擦肩而过路人甲的脸,迎面走来明星乙的脸,戴着口罩被遮住的脸,斜向上45度仰角自拍的脸。可是,对于我们的计算机和各种终端设备而言,从眼前的画面中把人脸给找出来,并不是一件容易的事情,原因就在于,一千个读者就有一千个哈姆雷特,在你的眼里,人脸是这样的:

  而在机器的眼里,人脸是这样的:

  你没看错,图像存储在机器中不过就是一个由0和1组成的二进制串!更确切地说,机器看到的是图像上每一个点的颜色值,因此对于机器来说,一张图像就是一个由数排成的阵列。试想一下,如果我把每个点的颜色值都念给你听,你能告诉我对应的这张图像上有没有人脸和人脸在哪里吗?很显然,这并不是一个容易解决的问题。

  如果手机没法在自拍照中找到我们脸,那它就像一个失明的化妆师,没法展现出我们最好的一面;如果考勤机没法通过摄像头看到我们的脸,那我们的笑就只是自作多情,它也根本不可能识别出我们到底是谁。人脸检测架起了机器和我们之间沟通的桥梁,使得它能够知道我们的身份(人脸识别),读懂我们的表情(表情识别),和我们一起欢笑(人脸动画),与我们一起互动(人机交互)。

  人脸检测的开始和基本流程

  具体来说,人脸检测的任务就是判断给定的图像上是否存在人脸,如果人脸存在,就给出全部人脸所处的位置及其大小。由于人脸检测在实际应用中的重要意义,早在上世纪70年代就已经有人开始研究,然而受当时落后的技术条件和有限的需求所影响,直到上世纪90年代,人脸检测技术才开始加快向前发展的脚步,在新世纪到来前的最后十年间,涌现出了大量关于人脸检测的研究工作,这时期设计的很多人脸检测器已经有了现代人脸检测技术的影子,例如可变形模板的设计(将人脸按照五官和轮廓划分成多个相互连接的局部块)、神经网络的引入(作为判断输入是否为人脸的分类模型)等。这些早期的工作主要关注于检测正面的人脸,基于简单的底层特征如物体边缘、图像灰度值等来对图像进行分析,结合关于人脸的先验知识来设计模型和算法(如五官、肤色),并开始引入一些当时已有的的模式识别方法。

  虽然早期关于人脸检测的研究工作离实际应用的要求还有很远,但其中进行检测的流程已经和现代的人脸检测方法没有本质区别。给定一张输入图像,要完成人脸检测这个任务,我们通常分成三步来进行:

  1.选择图像上的某个(矩形)区域作为一个观察窗口;

  2.在选定的窗口中提取一些特征对其包含的图像区域进行描述;

  3.根据特征描述来判断这个窗口是不是正好框住了一张人脸。

  检测人脸的过程就是不断地执行上面三步,直到遍历所有需要观察的窗口。如果所有的窗口都被判断为不包含人脸,那么就认为所给的图像上不存在人脸,否则就根据判断为包含人脸的窗口来给出人脸所在的位置及其大小。