霍金门徒:计算机如何比人更懂世界

12月20日的上海,寒气袭人,在虹桥吴中路1189号的五楼会议室,站在一块投影屏和白板之间的Alan Yuille教授,手托腮,若有所思。在他面前的是慕名而来、经过遴选的来自清华、浙大高校具有计算机相关背景的40多名学生。因为Alan教授在霍金的指导下获得了理论物理博士学位,同时又是计算机视觉领域顶级学者。

在他的学生Leo Zhu(朱珑,依图科技创始人)的邀请下,他不远万里来到中国,开启为期两天的计算机视觉课程。Alan教授有着满头的银丝、深陷的眼眶和苍白的面容,看上去就像个普通的白人老者,但却在知识的深度和广度上异于常人—拥有数学、理论物理、计算机、心理学、精神病学和生物行为学等领域深厚的研究背景。

此后,Alan教授开始将兴趣转向人工智能,主要钻研其分支领域计算机视觉(Computer Vision),先后就职于MIT人工智能实验室、哈佛大学计算机系,现任职于UCLA统计系,也是UCLA视觉识别与机器学习中心主任。三十年来,Alan教授涉足计算机视觉的学术和产业界,成为了首屈一指的专家。

Alan Yuille教授在计算机视觉课堂上

而此次来华,Alan教授一方面是为了向中国学生普及计算机视觉知识和行业现状,另一方面也是为了支持其学生Leo的创业项目“依图”—专注于视觉理解的初创公司,提供基于图像理解的信息获取和人机交互的产品,致力于构建机器视觉的未来。

由木见林看世界

什么是计算机视觉?Alan教授在两天的课程中都讲了什么?在应用层面,计算机视觉技术能用来做什么?

简单来说,计算机视觉是赋予计算机和人一般处理视觉信息的认知能力,即制造有人类视觉能力的机器,让计算机通过学习算法接近人类对图像的理解程度,对明显的视觉信息进行深度分析。而当计算机实现了对图像和视频的初始理解,计算机视觉就能帮助人类突破局限性,改善生活。

不同于计算机,人类一睁眼就能迅速看到和看明白一个场景,因为人的大脑皮层至少有一半以上海量神经元参与了视觉任务的完成。而计算机和人脑则是在极为不同的物理或生物限制下进行运转,即便说计算机视觉理想状态要更接近人类智慧,但在控制环境中,计算机系统能够比人类更好地完成某项明确任务。

计算机视觉的开放性任务一般包括物体检测、人脸识别、人类行为识别和场景理解。这也是依图正在试图通过技术应用解决的任务。而物体识别是计算机视觉研究的核心议题,不过当计算机没有学习,不知道看什么的时候,显然并不能看懂什么,所以需要一套系统教会计算机识别物体。

在传统物体识别系统中,当计算机尝试研究一个特殊类型的数码图像时,会首先检测图片的显著特征,即Alan教授课堂上讲述的边缘检测(Edge Detaction)和图像分割(Image Segmentation)。假设系统需要识别人脸,就会查看眼睛、鼻子和嘴巴等器官的边缘部分,然后确定它们之间的空间位置。

这意味着,处理数以万计物体的计算机系统将会变得不可控制的庞大。每当计算机系统库中加入一个新的物体,计算机就需要从头开始确定物体的重要部分。而物体虽然具有固有组成部分,但不同角度物体看上去又有所不同,所以计算机需要不断检视边缘确定空间位置,从而占用了大量存储。

而Alan教授和Leo Zhu于2010年采用新的方法解决了上述问题。他们研发的新系统通过递归式塔状结构来表示物体的结构—系统不需要事先被告知物体的哪些特征需要寻找,会先判定细微细节,由低层次的结构组合成稍微复杂的形状,再辨别稍复杂形状如何组合成为更高层次部分,组装成一个塔式结构,而最高一层则代表整个物体的模型。

基于研究成果,Leo Zhu意识到计算机视觉逐渐达到了从理论转化到应用层面的阶段,未来几年将进入技术爆发时期。2012年,他萌生了回国创业的想法。

“依图”的机器视觉

Leo Zhu在取得导师Alan教授的支持后,与多年好友林晨曦(前阿里云技术总监,ACM/ICPC全球大学生程序设计竞赛亚洲第一个世界冠军团队成员)合作创办了专注于图像理解的初创公司“依图”,并把驻地设在了上海。

目前,依图推出的主要应用产品聚焦在人脸识别和物体识别上。虽然人类希望计算机视觉接近人类智慧,不过在人脸识别上,计算机处理能力要高于人类大脑。对于这点,新浪科技有幸在依图公司体验了智力被碾压的过程。

为了让小白更好地理解计算机如何进行人脸识别,依图制作了一款游戏,共20道题,每道题都选取一个人在真实环境中的头像照片,让参与者在五个有着相似相貌的人中选出符合的照片。因为正确选项拍摄角度不同,加上混淆选项何其相似,所以选择起来异常费力。

最终实验结果证明,通过人脑判断的正确率平均约为50%,而计算机能够做到90%以上。对于这种虐心游戏,体验者纷纷感叹,对于具有脸盲症的朋友简直是“治疗福音”。不过这只是一个游戏展示,真正的产品是能够真实而快速地判定一个人的身份,可用于安防领域。

在依图这个高科技公司,门禁系统应用了人脸识别技术,快速匹配一个人的身份。新浪科技观察到,员工进门前会拿出登记认证过的手机,选取任意角度自拍一张,如果人脸匹配,门会自动打开。依图还有一个专门的应用展示房间,当每个人靠近门口时,房间内摄像头扫描到人的存在,会实时锁定人脸,然后在系统数据库中检索人脸图像进行匹配,这一过程大概只有3到5秒。

人脸识别的用途范围很广,包括公安系统判定犯罪嫌疑人身份、安检系统确定可疑人员身份等等。目前,依图的这项技术已经被运用在了江苏公安系统中,还将扩展到全国其他地区。最初推广也经历了一些波折,依图合伙人林晨曦表示,人们最初都觉得不新鲜,因为人脸识别技术早就应用了,但是在精度上却并不足够成熟运用。

最初Leo Zhu和依图联合创人林晨曦拥有机器视觉技术但没找到行业痛点,所以在推广中也是逐渐找到了应用场景和方向,早期得到了江苏省公安系统的认可。传统的公安局人脸识别准确度大约能做到40%,而车辆识别也仅限于判定车牌,无法精确到品牌、型号、购买时间和车主。 为了解决这个问题,Leo Zhu 和林晨曦首先开始搜集数据量,于是他们发动员工,一起每天在大街上抓拍车辆照片,建立数据库。

苏州市公安局分管科技的副局长技的副局长陈斌华告诉他们:“如果你们车辆的品牌识别能做到70%、车辆能够判定出型号,我们就考虑使用你们的产品。”对于这个难点,依图的员工不分昼夜花了三个月时间终于攻克,仅是对桑塔纳的识别正确率就超过了90%。

通过这套“蜻蜓眼”系统,苏州公安可以准确进行车牌识别和车型识别, 具备了应用计算机自动发现在路面行驶的假套牌车辆的能力,这在全国公安属于首创。 经过了一年的数据积累和系统改进,原来针对套牌作案车辆需要花至少3到4小时才能完成的甄别工作,现在只需要十多分钟。

就在不久前,苏州公安以此为突破口,迅速摧毁了一个专门盗窃出租车顶灯、计价器的犯罪团伙,极大提高了工作效率。目前,依图能够实现对运行中被捕捉在镜头中的所有车辆进行品牌、型号、购买时间和车牌号真假的鉴定等。随后,福建和成都等公安系统也开展了与依图的合作。

不过比起人脸识别, 简单刚性物体识别的技术门槛要相对低一些,因为物体不会像人脸一样会形成不同角度和不同状态的形状扭曲。而在这个难题上,依图已经做到了在一亿人中进行人脸识别静态比对。

在人脸识别应用上,依图与苏州市局合作开发了静态人像比对系统。今年7月,依图将在逃人员照片库与苏州公安人像库进行批量对比,发现25名在苏州有活动的在逃人员线索信息。目前,青奥会安保系统,珠海航展安保系统也已相继成功应用了依图的人脸识别产品。

依图的发展方向并不是只开发安防产品,而是创建一个在计算机视觉领域具有国际前沿地位的技术研发平台。未来,依图还将从人脸和物体识别延展到人的肢体和服饰识别上。比如帮助用户判定路人甲身上所穿衣服的品牌,而这又要用到增强现实技术,需要软硬件完美结合。

对于计算机视觉下一步能够做什么,在从业者看来都是未知数,因为技术演进速度超出想象,现在设限并不合适。

从学术界到产业界

对于计算机视觉的研究领域,在近五年来都处于快速发展的关键阶段,学术研究在近两年得到了巨大进展,而在应用领域在未来一到两年将进入集中爆发的阶段。

根据美国国家科学基金会白皮书,计算机视觉兴起于二十世纪六七十年代,而在进入2010年以来,计算机视觉主要面临两个问题,一是由于该领域与计算机、工程学、数学、统计学、心理学与神经学科等有着跨学科紧密联系,但受限于领域通是常一种分裂研究的状态;二是通常该领域的研究是以非结构化的方式进行,故学术界与工业界之间联系并不紧密,互动不多。

在地域上,根据白皮书显示,1991年计算机视觉研究由美国主导,在欧洲的活动数量有限,在亚洲就更是少之又少。而在过去二十年里,美国的计算机视觉有稳定的发展,而在欧洲却发生不容小觑的扩张。近年来,在亚洲更是取得了巨大的突破。很大程度上,亚洲和欧洲在这一领域的发展都是由强大的资金支持推动的。即使在美国,大多数研究者都是非本土出生的。

而计算机视觉的发展,主要得益于计算机、传感技术和数学等学科的发展。在计算机视觉专家E·艾德森看来,进步即将发生在于“人们正在学习如何适当使用应用数学与工程解决视觉问题。人们在控制理论、优化问题、信号处理等方面正变得更加擅长。”

而现在,学术界和工业界的联系愈来愈紧密,从理论到现实的差距大为缩小。Alan教授说,特别是这五年来,很多工作越来越实际,美国科技公司比如微软、Facebook、谷歌、亚马逊和百度等,都在人工智能领域做实际工作,“我非常高兴看到这些进展,因为我们最后还是希望能够转化为实用产品。”

这也是为何依图选择在这个时间点切入从事计算机视觉的应用研究。Leo Zhu表示:“其实没有人确切知道现实和理论有多大距离,未来两年技术是比较大的爆发时期,这是我们预见的事情,所以这是我们为什么要做这个事情。”他说道,“以前大家都知道计算机视觉是未来,但不知道什么时候会来,但我们有具体意义上的推导,所以决定2012年开始,以及现在正在做这件事。”

作为Alan教授的学生,Leo Zhu自然具有强硬的学术背景,而他并没有继续做研究,而是回国创业。Leo Zhu希望将计算机视觉作为终身事业,但作为学院派研究者只能通过自己的学生传承知识,而回国创业将理论转化为实际应用,并推动国内相关领域的发展,是他更倾向于走的一条道路。

Alan教授说责无旁贷地支持Leo Zhu的选择:“现在跟十年前不太一样了。十年前有很多学生要做教授,而过去五年来情况已经变了。我最好的这些学生都想创业,而计算机视觉是一个很好的领域,现在也是一个很好的时机。”他解释道,过去的学术成果距离解决实际问题还有一定的距离,但近来学术有重大进展,在实际中也将发挥巨大作用。

Alan教授和霍金

Alan教授感知到学术界和产业界互相推进的必要性,以及在中国的巨大增长潜力,于是他此次专程来沪与中国学生进行交流。而在两天的课程中,教授一直处于连续不间断讲课的状态,他说这也是他第一次长时间授课的经历。

不过,尽管Alan教授连续讲课口干舌燥,课间也要接受同学的提问,但是他仍然耐心有加、有条不紊,和蔼绅士的态度让人肃然起敬。而除了计算机视觉的理论框架之外,他还回忆了自己的学术经历,与学生探讨科学研究的方法,以及讲述了他在研究生涯的心得体会。

在师从霍金时候,Alan教授在研究相对论和量子物理,前者是在宏观范畴中描述结构,而后者则是在微观中研究。而他是霍金的第二个研究该课题希望统一两个理论的学生。“这个是有一点抽象的课题,想要把这两个理论统一到一起,的确是非常难,就算是30年后的今天似乎也没有人做的特别成功。”

在接受新浪科技采访时,Alan教授分享了与导师霍金的一些故事。他说,霍金是一个非常风趣幽默的人,有时会操纵他的轮椅,在房间里转圈圈玩。平时Alan教授作为学生会和霍金有比较近的联系,有时候会帮他做一些事情,包括喂他吃东西之类的。在霍金比较有名了之后,很多科学家都会慕名前来看望他,教授会在旁边听,同时也会经常见到他的家人,一起吃午饭和照看他的孩子。

今年下半年,电影《万物理论》上映,讲述了讲述霍金卢伽雷氏症病情发作前的生活与妻子之间的故事。Alan教授说:“这是基于他的太太写的书,故事看起来都还挺真实的,特别是演霍金的这个演员,长相和声音和霍金一模一样,我会觉得,霍金就是在银屏上面。但是其他的人就不像我认识的人,所以我感到有点奇怪,就像是一群陌生人围着他在干些什么。”说着他笑了起来。

而今年来,霍金对于人工智能发展也敲了不少警钟。他警告称,人类正面临来自智能技术的威胁,随着技术体自身开始学会自我思考,并学会适应环境,人类将面对不确定的未来。霍金表示:“如果进一步向前看,技术几乎是没有极限的。尽管我们可能正面临人类历史上最好或最坏的时代,而我们所有人都应该问问自己,应该做些什么才能最终趋利避害。”

对此,在Alan看来:“记得大概30年前,霍金成为卢卡斯物理教授(Lucasian Professor这是爱因斯坦和牛顿都曾有过的一个头衔)时,他做了一个演讲,解决了理论物理以后,结果是机器可能会淘汰这些物理学家。我想霍金可能30年以来都一直有这个顾虑,并不是现在AI(人工智能)的兴起才有这个顾虑,或许我下周写封信问问他这个问题。”

对于计算机视觉的未来,Alan教授认为,终极目标当然是建立一个智能的系统,能够像人一样看懂这个世界,也可能能力上超越人类,比人类更能看懂这个世界。因为大脑神经元主要用来处理视觉,所以通过视觉能够了解人脑。而未来人类能够通过计算机更加理解人脑,看懂我们存在的世界。