幕后英雄:走进Facebook 有史以来最大的人工智能项目

Facebook 并非唯一一家实验人工智能的大型互联网公司。谷歌、亚马逊、 微软和 百度都在相关技术上注入重资。随着我们将更多的日常生活托付给数字王国,这一点将变得越来越明显:那些建造了我们所依赖(日常信息、社交和多媒体等)的网站的那些人已经无法胜任后续工作了,让机器登场 。

自上个月起,大约有750 名Facebook 工程师和 40 个不同产品团队正在使用 FBLearner Flow 平台。公司希望截至到六月底,会有 1000 名工程师使用这个平台。Facebook 最终想要建立一个对非工程师人员来说也非常容易使用的机器学习工具,尽管距离这一目标还很遥远。

机器学习迅速变成最火的人工智能形式,也是人工智能的--随着新计算技术出现,近期,这个有着几十年历史的科幻电影的标配历经了一次重生--组成部件。随着计算机系统越来越大、越来越复杂,很明显的是:它已不足以支撑计算机如何诠释数据的硬编规则(hard-code rules)。依据圣经的劝告去教一个人钓鱼--或者在这种情况下,教计算机如何诠释自己的数据,要更加容易得多。

计算机学家使用各样的工具教计算机学习。如今绝大多数努力集中在「监督学习」上,研究人员以现有的数据集为基础建立一个机器学习算法,用来训练计算机。比如,教计算机识别面部,你最好用不同面部数据库训练它,计算机就能学会如何分辨不同的人脸。机器学习的圣杯是「无监督学习」,计算机只得到数据类,自己建立模型对数据进行分类。换言之,不同于直接给计算机学习的人脸图像,计算机得到图像后要把相似数据聚类,从中推导出问题图片上的图像是否是人脸。

无监督学习就是人类学习的方式,而且 Facebook 已经直言不讳得表明,自己努力教授计算机通识。大部分工作都由Facebook 人工智能研究室(Facebook Artificial Intelligence Research,FAIR)团进行。FAIR成立于 2013 年底,是一个进行基础研究的地方。它与应用机器学习团队相对独立存在,尽管这里进行的一些研究在 FBLearner Flow 上找到了用武之地。

112

Facebook 的 CTO Mike Schroepfer

就像 Candela 解释的那样,你可以把 AML 团队视为 FAIR 的商业化部门。这里的深度科学慢慢渗入到服务于十忆用户的产品中。除了它做不到的时候。Schroepfer 说,在这里,并不是所有的研究都要将深度科学运用到某个产品中,尽管他警告说,FAIR(有 50 位研究人员)和 AML (雇佣了 100 位研究人员)已经自己支付了费用。

比如,在自家翻译模型的支持下,Facebook 现在每天使用机器学习翻译20亿条 News Feed 条目,不再依赖微软必应的翻译服务。Facebook 也使用 AML 团队的平台,在卫星图像上应用计算机视觉模型绘制人口密度地图,最终确定发展中国家的哪些地方需要宽带服务。而且在视频添加说明的尝试已被证明是越来越受欢迎的,因为分享和点赞增加了 15%,浏览时间增加了 40%。

这些是 Facebook AML 团队最新成果中的一部分,但是,他们已经在建立机器学习算法上花了十年时间:2016 年,他们第一次尝试在 News Feed 上使用深度学习。

「News Feed 是我们第一次为用户尝试这项艰难的工作」Schroepfer 说。这是初步的尝试,Schroepfer 表示,但即使这样,Facebook 雇佣再多的编辑人员也不能满足百万用户所需的 News Feeds。

从此,这家公司对机器学习的使用日趋先进。但是,直到去年六月份Facebook 图片分享服务 Moment 发布,公司才真正开始公开讨论对机器学习的深入研究如何正在影响新产品。Moments 使用了 Facebook 图像识别模型,能让用户创造面向选定组群开放的私人相册,比如,只对照片中的人公开。

产品发布时,Facebook 说它的图像识别模型识别人脸准确率高达 98%,即使不是正对相机的面部图像。它还表示,模型能在 5 秒内,从 8 亿图片中识别出某张图片中的人。

人们 对此感到害怕。本来是想以一种半隐私的方式轻松分享图片,结果惹恼了许多用户。这一功能迫使用户面对这样一个不安的事实:Facebook 能从 十亿多的用户中识别出他们,而且速度还快的不正常。Facebook 甚至不能在欧洲发布这一功能,因为触及有关隐私和面部识别技术的相关法规。

对隐私的担心显露出机器学习利他主义的阴暗一面。数据驱动下的功能,让 Facebook 的产品用起来更方便。但是,它们也让公司得以维系用户对平台的持续使用,这也反过来让其卖出更多、更有效的广告。