幕后英雄:走进Facebook 有史以来最大的人工智能项目

中国IDC圈4月15日报道,当你下一次运行 Facebook 时,无论是网页版还是 App,你可以仔细想一下,个人页面刷新、家庭相册浏览等这些操作会需要多少计算量,然后再乘以十亿用户,而且每一天都如此。

这不仅是运营一家「财富500强」(第242位)的社交网络公司,也是在运营异常庞大的支撑各种服务的计算基础架构,包括处理器、存储器以及知道用户各种需求的软件。

Facebook 为全世界五分之一人口提供服务,而且去年年底,全球32亿人口中有超过一半的人成为了互联网用户。此时,这不是一个不理性的问题:地球上有足够多的人来驱动这样一张巨型网络吗?

回答是否定的,至少是负担不起的。这就是 Facebook 求助人工智能的原因。

五年前,Facebook 推出 Open Computer 硬件倡议,他们这么做的原因是为用户提供 News Feed 服务的成本完全就是产品销售成本,即便对于这样一个当时拥有7.4亿用户的网站。因此,打造公司自己的计算基础架构,让博文发布更快,成本更低,成为公司的基础需求。

Facebook 表示,公司已经从对 Open Compute 的投资中节省了超过20亿美元。但在互联网领域,五年就是一个时代,如今每个科技巨头都在设法征服另一个难题。虽然他们可以低成本的提供内容服务,但在数十亿博文中,要搞清楚推送哪类内容依然有很大挑战。因此,就像 Facebook 五年前通过 Open Compute 计划开始重新搭建硬件产业一样,最近,公司也创造了一个管理人工智能的内部平台,如此一来,就能精准推送你想看的内容。而且,公司也希望将这个「机器学习」平台规模化。(「机器学习」是一种人工智能类型,能让计算机在没有预编程的前提下学习如何运行。)

「我们正试着打造超过 15 亿个人工智能代理(AI agents)--为每个使用 Facebook 或公司其他产品的每一个人服务。」新近成立的机器学习应用组负责人 Joaquin Candela 说,「那我们应该怎么做到呢?」

Candela 说,你要从以前的胜利中汲取灵感。Facebook 的基础架构团队也是机器学习应用团队的灵感之源。

「我们倾向将诸如存储、网络设计以及计算视为理所当然的事情,」他说,「当视频小组做直播视频时,人们并没有意识到这件事的量级。这很愚蠢。而基础架构小组就是在那个地方传递魔力--将不可能变为可能。我们需要对人工智能做同样的事情。也需要将人工智能变成你们认为理所当然的工程结构中的一部分,如此完整的一部分。」

去年九月,Facebook 成立了机器学习应用团队(Applied Machine Learning team)。团队负责运行一个覆盖全公司的机器学习内部平台,叫做 FBLearner Flow ,这个平台就相当于人工智能领域的 Open Computer ,不过最大的区别在于:它并不会依托于开源硬件来提供给世界。公司说,如果没有 Facebook 手头数据,这个平台本质上没啥用。

FBLearner Flow 结合了几个机器学习模型并用于处理几十亿数据点,这些数据点来自网站15亿用户的活动,并能对数千件事情进行预测:图片中有哪位用户,哪些可能是垃圾信息。FBLearner Flow 模型创造的算法有助于界定什么样的内容出现在你的动态消息中,以及你会看到什么样的广告。

基于以上内容,我们会很容易得出结论:Facebook 使用人工智能会让公司13,000雇员中的某些人失去工作。「但现实并没有什么变化,」公司 CTO Mike Schroepfer 说。人工智能恰恰是在帮助公司提升工程师的能力。他说,「我们能做之前无法做到的事情。」

111


Applied Machine Learning 主任 Joaquin Qui?onero Candela

在 Schroepfer 看来,Facebook 经常能够发现那些好机会,即便自己还没有能力去征服--至少在人类力量的范围内还无法解决。看一下公司最近发起的一项新功能,为视觉受损人提供图片说明(以让其「看到」图片)。如果公司雇人手动为上传到网络的每张图片内容做标记,成本会非常高,也无法规模化,当然也不可能期待用户自己来做这个事情。但不管对于视觉受损人士,还是对于 Facebook,这些信息都是有用的。现在通过使用 FBLearner Flow 平台上的计算机视觉模型,一台计算机就能自动梳理数十亿张图片并给照片加上标签,并实现了较为理想的准确率。

「它正在让新应用成为可能,特别是规模化解决问题。」Schroepfer 说。Facebook 使用这种基于机器学习的办法来翻译 News Feed 博文;在用户看到之前监测到网站不合适的内容;在打造 M 过程中,公司通过人与机器的结合去打造一个私人助理。