今日头条张一鸣:机器学习能带来更有趣的世界吗?

 

  通过推荐引擎的技术,我们在过去两年超越了几个互联网的巨头,达到每天有2000万的用户使用今日头条,并且每天每个用户使用6到7次,每次6-7分钟,所有用户加起来有7亿分钟的时长。如果一个人看的话,相当于从唐朝阅读到清朝的跨度。

 

  这么多用户每天使用会产生多少数据呢?我们每天现在的日志函数在100亿的规模,每天产生的特征组合会在750亿,这些数据经过组合之后最后真正被使用的特征也有300多亿。

 

  这幅图是我们内部的一个指标用来衡量学习的效果,可以看到在过去一年中我们大概通过增加这个特征,增加特征的组合,优化模型可以提高80%、90%。如果简化来说,我们可以认为机器的智商水平有了80%、90%的提高。

 

  所以我理解类似今日头条这种推荐引擎的系统,它不仅是个人助理的角色,我们很多时候想学习的时候都会想到人工智能,想到人工智能会想到机器人,想到机器人会想到替代一个人,他不是替代一个人。

 

  你从获取数据的角度来说,他更像整个世界共享一个大脑,视角并不是观察你个人,今日头条的后台系统每天观察2000万用户使用行为,每天观察100亿条日志,最新资讯在不同人群中受欢迎的程度。其实在做这个产品过程中,我感觉系统有时候有一个上帝的视角,可以观察用户。

 

  机器学习短期内是看不到有机会跟人类智商相比较的系统,有机会在各个垂直领域出现可能比平均的人类能力更好的一种判断,比方说在阅读,在导航,在天气预报不用说了,人无法对天气的各种特征做反映。

 

  我觉得跟生活相关的各个领域比如说导航,机器对交通信号,对历史的人流情况做出判断,比人做出判断更靠谱,这个已经实现,阅读也是。比如今日头条比你的助理更能理解你喜欢什么,这也是很可能达到的。

 

  因为机器智商未必高,抵不过年长和见多识广的人。人的记忆力有限,处理的数据量有限,机器不仅能够观察一个人的数据,它可以观察几千万、三亿用户的数据。

 

  什么叫不知疲倦呢?机器不需要休息,每时每刻都可以输入数据。在夜深人静时,机器可以进行不断地迭代。通过机器连接众多的设备,观察众多的设备产生的行为,通过感知理解判断形成机器的智慧之后,可以大规模抹平信息的鸿沟,减轻人的负担。拿阅读来说,以前信息整理搜集能力强的人他有更好的信息获取能力,他在信息社会就有更多的优势。

 

  比方说对交通敏感的人,交通经验多的人可以判断出更好的路线,现在有了机器学习的系统之后,机器能够指引人,能够更有效地获取信息,更有效地交通出行,所以减轻人脑的负荷。

 

  机器还知道什么呢?比方说今日头条的系统在过去一年中它从这么多用户行为中还了解了什么呢?他知道哪些人所不知道的知识点呢?比方说过去一年中哪个事件被人最快遗忘了?哪个城市的人最喜欢某个明星?这些都能知道。想知道这些答案的话,我这边做一个广告。20号下午我们会发布一个题为“算数”的年度发布会,我们会把机器学到的东西,以算数的主题发布出来,欢迎大家届时参与,谢谢!