腾讯科技 徐安娜 1月17日报道
今日,极客公园创新大会在北京开幕。今日头条创始人张一鸣作了主旨演讲。他分享了今日头条在机器学习上的实践。他认为,过去是依靠人总结知识,现在可以通过系统、学习用户的行为特征来存储智慧。
张一鸣表示,这种系统本身具有自我成长的三大特征,感知、理解与判断。首先系统感知到用户的搜索行为,获取其数据,然后解读数据背后用户的意图,感知、理解了这个知识之后可以对用户新的行为产生判断。比如今日头条可以判断这条最新资讯这位用户是否会喜欢。
今日头条从最早的版本是用人的知识编成一些策略进行个性化的推荐,之后进行了改进,用了海量的高级特征和精细化的特征,来实现精准推荐。张一鸣说,未来还会有更丰富的特征,不仅是用一种模型,可能更多的是模型的组合来进行行为的理解判断。
张一鸣表示,机器智商未必高于见多识广的人,主要是人的记忆力有限,处理的数据量有限,而机器不知疲倦,每时每刻都可以输入海量数据。机器可以连接众多的设备,观察众多的设备产生的行为,通过感知理解判断形成机器的智慧之后,可以大规模抹平信息的鸿沟,减轻人的负担。
机器还知道什么?比如今日头条的系统在过去一年中它从这么多用户行为中还了解了什么呢?它知道哪些人所不知道的知识点呢?比如过去一年中哪个事件被人最快遗忘了?哪个城市的人最喜欢某个明星?
这些问题机器是否都能知晓,张一鸣会在下周二他们举办的题为“算数”的年度发布会上揭晓答案。
以下是腾讯科技整理的张一鸣的演讲实录:
很高兴与大家分享我们今日头条在机器学习上的实践。创业之初,我们要招机器学习的工程师,很多猎头问,“你们不是做媒体的吗?为什么要招机器学习的工程师?你们不是做一个APP吗?为什么需要这么多人?”我当时想告诉他们,机器学习能给资讯阅读和信息获取带来很大的价值,今天我就跟大家分享这块内容。
首先我们回顾一下前面几位演讲者讲到的机器学习的使用场景和技术背景。11年底,12年初时,我强烈地感受到移动互联网的出现会使物理世界在网络世界有更多的数字投影。比如微博的出现,让很多公共机构和名人有了网络ID,很多照片、文字、用户生成的内容在网络世界有了投影,换句话说,人类的活动痕迹越来越多地出现在网络上。
同时,云端开始能处理海量的数据。特别是2012年之后,越来越多的云存储、云技术技术应用诞生了。在移动端出现了强烈的业务需求,因为技术条件还不够,必须有强烈的业务需求才可以带来技术在产品上的应用。
手机上的传感器越来越多,智能硬件其实是手机的外设,而手机是人的外设,可能不只是手机,也包括志飞说的手表,越来越多的传感器、智能硬件成为外设之后,手机本身又具备本地运算处理能力、联网能力,所以它成为物理世界的信息投影到网络世界的一个通道。当然也有其他设备,如GoPro相机,谷歌(微博)眼镜等,能实时分析路面交通情况并投影至数字世界。
过去是依靠人总结知识,不同历史阶段都会有艺术、文学等经典着作,是将各领域知识汇聚到一起产生的。现在我发现通过书籍汇聚知识不是最有效的方式,通过系统,学习用户的行为来存储智慧才是最有效的。
比如我们希望查询过去几年的春运变化情况,可以在百度指数上查到,百度指数囊括了历年春运的交通情况。通过系统,通过用户行为生成的知识可能会是未来知识存储的一种主要方式。
这种系统是自我成长的,具备三大特性: