张首晟:大数据、人和机器智能演化

张首晟,斯坦福大学物理系教授,“欧洲物理奖”获得者,美国艺术与科学院2011年新增院士。张首晟于2006年提出拓扑绝缘体理论的材料实现方案,将其基于芯片业未来提出的新构想——通过控制电子的自旋运动来降低能耗——在理论上完成了预言。2007年,这一理论预言在他与德国维尔茨堡大学实验小组通过实验证实。2012年8月张首晟教授荣获国际理论物理学领域最高奖“狄拉克奖”。2013得获国际基础物理学前沿奖。

通常的电子在硅片里面的运动完全是杂乱无章的。“量子自旋霍尔效应”找到了电子自转方向与电流方向之间的规律,利用这个规律可以使电子以新的姿势非常有序地运动,“就像高速公路,分车道里行驶的车辆一样”,张首晟教授说。“这样能量耗散会降到很低。”这一物理发现有可能给未来的信息革命带来重大影响,电脑甚至量子计算都将随之发生巨大改变。张首晟教授也提出:“可能在十年后目前的半导体技术潜力用完之时,会出现基于量子自旋霍尔效应的新一代电脑。”

正如在《复苏》(renewal)一书中,特拉维斯·吉布斯提出的,“遗传,就是要我们记住那些已经奏效的东西。”张首晟也认为,“人之所以能够具备智能,是通过几百万年的进化。今天大脑那么聪明,其实也是经过大数据的训练。计算机没有发展那么长的时间,只能用整个空间的分布来缩短它进化的时间。现在通过大数据和机器学习,我们可以加速的实现这个进化。”

张教授认为,人类的大脑,因为它的储存量到底不是那么大,所以它对信息、数据有个筛选的过程,大脑是做的特别好。“其实我们人忘记事情,是很重要的功能。今天对于大数据,如何对涌进来大量数据进行预处理也是关键。”张教授说。“事实上因特网现在要做的事情,很重要的也是对于知识的排序和管理。”他举例说,谷歌之所以成功,最早期开发的pagerank功能很重要,它就是一个排序的功能。“今天对大数据,对知识,怎么对它进行有效地管理,也是最重要的事情。可能维基百科通过人工在做的一些,可能还需要更深层,比如说知识图谱,谷歌的pagerank只是一维的评价。”张教授说。

为什么要管理和整合这些数据,张教授说:“2012年,我在斯坦福专门开的一门课上,我曾讲了一个挺有趣的故事。我说2012年,正是预言的‘世界末日’,联想到了诺亚方舟的故事。诺亚方舟当时是洪水,现在大数据带来很多好处,同时也像一场大的洪水。你一定要在那么多的数据里面,通过它总结出最高的智能(知识),还要能够有个智能的排序。所以,现在碰到最有趣的问题就是怎么自动的来整合、管理这些数据。”

张首晟认为,机器学习(deep learnnig)具有很大得空间。他提出,最近一些主要的发明,都是在这个算法上的一些发明。正如人的学习具有不同的抽象的层次,机器也是一样的。比如机器下棋为什么难?按理说如果有一个计算机,我就可以将所有步骤的可能性全算出来,但是这些计算其实是指数增长的。随着棋盘的大小,复杂性也是指数的增长。即便今天,我们计算机的能力这样增长,遇到指数增长的问题,我们还是要找到一些非常巧妙,比较近似的,但是基本上对这个问题解决的比较好的方法。

就像“谷歌翻译”就的确是一个非常重大的发明,张教授说:“本来学自然语言,都是要有很多专家对语言的理解。现在一个数学模型做完了之后,谷歌通过扫描,把几乎所有的图书数据存储过来,机器通过程序慢慢自己分析这个语法。计算机看了之后,有了这个感觉之后有这个语法,有这个语法的概念在后面。”(这也是大数据全量数据和相关性的体现。)

“本来机器翻译就是有两派不同的思潮,有一派的思潮就是说我要把语法、知识怎么灌输到机器里面去;现在就是谷歌说忘掉语法,通过写一个好的学习程序,让机器看那么多的东西,让它自动总结出这个语法的概念。”张教授认为:这个时代之所以那么激动人心,就是我们两件事情在同时做。一个在理解人的脑子,还有一个是想通过大数据,拓展人类的智能。机器和人互相反馈,也许能催生新的科学大发现。

最简单的,他距离说就像自己做研究的时候,最想要的就是计算机能够根据自己以前看的论文,根据看文章的习惯,自己写的论文,以及做的笔记,可以到全网络上去找,计算机知道他理解问题的风格,知道他对什么东西感兴趣,如果能够经常给他一些好的文章或论著,反馈给他,他我就可能做出更多的成果。事实上通过这样的例子,张首晟觉得人的智能和机器的智能是可以互动的。

甚至人和机器的智能还能互相提升,张首晟同样以谷歌的例子,阐释和人和机器怎样能够在智能提升上达到一个双赢。他说谷歌图书拥有很多的书。但是在扫描这么多书的时候,就会有一些错误,机器怎么也辨识不出来,这是一个问题;另外还有一个看似截然不同的问题,就是很多人会通过计算机去攻击一些网站。因而说我们去邮箱,或者银行账号登录的时候,就可能会让你填几个验证码,这些验证码最好要是计算机认不出来的东西,只有人才能认出来。卡梅隆大学就想出一个办法,把这两个东西放在一起:就是在谷歌图书扫描的时候,发现有一些认不准的,它就放到诸如银行页面登录验证的地方让人来认,本来这个问题一个是矛,一个是盾,现在两个东西放在一起就解决了这个问题。同时给出两个,一个是计算机本来已经知道的,故意模糊化一下,;还有一个谷歌在扫描书的时候也认不准的,最终对比大家提交的答案,大部分人相同的可能就是正确的。这个其实是一个很好的例子。两个难题通过这种大数据方式得到了一种相对简单的,比较好的解决方案。