过去有十多个人对这些内容的研究获得了图灵奖,但都是对算法的研究。过去是假设X不重要,主要研究F。现在X发生极具变化,是否会影响F和整个F(X),对软件和算法会不会有新的变化?过去研究的问题,计算机能处理的都是可判定问题,也是可判定当中的易解性问题。但是,现在的情况,大数据下,我举一个小的例子,读取硬盘世界上最快的线性扫描一个TB要1.9天,一个EB要5年多。从这里来看,百度一天处理的网页数据有10PB,就相当于要有小于3天的时间才能把它输入进来,都不用说后面的处理和应用。所以是不可能的。
在这里面就有一个基本问题,在过去能解的问题、易解的问题,在数据规模大的情况下是不可解的:
1. 这样一个新的问题出现了。过去五十年的复杂性理论会遇到新的挑战。第二个问题就是以前的算法不能再近似,原因就是研究F找到F’,X到新的X’又有新的问题出现,也同样出现了数据量、算法效率和结果的考虑。过去研究当中有一种新的情况是研究好算法。
这张图是12年前的,在小数据下算法好坏是有差别的。当数据量增加到1千倍的时候,算法的好坏差距发生了调转。所以简单有效和对问题有应用价值的算法变得更重要,也许我们有很多新的问题出现,因为时间的关系,我只就今天计算的科学问题跟各位交流。
2. 关于可表示的问题。如此多的数据,过去的方法也有很多新的困难出现。