事实上,确有专家已经感受到来自深度学习的压力,指出统计学习正在被深度学习所打压,真如我们早就看到的符号学习被统计学习所打压。不过我觉得这种打压还远没有强大到像统计学习打压符号学习的程度。这一是因为深度学习的“理论创新”还不明显;二是因为目前的深度学习主要适合于神经网络,在各种机器学习的方法百花盛开的今天,它的应用范围还有限,还不能直接说是连接主义方法的回归;三是因为统计学习仍然在机器学习中被有效的普遍采用,“得到多助”,想抛弃它不容易。
◆ ◆ ◆
四问:只有统计方法适合于在机器学习方面应用吗?
问题四:机器学习研究出现以来,我们看到的主要是从符号方法到统计方法的演变,用到数学主要是概率统计。但是,数学之大,就像大海,难道只有统计方法适合于在机器学习方面应用吗?
当然,我们也看到看了一些其他数学分支在机器学习上的应用的好例子,例如微分几何在流形学习上的应用,微分方程在归纳学习上的应用。但如果和统计方法相比,它们都只能算是配角。还有的数学分支如代数可能应用得更广,但是在机器学习中代数一般是作为基础工具来使用,例如矩阵理论和特征值理论。又如微分方程求解最终往往归结为代数问题求解。它们可以算是幕后英雄:“出头露面的是概率和统计,埋头苦干的是代数和逻辑”。
是否可以想想以数学方法为主角,以统计方法为配角的机器学习理论呢?在这方面,流形学习已经“有点意思”了,而彭实戈院士的倒排随机微分方程理论之预测金融走势,也许是用高深数学推动新的机器学习模式的更好例子。但是从宏观角度看,数学理论的介入程度还远远不够。这里指的主要是深刻的、现代的数学理论,我们期待着有更多数学家参与,开辟机器学习的新模式、新理论、新方向。
◆ ◆ ◆
五问:符号机器学习时代和统计机器学习时代的鸿沟在哪里?
问题五:上一个问题的延续,符号机器学习时代主要以离散方法处理问题,统计学习时代主要以连续方法处理问题。这两种方法之间应该没有一条鸿沟。
流形学习中李群、李代数方法的引入给我们以很好的启示。从微分流形到李群,再从李群到李代数,就是一个沟通连续和离散的过程。然后,现有的方法在数学上并不完美。浏览流形学习的文献可知,许多理论直接把任意数据集看成微分流形,从而就认定测地线的存在并讨论起降维来了。这样的例子也许不是个别的,足可说明数学家介入机器学习研究之必要。
◆ ◆ ◆
六问:大数据给机器学习带来了本质影响吗?
问题六:大数据时代的出现,有没有给机器学习带来本质性的影响?
理论上讲,似乎“大数据”给统计机器学习提供了更多的机遇,因为海量的数据更加需要统计、抽样的方法。业界人士估计,大数据的出现将使人工智能的作用更加突出。有人把大数据处理分成三个阶段:收集、分析和预测。收集和分析的工作相对来说已经做得相当好了,现在关注的焦点是要有科学的预测,机器学习技术在这里不可或缺。这一点大概毋庸置疑。然而,同样是使用统计、抽样方法,同样是收集、分析和预测,大数据时代使用这类方法和以前使用这类方法有什么本质的不同吗?量变到质变是辩证法的一个普遍规律。
那么,从前大数据时代到大数据时代,数理统计方法有没有发生本质的变化?反映到它们在机器学习上的应用有无本质变化?大数据时代正在呼唤什么样的机器学习方法的产生?哪些机器学习方法又是由于大数据研究的驱动而产生的呢?
作者丨陆汝铃,中国科学院数学与系统科学研究院数学研究所研究员、复旦大学教授。在知识工程和基于知识的软件工程方面作了系统的、创造性的工作,是中国该领域研究的开拓者之一。1999年当选为中国科学院院士。