深度学习“深度”有什么意义?

3

特征=数据拓扑?似乎研究训练数据本身复杂性的不多,都强调模型对数据的解释能力。实际上,不论任何数据,任何奇怪的类型,拓扑都是比人设模型更泛的工具。不少人直观认为拓扑学的概括性过强,用作特征没法表示数据的内禀结构。其实不然,目前比较火的,如代数拓扑里面有个Persistent homology,其对数据主要特征如此敏感,甚至可以用来当作蛋白质结构的拓扑指纹,有数学家通过这些指纹,甚至发现一些蛋白数据库的结构错误。(参考文献4,5) 是特征提升“深度”,还是“深度”提升特征

深度=玻璃相转变?何为玻璃相?它对泛化误差的影响是啥?

,作为区分两种状态的词,有个非常现实和直观的影响便是,外部条件不变的话,从一种相跨到另一种相是有很大难度的!比如水在低温会结冰,同样条件,让水不结冰的概率,虽然按照玻尔兹曼分布来看并非为零,过冷水便是一例。但这种状态是非常不稳定的,一旦扰动很快就变成冰,不可能回到液体。 相变过程=搜索能量最小点,这是一个粗浅的理解,在给定条件下(比如温度T),相变就是从能量高的状态(低温水)找到能量低的状态(冰)。但是该过程不是直线式的下陂过程,期间要翻过一些很小的山头,描述这些小山头的阻碍我们用一个正的能量垒ΔE

来表示。其阻碍时间按照阿伦尼乌斯的观点,正比于N*E^(ΔE/T),指数型的拖延。前面的参数N用来形容山头的多寡。 玻璃相。假设这些小山头不是一个,而是体系自由度的指数,虽然每个山头的高度不高,累计的阻碍仍然非常可观,甚至严重影响你寻找最小能量态的可能性,进入这种像踩到沥青的区域,我们用玻璃相来形容。如下图,比如蛋白质折叠的能量漏斗模型(能量landscape),从计算机模拟上来看,穿过玻璃转变区(glass transition)进入能量最小值是最消耗时间的一个区域。这个过程硬件提速固然重要,但是并行加速是线性的提高,只解决空间复杂,不解决时间复杂!玻璃区域是包含有时间复杂的,一旦规模巨大后,没有算法技巧,寻找能量最低点,在这种非凸的模型上,基本无望。

4

玻璃世界的山头类型,这里的山头不仅包括语义上的山,也包括低谷。数学上严格描述应该理解为梯度为零的点,梯度为零的点有两种,鞍点和极值点。梯度下降法中,鞍点总是可以找到出路的,到了极小点就无望了。物理上,鞍点数目可能会随着能量不断下降而慢慢转换成极小点,如下图便是Lennard-Jones液固转变的模拟计算(文献7),y轴描述鞍点数目,系统还没到达最小能量(变成固体)就被包围在一堆极小值附近了,这时候采用梯度下降搜索万亿年都是徒劳的。然而这也告诉我们一个希望,没必要担心局部极小,因为一旦到了真正的局部极小,也非常接近最小值了,毕竟大部分区域都是被鞍点割据着。

5

智能是非凸的过程!这是一个非常老的观点,按照早期的计算能力来看,可想而知地不受欢迎。任何训练都是在最小化某个损失函数L(W)

或叫能量函数也可。Y LeCun(文献6)等人近来研究的观点显示,多层卷积神经网络的损失函数虽然是非凸的,但是阻碍其通向最优点的山头属鞍点居多,是鞍点意味着总是可以找到出路。但是小index的鞍点阻碍能力甚高,而且随机矩阵理论和模拟显示,神经网络在一定能量以上的某个区域全都是这类鞍点,非常类似物理上的Lennard-Jones液固转变过程,这也能理解为何训练一个神经网络会慢慢开始黏在一个区域不动,这个区域的鞍点山头阻碍都十分可怕(参考8)。(下图y轴描述鞍点数,横轴就是损失函数,第4张图说明能量高到一定程度,鞍点都会消失)

6

深度=跨越玻璃相?这里要给个问号,毕竟目前理论都不是在真实工业界的模型下计算出来的,像是一个猜测