。想法是
,既然训练存在玻璃阻碍,为何不一开始就把系统初始化到鞍点尽量少的区域
,可惜在高维空间判断鞍点少的区域是个十分复杂的问题。但是我们可以降低维度去判断,比如引入少量外部控制变量—
序参数(权重的平方和,类似SVM中的间隔,输入层的偏置,无标签/有标签数据数目等),然后约束这些
序参数,按照某种权重平均掉这些鞍点Wi的贡献(重要性抽样说明这约等于将所有W积掉)。由于鞍点多的地方贡献相对大,
序参数调整不好会导致平均结果同其它区域有明显不同,因此可以用来判断相区。如下图,log(ε)表示泛化能力的对数,越小泛化能力越强。β表示无标签样本的数目,α表示有标签样本数。不同颜色的线是不同偏置,蓝色线的偏置最小。不论那条颜色的线,增大无标签的样本原则上可以降低误差,但是理论上存在“相区”,如蓝色线的上半支和下半支,中间不稳定,难以逗留长时间,会存在一支相的误差一直无法下降。它卡住了!
预训练能加深!有了控制变量,我们可以通过调整这些值,将损失函数拖到感兴趣的区域,从而回避相的影响,这个拖动过程由一个日本人今年的研究表明(文献9),就是无标签的预训练!如下图,预训练越多,有标签的调优能越早找到最小值区域!(log(ε)表示泛化能力的对数,越小泛化能力越强。β表示无标签样本的数目,α表示有标签样本数,预训练是RBM之流,激活函数是ReLu)
不止有预训练?虽然相的观点仍然说明这只是一个初始化“黑魔法”而已。但这个步骤确确实实在削弱玻璃相区的阻碍。因此本人也有个臆测,加大规模,加大样本,提取深层特征的深度学习是跨越相一个表面技巧而已!或许我们能找到一种跨越或者回避相区的通用方法,一旦达到此目的,由此获得的特征或者才是真正的内禀表示。
3/3 首页 上一页 1 2 3