谁领先人类识别技术--以深度,卷积和递归为基础?

  在本文中我们首先提出了 在三种代表性数据集上 最流行的深度学习方法的表现。

  这些包括几个典型的应用情境,如控制手势、重复动作和帕金森疾病中的医学运用。对三种模型的比较如下。为了探索每种方法的适用性我们选取了一系列合理范围的超参数,同时随机模型配置。

  为了探讨每一种方法的适用性,我们为每一个超参数和随机样本模型配置都选择了合理的范围。并且,通过上千次的实验对它的性能做出报告,同时分析超参数对每种方法的影响。

  3.1深度前馈网络(DNN)

  我们使用了深度前馈网络,它相当于五个有着softmax-group的隐层的神经网络。DNN代表网络输入数据的一个非线性转换序列。我们遵循规则,并提出了一个有着N个隐层的网络作为N层网络。每个隐层都包含有,相同的数量的单元,对应的线性转换,和一个激活函数(ReLU)。我们使用了两个不同规范技术:(i)Dropout:在训练期间,每一个隐层的每个单元都通过一个概率Pdrop设置成0,而在推断时,每一个单元的输出都通过1/pdrop进行缩放(所有实验的dropout率都是固定值0.5)。(ii)Max-in准则:每个批梯度下降之后,网络中每个单元的输入量都被放缩到一个最大欧式长度din。对于限制方法中超参数的数量,我们选择不去进行任何生成的预训练,并且只依靠监督学习的方法。输入到网络中的输入数据相当于每个移动数据的帧。每个帧都由Rd中不同数量的s样本组成,也就是简单地连接到一个单一的向量FtRs*d。图1(d)中对模型进行了说明。

  DNN是用批梯度下降的方法进行训练的,其中每一个批梯度下降包含64个帧,并且它是根据测试集中的阶级分层进行分层的。我们使用随机梯度下降的方法,尽量减小阴性似然。

  3.2卷积网络(CNN)

  卷积网络的目标是在输入数据的模式匹配中引入一个位置,并且确保每个有运动数据帧的模式的精确位置,的平移不变性(例如,发生的时间)。我们研究了卷积网络的性能,遵循了[Srivastava等人,2014]在结构方面的建议,并且规范化了技术。图1(c)说明CNN的整体结构。每个CNN包含至少一个暂存的卷积层,一个pooling层,和一个完整的连接层——在最高等级Softmax-group之前。暂存的卷积层相当于有着nf种不同特征图——宽度为Kw,的输入序列的卷积。最后的max-pooling,即是寻找宽度为mw范围中最大值,并对应一个子采样,向系统引入平移不变性。整个实验中max-pooling的宽度为固定值2。每个max-pooling层的输出都通过一个激活函数进行转换。随后的完全连接的部分有效地对应一个DNN并且遵循上述相同的架构。

  对于规则化,我们应用了每一个max-pooling层/完全连接层的dropout,在整个实验中可能的dropout Pidrop在i层中是固定值(p1drop=0.1,p2drop=0.25,pi>2drop=0.5)。类似于DNN我们同样使用了max-in准则。输入到CNN的输入数据,如DNN中一样,对应移动数据的帧

  。然而,并非连接不同的输入维度,矩阵结构被保留(FtRsxRd)。CNN的训练,使用了批梯度下降法(64帧)和随机梯度下降法,以尽量减少阴性似然。

  3.3递归网络

  为了研究移动数据的时序依赖,我们使用了递归数据网络,它基于vanilla变型(不包括peephole联系)的LSTM单元。当网络中的一些连接形成定向循环时,该结构是递归的,其中当前的时间t会考虑到前面时间t-1的网络状态。当错误的衍生物通过递归网络中的很多层“通过时间”进行反向传播时,LSTM单元用于抑制梯度下降。每一个LSTM单元(联合)都会持续追踪代表他“记忆”的内部状态(the constant error carousel)。随着时间的推移,该单元学会,输出,覆盖,或者基于当前的输出和过去的内部状态清空他们的内存,从而使一个系统保留数百个时间步长的信息。

  我们实现了两个有特色的LSTM递归网络:(i)深度前馈LSTMs,它包含多种递归单元层,并及时联系“前馈”(见图1(a));(ii)双向LSTMs,它包含了两个平行的递归层,在一个连接了它们在时间步长t时内部状态的层之后(见图1(b)),延伸到当前时间步长的未来和过去中。

  实际上这两种特色的LSTM,在他们的应用要求方面有着很大不同。前馈LSTM联系当前的时间步长,是基于它看到了过去,并且,在推理时,“未来”还不知道的情况下,它本质上适合于实时应用。另一方面双向LSTMs利用了未来和过去的上下文,去解释时间t时的输入,这使得它更适合于离线分析场合。