谁领先人类识别技术--以深度，卷积和递归为基础？_前沿技术_物联网_中国计算网——工业互联网一站式服务平台—

　　在本文中我们首先提出了在三种代表性数据集上最流行的深度学习方法的表现。

　　这些包括几个典型的应用情境，如控制手势、重复动作和帕金森疾病中的医学运用。对三种模型的比较如下。为了探索每种方法的适用性我们选取了一系列合理范围的超参数，同时随机模型配置。

　　为了探讨每一种方法的适用性，我们为每一个超参数和随机样本模型配置都选择了合理的范围。并且，通过上千次的实验对它的性能做出报告，同时分析超参数对每种方法的影响。

　　3.1深度前馈网络(DNN)

　　我们使用了深度前馈网络，它相当于五个有着softmax-group的隐层的神经网络。DNN代表网络输入数据的一个非线性转换序列。我们遵循规则，并提出了一个有着N个隐层的网络作为N层网络。每个隐层都包含有，相同的数量的单元，对应的线性转换，和一个激活函数(ReLU)。我们使用了两个不同规范技术：(i)Dropout：在训练期间，每一个隐层的每个单元都通过一个概率Pdrop设置成0，而在推断时，每一个单元的输出都通过1/pdrop进行缩放(所有实验的dropout率都是固定值0.5)。(ii)Max-in准则：每个批梯度下降之后，网络中每个单元的输入量都被放缩到一个最大欧式长度din。对于限制方法中超参数的数量，我们选择不去进行任何生成的预训练，并且只依靠监督学习的方法。输入到网络中的输入数据相当于每个移动数据的帧。每个帧都由Rd中不同数量的s样本组成，也就是简单地连接到一个单一的向量FtRs*d。图1(d)中对模型进行了说明。

　　DNN是用批梯度下降的方法进行训练的，其中每一个批梯度下降包含64个帧，并且它是根据测试集中的阶级分层进行分层的。我们使用随机梯度下降的方法，尽量减小阴性似然。

　　3.2卷积网络(CNN)

　　卷积网络的目标是在输入数据的模式匹配中引入一个位置，并且确保每个有运动数据帧的模式的精确位置，的平移不变性(例如，发生的时间)。我们研究了卷积网络的性能，遵循了[Srivastava等人，2014]在结构方面的建议，并且规范化了技术。图1(c)说明CNN的整体结构。每个CNN包含至少一个暂存的卷积层，一个pooling层，和一个完整的连接层——在最高等级Softmax-group之前。暂存的卷积层相当于有着nf种不同特征图——宽度为Kw，的输入序列的卷积。最后的max-pooling，即是寻找宽度为mw范围中最大值，并对应一个子采样，向系统引入平移不变性。整个实验中max-pooling的宽度为固定值2。每个max-pooling层的输出都通过一个激活函数进行转换。随后的完全连接的部分有效地对应一个DNN并且遵循上述相同的架构。

　　对于规则化，我们应用了每一个max-pooling层/完全连接层的dropout,在整个实验中可能的dropout Pidrop在i层中是固定值(p1drop=0.1，p2drop=0.25，pi>2drop=0.5)。类似于DNN我们同样使用了max-in准则。输入到CNN的输入数据，如DNN中一样，对应移动数据的帧

　　。然而，并非连接不同的输入维度，矩阵结构被保留(FtRsxRd)。CNN的训练，使用了批梯度下降法(64帧)和随机梯度下降法，以尽量减少阴性似然。

　　3.3递归网络

　　为了研究移动数据的时序依赖，我们使用了递归数据网络，它基于vanilla变型(不包括peephole联系)的LSTM单元。当网络中的一些连接形成定向循环时，该结构是递归的，其中当前的时间t会考虑到前面时间t-1的网络状态。当错误的衍生物通过递归网络中的很多层“通过时间”进行反向传播时，LSTM单元用于抑制梯度下降。每一个LSTM单元(联合)都会持续追踪代表他“记忆”的内部状态(the constant error carousel)。随着时间的推移，该单元学会，输出，覆盖，或者基于当前的输出和过去的内部状态清空他们的内存，从而使一个系统保留数百个时间步长的信息。

　　我们实现了两个有特色的LSTM递归网络：(i)深度前馈LSTMs，它包含多种递归单元层，并及时联系“前馈”(见图1(a));(ii)双向LSTMs，它包含了两个平行的递归层，在一个连接了它们在时间步长t时内部状态的层之后(见图1(b))，延伸到当前时间步长的未来和过去中。

　　实际上这两种特色的LSTM，在他们的应用要求方面有着很大不同。前馈LSTM联系当前的时间步长，是基于它看到了过去，并且，在推理时，“未来”还不知道的情况下，它本质上适合于实时应用。另一方面双向LSTMs利用了未来和过去的上下文，去解释时间t时的输入，这使得它更适合于离线分析场合。

2/5 首页上一页 1 2 3 4 5 下一页尾页