谁领先人类识别技术--以深度,卷积和递归为基础?

  在该工作中,我们应用了三种不同设置的递归网络,每一种都使用adagrad和max-in规则进行训练以便最小化阴性似然。

  在第一种情况下,在任何给定的时间t输入到网络的输入数据,都对应当前帧的运动数据,它延伸到一个特定的时间长度,并且维度也被级联(如前面的DNN一样)。我们将该模型称之为LSTM-F。前馈LSTMs达到第二种应用情况,代表了实时的应用,其中提出的每一个移动数据采样都是针对于他们记录序列中的网络,称之为LSTM-S。最后场景中,对于同样的样本到样本预测问题,应用了双向LSTMs。我称之为LSTM-S。

  3.4对于HAR训练RNNs

  RNNs相同的应用,包括演讲识别和自然语言处理。在这种设定下,输入的上下文(例如,一个单词)受限于它周围的实体(例如,句子,段落)。训练RNNs时,通常把上下文的实体看成一个整体,例如在一个完整的句子中训练RNN。

  在HAR中,移动数据个体样本的上下文没有得到很好的定义,至少,超越了邻近样本之间的直接关系,并且好像还取决于移动的类型和它更广泛的行为情景。这是该领域众所周知的事,并且它会影响选择滑动窗口分割的窗口长度。

  对于建立用于训练RNN的b批梯度下降,我们在开始和结束训练集中,初始化了多个位置(pi)b。对于建立批梯度下降,我们采用了L样本跟随(pi)b中的每个位置,并且增加L步长的(pi)b,它可能缠绕到该序列结束。我们发现随机初始化位置以避免梯度振荡是非常重要的。当这个方法保留对RNN提出的样品排序时,它不允许每一个批梯度下降层,都关于类-分布。

  4.实验

  实验中研究的不同种类的超参数在表1中列出。最后一列表示了每个数据集采样的参数配置的数目,它们被挑选出来代表一个相等量的计算时间。我们在三个代表了HAR典型问题的基准数据集进行了实验(下文进行描述)。实验是在一个有着3个GPUs (NVidia GTX980 Ti)的机器上进行,其中除了最大的网络,两个模型配置都在不同的GPU上运行。

  在每次训练之后,我们都在验证集中进行性能评估。每个模型都训练了至少30次,其中最大的是300次。训练30次之后,如果在10次后验证性能没有得到提升,便终止训练。我们选择了显示最优验证集性能的次数,并且将对应的模型应用到测试集中。

  4.1数据集

  实验中,我们研究了三个在普适计算中具有代表性的HAR数据集。每一个数据集都对应一个HAR的应用。第一个数据集,Opportunity,它包含如开门和关门的操控手势,这种手势持续时间段,而且是不重复的。第二个数据集,PAMAP2,它包含了典型的系统特征——长时间和重复的物理运动,这其目的是描述能源支出。第三个数据集,Daphnet Gait,对应一个医疗应用,它参与展现了一个典型帕金森氏病中的运动并发症,众所周知该疾病有着非常大的整体变化性。接下来我们详细的描述每个数据集。

  Opportunity数据集(Opp)

  Chavarriaga等人,用4个参与者——被要求进行相同的厨房活动,身上传感器的数据组成了注释记录。数据是在频率为30Hz的情况下,从人体12地方记录到的,并且用了18个中级手势进行了注释(例如,开门/关门)。每个对象,都从五个不同的方式进行了数据记录。我们使用的子集,没有丢失任何的数据包——包括加速的记录,如抬手臂,放回,和脚部完整的IMU数据。最终数据是79维度的。我们使用了对象1中的第2关作为我们的验证集,并且通过使用我们测试集中对象2和3的第4和第5关,复制最流行的识别挑战。剩余的数据被用于训练。对于帧到帧的分析,我们创造了持续时间为1秒和重叠部分为50%的滑动窗口。最终的训练集包含大概650k的样本(43k的帧)。

  PAMAP2数据集

  Reiss和Strickere,在被要求进行12项日常生活的9个参与者中,进行了数据记录,包括家庭活动和各种各样的活动(北欧散步,踢足球,等)。加速度计,陀螺仪,磁力计,温度,心率数据都是由位于手,胸部和脚踝的惯性测量单位记录的(总共超过了10个小时)。最终的数据是52维度的。我们在验证集中使用了对象5的第1和第2关,在测试集中使用对象6的第1和第2关。剩余的数据用于训练。在分析中,我们向下采样计算器到33.3Hz,以便与Opportunity数据集有一个时间分辨率的比较。对于从帧到帧分析,我们用一个5.12秒的非重叠滑动窗口——它的相邻窗口之间持续时间为一秒(78%重叠),复制以前的工作。该训练集包括大概473k的样本(14k的帧)。