深度学习在目标跟踪中的应用_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

　　SO-DLT有几点值得借鉴：

　　(1) 针对tracking问题设计了有针对性的网络结构。

　　(2) 应用CNNS和CNNL用ensemble的思路解决update 的敏感性，特定参数取多值做平滑，解决参数取值的敏感性。这些措施目前已成为跟踪算法提高评分的杀手锏。

　　但是SO-DLT离线预训练依然使用的是大量无关联图片，作者认为使用更贴合跟踪实质的时序关联数据是一个更好的选择。

　　利用现有大规模分类数据集预训练的CNN分类网络提取特征

　　2015年以来，在目标跟踪领域应用深度学习兴起了一股新的潮流。即直接使用ImageNet这样的大规模分类数据库上训练出的CNN网络如VGG-Net获得目标的特征表示，之后再用观测模型(observation model)进行分类获得跟踪结果。这种做法既避开了跟踪时直接训练large-scale CNN样本不足的困境，也充分利用了深度特征强大的表征能力。这样的工作在ICML15，ICCV15，CVPR16均有出现。下面介绍两篇发表于ICCV15的工作。

　　FCNT(ICCV15)

　　Visual Tracking with Fully Convolutional Networks

　　作为应用CNN特征于物体跟踪的代表作品，FCNT的亮点之一在于对ImageNet上预训练得到的CNN特征在目标跟踪任务上的性能做了深入的分析,并根据分析结果设计了后续的网络结构。

　　FCNT主要对VGG-16的Conv4-3和Conv5-3层输出的特征图谱(feature map)做了分析,并得出以下结论：

　　(1) CNN 的feature map可以用来做跟踪目标的定位。

　　(2) CNN 的许多feature map存在噪声或者和物体跟踪区分目标和背景的任务关联较小。

　　(3) CNN不同层的特征特点不一。高层(Conv5-3)特征擅长区分不同类别的物体，对目标的形变和遮挡非常鲁棒，但是对类内物体的区分能力非常差。低层(Conv4-3)特征更关注目标的局部细节，可以用来区分背景中相似的distractor，但是对目标的剧烈形变非常不鲁棒。

　　依据以上分析，FCNT最终形成了如上图所示的框架结构：

　　(1) 对于Conv4-3和Conv5-3特征分别构建特征选择网络sel-CNN(1层dropout加1层卷积)，选出和当前跟踪目标最相关的feature map channel。

　　(2) 对筛选出的Conv5-3和Conv4-3特征分别构建捕捉类别信息的GNet和区分distractor(背景相似物体)的SNet(都是两层卷积结构)。

　　(3) 在第一帧中使用给出的bounding-box生成热度图(heat map)回归训练sel-CNN, GNet和SNet。

　　(4) 对于每一帧，以上一帧预测结果为中心crop出一块区域，之后分别输入GNet和SNet，得到两个预测的heatmap,并根据是否有distractor决定使用哪个heatmap 生成最终的跟踪结果。

　　小结：FCNT根据对CNN不同层特征的分析，构建特征筛选网络和两个互补的heat-map预测网络。达到有效抑制distractor防止跟踪器漂移，同时对目标本身的形变更加鲁棒的效果，也是ensemble思路的又一成功实现。在CVPR2013提出的OTB50数据集上OPE准确度绘图(precision plot)达到了0.856,OPE成功率绘图(success plot)达到了0.599，准确度绘图有较大提高。实际测试中FCNT的对遮挡的表现不是很鲁棒，现有的更新策略还有提高空间。

　　Hierarchical Convolutional Features for Visual Tracking(ICCV15)

　　这篇是作者在2015年度看到的最简洁有效的利用深度特征做跟踪的论文。其主要思路是提取深度特征，之后利用相关滤波器确定最终的bounding-box。

　　这篇论文简要分析了VGG-19特征( Conv3_4, Conv4_4, Conv5_4 )在目标跟踪上的特性，得出的结论和FCNT有异曲同工之处，即：

　　(1) 高层特征主要反映目标的语义特性，对目标的表观变化比较鲁棒。

　　(2) 低层特征保存了更多细粒度的空间特性，对跟踪目标的精确定位更有效。

　　基于以上结论，作者给出了一个粗粒度到细粒度(coarse-to-fine)的跟踪算法即：

　　(1) 第一帧时，利用Conv3_4,Conv4_4,Conv5_4特征的插值分别训练得到3个相关滤波器。

　　(2) 之后的每帧，以上一帧的预测结果为中心crop出一块区域，获取三个卷积层的特征，做插值，并通过每层的相关滤波器预测二维的confidence score。

　　(3) 从Conv5_4开始算出confidence score上最大的响应点，作为预测的bounding-box的中心位置，之后以这个位置约束下一层的搜索范围，逐层向下做更细粒度的位置预测,以最低层的预测结果作为最后输出。具体公式如下：

3/6 首页上一页 1 2 3 4 5 6 下一页尾页