深度学习在计算机视觉领域的前沿进展_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

今年的NIPS上，MIT的学者Vondrick等人发表了一篇名为Generating Videos with Scene Dynamics的论文,该论文提出了基于一幅静态的图片，模型自动推测接下来的场景，例如给出一张人站在沙滩的图片，模型自动给出一段接下来的海浪涌动的小视频。该模型是以无监督的方式，在大量的视频上训练而来的。该模型表明它可以自动学习到视频中有用的特征。下图是作者的官方主页上给出的图，是动态图，如果无法正常查看，请转入官方网站
视频生成例子，下图的视频是模型自动生成的，我们可以看到图片不太完美，但已经能相当好的表示一个场景了。

图14. 随机生成的视频，沙滩上波涛涌动，火车奔驰的场景
条件视频生成，下图是输入一张静态图，模型自动推演出一段小视频。

图15.根据一张草地静态图，模型自动推测人的移动场景,该图为动图，如果无法查看，请访问

图16.给出一张铁道图，模型自动推测火车跑过的样子,该图为动图，如果无法查看，请访问
MIT的CSAIL实验室也放出了一篇博客，题目是《教会机器去预测未来》,该模型在youtube视频和电视剧上（例如The Office和《绝望主妇》）训练，训练好以后，如果你给该模型一个亲吻之前的图片，该模型能自动推测出加下来拥抱亲吻的动作，具体的例子见下图。
图17. 给出一张静态图，模型自动推测接下来的动作
哈佛大学的Lotter等人提出了PredNet，该模型也是在KITTI数据集上训练,然后该模型就可以根据前面的视频，预测行车记录仪接下来几帧的图像，模型是用长短期记忆神经网络（LSTM）训练得到的。具体例子见下图,给出行车记录仪前几张的图片，自动预测接下来的五帧场景，模型输入几帧图像后，预测接下来的5帧，由图可知，越往后，模型预测的越是模糊,但模型已经可以给出有参加价值的预测结果了。图片是动图，如果无法正常查看，请访问论文作者的博客

图18. 给出行车记录仪前几张的图片，自动预测接下来的五帧场景,该图为动图，如果无法查看，请访问

4 总结

生成对抗网络，无监督学习视频预测的论文实在是太多，本人精力实在有限，对此感兴趣的读者可以每天刷一下arxiv的计算机视觉版块的计算机视觉和模型识别，神经网络和进化计算和人工智能等相应版块，基本上每天都有这方面新论文出现。图像检测和分割，增强学习，生成对抗网络，预测学习都是人工智能发展火热的方向，希望对深度学习感兴趣的我们在这方面能做出来点成果。谢谢朋友们的阅读，对深度无监督学习感兴趣的朋友，欢迎一起学习交流，请私信我。

5 参考文献

在写本文的过程中，我尽量把论文网址以链接的形式附着在正文中.本文参考的大部分博客和论文整理如下，方便大家和自己以后研究查看。

4/5 首页上一页 2 3 4 5 下一页尾页