迪士尼在研究一种AI 让声音和画面的剪辑同步

从技术的角度来看,擅长讲故事的迪士尼在这方面也有相当多的积累,例如隐藏在上海迪士尼乐园里的那些。现在,迪士尼也要做AI研究,想帮助视频剪辑师更好地工作。

迪士尼旗下的迪士尼研究部门(Disney Research)和苏黎世联邦理工学院合作,正在开发一套机器学习系统,在识别画面的基础上,将画面跟相关的声音连接起来。

这听起来可能有点绕,其实是日常生活常见的现象。例如随着关门的动作进行,人们会“想象”特定的关门声音。本质上,其实是人们把关门相关的视觉信息跟声音信息做了连接。

这项研究想要做的,就是培养机器人这种关联性。在建立画面和声音的强关联性上,最大的障碍是那些跟画面中的物体运动不相关的声音,例如汽车开在马路上,附近还有公放的音乐,这会形成干扰。

他们的培训方式是这样的,给机器人喂入一系列随手拍摄的、带有声音的视频。在喂入前,他们做了前期加工,从视频画面中用软件筛掉那些含有较低杂音,或者纯背景音的画面,再把剩下的画面、声音喂入到系统内,对它进行培训。

在欧洲机器学习大会上,这些研究员展示了初步的研究结果,他们培训的AI系统成功地做了这些画面跟声音的配对:关门、杯子碰撞和汽车在马路上行驶。

暂时还不清楚这个研究会如何帮助迪士尼。在研究报告中,这些研究员称,他们的技术除了有助于帮视频画面跟声音做匹配,可能还有助于对视频资料的分类,或者是运动识别。这些听上去可能是帮助剪辑师在后期剪辑时提高效率。

作为一个支援部门,迪士尼研究部门做的研究看上去跟其它科技公司没有太大差别,但开发的主要目的是为了能应用于迪士尼的旗下业务。

去年,这个研究部门还推出了一项新的眼球追踪技术,几乎可以复制人眼。他们使用了大量摄像头和灯光来捕捉人眼的所有细节,还能保证复制品能根据环境变化而发生改变。

题图来自;维基百科

登陆|注册欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!