在如今这个人工智能的黄金时代,对想要模仿人类的机器人来说,更需要对周围所处的环境做出合理的假设,同时也要弄清楚事情发生的逻辑。生活中,人们往往通过对周围环境声音的模仿来不断学习。然而,对机器而言,这种方法也同样适用吗?
MIT的CSAIL(计算机科学与人工智能实验室)近期就研究出一种能够预测人们周围环境声音的算法:当一个无声的视频中出现物体被敲打的画面时,这种算法能够非常准确的模拟出与画面相匹配的声音,从而混淆人们的认知。
这项有关”仿真声音的测试“不仅仅是人们认为的计算机小把戏,在未来,它很有可能会自动匹配电视和电影中各个场景和角色的声音,同样的道理,这种算法若是用于机器人身上,便能帮助他们对周围环境和物体的属性进行更高效的学习。
而MIT有关声音预测和仿真的这套算法不管是对电视、电影,亦或是机器人对其周围的环境和事物的学习来讲,无疑都将是利好的。
当你用手指去敲打红酒杯时,发出的声音会很明确的告诉你,杯中还有多少酒。而通过此种算法对周围事物的仿真模拟,人们就能清楚的了解物体的大小、形状、材质、类型等特性,就好像真的亲身体验过一样。
MIT的CSAIL团队在此领域上进行了深耕,包括教计算机如何通过对大数据的筛选、分析,从而找出自有的一种模式。而这种深度的学习也解决了计算机科学家亲自参与对算法设计和监测过程的问题——不必再亲历亲为。
算法是如何运作的?
”声音模仿“算法的第一步就是在所收集的大量声音样本的基础上进行学习。在几个月的时间里,研究员们收集到包含了接近46000种声音的1000多个视频,视频中包含了各种物体被鼓槌敲打、刮蹭和刺戳等声音(之所以都用鼓槌是为了保证在同一标准下的一致性)。
接着CSAIL研究团队对这些视频赋予了深度学习的算法,即对视频进行解构:仔细分析视频中声音的场合、音量以及其他特性。为了能够对新视频的声音进行预测模仿,算法会对已接触学习到的视频特性进行详细的拆解,在已有大数据的基础上,找出与新视频最匹配的声音。而算法系统也会自动将已学习到的音频进行最小单位的拆解,再将它们组合成合乎逻辑、天衣无缝的新声音。
经过如此一系列的学习运作,不管是嘎吱嘎吱的断奏音符,还是连续拨动的常青藤的声音,这种算法都能完全掌握其要领,而不管是轻轻敲打还是用力碰撞,不管物体是坚硬,亦或是松软,此种模仿声音的算法都能轻车熟路,完全hold住。
然而,就目前而言,人们对人工智能领域的研究只限于五种最基本的感官,比如:视觉上依靠对图片的学习,发音上模仿音频等。但总体来说,通过模仿人类的声音和景象来模仿人们行为的这个大方向是对的。通过大数据的积累,人工智能便能够做到更深层次的学习。
糊弄“人类
MIT的CSAIL研究团队为了测试该算法下声音的仿真度,在线上做了一个测试:让用户分辨两个同样画面的视频(一个是采用真人声音,一个采用人工智能模拟声音),哪个是真声音,那个是仿真声音。结果表明,算法模拟声音被用户选择的次数竟然是真实声音的两倍。
研究团队还发现,该算法能够对不同材质的不同物理属性进行辨别。也就是说,未来让人们看到自己的脉搏跳动或是对一段无声的视频进行音频恢复都将不再是难事。
未雨绸缪
该算法的研究人员表示,就目前人工智能的进展而言,还有着非常大的提升空间。比如:在视频中,鼓槌并没有按照正常的方式去敲打,那此种算法模仿出的声音就极有可能出错。而很大的一个弊端就是,这种算法目前只局限于”视觉指示的声音“——即按照画面中一般的物理属性去捕捉声音。
不管是微风吹过的声音,还是PC笔记本运作时发出的嗡嗡声,总会有一些特殊情况发生——周围事物发出的声音听起来并不是如我们按照正常逻辑所想。但令人欣慰的是,这种算法下的仿真声音与视觉的关联性并不是很大。
人工智能未来努力的方向将是让机器人拥有更多与周围环境事物接触的能力。
机器人能够在过人行道时小心翼翼,也知道水泥是硬的,青草是软的,机器人不论是走在水泥地上还是青草地上,都能够清楚的知道接下来会发出怎样的声音。而对人工智能而言,对声音的预测是非常关键的一步,同时也是未来对物理接触所产生的结果预测的第一步。未来,人工智能努力的方向将是让机器人拥有更多与周围环境事物接触的能力。