颜水成:大部分人对于通用智能的理解,目前还停留在概念阶段。可能大家主要想的是通用人工智能是什么样的,但是对于怎么样让机器实现或者产生通用人工智能,其实讨论的不是特别多。总的来说通用人工智能暂时是遥不可及的事情。
山世光:我把刚才这个问题换一个问法。比如说过去做人脸职别,我们可能连计算机识别领域的其他的子问题怎么做都不关心。但是现在不一样,现在要做人脸识别,只看人脸识别的论文肯定是不行了,还要看其他类似领域或者更通用的论文。从这个声图文这三个大的领域来说,它们之间的相互借鉴和技术层面的交叉,我觉得已经越来越多了。像CNN是从图像领域里面起来的,1989年就开始在做了。不知道俞凯老师是不是可以介绍一下,在语音方面的应用和图像方面的应用会有什么样的差别?
颜水成:根据我的观察,在声图文领域里,声音的问题相对来说比较少一些,比如像语音识别、TTS、或者声纹识别,而图像领域的问题太多了,而且落地的方式比语音多很多。这也许是为什么计算机视觉领域的从业者比语音识别更多。
山世光:俞凯老师同意这个观点吗?
俞凯:我觉得颜水成老师是一语中的,但这个观点我肯定是不同意的(指声音领域的问题相对较少的观点),其实是语音的人看起来借鉴图像的人比较多。
颜水成:但是深度学习在语音上是最早成功的。
俞凯:实际上不只是深度学习,真正图像的人看语音的论文相对来说比较少的,这跟整个领域的覆盖有关,所以我觉得刚才是一语中的,主要就是对问题的挖掘,这跟整个的历史发展是相关的,这是事实。但是倒过来讲,我是不太同意的,原因很简单,语音放在那,它就是一个模态,里面涉及到环节非常多,所以就会出现一个现象,真正搞语音的人出来创业的比较少,特别难做,为什么呢?因为你必须什么都懂,包括那些学术界还没弄出来的,但是你必须弄出来,才能最终变成一个系统。
颜水成:所以它是一个闭环的,包含麦克风阵列、降噪、语音识别等一系列问题。
俞凯:语音最大的特点是什么呢?它不像图象,任何一个子问题马上都能看得见,你必须得绕一个圈,要么回答你了,要么看到识别的结果才可以。它的链条是非常长的,从刚才说到的硬件、软件、信号、特征、模型、再到后处理,这一系列完了之后才能看到一个结果,很难知道哪一块做的好或者做的不好,因此对后面的结果有重大的影响。如果你从中单独拎出去一块,想要直接评估它的指标并不是那么容易,所以这个是语音发展的一个特点。
我为什么把它当做特点呢?因为它既是好处也是坏处。坏处就是说,对于整个领域的问题,大家的认识不够大,我也在联合一些语音圈的同仁,把一些问题明确的提出来。好处是什么呢?就像卖鞋一样,如果各位去卖鞋,你是会去都有鞋穿的地方去卖,还是去一个没有鞋穿的地方去卖?两个各有好处和坏处,如果都不穿鞋,你就没市场了。如果都穿了鞋,你怎么卖?市场饱和了。所以从语音的角度讲,我的感觉是,在研究问题的提出上可能是under-developed,但是在问题的解决上跟图像相比其实是over-developed。
我举一些例子,比如刚才提到的互相借鉴的问题,大家直接就谈到了深度学习,很多人看待语音的角度,“不就是分类的问题嘛”,反正有深度学习的人,有图像领域的人,有全世界的人,大家都能解决这个事。好,我们都来借鉴,大家的成果都可以用。但是我看这个事,不是从分类的角度去看,我可能要去改它的criteria,什么意思呢?比如说,我们现在要做语音识别,我是给一定的声音,然后识别出文字,这是一个criterion,我训练的时候,在传统的语音识别模型里面,它是一个隐马尔可夫模型。我要训练的就是一个声学模型,如果我换一个特别难的criterion,就会使我的测试和训练是匹配的,就不会存在很直接的过训练的问题,因为过训练不单单是这个问题,还有一个准则不匹配的问题。
所以我们很多时候会关注这样一类,这些角度是不一样的,实际上是在范式上有所不同。所以今天提到的大数据和深度学习这块,我的第二个观点是什么呢?我个人认为,从具体的深度学习方法中跳出来,其实在深度学习的发展历史中,它会经历范式的变化,在第一个十年,大概是06年到16年,实际上第一个八年吧,我认为深度学习和大数据的结合在传统机器学习范式上几乎达到饱和,后面还可以再研究,但是它的边际效益降低了。