四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多

俞凯:我觉得指标会不断地变化。其实说白了,任何科学最关键的是先定义问题,然后才是怎么去解决它。科学的发展往往是问题导向的,我感觉现在就处在一个新问题出现的前夜,但是这种事在学术界其实很难被人承认的。根据我自己的经验,我曾经投过很多关于变一个criterion的论文,但是这种论文被接收的概率比我改一个算法被接收概率要低得多。

颜水成:其实图像跟语音、语义还有另外一个很明显的差别。图像是一个universal problem,无论中国还是美国做的其实是一模一样的,但是语音和语义还有一个language问题,即使外国做的很好,但是那个模型并不一定能够在中文上做到非常好的效果,这个可能还是有一些差别的。

山世光:再回到刚才的这个问题上,我想问一下俞凯老师,在语音识别的这个领域,你刚才提到词错率这个指标基本上要饱和了,这是说再增加更多的数据性能也没法上升了呢?还是说已经做的足够好了?

俞凯:我们这个概念就是说相对错误率的下降。在语音识别历史上,相对错误率下降30%属于历史上大的进步,之前还有几个技术也是这样,相对错误率下降30%,可问题是我现在的错误率只是10%,你相对下降30%这个概念,已经变成了7%,你再相对30%,变到了多少?你会发现实际的绝对值特别小。我说的饱和就是表面上看技术还是在不断地进步,但是给人的感觉就是,对于这个问题本身,它的边际效应已经特别低了。现在比较难的是处理抗噪、俩人同时说话等问题。因为这样的东西,它的错误率特别特别的高,那样的情况,它的研究价值就大于工业价值,否则很多事就让工业去做了。之前微软将Conversational Speech Recognition的词错率做到了5.9%,和人的错误率已经一样了。从某种意义上讲,在限定的条件下,这事已经算解决了,但是在非限定条件下或者非配合条件下,这个事情才刚刚开始。

无监督学习

山世光:回到“如何在没有大量的数据情况下怎么去做学习”的这个问题。之前我们也讨论,一个思路就是做强化学习,做交互相关的这种可能。另外一个就是说贝叶斯网络和深度学习的结合形成一套新的机制,也许可以在一定程度上解决这样的问题,大家是同意还是批判?

李航:贝叶斯网络那个不好评论。但是我觉得非监督学习一定要小心,其实非监督学习指的东西现在越来越不一样了,传统的非监督学习真的是一大堆数据,learning from the scratch,找到这个数据里的规律,没有任何指导。我们人其实无师自通能学到一些东西,听起来好像能做这个非监督学习,但是这个能力的本质是不一样的。人类进化这么长时间,我们学习的能力在DNA里面已经有了。我们生长的过程当中,学到了大量的知识,也就是说成年之前学到很多东西,在成年的时候,一般的人学任何一个东西,你也可能说小数据,或者无监督的学习,但是其实之前的那些知识、能力都会帮助你。这种意义上其实大家也在做,就是迁移学习,半监督学习,最近他们比较关注的meta learning(谷歌提出来的东西)。就是说我学各种各样的分类器,各种各样的知识,这些东西怎么样能有效的结合起来,帮助我只用小数据或者不用数据,就能把这些新的东西学好,这样学习的范式更接近人,比如Bayesian Program Learning这种新的想法,都是在朝这个方向走。要么人给的知识,要么机器自动学的各种各样的知识,如何把这些有效的利用起来,再去学新的知识,这块我觉得是很有意思的方向。

山世光:我觉得李航老师说的这个引到了一个非常重要的话题上来。我就观察我家小孩,我感觉他在七八岁之前,学每一个技能其实都挺困难的,比如你让他系个扣子的话(这个跟智能没有什么关系),他要学蛮久的,但是你会发现他不同层面、不同角度的能力,在逐渐积累一段时间之后,在有了自学的能力时候,智力的发育不是线性的,那时候就会突然爆发性的自己去学。这个对机器来说,它可能有视觉、听觉等各种各样的能力,但是没有把这些结合在一起,去诞生一个智力,这块如果有突破话真的会是一个大的突破。

俞凯:我的感觉其实还是反馈通道的问题。其实很多时候是因为扣子系不好无所谓,他不知道应该把扣子系好,或者说扣子系不好就没有批评他。就是他的学习能力强了,我感觉有一个很重要的问题,他无时无刻都有新的数据接触,这些数据是没有label的,但是有compact,所以他对compact感知形成了一种感知能力的时候,他有这个信号了,然后他就可以把整个的学习流程,加上好的结构,然后贯穿起来。小的时候是因为这个信号就很简单,打一下疼了,饿了就叫,这是非常简单的。当这个compact越来越丰富,而且当他越来越能理解这个compact以后,他的学习能力才能体现出来,我感觉这也是对外部认知反馈信号的能力。