山世光:其实之前俞凯老师讲到自动驾驶的时候,就有一个collide case,比如说车祸,它其实不是经常发生的,很难采集这样的数据,但是这个我们也有讨论,是不是可以合成这样的数据。但是如果能合成出来大量的这类数据,而且是很接近真实的,那也许就不需要深度学习了,因为你本来就知道这个事情怎么产生的。
颜水成:其实说到长尾问题,让我想起去年在上海纽约大学,Zhang Zheng老师组织了一个关于neural science vs. computer science的讨论。人是怎么解决长尾的问题呢?当时我们就觉得人脑里面有可能有两个模型,一个叫参数模型,一个叫非参模型。其实长尾这个东西,可能就是由几个instance存在那里。参数模型或者深度学习的模型有两个能力,一个是能分类,能做prediction,同时还有一个能力,就是能判断对这个样本(能)不能prediction,(如果不能,)那么就把这个样本拉出来,用非参方法一一比较一下。
人是怎么处理长尾问题的呢?我们当时有一个假设,其实也没有很多道理,就是听起来比较reasonable。你的学习过程中非参样本是逐渐增多的,比较多的时候就形成一个概念,参数模型就会增加一个节点。但是当你长久不看,就遗忘了,有些概念就消失了,有些样本就会退回到参数模型里面,这可能能够解释,为什么有些时候你会觉得有个东西可能认识,但是死活都想不起来,这个时候就意味着参数模型不能识别样本是么东西,但是可能在非参模型里有。在非参模型存的数据可能非常非常多,这样的话就不停地去搜,不断地想,想着想着就想出来了,有可能在非参数模型就把它匹配上了。
李航:其实我不太同意这个观点。人是肯定是有这部分的能力,这是模式识别的思维方式。比如你第一次听“他在微信里潜水”这句话,你可能要琢磨一下这是什么意思,你第一次听,你可能会想潜水有什么特性,做一些联想,然后大概猜出这个是什么意思,这是个长尾的事情,语言理解原理有部分是联想,也有一些推理,当然你得到的结论也不一定对,有可能误解了。对这块认知科学也没有说清楚,人的推理,或者自然的联想,或者比喻的能力(理解比喻和造比喻的能力),到底有什么不同?我个人理解,有一部分能力已经超脱了模式识别的能力。让现在的计算机架构做这样的事情的话,相当于需要做穷举的全集的近似度计算,当然也不完全是这么回事儿,但是人为什么能够很快地做这样的相似度计算,判断说这个事情是这么个事。
俞凯:我觉得刚刚颜水成老师说的这个角度我是比较同意的,他说的两种不同的方式去做,一个方式是计算的方式,另外一个方式是存储和寻址的方式。这两个方式的结合实际上是人脑的一个点,计算的方式需要存的东西比较少,但是需要在线去推理,寻址的话就相当于比较简单的映射。
山世光:我觉得李航老师说这个,它不仅仅是一个简单的存储,而是可以去联想,可以举一反三的。
俞凯:长尾的数据问题,其实还有另外的一件事情,目前学术界不是特别重视,但是工业界其实特别重视,未来很可能会推动大数据和深度学习的结合。由于传统问题很多被解决了,所以它会推动新问题的产生,这个新问题是什么呢?我举例子,就是刚才提到的performnce问题,这个指标,不是真实的产业界定的,是学术界在最开始定义这个问题的时候提出的,比如说我举这个例子——词错率(word error rate),但是这个指标现在看起来好像已经快达到饱和了,人们就会说,实际上99%和97%的识别率有差别吗?那么什么东西有差别呢?我们就要想,语义理解可能有差别,那么你怎么定义有效的语义理解?你定义出来以后,你的输入就不是文字的语义理解了,你现在说的是语音,现在识别的有错误,在这个错误的情况下,导致的理解是什么样,你就把它连成一个新问题,这个问题可能就会变成对于语音终极的理解的误差有多少,但是这个误差怎么定义现在没有一个共识。我觉得这会产生一系列新的问题,而这些问题会推动深度学习新的模式和新型态的大数据结构的发展。
怎样用一个具体的指标评价AI的整体进步?
山世光:我觉得这个非常好,我在计算所经常跟一些做系统的人打交道,他们就特别不理解我们这个领域,他们认为,“你们老是说今天有进步,明天有进步,到底这个AI领域的进步是怎么评价的?”他们的评价标准很清楚,有个benchmark,新机器造出来,把这个benchmark一跑,我现在是多少,原来是多少,很清楚,但是整个AI界他们找不到能够理解的,你去年是这个指标,明年是这么一个指标,怎么评价AI整个的发展?最后大家没办法,寄希望于图灵测试,但是图灵测试不能很好的度量进步。这样一个指标是不是我们这个领域值得思考的问题?