未来识别机器人和人的致命法宝

当我们欣赏《星球大战》津津有味的时侯,科学家一说“没有外星人”,这事情就不好玩了。可是没办法~,科学就是科学。作为自然语言处理专家,我不得不给大家扫扫兴:未来的机器人,恐怕还是不会说话,因此我们识别机器人的一大法宝可以是:语言。

人们常常有个感觉,认为说话是个很简单的事情,其实不然。“人类最难做到的,计算机比较容易做到,比如大型计算;而人类最容易做到的,计算机最难做到,比如我们每个人都会说话、听人说话,连没受过教育的文盲也会,然而计算机到现在也教不会它语言这个技能。”

其实早在计算机诞生之初,人们就开始了用计算机处理语言的工程,人们以为,我们平时翻译啊什么的,不就是需要一本字典嘛,要我们人类背下几百万条词条那是很难的,但是计算机擅长啊,让它记住海量内容,小菜一碟!除了让计算机快速、大规模计算,人们认为,让它处理语言、记住海量单词,也是它最适宜的工作之一了。

计算机诞生于美国,这个自然语言处理一开始也是在美国搞得是轰轰烈烈,美国投入大量金钱和人才来做这件事情。然而几年下来,现实离人们的想象越来越远。在许多大型项目以无果而终之后,终于有一纸报告递到国会,详细说明为何自然语言处理是实现不了的。这本报告书结束了美国的自然语言处理梦,也让全世界的自然语言处理陷入了长期的低迷。

为什么自然语言处理实现不了?

因为当你把整个字典都搬到计算机里面之后,你会发现,计算机不会使用这些词条。而如何让它会使用这些词条?——没有办法。人类在使用字词典时,其实是靠着人类对于语言的理解的,而计算机不具有这些理解,所以它不会使用。

我们都觉得翻译时,不过是看到一个单词、就拿头脑中背过的那个意思填上就是了,然而当计算机这么做时,我们看到的翻译结果,却是匪夷所思,通篇竟然没有几个“人模人样”的句子!更不要说翻译符合原意的事情了。追其原因,是我们在填翻译词时,其实是在从许多可能的意思中,选择一个最合适的——这个工作让计算机来做,每个词对应几十个词,它该如何选择?什么是“最合适的”原则?不知道。因为我们对于我们自己的这些规则并不清楚,所以我们也无法去教计算机这些规则。

为了让计算机具有人一样的判断能力,有人自然而然地想到把整个世界的知识体系搬到计算机里去,这样计算机就具有人一样的知识背景......。这个工作引起了全世界许多国家的热情,经过多年不懈的努力,结局却是大失所望。终于有人写论文论证了语义网络是理论上就不可能实现的(这个语义网络和现在流行的“语义网络”不是一回事儿,以前的语义网络这个词,指的是一个巨型知识库、存储着人类的全总知识)。

为什么说“语义网络”这样的全总知识库从理论上就是不可实现的呢?原因很简单,我们在现实生活中,常常是在这件事情上采用一个标准、一种逻辑,而在另一件事情上,我们又会采用另一个标准、另一种逻辑,这在我们生活中一点问题也没有,但是让计算机把这些知识装在一起,那就存在着许多自相矛盾的逻辑命题,这样的逻辑体系,如何能够做事情?

人类这个装满了矛盾知识的大脑,就能够游刃有余、毫不费力地解决生活中的事情,真不知人类是怎么搞的?不知道怎么教计算机也学会这个。唉~

他们说的、“从理论上不可行”——指的就是:一个不符合排中律的逻辑系统,从理论上来说,没有能力处理我们的这个世界。

上面说了这么多,可以简而言之一句话:只是靠建立大型数据库,是无法从根本上突破自然语言处理的问题的,必须首先了解人类的认知原理。

遗憾的是对于人类认知,我们几乎一无所知。

我们就生活在我们自己的认知中,比如,我的这篇小文,也是靠着我自己的认知功能来完成的。那么请问:我们在我们自己的认知之中、不能脱离我们的认知而观察,那么如何实现“以已之矛、攻已之盾”呢?这不是矛盾吗?

有句古诗:“不识庐山真面目,只缘身在此山中”。假设一个人从未走出过庐山,你让他说出庐山是什么,他是说不了的,只有当他曾经去过别的山,经过对比,他才能说出个一二三来。

因为我们人类的所有智慧都是在我们自己的认知系统之中、从未脱离也不可能脱离,所以从理论上来说,我们永远不可能对于我们自己的认知系统有着百分之百的了解。