图灵测试与人工智能的关系可以用集合的概念进行阐述,如上图所示。从图中可以看到“所有人类行为”对应的集合“和所有智能行为”对应的集合有交集但又互有不同。虽然“在全部智能行为”中有部分能力是人类靠自身力量无法完全实现,但人类可以被认为是有智能标准体,因此,能达到“人类水平”的部分 也就是两个集合交集的那个部分就应该被认作是“拥有智能”的特征。而且,人类的所有行为并不总是和智能相关。图灵测试要求机器全面模拟“所有人类行为”,其中既包括人类“智能”的部分,也包括人类的“非智能”行为,由此可得出结论通过图灵测试是 “拥有智能”的一个有效的充分条件,而非必要条件或充要条件。【以上内容引用微软研究院】
作为最被广泛应用的人工智能测试方法,图灵测试经常用来检验机器是否具备人的智能,但总体看,图灵测试的方法受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,例如2014年6月英国雷丁大学客座教授凯文沃维克宣称一款名为“尤金 古特曼(Eugene Goostman)”的计算机软件通过了测试[30],但是测试结果充满争议,例如机器人只要能够通过30%的评判标准即可被判定通过图灵测试,另外这个计算机软件通过扮演一名年仅13岁,且第二外语为英语的男孩让参与测试的裁判大幅度降低了测试难度。
中国科学院自动化所研究员王飞跃在“关于人工智能九个问题”中也对图灵测试存在的问题进行了讨论,他的意见主要有以下两点:
(1)第一点是人类的智能并不是一个单一的对象,而是有多个类别组成,同样人工智能对应也是多类别组成。图灵测试究竟测试的那些类别并不明确,从实践上看,目前图灵测试仅仅局限在语言智能等特定小领域里,不具备代表性。
(2)图灵测试并不是考官对一台计算机测试后就可以宣布其是否拥有智能,图灵测试的本意是指一个广义的人类做个为整体的考官,其测试的时间段也不是具体的一段时间而是广义的时间段,即所有的人类在所有时间都分辨不出人与机器之后,才算其人类智能与人工智能等价。
从上述讨论可以看出,图灵实验只对人工智能系统是否具有人类智能回答“是”或“否”,并不对人工智能系统的发展水平进行定量分析,而且测试的智能或智力种类还过于单一;在测试方法上存在漏洞,容易被测试者找到漏洞从而产生作弊行为,从上述存在的问题看,图灵实验目前还无法承担定量分析智能系统智力发展水平的需求。
二,解决人工智能威胁论争论的四个困难
总体看,目前包括图灵测试在内的各种方案中还存在无法定量分析人工智能发展水平的问题,只能定性的判断一个人工智能系统是否和人一样拥有同等水平的智力。但这个系统和人类智慧进行对比,高低程度如何,发展速度与人类智慧发展速度比率如何,上述中研究没有涉及到可具体执行的思路和方案。我们认为这些问题长时间存在,主要与下面提到的四点困难有关。
(1)第一个困难是没有统一的模型和测试方法对不同的人工智能系统进行测试。人工智能无论从理论研究还是从应用实践都存在众多分支和发展方向。在理论上人工智能分为三大学派,如符号主义(Symbolicism)或计算机学派(Computerism);连结主义或生理学派(Physiologism);行为主义(Actionism)或控制论学派(Cyberneticsism)等。在应用实践上,人工智能可以应用的方向包括符号计算、模式识别、机器翻译、机器学习、问题求解、逻辑推理与定理证明、自然语言处理、分布式人工智能、计算机视觉、智能信息检索、专家系统等等。
每种具体的人工智能系统往往只具备一个或若干上述提到的功能。例如IBM的深蓝强于计算能力,在国际象棋方面可以与人类对手一决高下;沃森系统拥有庞大知识库系统,因此可以在常识问答比赛中击败人类选手。因为没有统一的模型可以涵盖这些人工智能系统,就无法形成统一的测试方法进行测试和比较。如图1.2所示,人工智能系统A 在计算能力上得分为100,人工智能系统B 在计算机视觉识别上得分为80,人工智能系统C在机器翻译测试得分为90分,我们仍然无法得出结论A的智力能力高于C,C的智力能力高于B的结论。