人工智能在智商测试中击败人类

  

  早在100多年前,德国心理学家William Stern就推出了IQ测试,用来测量人们的智力。从此以后,IQ测试结果就成为现代生活中判定孩子学习能力以及成年人工作能力的一种标准。

 

  IQ测试通常包括三类问题,即逻辑问题(如图形推理)、数学问题(如发现数列规律)以及文字推理类问题,这些问题都是基于类比、分类、同义词或反义词设置。

  正是文字推理类问题吸引了中国科技大学的王华正(Huazheng Wang)等以及北京微软研究院的高斌等研究人员。电脑向来不擅长文字推理类问题,在一个自然语言处理机器里输入文字推理类问题,机器的表现会很糟糕,甚至与一般人的能力相比都相距甚远。

  而现在,这一切都在发生着改变。研究人员研发的深度学习机器在处理文字类推理问题方面的能力已经首次超过了一般人。

  将语言问题变成数学问题

  最近几年,电脑科学家通过使用数据挖掘技术分析巨大的文本语料库,以发现语料之间的联系。这尤其给王华正等科学家统计单词出现模式带来了极大的便利,比如某个特定的词在其他词前后出现的频率。这就使得在巨大的参数空间里,理清单词之间的关系成为了可能。

  这样,在这个高纬度空间里就可以将单词看做一个个向量,像其他向量一样,可以使用比较、增值以及减值等数学方法进行处理。这样就会得到诸如下面的向量关系:国王—男人+女人=女王。

  这个方法现在已经取得重大成功。谷歌假设相近向量代表的不同语言词序列在意思上是对等的,实现了语言自动翻译。

  但是,这种方法有一个显著的缺陷,即假设中,每个单词的含义均由单一向量指代,因此单词的含义也是单一的。而文字测试倾向于使用多义词增加问题的难度。

  

  王华正等人通过查找单词在语料库中的常见搭配解决了这一问题。接下来他们运用运算法则观察这些单词的分布。最后通过词典查出单词的不同含义,并将这些不同含义与不同分布的同一单词对应联系起来。

 

  因为字典释义里本身就包含单词不同释义的例句,因此这个步骤可以自动完成。通过分析这些句子里的向量表示,并且将它们与每个分布点的向量表示进行比较,就可能实现它们的对应。

  总体来说,这种方法就是鉴别单词的不同含义。

  除了上述方法,还有其他妙招用来提升电脑处理文字推理问题的能力。妙招的关键点在于这些推理类问题可以进行分类,可用用略微不同的方法进行处理。

  因此,他们想到如果电脑可以辨别出问题的类型,就可以选择适当的处理策略。因为同一类型的问题具有相似的结构,所以这个方法就显得简单快捷。

  类比问题如下:

  1.等温线之于温度相当于等压线之于()?

  A.大气 B. 风 C. 压力 D. 高度

  2.从括号中选出能与大写英文单词搭配的一个英文单词()?

  A. CHAPTER (book, verse, read) B. ACT (stage, audience, play)

  单词分类问题如下:

  1.从以下选项中选出不同的一项()。

  A.Calm B. Quiet C. Relaxed D. Serene E. Unruffled.

  同义词与反义词问题如下:

  1.从以下选项中选出与英文单词irrational意思最接近的一项()。

  A. intransigent B. irredeemable C. unsafe D. lost E. nonsensical

  2. 从以下选项中选出与musical意思相反的一项()。

  A. discordant B. loud C. lyrical D. verbal E. euphonious

  对掌握算法的机器来说,只要提供足够的学习样本,对问题类型的识别就会相对简单。这也正是王华正等人正在研究的事。

  识别出问题类型之后,王华正等人采用标准向量法为每个类型问题的处理设置了运算法则。他们采用的标准向量法是自己研发的多义升级。

  介于学士与硕士之间

  他们将这种深度学习方法与其他能够处理文字推理的算法以及人类处理文字推理的能力进行了比较。然而,结果十分惊人。“出乎我们意料的是人类的平均表现竟比不过深度学习机器”。

  人类在这些测试中的表现往往跟他们的教育背景有关。因此,拥本科学历的人比拥有高中学历的人表现要好,拥有博士学历的表现最好。王华正等人称他们的深度学习机器模型智力水平介于学士和硕士之间。