思必驰首席科学家俞凯:语音“交互”与“识别”是两个概念

  最初2代iPhone是没有语音功能的,苹果当时做了一个调查,75%用户希望加一个语音的功能,在后两代iPhone推出却发现只有5%的用户去使它。后来又做了一个研究,苹果HROT的做的,当初得出一个结论,不好的主要原因是你不是自然语言,如果不能和人自由交互这个东西没有前途。

  后来他们收购了一家公司,就是后来的Siri集成到苹果的Iphone当中,发现一个很有趣的现象,87%的用户都是在调戏Siri,很少用Siri去真正完成任务,发现这个语音特别不稳定,有时候很准,有时候不准。而且刚才都是我说一句,机器恢复一句,这样一个模式,发现这样的模式不行。

  到了在2014年的时候,要判断未来什么样的东西是下一代,最后是看最终用户的目标,单句的语音理解可能还不行,于是就提出一个很重要的概念,用对话的技术改造Siri,这是为什么在2015年收购了一家英国的人工智能公司,搞的语音交互。

  收购这家公司后Siri原来的团队不满意了,很多都离职了。离职之后又推出一个新的产品,是一个对话产品,这里面会强调不单单是单独这样的交互,我要用对话的方式去改造。人类对对话起码会是什么样的东西?

  NLP(自然语言处理)与对话系统

  很多人认为,我们搞人工语音和机器交互界面,真正做这个对话交互的研究的时候,我们会发现自然语言处理里面出现一个新的任务,随着移动互联网和物联网的产品新出现的——叫做自然口语对话,希望以自然口语对话的方式实现真正机器助理这样思路。

  这里面包括苹果的Siri向这个方向走的,最近facebook出现了对话API,认为是人工智能的未来,这里面到底有什么东西?

  实际上在我们刚开始所有的东西里面,一开始我说到了搞语音还是那句话,大家反应是识别,我说到对话它的新东西就在这,我们可能要解决三类,从技术上讲有不同的类型:

  1、问答式对话:一类是问答,我说一个你能够告诉我答案,大家要注意是告诉答案,不是告诉我各种可选择的搜索结果,答案意味着要去筛选,我给的图片是IBM的沃森在这个节目上用这个机器对话的方式,就机器问答的方式战胜人类选手的图片。

  2、闲聊式对话:第二类是闲聊,调戏Siri这块,这类往往没有商业模式但是体现了某种机器智能。

  3、任务型对话:第三类是任务性对话,真的帮助你完成任务。比如郭买一杯咖啡,是买星巴克还是其他家,通过任务型对话帮你完成任务,这是对话技术最关键的部分。

  作为从公司的角度来讲,思必驰最重要的特点是把对话交互技术作为核心组织各种各样的语音智能,深耕垂直场景的语音交互技术,现在主要是在做智能车载、智能家居、智能机器人的解决方案,核心一点就是在智能硬件上做语音交互。

  我们这家公司做的就是智能硬件物联网时代的交互智能平台,在语音识别加上自然语言处理的基础之上做架构性的调整,去做后面交互反馈智能的实时。

  自然语言交互的预期:交互与认知

  可以看一下,人类对交互反馈智能预期是什么,刚刚曾经看过Siri,有人对这个Siri做了一个很有趣的视频,Siri达不到我们的要求,Siri这种情况下怎么处理?(视频)。

  大家注意到很前一个视频不大的最同不是什么,看着是一个笑话,最大的不同是这个机器介入到了人与人之间的交互,开始主动的做一些事,比如说想逃。

  这样一类涉及到单纯的语音界面,解决不到交互认知的问题,要同时解决记忆、推理、建议以及相应的一些决策的问题。这个就是我们在人工智能和认知计算上的角度上来说,去解决交互智能很关键的点,思必驰是第一个把认知智能层次的概念引入到国内公司。

  一、人工智能与认知计算

  简单说一下,现在智能本身大概有这么几个层面,计算,感知认知到抽象思维,这几个层面里面,感知的部分没有强调,实际上可以单独讲一次,我们今天主要强调认知。

  认知本身有三层次,大部分人认识到理解很重要,这是静态认知;所谓动态认知是指给了一句话知道要反馈什么,叫做反馈控制;还有认知进化,想反馈的时候我的习惯是什么,这一类产生进化,这是三个不同的层次。

  我们看的比较具体的东西。到底交互和这个识别之间是什么关系,我们看一个关于纠正方面的录像。(视频)