90%的人甚至更多,在我第一次放这个录像,第一个反应就是这机器方言识别不好,真的是这样吗?如果各位在你们的手机里面,没有发现识别率是百分之百软件的话,我说这么一句话,山东话识别率到90%以上你们会觉得什么样?一定会觉得不错。如果识别到90%错一个数字。
问题的关键难点不在于本身,不在于百分之百的识别率,而在于容错与纠正。左边这个例子是说到苏州后在九寨沟吃饭,这话理解有非常多不确定性,只有在你有上下文的情况下,你知道我在什么条件下说这个事,才能更加准确的理解。
类似刚才说135的时候,如果上海跟大家说三个字这么大一个舞台,没有人知道。我现在说135你一定知道,所以这样一类理解上的错误。除了容错还得能推理,到底纠正哪一段,需要后面的智能,重要的是这哥们是一个真实的用户,他不是一个工程师。所以不按常理出牌,老打段这个机器,人被打段好办,机器被打断全都乱套。
二、认知性自然口语交互
这样一个事情,理解、推理问题的处理和单纯的语音识别其实是互补。而这个就是我们所说,要做认知性的自然口语交互,它和普通的框架有什么不一样呢?
各位看到了红色的部分是原始的框架,白色的部分是认知性的框架,最大的特点就是加入对话管理和环境感知,使得对语音识别错误更加的容忍,实在容忍不了的部分,通过交互去纠正过来,在这个里面不认为语音识别精确,认为语音是是高效的管道而已,这些不确定性在情节理解中被消除掉的。
各位可以看到,这是加入了对话环境以后,可以去处理这样的问题。当然这只是一个局限拨号领域,相关的东西已经在车载一些产品当中应用的还在不断的拓展相关的领域。
给大家这个概念,从交互平台上讲,不单单有感知,还要有认知,这个就是所谓自然语言认知交互的未来,把理解和决策表述这样认知技术,与前端非常强大的识别和非常好的合成技术结合在一起,在以后认知还会向后边扩展,会进行更多的搜索和数据处理,实现知识意义上更加自由的交互。
所以我们在智能硬件时代,今天核心讲的是认知智能当中的理解和对话控制,以及打断抢话这样一类的技术,真正涉及到的技术,其实还包括了感知中的噪声处理技术、远场技术、提示纠正推理的技术,这些感知认知抽象思维技术合在一起,就成为智能硬件物联网时代的工智能综合技术。