智能语音做下一个交互入口 哪些场景才是未来?

编者按:5月29日下午,有网易科技&智能硬件主办的第四季开物沙龙在北京举行,本次主题为智能语音与聊天机器人。微软资深产品总监、小娜项目负责人闫勃,ROOBO CTO雷宇,云知声CTO梁家恩,海知智能CEO谢殿侠,思必驰CMO龙梦竹,出门问问NLP工程师李理分别发表了演讲。与此同时,北极光创投副总裁蔡伟还与以上嘉宾进行了深度交流与讨论。包括智能语音和聊天机器人都有哪些进步?智能语音是不是下一个互联网入口?目前聊天机器人的瓶颈到底是什么?哪些语音交互场景最具增长潜力?等等。

智能语音在最近得到了国外互联网巨头得到了相当程度的重视。除了苹果推出的Siri,谷歌发布的Google Now,以及微软推出的Cortana(小娜)以外,亚马逊近段时间大力推广Echo智能音箱,4月份,Facebook也宣布推出聊天机器人Messenger Platform,希望建立一个对话式的系统,实现订餐、下单、获取资讯等各种各样的服务。接着,谷歌在今年5月的I/O大会上就发布了Google Home智能音箱。那么,巨头们为何如此心切的布局智能语音和聊天类智能硬件呢?在巨头之外,中国的诸多创业公司也开始声势渐起。

智能语音和聊天机器人都有哪些进步?

目前聊天机器人的火爆,从技术角度看,微软小娜项目负责人闫勃认为主要有两点,一是得益于语音识别的提高,二是创业企业对垂直领域的语义理解技术的增强。这是做智能语音的企业从训练上拿到了更多语量,从实际的硬件产品使用上有了更多的用户数据。

从语音识别角度看,一些企业已经不仅仅限于识别文字,已经出现了识别语调甚至定制人的声音。据国内创业企业思必驰CMO龙梦竹介绍,思必驰已经能够做到只需通过很短时间的训练数据,比如20分钟或半小时,就能做出定制人的声音。当然,因为训练素材的问题,所以它的还原度没有那么高,不会像刚才的童音和名人声音那么真实,但至少能听出这个人的属性,让未来的声音可以定制化。

而在语义理解上,出门问问NLP工程师李理称,出门问问在语义分析做了很多事情,一是问答系统,包括回答垂直领域的问答。比如对60多家服务提供查询,比如查天气、查周围餐馆、讲笑话、切换歌曲和导航。另一个是通用领域的问答,比如“刘德华的老婆是谁?”“北京有多少人口?”等等。目前,出门问问已经针对不同场景和服务做了多轮对话业务,比如订餐、订咖啡、打车、手机充值,包括订票、送货、上门服务等。

从产业的角度看,云知声CTO梁家恩认为,聊天机器人的火爆是因为人工智能已经进入产业化阶段。在产业化的过程中,感知、认知和通用智能是三个不断深化发展的过程。目前市场正处于从感知到认知的变化过程。感知过程主要是从信号到符合辨识的问题,以前机器智能只能接受确定性符号,对于图像、语音这种变化性比较大的符号是没办法解决的。现在随着深度学习的推动个,不管是语音还是图像都取得了大的突破性进展,包括深度学习也在自动驾驶方面起到了非常好的结果。

智能语音是不是下一个互联网入口?

PC时代,浏览器成为了互联网的一道入口;到了移动互联网时代,以App  Store为代表各类应用商店成为了入口。而到了IOT(物联网)的时代,人工智能助手可能会成为入口。ROOBO CTO雷宇认为,从入口上可以看到用户界面的交互方式,最早看到的是Web,然后是App,到了新时代可能是自然语言。

海知智能CEO谢殿侠也认为,从键盘、鼠标到触摸屏、再到语音交互或者说自然语言交互,这实际上是三个时代的变革。实际上,作为业内很少露面的公司,海知智能的业务主要还是向开发者提供语义API接口,帮助开发产品。谢殿侠预计,到2020年人人事事物物都有自己的bot,就像皇帝有”三宫六院七十二妃“一样,达到需求的爆发。

关于智能语音与互联网相结合的未来的发展路径,雷宇称,现在所谓聊天机器人和Bot的基本框架,简单来讲它首先有一个载体。对于软件机器人,肯定是有超级App,Facebook在上面的野心是非常大的。包括腾讯的微信,从某种意义上,微信公众号也可以认为是机器人,只不过这个机器人和聊天系统比较隔离。之后一定会有智能助手出现,这是它的体现形式。然后后面是有很好的Bot  Framework,微软在这方面做得不错。最后还有一个服务方,因为一个企业不可能解决所有服务,因为用户最终还是要它。

聊天机器人目前的发展瓶颈到底是什么?

然而,虽然以智能语音为基础的聊天机器人在近期获得了很大的发展,市场上也推出了一大批聊天类机器人。但是,这些机器人和智能语音技术仍然面临语义理解不准确、用户黏性不强等问题。谢殿侠在沙龙上一针见血的指出,语言是思维的一种表述,语言本身有多样性,也有多义性,你怎么能够用现在二进制的计算机来理解多样性和多义性的语言呢?

云知声CTO梁家恩认为,聊天机器人面临的困难是不断的进行学习,而在机器学习方面面临的最大困难就是缺乏一个稳定性泛化能力。通俗的说,就是我们在实验室用得很好,在现实的复杂环境中却很难用起来。虽然目前的聊天机器人和特定的服务结合后获得了一些发展,但是如何解决随着数据积累越学越聪明,现在整个业界还没有特别好的机制和办法做这个工作。

龙梦竹认为,聊天机器人的最大瓶颈是缺乏人机交互,它的外观做得再漂亮,也不过是一个玩具。龙梦竹还称,我们在机器人里遇到的最大障碍就是远场交互的问题。现场很多厂商只能做到5米内的声源定位。

至于如何解决聊天机器人面临的困境,谢殿侠认为,智能语音这块要突破,第一还需要巨大的数据、好的算法,甚至可能牵涉到现在计算机的结构,另外知识图谱也是很大的挑战。闫勃认为,关于人工智能发展有几个绝对因素,一是核心产品,二是生态性,只有产品落地,才能反哺整个技术在产品层面的再发展。

哪些语音交互场景最具增长潜力?

智能语音技术和聊天机器人得到了较大程度的提升,但又面临一些问题。面向未来,创业企业该如何发展?哪些语音交互场景会成为最具潜力的市场?

关于智能语音交互的未来场景,沙龙嘉宾都表示,智能语音的技术应用应该集中在垂直领域上,例如小孩和老人。闫勃提醒到,智能语音的市场突破一定要有特定的人群、特定场景来体现。在具体场景上,雷宇认为,有潜力的使用场景是客服以及功能、助理类的场景。感情机器人和闲聊还有很长的路要走。龙梦竹则认为,智能语音目前被看好的交互场景应该是车载。这是因为家庭的场景太复杂,还需要数年的进步,但车载对于语音控制和对话是刚需。

谢殿侠称,目前智能语音技术应用的关键有三点,一是找到用户的痛点,落地到具体的产品。二是让机器人能懂得每句话的意思,理解准确。三是发展用户量。谢殿侠认为,从具体的能够突破的用户场景上,家庭里的智能音箱类产品会起来。第二块是出行领域,比如车载控制和对话会逐渐火热。第三块是办公领域,将会有各种各样专业的知识工作者会在或大或小的程度被简化或者被替代。

从产业链的角度看,不同于其他几家通过丰富的服务把信息查询到信息服务打成闭环的模式,出门问问的思路是做一个领域必须要从硬件、软件、操作系统各个环节都能深度定制,他们认为只有这样才能带给用户最好的体验。

放眼更远的未来,闫勃认为,人工智能下一阶段的发展,在电影作品、文学作品里,第一部最突出意义上的感情交流就是《HER》这部电影,主人公和人工智能(虚拟人)之间产生了情感交流。闫勃称,微软也会大力提倡“情感交流”的概念,这样才能让智能语音真正走近一个爆发点。