语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如Siri以及各种语音助手,到现在,语音识别的应用已经完成了向智能硬件以及机器人上延伸,不过,新的人机交互对硬件、算法要求更加苛刻,各企业正面临着巨大的挑战。
那么实现人机交互需要解决哪些问题?这其中的关键技术有哪些?人机交互的未来趋势如何?本期硬创公开课邀请了科大讯飞的研发主管赵艳军为大家答疑解惑。
分享嘉宾:赵艳军, AIUI项目负责人,科大讯飞云平台研发主管,负责讯飞开放平语音识别、语音合成、声纹、唤醒等多项产品研发,同时负责人机交互解决方案AIUI的开发,致力于把核心技术更好的产品化,使人与机器的交流像人与人之间一样简单,自然。
人机交互的痛点
语音作为目前人机交互的主要方式,大家如果使用过,应该都能举出一些例子。比如说话要靠近,发音要标准,环境要安静,不能持续对话,不能打断等。
不只是语音,包括图像、障碍物检测等技术,都会遇到这样的问题,比如人脸的识别,对光线、角度、距离都有一定的要求。归结为一点就是,当前人机交互在复杂环境的自适应性方面,还有很多问题需要解决。这还只是感知层面,另外还包括认知层面,AI目前还不如我们想象的这么聪明,目前不能完全自主学习,仍然需要人的介入,比如知识库的导入,机器行为的纠正等,都需要人的参与。
当前的人机交互产品,在真正面对用户时,在面对复杂环境时,鲁棒性还不够好。今天的分享,我们一起探讨如何解决这些问题,不管是通过算法,还是工程,抑或产品,都是我们可以选择的途径。
大家首先要有个共识,人机交互目前所面临的问题,不是一朝一夕,一蹴而就能解决的,需要在各个方向在核心技术上不断进步。
科大讯飞AIUI是怎么做的?
AIUI作为人机智能交互界面,旨在实现人机之间交互无障碍,使人与机器之间的交流,像人与人一样,可以通过语音、图像、手势等自然交互的方式,进行持续,双向,自然地沟通。 它由一套由云和客户端相结合服务框架构成,包括音视频前端信号处理、云+端相配合交互引擎、内容和知识平台以及接口、用户个性化系统等。平台具备开放性,第三方可进行灵活配置、业务扩展、内容对接等。
以前的语音交互产品,包括讯飞在内,大家提供的都是单点的能力,比如语音合成、语音唤醒、语音识别、语义理解,另外还有人脸识别、声纹识别等。大家拿到这么多产品和能力,需要花很大的工作量,去开发人机交互功能。
这种方式问题比较明显:
一方面是产品集成的工作量太大,造成很多中小开发者无力去承担这部分工作量;
另外就是因为交互流程太长,细节不好处理,造成各家产品的交互体验参差不齐。
所以AIUI交互方案首先要解决的就是这个问题。 AIUI是把麦克风阵列、前端声学处理、语音唤醒、端点检测、语音识别、语义理解、语音合成等技术在整个交互链上进行深度融合的系统。
而且AIUI还支持了全双工、多轮交互等新特性,并在单点技术上进行突破和演进,包括声源定位与追踪、持续在线,有效人声智能检测、基于用户意图的动态语音端点检测、支持上下文交互的语义理解、基于对话场景自适应的语音识别等。
科普:语音交互的过程
首先,人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,在传统的语音交互中,因为是近场,语音信号质量相对较高,而且有触摸屏辅助,所以交互链路可以相对简单。 通过点击屏幕触发,再通过点击屏幕或者能量VAD检测,来结束语音信号采集,即可完成一次交互,整个过程通过语音识别、语义理解、语音合成即可完成。