语音识别的痛点在哪，从交互到精准识别如何做_前沿技术_物联网_中国计算网——工业互联网一站式服务平台—

　　语音识别是目前应用最成熟的人机交互方式，从最初大家体验过的有屏手持设备这种近场的语音识别，如Siri以及各种语音助手，到现在，语音识别的应用已经完成了向智能硬件以及机器人上延伸，不过，新的人机交互对硬件、算法要求更加苛刻，各企业正面临着巨大的挑战。

　　那么实现人机交互需要解决哪些问题?这其中的关键技术有哪些?人机交互的未来趋势如何?本期硬创公开课邀请了科大讯飞的研发主管赵艳军为大家答疑解惑。

　　分享嘉宾：赵艳军， AIUI项目负责人，科大讯飞云平台研发主管，负责讯飞开放平语音识别、语音合成、声纹、唤醒等多项产品研发，同时负责人机交互解决方案AIUI的开发，致力于把核心技术更好的产品化，使人与机器的交流像人与人之间一样简单，自然。

　　人机交互的痛点

　　语音作为目前人机交互的主要方式，大家如果使用过，应该都能举出一些例子。比如说话要靠近，发音要标准，环境要安静，不能持续对话，不能打断等。

　　不只是语音，包括图像、障碍物检测等技术，都会遇到这样的问题，比如人脸的识别，对光线、角度、距离都有一定的要求。归结为一点就是，当前人机交互在复杂环境的自适应性方面，还有很多问题需要解决。这还只是感知层面，另外还包括认知层面，AI目前还不如我们想象的这么聪明，目前不能完全自主学习，仍然需要人的介入，比如知识库的导入，机器行为的纠正等，都需要人的参与。

　　当前的人机交互产品，在真正面对用户时，在面对复杂环境时，鲁棒性还不够好。今天的分享，我们一起探讨如何解决这些问题，不管是通过算法，还是工程，抑或产品，都是我们可以选择的途径。

　　大家首先要有个共识，人机交互目前所面临的问题，不是一朝一夕，一蹴而就能解决的，需要在各个方向在核心技术上不断进步。

　　科大讯飞AIUI是怎么做的?

　　AIUI作为人机智能交互界面，旨在实现人机之间交互无障碍，使人与机器之间的交流，像人与人一样，可以通过语音、图像、手势等自然交互的方式，进行持续，双向，自然地沟通。它由一套由云和客户端相结合服务框架构成，包括音视频前端信号处理、云+端相配合交互引擎、内容和知识平台以及接口、用户个性化系统等。平台具备开放性，第三方可进行灵活配置、业务扩展、内容对接等。

　　以前的语音交互产品，包括讯飞在内，大家提供的都是单点的能力，比如语音合成、语音唤醒、语音识别、语义理解，另外还有人脸识别、声纹识别等。大家拿到这么多产品和能力，需要花很大的工作量，去开发人机交互功能。

　　这种方式问题比较明显：

　　一方面是产品集成的工作量太大，造成很多中小开发者无力去承担这部分工作量;

　　另外就是因为交互流程太长，细节不好处理，造成各家产品的交互体验参差不齐。

　　所以AIUI交互方案首先要解决的就是这个问题。 AIUI是把麦克风阵列、前端声学处理、语音唤醒、端点检测、语音识别、语义理解、语音合成等技术在整个交互链上进行深度融合的系统。

　　而且AIUI还支持了全双工、多轮交互等新特性，并在单点技术上进行突破和演进，包括声源定位与追踪、持续在线，有效人声智能检测、基于用户意图的动态语音端点检测、支持上下文交互的语义理解、基于对话场景自适应的语音识别等。

　　科普：语音交互的过程

　　首先，人机之间的语音交互(这里主要指智能硬件、机器人等)，区别于传统的有屏手持设备，在传统的语音交互中，因为是近场，语音信号质量相对较高，而且有触摸屏辅助，所以交互链路可以相对简单。通过点击屏幕触发，再通过点击屏幕或者能量VAD检测，来结束语音信号采集，即可完成一次交互，整个过程通过语音识别、语义理解、语音合成即可完成。

1/5 1 2 3 4 5 下一页尾页