今天,搜狗地图发布了一款全语音 “搜狗智能导航”,该技术使用的是搜狗积累的语音技术和语义理解,在将数据重构后,从而实现车内的全语音交互。目前已实现在车内通过自然语音交互实现拨打电话、发短信、实时天气查询、实时股票行情查询、歌曲查找与播放、新闻查询与推荐、导航信息查询、火车票信息查询、聊天小助手等功能。
这款产品可以运行在手机上,也可以通过手机车机互联协议(例如在搜狗与捷豹路虎 XE 车型的合作中,手机车机互联方案用的是博世 MySpin)连接到车机,或者直接运行在车机操作系统上(这个需要搜狗地图与前装车厂达成合作)。
搜狗地图总经理孔祥来向 36 氪介绍了搜狗智能语音,他告诉我,搜狗智能语音具备语音交互、语义理解以及搜索服务的完整能力,近一年来搜狗搜索日均语音搜索次数增长超过 4 倍,手机输入法日均语音输入超过了 1.2 亿次,其语音技术也得以在用户产品的迭代中取得了发展。
以下是孔祥来向我介绍的一些搜狗语音特点:
在线语音识别
通用识别准确率高于 97%,响应时间低于 500ms,每分钟至少输入 200 字以上,通用的噪声及口音解决方案;
离线语音识别
命令词识别准确率高于 98%,随便说高于 93%,实时率低于 0.5 倍实时,唤醒正确率高于 95%;
语音合成
离线 + 在线解决方案,男女声多音色个性化定制,合成速度低于 0.05 倍实时。
语义理解
指令控制和服务获取,知识问答和闲聊,多轮交互和语音纠错,基于用户场景和消费历史的智能推荐
搜索服务
搜狗地图提供的语音整合能力,搜狗移动搜索已打通的各行业资源,搜狗新闻的个性化新闻推荐能力,以及搜狗知立方的推理能力。
当然,这次既然推出车载语音导航,搜狗也对其语音技术进行了车载方案优化,具体来说,优化方案包括定向 MIC,以降低周围干扰,做了一套降噪算法,其识别效果接近安静环境,同时还做了回声消除,支持语音打断,另外,孔祥来表示搜狗地图还针对 POI 进行了专门优化,识别正确率为 99%。之前搜狗共进行了 4000 多小时的车载语音训练。
语义理解方面,搜狗可以实现全程人机对话,支持超过 10 万级节点的语义网络,启发式对话模型确保会话收敛度为 80%,可以理解用户意图。
在我看来,搜狗的语音导航有一个很大亮点,即它可以通过分析用户意图,看到用户语音请求背后的真正意图,加上它还可以与用户进行多轮交互,这样就可以对用户做出进一步服务。例如用户语音搜索 “虹桥机场”,搜狗语音会进一步提问是去停车场还是出发层(对应接送人)。
此外,可以延展的功能还包括,比如用户要在五一期间去国展,搜狗会推荐用户看车展,以及停车攻略等等;另外当用户开车去外地的时候会自动进入旅行模式,这样用户路过著名地标和建筑物搜狗会进行主动的语音推送。孔祥来强调,在这些过程中,用户均可以对所输入的信息进行语音修正,以做到只用语音而不用手指。
除了导航,搜狗语音也可以用于开空调、打电话的指令控制,查天气、找饭店的服务获取、以及搜索、知识问答等功能。