闻声识人——声纹识别技术简介_前沿技术_物联网_中国计算网——工业互联网一站式服务平台—

　　在识别性能上，我们以团队内部真实环境下采集的数据作为测试样例将数字i-vector与传统的i-vector、和RSR 2015一起发布的HiLAM文本相关识别框架进行了比较，包括了数万规模的目标样本测试与数十万规模的攻击样本测试，实现了等错误概率(EER)小于1%，千分之一错误率下的召回率大于95%的识别性能。我们自主研发的数字i-vector，性能要远好于现有的声纹识别框架。

　　6. 且行且思-关于声纹的展望与反思

　　尽管在适配i-vector与文本相关识别中，我们的尝试与探索有了一些突破，但我们仍然需要看到声纹识别在应用中的局限：动态变化的发声器官与声音，它们的稳定性依然还不及人脸与图像。除非哪天中风了，很难想像会有什么理由使得人脸识别失灵;但是感冒发烧则会改变我们的声道结构，自己的声音也会发生变化。

　　而声纹的识别精度相较人脸与图像还有比较明显的差距。深度学习的浪潮中，声纹的演进似乎也还是不温不火，而声纹识别的“兄弟”语音识别早已乘着深度学习的航母向前驰骋，这其中的原因有声纹固有的难点，想啃下这块硬骨头，我们要做的事情还有很多。

　　而优图在声纹的深度学习推进中也从未停下脚步，除了随机数字识别，在文本无关识别应用中，我们自研的从基于DNN的说话人分类网络中提取的深度特征(也称为瓶颈特征(bottleneck feature))，辅助i-vector进行分数层面的融合也让i-vector的识别性能在过去的基础上跨进了扎实的一步。在未来，优图团队有信心在人工智能的这股浪潮中激流勇进，贡献出更多更好的产品，服务大众，让每个人都能感受到科技为生活带来的便捷。

　　参考文献

　　[1] http://www.itl.nist.gov/iad/mig/tests/spk/

　　[2] Larcher, Anthony, et al. "RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases." INTERSPEECH. 2012.

　　[3] Fu Tianfan, et al. "Tandem deep features for text-dependent speaker verification." INTERSPEECH. 2014.

　　[4] Vasilakakis, Vasileios, Sandro Cumani, and Pietro Laface. "Speaker recognition by means of deep belief networks." (2013).

　　[5] Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 (2005).

　　[6] Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.

　　雷锋网注：本文为腾讯优图授权雷锋网发布，如需转载请联系授权，并保留出处和作者，不得删减内容。

7/7 首页上一页 5 6 7