Siri、小度和小冰它们是怎么做到和你相谈甚欢的

视觉中国

你知道小冰吗？你呼叫过小度吗？你和小娜互动过吗？你使用过Siri吗？若是都没有，那你就out了。它们都是当下很火爆的智能语音机械人，好多人都和它们聊过天。

日前，美国投资机构Mangrove Capital Partners发布了2019年《语音手艺申报》。申报剖析了语音助理办事的日益普及，并展望苹果2020年将推出Siri把持系统。那么，事实什么是语音手艺？它有哪些应用？语音把持系统又是什么？为此，记者采访了相关专家。

经由纯语音信息实现与机械交互

与图像识别、机械进修一般，智能语音是人工智能的一个分支。在人工智能非常火热的当下，从Siri到小度，从小冰到小娜，智能语音正在融入人们的生活之中。

所谓智能语音手艺，就是研究人与较量机直接以天然语音的体式进行有效沟通的各类理论和方式，涉及语音识别、内容懂得、对话问答等。一样来说，智能语音就是行使较量机对语音信息进行主动处理和识其余手艺。

“从引擎模块的角度讲，智能语音手艺包罗语音前端处理（含语音增加）、语音识别、语音合成、语义懂得对话治理和声纹识别等模块。个中，语音识别就是将语音信息经由较量机主动处理转化成文字的过程，也叫语音转写，它包罗语音分段、端点检测、特征提取、解码以及后处理等过程。”中国科学院声学研究所（以下简称中科院声学所）研究员赵庆卫敷陈科技日报记者。

今朝，智能语音手艺首要应用于智能家居、虚拟助手、可穿戴设备、智能车载、智能客服、智能医疗、陪同机械人等方面。所谓虚拟助手，就是智能语音助手，它的焦点在于人类经由纯语音信息实现与机械的交互，让智能机械“助手”帮助完成指派的义务。

在赵庆卫看来，语音把持系统是一个对照勇敢的设想，基于语音的人机交互有很大的成长潜力，所以不少互联网企业都看好这个偏向。今朝，亚马逊已经打造了一个智能语音云..（Alexa），..上有各类智能语音应用（8万种花样），在这个..上，用户能够经由语音发出一系列指令，好比购物、搜刮、听音乐、讲故事等。

智能语音手艺的宿世此生

事实上，智能语音手艺的研究发源于20世纪50年月。1952年，美国贝尔实验室制造了一台6英尺高的主动数字识别机“Audrey”，它能够识别数字0—9的发音，且正确度高达90％以上。而且它对熟人的精准度高，而对生疏人则偏低。1958年，中科院电子所的声学研究室行使电子管实现了10个元音的识别。“因为那时较量能力很弱，智能语音只能做一些稀奇简洁的字母或数字的识别。”赵庆卫说道。

20世纪60年月到70年月初，语音识其余研究取得了必然进展。“此时，智能语音手艺起头形成系统的框架，提出了基于线性展望编码（LPC）手艺的特征提取方式和动态时间规整（DTW）手艺，而且使用模板成家的方式做一些简洁的语音识别（小词汇量、特定人、孤立词）”。

从20世纪70年月中期到80年月，语音识其余框架有了冲破，统计模型慢慢庖代模板成家的方式，隐含马尔科夫模型成为语音识别系统的根蒂模型。同时，也采用高斯夹杂模型作为声学模型的首要建模方式，保持词识别和中等词汇量一连语音识别获得了较大成长。

“到90年月的时候，根蒂的神经收集语音识别模型已经提出。但其时神经收集语音识别模型之所以没能取得较大的冲破，首要是因为其时办事器的较量能力不敷强以及练习语音数据的量不敷多。”赵庆卫说，90年月时的神经收集语音识别模型没能替代传统方式，此时智能语音手艺照样以隐含马尔科夫模型和高斯夹杂模型为根基框架。

从20世纪90年月到21世纪初，非特定人、大词汇量、一连语音识别系统的研究成为国际语音界研究偏向的主流。1997年，IBM首个听写产物Via Voice问世，用户只要对着话筒说出想要输入的文字，系统就会主动识别并输出文字。

2002年，中科院主动化所推出了“天语”中文语音系列产物——Pattek ASR；2005年，中科院声学所推出国内第一个自立研发的电信级语音识别..，首次实现了国产语音识别软件的规模应用，在中国移动23个省的增值买卖上线应用，占有了国内80%市场份额，使美国公司对中国语音识别市场的垄断成为汗青。

深度神经收集框架成为主流

2010年，跟着办事器的较量能力大幅提高（受益于GPU的应用）和练习语音数据的大幅度增加（受益于移动互联网和云较量的成长），微软基于深度神经收集的语音识别研究取得较猛进展，“识别错误率相对下降20%以上”。此后，深度神经收集的建模优势被很多国际和国内知名语音研究机构所验证，业界起头熟悉到基于深度神经收集的建模框架比本来的框架识别结果显着要好，“如今人人根基都采用了基于深度神经收集的建模框架。”赵庆卫说道。