语音识别技术的探究_手机_

刘雨燃

【摘要】随着现代科学技术的发展，语音识别技术广泛运用于人们日常生活的方方面面，为机器与人的交互提供了新的形式。本文将探究传统语言识别技术的发展，介绍经典语音识别技术的发展历程，描述典型语言识别框架的组成模块，以及展望语音识别技术的未来发展趋势。近年来，由于机器学习，特别是深度神经网络的发展，语言识别的准确率和实用性得到了大幅度提升。

【关键词】语音识别语言模型声学模型人工智能

使用智能手机的朋友们都会对语音助手产生极大的兴趣，不管是微软的Cortana，还是苹果的Siri，都是将语音识别融入现代技术的典范。語音识别是解决机器“听懂”人类语言的一项技术，也是人工智能重要部分。

语音识别技术（speech recognition），也被称为自动语音识别（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而前者的目标是语音中所包含的词汇内容。

探究语音识别技术的框架、应用与发展有利于全面了解语音识别。本文将从语音识别简介、主流语言识别框架以及语言识别近年来的发展三个方面探究语音识别。

1 语音识别简介

1.1 传统语言识别技术发展

对语音识别技术的研究可以追述到上世纪五十年代，1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统，开创了语音识别的先河。上世纪六十年代，人工神经网络被引入了语音识别。上世纪七十年代以后，大规模的语音识别在小词汇量、孤立词的识别方面取得了实质性的进展。传统语音识别技术最大突破是隐式马尔可夫模型的应用，这一模型极大提高了语音识别的准确率[1]。

1.2 语言识别的应用

作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别一直受到各国科学界的广泛关注。如今，随着语音识别技术的研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。在现实生活中，语音识别技术的应用相当广泛，它改变了人与计算机交互的方式，使计算机更加智能。和键盘输入相比，语音识别更符合人的日常习惯；使用语言控制系统，相比手动控制，语音识别更加方便快捷，可以用在工业控制、智能家电等设备；通过智能对话查询系统，企业可以根据用户的语音进行操作，为用户提供自然、友好的数据检索服务。

2 语音识别框架

目前主流的语音识别框架可以分为以下几个模块：信号处理，特征提取，声学模型，语言模型，解码器。

2.1 信号处理

信号处理模块是对语音文件进行预处理。声音是一种纵波，在识别语音时，输入为WMV，MP3等格式的文件会被转换成非压缩的纯波文件wav格式。然后在进行语音识别前，需要检测该文件中的语音信号，该技术被称之为语音活性检测[2]。使用语言活性检测技术可以有效降低噪音，去除非语音片段，提高语音识别的准确率。经典的语音活性检测算法由如下步骤组成：

（1）使用spectral subtraction等方法对语言序列进行降噪。（2）将输入信号的分成区块并提取特征。（3）设计分类器判断该区块是否为语音信号。

2.2 特征提取

特征提取目的是提取出语音文件的特征，以一定的数学方式表达，从而可以参与到后续模块处理中。在这一模块，首先要将连续的声音分成离散的帧。每一帧的时间既要足够长，使得我们能够判断它属于哪个声韵母的信息，若过短则包含信息过少；每一帧时间也要尽量短，语音信号需要足够平稳，能够通过短时傅里叶分析进行特征提取，过长则会使信号不够平稳。分帧时使用如下改进技术可以有效提高识别准确率：相邻的两帧有所重叠减少分割误差，将与临近帧之间的差分作为额外特征，将多个语音帧堆叠起来。通过分帧处理，连续的语音被分为离散的小段，但还缺乏数学上的描述能力，因此需要对波形作特征提取。常见的方法是根据人耳的生理特征，把每一帧波形变换成一个多维向量。因此，这些向量包含了这些语音的内容信息。该过程被称为声学特征提取，常见的声学特征有MFCC、CPE、LPC等。

MFCC是目前最常用、最基本的声学特征，提取MFCC特征可以分为如下四个步骤：首先对每一帧进行傅里叶变换，取得每一帧的频谱。再把频谱与图1中每个三角形相乘并积分，求出频谱在每一个三角形下的能量，这样处理可以减少数据量，并模仿人耳在低频处分辨率高的特性。然后取上一步得到结果的对数，这可以放大低能量处的能量差异。最后对得到的对数进行离散余弦变换，并保留前12～20个点进一步压缩数据。通过特征提取，声音序列就被转换为有特征向量组成的矩阵。

2.3 声学模型

声学模型是语音识别中最重要的组成部分之一，其用于语音到音节概率的计算。目前主流的方法多数采用隐马尔科夫模型，隐马尔可夫模型的概念是一个离散时域有限状态自动机。

隐马尔可夫模型HMM如图2所示，是指这一马尔可夫模型的内部状态x1，x2，x3外界不可见，外界只能看到各个时刻的输出值y1，y2，y3。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征，输入是由特征提取模块提取的特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值Y只与当前状态X（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

早期的声学模型使用矢量量化（Vector Quantification）的方法，使其性能受到VQ算法的极大影响。对于连续取值的特征应当采用连续的概率分布如高斯混合模型或混合拉普拉斯模型等。为了解决模型参数过多的问题，可以使用某些聚类方法来减小模型中的参数数量，提高模型的可训练性。聚类可以在模型层次，状态层次乃至混合高斯模型中每个混合的层次进行。

2.4 语言模型

语言模型音节到字概率的计算。语言模型主要分为规则模型和统计模型两种。相比于统计模型，规则模型鲁棒性较差，对非本质错误过于严苛，泛化能力较差，研究强度更大。因此主流语音识别技术多采用统计模型。统计模型采用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。

N-Gram基于如下假设：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率即为各个词出现概率的乘积。词与词之间的概率可以直接从语料中统计N个词同时出现的次数得到。考虑计算量和效果之间的平衡，N取值一般较小，常用的是二元的Bi-Gram和三元的Tri-Gram。

2.5 解码器

解码器是语音识别系统的核心之一，其任务是对输入信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。在实践中较多采用维特比算法[3]搜索根据声学、语言模型得出的最优词串。

基于动态规划的维特比算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。维特比算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。

维特比（Viterbi）算法的时齐特性使得同一时刻的各条路径对应于同样的观察序列，因而具有可比性，Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是当前语音识别搜索中最有效的算法。

3 语音识别技术的发展

近几年来，特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技术得到突飞猛进的发展。

在模型方面，传统语音识别模型逐步被神经网络替代，使用神经网络可以更好地提取特征，拟合曲线。使用人工神经网络来提高语音识别性能的概念最早在80年代就提出了，但当时高斯混合模型在大词汇语音识别上表现得更好，因此人工神经网络并没有进行商业应用。随着相关技术的进一步发展，微软研究院利用深度神经网络建立了数千个音素的模型，比传统方法减少了16%的相对误差。其在建立起有超过660万神经联系的网络后，将总的语音识别错误率降低了30%，实现了语音识别巨大的突破[4]。

同时目前多数主流语言识别解码器采用了基于有限状态机的解码网络，该网络将语音模型、词典、声学共享音字集统一为大的解码网络，大幅度提高了解码速度。

在数据量上，由于移动互联网的急速发展，从多个渠道获取的海量语言原料为声学模型和语言模型的训练提供了丰富的资源，不断提升语音识别的准确率。

4 结语

语音是人们工作生活中最自然的交流媒介，所以语音识别技术在人机交互中成为非常重要的方式，语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。而随着深度神经网络发展，硬件计算能力的提高，以及海量数据积累，语音识别系统的准确率和实用性将得到持续提高。

参考文献：

[1]維基百科编者.语音识别[G/OL].维基百科，2016（20160829）[2016-08-29].

[2]维基百科编者.语音活性检测[G/OL].维基百科，2016（20160629）[2016-06-29].

[3]维基百科编者.维特比算法[G/OL].维基百科，2016（20160920）[2016-09-20].

[4] Dahl G E， Yu D， Deng L， et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio， Speech， and Language Processing， 2012， 20（1）：30-42.

[5]王炳锡，屈丹，彭煊.实用语音识别基础[M].北京：国防工业出版社，2005.

[6]詹新明，黄南山，杨灿.语音识别技术研究进展[J].现代计算机：下半月版，2008（9）：43-45.