CN109192200B

CN109192200B - 一种语音识别方法

Info

Publication number: CN109192200B
Application number: CN201810514662.9A
Authority: CN
Inventors: 范文涛; 杜吉祥; 符江鹏
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2023-06-13
Anticipated expiration: 2038-05-25
Also published as: CN109192200A

Abstract

本发明涉及一种语音识别方法，其包括所述语音识别方法包括输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量；将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率，其中使用变分推断更新优化模型参数；将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM，使用隐马尔科夫模型对语音信号时间序列结构进行建模；根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上，提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模，同时使用变分推断实现模型参数的求解，谋求模型鲁棒性和提高准确率。

Description

一种语音识别方法

技术领域

本发明涉及一种语音识别技术领域，更具体地涉及一种基于狄利克雷分布混合隐马尔科夫模型的语音识别方法。

背景技术

目前，语音识别成为一种重要的人机交互形式，语音识别技术渐渐地改变着人们和生活和工作方式。自然语言是最方便、舒适和快捷的一种交互方式，是人机通信和交互的重要领域之一，最终实现人机对话自由，自动语音识别(Automatic Speech Recognition，ASR)是实现人机交互尤为关键的技术，其需要让计算机听懂人类的语言，从而使得计算机按照人类的指示进行操作。

自动语音识别技术进过几十年的发展已经取得了显著的成效。上世纪80年代，Jelinek等科学家在贝尔实验室发现隐马尔科夫模型(Hidden Markov Model-HMM)的特性适合语音信号建模，此后陆续有学者提出基于HMM的参数估计和识别解码等配套的算法体系，其中高斯混合模型(Gaussian Mixed Model-GMM)混合隐马尔科夫模型(HMM)应用尤为广泛。GMM-HMM的核心架构是通过使用隐马尔科夫模型对语音的时序进行建模，而使用高斯混合模型(GMM)对语音的观测概率进行建模。

发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

根据本发明的一个方面，提供了一种语音识别方法，本发明提出使用狄利克雷分布混合模型(Dirichlet Mixed Model-DMM)对隐马尔科夫模型(Hidden Markov Model,HMM)的观测概率进行建模，同时使用变分推断(Variational Bayes inference)来实现模型参数的求解，以提高模型鲁棒性和准确率。

同时，利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模型的语音识别过程中，能过最大程度的降低运算并未得到准确的特征参数提供保证，采用倒谱均值归一化技术，使得本方法能够适应不同的口音，进一步提高特征提取的准确性。

所述语音识别方法包括步骤S100：输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量；

步骤S200：将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率，其中使用变分推断来更新优化模型参数；

步骤S300：将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模；

步骤S400：根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。

可选地，所述步骤S100：输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括：

步骤S101：预加重所述语音信号，以补偿所述语音信号中受到压抑的高频部分；其具体包括；

S'_n＝S_n-k*S_n-1

其中，S表示语音信号，S_n＝{S₀,…,S_N-1},n＝0,…,N-1；S'表示处理之后的信号，S_n'＝{S'₀,…,S'_N-1},n＝0,…N-1；

k∈[0.9,1]。

可选地，步骤S102：使用汉明窗对所述语音信号进行加窗处理，用于平滑所述语音信号：其具体包括：

步骤S103：将所述语音信号中的时域信号转换成频域信号，以进行频率分析；其中，

幅度频：

其中i表示第i帧,k表示傅里叶点数；

功率谱：

步骤S104：使用梅尔克度滤波组过滤所述频域信号；

步骤S105：使用log非线性描述能量值；

步骤S106：通过离散余弦变换获取频率谱的低频信息；其中，

步骤S107：通过差分增加语音信号的特征的时域连续性，其中，

其中d_t表示第t个一阶差分，c_t表示第t个倒谱系数，θ表示一阶导数的时间间隔。

步骤S108：倒谱均值归一化以获取语音信号的特征参数。

可选地，步骤S200：将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率，其中使用变分推断来更新优化模型参数的步骤进一步包括：

狄利克雷分布混合模型模型式为：

/>

其中，

表示混合系数，/>

是第j个混合分量的狄利克雷分布。

可选地，步骤S300：将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括：

步骤S301：初始化分布参数，选择混合分量的数量，使用K-means算法初始化超参数{u_jl}和{v_jl}的值，

其中，M为混合分量数，N为输入样本数量，

表示伽马分布，Z表示M维二元随机变量。

其中：

注：<·>表示期望，Γ表示伽马函数。

超参数更新迭代式如下：

/>

其中Ψ和Ψ'分别表示digamma函数和trigamma函数。

可选地，步骤S300：将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括：步骤S302：变分推断求解模型参数；

步骤S300进一步包括步骤S303：变分E步，更新Q(z)和

计算其最大似然估计值；

步骤S300进一步包括步骤S304：变分M步，最大化下界L(Q)，求得的最大似然值来计算参数的值；

步骤S300进一步包括步骤S305：重复上述步骤S302和步骤S303，直至算法收敛。

由此可见，本发明实施例中，在现有GMM-HMM的方法基础上，本方法提出使用狄利克雷混合模型(DMM)来对隐马尔科夫混合模型(HMM)的观测概率来进行建模，同时使用变分推断(Variational Bayes inference)来实现模型参数的求解，谋求模型鲁棒性和提高准确率。

本发明利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模型的语音识别过程中，能够最大程度的降低运算并未得到准确的特征参数提供保证，采用倒谱均值归一化技术，使得本方法能够适应不同的口音，进一步提高特征提取的准确性。

本发明通过科学的算法及优化的训练条件，能够有效地训练而为后续进行语音识别创造了基础，为准确识别语音特征提供了保证。

附图说明

以下将结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来对本发明实施例进行进一步的解释，该附图构成说明书的一部分，且与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的附图标记通常代表相同或相似的部件或步骤。

图1是本发明实施例中狄利克雷混合模型混合隐马尔科夫模型处理语音识别过程的流程图；

图2是图1所述语音识别过程中的语音信号采集示图；

图3是图1所述的语音识别过程中的梅尔倒谱系数提取语音特征的流程图；

图4是图1所述狄利克雷混合模型混合隐马尔科夫模型处理语音学习过程示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例中的语音识别方法包括如下步骤，图1是本发明实施例中狄利克雷混合模型混合隐马尔科夫模型处理语音识别过程的流程图，其包括将输入的语音信号，使用梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients，MFCC)提取语音信号的特征向量；

将提取的MFCC特征向量输入到狄利克雷混合模型(Dirichlet Mixed Model，DMM)以中计算观测概率，其中使用变分推断(Variational Bayes inference)来更新优化模型参数；

将提取的MFCC特征向量和狄利克雷混合模型(DMM)计算得到的观测概率输入隐马尔科夫模型(HMM)中对语音信号的时间序列结构进行建模；以根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。

具体地，请参照图3，语音识别方法包括步骤S100：输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量；

具体地，步骤S100进一步包括步骤S101：预加重所述语音信号，以补偿所述语音信号中受到压抑的高频部分；其具体包括；

S'_n＝S_n-k*S_n-1

其中S表示语音信号，S_n＝{S₀,…,S_N-1},n＝0,…,N-1；S'表示处理之后的信号，S_n'＝{S'₀,…,S'_N-1},n＝0,…N-1，

k∈[0.9,1]。

通过所述步骤S101对所述语音信号进行消除发声过程中声带和嘴唇造成的效应，补偿声音信号所受到发声***所压抑的高频部分，并且高频的共振峰。

步骤S1进一步包括步骤S102：使用汉明窗对所述语音信号进行加窗处理，用于平滑所述语音信号：其具体包括：

上述步骤S101到步骤S102为加强语音信号性能，例如信噪比、处理精度等而对语音信号做的一些预处理工作，把音频信号中具有辨识性的成分进行提取。

步骤S1进一步包括步骤S103:将所述语音信号中的时域信号转换成频域信号，以进行频率分析；其中，

幅度频：

其中i表示第i帧,k表示傅里叶点数。

功率谱：

对每一个短时分析窗，通过快速傅立叶变换(Fast Fourier Transformation，FFT)得到对应的频谱，获得分布在时间轴上不同时间窗内的频谱。

步骤S1进一步包括步骤S104:使用梅尔克度滤波组过滤所述频域信号，由于频率信号有很多冗余，滤波组可以对频域的幅值进行精简，每一个频段用一个值来表示。

对于FFT得到的幅度谱，分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在该滤波器对应频段的能量值。

步骤S100进一步包括步骤S105:使用log非线性描述能量值，人耳对声音的感知并不是线性的，用对数非线性关系能够更好地描述，取完log以后可以进行倒谱分析。

将上面的频谱通过Mel滤波器组得到Mel频谱，通过Mel频谱，将线形的自然频谱转换为体现人类听觉特性的Mel频谱，在Mel频谱上面进行倒谱分析。

步骤S100进一步包括步骤S106:通过离散余弦变换获取频率谱的低频信息；

上述公式是将对数能量进行离散余弦变换，求L阶MFCC参数，其中i表示第i阶，m_j表示第j个三角滤波器值。由于滤波器之间是有重叠的，前述获得的能量值之间具有相关性，离散余弦变换可以对数据进行降维压缩和抽象，以获得特征参数。

步骤S100进一步包括步骤S107:通过差分增加语音信号的特征的时域连续性，由于语音信号是时域连续的，分帧提取的特征信息只反映了本帧语音的特性，为了使特征更能体现时域连续性，在特征维度增加前后帧信息和维度。

具体地，

取对数，做逆变换，实际逆变换一般是通过离散余弦变换(discrete cosinetransform，DCT)来实现，取DCT后的第2个到第13个系数作为MFCC系数，在语音特征中加入表征语音动态特性的差分参数，能够提高***的识别性能。

步骤S1进一步包括步骤S108:倒谱均值归一化以获取语音信号的特征参数。

采用倒谱均值归一化技术，以能够识别语音信号中的不同的口音，进一步提高语音信号特征提取的准确性。

获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征，倒谱分析，获得MFCC作为语音特征。

所述语音识别方法还包括步骤S200：将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率，其中使用变分推断(Variational Bayes inference)更新优化模型参数；

其中，狄利克雷分布混合模型模型式为

/>

其中，

表示混合系数，/>

是第j个混合分量的狄利克雷分布。

所述语音识别方法还包括步骤S300：在步骤2和步骤1的基础上，将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM，使用隐马尔科夫模型对语音信号时间序列结构进行建模。

具体地，步骤S300进一步包括步骤S301：初始化分布参数，选择混合分量的数量，使用K-means算法初始化超参数{u_jl}和{v_jl}的值，以进行数据聚类；

其中，M为混合分量数，N为输入样本数量，

表示伽马分布，Z表示M维二元随机变量。

其中：

注：<·>表示期望，Γ表示伽马函数。

超参数更新迭代式如下：

其中Ψ和Ψ'分别表示digamma函数和trigamma函数。

步骤S300进一步包括步骤S302：变分推断求解模型参数；

步骤S300进一步包括步骤S303：变分E步，更新Q(z)和

计算其最大似然估计值；

步骤S300进一步包括步骤S304：变分M步，最大化下界L(Q)，求得的最大似然值来计算参数的值。

通过(EM)算法在概率模型中寻找参数最大似然估计。

步骤S300进一步包括步骤S305：重复上述步骤S302和步骤S303，直至算法收敛。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

所述语音识别方法还包括步骤S400：根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。即根据某个词的隐马尔科夫模型(HMM)的观测序列概率最高，从而判断此段语音属于哪个词，即将具有辨识性的成分提取出来。

本发明的语音识别过程可以应用于智能机器人上，例如无人机的语音控制指令，家庭陪伴机器人的语音交互过程，自动清洁机器人的语音控制指令，智能家电的语音交互过程等等。本发明的语音识别过程还可以应用到多种场景中，比如无人银行，无人超市，自动驾驶等多种领域中，同时解决人们工作生活中的繁琐的控制过程，通过简单的语音交互实现控制，实现快捷简便的人机交互。

本发明提出使用狄利克雷混合模型(DMM)来对隐马尔科夫混合模型(HMM)的观测概率来进行建模，同时使用变分推断(Variational Bayes inference)来实现模型参数的求解，谋求模型鲁棒性和提高准确率。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。