CN104900232A

CN104900232A - 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Info

Publication number: CN104900232A
Application number: CN201510188364.1A
Authority: CN
Inventors: 周琳; 李海静; 吕勇; 吴镇扬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-04-20
Filing date: 2015-04-20
Publication date: 2015-09-09

Abstract

本发明公开了一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，包括训练阶段和识别阶段，训练阶段中通过对纯净环境下的语音特征提取，获得两个GMM训练模型和一个HMM训练模型。其中GMM模型分别为含有个数较少的高斯混合单元的GMM1模型和含有个数较多的高斯混合单元的GMM2模型。在矢量泰勒级数VTS特征补偿阶段的噪声估计过程，利用GMM1模型得到噪声的均值和方差，利用GMM2模型通过映射获得纯净特征参数，并与HMM模型匹配获得最终识别结果。本发明与基于单个GMM模型和VTS特征补偿的孤立词识别算法相比，在误识率基本不变的情况下，噪声均值和方差估计时间减少了90％，特征补偿整体用时减少了30％-50％，有效降低了基于VTS特征补偿孤立词识别算法的计算量。

Description

一种基于双层GMM结构和VTS特征补偿的孤立词识别方法

技术领域

本发明涉及语音识别领域，具体涉及一种基于双层GMM结构和VTS特征补偿的孤立词识别方法。

背景技术

近年来，随着语音技术的发展，孤立词识别技术在通信、消费电子、自助服务、办公自动化等多个领域得到了广泛应用，这些设备通常使用或者安装在嘈杂的公共场所，不可避免地受到各种干扰，而干扰会严重影响孤立词识别***的性能。此外，孤立词识别***识别时间较长成为移植到嵌入式、投入实际应用的不利因素。移动设备、自助服务设备的本机孤立词识别***补偿模块计算量大，如何通过算法改进、优化，降低特征补偿的计算量，同时不降低***性能，从而提高***的实际应用能力，成为了现有技术发展的方向。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，通过建立两层GMM模型和HMM模型，减少了特征补偿模块的计算量，解决了现有技术的不足。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，其特征在于，包括纯净环境和测试环境；该方法包括以下步骤：

1)模型训练阶段：在纯净环境下，利用所有孤立词的纯净训练语音训练数据分别得到两个表示纯净环境下所有孤立词的特征参数分布的高斯混合模型GMM，同时利用各个孤立词的纯净训练语音训练生成各个孤立词对应的表示纯净环境下每个孤立词的特征参数分布的HMM模型；

所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯单元混合数设置为100的GMM2；

2)基于特征补偿的识别阶段：在测试环境下，利用矢量泰勒级数VTS进行特征补偿，基于步骤1)得到的GMM1模型，通过最大似然概率准则ML进行噪声参数估计，估算出测试语音中噪声的均值和方差；接着基于步骤1)得到的GMM2模型，通过最小均方误差估计准则MMSE，将测试环境下含噪语音MFCC特征参数映射为纯净MFCC特征参数；最后将所述纯净MFCC特征参数与步骤1)得到的HMM模型进行匹配，得到最终识别结果。

进一步的，步骤1)具体包括模型训练步骤：

1.1)对纯净训练语音数据进行预处理，所述预处理过程包括预加重、分帧加窗和端点检测；

1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数，得到纯净环境下所有孤立词的纯净语音MFCC特征参数；

1.3)利用步骤1.2)中所有孤立词的纯净语音MFCC特征参数分别训练得到高斯混合数为10的GMM1模型，和高斯混合数为100的GMM2模型；

1.4)利用步骤1.2)中所有孤立词中每个孤立词的纯净语音MFCC特征参数，训练得到每个孤立词对应的HMM模型。

进一步的，步骤2)基于特征补偿的识别阶段具体包括以下步骤：

2.1)测试语音经过预处理过程，该预处理过程包括预加重、分帧加窗、端点检测和提取测试环境下的含噪语音MFCC参数；

2.2)基于矢量泰勒级数方法和纯净环境下的GMM1模型和步骤2.1)得到的含噪语音MFCC参数，基于最大似然概率准则ML估计测试语音中噪声的均值和方差；得到噪声参数；

2.3)利用步骤2.2)估计出的噪声参数和GMM2模型，基于最小均方误差准则MMSE，将当前测试语音的含噪MFCC特征参数映射为纯净MFCC特征参数；

2.4)将每个孤立词HMM模型作为识别模型，对经过步骤2.3)映射后的纯净MFCC特征参数进行概率计算，得到最终的孤立词识别结果。

进一步的，所述MFCC特征参数为26维，该参数包括13维MFCC参数和13维一阶差分MFCC参数；所述HMM模型的混合数为4，状态数为6。

有益效果：与现有基于单个GMM模型和VTS特征补偿的孤立词识别算法相比，本发明提出的基于双层GMM结构和VTS特征补偿的孤立词识别方法，在识别率基本不变的情况下，特征补偿计算量显著减少，从而减少了整个孤立词识别的时间。我们利用TIMIT语音库、实验室采集的中文语音库对算法性能进行测试，在不同的噪声类型(包括白噪声、粉红噪声和工厂噪声)，以及不同的信噪比条件下(信噪比分别为0dB、5dB、10dB、12dB、15dB和20dB)，本发明的双层GMM结构和VTS特征补偿的孤立词识别方法，与基于单个GMM结构和VTS特征补偿的孤立词识别算法相比，特征补偿中噪声均值和方差的估计时间减少了90％，特征补偿整体时间减少了30％-50％，，同时正确识别率基本不变。

附图说明

图1为本发明算法总体流程图。

图2为基于谱熵的端点检测算法流程图。

图3为MFCC特征参数提取流程图。

图4为双层GMM结构特征补偿的结构框图。

图5为HMM识别流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，其特征在于，包括纯净环境和测试环境；该方法包括以下步骤：

所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯混合数设置为100的GMM2；

进一步的，步骤1)具体包括模型训练步骤：

实施例：

如图1所示，在模型训练阶段，利用所有孤立词的纯净语音训练数据分别训练得到两个GMM模型，其中GMM1的高斯单元混合数为10，GMM2的高斯单元混合数为100，HMM模型的混合数为4状态数为6。GMM模型表示纯净环境下所有孤立词的特征参数分布，HMM模型表示纯净环境下每个孤立词的特征参数分布。

在基于特征补偿的识别阶段，基于矢量泰勒级数VTS特征补偿算法，根据训练阶段得到的GMM1模型，通过最大似然概率准则ML估计出测试环境下测试语音中噪声的均值和方差；接着基于最小均方误差估计准则MMSE和GMM2模型，将测试后的纯净MFCC特征参数与HMM模型进行匹配，得到最终的识别结果。

图1给出了基于双层GMM结构和VTS特征补偿的孤立词识别方法总体流程图。下面结合附图对本发明技术方案的具体实施方式进行详细说明：

1、模型训练阶段：

1.1)

本发明中的纯净训练语音采样频率为8KHz，量化位数为16比特。GMM1模型高斯混合数为10，GMM2模型高斯混合数为100。

训练语音首先经过预加重、分帧加窗和端点检测处理。

预加重使用一个一阶有限长脉冲响应FIR(Finite Impulse Response)高通滤波器，其传递函数表达式为：H(z)＝1-αz^-1，其中α是预加重系数，本发明中取值0.9375。

分帧加窗中使用的窗函数是汉明窗，汉明窗的表达式为：

w (n) = \{\begin{matrix} 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}) & n = 0, . . ., N - 1 \\ 0, & else \end{matrix}

其中N表示帧长，本发明中取帧长N为128点，帧移为64点。

本发明采用基于子带能量谱熵的端点检测方法，将一帧语音分成32个子带，计算该帧语音的谱熵与能量，然后再将谱熵与能量减去各自对应的均值后相乘，作为语音端点检测的鲁棒性特征参数，端点检测的高低门限值Ts、Te根据语音信号前10帧特征动态设置。

子带能量谱熵和高低门限Ts、Te计算过程如下：

1.1.1)对原始语音信号进行预处理、分帧加窗得到x_t(n)，t表示帧数，n表示采样点数。

1.1.2)对x_t(n)进行傅里叶变换，得到频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}, (0 \leq n, k \leq N - 1)

1.1.3)计算第t帧第k个频率点的频谱能量，以及第t帧语音信号的能量值：

1.1.4)将每帧语音信号分成N_b＝32个子带，计算每个子带的能量值E_t(m)：

E_{t} (m) = Σ_{k = 1 + 4 \cdot (m - 1)}^{k = 4 \cdot m} X_{energy} (k, t), 1 \leq m \leq N_{b}

1.1.5)计算各个子带的能量概率分布：

P_{t} (m) = \frac{E_{t} (m)}{Σ_{m = 1}^{N_{b}} E_{t} (m)}, 1 \leq m \leq N_{b}

1.1.6)计算第t帧语音信号的谱熵：

1.1.7)将谱熵与能量减去各自相应的参考值E_n和H_n后相乘，得到能量-谱熵参数：

{EEF}_{t} = \sqrt{1 + (E_{t} - E_{n}) \cdot (H_{t} - H_{n})}

\begin{matrix} E_{n} = \frac{1}{10} Σ_{t = 1}^{10} & H_{n} = \frac{1}{10} Σ_{t = 1}^{10} H_{t} \end{matrix}

其中：EEF_t为第t帧语音信号的能量-谱熵参数，E_t为第t帧能量，H_t是第t帧谱熵，E_n和H_n分别为前10帧语音信号的平均能量和谱熵，作为能量和谱熵的均值，将能量与谱熵结合作为端点检测参数，可以有效避免各自参数的局限性。

1.1.8)计算高低门限Ts、Te

Ts = M \cdot Σ_{l = 1}^{10} {EEF}_{t}, Te = 0.7 \cdot Ts

其中M为经验值，取值为1.6。

动态双门限的端点检测分为四段：静音段、过渡段、语音段及结束段，端点检测过程如下：

静音段：端点检测开始后，首先检测语音是否进入静音段，当出现某帧语音能谱值大于高门限则语音进入过渡段。

过渡段：当语音处于过渡段时，当有连续5帧语音信号的能谱值超过高门限，则标记当前帧为语音的起点，语音进入语音段。

语音段：当语音的能谱值高于低门限时，语音处于语音段，若某帧语音的能谱值低于低门限时，则标记当前帧为语音的可疑终点，开始检测语音是否结束。

结束段：如果连续5帧语音有2帧以上的能谱值低于低门限时，且已经检测到2个字，若其持续帧数大于最大静音段长度，则认为语音结束，之前标记的终点即语音的终点。反之，如果持续帧数小于最大静音段长度或之后有某帧语音的短时能量或过零率高于低门限，则取消终点的标记，语音仍旧处于语音段，继续检测终点。

端点检测该过程如图2所示。

上述最小语音长度是指能够被识别的语音段最小长度，是语音段的最短持续时间，本发明取值为30帧；最大静音长度是指语音相邻两个孤立词之间的最长静音持续时间，本发明取值为24帧。

1.2)

MFCC特征参数提取。

对步骤1.1)中得到的每一帧时域信号x_t(n)，进行傅里叶变换，得到频谱X_t(k)。

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}, (0 \leq n, k \leq N - 1)

将线性频谱X_t(k)通过美尔(Mel)滤波器组，得到Mel频谱S_t(m)。

S_{t} (m) = Σ_{k = 0}^{N - 1} X_{t} (k) W_{m} (k), (1 \leq m \leq R)

其中W_m(k)表示Mel滤波器组中第m个三角滤波器在频率k处的加权因子，Mel滤波器组个数R为20。

对Mel频谱S_t(m)的对数作离散余弦变换DCT(Discrete Cosine Transform)变换，将其变换到倒谱域，得到MFCC特征参数C_t(l)。

C_{t} (l) = \frac{2}{\sqrt{R}} Σ_{m = 1}^{R} \log [S_{t} (m)] \cos \frac{π (2 m - 1) l}{2 R}, (1 \leq l \leq L)

其中L为MFCC参数的阶数，取值13。

一阶差分MFCC参数的计算公式为：

Δ C_{t} = \frac{Σ_{τ = - T}^{T} τ C_{t + τ}}{Σ_{τ = - T}^{T} τ^{2}}

其中T是参与差分计算的帧数，为常数，本发明中取值为4。

将C_t与ΔC_t结合，构成了本发明提出的孤立词识别***的MFCC特征参数，该MFCC参数包括13维MFCC参数和13维一阶差分MFCC参数，其具体计算过程如图3所示。

1.3)

经过步骤1.2)，得到纯净环境下所有孤立词的MFCC特征参数。利用所有孤立词的MFCC特征参数训练得到两个GMM模型：GMM1模型和GMM2模型。GMM模型使用多个高斯模型来表征随机变量的概率密度函数，其概率密度函数P(x)由均值、方差及混合权重决定。

\begin{matrix} P (x) = Σ_{m = 1}^{M} P (m) N (x; μ_{x, m}, σ_{c, m}) \\ = Σ_{m = 1}^{M} P (m) {{(2 π)}^{- D / 2} {| σ_{x, m} |}^{- 1 / 2} \exp [- \frac{1}{2} {(x - μ_{x, m})}^{T} {σ_{x, m}}^{- 1} (x - μ_{x, m})]} \end{matrix}

其中x为训练语音的MFCC特征参数集合，M是GMM模型的高斯混合数，μ_x,m与σ_x,m分别是GMM中第m个高斯单元的均值与方差向量，P(m)是每个高斯单元对应的权重，满足如下条件：

Σ_{m = 1}^{M} P (m) = 1

本发明中设置GMM1模型混合数M1为10，GMM2模型混合数M2为100。

1.4)

HMM模型训练。

经过步骤1.2)后得到纯净环境下所有孤立词的MFCC特征参数。利用每个孤立词对应的MFCC特征参数训练得到纯净环境下每个孤立词对应的HMM模型。

HMM模型的参数集可以记为λ_w＝f(π,A,B)，其中π、A、B分别代表初始状态概率分布、状态转移概率分布和观测序列概率分布，w表示所对应的孤立词。

在给定纯净环境下每个孤立词的MFCC特征参数C(n)＝{C(1),C(2),…,C(26)}和初始模型参数后，通过调整HMM模型参数λ_w＝f(π,A,B)使训练序列的输出概率最大，得到最终的纯净环境HMM模型参数。本发明中B的概率分布采用混合高斯模型对MFCC特征参数的概率密度函数进行建模，混合数设置为4，状态数设置为6，状态转移矩阵A采用自左向右无跳转结构。模型训练时参数π和A采用随机初始化，参数B采用分段K-均值聚类算法进行初始化，采用Baum-Welch迭代算法来估计HMM的参数，设定收敛阈值为0.0001，当相邻两次输出概率的差值小于该阈值时，认为模型已收敛。

2、基于特征补偿的识别阶段

2.1)

测试语音的采样频率为8KHz，量化位数为16比特。测试语音的预加重、分帧加窗、端点检测和MFCC特征参数提取的处理方法和训练阶段所述相同，得到含噪语音MFCC特征参数。

2.2)

由步骤2.1)中得到含噪语音MFCC特征参数，利用训练阶段得到的纯净GMM1模型，估计测试语音中噪声的均值和方差

噪声均值的估计式如下：

其中y_t表示测试语音的第t帧MFCC特征参；γ_m(t)＝P(m|y_t,λ)是GMM1参数集合λ已知时，y_t属于第m个高斯单元的条件概率，γ_m(t)属于后验概率；M1为GMM1模型的混合数，这里取值为10。

U_{m} = Cdiag (\frac{\exp (C^{- 1} (μ_{n 0} - μ_{x, m}))}{1 + \exp (C^{- 1} (μ_{n 0} - μ_{x, m}))}) C^{- 1}

其中C和C^-1分别代表DCT变换矩阵和其逆矩阵；μ_n0是加性噪声n的初始均值；μ_x,m表示纯净GMM1模型中第m个高斯单元的均值；σ_y,m表示含噪语音的GMM1模型中第m个高斯单元的方差。

噪声方差的估计式如下：

{\overset{&OverBar;}{σ}}_{n} = {[Σ_{m = 1}^{M 1} Σ_{t = 1}^{T} γ_{m} (t) G_{m 0} (U_{m} \cdot U_{m})]}^{- 1} [Σ_{m = 1}^{M 1} Σ_{t = 1}^{T} γ_{m} (t) G_{m 0} ((y_{t} - μ_{y, m}) \cdot (y_{t} - μ_{y, m}) - (V_{m} \cdot V_{m}) σ_{x, m})]

其中

{V_{m} = I - U}_{m} = Cdiag (\frac{1}{1 + \exp (C^{- 1} (μ_{n 0} - μ_{x, m}))}) C^{- 1}

其中μ_y,m表示在估计得到当前测试环境的噪声均值后，当前测试语音的GMM1模型第m个高斯单元的均值；σ_x,m表示纯净语音的GMM1模型中第m个高斯单元的方差。

G_{m 0} = (U_{m}^{T} \cdot U_{m}^{T}) diag [{((V_{m} \cdot V_{m}) σ_{x, m} + (U_{m} \cdot U_{m}) σ_{x 0})}^{- 2}]

其中σ_x0表示纯净语音的初始方差；其余变量的定义与均值估计公式中的相同。

2.3)

由步骤2.2)得到当前测试语音的噪声均值和方差估计值后，利用训练阶段的GMM2模型，基于最小均方误差准则MMSE，将当前测试环境下的MFCC特征参数映射为纯净环境下的MFCC特征参数：

{\overset{&OverBar;}{x}}_{t} = E (x_{t} | y_{t}) = y_{t} - Σ_{m = 1}^{M 2} {\overset{&OverBar;}{γ}}_{m} (t) C \log (1 + \exp (C^{- 1} (μ_{n} - μ_{x, m})))

其中为映射到纯净环境下的MFCC系数，t为帧号；y_t为测试语音的第t帧MFCC特征向量；表示根据估计的噪声均值和方差，确定测试语音GMM2参数集时，y_t属于GMM2第m个高斯单元的概率；M2为GMM2高斯模型的混合数，本发明中M2取值100；μ_x,m表示GMM2模型中第m个高斯单元的均值；μ_n为估计的当前测试环境噪声n的均值，即为步骤2.2)估计的

基于双层GMM结构的VTS特征补偿过程如图4所示。

2.4)

将训练的HMM模型作为识别模型，对经过步骤2.3)映射后的纯净MFCC特征参数进行概率计算，得到最终的孤立词识别结果。

每个孤立词w对应的含噪HMM模型为λ_w，测试语音经过2.3)映射到纯净环境下的特征参数组成的序列为基于最大似然估计得到最后识别结果：

\hat{w} = \underset{1 \leq w \leq W}{\arg \max} P (\overset{&OverBar;}{X} | λ_{w})

其中即为最终的识别孤立词，W为识别孤立词的总个数。

本发明中使用前后向算法得到输出概率采用对数运算，以避免下溢。

HMM识别的过程如图5所示。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，例如模型参数的选取，包括GMM1、GMM2模型的参数选择，HMM模型的参数选择，MFCC特征参数的阶数，算法的进一步改进、优化等，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，其特征在于，包括纯净环境和测试环境；该方法包括以下步骤：

2.如权利要求1所述的一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，其特征在于，所述步骤1)具体包括模型训练步骤：

3.如权利要求1所述的一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，其特征在于，所述步骤2)基于特征补偿的识别阶段具体包括以下步骤：

4.如权利要求2或3所述的一种基于双层GMM结构和VTS特征补偿的孤立词识别方法，其特征在于，所述MFCC特征参数为26维，该参数包括13维MFCC参数和13维一阶差分MFCC参数；所述HMM模型的混合数为4，状态数为6。