CN104900232A - 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 - Google Patents

一种基于双层gmm结构和vts特征补偿的孤立词识别方法 Download PDF

Info

Publication number
CN104900232A
CN104900232A CN201510188364.1A CN201510188364A CN104900232A CN 104900232 A CN104900232 A CN 104900232A CN 201510188364 A CN201510188364 A CN 201510188364A CN 104900232 A CN104900232 A CN 104900232A
Authority
CN
China
Prior art keywords
model
pure
characteristic parameter
mfcc
vts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510188364.1A
Other languages
English (en)
Inventor
周琳
李海静
吕勇
吴镇扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201510188364.1A priority Critical patent/CN104900232A/zh
Publication of CN104900232A publication Critical patent/CN104900232A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,包括训练阶段和识别阶段,训练阶段中通过对纯净环境下的语音特征提取,获得两个GMM训练模型和一个HMM训练模型。其中GMM模型分别为含有个数较少的高斯混合单元的GMM1模型和含有个数较多的高斯混合单元的GMM2模型。在矢量泰勒级数VTS特征补偿阶段的噪声估计过程,利用GMM1模型得到噪声的均值和方差,利用GMM2模型通过映射获得纯净特征参数,并与HMM模型匹配获得最终识别结果。本发明与基于单个GMM模型和VTS特征补偿的孤立词识别算法相比,在误识率基本不变的情况下,噪声均值和方差估计时间减少了90%,特征补偿整体用时减少了30%-50%,有效降低了基于VTS特征补偿孤立词识别算法的计算量。

Description

一种基于双层GMM结构和VTS特征补偿的孤立词识别方法
技术领域
本发明涉及语音识别领域,具体涉及一种基于双层GMM结构和VTS特征补偿的孤立词识别方法。
背景技术
近年来,随着语音技术的发展,孤立词识别技术在通信、消费电子、自助服务、办公自动化等多个领域得到了广泛应用,这些设备通常使用或者安装在嘈杂的公共场所,不可避免地受到各种干扰,而干扰会严重影响孤立词识别***的性能。此外,孤立词识别***识别时间较长成为移植到嵌入式、投入实际应用的不利因素。移动设备、自助服务设备的本机孤立词识别***补偿模块计算量大,如何通过算法改进、优化,降低特征补偿的计算量,同时不降低***性能,从而提高***的实际应用能力,成为了现有技术发展的方向。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,通过建立两层GMM模型和HMM模型,减少了特征补偿模块的计算量,解决了现有技术的不足。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,包括纯净环境和测试环境;该方法包括以下步骤:
1)模型训练阶段:在纯净环境下,利用所有孤立词的纯净训练语音训练数据分别得到两个表示纯净环境下所有孤立词的特征参数分布的高斯混合模型GMM,同时利用各个孤立词的纯净训练语音训练生成各个孤立词对应的表示纯净环境下每个孤立词的特征参数分布的HMM模型;
所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯单元混合数设置为100的GMM2;
2)基于特征补偿的识别阶段:在测试环境下,利用矢量泰勒级数VTS进行特征补偿,基于步骤1)得到的GMM1模型,通过最大似然概率准则ML进行噪声参数估计,估算出测试语音中噪声的均值和方差;接着基于步骤1)得到的GMM2模型,通过最小均方误差估计准则MMSE,将测试环境下含噪语音MFCC特征参数映射为纯净MFCC特征参数;最后将所述纯净MFCC特征参数与步骤1)得到的HMM模型进行匹配,得到最终识别结果。
进一步的,步骤1)具体包括模型训练步骤:
1.1)对纯净训练语音数据进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;
1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数,得到纯净环境下所有孤立词的纯净语音MFCC特征参数;
1.3)利用步骤1.2)中所有孤立词的纯净语音MFCC特征参数分别训练得到高斯混合数为10的GMM1模型,和高斯混合数为100的GMM2模型;
1.4)利用步骤1.2)中所有孤立词中每个孤立词的纯净语音MFCC特征参数,训练得到每个孤立词对应的HMM模型。
进一步的,步骤2)基于特征补偿的识别阶段具体包括以下步骤:
2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗、端点检测和提取测试环境下的含噪语音MFCC参数;
2.2)基于矢量泰勒级数方法和纯净环境下的GMM1模型和步骤2.1)得到的含噪语音MFCC参数,基于最大似然概率准则ML估计测试语音中噪声的均值和方差;得到噪声参数;
2.3)利用步骤2.2)估计出的噪声参数和GMM2模型,基于最小均方误差准则MMSE,将当前测试语音的含噪MFCC特征参数映射为纯净MFCC特征参数;
2.4)将每个孤立词HMM模型作为识别模型,对经过步骤2.3)映射后的纯净MFCC特征参数进行概率计算,得到最终的孤立词识别结果。
进一步的,所述MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数;所述HMM模型的混合数为4,状态数为6。
有益效果:与现有基于单个GMM模型和VTS特征补偿的孤立词识别算法相比,本发明提出的基于双层GMM结构和VTS特征补偿的孤立词识别方法,在识别率基本不变的情况下,特征补偿计算量显著减少,从而减少了整个孤立词识别的时间。我们利用TIMIT语音库、实验室采集的中文语音库对算法性能进行测试,在不同的噪声类型(包括白噪声、粉红噪声和工厂噪声),以及不同的信噪比条件下(信噪比分别为0dB、5dB、10dB、12dB、15dB和20dB),本发明的双层GMM结构和VTS特征补偿的孤立词识别方法,与基于单个GMM结构和VTS特征补偿的孤立词识别算法相比,特征补偿中噪声均值和方差的估计时间减少了90%,特征补偿整体时间减少了30%-50%,,同时正确识别率基本不变。
附图说明
图1为本发明算法总体流程图。
图2为基于谱熵的端点检测算法流程图。
图3为MFCC特征参数提取流程图。
图4为双层GMM结构特征补偿的结构框图。
图5为HMM识别流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,包括纯净环境和测试环境;该方法包括以下步骤:
1)模型训练阶段:在纯净环境下,利用所有孤立词的纯净训练语音训练数据分别得到两个表示纯净环境下所有孤立词的特征参数分布的高斯混合模型GMM,同时利用各个孤立词的纯净训练语音训练生成各个孤立词对应的表示纯净环境下每个孤立词的特征参数分布的HMM模型;
所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯混合数设置为100的GMM2;
2)基于特征补偿的识别阶段:在测试环境下,利用矢量泰勒级数VTS进行特征补偿,基于步骤1)得到的GMM1模型,通过最大似然概率准则ML进行噪声参数估计,估算出测试语音中噪声的均值和方差;接着基于步骤1)得到的GMM2模型,通过最小均方误差估计准则MMSE,将测试环境下含噪语音MFCC特征参数映射为纯净MFCC特征参数;最后将所述纯净MFCC特征参数与步骤1)得到的HMM模型进行匹配,得到最终识别结果。
进一步的,步骤1)具体包括模型训练步骤:
1.1)对纯净训练语音数据进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;
1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数,得到纯净环境下所有孤立词的纯净语音MFCC特征参数;
1.3)利用步骤1.2)中所有孤立词的纯净语音MFCC特征参数分别训练得到高斯混合数为10的GMM1模型,和高斯混合数为100的GMM2模型;
1.4)利用步骤1.2)中所有孤立词中每个孤立词的纯净语音MFCC特征参数,训练得到每个孤立词对应的HMM模型。
进一步的,步骤2)基于特征补偿的识别阶段具体包括以下步骤:
2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗、端点检测和提取测试环境下的含噪语音MFCC参数;
2.2)基于矢量泰勒级数方法和纯净环境下的GMM1模型和步骤2.1)得到的含噪语音MFCC参数,基于最大似然概率准则ML估计测试语音中噪声的均值和方差;得到噪声参数;
2.3)利用步骤2.2)估计出的噪声参数和GMM2模型,基于最小均方误差准则MMSE,将当前测试语音的含噪MFCC特征参数映射为纯净MFCC特征参数;
2.4)将每个孤立词HMM模型作为识别模型,对经过步骤2.3)映射后的纯净MFCC特征参数进行概率计算,得到最终的孤立词识别结果。
进一步的,所述MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数;所述HMM模型的混合数为4,状态数为6。
实施例:
如图1所示,在模型训练阶段,利用所有孤立词的纯净语音训练数据分别训练得到两个GMM模型,其中GMM1的高斯单元混合数为10,GMM2的高斯单元混合数为100,HMM模型的混合数为4状态数为6。GMM模型表示纯净环境下所有孤立词的特征参数分布,HMM模型表示纯净环境下每个孤立词的特征参数分布。
在基于特征补偿的识别阶段,基于矢量泰勒级数VTS特征补偿算法,根据训练阶段得到的GMM1模型,通过最大似然概率准则ML估计出测试环境下测试语音中噪声的均值和方差;接着基于最小均方误差估计准则MMSE和GMM2模型,将测试后的纯净MFCC特征参数与HMM模型进行匹配,得到最终的识别结果。
图1给出了基于双层GMM结构和VTS特征补偿的孤立词识别方法总体流程图。下面结合附图对本发明技术方案的具体实施方式进行详细说明:
1、模型训练阶段:
1.1)
本发明中的纯净训练语音采样频率为8KHz,量化位数为16比特。GMM1模型高斯混合数为10,GMM2模型高斯混合数为100。
训练语音首先经过预加重、分帧加窗和端点检测处理。
预加重使用一个一阶有限长脉冲响应FIR(Finite Impulse Response)高通滤波器,其传递函数表达式为:H(z)=1-αz-1,其中α是预加重系数,本发明中取值0.9375。
分帧加窗中使用的窗函数是汉明窗,汉明窗的表达式为:
w ( n ) = 0.54 - 0.46 cos ( 2 πn N - 1 ) n = 0 , . . . , N - 1 0 , else
其中N表示帧长,本发明中取帧长N为128点,帧移为64点。
本发明采用基于子带能量谱熵的端点检测方法,将一帧语音分成32个子带,计算该帧语音的谱熵与能量,然后再将谱熵与能量减去各自对应的均值后相乘,作为语音端点检测的鲁棒性特征参数,端点检测的高低门限值Ts、Te根据语音信号前10帧特征动态设置。
子带能量谱熵和高低门限Ts、Te计算过程如下:
1.1.1)对原始语音信号进行预处理、分帧加窗得到xt(n),t表示帧数,n表示采样点数。
1.1.2)对xt(n)进行傅里叶变换,得到频谱Xt(k):
X t ( k ) = Σ n = 0 N - 1 x t ( n ) e - j 2 πnk / N , ( 0 ≤ n , k ≤ N - 1 )
1.1.3)计算第t帧第k个频率点的频谱能量,以及第t帧语音信号的能量值:
1.1.4)将每帧语音信号分成Nb=32个子带,计算每个子带的能量值Et(m):
E t ( m ) = Σ k = 1 + 4 · ( m - 1 ) k = 4 · m X energy ( k , t ) , 1 ≤ m ≤ N b
1.1.5)计算各个子带的能量概率分布:
P t ( m ) = E t ( m ) Σ m = 1 N b E t ( m ) , 1 ≤ m ≤ N b
1.1.6)计算第t帧语音信号的谱熵:
1.1.7)将谱熵与能量减去各自相应的参考值En和Hn后相乘,得到能量-谱熵参数:
EEF t = 1 + ( E t - E n ) · ( H t - H n )
E n = 1 10 Σ t = 1 10 H n = 1 10 Σ t = 1 10 H t
其中:EEFt为第t帧语音信号的能量-谱熵参数,Et为第t帧能量,Ht是第t帧谱熵,En和Hn分别为前10帧语音信号的平均能量和谱熵,作为能量和谱熵的均值,将能量与谱熵结合作为端点检测参数,可以有效避免各自参数的局限性。
1.1.8)计算高低门限Ts、Te
Ts = M · Σ l = 1 10 EEF t , Te = 0.7 · Ts
其中M为经验值,取值为1.6。
动态双门限的端点检测分为四段:静音段、过渡段、语音段及结束段,端点检测过程如下:
静音段:端点检测开始后,首先检测语音是否进入静音段,当出现某帧语音能谱值大于高门限则语音进入过渡段。
过渡段:当语音处于过渡段时,当有连续5帧语音信号的能谱值超过高门限,则标记当前帧为语音的起点,语音进入语音段。
语音段:当语音的能谱值高于低门限时,语音处于语音段,若某帧语音的能谱值低于低门限时,则标记当前帧为语音的可疑终点,开始检测语音是否结束。
结束段:如果连续5帧语音有2帧以上的能谱值低于低门限时,且已经检测到2个字,若其持续帧数大于最大静音段长度,则认为语音结束,之前标记的终点即语音的终点。反之,如果持续帧数小于最大静音段长度或之后有某帧语音的短时能量或过零率高于低门限,则取消终点的标记,语音仍旧处于语音段,继续检测终点。
端点检测该过程如图2所示。
上述最小语音长度是指能够被识别的语音段最小长度,是语音段的最短持续时间,本发明取值为30帧;最大静音长度是指语音相邻两个孤立词之间的最长静音持续时间,本发明取值为24帧。
1.2)
MFCC特征参数提取。
对步骤1.1)中得到的每一帧时域信号xt(n),进行傅里叶变换,得到频谱Xt(k)。
X t ( k ) = Σ n = 0 N - 1 x t ( n ) e - j 2 πnk / N , ( 0 ≤ n , k ≤ N - 1 )
将线性频谱Xt(k)通过美尔(Mel)滤波器组,得到Mel频谱St(m)。
S t ( m ) = Σ k = 0 N - 1 X t ( k ) W m ( k ) , ( 1 ≤ m ≤ R )
其中Wm(k)表示Mel滤波器组中第m个三角滤波器在频率k处的加权因子,Mel滤波器组个数R为20。
对Mel频谱St(m)的对数作离散余弦变换DCT(Discrete Cosine Transform)变换,将其变换到倒谱域,得到MFCC特征参数Ct(l)。
C t ( l ) = 2 R Σ m = 1 R log [ S t ( m ) ] cos π ( 2 m - 1 ) l 2 R , ( 1 ≤ l ≤ L )
其中L为MFCC参数的阶数,取值13。
一阶差分MFCC参数的计算公式为:
Δ C t = Σ τ = - T T τ C t + τ Σ τ = - T T τ 2
其中T是参与差分计算的帧数,为常数,本发明中取值为4。
将Ct与ΔCt结合,构成了本发明提出的孤立词识别***的MFCC特征参数,该MFCC参数包括13维MFCC参数和13维一阶差分MFCC参数,其具体计算过程如图3所示。
1.3)
经过步骤1.2),得到纯净环境下所有孤立词的MFCC特征参数。利用所有孤立词的MFCC特征参数训练得到两个GMM模型:GMM1模型和GMM2模型。GMM模型使用多个高斯模型来表征随机变量的概率密度函数,其概率密度函数P(x)由均值、方差及混合权重决定。
P ( x ) = Σ m = 1 M P ( m ) N ( x ; μ x , m , σ c , m ) = Σ m = 1 M P ( m ) { ( 2 π ) - D / 2 | σ x , m | - 1 / 2 exp [ - 1 2 ( x - μ x , m ) T σ x , m - 1 ( x - μ x , m ) ] }
其中x为训练语音的MFCC特征参数集合,M是GMM模型的高斯混合数,μx,m与σx,m分别是GMM中第m个高斯单元的均值与方差向量,P(m)是每个高斯单元对应的权重,满足如下条件:
Σ m = 1 M P ( m ) = 1
本发明中设置GMM1模型混合数M1为10,GMM2模型混合数M2为100。
1.4)
HMM模型训练。
经过步骤1.2)后得到纯净环境下所有孤立词的MFCC特征参数。利用每个孤立词对应的MFCC特征参数训练得到纯净环境下每个孤立词对应的HMM模型。
HMM模型的参数集可以记为λw=f(π,A,B),其中π、A、B分别代表初始状态概率分布、状态转移概率分布和观测序列概率分布,w表示所对应的孤立词。
在给定纯净环境下每个孤立词的MFCC特征参数C(n)={C(1),C(2),…,C(26)}和初始模型参数后,通过调整HMM模型参数λw=f(π,A,B)使训练序列的输出概率最大,得到最终的纯净环境HMM模型参数。本发明中B的概率分布采用混合高斯模型对MFCC特征参数的概率密度函数进行建模,混合数设置为4,状态数设置为6,状态转移矩阵A采用自左向右无跳转结构。模型训练时参数π和A采用随机初始化,参数B采用分段K-均值聚类算法进行初始化,采用Baum-Welch迭代算法来估计HMM的参数,设定收敛阈值为0.0001,当相邻两次输出概率的差值小于该阈值时,认为模型已收敛。
2、基于特征补偿的识别阶段
2.1)
测试语音的采样频率为8KHz,量化位数为16比特。测试语音的预加重、分帧加窗、端点检测和MFCC特征参数提取的处理方法和训练阶段所述相同,得到含噪语音MFCC特征参数。
2.2)
由步骤2.1)中得到含噪语音MFCC特征参数,利用训练阶段得到的纯净GMM1模型,估计测试语音中噪声的均值和方差
噪声均值的估计式如下:
其中yt表示测试语音的第t帧MFCC特征参;γm(t)=P(m|yt,λ)是GMM1参数集合λ已知时,yt属于第m个高斯单元的条件概率,γm(t)属于后验概率;M1为GMM1模型的混合数,这里取值为10。
U m = Cdiag ( exp ( C - 1 ( μ n 0 - μ x , m ) ) 1 + exp ( C - 1 ( μ n 0 - μ x , m ) ) ) C - 1
其中C和C-1分别代表DCT变换矩阵和其逆矩阵;μn0是加性噪声n的初始均值;μx,m表示纯净GMM1模型中第m个高斯单元的均值;σy,m表示含噪语音的GMM1模型中第m个高斯单元的方差。
噪声方差的估计式如下:
σ ‾ n = [ Σ m = 1 M 1 Σ t = 1 T γ m ( t ) G m 0 ( U m · U m ) ] - 1 [ Σ m = 1 M 1 Σ t = 1 T γ m ( t ) G m 0 ( ( y t - μ y , m ) · ( y t - μ y , m ) - ( V m · V m ) σ x , m ) ]
其中 V m = I - U m = Cdiag ( 1 1 + exp ( C - 1 ( μ n 0 - μ x , m ) ) ) C - 1
其中μy,m表示在估计得到当前测试环境的噪声均值后,当前测试语音的GMM1模型第m个高斯单元的均值;σx,m表示纯净语音的GMM1模型中第m个高斯单元的方差。
G m 0 = ( U m T · U m T ) diag [ ( ( V m · V m ) σ x , m + ( U m · U m ) σ x 0 ) - 2 ]
其中σx0表示纯净语音的初始方差;其余变量的定义与均值估计公式中的相同。
2.3)
由步骤2.2)得到当前测试语音的噪声均值和方差估计值后,利用训练阶段的GMM2模型,基于最小均方误差准则MMSE,将当前测试环境下的MFCC特征参数映射为纯净环境下的MFCC特征参数:
x ‾ t = E ( x t | y t ) = y t - Σ m = 1 M 2 γ ‾ m ( t ) C log ( 1 + exp ( C - 1 ( μ n - μ x , m ) ) )
其中为映射到纯净环境下的MFCC系数,t为帧号;yt为测试语音的第t帧MFCC特征向量;表示根据估计的噪声均值和方差,确定测试语音GMM2参数集时,yt属于GMM2第m个高斯单元的概率;M2为GMM2高斯模型的混合数,本发明中M2取值100;μx,m表示GMM2模型中第m个高斯单元的均值;μn为估计的当前测试环境噪声n的均值,即为步骤2.2)估计的
基于双层GMM结构的VTS特征补偿过程如图4所示。
2.4)
将训练的HMM模型作为识别模型,对经过步骤2.3)映射后的纯净MFCC特征参数进行概率计算,得到最终的孤立词识别结果。
每个孤立词w对应的含噪HMM模型为λw,测试语音经过2.3)映射到纯净环境下的特征参数组成的序列为基于最大似然估计得到最后识别结果:
w ^ = arg max 1 ≤ w ≤ W P ( X ‾ | λ w )
其中即为最终的识别孤立词,W为识别孤立词的总个数。
本发明中使用前后向算法得到输出概率采用对数运算,以避免下溢。
HMM识别的过程如图5所示。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,例如模型参数的选取,包括GMM1、GMM2模型的参数选择,HMM模型的参数选择,MFCC特征参数的阶数,算法的进一步改进、优化等,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,包括纯净环境和测试环境;该方法包括以下步骤:
1)模型训练阶段:在纯净环境下,利用所有孤立词的纯净训练语音训练数据分别得到两个表示纯净环境下所有孤立词的特征参数分布的高斯混合模型GMM,同时利用各个孤立词的纯净训练语音训练生成各个孤立词对应的表示纯净环境下每个孤立词的特征参数分布的HMM模型;
所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯单元混合数设置为100的GMM2;
2)基于特征补偿的识别阶段:在测试环境下,利用矢量泰勒级数VTS进行特征补偿,基于步骤1)得到的GMM1模型,通过最大似然概率准则ML进行噪声参数估计,估算出测试语音中噪声的均值和方差;接着基于步骤1)得到的GMM2模型,通过最小均方误差估计准则MMSE,将测试环境下含噪语音MFCC特征参数映射为纯净MFCC特征参数;最后将所述纯净MFCC特征参数与步骤1)得到的HMM模型进行匹配,得到最终识别结果。
2.如权利要求1所述的一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,所述步骤1)具体包括模型训练步骤:
1.1)对纯净训练语音数据进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;
1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数,得到纯净环境下所有孤立词的纯净语音MFCC特征参数;
1.3)利用步骤1.2)中所有孤立词的纯净语音MFCC特征参数分别训练得到高斯混合数为10的GMM1模型,和高斯混合数为100的GMM2模型;
1.4)利用步骤1.2)中所有孤立词中每个孤立词的纯净语音MFCC特征参数,训练得到每个孤立词对应的HMM模型。
3.如权利要求1所述的一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,所述步骤2)基于特征补偿的识别阶段具体包括以下步骤:
2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗、端点检测和提取测试环境下的含噪语音MFCC参数;
2.2)基于矢量泰勒级数方法和纯净环境下的GMM1模型和步骤2.1)得到的含噪语音MFCC参数,基于最大似然概率准则ML估计测试语音中噪声的均值和方差;得到噪声参数;
2.3)利用步骤2.2)估计出的噪声参数和GMM2模型,基于最小均方误差准则MMSE,将当前测试语音的含噪MFCC特征参数映射为纯净MFCC特征参数;
2.4)将每个孤立词HMM模型作为识别模型,对经过步骤2.3)映射后的纯净MFCC特征参数进行概率计算,得到最终的孤立词识别结果。
4.如权利要求2或3所述的一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,所述MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数;所述HMM模型的混合数为4,状态数为6。
CN201510188364.1A 2015-04-20 2015-04-20 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 Pending CN104900232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510188364.1A CN104900232A (zh) 2015-04-20 2015-04-20 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510188364.1A CN104900232A (zh) 2015-04-20 2015-04-20 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Publications (1)

Publication Number Publication Date
CN104900232A true CN104900232A (zh) 2015-09-09

Family

ID=54032862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510188364.1A Pending CN104900232A (zh) 2015-04-20 2015-04-20 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Country Status (1)

Country Link
CN (1) CN104900232A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN105390134A (zh) * 2015-10-20 2016-03-09 河海大学 一种基于子带vts的模型自适应方法
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其***
CN106356058A (zh) * 2016-09-08 2017-01-25 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法
CN106782520A (zh) * 2017-03-14 2017-05-31 华中师范大学 一种复杂环境下语音特征映射方法
CN107331384A (zh) * 2017-06-12 2017-11-07 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107910017A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音端点检测中阈值设定的方法
CN108053835A (zh) * 2017-11-13 2018-05-18 河海大学 一种基于通道泰勒级数的噪声估计方法
CN108766430A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于巴氏距离的语音特征映射方法及***
CN110364182A (zh) * 2019-08-01 2019-10-22 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN101819772A (zh) * 2010-02-09 2010-09-01 中国船舶重工集团公司第七○九研究所 一种基于语音分段的孤立词识别方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别***中基于快速噪声估计的特征补偿方法
CN103955904A (zh) * 2014-05-12 2014-07-30 东南大学 一种基于离散分数阶傅里叶变换相位信息的信号重建方法
CN104485103A (zh) * 2014-11-21 2015-04-01 东南大学 一种基于矢量泰勒级数的多环境模型孤立词识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN101819772A (zh) * 2010-02-09 2010-09-01 中国船舶重工集团公司第七○九研究所 一种基于语音分段的孤立词识别方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别***中基于快速噪声估计的特征补偿方法
CN103955904A (zh) * 2014-05-12 2014-07-30 东南大学 一种基于离散分数阶傅里叶变换相位信息的信号重建方法
CN104485103A (zh) * 2014-11-21 2015-04-01 东南大学 一种基于矢量泰勒级数的多环境模型孤立词识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吕勇 等: "基于矢量泰勒级数的模型自适应算法", 《电子与信息学报》 *
吕勇 等: "基于矢量泰勒级数的鲁棒语音识别", 《天津大学学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105390134B (zh) * 2015-10-20 2019-01-11 河海大学 一种基于子带vts的模型自适应方法
CN105390134A (zh) * 2015-10-20 2016-03-09 河海大学 一种基于子带vts的模型自适应方法
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN105355199B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其***
CN106356058B (zh) * 2016-09-08 2019-08-20 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法
CN106356058A (zh) * 2016-09-08 2017-01-25 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法
CN106782520A (zh) * 2017-03-14 2017-05-31 华中师范大学 一种复杂环境下语音特征映射方法
CN107331384A (zh) * 2017-06-12 2017-11-07 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108053835A (zh) * 2017-11-13 2018-05-18 河海大学 一种基于通道泰勒级数的噪声估计方法
CN108053835B (zh) * 2017-11-13 2021-07-09 河海大学 一种基于通道泰勒级数的噪声估计方法
CN107910017A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音端点检测中阈值设定的方法
CN108766430A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于巴氏距离的语音特征映射方法及***
CN108766430B (zh) * 2018-06-06 2020-08-04 华中师范大学 一种基于巴氏距离的语音特征映射方法及***
CN110364182A (zh) * 2019-08-01 2019-10-22 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Similar Documents

Publication Publication Date Title
CN104900232A (zh) 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN104485103A (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
EP3309782B1 (en) Method, device and system for noise suppression
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN103000174B (zh) 语音识别***中基于快速噪声估计的特征补偿方法
Bou-Ghazale et al. A robust endpoint detection of speech for noisy environments with application to automatic speech recognition
CN103680515B (zh) 采用系数重用的比例自适应滤波器系数向量更新方法
CN102968990B (zh) 说话人识别方法和***
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN106875938A (zh) 一种改进的非线性自适应语音端点检测方法
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
CN105355199B (zh) 一种基于gmm噪声估计的模型组合语音识别方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测***
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN102436809A (zh) 英语口语机考***中网络语音识别方法
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
CN109767781A (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、***及存储介质
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及***
CN101853661A (zh) 基于非监督学习的噪声谱估计与语音活动度检测方法
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN112017682A (zh) 一种单通道语音同时降噪和去混响***
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN102426837B (zh) 农业现场数据采集的移动设备语音识别的鲁棒性方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150909

RJ01 Rejection of invention patent application after publication