CN111489763B

CN111489763B - 一种基于gmm模型的复杂环境下说话人识别自适应方法

Info

Publication number: CN111489763B
Application number: CN202010284977.6A
Authority: CN
Inventors: 郭雨欣; 宋雨佳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2023-06-20
Anticipated expiration: 2040-04-13
Also published as: CN111489763A

Abstract

本发明涉及信号处理技术，具体涉及一种基于GMM模型的复杂环境下说话人识别自适应方法，包括基于GMM的说话人识别模型的构建阶段，即对语音信号进行低通滤波、预加重、加窗、分帧等预处理后，通过Gammatone滤波器进行滤波去噪，提取GMFCC组合特征参数。还包括说话人识别及自适应阶段，即通过提取待识别的说话人语音特征参数并对原模型进行自适应调整，并完成说话人识别。该方法克服了因生病或环境复杂造成说话人识别准确率降低等缺点，提出一种新的组合特征参数方法，能够组合分析不同特征，有效补偿因说话人自身情况不同而造成语音变化而带来的误差，从而提高识别准确率。

Description

一种基于GMM模型的复杂环境下说话人识别自适应方法

技术领域

本发明属于信号处理技术领域，尤其涉及一种基于GMM模型的复杂环境下说话人识别自适应方法。

背景技术

说话人识别是一种通过采集到的说话人的声音信号进行特征提取，分析处理后来进行说话人的辨认或者确认的方法。随着当今互联网和信息化技术的飞速发展,越来越多的相关领域将用到说话人识别技术。说话人识别作为一项前沿技术，广泛应用于智能家居、司法刑侦、身份验证等领域。

随着说话人识别研究的深入，其关键性技术主要围绕着噪声消除、特征提取和模式匹配等问题展开。

而如何从说话人的语音信号中提取出说话人的个性特征是声纹识别的关键。语音信号中既包含了所发语音的特征，也包含说话人的个性特征，是语音特征和说话人个性特征的混合体。从说话人语音信号中提取的特征参数应满足一定准则，对外具有鲁棒性(说话人的健康状况和情绪，方言和别人模仿等)，能长期保持稳定，易从语音信号中进行提取。

从声学层面来说，可把声音特征参数简单分为两类：与说话人自身生理结构相关的固有特性，主要体现在语音的频谱结构上，包含有反应声道共振的频谱包络特征信息和反映声带振动等音源激励性质的频谱的细节构造性特征信息，典型的特征参数有基音周期系数以及共振峰，它们不易被模仿，但容易收到健康状况的影响。另一类主要反映声道活动的动态特性，即发音的方式和发音习性等，体现在音频结构随时间的变化，含有特征参数的一般动态特性，这类特征相对稳定但比较容易模仿，如代表性的Mel倒谱系数。而若将二者进行客观上加权融合，便可以做到

同时，提取到的声音还会有周围噪声等的干扰，如何有效去除噪声也成为说话人识别是否具有高分辨率的重要因素。

目前，自适应技术也日益成熟。通过自适应技术，我们可以依据测试人的说话特征调整模型参数，提高识别准确率。

发明内容

本发明的目的是提供一种组合分析不同特征，有效补偿因生病或噪音而造成语音变化而带来的误差的自适应方法。

为实现上述目的，本发明采用的技术方案是，一种基于GMM模型的复杂环境下说话人识别自适应方法，包括以下步骤：

步骤1、构建基于GMM的说话人识别模型；

步骤1.1、采集一定数量的语音数据作为说话人识别的训练语音数据，对提取的语音数据进行预处理；

步骤1.2、通过倒谱法提取预处理后的语音信号的基音周期系数；

步骤1.3、对步骤1.1预处理后的语音信号进行MFCC系数提取，并通过Gammatone滤波器进行滤波；

步骤1.4、对MFCC系数进行处理得到MFCC系数的一阶与二阶差分，并加上基音周期系数，得到GMFCC组合特征矢量；

步骤1.5、利用一部分语音数据的声学谱特征训练高斯混合模型；

步骤2、说话人识别及自适应；

步骤2.1、对待识别的语音进行预处理，并从待识别的语音数据中提取基音周期系数及MFCC系数，处理后得到待识别语音的GMFCC特征；

步骤2.2、通过最大后验概率模型进行GMM模型的自适应调整；

步骤2.3、利用调整后的模型进行识别。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤1.1的实现包括以下具体步骤：

步骤1.1.1、采集一定量语音数据做成语料库，作为说话人识别的训练语音数据；

步骤1.1.2、对得到的语音信号进行低通滤波，保留1000Hz以下的频率，同时进行加窗、分帧，得到帧信号；

步骤1.1.3、对每帧信号进行最小二乘法去趋势化处理，并利用谱减法消除语音信号中的噪声。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤1.2的实现包括以下具体步骤：

步骤1.2.1、对预处理的信号进行分析，得到其线性预测模型：

其中，

代表第i帧语音的第l个LPC系数，x_i(m-l)代表第m-l帧，/>

代表预测的第m帧；

步骤1.2.2、推导出预测误差的传递函数：

其中，

代表第i帧语音的第l个LPC系数；

步骤1.2.3、利用线性预测法消除共振峰的影响；

步骤1.2.4、利用中值滤波算法，将语音信号中毛刺点的值用临近各点的中值取代，消除语音中的毛刺对语音分析造成的影响；

步骤1.2.5、利用倒谱法对处理后的语音信号进行基音周期检测，并计算出基音周期系数。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤1.3的实现包括以下具体步骤：

步骤1.3.1、将步骤1.1预处理得到处理后的语音数据，通过配置有M个带通滤波器的三角滤波器组，使语音数据按照Mel频率分布；

步骤1.3.2、对步骤1.3.1中每个滤波器组输出的数据进行对数能量处理；

步骤1.3.3、将步骤1.3.2得到的数据经过离散余弦变换DCT后，得到MFCC参数。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤1.4的实现包括以下具体步骤：

步骤1.4.1、经步骤1.3提取到语音信号的MFCC参数后，利用以下算式进行一阶MFCC、二阶MFCC参数的提取；

Sm＝MFCC+ΔMFCC+ΔΔMFCC

其中，d_t为第个一阶差分的倒谱系数，T表示倒谱系数维数，θ是一阶导数的时间差，取1或2，c_t为第t个倒谱系数；

步骤1.4.2、将前面步骤提取出的基音周期参数

和得到的MFCC参数Sm作为测试语音文件的后验概率值，将这两个矢量进行归一化，使/>

和Sm′成为0-1之间数据：

其中，

代表基音周期参数，max代表其最大值，/>

和Sm′代表归一化后的基音周期参数与MFCC参数；

步骤1.4.3、利用熵权法计算出两个参数的影响程度因子C1，C2，形成新组合参数GMFCC：

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤1.5的实现包括以下具体步骤：

步骤1.5.1、利用EM算法求得每个样本对应的GMM模型，每个GMM模型对应有各自的均值、协方差及权值。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤2.1的实现包括以下具体步骤：

步骤2.1.1、对待识别的语音进行预处理，包括低通滤波、去趋势化、分帧、加窗及端点检测；

步骤2.1.2、利用Gammatone滤波器对语音信号进行滤波；

步骤2.1.3、通过倒谱法提取待识别语音的基音周期系数及MFCC系数，并计算出一阶MFCC及二阶MFCC参数，形成GMFCC组合参数。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤2.2的实现包括利用最大后验概率模型根据待识别的语音的参数对原始模型进行说话人的自适应变换，得到说话人相关的自适应模型。

在上述的基于GMM模型的复杂环境下说话人识别自适应方法中，步骤2.3的实现包括通过GMM公式分别计算待识别语音与原始训练的概率值P(Z|A)，Z为待识别的语音数据，A为训练数据中的一个模型，选择概率值最大的模型，则标签待识别语音为该说话人。

本发明的有益效果：(1)、利用两个语音参数进行识别，既通过添加基音周期参数，避免了因生病或情感不同引起声音发生变化而引起识别率降低；又以MFCC参数为基础，反映声道活动的动态特性，具有一定的稳定性。

(2)、利用Gammatone滤波器，对原始语音数据进行滤波，去除周围复杂环境带来的噪音而引起的识别准确率下降。

(3)、利用最大后验概率模型，根据待识别的语音数据的参数特性对原始GMM模型进行修改，实现模型的自适应，有效提高了模型识别的准确率。

附图说明

图1为本发明一个实施例总流程图。

具体实施方式

下面结合附图对本发明的实施方式进行详细描述。

为了克服因生病或环境复杂造成说话人识别准确率降低等缺点，本实施例提出一种新的组合特征参数方法，能够组合分析不同特征，有效补偿因生病或噪音而造成语音变化而带来的误差，提高识别准确率。

一种基于GMM模型的复杂环境下说话人识别自适应方法，包括：基于GMM的说话人识别模型的构建阶段，即对语音信号进行低通滤波、预加重、加窗、分帧等预处理后，通过Gammatone滤波器进行滤波去噪，提取GMFCC组合特征参数。说话人识别及自适应阶段，即通过提取待识别的说话人语音特征参数并对原模型进行自适应调整，并完成说话人识别。

基于GMM的说话人识别模型的构建阶段具体包括以下步骤：

步骤S1，采集一定数量的语音数据作为说话人识别的训练语音数据，对提取的语音数据进行预处理。

步骤S2，通过倒谱法提取预处理后语音信号的基音周期系数。

步骤S3，对预处理后的语音信息进行MFCC系数提取，并通过Gammatone滤波器进行滤波。

步骤S4，对MFCC系数进行处理得到MFCC系数的一阶与二阶差分，并加上基音周期系数，得到GMFCC组合特征矢量。

步骤S5，利用一部分语音数据的声学谱特征训练高斯混合模型。

说话人识别及自适应阶段具体包括以下步骤：

步骤S6，对待识别的语音进行预处理，并从待识别的语音数据中提取基音周期系数及MFCC系数，处理后得到待识别语音的GMFCC特征。

步骤S7，通过最大后验概率模型进行GMM模型的自适应调整。

步骤S8，利用调整后的模型进行识别。

具体实施时，如图1所示，本实施例为基于GMM模型的复杂环境下说话人识别自适应方法，包括7个功能模块：数据预处理模块、Gammatone滤波模块、基音周期参数提取模块、MFCC参数提取模块、GMFCC组合参数模块、GMM模块、自适应模块。其中，数据预处理模块的主要功能是，利用信号处理，对原始的语音数据进行端点检测、预加重、分帧及加窗。Gammatone滤波模块的主要功能是对原始语音信号进行滤波去噪，突出说话人说话声音。基音周期参数提取模块的主要功能是提取原始语音的基音周期系数，作为语音的特征参数用于之后的训练及识别。MFCC参数提取模块的主要功能是提取语音的MFCC参数、一阶MFCC及二阶MFCC参数。GMFCC组合参数模块的主要功能是处理基音周期参数及MFCC，并将其连接为一个高维组合参数GMFCC。GMM模块的主要功能是对提取的特征参数进行训练，每一个说话人的训练样本都通过EM算法求得对应的GMM匹配模型。自适应模块的主要功能是通过MAP算法，根据新说话人的声学特征对原来的模型参数进行调整，实现自适应。

本实施例方法包括：基于GMM的说话人识别模型的构建阶段及说话人识别及自适应阶段。

基于GMM的说话人识别模型的构建阶段具体包括以下步骤：

步骤S1具体有以下子步骤：

步骤S11，采集一定量语音数据做成语料库，作为说话人识别的训练语音数据。

步骤S12，对得到的语音信号进行低通滤波，只保留1000Hz以下的频率，同时进行加窗、分帧，得到帧信号。

步骤S14，对每帧信号进行最小二乘法去趋势化处理，并利用谱减法消除语音信号中的噪声。

步骤S2的子步骤如下：

步骤S21，对预处理的信号进行分析，得到其线性预测模型：

其中，

代表第i帧语音的第l个LPC系数，x_i(m-l)代表第m-l帧，/>

代表预测的第m帧。

步骤S22，推导出预测误差的传递函数：

其中，

代表第i帧语音的第l个LPC系数。

步骤S23，利用线性预测法消除共振峰的影响。

步骤S24，利用中值滤波算法，将语音信号中毛刺点的值用临近各点的中值取代，消除语音中的毛刺对语音分析造成的影响。

步骤S25，利用倒谱法对处理后的语音信号进行基音周期检测，并计算出基音周期系数，

步骤S3的子步骤如下：

步骤S31，经步骤S1步骤预处理后，得到处理后的语音数据，将其通过配置有M个带通滤波器的三角滤波器组，使语音数据按照Mel频率分布，以满足人耳听觉习惯需要。

步骤S32，对步骤S31中每个滤波器组输出的数据进行对数能量处理。

步骤S33，将步骤S32得到的数据经过离散余弦变换(DCT)后，得到MFCC参数。

步骤S4的子步骤如下：

步骤S41，经步骤S3提取到语音信号的MFCC参数后，可用以下算式进行一阶MFCC、二阶MFCC参数的提取。

Sm＝MFCC+ΔMFCC+ΔΔMFCC

其中，d_t为第个一阶差分的倒谱系数，T表示倒谱系数维数，θ是一阶导数的时间差，值取为1或者2，c_t为第t个倒谱系数。

步骤S42，将前面步骤提取出的基音周期参数

和Sm′成为0-1之间数据：

其中，

代表基音周期参数，max代表其最大值，/>

和Sm′代表归一化后的基音周期参数与MFCC参数。

步骤S43，利用熵权法计算出两个参数的影响程度因子C1，C2，形成新组合参数GMFCC：

步骤S5的子步骤如下：

步骤S51，利用EM算法求得每个样本对应的GMM模型每个GMM模型对应有各自的均值、协方差及权值。

说话人识别及自适应阶段具体包括以下步骤：

步骤S6的子步骤如下：

步骤S61，对需识别的语音进行预处理，包括低通滤波、去趋势化、分帧、加窗及端点检测等。

步骤S62，利用Gammatone滤波器对语音信号进行滤波。

步骤S63，通过倒谱法提取待识别语音的基音周期系数及MFCC系数，并计算出一阶MFCC及二阶MFCC参数，形成GMFCC组合参数。

步骤S7的子步骤；

步骤S71通过最大后验概率模型进行GMM模型的自适应调整，即利用MAP(最大后验概率模型)根据待识别的语音的参数对原始模型进行说话人的自适应变换，可得到说话人相关的自适应模型。

步骤S8的子步骤；

步骤S81利用调整后的模型进行识别，分别通过GMM公式分别计算待识别语音与原始训练的概率值P(Z|A)(Z为待识别的语音数据，A为训练数据中的一个模型)，选择概率值最大的模型，则标签待识别语音为该说话人。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

虽然以上结合附图描述了本发明的具体实施方式，但是本领域普通技术人员应当理解，这些仅是举例说明，可以对这些实施方式做出多种变形或修改，而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于GMM模型的复杂环境下说话人识别自适应方法，其特征是，包括以下步骤：

步骤1、构建基于GMM的说话人识别模型；

步骤1.1.3、对每帧信号进行最小二乘法去趋势化处理，并利用谱减法消除语音信号中的噪声；

其中，

代表第i帧语音的第l个LPC系数，x_i(m-l)代表第m-l帧，/>

代表预测的第m帧；

步骤1.2.2、推导出预测误差的传递函数：

其中，

代表第i帧语音的第l个LPC系数；

步骤1.2.3、利用线性预测法消除共振峰的影响；

步骤1.2.5、利用倒谱法对处理后的语音信号进行基音周期检测，并计算出基音周期系数；

步骤1.3.3、将步骤1.3.2得到的数据经过离散余弦变换DCT后，得到MFCC参数；

Sm＝MFCC+ΔMFCC+ΔΔMFCC

步骤1.4.2、将前面步骤提取出的基音周期参数

和Sm′成为0-1之间数据：

其中，

代表基音周期参数，max代表其最大值，/>

和Sm′代表归一化后的基音周期参数与MFCC参数；

步骤1.5.1、利用EM算法求得每个样本对应的GMM模型，每个GMM模型对应有各自的均值、协方差及权值；

步骤2、说话人识别及自适应；

步骤2.1.2、利用Gammatone滤波器对语音信号进行滤波；

步骤2.1.3、通过倒谱法提取待识别语音的基音周期系数及MFCC系数，并计算出一阶MFCC及二阶MFCC参数，形成GMFCC组合参数；

步骤2.2、通过最大后验概率模型进行GMM模型的自适应调整；

步骤2.2的实现包括利用最大后验概率模型根据待识别的语音的参数对原始模型进行说话人的自适应变换，得到说话人相关的自适应模型；

步骤2.3、利用调整后的模型进行识别；步骤2.3的实现包括通过GMM公式分别计算待识别语音与原始训练的概率值P(Z|A)，Z为待识别的语音数据，A为训练数据中的一个模型，选择概率值最大的模型，则标签待识别语音为该说话人。