CN110111797A

CN110111797A - 基于高斯超矢量和深度神经网络的说话人识别方法

Info

Publication number: CN110111797A
Application number: CN201910271166.XA
Authority: CN
Inventors: 曾春艳; 马超峰; 武明虎; 朱栋梁; 赵楠; 朱莉; 王娟
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-09

Abstract

本发明公开了一种基于高斯超矢量和深度神经网络的说话人识别方法，包括说话人特征提取阶段，深度神经网络设计阶段，说话人识别与决策阶段，本发明通过深度神经网络与说话人识别***模型相融合，结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果，并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升***的识别性能，在降低噪声对***性能影响、提高***噪声鲁棒性的同时，优化***结构，提高了相应说话人识别产品的竞争力。

Description

基于高斯超矢量和深度神经网络的说话人识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于高斯超矢量和深度神经网络的说话人识别方法。

背景技术

说话人识别，是一种基于语音信息实现的特殊生物识别技术。经过几十年的发展，目前无噪声干扰条件下说话人识别技术已经较为成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在实际应用环境下，由于背景噪声和信道噪声的存在，说话人识别算法性能会明显下降。因此，如何提高现有说话人识别***的噪声鲁棒性成为近年来该领域的研究热点。

为解决这一问题，研究人员已在语音信号处理的不同层面做出尝试。相关文献证实，在信号处理领域的相关识别算法能否取得好的效果取决于噪声的类型和信噪比的大小。对于语音来说，特征真实的概率分布依赖于特定的说话人并且是多模态的。然而，在实际应用场景中，信道的不匹配和加性噪声等因素会破坏特征真实的概率分布。相关研究通过将具有噪声鲁棒性的语音特征与倒谱均值方差归一化等技术结合，在一定条件下可以调整特征的概率分布，达到降低噪声对***性能影响的目的。特征弯折算法(featurewarping)是将训练和测试语音的特征向量的分布映射到统一的概率分布中，经过映射后的特征向量的每一维都服从标准正态分布，在一定程度上补偿了信道不匹配和加性噪声对特征分布造成的影响。但是，对基于不同语音特征的识别算法进行比较可以发现，识别性能是否改善与噪声的类型和信噪比也是紧密相关的。当环境中含有少量噪声时，基于特征域的相关算法考虑到噪声对特征分布特性的影响，通过分布映射等方式调整特征分布可以提高***的噪声鲁棒性。但是，随着信噪比的减小，噪声影响特征分布特性的同时，也会改变语音中说话人相关的信息，***性能会急剧下降，通过调整特征分布带来的***性能上的提升就显得微不足道。

近年来，随着机器学习算法性能的提升和计算机存储、计算能力的提高，深度神经网络(Deep NeuralNetwork，DNN)被应用到说话人识别领域中并取得了显著的效果。因为人类语音信号的产生和感知过程就是一个复杂的过程，而且在生物学上是具有明显的多层次或深层次处理结构。所以，对于语音这种复杂信号，采用浅层结构模型对其处理显然有很大的局限性，而采用深层的结构，利用多层的非线性变换提取语音信号中的结构化信息和高层信息，是更为合理的选择。

MFCCs(Mel Frequency Cepstral Coefficents)是一种在自动语音和说话人识别中广泛使用的特征，其优点在于不依赖于信号的性质，对输入信号不做任何的假设和限制。数据集中采集到的语音数据的时间长度是不一致，这就导致每段语音的MFCC特征大小也是不一样的。通常神经网络的输入要保证大小一致，如果将MFCC特征通过截取或者补零操作可以满足这一要求，但是这种操作会破坏数据之间的关联性，降低了特征的表达能力，导致***识别率大大下降。因此本发明利用MAP技术对MFCC特征进一步处理，提取出高斯超矢量，提取结果将作为新的鲁棒性特征，并结合深度神经网络，从而提出一种鲁棒性强的说话人识别***。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于高斯超矢量和深度神经网络的说话人识别方法，为提高评价模型的表征能力，并且在降低噪声对***性能影响、提高***噪声鲁棒性的同时，优化***结构，提高了相应说话人识别产品的竞争力。

根据本发明实施例的一种基于高斯超矢量和深度神经网络的说话人识别方法，包括：

S1：说话人特征提取；

1-1)采集原始语音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)；

1-11)预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音***所压抑的高频部分

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中x(n)表示输入信号；

1-12)分帧：将N个采样点集合成一个观测单位，称为帧；

1-13)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性,x(n)表示分帧之后的信号

1-14)快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析

式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数；

1-15)将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；

1-16)经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，式中M为三角滤波器的个数；L是MFCC系数的阶数，取12-16；

1-17)差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度，常用的是一阶差分和二阶差分；

1-18)倒谱均值和方差归一化可以消除平稳信道影响，提升特征的鲁棒性；

1-2)给出一组训练按步骤1-1)提取出MFCC特征，训练通用背景模型(UniversalBackgroundModel，UBM)；

1-21)若某条语音数据对应的特征为X，其中X＝{x₁,x₂,…x_T}，且假设其维度为D，用于计算其似然函数的公式为：

式中该密度函数由K个单高斯密度函数p_k(X_t)加权得到，其中每一个高斯分量的均值μ_k和协方差∑_k的大小分别为：1×D和D×D；

其中混合权重w_k满足假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出；

1-22)一般用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1)，提取出MFCC特征，然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximum aposteriori,MAP)操作,提取出高斯超矢量；

1-31)传统的GMM-UBM模型在此阶段，首先对S个人的特征向量分别训练得到特定说话人GMM，记为λ₁,λ₂,…,λ_s，在识别阶段，将目标说话人的特征序列X＝{x_t,t＝1,2,…T}和GMM模型分别进行匹配，根据MAP计算概率P(λ_i|X)，概率最大所对应的模型即为识别结果；

其中，P(X)是常数，如果前提为每个人概率相等则式(8)可以化简为：

若假设每帧语音特征之间相互独立，并对其化简最终得到式(10)：

1-32)本发明在此阶段是将每一个特征向量作为一个类别，实际上是对MFCC特征重新进行提取操作；

S2：深度神经网络设计；

2-1)DNN是传统前馈人工神经网络(Artificalneuralnetwork,ANN)的扩展，具有更多的隐藏层数和更强的表达能力，使用浅层网络中常用的参数随机初始化和反向传播(Back-Propagation，BP)算法来训练这种多层结构很容易使模型陷入局部最优解，DNN的成功得益于近年来提出的一种无监督的生成式预训练算法，该算法使模型获得了更好的初始参数，然后在此基础上，使用有监督训练的方式对模型参数进一步调优；

2-11)基于受限玻尔兹曼机的参数预训练；

预训练(Pre-training)，利用无监督学习的算法来训练受限波尔兹曼机(RestrictedBoltzmannmachine，RBM)，RBM通过逐层训练并堆叠成深度置信网络(DBN)，RBM在结构上由一层可见层和一层隐藏层组成，相同层的节点之间无关联，假设RBM的可见层为v，隐藏层为h，(v,h)的联合概率分布定义为：

其中，W为可见层与隐藏层之间的连接矩阵，b和c分别为可见层和隐藏层偏置，Z为归一化因子，利用梯度下降和对比散度(ContrastiveDivergence，CD)学习算法，通过最大化可见层节点概率分布P(v)来获得模型参数；

2-12)基于反向传播算法的参数微调(Fine-tuning)

当完成DBN的预训练后，将其各层网络参数作为DNN初始的模型参数，在最后一层上增加一层softmax层，然后使用带标注的数据，利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数；

假设第0层为输入层，第L层为输出层，1到L-1为隐藏层，对于隐藏层l(l＝1,2,…,L-1),其节点输出激励值可以计算为：

z^l＝W^l-1h^l-1+b^l-1

h^l＝σ(z^l) (12)

其中，W^l-1和b^l-1为权重矩阵和偏置，z^l为l层输入值的加权和，σ(·)为激活函数，一般使用sigmoid或tanh函数；

2-13)卷积神经网络(Convolutional Neural Network，CNN)是另一种著名的深度学***移不变性，能够克服语音信号本身多样性的问题，本发明将卷积和池化加入到网络中，搭建新的DNN；

S3：说话人识别与决策(softmax)：

3-1)在后端测试阶段，当给出一条测试语音的高斯超矢量后，首先将该语音和所有说话人模型进行比对，得到测试概率，即测试得分；

对于输出层，采用Softmax函数：

式中k为输出类别的索引，即目标说话人的类别索引，p_s表示待识别说话人在第s类的输出值，即输出概率；

3-2)将最大得分对应的标签与声称的标签对比，若相同，就认为这段语音是其所声称的说话人的语音，否则就拒绝；

3-3)计算所有测试语音正确识别的概率，即***的识别率。

本发明中，通过深度神经网络与说话人识别***模型相融合，结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果，并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升***的识别性能，在降低噪声对***性能影响、提高***噪声鲁棒性的同时，优化***结构，提高了相应说话人识别产品的竞争力。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于高斯超矢量和深度神经网络的说话人识别方法的流程框图；

图2为本发明提出的MFCC特征提取流程框图；

图3为本发明提出的高斯超矢量提取流程框图；

图4为本发明提出的深度神经网络的***框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

参照图1-4，一种基于高斯超矢量和深度神经网络的说话人识别方法，包括：

S1：说话人特征提取；

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中x(n)表示输入信号；

1-12)分帧：将N个采样点集合成一个观测单位，称为帧；

式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数；

1-16)经离散余弦变换(DCT)得到MFCC系数：

S2：深度神经网络设计；

2-1)DNN是传统前馈人工神经网络(Artifical neural network,ANN)的扩展，具有更多的隐藏层数和更强的表达能力，使用浅层网络中常用的参数随机初始化和反向传播(Back-Propagation，BP)算法来训练这种多层结构很容易使模型陷入局部最优解，DNN的成功得益于近年来提出的一种无监督的生成式预训练算法，该算法使模型获得了更好的初始参数，然后在此基础上，使用有监督训练的方式对模型参数进一步调优；

2-11)基于受限玻尔兹曼机的参数预训练；

预训练(Pre-training)，利用无监督学习的算法来训练受限波尔兹曼机(Restricted Boltzmann machine，RBM)，RBM通过逐层训练并堆叠成深度置信网络(DBN)，RBM在结构上由一层可见层和一层隐藏层组成，相同层的节点之间无关联，假设RBM的可见层为v，隐藏层为h，(v,h)的联合概率分布定义为：

其中，W为可见层与隐藏层之间的连接矩阵，b和c分别为可见层和隐藏层偏置，Z为归一化因子，利用梯度下降和对比散度(Contrastive Divergence，CD)学习算法，通过最大化可见层节点概率分布P(v)来获得模型参数；

2-12)基于反向传播算法的参数微调(Fine-tuning)

z^l＝W^l-1h^l-1+b^l-1

h^l＝σ(z^l) (12)

S3：说话人识别与决策(softmax)：

对于输出层，采用Softmax函数：

3-3)计算所有测试语音正确识别的概率，即***的识别率。

综上所述，该基于高斯超矢量和深度神经网络的说话人识别方法通过深度神经网络与说话人识别***模型相融合，结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果，并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升***的识别性能，在降低噪声对***性能影响、提高***噪声鲁棒性的同时，优化***结构，提高了相应说话人识别产品的竞争力。

为了验证本发明实施的识别效果，本发明使用white噪声为背景噪声，测试***在信噪比分别为10、20、30下的识别性能，选用GMM-UBM和GSV-SVM作为对比的***。本发明使用Librispeech数据集中的干净子集，选用其中150人的数据训练出高斯数为256的UBM，并另外随机抽取34人及其相应的50句语音作为后期识别所用。不同***在三个信噪比条件下识别的准确率对比如表1所示。

表1说话人识别***在white噪声下的准确率(％)

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于高斯超矢量和深度神经网络的说话人识别方法，应用于说话人识别，其特征在于，所述基于高斯超矢量和深度神经网络的说话人识别方法包括：

S1：说话人特征提取；

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中x(n)表示输入信号；

1-12)分帧：将N个采样点集合成一个观测单位，称为帧；

式中s(n)表示输入的语音信号，N表示傅里叶变换的帧数；

1-16)经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，式中M为三角滤波器的个数；L是MFCC系数的阶数；

1-2)给出一组训练按步骤1-1)提取出MFCC特征，训练通用背景模型(UniversalBackground Model，UBM)；

1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1)，提取出MFCC特征，然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximum a posteriori,MAP)操作,提取出高斯超矢量；

S2：深度神经网络设计；

2-1)DNN是传统前馈人工神经网络(Artifical neural network,ANN)的扩展，在此基础上，使用有监督训练的方式对模型参数进一步调优；

2-11)基于受限玻尔兹曼机的参数预训练；

预训练(Pre-training)，利用无监督学习的算法来训练受限波尔兹曼机(RestrictedBoltzmann machine，RBM)，RBM通过逐层训练并堆叠成深度置信网络(DBN)，RBM在结构上由一层可见层和一层隐藏层组成，相同层的节点之间无关联，假设RBM的可见层为v，隐藏层为h，(v,h)的联合概率分布定义为：

2-12)基于反向传播算法的参数微调(Fine-tuning)

z^l＝W^l-1h^l-1+b^l-1

h^l＝σ(z^l) (12)

2-13)卷积神经网络(Convolutional Neural Network，CNN)是另一种著名的深度学习模型，本发明将卷积和池化加入到网络中，搭建新的DNN；

S3：说话人识别与决策(softmax)：

对于输出层，采用Softmax函数：

3-3)计算所有测试语音正确识别的概率，即***的识别率。