CN110111797A - 基于高斯超矢量和深度神经网络的说话人识别方法 - Google Patents
基于高斯超矢量和深度神经网络的说话人识别方法 Download PDFInfo
- Publication number
- CN110111797A CN110111797A CN201910271166.XA CN201910271166A CN110111797A CN 110111797 A CN110111797 A CN 110111797A CN 201910271166 A CN201910271166 A CN 201910271166A CN 110111797 A CN110111797 A CN 110111797A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- model
- parameter
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013461 design Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 14
- 230000013016 learning Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 210000001260 vocal cord Anatomy 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 claims 1
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000013210 evaluation model Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于高斯超矢量和深度神经网络的说话人识别方法,包括说话人特征提取阶段,深度神经网络设计阶段,说话人识别与决策阶段,本发明通过深度神经网络与说话人识别***模型相融合,结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果,并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升***的识别性能,在降低噪声对***性能影响、提高***噪声鲁棒性的同时,优化***结构,提高了相应说话人识别产品的竞争力。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于高斯超矢量和深度神经网络的说话人识别方法。
背景技术
说话人识别,是一种基于语音信息实现的特殊生物识别技术。经过几十年的发展,目前无噪声干扰条件下说话人识别技术已经较为成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在实际应用环境下,由于背景噪声和信道噪声的存在,说话人识别算法性能会明显下降。因此,如何提高现有说话人识别***的噪声鲁棒性成为近年来该领域的研究热点。
为解决这一问题,研究人员已在语音信号处理的不同层面做出尝试。相关文献证实,在信号处理领域的相关识别算法能否取得好的效果取决于噪声的类型和信噪比的大小。对于语音来说,特征真实的概率分布依赖于特定的说话人并且是多模态的。然而,在实际应用场景中,信道的不匹配和加性噪声等因素会破坏特征真实的概率分布。相关研究通过将具有噪声鲁棒性的语音特征与倒谱均值方差归一化等技术结合,在一定条件下可以调整特征的概率分布,达到降低噪声对***性能影响的目的。特征弯折算法(featurewarping)是将训练和测试语音的特征向量的分布映射到统一的概率分布中,经过映射后的特征向量的每一维都服从标准正态分布,在一定程度上补偿了信道不匹配和加性噪声对特征分布造成的影响。但是,对基于不同语音特征的识别算法进行比较可以发现,识别性能是否改善与噪声的类型和信噪比也是紧密相关的。当环境中含有少量噪声时,基于特征域的相关算法考虑到噪声对特征分布特性的影响,通过分布映射等方式调整特征分布可以提高***的噪声鲁棒性。但是,随着信噪比的减小,噪声影响特征分布特性的同时,也会改变语音中说话人相关的信息,***性能会急剧下降,通过调整特征分布带来的***性能上的提升就显得微不足道。
近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经网络(Deep NeuralNetwork,DNN)被应用到说话人识别领域中并取得了显著的效果。因为人类语音信号的产生和感知过程就是一个复杂的过程,而且在生物学上是具有明显的多层次或深层次处理结构。所以,对于语音这种复杂信号,采用浅层结构模型对其处理显然有很大的局限性,而采用深层的结构,利用多层的非线性变换提取语音信号中的结构化信息和高层信息,是更为合理的选择。
MFCCs(Mel Frequency Cepstral Coefficents)是一种在自动语音和说话人识别中广泛使用的特征,其优点在于不依赖于信号的性质,对输入信号不做任何的假设和限制。数据集中采集到的语音数据的时间长度是不一致,这就导致每段语音的MFCC特征大小也是不一样的。通常神经网络的输入要保证大小一致,如果将MFCC特征通过截取或者补零操作可以满足这一要求,但是这种操作会破坏数据之间的关联性,降低了特征的表达能力,导致***识别率大大下降。因此本发明利用MAP技术对MFCC特征进一步处理,提取出高斯超矢量,提取结果将作为新的鲁棒性特征,并结合深度神经网络,从而提出一种鲁棒性强的说话人识别***。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于高斯超矢量和深度神经网络的说话人识别方法,为提高评价模型的表征能力,并且在降低噪声对***性能影响、提高***噪声鲁棒性的同时,优化***结构,提高了相应说话人识别产品的竞争力。
根据本发明实施例的一种基于高斯超矢量和深度神经网络的说话人识别方法,包括:
S1:说话人特征提取;
1-1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);
1-11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音***所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中x(n)表示输入信号;
1-12)分帧:将N个采样点集合成一个观测单位,称为帧;
1-13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号
1-14)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析
式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数;
1-15)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
1-16)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;
1-17)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分;
1-18)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性;
1-2)给出一组训练按步骤1-1)提取出MFCC特征,训练通用背景模型(UniversalBackgroundModel,UBM);
1-21)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
1-22)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1),提取出MFCC特征,然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximum aposteriori,MAP)操作,提取出高斯超矢量;
1-31)传统的GMM-UBM模型在此阶段,首先对S个人的特征向量分别训练得到特定说话人GMM,记为λ1,λ2,…,λs,在识别阶段,将目标说话人的特征序列X={xt,t=1,2,…T}和GMM模型分别进行匹配,根据MAP计算概率P(λi|X),概率最大所对应的模型即为识别结果;
其中,P(X)是常数,如果前提为每个人概率相等则式(8)可以化简为:
若假设每帧语音特征之间相互独立,并对其化简最终得到式(10):
1-32)本发明在此阶段是将每一个特征向量作为一个类别,实际上是对MFCC特征重新进行提取操作;
S2:深度神经网络设计;
2-1)DNN是传统前馈人工神经网络(Artificalneuralnetwork,ANN)的扩展,具有更多的隐藏层数和更强的表达能力,使用浅层网络中常用的参数随机初始化和反向传播(Back-Propagation,BP)算法来训练这种多层结构很容易使模型陷入局部最优解,DNN的成功得益于近年来提出的一种无监督的生成式预训练算法,该算法使模型获得了更好的初始参数,然后在此基础上,使用有监督训练的方式对模型参数进一步调优;
2-11)基于受限玻尔兹曼机的参数预训练;
预训练(Pre-training),利用无监督学习的算法来训练受限波尔兹曼机(RestrictedBoltzmannmachine,RBM),RBM通过逐层训练并堆叠成深度置信网络(DBN),RBM在结构上由一层可见层和一层隐藏层组成,相同层的节点之间无关联,假设RBM的可见层为v,隐藏层为h,(v,h)的联合概率分布定义为:
其中,W为可见层与隐藏层之间的连接矩阵,b和c分别为可见层和隐藏层偏置,Z为归一化因子,利用梯度下降和对比散度(ContrastiveDivergence,CD)学习算法,通过最大化可见层节点概率分布P(v)来获得模型参数;
2-12)基于反向传播算法的参数微调(Fine-tuning)
当完成DBN的预训练后,将其各层网络参数作为DNN初始的模型参数,在最后一层上增加一层softmax层,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数;
假设第0层为输入层,第L层为输出层,1到L-1为隐藏层,对于隐藏层l(l=1,2,…,L-1),其节点输出激励值可以计算为:
zl=Wl-1hl-1+bl-1
hl=σ(zl) (12)
其中,Wl-1和bl-1为权重矩阵和偏置,zl为l层输入值的加权和,σ(·)为激活函数,一般使用sigmoid或tanh函数;
2-13)卷积神经网络(Convolutional Neural Network,CNN)是另一种著名的深度学***移不变性,能够克服语音信号本身多样性的问题,本发明将卷积和池化加入到网络中,搭建新的DNN;
S3:说话人识别与决策(softmax):
3-1)在后端测试阶段,当给出一条测试语音的高斯超矢量后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率;
3-2)将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;
3-3)计算所有测试语音正确识别的概率,即***的识别率。
本发明中,通过深度神经网络与说话人识别***模型相融合,结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果,并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升***的识别性能,在降低噪声对***性能影响、提高***噪声鲁棒性的同时,优化***结构,提高了相应说话人识别产品的竞争力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于高斯超矢量和深度神经网络的说话人识别方法的流程框图;
图2为本发明提出的MFCC特征提取流程框图;
图3为本发明提出的高斯超矢量提取流程框图;
图4为本发明提出的深度神经网络的***框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
参照图1-4,一种基于高斯超矢量和深度神经网络的说话人识别方法,包括:
S1:说话人特征提取;
1-1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);
1-11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音***所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中x(n)表示输入信号;
1-12)分帧:将N个采样点集合成一个观测单位,称为帧;
1-13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号
1-14)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析
式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数;
1-15)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
1-16)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;
1-17)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分;
1-18)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性;
1-2)给出一组训练按步骤1-1)提取出MFCC特征,训练通用背景模型(UniversalBackgroundModel,UBM);
1-21)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
1-22)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1),提取出MFCC特征,然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximum aposteriori,MAP)操作,提取出高斯超矢量;
1-31)传统的GMM-UBM模型在此阶段,首先对S个人的特征向量分别训练得到特定说话人GMM,记为λ1,λ2,…,λs,在识别阶段,将目标说话人的特征序列X={xt,t=1,2,…T}和GMM模型分别进行匹配,根据MAP计算概率P(λi|X),概率最大所对应的模型即为识别结果;
其中,P(X)是常数,如果前提为每个人概率相等则式(8)可以化简为:
若假设每帧语音特征之间相互独立,并对其化简最终得到式(10):
1-32)本发明在此阶段是将每一个特征向量作为一个类别,实际上是对MFCC特征重新进行提取操作;
S2:深度神经网络设计;
2-1)DNN是传统前馈人工神经网络(Artifical neural network,ANN)的扩展,具有更多的隐藏层数和更强的表达能力,使用浅层网络中常用的参数随机初始化和反向传播(Back-Propagation,BP)算法来训练这种多层结构很容易使模型陷入局部最优解,DNN的成功得益于近年来提出的一种无监督的生成式预训练算法,该算法使模型获得了更好的初始参数,然后在此基础上,使用有监督训练的方式对模型参数进一步调优;
2-11)基于受限玻尔兹曼机的参数预训练;
预训练(Pre-training),利用无监督学习的算法来训练受限波尔兹曼机(Restricted Boltzmann machine,RBM),RBM通过逐层训练并堆叠成深度置信网络(DBN),RBM在结构上由一层可见层和一层隐藏层组成,相同层的节点之间无关联,假设RBM的可见层为v,隐藏层为h,(v,h)的联合概率分布定义为:
其中,W为可见层与隐藏层之间的连接矩阵,b和c分别为可见层和隐藏层偏置,Z为归一化因子,利用梯度下降和对比散度(Contrastive Divergence,CD)学习算法,通过最大化可见层节点概率分布P(v)来获得模型参数;
2-12)基于反向传播算法的参数微调(Fine-tuning)
当完成DBN的预训练后,将其各层网络参数作为DNN初始的模型参数,在最后一层上增加一层softmax层,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数;
假设第0层为输入层,第L层为输出层,1到L-1为隐藏层,对于隐藏层l(l=1,2,…,L-1),其节点输出激励值可以计算为:
zl=Wl-1hl-1+bl-1
hl=σ(zl) (12)
其中,Wl-1和bl-1为权重矩阵和偏置,zl为l层输入值的加权和,σ(·)为激活函数,一般使用sigmoid或tanh函数;
2-13)卷积神经网络(Convolutional Neural Network,CNN)是另一种著名的深度学***移不变性,能够克服语音信号本身多样性的问题,本发明将卷积和池化加入到网络中,搭建新的DNN;
S3:说话人识别与决策(softmax):
3-1)在后端测试阶段,当给出一条测试语音的高斯超矢量后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率;
3-2)将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;
3-3)计算所有测试语音正确识别的概率,即***的识别率。
综上所述,该基于高斯超矢量和深度神经网络的说话人识别方法通过深度神经网络与说话人识别***模型相融合,结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果,并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升***的识别性能,在降低噪声对***性能影响、提高***噪声鲁棒性的同时,优化***结构,提高了相应说话人识别产品的竞争力。
为了验证本发明实施的识别效果,本发明使用white噪声为背景噪声,测试***在信噪比分别为10、20、30下的识别性能,选用GMM-UBM和GSV-SVM作为对比的***。本发明使用Librispeech数据集中的干净子集,选用其中150人的数据训练出高斯数为256的UBM,并另外随机抽取34人及其相应的50句语音作为后期识别所用。不同***在三个信噪比条件下识别的准确率对比如表1所示。
表1说话人识别***在white噪声下的准确率(%)
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种基于高斯超矢量和深度神经网络的说话人识别方法,应用于说话人识别,其特征在于,所述基于高斯超矢量和深度神经网络的说话人识别方法包括:
S1:说话人特征提取;
1-1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);
1-11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音***所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中x(n)表示输入信号;
1-12)分帧:将N个采样点集合成一个观测单位,称为帧;
1-13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号
1-14)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析
式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数;
1-15)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
1-16)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数;
1-17)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分;
1-18)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性;
1-2)给出一组训练按步骤1-1)提取出MFCC特征,训练通用背景模型(UniversalBackground Model,UBM);
1-21)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
1-22)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1),提取出MFCC特征,然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximum a posteriori,MAP)操作,提取出高斯超矢量;
1-31)传统的GMM-UBM模型在此阶段,首先对S个人的特征向量分别训练得到特定说话人GMM,记为λ1,λ2,…,λs,在识别阶段,将目标说话人的特征序列X={xt,t=1,2,…T}和GMM模型分别进行匹配,根据MAP计算概率P(λi|X),概率最大所对应的模型即为识别结果;
其中,P(X)是常数,如果前提为每个人概率相等则式(8)可以化简为:
若假设每帧语音特征之间相互独立,并对其化简最终得到式(10):
1-32)本发明在此阶段是将每一个特征向量作为一个类别,实际上是对MFCC特征重新进行提取操作;
S2:深度神经网络设计;
2-1)DNN是传统前馈人工神经网络(Artifical neural network,ANN)的扩展,在此基础上,使用有监督训练的方式对模型参数进一步调优;
2-11)基于受限玻尔兹曼机的参数预训练;
预训练(Pre-training),利用无监督学习的算法来训练受限波尔兹曼机(RestrictedBoltzmann machine,RBM),RBM通过逐层训练并堆叠成深度置信网络(DBN),RBM在结构上由一层可见层和一层隐藏层组成,相同层的节点之间无关联,假设RBM的可见层为v,隐藏层为h,(v,h)的联合概率分布定义为:
其中,W为可见层与隐藏层之间的连接矩阵,b和c分别为可见层和隐藏层偏置,Z为归一化因子,利用梯度下降和对比散度(Contrastive Divergence,CD)学习算法,通过最大化可见层节点概率分布P(v)来获得模型参数;
2-12)基于反向传播算法的参数微调(Fine-tuning)
当完成DBN的预训练后,将其各层网络参数作为DNN初始的模型参数,在最后一层上增加一层softmax层,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数;
假设第0层为输入层,第L层为输出层,1到L-1为隐藏层,对于隐藏层l(l=1,2,…,L-1),其节点输出激励值可以计算为:
zl=Wl-1hl-1+bl-1
hl=σ(zl) (12)
其中,Wl-1和bl-1为权重矩阵和偏置,zl为l层输入值的加权和,σ(·)为激活函数,一般使用sigmoid或tanh函数;
2-13)卷积神经网络(Convolutional Neural Network,CNN)是另一种著名的深度学习模型,本发明将卷积和池化加入到网络中,搭建新的DNN;
S3:说话人识别与决策(softmax):
3-1)在后端测试阶段,当给出一条测试语音的高斯超矢量后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率;
3-2)将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;
3-3)计算所有测试语音正确识别的概率,即***的识别率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910271166.XA CN110111797A (zh) | 2019-04-04 | 2019-04-04 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910271166.XA CN110111797A (zh) | 2019-04-04 | 2019-04-04 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110111797A true CN110111797A (zh) | 2019-08-09 |
Family
ID=67485160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910271166.XA Withdrawn CN110111797A (zh) | 2019-04-04 | 2019-04-04 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111797A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111149154A (zh) * | 2019-12-24 | 2020-05-12 | 广州国音智能科技有限公司 | 一种声纹识别方法、装置、设备和储存介质 |
CN111161744A (zh) * | 2019-12-06 | 2020-05-15 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111177970A (zh) * | 2019-12-10 | 2020-05-19 | 浙江大学 | 基于高斯过程和卷积神经网络的多阶段半导体过程虚拟计量方法 |
CN111402901A (zh) * | 2020-03-27 | 2020-07-10 | 广东外语外贸大学 | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及*** |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类***及方法 |
CN111666996A (zh) * | 2020-05-29 | 2020-09-15 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN111933155A (zh) * | 2020-09-18 | 2020-11-13 | 北京爱数智慧科技有限公司 | 声纹识别模型训练方法、装置和计算机*** |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN112259106A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112992125A (zh) * | 2021-04-20 | 2021-06-18 | 北京沃丰时代数据科技有限公司 | 一种语音识别方法、装置、电子设备、可读存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140114660A1 (en) * | 2011-12-16 | 2014-04-24 | Huawei Technologies Co., Ltd. | Method and Device for Speaker Recognition |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其*** |
US20150301796A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Speaker verification |
CN106469560A (zh) * | 2016-07-27 | 2017-03-01 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN108831486A (zh) * | 2018-05-25 | 2018-11-16 | 南京邮电大学 | 基于dnn与gmm模型的说话人识别方法 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109074822A (zh) * | 2017-10-24 | 2018-12-21 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN109346084A (zh) * | 2018-09-19 | 2019-02-15 | 湖北工业大学 | 基于深度堆栈自编码网络的说话人识别方法 |
-
2019
- 2019-04-04 CN CN201910271166.XA patent/CN110111797A/zh not_active Withdrawn
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140114660A1 (en) * | 2011-12-16 | 2014-04-24 | Huawei Technologies Co., Ltd. | Method and Device for Speaker Recognition |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其*** |
US20150301796A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Speaker verification |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN106469560A (zh) * | 2016-07-27 | 2017-03-01 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN109074822A (zh) * | 2017-10-24 | 2018-12-21 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
CN108831486A (zh) * | 2018-05-25 | 2018-11-16 | 南京邮电大学 | 基于dnn与gmm模型的说话人识别方法 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109346084A (zh) * | 2018-09-19 | 2019-02-15 | 湖北工业大学 | 基于深度堆栈自编码网络的说话人识别方法 |
Non-Patent Citations (1)
Title |
---|
酆勇: "基于深度学习的说话人识别建模研究", 《中国博士学位论文全文数据库,信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161744A (zh) * | 2019-12-06 | 2020-05-15 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111161744B (zh) * | 2019-12-06 | 2023-04-28 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111177970A (zh) * | 2019-12-10 | 2020-05-19 | 浙江大学 | 基于高斯过程和卷积神经网络的多阶段半导体过程虚拟计量方法 |
CN111177970B (zh) * | 2019-12-10 | 2021-11-19 | 浙江大学 | 基于高斯过程和卷积神经网络的多阶段半导体过程虚拟计量方法 |
WO2021127994A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹识别方法、装置、设备和储存介质 |
CN111149154A (zh) * | 2019-12-24 | 2020-05-12 | 广州国音智能科技有限公司 | 一种声纹识别方法、装置、设备和储存介质 |
CN111149154B (zh) * | 2019-12-24 | 2021-08-24 | 广州国音智能科技有限公司 | 一种声纹识别方法、装置、设备和储存介质 |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类***及方法 |
CN111461173B (zh) * | 2020-03-06 | 2023-06-20 | 华南理工大学 | 一种基于注意力机制的多说话人聚类***及方法 |
CN111402901A (zh) * | 2020-03-27 | 2020-07-10 | 广东外语外贸大学 | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及*** |
CN111402901B (zh) * | 2020-03-27 | 2023-04-18 | 广东外语外贸大学 | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及*** |
CN111666996A (zh) * | 2020-05-29 | 2020-09-15 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
CN111666996B (zh) * | 2020-05-29 | 2023-09-19 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN111933155B (zh) * | 2020-09-18 | 2020-12-25 | 北京爱数智慧科技有限公司 | 声纹识别模型训练方法、装置和计算机*** |
CN111933155A (zh) * | 2020-09-18 | 2020-11-13 | 北京爱数智慧科技有限公司 | 声纹识别模型训练方法、装置和计算机*** |
CN112151067A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
CN112259106A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112259106B (zh) * | 2020-10-20 | 2024-06-11 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112992125A (zh) * | 2021-04-20 | 2021-06-18 | 北京沃丰时代数据科技有限公司 | 一种语音识别方法、装置、电子设备、可读存储介质 |
CN112992125B (zh) * | 2021-04-20 | 2021-08-03 | 北京沃丰时代数据科技有限公司 | 一种语音识别方法、装置、电子设备、可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN110085263B (zh) | 一种音乐情感分类和机器作曲方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN110827857B (zh) | 基于谱特征和elm的语音情感识别方法 | |
Zhou et al. | Deep learning based affective model for speech emotion recognition | |
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110148408A (zh) | 一种基于深度残差的中文语音识别方法 | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Ghai et al. | Emotion recognition on speech signals using machine learning | |
Zhang et al. | A pairwise algorithm using the deep stacking network for speech separation and pitch estimation | |
Sarkar et al. | Time-contrastive learning based deep bottleneck features for text-dependent speaker verification | |
Liu et al. | Speech emotion recognition based on transfer learning from the FaceNet framework | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Mishra et al. | Gender differentiated convolutional neural networks for speech emotion recognition | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
CN110390937A (zh) | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190809 |
|
WW01 | Invention patent application withdrawn after publication |