CN101419799A - 基于混合t模型的说话人识别方法 - Google Patents

基于混合t模型的说话人识别方法 Download PDF

Info

Publication number
CN101419799A
CN101419799A CNA2008101624492A CN200810162449A CN101419799A CN 101419799 A CN101419799 A CN 101419799A CN A2008101624492 A CNA2008101624492 A CN A2008101624492A CN 200810162449 A CN200810162449 A CN 200810162449A CN 101419799 A CN101419799 A CN 101419799A
Authority
CN
China
Prior art keywords
model
mixed
gamma
feature
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101624492A
Other languages
English (en)
Inventor
吴朝晖
杨莹春
单振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNA2008101624492A priority Critical patent/CN101419799A/zh
Publication of CN101419799A publication Critical patent/CN101419799A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于混合t模型的说话人识别方法,包括如下步骤:1)特征提取:采集待识别的语音信号,对音频信号预处理,对预处理后的语音信号进行特征提取,得到语音信号的特征;2)说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;3)测试:采用测试语音的后验概率表示得分,通过得分与阀值的比较,得到语音信号的识别结果,本发明采用混合t模型对说话人语音特征空间建模,提出了一种EM算法训练t混合模型的参数,提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候,混合t分布比高斯混合分布更有鲁棒性。

Description

基于混合t模型的说话人识别方法
技术领域
本发明涉及信号处理和模式识别,主要是一种基于混合t模型的说话人识别方法。
背景技术
说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语音识别其身份的技术。说话人识别包括两个步骤,包括模型训练和测试。其中,模型训练是指对说话人的语音特征建模的过程。如果要取得良好的识别性能,需要考虑建模的模型类型和模型参数的训练两个方面。模型类型的选择方法和语音数据的分布有关,目前常用的说话人模型类型有混合高斯模型(Douglas A.Reynolds,Richard C.Rose,“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”,IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.3,no.1,pp.72-83,JANUARY 1995.)和码本模型。
由于语音数据有较大的边缘分布,高斯混合模型不能很好的对边缘数据建模。
发明内容
本发明提出了一种基于混合t模型的说话人识别方法。该方法采用混合t模型为说话人的语音特征空间建模,是一种新的说话人模型,t分布又可称为学生分布,混合t分布是有限数量的t分布的线性组合。
一种基于混合t模型的说话人识别方法,包括如下步骤:
1)、特征提取:采集待识别的语音信号,对音频信号预处理,预处理分为采样量化,去零漂,预加重和加窗4个步骤。
对预处理后的语音信号进行特征提取,本方法可以采用的特征提取方法为基于美尔系数的特征提取方法、基于美尔倒谱系数(MFCC)的特征提取方法、基于线性预测倒谱系数的特征提取方法(LPCC)中的一种或多种。
关于预处理中的4个步骤、基于美尔系数、基于美尔倒谱系数(MFCC)的特征提取方法以及基于线性预测倒谱系数的特征提取方法均可参见JOSEPH P.CAMPBELL,JR.的“Speaker Recognition:A Tutorial”,《PROCEEDINGS OF THE IEEE》(VOL.85,NO.9,pp.1437-1462,SEPTEMBER 1997)。
采用不同的提取方法,可分别得到语音信号的美尔特征、美尔倒谱特征或线性预测倒谱特征。每帧特征可用xj表示,是一个p维的向量。
2)、说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;
混合t模型是M个t分布的线性组合,可以表示为:
p ( x ) = Σ i = 1 M w i t i ( x )
其中,x是一个p维的向量,即向量的维数为p(整数);
wi表示每个t分布的混合权重,必须满足 Σ i = 1 M w i = 1 .
ti(x)为t分布,表示为:
t i ( x ) = Γ ( γ i + p 2 ) | Σ i | - 1 / 2 ( Γ ( 1 2 ) ) p Γ ( γ i 2 ) γ i p / 2 × ( 1 + ( x - μ i ) T Σ i - 1 ( x - μ i ) γ i ) ( γ i + p ) / 2
其中,μi,∑i,γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,x同上是一个p维的向量,Γ表示gamma方程,其定义如下:
Γ ( x ) = ∫ 0 ∞ e - t t x - 1 dt
x同上是一个p维的向量;
根据上述表述,可由参数λ(λ={wi,μi,∑i,γi},i=1,...,M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中,首先提取语音特征xj(j=1,...,n),然后估计λ的值让p(x)值最大。
3)、测试:采用测试语音的后验概率表示得分,用于识别过程。
根据贝叶斯理论,步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型(λt)上的得分表示为:
score = Σ i = 1 n log p ( x i | λ t )
其中,xi表示待识别的语音信号的特征,n表示特征的数目。
当输入的待识别语音为X=(x1,x2,...,xn),说话人的模型为λ1,λ2,...,λS。在说话人鉴别中,其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中,需要设定一个阀值,如果得分高于该阀值就被接受;否则被拒绝。
本发明有益的效果是:采用混合t模型对说话人语音特征空间建模,提出了一种EM算法训练t混合模型的参数,提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候,混合t分布比高斯混合分布更有鲁棒性。
具体实施方式
第一部分、特征提取
首先对音频信号预处理,预处理分布分为采样量化,去零漂,预加重和加窗四个部分。
对预处理后的语音信号进行特征提取,本实施例采用美尔倒谱系数,提取美尔倒谱系数的方法是:先采用美尔滤波器对上述频谱进行滤波,再采用离散余弦变化得到特征。
构建美尔滤波器可采用现有技术,例如采用如下步骤:
1)计算梅尔域刻度:
M i = i p ? 2595 log 1 8000 / 2.0 700.0 , ( i = 0,1,2 , . . . , p )
p表示需计算的美尔刻度的个数;
2)计算梅尔域刻度Mi处对应的频域刻度:
f i = 700 ? e M i 2595 ln 10 1 , ( i = 0,1,2 , . . . , p )
3)计算每个梅尔域通道φj上的对数能量谱Ej
其中jj(k)表示梅尔域通道φj的权重,
Figure A200810162449D00074
其中k为滤波器的个数。
第二部分、模型训练
混合t模型是M个t分布的线性组合,可以表示为:
p ( x ) = Σ i = 1 M w i t i ( x )
其中,x是一个p维的向量,wi表示每个t分布的混合权重,必须满足 Σ i = 1 M w i = 1 , ti(x)表示t分布,定义为:
t i ( x ) = Γ ( γ i + p 2 ) | Σ i | - 1 / 2 ( Γ ( 1 2 ) ) p Γ ( γ i 2 ) γ i p / 2 × ( 1 + ( x - μ i ) T Σ i - 1 ( x - μ i ) γ i ) ( γ i + p ) / 2
t分布又称为学生分布,t分布有如下特征:
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与自由度大小有关。自由度越小,t分布曲线越低平;自由度越大,t分布曲线越接近标准正态分布(u分布)曲线。
其中,μi,∑i,γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,Γ表示gamma方程,其定义如下:
Γ ( x ) = ∫ 0 ∞ e - t t x - 1 dt
根据上述表述,可由参数λ(λ={wi,μi,∑i,γi},i=1,...,M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中,首先提取语音特征xj(j=1,...,n),然后估计λ的值让p(x)值最大。
训练过程是迭代方法求得最后局部最优结果的过程,分为两个步骤:E步骤和M步骤。在每次迭代中,都是根据上一次的结果λk估计本次的参数λk+1
E步骤:
首先,计算xj属于第ith个分量的概率
Figure A200810162449D00082
z ji k = w i k t ( X j ) Σ l = 1 M w l k t ( X j )
然后,计算
Figure A200810162449D00084
时的条件概率
Figure A200810162449D00085
c ji k = γ i k + p γ i k + ( X j - μ i k ) T ( Σ i k ) - 1 ( X j - μ i k )
最后,计算p(X|λk)。如果|log(p(X|λk))-log(p(X|λk-1))|<δ,循环将被停止,λk就是最后的输出结果。δ被设定成一个接近于零的正数,比如δ=1.0*10-6。如果不成立,执行下面的步骤。
M步骤:
混合权重
Figure A200810162449D00087
采用后验概率的平均值表示:
w i k + 1 = 1 n &Sigma; j = 1 n z ji k
均值μi和方差∑i更新为:
&mu; i k + 1 = &Sigma; j = 1 n z ji k c ji k X j &Sigma; j = 1 n z ji k c ji k
&Sigma; i k + 1 = &Sigma; j = 1 n z ji k c ji k ( X j - &mu; i k + 1 ) ( X j - &mu; i k + 1 ) T &Sigma; j = 1 n z ji k
估计自由度
Figure A200810162449D00093
的过程就是求解非线性方程:
- &psi; ( &gamma; i 2 ) + log ( &gamma; i 2 ) + 1 + 1 n i k &Sigma; j = 1 n z ji k ( log c ji k - c ji k ) + &psi; ( &gamma; i k + p 2 ) - log ( &gamma; i k + p 2 ) = 0
其中 n i k = &Sigma; j = 1 n z ji k , 并且 &psi; ( t ) = &PartialD; log &Gamma; ( t ) &PartialD; t (poly-gamma函数)。该方程可以采用牛顿迭代法(T.F.Coleman,Y.Li,“On the Convergence of ReflectiveNewton Methods for Large-Scale Nonlinear Minimization Subject to Bounds,”Mathematical Programming,Vol.67,Number 2,pp.189-224,1994.)求解。
第三部分、测试
根据贝叶斯理论,如果输入的语音为X=(x1,x2,...,xn),说话人的模型为λ1,λ2,...,λS。那么对于X在模型λi上的得分即待识别的语音信号的特征在某个说话人的混合t模型上的得分表示为
score = &Sigma; j = 1 n log p ( x t | &lambda; i )
在说话人鉴别中,其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中,需要设定一个阀值,如果得分高于该阀值就被接受;否则被拒绝。
贝叶斯理论及t分布均可参见:盛骤,谢式千,潘承毅,《概率论与数理统计》(第三版),高等教育出版社。
效果测试
实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人,其中女性23人。每个说话人要在中性情感情况下说出5个单词和20句语句3遍。
实验中,采用中性的20句话的前5句的三遍,一共15句话用于训练,组成训练语音集。后15句语音(三遍)用于测试,组成测试语音集合(共15*3*68)。实验中,模拟的说话人鉴别的过程,共有两组实验:
1、高斯混合模型实验:采用传统的基于高斯混合模型的说话人识别方法。采用的是16阶的高斯混合模型。
2、T混合模型实验:采用本专利中的基于t混合分布的说话人识别方法。采用16阶的t混合模型。
实验1和实验2的识别率分别为94.03%和95.81%,说明本发明的t混合模型要优于高斯混合模型。

Claims (2)

1、一种基于混合t模型的说话人识别方法,包括如下步骤:
1)、特征提取:采集待识别的语音信号,对音频信号预处理,对预处理后的语音信号进行特征提取,得到语音信号的特征;
2)、说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;
所述的混合t模型为:
p ( x ) = &Sigma; i = 1 M w i t i ( x )
其中,ti(x)表示t分布,x是一个p维的向量,wi表示每个t分布的混合权重,且满足 &Sigma; i = 1 M w i = 1 , ti(x)定义为:
t i ( x ) = &Gamma; ( &gamma; i + p 2 ) | &Sigma; i | - 1 / 2 ( &Gamma; ( 1 2 ) ) p &Gamma; ( &gamma; i 2 ) &gamma; i p / 2 &times; ( 1 + ( x - &mu; i ) T &Sigma; i - 1 ( x - &mu; i ) &gamma; i ) ( &gamma; i + p ) / 2
其中,μi,∑i,γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,Γ表示gamma方程,其定义如下:
&Gamma; ( x ) = &Integral; 0 &infin; e - t t x - 1 dt
3)、测试:计算步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型上的得分,通过得分与阀值的比较,得到语音信号的识别结果,得分表示为:
score = &Sigma; i = 1 n log p ( x i | &lambda; t )
其中,xi表示待识别的语音信号的特征,n表示特征的数目,
Figure A200810162449C0002152332QIETU
表示混合t模型。
2、如权利要求1所述的基于混合t模型的说话人识别方法,其特征在于:对预处理后的语音信号进行特征提取采用基于美尔系数的特征提取方法、基于美尔倒谱系数的特征提取方法、基于线性预测倒谱系数的特征提取方法中的一种或多种。
CNA2008101624492A 2008-11-25 2008-11-25 基于混合t模型的说话人识别方法 Pending CN101419799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101624492A CN101419799A (zh) 2008-11-25 2008-11-25 基于混合t模型的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101624492A CN101419799A (zh) 2008-11-25 2008-11-25 基于混合t模型的说话人识别方法

Publications (1)

Publication Number Publication Date
CN101419799A true CN101419799A (zh) 2009-04-29

Family

ID=40630564

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101624492A Pending CN101419799A (zh) 2008-11-25 2008-11-25 基于混合t模型的说话人识别方法

Country Status (1)

Country Link
CN (1) CN101419799A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN103730109A (zh) * 2014-01-14 2014-04-16 重庆大学 一种公共场所异常声音特征提取方法
CN104240699A (zh) * 2014-09-12 2014-12-24 浙江大学 一种简单有效的短语语音识别方法
TWI508576B (zh) * 2013-05-15 2015-11-11 Lite On Opto Technology Changzhou Co Ltd 揚聲器異音檢測方法及裝置
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别***装置
WO2018227381A1 (en) * 2017-06-13 2018-12-20 Beijing Didi Infinity Technology And Development Co., Ltd. International patent application for method, apparatus and system for speaker verification
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
TWI508576B (zh) * 2013-05-15 2015-11-11 Lite On Opto Technology Changzhou Co Ltd 揚聲器異音檢測方法及裝置
CN103730109B (zh) * 2014-01-14 2016-02-03 重庆大学 一种公共场所异常声音特征提取方法
CN103730109A (zh) * 2014-01-14 2014-04-16 重庆大学 一种公共场所异常声音特征提取方法
CN104240699B (zh) * 2014-09-12 2017-05-10 浙江大学 一种简单有效的短语语音识别方法
CN104240699A (zh) * 2014-09-12 2014-12-24 浙江大学 一种简单有效的短语语音识别方法
WO2018227381A1 (en) * 2017-06-13 2018-12-20 Beijing Didi Infinity Technology And Development Co., Ltd. International patent application for method, apparatus and system for speaker verification
US10276167B2 (en) 2017-06-13 2019-04-30 Beijing Didi Infinity Technology And Development Co., Ltd. Method, apparatus and system for speaker verification
TWI719304B (zh) * 2017-06-13 2021-02-21 大陸商北京嘀嘀無限科技發展有限公司 用於說話者驗證的方法、設備及系統
US10937430B2 (en) 2017-06-13 2021-03-02 Beijing Didi Infinity Technology And Development Co., Ltd. Method, apparatus and system for speaker verification
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别***装置
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
CN110188338B (zh) * 2018-02-23 2023-02-21 富士通株式会社 文本相关的说话人确认方法和设备

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN101419799A (zh) 基于混合t模型的说话人识别方法
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
CN103310788B (zh) 一种语音信息识别方法及***
CN102142253B (zh) 语音情感识别设备及方法
CN101923855A (zh) 文本无关的声纹识别***
CN103531198B (zh) 一种基于伪说话人聚类的语音情感特征规整化方法
CN102664010B (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及***
CN103943104A (zh) 一种语音信息识别的方法及终端设备
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN102024455A (zh) 说话人识别***及其方法
CN110222841A (zh) 基于间距损失函数的神经网络训练方法和装置
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家***身份认证方法
CN102789779A (zh) 一种语音识别***及其识别方法
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
Shahin Novel third-order hidden Markov models for speaker identification in shouted talking environments
Bagul et al. Text independent speaker recognition system using GMM
CN101419800B (zh) 基于频谱平移的情感说话人识别方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Chaudhari et al. Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Islam et al. Bangla dataset and MMFCC in text-dependent speaker identification.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090429