CN101419799A - 基于混合t模型的说话人识别方法 - Google Patents
基于混合t模型的说话人识别方法 Download PDFInfo
- Publication number
- CN101419799A CN101419799A CNA2008101624492A CN200810162449A CN101419799A CN 101419799 A CN101419799 A CN 101419799A CN A2008101624492 A CNA2008101624492 A CN A2008101624492A CN 200810162449 A CN200810162449 A CN 200810162449A CN 101419799 A CN101419799 A CN 101419799A
- Authority
- CN
- China
- Prior art keywords
- model
- mixed
- gamma
- feature
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000029052 metamorphosis Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于混合t模型的说话人识别方法,包括如下步骤:1)特征提取:采集待识别的语音信号,对音频信号预处理,对预处理后的语音信号进行特征提取,得到语音信号的特征;2)说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;3)测试:采用测试语音的后验概率表示得分,通过得分与阀值的比较,得到语音信号的识别结果,本发明采用混合t模型对说话人语音特征空间建模,提出了一种EM算法训练t混合模型的参数,提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候,混合t分布比高斯混合分布更有鲁棒性。
Description
技术领域
本发明涉及信号处理和模式识别,主要是一种基于混合t模型的说话人识别方法。
背景技术
说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语音识别其身份的技术。说话人识别包括两个步骤,包括模型训练和测试。其中,模型训练是指对说话人的语音特征建模的过程。如果要取得良好的识别性能,需要考虑建模的模型类型和模型参数的训练两个方面。模型类型的选择方法和语音数据的分布有关,目前常用的说话人模型类型有混合高斯模型(Douglas A.Reynolds,Richard C.Rose,“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”,IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.3,no.1,pp.72-83,JANUARY 1995.)和码本模型。
由于语音数据有较大的边缘分布,高斯混合模型不能很好的对边缘数据建模。
发明内容
本发明提出了一种基于混合t模型的说话人识别方法。该方法采用混合t模型为说话人的语音特征空间建模,是一种新的说话人模型,t分布又可称为学生分布,混合t分布是有限数量的t分布的线性组合。
一种基于混合t模型的说话人识别方法,包括如下步骤:
1)、特征提取:采集待识别的语音信号,对音频信号预处理,预处理分为采样量化,去零漂,预加重和加窗4个步骤。
对预处理后的语音信号进行特征提取,本方法可以采用的特征提取方法为基于美尔系数的特征提取方法、基于美尔倒谱系数(MFCC)的特征提取方法、基于线性预测倒谱系数的特征提取方法(LPCC)中的一种或多种。
关于预处理中的4个步骤、基于美尔系数、基于美尔倒谱系数(MFCC)的特征提取方法以及基于线性预测倒谱系数的特征提取方法均可参见JOSEPH P.CAMPBELL,JR.的“Speaker Recognition:A Tutorial”,《PROCEEDINGS OF THE IEEE》(VOL.85,NO.9,pp.1437-1462,SEPTEMBER 1997)。
采用不同的提取方法,可分别得到语音信号的美尔特征、美尔倒谱特征或线性预测倒谱特征。每帧特征可用xj表示,是一个p维的向量。
2)、说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;
混合t模型是M个t分布的线性组合,可以表示为:
其中,x是一个p维的向量,即向量的维数为p(整数);
wi表示每个t分布的混合权重,必须满足
ti(x)为t分布,表示为:
其中,μi,∑i,γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,x同上是一个p维的向量,Γ表示gamma方程,其定义如下:
x同上是一个p维的向量;
根据上述表述,可由参数λ(λ={wi,μi,∑i,γi},i=1,...,M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中,首先提取语音特征xj(j=1,...,n),然后估计λ的值让p(x)值最大。
3)、测试:采用测试语音的后验概率表示得分,用于识别过程。
根据贝叶斯理论,步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型(λt)上的得分表示为:
其中,xi表示待识别的语音信号的特征,n表示特征的数目。
当输入的待识别语音为X=(x1,x2,...,xn),说话人的模型为λ1,λ2,...,λS。在说话人鉴别中,其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中,需要设定一个阀值,如果得分高于该阀值就被接受;否则被拒绝。
本发明有益的效果是:采用混合t模型对说话人语音特征空间建模,提出了一种EM算法训练t混合模型的参数,提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候,混合t分布比高斯混合分布更有鲁棒性。
具体实施方式
第一部分、特征提取
首先对音频信号预处理,预处理分布分为采样量化,去零漂,预加重和加窗四个部分。
对预处理后的语音信号进行特征提取,本实施例采用美尔倒谱系数,提取美尔倒谱系数的方法是:先采用美尔滤波器对上述频谱进行滤波,再采用离散余弦变化得到特征。
构建美尔滤波器可采用现有技术,例如采用如下步骤:
1)计算梅尔域刻度:
p表示需计算的美尔刻度的个数;
2)计算梅尔域刻度Mi处对应的频域刻度:
3)计算每个梅尔域通道φj上的对数能量谱Ej:
第二部分、模型训练
混合t模型是M个t分布的线性组合,可以表示为:
其中,x是一个p维的向量,wi表示每个t分布的混合权重,必须满足 ti(x)表示t分布,定义为:
t分布又称为学生分布,t分布有如下特征:
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与自由度大小有关。自由度越小,t分布曲线越低平;自由度越大,t分布曲线越接近标准正态分布(u分布)曲线。
其中,μi,∑i,γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,Γ表示gamma方程,其定义如下:
根据上述表述,可由参数λ(λ={wi,μi,∑i,γi},i=1,...,M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中,首先提取语音特征xj(j=1,...,n),然后估计λ的值让p(x)值最大。
训练过程是迭代方法求得最后局部最优结果的过程,分为两个步骤:E步骤和M步骤。在每次迭代中,都是根据上一次的结果λk估计本次的参数λk+1。
E步骤:
最后,计算p(X|λk)。如果|log(p(X|λk))-log(p(X|λk-1))|<δ,循环将被停止,λk就是最后的输出结果。δ被设定成一个接近于零的正数,比如δ=1.0*10-6。如果不成立,执行下面的步骤。
M步骤:
均值μi和方差∑i更新为:
其中 并且 (poly-gamma函数)。该方程可以采用牛顿迭代法(T.F.Coleman,Y.Li,“On the Convergence of ReflectiveNewton Methods for Large-Scale Nonlinear Minimization Subject to Bounds,”Mathematical Programming,Vol.67,Number 2,pp.189-224,1994.)求解。
第三部分、测试
根据贝叶斯理论,如果输入的语音为X=(x1,x2,...,xn),说话人的模型为λ1,λ2,...,λS。那么对于X在模型λi上的得分即待识别的语音信号的特征在某个说话人的混合t模型上的得分表示为
在说话人鉴别中,其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中,需要设定一个阀值,如果得分高于该阀值就被接受;否则被拒绝。
贝叶斯理论及t分布均可参见:盛骤,谢式千,潘承毅,《概率论与数理统计》(第三版),高等教育出版社。
效果测试
实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人,其中女性23人。每个说话人要在中性情感情况下说出5个单词和20句语句3遍。
实验中,采用中性的20句话的前5句的三遍,一共15句话用于训练,组成训练语音集。后15句语音(三遍)用于测试,组成测试语音集合(共15*3*68)。实验中,模拟的说话人鉴别的过程,共有两组实验:
1、高斯混合模型实验:采用传统的基于高斯混合模型的说话人识别方法。采用的是16阶的高斯混合模型。
2、T混合模型实验:采用本专利中的基于t混合分布的说话人识别方法。采用16阶的t混合模型。
实验1和实验2的识别率分别为94.03%和95.81%,说明本发明的t混合模型要优于高斯混合模型。
Claims (2)
1、一种基于混合t模型的说话人识别方法,包括如下步骤:
1)、特征提取:采集待识别的语音信号,对音频信号预处理,对预处理后的语音信号进行特征提取,得到语音信号的特征;
2)、说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;
所述的混合t模型为:
其中,ti(x)表示t分布,x是一个p维的向量,wi表示每个t分布的混合权重,且满足 ti(x)定义为:
其中,μi,∑i,γi分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,Γ表示gamma方程,其定义如下:
3)、测试:计算步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型上的得分,通过得分与阀值的比较,得到语音信号的识别结果,得分表示为:
2、如权利要求1所述的基于混合t模型的说话人识别方法,其特征在于:对预处理后的语音信号进行特征提取采用基于美尔系数的特征提取方法、基于美尔倒谱系数的特征提取方法、基于线性预测倒谱系数的特征提取方法中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101624492A CN101419799A (zh) | 2008-11-25 | 2008-11-25 | 基于混合t模型的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101624492A CN101419799A (zh) | 2008-11-25 | 2008-11-25 | 基于混合t模型的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101419799A true CN101419799A (zh) | 2009-04-29 |
Family
ID=40630564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101624492A Pending CN101419799A (zh) | 2008-11-25 | 2008-11-25 | 基于混合t模型的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101419799A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN103730109A (zh) * | 2014-01-14 | 2014-04-16 | 重庆大学 | 一种公共场所异常声音特征提取方法 |
CN104240699A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种简单有效的短语语音识别方法 |
TWI508576B (zh) * | 2013-05-15 | 2015-11-11 | Lite On Opto Technology Changzhou Co Ltd | 揚聲器異音檢測方法及裝置 |
CN107393527A (zh) * | 2017-07-17 | 2017-11-24 | 广东讯飞启明科技发展有限公司 | 说话人数目的判断方法 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别***装置 |
WO2018227381A1 (en) * | 2017-06-13 | 2018-12-20 | Beijing Didi Infinity Technology And Development Co., Ltd. | International patent application for method, apparatus and system for speaker verification |
CN110188338A (zh) * | 2018-02-23 | 2019-08-30 | 富士通株式会社 | 文本相关的说话人确认方法和设备 |
-
2008
- 2008-11-25 CN CNA2008101624492A patent/CN101419799A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
TWI508576B (zh) * | 2013-05-15 | 2015-11-11 | Lite On Opto Technology Changzhou Co Ltd | 揚聲器異音檢測方法及裝置 |
CN103730109B (zh) * | 2014-01-14 | 2016-02-03 | 重庆大学 | 一种公共场所异常声音特征提取方法 |
CN103730109A (zh) * | 2014-01-14 | 2014-04-16 | 重庆大学 | 一种公共场所异常声音特征提取方法 |
CN104240699B (zh) * | 2014-09-12 | 2017-05-10 | 浙江大学 | 一种简单有效的短语语音识别方法 |
CN104240699A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种简单有效的短语语音识别方法 |
WO2018227381A1 (en) * | 2017-06-13 | 2018-12-20 | Beijing Didi Infinity Technology And Development Co., Ltd. | International patent application for method, apparatus and system for speaker verification |
US10276167B2 (en) | 2017-06-13 | 2019-04-30 | Beijing Didi Infinity Technology And Development Co., Ltd. | Method, apparatus and system for speaker verification |
TWI719304B (zh) * | 2017-06-13 | 2021-02-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於說話者驗證的方法、設備及系統 |
US10937430B2 (en) | 2017-06-13 | 2021-03-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Method, apparatus and system for speaker verification |
CN107393527A (zh) * | 2017-07-17 | 2017-11-24 | 广东讯飞启明科技发展有限公司 | 说话人数目的判断方法 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别***装置 |
CN110188338A (zh) * | 2018-02-23 | 2019-08-30 | 富士通株式会社 | 文本相关的说话人确认方法和设备 |
CN110188338B (zh) * | 2018-02-23 | 2023-02-21 | 富士通株式会社 | 文本相关的说话人确认方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN101419799A (zh) | 基于混合t模型的说话人识别方法 | |
CN102800316B (zh) | 基于神经网络的声纹识别***的最优码本设计方法 | |
CN103310788B (zh) | 一种语音信息识别方法及*** | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
CN101923855A (zh) | 文本无关的声纹识别*** | |
CN103531198B (zh) | 一种基于伪说话人聚类的语音情感特征规整化方法 | |
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN107146615A (zh) | 基于匹配模型二次识别的语音识别方法及*** | |
CN103943104A (zh) | 一种语音信息识别的方法及终端设备 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN102024455A (zh) | 说话人识别***及其方法 | |
CN110222841A (zh) | 基于间距损失函数的神经网络训练方法和装置 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家***身份认证方法 | |
CN102789779A (zh) | 一种语音识别***及其识别方法 | |
Yücesoy et al. | A new approach with score-level fusion for the classification of a speaker age and gender | |
Shahin | Novel third-order hidden Markov models for speaker identification in shouted talking environments | |
Bagul et al. | Text independent speaker recognition system using GMM | |
CN101419800B (zh) | 基于频谱平移的情感说话人识别方法 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
Chaudhari et al. | Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
Islam et al. | Bangla dataset and MMFCC in text-dependent speaker identification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20090429 |