CN101419799A

CN101419799A - 基于混合t模型的说话人识别方法

Info

Publication number: CN101419799A
Application number: CNA2008101624492A
Authority: CN
Inventors: 吴朝晖; 杨莹春; 单振宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-11-25
Filing date: 2008-11-25
Publication date: 2009-04-29

Abstract

本发明公开了一种基于混合t模型的说话人识别方法，包括如下步骤：1)特征提取：采集待识别的语音信号，对音频信号预处理，对预处理后的语音信号进行特征提取，得到语音信号的特征；2)说话人建模：采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；3)测试：采用测试语音的后验概率表示得分，通过得分与阀值的比较，得到语音信号的识别结果，本发明采用混合t模型对说话人语音特征空间建模，提出了一种EM算法训练t混合模型的参数，提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候，混合t分布比高斯混合分布更有鲁棒性。

Description

基于混合t模型的说话人识别方法

技术领域

本发明涉及信号处理和模式识别，主要是一种基于混合t模型的说话人识别方法。

背景技术

说话人识别技术是指利用信号处理和模式识别方法，根据说话人的语音识别其身份的技术。说话人识别包括两个步骤，包括模型训练和测试。其中，模型训练是指对说话人的语音特征建模的过程。如果要取得良好的识别性能，需要考虑建模的模型类型和模型参数的训练两个方面。模型类型的选择方法和语音数据的分布有关，目前常用的说话人模型类型有混合高斯模型(Douglas A.Reynolds，Richard C.Rose，“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”，IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING，VOL.3，no.1，pp.72-83，JANUARY 1995.)和码本模型。

由于语音数据有较大的边缘分布，高斯混合模型不能很好的对边缘数据建模。

发明内容

本发明提出了一种基于混合t模型的说话人识别方法。该方法采用混合t模型为说话人的语音特征空间建模，是一种新的说话人模型，t分布又可称为学生分布，混合t分布是有限数量的t分布的线性组合。

一种基于混合t模型的说话人识别方法，包括如下步骤：

1)、特征提取：采集待识别的语音信号，对音频信号预处理，预处理分为采样量化，去零漂，预加重和加窗4个步骤。

对预处理后的语音信号进行特征提取，本方法可以采用的特征提取方法为基于美尔系数的特征提取方法、基于美尔倒谱系数(MFCC)的特征提取方法、基于线性预测倒谱系数的特征提取方法(LPCC)中的一种或多种。

关于预处理中的4个步骤、基于美尔系数、基于美尔倒谱系数(MFCC)的特征提取方法以及基于线性预测倒谱系数的特征提取方法均可参见JOSEPH P.CAMPBELL，JR.的“Speaker Recognition：A Tutorial”，《PROCEEDINGS OF THE IEEE》(VOL.85，NO.9，pp.1437-1462，SEPTEMBER 1997)。

采用不同的提取方法，可分别得到语音信号的美尔特征、美尔倒谱特征或线性预测倒谱特征。每帧特征可用x_j表示，是一个p维的向量。

2)、说话人建模：采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；

混合t模型是M个t分布的线性组合，可以表示为：

p (x) = Σ_{i = 1}^{M} w_{i} t_{i} (x)

其中，x是一个p维的向量，即向量的维数为p(整数)；

w_i表示每个t分布的混合权重，必须满足

Σ_{i = 1}^{M} w_{i} = 1 .

t_i(x)为t分布，表示为：

t_{i} (x) = \frac{Γ (\frac{γ_{i} + p}{2}) {| Σ_{i} |}^{- 1 / 2}}{{(Γ (\frac{1}{2}))}^{p} Γ (\frac{γ_{i}}{2}) {γ_{i}}^{p / 2} \times {(1 + \frac{{(x - μ_{i})}^{T} {Σ_{i}}^{- 1} (x - μ_{i})}{γ_{i}})}^{(γ_{i} + p) / 2}}

其中，μ_i，∑_i，γ_i分别表示t分布的均值、t分布的方差矩阵和t分布的自由度，x同上是一个p维的向量，Γ表示gamma方程，其定义如下：

Γ (x) = {&Integral;}_{0}^{\infty} e^{- t} t^{x - 1} dt

x同上是一个p维的向量；

根据上述表述，可由参数λ(λ＝{w_i，μ_i，∑_i，γ_i}，i＝1，...，M)表示根据某个说话人的语音训练的混合t模型。在模型参数的训练过程中，首先提取语音特征x_j(j＝1，...，n)，然后估计λ的值让p(x)值最大。

3)、测试：采用测试语音的后验概率表示得分，用于识别过程。

根据贝叶斯理论，步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型(λ_t)上的得分表示为：

score = Σ_{i = 1}^{n} \log p (x_{i} | λ_{t})

其中，x_i表示待识别的语音信号的特征，n表示特征的数目。

当输入的待识别语音为X＝(x₁，x₂，...，x_n)，说话人的模型为λ₁，λ₂，...，λ_S。在说话人鉴别中，其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中，需要设定一个阀值，如果得分高于该阀值就被接受；否则被拒绝。

本发明有益的效果是：采用混合t模型对说话人语音特征空间建模，提出了一种EM算法训练t混合模型的参数，提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候，混合t分布比高斯混合分布更有鲁棒性。

具体实施方式

第一部分、特征提取

首先对音频信号预处理，预处理分布分为采样量化，去零漂，预加重和加窗四个部分。

对预处理后的语音信号进行特征提取，本实施例采用美尔倒谱系数，提取美尔倒谱系数的方法是：先采用美尔滤波器对上述频谱进行滤波，再采用离散余弦变化得到特征。

构建美尔滤波器可采用现有技术，例如采用如下步骤：

1)计算梅尔域刻度：

M_{i} = \frac{i}{p} ? 2595 \log (\begin{matrix} 1 & \frac{8000 / 2.0}{700.0} \end{matrix}), (i = 0,1,2, . . ., p)

p表示需计算的美尔刻度的个数；

2)计算梅尔域刻度M_i处对应的频域刻度：

\begin{matrix} f_{i} = 700 ? e^{\frac{M_{i}}{2595} \ln 10} & 1, (i = 0,1,2, . . ., p) \end{matrix}

3)计算每个梅尔域通道φ_j上的对数能量谱E_j：

其中j_j(k)表示梅尔域通道φ_j的权重，

其中k为滤波器的个数。

第二部分、模型训练

混合t模型是M个t分布的线性组合，可以表示为：

p (x) = Σ_{i = 1}^{M} w_{i} t_{i} (x)

其中，x是一个p维的向量，w_i表示每个t分布的混合权重，必须满足

Σ_{i = 1}^{M} w_{i} = 1,

t_i(x)表示t分布，定义为：

t_{i} (x) = \frac{Γ (\frac{γ_{i} + p}{2}) {| Σ_{i} |}^{- 1 / 2}}{{(Γ (\frac{1}{2}))}^{p} Γ (\frac{γ_{i}}{2}) {γ_{i}}^{p / 2} \times {(1 + \frac{{(x - μ_{i})}^{T} {Σ_{i}}^{- 1} (x - μ_{i})}{γ_{i}})}^{(γ_{i} + p) / 2}}

t分布又称为学生分布，t分布有如下特征：

1.以0为中心，左右对称的单峰分布；

2.t分布是一簇曲线，其形态变化与自由度大小有关。自由度越小，t分布曲线越低平；自由度越大，t分布曲线越接近标准正态分布(u分布)曲线。

其中，μ_i，∑_i，γ_i分别表示t分布的均值、t分布的方差矩阵和t分布的自由度，Γ表示gamma方程，其定义如下：

Γ (x) = {&Integral;}_{0}^{\infty} e^{- t} t^{x - 1} dt

训练过程是迭代方法求得最后局部最优结果的过程，分为两个步骤：E步骤和M步骤。在每次迭代中，都是根据上一次的结果λ^k估计本次的参数λ^k+1。

E步骤：

首先，计算x_j属于第i^th个分量的概率

z_{ji}^{k} = \frac{w_{i}^{k} t (X_{j})}{Σ_{l = 1}^{M} w_{l}^{k} t (X_{j})}

然后，计算

时的条件概率

c_{ji}^{k} = \frac{γ_{i}^{k} + p}{γ_{i}^{k} + {(X_{j} - μ_{i}^{k})}^{T} {(Σ_{i}^{k})}^{- 1} (X_{j} - μ_{i}^{k})}

M步骤：

混合权重

采用后验概率的平均值表示：

w_{i}^{k + 1} = \frac{1}{n} Σ_{j = 1}^{n} z_{ji}^{k}

均值μ_i和方差∑_i更新为：

μ_{i}^{k + 1} = \frac{Σ_{j = 1}^{n} z_{ji}^{k} c_{ji}^{k} X_{j}}{Σ_{j = 1}^{n} z_{ji}^{k} c_{ji}^{k}}

Σ_{i}^{k + 1} = \frac{Σ_{j = 1}^{n} z_{ji}^{k} c_{ji}^{k} (X_{j} - μ_{i}^{k + 1}) {(X_{j} - μ_{i}^{k + 1})}^{T}}{Σ_{j = 1}^{n} z_{ji}^{k}}

估计自由度

的过程就是求解非线性方程：

- ψ (\frac{γ_{i}}{2}) + \log (\frac{γ_{i}}{2}) + 1 + \frac{1}{n_{i}^{k}} Σ_{j = 1}^{n} z_{ji}^{k} (\log c_{ji}^{k} - c_{ji}^{k}) + ψ (\frac{γ_{i}^{k} + p}{2}) - \log (\frac{γ_{i}^{k} + p}{2}) = 0

其中

n_{i}^{k} = Σ_{j = 1}^{n} z_{ji}^{k},

并且

ψ (t) = \frac{&PartialD; \log Γ (t)}{&PartialD; t}

(poly-gamma函数)。该方程可以采用牛顿迭代法(T.F.Coleman，Y.Li，“On the Convergence of ReflectiveNewton Methods for Large-Scale Nonlinear Minimization Subject to Bounds，”Mathematical Programming，Vol.67，Number 2，pp.189-224，1994.)求解。

第三部分、测试

根据贝叶斯理论，如果输入的语音为X＝(x₁，x₂，...，x_n)，说话人的模型为λ₁，λ₂，...，λ_S。那么对于X在模型λ_i上的得分即待识别的语音信号的特征在某个说话人的混合t模型上的得分表示为

score = Σ_{j = 1}^{n} \log p (x_{t} | λ_{i})

在说话人鉴别中，其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中，需要设定一个阀值，如果得分高于该阀值就被接受；否则被拒绝。

贝叶斯理论及t分布均可参见：盛骤，谢式千，潘承毅，《概率论与数理统计》(第三版)，高等教育出版社。

效果测试

实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人，其中女性23人。每个说话人要在中性情感情况下说出5个单词和20句语句3遍。

实验中，采用中性的20句话的前5句的三遍，一共15句话用于训练，组成训练语音集。后15句语音(三遍)用于测试，组成测试语音集合(共15*3*68)。实验中，模拟的说话人鉴别的过程，共有两组实验：

1、高斯混合模型实验：采用传统的基于高斯混合模型的说话人识别方法。采用的是16阶的高斯混合模型。

2、T混合模型实验：采用本专利中的基于t混合分布的说话人识别方法。采用16阶的t混合模型。

实验1和实验2的识别率分别为94.03％和95.81％，说明本发明的t混合模型要优于高斯混合模型。

Claims

1、一种基于混合t模型的说话人识别方法，包括如下步骤：

1)、特征提取：采集待识别的语音信号，对音频信号预处理，对预处理后的语音信号进行特征提取，得到语音信号的特征；

所述的混合t模型为：

p (x) = Σ_{i = 1}^{M} w_{i} t_{i} (x)

其中，t_i(x)表示t分布，x是一个p维的向量，w_i表示每个t分布的混合权重，且满足

Σ_{i = 1}^{M} w_{i} = 1,

t_i(x)定义为：

t_{i} (x) = \frac{Γ (\frac{γ_{i} + p}{2}) {| Σ_{i} |}^{- 1 / 2}}{{(Γ (\frac{1}{2}))}^{p} Γ (\frac{γ_{i}}{2}) γ_{i}^{p / 2} \times {(1 + \frac{{(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})}{γ_{i}})}^{(γ_{i} + p) / 2}}

Γ (x) = {&Integral;}_{0}^{\infty} e^{- t} t^{x - 1} dt

3)、测试：计算步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型上的得分，通过得分与阀值的比较，得到语音信号的识别结果，得分表示为：

score = Σ_{i = 1}^{n} \log p (x_{i} | λ_{t})

其中，x_i表示待识别的语音信号的特征，n表示特征的数目，

表示混合t模型。

2、如权利要求1所述的基于混合t模型的说话人识别方法，其特征在于：对预处理后的语音信号进行特征提取采用基于美尔系数的特征提取方法、基于美尔倒谱系数的特征提取方法、基于线性预测倒谱系数的特征提取方法中的一种或多种。