CN106971713A

CN106971713A - 基于密度峰值聚类和变分贝叶斯的说话人标记方法与***

Info

Publication number: CN106971713A
Application number: CN201710035673.4A
Authority: CN
Inventors: 何亮; 徐灿; 田垚; 刘艺; 刘加
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2017-01-18
Filing date: 2017-01-18
Publication date: 2017-07-21
Anticipated expiration: 2037-01-18
Also published as: CN106971713B

Abstract

本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与***，属于声纹识别和模式识别领域。本发明方法首先建立训练语音数据库，得到通用背景模型和子空间模型；然后通过i‑vector因子提取方法得到待测语音数据的每一段的i‑vector因子；使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率，使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率，得出说话人标记结果。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性，说话人标记性能极易受初始值影响而产生较大偏差等问题；增强了说话人标记的准确率、稳定性和灵活性。

Description

基于密度峰值聚类和变分贝叶斯的说话人标记方法与***

技术领域

本发明涉及声纹识别和模式识别领域，特别涉及一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与***。

背景技术

说话人标记技术的意义在于，应用至电话会议、国际会议中时，可以作为会议记录的资料被保存，同时对说话人的准确识别也自然会有助于后续的语音处理与语义识别。另外，在监控领域，说话人标记可以对被监控对象的声音语言进行记录，应用至公安领域或是军事领域，对保卫治安乃至国家安全都有所贡献。

说话人标记解决的是谁在什么时候说话的问题。说话人标记首先要对语音提取梅尔倒谱特征。梅尔倒谱特征考虑了人耳的听觉特征，是一种在自动语音和说话人识别中广泛使用的特征。特征提取完后需要进行三个步骤，活动语音检测：分离语音和静音段；说话人分割：分割片段使每个片段只含一个说话人；说话人聚类：将同一个说话人的语音归在一起。一般用变分贝叶斯准则进行说话人分割。最常见的说话人聚类方法是agglomerativehierarchical clustering(AHC)，同时也称为bottom-up聚类。2005年Valent提出了变分贝叶斯说话人标记方法。2010年，kenny将因子分析方法和变分贝叶斯方法相结合进行说话人标记。因子分析是一种降维方法，他将原来表示说话人的高斯混合模型的高维超向量用低维的说话人因子i-vector表示。目前为止，该方法效果最好。然而该方法对说话人个数的初始值非常敏感，需要已知测试语音的说话人个数；同时，其中说话人先验也是任意选取的，这些不确定性使***不具有稳定性。初始值的不同导致***的性能产生较大的差异。

2014年，Rogriguez提出了密度峰值聚类算法，该算法根据计算每个点的密度和相对距离，设置二者的阈值进行聚类。目前主要应用于人脸识别、图像识别等领域，但在说话人识别、说话人标记等领域尚未有人使用。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与***。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性，说话人标记性能极易受初始值影响而产生较大偏差等问题；增强了说话人标记的准确率、稳定性和灵活性。

本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法，其特征在于，包括如下步骤：

11)建立训练语音数据库，提取训练语音数据库中语音信号的梅尔倒谱特征，通过kmeans聚类算法得到通用背景的初始模型，利用期望最大算法迭代得到通用背景模型；根据建立的通用背景模型和训练语音数据提取Baum-Welch统计量，通过因子分析方法得到子空间模型；具体包括以下步骤：

1-1)建立通用背景模型：通用背景模型通过提取具有多个说话人的训练语音数据库中的语音信号特征，通过EM算法训练得到，用于建立子空间模型和说话人标记；具体包括以下步骤：

1-1-1)建立训练语音数据库；使用来自NIST SRE 2012电话语音数据建立训练语音数据库；

1-1-2)对训练语音数据库中的语音信号提取梅尔倒谱特征；

1-1-3)使用步骤1-1-2)中提取的梅尔倒谱特征，利用kmeans算法得到通用背景的初始模型，利用期望最大算法对该初始模型进行迭代更新，得到最终的通用背景模型{C,ω_c,m_c,Σ_c}；其中C为混合分量数，ω_c,m_c,Σ_c分别为对应第c个高斯分布的权重、均值和方差；

1-2)建立子空间模型；

利用步骤1-1)得到的通用背景模型，对训练语音数据库中的所有训练语音数据提取Baum-Welch零阶、一阶以及二阶统计量，通过因子分析方法训练得到子空间模型；子空间模型用于将待测语音的高维均值矢量在低维子空间中进行投影；具体包括以下步骤：

1-2-1)提取统计量：假设训练语音数据库表示为X＝{x₁,x₂,......,x_H}，数据库中的第h段语音数据的声学特征序列表示为x_h，该声学特征序列中第t帧特征表示为x_h，t，根据步骤1-1)得到的通用背景模型计算该段语音在第c个高斯混合分量上所对应的零阶统计量N_h,c、一阶统计量和二阶统计量分别如式(1)-式(3)所示：

式中，c代表通用背景模型中的第c个高斯混合分量，代表矩阵取对角运算；

式(3)中γ_h,c,t表示第h段语音的第t帧特征在第c个高斯混合分量上的后验概率，表达式如式(4)所示：

1-2-2)建立子空间模型；

根据步骤1-2-1)对所有训练语音库中的数据段提取的零阶、一阶和二阶统计量，通过因子分析算法迭代建立子空间模型；该算法中E-step和M-step具体步骤如下：

步骤E-step：对于训练语音数据库中的每一段语音x_h，估计其隐变量y_h的后验概率分布的均值a_h和方差如式(5)-式(7)所示：

Λ_h＝I+T^*Σ^-1N_hT (5)

假设声学特征的维数表示为F；为通过串接得到的FC×1超矢量，N_h为N_h，c对角化排列后的FC×FC高维矩阵；Σ为CF×CF维的通用背景模型的协方差矩阵，其对角元素是∑₁,…,∑_C；a_h和分别为隐变量y_h的后验概率分布均值和方差；

步骤M-step：根据步骤E-step估计得到的隐变量y_h的后验概率分布的均值a_h和方差实现子空间矩阵T和协方差Σ的更新，分别定义如式(8)和式(9)所示：

式中，为二阶统计量进行矩阵对角拼接后的FC×FC矩阵；迭代完成后，得到收敛的子空间矩阵T和通用背景模型的协方差矩阵Σ；

2)对待测语音数据预处理得到梅尔倒谱特征，利用步骤1)得到的通用背景模型和子空间模型，通过i-vector因子提取方法得到待测语音数据的每一段的i-vector因子；使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率，将说话人个数和说话人在各个时刻的先验概率作为初始值，建立隐马尔科夫模型，使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率，最终得出说话人标记结果；具体包括以下步骤：

2-1)获取一条待测语音数据；

2-2)对该条待测语音数据提取梅尔倒谱特征；

2-3)将该条待测语音数据按每0.5S进行分段，共分成了n段，通过待测语音数据的梅尔倒谱特征，使用i-vector因子提取方法得到该条待测语音数据的每一段的i-vector因子，共n个；

其中，提取第h段待测语音段的i-vector因子的过程为：

根据该条待测语音数据中第h段待测语音段的梅尔倒谱特征序列提取得到第h段待测语音段特征序列的零阶统计量N_h和一阶统计量提取第h段待测语音段的i-vector因子，如式(10)所示：

其中，Λ_h＝I+T^*Σ^-1N_hT，I为单位矩阵，T为步骤1-2)得到的子空间矩阵，Σ为CF×CF维的通用背景模型的协方差矩阵，其对角元素是∑₁,…,∑_C；

2-4)通过密度峰值聚类算法得到说话人个数S和说话人在各个时刻的先验概率π；

2-5)利用步骤1)训练得到的通用背景模型和子空间模型，以及根据步骤2-4)得到的说话人个数S和说话人在各个时刻的先验概率π，建立隐马尔科夫模型，通过变分贝叶斯方法，循环迭代更新每个片段对应每个说话人的后验概率，更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率；收敛后根据每个待测语音段对应每个说话人的后验概率，得出说话人标记结果，标记结束。

本发明还提出了采用上述方法的基于密度峰值聚类和变分贝叶斯的说话人标记***，其特征在于，包括：语音预处理模块、特征提取模块、通用背景模型计算模块、子空间模型计算模块、i-vector因子提取模块、说话人个数及说话人先验估计模块、变分贝叶斯与隐马尔科夫模型模块和说话人标记模块共8个模块；语音预处理模块，用于接收用户输入语音；特征提取模块，用于将用户语音转化为梅尔倒谱特征；通用背景模型计算模块，用于利用训练语音数据训练和建立通用背景模型；子空间模型计算模块，用于利用训练语音数据提取统计量，并根据统计量训练和建立子空间模型；i-vector因子提取模块，用于提取待测语音信号的每一段对应的说话人i-vector因子；说话人个数及说话人先验估计模块，用于利用待测语音数据的i-vector因子，计算待测语音中说话人个数，得出说话人中心点位置，并进一步计算待测语音数据各i-vector因子对应的说话人标签，得出说话人的先验概率；变分贝叶斯与隐马尔科夫模型模块，用于利用训练得到的通用背景模型和子空间模型，根据说话人个数和说话人在各个时刻的先验概率建立隐含马尔科夫模型，通过变分贝叶斯方法，循环迭代更新每个片段对应每个说话人的后验概率，更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率；说话人标记模块，利用每个片段对应每个说话人的后验概率得出说话人标记结果。

本发明的特点及有益效果在于：

1本发明在传统的说话人标记方法的基础上，结合聚类算法和变分贝叶斯方法，增强了说话人标记***的准确率和稳定性。

2相较以往的说话人标记***需要已知语音信号中的说话人个数，本发明采用的密度峰值聚类算法，能够计算出待测语音信号中的说话人个数，提高***的灵活性。

3本发明采用的密度峰值聚类算法，能够计算出待测语音信号中每个说话人在各个时刻的的先验概率，减小随机指定说话人在各个时刻的先验概率对标记效果的影响，提高了***的效率和***稳定性。

4利用变分贝叶斯和隐马尔科夫HMM模型，将说话人标记问题变为纯粹的概率问题求解，提高了说话人标记的准确率。

附图说明

图1为本发明提出的基于密度峰值聚类和变分贝叶斯的说话人标记方法流程框图。

图2为本发明方法中密度峰值聚类算法得出说话人个数和说话人在各个时刻的先验概率估计的流程框图。

图3为本发明方法中基于变分贝叶斯和隐马尔科夫模型得到说话人标记结果的流程框图。

具体实施方式

本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与***，下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法，流程框图如图1所示，包括以下步骤：

1)建立训练语音数据库，提取训练语音数据库中语音信号的梅尔倒谱特征，通过k均值(kmeans)聚类算法得到通用背景的初始模型，利用期望最大算法(Expectationmaximum，EM)迭代得到通用背景模型；根据建立的通用背景模型和训练语音数据提取Baum-Welch统计量，通过因子分析方法得到子空间模型；

具体包括以下步骤：

1-1-2)对训练语音数据库中的语音信号提取梅尔倒谱特征；梅尔倒谱特征提取算法是一种基于人耳听感知理论的特征提取方法，目前广泛应用于说话人识别、语种识别以及连续语音识别等。首先对语音信号进行预加重和分帧加窗，然后对分帧加窗后的信号进行快速傅里叶变换，得到对应的频谱，并通过Mel频标三角窗滤波器进行滤波，最后进行离散余弦变换得到梅尔倒谱特征。

1-1-3)使用步骤1-1-2)中提取的梅尔倒谱特征，利用kmeans算法得到通用背景的初始模型，利用期望最大算法(Expectation maximum，EM)对该初始模型进行迭代更新，得到最终的通用背景模型{C,ω_c,m_c,Σ_c}；其中C为混合分量数，ω_c,m_c,Σ_c分别为对应第c个高斯分布的权重、均值和方差；

1-2)建立子空间模型；

1-2-1)提取统计量：假设训练语音数据库表示为X＝{x₁,x₂,......,x_H}，数据库中的第h段语音数据的声学特征序列表示为x_h，该声学特征序列中第t帧特征表示为x_h，t，根据步骤1-1)得到的通用背景模型计算该段语音在第c个高斯混合分量上所对应的零阶统计量N_h,c、一阶统计量和二阶统计量分别如式(1)-(3)所示：

1-2-2)建立子空间模型；

根据步骤1-2-1)对所有训练语音库中的数据段提取的零阶、一阶和二阶统计量，通过因子分析的EM算法迭代建立子空间模型。该算法中具体的E-step和M-step步骤如下：

步骤E-step：对于训练语音数据库中的每一段语音x_h，估计其隐变量y_h的后验概率分布的均值a_h和方差如式(5)-(7)所示：

Λ_h＝I+T^*Σ^-1N_hT (5)

假设声学特征的维数表示为F。为通过串接得到的FC×1超矢量，N_h为N_h,c对角化排列后的FC×FC高维矩阵。Σ为CF×CF维的通用背景模型的协方差矩阵，其对角元素是∑₁,…,∑_C；a_h和分别为隐变量y_h的后验概率分布均值和方差。

式中，为二阶统计量进行矩阵对角拼接后的FC×FC矩阵；在此基础上可进一步对通用背景模型的协方差Σ进行更新，由于在实际中对通用背景模型的均值更新不会提升***的性能，因此通常只对协方差进行更新；

采用上述步骤E-step和步骤M-step进行反复迭代5-6次后，子空间矩阵T和通用背景模型的协方差矩阵Σ收敛，迭代估计过程结束。

2)对待测语音数据预处理得到梅尔倒谱特征，利用步骤1)得到的通用背景模型和子空间模型，通过i-vector因子提取方法得到待测语音数据的每一段(0.5S为1段)的i-vector因子；使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率，将说话人个数和说话人在各个时刻的先验概率作为初始值，建立隐马尔科夫模型，使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率，最终得出说话人标记结果；具体步骤包括：

2-1)获取一条待测语音数据，该待测语音数据是用录音机录制的多个人开会的会议录音；

2-2)对该条待测语音数据提取梅尔倒谱特征；

2-3)将该条待测语音数据按每0.5S进行分段，共分成了n段，通过待测语音数据的梅尔倒谱特征，使用i-vector因子提取方法得到该条待测语音数据的每一段(0.5s为一段)的i-vector因子，共n个；其中，提取第h段待测语音段的i-vector因子的过程为：

2-4)通过密度峰值聚类算法得出说话人个数和说话人在各个时刻的先验概率，密度峰值聚类算法流程框图如图2所示；具体包括以下步骤：

2-4-1)根据公式(10)提取的待测语音数据的每个待测语音段的i-vector因子，计算两段i-vector因子之间的距离；距离算法如式(11)所示：

d_ij＝L_P(a_i,a_j)＝||a_i-a_j||_p (11)

当p＝2时，称为欧氏距离；当p＝1时，称为曼哈顿距离；本发明采用的是欧式距离进行计算。

2-4-2)计算待测语音数据的每个待测语音段的i-vector因子的密度ρ_i，表示每个点的聚集度，如式(12)所示：

式中，dc为选取的密度参考值，与***的稳定性相关联，n为总的i-vector个数；

2-4-3)计算每个待测语音段i-vector因子的相对距离σ_i，当i-vector因子的密度不是最大值时，则该点的相对距离为比该点密度大的点到该点的最短距离，定义如式(13)所示：

当i-vector因子的密度为最大值时，该点的相对距离为该点离其他点的最大距离，定义如式(14)所示：

2-4-4)设定密度ρ的阈值，本实施例为ρ的最大值的0.85倍(一般设定范围为0.7～0.9倍)；设定相对距离σ的阈值，本实施例为σ的最大值的0.8倍(一般设定范围为0.7～0.9倍)；若某点的密度和相对距离都大于设定的密度阈值和相对距离阈值，则将该点判断为中心点，最终得到的中心点的个数即说话人个数S；

2-4-5)对每个待测语音段i-vector因子标记其所对应的说话人中心点类别，计算每个说话人的先验概率π；

2-5)利用步骤1)训练得到的通用背景模型和子空间模型，及根据步骤2-4)得到的说话人个数S和说话人在各个时刻的先验概率π，建立隐马尔科夫模型，通过变分贝叶斯方法，循环迭代更新每个片段对应每个说话人的后验概率，更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率；收敛后根据每个待测语音段对应每个说话人的后验概率得出说话人标记结果；流程框图如图3所示具体包括以下步骤：

2-5-1)求解说话人模型y产生特征x的后验概率P(x|y)；

假设说话人超向量s＝m+Ty；假设已知语音片段x的第t帧的特征向量为x_t(F×1维)，第t帧对应通用背景模型中的第c(c＝1,…,C)个高斯的概率为γ_c,t；

计算第c个高斯的中心一阶二阶Baum-Welch统计量，如式(15)-式(17)所示：

其中，m_c是m中对应于高斯c的一个子向量；

令N为CF×CF的对角矩阵，其对角块为N_cI(c＝1,…,C)，令为通过串接得到的CF×1的超向量，令为CF×CF的对角矩阵，对角块为

定义求解说话人模型y产生特性x的后验概率的两个中间变量：

其中∑_c是第c个高斯的协方差矩阵，∑是CF×CF维的通用背景模型协方差矩阵，其对角元素是∑₁,…,∑_C；得到说话人模型y产生特征x的后验概率为：

lnP(x|y)＝G+H(y) (20)

2-5-2)更新每个片段对应每个说话人的后验概率q_ms；

建立隐马尔科夫模型，其状态个数由步骤2-4得到的说话人个数S决定，初始状态分布为步骤2-4求得的π(迭代开始后则根据步骤2-5-4)求得的π)，状态转移概率矩阵对角线上的元素值为0.995，其他元素值相等，观测概率分布为步骤2-5-1求得的P(x|y)；通过隐马尔科夫模型，求得每个片段m的对应说话人s的后验概率q_ms；

2-5-3)更新说话人模型的后验概率a_sΛ_s；

对于每一个说话人s，依赖于说话人的Baum-Welch统计量N(s)和定义如式(21)和式(22)所示：

更新a_s和Λ_s如式(23)和式(24)所示：

Λ_s＝I+T^*Σ^-1N(s)T (23)

2-5-4)更新说话人在各个时刻的先验概率π；

在已经求出q_ms的情况下，更新π的方法是容易获得的。说话人s对应的π_s更新公式如式(25)所示：

2-5-5)收敛条件ζ；

ζ(Q)可以用q_ms，Λ_s，a_s表示如式(26)所示：

迭代更新步骤2-5-2)、2-5-3)、2-5-4)，直到ζ收敛。收敛时，得到标记结果，如式(27)所示：

得到每个片段的指定说话人，标记结束。

值得注意的是，本实施例在以本发明技术方案为前提下进行实施，但本发明的保护范围不仅限于该实施例。凡是在本发明的实质精神范围之内，对以上实施例所作的适当改变和变化，都落在本发明要求保护的范围之内。

本发明还提出了采用上述方法的基于密度峰值聚类和变分贝叶斯的说话人标记***，包括：语音预处理模块、特征提取模块、通用背景模型计算模块、子空间模型计算模块、i-vector因子提取模块、说话人个数及说话人先验估计模块、变分贝叶斯与隐马尔科夫模型模块和说话人标记模块共8个模块；语音预处理模块，用于接收用户输入语音；特征提取模块，用于将用户语音转化为梅尔倒谱特征；通用背景模型计算模块，用于利用训练语音数据训练和建立通用背景模型；子空间模型计算模块，用于利用训练语音数据提取统计量，并根据统计量训练和建立子空间模型；i-vector因子提取模块，用于提取待测语音信号的每一段对应的说话人i-vector因子；说话人个数及说话人先验估计模块，用于利用待测语音数据的i-vector因子，计算待测语音中说话人个数，得出说话人中心点位置，并进一步计算待测语音数据各i-vector因子对应的说话人标签，得出说话人的先验概率；变分贝叶斯与隐马尔科夫模型模块，用于利用训练得到的通用背景模型和子空间模型，根据说话人个数和说话人在各个时刻的先验概率建立隐含马尔科夫模型，通过变分贝叶斯方法，循环迭代更新每个片段对应每个说话人的后验概率，更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率；说话人标记模块，利用每个片段对应每个说话人的后验概率得出说话人标记结果。

本领域普通技术人员可以理解为，上述模块的全部或部分是可以通过程序来指令相关的硬件完成的，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括上述模块之一或其组合。

Claims

1.一种基于密度峰值聚类和变分贝叶斯的说话人标记方法，其特征在于，包括以下步骤：

1)建立训练语音数据库，提取训练语音数据库中语音信号的梅尔倒谱特征，通过kmeans聚类算法得到通用背景的初始模型，利用期望最大算法迭代得到通用背景模型；根据建立的通用背景模型和训练语音数据提取Baum-Welch统计量，通过因子分析方法得到子空间模型；具体包括以下步骤：

1-1-2)对训练语音数据库中的语音信号提取梅尔倒谱特征；

1-2)建立子空间模型；

1-2-1)提取统计量：假设训练语音数据库表示为X＝{x₁,x₂,......,x_H}，数据库中的第h段语音数据的声学特征序列表示为x_h，该声学特征序列中第t帧特征表示为x_h,t，根据步骤1-1)得到的通用背景模型计算该段语音在第c个高斯混合分量上所对应的零阶统计量N_h,c、一阶统计量和二阶统计量分别如式(1)-式(3)所示：

N_{h, c} = \underset{t}{Σ} γ_{h, c, t} - - - (1)

{\tilde{F}}_{h, c} = \underset{t}{Σ} γ_{h, c, t} (x_{h, t} - m_{c}) - - - (2)

{\tilde{S}}_{h, c} = d i a g {\underset{t}{Σ} γ_{h, c, t} (x_{h, t} - m_{c}) {(x_{h, t} - m_{c})}^{*}} - - - (3)

γ_{h, c, t} = \frac{ω_{c} N_{U B M} (x_{h, t}; m_{c}, Σ_{c})}{Σ_{i = 1}^{C} ω_{i} N_{U B M} (x_{h, t}; m_{i}, Σ_{i})} - - - (4)

1-2-2)建立子空间模型；

Λ_h＝I+T^*Σ^-1N_hT (5)

a_{h} = L_{h}^{- 1} T^{*} Σ^{- 1} {\tilde{F}}_{h} - - - (6)

E (y_{h} y_{h}^{*}) = Λ_{h}^{- 1} + a_{h} a_{h}^{*} - - - (7)

假设声学特征的维数表示为F；为通过串接c＝1,…,C，得到的FC×1超矢量，N_h为N_{h c}对角化排列后的FC×FC高维矩阵；Σ为CF×CF维的通用背景模型的协方差矩阵，其对角元素是∑₁,…,∑_C；a_h和分别为隐变量y_h的后验概率分布均值和方差；

Σ_{h = 1}^{H} N_{h} T E (y_{h} y_{h}^{*}) = Σ_{h = 1}^{H} {\tilde{S}}_{h} a_{h}^{*} - - - (8)

Σ_{h = 1}^{H} N_{h} Σ = Σ_{h = 1}^{H} {\tilde{S}}_{h} - d i a g {(Σ_{h = 1}^{H} {\tilde{F}}_{h} E (y_{h}^{*})) T^{*}} - - - (9)

2-1)获取一条待测语音数据；

2-2)对该条待测语音数据提取梅尔倒谱特征；

其中，提取第h段待测语音段的i-vector因子的过程为：

a_{h} = Λ_{h}^{- 1} T^{*} Σ^{- 1} {\tilde{F}}_{h} - - - (10)

2.如权利要求1所述的方法，其特征在于，所述步骤2-4)中通过密度峰值聚类算法得到的说话人个数S和说话人在各个时刻的先验概率π，具体包括以下步骤：

d_ij＝L_P(a_i,a_j)＝||a_i-a_j||_p (11)

ρ_{i} = Σ_{j = 1, j &NotEqual; i}^{n} \exp (- {(\frac{d_{i j}}{d c})}^{2}) - - - (12)

式中，dc为选取的密度参考值，n为i-vector因子个数；

σ_{i} = \underset{j : ρ_{j} < ρ_{i}}{m i n} (d_{i j}) - - - (13)

σ_{i} = \underset{j}{m a x} (d_{i j}) - - - (14)

2-4-4)设定密度ρ的阈值，并设定相对距离σ的阈值；若某点的密度和相对距离分别都大于设定的密度阈值和相对距离阈值，则将该点判断为中心点，最终得到的中心点的个数即为说话人个数S；

2-4-5)对每个待测语音段i-vector因子标记其所对应的说话人中心点类别，计算得到每个说话人的先验概率π。

3.如权利要求1所述的方法，其特征在于，所述步骤2-5)中得出说话人标记结果，具体包括以下步骤：

2-5-1)求解说话人模型y产生特征x的后验概率P(x|y)；

假设说话人超向量s＝m+Ty；假设已知语音片段x的第t帧的特征向量为x_t，第t帧对应通用背景模型中的第c个高斯的概率为γ_c,t，c＝1,…,C；

N_{c} = \underset{t}{Σ} γ_{c, t} - - - (15)

{\tilde{F}}_{c} = \underset{t}{Σ} γ_{c, t} (x_{t} - m_{c}) - - - (16)

{\tilde{S}}_{c} = d i a g (\underset{t}{Σ} γ_{c, t} (c) (x_{t} - m_{c}) {(x_{t} - m_{c})}^{*}) - - - (17)

式中，m_c是m中对应于高斯c的一个子向量；

令N为CF×CF的对角矩阵，其对角块为N_cI，令为通过串接得到的CF×1的超向量，令为CF×CF的对角矩阵，对角块为

定义求解说话人模型y产生特性x的后验概率的两个中间变量分别如式(18)和式(19)所示：

G = Σ_{c = 1}^{C} N_{c} \ln \frac{1}{{(2 π)}^{F / 2} | Σ_{c} |^{1 / 2}} - \frac{1}{2} t r (Σ^{- 1} \tilde{S}) - - - (18)

H (y) = y^{*} T^{*} Σ^{- 1} \tilde{F} - \frac{1}{2} y^{*} T^{*} {NΣ}^{- 1} T y - - - (19)

式中，∑_c是通用背景模型的第c个高斯的协方差矩阵，∑是通用背景模型的协方差矩阵；得到说话人模型y产生特征x的后验概率为：

lnP(x|y)＝G+H(y) (20)

2-5-2)更新每个片段对应每个说话人的后验概率q_ms；

建立隐马尔科夫模型，其状态个数由步骤2-4)得到的说话人个数S决定，初始状态分布为步骤2-4)求得的π，状态转移概率矩阵对角线上的元素值为0.995，其他元素值相等，观测概率分布为步骤2-5-1)求得的P(x|y)；通过隐马尔科夫模型，求得每个片段m的对应说话人s的后验概率q_ms；

2-5-3)更新说话人模型的后验概率a_sΛ_s；

N (s) = Σ_{m = 1}^{M} q_{m s} N_{m} - - - (21)

\tilde{F} (s) = Σ_{m = 1}^{M} q_{m s} {\tilde{F}}_{m} - - - (22)

更新a_s和Λ_s如式(23)和式(24)所示：

Λ_s＝I+T^*Σ^-1N(s)T (23)

a_{s} = Λ_{s}^{- 1} T^{*} Σ^{- 1} \tilde{F} (s) - - - (24)

2-5-4)更新说话人在各个时刻的先验概率π；

说话人s对应的π_s更新公式如式(25)所示：

π_{s} = \frac{1}{M} Σ_{m = 1}^{M} q_{m s} - - - (25)

2-5-5)收敛条件ζ；

收敛条件ζ(Q)用q_ms，Λ_s，a_s表示如式(26)所示：

ζ (Q | π) = Σ_{m = 1}^{M} Σ_{s = 1}^{S} q_{m s} l n {\tilde{q}}_{m s} + \frac{1}{2} {R S - Σ_{s = 1}^{S} (l n | Λ_{s} |) + t r (Λ_{s}^{- 1} + a_{s} a_{s}^{*})} - Σ_{m = 1}^{M} Σ_{s = 1}^{S} q_{m s} {lnq}_{m s} - - - (26)

迭代更新步骤2-5-2)、2-5-3)、2-5-4)，直到ζ收敛；收敛时，得到标记结果，如式(27)所示：

\arg \max_{s} q_{m s} - - - (27)

得到每个片段的指定说话人，标记结束。

4.一种采用如权利要求1所述方法的基于密度峰值聚类和变分贝叶斯的说话人标记***，其特征在于，包括：语音预处理模块、特征提取模块、通用背景模型计算模块、子空间模型计算模块、i-vector因子提取模块、说话人个数及说话人先验估计模块、变分贝叶斯与隐马尔科夫模型模块和说话人标记模块共8个模块；语音预处理模块，用于接收用户输入语音；特征提取模块，用于将用户语音转化为梅尔倒谱特征；通用背景模型计算模块，用于利用训练语音数据训练和建立通用背景模型；子空间模型计算模块，用于利用训练语音数据提取统计量，并根据统计量训练和建立子空间模型；i-vector因子提取模块，用于提取待测语音信号的每一段对应的说话人i-vector因子；说话人个数及说话人先验估计模块，用于利用待测语音数据的i-vector因子，计算待测语音中说话人个数，得出说话人中心点位置，并进一步计算待测语音数据各i-vector因子对应的说话人标签，得出说话人的先验概率；变分贝叶斯与隐马尔科夫模型模块，用于利用训练得到的通用背景模型和子空间模型，根据说话人个数和说话人在各个时刻的先验概率建立隐含马尔科夫模型，通过变分贝叶斯方法，循环迭代更新每个片段对应每个说话人的后验概率，更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率；说话人标记模块，利用每个片段对应每个说话人的后验概率得出说话人标记结果。