CN107342077A

CN107342077A - 一种基于因子分析的说话人分段聚类方法及***

Info

Publication number: CN107342077A
Application number: CN201710395341.7A
Authority: CN
Inventors: 计哲; 颜永红; 安茂波; 陈燕妮; 苗权; 李鹏; 张震; 万辛
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-11-10

Abstract

本发明涉及一种基于因子分析的说话人分段聚类方法及***。该方法包括：1)提取训练语音的声学特征，训练高斯混合通用背景模型，进而训练总变化因子模型和高斯概率线性判别分析模型；2)对测试语音进行分段并提取语音片段的声学特征；3)依据高斯混合通用背景模型和总变化因子模型将提取的声学特征映射为总变化量因子，加载高斯概率线性判别分析模型，根据总变化量因子计算任意两语音片段之间的对数似然比得分；4)选择得分最高的两类进行合并，根据层次聚类的方法逐步迭代至收敛，最终输出说话人分段聚类结果。本发明将总变化因子的不确定性引入到高斯概率线性判别分析模型进行训练和打分，能够提升短时语音片段上的基于因子分析的***性能。

Description

一种基于因子分析的说话人分段聚类方法及***

技术领域

本发明涉及的领域包括说话人识别、语音识别以及语音信号处理，具体的说，本发明采用的是一种基于因子分析的说话人分段聚类方法及***。

背景技术

说话人分段聚类技术研究就是自动进行“何人何时说话”分类标注的一种技术，又叫说话人日志。其任务就是把连续的语音流分割成单一说话人的语音片段，然后对相同说话人的语音片段进行聚类，附上相对区别性的标记。

它实际上包含了两个过程：说话人分割，即检测说话人身份发生变化的点；说话人聚类，即将说话人身份相同的片段聚成一类。其中，说话人聚类是一个无监督的过程，因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。

目前主流的说话人分段聚类***，根据聚类方式的不同分为基于似然估计的***、基于说话人特性的***、基于距离模型的***。在基于说话人特性的***中基于因子分析的说话人分段聚类***是目前主流的分段***。

但是基于总变化因子分析的说话人分段聚类***，在切割之后的语音片段较短的情况下，提取的总变化因子包含的说话人信息少，且模型估计不准确，偏差较大。在此基础上直接进行打分会影响***的性能。

发明内容

本发明的目的是为了解决现有的基于因子分析***分段之后的语音片段较短，提取的总变化因子包含的说话人信息少，且不确定性大的问题，从而提出了一种基于因子分析的说话人分段聚类方法及***，将总变化因子的不确定性进行传递，引入到高斯概率线性判别分析模型进行训练和打分，从而提升短时语音片段上的基于因子分析的***性能。

为了实现上述目的，本发明提供了一种基于因子分析的说话人分段聚类方法，所述方法包含以下步骤：

1)提取训练语音的声学特征，训练高斯混合通用背景模型，进而训练总变化因子模型和高斯概率线性判别分析模型；

2)输入测试语音，对测试语音进行分段并提取语音片段的声学特征；

3)依据高斯混合通用背景模型、总变化因子模型将提取的声学特征映射为总变化量因子，并加载高斯概率线性判别分析模型，根据总变化量因子计算任意两语音片段之间的对数似然比得分；

4)选择得分最高的两类进行合并，根据层次聚类的方法逐步迭代至收敛，最终输出说话人分段聚类结果。

进一步地，上述方法中各步骤的具体实施过程如下：

1)训练背景模型：

A、根据不同测试集选择对应的训练语料，首先提取训练语音的声学特征，对声学特征进行建模，训练与说话人无关的高斯混合通用背景模型(GMM-UBM，Gaussian MixtureModel-Universal Background Model)。

B、根据训练好的GMM-UBM模型提取统计量，然后进行高维总变化因子分析，训练T模型，即总变化因子模型。总变化因子模型假设表示为：

M_j＝m+Tw_j

w_j～N(0，I)

其中，M_j表示第说话人第j句话的高斯超向量，m表示GMM-UBM模型的均值超向量，w_j为第j句话的总变化因子，符合标准的高斯分布，T表示总变化矩阵。

C、根据GMM-UBM模型、T模型提取数据集的总变化因子，对总变化因子进行低维因子分析，训练高斯概率线性判别分析模型(Probabilistic Linear DiscriminantAnalysis，PLDA)，模型假设如下：

u＝m+Uy+e，E～N(0,Λ^-1)

其中，u表示第i个说话人的第j句话的总变化因子，m是模型的均值，U是本征音矩阵，y是本征因子，服从标准的高斯分布，e是残差因子，E表示残差矢量，Λ表示高斯分布的方差。在该模型假设中，本征因子y可以用来表征一个说话人。

2)对测试语音进行静音、背景音乐检测，去掉非语音部分。

3)提取测试语音的声学特征，此处提取60维的梅尔频率倒谱系数特征，等分语音段落为N段。加载UBM背景模型，提取统计量，加载T模型，提取每一段语音的总变化因子以及对应的协方差矩阵。

4)假定N段语音为基类，采用层次聚类的方式，计算N类中任意两类的类间距离。

5)采用全后验高斯概率线性判别分析的打分方式，计算类间距离。本发明提出了采用i-vector不确定性传递的PLDA模型，即全后验概率PLDA模型(full posterior pldamodels，FP-PLDA)。模型假设如下：

其中，u_i表示说话人的第i句话的总变化因子，表示第i句话对应的残差因子，Γ_i ^-1表示残差矩阵，该模型假设的形式与标准PLDA模型不同，ivector估计的不确定性通过Γ_i ^-1传递到PLDA模型中。

6)为了防止PLDA打分方式依赖于得分区间的现象，采用改进的层次聚类方式。首先选取N*N矩阵中得分最大的一项，将对应的两基类进行合并。接着在(N-1)*(N-1)的矩阵中找到得分最大的一项，将两基类进行合并，迭代直到所有的类合并为N/2类。

7)将N/2类作为基类，重复步骤6)逐步迭代，直到语音收敛到目标类，停止，输出带标注的聚类结果。

总之，本发明的第一方面，提供了一种基于因子分析的说话人分段聚类方法，包括：对输入的训练语音，提取训练语音的声学特征，根据全局背景模型将声学特征映射为高斯超向量。利用总变化因子模型空间模型将高维的高斯超向量再映射为低维总变化量因子。该空间不区分说话人空间和信道空间，而是将这两个空间合并起来形成一个总变化空间，因为强制分离这两个空间的话可能会因为分离的不正确而丢失重要的信息。对低维总变化因子分析需要进一步的建模，采用了高斯概率线性判别分析建模，该模型能够在去除信道影响的基础上，更好地学习说话人类内及类间的信息，从而达到更好的表征说话人的作用。

本发明的第二方面，提供了一种基于因子分析的说话人分段聚类***，包括：

前端处理模块，用于检测输入的语音数据中的彩铃、振玲、音乐、静音等非语音部分，只保留有效语音部分；

特征提取模块，用于提取每句测试语音的声学特征；

总变化量因子提取模块，用于提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵。

高斯概率线性判别分析打分模块，用于对提取的总变化因子矢量进行打分判断；

层次聚类迭代模块，选择得分最高的两类进行合并，根据层次聚类的方法逐步迭代至收敛，最终输出说话人分段聚类结果。

总变化因子估计的可靠性受多种因素的影响，其中语音的时长会影响总变化因子估计的不确定性，即总变化因子后验分布协方差矩阵。而语音切割之后的语音片段时长可能只有几秒钟，不同于说话人识别测试集那样有足够的语音时长。此种短语音片段的情况会降低总变化因子估计的准确性，进而影响整个日志***的性能。传统的标准PLDA模型没有考虑每个总变化因子估计的不确定性，鉴于此，提出了采用总变化因子不确定性传递的PLDA模型，即全后验概率PLDA模型(FP-PLDA)。在该模型上进行打分，用于计算每个语音片段的总变化量因子的在模型上的得分。

本发明相对于现有的说话人分段聚类***具有以下有益效果：

1、传统的基于因子分析的说话人分段聚类***直接提取总变化因子，并进行因子分析建模打分。传统的标准PLDA模型没有考虑每个总变化因子估计的不确定性，本发明提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵，并将不确定性传递到PLDA模型中，这样对于短时的语音片段，能够使总变化因子的估计更准确，更好的提取说话人信息。

2、传统的层次聚类方式都是从得分矩阵中选择得分最大项进行类间合并再迭代，迭代过程中语音段落时长分布不均匀，影响得分的准确性。本发明选取得分最大项的两类进行合并，再在剩下的类别中选择得分最大项，将对应的两类进行合并，直到所有的基类都两两合并。从而再每一次层次迭代的过程中保证语音时长的均匀，进而使得得分准确可靠。

附图说明

图1是根据本发明实施例的基于因子分析的说话人分段聚类方法的训练流程图；

图2是根据本发明实施例的基于因子分析的说话人分段聚类方法的识别流程图；

图3是根据本发明实施例的基于因子分析的说话人分段聚类***的模块组成图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明的目的是提供一种基于因子分析的说话人分段聚类方法，本方法通过对语音片段提取总变化因子矢量，并将总变化因子矢量的不确定性传递至高斯概率线性判别分析模型中，并进行模型打分，采用一种改进的层次聚类方式迭代直到收敛至目标说话人个数。

图1是根据本实施例的基于因子分析的说话人分段聚类方法的训练流程图。该训练流程包括以下步骤：

1)根据不同测试集选择对应的训练语料，首先提取训练语音的声学特征，对声学特征进行建模，训练与说话人无关的高斯混合通用背景模型(GMM-UBM)。

2)根据训练好的GMM-UBM模型提取统计量，然后进行高维总变化因子分析，训练T模型(总变化因子模型)。

3)根据GMM-UBM模型、T模型提取数据集的总变化因子，对总变化因子进行低维因子分析，训练高斯概率线性判别分析模型(PLDA)。

图2是根据本发明实施例的基于因子分析的说话人分段聚类方法的识别流程图，其中左边为训练阶段，右边为识别流程。识别流程包括以下步骤：

1)对输入的测试语音进行语音分段；

2)加载混合高斯通用背景模型以及总变化因子模型提取语音片段的总变化因子；

3)加载高斯概率线性判别分析模型，采用对数似然比的打分规则，对总变化因子进行打分判断；

4)进行层次聚类，输出带类别标签的语音片段。

图3是根据本发明实施例的基于因子分析的说话人分段聚类***的模块组成图，由几个模块组成：

前端处理模块，用于处理输入语音数据，用于检测输入的语音数据中的彩铃、振玲、音乐、静音等非语音部分，只保留有效语音部分；

特征提取模块，用于提取每句测试语音的声学特征；

总变化量因子提取模块，用于提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵；

层次聚类迭代模块，选择得分最高的两类进行合并，重复上述步骤直到收敛到目标人数。

至此，得到一个完整的基于因子分析的分段聚类***。

下面提供应用本发明方法的具体实例及实验验证数据。

A.说话人分段模块

输入语音经过端点检测之后便可获得纯净的有效语音，接下来便可对语音进行说话人变换点检测，将连续语音分割成语音片段。

因为说话人变换点检测的纯净程度会直接影响到后续的说话人聚类实验，因此这里采用基于贝叶斯信息准则BIC的自动分段方法，其定义如下：

其中，n_i表示类别c_i的样本数，d为模型复杂度相关系数。假定s₁、s₂为即将比较的相邻段落，那么它们之间的BIC差值为：

其中，n＝n₁+n₂表示合并之后的语音帧数。

首先采用两个相邻的时长200帧(2s)的滑动窗口以0.1s的步长在语音上滑动。假定每个窗口内的语音服从单高斯分布。采用BIC准则计算两个相邻窗之间的模型距离，得到一组距离序列。在说话人变换点检测中每个说话人的变换点的最小时长1s。通过反复调整参数，最后方差均值取0.3，均值阈值取0.1。经过BIC距离跟阈值的比对，判定相邻窗口之间是否存在变换点，然后进行标注。最后根据标注信息将连续语音分割为小语音片段用于后期的聚类处理。

B.聚类模块

1)对比实验***

此处对基于因子分析的不同聚类***进行实验。基于因子分析的***都是基于i-vector因子的***，经过说话人变换点检测，语音被切割为小片段，对每一段语音提取总变化因子。在聚类过程中采用的不同打分方式。根据不同的类间距离的计算方式可以划分为以下三个对比***：

a)I-vector Cosine***：在提取总变换因子I-vector之后，采用余弦距离的打分方式找到与每一段距离最近的说话人。

b)Std-PLDA***：我们加载标准PLDA模型(Std-PLDA)来计算每两个簇的相似度，自下而上的方法迭代，每次迭代时选择簇间距离最小的进行合并，任为两个簇为同一类，更新簇群。循环迭代，直到只剩下两个簇时迭代停止。

c)FP-PLDA***：该***聚类过程与Std-PLDA***相同。不同的是，当我们提取i-vector向量时，我们同时保存精度矩阵并将它传递到后续的PLDA模型中。此外，我们采用FP-PLDA打分模型计算类间距离。

2)实验数据

本文提供了两个测试集：中文测试集和NIST08数据集。NIST08为说话人日志通用的标准的数据集，包含了2213条电话对话录音，每条语音只有两个说话人，平均时长五分钟(合计200小时)。中文测试数据来自银行和保险机构的客户服务电话对话语音，每段音频文件中只包含两个说话人。整个测试数据包括约30小时的500条电话对话，每个音频的持续时间为3分钟至5分钟。此外每条语音文件都提供了语音标注答案，便于我们计算日志***的错误率。

训练集也分为中文和NIST标准数据集。其中中文数据集称为SHIWANG数据集。该数据库包括2457小时的中文电话录音，它包含各个地区的方言。我们将数据库分成三组。包含7.6小时约2194个音频的第一组用于训练UBM模型。第二组包含1680小时约32092个音频，用于训练总变化空间模型。最后一组包含770小时约17636个音频，用于训练PLDA模型。在NIST数据集中，采用NIST SRE04、05、06的电话语音数据训练总变化空间模型。

3)参数设置

在基于因子分析的所有***中我们都选择经典的梅尔频谱倒谱系数(MFCC)来提取声学特征，使用20ms汉明窗口和10ms帧移来提取60维MFCC特征。提取400维的总变化因子，另在I-vecor/Cosine***中，总变换因子会经过PCA降维，降到200维。

在Std-PLDA和FP-PLDA***中，利用SHIWANG数据库和NIST数据库分别训练背景模型。用SHIWANG数据库训练具有256个高斯分量的UBM背景模型，在零和一阶Baum-Welch统计的基础上训练总变化空间矩阵，提取400维i-vector。同样的语料库用于训练PLDA模型和FP-PLDA模型。用sre04训练256个和1024个高斯分量的GMM模型，sre04、05、06训练的400维T模型以及PLDA模型。

4)实验结果

实验一如表1所示，测试集采用中文合路电话语音，背景模型选择实网数据训练的256个高斯的UBM背景模型、400维T模型、PLDA背景模型。

表1.实验一

实验结果表明在中文测试集下，基于余弦距离的打分基线***日志错误率DER达到11.05％，而Std-PLDA***相对降低了5.06％，我们提出的FP-PLDA***比基准***相对降低了34.47％。

实验二如表2所示，采用NIST 08作为测试集，sre04训练分别训练256和1024个高斯数GMM模型、sre04、05、06训练的400维T模型、PLDA模型。

表2.实验二

实验结果表明在NIST测试集下各***性能比中文测试集效果好，且在基于因子分析的聚类***中，高斯混合数越高，***性能越好。基于余弦距离的打分日志错误率DER达了5.13％(UNM＝256)和5.09％(UBM＝1024)，而Std-PLDA***分别相对降低了4.67％和8.25％，我们提出的FP-PLDA***比基准***相对降低了18.12％和17.09％。

综合以上实验结果，本发明提出的FP-PLDA打分***在短时片段上性能较传统的标准的Std-PLDA打分方式更优，也较普遍应用的余弦距离打分方式性能有很大的提升。

在其它实施例中，本发明也可将FP-PLDA的打分方式同标准的Std-PLDA打分方式的任何得分进行融合。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于因子分析的说话人分段聚类方法，其步骤包括：

3)依据高斯混合通用背景模型和总变化因子模型，将提取的声学特征映射为总变化量因子，并加载高斯概率线性判别分析模型，根据总变化量因子计算任意两语音片段之间的对数似然比得分；

2.根据权利要求1所述的方法，其特征在于，步骤1)的模型训练过程包括：

A、根据不同测试集选择对应的训练语音，提取训练语音的声学特征，对声学特征进行建模，训练与说话人无关的高斯混合通用背景模型；

B、根据训练好的高斯混合通用背景模型提取统计量，然后进行高维总变化因子分析，训练总变化因子模型；

C、根据高斯混合通用背景模型、总变化因子模型提取数据集的总变化因子，对总变化因子进行低维因子分析，训练高斯概率线性判别分析模型。

3.根据权利要求2所述的方法，其特征在于，所述总变化因子模型表示为：

其中，M_j表示第说话人第j句话的高斯超向量，m表示高斯混合通用背景模型模型的均值超向量，w_j为第j句话的总变化因子，符合标准的高斯分布，T表示总变化矩阵。

4.根据权利要求2所述的方法，其特征在于，所述高斯概率线性判别分析模型表示为：

u＝m+Uy+e，E～N(0,Λ^-1)，

其中，u表示第i个说话人的第j句话的总变化因子，m是模型的均值，U是本征音矩阵，y是本征因子，服从标准的高斯分布，e是残差因子，E表示参差矢量，Λ表示高斯分布的方差。

5.根据权利要求1所述的方法，其特征在于，步骤2)对测试语音加固定窗获取语音片段，根据贝叶斯信息准则模型计算相邻两语音片段的间距并合并，从而完成语音分段。

6.根据权利要求1所述的方法，其特征在于，步骤2)对测试语音进行静音、背景音乐检测，去掉非语音部分，然后提取测试语音的声学特征，提取的语音特征是60维的梅尔频率倒谱系数特征，等分语音段落为N段。

7.根据权利要求1所述的方法，其特征在于，步骤3)首先加载高斯混合通用背景模型，提取统计量，然后加载总变化因子模型，提取每一段语音的总变化因子以及对应的表示不确定性的协方差矩阵；然后将不确定性传递到高斯概率线性判别分析模型中，采用全后验高斯概率线性判别分析的打分方式计算类间距离。

8.根据权利要求7所述的方法，其特征在于，步骤3)采用的全后验高斯概率线性判别分析模型表示为：

<mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>m</mi> <mo>+</mo> <mi>U</mi> <mi>y</mi> <mo>+</mo> <mover> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>,</mo> <mover> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>~</mo> <mi>N</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <msup> <mi>&Lambda;</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>+</mo> <msubsup> <mi>&Gamma;</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，u_i表示说话人的第i句话的总变化因子，表示第i句话对应的残差因子，表示残差矩阵。

9.根据权利要求7所述的方法，其特征在于，步骤4)采用改进的层次聚类方法，其包括：以N段语音为基类，首先选取N*N矩阵中得分最大的一项，将两基类进行合并；接着在(N-1)*(N-1)的矩阵中找到得分最大的一项，将两基类进行合并，迭代直到所有的类合并为N/2类；将N/2类作为基类，重复步骤上述步骤逐步迭代，直到语音收敛到目标类，停止，并输出带标注的聚类结果。

10.一种采用权利要求1所述方法的基于因子分析的说话人分段聚类***，其特征在于，包括：

前端处理模块，用于检测输入的语音数据中的非语音部分，只保留有效语音部分；

特征提取模块，用于提取每句测试语音的声学特征；

层次聚类迭代模块，用于选择得分最高的两类进行合并，根据层次聚类的方法逐步迭代至收敛，最终输出说话人分段聚类结果。