CN109545228A

CN109545228A - 一种端到端说话人分割方法及***

Info

Publication number: CN109545228A
Application number: CN201811536622.0A
Authority: CN
Inventors: 叶志坚; 李稀敏; 肖龙源; ***; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-03-29

Abstract

本发明公开了一种端到端说话人分割方法及***，其通过分别提取训练用混合语音的混合STFT特征和参考语音的参考特征；再经三层全连接网络生成参考语音的掩膜；将所述掩膜与所述混合STFT特征相乘得到待识别说话人的分割STFT特征；最后将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音，从而训练得到所需的模型；使用时，无需先将混合语音分割成多段短语音，再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音；而是直接将待分割的混合语音和待分割说话人的参考语音输入训练好的模型即可输出待分割说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高。

Description

一种端到端说话人分割方法及***

技术领域

本发明涉及语音信号处理技术领域，特别是一种端到端说话人分割方法及其应用该方法的***。

背景技术

随着音频获取途径和数量的快速增加，音频管理变得越来越复杂，近几年说话人分割聚类在国际上逐渐成为热点研究问题，国外许多大学和研究机构都开展了相关研究工作，美国国家标准技术局(National Institute of Standards and Technology，NIST)在1999年组织的说话人识别评测任务中就增加了两人之间的电话语音的分割聚类项目，2002年NIST提出的富信息转写(Rich Transcription，RT)评测正式开展对说话人分割聚类的研究。

传统的说话人分割方法分为两个步骤：

1.分割步骤，将一段混合语音分割成多段短语音。目前主流的语音分割算法有距离度量法和模型法，其中，距离度量法需根据相邻语音段之间距离，确定两个音段之间是否存在说话人变换点；模型法常见使用GMM高斯混合模型和SVM支持向量机模型，通过计算相邻模型之间的相似度距离，根据经验阈值判别说话人变换点是否存在；根据说话人变换点对混合语音进行分段处理得到多个短语音。

2.聚类步骤，通过聚类算法将属于同一个人的多个短语音进行聚类处理，得到同一个人的长语音。

采用上述的传统说话人分割方法，需要先分割再重新聚合来得到属于同一个人的长语音，不仅算法较复杂，计算效率低，而且其纯度受分割和聚类两个步骤精度的影响。

发明内容

本发明为解决上述问题，提供了一种端到端说话人分割方法及***，只需将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高。

为实现上述目的，本发明采用的技术方案为：

一种端到端说话人分割方法，其包括以下步骤：

a.模型训练步骤：

a1.提取训练用混合语音的混合STFT特征；

a2.获取所述混合语音中的待识别说话人的参考语音，并提取所述参考语音的参考特征；

a3.根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜；

a4.将所述掩膜与所述混合STFT特征相乘，得到待识别说话人的分割STFT特征；

a5.将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音，完成模型的训练；

b.说话人分割步骤：

将待分割的混合语音和待分割说话人的参考语音输入所述模型中，输出待分割说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，对所述待分割说话人的参考语音提取参考特征，并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中，输出所述待分割说话人的分割STFT特征，并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。

优选的，所述的步骤a1中，所述训练用混合语音包括待识别说话人的干净语音和一个以上其他说话人的干净语音，并将所述干净语音进行合成得到训练用混合语音；所述的步骤b中，所述待分割的混合语音，是指待分割说话人与一个以上其他说话人之间的对话语音。

优选的，所述的步骤a2和步骤b中，提取所述参考语音的参考特征，是采用声纹提取器进行提取所述参考语音的声纹特征；所述声纹特征为embedding特征。

优选的，进一步将所述训练用混合语音的混合STFT特征、所述待识别说话人的参考语音的参考特征，以及所述待分割的混合语音的混合STFT特征、所述待分割说话人的分割STFT特征，将其实数和虚数在通道维度上进行拼接处理。

优选的，所述的步骤a5中，进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征，并通过对比所述干净STFT特征和所述分割STFT特征进行构造损失函数，并根据所述损失函数进行优化模型参数，得到优化后的模型。

进一步的，使用均方误差作为损失函数，即，计算所述干净STFT特征和所述分割STFT特征之间的均方误差。

进一步的，根据所述损失函数进行优化模型参数，是通过随机梯度下降算法进行优化模型参数，使得均方误差的值下降到预设阈值。

优选的，所述的步骤a3进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；

a33.将所述时序信息特征和所述参考特征输入三层全连接网络，生成所述参考语音的掩膜。

与所述方法相对应的，本发明还提供一种端到端说话人分割***，其包括：

模型训练模块，其进一步包括：

STFT特征提取单元，用于提取训练用混合语音的混合STFT特征；

参考特征提取单元，其通过获取所述混合语音中的待识别说话人的参考语音，并提取所述参考语音的参考特征；

掩膜生成单元，其根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜；

特征分割单元，其通过将所述掩膜与所述混合STFT特征相乘，得到待识别说话人的分割STFT特征；

语音转换单元，其将所述分割STFT特征通过ISTFT变换得到训练用混合语音中属于所述待分割说话人的分割语音，完成模型的训练；

说话人分割模块：

用于将待分割的混合语音和待分割说话人的参考语音输入所述模型中，输出待分割说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，对所述待分割说话人的参考语音提取参考特征，并将所述待分割的混合语音的混合STFT特征和所述待分割说话人的参考特征输入所述模型中，输出所述待分割说话人的分割STFT特征，并进一步通过ISTFT变换得到所述待分割说话人对应的分割语音。

本发明的有益效果是：

(1)本发明的说话人分割方法，无需先将混合语音分割成多段短语音，再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音；而是直接将待分割的混合语音和待分割说话人的参考语音输入训练好的模型即可输出待分割说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高；

(2)本发明通过采集大量的单人的干净语音，并将任意两个人的干净语音进行混合处理和重新分割的训练，得到训练好的模型，使得模型的性能更好，特别适用于两个以上说话人的对话录音的分割处理；

(3)本发明通过将单人的干净语音的干净STFT特征与分割训练的分割STFT特征进行比较和构造损失函数，从而对模型参数进行优化，使得模型更加准确；

(4)本发明通过CNN网络、LSTM网络、三层全连接网络进行特征的提取和分割，使得训练得到的模型具有更高的性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种端到端说话人分割方法的流程简图；

图2为本发明一种端到端说话人分割***的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种端到端说话人分割方法，其包括以下步骤：

a.模型训练步骤：

a1.提取训练用混合语音的混合STFT特征；

b.说话人分割步骤：

所述的步骤a1中，所述训练用混合语音包括待识别说话人的干净语音和一个以上其他说话人的干净语音，并将所述干净语音进行合成得到训练用混合语音；其中，所述干净语音为短语音，将所述短语音合成为长语音，得到所述训练用混合语音；所述的步骤b中，所述待分割的混合语音，是指待分割说话人与一个以上其他说话人之间的对话语音。训练时，采集大量的单人的干净语音，并对任意两个人的干净语音进行混合处理和重新分割的训练；例如，首先采集几千人的干净语音，然后任意取两个人的干净语音进行混合，并将两个人中的任一人作为待识别说话人提取其对应的参考语音，通过构建语音训练集、语音开发集、语音测试集，对模型进行训练和优化。

所述的步骤a2和步骤b中，提取所述参考语音的参考特征，是采用声纹提取器进行提取所述参考语音的声纹特征；本实施例中，所述声纹特征为embedding特征。

短时傅里叶变换(STFT，short-time Fourier transform，或short-term Fouriertransform))，又称加窗傅里叶变换，是一种时频分析方法，它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好。时间窗口使得信号只在某一小区间内有效，这就避免了传统的傅里叶变换在时频局部表达能力上的不足，使得傅里叶变换有了局部定位的能力。

并且，由于STFT特征是一个复数，即a+bj，其中，a为实数部分，b为虚数部分；本实施例中，为了避免复数的运算，还进一步将所述训练用混合语音的混合STFT特征、所述待识别说话人的参考语音的参考特征，以及所述待分割的混合语音的混合STFT特征、所述待分割说话人的分割STFT特征，将其实数和虚数在通道维度上进行拼接处理，从而使得运算更简单高效。

所述的步骤a3中.根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜，是指先将所述混合STFT特征与所述参考特征融合后得到融合特征，再将融合特征经三层全连接网络生成掩膜；其中，所述特征融合是指将所述参考语音的参考特征(声纹特征)叠加在所述混合语音中提取的混合STFT特征上，将每个时间点上的混合STFT特征与所述参考特征进行匹配，根据匹配结果生成掩膜。所述掩膜采用复数掩膜，用于对所述混合语音中不属于待识别说话人的语音进行屏蔽，从而得到属于待识别说话人的分割语音。

具体的，所述的步骤a3进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；其中，所述卷积神经网络(Convolutional Neural Network,CNN)是由卷积层、池化层、全连接层构成的具有局部感知和权值共享能力的深层神经网络；卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象程度更高的特征，经过卷积层之后的节点矩阵深度增加；池化层神经网络不会改变三维矩阵的深度，但是可以缩小矩阵的大小；除了采用所述CNN神经网络，还可以采用RNN、DNN等神经网络。

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；其中，所述LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件；

a33.将所述时序信息特征和所述参考特征输入三层全连接网络，生成所述参考语音的掩膜(masks)；其中，所述三层全连接网络(fully connected layers,FC)包括输入层、隐含层、输出层；所述掩膜为所述三层全连接网络中提取的特征，并用于在提取所述分割STFT特征时进行屏蔽其他说话人语音对应的STFT特征。

其中，所述的步骤a32是可以省略的，即，可直接将所述步骤a31中提取的深层次特征和所述参考特征进行融合后输入三层全连接网络。

所述的步骤a5中，进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征，并通过对比所述干净STFT特征和所述分割STFT特征进行构造损失函数loss，并根据所述损失函数进行优化模型参数，得到优化后的模型。优选的，使用均方误差作为损失函数，即，计算所述干净STFT特征和所述分割STFT特征之间的均方误差(mean square error，MSE)。本实施例中，根据所述损失函数loss进行优化模型参数，是通过随机梯度下降算法(SGD)进行优化模型参数，使得所述均方误差(损失函数)越来越小，从而使得均方误差的值下降到预设阈值，即损失函数达到最小化，则完成模型训练。

如图2所示，本发明还提供一种端到端说话人分割***，其包括：

模型训练模块，其进一步包括：

说话人分割模块：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种端到端说话人分割方法，其特征在于，包括以下步骤：

a.模型训练步骤：

a1.提取训练用混合语音的混合STFT特征；

b.说话人分割步骤：

2.根据权利要求1所述的一种端到端说话人分割方法，其特征在于：所述的步骤a1中，所述训练用混合语音包括待识别说话人的干净语音和一个以上其他说话人的干净语音，并将所述干净语音进行合成得到训练用混合语音；所述的步骤b中，所述待分割的混合语音，是指待分割说话人与一个以上其他说话人之间的对话语音。

3.根据权利要求1所述的一种端到端说话人分割方法，其特征在于：所述的步骤a2和步骤b中，提取所述参考语音的参考特征，是采用声纹提取器进行提取所述参考语音的声纹特征；所述声纹特征为embedding特征。

4.根据权利要求1所述的一种端到端说话人分割方法，其特征在于：进一步将所述训练用混合语音的混合STFT特征、所述待识别说话人的参考语音的参考特征，以及所述待分割的混合语音的混合STFT特征、所述待分割说话人的分割STFT特征，将其实数和虚数在通道维度上进行拼接处理。

5.根据权利要求2所述的一种端到端说话人分割方法，其特征在于：所述的步骤a5中，进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征，并通过对比所述干净STFT特征和所述分割STFT特征进行构造损失函数，并根据所述损失函数进行优化模型参数，得到优化后的模型。

6.根据权利要求5所述的一种端到端说话人分割方法，其特征在于：使用均方误差作为损失函数，即，计算所述干净STFT特征和所述分割STFT特征之间的均方误差。

7.根据权利要求6所述的一种端到端说话人分割方法，其特征在于：根据所述损失函数进行优化模型参数，是通过随机梯度下降算法进行优化模型参数，使得均方误差的值下降到预设阈值。

8.根据权利要求1至7任一项所述的一种端到端说话人分割方法，其特征在于：所述的步骤a3进一步包括：

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；

9.一种端到端说话人分割***，其特征在于，包括：

a.模型训练模块，其进一步包括：

b.说话人分割模块：