CN112331181A

CN112331181A - 一种基于多说话人条件下目标说话人语音提取方法

Info

Publication number: CN112331181A
Application number: CN201910694870.6A
Authority: CN
Inventors: 张鹏远; 林格平; 李文洁; 万辛; 戚梦苑; 沈亮; 颜永红
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-02-05
Anticipated expiration: 2039-07-30
Also published as: CN112331181B

Abstract

本发明属于目标语音提取和自适应技术领域，具体涉及一种基于多说话人条件下目标说话人语音提取方法，该方法具体包括：实时获取多个说话人混合的语音，提取多个说话人混合的语音的频谱；将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；基于该目标说话人的语音频谱，获取目标说话人的语音。

Description

一种基于多说话人条件下目标说话人语音提取方法

技术领域

本发明属于目标语音提取和自适应技术领域，特别涉及一种基于多说话人条件下目标说话人语音提取方法。

背景技术

近年来，受益于计算机技术与深度学***。但是，如果存在多个说话人或者噪声干扰的条件下，语音识别***的识别率大幅度下降。为了解决这一问题，通常在识别之前，对受干扰的语音信号进行前端的处理。其中，语音信号前端处理主要包括以下几个方面：移除信号中的复杂环境噪声并尽量减少语音信号的失真，多说话人语音分离，从混合语音中提取出感兴趣的目标语音。

在语音信号前端处理中，通常采用深度神经网络(deep neural network,以下简称DNN)将带噪语音的频谱映射成干净的语音的时频掩蔽(masking)。对于多说话人的语音分离的处理，国内外的学者提出了一些新的方法，主要包括：深度聚类网络，深度吸引子网络等，这些方法通常采用DNN来估计不同说话人的掩蔽，然后在高维空间中拉近同一说话人的距离，同时拉远不同说话人之间的距离。这些方法能一定程度上改善多说话人场景下语音识别的性能，但是，现有的方法仍然存在着一些局限性：这些方法需要已知混合语音中说话人的数量，并且对于训练数据中没有出现过的说话人，自适应能力较弱，这就很大程度上限制了模型的灵活性，造成了训练和测试说话人不匹配导致的性能下降。

另外，对于一个训练好的说话人无关的模型，说话人自适应的目的是针对不同的目标说话人，学习对应的说话人相关的数据分布，从而使得模型能够更好的适应对应说话人的语音。说话人自适应相比于其他的自适应更具挑战性，因为通常情况下，能够用来进行自适应的目标说话人数据十分有限，然而说话人无关的DNN模型通常有很多参数，这就很容易造成过拟合，从而限制自适应的效果。

发明内容

本发明的目的在于，为解决现有的方法存在的上述缺陷，本发明提出了一种基于多说话人条件下目标说话人语音提取方法，该方法提出一种针对目标说话人的语音提取框架，该框架只聚焦于感兴趣的目标说话人的语音，将其他说话人的语音作为干扰语音进行排除。本发明的方法对目标语音提取网络进行在线自适应，并且只对目标语音提取网络的小部分参数进行自适应调节，不需要额外的自适应数据，能够很好的解决过拟合的问题。具体地，该方法主要是从一句预先提供的锚语音中提取出目标说话人的特征向量，并将目标说话人的特征向量和多个说话人混合的语音频谱一起输入至预先训练的语音提取网络中，提取出目标说话人语音频谱，并依据该目标说话人语音频谱恢复目标说话人语音。

为了实现上述目的，本发明提出了一种多说话人条件下目标说话人语音获取方法，其特征在于，该方法具体包括：

实时获取多个说话人混合的语音，提取多个说话人混合的语音的频谱；

将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；

将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；

基于该目标说话人的语音频谱，获取目标说话人的语音。

作为上述技术方案的改进之一，所述将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；具体包括：

从目标说话人的干净语音中任意选取一条干净语音作为锚语音，将该锚语音输入至预先训练的说话人识别模型中，所述说话人识别模型中还包括一统计累积层，用于统计目标说话人的语音片段在这一层的均值和标准差，再将二者拼接之后传给统计层之后的隐层，作为说话人特征向量的提取层，用于从该锚语音中提取目标说话人的特征向量。

作为上述技术方案的改进之一，所述说话人识别模型的建立和训练的步骤，具体包括：

建立说话人识别模型，其输入为训练语音的特征，其输出为说话人识别结果，即当前训练语音所对应的说话人；具体包括：

通过优化目标函数来更新说话人识别模型的参数，对说话人识别模型进行训练，其中，所述说话人识别模型的参数包括权重和偏置；目标函数见公式(1)：

其中，E为目标函数；n表示语音片段数量；k表示说话人的数量；d_nk为输入语音片段属于说话人k的概率；其中，在语音片段的标注是当前说话人的时候，d_nk＝1；否则，d_nk＝0；

为训练语音的特征，具体为训练语音在1到T时刻的梅尔倒谱系数特征；spkr_k为第k个说话人；

通过最小化目标函数，完成对说话人识别模型的训练；

将锚语音的特征输入到训练后的说话人识别模型中，从该说话人识别模型的中间的统计层之后的隐层中提取出目标说话人的特征向量。

作为上述技术方案的改进之一，所述将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；具体包括：

将多个说话人混合的语音的频谱输入至预先训练的目标说话人语音提取网络，同时，将获取的目标说话人的特征向量输入至目标说话人语音提取网络，获取目标说话人的语音频谱的相位敏感掩蔽；将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘，获取目标说话人的语音频谱。

作为上述技术方案的改进之一，所述目标说话人语音提取网络的建立和训练步骤，具体包括：

建立目标说话人语音提取网络，采用相位敏感掩蔽，对目标说话人语音提取网络进行训练；其中，相位敏感掩蔽见公式(2)；

其中，S(t,f)是目标说话人的干净语音的频谱；Y(t,f)是混合语音的频谱；θ表示目标说话人的语音与混合语音的相位差；PSM(t,f)为目标说话人的语音频谱的相位敏感掩蔽；

目标说话人语音提取网络的输入为混合语音的频谱；其输出是目标说话人的语音频谱的相位敏感掩蔽。

作为上述技术方案的改进之一，所述基于该目标说话人的语音频谱，获取目标说话人的语音；具体包括：

基于该目标说话人的语音频谱，采用傅里叶逆变换，获取目标说话人的语音。

作为上述技术方案的改进之一，所述方法还包括：在目标说话人语音提取网络中增设说话人门(speaker gate)，将目标说话人的特征向量输入说话人门，来获取一组与目标说话人相关的自适应参数；利用获取的该组与目标说话人相关的自适应参数，与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘，来调节语音提取网络中的每个节点对于不同说话人的贡献程度，对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节，再根据自适应调节之后的输出来生成相位敏感掩蔽，构成说话人门的参数和该目标说话人语音提取网络的参数同步更新。

本发明相比于现有技术的有益效果在于：

为了减少干扰说话人对于目标说话人语音的影响，本发明的方法从一句锚语音中提取目标说话人的特征向量，可以实现对目标说话人的语音的提取及对干扰声音的削弱，从而提取出相对干净的目标说话人的语音。针对不同说话人的差异对结果造成的影响，本发明的方法提出采用目标说话人的特征向量，经过说话人门来直接生成一组与目标说话人相关的自适应参数，对目标说话人语音提取网络进行自适应调节，从而提升目标说话人语音提取网络的说话人自适应的能力。

附图说明

图1为本发明的一种基于多说话人条件下目标说话人语音提取方法的流程示意图；

图2为图1的本发明的一种基于多说话人条件下目标说话人语音提取方法中增设说话人门的具体流程示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提出了一种基于多说话人条件下目标说话人语音提取方法；根据从锚语音中提取的目标说话人的特征向量，将目标说话人的特征向量和多个说话人混合的语音频谱一起输入至预先训练的语音提取网络中，提取出目标说话人语音频谱，并依据该目标说话人语音频谱恢复目标说话人语音，排除其他说话人的语音和噪声的干扰，同时为了提高语音提取网络对不同说话人的自适应能力，在语音提取网络中增设说话人门(speaker gate)，在引入少量自适应参数量的情况下，提高语音提取网络的自适应能力；该方法具体包括：

步骤1)实时获取多个说话人混合的语音，提取多个说话人混合的语音的频谱；

步骤2)将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；具体地，

所述说话人识别模型的建立和训练的步骤，具体包括：

建立说话人识别模型，其输入为训练语音的特征，具体为训练语音的梅尔频率倒谱系数特征，其输出为说话人识别结果，即当前训练语音所对应的说话人；具体包括：

通过优化目标函数来更新说话人识别模型的参数，即说话人识别模型的参数包括：权重和偏置；对说话人识别模型进行训练，其中，目标函数见公式(1)：

为语音在1到T时刻的梅尔倒谱系数特征；spkr_k为第k个说话人；

通过最小化目标函数，完成对说话人识别模型的训练；

将锚语音的特征输入到训练后的说话人识别模型中，从模型的中间的统计层之后的隐层中，提取出目标说话人的特征向量。

其中，所述说话人识别模型具备对不同的说话人的鉴别能力，能够识别出每个说话人的梅尔倒谱系数特征对应的说话人，具有很高的说话人区分特性；

步骤3)将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；具体包括：

将多个说话人混合的语音的频谱输入至预先训练的目标说话人语音提取网络，同时，将获取的目标说话人的特征向量输入至目标说话人语音提取网络；获取目标说话人的语音频谱的相位敏感掩蔽，将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘，获得目标说话人的语音频谱。

所述目标说话人语音提取网络的建立和训练步骤，具体包括：

步骤4)基于该目标说话人的语音频谱，提取目标说话人的语音；

具体地，基于该目标说话人的语音频谱，采用傅里叶逆变换，获取目标说话人的语音。

步骤5)如图2所示，在目标说话人语音提取网络中增设说话人门(speaker gate)，说话人门的参数用f(x)表示，将目标说话人的特征向量输入说话人门，来获取一组与目标说话人相关的自适应参数；利用获取的该组与目标说话人相关的自适应参数，与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘，来调节语音提取网络中的每个节点对于不同说话人的贡献程度，对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节，再根据自适应调节之后的输出来生成相位敏感掩蔽，构成说话人门的参数和该目标说话人语音提取网络的参数同步更新。

所述说话人门的参数和语音提取网络中的参数同步更新优化，这个自适应调节的过程在该语音提取网络的训练过程中就已经融合到该语音提取网络中，不需要在测试阶段再进行额外的自适应训练，很大程度上简化了目标说话人自适应的过程。为了克服训练和测试目标说话人不匹配导致的性能损失，根据目标说话人的特征向量，通过说话人门，对不同的说话人生成一组相应的自适应参数，通过这些自适应参数来对该语音提取网络中的参数进行微调，从而使得该语音提取网络能更好的适应目标说话人的语音分布特点，来达到提升目标说话人识别准确率的目的。

实施例1.

所述说话人识别模型的建立和训练的步骤，具体包括：

通过最小化目标函数，完成对说话人识别模型的训练；

将锚语音的特征输入到训练后的说话人识别模型中，从模型的中间的统计层之后的隐层中提取出目标说话人的特征向量。

其中，在本实施例中，步骤1)中的说话人识别模型采用包括数据集Switchboard和NIST speaker recognition evaluation(SRE)数据集的数据进行训练，该数据包括大约6000个不同的说话人；其中，该说话人识别模型的输入是锚语音的特征，锚语音的特征具体为23维的梅尔倒谱系数特征；

如图1所示，该说话人识别模型包括七层时间延迟深度神经网络(Time delayDeep Neural Network，TDNN)，每层TDNN包含512个节点，在第五个隐层之后加设一统计累积层，该统计累积层的输入是1500维，输出是3000维。将第六层的输出作为说话人的特征向量，因此，该说话人识别模型从该锚语音的特征中提取出的说话人特征向量的维度是512。

步骤3)将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；

对于步骤2)中的说语音提取网络，训练数据是采用Wall Street Journal(WSJ)数据，任意取两个不同说话人的语音混合得到的40小时混合语音的频谱，该混合过程将两句话以0-5dB的信噪比相加。

如图1和2所示，语音提取网络的输入是257维的混合语音的频谱，该语音提取网络结构包括两层卷积神经网络(Convolutional Neural Network，CNN)，用来对混合语音的频谱进行处理提取高维的特征表示，之后是三层双向长短时记忆模型(Bi-long short termmemory model，BLSTM)，最后是一层全链接(Full Connected layer，FC)层。其中，CNN的卷积核大小是9x9，两层CNN都包含64个卷积核，每层BLSTM包括640个节点，最后一层全链接是1280维。

语音提取网络的输出节点数是257，和频谱的维度相对应。CNN层的输入是混合语音的频谱，之后将CNN的输出和步骤1)提取的512维目标说话人的特征向量拼接，输入给BLSTM，之后全连接层再将BLSTM的输出映射成257维的频谱的目标说话人的语音频谱的相位敏感掩蔽。

将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘，获得目标说话人的干净语音频谱。

步骤4)基于该目标说话人的语音频谱，获取目标说话人的语音；

如图2所示，说话人门的输入是步骤1)提取的512维的目标说话人的特征向量，可训练参数f(x)是两个仿射变换矩阵，输出维度和步骤2)中语音提取网络的全链接的输出维度一致，是1280维，最后将说话人门的输出和语音提取网络的全链接层的输出进行对应元素相乘，进行自适应的调节。

为了评估本发明提出的方法在多说话人条件下对目标说话人语音提取的性能，以下提供了语音的信号失真比(signal-to-distortion ratio,SDR)，包括目标语音提取网络，以及增加说话人门的结果。此外，还提供了没有经过语音提取的混合语音的SDR作为基线对比。测试数据为10小时混合语音，测试数据中的说话人在训练数据中没有出现过，结果如下：

方法	SDR(dB)
		基线混合语音	1.12
前端目标语音提取网络	10.37
		前端目标语音提取网络+speaker gate层	11.0

由表中结果可以看出，本发明提出的方法能大幅提升目标说话人语音的信号失真比；说话人门的引入也能提升目标语音提取网络对未知说话人的自适应能力，从而提升目标说话人语音的质量。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多说话人条件下目标说话人语音提取方法，其特征在于，该方法具体包括：

基于该目标说话人的语音频谱，获取目标说话人的语音。

2.根据权利要求1所述的方法，其特征在于，所述将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；具体包括：

3.根据权利要求1或2所述的方法，其特征在于，所述说话人识别模型的建立和训练的步骤，具体包括：

建立说话人识别模型，其输入为训练语音的特征，其输出为说话人识别结果；具体包括：

通过最小化目标函数，完成对说话人识别模型的训练；

4.根据权利要求1所述的方法，其特征在于，所述将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；具体包括：

5.根据权利要求1所述的方法，其特征在于，所述目标说话人语音提取网络的建立和训练步骤，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述基于该目标说话人的语音频谱，获取目标说话人的语音；具体包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：在目标说话人语音提取网络中增设说话人门，将目标说话人的特征向量输入说话人门，来获取一组与目标说话人相关的自适应参数；利用获取的该组与目标说话人相关的自适应参数，与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘，对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节，再根据自适应调节之后的输出来生成相位敏感掩蔽，构成说话人门的参数和该目标说话人语音提取网络的参数同步更新。