CN109785852A

CN109785852A - 一种增强说话人语音的方法及***

Info

Publication number: CN109785852A
Application number: CN201811536633.9A
Authority: CN
Inventors: 叶志坚; 李稀敏; 肖龙源; ***; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-21

Abstract

本发明公开了一种增强说话人语音的方法及***，其通过采集包含说话人的干净语音和噪音的训练用混合语音，并提取其混合STFT特征；并获取所述说话人的参考语音和对应的参考特征；根据所述混合STFT特征和所述参考特征，经三层全连接网络生成所述参考语音的掩膜；将所述掩膜与所述混合STFT特征相乘，得到所述说话人的增强STFT特征；最后通过ISTFT变换得到所述说话人的增强语音，完成模型的训练；使用时，只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音，抗噪效果更好，适用范围更广。

Description

一种增强说话人语音的方法及***

技术领域

本发明涉及语音信号处理技术领域，特别是一种增强说话人语音的方法及其应用该方法的***。

背景技术

语音增强是语音处理领域的核心技术之一。在实际复杂环境中，麦克风在拾取语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声的话音干扰，因此拾取语音的质量受到影响。为了减少噪声对语音的影响，获得高质量的语音，对语音增强技术提出了要求。

传统的单通道语音增强方法通常实现简单，对非相干噪声效果明显；但是，实际环境中的噪声信号通常是高度非平稳信号，其噪声能量在频谱上分布极不均匀，且随时间快速变化，在此情况下对噪声的估计和相应的语音信号恢复都是十分困难的，难以增强目标语音。

发明内容

本发明为解决上述问题，提供了一种增强说话人语音的方法及***，只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音，抗噪效果更好，适用范围更广。

为实现上述目的，本发明采用的技术方案为：

一种增强说话人语音的方法，其包括以下步骤：

a.模型训练步骤：

a1.采集包含说话人的干净语音和噪音的训练用混合语音，并提取训练用混合语音的混合STFT特征；

a2.获取所述说话人的参考语音，并提取所述参考语音的参考特征；

a3.根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜；

a4.将所述掩膜与所述混合STFT特征相乘，得到所述说话人的增强STFT特征；

a5.将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音，完成模型的训练；

b.语音增强步骤：

将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中，输出待增强说话人的增强语音；或者，对待增强说话人的混合语音提取混合STFT特征，对所述待增强说话人的参考语音提取参考特征，并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中，输出所述待增强说话人的增强STFT特征，并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。

优选的，所述的步骤a2和步骤b中，提取所述参考语音的参考特征，是采用声纹提取器进行提取所述参考语音的声纹特征；所述声纹特征为embedding特征。

优选的，进一步将所述训练用混合语音的混合STFT特征、所述说话人的参考语音的参考特征，以及所述待增强说话人的混合语音的混合STFT特征、所述待增强说话人的增强STFT特征，将其实数和虚数在通道维度上进行拼接处理。

优选的，所述的步骤a5中，进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征，并通过对比所述干净STFT特征和所述增强STFT特征进行构造损失函数，并根据所述损失函数进行优化模型参数，得到优化后的模型。

进一步的，使用均方误差作为损失函数，即，计算所述干净STFT特征和所述增强STFT特征之间的均方误差。

进一步的，根据所述损失函数进行优化模型参数，是通过随机梯度下降算法进行优化模型参数，使得均方误差的值下降到预设阈值。

优选的，所述的步骤a3进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；

a33.将所述时序信息特征和所述参考特征输入三层全连接网络，生成所述参考语音的掩膜。

与所述方法相对应的，本发明还提供一种增强说话人语音的***，其包括：

模型训练模块，其进一步包括：

STFT特征提取单元，用于采集包含说话人的干净语音和噪音的训练用混合语音，并提取训练用混合语音的混合STFT特征；

参考特征提取单元，其通过获取所述说话人的参考语音，并提取所述参考语音的参考特征；

掩膜生成单元，其根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜；

特征增强单元，其通过将所述掩膜与所述混合STFT特征相乘，得到所述说话人的增强STFT特征；

语音转换单元，其将所述增强STFT特征通过ISTFT变换得到训练用混合语音中属于所述说话人的增强语音，完成模型的训练；

语音增强模块：

用于将待增强说话人的混合语音和待增强说话人的参考语音输入所述模型中，输出待增强说话人的增强语音；或者，对待增强说话人的混合语音提取混合STFT特征，对所述待增强说话人的参考语音提取参考特征，并将所述待增强说话人的混合语音的混合STFT特征和所述待增强说话人的参考特征输入所述模型中，输出所述待增强说话人的增强STFT特征，并进一步通过ISTFT变换得到所述待增强说话人对应的增强语音。

本发明的有益效果是：

(1)本发明的语音增强方法，只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音，抗噪效果更好，适用范围更广；

(2)本发明通过采集大量的单人的干净语音和噪音，并将任意其中一个干净语音与噪音进行混合处理和重新分离的训练，得到训练好的模型，使得模型的性能更好，特别适用于周围环境嘈杂的干净语音的增强处理；

(3)本发明通过将单人的干净语音的干净STFT特征与增强训练的增强STFT特征进行比较和构造损失函数，从而对模型参数进行优化，使得模型更加准确；

(4)本发明通过CNN网络、LSTM网络、三层全连接网络进行特征的提取和增强，使得训练得到的模型具有更高的性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种增强说话人语音的方法的流程简图；

图2为本发明一种增强说话人语音的***的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种增强说话人语音的方法，其包括以下步骤：

a.模型训练步骤：

b.语音增强步骤：

所述的步骤a1中，所述训练用混合语音包括所述说话人的干净语音和周围环境的噪音；所述噪音可以是其他说话人的声音或是机动车声或是自然环境中的其他声音等。训练时，通过采集大量的单人的干净语音和噪音，并将任意其中一个干净语音与噪音进行混合处理和重新分离的训练；例如，首先采集几千人的干净语音和各种场景类型的噪音，然后任意取其中一个说话人的干净语音与任意一种噪音进行混合，并且，所述参考语音的说话人与所述干净语音的说话人相对应，通过构建语音训练集、语音开发集、语音测试集，对模型进行训练和优化，得到训练好的模型。

所述的步骤a2和步骤b中，提取所述参考语音的参考特征，是采用声纹提取器进行提取所述参考语音的声纹特征；本实施例中，所述声纹特征为embedding特征。

短时傅里叶变换(STFT，short-time Fourier transform，或short-term Fouriertransform))，又称加窗傅里叶变换，是一种时频分析方法，它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好。时间窗口使得信号只在某一小区间内有效，这就避免了传统的傅里叶变换在时频局部表达能力上的不足，使得傅里叶变换有了局部定位的能力。

并且，由于STFT特征是一个复数，即a+bj，其中，a为实数部分，b为虚数部分；本实施例中，为了避免复数的运算，还进一步将所述训练用混合语音的混合STFT特征、所述说话人的参考语音的参考特征，以及所述待增强说话人的混合语音的混合STFT特征、所述待增强说话人的增强STFT特征，将其实数和虚数在通道维度上进行拼接处理，从而使得运算更简单高效。

所述的步骤a3中.根据所述混合STFT特征和所述参考特征，经三层全连接网络，生成所述参考语音的掩膜，是指先将所述混合STFT特征与所述参考特征融合后得到融合特征，再将融合特征经三层全连接网络生成掩膜；其中，所述特征融合是指将所述参考语音的参考特征(声纹特征)叠加在所述混合语音中提取的混合STFT特征上，将每个时间点上的混合STFT特征与所述参考特征进行匹配，根据匹配结果生成掩膜。所述掩膜采用复数掩膜，用于对所述混合语音中不属于所述说话人的语音进行屏蔽，从而得到属于所述说话人的增强语音。

具体的，所述的步骤a3进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；其中，所述卷积神经网络(Convolutional Neural Network,CNN)是由卷积层、池化层、全连接层构成的具有局部感知和权值共享能力的深层神经网络；卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象程度更高的特征，经过卷积层之后的节点矩阵深度增加；池化层神经网络不会改变三维矩阵的深度，但是可以缩小矩阵的大小；除了采用所述CNN神经网络，还可以采用RNN、DNN等神经网络。

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；其中，所述LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件；

a33.将所述时序信息特征和所述参考特征输入三层全连接网络，生成所述参考语音的掩膜(masks)；其中，所述三层全连接网络(fully connected layers,FC)包括输入层、隐含层、输出层；所述掩膜为所述三层全连接网络中提取的特征，并用于在提取所述增强STFT特征时进行屏蔽其他说话人语音对应的STFT特征。

其中，所述的步骤a32是可以省略的，即，可直接将所述步骤a31中提取的深层次特征和所述参考特征进行融合后输入三层全连接网络。

所述的步骤a5中，进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征，并通过对比所述干净STFT特征和所述增强STFT特征进行构造损失函数loss，并根据所述损失函数进行优化模型参数，得到优化后的模型。优选的，使用均方误差作为损失函数，即，计算所述干净STFT特征和所述增强STFT特征之间的均方误差(mean square error，MSE)。本实施例中，根据所述损失函数loss进行优化模型参数，是通过随机梯度下降算法(SGD)进行优化模型参数，使得所述均方误差(损失函数)越来越小，从而使得均方误差的值下降到预设阈值，即损失函数达到最小化，则完成模型训练。

如图2所示，本发明还提供一种增强说话人语音的***，其包括：

模型训练模块，其进一步包括：

语音增强模块：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种增强说话人语音的方法，其特征在于，包括以下步骤：

a.模型训练步骤：

b.语音增强步骤：

2.根据权利要求1所述的一种增强说话人语音的方法，其特征在于：所述的步骤a2和步骤b中，提取所述参考语音的参考特征，是采用声纹提取器进行提取所述参考语音的声纹特征；所述声纹特征为embedding特征。

3.根据权利要求1所述的一种增强说话人语音的方法，其特征在于：进一步将所述训练用混合语音的混合STFT特征、所述说话人的参考语音的参考特征，以及所述待增强说话人的混合语音的混合STFT特征、所述待增强说话人的增强STFT特征，将其实数和虚数在通道维度上进行拼接处理。

4.根据权利要求1所述的一种增强说话人语音的方法，其特征在于：所述的步骤a5中，进一步提取所述步骤a1中的说话人的干净语音的干净STFT特征，并通过对比所述干净STFT特征和所述增强STFT特征进行构造损失函数，并根据所述损失函数进行优化模型参数，得到优化后的模型。

5.根据权利要求4所述的一种增强说话人语音的方法，其特征在于：使用均方误差作为损失函数，即，计算所述干净STFT特征和所述增强STFT特征之间的均方误差。

6.根据权利要求5所述的一种增强说话人语音的方法，其特征在于：根据所述损失函数进行优化模型参数，是通过随机梯度下降算法进行优化模型参数，使得均方误差的值下降到预设阈值。

7.根据权利要求1至6任一项所述的一种增强说话人语音的方法，其特征在于：所述的步骤a3进一步包括：

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；

8.一种增强说话人语音的***，其特征在于，包括：

a.模型训练模块，其进一步包括：

b.语音增强模块：