CN110111803A

CN110111803A - 基于自注意多核最大均值差异的迁移学习语音增强方法

Info

Publication number: CN110111803A
Application number: CN201910385769.2A
Authority: CN
Inventors: 梁瑞宇; 程佳鸣; 梁镇麟; 谢跃; 王青云; 包永强; 赵力
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-09
Anticipated expiration: 2039-05-09
Also published as: CN110111803B

Abstract

本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法，包括从原始语音中提取GFCC特征，并作为深度神经网络的输入特征；利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽，并作为深度神经网络的训练目标；构建基于深层神经网络的语音增强模型；构建自注意多核最大均值差异的迁移学习语音增强模型；训练自注意多核最大均值差异的迁移学习语音增强模型；输入目标域带噪语音的帧级特征，重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法，通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异，实现对无标签的目标域的迁移学习，提高语音增强性能，具有良好的应用前景。

Description

基于自注意多核最大均值差异的迁移学习语音增强方法

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于自注意多核最大均值差异的迁移学习语音增强方法。

背景技术

语音增强在语音处理的各领域都有重要应用。语音增强的目的就是提升受到噪声污染的语音的质量和可懂度。早期的单通道语音增强算法研究的重点在于如何从含噪语音中有效估计噪声谱，从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这些算法主要研究加性背景噪声，并基于噪声和纯净语音间的复杂的统计特性进行设计。但是，语音信号和噪声信号间纷繁复杂统计特性的相互作用，以及算法中很多不合理的假设限制了算法性能上限。因此，这些算法常常难以处理未知语音环境下真实场景中的非平稳噪声。

在语音增强应用方面，监督学***稳或非平稳的噪声都可能干扰语音信号。即使数据集可以包含所有情况，比如噪声类型可以达到10000种，这对于模型训练来说是庞大的工作。如果数据集的标注存在问题，那么训练的结果也就不能保证。

目前，在语音增强研究方面，基于SEGAN的语音增强的研究展示了如何通过迁移学习技术来改进基于DNN的跨语言的语音增强效果。其中，顶层针对新语言进行细调，而较低的层是固定，是基于充足的原始语言样本进行训练的。迁移学习还被用来实现基于DNN的谱增强算法的模型压缩，在不造成性能损失和加深网络的情况下，减小了语音增强模型的尺寸。结果表明，转移学习对于生成对抗网络的语言间语音增强是非常有效的。经过英语培训的SEGAN即使在加泰罗尼亚语和朝鲜语(24秒)的短培训时间内也能获得高性能，并且在说话人和噪声未知的情况下，能够适应低资源环境。研究还发现，训练中噪声类型的数量对语音增强的效果并不是决定性的因素。虽然训练SEGAN是一项困难的任务，但可以通过使用预先训练的网络进行转移学习来绕开问题。

通过上述的描述，如何建立一种适合环境变化快速训练的语音(单通道)增强模型，是提高语音增强鲁棒性和性能的关键，是当前需要解决的问题。

发明内容

本发明的目的是克服现有的语音(单通道)增强方法，面对环境变化时出现模型不匹配的问题。本发明的基于自注意多核最大均值差异的迁移学习语音增强方法，通过在深层神经网络的架构上引入自注意层和多核最大均值差异域混淆损失，并在多核最大均值差异前端添加自注意力算法，通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异，实现对无标签的目标域的迁移学习，提高语音增强性能，方法巧妙新颖，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种基于自注意多核最大均值差异的迁移学习语音增强方法，包括以下步骤，

步骤(A)，从原始语音中提取GFCC特征，并作为深度神经网络的输入特征；

步骤(B)，利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽，并作为深度神经网络的训练目标；

步骤(C)，构建基于深层神经网络的语音增强模型，作为基线模型；

步骤(D)，根据基线模型，构建自注意多核最大均值差异的迁移学习语音增强模型；

步骤(E)，训练阶段，训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型；

步骤(F)，增加阶段，根据训练后的自注意多核最大均值差异的迁移学习语音增强模型，输入目标域带噪语音的帧级特征，重建增强语音波形。

前述的基于自注意多核最大均值差异的迁移学习语音增强方法，步骤(C)，构建基于深层神经网络的语音增强模型，作为基线模型，所述基线模型为4层DNN语音增强模型，前两层为特征编码器，后两层为重建解码器。

前述的基于自注意多核最大均值差异的迁移学习语音增强方法，步骤(D)，构建自注意多核最大均值差异的迁移学习语音增强模型，是在特征编码器、重建解码器之间增加一层自注意力层，其中不带标签的目标域数据的GFCC特征通过特征编码器后，进行自注意力加权，加权后的特征经过重建解码器进行理想浮值掩蔽的重构。

前述的基于自注意多核最大均值差异的迁移学习语音增强方法，所述自注意力层的自注意力加权过程如下，

(D1)，设通过特征编码器的输出是X_{feature_encoder}，根据公式(1)，计算其的对齐向量align，

align＝tanh(X_{feature_encoder}×W)×V (1)

其中，W，V∈R^N×N是注意力机制中的待训练参数，N是自注意力层内编码器最后一层隐层单元数，也代表了新的特征空间维度；tanh函数为双曲正切函数，对齐向量的对应分数，如公式(2)所示，

score＝sigmod(align+ε) (2)

其中，ε为可调因子，对齐向量的对应分数score取值在0到1之间；

(D2)，根据公式(3)，获得新的加权特征

其中，表示hardarm相乘，对于单个样本而言，即是对其各个特征进行加权。

前述的基于自注意多核最大均值差异的迁移学习语音增强方法，步骤(E)，训练阶段，训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型，包括两条训练数据流向，分别为训练带标签的源域数据的GFCC特征和训练不带标签的目标域数据的GFCC特征，具体如下：

(E1)，两个训练数据流向的数据同时通过两层的特征编码器，通过隐层神经元将输入特征延展到更高维度；

(E2)，通过自注意力层后，两条训练数据流向的数据，即源域的自注意特征A_src与目标域的自注意特征A_tar汇集在适应层中计算源域和目标域自注意特征的多核最大均值差异的平方作为整个神经网络损失函数的一部分l_D，该l_D如公式(4)所示，

其中，MMD²[X，Y]为多核最大均值差异的平方；高斯核函数X和Y分别表示A_src与A_tar，m和n分别表示A_src和A_tar的维度，所使用的高斯核函数总数M为19，其系数σ²分别为：1e-6，1e-5，1e-4，1e-3，1e-2，1e-1，1，5，10，15，20，25，30，35，100，1e3，1e4，1e5，1e6；

(E3)，带标签的源域自注意特征A_src在经过适应层后会继续输入重建解码器中进行理想浮值掩蔽的重构，如公式(5)所示，

其中，θ_{IRM_en}为重建解码器层对应的网络参数，利用重构的理想浮值掩蔽和源域标签信息Y，计算平均绝对误差mae，作为整个神经网络损失函数的另一部分l_G，如公式(6)所示，

其中，mae为平均绝对误差计算函数；

(E4)，整个神经网络损失函数l，如公式(7)所示，

l＝l_G+ω*l_D (7)

其中，ω为权重，用来调节二者对抗程度的参数。

前述的基于自注意多核最大均值差异的迁移学习语音增强方法，步骤(F)，增加阶段，根据训练后的自注意多核最大均值差异的迁移学习语音增强模型，输入目标域带噪语音的帧级特征，重建增强语音波形，是利用目标域带噪语音中的相位信息通过反向傅里叶变换得到增强语音的时域波形，并通过重叠相加算法合成得到整个增强语音波形。

本发明的有益效果是：本发明的基于自注意多核最大均值差异的迁移学***均绝对误差，使自注意力输出的特征尽可能为源域重要的私有特征；针对目标域，模型联合源域自注意特征，通过最小化源域自注意特征与目标域自注意特征之间的最大均值差异，使自注意特征尽可能为源域和目标域的公共特征。因此，本发明的方法能够提高语音增强鲁棒性和性能，方法巧妙新颖，具有良好的应用前景。

附图说明

图1是本发明的基于自注意多核最大均值差异的迁移学习语音增强方法的流程图；

图2是本发明的训练阶段和增增加阶段的示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的基于自注意多核最大均值差异的迁移学习语音增强方法，包括以下步骤，

步骤(A)，从原始语音中提取(伽马通频率倒谱系数)GFCC特征，并作为深度神经网络的输入特征；

步骤(C)，构建基于深层神经网络的语音增强模型，作为基线模型，所述基线模型为4层DNN语音增强模型，前两层为特征编码器，后两层为重建解码器；

步骤(D)，根据基线模型，构建自注意多核最大均值差异的迁移学习语音增强模型，在特征编码器、重建解码器之间增加一层自注意力层，其中不带标签的目标域数据的GFCC特征通过特征编码器后，进行自注意力加权，加权后的特征经过重建解码器进行理想浮值掩蔽的重构，所述自注意力层的自注意力加权过程如下，

align＝tanh(X_{feature_encoder}×W)×V (8)

score＝sigmod(align+ε) (9)

其中，对齐向量的对应分数score取值在0到1之间；为了避免过小分数使得其加权的特征能力被过度弱化，本发明在分数计算中添加了可调因子ε，此处，ε为元素全为1的矩阵，score在每一个新的特征维度上都有不同的值，代表了特征之间的相对差异；

(D2)，根据公式(3)，获得新的加权特征

其中，表示hardarm相乘，对于单个样本而言，即是对其各个特征进行加权；

步骤(E)，训练阶段，训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型，如图2所示，在训练阶段，分别提取干净语音、源域的带噪语音(有标签)以及目标域的带噪语音(无标签)的伽马通频率倒谱系数(GFCC)特征，然后训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型，包括两条训练数据流向，分别为训练带标签的源域数据的GFCC特征和训练不带标签的目标域数据的GFCC特征，具体如下：

其中，mae为平均绝对误差计算函数；

(E4)，整个神经网络损失函数l，如公式(7)所示，

l＝l_G+ω*l_D (14)

其中，ω为权重，用来调节二者对抗程度的参数；

步骤(F)，增加阶段，根据训练后的自注意多核最大均值差异的迁移学习语音增强模型，输入目标域带噪语音的帧级特征，重建增强语音波形，具体过程为将目标域的带噪语音信号提取帧级GFCC特征并输入到结合改进的多核最大值差异的深度神经网络模型中，模型输出得到估计的目标域理想浮值掩蔽，经计算得到目标语音的离散傅里叶变换幅度谱，考虑到人耳对相位的微小变化不敏感，利用带噪语音信号中的相位信息通过反向傅里叶变换得到增强语音的时域波形，最后整个句子的语音波形可以通过重叠相加算法合成得到。

为了充分比较算法的迁移性能，实验设置对不同的噪声和不同的信噪比进行语音增强的迁移。实验主要比较了两种情况：1)源域10dB的Pink噪声迁移到目标域的SpeechBabble噪声，信噪比分别为5db，0db和-5db；2)源域10dB的White噪声迁移到目标域的DestroyerEngine噪声，信噪比分别为5db，0db和-5db。目标域测试集下的loss曲线，对应的性能指标如表1(其中，S代表SpeechBabble噪声，D代表DestroyerEngine噪声，F代表FactoryFloor1噪声，P代表Pink噪声)所示。从损失曲线上可知，三种模型变化趋势基本相同。从算法性能指标看，提出模型的指标是最高的。相比于多核最大值平均差异模型，三种指标fwSNRseg，PESQ和STOI分别提升0.649，0.02和0.005。

表1混合迁移下的算法性能对比

综上所述，本发明的基于自注意多核最大均值差异的迁移学***均绝对误差，使自注意力输出的特征尽可能为源域重要的私有特征；针对目标域，模型联合源域自注意特征，通过最小化源域自注意特征与目标域自注意特征之间的最大均值差异，使自注意特征尽可能为源域和目标域的公共特征。因此，本发明的方法能够提高语音增强鲁棒性和性能，方法巧妙新颖，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于自注意多核最大均值差异的迁移学习语音增强方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的基于自注意多核最大均值差异的迁移学习语音增强方法，其特征在于：步骤(C)，构建基于深层神经网络的语音增强模型，作为基线模型，所述基线模型为4层DNN语音增强模型，前两层为特征编码器，后两层为重建解码器。

3.根据权利要求2所述的基于自注意多核最大均值差异的迁移学习语音增强方法，其特征在于：步骤(D)，构建自注意多核最大均值差异的迁移学习语音增强模型，是在特征编码器、重建解码器之间增加一层自注意力层，其中不带标签的目标域数据的GFCC特征通过特征编码器后，进行自注意力加权，加权后的特征经过重建解码器请进行理想浮值掩蔽的重构。

4.根据权利要求3所述的基于自注意多核最大均值差异的迁移学习语音增强方法，其特征在于：所述自注意力层的自注意力加权过程如下，

align＝tanh(X_{feature_encoder}×W)×V (1)

score＝sigmod(align+ε) (2)

(D2)，根据公式(3)，获得新的加权特征

其中，ο表示hardarm相乘，对于单个样本而言，即是对其各个特征进行加权。

5.根据权利要求1所述的基于自注意多核最大均值差异的迁移学习语音增强方法，其特征在于：步骤(E)，训练阶段，训练步骤(D)构建的自注意多核最大均值差异的迁移学习语音增强模型，包括两条训练数据流向，分别为训练带标签的源域数据的GFCC特征和训练不带标签的目标域数据的GFCC特征，具体如下：

其中，mae为平均绝对误差计算函数；

(E4)，整个神经网络损失函数l，如公式(7)所示，

l＝l_G+ω*l_D (7)

其中，ω为权重，用来调节二者对抗程度的参数。

6.根据权利要求1所述的基于自注意多核最大均值差异的迁移学习语音增强方法，其特征在于：步骤(F)，增加阶段，根据训练后的自注意多核最大均值差异的迁移学习语音增强模型，输入目标域带噪语音的帧级特征，重建增强语音波形，是利用目标域带噪语音中的相位信息通过反向傅里叶变换得到增强语音的时域波形，并通过重叠相加算法合成得到整个增强语音波形。