CN114694670A

CN114694670A - 一种基于多任务网络的麦克风阵列语音增强***及方法

Info

Publication number: CN114694670A
Application number: CN202210353984.6A
Authority: CN
Inventors: 张军; 赖志鹏; 宁更新; 冯义志; 余华; 陈芳炯; 温淼文; 季飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-01

Abstract

本发明公开了一种基于多任务网络的麦克风阵列语音增强***及方法，该***由语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块组成。其中，语音预处理模块获取阵列语音、参考回声语音和各个任务目标语音作为输入语音并进行预处理；多任务网络模块完成阵列语音各声道的去混响、回声消除、降噪任务，并将多声道语音融合输出为增强后的语音；多任务损失统计模块用于计算多任务网络模块中各任务的损失值，并统计网络的总损失；网络权重计算模块根据网络的总损失计算梯度，将梯度反向传播，计算得到更新后网络的权重；语音重构模块完成从频域特征到时域语音的映射，得到增强后的干净语音。

Description

一种基于多任务网络的麦克风阵列语音增强***及方法

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于多任务网络的麦克风阵列语音增强***及方法。

背景技术

基于麦克风阵列的语音增强是语音通信***中抑制干扰的有效方法之一。现有的麦克风阵列语音增强技术主要可以分为传统的增强技术和基于深度神经网络的增强技术两类。传统的增强技术通常针对回声消除、空间混响、环境噪声的相关特性分别设计对应的滤波器，对硬件算力要求较低，可以做到较好的实时性，但是传统的增强技术还存在以下不足：(1)不能很好的消除非线性的噪声分量，使得输出语音有非线性回声残余；(2)对非平稳突发性噪声的抑制能力较差，输出语音质量不高。

近年来，得益于计算机硬件算力的快速提升，深度神经网络技术得到广泛应用，相较于传统的增强技术，基于深度神经网络的增强技术不需要估计噪声，对于非平稳的噪声有更强的适应性。目前的研究中，通常通过设计一体化的深度神经网络来同时完成回声消除、去混响和去噪声等工作，一体化的网络模型能够在较为单一的干扰环境下达到比较好的效果，但是这些网络还存在以下不足：(1)在多种类型干扰并存时，网络的训练难度大大增加，网络难以学习输入特征与标签之间的映射关系；(2)网络训练目标单一时，容易陷入局部极小值，从而达不到较好的增强效果；(3)在测试阶段，针对不同的降噪任务，泛化性能不足。

发明内容

本发明的目的是针对现有基于深度神经网络的麦克风阵列语音增强技术的不足，提供一种基于多任务网络的麦克风阵列语音增强***及方法。该***与方法针对现有网络***难训练、易陷入局部极小值等缺陷，按语音增强***的功能对深度神经网络的结构进行了细化，提供了一种由回声消除子网络、去混响子网络和降噪子网络构成的多任务语音增强网络模型，有效降低网络训练难度，弥补单一网络目标带来的缺陷，能显著改善语音增强的效果。本发明可以广泛应用于在线语音会议，车载电话，移动通话终端等场合。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于多任务的麦克风阵列语音增强***，该***由语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块组成。其中，语音预处理模块分别与多任务网络模块和多任务损失统计模块连接，该模块获取阵列语音、参考回声语音和各个任务目标语音作为输入语音，对这些输入语音进行预处理，预处理工作包含语音信号的归一化，提取各声道语音和参考回声语音的对数幅度谱；多任务网络模块分别与语音预处理模块、多任务损失统计模块、网络权重计算模块和语音重构模块连接连接，完成阵列语音各声道的去混响、回声消除、降噪任务，并将多声道语音融合输出为增强后的语音；多任务损失统计模块分别与多任务网络模块和网络权重计算模块连接，计算多任务网络模块中各任务的损失值，并统计网络的总损失；网络权重计算模块分别与多任务网络模块和多任务损失统计模块连接，根据网络的总损失计算梯度，将梯度反向传播，计算得到更新后网络的权重；语音重构模块与多任务网络模块连接，完成从频域特征到时域语音的映射，得到增强后的干净语音。

进一步地，多任务网络模块，包括M条并联的声道分支网络和1个分别与上述M条声道分支网络连接的声道融合子网络，上述每条声道分支网络包括依次顺序连接的1个去混响子网络、1个回声消除子网络和1个降噪子网络，其中M与语音预处理模块中麦克风阵列的阵元数目相同，每条声道分支网络中去混响子网络与回声消除子网络、所述多任务损失统计模块和所述语音预处理模块连接，完成对该声道的混响去除任务；每条声道分支网络中的回声消除子网络与去混响子网络、降噪子网络、所述语音预处理模块和所述多任务损失统计模块连接，利用参考的回声信号，消除该声道的回声分量；每条声道分支网络中的降噪子网络与回声消除子网络、声道融合子网络和所述多任务损失统计模块连接，消除该声道中的噪声分量；声道融合子网络分别与M条声道分支网络中的降噪子网络、所述多任务损失统计模块和所述网络权重计算模块连接，利用阵列语音各声道包含的空间信息进行二次增强。多任务网络模块中利用各声道分支网络对阵列语音的各声道信号进行增强，增强输出并行通过声道融合子网络以获得增强后的单通道语音。上述每条声道分支网络利用语音增强***中的不同功能，将网络划分为去混响、回声消除和降噪任务的子网络，使得子网络任务清晰化，网络更加便于训练。

进一步地，上述多任务损失统计模块，由去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和总损失统计模块共同构成。其中，所述去混响损失统计模块分别与上述语音预处理模块、上述各声道的去混响子网络和总损失统计模块连接，利用去混响子网络的输出和去混响标签计算各声道去混响子网络的损失值；所述回声消除损失统计模块分别与上述语音预处理模块、上述各声道的回声消除子网络和总损失统计模块连接，利用回声消除子网络的输出和去混响去回声标签计算各声道回声消除子网络的损失值；所述降噪损失统计模块分别与上述语音预处理模块、上述各声道的降噪子网络和总损失统计模块连接，利用降噪子网络的输出和无噪声标签计算各声道降噪子网络的损失值；所述声道融合损失统计模块分别与上述语音预处理模块、上述声道融合子网络和总损失统计模块连接，利用声道融合子网络的输出和干净语音标签计算声道融合子网络的损失值；所述总损失统计模块分别与去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和上述网络权重计算模块连接，接收各任务损失统计模块的损失值，统计网络的总损失值。多任务损失统计模块包括上述各子网络的损失统计模块，该模块为各子网络的输出计算目标损失，统计得到总网络的损失值。多任务损失统计模块使得训练时各子网络能够按照预设的任务调整网络参数。

本发明的另一个目的可以通过采取如下技术方案达到：

一种基于多任务网络的麦克风阵列语音增强方法，所述语音增强方法包括以下步骤：

S1、构建阵列语音训练集，对语音进行预处理，分别得到每一个声道的输入特征和去混响任务、回声消除任务、降噪任务、融合任务的标签；

S2、将各声道预处理得到的特征输入多任务网络模块，依次通过与每条声道对应的去混响子网络、回声消除子网络和降噪子网络后，在声道融合子网络进行融合，从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出；

S3、将各任务的网络输出和各任务的标签输入多任务损失统计模块，计算各声道中回声消除子网络的损失值、混响子网络的损失值、降噪子网络的损失值和声道融合子网络的损失值，并根据上述损失值计算网络总损失；

S4、计算网络总损失的梯度，采用反向传播法更新网络的权重；

S5、重复步骤S2、S3、S4，直到网络的总损失低于预设阈值，保存此时的网络参数；

S6、将测试语音进行预处理，计算每一个声道的输入特征，将待增强的语音特征输入步骤S5中保存的多任务网络，得到增强后的语音特征，将增强后的语音特征输入语音重构模块，得到增强后的语音。

进一步地，所述步骤S1中的阵列语音训练集的构建过程如下：

S1.1、构建带噪阵列语音与相应的已去混响的阵列语音、已去混响去回声的阵列语音和无噪声的阵列语音：

带噪阵列语音为x(n)＝[x₁(n),x₂(n),...,x_m(n),...,x_M(n)]^T,m∈[1,M]，其中

x_m(n)为第m个阵元接收到的带噪语音信号，M为麦克风阵列的阵元数目，s′(n)为包含混响的源语音分量，d(n)为包含混响的回声分量，v(n)为环境噪声，s(n)为源语音，e(n)为参考的回声语音，τ_m(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延，*代表卷积操作，h(n)为房间内的多径传播信道参数，ser为随机分布的信号回声比，snr为随机分布的信噪比。训练集带噪语音的分布应尽可能覆盖各种噪声种类和各种强度的干扰，使网络尽可能学习多的噪声语音特征，不容易陷入过拟合的情况；

已去混响的阵列语音为

y_dereb(n)＝[y_{1_dereb}(n),y_{2_dereb}(n),...,y_{m_dereb}(n),...,y_{M_dereb}(n)]^T,m∈[1,M]，其中

y_{m_dereb}(n)＝s(n-τ_m(θ))+e(n-τ_m(θ))+v(n) (2)

已去混响去回声的阵列语音为

y_decho(n)＝[y_{1_decho}(n),y_{2_decho}(n),...,y_{m_decho}(n),...,y_{M_decho}(n)]^T,m∈[1,M]，其中

y_{m_decho}(n)＝s(n-τ_m(θ))+v(n) (3)

无噪声的阵列语音为

y_enh(n)＝[y_{1_enh}(n),v_{2_enh}(n),...,y_{m_enh}(n),...,y_{M_enh}(n)]^T,m∈[1,M]，其中

y_{m_enh}(n)＝s(n-τ_m(θ)) (4)

其中，y_{m_dereb}(n)为第m个阵元的已去混响语音，y_{m_enh}(n)为第m个阵元的已去混响去回声语音，y_{m_enh}(n)为第m个阵元的无噪声语音，构造上述三种语音将用于后续制作声道支路网络中各子网络的标签；

S1.2、提取网络的输入特征：将阵元m接收的语音信号x_m(n)进行短时傅里叶变换，得到每帧的对数幅度谱X^m(i,k)，k为离散频率序号，i∈[0,N]为帧的序号，N为总帧数，将第i帧与其前l帧的对数幅度谱组合得到第m声道第i帧的网络输入特征

参考回声语音e(n)经过相同的处理后获得参考回声的对数幅度谱E(i,k)。将输入拓展前l帧是为了使网络获取更多过去时间帧的信息，以助于网络恢复当前第i帧的语音信号；

S1.3、构建第m声道各任务的标签：将y_{m_dereb}(n)、y_{m_decho}(n)、y_{m_enh}(n)和s(n)语音进行短时傅里叶变换得到每帧的幅度谱

和S(i,k)，k为离散频率序号，i∈[0,N]为帧的序号，N为总帧数，采用目标理想比值掩蔽(Ideal RatioMask,IRM)作为各任务的标签，IRM采用下式计算，

其中T^m(i,k)为期待得到目标语音的幅度谱,β为可调节尺度因子，M^m(i,k)＝exp(X^m(i,k))为带噪语音的幅度谱，k为离散频率序号，i为帧序号，将上述得到的

和

替换式(5)中的T^m(i,k)，得到去已去混响的标签

已去除混响和回声的标签

和去噪后的标签

此外，将S(i,k)做对数变换得到干净语音的对数幅度谱标签S_lms。

进一步地，所述步骤S2中将特征输入多任务网络模块得到各任务子网络得到目标输出的过程如下：

S2.1、将

输入第m声道的去混响子网络，得到期望去除混响语音的IRM输出

采用IRM作为网络的目标可以同时利用带噪语音和干净语音两者的信息，使网络学习到更多特征；

S2.2、将

和E(i,k)输入第m声道的回声消除子网络，得到期望去除混响和回声语音的IRM输出

回声消除子网络的输入有带噪语音和参考信号两种信息，网络利用参考回声信号的幅度谱特征E(i,k)，消除带噪语音中的回声分量；

S2.3、第m声道的降噪子网络包含两个输出层，一个输出层输出降噪后语音的对数幅度谱，另一个输出层输出降噪后语音的IRM，将

输入降噪子网络，得到对数幅度谱输出

和IRM输出

降噪子网络采用两个输入层结构，使得网络能从不同维度提取数据特征得到不同的输出，为后续声道融合子网络提供更高纬度的输入；

S2.4、构建声道融合子网络的输入

其中

采用一个

层的卷积层作为声道融合子网络，M为总阵元数，d为卷积核的宽度，对于输入X_{fuse_in}其维度可以表示为X_{fuse_in}∈R_2×M×k，将矩阵沿M维度方向作卷积，得到声道融合子网络增强后的单声道对数幅度谱

声道融合子网络的卷积结构能够重点学习声道之间的特征信息，在尽可能保持原有各声道的增强结果情况下，将各声道输出融合为单声道，完成二次增强。

进一步地，所述步骤S3中多任务损失统计模块得到总损失值的流程如下：

S3.1、将去混响子网络的输出

和已去除混响语音的IRM标签

通过下式计算各声道去混响子网络的总损失值L_dereb。每个声道的去混响子网络的损失重要程度是相同的，因此采用直接累加方式，采用相同的权重；

S3.2、将回声消除子网络的输出

和已去除混响和回声语音的标签

通过下式计算得到各声道回声消除子网络损失值L_decho，此处各声道回声消除子网络采用相同损失权重，直接累加；

S3.3、将降噪子网络输出

和无噪声标签

通过下式计算得到各声道降噪子网络的损失值L_enh，此处各声道降噪子网络采用相同损失权重，直接累加；

S3.4、将声道融合子网络得到的输出

和干净语音的对数幅度谱S_lms通过下式计算声道融合子网络的损失L_fuse。Log-Cosh函数对于数据中的异常值容忍度较高，并且它在最小值附近时梯度会减小，不同于均方误差损失始终使用一样的损失，可能导致最小值的遗漏；

S3.5、将得到的各个任务模块的损失值L_dereb、L_decho、L_enh和L_fuse计算网络的总损失loss如下。其中各子网络未加权重参数，目标损失权重相同，将各任务视为同等重要：

loss＝L_dereb+L_decho+L_enh+L_fuse (11)。

进一步地，所述步骤S6中采用如下方法将增强后的语音特征重构为增强后的语音：

将声道融合子网络输出的对数幅度谱

转换为线性幅度谱

然后对

与x_m(n)的相位谱

相乘得到增强后语音的复数表示

将

进行短时傅里叶变换逆变换和重叠相加，得到增强后语音的时域波形。通过重叠相加的方法可以复原在特征提取时为了做短时傅里叶变换而分帧的各帧语音。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明在声道分支网络中采用了串联的多个增强任务子网络，对噪声中包含的多种噪声分量进行针对性的降噪，缓解了单一目标网络模型面对多种类噪声类型时，网络难以拟合和训练困难的问题，从而拥有更强的降噪性能。

(2)本发明中充分利用不同降噪任务之间的相关性，设计了回声消除任务目标、去混响目标、降噪目标和声道融合目标，通过不同任务任务之间相互作用，避免单一任务网络在梯度的反向传播倾向于容易陷入局部最小值问题。

(3)本发明中采用声道支路网络对阵列语音各个声道进行独立处理，并采用声道融合子网络对各声道增强后的特征进行二次增强，可以在不需要获取说话人语音来波方向和噪声的先验信息的情况下，实现对语音的增强，克服了传统麦克风阵列性能上的不足。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例中公开的基于多任务网络的麦克风阵列语音增强***的结构框图；

图2是本发明实施例中多任务网络模块网络结构图；

图3是本发明实施例中多任务网络的阵列语音增强方法的训练测试流程图；

图4为本发明实施例中带噪语音的生成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开了一种基于多任务网络的麦克风阵列语音增强***，该***结构如图1所示，该***由语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块组成。其中语音预处理模块与多任务网络模块和多任务损失统计模块连接，该模块获取阵列语音、参考回声语音和各个任务目标语音作为输入语音，对这些输入语音进行预处理，预处理工作包含语音信号的归一化，提取各声道语音和参考回声语音的对数幅度谱；多任务网络模块与语音预处理模块、多任务损失统计模块和网络权重计算模块连接，完成阵列语音各声道的去混响、回声消除、降噪任务，并将多声道语音融合输出为增强后的语音；多任务损失统计与多任务网络模块和网络权重计算模块连接，计算多任务网络模块中各任务的损失值，并统计网络的总损失；网络权重计算模块与多任务网络模块和多任务损失统计模块连接，根据网络的总损失计算梯度，将梯度反向传播，计算得到更新后网络的权重；语音重构模块与多任务网络模块连接，完成从频域特征到时域语音的映射，得到增强后的干净语音。

本实施例中，上述多任务网络模块网络结构如图2所示，包含4条声道分支网络和1个声道融合子网络，上述声道融合子网络由3层全卷积神经网络搭建而成，每条声道分支网络由1个去混响子网络、1个回声消除子网络、1个降噪子网络共同构成，其中4条声道分支网络对应麦克风阵列的4个阵元，其中去混响子网络由2层单向长短时记忆网络(Long short-term memory,LSTM)和一个全连接输出层搭建而成，回声消除子网络由2层双向LSTM搭建和一个全连接输出层而成，降噪子网络由2层单向LSTM和两个全连接输出层搭建而成。每条声道分支网络中的去混响子网络与回声消除子网络、上述多任务损失统计模块和上述语音预处理模块连接，完成对该声道的混响去除任务；每条声道分支网络中的回声消除子网络与去混响子网络、降噪子网络、上述语音预处理模块和上述多任务损失统计模块连接，利用参考的回声信号，消除该声道的回声分量；每条声道分支网络中的降噪子网络与回声消除子网络、声道融合子网络和上述多任务损失统计模块连接，除去该声道中的噪声分量；多声道融合子网络与4条声道分支网络中的降噪子网络、上述多任务损失统计模块和上述网络权重计算模块连接，利用阵列语音各声道包含的空间信息进行二次增强。

上述多任务损失统计模块，由去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和总损失统计模块共同构成。去混响损失统计模块与上述语音预处理模块、上述各声道的去混响子网络和总损失统计模块连接，利用去混响子网络的输出和去混响标签计算各声道去混响子网络的损失值；回声消除损失统计模块与上述语音预处理模块、上述各声道的回声消除子网络和总损失统计模块连接，利用回声消除子网络的输出和去混响去回声标签计算各声道回声消除子网络的损失值；降噪损失统计模块与上述语音预处理模块、上述各声道的降噪子网络和总损失统计模块连接，利用降噪子网络的输出和无噪声标签计算各声道降噪子网络的损失值；声道融合损失统计模块与上述语音预处理模块、上述声道融合子网络和总损失统计模块连接，利用声道融合子网络的输出和干净语音标签计算声道融合子网络的损失值；总损失统计模块与去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和上述网络权重计算模块连接，接收各任务损失统计模块的损失值，统计网络的总损失值。

实施例2

基于上述实施例公开的一种基于多任务网络的麦克风阵列语音增强***，本实施例继续公开一种基于多任务网络的麦克风阵列语音增强方法，该方法采用以下步骤完成训练和测试，训练和测试流程如图3所示：

S1、构建阵列语音训练集，对语音进行预处理，得到每一个声道的输入特征和去混响任务、回声消除任务、降噪任务、融合任务的标签；过程如下：

带噪阵列语音为x(n)＝[x₁(n),x₂(n),...,x_m(n),...,x_M(n)]^T,m∈[1,M]，其中M＝4为总阵元数，带噪语音的生成如图4所示，x_m(n)为第m个阵元接收到的带噪语音信号，

s′(n)为包含混响的源语音分量，d(n)为包含混响的回声分量，v(n)为环境噪声，s(n)为源语音，e(n)为参考的回声语音，τ_m(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延，*代表卷积操作，信号回声比ser∈[-10,10]取值随机分布，信噪比snr∈[-5,15]取值随机分布，h(n)为房间内的多径传播信道参数，通过混响时间、房间大小、声源和阵列位置确定，本实施例中混响时间随机取0.2s/0.3s/0.4s/0.5s/0.6s，房间大小通过长5/7/9/11/13m、宽4/6/8/10m、高3m随机组合，阵列位置在房间中随机选取5个位置。

已去混响的阵列语音为

y_{m_dereb}(n)＝s(n-τ_m(θ))+e(n-τ_m(θ))+v(n) (2)

已去混响去回声的阵列语音为

y_{m_decho}(n)＝s(n-τ_m(θ))+v(n) (3)

无噪声的阵列语音为y_enh(n)＝[y_{1_enh}(n),v_{2_enh}(n),...,y_{m_enh}(n),...,y_{M_enh}(n)]^T,m∈[1,M]，其中

y_{m_enh}(n)＝s(n-τ_m(θ)) (4)

参考回声语音e(n)经过相同的处理后获得参考回声的对数幅度谱E(i,k)。本实例中x_m(n)和e(n)以帧长256和帧移192分帧，并用汉明窗窗函数加窗后，进行短时傅里叶变换，离散频率序号k∈[0,128]，对数幅度谱上文帧数l＝4。

和S(i,k)，k为离散频率序号，i∈[0,N]为帧的序号，N为总帧数。采用目标理想比值掩蔽(Ideal RatioMask,IRM)作为各任务的标签，IRM采用下式计算，

其中T^m(i,k)为期待得到目标语音的幅度谱，可调节尺度因子β＝0.5，M^m(i,k)＝exp(X^m(i,k))为带噪语音的幅度谱，将上述得到的

和

替换式(5)中的T^m(i,k)，得到去已去混响的标签

已去除混响和回声的标签

和去噪后的标签

S2、将各声道预处理得到的特征输入多任务网络模块，本实例中采用4条声道支路网络，各支路网络参数独立，各声道特征依次通过与每条声道对应的去混响子网络、回声消除子网络和降噪子网络后，在声道融合子网络进行融合，从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出；过程如下：

S2.1、混响子网络采用两层单向LSTM网络，输入维度为129，隐藏层宽度为512，网络输出层的激活函数采用Softmax函数，将

S2.2、回声消除子网络采用两层双向LSTM网络，输入维度为258，隐藏层宽度为512，网络输出层的激活函数采用Softmax函数，将

S2.3、降噪子网络采用两层单向LSTM网络，输入维度为129，隐藏层宽度为512，第m声道的降噪子网络包含两个输出层，一个输出层采用ReLu激活函数，输出降噪后语音的对数幅度谱，另一个输出层采用softmax激活函数，输出降噪后语音的IRM。将

输入降噪子网络，得到对数幅度谱输出

和IRM输出

S2.4、构建声道融合子网络的输入

其中

采用一个3层的卷积层作为声道融合子网络，其中每层的卷积核大小为2×9、2×19、2×129，每层的输入输出维度为(1,16)、(16,16)、(16,1)，对于输入X_{fuse_in}其维度可以表示为X_{fuse_in}∈R_2×4×129，将矩阵沿第二维度方向即通道方向作卷积，得到声道融合子网络增强后的单声道对数幅度谱

S3、将各任务的网络输出和各任务的标签输入多任务损失统计模块，计算各声道中回声消除子网络的损失值、混响子网络的损失值、降噪子网络的损失值和声道融合子网络的损失值，并根据上述损失值计算网络总损失；过程如下：

S3.1、将去混响子网络的输出

和已去除混响语音的IRM标签

通过下式计算各声道去混响子网络的总损失值L_dereb；

S3.2、将回声消除子网络的输出

和已去除混响和回声语音的标签

通过下式计算得到各声道回声消除子网络损失值L_decho；

S3.3：将降噪子网络输出

和无噪声标签

通过下式计算得到各声道降噪子网络的损失值L_enh；

S3.4、将声道融合子网络得到的输出

和干净语音的对数幅度谱S_lms通过下式计算声道融合子网络的损失L_fuse；

S3.5、将得到的各个任务模块的损失值L_dereb、L_decho、L_enh和L_fuse计算网络的总损失loss如下：

loss＝L_dereb+L_decho+L_enh+L_fuse (11)

S4、将S3获取的总损失计算梯度，使用Adam优化器，计算并更新网络的权重；

S5、训练批次大小为1000，学习率为0.001，训练总轮次为200，每轮重复步骤S2、S3、S4，直到网络的总损失低于预设阈值，保存此时的网络参数；

S6、将测试语音进行预处理，计算每一个声道的输入特征，将待增强的语音特征输入步骤S5中保存的多任务网络，得到增强后的语音特征，将增强后的语音特征输入语音重构模块，得到增强后的语音，具体重构流程如下；

将声道融合子网络输出的对数幅度谱

转换为线性幅度谱

取第1声道的语音相位谱e^jθ与

相乘得到增强后语音的复数表示

将

进行短时傅里叶变换逆变换和重叠相加，得到增强后语音的时域波形。

实施例3

已去混响的阵列语音为

y_{m_dereb}(n)＝s(n-τ_m(θ))+e(n-τ_m(θ))+v(n) (2)

已去混响去回声的阵列语音为

y_{m_decho}(n)＝s(n-τ_m(θ))+v(n) (3)

y_{m_enh}(n)＝s(n-τ_m(θ)) (4)

和

替换式(5)中的T^m(i,k)，得到去已去混响的标签

已去除混响和回声的标签

和去噪后的标签

S2、将各声道预处理得到的特征输入多任务网络模块，本实例中采用一条声道支路网络，4条声道共享该支路网络参数，各声道特征串行输入该支路网络，依次通过去混响子网络、回声消除子网络和降噪子网络后，串行输出在声道融合子网络进行融合，从上述各子网络的输出端分别得到各声道已去混响的目标输出、已去混响去回声目标输出、无噪声目标输出和融合后干净语音目标输出；过程如下：

和E(i,k)输入回声消除子网络，得到期望去除混响和回声语音的IRM输出

S2.3、降噪子网络采用两层单向LSTM网络，输入维度为129，隐藏层宽度为512，降噪子网络包含两个输出层，一个输出层采用ReLu激活函数，输出降噪后语音的对数幅度谱，另一个输出层采用softmax激活函数，输出降噪后语音的IRM。将

输入降噪子网络，得到对数幅度谱输出

和IRM输出

S2.4、构建声道融合子网络的输入

其中，

S3.1、将去混响子网络的输出

和已去除混响语音的IRM标签

通过下式计算各声道去混响子网络的总损失值L_dereb；

S3.2、将回声消除子网络的输出

和已去除混响和回声语音的标签

通过下式计算得到各声道回声消除子网络损失值L_decho；

S3.3：将降噪子网络输出

和无噪声标签

通过下式计算得到各声道降噪子网络的损失值L_enh；

S3.4、将声道融合子网络得到的输出

loss＝L_dereb+L_decho+L_enh+L_fuse (11)

S5、训练批次大小为1000，学习率为0.001，训练总轮次为200，每轮重复步骤S2、S3、S4，直到网络的总损失低于预设阈值，将1条声道支路网络拓展为4条声道支路网络，4条声道支路网络共享相同的参数，保存此时的网络参数；

将声道融合子网络输出的对数幅度谱

转换为线性幅度谱

取第1声道的语音相位谱e^jθ与

相乘得到增强后语音的复数表示

将

为验证本发明的技术效果，将上述实施例2和实施例3与已有的基线***(详见：Westhausen N L,Meyer B T.Acoustic echo cancellation with the dual-signaltransformation LSTM network[C]//ICASSP 2021-2021IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP).IEEE,2021:7138-7142.)进行对比，评价指标使用语音质量感知评估PESQ。训练集的源语音和参考回声语音选自TIMIT训练集，加性噪声选用Babble噪声。测试集源语音和参考回声选自TIMIT测试集。分别在信噪比：-3dB、2dB、7dB、12dB和信号回声比：-2dB、3dB、8dB上完成测试。

基线***的测试结果由原文提供的预训练的模型测试得到。对比结果如表1和表2所示。可以看到在不同信噪比下本专利的实施方案相对于带噪语音PESQ平均有0.6的提高，相对于基线***PESQ平均有0.2的提高。在不同的回声信号比下，本专利的实施方案相对于带噪语音PESQ平均提升25％到50％，相对基线***PESQ平均提高约11％。

表1.不同信噪比条件下的PESQ对比表

	-3dB	2dB	7dB	12dB
					带噪语音	1.358	1.445	1.517	1.561
基线***	1.529	1.828	1.986	2.058
					本实施例2	1.868	2.013	2.122	2.186
本实施例3	1.853	1.991	2.104	2.170

表2.不同信号回声比条件下的PESQ对比表

	-2dB	3dB	8dB
				带噪语音	1.263	1.477	1.671
基线***	1.703	1.869	1.979
				本实施例2	1.862	2.067	2.213
本实施例3	1.852	2.048	2.189

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多任务网络的麦克风阵列语音增强***，其特征在于，所述麦克风阵列语音增强***包括语音预处理模块、多任务网络模块、多任务损失统计模块、网络权重计算模块和语音重构模块，其中，

所述语音预处理模块分别与多任务网络模块和多任务损失统计模块连接，用于获取阵列语音、参考回声语音和各个任务目标语音作为输入语音，对输入语音进行预处理，所述预处理工作包含语音信号的归一化、提取各声道语音和参考回声语音的对数幅度谱；

所述多任务网络模块分别与语音预处理模块、多任务损失统计模块、网络权重计算模块和语音重构模块连接，完成阵列语音各声道的去混响、回声消除、降噪任务，并将多声道语音融合输出为增强后的语音；

所述多任务损失统计模块分别与多任务网络模块和网络权重计算模块连接，计算多任务网络模块中各任务的损失值，并统计网络的总损失；

所述网络权重计算模块分别与多任务网络模块和多任务损失统计模块连接，根据网络的总损失计算梯度，将梯度反向传播，计算得到更新后网络的权重；

所述语音重构模块与多任务网络模块连接，完成从频域特征到时域语音的映射，得到增强后的干净语音。

2.根据权利要求1所述的一种基于多任务网络的麦克风阵列语音增强***，其特征在于，所述多任务网络模块，包括M条并联的声道分支网络和1个声道融合子网络，上述每条声道分支网络包括依次顺序连接的1个去混响子网络、1个回声消除子网络和1个降噪子网络，其中M与语音预处理模块中麦克风阵列的阵元数目相同，每条声道分支网络中去混响子网络与回声消除子网络、所述多任务损失统计模块和所述语音预处理模块连接，完成对该声道的混响去除任务；每条声道分支网络中的回声消除子网络与去混响子网络、降噪子网络、所述语音预处理模块和所述多任务损失统计模块连接，利用参考的回声信号，消除该声道的回声分量；每条声道分支网络中的降噪子网络与回声消除子网络、声道融合子网络和所述多任务损失统计模块连接，消除该声道中的噪声分量；所述声道融合子网络分别与M条声道分支网络中的降噪子网络、所述多任务损失统计模块和所述网络权重计算模块连接，利用阵列语音各声道包含的空间信息进行二次增强。

3.根据权利要求2所述的一种基于多任务网络的麦克风阵列语音增强***，其特征在于，

所述多任务损失统计模块包括去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和总损失统计模块，其中，所述去混响损失统计模块分别与上述语音预处理模块、上述各声道的去混响子网络和总损失统计模块连接，利用去混响子网络的输出和去混响标签计算各声道去混响子网络的损失值；所述回声消除损失统计模块分别与上述语音预处理模块、上述各声道的回声消除子网络和总损失统计模块连接，利用回声消除子网络的输出和去混响去回声标签计算各声道回声消除子网络的损失值；所述降噪损失统计模块分别与上述语音预处理模块、上述各声道的降噪子网络和总损失统计模块连接，利用降噪子网络的输出和无噪声标签计算各声道降噪子网络的损失值；所述声道融合损失统计模块分别与上述语音预处理模块、上述声道融合子网络和总损失统计模块连接，利用声道融合子网络的输出和干净语音标签计算声道融合子网络的损失值；所述总损失统计模块分别与去混响损失统计模块、回声消除损失统计模块、降噪损失统计模块、声道融合损失统计模块和上述网络权重计算模块连接，接收各任务损失统计模块的损失值，统计网络的总损失值。

4.一种根据权利要求1至3任一所述的基于多任务网络的麦克风阵列语音增强***的语音增强方法，其特征在于，所述语音增强方法包括以下步骤：

5.根据权利要求4所述的一种基于多任务网络的麦克风阵列语音增强方法，其特征在于，所述步骤S1中的阵列语音训练集的构建过程如下：

x_m(n)为第m个阵元接收到的带噪语音信号，M为麦克风阵列的阵元数目，s′(n)为包含混响的源语音分量，d(n)为包含混响的回声分量，v(n)为环境噪声，s(n)为源语音，e(n)为参考的回声语音，τ_m(θ)是阵元m收到方向角为θ的声源产生的信号时刻相对参考阵元的时延，*代表卷积操作，h(n)为房间内的多径传播信道参数，ser为随机分布的信号回声比，snr为随机分布的信噪比；

已去混响的阵列语音为

y_{m_dereb}(n)＝s(n-τ_m(θ))+e(n-τ_m(θ))+v(n) (2)

已去混响去回声的阵列语音为

y_{m_decho}(n)＝s(n-τ_m(θ))+v(n) (3)

无噪声的阵列语音为

y_{m_enh}(n)＝s(n-τ_m(θ)) (4)

其中，y_{m_dereb}(n)为第m个阵元的已去混响语音，y_{m_enh}(n)为第m个阵元的已去混响去回声语音，y_{m_enh}(n)为第m个阵元的无噪声语音；