CN113611323B

CN113611323B - 一种基于双通道卷积注意力网络的语音增强方法及***

Info

Publication number: CN113611323B
Application number: CN202110999879.5A
Authority: CN
Inventors: 雷斌
Original assignee: Beijing Zhixin Kaiyuan Technology Co ltd
Current assignee: Beijing Zhixin Kaiyuan Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-08-26
Publication date: 2024-02-20
Anticipated expiration: 2041-08-26
Also published as: CN113611323A

Abstract

本发明公开了一种基于双通道卷积注意力网络的语音增强方法，包括以下步骤：首先对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征作为模型的输入特征；然后将输入特征分别送入卷积神经网络通道和长短时记忆网络通道中进行深层特征提取，并在两个通道中分别添加卷积注意力模块和空间注意力模块，用于对两个通道中产生的特征图自适应调整；进一步完成增强语音对数幅度谱特征的预测；最后将预测结果和带噪语音相位结合得到增强语音的频域表示，并通过逆傅里叶变换转换回时域，再利用重叠相加的方法完成增强语音的整体合成。本发明能够有效提高了增强语音的质量和可懂度。

Description

一种基于双通道卷积注意力网络的语音增强方法及***

技术领域

本发明涉及语音信号处理领域，特别是涉及一种基于双通道卷积注意力网络的语音增强方法及***。

背景技术

随着经济水平以及科技能力的不断进步，越来越多的智能设备在各个领域逐步应用起来，新型智能设备的使用正不断改善人们的生活质量。现如今人机交互的方式正逐步摆脱传统的键盘式方法，而开始使用语音交互方式，并逐步应用在各种平台，如：微软的语音助手小娜；小米的语音助手小爱同学；苹果的语音助手Siri以及讯飞的语音输入法等。这些语音助手的出现极大方便了人们的生产生活，然而这些交互方式都存在一定的问题，如在环境嘈杂时，设备的唤醒率低的现象，严重情况下也会导致语音信号的失真，如何降低由于周围环境带来的不良影响是当前的首要的任务。因此，对包含环境噪声的语音信号进行增强是对现实生活都有益的一项工作。

语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可懂度的技术。目前语音增强的方法主要有两种，基于统计学的传统语音增强方法和基于深度学***稳噪声和高信噪比的前提下，增强语音取得了比较好的效果。但是实际应用中，这些假设很难得到满足，尤其是在低信噪比和非平稳噪声的环境中，增强效果往往不尽人意。基于深度学***稳噪声以及低信噪比的环境中。

使用传统方法进行语音增强的时候，都是对语音信号进行不合理的假设，但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单独使用CNN或者LSTM等单通道的网络模型进行语音增强，这些方法在不可见噪声中的性能受到一定的约束，同时随着网络层数的增加，其性能也将受到影响，无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的特征图处理方式是一致的，并没有在通道以及空间维度对有益的特征信息进行区分，无法分辨带噪语音中关键信息，从而导致增强结果中受噪声等非关键信息的影响很大。

发明内容

针对上述问题，本发明提供了一种可提高增强语音的质量的基于双通道卷积注意力网络的语音增强方法及***。

为了解决上述技术问题，本发明第一方面提供的技术方案为：一种基于双通道卷积注意力网络的语音增强方法，所述语音增强方法包括以下步骤：

将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在该通道内添加卷积注意力模块，完成深度信息输出特征图在通道以及空间两个维度的重构，得到第一输出结果；

将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道内添加空间注意力模块，完成序列信息输出特征图在空间维度的重构，得到第二输出结果；

将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测；

将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成合成增强语音并输出。

优选的，所述带噪语音的对数幅度谱特征向量的提取方式包括：对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征向量。

优选的，所述对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征的步骤具体包括：

对带噪语音降采样到8000Hz，然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理，帧与帧之间有50％的重叠，即帧移为16ms、采样点位128个，之后对每一帧结果进行256点的傅里叶变换，将时域信号转换到频域；

对得到的每一帧的频域信号依次进行取模、取对数操作，表示如下：

Y_t＝ln(|X(t,d)|)

其中，Y_t代表第t时间帧、第d个对应的特征维度的带噪语音X(t,d)的对数幅度谱特征；

对带噪语音的对数幅度谱特征进行帧扩展，表示如下：

Y＝[Y_t-n,Y_t-n+1…Y_t-1,Y_t,Y_t+1…Y_t+n-1,Y_t+n]

其中，Y代表对数幅度谱特征进行帧扩展值，t-n，t-n₊₁，…，t+n代表时间帧(t，n＝1，2，…，N，且t≠n，)，Y∈R^(2n+1)×d，R代表特征图集合，2n+1代表输入网络的时间帧数，取值为15，d代表对应的特征维度，取值129；

对经过帧扩展的特征向量按照均值为0，方差为1进行归一化处理，表示如下：

其中，Y′代表帧扩展的特征向量，Y代表对数幅度谱特征进行帧扩展值，μ代表输入数据Y的均值，s代表输入数据Y的方差。

优选的，所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在卷积层后添加卷积注意力模块，完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括：

对输入的带噪语音特征向量连续进行两次二维卷积操作，卷积操作表示如下：

M_i＝f(W·Y_i+b)

上式中，Y_i代表第i个输入的特征图，b为对应的偏置项，W为相应的局部权值矩阵，卷积核的大小依次为16、32，其中大小为1×3，步长为1×1，f为ReLU激活函数，公式表示如下：

f(x)＝max(0,x)

再经过两次连续的卷积操作后生成特征图为M∈R^C*H*W，其中，R代表特征图集合，C代表特征图的通道数，H代表特征图的高度，W代表特征图的宽度；

生成的特征图M，作为卷积注意力模块的输入，所述卷积注意力模块包括通道和空间两种注意力模块；首先进行通道维度的特征图计算，采用全局平均池化和全局最大池化两种池化方式，将输入特征图M维度压缩成一维，分别为和/>之后使用两个卷积核大小为3×3，步长为1×1的卷积层对池化结果进行调整，这里卷积核的个数分别为C/8和C，其中C为通道数；然后对输出结果进行逐点相加生成通道注意力权重，同时使用Sigmoid激活函数对通道注意力权重进行归一化；最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构，其计算过程为：

M_chan＝σ(f_conv×ReLU(f_conv×Gavgpool(M))+f_conv×ReLU(f_conv×Gmaxpool(M)))

其中，表示逐元素相乘，σ代表Sigmoid激活函数，M_chan代表通道注意力权重，M_out1代表通道注意力特征图，f_conv表示卷积操作，Gavgpool(·)以及Gmaxpool(·)分别对应全局平均池化和全局最大池化；

生成的特征图M_out1，作为空间注意力模块的输入；首先通道注意力特征图M_out1分别经过最大池化和平均池化，完成通道维度的压缩，池化输出结果依次为以及之后在通道维度对池化输出结果进行拼接，拼接后的特征图通道数为2；然后采用卷积核大小为3×3，步长为1×1的卷积操作生成空间注意力权重，同时使用Sigmoid激活函数对空间注意力权重进行归一化处理；最后将空间注意力权重与该模块输入M_out1进行逐元素相乘完成空间维度的特征图重构，其计算过程为：

M_spat＝σ(f_conv[Avgpool(M_out1)；Maxpool(M_out1)])

其中，σ代表Sigmoid激活函数，符号；代表池化结果的拼接操作，M_out1代表通道注意力特征图，表示逐元素相乘，M_spat代表空间注意力权重，M_out2代表空间注意力特征图，f_conv表示卷积操作，Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化；

将重构后的空间注意力特征图M_out2送入最大池化层来降低特征维度，最大池化函数表示为：

M_p＝max(M_out2)

其中，M_p代表最大池化的特征图，M_out2代表空间注意力特征图，池化层的大小和步长依次为1×3和1×2；

连续重复两次上述操作。

优选的，所述将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道中添加空间注意力模块，完成序列信息输出特征图的空间维度的重构的步骤包括：

将带噪语音的特征向量作为LSTM通道的输入，经过连续两个LSTM层的训练，最终得到LSTM网络的隐层状态输出h_t，其计算过程为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

其中，σ表示Sigmoid激活函数，表示元素乘积，i_t代表输入门，f_t代表遗忘门，/>代表节点更新状态，c_t代表单元状态，o_t代表输出门，h_t代表隐层状态输出，x_t为当前时刻的输入值，h_t-1代表上一时刻的输出值，W代表权重，b代表偏置，b_i、b_f、b_c、b_o分别代表i_t、f_t、/>o_t对应的偏置项；W_xi、W_xf、W_xc W_xo分别代表i_t、f_t、/>o_t对应的权重，其中输入门i_t控制当前时刻输入x_t有多少信息保存到单元状态c_t；遗忘门f_t控制上一时刻单元状态c_t-1中有多少信息保留到c_t；输出门o_t则是控制当前时刻单元状态c_t有多少信息需要输出到h_t中；

对输出h_t进行空间维度的计算；首先分别经过最大池化和平均池化，完成通道维度的压缩，池化输出结果依次为以及/>之后对池化结果沿着通道维度进行拼接；然后对拼接结果进行二维的卷积操作生成空间注意力权重，同时使用Sigmoid激活函数对生成结果进行归一化处理；最后将空间注意力权重与输入h_t进行逐元素相乘完成空间维度的重构，其计算过程为：

h_spat＝σ(f_conv[Avgpool(h_t)；Maxpool(h_t)])

其中，σ代表Sigmoid激活函数，符号；代表池化结果的拼接操作，h_t代表隐层状态输出，表示逐元素相乘，h_spat代表空间注意力权重，h_out代表空间注意力特征图，f_conv表示卷积操作，Avgpool(·)以及Maxpool(·)分别对应平均池化和最大池化。

优选的，所述将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测的步骤包括：

将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构，重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加，并将融合结果展开为一维，作为全连接层的输入，公式如下：

其中，表示逐元素相加，Flatten代表对融合结果的展开操作，Out_C代表CNN通道重构后的输出结果，Out_L代表LSTM通道输出结果，Out_D代表全连接层的输入；

对融合结果依次送入两层神经元个数分别为1024、1024的全连接层中，并使用Dropout技术进行模型训练，得到输出结果，其中，设定Dropout率为0.2；

对输出结果送入神经元个数为129的全连接层中，并使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。

优选的，所述将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法合成增强语音的步骤包括：

对增强语音对数幅度谱特征的预测结果进行标准化还原；

将增强语音的第t帧的对数幅度谱特征与带噪语音的第t帧的相位分量α_t进行结合，并使用傅里叶逆变换将其转换为时域，表示如下：

其中，代表增强语音第t帧的时域表示；ISTFT代表傅里叶逆变换；exp代表自然常数e为底的指数函数；α_t代表带噪语音的第t帧的相位分量；

采用重叠相加的方法完成增强语音的重构，过程如下所示：

其中，表示增强语音的整体时域表示，w(k)表示对应的汉明窗，其参数与预处理一致，窗函数的表达式为：

其中，L代表帧长，其长度与窗长一致。

本发明第二方面提供了一种基于双通道卷积注意力网络的语音增强***，包括：

卷积神经网络模块：所述的卷积神经网络模块用于将带噪语音的对数幅度谱特征向量作为CNN通道的输入，学习输入特征不同粒度的深层信息，同时在该通道内添加卷积注意力模块，完成深度信息输出特征图在通道以及空间两个维度的重构，得到第一输出结果；

长短时记忆网络模块：所述的长短时记忆网络模块用于将带噪语音的对数幅度谱特征向量作为LSTM通道的输入，学习输入特征的序列信息，并在该通道内添加空间注意力模块，完成序列信息输出特征图在空间维度的重构，得到第二输出结果；

特征融合模块：所述的特征融合模块用于将将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测；

增强语音模块：所述的增强语音模块用于将将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法合成增强语音并输出。

与现有技术相比，本发明具有的有益效果为：本发明构建了一种双通道卷积注意力神经网络(Dual-Channel Convolution Attention Neural Network，DC_CANN)模型。首先对一维时域带噪语音使用短时傅里叶变换(Short-time Fouriertransform，STFT)的方法转换到二维时频域，同时提取带噪语音的对数幅度谱特征作为模型的输入特征；然后将输入特征分别送入卷积神经网络(CNN)通道和长短时记忆(LSTM)网络通道中进行深层特征提取，并在两个通道中分别添加卷积注意力模块和空间注意力模块，用于对卷积操作后产生的特征图自适应调整；之后将两个通道的输出特征进行融合，融合后的增强特征作为全连接层的输入，完成增强语音的对数幅度谱特征的预测；最后将预测结果和带噪语音相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成增强语音的整体合成。该方法主要将CNN和LSTM网络的各自优势进行结合，即提取了语音的局部特征，也考虑了语音的时间序列信息，除此之外，注意力模块的使用能够加大特征图内的关键特征信息的权重，进而增强重要信息的影响力，减少噪声的特征信息的干扰，从而提高增强语音的质量以及可懂度。

附图说明

图1为本发明实施例提供的一种基于双通道卷积注意力网络的语音增强方法的流程图。

图2本发明实施例提供的对带噪语音进行对数幅度谱特征向量的提取，并依次进行帧扩展的流程示意图。

图3为本发明实施例提供的CNN特征提取通道的流程示意图。

图4为本发明实施例提供的LSTM特征提取通道的流程示意图。

图5为本发明实施例提供的两个通道的输出结果进行特征融合，并进行增强语音的对数幅度谱特征预测的流程示意图。

图6为本发明实施例提供的使用本发明得到的增强语音的语谱图。

图7为本发明实施例提供的一种基于双通道卷积注意力网络的语音增强***结构示意图。

图8为本发明实施例提供的一种计算机设备的结构框图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所举实例用于解释说明，并非限定本发明的实施方式，本发明也可以通过其它不同的具体实施方式实施。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可懂度的技术。目前语音增强的方法主要有两种，基于统计学的传统语音增强方法和基于深度学习的语音增强方法。使用传统方法进行语音增强的时候，都是对语音信号进行不合理的假设，但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单独使用CNN或者LSTM等单通道的网络模型进行语音增强，这些方法在不可见噪声中的性能受到一定的约束，同时随着网络层数的增加，其性能也将受到影响，无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的特征图处理方式是一致的，并没有在通道以及空间维度对有益的特征信息进行区分，无法分辨带噪语音中关键信息，从而导致增强结果中受噪声等非关键信息的影响很大。

请参阅图1，本发明提供了一种基于双通道卷积注意力网络的语音增强方法，所述语音增强方法包括以下步骤：

步骤S1、将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在该通道内添加卷积注意力模块，完成深度信息输出特征图在通道以及空间两个维度的重构，得到第一输出结果；

在本发明实施例步骤S1中，所述带噪语音的对数幅度谱特征向量的提取方式包括：对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征向量。

图2为对带噪语音进行对数幅度谱特征向量的提取，并依次进行帧扩展的流程示意图，如图2所示，在本发明实施例中，所述对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征的步骤具体包括：

步骤S11、对带噪语音降采样到8000Hz，然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理，帧与帧之间有50％的重叠，即帧移为16ms、采样点位128个，之后对每一帧结果进行256点的傅里叶变换，将时域信号转换到频域；

步骤S12、对步骤S11得到的每一帧的频域信号依次进行取模、取对数操作，表示如下：

Y_t＝ln(|X(t,d)|)

步骤S13、为了充分利用带噪语音在时间和频率两个维度的相关性，需要对带噪语音的对数幅度谱特征进行帧扩展，表示如下：

Y＝[Y_t-n,Y_t-n+1…Y_t-1,Y_t,Y_t+1…Y_t+n-1,Y_t+n]

其中，Y代表对数幅度谱特征进行帧扩展值，t-n，t-n+1，…，t+n代表时间帧(t，n＝1，2，…，N，且t≠n，)，Y∈R^(2n+1)×d，R代表特征图集合，2n+1代表输入网络的时间帧数，取值为15，d代表对应的特征维度，取值129；

步骤S14、对步骤S13中经过帧扩展的特征向量按照均值为0，方差为1进行归一化处理，表示如下：

图3为CNN特征提取通道的流程示意图，如图3所示，在本发明实施例中，将带噪语音数据进行降采样、分帧加窗、傅里叶变换及帧的拓展为输入的语音特征提供更多的语音数据。

步骤S2、将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道内添加空间注意力模块，完成序列信息输出特征图在空间维度的重构，得到第二输出结果；

在本发明实施例中，所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在卷积层后添加卷积注意力模块，完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括：

步骤S21、对输入的带噪语音特征向量连续进行两次二维卷积操作，卷积操作表示如下：

M_i＝f(W·Y_i+b)

f(x)＝max(0,x)

步骤S22、将步骤S21中生成的特征图M，作为卷积注意力模块的输入，所述卷积注意力模块包括通道和空间两种注意力模块；首先进行通道维度的特征图计算，采用全局平均池化和全局最大池化两种池化方式，将输入特征图M维度压缩成一维，分别为和/>之后使用两个卷积核大小为3×3，步长为1×1的卷积层对池化结果进行调整，这里卷积核的个数分别为C/8和C，其中C为通道数；然后对输出结果进行逐点相加生成通道注意力权重，同时使用Sigmoid激活函数对通道注意力权重进行归一化；最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构，其计算过程为：

M_chan＝σ(f_conv×ReLU(f_conv×Gavgpool(M))+f_conv×ReLU(f_conv×G max pool(M)))

步骤S23、将步骤S22中生成的特征图M_out1，作为空间注意力模块的输入；首先通道注意力特征图M_out1分别经过最大池化和平均池化，完成通道维度的压缩，池化输出结果依次为以及/>之后在通道维度对池化输出结果进行拼接，拼接后的特征图通道数为2；然后采用卷积核大小为3×3，步长为1×1的卷积操作生成空间注意力权重，同时使用Sigmoid激活函数对空间注意力权重进行归一化处理；最后将空间注意力权重与该模块输入M_out1进行逐元素相乘完成空间维度的特征图重构，其计算过程为：

M_spat＝σ(f_conv[Avgpool(M_out1)；Maxpool(M_out1)])

步骤S24、完成步骤S22、S23后，将重构后的空间注意力特征图M_out2送入最大池化层来降低特征维度，最大池化函数表示为：

M_p＝max(M_out2)

步骤S25、连续重复两次上述步骤S21至步骤S24的操作。两次重复过程中步骤S21的卷积核个数依次设置为64，128，128，128，其大小均为1×3，步长均为1×1，步骤S22至步骤S23中卷积注意力模块参数设置保持不变，步骤S24最大池化层除最后一次的步长设置为1×3，其余参数均保持不变，至此完成CNN通道的整体计算。

在本发明实施例中，CNN通道通过添加卷积注意力模块，实现通道维度的特征图重构。

步骤S3、将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测；

图4为LSTM通道提取特征流程示意图，如图4所示，步骤S3中将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道中添加空间注意力模块，完成序列信息输出特征图的空间维度的重构的步骤包括：

步骤S31、将带噪语音的特征向量作为LSTM通道的输入，经过连续两个LSTM层的训练，最终得到LSTM网络的隐层状态输出h_t，其计算过程为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

其中，σ表示Sigmoid激活函数，表示元素乘积，i_t代表输入门，f_t代表遗忘门，/>代表节点更新状态，c_t代表单元状态，o_t代表输出门，h_t代表隐层状态输出，x_t为当前时刻的输入值，h_t-1代表上一时刻的输出值，[h_t-1,x_t]表示将当前时刻输入x_t和上一时刻的输出h_t-1进行拼接，W代表权重，b代表偏置，b_i、b_f、b_c、b_o分别代表i_t、f_t、/>o_t对应的偏置项；W_xi、W_xf、W_xc W_xo分别代表i_t、f_t、/>o_t对应的权重，其中输入门i_t控制当前时刻输入x_t有多少信息保存到单元状态c_t；遗忘门f_t控制上一时刻单元状态c_t-1中有多少信息保留到c_t；输出门o_t则是控制当前时刻单元状态c_t有多少信息需要输出到h_t中；

步骤S32、对步骤S31中的输出h_t进行空间维度的计算；首先分别经过最大池化和平均池化，完成通道维度的压缩，池化输出结果依次为以及/>之后对池化结果沿着通道维度进行拼接；然后对拼接结果进行二维的卷积操作生成空间注意力权重，同时使用Sigmoid激活函数对生成结果进行归一化处理；最后将空间注意力权重与输入h_t进行逐元素相乘完成空间维度的重构，其计算过程为：

h_spat＝σ(f_conv[Avgpool(h_t)；Maxpool(h_t)])

在本发明实施例中，LSTM通道可以充分利用上下文信息，可以提升语音信号识别的准确度，所述注意力模块的使用能够加大特征图内的关键特征信息的权重，进而增强重要信息的影响力，减少噪声的特征信息的干扰。

步骤S4、将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成合成增强语音并输出。

图5为两个通道的输出结果进行特征融合，并进行增强语音的对数幅度谱特征预测的流程示意图，如图5所示，在本发明实施例中，将步骤S2和步骤S3的第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测的步骤包括：

步骤S41、将引入卷积注意力模块的CNN通道的输出特征图沿着通道维度进行重构，重构结果和引入空间注意力模块的LSTM通道的输出结果进行逐点相加，并将融合结果展开为一维，作为全连接层的输入，公式如下：

步骤S42、对步骤S41的融合结果依次送入两层神经元个数分别为1024，1024，的全连接层中，并使用Dropout技术，防止训练过程中容易出现的过拟合问题，Dropout的主要思想是在模型训练时，随机地选择一部分将其从网络中暂时的丢弃，即这些神经单元暂时失活，不再参与参数的更新运算，设定Dropout率为0.2(只在训练时起作用)，即每次迭代有20％的神经元不参与计算；

步骤S43、对步骤S42的输出结果送入神经元个数为129的全连接层中，并使用Linear线性激活函数进行增强语音的对数幅度谱特征的预测。

在本发明实施例中，所述将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法合成增强语音的步骤包括：

对增强语音对数幅度谱特征的预测结果进行标准化还原；

采用重叠相加的方法完成增强语音的重构，过程如下所示：

其中，L代表帧长，其长度与窗长一致。

在本发明实施例中，通过傅里叶逆变换和重叠相加的方法精确的计算，使得两个通道能够进行融合，并增强了语音信号。

本发明实施例构建了一种双通道卷积注意力神经网络(Dual-ChannelConvolution Attention Neural Network，DC_CANN)模型。首先对一维时域带噪语音使用短时傅里叶变换(Short-time Fourier transform，STFT)的方法转换到二维时频域，同时提取带噪语音的对数幅度谱特征作为模型的输入特征；然后将输入特征分别送入卷积神经网络(CNN)通道和长短时记忆(LSTM)网络通道中进行深层特征提取，并在两个通道中分别添加卷积注意力模块和空间注意力模块，用于对卷积操作后产生的特征图自适应调整；之后将两个通道的输出特征进行融合，融合后的增强特征作为全连接层的输入，完成增强语音的对数幅度谱特征的预测；最后将预测结果和带噪语音相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成增强语音的整体合成。该方法主要将CNN和LSTM网络的各自优势进行结合，即提取了语音的局部特征，也考虑了语音的时间序列信息，除此之外，注意力模块的使用能够加大特征图内的关键特征信息的权重，进而增强重要信息的影响力，减少噪声的特征信息的干扰，从而提高增强语音的质量以及可懂度。

实施例2

请参阅图7，本发明实施例2提供了一种基于双通道卷积注意力网络的语音增强***，包括：

提取带噪语音特征模块201：所述的提取带噪语音特征模块用于对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，进一步提取带噪语音的对数幅度谱特征作为模型的输入特征；

卷积神经网络模块202：所述的卷积神经网络模块用于将带噪语音的对数幅度谱特征向量作为CNN通道的输入，学习输入特征不同粒度的深层信息，同时在该通道内添加卷积注意力模块完成特征图在通道以及空间两个维度的重构；

长短时记忆网络模块203：所述的长短时记忆网络模块用于将带噪语音的对数幅度谱特征向量作为LSTM通道的输入，学习输入特征的序列信息，并在该通道内添加空间注意力模块完成输出特征图在空间维度的重构；

特征融合模块204：所述的特征融合模块用于将两个通道的输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测；

增强语音模块205：所述的增强语音模块用于将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成增强语音的合成。

实施例3

本发明实施例3提供了一种基于双通道卷积注意力网络的语音增强方法，其利用干净语音和噪声按照不同信噪比进行合成的带噪语音，使用基于双通道卷积注意力网络的语音增强方法对带噪语音进行降噪，具体步骤如下所示：

(1-1)对数据集进行预处理，使用窗长为32ms(256个采样点)的汉明窗对语音信号进行分帧，帧与帧之间有50％的重叠，即帧移为16ms(128个采样点)，然后对每一帧信号进行256点的傅里叶变换，最终得到特征维度为129。

(1-2)获得语音信号的幅度谱特征之后，需要依次对其进行取对数和帧扩展操作，即以当前帧为中心的相邻7帧的带噪语音对数幅度谱特征作为输入特征。

(1-3)将帧扩展之后的带噪语音对数特征向量作为CNN通道以及LSTM通道的输入特征。对于CNN通道，卷积核个数依次为16，32，64，128，128，128，每个卷积层的卷积核大小均为1×3，步长均为1×1，激活函数为ELU函数，除最后一个最大池化层步长为1×3，其余池化层的大小均为1×3，步长均为1×2。对于LSTM通道其隐层神经元个数设置为1024，激活函数为Tanh函数。

(1-4)分别在CNN和LSTM通道中添加卷积注意力模块以及空间注意力模块，注意力模块的输出大小与该通道所提取特征大小一致。

(1-5)将两个通道的输出进行特征融合后接入全连接层完成干净语音的对数幅度谱特征预测，全连接层的神经元设置依次是1024，1024，129，并且设定Dropout率为0.2，除最后一层使用的线性激活函数外，前两层均使用ReLU激活函数。

(1-6)得到增强语音的对数幅度谱估计，之后结合带噪语音的相位进行傅里叶逆变换得到增强语音的时域表示，最后经过重叠相加的方法进行增强语音的合成。

在本发明实施例中，图6是信噪比为0dB，且被machinegun(机枪噪声)噪声污染后的带噪语音，使用不同方法进行语音增强后的语谱图。其中图(a)为干净语音的语谱图，图(b)为带噪语音的语谱图，图(c)、(d)、(e)依次为单独使用DNN，LSTM，CNN结构的增强语音语谱图，图(f)为不包含注意力模块的双通道模型增强语音语谱图，图(g)是将LSTM层替换为GRU层的增强语音语谱图，图(h)为提出的DC_CANN模型的增强语音语谱图。从语谱图上可以看出，带噪语音的能量主要集中在低频部分，双通道卷积注意力网络的方法较其他方法增强效果显著，尤其是低频部分。

实施例4

请参阅图8，在本发明实施例4提供了一种计算机设备600，本发明实施例提供的计算机设备600可以执行基于双通道卷积注意力网络的语音增强方法实施例提供的处理流程，如图8所示，计算机设备600包括存储器601、处理器602、计算机程序；其中，计算机程序存储在存储器601中，并被配置为由处理器602执行上述实施例中基于双通道卷积注意力网络的语音增强方法。

此外，计算机设备600可具有通讯接口603，用于接收控制指令。

实施例5

本发明实施例5还提供一种计算机可读存储介质，采用了如下所述的技术方案：所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述基于双通道卷积注意力网络的语音增强方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

在本发明实施例的一个典型的配置中，终端、服务网络的设备和计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。

计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双通道卷积注意力网络的语音增强方法，其特征在于，所述语音增强方法包括以下步骤：

将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成合成增强语音并输出；

所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在卷积层后添加卷积注意力模块，完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括：

M_i＝f(W·Y_i+b)

f(x)＝max(0,x)

M_spat＝σ(f_conv[Avgpool(M_out1)；Maxpool(M_out1)])

M_p＝max(M_out2)

连续重复两次上述操作。

2.根据权利要求1所述的基于双通道卷积注意力网络的语音增强方法，其特征在于，所述带噪语音的对数幅度谱特征向量的提取方式包括：对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征向量。

3.根据权利要求2所述的基于双通道卷积注意力网络的语音增强方法，其特征在于，所述对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征的步骤具体包括：

Y_t＝ln(|X(t,d)|)

对带噪语音的对数幅度谱特征进行帧扩展，表示如下：

Y＝[Y_t-n,Y_t-n+1…Y_t-1,Y_t,Y_t+1…Y_t+n-1,Y_t+n]

4.根据权利要求1所述的基于双通道卷积注意力网络的语音增强方法，其特征在于，所述将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道中添加空间注意力模块，完成序列信息输出特征图的空间维度的重构的步骤包括：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_spat＝σ(f_conv[Avgpool(h_t)；Maxpool(h_t)])

5.根据权利要求4所述的基于双通道卷积注意力网络的语音增强方法，其特征在于，所述将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测的步骤包括：

6.根据权利要求5所述的基于双通道卷积注意力网络的语音增强方法，其特征在于，所述将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法合成增强语音的步骤包括：

对增强语音对数幅度谱特征的预测结果进行标准化还原；

采用重叠相加的方法完成增强语音的重构，过程如下所示：

其中，L代表帧长，其长度与窗长一致。