CN117174105A

CN117174105A - 一种基于改进型深度卷积网络的语音降噪与去混响方法

Info

Publication number: CN117174105A
Application number: CN202311452944.8A
Authority: CN
Inventors: 韦伟才; 邓海蛟; 马健莹; 潘晖
Original assignee: Shenzhen Longxinwei Semiconductor Technology Co ltd
Current assignee: Shenzhen Longxinwei Semiconductor Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-05

Abstract

本发明提供了一种基于改进型深度卷积网络的语音降噪与去混响方法，所述方法包括：提取原始语音的特征数据，对所述特征数据进行编码；通过改进型时间卷积网络对编码后的特征数据进行识别，输出识别结果；对所述识别结果进行特征解码，根据解码后的数据重组语音信号；本发明通过使用改进型时间卷积网络能够将语音降噪与去混响进行有效结合，在加快了处理速度的同时也提高了的语音降噪与去混响效果。

Description

一种基于改进型深度卷积网络的语音降噪与去混响方法

技术领域

本发明属于语音增强技术领域，具体涉及一种基于改进型深度卷积网络的语音降噪与去混响方法。

背景技术

在语音信号处理领域，降噪和去混响技术是非常重要的研究方向之一。在语音识别、说话人识别和音频处理等任务中，需要使用有效的降噪和去混响方法，以提高信号的信噪比和可懂性。目前常见的方法如谱减法（Spectral Subtraction）、小波变换降噪、双门限能量提取（Double-Threshold Energy Extraction）、基于盲源分离的混响消除等已经逐渐成为主流方法，并被广泛应用于实际生产中。

尽管现有的降噪和去混响技术已经能够取得一定效果，但是仍然面临着许多技术挑战和难点。例如，语音信号自身的时变性、非线性特性和多样性都会对降噪和去混响算法的精度和鲁棒性产生影响，且处理速度并不理想。因此，如何优化算法的复杂度和精度、提高其稳定性和可靠性，是本领域亟待解决的问题。

发明内容

为了解决上述提出的至少一个技术问题，本发明提供一种基于改进型深度卷积网络的语音降噪与去混响方法，能够增强语音降噪与去混响效果，降低算法的复杂度以提高语音处理的速度。

第一方面，本发明提供了一种基于改进型深度卷积网络的语音降噪与去混响方法，所述方法包括：

提取原始语音的特征数据，对所述特征数据进行编码；

通过改进型时间卷积网络对编码后的特征数据进行识别，输出识别结果；

对所述识别结果进行特征解码，根据解码后的数据重组语音信号。

在一种可能实施的方式中，所述提取原始语音的特征数据，包括：

采用FIR数字滤波器对所述原始语音进行滤波和混响处理，生成混响语音；

对不同信噪比的所述混响语音混合，生成带噪语音；

对所述带噪语音进行短时傅里叶变换，生成所述带噪语音的频域数据；

将所述频域数据的实值和虚值组合，生成原始语音的特征数据。

在一种可能实施的方式中，在对所述带噪语音进行短时傅里叶变换之前，还包括：

对所述带噪语音进行预加重，提高所述带噪语音在高频部分的信噪比；

对预加重后的带噪语音进行分帧和加窗处理。

在一种可能实施的方式中，对所述特征数据进行编码，包括：

将所述特征数据输入至编码器，所述编码器包括第一子模块和第二子模块；

所述特征数据先依次经过第一子模块的卷积层、归一化层及PReLu激活层进行处理，将第一子模块的PReLu激活层的输出数据再依次经过第二子模块的卷积层、归一化层及PReLu激活层进行处理，生成编码后的数据。

在一种可能实施的方式中，所述第一子模块的卷积层的卷积核大小为（1,3），步长为（1,1），数量为32；所述第二子模块的卷积层的卷积核大小为（2,5），步长为（1,2），数量为64。

在一种可能实施的方式中，对所述识别结果进行特征解码，包括：

将所述识别结果输入至解码器，所述解码器与所述编码器的子模块数量与网络结构相同。

在一种可能实施的方式中，在所述通过改进型时间卷积网络对编码后的特征数据进行识别之前，还包括训练所述时间卷积网络，包括：

获取训练样本，所述训练样本为若干个语音的特征数据经编码后得到的数据；

对所述训练样本进行形状转换，生成多维张量；

将所述多维张量输入至时间卷积网络进行训练，其中所述时间卷积网络包括两个残差块，每个所述残差块包括两个子残差模块；

每个所述子残差模块包括依次连接的因果空洞卷积层，门控扩张卷积层、归一化层、激活层以及Dropout层；其中，其中一个所述子残差模块的Dropout层连接另一个所述子残差模块的因果空洞卷积层。

在一种可能实施的方式中，将所述多维张量输入至时间卷积网络进行训练，还包括：

根据短时客观话语可懂度指数构建损失函数；

通过所述损失函数在时间卷积网络中反向传播，更新时间卷积网络的梯度，直至所述损失函数满足预设条件时，生成改进型时间卷积网络。

在一种可能实施的方式中，根据解码后的数据重组语音信号，包括：

根据解码后的数据计算掩码信号，以得到信号增益；

对所述信号增益进行逆傅里叶变换，得到时间域的分帧信号；

对所述分帧信号加窗重组，并拼接重组后的帧信号，得到完整的语音信号。

第二方面，本发明还提供了一种基于改进型深度卷积网络的语音降噪与去混响***，所述***包括：

特征编码单元，用于提取原始语音的特征数据，对所述特征数据进行编码；

特征识别单元，用于通过改进型时间卷积网络对编码后的特征数据进行识别，输出识别结果；

语音重组单元，用于对所述识别结果进行特征解码，根据解码后的数据重组语音信号。

与现有技术相比，本发明的有益效果在于：

1）本发明中通过使用卷积神经网络从短时傅里叶变换后的数据中提取特征，可以更充分地利用卷积神经网络在此时转换后的数据中提取更多、更高级别的抽象特征。相比传统的特征提取方法，卷积神经网络有更强的数据表达能力。由此提取出来的特征数据能够极大地提高模型的学习效率和泛化能力。

2）本发明中使用改进型的时间卷积网络，能够并行处理时间序列数据且没有循环结构，因此可以借助GPU等硬件加速器来实现高效的训练和推断，大大减少了训练时间。相比传统的循环神经网络（RNN）来说，时间卷积网络（TCN）不会出现梯度消失/***以及难以捕捉长期依赖性的问题，它通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效扩展了感受野，使得TCN能够轻松处理长序列数据，并从中提取相关信息。此外，TCN与传统的卷积神经网络（CNN）相比，更易于实现和调试。由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

3）本发明中在改进型时间卷积网络中引入门控扩张卷积，利用它能自适应地选择当前时刻需要保留或遗忘的历史信息。同时，残差结构的使用可以进一步提升模型的训练效率和精度。

4）本发明中在深度卷积网络中使用了解编码的结构，它具有较强的特征提取能力，因为编码器可以从原始数据中抽取出关键的特征；通过编码器自动地将输入数据进行降维以及去除冗余信息完成自动降噪；由于编码器和解码器之间采用了分离的架构，在某些情况下，可以仅使用编码器对数据进行处理，从而实现跨领域特征迁移，因此它具有较强的可迁移性；由于自编码器的训练策略是对重建误差进行最小化，因此它对于数据中的噪声和干扰信号有很强的鲁棒性。

5）本发明中使用短时客观话语可懂度指数（STOI）作为损失函数，通过这种方式能够使模型具有更为强大的泛化能力，能够兼顾信噪比与高度的信号还原。另一方面，在同时进行降噪和去混响时保证了模型不会对其两者产生影响即因为降噪而影响去混响的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明其中一实施例提供的基于改进型深度卷积网络的语音降噪与去混响方法的流程示意图；

图2为本发明其中一实施例提供改进型深度卷积网络的结构示意图；

图3为本发明另一实施例提供的基于改进型深度卷积网络的语音降噪与去混响方法的流程示意图；

图4为本发明其中一实施例提供的基于改进型深度卷积网络的语音降噪与去混响***的结构示意图；

图5为本发明另一实施例提供的基于改进型深度卷积网络的语音降噪与去混响***的结构示意图；

图6为本发明其中一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，若全文中出现的“和/或”或者“及/或”，其含义包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

目前常见的降噪和去混响方法包括谱减法、小波变换降噪、双门限能量提取、基于盲源分离的混响消除等，但是这些方法在处理速度和精度上并不理想。为此，本发明提供了一种基于改进型深度卷积网络的语音降噪与去混响方法，通过采用改进型时间卷积网络，能够将语音降噪与去混响有效结合，在加快了处理速度的同时也提高了的语音降噪与去混响效果。

请参阅图1，本发明其中一个实施例提供了一种基于改进型深度卷积网络的语音降噪与去混响方法，包括：

S10、提取原始语音的特征数据，对特征数据进行编码。

S20、通过改进型时间卷积网络对编码后的特征数据进行识别，输出识别结果。

S30、对识别结果进行特征解码，根据解码后的数据重组语音信号。

本实施例中首先需要获取原始语音，并提取相应的特征数据。通常特征数据是通过信号处理和特征提取来获得，常见的特征包括时域特征、频域特征、共振峰特征、声学参数和音素编码等。

为了方便模型的识别过程，在提取特征后通常要对特征数据进行编码。可选地采用卷积神经网络进行特征编码，包括采用编码器编码。编码器中可以通过堆叠多个层，逐步抽象化输入数据并对其进行压缩表示。编码器在这个过程中会学习到数据的主要特征，并且将其编码为向量表示，能够有效地减少噪音和冗余信息，从而提高了深度学习模型的性能和效率。

进一步地，本实施例采用通过改进型时间卷积网络对编码后的特征数据进行识别。可以先将编码器编码的数据进行形状转换作为改进型时间卷积网络的输入，在模型的构建中使用因果空洞卷积（Causal Dilated Convolution）与门控扩张卷积作为主要组成部分。使用残差结构进行构建，每个残差块由因果空洞卷积、门控扩张卷积、激活层、归一化以及Dropout层组成。最后，对识别结果进行特征解码，根据解码后的数据重组语音信号。

本实施例通过使用改进型时间卷积网络能够将语音降噪与去混响进行有效结合，在加快了处理速度的同时也提高了的语音降噪与去混响效果。

在一个实施例中，提取原始语音的特征数据，包括：

采用FIR数字滤波器对原始语音进行滤波和混响处理，生成混响语音；

对不同信噪比的混响语音混合，生成带噪语音；

对带噪语音进行短时傅里叶变换，生成带噪语音的频域数据；

将频域数据的实值和虚值组合，生成原始语音的特征数据。

为了进一步提高降噪效果并提升模型的泛化能力，在预处理语音数据时，首先对原始的清晰语音进行数字滤波器处理。同时，将被混响的纯净语音作为模型训练的原始数据。一方面，这种处理方法可以有效过滤一些无效的语音数据，避免对后续模型训练造成干扰；另一方面，通过对数据进行混响处理。训练数据变成了带混响的数据，其中原始纯净语音则被用作标签数据。这样处理后的数据能够在模型训练后发挥降噪和去混响的作用，并且还能提高模型的泛化性能。

可选地，在数字信号处理中使用了FIR数字滤波器来进行滤波。FIR滤波器采用线性加权的方式对输入信号进行滤波，改变其频率响应，以实现一定程度的陷波、通带增益等信号处理操作。具体而言，它将离散时间序列数据作为输入，并通过一组预先设计好的滤波系数进行卷积运算得出输出序列。由于不同采样率的语音数据具有不同的系数，因此可以根据需要对输入信号进行滤波。这种方法可以过滤掉输入信号中部分的噪声和干扰信号，提高信号的质量。同时，它还可以调整输出信号的频率响应曲线，使其更符合目标特征，从而改变信号的形态。

进一步地，通过不同信噪比进行混合得到固定长度的带噪语音，随机提取对其进行短时傅里叶变换，提取出实值和虚值并组合，作为编码器的输入数据。

本实施例通过滤波和混响处理可以改善原始语音的音质，通过合并不同信噪比的混响语音可以提供更真实的环境背景，使带噪语音更接近实际应用场景。通过短时傅里叶变换可以将时域信号转换为频域表示，提供了音频在不同频率上的能量分布信息，如此可以有效地提取出原始语音的特征数据。

在一种可能实施的方式中，在在对带噪语音进行短时傅里叶变换之前，还包括：

对带噪语音进行预加重，提高带噪语音在高频部分的信噪比；

对预加重后的带噪语音进行分帧和加窗处理。

首先，使用预加重技术来提高信号在高频部分的信噪比。接着，对预处理后的数据进行分帧和加窗处理，并使用短时傅里叶变换将其转换为复数值。为了进行后续的特征提取，提取出其中的实部和虚部，并将它们进行形状转换并拼接在一起。最后，使用层归一化（LN）对数据进行归一化处理，以便更好地进行后续的特征提取和学习。

将特征数据输入至编码器，编码器包括第一子模块和第二子模块；

特征数据先依次经过第一子模块的卷积层、归一化层及PReLu激活层进行处理，将第一子模块的PReLu激活层的输出数据再依次经过第二子模块的卷积层、归一化层及PReLu激活层进行处理，生成编码后的数据。

可选地，第一子模块的卷积层的卷积核大小为（1,3），步长为（1,1），数量为32；第二子模块的卷积层的卷积核大小为（2,5），步长为（1,2），数量为64。

本实施例中，在构建编码器时，首先构建第一子模块，其第一层为卷积层，卷积的核使用大小为（1,3），步长为（1,1），卷积核数量为32；卷积后连接批量归一化层，起到加速训练，提高模型泛化能力并具有一定的正则化效果；然后连接PReLu激活层，它相对ReLu具有更强的泛化能力，更好的稀疏性以及参数共享能力。而后，第一子模块的输出作为第二子模块的输入，而第二子模块采用相同的结构，卷积层的卷积核数量为64个，步长为（1,2），核大小为（2,5），用于编码与提炼更多的信息。

编码器由两个子卷积模块组成，在编码模块中通过堆叠多个层，逐步抽象化输入数据并对其进行压缩表示。编码模块在这个过程中会学习到数据的主要特征，并且将其编码为向量表示，能够有效地减少噪音和冗余信息，从而提高了深度学习模型的性能和效率。

本实施例中，通过使用卷积神经网络从短时傅里叶变换后的数据中提取特征，可以更充分地利用卷积神经网络在此时转换后的数据中提取更多、更高级别的抽象特征。相比传统的特征提取方法，卷积神经网络有更强的数据表达能力。由此提取出来的特征数据能够极大地提高模型的学习效率和泛化能力。

在一种可能实施的方式中，在通过改进型时间卷积网络对编码后的特征数据进行识别之前，还包括训练时间卷积网络，包括：

获取训练样本，训练样本为若干个语音的特征数据经编码后得到的数据；

对训练样本进行形状转换，生成多维张量；

将多维张量输入至时间卷积网络进行训练，其中时间卷积网络包括两个残差块，每个残差块包括两个子残差模块；

每个子残差模块包括依次连接的因果空洞卷积层，门控扩张卷积层、归一化层、激活层以及Dropout层；其中，其中一个子残差模块的Dropout层连接另一个子残差模块的因果空洞卷积层。

本实施例中，首先获取训练样本，训练样本为若干个语音的特征数据经编码后得到的数据。

具体地，可以获取若干个语音的特征数据，并对特征数据进行编码。在提取特征时，可将训练数据通过不同信噪比进行混合得到固定长度的带噪语音，随机提取对其进行短时傅里叶变换，提取出实值和虚值并组合一起作为编码器的输入数据，当编码器编码后可得到训练样本，然后进一步对训练样本进行形状转换，即可生成多维张量，然后将多维张量输入至时间卷积网络进行训练。

在一种可能实施的方式中，将多维张量输入至时间卷积网络进行训练，还包括：

根据短时客观话语可懂度指数构建损失函数；

通过损失函数在时间卷积网络中反向传播，更新时间卷积网络的梯度，直至损失函数满足预设条件时，生成改进型时间卷积网络。

为了帮助理解，在一个具体的实施方式中，训练时间卷积网络包括以下步骤：

1）将编码后的特征数据进行形状转换后连接时间卷积网络模块，作为因果空洞卷积层的输入，因果空洞卷积由因果卷积结合空洞卷积而成。普通的卷积在进行 2 像素移动时，两个半径相交的区域会重复计算，并没有真正扩大感受野。但是在空洞卷积中，每隔若干像素跳过中间的卷积核，这样就可以同时涵盖更多的空间外观信息，扩大了网络的感受野。而因果卷积则是加入时间轴的限制，即卷积的输出只依赖于过去的输入，而不是未来的输入，一般因果空洞卷积中因果卷积作为第一层而后续连接为空洞卷积；门控扩张卷积主要由两个扩张卷积以及sigmoid激活函数组层，其中应用sigmoid函数将输出值缩放为（0,1），将因果空洞卷积的输出作为门控扩张卷积的输入，此输入分别连接两个扩张卷积，其中一个扩张卷积连接激活层其输出与另一个扩张卷积相乘得到的输出结果即为门控扩张卷积的输出。

其中，时间卷积网络包括两个残差块，每个残差块包括两个子残差模块；

每个子残差模块包括依次连接的因果空洞卷积层，门控扩张卷积层、归一化层、激活层以及Dropout层；其中，其中一个子残差模块的Dropout层连接另一个子残差模块的因果空洞卷积层，如图2所示。需要说明，对于整个残差块，如果输入通道的数量与扩张因果卷积的输出通道数量（第二个扩张卷积的过滤器数量）不同，则在首尾连接时有一个可选的1x1 卷积。2）反向传播过程中的整个网络的损失函数，根据输入的数据特性以及深度卷积网络的作用，使用短时客观话语可懂度指数(STIO)作为损失函数，它相比常用的信噪比（SNR）、均方误差损失（MSE）等损失函数都要好，将通过前向计算结果即估计值与实际值带入损失函数进行损失计算。

3）深度卷积网络的梯度更新，通过设计好的损失函数将实际值与前向计算得到的估计值带入其中得到误差值，反向传播主要是梯度计算的过程。反向传播算法本质就是一种优化方法，通过计算网络在训练样本上的误差，再将误差沿着网络反向传播，最终得到网络中各个参数的梯度信息，从而更新这些参数，是的误差逐渐减少，直到达到一定的精度要求。具体而言，设第l层输入为，输出为/>，第l+1层输入为/>，输出为/>。设第/>层的误差为/>，则有：

其中，表示连接第/>和第/>层的权重矩阵，/>表示逐元素相乘，/>表示激活函数的导数。对于第/>层的误差/>，其计算公式为：

第层上的某个卷积核的梯度信息为：

其中，L表示损失函数，表示第/>层的样本数量，/>分别表示卷积核在第/>层的高、宽、通道数，/>分别表示卷积核在输入特征图上的位置偏移量，n=1表示第/>层上的第一个样本。

显然，卷积核在反向传播过程中的梯度等于输入特征图的不同区域（即与输出误差的乘积之和，这也反映了卷积核调整的方向：应该通过让卷积核在特定位置的权重改变来减小误差。

4）经过多次迭代训练，深度卷积网络不断更新权重系数得到较为理想的结果或者完成所有迭代过程后得到最终的模型文件。

在一个实施例中，改进型时间卷积网络的反向传播包括：

a）卷积层的反向传播：

在卷积层的反向传播中，需要计算每个卷积核的误差项，并更新每个卷积核的权重参数。首先，对于卷积层输出张量中的每个元素，根据其与损失函数之间的误差关系，计算出对应的误差项/>。

然后，根据误差项计算所有卷积核的梯度值/>，其中/>表示第i个卷积核在位置(m,n)上的权重值。具体地，可以通过以下步骤计算卷积核的梯度值：

1）定义新的误差张量，使其形状与卷积层的输出张量y相同，并将所有元素初始化为0。

2）对于误差张量中的每个元素/>，首先找到卷积核在元素输入张量中的对应位置/>，即将输出张量的元素坐标映射回到原始输入张量中，然后将累加到原始输入张量的对应位置上/>。

对于每个卷积核，计算出它在所有样本上的梯度平均值：

其中，N是样本数量，表示输入张量中第b个样本在位置(i+m-1,j+n-1)上的元素。

b）批量归一化（BN）的反向传播：

BN层主要包括两个操作：均值、方差的归一化和规模和偏置的线性变换。在反向传播中，我们需要计算BN层中各参数及输入的梯度。

在BN层反向传播时，需要计算输入x、输出z，缩放因子和偏置因子/>的梯度。首先，计算缩放因子/>和偏置因子/>的梯度，可以得到：

其中，表示z对损失函数的梯度。接着计算y的梯度，可以得到：

然后计算均值和方差对x的梯度。根据链式法则，可以得到：

其中，m是每个批次的样本数。最后，可以使用输入x、梯度、缩放因子/>和偏置因子/>来更新BN层中的参数。具体地，可以使用以下公式进行更新：/>

其中，是学***均值/>和/>的指数衰减率，/>和/>分别是当前批次的样本均值和样本方差。

在一个实施例中，在改进型深度卷积网络中的损失函数主要使用的是短时客观话语可懂度指数（STOI），它是一种用于衡量语音信号的可懂度或清晰度的客观质量评估指标。所以根据其特点，在模型中的损失函数如下：

其中，N为语音信号的帧数，s为实际值，为模型增益计算后的逆傅里叶变换结果，为向量x的相位角度，/>反映了两个语音在时域上的相似程度，对于一个完美的重构语音，其相位与原始语音的相位应该是非常类似的，因此/>会接近1。反之，将会接近0。取平均值后，STOI Score通常以百分比形式报告，表示失真信号的可懂度。

本实施例中，使用改进型的时间卷积网络，能够并行处理时间序列数据且没有循环结构，因此可以借助GPU等硬件加速器来实现高效的训练和推断，大大减少了训练时间。相比传统的循环神经网络（RNN）来说，时间卷积网络（TCN）不会出现梯度消失/***以及难以捕捉长期依赖性的问题，它通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效扩展了感受野，使得TCN能够轻松处理长序列数据，并从中提取相关信息。此外，TCN与传统的卷积神经网络（CNN）相比，更易于实现和调试。由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

另一方面，本实施例中在改进型时间卷积网络中引入门控扩张卷积，利用它能自适应地选择当前时刻需要保留或遗忘的历史信息。同时，残差结构的使用可以进一步提升模型的训练效率和精度。

通过使用短时客观话语可懂度指数（STOI）作为损失函数，通过这种方式能够使模型具有更为强大的泛化能力，能够兼顾信噪比与高度的信号还原。另一方面，在同时进行降噪和去混响时保证了模型不会对其两者产生影响即因为降噪而影响去混响的效果。

在一种可能实施的方式中，对识别结果进行特征解码，包括：

将识别结果输入至解码器，解码器与编码器的子模块数量与网络结构相同。

本实施例中，构建解码器时，将时间卷积网络的输出以及编码器中每一个子卷积模块的输出与解码器以及每一个对应子模块的输入相连接，做为最终的输入数据，解码器的每个子模块由反卷积、批量归一化、以及PReLu激活层组成，子模块数量与编码器等同。

根据解码后的数据计算掩码信号，以得到信号增益；

对信号增益进行逆傅里叶变换，得到时间域的分帧信号；

对分帧信号加窗重组，并拼接重组后的帧信号，得到完整的语音信号。

通过将解编码结构与改进型时间卷积网络得到的结果与初始短时傅里叶变换得到的结果进行分别点乘运算得到最后的增益结果，再通过逆短时傅里叶变换、加窗以及信号重构之后，得到最终的结果，完成语音降噪与去混响。

请参阅图3，在一个实施例中，还提供了一种基于改进型深度卷积网络的语音降噪与去混响方法，包括以下五个步骤：

S101、为了进一步提高降噪效果并提升模型的泛化能力，在预处理语音数据时，我们首先对原始的清晰语音进行数字滤波器处理。同时，我们将被混响的纯净语音作为模型训练的原始数据。一方面，这种处理方法可以有效过滤一些无效的语音数据，避免对后续模型训练造成干扰；另一方面，通过对数据进行混响处理。训练数据变成了带混响的数据，其中原始纯净语音则被用作标签数据。这样处理后的数据能够在模型训练后发挥降噪和去混响的作用，并且还能提高模型的泛化性能。

S102、将训练数据通过不同信噪比进行混合得到固定长度的带噪语音，随机提取对其进行短时傅里叶变换，提取出实值和虚值并组合一起作为编码模块的输入数据，编码模块由两个子卷积模块组成，在编码模块中通过堆叠多个层，逐步抽象化输入数据并对其进行压缩表示。编码模块在这个过程中会学习到数据的主要特征，并且将其编码为向量表示，能够有效地减少噪音和冗余信息，从而提高了深度学习模型的性能和效率。

S103、构建时间卷积网络，将通过编码模块编码后的数据进行形状转换作为时间卷积网络的输入，在模型的构建中使用因果空洞卷积（Causal Dilated Convolution）与门控扩张卷积作为主要组成部分。使用残差结构进行构建，每个残差块由因果空洞卷积、门控扩张卷积、激活层、归一化以及Dropout层组成。

S104、构建解码模块，将时间卷积网络的输出以及编码模块中每一个子卷积模块的输出与解码模块以及每一个对应子模块的输入想连接，做为最终的输入数据，解码模块的每个子模块由反卷积、批量归一化、以及PReLu激活层组成，子模块数量与编码模块等同。

S105、通过将解编码结构与改进型时间卷积网络得到的结果与初始短时傅里叶变换得到的结果进行分别点乘运算得到最后的增益结果，再通过逆短时傅里叶变换、加窗以及信号重构之后，得到最终的结果，完成语音降噪与去混响。

本实施例中，首先使用数据预处理的方式通过开源数据对输入数据进行计算得到混响数据并做数字滤波；再进行预加重、分帧加窗以及短时傅里叶变换；使用深度学习算法对变换后的数据进行处理，使用卷积网络进行特征编码，然后构建改进后的时间卷积网络（TCN）模型，通过将其输出作为特征解码网络得到掩码数据，最后将得到的掩码数据与原始信号进行增益计算，将计算后的结果通过逆短时傅里叶变换、加窗以及重构得到增强后的语音信号，通过使用深度学习的方式能够将语音降噪与去混响进行有效的结合并且具有很好的效果。

基于与上述方法相同的发明构思，在本发明的另一个实施例中，还公开了一种基于改进型深度卷积网络的语音降噪与去混响***。请参阅图4，本实施例提供的一种基于改进型深度卷积网络的语音降噪与去混响***，包括：

特征编码单元100，用于提取原始语音的特征数据，对所述特征数据进行编码；

特征识别单元200，用于通过改进型时间卷积网络对编码后的特征数据进行识别，输出识别结果；

语音重组单元300，用于对所述识别结果进行特征解码，根据解码后的数据重组语音信号。

在该实施例公开的***中，各个模块的具体实现还可以对应参照上述实施例所示的方法实施例的相应描述，为了简便，在此不再赘述。

参见图5，在另一实施例中，还提供了一种基于改进型深度卷积网络的语音降噪与去混响***，应用于上述任意一项实施例所述的基于改进型深度卷积网络的语音降噪与去混响方法，包括：

语音预处理模块10，用于对原始语音信号进行处理。此模块通过使用FIR滤波器对纯净的人声信号进行滤波，并将其与房间脉冲响应数据进行卷积运算，从而生成混响数据。

语音预处理模块10的输出端与模型输入数据处理模块20的输入端进行电性连接，模型输入数据处理模块20使用多种处理方法，包括预加重、分帧加窗和短时傅里叶变换。

模型输入数据处理模块20的输出端与特征编码模块30的输入端电性连接，特征编码模块30通过编码网络的卷积层、归一化层与激活层的设计进行特征压缩与抽象。

特征编码模块30的输出端与改进型时间卷积网络模块40的输入端电性连接，改进型时间卷积神经网络模块40用于从编码模块的特征中学习输入数据中的长期依赖关系，从而更好的捕捉时间序列中的结构信息，并能够自适应地选择当前时刻需要保留或遗忘的历史信息。

改进型时间卷积网络模块40的输出端与解码模块50的输入端电性连接，解码模块50用于将输入数据进行重构还原，以获得更久准确的输入数据重现。

解码模块50的输出端与掩码计算模块60的输入端电性连接，掩码计算模块60可以通过网络的前向计算得到一个掩码，同时利用原始傅里叶变换得到的实部和虚部值进行点乘运算，从而获得相应的增益结果。

掩码计算模块60的输出端与语音信号重构模块70的输入端电性连接，语音信号重构模块70用于将掩码计算模块的结果转化为降噪和去混响后的最终语音信号。该模块会通过逆短时傅里叶变换将掩码结果逆转换回到时间域，然后再通过重叠拼接技术将数据重组为完整的语音信号。最终，输出的语音信号经过了降噪和去除混响等多种音频处理步骤，质量得到有效提升。掩码计算是指在深度学习模型前向计算后，通过对输入数据进行掩码操作，从而得到增益结果的过程。具体而言，该过程将前向计算所得到的掩码数据与原始输入信号进行对应计算和相乘，从而获得对应位置的增益系数。这一过程的主要目的是为了提取输入信号中的有效信息，将无用的噪声和干扰信号消除，并使得模型更加准确地处理输入信号。

可选地，特征编码模块30主要通过卷积层、归一化层以及激活层进行特征的编码和提取，为后续任务提供更加有价值的特征表示。特征编码模块30通过卷积层的卷积运算对输入数据进行特征提取，它可以自动学习和提取不同特征，并通过增加卷积核数量或者使用不同大小的卷积核来增强网络的表达能力。归一化层用于加速神经网络的训练，可以通过将神经元输出进行标准化来加快网络的收敛速度，从而提高模型的准确性和泛化性能。激活层作为神经网络中非线性变换的重要组成部分，可以对卷积的输出进行非线性变换，从而提高网络的表达能力和泛化性能。

可选地，特征编码模块30由两个子卷积模块组成，第一个子卷积模块中包含输入层、卷积、归一化以及激活层，其中输入层的输出端与子卷积提取模块中的卷积输入端电性连接，卷积层用于对输入数据进行特征提取，卷积层的输出端与归一化层的输入端电性连接，归一化层使用批量归一化方法，归一化层的输出端与PReLu激活层的输入端电性连接，PReLu在保留ReLu的非负性和线性增长特性的基础上，引入了一个可学习的参数。该参数用来控制输入小于零的输出值，从而提高模型的表达能力与拟合能力， PReLu激活层的输出端与下一个子卷积模块的卷积层的输入端电性连接，卷积层用于提取出更多更抽象的特征数据且第二个子卷积模块结构与第一个卷积模块一样。

可选地，改进型时间卷积网络模块40由两个残差块组成，每个块中有两个子残差块，每个子残差块由因果空洞卷积、一维卷积、门控扩张卷积、归一化、激活层以及Dropout层依次连接，其中一个子残差块的Dropout层连接另一个子残差块的因果空洞卷积，如图2所示。该模块用于学习数据的长期依赖关系，自适应地选择当前时刻需要保留或遗忘的历史信息。而且利用残差结构可以进一步提升模型的训练效率和精度。

可选地，解码模块50由反卷积、归一化以及激活层组成，同样是两个子反卷积模块与特征编码模块30对应且结构相同，它的输入由特征编码模块30每个子模块的输出与改进型时间卷积网络模块40的输出共同组成，用于数据的重构还原。

可选地，语音信号重构模块70用于对经过增益处理的数据进行后续处理，以便得到降噪和去混响后的最终语音信号。在具体实现中，该模块会先进行逆短时傅里叶变换，将频域数据转化为时间域数据，然后再利用加窗技术来重组分帧后的信号。最后，通过拼接所有的重组帧，输出最终的降噪和去混响语音信号。

在一个实施例中，本发明还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序包括程序指令，程序指令当被电子设备的处理器执行时，使处理器执行如上述任意一种可能实现的方式的方法。

在一个实施例中，本发明还提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器执行所述计算机指令时，电子设备执行如上述任意一种可能实现的方式的方法。

请参阅图6，图6为本发明实施例提供的一种电子设备的硬件结构示意图。

该电子设备2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本发明实施例对此不作限定。应当理解，本发明的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器（graphics processing unit， GPU），在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本发明实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本发明方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体（random accessmemory，RAM）、只读存储器（read-only memory，ROM）、可擦除可编程只读存储器（erasableprogrammable read only memory，EPROM）、或便携式只读存储器（compact disc read-only memory，CD-ROM），该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输出装置23和输入装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本发明实施例中，存储器22不仅可用于存储相关指令，本发明实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图6仅仅示出了一种电子设备的简化设计。在实际应用中，电子设备还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本发明实施例的视频解析装置都在本发明的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本发明各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本发明所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriberline，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘（digital versatiledisc，DVD）)、或者半导体介质（例如固态硬盘（solid state disk ，SSD））等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器（read-only memory，ROM）或随机存储存储器（random access memory，RAM）、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，所述方法包括：

提取原始语音的特征数据，对所述特征数据进行编码；

2.如权利要求1所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，所述提取原始语音的特征数据，包括：

对不同信噪比的所述混响语音混合，生成带噪语音；

3.如权利要求2所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，在对所述带噪语音进行短时傅里叶变换之前，还包括：

对预加重后的带噪语音进行分帧和加窗处理。

4.如权利要求2所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，对所述特征数据进行编码，包括：

5.如权利要求4所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，所述第一子模块的卷积层的卷积核大小为（1,3），步长为（1,1），数量为32；所述第二子模块的卷积层的卷积核大小为（2,5），步长为（1,2），数量为64。

6.如权利要求4所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，对所述识别结果进行特征解码，包括：

7.如权利要求1所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，在所述通过改进型时间卷积网络对编码后的特征数据进行识别之前，还包括训练所述时间卷积网络，包括：

对所述训练样本进行形状转换，生成多维张量；

8.如权利要求7所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，将所述多维张量输入至时间卷积网络进行训练，还包括：

根据短时客观话语可懂度指数构建损失函数；

9.如权利要求1所述的基于改进型深度卷积网络的语音降噪与去混响方法，其特征在于，根据解码后的数据重组语音信号，包括：

根据解码后的数据计算掩码信号，以得到信号增益；

10.一种基于改进型深度卷积网络的语音降噪与去混响***，其特征在于，所述***包括：