CN117711417B

CN117711417B - 一种基于频域自注意力网络的语音质量增强方法及***

Info

Publication number: CN117711417B
Application number: CN202410163875.7A
Authority: CN
Inventors: 袁程浩; 归子涵; 刘瑨玮; 杨光义; 贺威
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-30
Anticipated expiration: 2044-02-05
Also published as: CN117711417A

Abstract

本发明公开了一种基于频域自注意力网络的语音质量增强方法及***，首先输入原始语音并进行预处理；然后将处理后频率响应输入频域自注意力网络；最终输出信号并对输出的信号进行后处理得到语音增强信号；频域自注意力网络，包括位置编码模块、N个相同的基本单元模块；位置编码模块包括位置编码层；基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层；N个相同的基本单元模块，其中N由所需网络深度决定。本发明能够实现对语音信号中噪声的去除，在语音通信方具有重要意义。

Description

一种基于频域自注意力网络的语音质量增强方法及***

技术领域

本发明属于语音质量处理技术领域，涉及一种语音质量增强方法及***，尤其涉及一种基于频域自注意力网络的语音质量增强方法及***。

背景技术

20世纪60年代中期数字信号处理领域形成的诸多富有实践性的理论和算法,如快速傅立叶变换(FFT）以及各种数字滤波器等是语音信号数字处理的各项理论和技术基础。在70年中后期之后，线性预测技术（LPC)已经用于语音信号的信息压缩和特征提取，并已成为语音信号处理中非常重要的一个工具。80年代语音信号处理技术的重大发展是隐马尔可夫模型（HMM）描述语音信号过程的产生过程。进入上世纪90年代以来，语音信号采集与分析技术在实际应用方面取得了许多突破性的研究进展。

在商业、教育和医疗保健等需要远程工作领域，对电话会议***有着较大的需求。因此电话会议***的语音质量十分关键。因此能否极大程度去除噪声对语音质量提升有着决定性作用。在全双工通信中，当回声干扰双端通话（DT）场景时，这些问题变得更具挑战性。因此，能够解决声学回声、噪声和去混响的解决方案对于实现无缝通信至关重要。

近年来，随着科学技术的不断进步，人工神经网络(ANN)的研究取得了迅速发展，语音信号处理的各项科学研究课题是促进其发展的催生力，同时，它的许多成果也体现在有关语音信号处理的各项技术之中。近年来，人们已经开发了联合AEC和NS方法以简化通信流水线，同时提供良好的AEC和NS性能。例如，MTFAA-Net是一种用于联合AEC和NS的神经网络，基于多尺度时频处理和流轴向注意力。然而MTFAA-Net仍然依赖于经典的AEC组件。

然而，目前基于深度学习的方法对语音噪声的数学建模仍然不够完善。同时由于对语音通信来说，实时降噪能力也十分重要，因此想要提高用户语音通信体验的享受度，需要减少算法时间的复杂度以提高实时去噪效果。

发明内容

为了解决现有技术语音质量增强方法出现的实时性低问题，本发明提出了一种基于频域自注意力网络的语音质量增强方法及***，可以应用于商业、军事等领域语音质量的增强。

本发明的方法所采用的技术方案是：一种基于频域自注意力网络的语音质量增强方法，包括以下步骤：

步骤S1，输入原始语音并进行预处理，获得语音数据的频率响应；

步骤S2，将处理后频率响应输入频域自注意力网络，得到语音质量增强后的频率响应；

所述频域自注意力网络，包括位置编码模块、N个相同的基本单元模块；

所述位置编码模块包括位置编码层，用于将位置信息添加到处理后的频率响应中；所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层；

步骤S3，对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。

进一步的，步骤S1中，对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2Π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列，并将这些序列按列堆叠成二维矩阵。

进一步的，步骤S2中，所述位置编码模块中的位置编码函数为：

其中，表示位置编码,/>表示单词在句子中的位置，/>表示/>的维度，/>表示偶数的维度，/>表示奇数维度。

进一步的，步骤S2中，将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层，其中每个注意力头由三个可进行参数优化的权重矩阵/>、/>、/>组成，用于获得查询Q、键值K、值V，具体计算公式为：

得到矩阵Q、K、V之后计算出多注意力头层的输出，具体公式如下：

其中，是/>矩阵的列数，即向量维数，/>为转置运算，/>为归一化函数；

将多注意力头层的输出和位置编码后的频率响应输入到残差连接层，用于解决多层网络训练的问题，然后将残差连接层的输出进行层归一化，层归一化的结果输入到前馈层中，使最终输出矩阵维度与输入维度一致，最后再将前馈层的结果进行残差连接和层归一化，得到最终的频率响应。

进一步的，归一化函数的计算公式为：

其中，为求向量/>的最大值；

残差连接层由2个卷积层组成，具体公式如下：

其中，为残差连接层的输出，/>为残差连接层中第2个卷积层的输出，/>'为残差连接层的输入；

前馈层包括两层全连接层，第一层使用Relu激活函数，第二层不使用激活函数，具体公式如下：

其中是输入，/>和/>分别为两个全连接层参数，/>和/>分别为两个全连接层偏置。

进一步的，步骤S2中，所述频域自注意力网络是训练好的频域自注意力网络；训练过程包括以下子步骤：

步骤SS1，使用含原始语音和干净语音的VOICEBANK数据集；

步骤SS2，对数据集进行预处理，将预处理后的数据集输入到频域自注意力网络中进行训练，通过反向传播算法不断优化模型参数，使其能够达到较好的语音增强效果。

进一步的，步骤SS2中，所述预处理包括傅里叶变换、归一化和升维操作；首先对输入的原始语音进行傅里叶变换获得频率响应；然后对频率响应进行归一化处理；最后对归一化后的频率响应进行升维操作获得计算矩阵；训练过程中采用均方误差损失函数，训练至网络收敛，即训练损失函数曲线保持平稳不再下降。

进一步的，步骤S3中，所述后处理包括取正值、降维操作、傅里叶逆变换，所述取正值是将网络输出结果取正，所述降维操作，是指将取正后的结果按序拼接成一维的序列，从而得到语音质量增强后的一维频率响应，所述傅里叶逆变换，是利用逆快速傅里叶变换函数获得质量增强后的语音信号。

本发明还提供一种基于频域自注意力网络的语音质量增强***，包括以下单元：

预处理单元，用于输入原始语音并进行预处理，获得语音数据的频率响应；

语音质量增强单元，用于将处理后频率响应输入频域自注意力网络，得到语音质量增强后的频率响应；

后处理单元，用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。

本发明采用频域自注意力网络实现对原始语音质量进行增强。该技术结合了频域分析和深度学习算法，首先利用快速傅里叶变换获取原始语音信号的频率响应，这些信号包含了有效语音信号和无效噪声的特征。然后对原始语音信号频率响应使用升维操作，使其成为二维矩阵以输入网络处理。然后使用频域自注意力网络模型对升维后的频率响应进行特征提取。最终对输出的信号进行降维操作，从而实现对语音信号中噪声的去除。与传统的语音质量增强方法相比，本发明具有稳定性、独立性、快速高效等优点，能够大大提高语音质量增强的准确形和效率，为商业、军事等领域语音通信方面提供有力的保障。

附图说明

下面使用实施例，以及具体实施方式作进一步说明本文的技术方案。另外，在说明技术方案的过程中，也使用了一些附图。对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图以及本发明的意图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的频域自注意力网络结构图；

图3为本发明实施例的频域自注意力网络训练流程图；

图4为本发明实施例的升维操作结构图；

图5为本发明实施例的降维操作结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本实施例以给定的待测语音数据集为例，对本发明做进一步的阐述。请见图1，本实施例提供的一种基于频域自注意力网络的语音质量增强方法，包括以下步骤：

步骤S1：将给定待测数据集中原始语音信号输入并进行预处理；

在一种实施方式中，对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2Π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为200个长度为512的序列，并将这些序列按列堆叠成512×200的二维矩阵。

步骤S2：将处理后频率响应输入频域自注意力网络，得到语音质量增强后的频率响应；

请见图2，所述入频域自注意力网络，包括位置编码模块、N个相同的基本单元模块；所述位置编码模块，包括位置编码层；所述基本单元模块，包括多注意力头层、残差连接和层归一化层、前馈层；所述N个相同的基本单元模块，其中N由所需网络深度决定。

在一种实施方式中，所述位置编码模块，是将序列的位置信息添加到处理后的频率响应中，具体的位置编码函数为：

其中,表示单词在句子中的位置,/>表示该处的位置编码，/>表示/>的维度，表示偶数的维度，/>表示奇数维度(即/>≤/>,/>≤/>)。

在一种实施方式中，所述基本单元模块，将位置编码后的频率响应输入8个并列的注意力头组成的多注意力头层，其中每个注意力头由三个可进行参数优化的权重矩阵、/>、/>组成，用于获得Q（查询）、K（键值）、V（值），具体计算公式为：

得到矩阵Q、K、V之后可计算出多注意力头层的输出，具体公式如下：

其中，是/>矩阵的列数，即向量维数，/>为转置运算，/>为归一化函数，归一化计算公式为：

其中，为求集合/>中元素的最大值，/>和/>为集合z中的元素；

将多注意力头层的输出和位置编码后的频率响应输入到残差连接层，残差残差层由2个卷积层组成，用于解决多层网络训练的问题，让网络关注当前差异部分，具体公式如下：

其中，为残差连接层的输出，/>为残差连接层中第2个卷积层的输出，/>为残差连接层的输入，采用残差结构，使得网络在深度较深时“短路”某些层以防止网络退化；

将残差连接层的输出进行层归一化，将每一层神经元输入转化一致以加快收敛；

将层归一化的结果输入到前馈层中，使最终输出矩阵维度与输入维度一致，前馈层是一个两层的全连接层，第一层使用Relu激活函数，第二层不使用激活函数，具体公式如下：

其中是输入，/>和/>分别为两个全连接层参数，/>和/>分别为两个全连接层偏置；

最后将前馈层的结果进行残差连接和层归一化，得到最终的频率响应。

请见图3，在一种实施方式中，所述频域自注意力网络，是训练好的频域自注意力网络；训练过程包括以下子步骤：

步骤SS1：使用含原始语音和干净语音的VOICEBANK数据集；

在一种实施方式中，所述VOICEBANK数据集是深度学习常用的语音去噪数据集，使用该数据集是其常被引用具备代表性。

步骤SS2：对数据集进行预处理，将预处理后的数据集输入到频域自注意力网络模型中进行训练，通过反向传播算法不断优化模型参数，使其能够达到较好的语音增强效果；

在一种实施方式中，所述预处理，包括傅里叶变换、归一化和升维操作；首先对输入的原始语音进行傅里叶变换获得频率响应；然后对频率响应进行归一化处理；最后对归一化后的频率响应进行升维操作获得计算矩阵；训练过程中采用均方误差损失函数，训练至网络收敛，即训练损失函数曲线保持平稳不再下降。将语音去噪增强效果最好的作为最终的结果。

请见图4，所述升维操作是将本为一维序列的频域信号裁剪为200个长度为512的序列，并将这些序列按列堆叠成512×200的二维矩阵。

步骤S3：输出信号并对输出的信号进行后处理得到语音增强信号；

在一种实施方式中，对输出的信号进行后处理，包括取正值、降维操作、傅里叶逆变换，所述取正值是将网络输出结果取正，所述降维操作，是指将取正后的网络输出结构按序拼接成一维长度为512×200的序列，从而得到语音质量增强后的一维频率响应，所述傅里叶逆变换，是利用逆快速傅里叶变换函数获得质量增强后的语音。

请见图5，所述降维操作是将为512×200的二维矩阵按序拼接成一维长度为512×200的一维序列。

在一种实施方式中，对模型进行语音去噪或增强的执行效率进行客观评价，以反映本发明实施例的性能，具体使用的指标为每秒十亿浮点运算次数（GFLOPs）、内存需求（Memory）和执行时间（Time），具体公式为：

其中，是指以浮点运算为单位的模型计算量，/>是指以秒为单位的模型执行时间，/>是衡量计算性能的指标，表示每秒执行的十亿次浮点运算次数。

在一种实施方式中，在VOICEBANK数据集上对模型性能进行评估，得到的实验结果如表1所示，性能最高的指标加粗表示。通过与目前主流的语音去噪和增强方法进行对比，本发明的性能表现较为优秀。

表1.VOICEBANK数据集上各语音去噪和增强方法执行效率性能对比

其中，I表示在CPU上的计算，B表示在GPU上的计算。算法ConvTsaNet、Demucs、DPRNN、Two-Step TDCN分别参考文献Luo Y, Mesgarani N. Conv-tasnet: Surpassingideal time–frequency magnitude masking for speech separation[J]. IEEE/ACMtransactions on audio, speech, and language processing, 2019, 27(8): 1256-1266.、Défossez A, Usunier N, Bottou L, et al. Demucs: Deep extractor formusic sources with extra unlabeled data remixed[J]. arXiv preprint arXiv:1909.01174, 2019.、Tzinis E, Venkataramani S, Wang Z, et al. Two-step soundsource separation: Training on learned latent targets[C]//ICASSP 2020-2020IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2020: 31-35。

本发明实施例还提供一种基于频域自注意力网络的语音质量增强***，包括以下单元：

各单元的具体实现方式与各步骤相同，本发明不予撰述。

本发明实施例还提供了一种基于频域自注意力网络的语音增强设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于频域自注意力网络的语音质量增强方法。

本发明能够实现对语音信号中噪声的去除。与传统的语音质量增强方法相比，本发明具有稳定性、独立性、快速高效等优点，能够大大提高语音质量增强的准确形和效率，为商业、军事等领域语音通信方面提供有力的保障，具有较好的推广应用前景。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于频域自注意力网络的语音质量增强方法，其特征在于，包括以下步骤：

步骤S1中，对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2Π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列，并将这些序列按列堆叠成二维矩阵；

归一化函数的计算公式为：

其中，为求向量/>的最大值；

残差连接层由2个卷积层组成，具体公式如下：

步骤S2中，所述频域自注意力网络是训练好的频域自注意力网络；训练过程包括以下子步骤：

步骤SS1，使用含原始语音和干净语音的VOICEBANK数据集；

步骤SS2，对数据集进行预处理，将预处理后的数据集输入到频域自注意力网络中进行训练，通过反向传播算法不断优化模型参数，使其能够达到较好的语音增强效果；

步骤SS2中，所述预处理包括傅里叶变换、归一化和升维操作；首先对输入的原始语音进行傅里叶变换获得频率响应；然后对频率响应进行归一化处理；最后对归一化后的频率响应进行升维操作获得计算矩阵；训练过程中采用均方误差损失函数，训练至网络收敛，即训练损失函数曲线保持平稳不再下降；

步骤S3，对语音质量增强后的频率响应进行后处理得到最终的语音增强信号；

步骤S3中，所述后处理包括取正值、降维操作、傅里叶逆变换，所述取正值是将网络输出结果取正，所述降维操作，是指将取正后的结果按序拼接成一维的序列，从而得到语音质量增强后的一维频率响应，所述傅里叶逆变换，是利用逆快速傅里叶变换函数获得质量增强后的语音信号。

2.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法，其特征在于：步骤S2中，所述位置编码模块中的位置编码函数为：

3.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法，其特征在于：步骤S2中，将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层，其中每个注意力头由三个可进行参数优化的权重矩阵/>、/>、/>组成，用于获得查询Q、键值K、值V，具体计算公式为：

4.一种基于频域自注意力网络的语音质量增强***，其特征在于，包括以下单元：

对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2Π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列，并将这些序列按列堆叠成二维矩阵语音质量增强单元，用于将处理后频率响应输入频域自注意力网络，得到语音质量增强后的频率响应；

归一化函数的计算公式为：

其中，为求向量/>的最大值；

残差连接层由2个卷积层组成，具体公式如下：

步骤SS1，使用含原始语音和干净语音的VOICEBANK数据集；

后处理单元，用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号；

所述后处理包括取正值、降维操作、傅里叶逆变换，所述取正值是将网络输出结果取正，所述降维操作，是指将取正后的结果按序拼接成一维的序列，从而得到语音质量增强后的一维频率响应，所述傅里叶逆变换，是利用逆快速傅里叶变换函数获得质量增强后的语音信号。