CN113611321A

CN113611321A - 一种语音增强方法及***

Info

Publication number: CN113611321A
Application number: CN202110795988.5A
Authority: CN
Inventors: 王雨田; 王童; 王晖; 赵海博
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-05
Anticipated expiration: 2041-07-14
Also published as: CN113611321B

Abstract

本发明公开了一种语音增强方法及***，包括：获取带噪语音信号；对所述带噪语音信号进行小波分解，获得若干个带噪子带；将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；将若干个所述增强子带进行小波合成，获得增强后的语音信号。本发明通过离散小波变化可以逐层减少信号的长度，降低采样点的数量，更加适用于语音这类非平稳信号，提升了语音信号增强的效果。

Description

一种语音增强方法及***

技术领域

本发明涉及音频处理技术领域，特别是涉及一种语音增强方法及***。

背景技术

在实际应用中，语音信号容易受到噪声的干扰，需要通过语音增强技术抑制噪声干扰，降低噪声对语音的影响，从含噪语音中提取有用的语音信号。目前的语音增强技术主要是基于深度学习的语音增强方法，即采用两种音频特征作为网络的输入，其中，一种是基于音频时域波形进行语音增强，另一种方法则是先将语音进行短时傅里叶变化等一些信号预处理的手段，再做降噪处理。

但是，基于音频时域波形进行语音增强的方式，由于时域信号的采样点密集，对于长音频来说，网络难以学***稳信号，对于非平稳信号来说，信号在不同时间的频率成分均不相同，其并不能区分，因此该方式适用范围受限，对非平稳信号的增强效果较差。

发明内容

针对于上述问题，本发明提供一种语音增强方法及***，实现了适用范围广，并提升了语音增强的效果。

为了实现上述目的，本发明提供了如下技术方案：

一种语音增强方法，包括：

获取带噪语音信号；

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；

将若干个所述增强子带进行小波合成，获得增强后的语音信号。

可选地，所述对所述带噪语音信号进行小波分解，获得若干个带噪子带，包括：

对所述带噪语音信号进行第一级小波分解，获得第一级近似系数和第一级细节系数；

对所述第一细节系数进行逐级分解，直至获得第N级近似系数和第N级细节系数，其中，N为正整数表示分解的层级数量；

将所述第N级近似系数和每一级对应的细节系数确定为若干个带噪子带。

可选地，所述将若干个所述增强子带进行小波合成，获得增强后的语音信号，包括：

基于增强子带对应的第N级近似系数和每一级对应的细节系数进行小波重构，获得增强后的语音信号。

可选地，所述方法还包括：

获取训练样本，所述训练样本包括带噪语音信号和干净语音信号；

对所述训练样本进行预处理，获得训练矩阵；

对所述训练矩阵进行神经网络训练，获得语音增强模型。

可选地，所述对训练样本进行预处理，获得训练矩阵，包括：

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

对每一所述带噪子带进行分帧和归一化处理，获得带噪矩阵；

对所述干净语音信号进行小波分解，获得若干个干净子带；

对每一所述干净子带进行分帧和归一化处理，获得干净矩阵。

可选地，所述对所述训练矩阵进行神经网络训练，获得语音增强模型，包括：

将所述带噪矩阵输入到初始神经网络模型中，使得所述初始神经网络模型进行学习，获得增强矩阵；

基于所述增强矩阵和所述干净矩阵的比较结果，对所述初始神经网络模型的参数进行调整，以获得语音增强模型。

一种语音增强***，包括：

获取单元，用于获取带噪语音信号；

分解单元，用于对所述带噪语音信号进行小波分解，获得若干个带噪子带；

模型处理单元，用于将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；

合成单元，用于将若干个所述增强子带进行小波合成，获得增强后的语音信号。

可选地，所述分解单元具体用于：

可选地，所述合成单元具体用于：

可选地，所述***还包括：

样本获取单元，用于获取训练样本，所述训练样本包括带噪语音信号和干净语音信号；

预处理单元，用于对所述训练样本进行预处理，获得训练矩阵；

训练单元，用于对所述训练矩阵进行神经网络训练，获得语音增强模型。

可选地，所述预处理单元具体用于：

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

对所述干净语音信号进行小波分解，获得若干个干净子带；

相较于现有技术，本发明提供了一种语音增强方法及***，包括：获取带噪语音信号；对所述带噪语音信号进行小波分解，获得若干个带噪子带；将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；将若干个所述增强子带进行小波合成，获得增强后的语音信号。本发明通过离散小波变化可以逐层减少信号的长度，降低采样点的数量，更加适用于语音这类非平稳信号，提升了语音信号增强的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音增强方法的流程示意图；

图2为本发明实施例提供的一种离散小波分解的示意图；

图3为本发明实施例提供的一种基于离散小波变换的深度学习语音增强架构的示意图；

图4为本发明实施例提供的一种子带的训练流程的示意图；

图5为本发明实施例提供的一种语音增强***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种语音增强方法，参见图1，该方法可以包括以下步骤：

S101、获取带噪语音信号。

带噪语音信号是指通过音频采集设备采集到的或传输得到的原始音频信号。其中，噪声可能含有日常生活中的环境噪声、其他说话人的声音、以及采集设备额外产生的电流声音等等。

S102、对所述带噪语音信号进行小波分解，获得若干个带噪子带。

短时傅里叶变换(STFT)试图利用加窗等手段解决非平稳信号的问题。但是STFT窗函数宽窄的选取对于结果影响很大。对于非平稳信号来说，不同的时间间隔具有不同的频率成分，窄窗口适用于高频，宽窗口适用于低频，但STFT使用固定长度的窗函数，无法满足非平稳信号频率随时间无规律变化的特性。因此在语音增强上使用短时傅里叶变换也是存在一定弊端的。

而小波变换作为短时傅里叶变换的一种替代方法克服了分辨率的问题，如式(1)所示，

是小波基函数的数学表达式，其中，a为尺度因子，控制小波基的伸缩，与频率成反比，τ为平移因子，控制小波基的位置。基函数压缩对应信号的高频信息，拉伸对应信号的低频信息。当不同尺度的基函数分别平移，与信号相乘一遍后，就可以知道信号在每个位置都包含了哪些频率成分了。

由此可见，小波变换不当可以分析出非平稳信号包含哪些频率成分，而且还可以知道每一个频率成分出现的时间，规避了FFT以及STFT的弊端。对于语音这类非平稳信号使用小波变换更具有优势。因此，在本发明实施例中使用小波变换作为语音降噪时音频处理的手段。

由于一些连续小波变换(CWT)不存在逆变换，无法对信号进行重构，因此，在本发明实施例中优选离散小波变换(DWT)，DWT具有逆变换，可以用于信号的分解与重构。基于离散小波变换的语音降噪方法可以采用阈值法。在小波域，有效的语音信号往往具有较高的系数，而噪声对应的系数则很小，设定一个阈值λ，可以认为大于该阈值的系数是由语音主导的，保持不变，而小于λ的系数为噪声，通过将该点系数设置为零去除噪声。最后对处理后的小波系数进行逆变换，重构回语音。但是，小波阈值法进行语音降噪，其效果依赖于对阈值的选取，而且直接将噪声主导的系数点设置为零，会使得语音不平滑、不连续，导致降噪效果有待提高。因此，在本发明实施例中选择基于深度学习的方法进行语音降噪。

在本发明实施例的一种实施方式中，所述对所述带噪语音信号进行小波分解，获得若干个带噪子带，包括：对所述带噪语音信号进行第一级小波分解，获得第一级近似系数和第一级细节系数；对所述第一细节系数进行逐级分解，直至获得第N级近似系数和第N级细节系数，其中，N为正整数表示分解的层级数量；将所述第N级近似系数和每一级对应的细节系数确定为若干个带噪子带。

具体的，对带噪语音信号进行N级的小波分解，得到1个近似系数和N个细节系数，也就是说输入的带噪语音信号被分解成了N+1段，称其为子带0、子带1、子带2…子带N。即子带是指语音信号经过N级离散小波变换值周得到若干个小波系数，其中，近似系数是信号与尺度函数的内积，细节系数是信号与小波函数的内积。具体的，将在后续的实施例中进行说明，此处不进行详述。

S103、将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带。

S104、将若干个所述增强子带进行小波合成，获得增强后的语音信号。

其中，语音增强模型为基于深度学习的神经网络模型，即将每一带噪子带分别输入到相应的神经网络当中进行语音增强，网络的输出即为增强后的各个子带，其中，神经网络的结构可以根据实际需求进行选择，如可以使用RNN网络、GAN架构等。最后再对增强子带进行小波合成便可以得到最终降噪后的语音。

语音增强的目的是提高语音的可懂度和语音质量，可作为语音识别、语音分析等语音处理***的前端处理，提高其识别准确率。也可以用于助听器等语音辅助设备，提高在噪声环境中交流的效率。

本发明实施例提供了一种语音增强方法及***，包括：获取带噪语音信号；对所述带噪语音信号进行小波分解，获得若干个带噪子带；将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；将若干个所述增强子带进行小波合成，获得增强后的语音信号。本发明通过离散小波变化可以逐层减少信号的长度，降低采样点的数量，更加适用于语音这类非平稳信号，提升了语音信号增强的效果。

在本发明实施例中选用离散小波变换(DWT)作为语音信号的分析手段。对于离散小波变换来说，可以看成是几个低通滤波器和高通滤波器的级联。以5级的离散小波变换为例，如图2所示，首先将信号进行第一级的小波分解，经过低通滤波器LP得到一个低频的近似系数CA-1，经过高通滤波器HP得到一个高频的细节系数CD-1。接着，对近似系数CA-1再进行小波分解，得到第二级的近似系数和细节系数CA-2和CD-2，以此类推，最终得到近似系数和细节系数CA-5和CD-5。对于小波合成的处理，是基于增强子带对应的第N级近似系数和每一级对应的细节系数进行小波重构，获得增强后的语音信号。即下一级的近似系数和细节系数可以重构出上一级的近似系数，因此只需要1个近似系数和5个细节系数便可以重构回原来的语音。因此，在后续的网络训练中，所需要输入的特征就是近似系数CA-5以及细节系数CD-1至CD-5。

需要说明的是，离散小波变换的特点就是信号每经过一次变换，得到的近似系数和细节系数的长度就会变为上一级的二分之一，也就是随着层级的增加，信号长度会逐渐减小。这样的好处是信号经过小波变换后输入到网络中的样本数量会随着层级的增加而减小，相比于直接使用时域波形作为特征进行语音增强来说，网络更容易训练也更容易收敛。并且原始信号被转换成几个不同频段的信号，接下来边可以对信号分频段进行操作。随着高频信息的逐渐分离，对于人耳来说相对敏感的低频信息会被压缩到最短，能够使网络更容易、更准确地处理语音的低频部分，提高语音降噪的效果。

在本发明实施例中还提供了一种创建语音增强模型的方法，该方法包括：

对所述训练样本进行预处理，获得训练矩阵；

对所述训练矩阵进行神经网络训练，获得语音增强模型。

对应的，所述对训练样本进行预处理，获得训练矩阵，包括：

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

对所述干净语音信号进行小波分解，获得若干个干净子带；

进一步的，所述对所述训练矩阵进行神经网络训练，获得语音增强模型，包括：

举例说明，参见图3，为基于离散小波变化的深度学习的语音增强架构。首先，采用离散小波变换对训练样本进行预处理，即对输入的带噪音频信号以及干净语音信号进行N级的小波分解，得到1个近似系数和N个细节系数，也就是说输入的音频信号被分解成了N+1段，将其称为子带0、子带1……子带N。假设输入的音频长度为L，那么此时子带0和子带1的长度为

子带2的长度为

以此类推，子带N的长度为

然后，将每一个子带分别输入到相应的神经网络中进行语音增强，网络的输出即为增强后的各个子带，即子带0＇、子带1＇……子带N＇。

对于每一子带来说，具体的训练流程如图4所示。以子带2为例，现将长度为

的带噪子带以帧长为length进行分帧，对于不够length得到一个维度为[length，nframe]的矩阵，nframe是指音频分帧的帧数。由于信号经过多级离散小波分解之后的输出量相差很大，因此需要在网络训练之前对数据进行归一化处理，利用式(2)将其数值都限制在[-1,1]之间。同样对训练样本中的干净语音子带也进行同样的分帧和归一化操作，将得到干净矩阵作为网络训练的目标。

将上述得到的带噪矩阵输入到神经网络当中，让网络学习从带噪到干净的映射，得到增强矩阵。将增强矩阵与干净矩阵做比较，将二者之间的损失loss作为神将网络反向传播的依据，指导参数更新。最后，将增强矩阵进行相应的反归一化以及拼接，最终得到增强子带，将这N+1个神经网络分别得到的N+1个增强子带进行小波重构，就完成了语音增强。

在本发明实施例中的基于离散小波变换的语音增强方法中，使用离散小波变换可以替代传统的时域波形或短时傅里叶变换作为***的预处理部分。时域波形虽然包含了语音的全部信息，但是采集点密集，不易训练。STFT中窗函数的宽窄固定，无法满足语音这种非平稳信号频率随时间无规律变化的特性。多层级的离散小波变换弥补了二者的不足，一方面会逐层减少信号的长度，降低采样点的数量，另一方面使用不定长的小波基来处理信号，更加适用于语音这类非平稳信号。并且，避免使用上采样网络。通常语音增强模型都会使用U-Net等包含上采样网络的结构，而上采样网络会产生伪影，造成语音失真。离散小波变换使用数学手段对信号进行下采样，合成时同样使用数学手段进行重构，无需使用上采样网络对信号进行还原，因此，在本发明实施例提出的网络架构可以避开上采样网络，从而避免伪影的产生。在本发明实施例中对语音信号进行分层级的处理。语音信号经过N层离散小波变换之后，得到的N+1个子带具有不同的频率信息。子带0包含了更多的低频信息，子带N则大多包含的是高频信息。与目前大多数基于神经网络的语音增强方法不同的是，本发明实施例中对各个子带分开进行处理，因此可以使用不同的神经网络结构，以适应不同子带的不同特性。

参见图5，一种语音增强***，包括：

获取单元201，用于获取带噪语音信号；

分解单元202，用于对所述带噪语音信号进行小波分解，获得若干个带噪子带；

模型处理单元203，用于将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；

合成单元204，用于将若干个所述增强子带进行小波合成，获得增强后的语音信号。

进一步地，所述分解单元具体用于：

对应的，所述合成单元具体用于：

进一步地，所述***还包括：

进一步地，所述预处理单元具体用于：

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

对所述干净语音信号进行小波分解，获得若干个干净子带；

本发明实施例提供了一种语音增强***，包括：获取单元获取带噪语音信号；分解单元对所述带噪语音信号进行小波分解，获得若干个带噪子带；模型处理单元将每一所述带噪子带输入至语音增强模型，获得与每一带噪子带对应的增强子带；合成单元将若干个所述增强子带进行小波合成，获得增强后的语音信号。本发明通过离散小波变化可以逐层减少信号的长度，降低采样点的数量，更加适用于语音这类非平稳信号，提升了语音信号增强的效果。

基于前述实施例，本发明的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一项的语音增强方法的步骤。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的语音增强方法的步骤。

需要说明的是，上述处理器或CPU可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable GateArray，FPGA)、中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本发明实施例不作具体限定。

需要说明的是，上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音增强方法，其特征在于，包括：

获取带噪语音信号；

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

2.根据权利要求1所述的方法，其特征在于，所述对所述带噪语音信号进行小波分解，获得若干个带噪子带，包括：

3.根据权利要求2所述的方法，其特征在于，所述将若干个所述增强子带进行小波合成，获得增强后的语音信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述训练样本进行预处理，获得训练矩阵；

对所述训练矩阵进行神经网络训练，获得语音增强模型。

5.根据权利要求4所述的方法，其特征在于，所述对训练样本进行预处理，获得训练矩阵，包括：

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

对所述干净语音信号进行小波分解，获得若干个干净子带；

6.根据权利要求5所述的方法，其特征在于，所述对所述训练矩阵进行神经网络训练，获得语音增强模型，包括：

7.一种语音增强***，其特征在于，包括：

获取单元，用于获取带噪语音信号；

8.根据权利要求7所述的方法，其特征在于，所述分解单元具体用于：

9.根据权利要求7所述的***，其特征在于，所述***还包括：

10.根据权利要求9所述的***，其特征在于，所述预处理单元具体用于：

对所述带噪语音信号进行小波分解，获得若干个带噪子带；

对所述干净语音信号进行小波分解，获得若干个干净子带；