CN113299302A

CN113299302A - 音频降噪方法、装置及电子设备

Info

Publication number: CN113299302A
Application number: CN202110436802.7A
Authority: CN
Inventors: 王少华; 杨闳博
Original assignee: Vivo Mobile Communication Hangzhou Co Ltd
Current assignee: Vivo Mobile Communication Hangzhou Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-24

Abstract

本申请公开了一种音频降噪方法、装置及电子设备，属于通信技术领域。该方法包括：获取第一音频信号，第一信号包括语音信号和噪声信号；对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从所述第二音频信号中获取的信号；根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。

Description

音频降噪方法、装置及电子设备

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种音频降噪方法、装置及电子设备。

背景技术

随着电子技术的发展，电子设备具有收发音频信号、播放音频信号等多种功能，为了保证音频信号的质量，而对音频信号进行降噪处理成为一种常见的处理手段。

目前，数字滤波作为一种常见的信号处理技术(例如，自适应滤波、小波变换滤波等)，可以用于对音频信号进行降噪。数字滤波技术主要是利用频谱特征的不同来压制干扰波，以突出有效波。然而，在实际使用中，由于麦克风采集的带噪语音信号中的信噪比具有不确定性，即有的带噪语音信号的信噪比较高，有的带噪语音信号的信噪比较低。如此，可能导致使用数字滤波技术时，带噪语音信号中的噪音频谱特征和语音频谱特征的区分度较低，从而导致对音频信号的降噪效果较差。

发明内容

本申请实施例的目的是提供一种音频降噪方法、装置及电子设备，能够解决对音频信号的降噪效果较差的问题。

第一方面，本申请实施例提供了一种音频降噪方法，该方法包括：获取第一音频信号，第一信号包括语音信号和噪声信号；对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从该第二音频信号中获取的信号；根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。

第二方面，本申请实施例提供了一种音频降噪装置，该装置包括：获取模块、第一降噪模块、处理模块和第二降噪模块。获取模块，用于获取第一音频信号，该第一信号包括语音信号和噪声信号；第一降噪模块，用于对获取模块获取的该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；处理模块，用于将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号；第二降噪模块，用于根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，该处理器用于运行程序或指令，实现如第一方面的方法。

在本申请实施例中，获取第一音频信号，第一信号包括语音信号和噪声信号；对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号；根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。通过该方法，一方面，由于对音频信号先进行预降噪，以提升音频信号的信噪比，因此，使得该音频信号中的语音信号的特征更加突出，使用训练后的目标深度学习网络模型的准确性得以提高；另一方面，通过使用该目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号再次进行降噪处理，从而进一步提升对音频信号的降噪效果。

附图说明

图1为本申请实施例提供的一种音频降噪方法的示意图之一；

图2为本申请实施例提供的一种音频降噪方法的示意图之二；

图3为本申请实施例提供的一种音频降噪方法的示意图之三；

图4为本申请实施例提供的一种音频降噪装置的结构示意图；

图5为本申请实施例提供的电子设备的硬件示意图之一；

图6为本申请实施例提供的电子设备的硬件示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频降噪方法进行详细地说明。

本申请实施例提供的音频降噪方法，可以应用且不限于以下任一场景中：场景一、用户使用电子设备进行语音通话；场景二，用户使用电子设备收发预判信号；场景三、用户使用电子设备播放音频。

电子设备可以获取包括语音信号和噪声信号的第一音频信号，并对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；然后，将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号；接着，根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。通过该方法，一方面，由于对音频信号先进行预降噪，以提升音频信号的信噪比，因此，使得该音频信号中的语音信号的特征更加突出，从而使用训练后的目标深度学习网络模型的准确性得以提高；另一方面，通过使用该目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号再次进行降噪处理，从而进一步提升对音频信号的降噪效果。

如图1所示，本申请实施例提供一种音频降噪方法，该方法可以包括下述的步骤101至步骤104。

步骤101、电子设备获取第一音频信号。

其中，上述第一信号包括语音信号和噪声信号。

可选的，本申请实施例中，上述第一音频信号为带噪语音信号，具体的该带噪语音信号可以为麦克风采集的带噪语音信号，也可以为电子设备使用纯语音信号和噪声信号叠加得到的仿真带噪语音信号。其中，该仿真带噪语音信号更侧重于在训练过程中使用。

可选的，本申请实施例中，在步骤101之前，电子设备可以将电子设备存储的语音信号(如，历史通话信号、纯用户语音信号等)与噪声信号(可以为采集的各种环境噪声信号，也可以为电子设备随机生成的白噪声信号等)进行信号模拟或叠加得到的带噪语音信号，作为第一音频信号。相应的，这种生成第一音频信号的方式可以明确控制所生成的第一音频信号的信噪比，具体得知语音信号和噪声信号，在后续步骤中可以用于验证训练得到的目标深度学习网络模型的准确性。

可选的，本申请实施例中，上述第一音频信号一般为带噪语音信号的频域信号。若在实际使用过程中得到的第一信号为时域信号，可以根据傅里叶变换得到其频域信号，具体可以参考相关技术，此处不予赘述。

示例性的，假设电子设备可以随机获取纯语音信号s(n)和噪声信号v(n)，其中，n表示时间。那么电子设备可以叠加得到带噪语音信号y(n)＝s(n)+v(n)，然后，可以将y(n)经过傅里叶变换得到Y(m,k)作为上述第一音频信号，其中，m表示时间，k表示频点，m和k均为正整数。

需要说明的是，本申请实施例中，未经过特殊说明下述实施例中中的音频信号均为频域信号，即对音频信号在频域上进行处理和操作。

步骤102、电子设备对第一音频信号进行预降噪处理得到第二音频信号。

其中，上述第二音频信号的信噪比大于第一信号的信噪比；

可选的，本申请实施例中，电子设备对第一音频信号的预降噪处理目的在于提升音频信号的信噪比，使得该音频信号中的语音信号的特征更加突出，一方面，在对目标深度学习网络模型进行训练时提升训练效果和准确性；另一方面，在在实际判断过程中，由于语音信号的特征更加鲜明，因此可以提升使用目标深度学习网络模型的处理速度。

可选的，下述实施例可以通过对第一音频信号进行平稳底噪估计的方式对第一信号进行预降噪处理以到信噪比更高的第二音频信号。

可选的，本申请实施例中，上述步骤102具体可以通下述步骤102a至步骤102c实现。

步骤102a、电子设备对第一音频信号进行平稳底噪估计，得到第一底噪。

可选的，本申请实施例中，电子设备可以对第一音频信号采用最小值追踪、直方图等方式确定第一底噪。具体操作可以参考相关技术，此处不予赘述。

需要说明的是，该第一底噪为平稳底噪，该第一底噪用于表征该第一音频信号经过平稳底噪估计后确定的降噪标准，后续步骤可以通过该第一底噪计算出对应的增益值(如，第一增益)，并通过该增益值对第一音频信号进行预降噪处理。即步骤102中的与降噪是基于平稳底噪的降噪处理。

步骤102b、电子设备根据第一音频信号和第一底噪，计算第一增益。

可选的，本申请实施例中，上述计算第一增益的具体方法可以为：首先，通过第一底噪和第一音频信号，计算得到后验信噪比，进而确定先验信噪比；然后，电子设备使用先验信噪比和后验信噪比，使用维纳滤波方法确定第一增益。

需要说明的是，本申请实施例中，上述第一增益用于表征对第一音频信号进行降噪处理的程度，即当第一增益值越大时，理论上降噪效果越好。但在实际使用过程中还需要兼顾对第一音频信号处理之后，得到的第二音频信号的能量谱和第二音频信号中语音信号的完整度等。

步骤102c、电子设备根据第一增益，对第一信号进行预降噪处理，得到第二音频信号。

可选的，本申请实施例中，电子设备可以根据第一增益对第一信号进行滤波和修正补偿等降噪处理，得到第二音频信号。该第一音频信号为经过预降噪处理之后的第一音频信号，相较于第一音频信号该第二音频信号中的语音信号的特征更加突出，从而方便训练学习或结果验证。

具体的，根据第一增益对第一信号进行降噪以得到第二音频信号可以通过下述公式确定：

其中，Y(m,k)表示第一音频信号，G_s(m,k)表示第一增益，

表示经过预降噪处理的第二音频信号，m表示时间，k表示频点，m和k均为正整数。

可以理解的是，由于电子设备可以通过平稳底噪估计的方式确定第一底噪，进而确定出第一增益，并根据第一增益对第一音频信号进行预降噪，得到信噪比较高的第二音频信号，如此，使得该第二音频信号中的语音信号的特征更加突出，一方面，在对目标深度学习网络模型进行训练时提升训练效果和准确性；另一方面，在在实际使用目标深度学习网络模型判断过程中，更加快速，提升电子设备的处理速度，节约用户时间。

步骤103、将第二音频信号输入到目标深度学习网络模型，得到第二音频信号的理想掩码。

其中，上述目标深度学习网络模型由第三音频信号和第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号。

可选的，本申请实施例中，上述第三音频信号具体可以为从第二音频信号中截取的部分音频信号，该部分音频信号可以为多个，具体可以根据需要的训练样本的数量确定。

需要说明的是，本申请实施例中，上述目标深度学习网络模型为已经训练完成的神经网络，电子设备可以将第二音频信号输入至该目标深度学习网络模型，直接得到该第二音频信号的理想掩码。

可选的，本申请实施例中，由于本申请所选用的深度学习网络模型用于非线性关系的数据拟合，因此可以根据实际使用需求选用：卷积神经网络(convolution neuralnetworks，CNN)、递归神经网络(recurrent neural network，RNN)多层感知器(muti－layer perception，MLP)、BP神经网络(back propagation，BP)、长短期记忆(long short-term memory，LSTM)中的至少一个网络进行训练，具体训练方法可以参考下述步骤105至步骤106中的具体描述，进而将训练完成的目标深度学习网络模型作为一个模块直接调用。

此外，本申请实施例中，上述第三音频信号具体为从第二音频信号中截取的部分信号，该部分信号对应的理想掩码为第三音频信号的理想掩码。即目标深度学习网络模型由第三音频信号和第三音频信号的对应的理想掩码训练得到。

具体的，上述理想掩码可以按照下述计算公式计算理想掩码IRM(m,k)：

其中，S(m,k)表示频域的纯语音信号，可由时域的纯语音信号s(n)经过傅里叶变换得到；

需要说明的是，上述S(m,k)表示频域的纯语音信号，在计算时可以依次对各个第三音频信号分别计算各自的第三音频信号的理想掩。

步骤104、电子设备根据第二音频信号的理想掩码，对第二音频信号进行降噪处理，得到目标音频信号。

可选的，本申请实施例中，电子设备可以使用目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号进行再次降噪处理，从而进一步提升对音频信号的降噪效果。

可选的，本申请实施例中，上述得到目标音频信号的方法具体可以为：首先，电子设备根据第二音频信号的理想掩码，对第二音频信号进行底噪估计，得到反应平稳底噪和非平稳底噪的一个底噪(如，下述第二底噪)；然后，电子设备根据该底噪，计算增益值(如，第二增益)；接着，电子设备可以根据该增益值对第二信号进行降噪处理，以得到目标音频信号。具体实现方式可以参考下述步骤104a至步骤104c中的具体描述，此处不予赘述。

在本申请实施例提供一种音频降噪方法，可以获取第一音频信号，第一信号包括语音信号和噪声信号；对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号；根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。通过该方法，一方面，由于对音频信号先进行预降噪，以提升音频信号的信噪比，因此，使得该音频信号中的语音信号的特征更加突出，使用训练后的目标深度学习网络模型的准确性得以提高；另一方面，通过使用该目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号再次进行降噪处理，从而进一步提升对音频信号的降噪效果。

可选的，结合图1，如图2所示，在步骤103之前，本申请实施例提供的音频降噪方法还包括下述步骤105和步骤106。

步骤105、电子设备获取训练样本。

其中，上述训练样本包括M个第三音频信号和M个第三音频信号的理想掩码，每个第三音频信号对应一个第三音频信号的理想掩码，该M个第三音频信号均为从该第二音频信号中获取的信号，M为正整数。

可选的，本申请实施例中，可以根据第一音频信号的数量合理确定训练样本的数量，即合理确定M的数量。而考虑到在实际使用过程中训练样本的数量越多(即，M的数量越大)深度学习网络模型训练的时间也相应越长、准确度也越高。

优选的，M取值范围可以为大于等于5000，且小于等于10000为宜。当然，在实际使用在也可以根据用户对训练准确度的要求、第一音频信号的数量，以及训练时间等要素综合考虑确定。

可选的，本申请实施例中，在实际操作过程中，可以将第三音频信号的频域谱特征和对应的该第三音频信号的理想掩码分别作为训练标签，或一起作为训练标签进行训练。下述实施例以一起作为训练标签为例进行示例性说明，如此，每个训练样本包括一个第三音频信号(可用频域谱表征)和该第三音频信号对应的理想掩码。

步骤106、电子设备根据训练样本，对深度学习网络模型进行训练，直至满足目标评价条件，得到目标深度学习网络模型。

其中，上述目标评价条件包括由第三音频信号的理想掩码构造的评价函数。

可选的，本申请实施例中，由于本申请所选用的深度学习网络模型用于非线性关系的数据拟合，因此可以根据实际使用需求选用：卷积神经网络(convolution neuralnetworks，CNN)、递归神经网络(recurrent neural network，RNN)多层感知器(muti－layer perception，MLP)、BP神经网络(back propagation，BP)、长短期记忆(long short-term memory，LSTM)中的至少一个网络进行训练。

具体的，在用户确定网络模型(例如，CNN网络模型)之后，首先，用户可以设置合适的网络层数和节点数(可以根据训练要求，输入的标签种类等确定)，进而，可以选择合适的激活函数(如，sigmoid、tanh等)；然后，构造评价函数(即，根据第三音频信号的理想掩码构造损失函数和代价函数)。

可选的，本申请实施例中，上述评价函数可以为：损失函数和/或代价函数。由于代价函数为所有损失函数的和，更有利于评价深度学习网络模型的准确度，因此，本申请可以采用根据第三音频信号的理想掩码构造损失函数和代价函数，如代价函数采用均方误差时增加对第三音频信号的理想掩码的评价。

可选的，本申请实施例中，在确定目标评价条件之后，用户可以设置目标阈值为训练终止条件。即，当训练之后的深度学习网络模型的目标评价条件(如：代价函数)小于或等于该目标阈值的情况下，训练终止，该深度学习网络模型作为目标深度学习网络模型。

可选的，本申请实施例中，上述训练样本在训练过程中具体可以分为以下三个集合：训练集、测试集和验证集。其中，训练集用于对深度学习网络模型进行初步的训练；测试集用于对经过初步训练的网络模型进行调参，并对初步训练的网络模型进而二次训练；验证集用于二次训练的网络模型使用验证集中的数据进行验证，在验证通过之后得到目标深度学习网络模型。

优选的，本申请实施例中，一种适合本申请的训练样本分配比例为，训练集：测试集：验证集＝6:2:2；或者，训练集：测试集：验证集＝6:3:1。

可选的，本申请实施例中，为了防止数据过拟合，即防止尽管训练的误差降的很低，但是测试误差却比较高的现象，用户可以适当修正神经网络模型，如调整网络层数和节点数；调整训练集、测试集和验证集的分配比例等方式进行修正。

可以理解的是，电子设备可以从第二音频信号中获取第三音频信号和第三音频信号的理想掩码作为训练样本，并基于第三音频信号的理想掩码构造的目标评价条件，使得电子设备根据训练样本对深度学习网络模型进行训练，直至满足目标评价条件，进而得到目标深度学习网络模型。如此，使得得到的目标深度学习网络模型的准确度更高。

可选的，本申请实施例中，上述“根据训练样本对深度学习网络模型进行训练”具体可以通过下述步骤106a和106b来实现。

步骤106a、电子设备对于训练样本中的一个训练样本，提取该一个训练样本的频域幅度谱，并获取该一个训练样本对应的理想掩码。

步骤106b、电子设备根据该一个训练样本的频域幅度谱和该一个训练样本对应的理想掩码，对深度学习网络模型进行训练。

需要说明的是，本申请实施例中，对于每个训练样本，用于输入该深度学习网络模型的特征为：该训练样本的频域幅度谱和该训练样本的理想掩码。训练的实质是拟合出频域幅度谱和理想掩码的对应关系(而作为训练结果的目标深度学习网络模型用于表征这种对应关系)，进而使得电子设备在后续步骤103中直接使用这种关系，即将第二音频信号输入到目标深度学习网络模型后，电子设备直接可以得到该第二音频的理想掩码。

可选的，本申请实施例中，上述频域幅度谱和理想掩码一一对应，即每个训练样本以该训练样本的频域幅度谱和该训练样本的理想掩码作为特征，输入深度学习网络模型进行训练。

示例性的，假设选用的网络模型为卷积神经网络，每个训练样本包括一个训练样本的频域幅度谱和该一个训练样本对应的理想掩码。基于此，电子设备将该训练样本输入至该卷积神经网络进行训练，待收敛之后得到网络参数。具体训练过程可以包括：随机初始化网络参数，对频域幅度谱和对应的理想掩码进行特征预处理(如，均值为零，方差归一化等)，根据输出的误差(通过损失函数获取)可以方向计算网络参数，并根据梯度下降算法更新网络参数；在输出误差小于或等于该目标阈值的情况下，训练终止，该深度学习网络模型作为目标深度学习网络模型，此时的参数可以确定为训练完成的目标深度学习网络模型的网络参数。

可以理解的是，由于电子设备可以使用每个训练样本的频域幅度谱和对应的理想掩码对深度学习网络模型进行训练，因此，在训练结果的输出误差小于或等于该目标阈值的情况下，可以终止训练，并将该深度学习网络模型作为目标深度学习网络模型，从而可以得到准确性更高的目标深度学习网络模型。

可选的，结合图1，如图3所示，上述步骤104具体可以通过下述步骤104a至步骤104c实现。

步骤104a、电子设备根据第二音频信号的理想掩码，对第二音频信号进行底噪估计，得到第二底噪。

需要说明的是，上述第二底噪包括平稳底噪和非平稳底噪，用于综合评价该第二音频信号的经过底噪估计后的降噪标准。

此外，本申请实施例中，上述确定第二底噪的过程可以参考上述步骤102a中的具体描述，此处不予赘述。

具体的，电子设备在得到第二音频信号的理想掩码这个先验信息，进而可以控制更新噪声估计以得到第二底噪。

步骤104b、电子设备根据第二音频信号和第二底噪，计算第二增益。

可选的，本申请实施例中，上述计算第二增益的具体方法可以为：首先，通过第二底噪和第二音频信号，计算得到后验信噪比，进而确定先验信噪比；然后，电子设备使用先验信噪比和后验信噪比，使用维纳滤波方法确定第二增益。具体可以参考上述步骤102b中的具体描述，此处不予赘述

需要说明的是，本申请实施例中，上述第二增益用于表征对第二音频信号进行降噪处理的程度。

步骤104c、电子设备根据第二增益，对第二信号进行降噪处理，得到目标音频信号。

可选的，本申请实施例中，电子设备可以根据第二增益对第二信号进行滤波和修正补偿等降噪处理后，得到目标音频信号。该目标音频信号相较于第一音频信号为经过两次降噪处理的音频信号，进而可以使得该目标音频信号中的语音信号的特征更加突出，到更好的降噪效果。

具体的，根据第二增益对第二信号进行降噪可以通过下述公式完成：

其中，

表示第二音频信号，G(m,k)表示第二增益，

表示经过二次降噪处理的目标音频信号，m表示时间，k表示频点，m和k均为正整数。

可选的，本申请实施例中，电子设备可以对得到的目标音频信号(此时为频域信号)进行傅里叶变换，进而得到目标音频信号的时域信号进行输出，即得到增强之后的时域信号进行输出。

可以理解的是，由于电子设备可以根据第二音频信号的理想掩码，确定第一底噪，进而确定第二增益，并根据第二增益对第二音频信号进行降噪，得到目标音频信号。如此，通过使用目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号进行再次降噪处理，从而进一步提升对音频信号的降噪效果。

需要说明的是，本申请实施例提供的音频降噪方法，执行主体可以为音频降噪装置，或者该音频降噪装置中的用于执行音频降噪方法的控制模块。本申请实施例中以音频降噪装置执行音频降噪方法为例，说明本申请实施例提供的装置。

如图4所示，本申请实施例提供一种音频降噪装置400。该音频降噪装置400可以包括：获取模块401、第一降噪模块402、处理模块403和第二降噪模块404。获取模块401，可以用于获取第一音频信号，该第一信号包括语音信号和噪声信号。第一降噪模块402，可以用于将获取模块401获取的该第一音频信号经过预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比。处理模块403，可以用于将第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从该第二音频信号中获取的信号。第二降噪模块404，可以用于根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。

可选的，本申请实施例中，第一降噪模块402，具体可以用于对第一音频信号进行平稳底噪估计，得到第一底噪；并根据该第一音频信号和第一底噪，计算第一增益；以及根据该第一增益对该第一信号进行预降噪处理，得到该第二音频信号。

可选的，本申请实施例中，获取模块401，还可以用于在将第二音频信号输入到目标深度学习网络模型之前，获取训练样本。该训练样本包括M个第三音频信号和M个该第三音频信号的理想掩码，每个第三音频信号对应一个第三音频信号的理想掩码，该M个第三音频信号均为该第二音频信号中的信号，M为正整数。处理模块403，还用于根据该训练样本对深度学习网络模型进行训练，直至满足目标评价条件，得到目标深度学习网络模型。其中，该目标评价条件包括由第三音频信号的理想掩码构造的评价函数。

可选的，本申请实施例中，处理模块403，具体可以用于对于训练样本中的一个训练样本，提取该一个训练样本的频域幅度谱，并获取该一个训练样本对应的理想掩码；并根据该一个训练样本的频域幅度谱和该一个训练样本对应的理想掩码，对深度学习网络模型进行训练。

可选的，本申请实施例中，第二降噪模块404，具体可以用于根据第二音频信号的理想掩码，对该第二音频信号进行底噪估计，得到第二底噪；并根据该第二音频信号和该第二底噪，计算第二增益；以及根据该第二增益对该第二信号进行降噪处理，得到该目标音频信号。

本申请实施例中的音频降噪装置可以是电子设备中执行音频降噪方法的功能实体和/或功能模块，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频降噪装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的音频降噪装置能够实现图1至图4的方法实施例中音频降噪装置实现的各个过程，为避免重复，这里不再赘述。

在本申请实施例提供一种音频降噪装置，该音频降噪装置可以获取第一音频信号，第一信号包括语音信号和噪声信号；对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号；根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。通过该方法，一方面，由于对音频信号先进行预降噪，以提升音频信号的信噪比，因此，使得该音频信号中的语音信号的特征更加突出，使用训练后的目标深度学习网络模型的准确性得以提高；另一方面，通过使用该目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号再次进行降噪处理，从而进一步提升对音频信号的降噪效果。

可选的，如图5所示，本申请实施例还提供一种电子设备500，包括处理器501，存储器502，存储在存储器502上并可在所述处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述音频降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备2000包括但不限于：射频单元2001、网络模块2002、音频输出单元2003、输入单元2004、传感器2005、显示单元2006、用户输入单元2007、接口单元2008、存储器2009、以及处理器2010等部件。

其中，输入单元2004可以包括图形处理器20041和麦克风20042，显示单元2006可以包括显示面板20061，用户输入单元2007可以包括触控面板20071以及其他输入设备20072，存储器2009可用于存储软件程序(如，操作***、至少一个功能所需的应用程序)以及各种数据。

本领域技术人员可以理解，电子设备2000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器2010逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，麦克风20042，可以用于获取第一音频信号，该第一信号包括语音信号和噪声信号。处理器2010，可以用于将麦克风20042获取的该第一音频信号经过预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比。处理器2010，还可以用于将第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号。处理器2010，还可以用于根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。

在本申请实施例提供一种电子设备，该电子设备可以获取第一音频信号，第一信号包括语音信号和噪声信号；对该第一音频信号进行预降噪处理得到第二音频信号，该第二音频信号的信噪比大于该第一信号的信噪比；将该第二音频信号输入到目标深度学习网络模型，得到该第二音频信号的理想掩码，该目标深度学习网络模型由第三音频信号和该第三音频信号的理想掩码训练得到，该第三音频信号为从第二音频信号中获取的信号；根据该第二音频信号的理想掩码，对该第二音频信号进行降噪处理，得到目标音频信号。通过该方法，一方面，由于对音频信号先进行预降噪，以提升音频信号的信噪比，因此，使得该音频信号中的语音信号的特征更加突出，使用训练后的目标深度学习网络模型的准确性得以提高；另一方面，通过使用该目标深度学习网络模型计算的第二音频信号的理想掩码，对第二音频信号再次进行降噪处理，从而进一步提升对音频信号的降噪效果。

可选的，本申请实施例中，处理器2010，具体可以用于对第一音频信号进行平稳底噪估计，得到第一底噪；并根据该第一音频信号和第一底噪，计算第一增益；以及根据该第一增益对该第一信号进行预降噪处理，得到该第二音频信号。

可以理解的是，由于电子设备可以通过平稳底噪估计的方式确定第一底噪，进而确定出第一增益，并根据第一增益对第一音频信号进行预降噪，得到信噪比较高的第二音频信号，如此，使得该第二音频信号中的语音信号的特征更加突出，一方面，在对目标深度学习网络模型进行训练时提升训练效果和准确性；另一方面，在在实际使用目标深度学习网络模型判断过程中，更加快速，提升电子设备的处理速度。

可选的，本申请实施例中，麦克风20042，还可以用于在将第二音频信号输入到目标深度学习网络模型之前，获取训练样本。该训练样本包括M个第三音频信号和M个该第三音频信号的理想掩码，每个第三音频信号对应一个第三音频信号的理想掩码，该M个第三音频信号均为该第二音频信号中的信号，M为正整数。处理器2010，还用于根据该训练样本对深度学习网络模型进行训练，直至满足目标评价条件，得到目标深度学习网络模型。其中，该目标评价条件包括由第三音频信号的理想掩码构造的评价函数。

可选的，本申请实施例中，处理器2010，具体可以用于对于训练样本中的一个训练样本，提取该一个训练样本的频域幅度谱，并获取该一个训练样本对应的理想掩码；并根据该一个训练样本的频域幅度谱和该一个训练样本对应的理想掩码，对深度学习网络模型进行训练。

可选的，本申请实施例中，处理器2010，具体可以用于根据第二音频信号的理想掩码，对该第二音频信号进行底噪估计，得到第二底噪；并根据该第二音频信号和该第二底噪，计算第二增益；以及根据该第二增益对该第二信号进行降噪处理，得到该目标音频信号。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

本申请实施例还提供一种可读存储介质，该可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该处理器为上述实施例中的电子设备中的处理器。该可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现上述音频降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频降噪方法，其特征在于，所述方法包括：

获取第一音频信号，所述第一信号包括语音信号和噪声信号；

对所述第一音频信号进行预降噪处理，得到第二音频信号，所述第二音频信号的信噪比大于所述第一信号的信噪比；

将所述第二音频信号输入到目标深度学习网络模型，得到所述第二音频信号的理想掩码，所述目标深度学习网络模型由第三音频信号和所述第三音频信号的理想掩码训练得到，所述第三音频信号为从所述第二音频信号中获取的信号；

根据所述第二音频信号的理想掩码，对所述第二音频信号进行降噪处理，得到目标音频信号。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一音频信号进行预降噪处理得到第二音频信号，包括：

对所述第一音频信号进行平稳底噪估计，得到第一底噪；

根据所述第一音频信号和所述第一底噪，计算第一增益；

根据所述第一增益，对所述第一信号进行预降噪处理，得到所述第二音频信号。

3.根据权利要求1所述的方法，其特征在于，所述将所述第二音频信号输入到目标深度学习网络模型之前，所述方法还包括：

获取训练样本，所述训练样本包括M个第三音频信号和M个所述第三音频信号的理想掩码，每个第三音频信号对应一个第三音频信号的理想掩码，M为正整数；

根据所述训练样本，对深度学习网络模型进行训练，直至满足目标评价条件，得到所述目标深度学习网络模型；

其中，所述目标评价条件包括由所述第三音频信号的理想掩码构造的评价函数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述训练样本，对深度学习网络模型进行训练，包括：

对于所述训练样本中的一个训练样本，提取所述一个训练样本的频域幅度谱，并获取所述一个训练样本对应的理想掩码；

根据所述一个训练样本的频域幅度谱和所述一个训练样本对应的理想掩码，对深度学习网络模型进行训练。

5.根据权利要求1所述的方法，其特征在于，根据所述第二音频信号的理想掩码，对所述第二音频信号进行降噪处理，得到目标音频信号，包括：

根据所述第二音频信号的理想掩码，对所述第二音频信号进行底噪估计，得到第二底噪；

根据所述第二音频信号和所述第二底噪，计算第二增益；

根据所述第二增益，对所述第二信号进行降噪处理，得到所述目标音频信号。

6.一种音频降噪装置，其特征在于，所述装置包括：获取模块、第一降噪模块、处理模块和第二降噪模块；

所述获取模块，用于获取第一音频信号，所述第一信号包括语音信号和噪声信号；

所述第一降噪模块，用于对所述获取模块获取的所述第一音频信号进行预降噪处理得到第二音频信号，所述第二音频信号的信噪比大于所述第一信号的信噪比；

所述处理模块，用于将所述第二音频信号输入到目标深度学习网络模型，得到所述第二音频信号的理想掩码，所述目标深度学习网络模型由第三音频信号和所述第三音频信号的理想掩码训练得到，所述第三音频信号从所述第二音频信号中获取的信号；

所述第二降噪模块，用于根据所述第二音频信号的理想掩码，对所述第二音频信号进行降噪处理，得到目标音频信号。

7.根据权利要求6所述的装置，其特征在于，所述第一降噪模块，具体用于对所述第一音频信号进行平稳底噪估计，得到第一底噪；并根据所述第一音频信号和所述第一底噪，计算第一增益；以及根据所述第一增益，对所述第一信号进行预降噪处理，得到所述第二音频信号。

8.根据权利要求6所述的装置，其特征在于，所述获取模块，还用于在将所述第二音频信号输入到目标深度学习网络模型之前，获取训练样本，所述训练样本包括M个第三音频信号和M个所述第三音频信号的理想掩码，每个第三音频信号对应一个第三音频信号的理想掩码，M为正整数；

所述处理模块，还用于根据所述训练样本，对深度学习网络模型进行训练，直至满足目标评价条件，得到所述目标深度学习网络模型；

9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于对于所述训练样本中的一个训练样本，提取所述一个训练样本的频域幅度谱，并获取所述一个训练样本对应的理想掩码；并根据所述一个训练样本的频域幅度谱和所述一个训练样本对应的理想掩码，对深度学习网络模型进行训练。

10.根据权利要求6所述的装置，其特征在于，所述第二降噪模块，具体用于根据所述第二音频信号的理想掩码，对所述第二音频信号进行底噪估计，得到第二底噪；并根据所述第二音频信号和所述第二底噪，计算第二增益；以及根据所述第二增益，对所述第二信号进行降噪处理，得到所述目标音频信号。

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中的任一项所述的音频降噪方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中的任一项所述的音频降噪方法的步骤。