CN112233689B

CN112233689B - 音频降噪方法、装置、设备及介质

Info

Publication number: CN112233689B
Application number: CN202011019647.0A
Authority: CN
Inventors: 郝斌; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-04-08
Anticipated expiration: 2040-09-24
Also published as: CN112233689A

Abstract

本公开提供了一种音频降噪方法、装置、设备及介质，属于音频处理技术领域。本公开实施例提供的技术方案，考虑到冲击噪声低高频分布的特点，提取到的第一噪声谱能够准确区分出人声和噪声，另外，通过混响传递函数进一步将信号衰减成分估计出来，这样降噪后，无需多帧音频信息进行噪声估计，从而延迟较小，能够在较小延迟帧数下有效抑制冲击噪声，且降噪后的目标音频帧中有效去除了信号衰减成分，降噪效果更好。

Description

音频降噪方法、装置、设备及介质

技术领域

本公开涉及音频处理技术领域，特别涉及一种音频降噪方法、装置、设备及介质。

背景技术

近年来，随着音频处理技术的不断发展，智能音箱、车载语音交互***等智能语音交互***不断普及，这些智能语音交互***接收包括用户语音的音频，对音频进行处理，从而对音频中用户语音进行识别，实现人机交互。在实际使用中，智能语音交互***接收到的音频中往往夹杂有不同种类的噪声，因此需要首先对这些音频进行降噪处理。

相关技术中，音频降噪方法通常是：利用冲击噪声快速衰减的特性，根据当前帧和未来几帧的音频信息，选取这几帧中最小的平滑功率谱作为需要追踪最小值的平滑功率谱。

在上述方法中，在延迟帧数设置较小时，有不少人声被估计成冲击噪声，从而造成语音损伤，且处理后依然夹杂很多衰减段，因而，降噪效果差。

发明内容

本公开实施例提供了一种音频降噪方法、装置、设备及介质，提高了降噪效果。所述技术方案如下：

一方面，提供了一种音频降噪方法，所述方法包括：

根据待降噪音频帧中低频能量和高频能量的比例，提取所述待降噪音频帧的第一噪声谱；

基于混响传递函数，对所述第一噪声谱进行处理，得到第二噪声谱，所述第二噪声谱包括所述待降噪音频帧中的信号衰减成分；

根据所述第二噪声谱，去除所述待降噪音频帧中的噪声，得到目标音频帧。

在一种可能实现方式中，所述基于混响传递函数，对所述第一噪声谱进行处理，得到第二噪声谱，包括：

获取所述第一噪声谱和所述混响传递函数的乘积，将所述乘积作为第三噪声谱，所述第三噪声谱为所述待降噪音频帧中的信号衰减成分；

获取所述第一噪声谱和所述第三噪声谱之和，将所述第一噪声谱和所述第三噪声谱之和作为所述第二噪声谱。

在一种可能实现方式中，所述混响传递函数的获取过程包括：

获取环境信息、接收所述待降噪音频帧的接收器位置、声源位置、声速；

根据所述环境信息、接收所述待降噪音频帧的接收器位置、声源位置、声速，确定所述混响传递函数。

在一种可能实现方式中，所述根据待降噪音频帧中低频能量和高频能量的比例，提取所述待降噪音频帧的第一噪声谱，包括：

根据待降噪音频帧中低频能量和高频能量的比例，确定所述待降噪音频帧的噪声存在概率；

根据所述噪声存在概率，提取所述待降噪音频帧的第一噪声谱；

在一种可能实现方式中，所述根据待降噪音频帧中低频能量和高频能量的比例，确定所述待降噪音频帧的噪声存在概率，包括：

响应于所述待降噪音频帧中低频能量和高频能量的比例大于比例阈值，将第一噪声存在概率确定为所述待降噪音频帧的噪声存在概率；

响应于所述待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值，将第二噪声存在概率确定为所述待降噪音频帧的噪声存在概率，所述第一噪声存在概率小于所述第二噪声存在概率。

在一种可能实现方式中，所述待降噪音频帧中低频能量和高频能量的比例的确定过程包括：

根据所述待降噪音频帧的频谱，获取所述待降噪音频帧中低频能量均值和高频能量均值；

将所述低频能量均值和高频能量均值的比值确定为所述待降噪音频帧中高频能量和低频能量的比例。

在一种可能实现方式中，所述根据待降噪音频帧中低频能量和高频能量的比例，提取所述待降噪音频帧的第一噪声谱，还包括：

根据所述第一噪声谱中高频能量和低频能量的比例，对所述第一噪声谱进行调整。

在一种可能实现方式中，所述根据所述第一噪声谱中高频能量和低频能量的比例，对所述第一噪声谱进行调整，包括：

根据所述第一噪声谱中高频能量和低频能量的比例，确定所述第一噪声谱的语音存在概率；

根据所述语音存在概率，提取所述第一噪声谱中的噪声，得到调整后的第一噪声谱。

在一种可能实现方式中，所述根据所述第一噪声谱中高频能量和低频能量的比例，确定所述第一噪声谱的语音存在概率，包括：

响应于所述第一噪声谱中高频能量和低频能量的比例大于目标阈值，将高频段对应的语音存在概率确定为第一语音存在概率，将低频段对应的语音存在概率确定为第二语音存在概率，所述第一语音存在概率小于所述第二语音存在概率。

在一种可能实现方式中，所述第一噪声谱中高频能量和低频能量的比例的确定过程包括：

获取所述第一噪声谱中高频能量均值和低频能量均值；

根据所述高频能量均值和低频能量均值的比值作为所述第一噪声谱中高频能量和低频能量的比例。

确定所述第一噪声谱的多个频点中每个频点是否存在噪声；

根据所述每个频点的噪声存在结果，确定所述第一噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，所述根据所述每个频点的噪声存在结果，确定所述第一噪声谱中高频能量和低频能量的比例，包括：

根据所述每个频点的权重，对所述每个频点的噪声存在结果进行加权求和，得到所述第一噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，所述确定所述第一噪声谱的多个频点中每个频点是否存在噪声，包括：

获取所述第一噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系；

对于任一频点，响应于所述频点的幅值大于或等于幅值阈值，确定所述频点包括噪声；

对于任一频点，响应于所述频点的幅值小于幅值阈值，确定所述频点不包括噪声。

一方面，提供了一种音频降噪装置，所述装置包括：

提取模块，用于根据待降噪音频帧中低频能量和高频能量的比例，提取所述待降噪音频帧的第一噪声谱；

处理模块，用于基于混响传递函数，对所述第一噪声谱进行处理，得到第二噪声谱，所述第二噪声谱包括所述待降噪音频帧中的信号衰减成分

降噪模块，用于根据所述第二噪声谱，去除所述待降噪音频帧中的噪声，得到目标音频帧。

在一种可能实现方式中，所述处理模块用于：

在一种可能实现方式中，所述提取模块用于：

获取所述第一噪声谱中高频能量均值和低频能量均值；

确定所述第一噪声谱的多个频点中每个频点是否存在噪声；

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现上述音频降噪方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现上述音频降噪方法所执行的操作。

一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述任一种可能实施方式的音频降噪方法。

本公开实施例提供的技术方案带来的有益效果至少可以包括：

本公开实施例提供的技术方案，考虑到冲击噪声低高频分布的特点，提取到的第一噪声谱能够准确区分出人声和噪声，另外，通过混响传递函数进一步将信号衰减成分估计出来，这样降噪后，无需多帧音频信息进行噪声估计，从而延迟较小，能够在较小延迟帧数下有效抑制冲击噪声，且降噪后的目标音频帧中有效去除了信号衰减成分，降噪效果更好。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种音频降噪***的示意图；

图2是本公开实施例提供的一种音频降噪方法流程图；

图3是本公开实施例提供的一种音频降噪方法流程图；

图4是本公开实施例提供的一种含冲击噪声的语音语谱图；

图5是相关技术提供的一种估计出的噪声谱图；

图6是本公开实施例提供的一种估计出的噪声谱图；

图7是本公开实施例提供的一种调整后的噪声谱图；

图8是相关技术提供的一种降噪后的目标音频帧的谱图；

图9是本公开实施例提供的一种降噪后的目标音频帧的谱图；

图10是本公开实施例提供的一种音频降噪装置结构示意图；

图11是本公开实施例提供的一种终端的结构示意图；

图12是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

图1是本公开实施例提供的一种音频降噪***的示意图，参见图1，该音频降噪***中可以包括语音采集设备110和计算机设备120，也可以单独是计算机设备120。

在音频降噪***包括语音采集设备110和计算机设备120时，语音采集设备110可以通过网络或数据线与该计算机设备120连接。其中，语音采集设备110可以具有语音采集功能，可以采集待降噪音频。在一种可能实现方式中，本公开实施的应用场景可以为通话***中环境中比较尖锐的冲击噪声，例如，摔笔或大力敲击键盘这种冲击噪声。当然，也可以为其他应用场景中比较尖锐的冲击噪声。计算机设备120可以具有音频处理功能，可以对该语音采集设备110采集到的待降噪音频进行降噪处理。

在音频降噪***仅包括计算机设备120时，计算机设备120可以具有语音采集功能和音频处理功能，计算机设备120可以采集多种环境中的待降噪音频、对待降噪音频进行降噪处理。

在一种可能实现方式中，该计算机设备120可以为终端，也可以为服务器，本公开实施例对此不作限定。

图2是本公开实施例提供的一种音频降噪方法流程图，该方法应用于计算机设备，参见图2，该方法包括：

201、根据待降噪音频帧中低频能量和高频能量的比例，提取该待降噪音频帧的第一噪声谱。

202、基于混响传递函数，对该第一噪声谱进行处理，得到第二噪声谱，该第二噪声谱包括该待降噪音频帧中的信号衰减成分。

203、根据该第二噪声谱，去除该待降噪音频帧中的噪声，得到目标音频帧。

在一种可能实现方式中，该基于混响传递函数，对该第一噪声谱进行处理，得到第二噪声谱，包括：

获取该第一噪声谱和该混响传递函数的乘积，将该乘积作为第三噪声谱，该第三噪声谱为该待降噪音频帧中的信号衰减成分；

获取该第一噪声谱和该第三噪声谱之和，将该第一噪声谱和该第三噪声谱之和作为该第二噪声谱。

在一种可能实现方式中，该混响传递函数的获取过程包括：

获取环境信息、接收该待降噪音频帧的接收器位置、声源位置、声速；

根据该环境信息、接收该待降噪音频帧的接收器位置、声源位置、声速，确定该混响传递函数。

在一种可能实现方式中，该根据待降噪音频帧中低频能量和高频能量的比例，提取该待降噪音频帧的第一噪声谱，包括：

根据待降噪音频帧中低频能量和高频能量的比例，确定该待降噪音频帧的噪声存在概率；

根据该噪声存在概率，提取该待降噪音频帧的第一噪声谱；

在一种可能实现方式中，该根据待降噪音频帧中低频能量和高频能量的比例，确定该待降噪音频帧的噪声存在概率，包括：

响应于该待降噪音频帧中低频能量和高频能量的比例大于比例阈值，将第一噪声存在概率确定为该待降噪音频帧的噪声存在概率；

响应于该待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值，将第二噪声存在概率确定为该待降噪音频帧的噪声存在概率，该第一噪声存在概率小于该第二噪声存在概率。

在一种可能实现方式中，该待降噪音频帧中低频能量和高频能量的比例的确定过程包括：

根据该待降噪音频帧的频谱，获取该待降噪音频帧中低频能量均值和高频能量均值；

将该低频能量均值和高频能量均值的比值确定为该待降噪音频帧中高频能量和低频能量的比例。

在一种可能实现方式中，该根据待降噪音频帧中低频能量和高频能量的比例，提取该待降噪音频帧的第一噪声谱，还包括：

根据该第一噪声谱中高频能量和低频能量的比例，对该第一噪声谱进行调整。

在一种可能实现方式中，该根据该第一噪声谱中高频能量和低频能量的比例，对该第一噪声谱进行调整，包括：

根据该第一噪声谱中高频能量和低频能量的比例，确定该第一噪声谱的语音存在概率；

根据该语音存在概率，提取该第一噪声谱中的噪声，得到调整后的第一噪声谱。

在一种可能实现方式中，该根据该第一噪声谱中高频能量和低频能量的比例，确定该第一噪声谱的语音存在概率，包括：

响应于该第一噪声谱中高频能量和低频能量的比例大于目标阈值，将高频段对应的语音存在概率确定为第一语音存在概率，将低频段对应的语音存在概率确定为第二语音存在概率，该第一语音存在概率小于该第二语音存在概率。

在一种可能实现方式中，该第一噪声谱中高频能量和低频能量的比例的确定过程包括：

获取该第一噪声谱中高频能量均值和低频能量均值；

根据该高频能量均值和低频能量均值的比值作为该第一噪声谱中高频能量和低频能量的比例。

确定该第一噪声谱的多个频点中每个频点是否存在噪声；

根据该每个频点的噪声存在结果，确定该第一噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，该根据该每个频点的噪声存在结果，确定该第一噪声谱中高频能量和低频能量的比例，包括：

根据该每个频点的权重，对该每个频点的噪声存在结果进行加权求和，得到该第一噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，该确定该第一噪声谱的多个频点中每个频点是否存在噪声，包括：

获取该第一噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系；

对于任一频点，响应于该频点的幅值大于或等于幅值阈值，确定该频点包括噪声；

对于任一频点，响应于该频点的幅值小于幅值阈值，确定该频点不包括噪声。

图3是本公开实施例提供的一种音频降噪方法的流程图，参见图3，该方法可以包括：

301、计算机设备获取待降噪音频帧。

本公开实施例中，该计算机设备可以为终端或者服务器。该待降噪音频帧可以是在多种场景下获取的带有噪声的音频中的一帧，例如，在汽车、轮船、飞机等交通工具中，获取到的该待降噪语音中可以包括汽车开窗高速行驶中的风噪或汽车雨天行驶中的雨声噪声；在家居环境中，获取到的该待降噪音频帧中可以包括电视的噪声或洗衣机的转动噪声，本公开实施例对此不进行限定。

计算机设备获取该待降噪音频帧的方式可以有多种，在一种可能实现方式中，该确定过程可以包括下述方式一至方式三中的任一种：

方式一、计算机设备直接获取该待降噪音频帧。

计算机设备可以具有语音采集功能，计算机设备可以直接采集声音，得到该待降噪音频帧。

方式二、计算机设备获取语音采集设备采集的该待降噪音频帧。

计算机设备可以通过网络或数据线与语音采集设备连接，获取由该语音采集设备采集的该待降噪音频帧，该语音采集设备可以是任意种类的具有语音采集功能的设备，本公开实施例对此不进行限定。

方式三、计算机设备可以从数据库中提取该待降噪音频帧。

在该方式三中，可以通过数据库来存储该待降噪音频帧，在计算机设备需要对该待降噪音频帧进行处理时，再从该数据库中提取。

需要说明的是，该计算机设备可以获取得到待降噪音频，从而对待降噪音频的每帧进行降噪，从而得到每帧对应的目标音频帧，进而得到该待降噪音频降噪后的目标音频。在此仅以该计算机设备对一个待降噪音频帧进行降噪的过程进行说明，对其他待降噪音频帧的降噪过程与此同理，在此不多做赘述。

302、计算机设备确定待降噪音频帧中低频能量和高频能量的比例。

对音频帧进行处理时，由于待降噪音频帧中噪声在频域上分布均匀，将其转换到频域进行计算，在减少计算难度的同时，能够更有效地估计出噪声，进而更有效地去除噪声，提高降噪效果。因而，计算机设备可以先获取该待降噪音频帧的频谱，再根据该频谱，去确定上述比例。

计算机设备在获取上述比例时，可以根据该频谱对该待降噪音频帧中的低频能量和高频能量进行分析，从而确定二者的比例。该过程可以通过多种方式来实现，下面提供了一种可能实现方式。

在该实现方式中，计算机设备可以根据该待降噪音频帧的频谱，获取该待降噪音频帧中低频能量均值和高频能量均值，将该低频能量均值和高频能量均值的比值确定为该待降噪音频帧中高频能量和低频能量的比例。

其中，该低频能量均值能够表示该音频帧中低频能量的情况，高频能量均值能够表示该音频帧中高频能量的情况。进而，计算机设备获取二者的比值，即可作为低频能量和高频能量的比例。

例如，计算机设备对待降噪音频帧进行时域-频域转换，将待降噪音频帧的时域信号转换为频谱，假设FFT(fast Fourier transform，快速傅里叶变换)，长度512，重叠和添加(Overlap&add)长度256，采样率16kHz为例，音频幅度平方用Ya2表示，则计算机设备根据该待降噪音频帧的频谱，可以通过下述公式一和公式二，获取得到低频能量均值E_low和高频能量均值E_high：

计算机设备获取到低频能量均值E_low和高频能量均值E_high后，则可以通过下述公式三，获取二者的比例slope：

slope＝E_low/E_hign，公式三

上述仅示出了通过能量均值获取比例的方式，例如，该过程也可以通过其他方式实现，例如，通过获取频谱中低频频点的音频幅值的和值，与高频频点的音频幅值的和值，将两个和值的比值作为上述比例。本公开实施例对此不作限定。

303、计算机设备根据待降噪音频帧中低频能量和高频能量的比例，确定该待降噪音频帧的噪声存在概率。

通过上述步骤，计算机设备获取到待降噪音频帧中低频能量和高频能量的比例，该比例可以表示该待降噪音频帧中低频高频能量分布情况，由于冲击噪声一般发生时间短，能量集中，频率分布较均匀，如果低频能量较多，则可以说明人声语音较多，如果高频能量较多，则可以说明冲击噪声更多。因而，通过该比例，计算机设备可以确定待降噪音频帧的噪声存在概率。

在一种可能实现方式中，可以设置比例阈值，通过比较比例和比例阈值的大小关系，来确定噪声存在概率。二者的大小关系可以包括两种，分别可以设置不同的噪声存在概率。

具体地，在该实现方式中，在第一种情况中，计算机设备可以响应于该待降噪音频帧中低频能量和高频能量的比例大于比例阈值，将第一噪声存在概率确定为该待降噪音频帧的噪声存在概率。在第二种情况中，计算机设备可以响应于该待降噪音频帧中低频能量和高频能量的比例小于或等于比例阈值，将第二噪声存在概率确定为该待降噪音频帧的噪声存在概率，该第一噪声存在概率小于该第二噪声存在概率。

该比例阈值可以由相关技术人员根据需求进行设置，可以为一个经验阈值，本公开实施例对其具体取值不作限定。

例如，仍以该比例用slope表示为例，假设比例阈值为T，如果slope>T，则说明信号中低频能量集中，为人声的概率高，因而，噪声存在概率则可以设置低一些。如果slope<T，则说明信号中高频能量集中，为噪声的概率高，因而，噪声存在概率则可以设置高一些。

该噪声存在概率与上述低频能量与高频能量的比例负相关，在一种可能实现方式中，可以预设有多个候选噪声存在概率，在slope>T时，计算机设备可以将噪声存在概率设置为多个候选噪声存在概率中最小的，在slope<T时，可以将噪声存在概率设置为其他较大的候选噪声存在概率。

304、计算机设备根据该噪声存在概率，提取该待降噪音频帧的第一噪声谱。

计算机设备确定了噪声存在概率，则可以从待降噪音频帧中提取得到第一噪声谱。该第一噪声谱的提取过程可以通过多种方式实现，在一种可能实现方式中，该第一噪声谱的提取过程可以通过最优改进对数谱幅度估计(Optimally Modified Log-SpectralAmplitude Estimator，OMLSA)计算和改进的最小控制递归平均算法(Improved MinimaControlled Recursive Averaging，IMCRA)计算实现。

在上述OMLSA和IMCRA计算过程中，应用上述步骤确定的噪声存在概率，通过该待降噪音频帧与前后的音频帧信息，来提取得到该待降噪音频帧的第一噪声谱。具体的，计算机设备可以获取到待降噪音频帧平滑后的功率频谱，以及上述前一帧的功率频谱，从而跟踪平滑功率频谱的最小值，从而采用噪声存在概率，获知语音存在情况，对第一噪声谱最小值估计进行补偿，最终获取得到较准确的第一噪声谱，进而通过OMLSA计算，调整该第一噪声谱。

例如，图4示出了一种含冲击噪声的语音语谱图，如图4所示，冲击噪声一般发生时间短，能量集中，频率分布较均匀。通过相关技术提供的降噪方法，估计出的噪声谱可以如图5所示，该方法在延迟帧数设置为一个较小的值时，很多人声被识别为噪声，并不适应于延迟要求高的应用场景，降噪效果不佳。通过本公开提供的降噪方式，得到的第一噪声谱可以如图6所示，大量减少了冲击噪声估计中的人声成分，降噪效果更好。

305、计算机设备根据该第一噪声谱中高频能量和低频能量的比例，对该第一噪声谱进行调整。

计算机设备获取得到待降噪音频帧对应的第一噪声谱后，上述噪声谱中还可能包含少部分的人声，例如，[s]、[z]、[dz]、[ts]类型的发音，则可以通过分析该第一噪声谱中高低频能量的分布，以此来分析该第一噪声谱中包括的人声语音，从而对该第一噪声谱进行调整，以从第一噪声谱中将这些人声去除，得到更准确的第一噪声谱。

在一种可能实现方式中，该计算机设备可以通过下述步骤一和步骤二，来对第一噪声谱进行调整。

步骤一、根据该第一噪声谱中高频能量和低频能量的比例，确定该第一噪声谱的语音存在概率。

在该步骤一中，对于第一噪声谱中是否包括有人声，可以通过第一噪声谱中高频能量和低频能量的比例，来表示噪声占比多少，从而确定是否包括大量人声，来得到语音存在概率。

在一种可能实现方式中，可以设置目标阈值，来衡量该第一噪声谱中的是否高频能量集中，从而判断是否存在[s]、[z]、[dz]、[ts]类型的发音。在该实现方式中，计算机设备可以响应于该第一噪声谱中高频能量和低频能量的比例大于目标阈值，将高频段对应的语音存在概率确定为第一语音存在概率，将低频段对应的语音存在概率确定为第二语音存在概率，该第一语音存在概率小于该第二语音存在概率。

冲击噪声的高频能量高，因而，可以将高频段对应的语音存在概率设置为较小值，为了避免减少语音损伤，将低频段对应的语音存在概率设置为较大值。

在另一种可能实现方式中，计算机设备可以响应于该第一噪声谱中高频能量和低频能量的比例大于目标阈值，确定该第一噪声谱中的噪声存在概率为目标噪声存在概率，该目标噪声存在概率为数值最小的候选噪声存在概率。

其中，该第一噪声谱中高频能量与低频能量的比例可以通过多种方式获取，下年提供了两种可能实现方式，计算机设备可以采用任一种方式确定该比例，也可以通过其他方式确定该比例，本公开实施例对具体采用哪种方式不作限定。

方式一、计算机设备获取该第一噪声谱中高频能量均值和低频能量均值，根据该高频能量均值和低频能量均值的比值作为该第一噪声谱中高频能量和低频能量的比例。

例如，假设上述步骤304中估计出的第一噪声谱用λ_t表示。可以通过下述公式四和公式五，获取第一噪声谱的低频能量均值Et_low和高频能量均值Et_high。

计算机设备可以通过下述公式六，获取高频能量均值与低频能量均值的比例slope_t：

slope_t＝Et_high/Et_low，公式六

如果slope_t>T_t，说明此时信号的高频能量集中，为[s]、[z]、[dz]、[ts]类型的发音的概率高，则可以将噪声存在概率设置为最小值λ_t＝λ_tmin。其中，该T_t为目标阈值，该目标阈值可以由相关技术人员根据需求进行设置，可以为一个经验阈值，本公开实施例对其具体取值不作限定。

方式二、计算机设备确定该第一噪声谱的多个频点中每个频点是否存在噪声，根据该每个频点的噪声存在结果，确定该第一噪声谱中高频能量和低频能量的比例。

在该方式二中，获取上述比例时，可以根据每个频点是否为噪声来进行确定，其中，在确定每个频点是否存在噪声时，计算机设备可以获取该第一噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系，对于任一频点，响应于该频点的幅值大于或等于幅值阈值，确定该频点包括噪声，对于任一频点，响应于该频点的幅值小于幅值阈值，确定该频点不包括噪声。

例如，对每帧的第一噪声谱λ_t，每个频点做一次判断，判断可以通过下述公式七实现：

其中，该T_t1为幅度阈值。通过判断每个频点的幅值是否小于幅度阈值，来判断是否存在噪声。

确定了每个频点的噪声存在结果后，计算机设备可以根据该每个频点的权重，对该每个频点的噪声存在结果进行加权求和，得到该第一噪声谱中高频能量和低频能量的比例。

例如，可以预设有权重数组w_i，i＝0，1，…，256，其中0-50的权重需要较小，150-200需要调的较大(比如，0-50频点的权重为0.8，51-100：0.85，101-150：0.95，151-200：0.97，201-256：0.97)。对于确定了每个频点的噪声存在结果，可以通过下述公式八进行加权求和，得到该第一噪声谱中高频能量和低频能量的比例D。

如果D>T_d，则说明该帧冲击噪声能量水平较高，因而，可以设置语音存在概率PH1(i)＝0.7，i＝0，…，126，PH1(i)＝0.1，i＝127，…，257。其中，T_d即为目标阈值。其中，T_t1和T_d均可以为经验阈值，前者用来判断某频点的是否包含冲击噪声，后者用来判断当前帧冲击噪声的能量水平。由于冲击噪声高频能量高，因此PH1可设置为较小值，为避免减少语音损伤，低频段对应的PH1值相对较大。

例如，如图7所示，经过该步骤305调整后，调整后的第一噪声谱去除了更多人声成分，更准确，通过这样的第一噪声谱进行噪声去除步骤，能够达到更佳的降噪效果。

步骤二、根据该语音存在概率，提取该第一噪声谱中的噪声，得到调整后的第一噪声谱。

计算机设备确定了语音存在概率后，可以再次提取噪声，得到调整后的第一噪声谱，需要说明的是，该过程也可以通过OMLSA计算和IMCRA计算实现，与上述步骤304同理，在此不多做赘述。

306、计算机设备基于混响传递函数，对该第一噪声谱进行处理，得到第二噪声谱，该第二噪声谱包括该待降噪音频帧中的信号衰减成分。

计算机设备对待降噪音频帧中人声和噪声部分进行了明确区分，得到第一噪声谱后，考虑到声源发出的声音不一定是直接传入声音采集设备的，还还可能包括混响成分，也即是信号衰减成分，计算机设备则可以进一步对第一噪声谱进行处理，将混响成分也加入第一噪声谱中进行去除，提高目标音频帧的质量。

对于混响，声源发出的直接到达的声音是直达声，直达声总是最先到达人耳，这是因为直达声比反射声的声程短。除了直达声以外，反射的声音形成了混响声，使室内声压级增加。混响现象在室内更突出，其中，从声源发出的声波能量，在传播过程中由于不断被壁面吸收而逐渐衰减。声波在各方向来回反射，而又逐渐衰减的现象称为室内混响。

在一种可能实现方式中，电子设备在对第一噪声谱进行处理时，该第一噪声谱可以为上述步骤304得到的第一噪声谱，也可以为上述步骤305经过调整后得到的第一噪声谱。

具体地，电子设备可以获取该第一噪声谱和该混响传递函数的乘积，将该乘积作为第三噪声谱，该第三噪声谱为该待降噪音频帧中的信号衰减成分，再获取该第一噪声谱和该第三噪声谱之和，将该第一噪声谱和该第三噪声谱之和作为第二噪声谱。这样该第二噪声谱不仅包括噪声，还包括信号衰减成分。

其中，不同的环境中混响传递函数可能不同，该混响传递函数还与声音传播的其它因素有关。下面提供一种混响传递函数的获取过程，本公开实施例也可以通过其他方式获取该混响传递函数，对具体获取方式不作限定。

具体地，电子设备可以获取环境信息、接收该待降噪音频帧的接收器位置、声源位置、声速，根据该环境信息、接收该待降噪音频帧的接收器位置、声源位置、声速，确定该混响传递函数。

其中，该环境信息可以包括房间的尺寸信息，还可以包括其他影响声速或反射情况的因素，例如，墙壁类型等。当然，该混响传递函数还可以基于更多信息确定，例如，麦克风方向、话筒类型、采样频率等，本公开实施例对此不作限定。

例如，电子设备可以通过habets的rir计算程序实现，该rir计算程序为一种室内脉冲响应发生器(Room Impulse Response Generator)，通过该室内脉冲响应发生器能够根据环境信息、接收器位置、声源位置以及声速等信息，确定混响传递函数，也即是室内脉冲响应。

上述仅示例性地提供了一种获取混响传递函数的可能实现方式，该混响传递函数还可以通过其他方式实现，例如，基于倒谱滤波、基于神经网络或基于最大似然估计的方法，本公开实施例对此不作限定。

307、计算机设备根据第二噪声谱，去除该待降噪音频帧中的噪声，得到目标音频帧。

计算机设备获取到第二噪声谱，即可去除噪声，得到降噪后的目标音频帧。

具体的，计算机设备可以对待降噪音频帧进行OMLSA计算和IMCRA计算，得到目标音频帧。与上述步骤304中的计算过程同理，在此不多做赘述。

例如，如图8和图9所示，图8示出了将第一噪声谱与目标传递函数相乘后，得到的噪声谱。该噪声谱中是衰减段对应的频谱。图9示出了将相乘的结果与第一噪声谱结合后得到的第二噪声谱。从图9中可以看出，本公开估计的第二噪声谱中包括有大量的噪声以及衰减段，将这些成分去除，能够大大提高降噪效果。

且本公开提供的降噪方式根据冲击噪声低高频分布的特点进行降噪，无需参考很多帧的音频信息进行降噪，因而能够在较少延迟帧数下有效抑制冲击噪声，且较小损伤语音。

上述仅以根据噪声存在概率提取噪声谱后，再基于噪声谱中高低频能量分布进一步调整噪声谱再进行噪声去除为例进行说明，在一种可能实现方式中，计算机设备在步骤304后，还可以直接基于步骤304得到的第一噪声谱进行处理，得到第二噪声谱，再进行噪声去除步骤得到目标音频帧。本公开实施例对此不作限定。

图10是本公开实施例提供的一种音频降噪装置结构示意图，参见图10，该装置包括:

确定模块1001，用于根据待降噪音频帧中低频能量和高频能量的比例，确定该待降噪音频帧的噪声存在概率；

提取模块1002，用于根据该噪声存在概率，提取该待降噪音频帧的噪声谱；

降噪模块1003，用于根据该噪声谱，去除该待降噪音频帧中的噪声，得到目标音频帧。

在一种可能实现方式中，该确定模块1001用于：

在一种可能实现方式中，该确定模块1001还用于：

在一种可能实现方式中，该降噪模块1003用于：

根据该噪声谱中高频能量和低频能量的比例，对该噪声谱进行调整；

根据调整后的噪声谱，去除该待降噪音频帧中的噪声，得到目标音频帧。

在一种可能实现方式中，该降噪模块1003用于：

根据该噪声谱中高频能量和低频能量的比例，确定该噪声谱的语音存在概率；

根据该语音存在概率，提取该噪声谱中的噪声，得到调整后的噪声谱。

在一种可能实现方式中，该降噪模块1003用于：

响应于该噪声谱中高频能量和低频能量的比例大于目标阈值，将高频段对应的语音存在概率确定为第一语音存在概率，将低频段对应的语音存在概率确定为第二语音存在概率，该第一语音存在概率小于该第二语音存在概率。

在一种可能实现方式中，该降噪模块1003用于：

获取该噪声谱中高频能量均值和低频能量均值；

根据该高频能量均值和低频能量均值的比值作为该噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，该降噪模块1003用于：

确定该噪声谱的多个频点中每个频点是否存在噪声；

根据该每个频点的噪声存在结果，确定该噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，该降噪模块1003用于根据该每个频点的权重，对该每个频点的噪声存在结果进行加权求和，得到该噪声谱中高频能量和低频能量的比例。

在一种可能实现方式中，该降噪模块1003用于：

获取该噪声谱的多个频点中每个频点的幅值与幅值阈值的大小关系；

本公开实施例提供的装置，考虑到冲击噪声低高频分布的特点，提取到的第一噪声谱能够准确区分出人声和噪声，另外，通过混响传递函数进一步将信号衰减成分估计出来，这样降噪后，无需多帧音频信息进行噪声估计，从而延迟较小，能够在较小延迟帧数下有效抑制冲击噪声，且降噪后的目标音频帧中有效去除了信号衰减成分，降噪效果更好。

需要说明的是：上述实施例提供的音频降噪装置在降噪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频降噪装置与音频降噪方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本公开实施例提供的一种终端的结构示意图。该终端1100可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。该终端还可以是安装在中控上的语音智能终端嵌入式设备。

通常，终端1100包括有：一个或多个处理器1101和一个或多个存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1101所执行以实现本公开中方法实施例提供的音频降噪方法。

在一些实施例中，终端1100还可选包括有：***设备接口1103和至少一个***设备。处理器1101、存储器1102和***设备接口1103之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1103相连。具体地，***设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

***设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和***设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和***设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本公开实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1201和一个或多个的存储器1202，其中，该一个或多个存储器1202中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的音频降噪方法。当然，该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1200还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的音频降噪方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述音频降噪方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种音频降噪方法，其特征在于，所述方法包括：

根据所述语音存在概率，提取所述第一噪声谱中的噪声，得到调整后的第一噪声谱，所述调整后的第一噪声谱为去除所述语音的第一噪声谱；

基于混响传递函数，对所述调整后的第一噪声谱进行处理，得到第二噪声谱，所述第二噪声谱包括所述待降噪音频帧中的信号衰减成分；

2.根据权利要求1所述的方法，其特征在于，所述基于混响传递函数，对所述第一噪声谱进行处理，得到第二噪声谱，包括：

3.根据权利要求1所述的方法，其特征在于，所述混响传递函数的获取过程包括：

4.根据权利要求1所述的方法，其特征在于，所述根据待降噪音频帧中低频能量和高频能量的比例，提取所述待降噪音频帧的第一噪声谱，包括：

根据所述噪声存在概率，提取所述待降噪音频帧的第一噪声谱。

5.根据权利要求4所述的方法，其特征在于，所述根据待降噪音频帧中低频能量和高频能量的比例，确定所述待降噪音频帧的噪声存在概率，包括：

6.根据权利要求1所述的方法，其特征在于，所述待降噪音频帧中低频能量和高频能量的比例的确定过程包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一噪声谱中高频能量和低频能量的比例，确定所述第一噪声谱的语音存在概率，包括：

8.根据权利要求1所述的方法，其特征在于，所述第一噪声谱中高频能量和低频能量的比例的确定过程包括：

获取所述第一噪声谱中高频能量均值和低频能量均值；

9.根据权利要求1所述的方法，其特征在于，所述第一噪声谱中高频能量和低频能量的比例的确定过程包括：

确定所述第一噪声谱的多个频点中每个频点是否存在噪声；

10.一种音频降噪装置，其特征在于，所述装置包括多个功能模块，所述多个功能模块用于执行权利要求1至权利要求9任一项所述的音频降噪方法。

11.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的音频降噪方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的音频降噪方法所执行的操作。