CN111986693A

CN111986693A - 音频信号的处理方法及装置、终端设备和存储介质

Info

Publication number: CN111986693A
Application number: CN202010798038.3A
Authority: CN
Inventors: 王林章; 何梦楠; 操陈斌
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-24

Abstract

本公开是关于一种音频信号的处理方法及装置、终端设备和存储介质。该方法包括：获取至少两个音频信号通道采集的原始带噪信号；根据所述至少两个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧；其中，所述语音信号帧包含：在时域叠加的语音信号和噪声信号；所述噪声信号帧包括：所述语音信号静默时的噪声；根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率；根据所述语音信号的功率和噪声信号的功率，确定降噪系数；基于所述降噪系数，对所述原始带噪信号进行降噪。

Description

音频信号的处理方法及装置、终端设备和存储介质

技术领域

本公开涉及信号处理技术领域，尤其涉及一种音频信号的处理方法及装置、终端设备和存储介质。

背景技术

随着通信技术与互联网技术的不断发展，多媒体信息的处理成为信息通信的重要研究方向。为了实现更加清晰高质量的通信或者数据传输，需要对音频信号进行降噪处理。降噪处理通常可采用滤波的方式，去除信号中的噪声分量，从而提升信号质量。然而，降噪处理的过程中，往往难以将信号中的噪声分量与纯净的语音信号分离，因此降噪效果难以满足越来越高的用户需求。

发明内容

本公开提供一种音频信号的处理方法及装置、终端设备和存储介质。

根据本公开实施例的第一方面，提供一种音频信号的处理方法，包括：

获取至少两个音频信号通道采集的原始带噪信号；

根据所述至少两个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧；其中，所述语音信号帧包含：在时域叠加的语音信号和噪声信号；所述噪声信号帧包括：所述语音信号静默时的噪声；

根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率；

根据所述语音信号的功率和噪声信号的功率，确定降噪系数；

基于所述降噪系数，对所述原始带噪信号进行降噪。

在一些实施例中，所述至少两个音频信号通道采集的原始带噪信号，包括：目标信号和参考信号；

所述根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率，包括：

根据所述噪声信号帧对应的第一预设权重及所述噪声信号帧的信号强度，确定第一滤波器的第一滤波系数；

根据所述语音信号帧对应的第二预设权重及所述语音信号帧的信号强度，确定第二滤波器的第二滤波系数；

根据所述第一滤波系数，确定所述参考信号包含的语音分量；

根据所述第二滤波系数，确定所述参考信号包含的噪声分量；

根据所述参考信号的所述语音分量，确定所述目标信号包含的所述噪声信号；

根据所述参考信号的所述噪声分量，确定所述目标信号包含的所述语音信号；

确定所述目标信号中所述语音信号的功率和所述噪声信号的功率。

在一些实施例中，所述根据所述噪声信号帧对应的第一预设权重及所述噪声信号帧的信号强度，确定第一滤波器的第一滤波系数，包括：

在所述目标信号的所述噪声信号帧，根据所述噪声信号帧对应的第一预设权重处理的所述噪声信号帧的信号强度及所述噪声信号帧上一帧时的第一滤波器的滤波系数，更新所述第一滤波系数；

根据所述语音信号帧对应的第二预设权重及所述语音信号帧的信号强度，确定第二滤波器的第二滤波系数，包括：

在所述目标信号的所述语音信号帧，根据所述语音信号帧对应的第二预设权重处理的所述语音信号帧的信号强度及所述语音信号帧上一帧时的第二滤波器的滤波系数，更新所述第二滤波系数。

在一些实施例中，所述根据所述至少一个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧，包括：

将所述至少一个所述原始带噪信号的信号帧输入预定神经网络，确定所述目标信号的信号帧中包括所述语音信号的概率；

根据所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率，在时域上区分出所述噪声信号帧和所述语音信号帧。

在一些实施例中，所述根据所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率，在时域上区分出所述噪声信号帧和所述语音信号帧，包括：

若所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率大于第一概率阈值，则确定所述信号帧为所述语音信号帧；

若所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率小于第二概率阈值，则确定所述信号帧为所述噪声信号帧；其中，所述第一概率阈值大于或等于所述第二概率阈值。

在一些实施例中，所述确定所述语音信号的功率和所述噪声信号的功率，包括：

根据所述噪声信号的频域信号强度及预设的第一平滑系数，确定所述目标信号所包含的噪声信号的功率；

根据所述语音信号的频域信号强度及所述第一平滑系数，确定所述目标信号所包含的语音信号的功率；

根据所述噪声信号的功率和所述语音信号的功率，确定所述降噪系数。

在一些实施例中，所述根据所述噪声信号的功率和所述语音信号的功率，确定所述降噪系数，包括：

根据所述噪声信号的功率和所述语音信号的功率，确定所述目标信号后验信噪比；

基于所述后验信噪比及预设的第二平滑系数，确定所述目标信号的先验信噪比；

根据所述先验信噪比，确定所述降噪系数。

根据本公开实施例的第二方面，提供一种音频信号的处理装置，包括：

获取模块，用于获取至少两个音频信号通道采集的原始带噪信号；

划分模块，用于根据所述至少两个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧；其中，所述语音信号帧包含：在时域叠加的语音信号和噪声信号；所述噪声信号帧包括：所述语音信号静默时的噪声；

第一确定模块，用于根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率；

第二确定模块，用于根据所述语音信号的功率和噪声信号的功率，确定降噪系数；

降噪模块，用于基于所述降噪系数，对所述原始带噪信号进行降噪。

所述第一确定模块，包括：

第一确定子模块，用于根据所述噪声信号帧对应的第一预设权重及所述噪声信号帧的信号强度，确定第一滤波器的第一滤波系数；

第二确定子模块，用于根据所述语音信号帧对应的第二预设权重及所述语音信号帧的信号强度，确定第二滤波器的第二滤波系数；

第三确定子模块，用于根据所述第一滤波系数，确定所述参考信号包含的语音分量；

第四确定子模块，用于根据所述第二滤波系数，确定所述参考信号包含的噪声分量；

第五确定子模块，用于根据所述参考信号的所述语音分量，确定所述目标信号包含的所述噪声信号；

第六确定子模块，用于根据所述参考信号的所述噪声分量，确定所述目标信号包含的所述语音信号；

第七确定子模块，用于确定所述目标信号中所述语音信号的功率和所述噪声信号的功率。

在一些实施例中，所述第一确定子模块，包括：

第一更新子模块，用于在所述目标信号的所述噪声信号帧，根据所述噪声信号帧对应的第一预设权重处理的所述噪声信号帧的信号强度及所述噪声信号帧上一帧时的第一滤波器的滤波系数，更新所述第一滤波系数；

根据第二确定子模块，包括：

第一更新子模块，用于在所述目标信号的所述语音信号帧，根据所述语音信号帧对应的第二预设权重处理的所述语音信号帧的信号强度及所述语音信号帧上一帧时的第二滤波器的滤波系数，更新所述第二滤波系数。

在一些实施例中，所述划分模块，包括：

第八确定子模块，用于将所述至少一个所述原始带噪信号的信号帧输入预定神经网络，确定所述目标信号的信号帧中包括所述语音信号的概率；

划分子模块，用于根据所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率，在时域上区分出所述噪声信号帧和所述语音信号帧。

在一些实施例中，所述划分子模块，具体用于：

在一些实施例中，所述第一确定模块，包括：

第三确定模块，用于根据所述噪声信号的频域信号强度及预设的第一平滑系数，确定所述目标信号所包含的噪声信号的功率；

第四确定模块，用于根据所述语音信号的频域信号强度及所述第一平滑系数，确定所述目标信号所包含的语音信号的功率；

第五确定模块，用于根据所述噪声信号的功率和所述语音信号的功率，确定所述降噪系数。

在一些实施例中，述第二确定模块，包括：

第六确定模块，用于根据所述噪声信号的功率和所述语音信号的功率，确定所述目标信号后验信噪比；

第七确定模块，用于基于所述后验信噪比及预设的第二平滑系数，确定所述目标信号的先验信噪比；

第八确定模块，用于根据所述先验信噪比，确定所述降噪系数。

根据本公开实施例的第三方面，提供一种终端设备，所述终端设备至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行上述任一项的音频信号的处理方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述任一项的音频信号的处理方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：通过本公开实施例的技术方案，通过多通道采集音频的原始带噪信号，然后利用多通道采集的原始带噪信号对音频信号进行语音信号帧与噪声信号帧的区分，进而估计出用于对原始带噪信号进行降噪的降噪系数。如此，利用多通道采集信号的相关性等特性进行噪声和语音的划分，相比于单通道的音频信号处理，可以对音频信号中的语音分量与噪声分量有更准确的估计，进而得到更准确的降噪系数。另一方面，相比于利用两个信号通道的能量差、相位差或者相关性等方式，本公开实施例中利用多通道划分语音信号帧与噪声信号帧的方式，能够更加准确地估计噪声，进而便于减少原始带噪信号中的残留噪声。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种音频信号的处理方法的流程图；

图2是根据一示例性实施例示出的一种带有双通道的终端设备的示意图；

图3是根据一示例性实施例示出的一种音频信号处理的原理示意图；

图4是根据一示例性实施例示出的另一种音频信号的处理方法的流程图；

图5是根据一示例性实施例示出的一种音频信号的处理装置的结构框图；

图6是根据一示例性实施例示出的一种终端设备的实体结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频信号的处理方法的流程图，如图1所示，该方法包括以下步骤：

步骤S101、获取至少两个音频信号通道采集的原始带噪信号；

步骤S102、根据所述至少两个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧；其中，所述语音信号帧包含：在时域叠加的语音信号和噪声信号；所述噪声信号帧包括：所述语音信号静默时的噪声；

步骤S103、根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率；

步骤S104、根据所述语音信号的功率和噪声信号的功率，确定降噪系数；

步骤S105、基于所述降噪系数，对所述原始带噪信号进行降噪。

本公开实施例的上述方法可以应用于终端中，终端可以为具有音频采集组件(如具有麦克风)的终端设备，包括：手机、笔记本电脑、摄影机、可穿戴终端设备以及各种具有人机交互能力的终端设备等。也可以为具有音频文件的处理功能的终端设备，如，不具有音频采集功能但可以对音频文件进行处理的计算机以及音响设备等。

对于音频信号的处理是为了在终端对音频信号进行处理得到信号质量更高，滤除大部分噪声的降噪音频信号。终端对音频信号进行处理得到上述降噪音频信号后，可将降噪音频信号传输至预定设备，如音箱、电视机等多媒体播放设备，也可以利用终端自身的播放功能进行播放。当然，也可以根据上述降噪音频信号进行编码等处理，形成便于传输或者存储的音频文件。

在本公开实施例中，两个音频信号通道可以为终端上的多个音频采集模组，例如：位于终端不同位置的麦克风组件。也可为终端上的音频采集阵列中并列设置的多个音频采集通道。

上述原始带噪信号为音频信号通道直接采集到的音频信号后转换得到的电信号。其中包含有噪声信号的分量与语音信号的分量。噪声信号的分量可能是音频采集环境中的声音形成的噪声信号，即用户不希望采集到的声音，例如，户外环境中的汽车噪声、风声等形成的噪声；又如，室内环境中的电器产生的杂音等。此外，噪声信号的分量还可能是终端自身的信号干扰产生的噪声，例如，终端电路的干扰产生的噪声信号。

可以理解的是，由于原始带噪信号为时域上的连续信号，但是，在音频信号采集的过程中，并非始终存在有效的语音信号。这里，有效的语音信号是指用户期望采集的语音信号，例如，通话时的用户发出的带有文字信息的语音信号、带有旋律的音乐产生的语音信号等等。而噪声信号却始终存在与原始带噪信号中。

因此，可以利用至少两个音频信号通道采集的原始带噪信号对音频信号进行划分，将叠加有语音信号和噪声信号的语音信号帧，以及语音信号静默时，主要包含噪声信号的噪声信号帧划分出来。这里，语音信号静默可以是不存在语音信号而仅包含噪声信号的情况，也可以是语音信号的强度小于噪声信号的强度。因此，噪音信号帧一定程度上可以反映声音采集时的环境噪声。

在本公开实施例中，通过划分后的语音信号帧与噪声信号帧，可以进一步确定语音信号的功率与噪声信号的功率。

根据所述语音信号帧的功率和所述噪声信号帧的功率，分别确定语音信号的功率和噪声信号的功率包括：

根据所述噪音信号帧的功率，确定噪音信号的功率；

根据所述语音信号帧的功率和所述噪音信号帧的功率，确定所述语音信号的功率。

所述根据所述语音信号帧的功率和所述噪音信号帧的功率，确定所述语音信号的功率，包括但不限于：

语音信号帧的功率，直接减去与语音信号帧相邻的一个噪声信号帧的功率，作为语音信号的功率，将噪声信号帧的功率作为噪声信号的功率；

将语音信号帧的功率，减去与所述语音信号帧相邻的多个噪音信号帧的平均功率，得到单一语音信号的功率。

在本公开实施例中，还可利用语音信号帧及噪声信号帧确定不同的滤波器的滤波系数，并对原始带噪信号进行相应的滤波，进而分别估计语音信号和噪声信号。然后再通过估计得到的语音信号和噪声信号的功率，确定上述降噪系数。

这里，降噪系数可以理解为原始带噪信号的信噪比，利用降噪系数对原始带噪信号进行降噪，也就是对原始带噪信号去除噪声信号的滤波过程，从而尽可能减少信号中的噪声分量，提升信号质量。

根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率，包括：

在本公开实施例中，可将至少两个音频信号通道中的两个通道采集的原始带噪信号作为目标信号和参考信号。利用语音信号帧和噪声信号帧对应的不同的滤波系数，分别对参考信号进行滤波，从而估计参考信号中所包含的语音分量和噪声分量。也就是利用不同的滤波器对参考信号进行滤波，实现参考信号中语音分量和噪声分量的分离。

然后利用目标信号和分离后的参考信号的语音分量和噪声分量，实现双通道的噪声对消，从而得到目标信号中估计的语音信号和噪声信号。

进而利用语音信号的信号强度确定语音信号的功率，及利用噪声信号的信号强度确定噪声信号的功率。

在本公开实施例中，估计语音分量与噪声分量需要对参考信号进行不同的滤波。利用上述语音信号帧和噪声信号帧分别对应的第一预设权重和第二预设权重，对滤波器的滤波系数进行更新，从而在时域上动态估计语音分量和噪声分量。上述第一预设权重与第二预设权重不同，第一预设权重对应于滤除噪声分量，估计语音分量；第二预设权重则对应于滤除语音分量，估计噪声分量。

这里，第一预设权重和第二预设权重可以是分别预先设定的固定值，例如，通过实验或者经验数据确定的权重值。第一预设权重与第二预设权重的取值可位于0到1之间，其中，第一预设权重可取值为近似于1的数值，第二预设权重可取值为近似于0的数值。

如此，可以在采集音频信号的过程中，利用不断更新滤波器系数的第一滤波器和第二滤波器分别对参考信号进行滤波，进而逐帧确定参考信号中的语音分量和噪声分量。故该实施例提供的技术方案，可以在音频采集的过程中，动态确定降噪系数，并进行降噪，从而提升音频信号的质量。

在本公开实施例中，第一滤波器与第二滤波器的更新可以利用LMS(Least MeanSquare，最小均方)准则，通过迭代的方式，逐帧更新滤波器系数。在更新第一滤波系数的过程中，在语音信号帧到来时，将上一帧的第一滤波器系数与上一帧的第一滤波系数对语音信号帧滤波后的估计得到的语音信号帧中的噪声分量乘上相应的第一预设权重后得到的估计值得到新的第一滤波系数。在更新第二滤波系数时，则是在噪声信号帧到来时，利用第二预设权重进行类似的处理，得到更新后的第二滤波系数。第一预设权重及第二预设权重可理解为滤波器系数更新的更新步进，更新步进的值越大变化的程度就大，值越小变化的程度就越小。由于噪声分量在大部分情况下的变化较小，因此，第二预设权重的值可以为接近0的参数值；因此，第二滤波系数的变化较小。而语音信号的变化程度较大，因此第一预设权重的值更接近于1，从而使得第一滤波系数能够实时更新。

可以理解的是，第一滤波器的第一滤波系数与第二滤波器的第二滤波系数的初始值可以相同也可以不同。在时域上的每一帧，分别利用第一滤波器和第二滤波器对参考信号进行滤波，在与参考信号对应的目标信号的语音信号帧所在的时段，利用第一预设权重对第一滤波器的第一滤波系数进行更新，在对应的目标信号的噪声信号帧所在的时段，利用第二预设权重对第二滤波器的第二滤波系数进行更新。然后分别利用第一滤波系数和第二滤波系数对参考信号进行滤波，实现对参考信号中的语音分量和噪声分量的估计。

此处的语音信号帧的信号强度包含但不限于：功率。

在本公开实施例中，可利用预定神经网络来实现目标信号中噪声信号帧与语音信号帧的区分。预定神经网络的输入信号为上述至少两个音频信号通道采集的任一原始带噪信号，例如，将上述目标信号作为输入信号，输出则至少包括目标信号中各信号帧中包括语音信号的概率。如果目标信号的信号帧中包括语音信号的概率较大，则说明该信号帧包含叠加的语音信号与噪声信号的概率较大，因此可以认为的语音信号帧；而如果目标信号的信号帧中包含语音信号的概率较小，则可能该信号帧中不包含语音信号，仅包含噪声分量，或者可能包含比较微弱的语音信号。因此，在本公开实施例中，可利用目标信号的各信号帧中包含语音信号的概率，来区分上述语音信号帧和噪声信号帧。

预定神经网络可以在终端设备出厂前利用预定的音频信号进行训练，利用神经网络对带噪音频信号中的信号特征进行分析，例如，对带噪音频信号中的频点分布特征信号能量变化等信号特征，估算出带噪音频信号中各信号帧包括语音信号的概率，从而实现输入带噪音频信号对应输出音频信号帧中包括语音信号的概率的功能。

在本公开实施例中，可预先设定第一概率阈值和第二概率阈值，作为预设神经网络检测语音信号的检测阈值。如果目标信号输入预定神经网络后，输出的概率值大于第一概率阈值，则认定目标信号当前输入的信号帧为语音信号帧。如果输出的概率值小于第二概率阈值，则认定目标信号当前输入的信号帧为噪声信号帧。

由于在本公开实施例中，是利用语音信号帧和噪声信号帧确定对应不同的权重并在语音信号帧和噪声信号帧所在的时段对第一滤波器和第二滤波器进行更新。因此，如果上述神经网络输出的概率值结余第一概率阈值与第二概率阈值之间，则可以不更新第一滤波器和第二滤波器，当然，也可以根据预定的其他权重值同时更新第一滤波器和第二滤波器的滤波系数。

通过上述方法，可以根据实际需求设定上述第一概率阈值和第二概率阈值，从而在不同的时刻对第一滤波系数和第二滤波系数进行更新。如果更新频率较高，则对于语音信号和噪声信号的估计更加准确，而如果更新频率较低，则可以减少运算处理量，减少***负担，提升对于原始带噪信号进行降噪处理的效率。

在本公开实施例中，根据上述实施例中估计得到的噪声信号和语音信号的信号强度，来确定噪声信号及语音信号的功率。这里，第一平滑系数用于在计算功率时进行平滑处理，消除语音信号及噪声信号中的毛刺，得到更加准确的功率，从而便于进行信噪比的计算。

在一实施例中，可利用上述实施例中的预定神经网络输出的概率值以及设定的概率阈值，将目标信号划分为语音信号段和噪声信号段。在上述概率值大于概率阈值时，则使用语音信号段对应的第一平滑系数对语音信号的功率和噪声信号的功率分别进行平滑处理；在上述概率值小于或等于概率阈值时，则使用噪声信号段对应的第一平滑系数对语音信号的功率和噪声信号的功率分别进行平滑处理。

可以理解的是，上述语音信号段或噪声信号段可以包含一个信号帧，也可以包含多个信号帧。由于语音信号段及噪声信号段的毛刺分布可能存在差异，因此可以利用不同的第一平滑系数进行处理。这样，针对上述语音信号和噪声信号分别确定功率时，则可能结合信号的动态变化特点，进行动态的平滑处理，进而得到各频点的语音信号及噪声信号更准确的功率值。

根据所述先验信噪比，确定所述降噪系数。

在本公开实施例中，根据上述噪声信号的功率和语音信号的功率的比值可以得到目标信号的后验信噪比。

在本公开实施例中，可利用目标信号的相邻帧的后验信噪比，估计当前帧的先验信噪比。对先验信噪比的估计同时也为对含有先验信噪比的增益函数的估计。可参考DD(Decision Directed，判决指向)算法的估计方式：

priorSNR(k,l)＝w*H(k,l)*postSNR(k,l-1)+(1-w)*MAX(postSNR(k,l)-1,0)

其中，k为频点，l为帧数，priorSNR(k,l)为第l帧第k频点的先验信噪比，postSNR(k,l)为第l帧第k频点的后验信噪比；w为上述第二平滑系数，取值在0到1之间，例如，可取0.8；H(k,l)为维纳滤波器的增益函数，即上述降噪系数，由先验信噪比确定。因此，利用该算法可根据后验信噪比实现先验信噪比及降噪系数的估计。

本公开实施例还提供如下示例：

在本公开实施例中，利用如图2所示的带有双麦克风(mic1和mic2)的终端设备进行音频信号的采集和降噪。利用双麦克风采集的信号分别作为目标信号与参考信号，并分别进行滤波，得到估计的语音信号和噪声信号。如图3所示，mic1与mic2的信号输入第一滤波器11用于估计语音，同时输入第二滤波器12中用于估计噪声。第一滤波器及第二滤波器可为LMS准则实现的自适应滤波器。通过mic1与mic2信号的对消，实现语音信号及噪声信号的估计。

这里，可将mic1的信号作为目标信号输入预定神经网络13，然后将预定的神经网络13输出的结果作为更新滤波器的判断阈值。输出结果包括目标信号的各信号帧为语音的概率值，以及神经网络对目标信号带来的降噪功能对应的降噪系数，用mask表示。mask的值为神经网络对目标信号降噪后的信号与输入目标信号的比值。利用神经网络的输出，对目标信号进行估计，得到语音信号和噪声信号。然后利用维纳滤波器或者MMSE(Minimum MeanSquareerror Estimaton，最小均方误差估计)进行后处理14，得到语音信号的增强因子gain，也就是上述降噪系数。利用降噪系数对mic1和mic2采集的原始带噪信号进行降噪，即可得到降噪后的语音信号。

如图4所示，本公开实施例采用如下步骤对原始带噪信号进行降噪：

步骤S201、获取mic1与mic2采集的原始带噪信号(x1,x2)，进行分帧加窗处理后，进行FFT变换到频域，得到X1(k,l),X2(k,l)。其中，k代表第k个频点，l代表第l帧。

步骤S202、根据LMS准则更新滤波系数：

W(k,l)＝W(k,l-1)+2u[x1(k,l),W(k-1,l)X1(k,l)]X1(k,l) (1)

其中，u为滤波器的更新步进，也就是LMS算法确定滤波器系数方法中的权重系数。

这里，滤波器系数的更新结合神经网络的输出结果进行处理，也就是利用目标信号x1输入神经网络，根据神经网络输出的检测结果(vad)的值来确定上述更新步进。Vad值在0到1的数值范围内，vad越接近1，对应的信号帧中包含语音信号的概率越大，vad越接近0，对应的信号帧中包含语音信号的概率越小。

步骤S203、利用神经网络对目标信号进行帧状态检测。

这里，可设置语音检测阈值prob_max和prob_min分别用于区分语音信号帧和噪声信号帧。当vad>prob_max的信号帧数大于或等于3帧，则这至少3个信号帧为语音信号帧；如果vad<prob_min的信号帧数大于或等于3帧，则这至少3个信号帧为噪声信号帧。

步骤S204、在不同的帧状态下，利用两个信号通道的音频信号进行对消。

利用上述公式(1)在语音信号帧时更新用于估计噪声的第一滤波器的第一滤波系数。并利用与第一滤波系数W1(l)对参考信号进行滤波，然后利用目标信号减去滤波后的参考信号，得到估计的噪声信号，如下公式(2)：

e1(l)＝x1(l)-w1(l)*x2(l) (2)

其中，e1(l)为估计的噪声信号，x1(l)为mic1采集的音频信号，w1(l)*x2(l)＝IFFT(W1(k,l)*X2(k,l))。

类似地，利用上述公式(1)在噪声信号帧时更新用于估计语音的第二滤波器的第二滤波系数。并利用第二滤波系数W2(l)对参考信号进行滤波，然后利用目标信号减去滤波后的参考信号，得到估计的语音信号，如下公式(3)：

e2(l)＝x1(l)-w2(l)*x2(l) (3)

其中，e2(l)为估计的噪声信号，x1(l)为mic1采集的音频信号，w2(l)*x2(l)＝IFFT(W2(k,l)*X2(k,l))。

在进行滤波器更新时，语音信号帧对应的更新步进u可以设为1，噪声信号帧对应的更新步进可以设为0.此外，还可设置阈值：步进最小值u_min、mask最小阈值mask_min，以及mask的参考值mask_ratio，在目标信号不属于语音信号帧和噪声信号帧时，可利用如下公式(4)确定滤波器的更新步进：

u＝vss_min+(mask(k,l)-mask_min)*mask_ratio (4)

其中，vss_min为预定的更新基础值。

步骤S205、根据估计的语音信号和噪声信号计算语音信号的功率和噪声信号的功率。

将上述噪声信号e1(l)和语音信号e2(l)变换到频域得到Xnos(k,l)和Xsig(k,l)，即频域噪声信号和频域语音信号。然后将其在频域上进行平滑：

Pnos(k,l)＝a*Pnos(k,l-1)+(1-a)*Xnos(k,l)*Xnos(k,l) (4)

Psig(k,l)＝a*Psig(k,l-1)+(1-a)*Xsig(k,l)*Xsig(k,l) (5)

其中a为平滑系数。

在一些实施例中，可将目标信号划分为语音信号段和噪声信号段，并在语音信号段和噪声信号段利用不同的平滑系数a进行平滑处理。这里，可利用上述神经网络的输出vad值进行判断，并设定判断阈值vad_thre。当vad＞Vad_thre则认为是语音信号段，此时，利用预设的语音信号段对应的平滑系数a1带入上述公式(4)和公式(5)进行计算。当vad≤vad_thre，则认为是噪声信号段，则利用对应的平滑系数a2带入上述公式(4)和公式(5)进行计算。

在一些实施例中，还可在每段信号中，取若干频点进行平滑，例如，每4个频点平滑取平均，得到平滑后的语音功率smoothsigmore与平滑后的噪声功率smoothNosMore。

步骤S206、采用维纳滤波器估计先验信噪比。

首先利用上述语音功率和噪声功率估计后验信噪比postSNR：

postSNR(k,l)＝smoothSigMore(k,l)/smoothNosMore(k,l) (5)

得到后验新造比后，利用DD算法，求先验信噪比PriorSNR：

priorSNR(k,l)＝ww*gain*postSNR(k,l-1)+(1-ww)*MAX(postSNR(k,l)-1,0)(6)

其中，gain为降噪系数。也就是维纳滤波器的传递函数：

gain(k,l)＝priorSNR(k,l)/(1+priorSNR(k,l)) (7)

基于上述公式6，根据后验信噪比推算先验信噪比，同时可以得到上述降噪系数。

步骤S207、利用降噪系数对原始带噪信号进行降噪。

Y(k,l)＝X1(k,l)*gain(k,l) (7)

其中，Y(k,l)为降噪后的频域信号，对Y(k,l)进行IFFT变换，即可得到降噪后的时域音频信号。

图5是根据一示例性实施例示出的一种音频信号的处理装置600的结构框图，如图5所示，包括：

获取模块501，用于获取至少两个音频信号通道采集的原始带噪信号；

划分模块502，用于根据所述至少两个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧；其中，所述语音信号帧包含：在时域叠加的语音信号和噪声信号；所述噪声信号帧包括：所述语音信号静默时的噪声；

第一确定模块503，用于根据所述噪声信号帧和语音信号帧，确定语音信号的功率和噪声信号的功率；

第二确定模块504，用于根据所述语音信号的功率和噪声信号的功率，确定降噪系数；

降噪模块505，用于基于所述降噪系数，对所述原始带噪信号进行降噪。

所述第一确定模块，包括：

在一些实施例中，所述第一确定子模块，包括：

根据第二确定子模块，包括：

在一些实施例中，所述划分模块，包括：

在一些实施例中，所述划分子模块，具体用于：

在一些实施例中，所述第一确定模块，包括：

在一些实施例中，述第二确定模块，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种终端设备600的实体结构框图。例如，终端600可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图6，终端600可以包括以下一个或多个组件：处理组件601，存储器602，电源组件603，多媒体组件604，音频组件605，输入/输出(I/O)接口606，传感器组件607，以及通信组件608。

处理组件601通常控制终端600的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件601可以包括一个或多个处理器610来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件601还可以包括一个或多个模块，便于处理组件601和其他组件之间的交互。例如，处理组件601可以包括多媒体模块，以方便多媒体组件604和处理组件601之间的交互。

存储器610被配置为存储各种类型的数据以支持在终端600的操作。这些数据的示例包括用于在终端600上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件603为终端600的各种组件提供电力。电源组件603可以包括：电源管理***，一个或多个电源，及其他与为终端600生成、管理和分配电力相关联的组件。

多媒体组件604包括在所述终端600和用户之间提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件604包括一个前置摄像头和/或后置摄像头。当终端600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和/或后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件605被配置为输出和/或输入音频信号。例如，音频组件605包括一个麦克风(MIC)，当终端600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器610或经由通信组件608发送。在一些实施例中，音频组件605还包括扬声器，用于输出音频信号。

I/O接口606为处理组件601和***接口模块之间提供接口，上述***接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件607包括一个或多个传感器，用于为终端600提供各个方面的状态评估。例如，传感器组件607可以检测到终端600的打开/关闭状态、组件的相对定位，例如所述组件为终端600的显示器和小键盘，传感器组件607还可以检测终端600或终端600的一个组件的位置改变，用户与终端600接触的存在或不存在，终端600方位或加速/减速和终端600的温度变化。传感器组件607可以包括接近传感器，被配置为在没有任何的物理接触时检测附近物体的存在。传感器组件607还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件607还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件608被配置为便于终端600和其他设备之间有线或无线方式的通信。终端600可以接入基于通信标准的无线网络，如WiFi、2G或3G，或它们的组合。在一个示例性实施例中，通信组件608经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件608还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。

在示例性实施例中，终端600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器602，上述指令可由终端600的处理器610执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述任一实施例所提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号的处理方法，其特征在于，包括：

获取至少两个音频信号通道采集的原始带噪信号；

基于所述降噪系数，对所述原始带噪信号进行降噪。

2.根据权利要求1所述的方法，其特征在于，所述至少两个音频信号通道采集的原始带噪信号，包括：目标信号和参考信号；

3.根据权利要求2所述的方法，其特征在于，所述根据所述噪声信号帧对应的第一预设权重及所述噪声信号帧的信号强度，确定第一滤波器的第一滤波系数，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个所述原始带噪信号，在时域上区分出噪声信号帧和语音信号帧，包括：

将所述至少一个所述原始带噪信号的信号帧输入预定神经网络，确定所述所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率；

5.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个所述原始带噪信号的信号帧中包括所述语音信号的概率，在时域上区分出所述噪声信号帧和所述语音信号帧，包括：

6.根据权利要求2所述的方法，其特征在于，所述确定所述语音信号的功率和所述噪声信号的功率，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述噪声信号的功率和所述语音信号的功率，确定所述降噪系数，包括：

根据所述先验信噪比，确定所述降噪系数。

8.一种音频信号的处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述至少两个音频信号通道采集的原始带噪信号，包括：目标信号和参考信号；

所述第一确定模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一确定子模块，包括：

根据第二确定子模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述划分模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述划分子模块，具体用于：

13.根据权利要求9所述的装置，其特征在于，所述第一确定模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述第二确定模块，包括：

15.一种终端设备，其特征在于，所述终端设备至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行上述权利要求1至7任一项提供的音频信号的处理方法中的步骤。

16.一种非临时性计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述权利要求1至7任一项提供的音频信号的处理方法中的步骤。