CN113012710A

CN113012710A - 一种音频降噪方法及存储介质

Info

Publication number: CN113012710A
Application number: CN202110118683.0A
Authority: CN
Inventors: 罗益峰; 黎小辉
Original assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Current assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-22

Abstract

本发明公开了一种音频降噪方法及存储介质，所述方法包括:获取待降噪音频信号；将待降噪音频信号进行分类预处理，去除第一噪声信号，得到混合语音信号；所述第一噪声信号包括语音采集设备噪声和用户行为噪声；所述混合语音信号包括目标对象语音和第二噪声信号；将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音。本发明通过将场景降噪和语音信号降噪分开处理，对于场景降噪，通过场景噪声的不同采取不同的抑噪方法；对语音信号降噪，通过过滤抑制，实现尽可能大的抑制噪声，能有效去除语音会议***中的噪声，解决传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题。

Description

一种音频降噪方法及存储介质

技术领域

本发明涉及音频技术领域，具体涉及一种音频降噪方法及存储介质。

背景技术

在语音会议***中，常常需要对周围背景噪声进行必要的抑制，以避免背景噪声对话音质量的影响，保证在各种环境条件下都能够听到清晰的话音。

传统的语音会议噪声处理方法对于每一个与会人的背景噪声的抑制程度不够，可能会使原本背景噪声大的与会人语音信号中残留较大的噪声，而且残留的噪声会在语音会议***中被说话人检测模块误检为当前说话人，而导致整个语音会议***的噪声较大，进而影响整个会议的通话质量。而且语音会议***中，说话人周围往往还存在其他非与会人的说话声，容易被当成当前说话人的通话内容被误播。

发明内容

鉴于以上技术问题，本发明的目的在于提供一种音频降噪方法及存储介质，解决传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题。

本发明采用以下技术方案：

本发明的一种音频降噪方法，包括:

获取待降噪音频信号；

将待降噪音频信号进行分类预处理，去除第一噪声信号，得到混合语音信号；所述第一噪声信号包括语音采集设备噪声和用户行为噪声；所述混合语音信号包括目标对象语音和第二噪声信号；

将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音。

进一步的，所述将待降噪音频信号进行分类预处理，去除第一噪声信号的步骤包括：

根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理，利用双MIC降噪方法去除语音采集设备噪声，利用小波降噪方法去除用户行为噪声。

进一步的，将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音的步骤之前，包括：

分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号；所述第二噪声信号用于对所述混合语音信号进行降噪；所述分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号的步骤包括：

获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征；

通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象语音与其他对象语音之间是否存在空间上的重叠；

根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵。

进一步的，所述全语音频段包括K个子频段，其中K为大于等于2的正整数；所述获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征的步骤包括：

从所述全语音频段的单通道频谱特征和多通道方位特征中，提取K个子频段的单通道频谱特征和多通道方位特征。

进一步的，所述重叠判断模型包括K个第一神经网络和第一预测网络，所述通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果的步骤包括：

通过所述K个第一神经网络对K个子频段的单通道频谱特征和多通道方位特征进行处理，获得K个第一特征向量；

根据所述K个第一特征向量生成合并特征向量；

将所述合并特征向量输入所述第一预测网络，输出所述判断结果。

进一步的，所述将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音的步骤包括：

根据第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号，其中，所述第一预设广义权重滤波器根据所述混合语音信号的第一先验信噪比与第一后验信噪比进行构造，所述第一先验信噪比为目标人声信号的功率与所述第二噪声信号的功率之间的比值，所述第一后验信噪比为所述混合语音信号的功率与所述第二噪声信号的功率之间的比值。

进一步的，根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵的步骤包括：

若所述判断结果为目标对象语音与其他对象语音之间不存在重叠，则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。

若所述判断结果为目标对象语音与其他对象语音之间存在重叠，则通过所述单通道分离网络对所述单通道频谱特征进行处理，获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。

进一步的，所述双MIC降噪方法包括：所述语音采集设备包括用于采集环境噪音的副麦克风和用于采集环境噪音及用户语音的主麦克风；

将副麦克风采集的语音信号与主麦克风采集的语音信号进行对比，分出环境噪声与语音信号，然后将环境噪声清除，语音信号保留。

进一步的，所述小波降噪方法去除用户行为噪声方法包括：

采用三层小波变换架构，选用设定的阈值函数和阈值去除语音信号中的高频分量；最后对小波变换后的频率分量执行重构信号操作，将噪声信号清除，语音信号保留。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现所述的音频降噪方法。

相比现有技术，本发明的有益效果在于：

本发明通过将场景降噪和语音信号降噪分开处理，对于场景降噪，通过场景噪声的不同采取不同的抑噪方法；对语音信号降噪，通过过滤抑制，实现尽可能大的抑制噪声，能有效去除语音会议***中的噪声，解决传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题。

进一步的，将混合语音信号进行分离，分离出目标对象语音和包含其他对象语音的第二噪声信号，再通过权重幅度谱滤波器进行过滤，进一步主观上减少噪声，实现有效去除语音会议***中的噪声，提高语音会议***中的语音质量。

附图说明

图1为本发明一实施例提供的一种音频降噪方法的流程示意图；

图2为本发明一实施例提供的一种音频降噪方法的流程示意图；

图3为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例一：

参照图1,示出了本发明一实施例提供的一种音频降噪方法，包括:

步骤S1:获取待降噪音频信号；

其中，待降噪音频信号包含一个或多个人物对象的混合语音信号和会议场景引起的第一噪声信号。

步骤S2:将待降噪音频信号进行分类预处理，去除第一噪声信号，得到混合语音信号；所述第一噪声信号包括语音采集设备噪声和用户行为噪声；所述混合语音信号包括目标对象语音和第二噪声信号；

其中，混合语音信号中除了目标对象的目标对象语音外，还存在会议场景中周边其他人的语音引起的第二噪声信号。

步骤S3:将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音。

在该步骤中，通过将混合语音信号进行过滤，能主观上减少噪声，实现有效去除语音会议***中的噪声，提高语音会议***中的语音质量。

本发明通过将场景降噪和语音信号降噪分开处理，对于场景降噪，通过场景噪声的不同采取不同的抑噪方法；对语音信号降噪，通过过滤抑制，实现尽可能大的抑制噪声，能有效去除语音会议***中的噪声。

实施例二：

参照图2,示出了本发明另一实施例提供的一种音频降噪方法，包括:

步骤S21:获取待降噪音频信号；

在具体应用中，通过语音采集设备采集语音会议***中的音频信号，得到待降噪音频信号。

步骤S22:根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理，利用双MIC降噪方法去除语音采集设备噪声，利用小波降噪方法去除用户行为噪声，得到混合语音信号；

其中，所述第一噪声信号包括语音采集设备噪声和用户行为噪声；

在具体应用中，可采用控制变量法，人为制造单一种类的噪声，采集该噪声存在条件下的带噪语音信号，并通过程序得到语音信号的时域波形图和语谱图，从而获得不同种类噪声与目标说话人语音之间在时域波形图和语谱图上的区别。

一般的，语音信号的共振峰频率和带宽非常容易被确定，清音与浊音的分隔线也非常明显，基音频率也非常高，并且能量分布的时间间隔非常明显；用户行为噪声的能量主要集中在300Hz以下的范围内，不会形成任何的“横纹”与“竖纹”；在语谱图中，采集设备噪声的能量主要分布在1000Hz以下的频率范围内，幅值的变化非常连贯，起伏很小，时域能量比较集中；然后根据第一噪声信号与语音信号在时域波形图和语谱图上的区别对待降噪音频信号进行分类预处理。

具体的，所述双MIC降噪方法包括：所述语音采集设备包括用于采集环境噪音的副麦克风和用于采集环境噪音及用户语音的主麦克风；

具体的，所述小波降噪方法去除用户行为噪声方法包括：

步骤S23:分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号；所述第二噪声信号用于对所述混合语音信号进行降噪；所述分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号的步骤包括：

步骤S231:获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征；

可选的，所述全语音频段包括K个子频段，其中K为大于等于2的正整数；所述获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征的步骤包括：

其中，所述重叠判断模型包括K个第一神经网络和第一预测网络，所述通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果的步骤包括：

根据所述K个第一特征向量生成合并特征向量；

其中，所述K个第一神经网络中的各第一神经网络可以包括LSTM、DNN、CNN等中的任意一个或者多个。K个第一神经网络中的各个第一神经网络可以分别采用不同的神经网络，例如第一个第一神经网络采用LSTM，第二个第一神经网络采用DNN，第三个第一神经网络采用CNN。所述第一预测网络可以为MLP(Multi-Layer Perception，多层感知器)、LSMT、CNN、LSTM+MLP、CNN+LSTM+MLP等任意单一形态的神经网络或者多种形态的混合网络。

通过训练好的多通道分离网络，使得各个第一神经网络可以在不同频段上各自学习到单通道频谱特征和多通道方位特征的相关关系，再将不同频段学习的结果进行融合，提升多通道语音分离的效果和性能。

步骤S232:通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象语音与其他对象语音之间是否存在空间上的重叠；

步骤S233:根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵。

具体的，若所述判断结果为目标对象语音与其他对象语音之间不存在重叠，则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各对象的目标语音频谱掩码矩阵。

若所述判断结果为目标对象语音与其他对象语音之间存在重叠，则通过所述单通道分离网络对所述单通道频谱特征进行处理，获得所述混合语音信号中目标对象的目标语音频谱掩码矩阵。

步骤S24:根据第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号，其中，所述第一预设广义权重滤波器根据所述混合语音信号的第一先验信噪比与第一后验信噪比进行构造，所述第一先验信噪比为目标人声信号的功率与所述第二噪声信号的功率之间的比值，所述第一后验信噪比为所述混合语音信号的功率与所述第二噪声信号的功率之间的比值。

在从混合语音信号中分离出所述混合语音信号中的目标对象语音信号以及第二噪声信号后，通过第一预设广义权重滤波器过滤所述混合语音信号中的所述第二噪声信号。

值得说明的是，广义权重幅度谱滤波器的实现原理如下：

人耳听觉模型不容易分辨频谱高能量区域的量化噪声，因此可以掩蔽效应通过修正损失函数，使得共振峰附近少一些加重，而在任何一点噪声都可听出来的谱谷多一些加重，参数为β。同时，对损失函数的权重p也根据掩蔽效应进行相应的自适应。通过定义损失函数并对损失函数求导，求得滤波器，通过增加计算，能主观上减少噪声，可以通过增大抑制系数，尽可能的抑制语音信号的噪声。

本发明通过将场景降噪和语音信号降噪分开处理，对于场景降噪，通过场景噪声的不同采取不同的抑噪方法；对语音信号降噪，通过先分离出第二噪声信号后通过权重幅度谱滤波器抑制，实现尽可能大的抑制噪声，使传统的语音会议***中存在背景噪声以及其他说话人噪声比较大的问题得到有效改善。

实施例三：

图3为本申请实施例提供的一种电子设备的结构示意图，在本申请中可以通过图3所示的示意图来描述用于实现本申请实施例的本发明一种音频降噪方法的电子设备100。

如图3所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104，这些组件通过总线***和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图3示出的部分组件，也可以具有图3未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

本发明还提供一种计算机存储介质，其上存储有计算机程序，本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在该计算机存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机存储介质不包括电载波信号和电信信号。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种音频降噪方法，其特征在于，包括:

获取待降噪音频信号；

2.根据权利要求1所述的音频降噪方法，其特征在于，所述将待降噪音频信号进行分类预处理，去除第一噪声信号的步骤包括：

3.根据权利要求1所述的音频降噪方法，其特征在于，将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音的步骤之前，还包括：

通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果，所述重叠判断模型用于判断目标对象语音与其他对象语音之间是否存在空间上的重叠；所述其他对象语音指除目标对象外的其他对象的语音；

4.根据权利要求3所述的音频降噪方法，其特征在于，所述全语音频段包括K个子频段，其中K为大于等于2的正整数；所述获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征的步骤包括：

5.根据权利要求4所述的音频降噪方法，其特征在于，所述重叠判断模型包括K个第一神经网络和第一预测网络，所述通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中的目标对象语音与其他对象语音是否存在重叠的判断结果的步骤包括：

根据所述K个第一特征向量生成合并特征向量；

6.根据权利要求3所述的音频降噪方法，其特征在于，所述将混合语音信号进行过滤，得到降噪后的目标对象的目标对象语音的步骤包括：

7.根据权利要求3所述的音频降噪方法，其特征在于，根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各对象的语音频谱掩码矩阵的步骤包括：

若所述判断结果为目标对象语音与其他对象语音之间不存在重叠，则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理，获得所述混合语音信号中各对象的目标语音频谱掩码矩阵；

8.根据权利要求2所述的音频降噪方法，其特征在于，所述双MIC降噪方法包括：所述语音采集设备包括用于采集环境噪音的副麦克风和用于采集环境噪音及用户语音的主麦克风；

9.根据权利要求2所述的音频降噪方法，其特征在于，所述小波降噪方法去除用户行为噪声步骤包括：

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如权利要求1至9任一项所述的音频降噪方法。