CN117392994B

CN117392994B - 一种音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN117392994B
Application number: CN202311697438.5A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-03-01
Anticipated expiration: 2043-12-12
Also published as: CN117392994A

Abstract

本申请提供了一种音频信号处理方法、装置、设备及存储介质；方法包括：获取待输出声源信号，并获取从环境中采集的音频信号，其中，音频信号包括环境声源信号和环境噪声；确定音频信号中多个频点分别对应的噪声估计值；确定多个频点分别对应的噪声掩蔽值；基于多个频点分别对应的噪声估计值和噪声掩蔽值，确定环境噪声在多个频点上分别对应待输出声源信号的掩蔽强度值；根据多个频点分别对应的掩蔽强度值确定多个频点分别对应的抑制增益值；通过多个频点的抑制增益值和待输出声源信号，生成第一降噪信号。通过本申请，能够结合待输出声源信号实时的播放环境中的听觉掩蔽效应调节抑制增益值，提升最终播放的待输出声源信号的清晰度和可理解性。

Description

一种音频信号处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

现有技术的降噪算法主要从声源信号的噪声类型、噪声成分进行分析和实施抑制，然而在日常的实际应用中，例如音频通话应用，通话双方分别处于不同的声学环境中通过通话终端和数据传输网络进行对话，当用户所处的声学环境比较嘈杂就容易导致用户听不清对方的声音，例如地铁车厢内的嘈杂声、超市人声、马路汽车声、户外雨声等，由于声音具有掩蔽效应，即音量较大者会掩蔽掉音量小者，表现在当前应用的声音频域上则为：对方声音经扬声器或耳机播放后，其中个别频域的声音成分完全被环境噪声成分所掩蔽，导致本地收听方听不清对方声音。同时声音的掩蔽效应也表现在邻近频域之间的相互掩蔽上，例如低频段声音如果能量足够强，则低频声音可以掩蔽掉高频段声音，反之亦然。

现有技术缺乏针对复杂环境中的有效降噪方案。

发明内容

本申请实施例提供一种音频信号处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质，能够结合音频信号实际播放效果的声音掩蔽效应调节各个频点对应的抑制增益值，提升最终播放的音频信号的清晰度和可理解性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种音频信号处理方法，所述方法包括：

获取声源信号，并获取从环境中采集的音频信号，其中，所述音频信号包括环境声源信号和环境噪声；

确定所述音频信号中多个频点分别对应的噪声估计值；

确定所述多个频点分别对应的噪声掩蔽值；

基于所述多个频点分别对应的所述噪声估计值和所述噪声掩蔽值，确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值；

根据所述多个频点分别对应的掩蔽强度值确定所述多个频点分别对应的抑制增益值；

通过所述多个频点的抑制增益值和所述声源信号，生成第一降噪信号。

本申请实施例提供一种音频信号处理装置，所述装置包括：

数据获取模块，用于获取待输出声源信号，并获取从环境中采集的音频信号，其中，所述音频信号包括环境声源信号和环境噪声；

数据处理模块，用于确定所述音频信号中多个频点分别对应的噪声估计值；

所述数据处理模块，还用于确定所述多个频点分别对应的噪声掩蔽值；

所述数据处理模块，还用于基于所述多个频点分别对应的所述噪声估计值和所述噪声掩蔽值，确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值；

所述数据处理模块，还用于根据所述多个频点分别对应的掩蔽强度值确定所述多个频点分别对应的抑制增益值；

生成处理模块，用于通过所述多个频点的抑制增益值和所述待输出声源信号，生成第一降噪信号。

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的音频信号处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，用于被处理器执行时实现本申请实施例提供的音频信号处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的音频信号处理方法。

本申请实施例具有以下有益效果：

结合待输出声源信号实时的播放环境中的听觉掩蔽效应，针对待输出声源信号中不同频点被环境噪声掩蔽的程度（即通过掩蔽强度值表征），有针对性地调节各个频点对应的抑制增益值，之后利用抑制增益值对待输出声源信号中的各个频点上的能量进行衰减，降低环境强噪声的掩蔽影响，实现了针对不同掩蔽强度的各个频点的有针对性地降噪，从而提升最终播放的待输出声源信号的清晰度和可理解性。

附图说明

图1A是本申请实施例提供的音频信号处理***架构的第一结构示意图；

图1B是本申请实施例提供的音频信号处理***架构的第二结构示意图；

图2是本申请实施例提供的终端的结构示意图；

图3A是本申请实施例提供的耳机的结构示意图；

图3B是本申请实施例提供的第一车载环境的示意图；

图3C是本申请实施例提供的第二车载环境的示意图；

图4A是本申请实施例提供的音频信号处理方法的第一流程示意图；

图4B是本申请实施例提供的音频信号处理方法的第二流程示意图；

图4C是本申请实施例提供的音频信号处理方法的第三流程示意图；

图4D是本申请实施例提供的音频信号处理方法的第四流程示意图；

图4E是本申请实施例提供的音频信号处理方法的第五流程示意图；

图4F是本申请实施例提供的音频信号处理方法的第六流程示意图；

图4G是本申请实施例提供的音频信号处理方法的第七流程示意图；

图4H是本申请实施例提供的音频信号处理方法的第八流程示意图；

图4I是本申请实施例提供的音频信号处理方法的第九流程示意图；

图5是本申请实施例提供的语音通话中音频信号处理的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）语音降噪，是一种能够在语音信号中识别并消除噪声的信号处理技术。常见的语音降噪算法包括基于频域的算法（例如谱减法、最小均方误差算法等）、基于时域的算法（例如Wiener滤波器、Kalman滤波器等）、基于子带的算法（例如小波变换降噪算法等）等。这些算法的选择取决于噪声类型、噪声与语音信号的相对强度等因素。

2）听觉掩蔽效应，指当一个听觉信号（例如声音）的感知被另一个更强或者更显著的听觉信号所掩蔽，从而导致较弱的信号在感知上被忽略或者变得不那么明显法现象，这种现象可以发生在不同频率、时间或空间上，导致对某些声音的感知收到干扰或压制，例如，在使用移动终端进行音视频通话时，地铁车厢内的嘈杂声、超市人声、马路汽车声、户外雨声等环境噪音具有掩蔽效应，即音量较大者会掩蔽掉音量小者，表现在声音频域上则为：对方声音经扬声器或耳机播放后，其中个别频域的声音成分完全被环境噪声成分所掩蔽，导致本地收听方听不清对方声音。同时声音的掩蔽效应也表现在邻近频域之间的互相掩蔽上，例如低频段声音如果能量足够强，则低频声音可以掩蔽掉高频段声音，反之亦然。

3）声源信号，指产生语音的声音源，即发出语音的人的口腔或声带所产生的声音信号，例如，在语音通话中可以是通过麦克风捕获到的说话者声音的模拟电信号，也可以是经过数字化处理后的说话者声音的数字音频信号。

4）抑制增益值，指用来控制语音降噪方法对于噪声的抑制程度的参数，抑制增益值决定了降噪算法在处理语音信号时要减少多少噪声成分，抑制增益值通常被表示为一个介于0至1之间的数值。

5）频点，指在无线电通信中所使用的载波频率的一种表示方式，能够明确地给出某个特定频率的数值，频率和频点的转换公式为：，其中，所选通信带宽至的是在通信中使用的信号带宽，它的大小决定了一个频道能够承载的信息量，通过频点可以更加准确地控制载波频率。

现有技术的降噪算法主要包括两类：基于传统滤波降噪模型的降噪算法、基于深度学习网络的降噪算法。基于传统滤波降噪模型的降噪算法主要是基于频域的算法（例如谱减法、最小均方误差算法等）、基于时域的算法（例如Wiener滤波器、Kalman滤波器等）、基于子带的算法（例如小波变换降噪算法等）等。这些算法通过统计方法辨识当前帧的噪声类型、噪声与语音信号的成分比例，进而实现从带噪信号内抑制噪声成分的降噪效果；基于深度学习网络的语音降噪算法的原理是利用深度神经网络（Deep Neural Networks，DNN）或卷积神经网络（Convolutional Neural Networks，CNN）等模型，对含有噪声的语音信号进行建模和处理，以生成更干净的语音信号。具体而言，该算法通常采用监督学习方法，使用带有噪声的语音信号作为输入，使用对应的干净语音信号作为输出，训练深度学习网络。在训练期间，深度学习网络通过学习输入和输出之间的映射关系，自适应地学习如何去除噪声，从而生成更干净的语音信号。但这种从声源信号的噪声类型、噪声成分进行分析和实施抑制的去噪方法忽视了在日常的应用过程中的声学掩蔽效应的影响。

现有技术中针对声学掩蔽效应也就是周边噪声环境导致听者听不清源声音问题，有通过噪声估计和源信号均衡调节的方法来改善的方案，例如自适应语音增强方案（Adaptive Voice Quality Enhancement，AVQ），将麦克风采集到的声源信号经过回声消除和噪声估计得到环境噪声频域各频段能量估计值，基于噪声频段能量判断声源信号是否被掩蔽，如果被掩蔽则通过均衡方法（Equalizer，EQ）将声源信号各频段能量进行增强，让声源信号不被周边噪声环境所掩蔽。虽然AVQ方案通过将声源信号经过均衡进行增强，让声源信号摆脱环境噪声的掩蔽，但是如果环境噪声较强则需要把声源信号增强很大的倍数才能完全摆脱环境噪声的掩蔽，这种处理的结果会导致声源信号很容易被放大到破音而声音出现严重失真，因此AVQ方案虽然能改善一部分的周边噪声掩蔽问题，但AVQ方案的弊端也是很明显的。

为了解决以上问题，本申请实施例提供一种音频信号处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品，考虑了听觉掩蔽效应，通过结合声源信号实际播放环境中的听觉掩蔽效应调节声源信号中各个频点对应的抑制增益值，之后再通过抑制增益值对声源信号中的各个频点上的能量进行衰减，能够降低环境强噪声对声源信号的掩蔽影响，从而达到提升最终播放声源信号的清晰度和可理解性的有益效果。

本申请实施例提供的电子设备可以实施为笔记本电脑、平板电脑、台式计算机、机顶盒、移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备）、智能手机、智能音箱、智能语音交互设备、智能家电、智能手表、智能电视、车载终端、智能耳机、飞行器等各种类型的用户终端。下面，将说明电子设备实施为终端时的示例性应用。

参见图1A，图1A是本申请实施例提供的音频信号处理***架构的第一结构示意图，示例的，图1A中涉及服务器100、终端设备200及网络300。终端设备200通过网络300连接服务器100，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端设备或服务器可以通过运行各种计算机可执行指令或计算机程序来实现本申请实施例提供的音频信号处理方法。举例来说，计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作***中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作***中安装才能运行的程序，如即时通信客户端；也可以是嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述的计算机可执行指令可以是任意形式的指令，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是交互处理服务，供终端进行调用。

在一些实施例中，多个服务器可组成为一区块链网络，而服务器100为区块链网络上的节点，区块链网络中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。其中，本申请实施例提供的音频信号处理方法所相关的数据可保存于区块链上。

在一些实施例中，本申请实施例提供的音频信号处理***可以由服务器和终端协同实现。例如在语音通话过程中，参见图1A，图1A是本申请实施例提供的音频信号处理***架构的第一结构示意图，终端设备200-1通过即时通信客户端与终端设备200-2进行语音通信或者视频通信，终端设备200-1的传感器设备（例如终端设备200-1的内置的麦克风）采集待输出声源信号，待输出声源信号承载了终端设备200-1本地的有效声音，也就是需要对端听到的声音，例如终端设备200-1的用户的声音，将待输出声源信号经由即时通信客户端的后台服务器100传输到终端设备200-2，终端设备200-2响应于接收终端设备200-1发出的待输出声源信号，通过终端设备200-2的传感器设备采集环境中的音频信号，其中，音频信号包括环境声源信号和环境噪声，环境声源信号是终端设备200-2所处的环境中的有效声音，也就是需要终端设备200-1的用户听到的声音，例如终端设备200-2的用户的声音，环境噪声是终端设备200-2所处的环境中的噪声，接下来，通过本申请实施例提供的音频信号处理方法获取环境噪声对待输出声源信号的掩蔽强度值，通过掩蔽强度值确定抑制增益值，通过抑制增益值和待输出声源信号得到第一降噪信号，之后进一步对得到的第一降噪信号进行常规的自动增益处理（Auto Gain Control，AGC），再经由终端设备200-2进行数模转换，通过扬声器进行输出，从而使终端设备200-1发出的待输出声源信号更容易被终端设备200-2的接听者听清听懂。

在另一些实施例中，参见图1B，图1B是本申请实施例提供的音频信号处理***架构的第二结构示意图，终端设备200-1通过即时通信客户端与终端设备200-2进行语音通信或者视频通信，终端设备200-1通过连接的外置耳机300-1的麦克风采集待输出声源信号，将待输出声源信号经由即时通信客户端的后台服务器100传输到终端设备200-2，终端设备200-2响应于接收终端设备200-1发出的待输出声源信号，通过与终端设备200-2连接的外置耳机300-2的麦克风采集环境中的音频信号，其中，音频信号包括环境声源信号和环境噪声，环境声源信号是终端设备200-2所处的环境中的有效声音，也就是需要终端设备200-1的用户听到的声音，例如终端设备200-2的用户的声音，环境噪声是终端设备200-2所处的环境中的噪声，接下来，通过本申请实施例提供的音频信号处理方法获取环境噪声对待输出声源信号的掩蔽强度值，通过掩蔽强度值确定抑制增益值，通过抑制增益值和待输出声源信号得到第一降噪信号，之后进一步对第一降噪信号进行常规的自动增益处理（AutoGain Control，AGC），再经由终端设备200-2进行数模转换，通过扬声器进行输出，从而使终端设备200-1发出的待输出声源信号更容易被终端设备200-2的接听者听清听懂。

在一些实施例中，以车载通话场景为例，本申请实施例提供的音频信号处理***可以由服务器和终端协同实现。例如在车载通信环境中，参见图3B和图3C，图3B是本申请实施例提供的第一车载环境的示意图，图3C是本申请实施例提供的第二车载环境的示意图，通过图3B示出的车载环境中的麦克风320（可集成扬声器）或者通过图3C示出的车载环境中的麦克风330（可集成扬声器）进行车载通信，终端设备200-1通过车载通信客户端或者其他即时通信客户端与终端设备200-2进行语音通信或者视频通信，终端设备200-1将待输出声源信号经由车载通信客户端或者其他即时通信客户端的后台服务器100传输到终端设备200-2，终端设备200-2响应于接收终端设备200-1发出的待输出声源信号，终端设备200-2通过图3C示出的车载麦克风320或者图3C示出的麦克风330等设备采集车载通信环境中的音频信号，其中，音频信号包括环境声源信号和环境噪声，环境声源信号是终端设备200-2所处的环境中的有效声音，也就是需要终端设备200-1的用户听到的声音，例如终端设备200-2的用户的声音，环境噪声是终端设备200-2所处的环境中的噪声，接下来，通过本申请实施例提供的音频信号处理方法获取环境噪声对待输出声源信号的掩蔽强度值，通过掩蔽强度值确定抑制增益值，通过抑制增益值和待输出声源信号得到第一降噪信号，之后进一步对第一降噪信号进行常规的自动增益处理（Auto Gain Control，AGC），再经由终端设备200-2进行数模转换，通过扬声器进行输出，从而使终端设备200-1发出的待输出声源信号更容易被终端设备200-2的接听者听清听懂。

参见图2，图2是本申请实施例提供的终端设备的结构示意图，图2所示的终端设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端设备200中的各个组件通过总线***240耦合在一起。可理解，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（Digital Signal Processor，DSP），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风（例如图3A示出的外置耳机310中的前馈麦克风或终端设备的内置麦克风等）、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固、态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（Random Access Memory，RAM）。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个（有线或无线）网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（Universal Serial Bus，USB）等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作***设备和显示内容和信息的用户接口）；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器250中的音频信号处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：数据获取模块2551，数据处理模块2552和生成模块2553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的音频信号处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（Application Specific Integrated Circuit，ASIC）、数字信号处理器（Digital Signal Processor，DSP）、可编程逻辑器件（Programmable Logic Device，PLD）、复杂可编程逻辑器件（Complex Programmable Logic Device，CPLD）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或其他电子元件。

下面将结合本申请实施例提供的终端的示例性应用和实施，以终端为执行主体，说明本申请实施例提供的音频信号处理方法。参见图4A，图4A是本申请实施例提供的音频信号处理方法的第一流程示意图，可以由上述的终端设备执行，将结合图4A示出的步骤进行说明。

在步骤101中，获取待输出声源信号，并获取从环境中采集的音频信号，其中，音频信号包括环境声源信号和环境噪声。

以用户通过移动终端进行语音通话或视频通话的场景为例，参见图1A，用户1利用终端设备200-1通过即时通信客户端与终端设备200-2的持有者用户2进行语音通信或者视频通信，终端设备200-1的传感器设备（例如终端设备200-1的内置的麦克风）采集待输出声源信号，将待输出声源信号经由即时通信客户端的后台服务器100传输到终端设备200-2，终端设备200-2响应于接收终端设备200-1发出的待输出声源信号，通过终端设备200-2的传感器设备采集环境中的音频信号，其中，音频信号包括环境声源信号和环境噪声，环境声源信号是语音通信中终端设备200-2对应的用户2被麦克风采集到的声源信号，例如包含了用户2的人声信息。

以用户佩戴耳机进行语音或视频通话的场景为例，参见图1B，用户1利用终端设备200-1通过即时通信客户端与终端设备200-2的持有者用户2进行语音通信或者视频通信，终端设备200-1通过连接的外置耳机300-1的麦克风采集待输出声源信号，参见图3A，图3A是本申请实施例提供的耳机的结构示意图，其中，前馈麦克风用于捕捉环境中的外部环境噪声；后馈麦克风用于捕捉前馈麦克风未捕捉到的耳周残余环境噪声；通话麦克风用于通话时的语音输入，以便进行通话，之后终端设备200-1将声源信号经由即时通信客户端的后台服务器100传输到终端设备200-2，终端设备200-2响应于接收终端设备200-1发出的声源信号，通过终端设备200-2连接的外置耳机300-2的麦克风（例如图3A示出的耳机310的前馈麦克风和后馈麦克风）采集环境中的音频信号。

以用户在车载场景下进行语音或视频通话为例，参见图3B和图3C，车载场景中，可以通过图3B示出的车载环境中的麦克风320（可集成扬声器）或者通过图3C示出的车载环境中的麦克风330（可集成扬声器）进行车载通信，车载终端通过车载的麦克风采集音频信号。

其中，待输出声源信号包括噪声成分，例如在语音通话过程中来自通讯设备、电线、电源等的电磁干扰声，来自麦克风、耳机等设备产生的机械噪声或者由于在通话过程中的压缩算法对语音的压缩引起的失真和噪声等。

在步骤102中，确定音频信号中多个频点分别对应的噪声估计值。

在一些实施例中，参见图4B，图4A示出的步骤102，可以由以下步骤1021至步骤1027实现，下面具体说明。

在步骤1021中，将音频信号划分为多个音频帧。

在一些实施例中，首先对音频信号进行去除静音段处理（例如通过端点检测方法去除音频信号中的静音段），接下来通过分帧操作，将音频信号划分为固定长度（例如20毫秒为一帧）的音频帧，对每个音频帧应用窗函数（例如汉明窗、海宁窗等），以减小音频帧边界处的突变，汉明窗的窗函数如下式所示：

（1）

其中，属于，表示窗函数的长度（窗函数长度与音频帧的长度相同），表示窗函数在索引处的取值，下文不再赘述。

在步骤1022中，将多个音频帧从时域转换到频域，得到音频信号中多个频点分别对应的频域表示。

在一些实施例中，对包括多个音频帧的音频信号进行傅里叶变换，得到音频信号中多个频点分别对应的频域表示，傅里叶变换公式如下式所示：

（2）

其中，，表示频点的索引值，对应音频帧的序号，下文不再赘述。

在步骤1023中，通过频域表示获取多个频点分别对应的短时功率谱。

在一些实施例中，通过下式获取多个频点分别对应的短时功率谱：

（3）

其中，表示第帧第个频点的短时功率谱，表示对第帧第个频点的振幅值进行平方运算，得到多个频点分别对应的短时功率谱。

在步骤1024中，对短时功率谱进行平滑处理，得到多个频点分别对应的噪声功率谱。

在一些实施例中，首先，按照下式对短时功率谱进行频域平滑：

（4）

其中，为是一个窗口大小为的频域平滑加权因子组，可以根据具体的应用场景进行调整，例如当时，，是序列中第个位置左边个位置（也就是之前的w个位置）和右边个位置（也就是之后的w个位置）的值，公式（4）的意义是将序列在位置处的值与其左右个位置的值加权平均，得到的值。

接下来，按照下式对短时功率谱进行时域平滑：

（5）

其中，表示第个时间步骤中第个频点的移动平均值即频点对应的噪声功率谱，是时域平滑系数，时域平滑系数区间为，例如，公式（5）的意义是通过对历史数据进行加权平均，来输出下一个时间步骤的数据。

在步骤1025中，通过噪声功率谱获取多个时间窗内的最小功率谱值，其中，每个时间窗包括多个音频帧。

在一些实施例中，可以通过最小值迭代法获取每个时间窗内的最小功率谱值，最小功率谱值获取过程如下式所示：

（6）

其中，表示最小功率谱值，表示时间窗（例如取0.5秒为一个时间窗），每个时间窗包括多个视频帧，表示迭代过程中的临时功率谱值，为公式（5）的输出，表示取模运算，式子（6）整体含义为，如果除以的余数为0（对应），那么等于和中的较小值且和相等；如果除以的余数不为0（对应及后续步骤），那么等于和中的较小值且等于和中的较小值。公式（6）的目的是通过不断迭代更新和的值，最终得到最小功率谱值。

在步骤1026中，通过最小功率谱值获取多个频点分别对应的语音存在概率值。

在一些实施例中，首先，通过下式获取多个频点分别对应的信噪比预测值：

（7）

其中，表示第帧第个频点的信噪比预测值，表示第帧第个频点的噪声功率谱，表示第帧第个频点的最小功率谱值。

接下来，通过下式获取每个频点分别对应的初始语音存在概率：

（8）

其中，表示存在概率门限值，基于信噪比预测值和存在概率门限值做对比得到第帧第个频点的初始语音存在概率，具体来说，当第帧第个频点的信噪比预测值大于存在概率门限值时，第帧第个频点的初始语音存在概率为1，当第帧第个频点的信噪比预测值小于等于存在概率门限值时，第帧第个频点的初始语音存在概率为0。

最后，按照下式对得到的初始语音概率进行平滑处理，得到多个频点分别对应的语音存在概率值：

（9）

其中，表示平滑系数，表示第帧第个频点的语音存在概率值。

在步骤1027中，通过语音存在概率值获取多个频点分别对应的噪声估计值。

在一些实施例中，通过下式利用语音存在概率值获取多个频点分别对应的噪声估计值：

（10）

其中，表示第帧第个频点的噪声估计值，表示第帧第个频点的语音存在概率值，表示第帧第个频点的噪声估计值，表示第帧第个频点的短时功率谱。

继续参见图4A，在步骤103中，确定多个频点分别对应的噪声掩蔽值。

在一些实施例中，参见图4C，图4A示出的步骤103，可以通过针对多个频点中的每个频点执行以下步骤1031至步骤1036实现，下面具体说明。

在步骤1031中，确定频点的频率的临界频带索引值。

在一些实施例中，一个临界频带通常被称为一个巴克（Bark），是一种用于描述人耳对声音频率感知的心理学尺度，Bark域的定义如表1所示：

表1

可以通过下式，将频点对应的线性频率转换为临界频带索引值：

（11）

其中，表示反正切函数，表示单位为千赫兹的频率。

在步骤1032中，确定临界频带索引值对应的信号功率谱。

在一些实施例中，通过下式计算临界频带索引值对应的信号功率谱：

（12）

其中，、代表第个Bark临界频带的上下限频率对应的临界频带索引值，表示第帧第个临界频带的功率谱。

在步骤1033中，获取预设的拓展函数。

在一些实施例中，预设拓展函数公式如下：

（13）

其中，，表示被掩蔽信号的临界频带索引值，表示掩蔽信号的临界频带索引值。

在步骤1034中，通过信号功率谱和拓展函数确定频点的拓展频谱。

在一些实施例中，考虑到频带间的相互影响，扩展频谱可以表示为：

（14）

其中，表示第帧第个临界频带索引值的扩展频谱。

在步骤1035中，通过拓展频谱确定临界频带掩蔽值。

在一些实施例中，通过下式获取临界频带掩蔽值：

（15）

其中，表示第帧第个临界频带索引值的临界频带掩蔽值。

在步骤1036中，通过临界频带掩蔽值确定噪声掩蔽值。

在一些实施例中，噪声掩蔽值等于临界频带掩蔽值与绝对听力阈值中的最大值，绝对听力阈值计算公式如下：

（16）

其中，函数为临界频带索引值转频率的函数，函数的输入为临界频带索引值，函数的输出为频率值。

则噪声掩蔽值可以表示为如下式子：

（17）

最后，通过下式将声压级的噪声掩蔽值转换到电子域：

（18）

其中，第帧频率为的频点的噪声掩蔽值。

继续参见图4A，在步骤104中，基于多个频点分别对应的噪声估计值和噪声掩蔽值，确定环境噪声在多个频点上分别对应待输出声源信号的掩蔽强度值。

在一些实施例中，参见图4D，图4A示出的步骤104，可以通过以下步骤1041至步骤1042实现，下面具体说明。

在步骤1041中，确定频点对应的噪声估计值与频点对应的噪声掩蔽值的比值。

在步骤1042中，将比值作为频点的掩蔽强度值，其中，掩蔽强度值与环境噪声在频点对待输出声源信号的掩蔽强度值正相关。

在一些实施例中，掩蔽强度值可以通过下式表示：

（19）

其中，表示第帧第个频点的掩蔽强度值，表示第帧第个频点的噪声估计值，表示第帧第个频点的噪声掩蔽值。

这里，对于可通过前文所述的频率和频点的转换公式：频率=频点× 所选通信带宽+下限频率，将频点转换成频率，之后通过公式（18）进行后续的计算。

继续参见图4A，在步骤105中，根据多个频点分别对应的掩蔽强度值确定多个频点分别对应的抑制增益值。

在一些实施例中，参见图4E，图4A示出的步骤105，可以通过以下步骤1051A至步骤1052A实现，下面具体说明。

在步骤1051A中，获取多个频点分别对应的原始增益值，其中，原始增益值是通过对待输出声源信号中包括的噪声成分进行噪声估计处理得到的。

在一些实施例中，如前文所述，待输出声源信号包括噪声成分，例如在语音通话过程中来自通讯设备、电线、电源等的电磁干扰声，来自麦克风、耳机等设备产生的机械噪声或者由于在通话过程中的压缩算法对语音的压缩引起的失真和噪声等，通过对待输出声源信号中包括的噪声成分进行噪声估计处理（例如小波变换降噪算法、谱减法等）得到原始增益值。

在步骤1052A中，通过多个频点分别对应的掩蔽强度值，对原始增益值进行非线性变换，得到多个频点分别对应的抑制增益值。

在一些实施例中，通过多个频点分别对应的掩蔽强度值，对原始增益值进行非线性变换，得到多个频点分别对应的抑制增益值，其中，对每个频点对应的原始增益值进行非线性变换是指将频点对应的原始增益值进行非线性处理后与预设的最小抑制增益值进行比较，取二者的最大值作为频点最终对应的抑制增益值，例如可以通过以下公式确定每个频点对应的抑制增益值：

（20）

其中，为最终对第帧的第个频点的抑制增益值，对应上文的原始增益值，这里的为一个单调递增函数，即随着输入值值增加输出值越大，且的输出最大上限值为1，为最小抑制增益值，用于控制避免降噪的过度抑制导致声音空穴现象。

通过步骤1051A至步骤1052A，实现了根据多个频点分别对应的掩蔽强度值确定多个频点分别对应的抑制增益值，达到了针对性的调节各个频点对应的抑制增益值，从而实现精准降噪的有益效果。

在一些实施例中，参见图4F，图4A示出的步骤105，可以通过以下步骤1051B至步骤1052B实现，下面具体说明。

在步骤1051B中，根据多个掩蔽区间预设的端点掩蔽强度值和多个频点分别对应的掩蔽强度值，将多个频点划分到多个掩蔽区间。

在一些实施例中，根据多个掩蔽区间预设的端点掩蔽强度值和多个频点分别对应的掩蔽强度值，将多个频点划分到多个掩蔽区间，例如，小于等于1.5的区间为弱掩蔽区间；在1.5～2.5以内的区间为中等掩蔽区间；大于等于2.5的区间为强掩蔽区间，这里，对于掩蔽区间的划分仅作为示例，本申请实施例不限制划分掩蔽区间的具体端点掩蔽强度值以及划分得到的掩蔽区间的具体个数。

在步骤1052B中，针对每个掩蔽区间中的每个频点分配统一的抑制增益值，其中，针对不同掩蔽区间分配的抑制增益值不同，且针对掩蔽区间分配的抑制增益值与掩蔽区间包括的频点对应的掩蔽强度值正相关。

在一些实施例中，针对每个掩蔽区间中的每个频点分配统一的抑制增益值，承接上文示例，例如可以对小于等于1.5的弱掩蔽区间中的每个频点分配的抑制增益值为0.9，对在1.5～2.5以内的中等掩蔽区间中的每个频点分配的抑制增益值为0.7，大于等于2.5的强掩蔽区间中的每个频点分配的抑制增益值为0.5，这里，对不同掩蔽区间中的频点分配的抑制增益值仅作为示例，本申请实施例不限制不同掩蔽区间中抑制增益值的具体取值，例如，还可以通过对原始增益值进行线性变换以分配不同掩蔽区间内抑制增益值，比如，在弱掩蔽区间中直接将原始增益值作为此区间内频点的抑制增益值，在中等掩蔽区间内将原始增益值的0.9倍作为此区间内频点的抑制增益值，在强掩蔽区间内将原始增益值的0.8倍作为此区间内频点的抑制增益值。

在一些实施例中，当掩蔽区间的数量是两个时，多个掩蔽区间包括强掩蔽区间和弱掩蔽区间，强掩域区间的掩蔽强度值大于弱掩蔽区间的掩蔽强度值；待输出声源信号在强掩蔽区间中的声源成分被环境噪声在强掩蔽频域区间中的噪声成分完全掩蔽；待输出声源信号在弱掩蔽区间中的声源成分被环境噪声在弱掩蔽区间中的噪声成分部分掩蔽，作为示例，对于弱掩蔽区间和强掩蔽区间内每个频点的抑制增益值还可以是，在弱掩蔽区间中每个频点的原始增益值作为抑制增益值，在强掩蔽区间中每个频点的抑制增益值参照步骤1052A的公式（20）以及相关说明。

通过步骤1051B至步骤1052B，以掩蔽区间为单位分配各个频点的抑制增益值，实现了通过掩蔽强度值划分的掩蔽区间为单位设置增益值，相较于以频点为单位进行抑制增益值确认的降噪方案，简化了生成降噪信号的计算过程，提高了处理效率。

继续参见图4A，在步骤106中，通过多个频点的抑制增益值和待输出声源信号，生成第一降噪信号。

在一些实施例中，参见图4G，图4A示出的步骤106，可以通过以下步骤1061至步骤1063实现，下面具体说明。

在步骤1061中，将多个频点的抑制增益值分别与待输出声源信号中对应频点的频域信号值相乘，得到待输出声源信号的第一频域降噪信号。

在一些实施例中，原始的待输出声源信号经过傅里叶变换后得到频域信号，即每个频点的复数值，将各频点的复数值乘以对应的抑制增益值，得到待输出声源信号的第一频域降噪信号。

在步骤1062中，将第一频域降噪信号转换为第一时域信号。

在一些实施例中，通过对第一频域降噪信号进行逆傅里叶变换处理，得到第一时域信号。

在步骤1063中，对第一时域信号进行自动增益控制处理，得到第一降噪信号。

在一些实施例中，对第一时域信号进行自动增益控制处理（Auto Gain Control，AGC），对第一时域信号进行信号能量水平检测（例如通过均方根或峰值检测方法），AGC通过当前帧的时域信号能量水平和目标能量范围获取应该施加的增益值，例如，当信号能量过低时，将增加增益以提高信噪比；反之，如果能量过高，将减小增益以避免信号溢出，将获取到的增益值应用到第一时域信号中（例如通过乘法实现），从而得到第一降噪信号。

在一些实施例中，参见图4H，在执行图4A示出的步骤104之前，还可以执行以下步骤107至步骤110，下面具体说明。

在步骤107中，将音频信号划分为多个音频帧。

这里，将音频信号划分为多个音频帧参见上文步骤1021的说明，之后针对每个音频帧执行以下步骤108至步骤110的处理。

在步骤108中，获取音频帧包括的多个频点分别对应的噪声估计值。

这里，参见上文步骤1022至步骤1027的说明。

在步骤109中，对音频帧包括的多个频点分别对应的噪声估计值进行加和处理，得到音频帧的整体噪声估计值。

在一些实施例中，对音频帧包括的多个频点分别对应的噪声估计值进行加和处理，计算公式如下：

（21）

其中，表示第帧的整体噪声估计值，表示第帧第个频点的噪声估计值。

在步骤110中，响应于音频帧整体噪声估计值大于噪声门限，转入确定环境噪声在多个频点上分别对应待输出声源信号的掩蔽强度值的处理。

在一些实施例中，当音频帧整体噪声估计值大于预设的噪声门限时，转入确定环境噪声在多个频点上分别对应待输出声源信号的掩蔽强度值的处理，这里，参见步骤103 至步骤105的说明。

在一些实施例中，参见图4I，在执行图4H示出的步骤110时，还可以执行以下步骤111至步骤114，下面具体说明。

在步骤111中，响应于音频帧的整体噪声估计值小于或等于噪声门限，获取多个频点分别对应的原始增益值，将原始增益值作为多个频点分别对应的抑制增益值。

在一些实施例中，当音频帧整体噪声估计值小于或等于预设的噪声门限时，获取多个频点分别对应的原始增益值，这里，取多个频点分别对应的原始增益值参见上文步骤1051A的说明。

在步骤112中，将多个频点的抑制增益值分别与待输出声源信号中对应频点的频域信号值相乘，得到待输出声源信号的第二频域降噪信号。

在一些实施例中，将多个频点的抑制增益值分别与待输出声源信号中对应频点的频域信号值相乘，得到待输出声源信号的第二频域降噪信号，具体实现参见上文步骤1061的说明。

在步骤113中，将第二频域降噪信号转换为第二时域信号。

在一些实施例中，将第二频域降噪信号转换为第二时域信号，具体实现参见上文步骤1062的说明。

在步骤114中，对第二时域信号进行自动增益控制处理，得到第二降噪信号。

在一些实施例中，对第二时域信号进行自动增益控制处理，得到第二降噪信号，具体实现参将上文步骤1063的说明。

通过步骤107至步骤114，对整体噪声估计值低于噪声门限的音频帧所包含的频点将原始增益值作为最终的抑制增益值，进行相对温和的去噪处理；对于整体噪声估计值高于噪声门限的音频帧所包含的频点的原始增益值进行非线性变换后作为最终的抑制增益值，进行强抑制的去噪处理，实现了针对不同整体噪声估计值的音频帧的各个频点进行有针对性的降噪，针对待输出声源信号中的音频帧，达到了降低整体噪声估计值较高的音频帧（也就是已被环境噪声信号所完全掩蔽的音频帧）对待输出音源信号中其他音频帧造成掩蔽影响，以及降低待输出音源信号中整体噪声估计值较低的音频帧的信号能量的损失的有益效果。

在一些实施例中，音频信号还包括回声信号，在执行图4A示出的步骤102之前，还可以对音频信号进行回声消除处理，得到去除回声信号的音频信号，其中，去除回声信号的音频信号用于替代去除回声信号之前的音频信号以确定噪声估计值。

在一些实施例中，例如可以通过频域相关性分析方法、混响补偿方法（Reverberation Compensation）或双麦克风回声消除（Dual-Microphone EchoCancellation）等方法对音频信号进行回声消除处理，得到去除回声信号的音频信号。

通过步骤101至步骤106，通过结合待输出声源信号实时的播放环境中的听觉掩蔽效应针对待输出声源信号中不同频点被掩蔽的程度（即通过掩蔽强度值表征），将音频帧整体噪声估计值大于噪声门限的音频帧包含的各个频点所对应的原始增益值进行非线性处理得到抑制强度更强的抑制增益值，将音频帧整体噪声估计值小于噪声门限的音频帧包含的各个频点的抑制强度相对温和的原始增益值作为抑制增益值，针对性的调节各个频点对应的抑制增益值，之后利用抑制增益值对音频信号中的各个频点上的能量进行衰减，降低环境强噪声的掩蔽影响，实现了针对不同掩蔽强度的各个频点的有针对性的降噪，从而提升最终播放的待输出声源信号的清晰度和可理解性。

下面，将说明本申请实施例在一个语音通话应用场景中的示例性应用。

在使用移动终端进行音视频通话过程中，通话过程容易受外界环境的声学噪声干扰，例如地铁车厢内的嘈杂声、超市人声、马路汽车声、户外雨声等，由于声音具有掩蔽效应，即音量较大者会掩蔽掉音量小者，表现在声音频域上则为：对方声音经扬声器或耳机播放后，其中个别频域的声音成分完全被环境噪声成分所掩蔽，导致本地收听方听不清对方声音，通过本申请实施例提供的音频信号处理方对语音通话过程中对本地收听方的设备采集到的音频数据进行降噪处理，输出更加清晰的语音信号，使得收听方在周边环境噪声下能有效听清楚对方声音。

参见图5，图5是本申请实施例提供的语音通话中音频信号处理的流程示意图，下面具体说明。

在步骤201中，获取待输出声源信号，并采集音频数据。

在一些实施例中，响应于本地收听方通过即时通信客户端获取语音通话中说话方传输的待输出声源信号，本地收听方的终端设备（例如通过图3A示出的外置耳机310中的前馈麦克风和后馈麦克风或终端设备的内置麦克风等）采集音频数据，其中，音频数据包括环境声源信号和环境噪声，同时，待输出声源信号包括噪声成分，例如在语音通话过程中来自通讯设备、电线、电源等的电磁干扰声，来自麦克风、耳机等设备产生的机械噪声或者由于在通话过程中的压缩算法对语音的压缩引起的失真和噪声等。

在步骤202中，进行音频数据前处理。

在一些实施例中，对音频数据进行去除静音段处理，并通过频域相关性分析方法、混响补偿方法（Reverberation Compensation）或双麦克风回声消除（Dual-MicrophoneEcho Cancellation）等方法对音频数据进行回声消除处理，得到去除回声信号的音频数据。

在步骤203中，获取噪声估计值。

这里，参照上文步骤102的说明。

在步骤204中，获取噪声掩蔽值。

这里，参照上文步骤103的说明。

在步骤205中，识别强掩蔽区间和弱掩蔽区间。

在一些实施例中，将音频信号划分为多个音频帧，对音频帧包括的多个频点分别对应的噪声估计值进行加和处理，得到音频帧的整体噪声估计值，计算公式及说明参见上文步骤107至步骤109，将音频帧整体噪声估计值大于噪声门限的音频帧包含的频点划分到强掩蔽区间，将其余音频帧包含的频点划分到弱掩蔽区间。

在一些实施例中，作为替代实施方案，还可以根据多个掩蔽区间预设的端点掩蔽强度值和多个频点分别对应的掩蔽强度值，将多个频点划分到多个掩蔽区间，这里，参见上文步骤1052B的说明。

在步骤206中，对不同掩蔽区间采用不同降噪策略。

在一些实施例中，在弱掩蔽区间中，将每个频点的原始增益值作为抑制增益值，这里，原始增益值的获取参照上文步骤1051A的说明；在强掩蔽区间中，对原始增益值进行非线性变换，得到多个频点分别对应的抑制增益值，这里，对原始增益值进行非线性变换参见上文步骤1052A的说明。

在一些实施例中，作为替代实施方案，还可以针对每个掩蔽区间中的每个频点分配统一的抑制增益值，其中，针对不同掩蔽区间分配的抑制增益值不同，且针对掩蔽区间分配的抑制增益值与掩蔽区间包括的频点对应的掩蔽强度值正相关，这里，参见上文步骤1052B的说明。

在一些实施例中，将不同掩蔽区间中多个频点的抑制增益值分别与待输出声源信号中对应频点的频域信号值相乘，得到待输出声源信号的频域降噪信号，将频域降噪信号进行逆傅里叶变换处理，得到时域信号，这里，参见上文步骤1061至步骤1062的说明。

在步骤207中，进行自动增益处理。

在一些实施例中，承接上文示例，对步骤206输出的时域信号进行自动增益控制处理（Auto Gain Control，AGC），AGC通过获取当前帧的时域信号能量水平（例如通过均方根或峰值检测方法）和目标能量范围获取应该施加的增益值，例如，当信号能量过低时，将增加增益以提高信噪比；反之，如果能量过高，将减小增益以避免信号溢出，将获取到的增益值应用到时域信号中（例如通过乘法实现），从而得到降噪后的待输出声源信号。

在步骤208中，播放降噪后的待输出声源信号。

在一些实施例中，通过本地收听方的终端设备的扬声器播放降噪后的待输出声源信号。

下面继续说明本申请实施例提供的音频信号处理装置255实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的音频信号的处理装置255可以包括：

数据获取模块2551，用于获取待输出声源信号，并获取从环境中采集的音频信号，其中，所述音频信号包括环境声源信号和环境噪声。

数据处理模块2552，用于确定所述音频信号中多个频点分别对应的噪声估计值。

生成模块2553，用于通过所述多个频点的抑制增益值和所述待输出声源信号，生成第一降噪信号。

在一些实施例中，所述数据处理模块2552，还用于将所述音频信号划分为多个音频帧；将所述多个音频帧从时域转换到频域，得到所述音频信号中多个频点分别对应的频域表示；通过所述频域表示获取所述多个频点分别对应的短时功率谱；对所述短时功率谱进行平滑处理，得到所述多个频点分别对应的噪声功率谱；通过所述噪声功率谱获取多个时间窗内的最小功率谱值，其中，每个所述时间窗包括多个所述音频帧；通过所述最小功率谱值获取所述多个频点分别对应的语音存在概率值；通过所述语音存在概率值获取所述多个频点分别对应的噪声估计值。

在一些实施例中，所述数据处理模块2552，还用于确定所述多个频点分别对应的噪声掩蔽值。

在一些实施例中，所述数据处理模块2552，还用于针对所述多个频点中的每个频点执行以下处理：确定所述频点的频率的临界频带索引值；确定所述临界频带索引值对应的信号功率谱；获取预设的拓展函数；通过所述信号功率谱和所述拓展函数确定所述频点的拓展频谱；通过所述拓展频谱确定临界频带掩蔽值；通过所述临界频带掩蔽值确定所述噪声掩蔽值。

在一些实施例中，所述数据处理模块2552，还用于基于所述多个频点分别对应的所述噪声估计值和所述噪声掩蔽值，确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值。

在一些实施例中，所述数据处理模块2552，还用于针对每个所述频点执行以下处理：确定所述频点对应的所述噪声估计值与所述频点对应的所述噪声掩蔽值的比值；将所述比值作为所述频点的掩蔽强度值，其中，所述掩蔽强度值与所述环境噪声在所述频点对所述待输出声源信号的掩蔽强度值正相关。

在一些实施例中，所述数据处理模块2552，还用于根据所述多个频点分别对应的掩蔽强度值确定所述多个频点分别对应的抑制增益值。

在一些实施例中，所述数据处理模块2552，还用于获取所述多个频点分别对应的原始增益值，其中，所述原始增益值是通过对所述待输出声源信号中包括的噪声成分进行噪声估计处理得到的；通过多个频点分别对应的所述掩蔽强度值，对所述原始增益值进行非线性变换，得到所述多个频点分别对应的抑制增益值。

在一些实施例中，所述数据处理模块2552，还用于根据多个掩蔽区间预设的端点掩蔽强度值和所述多个频点分别对应的掩蔽强度值，将所述多个频点划分到所述多个掩蔽区间；针对每个所述掩蔽区间中的每个所述频点分配统一的抑制增益值，其中，针对不同所述掩蔽区间分配的所述抑制增益值不同，且针对所述掩蔽区间分配的所述抑制增益值与所述掩蔽区间包括的所述频点对应的所述掩蔽强度值正相关。

在一些实施例中，所述数据处理模块2552，还用于当所述掩蔽区间的数量是两个时，所述多个掩蔽区间包括强掩蔽区间和弱掩蔽区间，所述强掩蔽区间的掩蔽强度值大于所述弱掩蔽区间的掩蔽强度值；所述待输出声源信号在强掩蔽区间中的声源成分被所述环境噪声在所述强掩蔽区间中的噪声成分完全掩蔽；所述待输出声源信号在所述弱掩蔽区间中的声源成分被所述环境噪声在所述弱掩蔽区间中的噪声成分部分掩蔽。

在一些实施例中，所述数据处理模块2552，还用于将所述音频信号划分为多个音频帧；针对每个所述音频帧执行以下处理：获取所述音频帧包括的所述多个频点分别对应的所述噪声估计值；对所述音频帧包括的多个频点分别对应的所述噪声估计值进行加和处理，得到所述音频帧的整体噪声估计值；响应于所述音频帧整体噪声估计值大于噪声门限，转入所述确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值的处理。

在一些实施例中，所述数据处理模块2552，还用于响应于所述音频帧的整体噪声估计值小于或等于所述噪声门限，获取所述多个频点分别对应的原始增益值，将所述原始增益值作为所述多个频点分别对应的抑制增益值；将所述多个频点的抑制增益值分别与所述待输出声源信号中对应所述频点的频域信号值相乘，得到所述待输出声源信号的第二频域降噪信号；将所述第二频域降噪信号转换为第二时域信号；对所述第二时域信号进行自动增益控制处理，得到第二降噪信号。

在一些实施例中，所述数据处理模块2552，还用于对所述音频信号进行回声消除处理，得到去除所述回声信号的音频信号，其中，去除所述回声信号的音频信号用于替代去除所述回声信号之前的音频信号以确定所述噪声估计值。

在一些实施例中，所述生成模块2553，还用于将所述多个频点的抑制增益值分别与所述待输出声源信号中对应所述频点的频域信号值相乘，得到所述待输出声源信号的第一频域降噪信号；将所述第一频域降噪信号转换为第一时域信号；对所述第一时域信号进行自动增益控制处理，得到第一降噪信号。

本申请实施例提供了一种计算机程序产品，计算机程序产品包括计算机可执行指令，计算机可执行指令存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取计算机可执行指令，处理器执行计算机可执行指令，使得电子设备执行本申请实施例上述的音频信号处理方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的音频信号处理方法，例如，如图4A示出的音频信号处理方法。

在一些实施例中，计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（Hyper TextMarkup Language，HTML）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例考虑了听觉掩蔽效应，结合待输出声源信号实际播放环境中的听觉掩蔽效应调节各个频点对应的抑制增益值，之后再通过抑制增益值对待输出声源信号中的各个频点上的能量进行衰减，能够降低环境强噪声对待输出声源信号的掩蔽影响，从而达到提升最终播放的待输出声源信号的清晰度和可理解性的有益效果。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包括在本申请的保护范围之内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

获取待输出声源信号，并获取从环境中采集的音频信号，其中，所述音频信号包括环境声源信号和环境噪声；

确定所述音频信号中多个频点分别对应的噪声估计值；

确定所述多个频点分别对应的噪声掩蔽值；

获取所述多个频点分别对应的原始增益值，其中，所述原始增益值是通过对所述待输出声源信号中包括的噪声成分进行噪声估计处理得到的；

通过所述多个频点分别对应的所述掩蔽强度值，对所述原始增益值进行非线性变换，得到所述多个频点分别对应的抑制增益值；

通过所述多个频点分别对应的抑制增益值和所述待输出声源信号，生成第一降噪信号。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个频点分别对应的所述噪声估计值和所述噪声掩蔽值，确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值，包括：

针对每个所述频点执行以下处理：

确定所述频点对应的所述噪声估计值与所述频点对应的所述噪声掩蔽值的比值；

将所述比值作为所述频点的掩蔽强度值，其中，所述掩蔽强度值与所述环境噪声在所述频点对应所述待输出声源信号的掩蔽强度值正相关。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据多个掩蔽区间预设的端点掩蔽强度值和所述多个频点分别对应的掩蔽强度值，将所述多个频点划分到所述多个掩蔽区间；

针对每个所述掩蔽区间中的每个所述频点分配统一的抑制增益值，其中，针对不同所述掩蔽区间分配的所述抑制增益值不同，且针对所述掩蔽区间分配的所述抑制增益值与所述掩蔽区间包括的所述频点对应的所述掩蔽强度值正相关。

4.根据权利要求3所述的方法，其特征在于，

当所述掩蔽区间的数量是两个时，所述多个掩蔽区间包括强掩蔽区间和弱掩蔽区间，所述强掩蔽区间的掩蔽强度值大于所述弱掩蔽区间的掩蔽强度值；所述待输出声源信号在强掩蔽区间中的声源成分被所述环境噪声在所述强掩蔽区间中的噪声成分完全掩蔽；所述待输出声源信号在所述弱掩蔽区间中的声源成分被所述环境噪声在所述弱掩蔽区间中的噪声成分部分掩蔽。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述通过所述多个频点的抑制增益值和所述待输出声源信号，生成第一降噪信号，包括：

将所述多个频点的抑制增益值分别与所述待输出声源信号中对应所述频点的频域信号值相乘，得到所述待输出声源信号的第一频域降噪信号；

将所述第一频域降噪信号转换为第一时域信号；

对所述第一时域信号进行自动增益控制处理，得到第一降噪信号。

6.根据权利要求1至4任一项所述的方法，其特征在于，在所述确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值之前，所述方法还包括：

将所述音频信号划分为多个音频帧；

针对每个所述音频帧执行以下处理：

获取所述音频帧包括的所述多个频点分别对应的所述噪声估计值；

对所述音频帧包括的多个频点分别对应的所述噪声估计值进行加和处理，得到所述音频帧的整体噪声估计值；

响应于所述音频帧的整体噪声估计值大于噪声门限，转入所述确定所述环境噪声在所述多个频点上分别对应所述待输出声源信号的掩蔽强度值的处理。

7.根据权利要求6所述的方法，所述方法还包括：

响应于所述音频帧的整体噪声估计值小于或等于所述噪声门限，获取所述多个频点分别对应的原始增益值，将所述原始增益值作为所述多个频点分别对应的抑制增益值；

将所述多个频点的抑制增益值分别与所述待输出声源信号中对应所述频点的频域信号值相乘，得到所述待输出声源信号的第二频域降噪信号；

将所述第二频域降噪信号转换为第二时域信号；

对所述第二时域信号进行自动增益控制处理，得到第二降噪信号。

8.根据权利要求1至4任一项所述的方法，其特征在于，所述音频信号还包括回声信号，在所述确定所述音频信号中多个频点分别对应的噪声估计值之前，所述方法还包括：

对所述音频信号进行回声消除处理，得到去除所述回声信号的音频信号，其中，去除所述回声信号的音频信号用于替代去除所述回声信号之前的音频信号以确定所述噪声估计值。

9.根据权利要求1至4任一项所述的方法，其特征在于，所述确定所述音频信号中多个频点分别对应的噪声估计值，包括：

将所述音频信号划分为多个音频帧；

将所述多个音频帧从时域转换到频域，得到所述音频信号中多个频点分别对应的频域表示；

通过所述频域表示获取所述多个频点分别对应的短时功率谱；

对所述短时功率谱进行平滑处理，得到所述多个频点分别对应的噪声功率谱；

通过所述噪声功率谱获取多个时间窗内的最小功率谱值，其中，每个所述时间窗包括多个所述音频帧；

通过所述最小功率谱值获取所述多个频点分别对应的语音存在概率值；

通过所述语音存在概率值获取所述多个频点分别对应的噪声估计值。

10.根据权利要求1至4任一项所述的方法，其特征在于，所述确定所述多个频点分别对应的噪声掩蔽值，包括：

针对所述多个频点中的每个频点执行以下处理：

确定所述频点的频率的临界频带索引值；

确定所述临界频带索引值对应的信号功率谱；

获取预设的拓展函数；

通过所述信号功率谱和所述拓展函数确定所述频点的拓展频谱；

通过所述拓展频谱确定临界频带掩蔽值；

通过所述临界频带掩蔽值确定所述噪声掩蔽值。

11.一种音频信号处理装置，其特征在于，所述装置包括：

所述数据处理模块，还用于获取所述多个频点分别对应的原始增益值，其中，所述原始增益值是通过对所述待输出声源信号中包括的噪声成分进行噪声估计处理得到的；通过所述多个频点分别对应的所述掩蔽强度值，对所述原始增益值进行非线性变换，得到所述多个频点分别对应的抑制增益值；

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至10任一项所述的音频信号处理方法。

13.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至10任一项所述的音频信号处理方法。

14.一种计算机程序产品，包括计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至10任一项所述的音频信号处理方法。