WO2021139327A1

WO2021139327A1 - 一种音频信号处理方法、模型训练方法以及相关装置

Info

Publication number: WO2021139327A1
Application number: PCT/CN2020/124244
Authority: WO
Inventors: 张金亮; 余涛
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-01-09
Filing date: 2020-10-28
Publication date: 2021-07-15
Also published as: EP3998557A4; CN111210021B; EP3998557A1; US20220215853A1; EP3998557B1; CN111210021A

Abstract

本申请公开了一种音频信号处理方法、模型训练方法以及相关装置，通过对第一音频输入信号输入机器学习模型，以得到第一啸叫点以及对应的第一增益值；并根据该第一增益值处理该第一音频输入信号，以得到第二音频输入信号；接下来检测该第二音频输入信号，以得到第二啸叫点，然后根据第二增益值对第二音频输入信号中的第二啸叫点进行处理，以得到音频输出信号。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法再进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，使得上述处理过程迅速，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

Description

一种音频信号处理方法、模型训练方法以及相关装置

本申请要求于2020年01月09日提交中国专利局、申请号为202010023045.6、申请名称为“一种音频信号处理方法、模型训练方法以及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及音频信号处理。

背景技术

随着移动终端相关技术的发展，越来越多的智能设备出现在人们的生活中，其中，通过智能设备进行语音通话尤为突出，然而由于通话过程中本端麦克风也会采集到对端扬声器的音频信号，这些音频信号可能在本端与对端的语音过程中循环，尤其在近距离的语音过程中，音频信号会不断的循环增益，从而产生啸叫。

一般，可以采用移频器或移相器对本端的输入音频进行处理，即破坏与啸叫产生的相位一致的音频信息，从而实现啸叫抑制。

发明内容

有鉴于此，本申请提供一种音频信号处理的方法，可以有效定位啸叫点并进行啸叫抑制，提高音频信号处理过程的准确性。

一方面，本申请实施例提供一种音频信号处理的方法，可以应用于终端设备中包含音频信号处理功能的***或程序中，具体包括：

获取第一音频输入信号；

将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，其中，所述第一啸叫点用于指示所述第一音频输入信号中有效音频信号对应频段的啸叫点；所述第一增益值用于指示所述第一啸叫点的抑制参数，根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点；

根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号。

另一方面，本申请实施例提供一种音频信号处理的装置，包括：

获取单元，用于获取第一音频输入信号；

输入单元，用于将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，其中，所述第一啸叫点用于指示所述第一音频输入信号中有效音频信号对应频段的啸叫点；所述第一增益值用于指示所述第一啸叫点的抑制参数，根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

检测单元，用于检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点；

处理单元，用于根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号。

另一方面，本申请实施例提供一种机器学习模型训练的方法，包括：采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

根据所述参考信号和采集信号生成特征训练集；

将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。

本申请第四方面提供一种机器学习模型训练的装置，包括：采集单元，用于采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

生成单元，用于根据所述参考信号和采集信号生成特征训练集；

训练单元，用于将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。

本申请第五方面提供一种计算机设备，包括：存储器、处理器以及总线***；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述方面所述的音频信号的处理方法，或上述方面所述的机器模型的训练方法。

本申请第六方面提供一种计算机可读存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的音频信号的处理方法，或上述方面所述的机器模型的训练方法。

又一方面，本申请实施例提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述方面所述的音频信号的处理方法，或上述方面所述的机器模型的训练方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取第一音频输入信号；然后将该第一音频输入信号输入机器学习模型，以得到处理有效音频信号频段的第一增益值；并根据该第一增益值处理该第一音频输入信号，以得到第二音频输入信号；接下来检测该第二音频输入信号，以得到第二啸叫点，该第二啸叫点用于指示第二音频输入信号中非有效音频信号对应频段的啸叫点；进而根据第二增益值对该第二音频输入信号进行处理，以得到音频输出信号，该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法再进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，以及进一步的对未处理的啸叫点进行第二增益值的处理，使得上述啸叫点抑制过程迅速且全面，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

附图说明

图1为音频信号处理***运行的网络架构图；

图2为本申请实施例提供的一种音频信号处理的流程架构图；

图3为本申请实施例提供的一种音频信号处理的方法的流程图；

图4为本申请实施例提供的另一种音频信号处理的方法的流程图；

图5为本申请实施例提供的一种音频信号处理的场景示意图；

图6为本申请实施例提供的另一种音频信号处理的场景示意图；

图7为本申请实施例提供的另一种音频信号处理的方法的流程图；

图8为本申请实施例提供的一种音频信号处理对比图；

图9为本申请实施例提供的另一种音频信号处理的方法的流程图；

图10为本申请实施例提供的一种音频信号处理方法的界面示意图；

图11为本申请实施例提供的另一种音频信号处理方法的界面示意图；

图12为本申请实施例提供的一种机器学习模型训练的方法的流程图；

图13为本申请实施例提供的一种机器学习模型训练的流程示意图；

图14为本申请实施例提供的一种音频信号处理装置的结构示意图；

图15为本申请实施例提供的一种机器学习模型训练装置的结构示意图；

图16为本申请实施例提供的一种终端设备的结构示意图；

图17为本申请实施例提供的服务器一种结构示意图。

具体实施方式

本申请实施例提供了一种音频信号处理的方法以及相关装置，可以应用于终端设备中包含音频信号处理功能的***或程序中，通过获取第一音频输入信号；然后将该第一音频输入信号输入机器学习模型，以得到处理有效音频信号频段的第一增益值；并根据该第一增益值处理该第一音频输入信号，以得到第二音频输入信号；接下来检测该第二音频输入信号，以得到第二啸叫点，该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点；进而根据第二增益值对该第二音频输入信号进行处理，以得到音频输出信号，该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法在进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，以及进一步的对未处理的啸叫点进行第二增益值的处理，使得上述啸叫点抑制过程迅速且全面，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

首先，对本申请实施例中可能出现的一些名词进行解释。

啸叫：麦克风采集的声音信号经过扬声器放大，再被麦克风拾取，信号在反馈回路中不断的叠加放大，正反馈产生震荡循环，进而产生的现象。

啸叫点：在音频信号中循环增益大于等于1的频点。

有效音频信号：指示音频信号中的目标音频，例如语音通话过程中的语音信号。

非有效音频信号：指示音频信号中的干扰音频，例如环境噪声、回声等。

增益值：对于指定频段的音频信号的处理变化程度，在啸叫抑制场景中用于指示对于啸叫点对应音频信号的缩小倍数。

基音周期：人发声过程中声带每开启和闭合一次的周期时间，即可以用于指示有效音频信号的参数。

机器学习模型：通过给定样本进行参数调节，以使得输出具有给定样本相似特征的模型。

功率谱：信号功率随着频率的变化情况，即信号功率在频域的分布状况。

模数转换器(Analog-to-Digital Converter，ADC)：一种将模拟信号转变为数字信号的电子元件。

循环神经网络模型(Recurrent Neural Network，RNN)：一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

卷积神经网络模型(Convolutional Neural Networks，CNN)：卷积神经网络具有表征学***移不变分类。

应理解，本申请提供的音频信号处理方法可以应用于终端设备中包含音频信号处理功能的***或程序中，例如作为游戏的语音插件，具体的，音频信号处理***可以运行于如图1所示的网络架构中，如图1所示，是音频信号处理***运行的网络架构图，如图可知，音频信号处理***可以提供与多个信息源的音频信号处理，终端通过网络建立与服务器的连接，进而接收其他终端发送的音频信号，通过对接收到的信号进行本申请提供的音频信号处理方法进行啸叫抑制，以得到音频输出，从而实现了多个终端之间的音频互动过程；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到音频信号处理的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的音频信号处理方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行音频信号互动，进而进行终端之间的音频信号处理的过程。

可以理解的是，上述音频信号处理***可以运行于个人移动终端，例如：作为游戏语音插件这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供音频信号处理，以得到信息源的音频信号处理处理结果；具体的音频信号处理***可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的***部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

但是，使用移频器或移相器的方法处理时间较长，不适用于语音通话的实时处理的场景，且由于对于啸叫点固定的相位移除，也会对有效音频的音质产生损伤，影响音频处理的准确性。

为了解决上述问题，本申请提出了一种音频信号处理的方法，该方法应用于图2所示的音频信号处理的流程框架中，如图2所示，为本申请实施例提供的一种音频信号处理的流程架构图，首先终端设备收集用户的语音，并转换为音频信号，然后输入训练好的机器学习模型进行啸叫点的筛选并进行抑制，进一步的对于未处理的啸叫点进行增益控制，从而得到啸叫抑制后的音频信号以作为输出。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件***中的一种处理逻辑，也可以作为一种音频信号处理装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该音频信号处理装置通过获取第一音频输入信号；然后将该第一音频输入信号输入机器学习模型，以得到处理有效音频信号频段的第一增益值；并根据该第一增益值处理该第一音频输入信号，以得到第二音频输入信号；接下来检测该第二音频输入信号，以得到第二啸叫点，该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点；进而根据第二增益值对该第二音频输入信号进行处理，以得到音频输出信号，该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法在进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，以及进一步的对未处理的啸叫点进行第二增益值的处理，使得上述啸叫点抑制过程迅速且全面，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

结合上述流程架构，下面将对本申请中音频信号处理的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种音频信号处理的方法的流程图，本申请实施例至少包括以下步骤：

301、获取第一音频输入信号。

本实施例中，第一音频输入信号可以是开始语音通话时的初始音频信号；也可以是通话一段时间后的音频信号，具体的，由于啸叫的产生为音频信号在反馈回路中不断增益的过程，即反馈增益累计的过程，其中，反馈回路即为本端麦克风与对端扬声器组成的回路；故不同时间段的音频信号可能累计的反馈增益不同，可以立即唤起本申请提供的音频处理方法，也可以等待反馈增益大于或等于1后再唤起本申请提供的音频处理方法。这是由于啸叫的产生需要在音频信号的回路中的反馈增益大于或等于1。

可选的，获取的第一音频输入信号可以是经过初步放大的信号，具体的，首先获取采集信号，该采集信号可以是由麦克风或其他采集设备采集的；然后将该采集信号转换为数字信号，例如通过ADC进行转换；进一步的将该数字信号输入放大器，从而得到该第一音频输入信号。由于对第一音频输入信号进行了放大，一方面便于用户收听，另一方面便于本申请后续的啸叫点的筛选过程。

另外，考虑到采集设备收集到的采集信号可能含有明显的杂音，例如：频率远远大于语音范围的信号；此时可以进行初步的噪声筛除。具体的，将该数字信号输入放大器，以得到放大信号；然后根据滤波参数处理该放大信号，以得到滤波后的放大信号；进一步的将该滤波后的放大信号进行傅立叶变换到频域，以得到该第一音频输入信号。其中，滤波参数可以是固定值，也可以是根据历史记录中常见噪声对应的频带进行的针对性设定。

302、将第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据第一啸叫点获得第一增益值。

本实施例中，第一啸叫点用于指示第一音频输入信号中有效音频信号对应频段的啸叫点；第一增益值用于指示第一啸叫点的抑制参数，根据第一增益值处理第一音频输入信号，以得到第二音频输入信号；另外，该机器学习模型基于多个训练信号训练所得，该训练信号中包含多个啸叫点样本，该第一啸叫点用于指示有效音频信号对应频段的啸叫点。

由于啸叫点与有效语音在频带分布或能量特征在存在一些差异，可以通过确定音频输入信号中的多个特征进行提取，这些特征可以基于有效音频信号的特征进行选择，例如：频段分布、基音周期的位置、信号波动频率等；进而输入该机器学习模型，以确定对应的第一啸叫点；然后根据该第一啸叫点确定对应的第一增益值。

具体的，特征的提取可以是基于有效音频信号进行的，一方面可以基于有效音频信号的参数特征信息，例如有效音频信号的梅尔频率倒谱系数，或基于该系数的数学变形；二方面还可以基于有效音频信号的生物特征信息，例如基音周期，这是由于人声在500Hz内的音频信号存在基音周期，而啸叫信号不存在；三方面还可以基于有效音频信号的波形特征信息，例如根据有效音频信号在特定频段内的波动情况进行判断，这是由于有效音频信号存在短时平稳的特征。通过上述特征的提取，可以很好的区别出有效音频信号和啸叫点对应的信号，使得有效音频信号的特征可以被机器学习模型进行学习，从而提高机器学习模型对于有效音频信号提取的准确度。

对于上述特征的举例仅为示意，具体的特征可以是指示有效音频信号的特征，也可以是指示啸叫信号的特征，还可以是指示有效音频信号和啸叫信号的区别特征，此处不做限定。

可选的，考虑到不同场景下输入信号的采集频率不同，可以将该第一音频输入信号调整至目标频率，以转换至频域；例如：一般手机语音通话都采用16KHz的采样率，故将目标频率调整为16KHz；然后确定转换至频域后的第一音频输入信号中的多个采样点；并基于该采样点提取多个该音频特征。从而对输入信号进行多线程的处理，提高音频处理的效率。

另外，在将第一音频输入信号由时域转换至频域的过程中，为使得时域信号更好地满足傅里叶变换过程中的周期性要求，减少信号遗漏，对于输入信号的划分可以基于窗函数进行，即基于窗函数对转换至频域后的第一音频输入信号进行划分，以得到多个子带；然后确定该子带中的多个该采样点。其中，窗函数可以是矩形窗、高斯窗或Kaiser窗等，具体的函数形式因实际场景而定。

303、检测第二音频输入信号，以得到第二啸叫点，根据第二啸叫点获得第二增益值。

本实施例中，第一增益值对应于第一音频输入信号中的多个啸叫点，而每个啸叫点对应于多个频带，这些频带的集合称为子带；故第一增益值可以包括多个啸叫抑制增益值，且每个啸叫抑制增益都是0～1的浮点数；将第一增益值输入第一音频输入信号中，其每个子带乘以对应子带的啸叫抑制衰减增益，即可得到机器学习啸叫抑制处理后的结果，即第二音频输入信号。

可以理解的是，该第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点，即不属于该有效音频信号对应频段的啸叫点。由于机器模型训练中可能存在遗留未处理的非有效音频信号对应频段的啸叫点，故进行二次增益过程，即可以对第二啸叫点进行检测。

具体的，检测第二啸叫点可以是通过获取该第二音频输入信号对应的功率谱；然后检测该功率谱中的极值，例如：功率谱中的功率最大值，或基于功率最大值设定的取值范围；然后根据极值确定对应的候选频点，即这些频点可能是啸叫点；进而根据该候选频点确定该第二啸叫点。即检测该候选频点的相位和反馈增益信息，若相位一致且反馈增益大于等于1，则确定为第二啸叫点。通过功率谱中极值的判断，可以直观的判断出频点的增益变化情况，这是由于啸叫点对应的功率往往大于一般频点的功率，从而提高了啸叫点识别的准确性。

可选的，还可以根据峰值均值比进行第二啸叫点的判断，即获取该候选频点相邻的多个频点，以确定候选范围；然后确定该候选范围中频点的平均频率平均值，以获取峰值均值比；当该峰值均值比大于啸叫阈值时，则确定该候选频点为该第二啸叫点。为避免偶发情况造成的极值对于识别过程的影响，可以通过峰值均值比对啸叫点进行判断，从而扩展了数据参考的范围，进一步提高了啸叫点识别的准确性。

可选的，由于啸叫点存在周期性出现的行为特征，对于啸叫点的判断还可以基于历史记录进行统计从而分析得到，例如在一种可能的场景中，啸叫点容易集中在2KHz以上的频带，而语音信号的能量主要集中在2KHz以下的频带。再根据峰值均值比，判断是否是啸叫点；还可以根据历史记录中啸叫点出现的位置进行进一步的检查，例如：历史记录中记录了啸叫点集中在2KHz-3KHz，则在接下来的啸叫点识别中对该范围进行二次检测，具体的检查方式可以参考上述功率谱极值或峰值均值比的识别方式。

可以理解的是，上述啸叫点集中的频带因具体场景而定，即为不同的场景中，啸叫点集中的频带可以更高也可以更低，此处仅对历史记录进行分析以得到啸叫点的方法进行说明，并不进行限定。

304、根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号。

本实施例中，该第二增益值用于指示该第二啸叫点的抑制参数，即对于第二啸叫点对应频带的缩小倍数。由于经过了第二次的啸叫点的筛选，保证了啸叫抑制的准确性，以及啸叫抑制效果的显著性。其中第二增益值可以按经验设置0～1范围内的浮点数值，也可以根据上下相邻子带的能量计算。

另外，根据第二增益值对该第二音频输入信号进行处理之后，还可以将处理后的信号转换至时域，并进行陷波处理，即滤波器的一种，以进一步的消除啸叫点。

结合上述实施例可知，通过获取第一音频输入信号；然后将该第一音频输入信号输入机器学习模型，以得到处理有效音频信号频段的第一增益值；并根据该第一增益值处理该第一音频输入信号，以得到第二音频输入信号；接下来检测该第二音频输入信号，以得到第二啸叫点，该第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点；进而根据第二增益值对该第二音频输入信号进行处理，以得到音频输出信号，该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法再进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，以及进一步的对未处理的啸叫点进行第二增益值的处理，使得上述啸叫点抑制过程迅速且全面，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

上述实施例介绍了一种音频信号处理的过程，但是，在第二次啸叫抑制中可能对有效音频信号产生影响，为避免该情况的发生，请参阅图4，图4为本申请实施例提供的另一种音频信号处理的方法的流程图，本申请实施例至少包括以下步骤：

401、获取第一音频输入信号。

402、将所述第一音频输入信号输入机器学习模型，以得到第一增益值。

403、根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号。

404、检测所述第二音频输入信号，以得到第二啸叫点。

本实施例中，步骤401-404与图3指示的实施例步骤301-304相似，相关特征描述可以进行参考，此处不做赘述。

405、检测所述第二音频输入信号，以进行语音保护。

本实施例中，语音保护即保证有效音频信号的完整性。具体的，首先获取有效音频信号中的特征信息，该特征信息基于该有效音频信号指示的波形特征确定，例如：有效音频信号指示的波形特征中浊音有共振峰，另外清音高频能量大且按频率轴能量斜率稳定；然后根据该特征信息检测该第二音频输入信号中对应的有效音频信号；进一步的对该有效音频信号进行锁定操作，该锁定操作用于指示该第二增益值的非作用对象，即第二增益值对应的处理频带中可能包含了本步骤加锁的有效音频信号，但对这些频带的信号不进行增益处理。

可选的，对于有效音频信号的语音保护还可以基于用于指示语音频带的历史记录进行，即统计有效音频信号的频带分布，对于分布权重大的频段进行逐一检测筛选。

406、根据第二增益值对所述第二音频输入信号进行处理。

407、对根据第二增益值处理后的帧进行平滑处理。

本实施例中，为防止帧间抑制增益差值过大导致音频输出信号听起来刺耳，即音频变化突兀，可以对第二增益值对应啸叫点对应的多个增益帧进行平滑处理。具体的，可以采用如下公式对增益帧以及相邻的帧进行处理：

其中α为0～1的平滑因子；

为上一帧抑制增益；m为帧索引；k为频点索引。上述公式通过调整相邻帧间的增益差值，使得相邻帧间的增益更加接近线性分布，减少了音频变化突兀的情况，使得音频输出信号在听觉感官上更加平滑，提高用户体验。

408、获取音频输出信号。

本实施例中，通过上述步骤407中的增益参数

乘以对应频点的值，即得到音频输出信号。

结合上述实施例可见，通过对于有效音频信号的检测并加锁保护，提高了音频输出信号的准确性以及清晰度；另外，通过平滑相邻增益帧的增益参数，使得相邻帧间的增益更加接近线性分布，减少了音频变化突兀的情况，使得音频输出信号在听觉感官上更加平滑，提高了用户体验。

上述实施例介绍了啸叫抑制的音频处理方法，下面结合具体的场景对于啸叫抑制的音频处理方法进行说明，如图5所示，是本申请实施例提供的一种音频信号处理的场景示意图。图中示出了麦克风收集语音信号并放大播放的场景；由于声源(麦克风)与扩音设备(扬声器)距离太近，麦克风采集的声音信号经过扬声器放大，再被麦克风拾取，信号在反馈回路中不断的叠加放大，正反馈产生震荡循环，进而产生啸叫。其中，正反馈产生震荡的函数可以是：

对应的，啸叫产生的条件需要反馈回路中麦克风采集的输入信号的相位与反馈到扬声器中的声波信号的相位相同，即：

∠G(ω ₀)F(ω ₀)＝n*2π

且反馈回路增益大于等于1，即

|G(ω ₀)F(ω ₀)|≥1

在上述公式中，G(s)为麦克风采集的输入信号；F(s)为反馈到扬声器中的声波信号；G(w0)为麦克风采集的输入信号的相位；F(w0)为反馈到扬声器中的声波信号的相位；n为整数参数。

在该场景中，可以在放大器中执行本申请提供的音频信号处理的方法，即通过麦克风采集的音频信号传输到放大器后，立即进行上述图3或图4所示实施例的音频信号处理过程，然后输出信号再传输至扬声器播放，如此循环，即可达到啸叫抑制的效果。

在另一种可能的场景中，如图6所示，是本申请实施例提供的另一种音频信号处理的场景示意图，图中示出了终端外放场景下的一条回路。当两部终端距离比较近的时候，右边终端扬声器声音出来，被左边终端麦克风拾取。经过前处理和信号转换，通过网络发到右边终端。经过扬声器播放出来，再被左边终端麦克风拾取。如此不断循环，如果环路在某个频点增益大于等于1，且相位是正向的，那么这一点就会形成啸叫点。

下面结合一种具体的示例对啸叫抑制进行说明，请参阅图7，图7为本申请实施例提供的另一种音频信号处理的方法的流程图，本申请实施例至少包括以下步骤：

701、输入目标频率的音频信号，并分为20毫秒每帧。

本实施例中，考虑到手机语音通话一般是16KHz采样率处理，可以设置目标频率为16KHz。

702、转换到频域。

本实施例中，将音频信号变换到频域，并加窗做傅里叶变换到频域，窗函数可以是矩形窗、高斯窗或Kaiser窗等，具体的函数形式因实际场景而定。

703、提取42个特征值。

本实施例中，特征值可以包括22个梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)，该系数可以参考语音识别过程中的参数，即有效音频信号；特征值还可以包括前6个系数的一阶或二阶导数，用于指示语音特征；特征值还可以包括基因周期，这是由于语音信号的浊音在500Hz以内有基因周期，而啸叫信号没有；特征值还可以包括非平稳特征值的检测，这是由于语音是短时平稳的。

704、通过循环神经网络模型计算第一增益值。

本实施例中，机器学习模型采用循环神经网络模型，这是为了对时间序列建模，而不是仅仅考虑输入和输出帧。具体的第一增益值的获取过程与图3所述实施例的步骤302类似，此处不做赘述。

705、根据第一增益值对第一啸叫点进行啸叫抑制。

706、检测第二啸叫点，并获取第二增益值。

707、根据第二增益值进行啸叫抑制。

708、转换入时域并输出音频信号。

本实施例中，步骤705-708与图3所示实施例的步骤303-305相似，相关特征描述可以进行参考，此处不做赘述。

通过上述实施例，可以得到如图8所示的啸叫抑制结果，图8为本申请实施例提供的一种音频信号处理对比图；上图为啸叫抑制前输入信号的语谱图，下为啸叫抑制处理后信号的语谱图。对比可以看到样本的波峰周围的杂峰明显的减弱了，即在啸叫起来之前，经过本申请提供的音频处理方法已经将啸叫进行了抑制。

上述实施例介绍了音频信号处理的过程，下面，结合游戏应用作为具体场景进行介绍，请参阅图9，图9为本申请实施例提供的另一种音频信号处理的方法的流程图，本申请实施例至少包括以下步骤：

901、获取游戏启动指令。

本实施例中，游戏的启动指令可以是游戏开始运行，或者游戏中某一特定场景线程的触发，例如：进入战斗场景。

902、若特征元素被触发，则进行啸叫抑制。

本实施例中，特征元素为启动语音通话功能的实体或虚拟按钮，如图10所示，是本申请实施例提供的一种音频信号处理方法的界面示意图；图中示出了游戏界面中的特征元素A1，当其中任意按钮被触发时，即唤起上述图3或图4实施例所述的音频处理的方法。

另外，本申请中的音频处理的方法不仅仅用于两个用户的语音通话过程中，还可以应用于多个用户的语音通话过程中；如图11所示，是本申请实施例提供的另一种音频信号处理方法的界面示意图，图中用户处于公共语音场景中B2，此时，若特征元素B1被触发，即唤起上述图3或图4实施例所述的音频处理的方法。

903、输出处理后的音频信号。

本实施例中，通过上述啸叫抑制后的音频信号进行输入，以实现两个或多个用户之间的清晰的语音通话过程。

通过对于游戏过程中用户之间的音频信号进行啸叫抑制，使得用户可以更加清晰的进行语音通话，不会产生因啸叫影响沟通的情况，保证了在游戏这种需要高效高质量的语音场景中的用户体验以及语音通话的准确性。

上述实施例中还涉及了机器学习模型的应用，该机器学习模型是经过预先训练后的模型；该方法可以通过音频处理设备执行，该音频处理设备可以是终端设备，也可以是服务器。训练好的机器学习模型可以应用于前述的音频信号处理方案中。下面，对场景进行介绍，请参阅图12，图12为本申请实施例提供的一种机器学习模型训练的方法的流程图，本申请实施例至少包括以下步骤：

1201、采集参考信号和语音样本信号。

本实施例中，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述语音样本信号用于指示语音通话过程中的有效语音。

可以理解的是，变量元素中的程序类别可以是不同的游戏，例如：王者荣耀、和平精英等不同游戏场景下的训练样本。而程序运行时段则指示的是采集训练样本时的时段，例如游戏一般在晚上8点至9点这一时间段进行语音通话功能，且通话语音较为激烈，可以进行额外的标注并生成训练样本。另外，程序运行位置即语音采集的地理信息，例如：训练样本采集于市场、教师或卧室等不同的地理位置。

通过对于上述多种不同条件下的训练样本的获取，并标记训练样本里的啸叫点，从而保证了训练样本的泛化能力；由于采集信号作为语音样本的参与，使得该机器学习模型对于语音频段的啸叫点具有良好的识别能力。

1202、根据所述参考信号和采集信号生成特征训练集。

本实施例中，基于上述不同因素下采集的信号设定对应的标签，并分类；且标注对应的啸叫点以生成特征训练集。

1203、将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型。

本实施例中，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。具体的，如图13所示，是本申请实施例提供的一种机器学习模型训练的流程示意图，图中示出了一种RNN模型，其包括有3层门循环控制单元(gated recurrence unit，GRU)。与简单的循环单元相比，GRU有两个额外的门；其中，复位门决定是否将当前状态记忆，以用于计算新状态；而更新门决定当前状态将根据新输入改变多少。当更新门关闭时，可以使得GRU长时间地记住训练信息。首先第一层GRU输入42维，输出24维和一个语音活动检测(voice activity detection，VAD)标志。第二层GRU输入初始的42维特征和第一层输出的24维特征，以输出48维，用来估计啸叫信号。第三层输入初始的42维特征和第二层输出的42维特征，以得到输出；并根据训练样本中的增益值对输出进行调整以更新模型参数，从而实现RNN模型的训练。

应当注意的是，本申请中的训练过程也可以应用于深度神经网络模型或卷积神经网络模型中，此处不做赘述。

通过上述机器学习模型的训练过程，使得音频信号在输入机器学习模型后可以得到啸叫点分布以及对应的第一增益值，从而保证了语音频段的啸叫抑制的准确性。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图14，图14为本申请实施例提供的一种音频信号处理装置的结构示意图，音频信号处理装置1400包括：

获取单元1401，用于获取第一音频输入信号；

输入单元1402，用于将所述第一音频输入信号输入机器学习模型，以得到第一增益值，其中，所述第一增益值用于指示所述第一音频信号中第一啸叫点的抑制参数，所述第一啸叫点用于指示有效音频信号对应频段的啸叫点；

检测单元1403，用于根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

处理单元1404，用于根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号，所述第二增益值用于指示第二啸叫点的抑制参数，所述第二啸叫点用于指示非所述有效音频信号对应频段的啸叫点。

可选的，在本申请一些可能的实现方式中，所述输入单元1402，具体用于将所述音频输入信号转换至频域，以提取多个音频特征，所述音频特征基于所述有效音频信号或所述啸叫样本的特征确定；

所述输入单元1402，具体用于将所述音频特征输入所述机器学习模型，以确定所述第一啸叫点；

所述输入单元1402，具体用于根据所述第一啸叫点确定对应的第一增益值。

所述输入单元1402，具体用于根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

所述检测单元1403，用于检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点；

所述处理单元1404，用于根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号。

可选的，所述输入单元1402，具体用于将所述音频输入信号转换至频域，以提取多个音频特征，所述音频特征基于所述有效音频信号或所述啸叫样本的特征确定；

所述输入单元1402，具体用于根据所述第一啸叫点获得对应的第一增益值。

可选的，在本申请一些可能的实现方式中，所述输入单元1402，具体用于将所述第一音频输入信号调整至目标频率，以转换至频域；

所述输入单元1402，具体用于确定转换至频域后的第一音频输入信号中的多个采样点；

所述输入单元1402，具体用于基于所述采样点提取多个所述音频特征。

可选的，在本申请一些可能的实现方式中，所述输入单元1402，具体用于基于窗函数对转换至频域后的第一音频输入信号进行划分，以得到多个子带；

所述输入单元1402，具体用于确定所述子带中的多个所述采样点。

可选的，在本申请一些可能的实现方式中，所述检测单元1403，具体用于获取所述第二音频输入信号对应的功率谱；

所述检测单元1403，具体用于检测所述功率谱中的极值，并确定对应的候选频点；

所述检测单元1403，具体用于根据所述候选频点确定所述第二啸叫点；

所述检测单元1403，具体用于根据所述第二增益值对所述第二啸叫点进行处理，以得到所述音频输出信号。

可选的，在本申请一些可能的实现方式中，所述检测单元1403，具体用于获取所述候选频点相邻的多个频点，以确定候选范围；

所述检测单元1403，具体用于确定所述候选范围中频点的平均频率平均值，以获取峰值均值比；

所述检测单元1403，具体用于若所述峰值均值比大于啸叫阈值，则确定所述候选频点为所述第二啸叫点。

可选的，在本申请一些可能的实现方式中，所述检测单元1403，还用于获取有效音频信号中的特征信息，所述特征信息基于所述有效音频信号指示的波形特征确定，所述有效音频信号用于指示语音样本；

所述检测单元1403，具体用于根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号；

所述检测单元1403，具体用于对所述有效音频信号进行锁定操作，所述锁定操作用于指示所述第二增益值的非作用对象。

可选的，在本申请一些可能的实现方式中，所述处理单元1404，具体用于确定所述第二啸叫点对应的多个增益帧；

所述处理单元1404，具体用于根据平滑公式对所述增益帧进行处理，以对所述音频输出信号进行更新。

可选的，在本申请一些可能的实现方式中，所述获取单元1401，具体用于获取采集信号；

所述获取单元1401，具体用于将所述采集信号转换为数字信号；

所述获取单元1401，具体用于将所述数字信号输入放大器，以得到所述第一音频输入信号。

可选的，在本申请一些可能的实现方式中，所述获取单元1401，具体用于将所述数字信号输入放大器，以得到放大信号；

所述获取单元1401，具体用于根据滤波参数处理所述放大信号，以得到滤波后的放大信号；

所述获取单元1401，具体用于将所述滤波后的放大信号进行傅立叶变换到频域，以得到所述第一音频输入信号。

可选的，在本申请一些可能的实现方式中，所述音频信号的处理方法应用于游戏语音通话过程中，所述获取单元1401，具体用于检测特征元素的触发情况，所述特征元素为游戏界面中的元素；

所述获取单元1401，具体用于若所述特征元素被触发，则获取所述第一音频输入。

通过获取第一音频输入信号；然后将该第一音频输入信号输入机器学习模型，以得到处理有效音频信号频段的第一增益值；并根据该第一增益值处理该第一音频输入信号，以得到第二音频输入信号；接下来检测该第二音频输入信号，以得到第二啸叫点，该第二啸叫点用于指示第二音频收入信号中非有效音频信号对应频段的啸叫点；进而根据第二增益值对该第二音频输入信号进行处理，以得到音频输出信号，该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法再进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，以及进一步的对未处理的啸叫点进行第二增益值的处理，使得上述啸叫点抑制过程迅速且全面，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

本申请还提供一种机器学习模型训练的装置1500，如图15所示，是本申请实施例提供的一种机器学习模型训练装置的结构示意图，包括：采集单元1501，用于采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

生成单元1502，用于根据所述参考信号和采集信号生成特征训练集；

训练单元1503，用于将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。

本申请实施例还提供了一种终端设备，如图16所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图16示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图16，手机包括：射频(radio frequency，RF)电路1610、存储器1620、输入单元1630、显示单元1640、传感器1650、音频电路1660、无线保真(wireless fidelity，WiFi)模块1670、处理器1680、以及电源1690等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

RF电路1610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1680处理；另外，将设计上行的数据发送给基站。通常，RF电路1610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，LNA)、双工器等。此外，RF电路1610还可以通过无线通信与网络和其他设备通信。

存储器1620可用于存储软件程序以及模块，处理器1680通过运行存储在存储器1620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。

输入单元1630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1630可包括触控面板1631以及其他输入设备1632。

显示单元1640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。

手机还可包括至少一种传感器1650，比如光传感器、运动传感器以及其他传感器。。

音频电路1660、扬声器1661，传声器1662可提供用户与手机之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号，传输到扬声器1661，由扬声器1661转换为声音信号输出；另一方面，传声器1662将收集的声音信号转换为电信号，由音频电路1660接收后转换为音频数据，再将音频数据输出处理器1680处理后，经RF电路1610以发送给比如另一手机，或者将音频数据输出至存储器1620以便进一步处理。

WiFi属于短距离无线传输技术，虽然图16示出了WiFi模块1670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1620内的软件程序和/或模块，以及调用存储在存储器1620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。

在本申请实施例中，该终端所包括的处理器1680还具有执行如上述音频信号处理方法或模型训练方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图17，图17是本申请实施例提供的服务器一种结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1722和存储器1732，一个或一个以上存储应用程序1742或数据1744的存储介质1730。

服务器1700还可以包括一个或一个以上电源1726，一个或一个以上有线或无线网络接口1750，一个或一个以上输入输出接口1758，和/或，一个或一个以上操作***1741。

上述实施例中由模型训练装置所执行的步骤可以基于该图17所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序用于执行如前述图2至图13所示实施例描述的方法中音频信号处理装置所执行的步骤。

本申请实施例中还提供一种包括音频信号处理指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2至图13所示实施例描述的方法中音频信号处理装置所执行的步骤。

本申请实施例还提供了一种音频信号处理***，所述音频信号处理***可以包含图14所描述实施例中的音频信号处理装置，或者图16所描述的终端设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，音频信号处理装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种音频信号的处理方法，所述方法由终端设备执行，所述方法包括：

获取第一音频输入信号；

将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，其中，所述第一啸叫点用于指示所述第一音频输入信号中有效音频信号对应频段的啸叫点；所述第一增益值用于指示所述第一啸叫点的抑制参数；

根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点；

根据所述第二增益值对所述第二音频输入信号进行处理，以得到音频输出信号。
根据权利要求1所述的方法，所述将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，包括：

将所述第一音频输入信号转换至频域，以提取多个音频特征，所述音频特征基于所述有效音频信号的特征确定；

将所述第一音频特征输入所述机器学习模型，以确定所述第一啸叫点；

根据所述第一啸叫点获得对应的第一增益值。
根据权利要求2所述的方法，所述将所述第一音频输入信号转换至频域，以提取多个音频特征，包括：

将所述第一音频输入信号调整至目标频率，以转换至频域；

确定转换至频域后的第一音频输入信号中的多个采样点；

基于所述采样点提取多个所述音频特征。
根据权利要求3所述的方法，所述确定转换至频域后的第一音频输入信号中的多个采样点，包括：

基于窗函数对转换至频域后的第一音频输入信号进行划分，以得到多个子带；

确定所述子带中的多个所述采样点。
根据权利要求1所述的方法，所述根据所述第二增益值对所述第二音频输入信号进行处理，以得到音频输出信号，包括：

获取所述第二音频输入信号对应的功率谱；

检测所述功率谱中的极值，并确定对应的候选频点；

根据所述候选频点确定所述第二啸叫点；

根据所述第二增益值对所述第二啸叫点进行处理，以得到所述音频输出信号。
根据权利要求5所述的方法，所述根据所述候选频点确定所述第二啸叫点，包括：

获取所述候选频点相邻的多个频点，以确定候选范围；

确定所述候选范围中频点的平均频率平均值，以获取峰值均值比；

若所述峰值均值比大于啸叫阈值，则确定所述候选频点为所述第二啸叫点。
根据权利要求5所述的方法，在所述根据所述候选频点确定所述第二啸叫点之后，所述方法还包括：

获取所述有效音频信号中的特征信息，所述特征信息基于所述有效音频信号指示的波形特征确定；

根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号；

对所述有效音频信号进行锁定操作，所述锁定操作用于指示所述第二增益值的非作用对象。
根据权利要求5所述的方法，所述方法还包括：

确定所述第二啸叫点对应的多个增益帧；

根据平滑公式对所述增益帧进行处理，以对所述音频输出信号进行更新。
根据权利要求1-8任一项所述的方法，所述音频信号的处理方法应用于游戏语音通话过程中，所述获取第一音频输入信号，包括：

检测特征元素的触发情况，所述特征元素为游戏界面中的元素；

若所述特征元素被触发，则获取所述第一音频输入信号。
根据权利要求1-8任一项所述的方法，所述机器学习模型为循环神经网络模型，所述第一音频输入信号和所述音频输出信号应用于所述终端设备的语音通话过程中。
一种机器学习模型的训练方法，所述方法由音频处理设备执行，所述方法包括：

采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

根据所述参考信号和采集信号生成特征训练集；

将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。
一种音频信号的处理装置，包括：

获取单元，用于获取第一音频输入信号；

输入单元，用于将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，其中，所述第一啸叫点用于指示所述第一音频输入信号中有效音频信号对应频段的啸叫点；所述第一增益值用于指示所述第一啸叫点的抑制参数，根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

检测单元，用于检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示所述第二音频输入信号中非有效音频信号对应频段的啸叫点；

处理单元，用于根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号。
一种机器学习模型的训练装置，包括：

采集单元，用于采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

生成单元，用于根据所述参考信号和采集信号生成特征训练集；

训练单元，用于将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。
一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至10任一项所述的音频信号处理的方法，或权利要求11所述的机器学习模型的训练方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1至10任一项所述的音频信号的处理方法，或权利要求11所述的机器学习模型的训练方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1至10任一项所述的音频信号的处理方法，或权利要求11所述的机器学习模型的训练方法。