CN113488076A

CN113488076A - 音频信号处理方法及装置

Info

Publication number: CN113488076A
Application number: CN202110736375.4A
Authority: CN
Inventors: 操陈斌
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-08
Anticipated expiration: 2041-06-30
Also published as: CN113488076B

Abstract

本公开涉及语音通信技术领域，具体涉及一种音频信号处理方法及装置。一种音频信号处理方法，包括：获取由麦克风拾取的音频信号；对所述音频信号进行检测，响应于由所述音频信号中检测到目标测试信号，将对所述音频信号的处理操作由第一处理操作切换至第二处理操作。本公开方法提高声学测试场景的可靠性和测试结果。

Description

音频信号处理方法及装置

技术领域

本公开涉及语音通信技术领域，具体涉及一种音频信号处理方法及装置。

背景技术

3GPP(3rd Generation Partnership Project，第三代合作伙伴计划)是全球最重要的通信标准化组织，其负责制定整个无线通信端到端的***技术规范，其中，对于电话终端声学特性标准，规定了用于窄带、宽带、超宽带或全带电话的声学特性的性能要求和测试方法。

相关技术中，由于测试场景与实际应用场景的差异化，导致终端的语音通信***声学测试效果不佳。

发明内容

为提高语音通信***的声学测试效果和语音通信质量，本公开实施方式提供了一种音频信号处理方法、装置、电子设备以及存储介质。

第一方面，本公开实施方式提供了一种音频信号处理方法，包括：

获取由麦克风拾取的音频信号；

对所述音频信号进行检测，响应于由所述音频信号中检测到目标测试信号，将对所述音频信号的处理操作由第一处理操作切换至第二处理操作。

在一些实施方式中，所述将对所述音频信号的处理操作由第一处理操作切换至第二处理操作，包括：

将对所述音频信号的降噪处理操作由开启状态切换至关闭状态；

和/或，

将对所述音频信号的回声抑制操作的抑制参数由第一参数切换至第二参数。

在一些实施方式中，所述音频信号包括在时域上连续的多帧子信号；由所述音频信号中检测到目标测试信号，包括：

获取当前帧子信号的峰谷比特征值；

响应于所述峰谷比特征值不小于第一预设阈值，确定检测到所述目标测试信号。

在一些实施方式中，所述获取当前帧子信号的峰谷比特征值，包括：

获取分析帧信号的功率谱；所述分析帧信号包括所述当前帧子信号，以及所述当前帧子信号之前预设数量帧的连续子信号；

根据所述功率谱，确定所述分析帧信号中各个波峰和波谷的波峰波谷比值；

基于各个波峰波谷比值，确定所述当前帧子信号的所述峰谷比特征值。

在一些实施方式中，所述根据所述功率谱，确定所述分析帧信号中各个波峰和波谷的波峰波谷比值，包括：

对于任一波峰，根据所述功率谱确定该波峰的第一能量和、与该波峰相邻的前一个波谷的第二能量和以及与该波峰相邻的后一个波谷的第三能量和；

根据所述第一能量和、所述第二能量和以及所述第三能量和，确定所述波峰波谷比值。

在一些实施方式中，所述基于各个波峰波谷比值，确定所述当前帧子信号的所述峰谷比特征值，包括：

响应于波峰波谷比值不小于第二预设阈值，确定该波峰波谷比值对应的波峰检测结果为第一数值；响应于波峰波谷比值小于第二预设阈值，确定该波峰波谷比值对应的波峰检测结果为第二数值；

确定所述分析帧信号中所有波峰检测结果的数值和，将所述数值和确定为所述当前帧子信号的所述峰谷比特征值。

在一些实施方式中，在所述将对所述音频信号的处理操作由第一处理操作切换至第二处理操作之后，还包括：

响应于音频信号的处理操作处于第二处理操作的时长大于预设时长阈值，将对音频信号的处理操作由第二处理操作切换至第一处理操作。

第二方面，本公开实施方式提供了一种音频信号处理装置，包括：

获取模块，被配置为获取由麦克风拾取的音频信号；

检测模块，被配置为对所述音频信号进行检测，响应于由所述音频信号中检测到目标测试信号，将对所述音频信号的处理操作由第一处理操作切换至第二处理操作。

在一些实施方式中，所述检测模块包括：

切换子模块，被配置为将对所述音频信号的降噪处理操作由开启状态切换至关闭状态；和/或，将对所述音频信号的回声抑制操作的抑制参数由第一参数切换至第二参数。

在一些实施方式中，所述音频信号包括在时域上连续的多帧子信号；所述检测模块包括：

获取子模块，被配置为获取当前帧子信号的峰谷比特征值；

确定子模块，被配置为响应于所述峰谷比特征值不小于第一预设阈值，确定检测到所述目标测试信号。

在一些实施方式中，所述获取子模块具体被配置为：

第三方面，本公开实施方式提供了一种电子设备，包括：

处理器；和

存储器，存储有计算机指令，所述计算机指令用于使处理器执行根据第一方面任一实施方式所述的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机指令，所述计算机指令用于使计算机执行根据第一方面任一实施方式所述的方法。

本公开实施方式的音频信号处理方法，包括获取由麦克风拾取的音频信号，对音频信号进行检测，响应于由音频信号中检测到目标测试信号，将对音频信号的处理操作由第一处理操作切换至第二处理操作。通过对目标测试信号的检测，确定***当前所处场景为实际使用场景还是测试场景，针对不同的场景切换不同的处理操作，同时满足两个场景的差异化需求。并且，针对声学测试场景设置相应的处理操作，可提高声学测试场景的可靠性和测试成绩。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施方式中音频信号处理方法的流程图。

图2是根据本公开一些实施方式中声学测试场景的原理示意图。

图3是根据本公开一些实施方式中多频音信号的功率谱曲线图。

图4是根据本公开一些实施方式中音频信号处理方法的流程图。

图5是根据本公开一些实施方式中音频信号处理方法的流程图。

图6是根据本公开一些实施方式中音频信号处理方法的流程图。

图7是根据本公开一些实施方式中音频信号处理装置的结构框图。

图8是根据本公开一些实施方式中音频信号处理装置的结构框图。

图9适于实现本公开音频信号处理方法的电子设备结构框图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

3GPP(3rd Generation Partnership Project，第三代合作伙伴计划)规定的电话终端的声学特性测试包括：响度评定值、灵敏度/频率特性、失真、TMOS、声学回声控制、双向通话性能和3Quest测试等。同时，这些声学测试定义了不同使用场景的测试环境、测试设备和测试配置等。

进行声学测试的音频信号主要包括两部分：语音/噪声信号、人工合成的测试信号，一般测试信号设置在语音/噪声信号之前作为前导信号。相关技术中，有些测试方法使用正弦波产生的单频音信号作为测试信号，例如比失真测试；有些测试方法使用多个频率的单频音信号组合成多频音信号作为测试信号，例如delay测试和声学回声控制测试。

对于语音通信***，其语音增强算法往往包括如下几个部分：回声消除算法、噪声估计算法、噪声消除算法、残留回声/噪声抑制算法等。在测试场景下，由于音频信号中的测试信号属于类噪声信号，因此会被***的语音增强算法消除和抑制，使得声学测试***无法准确检测到测试信号，导致测试失败或者降低测试成绩。另外，以手机语音通信***为例，在正常场景下，为保证近端语音无失真，***对残留回声抑制的强度和参数设置比较保守，因此导致在声学测试场景下，手机语音通信***的测试结果不佳。

基于上述可知，相关技术中的语音通信***，在声学测试场景与实际应用场景存在需求的差异化，导致***在声学测试场景的可靠性和测试结果不佳。

正是基于上述相关技术中存在的缺陷，本公开实施方式提供了一种音频信号处理方法、装置、电子设备以及存储介质，旨在针对声学测试场景，提高测声学测试的可靠性和测试结果。

第一方面，本公开实施方式提供了一种音频信号处理方法，该方法可应用于任何具有语音通信***的电子设备中，并由电子设备的处理器执行，例如智能手机、平板电脑、笔记本电脑等，本公开对此不作限制。

如图1所示，在一些实施方式中，本公开示例的音频信号处理方法包括：

S110、获取由麦克风拾取的音频信号。

S120、对音频信号进行检测，响应于由音频信号中检测到目标测试信号，将对音频信号的处理操作由第一处理操作切换至第二处理操作。

图2示出了电子设备进行声学测试的原理示意图，如图2所示，电子设备20置于声学测试***的密闭空间中，例如设于声学测试箱中。测试箱中设置有多个不同空间位置的扬声器11，各个扬声器11连接声音模拟装置10，声音模拟装置10可以产生各种模拟音频信号，并经由各个扬声器11播放。电子设备20连接声学测量装置30，从而电子设备20的麦克风21即可拾取到混合音频信号，经由电子设备20的语音通信***进行处理之后，声学测量装置30可根据电子设备20处理后的信号得到声学测试结果或测试成绩。

基于图2所示测试场景可知，电子设备20的麦克风21可以拾取到测试***模拟产生的音频信号。在测试场景下，麦克风21适于的音频信号主要可包括两部分：一是包括近端语音和背景噪声的语音/噪声信号，二是位于语音/噪声信号之前的目标测试信号。

电子设备20在拾取音频信号之后，可对音频信号进行信号检测，在由音频信号中检测到目标测试信号的情况下，表示当前电子设备处于声学测试场景中，从而电子设备将对音频信号的处理操作由第一处理操作切换至第二处理操作。

基于前述可知，对于电子设备的语音通信***，其在实际使用场景和声学测试场景中，降噪和回声消除存在差异化的需求。例如，在测试场景中，为避免目标测试信号被降噪算法消除，无需对音频信号进行降噪处理；而在实际使用场景中，为保证通信质量，需要对音频信号进行降噪处理。又例如，在测试场景中，为提高回声消除的测试成绩，需要对回声进行深度的消除处理；而在实际使用场景中，为避免近端语音信号失真，对回声消除的参数设置相对较为保守。

因此，在本公开实施方式中，第一处理操作可指语音通信***在正常使用场景下对音频信号的降噪和/或回声消除操作，例如将对音频信号的降噪处理操作切换至开启状态，和/或，将对音频信号的回声抑制操作的抑制参数切换至第一参数。而第二处理操作可知语音通信***在测试场景下对音频信号的降噪和/或回声消除操作。例如将对音频信号的降噪处理操作切换至关闭状态，和/或，将对音频信号的回声抑制操作的抑制参数切换至第二参数。可以理解，第一参数和第二参数为对残留回声抑制程度不同的回声抑制算法的参数。通过对音频信号中的目标测试信号进行检测来确认电子设备的当前场景，进而切换相应的对音频信号的处理操作。

具体对音频信号中目标测试信号进行检测的过程，本公开下述实施方式中进行具体说明，在此暂不详述。

通过上述可知，本公开实施方式的音频信号处理方法，通过对目标测试信号的检测，确定***当前所处场景为实际使用场景还是测试场景，针对不同的场景切换不同的处理操作，同时满足两个场景的差异化需求。并且，针对声学测试场景设置相应的处理操作，可提高声学测试场景的可靠性和测试成绩。

值得说明的是，在声学测试场景中，声音模拟装置10所产生的目标测试信号，一般为单频音信号或者多个单频音合成的多频音信号。发明人通过研究发现，无论单频音信号还是多频音信号，在功率谱上具有明显的峰谷比，也即波峰与波谷的比值很大。

例如图3示出了由多个单频音组成的多频音信号的功率谱示意图，通过图3所示可知，每个波峰与波谷之间具有明显的峰谷比特征值。因此，在本公开一些实施方式中，可以基于峰谷比来确定目标测试信号，下面结合实施方式进行具体说明。

可以理解，麦克风拾取的音频信号为时域上连续的信号，为便于音频信号处理，可将时域上连续的音频信号划分为连续的多帧子信号。在一个示例中，以智能手机中的声码器为例，3GPP规定的连续语音信号可分成20ms帧，每个20ms帧由两个10ms子帧组成。当然，本领域技术人员可以理解，音频信号也可以根据具体需要划分为其他毫秒帧，本公开对此不作限制。

如图4所示，在一些实施方式中，本公开示例的音频信号处理方法中，检测目标测试信号的过程可包括：

S410、获取当前帧子信号的峰谷比特征值。

S420、响应于峰谷比特征值不小于第一预设阈值，确定检测到目标测试信号。

具体来说，峰谷比特征值表示当前帧子信号中波峰波谷比值的特征信息。在一个示例中，当前帧子信号的峰谷比特征值可以基于当前帧子信号检测得到。

在另一个示例中，当前阵子信号的峰谷比特征值可以基于当前帧子信号以及当前帧之前预设数量帧子信号检测得到，本公开下述实施方式中进行说明，在此暂不详述。

第一预设阈值为预先设置的表示当前帧子信号为单频音或多频音信号的门限值，该第一预设阈值可以根据先验知识或者有限次实验预先得到，本公开对此不作限制。

通过前述可知，单频音信号和多频音信号具有较为明显的峰谷比特征，因此，若峰谷比特征值不小于第一预设阈值，表示当前帧子信号为单频音或多频音信号，也即确定检测到目标测试信号，电子设备处于声学测试场景。若峰谷比特征值小于第一预设阈值，表示当前帧子信号峰谷比不明显，其并非为目标测试信号，电子设备处于正常使用场景。

在一些实施方式中，为满足目标测试信号检测的频率分辨率要求，可基于当前帧子信号以及当前帧子信号之前预设数量帧的子信号，拼帧组成分析帧信号，从而提高目标测试信号的检测准确性。下面结合图5对本公开实施方式进行说明。

如图5所示，在一些实施方式中，本公开示例的音频信号处理方法中，获取当前帧子信号的峰谷比特征值的过程包括：

S510、获取分析帧信号的功率谱。

具体来说，分析帧信号包括当前帧子信号以及当前帧子信号之前预设数量帧的连续子信号。

在一个示例中，音频信号被划分为10ms帧，分析帧信号包括当前10ms帧，以及当前10ms帧之前连续三个10ms帧的信号，也即分析帧信号由4帧子信号组成。

在一些实施方式中，在获取分析帧信号之后，即可根据分析帧信号的数据计算得到分析帧信号对应的功率谱。本公开下述实施方式进行说明，在此暂不详述。

S520、根据功率谱，确定分析帧信号中各个波峰和波谷的波峰波谷比值。

具体来说，参见图3中所示的功率谱，可以看到功率谱包括至少一个波峰，从而可以确定每个波峰和波谷的比值，也即波峰波谷比值。

在一些实施方式中，可通过离线标注的方法标注波峰和波谷的位置以及宽度，根据每个波峰和波谷的能量和确定波峰波谷比值。具体计算过程本公开下述中进行具体说明，在此暂不详述。

S530、基于各个波峰波谷比值，确定当前帧子信号的峰谷比特征。

具体来说，在确定分析帧信号中每个波峰波谷比值之后，可基于预先设置的第二预设阈值对每个波峰波谷比值进行判断。通过前述可知，目标测试信号中每个波峰波谷具有明显的峰谷比，因此可基于先验知识或者有限次实验预先确定第二预设阈值，第二预设阈值表示该波峰波谷比值对应的波峰为单频音波峰的门限值。

当某个波峰波谷比值不小于第二预设阈值时，表示该波峰波谷比值对应的波峰为单频音波峰，从而可将该波峰的波峰检测结果确定为第一数值。

而当某个波峰波谷比值小于第二预设阈值时，表示该波峰波谷比值对应的波峰较为平缓，不是单频音波峰，从而可将该波峰的波峰检测结果确定为第二数值。

在一个示例中，第一数值可以设置为1，第二数值可以设置为0。当然，本领域技术人员可以理解，第一数值和第二数值也可以是其他值，本公开对此不作限制。

在分析帧信号中每个波峰检测结果都利用第一数值和第二数据表示之后，可将所有的波峰检测结果进行求和，得到数值和，该数值和即确定为当前帧子信号的峰谷比特征值。

在确定当前帧子信号的峰谷比特征值之后，即可根据峰谷比特征值进一步判断是否为目标测试信号。本领域技术人员参见前述步骤S420即可，对此不再赘述。

通过上述可知，本公开实施方式中，分析帧信号采用包括当前帧子信号的连续多帧子信号，利用分析帧信号的波峰波谷比值确定当前帧子信号的是否为目标测试信号，提高目标测试信号检测的频率分辨率，进而提高检测准确性。

在一些实施方式中，在当前帧子信号的峰谷比特征值不小于第一预设阈值时，表示当前帧子信号为目标测试信号，电子设备当前处于声学测试场景中，从而对当前帧子信号之后的音频信号执行第二处理操作。而在当前帧子信号的峰谷比特征值小于第一预设阈值时，表示当前帧子信号不是目标测试信号，电子设备当前处于正常使用场景中，从而对当前帧子信号之后的音频信号执行第一处理操作。

可以看到，本公开实施方式的音频信号处理方法，通过对目标测试信号的检测，确定***当前所处场景为实际使用场景还是测试场景，针对不同的场景切换不同的处理操作，同时满足两个场景的差异化需求。并且，针对声学测试场景设置相应的处理操作，可提高声学测试场景的可靠性和测试成绩。

在一些实施方式中，在检测到目标测试信号之后，***将对音频信号的处理操作由第一处理操作切换至第二处理操作。本公开实施方式中，考虑到声学测试场景一般为短时间测试，为保证电子设备正常使用，需要将语音通信***对音频信号的处理操作由第二处理操作切换至第一处理操作。

在一个示例中，可预先基于先验知识或者实际场景需求设置预设时长阈值，例如30秒等。该预设时长阈值表示语音通信***对音频信号的处理操作由第二处理操作切换至第一处理操作的门限值。

当音频信号的处理操作处于第二处理操作的时长大于预设时长阈值，表示当前电子设备声学测试场景结果，从而可以将音频信号的处理操作由第二处理操作切换至第一处理操作。而当音频信号的处理操作处于第二处理操作的时长不大于预设时长阈值，表示当前电子设备仍处于声学测试场景中，从而保持音频信号的处理操作为第二处理操作。

通过上述可知，本公开实施方式的音频信号处理方法，可基于***处于第二处理操作的时长自动切换对音频信号的处理操作，保证语音通信***正常使用时的效果，提高***可靠性。

图6示出了本公开音频信号处理方法的一个具体实施方式，在本实施方式中，以手机声学测试场景为例，下面进行具体说明。

如图6所示，在本公开实施方式中，音频信号处理方法包括：

S601、获取麦克风拾取的音频信号。

具体来说，在例如图2所示的声学测试场景下，手机麦克风可拾取到扬声器11播放的音频信号。

S602、获取分析帧信号的功率谱。

具体来说，手机中的声码器将连续音频信号划分为20ms帧，每个20ms帧由两个10ms子帧组成，本实施方式中所述的一帧子信号即为10ms子帧。

对于手机声学测试中的窄带和宽带信号，每帧子信号的采样长度分别为80和160个采样点。为了提高目标测试信号的频率分辨率，本实施方式的分析帧信号采用4帧子信号，也即当前帧子信号以及当前帧子信号之前3个连续帧子信号，分析帧信号对应窄带和宽带信号的长度分别为320和640个采样点。分析帧信号的功率谱Xa2可表示为：

X＝fft(x.*win)

其中，x是分析帧信号，可使用overlap方法进行前后拼帧，即历史3帧子信号和当前帧子信号组成x。N是分析帧长度，Xa2是功率谱，win是短时分析窗，其表达式为：

win＝0.5*[1-cos(2π*n/N)]，n＝0，1，…N-1

S603、根据功率谱，确定分析帧信号中各个波峰和波谷的波峰波谷比值。

结合图3所示的功率谱示意图可知，功率谱中包括多个波峰和波谷，从而在一个示例中，可以通过离线标注的方法，预先在功率谱上标注出波峰和波谷的位置以及宽度，从而可以减小搜索波峰的计算量。

对于任意一个波峰，在计算波峰波谷比值时可包括：

对于任一波峰，根据功率谱确定该波峰的第一能量和、与该波峰相邻的前一个波谷的第二能量和以及与该波峰相邻的后一个波谷的第三能量和；

根据第一能量和、第二能量和以及第三能量和，确定波峰波谷比值。

具体来说，波峰的能量和可表示为：

波谷的能量和可表示为：

其中，i是每个峰值的索引，i＝0，1，…n。P_peak是波峰的能量和，kpl是波峰起始频点位置，kph是波峰截止频点位置。同样P_trough是波谷的能量和，ktl是波峰起始频点位置，kth是波峰截止频点位置。

从而，波峰波谷比值表示为：

其中，ptr是波峰波谷比值，δ是小的正数，用于防止除零异常。P_peak(i)表示第i个波峰。P_trough(i)表示第i个波峰之前的一个波谷，P_trough(i+1)表示第i个波峰之后的一个波谷。从而，通过上式可以计算得到分析帧信号中各个波峰和波谷的波峰波谷比值。

S604、判断每个波峰波谷比值是否不小于第二预设阈值。若是，执行S605。若否，执行S606。

S605、确定波峰波谷比值对应的波峰检测结果为1。

S606、确定波峰波谷比值对应的波峰检测结果为0。

具体来说，在确定分析帧信号中每个波峰波谷比值之后，可基于预先设置的第二预设阈值对每个波峰波谷比值进行判断。

当某个波峰波谷比值不小于第二预设阈值时，表示该波峰波谷比值对应的波峰为单频音波峰，从而可将该波峰的波峰检测结果确定为1。而当某个波峰波谷比值小于第二预设阈值时，表示该波峰波谷比值对应的波峰较为平缓，不是单频音波峰，从而可将该波峰的波峰检测结果确定为0。其可表示为：

其中，此处plocal(i)是每个波峰的检测结果，Tlocal(i)是第二预设阈值。

S607、确定分析帧信号中所有波峰检测结果的数值和，将数值和确定为当前帧子信号的所述峰谷比特征值。

具体来说，在S606中，分析帧信号的每个波峰检测结果都利用1和0表示，可将所有的波峰检测结果进行求和，得到数值和，该数值和即确定为当前帧子信号的峰谷比特征值。其可表示为：

其中，pframe是所有波峰检测结果的数值和。

S608、判断当前帧子信号的峰谷比特征值是否不小于第一预设阈值。若是，则执行S609。若否，则执行S610。

S609、对音频信号执行第二处理操作。

S610、对音频信号执行第一处理操作。

具体来说，在得到当前帧子信号的峰谷比特征值之后，可基于预先设置的第一预设阈值对峰谷比特征值进行判断，确定是否为目标测试信号。可表示为：

其中，prob表示多频音信号的检测结果，T为第一预设阈值。

在本实施方式中，若峰谷比特征值不小于第一预设阈值，表示当前帧子信号为单频音或多频音信号，也即确定检测到目标测试信号，电子设备处于声学测试场景。此时，可对音频信号执行第二处理操作。

在一个示例中，第二处理操作包括将对音频信号的降噪处理操作切换至关闭状态，和将对音频信号的回声抑制操作的抑制参数切换至第二参数。

若峰谷比特征值小于第一预设阈值，表示当前帧子信号峰谷比不明显，其并非为目标测试信号，电子设备处于正常使用场景。此时，可对音频信号执行第一处理操作。

在一个示例中，第一处理操作包括将对音频信号的降噪处理操作切换至开启状态，和将对音频信号的回声抑制操作的抑制参数切换至第一参数。第二参数对残留回声抑制程度弱于第一参数。

值得说明的是，通常手机语音通信***对音频信号的增强算法包括：回声消除算法、噪声估计算法、噪声消除算法、残留回声/噪声抑制算法等。

回声消除算法可采用自适应滤波器来实现，如NLMS(Normalized LeastMeanSquares，归一化最小均方)方法，其可表示为：

w(n)＝w(n-1)+μx(n)e(n)/(x^T(n)x(n)+δ)

其中，n是样本表示的时刻，x(n)是参考信号，

是回声估计，y(n)是麦克风拾取的音频信号，e(n)是消除线性回声后的残差信号，w(n)是自适应滤波器，μ是滤波器自适应步长，δ是一个正的防止除零的常数。

噪声估计可采用连续谱最小值跟踪方法，表示为：

其中，l表示帧，k表示频率点，

是噪声功率谱，λ_y是麦克风拾取音频信号功率谱。γ和β用来控制噪声跟踪速度。

残留回声估计可采用一阶递归平滑的方式。

其中λ_e是残留回声估计，E(l，k)是残留回声的短时傅里叶变换。α_e表示遗忘因子，0＜α＜1，在检测到测试信号时采用较小值以更好地跟踪残留回声，否则使用较大值以减小近端损伤。

噪声和残留回声抑制可采用维纳滤波方法，其表示为：

其中

是噪声估计和残留回声估计功率谱之和，当检测到目标测试信号时，

以保证噪声抑制不影响声学测试。γ(l，k)是后验信干比，

是先验信干比，采用决策导向的方法计算得到，

是上一帧估计得到的目标语音信号。G(l，k)是增益函数，Δ用来控制抑制强度，当检测到目标测试信号时采用较大值以抑制更多残留回声，否则采用较小值以减小近端语音损失。

第二方面，本公开实施方式提供了一种音频信号处理装置，该装置可应用于任何具有语音通信***的电子设备中，例如智能手机、平板电脑、笔记本电脑等，本公开对此不作限制。

如图7所示，在一些实施方式中，本公开示例的音频信号处理装置，包括：

获取模块701，被配置为获取由麦克风拾取的音频信号；

检测模块702，被配置为对所述音频信号进行检测，响应于由所述音频信号中检测到目标测试信号，将对所述音频信号的处理操作由第一处理操作切换至第二处理操作。

通过上述可知，本公开实施方式的音频信号处理装置，通过对目标测试信号的检测，确定***当前所处场景为实际使用场景还是测试场景，针对不同的场景切换不同的处理操作，同时满足两个场景的差异化需求。并且，针对声学测试场景设置相应的处理操作，可提高声学测试场景的可靠性和测试成绩。

如图8所示，在一些实施方式中，所述检测模块702包括：

切换子模块703，被配置为将对所述音频信号的降噪处理操作由开启状态切换至关闭状态；和/或，将对所述音频信号的回声抑制操作的抑制参数由第一参数切换至第二参数。

在一些实施方式中，所述音频信号包括在时域上连续的多帧子信号；所述检测模块702包括：

获取子模块704，被配置为获取当前帧子信号的峰谷比特征值；

确定子模块705，被配置为响应于所述峰谷比特征值不小于第一预设阈值，确定检测到所述目标测试信号。

在一些实施方式中，所述获取子模块704具体被配置为：

根据所述功率谱，确定所述分析帧信号中各个波峰和波谷的波峰波谷比值：

在一些实施方式中，所述获取子模块704具体被配置为：

第三方面，本公开实施方式提供了一种电子设备，包括：

处理器；和

图9中示出了本公开一些实施方式中的电子设备的结构框图，下面结合图9对本公开一些实施方式的电子设备及存储介质相关原理进行说明。

参照图9，电子设备1800可以包括以下一个或多个组件：处理组件1802，存储器1804，电源组件1806，多媒体组件1808，音频组件1810，输入/输出(I/O)接口1812，传感器组件1816，以及通信组件1818。

处理组件1802通常控制电子设备1800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1802可以包括一个或多个处理器1820来执行指令。此外，处理组件1802可以包括一个或多个模块，便于处理组件1802和其他组件之间的交互。例如，处理组件1802可以包括多媒体模块，以方便多媒体组件1808和处理组件1802之间的交互。又如，处理组件1802可以从存储器读取可执行指令，以实现电子设备相关功能。

存储器1804被配置为存储各种类型的数据以支持在电子设备1800的操作。这些数据的示例包括用于在电子设备1800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1806为电子设备1800的各种组件提供电力。电源组件1806可以包括电源管理***，一个或多个电源，及其他与为电子设备1800生成、管理和分配电力相关联的组件。

多媒体组件1808包括在所述电子设备1800和用户之间的提供一个输出接口的显示屏。在一些实施例中，多媒体组件1808包括一个前置摄像头和/或后置摄像头。当电子设备1800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1810被配置为输出和/或输入音频信号。例如，音频组件1810包括一个麦克风(MIC)，当电子设备1800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1804或经由通信组件1818发送。在一些实施例中，音频组件1810还包括一个扬声器，用于输出音频信号。

I/O接口1812为处理组件1802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1816包括一个或多个传感器，用于为电子设备1800提供各个方面的状态评估。例如，传感器组件1816可以检测到电子设备1800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1800的显示器和小键盘，传感器组件1816还可以检测电子设备1800或电子设备1800一个组件的位置改变，用户与电子设备1800接触的存在或不存在，电子设备1800方位或加速/减速和电子设备1800的温度变化。传感器组件1816可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1816还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1816还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1818被配置为便于电子设备1800和其他设备之间有线或无线方式的通信。电子设备1800可以接入基于通信标准的无线网络，如Wi-Fi，2G，3G，4G，5G或6G，或它们的组合。在一个示例性实施例中，通信组件1818经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1818还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

显然，上述实施方式仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

Claims

1.一种音频信号处理方法，其特征在于，包括：

获取由麦克风拾取的音频信号；

2.根据权利要求1所述的方法，其特征在于，所述将对所述音频信号的处理操作由第一处理操作切换至第二处理操作，包括：

和/或，

3.根据权利要求1或2所述的方法，其特征在于，所述音频信号包括在时域上连续的多帧子信号；由所述音频信号中检测到目标测试信号，包括：

获取当前帧子信号的峰谷比特征值；

4.根据权利要求3所述的方法，其特征在于，所述获取当前帧子信号的峰谷比特征值，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述功率谱，确定所述分析帧信号中各个波峰和波谷的波峰波谷比值，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于各个波峰波谷比值，确定所述当前帧子信号的所述峰谷比特征值，包括：

7.根据权利要求1所述的方法，其特征在于，在所述将对所述音频信号的处理操作由第一处理操作切换至第二处理操作之后，还包括：

8.一种音频信号处理装置，其特征在于，包括：

获取模块，被配置为获取由麦克风拾取的音频信号；

9.根据权利要求8所述的装置，其特征在于，所述检测模块包括：

10.根据权利要求8或9所述的装置，其特征在于，所述音频信号包括在时域上连续的多帧子信号；所述检测模块包括：

获取子模块，被配置为获取当前帧子信号的峰谷比特征值；

11.根据权利要求10所述的装置，其特征在于，所述获取子模块具体被配置为：

12.根据权利要求11所述的装置，其特征在于，所述获取子模块具体被配置为：

13.根据权利要求11所述的装置，其特征在于，所述获取子模块具体被配置为：

14.一种电子设备，其特征在于，包括：

处理器；和

存储器，存储有计算机指令，所述计算机指令用于使处理器执行根据权利要求1至7任一项所述的方法。

15.一种存储介质，其特征在于，存储有计算机指令，所述计算机指令用于使计算机执行根据权利要求1至7任一项所述的方法。