CN112037810A

CN112037810A - 一种回音处理方法、装置、介质和计算设备

Info

Publication number: CN112037810A
Application number: CN202011023561.5A
Authority: CN
Inventors: 郝一亚
Original assignee: Hangzhou Langhe Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-04
Anticipated expiration: 2040-09-25
Also published as: CN112037810B

Abstract

本发明提供一种回音处理方法、电子设备、装置和计算设备，该方法包括：采集音频信息；其中，所述音频信息中包含参考音频；对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

Description

一种回音处理方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及音频信息处理领域，更具体地，本发明的实施方式涉及一种基于噪声注入的回音处理方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

AEC(Acoustic Echo Cancellation，回音消除)是一种信号处理的技术，其功能是消除在通信***中的回音信号，保障对话人不被回音信号所干扰，提升通话质量。在理想环境中，很多AEC算法能够很达到上述要求。但是由于音频信号在实际环境中的复杂性，目前的AEC算法中，如果能将回音消除的很干净，或多或少会损伤所需要的近端信号；如果保证近端信号无损，在一些情况下则会有残留回音出现。因此，如何在回音消除的处理中既能够保证回音消除的效果，又可以保证音频信号无损，就成为需要解决的问题。

发明内容

本发明期望提供一种回音处理方法、装置、介质和计算设备，以至少解决上述技术问题。

本申请实施例的第一个方面，提供一种回音处理方法，包括：

采集音频信息；其中，音频信息中包含参考音频；

对音频信息中参考音频所在的第一频段进行音频特征提取，得到音频信息在第一频段的音频特征；

基于音频信息在第一频段的音频特征，对回音消除器进行控制。

在本发明的一个实施例中，所述对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在第一频段的音频特征，包括：

获取音频信息在所述参考音频所在的所述第一频段的时域特征值以及频域特征值；

将所述时域特征值以及所述频域特征值作为所述音频信息在所述第一频段的音频特征。

在本发明的一个实施例中，所述方法还包括：

获取第i帧音频信息在第一频段内的能量峰值，以及两个能量波谷值；

基于所述能量峰值以及所述两个能量波谷值，确定所述第i帧音频信息在第一频段内的峰谷比，将所述第i帧音频信息在第一频段内的峰谷比作为所述第i帧音频信息在所述第一频段的频域特征值。

在本发明的一个实施例中，所述第一频段内的能量峰值为：所述第一频段中第一频点所对应的能量值；

所述两个能量波谷值为：

在第一频段内以第一频点为中心增加预设带宽值得到的第一相邻频点所对应的能量值，以及在第一频段内以第一频点为中心减少预设带宽值的第二相邻频点所对应的能量值；

或者，

在第一频段内大于所述第一频点的频段中的第一个能量波谷值，以及在第一频段内小于所述第一频点的频段中的第一个能量波谷值。

在本发明的一个实施例中，所述方法还包括：

获取L帧音频信息；其中，所述L帧音频信息中包括：第i帧音频信息，以及第i帧音频信息之前的L-1帧音频信息；L为大于等于1的整数；

确定所述L帧音频信息的能量平均值，以及所述L帧音频信息中的最大能量值；

基于所述L帧音频信息的能量平均值、最大能量值、以及所述L帧音频信息中的每一帧音频信息在第一频点的能量值，确定所述第i帧音频信息的峰值波动值，将所述第i帧音频信息的峰值波动值作为所述第i帧音频信息在第一频段的时域特征值。

在本发明的一个实施例中，所述方法还包括：

对L帧音频信息进行转换得到所述L帧音频信息中每一帧音频信息的频域信号；其中，所述L帧音频信息中包括：第i帧音频信息，以及第i帧音频信息之前的L-1帧音频信息；L为大于等于1的整数；

基于所述L帧音频信息中每一帧音频信息的频域信号，确定所述每一帧音频信息的能量表示；

基于所述L帧音频信息中每一帧音频信息的能量表示，构建包含所述L帧音频信息的特征平面；

其中，所述特征平面中包含：所述L帧音频信息中每一帧音频信息在第一频段内至少一个频点的能量值；所述至少一个频点中包括第一频点。

在本发明的一个实施例中，所述基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制，包括：

在所述音频信息在第一频段的时域特征值小于第一门限值、以及频域特征值大于第二门限值的情况下，确定存在回音信息，控制开启所述回音消除器；

和/或，

在所述音频信息在第一频段的时域特征值不小于第一门限值、以及频域特征值不大于第二门限值的情况下，确定不存在回音信息，控制关闭所述回音消除器。

在本发明的一个实施例中，所述方法还包括：

将参考音频与当前待播放音频信息进行混合，得到混合后的音频信息；播放所述混合后的音频信息。

在本发明的一个实施例中，所述第一频段为14850Hz至15150Hz的频段。

本申请实施例的第二个方面，提供一种回电子设备，包括：

拾音器，用于采集音频信息；其中，音频信息中包含参考音频；

处理器，用于对音频信息中参考音频所在的第一频段进行音频特征提取，得到音频信息在第一频段的音频特征；基于音频信息在第一频段的音频特征，对回音消除器进行控制。

在本发明的一个实施例中，所述处理器，用于获取音频信息在所述参考音频所在的所述第一频段的时域特征值以及频域特征值；将所述时域特征值以及所述频域特征值作为所述音频信息在所述第一频段的音频特征。

在本发明的一个实施例中，所述处理器，用于获取第i帧音频信息在第一频段内的能量峰值，以及两个能量波谷值；基于所述能量峰值以及所述两个能量波谷值，确定所述第i帧音频信息在第一频段内的峰谷比，将所述第i帧音频信息在第一频段内的峰谷比作为所述第i帧音频信息在所述第一频段的频域特征值。

所述两个能量波谷值为：

或者，

在本发明的一个实施例中，所述拾音器，还用于

所述处理器，用于确定所述L帧音频信息的能量平均值，以及所述L帧音频信息中的最大能量值；基于所述L帧音频信息的能量平均值、最大能量值、以及所述L帧音频信息中的每一帧音频信息在第一频点的能量值，确定所述第i帧音频信息的峰值波动值，将所述第i帧音频信息的峰值波动值作为所述第i帧音频信息在第一频段的时域特征值。

在本发明的一个实施例中，所述处理器，用于对L帧音频信息进行转换得到所述L帧音频信息中每一帧音频信息的频域信号；其中，所述L帧音频信息中包括：第i帧音频信息，以及第i帧音频信息之前的L-1帧音频信息；L为大于等于1的整数；

在本发明的一个实施例中，所述处理器，用于在所述音频信息在第一频段的时域特征值小于第一门限值、以及频域特征值大于第二门限值的情况下，确定存在回音信息，控制开启所述回音消除器；

和/或，

所述处理器，用于在所述音频信息在第一频段的时域特征值不小于第一门限值、以及频域特征值不大于第二门限值的情况下，确定不存在回音信息，控制关闭所述回音消除器。

在本发明的一个实施例中，所述电子设备还包括：

混音器，用于将参考音频与当前待播放音频信息进行混合，得到混合后的音频信息；

扬声器，用于播放所述混合后的音频信息。

在本发明的一个实施例中，所述第一频段为包括14850Hz至15150Hz的频段。

本申请实施例的第三个方面，提供一种回音处理装置，包括：

音频采集单元，用于采集音频信息；其中，音频信息中包含参考音频；

特征提取单元，用于对音频信息中参考音频所在的第一频段进行音频特征提取，得到音频信息在第一频段的音频特征；

回音消除AEC控制单元，用于基于音频信息在第一频段的音频特征，对回音消除器进行控制。

在本发明的一个实施例中，所述特征提取单元，用于获取音频信息在所述参考音频所在的所述第一频段的时域特征值以及频域特征值；将所述时域特征值以及所述频域特征值作为所述音频信息在所述第一频段的音频特征。

在本发明的一个实施例中，所述特征提取单元，用于获取第i帧音频信息在第一频段内的能量峰值，以及两个能量波谷值；基于所述能量峰值以及所述两个能量波谷值，确定所述第i帧音频信息在第一频段内的峰谷比，将所述第i帧音频信息在第一频段内的峰谷比作为所述第i帧音频信息在所述第一频段的频域特征值。

所述两个能量波谷值为：

或者，

在本发明的一个实施例中，所述特征提取单元，用于获取L帧音频信息；其中，所述L帧音频信息中包括：第i帧音频信息，以及第i帧音频信息之前的L-1帧音频信息；L为大于等于1的整数；

在本发明的一个实施例中，所述特征提取单元，用于

在本发明的一个实施例中，所述AEC控制单元，用于在所述音频信息在第一频段的时域特征值小于第一门限值、以及频域特征值大于第二门限值的情况下，确定存在回音信息，控制开启所述回音消除器；

和/或，

所述AEC控制单元，用于在所述音频信息在第一频段的时域特征值不小于第一门限值、以及频域特征值不大于第二门限值的情况下，确定不存在回音信息，控制关闭所述回音消除器。

在本发明的一个实施例中，所述装置还包括：

混音单元，用于将参考音频与当前待播放音频信息进行混合，得到混合后的音频信息；

音频输出单元，用于播放所述混合后的音频信息。

本申请实施例的第四个方面，提供一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意实施例提供的方法。

本申请实施例的第五个方面，提供一种介质，包括：

其存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任意实施例提供的方法。

根据本发明实施方式，通过对包含参考音频的音频信息进行采集，进而进行第一频段的音频特征的提取，再根据提取到的音频信息在第一频段的音频特征，对回音消除器进行控制。如此，可以避免对音频信息的除第一频段之外的音频产生影响，从而避免音频信号受损；并且，通过对包含参考音频所在的第一频段进行特征提取，可以更加准确的获取到音频信息的特征，进而进行回音消除的控制的时候可以保证回音消除的准确性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一实施方式的回音处理方法实现流程图；

图2示意性地示出了根据本发明一实施方式的人耳感知域示意图；

图3示意性地示出了根据本发明一实施方式的示意回音检测方法中的特征平面示意图；

图4示意性地示出了根据本发明一实施方式的AEC处理示意图；

图5示意性地示出了根据本发明一实施方式的介质示意图；

图6示意性地示出了根据本发明一实施方式的电子设备结构示意图；

图7示意性地示出了根据本发明一实施方式的回音检测装备结构示意图；

图8示意性地示出了根据本发明一实施方式的计算设备结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种回音处理方法、装置、介质和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

AEC是一种信号处理的技术，其功能是消除在通信***中的回音信号，保障对话人不被回音信号所干扰，提升通话质量。本发明人发现，在理想环境中(比如在消声室(Anechoic Chamber)中)，很多AEC算法能够很达到上述要求。但是由于音频信号在实际环境中的复杂性，在实际环境中，几乎所有的AEC算法，都无法同时很好的兼顾“消除回音”和“信号无损”。

有鉴于此，本发明提供一种回音处理方法、装置、介质和计算设备，通过对包含参考音频的音频信息进行采集，进而进行第一频段的音频特征的提取，再根据提取到的音频信息在第一频段的音频特征，对回音消除器进行控制。如此，可以避免对音频信息的除第一频段之外的音频产生影响，从而避免音频信号受损；并且，通过对包含参考音频所在的第一频段进行特征提取，可以更加准确的获取到音频信息的特征，进而进行回音消除的控制的时候可以保证回音消除的准确性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

本发明的第一个方面提供一种回音处理方法，下面参考图1来描述根据本发明示例性实施方式的回音处理方法，包括：

S101：采集音频信息；其中，所述音频信息中包含参考音频；

S102：对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；

S103：基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

本实施例提供的方案可以应用于电子设备，该电子设备至少需要具备麦克风以及处理器等。进一步地，该电子设备还可以具备音频输出功能或者能够连接具备音频输出功能的装置，这里，音频输出功能可以由扬声器、耳机等实现。一种示例中，所述电子设备可以为手机、平板电脑、笔记本电脑等任意一种。

本实施例中，所述参考音频可以预先与待播放音频信息混合。

该参考音频可以为噪音，具体的可以是在第一频段内第一频点的噪音。其中，一种优选的示例中，所述第一频段可以为14850Hz至15150Hz的频段；当然，实际设置中该第一频段可以更大或更小，本实施例不做穷举。该第一频点也可以是根据实际情况选取的，一种优选的示例中可以为15KHz频点；当然，根据实际情况可以选取第一频段中的其他频点作为第一频点，即作为注入噪音的频点。

进一步地，关于选取参考音频的频点所考虑的因素可以包括：第一，不被人耳感知到；第二，算法利用此噪声后鲁棒性强，特征易提取，不容易受外界噪声干扰。

具体的，15kHz的单频信号不容易被人耳发现。如图2所示，纵坐标表示声音大小(dB)，横坐标代表频率(Hz)。人耳的感知域(Auditory Field)在浅灰色的区间内，平均的感知门限(Threshold of Audibility)是感知域下面的弧线，其含义是指在这个门限之上人耳是可以听到的，反之能量在这条线以下，人耳无法感知。从图2中可以看出，人耳的感知能力在1kHz-2kHz时候最强，频率在此基础上持续增强或减弱，人耳的感知能力都在减弱。当频率达到15kHz的时候，人耳平均感知门限已经接近40dB SPL(Sound Pressure Level，声压级)。15kHz的注入噪声也不会影响语音质量的客观指标，由ITU(InternationalTelecommunication Union，国际电信联盟)设计的POQAL(Perceptual ObjectiveListening Quality Analysis，聆听品质感知客观评估)的基本频率是300-3400Hz，它的最大带宽(super-wideband，超宽频档)为50-14000Hz。由此也可以看出15kHz的注入噪声对语音质量产生的影响很小。

其次，算法的鲁棒性和抗噪性也非常重要。频率在很低的时候，例如在80Hz以下时也很难被人耳察觉。但是环境中会包含大量的低频噪音，这些背景噪音会严重影响回采注入噪声的特征提取。相对来说，15kHz的单频信号的鲁棒性就高很多，因为环境中在这个频率很难有其他的背景干扰。这对特征提取的准确性有了很大的提升。

最后，15kHz这个频点，大多数耳机、移动设备上的扬声器都能够包含。但是如果频率再升高，大多数设备的频响曲线就会下滑，导致高频声音无法正常播出，从而会影响特征的提取。

因此，本实施例将第一频点设置为15KHz。需要理解的是，第一频点还可以为15KHz左右一定带宽内的其他频点，比如，可以是14.99KHz、15.12KHz等等；另外，参考音频即噪音也可以具备一定的带宽，比如可以为对15kHz正负选取一定的频带宽度，参考音频具备的一定的带宽可以小于前述第一频段的带宽，这里不进行穷举。

进一步地，一种场景中，上述参考音频可以是在另外的进行音频输出的电子设备中与待播放音频信息进行的混音。

另一种场景中，参考音频可以是在本电子设备中与待播放音频信息进行的混音，其中，本电子设备指的是执行前述S101-S103的电子设备。

在同一个电子设备进行参考音频与待播放音频信息的混合的场景中，执行S101之前，还可以包括：将参考音频与当前待播放音频信息进行混合，得到混合后的音频信息；播放所述混合后的音频信息。

这里，关于参考音频的选取在前述实施例已经说明，不做赘述；将参考音频与待播放音频信息进行混合可以是通过混音器实现，将参考音频以及待播放音频信息输入至所述混音器，得到混音器输出的混合后的音频信息，然后播放该混合后的音频信息。播放混合后的音频信息可以是电子设备的音频输出单元实现的，比如手机的扬声器或与手机连接的耳机等。

播放的混合后的音频信息在声场进行传输，其中，在声场进行传输的过程中，可能会混合声场中的其他频率或频段的声音。

在前述说明的基础上，本实施例S101中，采集音频信息，该音频信息中可包含提前设计的注入噪声，即参考音频。另外，在音频信息中还可以包括上述在声场传输中混合的其他频率或频段的声音。

通过采用上述在第一频段的第一频点内加入参考音频的处理，由于本实施例第一频段选取在14850Hz至15150Hz的频段内，这个频段可以对语音质量产生较小的影响，即不会影响到用户正常通话的声音质量，并且，由于在这段频段进行参考音频的混合，可以尽可能少的引入其他背景噪音，从而可以避免其他噪音对参考音频的干扰，保证了针对第一频段的特征提取更加准确。

当注入噪声(即参考音频)被采集后，执行前述S102-S103，即可以通过特征提取来进行“是否有回音”的判断。

执行步骤S102获取音频特征的处理之前，需要构建特征平面，构建特征平面的处理可以包括：

这里，所述第i帧音频信息可以为当前采集的音频信息，或者当前分析的音频信息。

L帧音频信息可以为第i帧音频以及第i帧音频信息之前的L-1帧音频信息。

对L帧音频信息进行转换得到所述L帧音频信息中每一帧音频信息的频域信号,可以是对当前采集到的每一帧音频信息均转换为频域信号，只是在针对第i帧音频信息进行后续处理时，提取L帧音频信息的频域信号；又或者，可以是在需要进行处理时，获取L帧音频信息逐个进行转换得到每一个音频信息的频域信号。

其中，将音频信息转换为频域信号的方式可以是通过快速傅里叶变换(FFT，FastFourier Transform)，将回采的音频信息从时域变换到了频域，用D_i(ω)表示(第i帧)。

基于所述L帧音频信息中每一帧音频信息的频域信号，确定所述每一帧音频信息的能量表示的计算方式可以是计算每一帧音频信息的频域信号在log域的能量大小，通过以下公式1以第i帧音频信息为例进行说明：

其中，EN_i(ω)表示第i帧音频信息的频域信号D_i(ω)在log域的能量大小(dB FullScale(dBFs)，满度相对电平)，D_i(e^jω)表示D_i(ω)的实部，D_i ^*(e^-jω)表示D_i(ω)的虚部。

基于所述L帧音频信息中每一帧音频信息的能量表示，构建包含所述L帧音频信息的特征平面(Feature Surface)，说明如下：

根据L帧音频信息每一帧音频信息的EN(ω)，可以构建一个特征平面，所述特征平面中包含：所述L帧音频信息中每一帧音频信息在第一频段内至少一个频点的能量值；所述至少一个频点中包括第一频点。

比如，如图3所示，特征平面包含第一频段内即14850-15150Hz至少一个频点的能量值。图3中特征平面x轴代表频率，y轴代表第几帧(时间轴)，z轴代表能量大小(dBFs)。

通过计算特征平面，可以得到一个频段内也就是前述第一频段内各个频点在频率和时间的维度上的能量值。

如此，通过计算特征平面可以覆盖更多频点的能量值，为后续计算提供更多的数据值，提升计算效率，并且计算特征平面也仅需要覆盖时间上的L帧音频信息，以及每一帧音频信息的第一频段内的频点对应的能量值，因此并不会产生过多的计算量，也不会占用过多的计算资源。

在构建完特征平面过后，接着会开始提取特征值。特征值包括频域特征值和时域特征值两个维度，分别可以对应图3特征平面中的x轴数据和y轴数据。

执行步骤S102时，对采集得到的音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征。可以通过以下方式实现：

分别来说，关于频域特征值的确定方式可以包括：

基于所述能量峰值以及所述两个能量波谷值，确定所述第i帧音频信息在第一频段内的峰谷比(Peak-to-trough ratio)，将所述第i帧音频信息在第一频段内的峰谷比作为所述第i帧音频信息在所述第一频段的频域特征值。

具体得到上述频域特征值的方式，可以采用以下公式2进行计算：

PT_i＝[EN_i(k₀)-EN_i(k_L)]*[EN_i(k₀)-EN_i(k_R)]/EN_i(k₀)²(公式2)

其中，k₀表示波峰对应的频点15000Hz的频带，k_L表示第一个波谷对应的频点，k_R表示另一个波谷对应的频点。PT_i表示在第i帧的峰谷比大小。PT_i的范围在(0,1)之间，越接近1代表峰值越大，越接近0代表峰值越小。

具体来说，在构建完的特征平面上，参考图3，x轴代表频率变化，y轴代表时间轴，z轴代表能量大小。例如，在本实施例中取i＝5，即通过y＝5对应的截面截取图3中的特征平面，得到第5帧音频信息能量值变化的曲线图。在该曲线图中，第5帧音频信息在z轴对应的能量值随着x轴频率的变化而变化，由此获得一系列能量波峰和能量波谷，进而根据能量峰值以及所述两个能量波谷值，确定所述第5帧音频信息在第一频段内的峰谷比，将所述第5帧音频信息在第一频段内的峰谷比作为所述第5帧音频信息在所述第一频段的频域特征值。

所述第一频段内的能量峰值为：所述第一频段中第一频点所对应的能量值；

所述两个能量波谷值为：

或者，

具体来说，在第一频段内选取一个第一频点，该第一频点需满足特定的条件，例如该频点对应的噪声应当不容易被人耳感知，同时，在本发明描述的算法下该第一频点对应的噪声鲁棒性强，特征容易提取。例如，15000Hz对应的噪声不容易被人感知，且在本发明对应的算法下对应的噪声鲁棒性强，特征容易提取，则可以选取15000Hz作为第一频点。在图3中，令x＝15000，y＝5，以第一频点在第5帧中所对应的能量值作为第一频段内的能量峰值。

以第一频点为中心，选取一个特定的预设频率带宽，进而得到两个能量波谷值。例如，仍选取x＝15000作为第一频点，预设频率带宽为50Hz。在第一频段内，以15000Hz为中心增加预设带宽值50Hz得到第一相邻频点15050Hz对应的能量值作为一个能量波谷值，以及在第一频段内以第一频点15000Hz为中心减少预设带宽值50Hz得到第二相邻频点14950Hz对应的能量值作为另一个能量波谷值。

或者，

仍然选取50Hz作为预设的带宽，在第一频段内，以15000Hz—15050Hz对应的频段内的能量波谷值作为一个能量波谷值，以14950Hz—15000Hz对应的频段内的能量波谷值作为另一个能量波谷值。

根据上述实施例中的数值，带入上述公式(2)可以计算得到相应的频域特征值PT_i。例如，将i＝5，k₀＝15000,k_L＝14950，k_R＝15050代入公式(2)得到：

PT₅＝[EN₅(15000)-EN₅(14950)]*[EN₅(15000)-EN₅(15050)]/EN₅(15000)²

其中，EN₅(15000)代表第5帧音频信息对应的波峰值；EN₅(14950)和EN₅(15050)代表第5帧音频信息对应的两个波谷值,PT₅表示在第5帧的峰谷比大小，也即使第5帧音频信息对应的频域特征值。PT₅的范围在(0,1)之间，PT₅的值越接近1代表频域特征值越大；PT₅的值越接近0代表频域特征值越小。

通过计算峰谷比可以得到最高峰值以及波谷能量值的相对值，相比于单独获取某一个频点的能量值作为音频信息的频域特征值，能够更加准确并稳定的表征音频信息的特征。

时域特征值的确定方式可以包括：

具体来说，在构建完的特征平面上，参考图3，x轴代表频率变化，y轴代表时间轴，z轴代表能量大小。例如，在本实施例中取第一频点为15000Hz，即通过x＝15000对应的截面截取图3中的特征平面，得到第一频点对应的音频信息能量值变化的曲线图。在该曲线图中，第一频点对应的音频信息在z轴对应的能量值随着y轴频率的变化而变化，由此获得一系列能量波峰值，通过统计得到波峰最大值EN_max、波峰平均值

进而根据能量峰值确定峰值波动信息，以此作特定时间下对应的时域特征值Pj_i。Pj_i的值越小，代表波动越小，回音检测的可信度越高。

Pj_i的公式化表达参考公式(3)：

代表在L帧范围内的平均能量，EN_max代表在L帧范围内最大一帧的能量，Pj_i表示第i帧在L范围内的峰值波动。Pj_i的值越小，代表波动越小，回音检测的可信度越高。

通过引入时间上具备关联性的L帧音频信息的平均能量进行计算得到的波动值作为时域特征值，如此，可以避免仅采用频域特征值作为是否存在回音的判定标准可能出现的误判的情况，避免频域特征值突然变化而产生的回音误判的情况，提升***的稳定性，使得***的鲁棒性更强。

检测完成后，执行步骤S103。在有回音的情况下，正常打开回音消除器，在没有回音的情况下关闭回音消除器，从而减小音频损伤。

特征值包括频域特征值和时域特征值两个维度，上述频域特征值PT_i表征回音大小，而时域特征值Pj_i表示第i帧在L帧范围内的峰值波动。Pj_i的值越小，代表波动越小，进而表示回音检测的可信度越高。

根据本发明的一个实施例，执行步骤S103时，基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制，包括：

和/或，

具体的，通过大量的实验数据分析，可以得到两个门限值T_p(第二门限值)和T_j(第一门限值)，分别对应于频域特征值PT_i和时域特征值Pj_i，回音检测标准由公式(4)决定：

也就是说，当提取得到的频域特征值PT_i大于门限值T_p，且提取的到的时域值Pj_i小于门限值T_j时，回音检测结果(Decision)为确认存在噪声，Decision的结果会被送到AEC模块中，去动态打开AEC的开关。除此之外，当提取得到的频域特征值PT_i不大于门限值T_p，或者提取的到的时域值Pj_i不小于门限值T_j时，回音检测结果为确认不存在噪声，或者噪声在容忍限度内，或者噪声较小，Decision的结果会被送到AEC模块中，去动态关闭AEC的开关。

由于大部分AEC只有开或关的处理，因此通过采用门限值进行判断是否将AEC打开或关闭，能够适用于大部分AEC的处理。并且，结合前述通过峰谷比作为频域特征值，以及波动值作为时域特征值，可以使得音频信息的特征较为稳定，因此，上述时域特征值以及频域特征值结合相应的门限值进行判断也可以较为准确的控制AEC的开或关。

上述AEC(Acoustic Echo Cancellation)是一种信号处理的技术，其功能是消除在通信***中的回音信号，保障对话人不被回音信号所干扰，提升通话质量。

具体来说，回音消除器的回音消除的处理可以包括：

图4展示了在一个一对一的RTC(Real-Time Communication)场景中，AEC模块的结构。x代表了远端信号(far-end signal)，表示通过网络从另一个设备发送过来的信号。d代表了近端信号(near-end signal)，亦是麦克风所采集到的信号。这个信号里不仅包含了本端声场中的信号(语音信号加上噪声)，也包含了本端扬声器播放出来的远端信号。AEC模块的目的是，在不损伤本端声场信号的情况下，将信号d中的回音部分y消除掉。其核心是利用一个自适应滤波器(Adaptive Filter)去估计y信号，然后用其抵消掉信号d中的回音部分。

回音消除中的算法实现是自适应滤波器设计的核心部分。该处理中将已经转换成数字信号的主通道和参考通道信号在高速信号处理器中按照自适应滤波算法进行处理，处理完成以后送到***的输出模块。在信号的输出模块，通过数模转换器得到模拟信号，再经过低通滤波，送给扬声器输出，由此得到经过回声消除以后的语音信号。

再具体来说，自适应滤波器是一个对输入信号进行处理并不停学***稳条件下，也可以根据环境不断调节滤波器权值向量，使算法达到特定的收敛条件，从而实现自适应滤波过程。自适应滤波器按输入信号类型可分为模拟滤波器和离散滤波器，比如，离散滤波器可以使用数字滤波器(数字滤波器按结构可划分为输入不仅与过去和当前的输入有关、还与过去的输出有关的无限冲激响应滤波器(IIR)，以及输出与有限个过去和当前的输入有关的有限冲激响应滤波器(FIR))为了使得自适应滤波器具有更强的稳定性，并且具有足够的滤波器系数可以用来调整以达到特定的收敛准则，一般选取横向的FIR滤波器进行来进行回声的消除。

另外，回音消除的算法可以包括有LSM算法、归一化最小均方(NLMS)算法等等，本实施例中不对其进行穷举。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的回音处理方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

采集音频信息；其中，所述音频信息中包含参考音频；

对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；

基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图5所示，描述了根据本发明的实施方式的介质50，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备

示例性电子设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6本发明示例性实施方式的电子设备进行说明。

本发明的第二个方面提供一种有关回音处理的电子设备100，如图6所示，包括：

拾音器101，用于采集音频信息；其中，所述音频信息中包含参考音频；

处理器102，用于对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

在一种实施方式中，电子设备中的处理器102用于获取音频信息在所述参考音频所在的所述第一频段的时域特征值以及频域特征值；将所述时域特征值以及所述频域特征值作为所述音频信息在所述第一频段的音频特征。

在一种实施方式中，电子设备中的处理器102用于获取第i帧音频信息在第一频段内的能量峰值，以及两个能量波谷值；基于所述能量峰值以及所述两个能量波谷值，确定所述第i帧音频信息在第一频段内的峰谷比，将所述第i帧音频信息在第一频段内的峰谷比作为所述第i帧音频信息在所述第一频段的频域特征值。

在一种实施方式中，电子设备中中的第一频段内的能量峰值为：所述第一频段中第一频点所对应的能量值；

所述两个能量波谷值为：

或者，

在一种实施方式中，电子设备中的拾音器101，还用于：

所述处理器102，用于确定所述L帧音频信息的能量平均值，以及所述L帧音频信息中的最大能量值；基于所述L帧音频信息的能量平均值、最大能量值、以及所述L帧音频信息中的每一帧音频信息在第一频点的能量值，确定所述第i帧音频信息的峰值波动值，将所述第i帧音频信息的峰值波动值作为所述第i帧音频信息在第一频段的时域特征值。

在一种实施方式中，电子设备中的处理器102用于对L帧音频信息进行转换得到所述L帧音频信息中每一帧音频信息的频域信号；其中，所述L帧音频信息中包括：第i帧音频信息，以及第i帧音频信息之前的L-1帧音频信息；L为大于等于1的整数；

在一种实施方式中，电子设备中的处理器102用于在所述音频信息在第一频段的时域特征值小于第一门限值、以及频域特征值大于第二门限值的情况下，确定存在回音信息，控制开启所述回音消除器；

和/或，

所述处理器102，用于在所述音频信息在第一频段的时域特征值不小于第一门限值、以及频域特征值不大于第二门限值的情况下，确定不存在回音信息，控制关闭所述回音消除器。

在一种实施方式中，电子设备还包括：

混音器103，用于将参考音频与当前待播放音频信息进行混合，得到混合后的音频信息；

扬声器104，用于播放所述混合后的音频信息。

所述第一频段为包括14850Hz至15150Hz的频段。

示例性装置

在介绍了本发明示例性电子设备之后，接下来，参考图7本发明示例性实施方式的装置进行说明。

本发明实施例的第三个方面提供一种有关回音处理装置200，如图7所示，包括：

音频采集单元201，用于采集音频信息；其中，所述音频信息中包含参考音频；

特征提取单元202，用于对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；

回音消除AEC控制单元203，用于基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

在一种实施方式中，特征提取单元202用于获取音频信息在所述参考音频所在的所述第一频段的时域特征值以及频域特征值；将所述时域特征值以及所述频域特征值作为所述音频信息在所述第一频段的音频特征。

在一种实施方式中，特征提取单元202用于获取第i帧音频信息在第一频段内的能量峰值，以及两个能量波谷值；基于所述能量峰值以及所述两个能量波谷值，确定所述第i帧音频信息在第一频段内的峰谷比，将所述第i帧音频信息在第一频段内的峰谷比作为所述第i帧音频信息在所述第一频段的频域特征值。

在一种实施方式中，所述第一频段内的能量峰值为：

所述第一频段中第一频点所对应的能量值；

所述两个能量波谷值为：

或者，

在一种事实方式中，特征提取单元202，用于获取L帧音频信息；其中，所述L帧音频信息中包括：第i帧音频信息，以及第i帧音频信息之前的L-1帧音频信息；L为大于等于1的整数；

在一种实施方式中，特征提取单元202，用于：

在一种事实方式中，所述AEC控制单元203，用于在所述音频信息在第一频段的时域特征值小于第一门限值、以及频域特征值大于第二门限值的情况下，确定存在回音信息，控制开启所述回音消除器；

和/或，

所述AEC控制单元203，用于在所述音频信息在第一频段的时域特征值不小于第一门限值、以及频域特征值不大于第二门限值的情况下，确定不存在回音信息，控制关闭所述回音消除器。

在一种实施方式中，所述装置还包括：

混音单元204，用于将参考音频与当前待播放音频信息进行混合，得到混合后的音频信息；

音频输出单元205，用于播放所述混合后的音频信息。

在一种实施方式中，所述第一频段为14850Hz至15150Hz的频段。

示例性计算设备

在介绍了本发明示例性实施方式的方法、电子设备和装置之后，接下来，参考图8本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的特征处理方法中的步骤。

下面参照图8来描述根据本发明的这种实施方式的计算设备90。图8显示的计算设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902，连接不同***组件(包括处理单元901和存储单元902)的总线903。

总线903包括数据总线、控制总线和地址总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)9023。

存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器906通过总线903与计算设备90的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了特征处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种回音处理方法，所述方法包括：

采集音频信息；其中，所述音频信息中包含参考音频；

2.根据权利要求1所述的方法，其中，所述对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在第一频段的音频特征，包括：

3.根据权利要求2所述的方法，其中，所述方法还包括：

4.根据权利要求2所述的方法，其中，所述方法还包括：

5.根据权利要求2所述的方法，其中，所述基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制，包括：

和/或，

6.根据权利要求1所述的方法，其中，所述方法还包括：

7.一种电子设备，包括：

拾音器，用于采集音频信息；其中，所述音频信息中包含参考音频；

处理器，用于对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

8.一种回音处理装置，所述装置包括：

音频采集单元，用于采集音频信息；其中，所述音频信息中包含参考音频；

特征提取单元，用于对所述音频信息中所述参考音频所在的第一频段进行音频特征提取，得到所述音频信息在所述第一频段的音频特征；

回音消除AEC控制单元，用于基于所述音频信息在所述第一频段的音频特征，对回音消除器进行控制。

9.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

10.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。