CN111524498B

CN111524498B - 滤波方法、装置及电子设备

Info

Publication number: CN111524498B
Application number: CN202010280555.1A
Authority: CN
Inventors: 张勇
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2023-06-16
Anticipated expiration: 2040-04-10
Also published as: CN111524498A

Abstract

本发明实施例提供一种滤波方法、装置及电子设备，应用于通信技术领域，以解决电子设备所存在的语音通话质量较差的问题。该方法包括：获取电子设备的扬声器输出的第一语音信号对应的估计回声信号；将电子设备的麦克风接收的第一音频信号减去估计回声信号，生成第二音频信号，该第一音频信号包括第二语音信号和扬声器反馈给麦克风的第一回声信号；根据第二音频信号中的残余回声信号的能量参数，计算加权滤波参数，该残余回声信号为第二音频信号中剩余的回声信号；根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。本申请应用于消除声学回声场景中。

Description

滤波方法、装置及电子设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种滤波方法、装置及电子设备。

背景技术

随着通信技术的发展，具有免提语音通信***的电子设备越来越多，用户可以利用该电子设备的扬声器和麦克风与其他用户进行语音通话，而无需将电子设备拿起并置于耳边。

目前，由于电子设备的扬声器与麦克风的距离较近，电子设备的扬声器输出的声音，可能会反馈到电子设备的麦克风，从而导致的声学回声现象会影响电子设备的语音通话质量。

发明内容

本发明实施例提供一种滤波方法、装置及电子设备，以解决电子设备所存在的语音通话质量较差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本发明实施例提供一种滤波方法，该方法包括：获取电子设备的扬声器输出的第一语音信号对应的估计回声信号；将电子设备的麦克风接收的第一音频信号减去估计回声信号，生成第二音频信号，该第一音频信号包括第二语音信号和扬声器反馈给麦克风的第一回声信号；根据第二音频信号中的残余回声信号的能量参数，计算加权滤波参数，该残余回声信号为第二音频信号中剩余的回声信号；根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。

第二方面，本发明实施例还提供了一种滤波装置，该装置包括：获取模块，生成模块和计算模块；获取模块，用于获取电子设备的扬声器输出的第一语音信号对应的估计回声信号；生成模块，用于将电子设备的麦克风接收的第一音频信号减去获取模块获取的估计回声信号，生成第二音频信号，该第一音频信号包括第二语音信号和扬声器反馈给麦克风的第一回声信号；计算模块，用于根据生成模块生成的第二音频信号中的残余回声信号的能量参数，计算加权滤波参数，该残余回声信号为第二音频信号中剩余的回声信号；生成模块，还用于根据计算模块计算的加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面所述的滤波方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面所述的滤波方法的步骤。

在本发明实施例中，电子设备在获取到电子设备的扬声器输出的第一语音信号对应的估计回声信号之后，可以将电子设备的麦克风接收的第一音频信号(包括第二语音信号和扬声器反馈给麦克风的第一回声信号)减去估计回声信号，生成第二音频信号。由于第二音频信号还包括残余回声信号，该残余回声信号仍会影响语音通话质量。因此，电子设备可以根据第二音频信号中剩余的残余回声信号的能量参数，计算加权滤波参数，并根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。通过上述的方案，电子设备可以通过自适应滤波器对第一音频信号滤波得到第二音频信号，然后电子设备可以根据估算的第二音频信号中的残余回声信号的能量参数对残余回声信号进行二次滤波，进一步抑制了回声信号，进而提高了电子设备的通话质量。

附图说明

图1为本发明实施例提供的一种可能的声学回声生成示意图；

图2为本发明实施例提供的一种可能的操作***的架构示意图；

图3为本发明实施例提供的一种现有滤波方法的流程示意图；

图4为本发明实施例提供的一种滤波方法的流程示意图之一；

图5为本发明实施例提供的一种滤波方法的流程示意图之二；

图6为本发明实施例提供的一种滤波方法的流程示意图之三；

图7为本发明实施例提供的一种滤波方法的流程示意图之四；

图8为本发明实施例提供的一种滤波方法的流程示意图之五；

图9为本发明实施例提供的一种滤波方法的语谱图之一；

图10为本发明实施例提供的一种现有滤波方法滤波后的语谱图；

图11为本发明实施例提供的一种滤波方法的语谱图之二；

图12为本发明实施例提供的一种滤波装置的结构示意图；

图13为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

需要说明的是，本文中的“多个”是指两个或多于两个。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

需要说明的是，为了便于清楚描述本发明实施例的技术方案，在本发明实施例中，采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如，第一音频信号和第二音频信号是用于区别不同的音频信号，而不是用于描述音频信号的特定顺序。

本发明实施例中的声学回声现象是指：扬声器播放的语音信号被麦克风拾取后传送回远端，使远端用户听到自己声音的现象。

其中，声学回声又分为直接回声和间接回声。直接回声是指扬声器播放的语音信号未经任何反射直接进入麦克风，间接回声是指扬声器播放的语音信号经不同的路径一次或多次反射后进入麦克风所产生的回声集合。

举例说明，如图1所示，麦克风播放的语音信号以回声路径1进入麦克风，即为直接回声；以回声路径2进入麦克风，即为间接回声。

本发明实施例提供的滤波方法的执行主体可以为上述的电子设备(包括移动电子设备和非移动电子设备)，也可以为该电子设备中能够实现该滤波方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本发明实施例不作限定。下面以电子设备为例，对本发明实施例提供的滤波方法进行示例性的说明。

本发明实施例中的电子设备可以为移动电子设备，也可以为非移动电子设备。移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等；非移动电子设备可以为个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等；本发明实施例不作具体限定。

本发明实施例中的电子设备可以为具有操作***的电子设备。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本发明实施例不作具体限定。

下面以图2所示的操作***为例，介绍一下本发明实施例提供的滤波方法所应用的软件环境。

如图2所示，为本发明实施例提供的一种可能的操作***的架构示意图。在图2中，操作***的架构包括4层，分别为：应用程序层、应用程序框架层、***运行库层和内核层(具体可以为Linux内核层)。

其中，应用程序层包括操作***中的各个应用程序(包括***应用程序和第三方应用程序)。

应用程序框架层是应用程序的框架，开发人员可以在遵守应用程序的框架的开发原则的情况下，基于应用程序框架层开发一些应用程序。

***运行库层包括库(也称为***库)和操作***运行环境。库主要为操作***提供其所需的各类资源。操作***运行环境用于为操作***提供软件环境。

内核层是操作***的操作***层，属于操作***软件层次的最底层。内核层基于Linux内核为操作***提供核心***服务和与硬件相关的驱动程序。

以图2所示的操作***为例，本发明实施例中，开发人员可以基于上述如图2所示的操作***的***架构，开发实现本发明实施例提供的滤波方法的软件程序，从而使得该滤波方法可以基于如图2所示的操作***运行。即处理器或者电子设备可以通过在操作***中运行该软件程序实现本发明实施例提供的滤波方法。

相关技术中，电子设备通常采用自适应滤波器来进行声学回声消除，图3为一种现有的声学回声消除装置的结构示意图。该装置的原理为：首先自适应滤波器建立起回声路径模型，对真实的回声信号进行估计，然后从麦克风输出的近端信号中减去回声信号的估计值，生成误差信号，并根据反馈给自适应滤波器的误差信号来逐渐调整自适应滤波器的权重，使得回声信号的估计值逐渐靠近真实的回声信号，最终达到回声消除的目的。

如图3所示，x(m)为远端传输的语音信号；y(m)是远端语音信号x(m)由扬声器输出再经过反射后进入麦克风的回声信号；s(m)是用户对麦克风讲话形成的本地语音信号；d(m)是输入麦克风的近端语音信号，其中，d(m)＝y(m)+s(m)；y'(m)是自适应滤波器计算的估计回声信号；e(m)是近端语音信号d(m)与估计回声信号y'(m)的差值得到的误差信号，即e(m)＝d(m)-y'(m)；双讲检测(double talk detection，DTD)用于判断当前通话状态为近端讲话、双端讲话还是远端讲话，若DTD判断当前通话状态为双端讲话或远端讲话，则自适应滤波器进行滤波。

然而，在目前的通信***中，由于扬声器和麦克风等器件具有非线性特性，使具有线性特性的自适应滤波器无法对真实的回声信号进行完整且精确地模拟，且自适应滤波器即使收敛也存在失调，因此通过自适应滤波器滤波后输出的误差信号不可避免的存在残余回声信号。

为解决上述的问题，本发明实施例提供了一种滤波方法，可以先获取估计回声信号，然后在利用近端语音信号与估计回声信号的差值得到误差信号之后，根据该误差信号中的残余回声信号的能量参数设计感知加权滤波器，从而对残余回声信号进行二次滤波，进而提高电子设备的通话质量。

下面结合图4所示的滤波方法流程图对本发明实施例的滤波方法进行说明，图4为本发明实施例提供的一种滤波方法流程示意图，包括步骤201至步骤204：

步骤201：电子设备获取电子设备的扬声器输出的第一语音信号对应的估计回声信号。

在本发明实施例中，上述的扬声器可以为电子设备自带的扬声器，也可以为电子设备外接的扬声器，本发明实施例对此不作限定。

示例性的，上述的估计回声信号可以为电子设备估计的第一语音信号产生的回声信号。

可选地，在本发明实施例中，电子设备可以通过第一语音信号对应的未经过扬声器的语音信号，来对估计回声信号进行估计。

示例性的，上述的步骤201具体可以包括如下步骤201a：

步骤201a：电子设备将电子设备的扬声器输出的第一语音信号对应的原始语音信号，输入自适应滤波器进行回声估计，得到该原始语音信号对应的估计回声信号。

示例性的，上述的原始语音信号为未经过电子设备的扬声器的语音信号。

在一种示例中，上述的原始语音信号又称为远端语音信号。

需要说明的是，电子设备利用原始语音信号进行回声估计，可以忽略原始语音信号和第一语音信号之间存在的信号衰减。若考虑到信号衰减，则电子设备可以将原始语音信号减去估计的衰减信号后进行回声估计。

步骤202：电子设备将电子设备的麦克风接收的第一音频信号减去上述估计回声信号，生成第二音频信号。

其中，上述第一音频信号可以包括第二语音信号和扬声器反馈给麦克风的第一回声信号。

示例性的，上述的第二语音信号为用户通过麦克风讲话的信号。

示例性的，上述的第一回声信号为第一语音信号经过反射进入麦克风的信号。

在一种示例中，上述的第一音频信号又称为近端语音信号。

可选地，在本发明实施例中，为减少电子设备的运算复杂度，电子设备可以对音频信号进行时频变换，进而再对音频信号进行计算。

示例性的，在第二音频信号为频域信号的情况下，上述的步骤202具体可以包括如下步骤202a和步骤202b：

步骤202a：电子设备将电子设备的麦克风接收的第一音频信号减去估计回声信号，生成时域信号。

在一种示例中，上述的时域信号又称为误差信号。

步骤202b：电子设备对上述时域信号进行时频变换，生成上述频域信号。

可以理解，电子设备对上述时域信号进行时频变换，生成上述频域信号，即生成第二音频信号。

示例性的，电子设备除了可以对时域信号进行时频变换，还可以进行其他操作，以方便电子设备后续进行信号计算。其中，电子设备对时域信号进行的所有操作可以统称对时域信号进行信号分析。

举例说明，如图5所示，电子设备对时域信号进行信号分析包括：电子设备将时域信号e(m)进行分帧，然后进行加窗，再进行时频变换，最终将时域信号e(m)变换为频域信号E(Ω)。

需要说明的是，电子设备可以利用离散傅里叶(傅立叶)(discrete Fouriertransform，DFT)将信号由时域信号变换为频域信号，在计算机上实现时，DFT可以通过快速傅里叶(傅立叶)变换(fast Fourier transformation，FFT)实现。

步骤203：电子设备根据第二音频信号中的残余回声信号的能量参数，计算加权滤波参数。

在本发明实施例中，上述的残余回声信号为第二音频信号中剩余的回声信号。

可以理解，由于第一音频信号中的第一回声信号不能完全被消除，因此，上述的第二音频信号中包括残余回声信号。

示例性的，上述的能量参数可以为以下至少一项：信号强度，信号能量，信号功率，信号功率谱密度(power spectral density，PSD)。

在一种示例中，由于第一回声信号是通过原始语音信号产生的，因此，电子设备可以根据第二音频信号和上述的原始语音信号对第二音频信号中的残余回声信号的能量参数进行估计。

举例说明，如图6所示，电子设备可以根据第二音频信号E(Ω)和频域原始语音信号X(Ω)的相干函数C_xe(Ω)来估计残余回声信号的PSD，可以用R_b(Ω)表示。具体过程为：时域信号e(m)通过图5所示的信号分析方法变换为频域信号E(Ω)，原始语音信号x(m)通过图5所示的信号分析方法变换为频域原始语音信号X(Ω)，此时，可以计算第二音频信号E(Ω)和频域原始语音信号X(Ω)的相干函数C_xe(Ω)，C_xe(Ω)公式如下所示：

其中，R_xe(Ω)表示第二音频信号E(Ω)和频域原始语音信号X(Ω)的互相关功率谱，R_x(Ω)表示频域原始语音信号X(Ω)的PSD，R_e(Ω)表示第二音频信号E(Ω)的PSD。

其中，相干函数C_xe(Ω)表征了两个信号在各频率上分量间的线性相关程度，其取值范围可以为[0,1]，信号越相关，其取值越接近1，信号越不相关，其取值越接近0。则当第二音频信号中残留的回声信号越多，则相干函数C_xe(Ω)越大，反之，则相干函数C_xe(Ω)越小。

当得到相干函数C_xe(Ω)之后，电子设备可以计算第二音频信号的残余回声信号的功率谱密度R_b(Ω)，公式如下：

R_b(Ω)＝R_e(Ω)C_xe(Ω)

示例性的，加权滤波参数G(Ω)的公式如下：

其中，A为一个经验能量阈值。

需要说明的是，若加权滤波参数G(Ω)大于1，则不能对第二音频信号进行滤波，因此，应该保证G(Ω)小于等于1，则加权滤波参数G(Ω)的公式如下：

步骤204：电子设备根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。

示例性的，电子设备可以将第二音频信号与加权滤波参数相乘，进而对第二音频信号进行滤波处理，生成目标音频信号S'(Ω)。公式如下：

S'(Ω)＝G(Ω)E(Ω)

示例性的，上述的目标音频信号可以包括滤波后的第二语音信号。

本发明实施例提供的滤波方法，电子设备在获取到电子设备的扬声器输出的第一语音信号对应的估计回声信号之后，可以将电子设备的麦克风接收的第一音频信号(包括第二语音信号和扬声器反馈给麦克风的第一回声信号)减去估计回声信号，生成第二音频信号。然而，由于第二音频信号还包括残余回声信号，该残余回声信号还是会影响语音通过质量。因此，电子设备可以根据第二音频信号中剩余的残余回声信号的能量参数，计算加权滤波参数，并根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。通过上述的方案，电子设备可以通过自适应滤波器对第一音频信号滤波得到第二音频信号，然后电子设备可以根据估算的第二音频信号中的残余回声信号的能量参数对残余回声信号进行二次滤波，进一步抑制了回声信号，进而提高了电子设备的通话质量。

可选地，在本发明实施例中，在上述的步骤204之后，该方法还可以包括如下步骤205：

步骤205：电子设备将上述目标音频信号进行逆时频变换，生成目标时域音频信号。

示例性的，电子设备除了可以对目标音频信号进行逆时频变换，还可以进行其他操作，电子设备对目标音频信号进行的所有操作可以统称为信号合成。

举例说明，目标时域音频信号可以表示为s'(m)。如图7所示，电子设备对目标音频信号s'(m)进行信号合成包括：电子设备可以将目标音频信号S'(Ω)进行逆时频变换，再进行合帧，最终得到目标时域音频信号s'(m)，即合成一段完整的语音信号输出。

这样，当电子设备对频域音频信号完成滤波后，可以将频域音频信号变换成时域音频信号输出，进而完成语音信号的输出。

可选地，在本发明实施例中，由于人耳听觉***存在掩蔽效应，即一种频率的声音阻碍听觉***感受另一种频率声音的现象。因此，若需求保证目标音频信号中的残留回声信号不影响电子设备的语音通话质量，只要保证该残留回声信号的能量小于人耳听觉掩蔽阈值即可。

示例性的，上述的步骤203具体可以包括如下步骤203a和步骤203b：

步骤203a：电子设备计算第二音频信号对应的听觉掩蔽阈值。

示例性的，电子设备可以根据心理声学模型计算听觉掩蔽阈值，可以表示为R_T(Ω)，其中，心理声学模型是在研究人类听觉***基础上，抽象出来的反映人类听觉感知特性的数学模型。它描述了人类听觉***对语音及噪声的感知和掩蔽能力。依据心理声学模型，输入信号频带需要按临界频带(单位：Bark)重新划分，然后估计出每个临界频带的听觉掩蔽阈值，以此来对噪声进行整形，使每个临界频段内的噪声功率小于该临界频带的掩蔽阈值，从而使得噪声能够被语音信号所掩蔽，进而达到感知失真最小。

在一种示例中，电子设备可以通过谱减法估算出近似语音信号，再根据估算的近似语音信号计算听觉掩蔽阈值。

步骤203b：电子设备根据第二音频信号中的残余回声信号的能量参数以及听觉掩蔽阈值，计算加权滤波参数。

示例性的，电子设备计算第二音频信号中的残余回声信号的能量参数和计算听觉掩蔽阈值之间没有明显的执行顺序，电子设备可以在计算第二音频信号中的残余回声信号的能量参数之后计算听觉掩蔽阈值，也可以在计算第二音频信号中的残余回声信号的能量参数之前计算听觉掩蔽阈值，还可以在计算第二音频信号中的残余回声信号的能量参数的同时计算听觉掩蔽阈值，本发明实施例对此不作限定。

需要说明的是，噪声抑制是在保证语音信号失真尽可能小的情况下，尽可能多的去除噪声，但是，二者不能同时满足，即语音失真小，则降噪后残留噪声会比较多，反之，降噪后残留噪声小，则语音失真会比较大。因此，在尽可能减少语音失真的前提下，不需要把噪声完全抑制掉，只要保证目标音频信号中的残余回声信号的能量小于或等于听觉掩蔽阈值，使目标音频信号中的残余回声信号不被人耳感知即可。

在一种示例中，依据尽可能减少语音失真的前提下，尽可能多的去除噪声的设计原则，上述的加权滤波参数G(Ω)可以表示为：

这样，电子设备可以通过听觉掩蔽阈值作为滤波基准，在保证目标音频信号中的残余回声信号小于或等于听觉掩蔽阈值，即不被人耳感知的情况下，可以实现目标音频信号中的语音信号失真最少。

可选地，在本发明实施例中，在第二音频信号还包括背景噪声信号的情况下，麦克风除了可以接收到第二语音信号和扬声器反馈给麦克风的第一回声信号以外，还可以接收到背景噪声信号(例如，其他用户的语音或音乐声)。除了第一回声信号会影响电子设备的通话质量，背景噪声信号同样也会影响电子设备的通话质量，且现有的声学回声消除装置仅可以消除回声信号，并不能消除背景噪声信号，因此，电子设备在消除回声信号的同时也需要消除背景噪声信号。

示例性的，上述的步骤203具体可以包括如下步骤203c：

步骤203c：电子设备根据第二音频信号中的残余回声信号的能量参数和背景噪声信号的能量参数，计算加权滤波参数。

其中，电子设备可以估计背景噪声信号PSD，可以表示为R_n(Ω)。

示例性的，上述的背景噪声信号可以为背景音乐或其他用户的说话声，本发明实施例对此不作限定。

可以理解，背景噪声信号估计是语音增强算法中的一个重要部分，背景噪声信号估计过高，则微弱语音信号将被滤除，造成语音信号失真大；背景噪声信号估计过低，则语音信号中将残留过多背景噪声信号，影响通话质量。

示例性的，上述的背景噪声信号可以包括：平稳噪声信号和非平稳噪声信号。对于不同的背景噪声信号估计方法不同。

示例1，当背景噪声信号为平稳噪声信号时，电子设备可以通过对静音段的噪声信号功率谱取均值，从而得到背景噪声信号的PSD。

示例2，当背景噪声信号为非平稳噪声信号时，由于背景噪声信号随时间快速变化，需要对背景噪声信号进行连续跟踪和修正。

具体的，非平稳噪声信号的PSD可以通过以下至少两种方式进行估计。

在第一种可能实现方式中：

示例性的，由于语音信号和背景噪声信号是互相独立的，也就是说，带噪语音信号的功率谱等于语音信号和背景噪声信号的功率谱密度之和。在语音信号间隔或者音节之间，带噪语音的功率谱通常会等于背景噪声信号的功率谱密度。因此，电子设备可以通过在噪声估计窗中搜索最小值作为背景噪声信号功率谱密度的估计值，由于最小搜索会使得估计结果偏小，可以通过乘以一个由局部最小值的统计得到的偏差因子来得到对背景噪声信号功率谱密度的无偏估计。

在第二种可能实现方式中：

示例性的，电子设备可以通过两次平滑和最小值跟踪过程来对背景噪声信号进行估计。电子设备第一次可以对每个频带的语音做粗略的估计，然后在第二次平滑过程中通过最小值跟踪剔除强语音分量，对背景噪声信号进行平滑，从而得到背景噪声信号功率谱密度的估计值。

示例性的，在电子设备计算出R_n(Ω)之后，为实现同时消除第二音频信号中的残余回声信号和背景噪声信号，上述的加权滤波参数G(Ω)可以表示为：

其中，B为一个经验能量阈值。

在一种示例中，本着尽可能减少语音失真的前提下，尽可能多的去除噪声的设计原则，电子设备可以根据第二音频信号中的残余回声信号的能量参数和背景噪声信号的能量参数以及听觉掩蔽阈值，计算加权滤波参数。

具体的，上述的加权滤波参数G(Ω)可以表示为：

其中，α为一个经验因子，其取值为一个常数。

举例说明，时域信号e(m)包括：背景噪声信号n(m)、第二语音信号s(m)和第一回声信号y(m)。如图8所示，电子设备将时域信号e(m)进行信号分析，得到第二音频信号E(Ω)，然后，电子设备可以根据第二音频信号E(Ω)估计听觉掩蔽阈值、背景噪声信号PSD和残余回声信号PSD。再者，电子设备可以根据听觉掩蔽阈值R_T(Ω)、背景噪声信号功率谱密度R_n(Ω)和残余回声信号功率谱密度R_b(Ω)，计算加权滤波参数G(Ω)。接着，电子设备可以根据加权滤波参数G(Ω)对第二音频信号E(Ω)进行滤波，得到目标音频信号S'(Ω)。最后，电子设备可以将目标音频信号S'(Ω)进行信号合成，得到目标时域音频信号s'(m)。

需要说明的是，若R_b(Ω)和R_n(Ω)越小，表示需要滤除的残余回声信号和背景噪声信号越少，则G(Ω)越大。反之，若R_b(Ω)和R_n(Ω)越大，表示需要滤除的残余回声信号和背景噪声信号越多，则G(Ω)越小，第二音频信号E(Ω)与G(Ω)相乘，便可以滤除更多的残余回声信号和背景噪声信号。其中，当G(Ω)大于1时，第二音频信号E(Ω)与G(Ω)相乘之后，会增加不必要的残余回声信号和背景噪声信号，反而不能对第二音频信号E(Ω)进行滤波，因此，加权滤波参数G(Ω)可以小于等于1。

这样，电子设备可以根据第二音频信号中的残余回声信号的能量参数和背景噪声信号的能量参数，计算加权滤波参数，并根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。通过上述的方案，电子设备不仅可以对第二音频信号中的残余回声信号进行二次滤波，还可以对背景噪声进行滤波，使得电子设备可以实现对残余回声信号和背景噪声信号同时进行滤波，而无需单独对背景噪声进行滤波，如此，不仅可以提高电子设备的通话质量，还可以简化滤波过程。

示例性的，以实验检测得到的语谱图对本发明实施例提供的滤波方法进行说明。

具体的，图9是麦克风采集的第一音频信号的信号语谱图，框1(即图9中的31)框住的部分为第一回声信号，框2(即图9中的32)框住的部分为第二语音信号，从图9可以看到第一音频语音信号包含了较多的第一回声信号。图10是通过自适应滤波器滤波后输出的时频信号的语谱图，其中，自适应滤波器长度为1024点，从图10可以看到时频信号中仍然有部分残留回声，如框3至框5(即图10中的41)框住的部分所示。同时，从图10可以看到自适应滤波器对背景噪声未做处理。图11是时频信号经过加权滤波处理后的语谱图，从图11可以看到，输出的目标时域音频信号中的残余回声信号被有效抑制。

图12为实现本发明实施例提供的一种滤波装置的可能的结构示意图，如图12所示，滤波装置600包括：获取模块601、生成模块602和计算模块603，其中：获取模块601，用于获取电子设备的扬声器输出的第一语音信号对应的估计回声信号；生成模块602，用于将电子设备的麦克风接收的第一音频信号减去获取模块601获取的估计回声信号，生成第二音频信号，该第一音频信号包括第二语音信号和扬声器反馈给麦克风的第一回声信号；计算模块603，用于根据生成模块602生成的第二音频信号中的残余回声信号的能量参数，计算加权滤波参数，该残余回声信号为第二音频信号中剩余的回声信号；生成模块602，还用于根据计算模块601计算的加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。

可选地，计算模块603，具体用于计算生成模块602生成的第二音频信号对应的听觉掩蔽阈值；以及根据第二音频信号中的残余回声信号的能量参数以及听觉掩蔽阈值，计算加权滤波参数。

可选地，计算模块603，具体用于在生成模块602生成的第二音频信号还包括背景噪声信号的情况下，根据第二音频信号中的残余回声信号的能量参数和背景噪声信号的能量参数，计算加权滤波参数。

可选地，获取模块601，具体用于将电子设备的扬声器输出的第一语音信号对应的原始语音信号，输入自适应滤波器进行回声估计，得到该原始语音信号对应的估计回声信号。

本发明实施例提供的滤波装置，滤波装置在获取到电子设备的扬声器输出的第一语音信号对应的估计回声信号之后，可以将电子设备的麦克风接收的第一音频信号(包括第二语音信号和扬声器反馈给麦克风的第一回声信号)减去估计回声信号，生成第二音频信号。然而，由于第二音频信号还包括残余回声信号，该残余回声信号还是会影响语音通过质量。因此，滤波装置可以根据第二音频信号中剩余的残余回声信号的能量参数，计算加权滤波参数，并根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。通过上述的方案，滤波装置可以通过自适应滤波器对第一音频信号滤波得到第二音频信号，然后电子设备可以根据估算的第二音频信号中的残余回声信号的能量参数对残余回声信号进行二次滤波，进一步抑制了回声信号，进而提高了电子设备的通话质量。

本发明实施例提供的滤波装置能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

图13为实现本申请各个实施例的一种电子设备的硬件结构示意图，该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图13中示出的电子设备100的结构并不构成对电子设备的限定，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备100包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、以及计步器等。

其中，处理器110，用于获取电子设备的扬声器输出的第一语音信号对应的估计回声信号；以及用于将电子设备的麦克风接收的第一音频信号减去估计回声信号，生成第二音频信号，该第一音频信号包括第二语音信号和扬声器反馈给麦克风的第一回声信号；以及用于根据第二音频信号中的残余回声信号的能量参数，计算加权滤波参数，该残余回声信号为第二音频信号中剩余的回声信号；以及用于根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。

可选地，处理器110，具体用于计算第二音频信号对应的听觉掩蔽阈值；以及根据第二音频信号中的残余回声信号的能量参数以及听觉掩蔽阈值，计算加权滤波参数。

可选地，处理器110，具体用于在第二音频信号还包括背景噪声信号的情况下，根据第二音频信号中的残余回声信号的能量参数和背景噪声信号的能量参数，计算加权滤波参数。

可选地，处理器110，具体用于将电子设备的扬声器输出的第一语音信号对应的原始语音信号，输入自适应滤波器进行回声估计，得到该原始语音信号对应的估计回声信号。

本发明实施例提供的电子设备，电子设备在获取到电子设备的扬声器输出的第一语音信号对应的估计回声信号之后，可以将电子设备的麦克风接收的第一音频信号(包括第二语音信号和扬声器反馈给麦克风的第一回声信号)减去估计回声信号，生成第二音频信号。然而，由于第二音频信号还包括残余回声信号，该残余回声信号还是会影响语音通过质量。因此，电子设备可以根据第二音频信号中剩余的残余回声信号的能量参数，计算加权滤波参数，并根据加权滤波参数，对第二音频信号进行滤波处理，生成目标音频信号。通过上述的方案，电子设备可以通过自适应滤波器对第一音频信号滤波得到第二音频信号，然后电子设备可以根据估算的第二音频信号中的残余回声信号的能量参数对残余回声信号进行二次滤波，进一步抑制了回声信号，进而提高了电子设备的通话质量。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信***与网络和其他设备通信。

电子设备100通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与电子设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

电子设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在电子设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与电子设备100的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图13中，触控面板1071与显示面板1061是作为两个独立的部件来实现电子设备100的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现电子设备100的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与电子设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备100内的一个或多个元件或者可以用于在电子设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行电子设备100的各种功能和处理数据，从而对电子设备100进行整体监控。处理器110可包括一个或多个处理单元；可选地，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

电子设备100还可以包括给各个部件供电的电源111(比如电池)，可选地，电源111可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，电子设备100包括一些未示出的功能模块，在此不再赘述。

可选地，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器110上运行的计算机程序，该计算机程序被处理器执行时实现上述滤波方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述滤波方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种滤波方法，应用于电子设备，其特征在于，所述方法包括：

获取所述电子设备的扬声器输出的第一语音信号对应的估计回声信号；

将所述电子设备的麦克风接收的第一音频信号减去所述估计回声信号，生成第二音频信号，所述第一音频信号包括第二语音信号和所述扬声器反馈给所述麦克风的第一回声信号；

根据所述第二音频信号与频域原始语音信号之间的相干函数C_xe(Ω)，估计所述第二音频信号中的残余回声信号的功率谱密度R_b(Ω)；其中，C_xe(Ω)的公式为：

R_xe(Ω)表示所述第二音频信号E(Ω)和所述频域原始语音信号X(Ω)的互相关功率谱，R_x(Ω)表示所述频域原始语音信号X(Ω)的功率谱密度，R_e(Ω)表示所述第二音频信号E(Ω)的功率谱密度；R_b(Ω)的公式为：R_b(Ω)＝R_e(Ω)C_xe(Ω)；所述频域原始语音信号为将所述第一语音信号对应的原始语音信号变换到频域得到的；所述第二音频信号与频域原始语音信号之间的相干函数用于表征所述第二音频信号与所述频域原始语音信号在各频率分量间的线性相关程度；

根据所述第二音频信号中的残余回声信号的功率谱密度，计算加权滤波参数，所述残余回声信号为所述第二音频信号中剩余的回声信号；

根据所述加权滤波参数，对所述第二音频信号进行滤波处理，生成目标音频信号。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二音频信号中的残余回声信号的功率谱密度，计算加权滤波参数，包括：

计算所述第二音频信号对应的听觉掩蔽阈值；

根据所述第二音频信号中的残余回声信号的功率谱密度以及所述听觉掩蔽阈值，计算加权滤波参数。

3.根据权利要求1或2所述的方法，其特征在于，所述第二音频信号还包括：背景噪声信号；所述根据所述第二音频信号中的残余回声信号的功率谱密度，计算加权滤波参数，包括：

根据所述第二音频信号中的残余回声信号的功率谱密度和所述背景噪声信号的功率谱密度，计算加权滤波参数。

4.根据权利要求1所述的方法，其特征在于，所述获取所述电子设备的扬声器输出的第一语音信号对应的估计回声信号，包括：

将所述电子设备的扬声器输出的第一语音信号对应的原始语音信号，输入自适应滤波器进行回声估计，得到所述原始语音信号对应的估计回声信号。

5.一种滤波装置，其特征在于，所述装置包括：获取模块，生成模块和计算模块；

所述获取模块，用于获取电子设备的扬声器输出的第一语音信号对应的估计回声信号；

所述生成模块，用于将所述电子设备的麦克风接收的第一音频信号减去所述获取模块获取的所述估计回声信号，生成第二音频信号，所述第一音频信号包括第二语音信号和所述扬声器反馈给所述麦克风的第一回声信号；

所述计算模块，用于根据所述第二音频信号与频域原始语音信号之间的相干函数C_xe(Ω)，估计所述第二音频信号中的残余回声信号的功率谱密度R_b(Ω)；其中，C_xe(Ω)的公式为：

所述计算模块，还用于根据所述生成模块生成的所述第二音频信号中的残余回声信号的功率谱密度，计算加权滤波参数，所述残余回声信号为所述第二音频信号中剩余的回声信号；

所述生成模块，还用于根据所述计算模块计算的所述加权滤波参数，对所述第二音频信号进行滤波处理，生成目标音频信号。

6.根据权利要求5所述的装置，其特征在于，所述计算模块，具体用于计算所述生成模块生成的所述第二音频信号对应的听觉掩蔽阈值；以及根据所述第二音频信号中的残余回声信号的功率谱密度以及所述听觉掩蔽阈值，计算加权滤波参数。

7.根据权利要求5或6所述的装置，其特征在于，所述计算模块，具体用于在所述生成模块生成的所述第二音频信号还包括背景噪声信号的情况下，根据所述第二音频信号中的残余回声信号的功率谱密度和所述背景噪声信号的功率谱密度，计算加权滤波参数。

8.根据权利要求5所述的装置，其特征在于，所述获取模块，具体用于将所述电子设备的扬声器输出的第一语音信号对应的原始语音信号，输入自适应滤波器进行回声估计，得到所述原始语音信号对应的估计回声信号。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的滤波方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的滤波方法的步骤。