CN110088834A

CN110088834A - 用于语音去混响的多输入多输出（mimo）音频信号处理

Info

Publication number: CN110088834A
Application number: CN201780080189.1A
Authority: CN
Inventors: S.M.卡萨里; F.内斯塔
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2016-12-23
Filing date: 2017-12-22
Publication date: 2019-08-02
Anticipated expiration: 2037-12-22
Also published as: CN110088834B; US10930298B2; US20180182411A1; WO2018119467A1

Abstract

用于适应性去混响的音频信号处理使用最小二乘方（LMS）滤波器，其具有优于常规LMS滤波器的改进的收敛，从而使得实施例对于减少针对在许多便携式和嵌入式设备（诸如智能电话、平板电脑、膝上型计算机和助听器）中使用的针对应用（一般诸如语音识别和音频通信）的混响的影响是实际的。LMS滤波器采用频率相关的适应性步长来加速预测性滤波器过程的收敛，从而与应用于相同输入的常规LMS滤波器相比需要更少的计算步骤。在低存储消耗成本下实现了改进的收敛。在声学声道的高非恒定条件下控制预测滤波器的更新改进了这种条件下的性能。该技术适合于单个或多个声道，并且可适用于麦克风阵列处理。

Description

用于语音去混响的多输入多输出（MIMO）音频信号处理

相关申请的交叉引用

本申请要求2016年12月23日提交的以及标题为“用于语音去混响的多输入多输出（MIMO）音频信号处理”的美国临时专利申请No.62/438，848的权益和优先权，其通过引用以其整体并入本文中。

技术领域

本公开总体上涉及语音增强，并且更具体地涉及减少源自有噪声的混响环境的多个信号（例如，多声道***）中的混响。

背景技术

当从即使短距离对着音频设备（诸如智能电话、平板电脑或膝上型计算机）讲话（与直接地对着麦克风讲话相反）时，语音信号的反射可以穿过各种路径到设备的麦克风。信号的这些反射（例如，混响）可以使语音难以理解。混响的影响在缺少诸如家具和人的对象以吸收声音反射的相对空的或空旷的环境中常常较明显。VoIP（网络电话上的语音）呼叫的质量和许多麦克风阵列处理技术的性能（诸如例如用于语音命令和语音邮件转录的声源定位、波束成形和自动语音识别（ASR））通常在混响环境中降级。

许多现存的混响减少方法（例如，由于方法的计算复杂性）遭受缺乏处理速度和过度的存储消耗，这使得它们对于诸如语音命令识别、语音邮件转录和VoIP通信之类的应用而言的实时（例如，“在线”）使用是不实际的。对于涉及处理来自麦克风阵列的信号的应用—诸如声源定位、减少多输入多输出（MIMO）应用中的噪声和干扰、波束成形和自动语音识别—许多麦克风阵列处理技术的性能随着使用的麦克风的数目而增加，然而，现存的去混响方法典型地不产生与阵列中的麦克风相同数目的去混响信号，从而限制了它们的适用性。因此，在本领域中存在对于用于音频信号处理的较快、较存储高效、MIMO和较计算高效的去混响解决方案的持续需要。

发明内容

本文中描述了用于多输入多输出（MIMO）音频信号处理的***和方法。在各种实施例中，公开了适应性去混响的***和方法，其使用最小二乘方（LMS）滤波器，其具有优于常规LMS滤波器的改进的收敛，从而使得实施例对于减少用于在诸如智能电话、平板电脑和电视之类的许多便携式音频设备中使用（通常用于像语音（例如，命令）识别、语音邮件转录和通信的应用）的混响的影响是实际的。

在一个实施例中，采用频率相关的适应性步长来加速LMS滤波过程的收敛，使得该过程以与常规LMS滤波器相比更少的计算步骤达成其解决方案。在一个实施例中，在保持计算效率的同时，就低存储消耗成本而言实现了改进的收敛，其与一些其它适应性滤波方法相比是LMS滤波方法的特性。在一个实施例中，在声学声道的高非恒定条件下使用语音活动检测来控制LMS方法的预测滤波器的更新的过程改进了在此类条件下的去混响方法的性能。

在一个或多个实施例中，***和方法提供对来自多个麦克风的多声道音频信号的处理，每个麦克风对应于多个声道中的一个，以产生具有与麦克风相同数目的去混响的信号的去混响增强的输出信号。

一个或多个实施例公开了一种方法，该方法包括子带分析以将每个声道上的多声道音频信号从时域变换到欠采样K子带频域信号，其中K是频率窗口的数目，每个频率窗口对应于K个子带中的一个；以延迟缓冲来针对每个声道存储每个频率窗口的帧的数目L_k；使用用于在线（实时）收敛的适应性方法在线（例如，以在线方式，换句话说实时地）估计每个帧处的预测滤波器；使用估计的预测滤波器对K子带频域信号执行线性滤波；以及应用子带合成以将K子带频域信号重构成多个声道上的时域信号。

方法可还包括估计每个帧和频率窗口的频域信号的方差，并且在线性滤波之后，使用估计的方差应用非线性滤波以减少线性滤波之后的残余混响和噪声。估计的方差可包括估计反射的方差、混响分量方差和噪声方差。

在各种实施例中，方法可还包括使用先前估计的预测滤波器估计反射的方差；由应用使用具有调谐参数的固定指数衰减加权函数来估计混响分量方差以最优化预测滤波器；以及使用针对每个声道的单麦克风噪声方差估计来估计噪声方差。方法可还包括在调谐参数的控制下执行线性滤波以调整去混响的量。在一个实施例中，适应性方法包括使用最小二乘方（LMS）过程来针对每个频率窗口独立地估计每个帧处的预测滤波器；以及使用适应性步长估计器，该适应性步长估计器与使用固定步长估计器相比改进了LMS过程的收敛速率。方法还可以包括使用语音活动检测来控制在有噪声的条件下的预测滤波器的更新。

在各种实施例中，音频信号处理***包括硬件***处理器和非暂时性***存储器，所述非暂时性***存储器包括子带分析模块，所述子带分析模块可操作以将来自多个麦克风（每个麦克风对应于多个声道中的一个）的多声道音频信号从时域变换到频域来作为具有数目K个频率窗口的子带帧；对应于多个欠采样K子带频域信号的K个子带中的一个的每个频率窗口；具有可操作以针对每个声道存储每个频率窗口的多个子带帧的延迟的缓冲器；可操作以使用适应性方法以在线方式估计每个子带帧处的预测滤波器的预测滤波器；可操作以将估计的预测滤波器应用于当前子带帧的线性滤波器；以及可操作以将来自当前子带帧的K子带频域信号重构为多个声道上的多个时域去混响增强输出信号的子带合成器，其中时域去混响信号的数目与麦克风的数目相同。

在各种实施例中，***可还包括方差估计器，其可操作以估计每个帧和频率窗口的K子带频域信号的方差，以及非线性滤波器，其可操作以基于在当前子带帧的线性滤波之后的估计的方差来应用非线性滤波器。方差估计器可以还可操作以估计早期反射的方差、混响分量方差和噪声方差。

在各种实施例中，预测滤波器还可操作以使用最小二乘方（LMS）过程来针对每个频率窗口独立地估计每个帧处的预测滤波器。***还可以包括适应性步长估计器，其与使用固定步长估计器相比改进了LMS的收敛速率。***还可包括用以控制预测滤波器的更新的语音活动检测器。

在一个实施例中，线性滤波器可操作以在调谐参数的控制下操作，所述调谐参数调整由估计的预测滤波器应用到当前子带帧的去混响的量。在一个实施例中，估计早期反射的方差包括使用先前估计的预测滤波器，估计混响分量方差包括使用具有调谐参数的固定指数衰减加权函数，并且估计噪声方差包括使用针对每个声道的单麦克风噪声方差估计。

在各种实施例中，***包括存储一个或多个子带帧的非暂时性存储器和与存储器通信且可操作以执行指令来使得***执行操作的一个或多个硬件处理器。***可以可操作以执行操作，所述操作包括：使用最小二乘方（LMS）估计的适应性方法在线估计每个子带帧处的预测滤波器；使用估计的预测滤波器对子带帧执行线性滤波；以及应用子带合成以将子带帧重构为多个声道上的时域信号。

在各种实施例中，***还可操作以使用基于成本函数的梯度的值的适应性步长估计器或者与成本函数的梯度的值的平均值相反地变化的适应性步长估计器。

本发明的范围由权利要求限定，所述权利要求通过引用并入本部分中。通过考虑以下一个或多个实施例的具体实施方式，本领域技术人员将被给予对本发明的实施例的较完整的理解，以及其附加优点的实现。将对首先被简要描述的图的附页做出参考。

附图说明

图1是根据一个或多个实施例的在其中音频信号和噪声由连接到用于语音去混响的MIMO音频信号处理的***的麦克风阵列接收的环境的图。

图2是图示根据一个或多个实施例的用于语音去混响的MIMO音频信号处理***的***框图。

图3是根据一个实施例的用于MIMO音频信号处理去混响***的子带信号分解缓冲器的一般结构图。

图4是根据实施例的使用新颖的适应性滤波的MIMO音频信号去混响处理的方法的流程图。

图5是根据实施例的使用用于有噪声的环境的语音活动检测的MIMO音频信号去混响处理的方法的流程图。

图6是根据实施例的使用参数来限制混响减少的多输入多输出音频信号去混响处理的方法的流程图。

图7是根据实施例的硬件***的示例的框图。

通过参考下面的具体实施方式，可以最好地理解本公开的实施例及其优点。应当领会的是，相同的参考标号用于标识一个或多个附图中所图示的相同的元件。

具体实施方式

公开了适应性去混响***和方法的实施例。在各种实施例中，适应性去混响***使用最小二乘方（LMS）滤波器，其实现优于常规LMS滤波器的改进的收敛，从而使得实施例对于减少用于在诸如智能电话、平板电脑和电视之类的许多便携式音频设备中使用的针对应用（一般像语音（例如，命令）识别、语音邮件转录和通信）的混响的影响是实际的。在一个实施例中，采用频率相关的适应性步长来加速LMS滤波过程的收敛，这意味着该过程与常规LMS滤波器相比以更少的计算步骤达成其解决方案。在另一实施例中，在声学声道的高非恒定条件下控制LMS方法的预测滤波器的更新的发明性过程改进了在此类条件下的去混响方法的性能。

在各种实施例中，在保持计算效率的同时，就低存储消耗成本而言，实现了改进的收敛，这是与一些其它滤波器方法相比的LMS滤波器方法的特性。例如，LMS方法就存储消耗而言可具有低得多的成本，因为它们不需要与诸如递归最小二乘方（RLS）滤波器和卡尔曼滤波器方法的其它方法一起使用的相关矩阵。但是LMS方法通常具有比像卡尔曼滤波和RLS滤波的其它高级方法更小的收敛速率。因此，实施例提供了一种具有改进的收敛速度的LMS滤波器，其更接近于可比的卡尔曼滤波和RLS滤波的收敛速度，但是相比之下具有减小的存储消耗成本。例如，实施例以使用不需要相关矩阵的LMS方法的新的适应性去混响为特征——如RLS和卡尔曼滤波器方法的情况——并且因此存储消耗低得多。

通过提供具有较接近于可比的卡尔曼滤波和RLS滤波的收敛速度但相比之下具有减小的存储消耗成本的LMS滤波器，使用根据本公开的一个或多个实施例的LMS滤波器的适应性去混响，改进了由包括智能电话、平板电脑、电视、个人计算机和诸如汽车计算机和在电话和其它通信设备中使用的音频编解码器的嵌入式设备的许多类型的设备使用的音频信号处理的技术。

去混响的一个应用是用于有噪声的、混响环境中的语音增强。由于语音信号、噪声信号和声学声道的各种固有属性，这种语音增强可能难以实现。例如，（i）语音信号被着色（例如，信号功率取决于频率而变化）并且是非恒定的（例如，统计属性（诸如语音信号的平均音量）随时间改变），（ii）噪声信号（例如，环境噪声）可以随时间显著改变，以及（iii）声学声道的脉冲响应（例如，室内声学）通常非常长（例如，增强混响的影响）并且具有非最小相位（例如，对于脉冲响应没有直接反转）。

用于去混响处理的常规技术典型地以限制或排除其对存在于例如VoIP、助听器、智能电话、平板电脑、电视、膝上型计算机、视频会议以及在诸如器具和汽车的产品中使用的其它嵌入式设备（处理器）中的音频设备和音频处理的它们的实时或在线使用的方式是应用特定的。例如，每种技术的相应计算复杂性可能使其对于实时、在线处理而言是不实际的。

用于去混响处理的现有技术的限制的许多其它示例如下。许多技术的存储消耗是高的且不适合于嵌入式设备，所述嵌入式设备由于此类设备中的存储的约束而需要存储高效技术。在真实世界环境中，混响语音信号通常被非恒定加性背景噪声（例如，非常量或破坏性噪声）污染，该噪声可能极大地恶化去混响技术的性能，所述去混响技术在其模型中不明确地考虑非恒定噪声。许多现有技术去混响方法是批量方法（例如，施加或招致输入和输出之间的延迟或延时），其需要相当量的输入数据来提供良好的性能结果。然而，在大多数应用（诸如VoIP和助听器）中，不应当存在任何延时。与许多麦克风阵列处理技术（对于所述麦克风阵列处理技术而言，性能随着麦克风的数目而增加）的要求相反，许多现有技术去混响技术不产生与麦克风相同数目的去混响信号。与显式地或隐式地基于麦克风位置处的到达时间差的许多源定位技术的要求相反，许多现有技术去混响技术不保存（多个）麦克风位置处的到达时间差（TDOA）。许多现有技术去混响技术需要已知声源的数目（例如，输入或配置），需要是因为通常难以利用盲处理来估计源的正确数目。

如本文中所描述的实施例提供解决上述限制的质量和特征，使得它们可用于各种各样不同的应用。例如，实现实施例的过程可以被设计为存储高效和速度高效的，其需要例如较少的存储和较低的处理速度，以便能够在无延时的情况下运行（例如，实时地执行），这使得实施例对于像VoIP之类的应用是可期望的。

根据本公开的一个或多个实施例的去混响对于非恒定噪声是鲁棒的、在具有高混响时间的高混响条件下执行良好、可以是单声道和多声道二者、并且可以适配成多于一个单源的情况。在一个实施例中，通过跳过方法的非线性滤波部分（其用于进一步减少线性滤波之后的噪声和残余混响），可以将处理转换为线性处理，这对于需要线性度的一些应用可能是必需的。在一个实施例中，用于去混响的适应性滤波器考虑加性背景噪声，从而适应性地估计噪声的功率谱密度（PSD）以适应性地估计预测滤波器来提供用于在线使用的实时性能。

一个或多个实施例的多输入多输出（MIMO）特征提供若干能力，包括准备好集成到用于执行噪声减少或源位置的其它模块中。在一个实施例中，盲方法——例如，在没有关于源信号或其混合过程的信息的帮助的情况下处理来自混合信号的集合的源信号的集合——使用多声道输入信号来缩短未知数目的源的集合之间的室内脉冲响应（RIR）。该方法使用子带域多声道线性预测滤波器，并且独立地估计每个频带的滤波器。该方法的一个明显能力是其可保存麦克风位置处的到达时间差（TDOA）以及源与麦克风之间的线性关系。可能需要这种能力以用于定位和减少噪声和干扰的后续处理。另外，该方法可以通过分离地估计每个麦克风的预测滤波器来产生与麦克风一样多的去混响信号。

图1图示了根据一个或多个实施例的在其中音频信号和噪声由连接到被配置用于MIMO音频信号处理的语音去混响***100的麦克风阵列101接收的环境。图1示出信号源12（例如，说话的人）和被连接以向语音去混响***100提供信号的麦克风阵列101。信号源12和麦克风101可以位于传输信号和噪声的环境104中。这样的环境可以是能够传输声音的任何环境，诸如城市街道、餐馆内部或住宅的房间。出于说明的目的，环境104被图示为具有壁（例如，环境104中反射声波的表面）的围墙。麦克风阵列101可包括一个或多个麦克风（例如，音频传感器），并且麦克风可以是例如一个或多个消费者电子设备（诸如智能电话、平板电脑或回放设备）的部件。

如在图1中看到的，由麦克风阵列101接收的信号可以包括来自信号源12的直接路径信号14、来自信号源12的反射信号16（例如，离开围墙104的壁的信号反射）和来自各种噪声源120的噪声18（也被称为干扰），其可以直接和作为如图1中所示出的反射在麦克风阵列101处被接收。去混响***100可以处理来自麦克风阵列101的信号并且产生输出信号，例如，有用于如上所描述的各种目的的增强语音信号。

在真实世界环境中，记录的语音信号是有噪声的，并且该噪声可以降级VoIP应用的语音清晰度，并且其可以降低诸如电话和膝上型计算机之类的设备的语音识别性能。当采用麦克风阵列（例如，麦克风阵列101）代替单个麦克风时，较容易使用波束成形方法来解决干扰噪声的问题，所述波束成形方法可以利用空间多样性以较好地检测或提取期望的源信号并且抑制不想要的干扰。波束成形方法表示执行空间滤波的一类多声道信号处理方法，所述空间滤波将增加灵敏度的波束指向期望的源位置，同时抑制源自所有其它位置的信号。对于这些波束成形方法，噪声抑制仅在信号源接近于麦克风（近场场景）的情况下是足够的。然而，如图1中所示出，当源与麦克风之间的距离较大时，问题可能较严重。

在图1中所示出的示例中，信号源远离麦克风101，并且由麦克风101收集的信号不仅是直接路径而且是离开壁和天花板的信号反射。收集的信号还包括源自信号源周围的噪声源信号。VoIP呼叫的质量和许多麦克风阵列处理技术（诸如声源定位、波束成形和自动语音识别（ASR））的性能在这些混响环境中被可感地降级。这是因为混响使直接声音的时间和频谱特性模糊。有噪声的混响环境中的语音增强可能难以实现，因为如以上较全面地描述的：（i）语音信号被着色并且是非恒定的，（ii）噪声信号可以随时间显著改变以及（iii）声学声道的脉冲响应通常非常长并且具有非最小相位。脉冲响应的（例如，声道104的）长度取决于混响时间，并且许多方法未能在具有高混响时间的声道中工作。去混响***100的各种实施例提供噪声鲁棒、多声道、语音去混响***以减少混响的影响，同时产生去混响语音信号的多声道估计。

图2图示了根据一个或多个实施例的多输入多输出（MIMO）语音去混响音频信号处理***100。***100可以是任何电子设备的部分，所述电子设备诸如例如音频编解码器、智能电话、平板电脑、电视或计算机，或并入低功率音频设备（诸如智能电话、平板电脑和便携式回放设备）的***。

***100可包括连接到多个输入音频信号源（诸如麦克风（例如，麦克风阵列101）或其它换能器或信号处理器设备）的子带分析（子带分解）模块110，每个源对应于声道，以接收每个声道的时域音频信号102。子带分析模块110可将时域音频信号102变换成频域中的子带帧112。子带帧112可被提供给具有延迟的缓冲器120，其存储每个声道的最后L_k个子带帧112，其中L_k在以下进一步描述。

缓冲器120可将频域子带帧112提供到方差估计器130。方差估计器130可在每个子带帧112变为当前时估计当前子带帧112的方差。子带帧112的方差可用于预测滤波器估计和非线性滤波。估计的方差132可从方差估计器130提供到预测滤波器估计器140。

缓冲器120还可将频域子带帧112提供到预测滤波器估计器140。预测滤波器估计器140可从方差估计器130接收当前子带帧112的方差132。预测滤波器估计器140可实现快速收敛、适应性在线（例如，实时）预测滤波器估计。语音活动检测器（VAD）145可用于基于到子带帧112的VAD 145的输入而通过预测滤波器估计器140在有噪声的环境中提供控制，并且将输出136提供到滤波器预测滤波器估计器140。线性滤波器150可将来自预测滤波器估计器140的预测滤波器估计应用于子带帧112以减少来自源信号的大部分混响。非线性滤波器160可应用于线性滤波器150的输出，如所示出，以减少残余混响和噪声。合成器170可应用于非线性滤波器160的输出，从而将增强的子带频域信号变换为时域信号。

如图2中所示出，第i个声道的时域音频输入信号102由表示，其中M是麦克风的数目。如图2中所示出，在子带分析110处，输入信号102首先被变换成子带频域信号112，其由表示，其中l是帧索引并且k=1……K是具有K个带的频率索引。输入信号被建模为：

（1）

防止白化处理的语音

第m个声道的复数值预测滤波器

其中是信号源的早期反射（或直接路径或干净语音信号，参见图1），其是期望的信号。和分别是输入信号的后期混响和噪声分量。如在等式（1）中看到的，后期混响针对每个频带以长度L_k由在第l帧处的复数预测滤波器线性地估计。D是防止处理的语音被过度白化的延迟，同时其在处理的语音中留下早期反射失真。

图3较详细地图示图2中所示出的子带信号分解缓冲器120。如图2中看到的，子带分析110处的子带分解之后的每个麦克风的输入信号（例如，子带帧112）连接到具有延迟D的缓冲器120。针对帧l和频率窗口k在图3中示出子带帧112。第k个频率窗口的缓冲器尺寸是L_k。如图3中所示出，针对每个声道i（i=1……M），具有为D的延迟的信号的最近的L_k帧将被保持在该缓冲器120中。

返回图2，对子带帧112执行方差估计（经由方差估计器130）。在一个实施例中，根据在由Saeed Mosayyebpour、Francesco Nesta、和Trausti Thormundsson的、标题为“用于有噪声的时变环境的基于加权预测误差的在线去混响算法”的共同未决的美国临时专利申请No.62/438860中公开的***和方法中的一个或多个来执行方差估计，其通过引用以其整体并入本文中。如在共同未决的申请中所公开的，可以假设的是接收的语音频谱具有如下给出的针对帧l和频率窗口k具有均值和方差的高斯概率分布函数：

（2）

其中、和分别是早期反射（也被称为“干净语音”）、混响分量和噪声的方差。假设对于i个声道中的每个来说，等式是相同的，因此下标i被删掉。如在等式（2）中看到的，假设早期反射和噪声具有零均值。早期反射的方差可以用零近似，所述近似使用：

（3）。

如在共同未决的申请中还公开的，混响分量方差是使用固定权重来估计的。可以使用高效实时单声道方法来估计噪声方差，并且可以在所有声道上对噪声方差估计进行平均以获得用于噪声方差的单个值。

再次参考图2，使用由方差估计器130提供的方差估计132对子带帧112执行预测滤波器估计器140。预测滤波器估计器140基于最大化接收到的频谱的对数概率分布函数，即使用最大似然（ML）估计，并且概率分布函数是具有在等式（2）中给出的均值和方差的高斯分布。在上面讨论的共同未决申请中公开了预测滤波器估计的实施例。这等于使以下成本函数最小化：

成本函数

（4）。

递归最小二乘方（RLS）方法已经被用于适应性地以在线方式（例如，实时地用于在线应用）估计最优化预测滤波器。尽管其效率和快速收敛，但是RLS方法需要使用相关矩阵，并且对于具有长预测滤波器的多声道情况（这对于捕获长相关是重要的），其不能被部署到具有存储限制的嵌入式设备中。而且，RLS方法可以快速且深度地收敛，使得当RIR由于说话者或源移动而改变时，其需要较长时间收敛到新的滤波器。因此，基于RLS的解决方案对于具有存储限制的许多应用并不实际，并且它具有改变的环境。

根据一个实施例，使用基于最小二乘方估计（LMS）的新颖方法。通常，基于LMS的方法不具有与RLS一样快的收敛速率，以及因此LMS方法不能在时变环境中使用。根据一个实施例的新颖方法用于计算LMS解决方案的适应性步长以使其与RLS一样快，但是LMS解决方案需要少得多的存储并且还可对突然改变较快反应。

使用适应性基于LMS的解决方案，等式（4）中的均值可以以向量形式重写为：

（5），

其中是用于频带k和第i个声道的预测滤波器，并且表示复共轭。

如在共同未决的申请中所公开的，成本函数可以被简化为：

成本函数（6）。

为了针对第l帧以在线方式估计，其应当针对所有频率和声道由零值来初始化，并且应当计算在等式（6）中给出的成本函数的梯度（其是个数字的向量）。使用LMS方法的更新规则可如下书写。

（7），

其中η为固定步长并且表示第l帧处的预测滤波器。现在可以计算等式（6）中的成本函数的梯度。

（8）。

虽然为了说明示例的目的在这里将η称为固定步长，但是步长η不需要是固定的并且可以例如基于梯度的值来适应性地确定，以便改进LMS方法的性能。

图4是根据一个或多个实施例的使用新颖的适应性滤波的MIMO音频信号去混响处理的方法400的流程图。方法400可包括将子带分析应用于输入信号102以及缓冲样本子带帧112的动作401，如上文所描述。方法400可以包括计算用于例如如在等式（4）和（6）中那样确定成本函数的子带帧112的（例如，如在等式（2）和（3）中的）方差的动作402。在动作403、404和405处，可估计预测性滤波器权重（例如，图2中的预测性滤波器估计器140），如上文所描述以及下文进一步描述。

在动作403处，计算预测滤波器的梯度，并且将其初始化为零。具有适应性步长的等式（7）可以被重写为：

（9）。

在动作404处，通过将足够低的步长（即，η₀）除以最近梯度的大小的运行平均值（梯度的大小的平滑的均方根（RMS）平均值）的适应性步长。在动作405处，使用估计的梯度和适应性步长来更新预测滤波器。在梯度的大的平滑RMS平均值的情况下，步长的总值将是低的以避免发散，并且同样地，当梯度值的平滑RMS平均值变小时，那么步长将被增加以加速收敛。

在动作404处，为了计算梯度的平滑RMS平均值，每个声道i的K个值（对应于频带的数目）的缓冲器可以存储这些值并且可以被初始化为零。每个平滑的RMS平均梯度可如下更新。

（10），

其中ρ是接近于一的平滑因子并且表示转置共轭。

适应性步长可以被计算为：

（11），

其中为大约1e-6（例如，0.000001）的小值以避免除以零，并且η₀为固定步长或初始步长。

在动作405处，使用（8）、（10）和（11）如在（9）中给出的那样更新预测滤波器。

在动作406处，最优化滤波器权重可被传递到线性滤波器150并且用于执行子带帧112的线性滤波，所述线性滤波也被传递到如图2中看到的线性滤波器150。

图5是根据实施例的使用针对有噪声的环境的语音活动检测的MIMO音频信号去混响处理的方法500的流程图。方法500可包括将子带分析应用于输入信号102并且缓冲样本子带帧112的动作501，如上文所描述。方法500可以包括计算用于例如如在等式（4）和（6）中那样确定成本函数的子带帧112的（例如，如在等式（2）和（3）中的）方差的动作502。在动作503处，可以根据来自图2中所示出的噪声检测模块（例如，语音活动检测器（VAD）145）的输出来修改成本函数。

在有噪声的条件的情况下，预测滤波器（例如，）不仅可以集中于混响，而且其也同样可以瞄准相当恒定的噪声。在那种情况下，预测滤波器（如果根据以上描述未修改）将被估计以减少恒定噪声和混响两者。然而，在一些应用中，不期望使预测滤波器估计来消除噪声，因为其主要被设计为减少混响。另外，在非常非恒定的噪声条件下，预测滤波器可尝试跟踪噪声，其可相当快地改变并且将不允许LMS方法收敛，最终减小其去混响性能。

为了改进该情况下的LMS方法的性能，方法500通过使用外部语音活动检测（例如，VAD 145）来监督LMS滤波器适配。例如，VAD 145可配置成产生目标语音在帧l中活动的0与1之间的概率值。概率值由以下等式中的指示。成本函数（参见等式（6））被修改为：

成本函数（12）。

该修改的成本函数导致以下对梯度计算的修改为：

（13）。

因为的值小于1.0，所以等式（13）示出方法500可以减少有噪声的帧中的更新量（参见例如等式（7））或者甚至在的值非常小的情况下跳过它们。因此，在动作504处使用修改的成本函数和梯度，方法500可以计算预测滤波器以控制更新滤波器来补偿有噪声的环境。

在动作505处，最优化的滤波器权重可被传递到线性滤波器150以及用于执行子带帧112的线性滤波，所述线性滤波也被传递到线性滤波器150，如图2中所看到的。

图6是根据实施例的使用参数限制混响减少的MIMO音频信号去混响处理的方法600的流程图。方法600可包括将子带分析应用于输入信号102并且缓冲样本子带帧112的动作601，如上文所描述。方法600可以包括计算用于例如如在等式（4）和（6）中那样确定成本函数的子带帧112的（例如，如在等式（2）和（3）中的）方差的动作602。在动作603处，可使用所描述的方法中的任何来估计预测滤波器（例如，图2中的预测性滤波器估计器140）。在动作604处，在估计预测滤波器之后，方法600可通过应用预测性滤波器权重来执行线性滤波。可以如上文所讨论的估计预测滤波器，并且可以由预测滤波器将每个声道中的输入信号滤波为：

（14），

如图2中的线性滤波器150处所示出。

对于一些像ASR或VoIP的应用，可通过执行操作以由参数限制混响减少的量来增强性能。在动作604处，可基于确定用于控制混响的减少量的一个或多个参数在线性滤波器150处应用预测性滤波器。在动作605处，线性滤波器150可以在一个或多个参数的控制下执行线性滤波。例如，线性滤波可由线性滤波器150使用一个调谐参数α来执行以使用以下等式控制去混响的量：

（15），

和二者均初始化为零

其中α是用于控制混响的减少量或去混响量的调谐或控制参数，β是接近于一的平滑因子，并且是小值（例如，0.000001）以避免除以零。

再次返回到图2，在线性滤波之后，如通过前述方法中的任何所执行，在线性滤波器150处，非线性滤波器160可执行如共同未决申请中所描述并且通过以下等式的非线性滤波：

（16）。

在应用非线性滤波160之后，可通过应用子带合成将每个带的增强的语音频谱（例如，Z_i(l,k)）从频域变换到时域以产生时域输出z_i[n]，，其中M是麦克风的数目。例如，如上文所描述，非线性滤波器160可应用于线性滤波器150的输出，如所示出，以减少残余混响和噪声。合成器170可应用于非线性滤波器160的输出，从而将增强的子带频域信号变换为时域信号。

如所讨论，本文中所提供的各种技术可由在一些实施例中可包括一或多个子***和其相关部件的一个或多个***实现。例如，图7图示了根据一个实施例的示例硬件***700的框图。在这点上，***700可以用于实现本文中描述的各种框、处理和操作（例如，***100、方法400、500和600）的任何期望的组合。尽管在图7中图示了多种部件，但是在各种实施例中，可以针对不同类型的设备视情况而定添加或省略部件。

如所示出，***700包括一个或多个音频输入710，其可包括例如配置成从感兴趣的环境接收声音的空间分布麦克风阵列。由音频输入710提供的模拟音频输入信号由一个或多个模数（A/D）转换器715转换成数字音频输入信号。由模数转换器715提供的数字音频输入信号由处理***720接收。

如所示出，处理***720包括处理器725、存储器730、网络接口740、显示器745和用户控件750。处理器725可以被实现为一个或多个微处理器、微控制器、专用集成电路（ASIC）、可编程逻辑器件（PLD）——例如，现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）、片上现场可编程***（FPSC）或其它类型的可编程器件——编解码器、或其它处理设备。

在一些实施例中，处理器725可以执行存储在存储器730中的机器可读指令（例如，软件、固件或其它指令）。在这点上，处理器725可执行本文中所描述的各种操作、过程和技术中的任何。例如，在一些实施例中，本文中描述的各种过程和子***（例如，***100、方法400、500和600）可以由执行适当指令的处理器725有效地实现。在其它实施例中，处理器725可以被代替或补充以专用硬件部件以执行本文中描述的各种技术的任何期望的组合。

存储器730可以被实现为存储各种机器可读指令和数据的机器可读介质。例如，在一些实施例中，存储器730可以将操作***732和一个或多个应用734存储为可以由处理器725读取和执行以执行本文中描述的各种技术的机器可读指令。存储器730还可以存储由操作***732或应用734使用的数据736。在一些实施例中，存储器720可以被实现为非易失性存储器（例如，闪速存储器、硬盘驱动器、固态驱动器或其它非暂时性机器可读介质）、易失性存储器或其组合。

网络接口440可以被实现为用于通过适当网络通信的一个或多个有线网络接口（例如，以太网）或无线接口（例如，WiFi、蓝牙、蜂窝、红外、无线电）。例如，在一些实施例中，本文中描述的各种技术可以与多个处理***720以分布式方式执行。

显示器745向***700的用户呈现信息。在各种实施例中，显示器745可以被实现为例如液晶显示器（LCD）或有机发光二极管（OLED）显示器。用户控件750接收操作***700的用户输入（例如，以如所讨论的那样提供用户定义的参数或者选择由***700执行的操作）。在各种实施例中，用户控件750可以被实现为一个或多个物理按钮、键盘、控制杆、操纵杆、鼠标或其它物理换能器、图形用户界面（GUI）输入或其它控件。在一些实施例中，例如，用户控件750可以与显示器745集成为触摸屏。

处理***720提供由一个或多个数模（D/A）转换器755转换为模拟音频输出信号的数字音频输出信号。模拟音频输出信号被提供给一个或多个音频输出设备760，诸如例如一个或多个扬声器。因此，***700可以用于根据本文中描述的各种技术来处理音频信号，以提供具有改进的语音识别的改进的输出音频信号。

在可适用的情况下，由本公开提供的各种实施例可以使用硬件、软件或硬件和软件的组合来实现。而且，在可适用的情况下，在不脱离本公开的精神的情况下，本文中所阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下，在不脱离本公开的范围的情况下，本文中所阐述的各种硬件部件和/或软件部件可以被分离成包括软件、硬件或两者的子部件。另外，在可适用的情况下，可以设想的是，软件部件可以被实现为硬件部件，以及反之亦然。

根据本公开的软件（诸如程序代码和/或数据）可以被存储在一个或多个计算机可读介质上。还可以设想的是，本文中所标识的软件可以使用一个或多个通用或专用计算机和/或计算机***、联网和/或以其它方式来实现。在可适用的情况下，本文中描述的各种步骤的顺序可以改变、组合成复合步骤和/或分离成子步骤以提供本文中描述的特征。

前述公开不旨在将本公开限制于所公开的精确形式或特定使用领域。因此，可以设想的是，根据本公开，无论在本文中明确描述或暗示，本公开的各种替换实施例和/或修改是可能的。已经像这样描述了本公开的实施例，本领域的普通技术人员将认识到的是，在不脱离本公开的范围的情况下，可以在形式和细节上做出改变。因此，本公开仅由权利要求限制。

Claims

1.一种处理来自多个麦克风的多声道音频信号的方法，每个麦克风对应于多个声道中的一个，并且产生具有与麦克风相同数目的去混响信号的去混响增强的输出信号，所述方法包括：

执行子带分析以将每个声道上的所述多声道音频信号从时域变换到欠采样K子带频域信号，其中K是频率窗口的数目，每个频率窗口对应于K个子带中的一个；

利用延迟来缓冲以针对每个声道存储针对每个频率窗口的数目L_k的帧；

使用针对在线收敛的适应性方法估计每个帧处的在线预测滤波器；

使用所述估计的预测滤波器对所述K子带频域信号执行线性滤波；以及

应用子带合成以将所述K子带频域信号重构成所述多个声道上的时域信号。

2.根据权利要求1所述的方法，还包括：

估计每个帧和频率窗口的所述频域信号的方差；以及

在所述线性滤波之后，使用所述估计的方差应用非线性滤波以减少所述线性滤波之后的残余混响和噪声。

3.根据权利要求2所述的方法，其中估计所述方差包括估计反射的方差、混响分量方差和噪声方差。

4.根据权利要求3所述的方法，包括：

使用先前估计的预测滤波器来估计所述反射的方差；

通过应用使用具有调谐参数的固定指数衰减加权函数来估计所述混响分量方差以最优化所述预测滤波器；以及

使用针对每个声道的单麦克风噪声方差估计来估计所述噪声方差。

5.根据权利要求1所述的方法，其中在调谐参数的控制下执行所述线性滤波以调整去混响的量。

6.根据权利要求1所述的方法，其中所述适应性方法包括使用最小二乘方（LMS）过程来独立于每个频率窗口估计每个帧处的所述预测滤波器。

7.根据权利要求6所述的方法，其中所述适应性方法包括使用自适应步长估计器，其与使用固定步长估计器相比改进所述LMS过程的收敛速率。

8.根据权利要求6所述的方法，其中所述适应性方法包括使用语音活动检测来控制所述预测滤波器在有噪声的条件下的更新。

9.一种音频信号处理***，包括硬件***处理器和非暂时性***存储器，所述***处理器和***存储器包括：

子带分析模块，其可操作以将来自多个麦克风的多声道音频信号从时域到频域变换为具有数目K的频率窗口的子带帧，每个麦克风对应于多个声道中的一个，每个频率窗口对应于多个欠采样K子带频域信号的K个子带中的一个；

缓冲器，其具有可操作以针对每个声道存储针对每个频率窗口的多个子带帧的延迟；

预测滤波器，其可操作以使用适应性方法以在线方式估计每个子带帧处的预测滤波器；

线性滤波器，其可操作以将所述估计的预测滤波器应用于当前子带帧；以及

子带合成器，其可操作以将来自所述当前子带帧的所述K子带频域信号重构为所述多个声道上的多个时域去混响增强输出信号，其中时域去混响信号的所述数目与麦克风的所述数目相同。

10.根据权利要求9所述的***，还包括

方差估计器，其可操作以估计针对每个帧和频率窗口的所述K子带频域信号的方差；以及

非线性滤波器，其可操作以基于在所述当前子带帧的所述线性滤波之后的所述估计的方差来应用非线性滤波器。

11.根据权利要求10所述的***，其中估计所述方差包括估计早期反射的方差、混响分量方差和噪声方差。

12.根据权利要求9所述的***，其中所述适应性方法包括使用最小二乘方（LMS）来独立于每个频率窗口估计每个帧处的所述预测滤波器。

13.根据权利要求9所述的***，其中

其中所述线性滤波器可操作以在调谐参数的控制下操作，所述调谐参数调整由所述估计的预测滤波器应用到所述当前子带帧的去混响的量。

14.根据权利要求11所述的***，其中

估计所述早期反射的方差包括使用先前估计的预测滤波器；

估计所述混响分量方差包括使用具有调谐参数的固定指数衰减加权函数；以及

估计所述噪声方差包括针对每个声道使用单麦克风噪声方差估计。

15.根据权利要求12所述的***，其中所述适应性方法包括使用适应性步长估计器，其与使用固定步长估计器相比改进了LMS的收敛速率。

16.根据权利要求12所述的***，其中所述适应性方法包括使用语音活动检测器来控制所述预测滤波器的所述更新。

17.一种***，包括：

非暂时性存储器，其存储一个或多个子带帧；以及

一个或多个硬件处理器，其与所述存储器通信并且可操作以执行指令以使得所述***执行包括以下的操作：

使用最小二乘方（LMS）估计的适应性方法来估计每个子带帧处的在线预测滤波器；

使用所述估计的预测滤波器对所述子带帧执行线性滤波；以及

应用子带合成以将所述子带帧重构为多个声道上的时域信号。

18.根据权利要求17所述的***，其中所述适应性方法包括使用适应性步长估计器。

19.根据权利要求17所述的***，其中所述适应性方法包括使用基于成本函数的梯度的值的适应性步长估计器。

20.根据权利要求17所述的***，其中所述适应性方法包括使用适应性步长估计器，其与成本函数的梯度的值的平均值相反地变化。