CN105474312A

CN105474312A - 用于自动语音识别(asr)的自适应的基于相位差的噪声消减

Info

Publication number: CN105474312A
Application number: CN201380078945.9A
Authority: CN
Inventors: L·库里洛; G·斯特摩尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-09-17
Filing date: 2013-09-17
Publication date: 2016-04-06
Anticipated expiration: 2033-09-17
Also published as: US20150078571A1; US9449594B2; CN105474312B; EP3047483A1; EP3047483B1; WO2015041549A1

Abstract

本文总体描述了用于使基于相位差的降噪***自适应的***和方法的实施例。在一些实施例中，确定与第一和第二音频信号相关联的空间信息，其中，第一和第二音频信号包括波束内部的目标音频和来自波束外部的噪声。估计与音频信号相关联的信噪比(SNR)。使相位差到增益因子的映射自适应以便确定用于衰减与波束外部的噪声相关联的频率元的衰减因子。执行频谱相减，以便基于较少地影响与目标信号相关联的频率的权重来从单信道信号中去除估计的噪声。应用依赖于频率的衰减因子以衰减波束外部的频率元，从而产生具有减小的噪声的目标信号。

Description

用于自动语音识别(ASR)的自适应的基于相位差的噪声消减

背景技术

在诸如语音识别以及自动电话会议之类的各种应用中，语音信号可能遭噪声污染，所述噪声可包括高斯噪声、语音噪声(不相关的对话)和混响。已知用于识别音频信号中说出的单词的自动语音识别(ASR)***。ASR技术使配备了话筒的计算设备能够解释语音，并且由此提供人到计算机的输入设备(诸如，键盘或小键盘)的替代方案。

ASR的准确性在噪声条件下降级。例如，如果在用户向机器说话时在背景中具有在播放的收音机或在说话的人，则自动语音识别器的输出包含比在无声的背景的情况下导出的输出多得多的误差。在此类环境中，由于信噪比可能是不足够的，因此语音识别是困难的。此外，环境的噪声模型是未知的，并且它会取决于环境条件(例如，风、音乐、竞争的背景对话等)而变化。

噪声消减算法通过在音频信号被传递到语音识别器之前处理此音频信号来提高噪声环境中的ASR精度。已提出了许多不同的噪声消减算法。用于语音增强的一种算法基于话筒阵列的信道之间的相位差。然而，需要针对特定的应用来调谐此方法，并且此方法仅对有限范围的噪声水平和类型作用良好。

相应地，当在诸如智能电话或膝上型计算机之类的移动设备中采用语音识别器时，语音增强必须克服高度变化的声环境。同时，对每一种噪声条件手动调节噪声消减算法是不切实际的。

附图说明

图1示出根据实施例的自适应的基于相位差的降噪***；

图2a-b是示出根据实施例的、从对于500Hz和1000Hz的固定TDoA产生的相位差的频率依赖关系的曲线；

图3示出根据实施例的、用于多于两个的话筒的基于相位的空间滤波；

图4示出根据实施例的、使用对波束方向的动态调整的、用于两个话筒的基于相位的空间滤波；以及

图5示出根据实施例的、用于使基于相位差的降噪***自适应的示例机器的框图。

具体实施方式

用于自动语音识别(ASR)***的噪声消减算法的实施例执行对当前的背景噪声水平自适应的基于相位差的噪声消减。通过使用来自多个话筒的空间信息来估计信噪比(SNR)并使用此SNR来噪声消减滤波器的相位差对增益因子的映射自适应，从而改善高度变化的噪声条件和水平下的性能。也可以使用对相位差的依赖于频率的缩放以及单信道频谱相减来改善用于ASR的噪声消减算法的实施例。

图1示出了根据实施例的自适应的基于相位差的降噪***100。在图1中，具有至少两个话筒的话筒阵列的信号流和处理序列包括根据实施例的、用于处理多个块的块A-B110，140以及用于扩展/修改的块C150。

由信道₁116和信道₂118表示的话筒112、114两者记录包括语音和噪声两者的信号。噪声可能例如由在背景中谈话的第二人或来自墙的反射导致。由于话筒112，114位于不同的位置处，因此话筒112，114中的每一个都在略微不同的时刻接收对应于不同的源的信号，这对应于每一个源与每一个话筒112，114之间的不同的距离。例如，对于话筒112，114之间的通常使用的例如7cm的间隔以及来自以相对于连接话筒112，114的线呈0°或180°的角度的单个源的信号，到达时间差(TDoA)可以是约0.0002秒或0.2ms、或在16kHz的采样速率下的3个样本。

基于相位差的方法利用不同的TDoA对应于信号相位的偏移这一事实。主扬声器(来自扬声器位置)的相位差是已知的，而诸如背景扬声器之类的次级源可能会产生更小或更大的相位差。正在将窗函数120应用于输入数据以准备此输入数据用于至频域的转换，例如，可以使用Hann窗。随后，短时快速傅里叶变换(FFT)122将每一个话筒112，114的信号从时域转换到频域。

FFT122产生离散的复频谱；即，离散的频率处的实部和虚部、或频率元(bin)。对于话筒112，114两者，在每一个频率元处，从复频谱估计相位，随后计算信道(即，信道₁116与信道₂118)之间的相位差。对应于与对于主扬声器所预期的相位差显著不同的相位差的频率元被衰减。反FFT142将经增强的信号转换回时域。使用窗口函数144来使处理块之间的过渡平滑，例如，可以使用重叠相加方法。

图2a-b是示出根据实施例的、从对于500Hz和1000Hz的固定TDoA产生的相位差的频率依赖关系的曲线200，250。在图2a中示出从对于500Hz的固定TDoA产生的相位差200。具有相位0的500Hz的信号被示出为虚线220。具有45°相移的500Hz的信号通过暗实线222示出。具有相位0的500Hz的信号的周期230通过T(即，2π)示出。

类似地，在图2b中，具有相位0的1000Hz的信号示出为暗实线270，并且具有90°相移的1000Hz的信号通过虚线272示出。具有相位0的1000Hz的信号的周期280通过T(即，2π)示出。由于对于相同的TDoA，不同的频率具有不同的周期T，因此相位差(Δt/Τ)240、290在500和1000Hz下是不同的。

为了计算相位差误差161，对于每一个频率元，使用波束宽度、话筒布局(例如，距离)、采样频率和处理块长度(例如，离散傅里叶变换长度)，在先地计算可允许的相位差(即，phaseThreshold(相位阈值))。术语“波束”表示主扬声器(即，目标语音的源)位于的区域。噪声被假定为来自波束外部的区域。典型地，波束宽度被固定到大约20°。为简单起见，在下文中假定，波束方向与连接话筒的线呈90°角。通过在下混频(downmixing)期间延迟话筒信号并相应地利用计算出的偏移来调整相位差，可容易地支持任何其他波束方向。一般而言，频率越高，可允许的相位差(Δt/Τ)240,290将越高。这与对于SNR与相位差之间的关系导出的公式被呈现为与频率无关的一些学术论文相反。

返回到图1，块C150示出相位差152不被直接使用，而是被用来由相位差误差计算器160基于经调整的相位差154来计算相位差误差161。对相位差误差161的计算基于从固定的TDoA产生的相位差152是依赖于频率的观察。将相位差152提供至调整模块154，此调整模块154调整频率元的相位差152。

使用对频率元的相位差152的调整，由相位误差计算器160确定相位差误差161。如下文中将示出的那样，相位差误差161可用于估计SNR并用于计算衰减因子。将用于每一个话筒信号的FFT122的输出提供至下混频器(downmixer)162。将下混频器162的输出164提供至SNR估计器170和噪声减法器172。将来自衰减因子计算器180的计算出的衰减因子182和噪声减法器172的输出提供至用于频率元的衰减器184。随后，应用IFFT142和窗函数144来产生干净的信号146(具有根据实施例的减小的噪声的信号)。

为了确定相位检测器130，132的相位差152，通过使用虚部X_L和实部X_R计算反正切来确定左信道和右信道Ph_L和Ph_R的相位，其中，X_L和X_R表示频域中左信道和右信道的信号(例如，信道₁116和信道₂118)。正在将复频谱从实部和虚部转换为极表示(即，相位和幅度)。

计算左信道Ph_L与右信道Ph_R之间的相位差152，例如，Ph_L-Ph_R。在相位调整模块154处调整相位差152，例如，340°→20°。对于大于π的相位差152的调整等于-2π+大于π的相位差。对于小于-π的相位差的调整等于2π+小于-π的相位差。随后，计算相位差152的绝对值。

相位差误差161等于相位差152的绝对值除以每一个频率元的可允许的相位差再减去1，即，并且如果此值小于零，则它被更改为零。在此操作(即，测量到的相位差除以相位阈值)之后，获得对于波束内部的频率元的<1的值以及波束外部的那些频率元的>1的值。相位差被按比例缩放以匹配每一个频率元的信道之间的到达时间差，并且允许当波束内部的相位差误差等于0时在所定义的波束的差异。从相位阈值中减去1并将负值卡箝位到零确保了波束内部的频率元保持未衰减，即，对于那些频率，相位差误差161被设置为0。

下列处理步骤基于由下混频器162从两个输入信道(即，信道₁116和信道₂118)中生成的单信道(单声道)信号。单声道信号164可以通过任何合适的波束成形方法来生成。对于90°波束方向，实现它的最简单的可能方式是平均输入信号。在频域中，将通过X_N来表示来自下混频器的单声道信号164。

估计当前的信噪比(SNR)171，并且估计出的SNR171可以用于噪声减法器172并用于使衰减因子计算器180自适应。SNR估计器170的示例实现基于波束外部的能量(即，噪声)与波束内部的能量(例如，诸如语音之类的目标信息)的比率的计算。对于大于零的相位差误差161，确定经下混合的信号X_N164的幅度，这是波束外部的频率元的幅度，向量outS。随后，瞬时噪声能量(NE)计算为outS乘转置的outS(点积)。时刻t的时间平均的噪声能量估计(TANE_t)被计算为：

TANE_t＝(1-α)TANE_t-1+α*NE

在优选实施例中，已使用等于1/16的α。

根据以下公式来计算波束内部瞬时的频率幅度inS：

inS＝

|X_N|，对于大于零的相位差。

根据以下公式来计算瞬时信号能量估计SE_t：

SE_t＝in_s*in'_S.

根据以下公式来计算时间平均的信号能量估计(TASE)：

TASE_t＝(1-α)*TASE_t-1+α*SE_t

随后，确定两个信号估计中的最大值：

语音_E＝max[TASE_t,SE_t].

如果噪声估计大于0，则根据以下公式，通过估计的信号和噪声能量来计算SNR171：

否则，比率被设置为大值。

接下来，计算由下文所示的“比例”(“scale”)表示的衰减因子182。对于每一个频率元，衰减因子182取决于预定义的参数“γ”(“gamma”)、当前的SNR171以及相位差误差161。相应地，计算仅限于低SNR的动态γ(eγ)。如果估计的信号与噪声能量的比率小于或等于1，则eγ被设置为预定义的最大值，maxEγ。优选实施例使用等于3的maxEγ。否则根据以下公式来计算eγ：

如果eγ小于minEγ，则eγ被设置为等于minEγ。优选实施例使用等于0.001的eγ。

根据以下公式计算每一个频率元的比例因子：

在噪声减法之后使用变量“比例”来衰减不在波束内部的频率。对于噪声减法，计算函数“ramp”，此函数“ramp”确保信号中主要位于较低频率处的语音部分较少地受影响：

\begin{matrix} r a m p (f) = \\ \{\begin{matrix} 0, f < r a m p S t a r t \\ 0.5 * - \cos (π * \frac{f - r a m p S \tan r t}{r a m p E n d - r a m p S t a r t}) + 0.5, r a m p S t a r t < f < r a m p E n d \\ 1, f > r a m p E n d \end{matrix} \end{matrix}

优选实施例使用等于2000Hz的rampStart(ramp开始)和等于6000Hz的rampEnd(ramp结束)。

可以根据以下公式来执行实际的噪声减法：

其中，噪声_S是可以连续地更新的噪声估计。如果noiser小于nMin，则noiser被设置为等于nMin。优选实施例使用范围[-1，0]内的nMin。最后，通过将经下混频的复频谱X_N164乘以如上所述的“比例”因子来衰减有噪声的频率元。

本领域技术人员将认识到，可以实现符合上述教导的许多实施例。例如，可以对多于2个的话筒实现实施例，实施例可包括对波束方向的动态调整，等等。

图3示出根据实施例的、用于多于两个的话筒的基于相位的空间滤波300。在图3中，由信道₁316、信道₂317和信道_N318表示的N个话筒311、312、313记录包括语音和噪声两者的信号。噪声可例如由在背景中谈话的第二人或来自墙的反射导致。由于话筒位于不同的位置处，因此，它们中的每一个都在略微不同的时刻接收对应于不同的源的信号，这对应于每一个源与每一个话筒之间的不同的距离。

在图3中，将来自话筒1的信号与来自话筒2的信号之间的相位差351提供至第一相位差调整模块354。

将来自话筒1的信号与来自话筒N的信号之间的相位差352提供至第二相位差调整模块355。将来自话筒2的信号与来自话筒N的信号之间的相位差353提供至第三相位调整模块356。

对频率元的相位差的调整357、358、359由相位误差计算器360、390、392用于产生N个相位差误差估计361。相位差误差361由SNR估计器370用于估计SNR371，并且由衰减因子计算器380用于计算衰减因子382。将来自话筒311、312、313的每一个信号的N个FFT322的输出提供至下混频器362。将下混频器362的输出364提供至SNR估计器370和噪声减法器372。将计算出的衰减因子182和噪声减法器372的输出提供至用于频率元的衰减器384。随后，应用IFFT342和窗函数344以产生根据实施例的干净的信号346。

图4示出根据实施例的、使用对波束方向的动态调整的、用于两个话筒的基于相位的空间滤波400。图4中所示的基于相位的空间滤波器400与图1中所示的基于相位的空间滤波器100类似，区别仅在于，源***490、扬声器位置输入492被提供至波束方向确定模块494。波束方向确定模块494将波束方向反馈496提供至相位差调整模块454。源***490接收来自相位差误差计算器460的相位差误差461的估计以及来自下混频器462的输出信号464。下混频器462还接收波束方向反馈496以及来自相位差误差计算器460的相位差误差461的估计。

图5示出根据实施例的、用于使基于相位差的降噪***自适应的示例机器500的框图，可在所述示例机器500上执行本文中讨论的技术(例如，方法)中的任何一种或多种。在替代实施例中，机器500可以作为独立设备来操作或可以连接(例如，联网)到其他机器。在联网的部署中，机器500可以作为服务器-客户端网络环境中的服务器机器和/或客户端机器来操作。在示例中，机器500可以充当对等(P2P)(或其他分布式)网络环境中的对等机器。机器500可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、web设备、网络路由器、交换机或桥或能够执行指定要由该机器执行的动作的指令(顺序的或以其他方式的)的任何机器。此外，尽管仅示出了单个机器，但是术语“机器”也应当被视为包括单独地或联合地执行一组(或多组)指令以执行本文中所讨论的方法中的任何一种或多种(诸如，云计算、软件即服务(SaaS)、其他计算机群集配置)的机器的任何集合。

如本文中所描述，示例可包括逻辑或许多组件、模块或机制，或可以对它们进行操作。模块是能够执行指定的操作的有形实体(例如，硬件)，并能以某个方式布置。在示例中，能以指定的方式将电路(例如，内部地或相对于诸如其他电路之类的外部实体)布置为模块。在示例中，可由固件或软件(例如，指令、应用的一部分，或应用)将一个或多个计算机***(例如，独立的客户端或服务器计算机***)的至少部分或一个或多个硬件处理器502配置为操作以执行指定的操作的模块。在示例中，软件可以驻留在至少一个机器可读介质上。在示例中，当由模块的底层硬件执行时，软件使硬件执行指定的操作。

相应地，术语“模块”被理解为涵盖有形的实体，此有形的实体是在物理上被构建，经专门配置的(例如，硬连线)，或临时地(例如，暂态地)经配置(例如，经编程)以便以指定的方式操作或执行本文中所描述的任何操作中的至少部分的实体。考虑模块临时地经配置的示例，模块不必在任何一个时刻被实例化。例如，在模块包括使用软件而配置的通用硬件处理器502的情况下；此通用硬件处理器可以在不同的时刻被配置为相应的不同的模块。例如，软件可以相应地配置硬件处理器以在一个时间实例时构成特定的模块，并在不同时间实例时构成不同的模块。在本文中扩展地使用术语“应用”或其变体来包括例程、程序模块、程序，组件等等，并可以在各种***配置上实现，各种***配置包括单处理器或多处理器***、基于微处理器的电子器件、单核或多核***，上述各项的组合，等等。由此，术语“应用”可用于指示被布置成执行本文汇总所描述的任何操作的至少部分的的软件或硬件的实施例。

机器(例如，计算机***)500可包括硬件处理器502(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核，或上述各项的任何组合)、主存储器504和静态存储器506，这些中的至少一些可以通过互链路(例如，总线)508来与其他组件通信。机器500还可以包括显示单元510、字母数字输入设备512(例如，键盘)以及用户接口(UI)导航设备514(例如，鼠标)。在示例中，显示单元510、输入设备512以及UI导航设备514可以是触摸屏显示器。机器500可以另外包括存储设备(例如，驱动单元)516、信号生成设备518(例如，扬声器)，网络接口设备520以及一个或多个传感器521(诸如，全球定位***(GPS)传感器、罗盘、加速度计或其他传感器)。机器500可以包括输出控制器528，诸如，用于通信或控制一个或多个***设备(例如，打印机、读卡器等等)的串行连接(例如，通用串行总线(USB)、并行连接，或其他有线或无线(例如，红外(IR))连接。

存储设备516可以包括至少一个机器可读介质522，在此机器可读介质上存储了具体化本文中所描述的技术或功能中的任何一种或多种或可由本文中所描述的技术或功能中的任何一种或多种利用的一组或多组数据结构或指令524(例如，软件)。指令还可至少部分地驻留在诸如主存储器504、静态存储器506之类的附加的机器可读存储器内，或在由机器500执行期间驻留在硬件处理器502内。在示例中，硬件处理器502、主存储器504、静态存储器506或存储设备516中的一个或任何组合都可以构成机器可读介质。

尽管机器可读介质522被示出为单个介质，但是术语“机器可读介质”可包括配置成存储这一条或多条指令524的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的高速缓存和服务器)。

术语“机器可读介质”可包括能够存储、编码或承载由机器500执行并且使机器500执行本公开的技术中的任何一种或多种的指令，或能够存储、编码或承载由此类指令使用或与此类指令相关联的数据结构的任何介质。非限制性的机器可读介质的示例可以包括固态存储器以及光和磁介质。机器可读介质的具体示例可包括：非易失性存储器，诸如，半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM))以及闪存设备；磁盘，诸如，内部硬盘和可移除盘；磁光盘；以及CD-ROM和DVD-ROM盘。

还可以经由利用许多传输协议(例如，帧中继、网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等等)中的任何一种协议的网络接口设备520，通过使用传输介质的通信网络526来进一步发送或接收指令524。示例通信网络可包括局域网(LAN)、广域网(WAN)、分组数据网络(例如，因特网)、移动电话网络((例如，信道访问方法，包括码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)，以及正交频分多址(OFDMA)；以及蜂窝网络，诸如，全球移动通信***(GSM)、通用移动通信***(UMTS)、CDMA20001x*标准，以及长期演进(LTE))、普通老式电话(POTS)网络，以及无线数据网络(例如，电气与电子工程师学会(IEEE)802系列标准，包括IEEE802.11标准(WiFi)、IEEE802.16标准及其他)、对等(P2P)网络，或现在已知或以后开发的其他协议。

例如，网络接口设备520可以包括连接到通信网络526的一个或多个物理插孔(例如，以太网、同轴，或电话塞孔)或一个或多个天线。在示例中，网络接口设备520可包括使用单输入多输出(SIMO)、多输入多输出(MIMO)，或多输入单输出(MISO)技术中的至少一种来以无线方式通信的多个天线。术语“传输介质”应当被视为包括能够存储、编码或承载用于由机器500执行的指令且包括数字或模拟通信信号的任何无形的介质，或用于促进此类软件的传递的其他无形的介质。

用于自动语音识别(ASR)***的噪声消减算法的实施例将基于相位差的方法与对SNR的连续估计组合以使噪声消减滤波器适应当前的声条件。也可以使用对相位差的依赖于频率的缩放以及单信道频谱相减来改善用于ASR的噪声消减算法的实施例。相应地，与先前的噪声降低方法相比，实施例导致更低的语音识别错误率，并且伴随语音识别器的字错误率的测量到的相对改善。可在许多扩散性和方向性噪声条件(例如，汽车噪声、鸡尾酒聚会噪声、来自侧面的第二人的谈话，来自侧面的音乐播放)下获取由实施例提供的改进。

附加注释与示例：

示例1可包括以下各项的主题(诸如，设备，客户端或***)：第一信道，用于接收来自第一话筒接收的第一音频信号；

第二信道，用于接收来自第二话筒的第二音频信号，所述第一音频信号和所述第二音频信号包括波束内部的目标音频和来自所述波束外部的噪声；

处理器，耦合到所述第一信道和所述第二信道，所述处理器布置成确定与所述第一音频信号和所述第二音频信号相关联的空间信息以：通过对于大于π的相位差应用-2π+所述大于π的相位差的调整，并对于小于-π的相位差应用2π+所述小于-π的相位差的调整来调整相位差；使用所述确定的空间信息来估计从所述第一音频信号和所述第二音频信号中导出的单信道信号上的信噪比(SNR)；使所述经调整的相位差到增益因子的映射自适应以确定用于衰减与所述波束外部的噪声相关联的频率元的依赖于频率的衰减因子；应用所述依赖于频率的衰减因子以衰减所述波束外部的频率元以产生具有减小的噪声的目标信号。

在示例2中，示例1中的任何一项或多项的主题，如权利要求1所述的自适应基于相位差的降噪***，其中，所述处理器进一步布置成对从所述第一音频信号和所述第二音频信号中导出的所述单信道信号执行频谱相减，以便基于较少地影响与目标信号相关联的频率的加权来从所述单信道信号中去除所述估计的噪声。

在示例3中，示例1-2中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过基于所述估计的SNR来从所述单信道信号中减去噪声以对所述单信道信号执行频谱相减。

在示例4中，示例1-3中的任何一项或多项的主题可以任选地包括，其中，处理器通过利用计算出的偏移来调整相位差确定空间信息，从而允许波束控制。

在示例5中，示例1-4中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过以下操作使所述经调整的相位差到增益因子的所述映射自适应：将相位差误差计算为等于所述相位差的绝对值除以可允许的相位差的向量，并且从所述计算出的相位差误差中减去波束因子，并且将负相位差误差值箝位至零，从而防止所述波束的内部部分内的频率元被衰减。

在示例6中，示例1-5中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过以下操作来计算所述相位差误差：对于每一个频率元，缩放相位差以匹配所述第一信道的所述第一音频信号与所述第二信道的所述第二音频信号之间的到达时间差。

在示例7中，示例1-6中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过以下操作来使用所述确定的空间信息以估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)：基于用于将来自所述波束内部的频率元与来自所述波束外部的频率元区分开的所述计算出的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

在示例8中，示例1-7中的任何一项或多项的主题可以任选地包括，其中，所述处理器进一步布置成对所述第一和第二信道的所述第一和第二音频信号下混频以导出所述单信道信号。

在示例9中，示例1-8中的任何一项或多项的主题可以任选地包括，其中，所述处理器进一步布置成使用波束形成来导出单信道信号。

在示例10中，示例1-9中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过计算所述波束外部的噪声能量与所述波束内部的语音能量的比率来估计所述SNR。

在示例11中，示例1-10中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过以下操作来计算所述波束外部的噪声能量与所述波束内部的语音能量的比率：当相位差误差被确定为大于零时，确定所述波束外部的频率幅度；计算所述波束外部的频率幅度的加权时间平均值；确定所述波束内部的频率幅度；估计所述波束内部的瞬时信号能量；以及计算对所述波束内部的所述瞬时信号能量的所述估计的加权时间平均值。

在示例12中，示例1-11中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过以下操作来使相位差到增益因子的映射自适应以确定衰减因子：基于预定的参数、所述估计的SNR以及所述频率元中的每一个频率元的计算出的相位差误差来计算衰减因子。

在示例13中，示例1-12中的任何一项或多项的主题可以任选地包括，其中，所述处理器进一步布置成计算多于两个的信道之间的相位差误差，并组合为每一对信道获得的衰减因子，其中，所述处理器通过以下操作来使用所述确定的空间信息以估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)：基于用于将来自所述波束内部的频率元与所述波束外部的频率元区分开的所述计算出的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

在示例14中，示例1-13中的任何一项或多项的主题可以任选地包括，其中，所述处理器通过处理多于两个的信道的多于两个的输入音频信号来导出所述单信道信号，从而生成所述单信道信号。

示例15包括包括以下步骤的主题(诸如，用于执行动作的方法或装置)：确定与在第一信道中从第一话筒接收到的第一音频信号相关联且与在第二信道中从第二话筒接收到的第二音频信号相关联的空间信息，所述第一音频信号和所述第二音频信号包括波束内部的目标音频和来自所述波束外部的噪声；

通过以下步骤来调整相位差：对于大于π的相位差应用等于-2π+所述大于π的相位差的调整，并且对于小于-π的相位差应用等于2π+所述小于-π的相位差的调整；

使用所述确定的空间信息来估计在从所述第一音频信号和所述第二音频信号中导出的单信道信号上的信噪比(SNR)；

使所述经调整的相位差到增益因子的映射自适应以确定用于衰减与所述波束外部的噪声相关联的频率元的依赖于频率的衰减因子；以及

应用所述依赖于频率的衰减因子以衰减所述波束外部的频率元，从而产生具有减小的噪声的目标信号。

在示例16中，示例15的任何一项或多项的主题可以任选地包括，进一步包括以下步骤：对从所述第一音频信号和所述第二音频信号中导出的单信道信号执行频谱相减，以便基于较少地影响与目标信号相关联的频率的加权来从单信道信号中去除估计的噪声，，所述对单信道信号执行频谱相减的步骤进一步包括以下步骤：基于所述估计的SNR来从所述单信道信号中减去噪声。

在示例17中，示例15或16中的任何一项或多项的主题可以任选地包括，其中，所述确定空间信息的步骤进一步包括以下步骤：利用计算出的偏移调整相位差以允许波束引导，并且其中，所述使从所述相位差到增益因子的所述映射自适应的步骤进一步包括以下步骤：将相位差误差计算为等于所述相位差的绝对值除以可允许的相位差向量，并且从所述计算出的相位差误差中减去波束因子，并且将负相位差误差值箝位至零，从而防止所述波束的内部部分之内的频率元被衰减。

在示例18中，示例15-17中的任何一项或多项的主题可以任选地包括，其中，所述确定所述相位差误差的步骤进一步包括以下步骤：对于每一个频率元，缩放相位差以匹配所述第一信道的所述第一音频信号与所述第二信道的所述第二音频信号之间的到达时间差，并且其中，使用所述确定的空间信息来估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)的步骤进一步包括以下步骤：基于用于将来自所述波束内部的频率元与来自所述波束外部的频率元区分开的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

在示例19中，示例15-18中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤：对所述第一和第二信道的所述第一和第二音频信号下混频以生成所述单信道信号。

在示例20中，示例15-19中的任何一项或多项的主题进一步包括以下步骤：使用波束成形来生成单信道信号。

在示例21中，示例15-20中的任何一项或多项的主题可以任选地包括，其中，估计所述SNR的步骤进一步包括以下步骤：计算所述波束外部的噪声能量与所述波束内部的语音能量的比率。

在示例22中，示例15-21中的任何一项或多项的主题可以任选地包括以下步骤：当相位差误差被确定为大于零时，确定所述波束外部的频率幅度；

计算所述波束外部的频率幅度的加权时间平均值；

确定所述波束内部的频率幅度；

估计所述波束内部的瞬时信号能量；以及

计算对所述波束内部的瞬时信号能量的所述估计的加权时间平均值。

在示例23中，示例15-22中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤计算多于两个的信道之间的相位差误差；以及组合为每一对信道获得的衰减因子，其中，所述使相位差到增益因子的所述映射自适应以确定衰减因子的步骤进一步包括以下步骤：基于预定的参数、所述估计的SNR和所述频率元中的每一个频率元的计算出的相位差误差来计算衰减因子。

在示例24中，示例15-23中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤通过处理多于两个的信道的多于两个的输入音频信号来生成所述单信道信号，从而生成所述单信道信号。

示例25可包括包含以下操作的主题(诸如，用于执行动作的装置或包括指令的机器可读介质，所述指令当由机器执行时使所述机器执行动作)：确定与在第一信道中从第一话筒接收到的第一音频信号相关联且与在第二信道中从第二话筒接收到的第二音频信号相关联的空间信息，所述第一音频信号和所述第二音频信号包括波束内部的目标音频和来自所述波束外部的噪声；

在示例26中，示例25的任何一项或多项的主题可以任选地包括，进一步包括以下步骤：对从所述第一音频信号和所述第二音频信号中导出的单信道信号执行频谱相减，以便基于较少地影响与目标信号相关联的频率的加权来从单信道信号去除估计的噪声，其中，所述对单信道信号执行频谱相减的步骤进一步包括以下步骤：基于所述估计的SNR来从所述单信道信号中减去噪声。

在示例27中，示例25或26中的任何一项或多项的主题可以任选地包括，其中，所述确定空间信息的步骤进一步包括以下步骤：利用计算出的偏移来调整所述相位差以允许波束引导，并且其中，所述使从所述相位差到增益因子的所述映射自适应的步骤进一步包括以下步骤：将相位差误差计算为等于所述相位差的绝对值除以可允许的相位差向量，并且从所述计算出的相位差误差减去波束因子，并且将负相位差误差值箝位至零，从而防止所述波束的内部部分之内的频率元被衰减。

在示例28中，示例25-27中的任何一项或多项的主题可以任选地包括，其中，所述确定所述相位差误差的步骤进一步包括以下步骤：对于每一个频率元，缩放相位差以匹配所述第一信道的所述第一音频信号与所述第二信道的所述第二音频信号之间的到达时间差，并且其中，使用所述确定的空间信息来估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)的步骤进一步包括以下步骤：基于用于将来自所述波束内部的频率元与所述波束外部的频率元区分开的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

在示例29中，示例25-28中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤：对所述第一和第二信道的所述第一和第二音频信号下混频以生成所述单信道信号。

在示例30中，示例25-29中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤：使用波束形成来生成单信道信号。

在示例31中，示例25-30中的任何一项或多项的主题可以任选地包括，其中，估计所述SNR的步骤进一步包括以下步骤：计算所述波束外部的噪声能量与所述波束内部的语音能量的比率。

在示例32中，示例25-31中的任何一项或多项的主题可以任选地包括以下步骤：当相位差误差被确定为大于零时，确定所述波束外部的频率幅度；

计算所述波束外部的频率幅度的加权时间平均值；

确定所述波束内部的频率幅度；

估计所述波束内部的瞬时信号能量；以及

在示例33中，示例25-32中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤：计算多于两个的信道之间的相位差误差；以及组合为每一对信道获得的衰减因子，其中，所述使相位差到增益因子的所述映射自适应以确定衰减因子的步骤进一步包括：基于预定的参数、所述估计的SNR以及所述频率元中的每一个频率元的计算出的相位差误差来计算衰减因子。

在示例34中，示例25-33中的任何一项或多项的主题可以任选地包括，进一步包括以下步骤通过处理多于两个的信道的多于两个的输入音频信号来生成所述单信道信号，从而生成所述单信道信号。

上述具体实施方式包括对构此具体实施方式的一部分的附图的引用。附图通过说明方式示出可实施的特定的实施例。这些实施例在本文中还被称为“示例”。此类示例还可包括除所示出的或所描述的那些元件之外的元件。然而，还构想了包括所示出的或所描述的元件的示例。此外，还构想了使用参照本文中所示出或所描述的特定示例(或其一个或多个方面)或参照本文中所示出的或所描述的其他示例(或其一个或多个方面)示出或描述的那些元件(或其一个或多个方面)的任何组合或排列。

在本文档中所引用的出版物、专利和专利文档通过引用被整体并入到本文中，就如同通过引用被单独地并入。在本文档与通过引用被并入的那些文档之间不一致的用法的情况下，被并入的参考文献中的使用是对本文档中的用法的补充；对于矛盾的不一致情况，本文中的用法为准。

在本文档中，如在专利文档中常见的那样，使用术语“一”或“一个”以包括一个或多于一个，并且独立于“至少一个”或“一个或多个”的任何其他实例或用法。在本文档中，使用术语“或”来表示非排他的“或”，使得“A或B”包括“A但非B”，“B但非A”，以及“A和B”，除非另外指示。在所附权利要求书中，术语“包括”和“其特征在于”被用作相应的术语“包含”和“其中”的普通英语等效词。此外，在所附权利要求中，术语“包括”和“包含”是开放式的，即，在权利要求中，在此类术语之后包括除那些列出的元件之外的元件的***、设备、制品或过程仍被视为在那项权利要求的范围之内。此外，在所附权利要求中，术语“第一”、“第二”、以及“第三”等仅用作标记，并且不旨在表明它们的对象的数值顺序。

上文的描述旨在是说明性的而不是限制性的。例如，可结合其他示例来使用上文所描述的示例(或其一个或多个方面)。可诸如在由本领域普通技术人员回顾了上文的描述后来使用其他实施例。“摘要”旨在使读者快速地弄清本技术公开的本质，例如以符合美国的37C.F.R.§1.72(b)。提交此摘要应理解，它将不用于解释或限制权利要求的范围或含义。此外，在以上具体实施方式中，各种特征还可以一起成组以使本公开流畅。然而，权利要求可能没有阐述本文中所公开的特点，因为实施例可包括所述特征的子集。此外，实施例可包括比在特定示例中公开的那些特征更少的特点。由此，所附权利要求书进而被并入到“具体实施方式”中，并且权利要求本身作为单独的实施例而存在。旨在参照所附权利要求书以及此类权利要求书要求保护的等效方案的完整范围来确定本文中公开的实施例的范围。

Claims

1.一种自适应基于相位差的降噪***，包括：

第一信道，用于接收来自第一话筒的第一音频信号；

处理器，耦合到所述第一信道和所述第二信道，所述处理器布置成确定与所述第一音频信号和所述第二音频信号相关联的空间信息以：通过对于大于π的相位差应用等于-2π+所述大于π的相位差的调整，并且对于小于-π的相位差应用等于-2π+所述小于-π的相位差的调整来调整相位差；使用所述确定的空间信息来估计从所述第一音频信号和所述第二音频信号中导出的单信道信号上的信噪比(SNR)；使所述经调整的相位差到增益因子的映射自适应以确定用于衰减与所述波束外部的噪声相关联的频率元的依赖于频率的衰减因子；以及应用所述依赖于频率的衰减因子来衰减所述波束外部的频率元以产生具有减小的噪声的目标信号。

2.如权利要求1所述的自适应基于相位差的降噪***，其特征在于，所述处理器进一步布置成对从所述第一音频信号和所述第二音频信号中导出的所述单信道信号执行频谱相减，以便基于较少地影响与目标信号相关联的频率的加权来从所述单信道信号中去除所述估计的噪声。

3.如权利要求2所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过基于所述估计的SNR来从所述单信道信号中减去噪声以对所述单信道信号执行频谱相减。

4.如权利要求1或2所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过利用计算出的偏移来调整所述相位差以确定空间信息，从而允许波束引导。

5.如权利要求1或2所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过以下操作使所述经调整的相位差到增益因子的所述映射自适应：将相位差误差计算为等于所述相位差的绝对值除以可允许的相位差向量，并且从所述计算出的相位差误差中减去波束因子，并且将负相位差误差值箝位至零，从而防止所述波束的内部部分之内的频率元被衰减。

6.如权利要求5所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过以下操作来计算所述相位差误差：对于每一个频率元，缩放相位差以匹配所述第一信道的所述第一音频信号与所述第二信道的所述第二音频信号之间的到达时间差。

7.如权利要求5所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过以下操作来使用所述确定的空间信息以估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)：基于用于将来自所述波束内部的频率元与来自所述波束外部的频率元区分开的所述计算出的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

8.如权利要求1或2所述的自适应基于相位差的降噪***，其特征在于，所述处理器进一步布置成对所述第一和第二信道的所述第一和第二音频信号下混频以导出所述单信道信号。

9.如权利要求1或2所述的自适应基于相位差的降噪***，其特征在于，所述处理器进一步布置成使用波束成形来导出所述单信道信号。

10.如权利要求1或2所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过计算所述波束外部的噪声能量与所述波束内部的语音能量的比率来估计所述SNR。

11.如权利要求10所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过以下操作来计算所述波束外部的噪声能量与所述波束内部的语音能量的比率：当相位差误差被确定为大于零时，确定所述波束外部的频率幅度；计算所述波束外部的频率幅度的加权时间平均值；确定所述波束内部的频率幅度；估计所述波束内部的瞬时信号能量；以及计算对所述波束内部的所述瞬时信号能量的所述估计的加权时间平均值。

12.如权利要求1所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过以下操作来使相位差到增益因子的映射自适应以确定衰减因子：基于预定的参数、所述估计的SNR以及所述频率元中的每一个频率元的计算出的相位差误差来计算衰减因子。

13.如权利要求1或12所述的自适应基于相位差的降噪***，其特征在于，所述处理器进一步布置成计算多于两个的信道之间的相位差误差，并组合为每一对信道获取的衰减因子，其中，所述处理器通过以下操作来使用所述确定的空间信息以估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)：基于用于将来自所述波束内部的频率元与来自所述波束外部的频率元区分开的所述计算出的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

14.如权利要求1或12所述的自适应基于相位差的降噪***，其特征在于，所述处理器通过处理多于两个的信道的多于两个的输入音频信号来导出所述单信道信号，从而生成所述单信道信号。

15.一种用于使基于相位差的降噪***自适应的方法，包括以下步骤

确定与在第一信道中从第一话筒接收到的第一音频信号相关联且与在第二信道中从第二话筒接收到的第二音频信号相关联的空间信息，所述第一音频信号和所述第二音频信号包括波束内部的目标音频和来自所述波束外部的噪声；

16.如权利要求15所述的方法，进一步包括以下步骤：对从所述第一音频信号和所述第二音频信号中导出的单信道信号执行频谱相减，以便基于较少地影响与目标信号相关联的频率的加权来从单信道信号中去除估计的噪声，其中，所述对单信道信号执行频谱相减的步骤进一步包括以下步骤：基于所述估计的SNR来从所述单信道信号中减去噪声。

17.如权利要求15所述的方法，其特征在于，所述确定空间信息的步骤进一步包括以下步骤：利用计算出的偏移来调整所述相位差以允许波束引导，并且其中，所述使从所述相位差到增益因子的所述映射自适应的步骤进一步包括以下步骤：将相位差误差计算为等于所述相位差的绝对值除以可允许的相位差向量，并且从所述计算出的相位差误差中减去波束因子，并且将负相位差误差值箝位至零，从而防止所述波束的内部部分之内的频率元被衰减。

18.如权利要求17所述的方法，其特征在于，确定所述相位差误差的步骤进一步包括以下步骤：对于每一个频率元，缩放相位差以匹配所述第一信道的所述第一音频信号与所述第二信道的所述第二音频信号之间的到达时间差，并且其中，使用所述确定的空间信息来估计从所述第一音频信号和所述第二音频信号中导出的所述单信道信号上的所述信噪比(SNR)的步骤进一步包括以下步骤：基于用于将来自所述波束内部的频率元与来自所述波束外部的频率元区分开的相位差误差以及所述单信道信号来估计当前的信噪比(SNR)。

19.如权利要求15所述的方法，进一步包括以下步骤：对所述第一和第二信道的所述第一和第二音频信号下混频以生成所述单信道信号。

20.如权利要求15所述的方法，进一步包括以下步骤：使用波束形成来生成所述单信道信号。

21.如权利要求15所述的方法，其特征在于，估计所述SNR的步骤进一步包括以下步骤：计算所述波束外部的噪声能量与所述波束内部的语音能量的比率。

22.如权利要求21所述的方法，其特征在于，计算所述波束外部的噪声能量与所述波束内部的语音能量的所述比率的步骤进一步包括以下步骤：

当相位差误差被确定为大于零时，确定所述波束外部的频率幅度；

计算所述波束外部的频率幅度的加权时间平均值；

确定所述波束内部的频率幅度；

估计所述波束内部的瞬时信号能量；以及

23.如权利要求15所述的方法，进一步包括以下步骤：计算多于两个的信道之间的相位差误差；以及组合为每一对信道获得的衰减因子，其中，所述使相位差到增益因子的所述映射自适应以确定衰减因子的步骤进一步包括以下步骤：基于预定的参数、所述估计的SNR以及所述频率元中的每一个频率元的计算出的相位差误差来计算衰减因子。

24.如权利要求15所述的方法，进一步包括以下步骤：通过处理多于两个的信道的多于两个的输入音频信号来生成所述单信道信号，从而生成所述单信道信号。

25.至少一种非暂态计算机可读介质，包括可执行程序代码，当由计算设备执行所述可执行程序代码时，所述可执行程序代码使所述设备执行如权利要求15至28中的任一项所述的方法。