CN105355210A

CN105355210A - 用于远场语音识别的预处理方法和装置

Info

Publication number: CN105355210A
Application number: CN201510729573.2A
Authority: CN
Inventors: 宋辉; 魏建强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-02-24
Anticipated expiration: 2035-10-30
Also published as: CN105355210B

Abstract

本发明提出一种用于远场语音识别的预处理方法和装置，该用于远场语音识别的预处理方法包括：获取由麦克风阵列采集的多路语音信号；根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。该方法能够提高远场语音识别的性能。

Description

用于远场语音识别的预处理方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种用于远场语音识别的预处理方法和装置。

背景技术

为了提高语音识别的准确度，在语音识别之前通常会进行预处理。在远场语音识别场景下，目前采用比较多的一种预处理方案是回声消除(Acousticechocancellation，AEC)+声源定位+自适应波束形成技术。大致的思想是：先对每个麦克风采集的语音信号进行回声消除、再基于声源定位技术找到目标说话人的空间方位，进而通过自适应波束形成(AdaptiveBeamforming，ABF)技术将主波束指向说话人，实现声音增强的效果。

但是，上述处理方案在运算量、准确度、收敛速度和残差等方面都存在一定的问题，进而影响最终的远场语音识别性能。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种用于远场语音识别的预处理方法，该方法可以实现了信号的声源定位和语音增强功能，并且新的波束形成方法还保证了阵列的空间响应与频率无关，从而降低信号的频谱失真程度，保证了后续音频通讯，尤其是语音识别***的性能。

本发明的另一个目的在于提出一种用于远场语音识别的预处理装置。

为达到上述目的，本发明第一方面实施例提出的用于远场语音识别的预处理方法，包括：获取由麦克风阵列采集的多路语音信号；根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

本发明第一方面实施例提出的用于远场语音识别的预处理方法，通过上述是波束形成方法，同时实现了信号的声源定位和语音增强功能，并且上述的波束形成方法还保证了阵列的空间响应与频率无关，从而降低信号的频谱失真程度，保证了后续音频通讯，尤其是语音识别***的性能。

为达到上述目的，本发明第二方面实施例提出的用于远场语音识别的预处理装置，包括：获取模块，用于获取由麦克风阵列采集的多路语音信号；划分模块，用于根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；波束形成模块，用于对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

本发明第二方面实施例提出的用于远场语音识别的预处理装置，通过上述是波束形成方法，同时实现了信号的声源定位和语音增强功能，并且上述的波束形成方法还保证了阵列的空间响应与频率无关，从而降低信号的频谱失真程度，保证了后续音频通讯，尤其是语音识别***的性能。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图；

图2是本发明另一实施例提出的用于远场语音识别的预处理方法的流程示意图；

图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图；

图4是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图，该方法包括：

S11：获取由麦克风阵列采集的多路语音信号。

其中，麦克风阵列可以具体是均匀环形麦克风阵列(UniformCircularArray，UCA)，UCA是指将多个麦克风均匀设置在环形平面上。

通过每个麦克风采集一路语音信号，从而可以获取到多路语音信号。

麦克风的个数以及环形半径可以设置，例如，N＝16，R＝0.08m。

S12：根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量。

频率点阈值例如是f0＝1kHz。

低频分量是指频率小于f0的部分，中高频分量是指频率大于f0的部分。

每一路语音信号的频谱范围通常是在0-8kHz，通过与频率点阈值比较，可以将采集的多路语音信号分为低频分量和中高频分量。

S13：对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA，对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。

一些实施例中，参见图2，对低频分量的处理流程可以包括：

S201：对低频分量根据空间响应的公式，进行DS-UCA的波束成形。

其中，DS-UCA的波束成形时采用的空间响应的公式是：

B (ω : θ, φ) = \frac{1}{N} Σ_{n = 1}^{N} e^{- j k R [c o s (φ_{0} - γ_{n}) - c o s (φ - γ_{n})]}

公式(1)

其中，N是均匀环形麦克风阵列中麦克风的个数，R是环形半径，B表示波束形成器的空间响应，ω是语音信号的角频率，θ,φ分别是语音信号的仰角和方向角，在远场识别场景下，θ＝θ₀＝π/2，k是波数，k＝ω/c，c是光速，θ₀,φ₀分别是主波束的仰角和方向角，γ_n是第n个麦克风的方向角，γ_n＝2π(n-1)/N。主波束的仰角和方向角可以设置。

S202：对低频分量中的高频分量进行预加重处理。

通过公式(1)可以看出，当语音信号的频率越大，频谱失真越严重，为此，在对低频分量(0-1kHz)计算空间响应后，可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子，该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。

一些实施例中，参见图2，对中高频分量的处理流程可以包括：

S203：确定补偿滤波器。

补偿滤波器H_m(ω)的公式是：

H_{m} (ω) = \frac{j^{- | m |}}{{KJ}_{| m |} (2 ω \hat{r})}, f o r ω &Element; [ω_{L}, ω_{H}]

其中，ω_L,ω_H分别表示ω的最低和最高值，K是麦克风的个数，m是相位模式(phase-mode)的索引，其中，麦克风采集的语音信号经过离散傅里叶逆变换(InverseDiscreteFourierTransform，IDFT)变换可以转换为相位模式，J_n(α)为第一类Bessel函数，ω＝πf/f_max，r是麦克风阵列的半径，c是光速，f是语音信号的频率，f_max是最高频率。

S204：确定加权因子。

加权因子{g_m}是一个M阶有限长单位冲激响应(FiniteImpulseResponse，FIR)滤波器系数，M是m的最大值，滤波器的形状可以根据实际需求来设计，可以参考的指标如主波束宽度、旁瓣衰减量等。

S205：确定相位模式分量。

相位模式分量的公式是：

V_{m} (ω) = S (ω) Σ_{k = 0}^{K - 1} e^{j 2 ω \hat{r} \cos (φ - φ_{k})} e^{j \frac{2 λ k m}{K}}

其中，令S(ω)＝1。

S206：根据补偿滤波器、加权因子和相位模式分量计算空间响应。

空间响应的计算公式是：

G (φ) = Y (ω) = Σ_{m = - M / 2}^{M / 2} g_{m} V_{m} (ω) H_{m} (ω),

其中，S(ω)＝1。

S207：将空间响应的主波束方向调整为预设的主波束方向，根据调整后的空间响应的公式，对中高频分量进行FIB-UCA的波束成形。

例如，预设主波束方向角是θ_D，则调整后的空间响应是：

G_{F i n a l} (φ) = G (φ) e^{{jmθ}_{D}} .

通过上述流程可以得到波束形成器的输出波束(S208)，具体的，通过S201-S202可以得到低频分量的波束形成器的输出波束，以及，通过S203-S207可以得到高频分量的波束形成器的输出波束。

本实施例中，通过上述是波束形成方法，同时实现了信号的声源定位和语音增强功能，并且上述的波束形成方法还保证了阵列的空间响应与频率无关，从而降低信号的频谱失真程度，保证了后续音频通讯，尤其是语音识别***的性能。

在波束形成之后，该方法还可以包括：

S209：对波束形成得到的每个输出波束进行回声消除(AEC)。

其中，通过上述的波束形成以及主波束调向技术，可以将整个声学空间划分成了若干个区域，比如3个固定波束，每个固定波束覆盖120°；或者6个固定波束，每个固定波束覆盖60°范围。

以3个波束为例，则波束形成器的输出是3个波束，之后可以分别对3个输出波束中的每个波束进行AEC。

AEC可以消除***产生的音乐、文本到语音(TexttoSpeech，TTS)等干扰信号。

目前的方案需要对每一个麦克风信号进行AEC，当麦克风数量比较大时，回声消除的运算量非常大。

本实施例中，通过将AEC设置在波束形成之后，可以显著降低AEC所需运算量。

另外，AEC的处理效果要依赖于信噪比，回波信号信噪比越高，自适应滤波器的收敛越快，残留误差越小，但是，目前的方案中，由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度，所以实际中，无法将ABF模块放在AEC之前来提高信噪比，这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态，进而也会部分影响最终的远场语音识别性能。

本实施例中，通过在AEC之前先进行波束形成，可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题，从而可以提高AEC的效果，进而提高远场语音识别性能。

S210：根据AEC结果选择最优波束。

例如，可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。

S211：对最优波束进行单通道语音增强和后处理。

在对最优波束进行单通道语音增强和后处理后可以输入到用于语音识别的识别器中，以进行远场语音识别。

本实施例中，通过上述的预处理流程，可以使得识别器接收到的信号有效抑制了混响和噪声的影响，同时也保证了语音各个频谱分量的失真最小，因此能够显著提升远场场景下语音识别的性能。

图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图，该装置30包括：获取模块31、划分模块32和波束形成模块33。

获取模块31，用于获取由麦克风阵列采集的多路语音信号；

划分模块32，用于根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；

频率点阈值例如是f0＝1kHz。

波束形成模块33，用于对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

其中，DS-UCA的波束成形公式是：

B (ω : θ, φ) = \frac{1}{N} Σ_{n = 1}^{N} e^{- j k R [c o s (φ_{0} - γ_{n}) - c o s (φ - γ_{n})]}

公式(1)

其中，N是均匀环形麦克风阵列中麦克风的个数，R是环形半径，B表示波束形成器的空间响应，ω是语音信号的频率，θ,φ分别是语音信号的仰角和方向角，在远场识别场景下，θ＝θ₀＝π/2，k是波数，k＝ω/c，c是光速，θ₀,φ₀分别是主波束的仰角和方向角，γ_n是第n个麦克风的方向角，γ_n＝2π(n-1)/N。主波束的仰角和方向角可以设置。

一些实施例中，参见图4，所述波束形成模块包括：

低频分量波束形成单元331，用于对低频分量根据空间响应的公式，进行DS-UCA的波束成形：

预加重模块332，用于对低频分量中的高频分量进行预加重处理。

一些实施例中，所述波束形成模块33包括：中高频分量波束形成单元333，所述中高频分量波束形成单元333具体用于：

确定补偿滤波器；

确定加权因子；

确定相位模式分量；

根据补偿滤波器、加权因子和相位模式分量计算空间响应；

将空间响应的主波束方向调整为预设的主波束方向，根据调整后的空间响应的公式，对中高频分量进行基于滤波器的波束成形。

具体的DS-UCA的流程以及FIB-UCA的流程可以参见上述实施例中的相关描述，在此不再赘述。

一些实施例中，参见图4，该装置还包括：

回声消除模块34，用于对波束形成得到的每个输出波束进行回声消除；

选择模块35，用于根据回声消除的结果选择最优波束；

后处理模块36，用于对最优波束进行单通道语音增强和后处理。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于远场语音识别的预处理方法，其特征在于，包括：

获取由麦克风阵列采集的多路语音信号；

根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；

对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

2.根据权利要求1所述的方法，其特征在于，还包括：

对波束形成得到的每个输出波束进行回声消除；

根据回声消除的结果选择最优波束；

对最优波束进行单通道语音增强和后处理。

3.根据权利要求1所述的方法，其特征在于，在对低频分量进行延迟求和波束形成之后，所述方法还包括：

对低频分量中的高频分量进行预加重处理。

4.根据权利要求1所述的方法，其特征在于，所述对中高频分量进行基于滤波器的波束形成，包括：

确定补偿滤波器；

确定加权因子；

确定相位模式分量；

根据补偿滤波器、加权因子和相位模式分量计算空间响应；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述麦克风阵列是均匀环形麦克风阵列。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述频率点阈值是1kHz。

7.一种用于远场语音识别的预处理装置，其特征在于，包括：

获取模块，用于获取由麦克风阵列采集的多路语音信号；

划分模块，用于根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；

波束形成模块，用于对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

8.根据权利要求7所述的装置，其特征在于，还包括：

回声消除模块，用于对波束形成得到的每个输出波束进行回声消除；

选择模块，用于根据回声消除的结果选择最优波束；

后处理模块，用于对最优波束进行单通道语音增强和后处理。

9.根据权利要求7所述的装置，其特征在于，所述波束形成模块包括：

低频分量波束形成单元，用于对低频分量根据空间响应的公式，进行DS-UCA的波束成形：

预加重模块，用于对低频分量中的高频分量进行预加重处理。

10.根据权利要求7所述的装置，其特征在于，所述波束形成模块包括：中高频分量波束形成单元，所述中高频分量波束形成单元具体用于：

确定补偿滤波器；

确定加权因子；

确定相位模式分量；

根据补偿滤波器、加权因子和相位模式分量计算空间响应；