CN109074816B

CN109074816B - 远场自动语音识别预处理

Info

Publication number: CN109074816B
Application number: CN201780029587.0A
Authority: CN
Inventors: A·库普里亚诺夫; P·玛兹斯基; L·库里洛
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2016-06-15
Filing date: 2017-05-16
Publication date: 2023-11-28
Anticipated expiration: 2037-05-16
Also published as: EP3472834A1; WO2017218129A1; CN109074816A; EP3472834A4; WO2017218128A1; US10657983B2; US20170365255A1; US20170366897A1; US20170365271A1; US20170365274A1

Abstract

本文描述了用于自动语音识别预处理的***和技术。首先，可以获得多个音频通道。然后，可以从音频通道去除混响。在去除混响之后，可以将多个音频通道划分为诸波束。可以基于噪声水平选择与诸波束中的波束对应的分区。可以从所选分区过滤音频信号。经过滤的音频信号可以经由预处理流水线的输出接口被提供给外部实体。

Description

远场自动语音识别预处理

优先权要求

本专利申请要求2016年12月22日提交的美国申请序列第15/388,147号的优先权权益，该申请要求2016年6月15日提交的发明名称为“远场自动语音识别”的美国临时申请序列第62/350,507号的优先权权益，两者通过引用整体结合于此。

技术领域

这里描述的实施例总体上涉及自动语音识别(ASR)，更具体地涉及改进ASR预处理。

背景技术

ASR涉及用于理解人类语言的基于机器的技术集合。ASR是跨学科的，通常涉及麦克风、模数转换、频率处理、数据库和人工智能技术，用于将口语单词转换为不仅是人类说话者所说的内容(例如，抄本)而且是人类说话者所表达的意思(例如，语义理解)的文本或机器可读的表示。远场ASR涉及降低在距麦克风或麦克风阵列比传统意义上在ASR处理流水线中所考虑的情况更远的情况下进行的讲话中的字错误率(WER)。这种距离通常会降低信噪比(SNR)，从而增加传统ASR***的WER。如本文中所使用，远场ASR涉及距麦克风超过半米的距离。

附图说明

在附图中(这些附图不一定是按比例绘制的)，相同的数字可以描述不同视图中的类似的组件。具有不同的字母后缀的相同的数字可以表示类似组件的不同实例。附图一般通过示例的方式而不是限制的方式来图示在本文档中所讨论的各实施例。

图1是根据实施例的智能家庭网关外壳的示例。

图2是根据实施例的用于远场自动语音识别预处理的***的示例的框图。

图3图示了根据实施例的基于相位的波束形成(PBF)方向性图案。

图4是根据实施例的针对不同类型的噪声的远场ASR WER改善的曲线图。

图5图示了根据实施例的用于自动语音识别预处理的方法的示例。

图6是图示出可以在其上实现一个或多个实施例的机器的示例的框图。

具体实施方式

本文中的实施例和示例总体上描述了用于自动语音识别预处理的多个***、设备和技术。然而，应当理解，这些***、设备和技术是说明基本概念的示例。

图1是根据实施例的智能家庭网关105的示例。如图所示，外壳顶上的圆圈是管腔110，该管腔110后面是被容纳的麦克风(如图所示，有八个麦克风)。虚线示出了处于线性布置115的麦克风以及处于圆形布置120的麦克风。本文中描述的许多示例以相对于设备105的这些双重布置(例如，线性115和圆形120)操作。尽管这里的设备105采用智能家居网关的形式，但是可以设想其他配置，诸如台式或膝上型计算机配置、冰箱或其他设备等。

导致ASR的远场性能下降的因素可能包括由于混响、回声、噪声或幅度损失中的一些或所有引起的语音信号质量降级。例如，从几个实验中，发现了与远场ASR相关的四个问题：混响；回声；噪声；和幅度损失。可以通过智能地对各种处理技术进行排序来减轻这些因素中的一个或所有因素的影响。例如，混响(例如，产生混响)减少使得能够使用不是设计用于在混响条件下工作的波束形成器和降噪(NR)技术。在另一个示例中，声学回声消除(AEC)减少了由内部扩音器产生的回声。此外，例如，波束形成器和另外的后过滤模块降低了噪声水平。自动增益控制(AGC)设备抵消幅度损失。总的来说，在所描述的远场预处理流水线中使用的处理的独特的组合和顺序实现了准确的远场ASR。

设备105中的恰如此类的这种流水线的示例可以包括采样器125、去混响器127、波束形成器处理器130、流选择器135、过滤器140和控制器145。这些组件中的每一个都在诸如下文描述的那些电子硬件(例如，电路)中实现。

采样器125布置成获得多个音频通道。因此，采样器125可以是麦克风阵列的一部分，具有在麦克风输出上的轻击，或者具有经由设备105的另一组件递送的多个音频通道。在示例中，音频通道是来自单个麦克风的音频。在示例中，音频通道是来自多个麦克风的音频，其中来自这些麦克风的信号基于麦克风的物理布置(诸如间隔、线性或圆形关系等)相关联。在示例中，在由采样器125获得多个音频通道之后，在波束形成器处理器将多个音频通道划分成诸波束之前，去混响器127去除混响。去除混响可以使用各种技术来完成，诸如短时傅立叶变换(STFT)域逆过滤方法、非负房间脉冲响应(RIR)建模、统计RIR建模或非线性映射(例如，使用深度神经网络或双向长短期记忆(BLSTM)递归神经网络的去噪自动编码器)。在通过采样器125获得多个音频通道之后，并且在通过去混响器127将去混响应用于该音频通道之后，可以将输出引导至波束形成器处理器130或者由波束形成器处理器130检取该输出。

波束形成器处理器130被布置为将多个音频通道划分成诸波束。这里，波束指的是从特定方向接收的能量。通常，给定单个固定式麦克风，可以确定声能的频率和幅度，但是没有足够的信息再来确定方向。添加第二麦克风(例如，类似于两个人耳)提供两个信号，这两个信号可以在频率和幅度上相关，但可能在时间上变化。利用这些麦克风之间的已知且固定的关系，音频信号的时间变化可以提供能量的相对方向。然后可以将其认为是波束。因此，在示例中，为了将多个音频通道划分为诸波束，波束形成器处理器130被布置为获得(例如，接收或检取)多个音频通道，基于产生多个音频通道的麦克风之间的关系将多个音频通道划分为两个音频通道的分区，并将每个分区提供给基于相位的波束形成器。在该示例中，音频通道分区操作允许波束形成器处理器130或基于相位的波束形成器利用麦克风的已知物理布置来确定时间方差(例如，信号同相程度的度量)。如先前所解释，这提供了确定能量(例如声音)来自什么方向的信息。波束形成在找到用于处理ASR的干净信号时提供另一级别的控制。

流选择器135被布置为基于噪声水平选择与诸波束中的波束相对应的分区。在示例中，为了基于噪声水平选择对应于波束的分区，流选择器135被布置为比较诸波束之间的噪声水平，并基于具有从比较确定的最低噪声水平来选择波束。在示例中，流选择器135使用流选择器的短语质量记分器来比较跨诸波束的噪声水平。在示例中，流选择器的SNR计为每个波束提供噪声水平。因此，流选择器135在各种可能的输入源之间进行区分，以向下游处理器提供(例如，发送)更好的信号(或使更好的信号可用)。

过滤器140被布置成降低来自所选分区的音频信号中的噪声水平。在示例中，为了降低来自所选分区的音频信号中的噪声水平，过滤器140将降噪应用于音频信号。在示例中，为了增强来自所选分区的语音信号，过滤器将频谱分布匹配(SPM)应用于音频信号。在示例中，在将降噪应用于音频信号之后应用频谱分布匹配。

在示例中，为了增强所选分区中的语音信号，过滤器140将自动增益控制应用于音频信号。在示例中，在将频谱匹配分布应用于音频信号之后，应用自动增益控制。

在示例中，流水线可以可选地包括第二过滤器(未图示出)以用于对多个音频通道执行声学回声消除。在示例中，在将多个音频通道划分为诸波束之前，执行声学回声消除。在示例中，第二过滤器是去混响器127的一部分。

控制器145被布置为经由预处理流水线的输出接口将音频信号提供给外部实体。因此，控制器145与下游组件对接以进一步处理ASR***中的语义内容。

图2是根据实施例的用于远场自动语音识别预处理的***200的示例的框图。***200包括上面讨论的组件的附加示例。***200的组件在诸如上文或下文所描述的电子硬件(例如，电路)中实现。

***200包括用于实时远场ASR的流水线205。通过如图所示对***200的组件进行排序，可以重新引入先前由于混响而在远场ASR中被丢弃的ASR技术，诸如：

·基于相位的波束形成器(PBF)；以及

·频谱分布匹配(SPM)

远场预处理流水线205可以由六个处理块组成：去混响器210；可选的AEC 215；波束形成器220；流选择器230；后过滤块245；和内容分析块265。在示例中，远场预处理块的顺序是重要的(即，它们必须按照图2中呈现的顺序)。远场预处理流水线205可以对多通道输入操作。可以从包含至少两个麦克风的麦克风阵列获得多通道输入。在示例中，可以使用的麦克风的数量没有上限。在示例中，对麦克风阵列几何形状(例如，线性、圆形等)没有限制。在示例中，麦克风的数量是偶数(例如，麦克风的数量对2求模为零)。

在去混响块210中，从多通道输入去除混响。可以调整去混响块210的参数以平衡计算复杂度和性能。如上所述，用于去除混响的技术可以包括预先配置的房间脉冲模型或其他模型。

在示例中，远场预处理流水线205可以与包含内部扩音器的设备一起使用。在该示例中，可以利用可选的多通道AEC块215来减少从扩音器到麦克风的声学泄漏。在示例中，AEC块215包括以下属性中的一个或多个：

·AEC块215位于去混响块210之后，因此AEC块215分析不受房间混响影响的信号；

·AEC块215创建使用多通道参考信号的消除过滤器，这样做由于可以从不同通道提取的附加信息而改善AEC性能；或者

·AEC块215位于光束形成器块220之前，而不是在光束形成器块220之后。

在AEC块215之后，多通道流已经(在可行的程度上)使房间混响和扩音器回声被去除。因此，波束形成器块220可以使用基于相位的波束形成器(PBF)225或者其他波束形成技术(诸如最小方差无失真响应波束形成器)来处理多通道流。通常，对于远场ASR，在不去除回声和混响的情况下不能使用PBF 225，因为PBF 225通常需要麦克风信号中的直接声音。在混响条件下，不满足该要求，因为也将捕获到反射(例如，非直接信号)。因此，对用户位置(PBF 225处理中的重要特征)的精确检测将是不太可能的。对于用户与设备之间大于两米的距离，该问题会恶化。然而，在所图示的布置中，几乎所有的反射(例如，这些反射的大部分能量)在PBF 225阶段之前被去除。因此，有可能有效地使用PBF 225。

PBF 225使用来自麦克风对的两个信号。因此，对于具有多于两个麦克风的麦克风阵列，可以使用多个PBF 225的实例(例如，对于每个专用对使用一个PBF 225)。每个PBF225实例可以朝(例如，相对于设备的)不同方向被转向。图3图示了当与本文所述的麦克风板一起使用时四个PBF 225实例的方向性图案。在图3中，来自八个麦克风的信号(两个空白的、两个对角条纹、两个对角交叉阴影线、以及两个垂直交叉阴影线(在中心处成对地分组，并且最中心的麦克风成组))被分组为四个转向对的覆盖区域[即，1)双点划线、2)单点划线、3)虚线、和4)点线的组]。如图所示，来自每个区域对的声音被馈送到单独的PBF 225实例中。结果，经PBF处理的信号指向四个不同的方向，每个方向具有45度的波束宽度。由于PBF 225处理是双向的——例如，相对于麦克风对的向前和向后方向相同的波束图案，这些方向垂直于在这两个麦克风之间绘制的线——因此组合后的解决方案提供360度覆盖(例如，图3中的圆形长短虚线)。

在示例中，由于四个有向流，用户定位是可能的。因此，流选择器230可以对照所选择的定位标准(诸如，例如使用内容分析块265中的信号水平测量(SLM)270或语音活动检测器(VAD)275的最高分数计算的最高信噪比(SNR))来评估每个有向流，并选择更有利于ASR的流。流选择器230可以包括短语质量记分器235或SNR计240中的一个或多个，用于在流上提供定位标准分数。基于定位标准，可由流选择器230仅选择经PBF处理的流中的一个(例如，具有最高SNR的流)以用于进一步处理。由于所选择的(例如，用于进一步处理的)流是波束形成的，所以来自所有方向(例如，未被所形成的波束覆盖的区域)的噪声的影响减小，并且用户的语音被更好地暴露(例如，更清晰或更少地受噪声阻碍)。这改善了SNR，从而产生更好的远场ASR性能。

在示例中，可由后过滤块245将一个或多个后过滤操作应用于流。示例后过滤操作可以包括：

·NR 250——用于减少残留噪声；

·频谱分布匹配(SPM)255——用于均衡语音信号以匹配ASR训练语料库的频率响应；或者

·AGC 260——用于标准化信号水平。

在示例中，NR 250可以接受包含经PBF处理的信号的参考流，该参考流被流选择器块230分类为至少与其他可用流(例如，指向与用户的方向不同的方向的波束)相比有噪声。在示例中，有噪声流可被用来计算NR 250将去除的噪声基底的稳健估计。

在示例中，AGC块260使用参考信号。在示例中，参考信号可以是来自回放路径的典型环回信号。

一些实验已经表明，SPM块255帮助一些ASR引擎，并且NR 250帮助一些其他(例如，不同的)ASR引擎。因此，在示例中，包含这些组件中的一个或多个是可选的，从而为性能、有效性、功率使用、设计复杂性等提供进一步的定制。

远场预处理流水线的输出可以被提供给可以实现ASR引擎285的客户端280。然而，在示例中，客户端280可以实现语音唤醒(WoV)引擎290或在VoIP通信通道295中实现。图4图示了使用远场预处理流水线205获得的远场ASR WER改善。图4图示了使用远场预处理流水线获得的针对不同噪声类型(LiRo：起居室；SiSp：侧扬声器；Public：公共场所；以及Work：工作场所)的远场ASR WER改善；未处理的信号是虚线(在顶部)，经处理的信号是短的双点划线(在底部)。

图2中所图示的所有块都是被实现和评估，以发现这些块对远场ASR性能的影响。结果表明，流水线的每个元件都引入了改善。在远场场景中从多个ASR引擎获得的较低WER说明了该改善。此外，离线组合多个块来模拟远场预处理流水线。与单独地使用块相比，该模拟展现出更好的ASR性能。然后将远场预处理流水线205移植到实时音频栈，并在图1所图示的智能家庭网关设备(例如，智能扩音器)的实体模型(mock-up)中使用该远场处理流水线205。对该实体模型的实时演示表现出所模拟的远场ASR改善。尽管上面讨论的技术在远场应用中是有用的，但这些技术也可以应用于近场ASR或其他ASR应用(例如，距离)。

图5图示了根据实施例的用于自动语音识别预处理的方法500的示例。方法500的操作在诸如上文或下文所描述的电子硬件(例如，电路)中实现。

在操作505处，获得多个音频通道。在示例中，获得多个音频通道包括：在波束形成器处理器将多个音频通道划分为诸波束之前，去除混响。

在操作510处，将多个音频通道划分为诸波束。在示例中，将多个音频通道划分为诸波束包括：在波束形成器处理器处接收多个音频通道；基于产生该多个音频通道的麦克风之间的关系将该多个音频通道划分为两个音频通道的分区；以及将每个分区提供给基于相位的波束形成器。

在操作515处，基于噪声水平选择对应于诸波束中的波束的分区。在示例中，基于噪声水平选择对应于该波束的分区包括：比较诸波束之间的噪声水平；并基于具有从该比较确定的最低噪声水平来选择波束。在示例中，执行分区选择的流选择器的短语质量记分器比较诸波束之间的噪声水平。在示例中，流选择器的信噪比(SNR)计为每个波束提供噪声水平。

在操作520处，从所选分区过滤语音信号。在示例中，过滤包括：将降噪应用于音频信号。在示例中，过滤包括：将频谱匹配分布(SPM)应用于音频信号。在示例中，在将降噪应用于音频信号之后，应用SPM。

在示例中，过滤包括：将自动增益控制应用于音频信号。在示例中，在将频谱匹配分布应用于音频信号之后，应用自动增益控制。

在示例中，可以通过可选地对多个音频通道执行声学回声消除来扩展方法500。在示例中，在将多个音频通道划分为诸波束之前，执行声学回声消除。

在操作525处，经过滤的音频信号经由预处理流水线的输出接口被提供给外部实体。

图6图示出可在其上执行本文所讨论的技术(例如，方法)中的任何一者或多者的示例机器600的框图。在替代实施例中，机器600可作为独立设备来操作或可被连接(例如，联网)至其他机器。在联网的部署中，机器600可在服务器-客户端网络环境中作为服务器机器、客户端机器或这两者来操作。在示例中，机器600可充当对等(P2P)(或其他分布式)网络环境中的对等机器。机器600可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、web装置、网络路由器、交换机或桥接器、或者能够执行指定该机器要采取的行动的(顺序的或者以其他方式的)指令的任何机器。此外，虽然只图示出单个机器，但是术语“机器”也应当认为包括单独或联合地执行一组(或多组)指令以便执行本文所讨论的方法中的任何一种或多种方法的机器的任意集合，诸如云计算、软件即服务(SaaS)和其他计算机集群配置。

如本文中所述的示例可包括逻辑或多个组件或机制，或可通过逻辑或多个组件或机制来操作。电路***是实现于包括硬件(例如，简单电路、门、逻辑等)的有形实体中的电路集合。电路***成员随着时间的推移以及底层的硬件变化可以是灵活的。电路***包括在操作时可单独地或组合地执行所指定操作的成员。在示例中，电路***的硬件可被永久地设计为执行特定操作(例如，硬连线式)。在示例中，电路***的硬件可包括可变连接的物理组件(例如，执行单元、晶体管、简单电路等)，包括物理上被修改(例如，对不变聚集粒子的磁性、电气、可移动地布置等)以对特定操作的指令进行编码的计算机可读介质。在连接物理组件时，硬件组成部分的底层电气性质改变，例如从绝缘体改变为导体，反之亦然。这些指令使嵌入式硬件(例如，执行单元或加载机构)能够经由可变连接在硬件中创建电路***的成员以在操作时执行特定操作的部分。相应地，当设备正在操作时，计算机可读介质可通信地耦合至电路***成员的其他组件。在示例中，物理组件中的任一个可在多于一个电路***的多于一个成员中使用。例如，在操作下，执行单元可在一个时刻在第一电路***的第一电路中被使用，并且在不同的时间被第一电路***中的第二电路或被第二电路***中的第三电路重新使用。

机器(例如，计算机***)600可包括硬件处理器602(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或者其任何组合)、主存储器604以及静态存储器606，这些部件中的一些或全部可经由互连链路(例如，总线)608彼此通信。机器600还可包括显示单元610、字母数字输入设备612(例如，键盘)以及用户界面(UI)导航设备614(例如，鼠标)。在示例中，显示单元1310、输入设备612以及UI导航设备614可以是触摸屏显示器。机器600可另外包括存储设备(例如，驱动单元)616、信号生成设备618(例如，扬声器)、网络接口设备620以及一个或多个传感器621(诸如，全球定位***(GPS)传感器、罗盘、加速度计或其他传感器)。机器600可包括用于以与一个或多个***设备(例如，打印机、读卡器等)通信或者控制一个或多个***设备(例如，打印机、读卡器等)的输出控制器628，诸如串行(例如，通用串行总线(USB))、并行、或者其他有线或无线(例如，红外(IR)、近场通信(NFC)等)连接。

存储设备616可包括在其上存储有一组或者多组数据结构或指令624(例如，软件)的机器可读介质622，该数据结构或指令624具体化本文中所描述的技术或功能中的任何一者或多者或由本文中所描述的技术或功能中的任何一者或多者利用。指令624还可在机器600执行该指令624期间完全地或至少部分地驻留在主存储器604内，驻留在静态存储器606内，或者驻留在硬件处理器602内。在示例中，硬件处理器602、主存储器604、静态存储器606或存储设备616的其中一者或任何组合都可以构成机器可读介质。

虽然机器可读介质622被图示为单一介质，但是术语“机器可读介质”可包括被配置成用于存储一条或多条指令624的单一介质或多个介质(例如，集中式或分布式数据库、和/或相关联的高速缓存和服务器)。

术语“机器可读介质”包括能够存储、编码或承载供机器600执行并且使机器600执行本公开的技术中的任何一项或多项的指令、或者能够存储、编码或承载由此类指令使用的或与此类指令相关联的数据结构的任何介质。非限制性的机器可读介质示例可以包括固态存储器以及光和磁介质。在示例中，大容量机器可读介质包括具有多个颗粒的机器可读介质，这些颗粒具有不变(例如，静止)质量。相应地，大容量机器可读介质不是瞬态传播信号。大容量机器可读介质的具体示例可包括：非易失性存储器，诸如半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))以及闪存设备；磁盘，诸如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

还可以经由利用许多传输协议(例如，帧中继、网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等等)中的任何一种协议的网络接口设备620，通过使用传输介质的通信网络626来进一步发送或接收指令624。示例通信网络可包括局域网(LAN)、广域网(WAN)、分组数据网络(例如，因特网)、移动电话网络(例如，蜂窝网络)、普通老式电话(POTS)网络、以及无线数据网络(例如，称为的电气与电子工程师协会(IEEE)802.11系列标准、称为/>的IEEE 802.16系列标准)、IEEE 802.15.4系列标准、对等(P2P)网络等。在示例中，网络接口设备620可包括用于连接到通信网络626的一个或多个物理插口(jack)(例如，以太网、同轴、或电话插口)或者一根或多根天线。在示例中，网络接口设备620可包括使用单输入多输出(SIMO)、多输入多输出(MIMO)、或多输入单输出(MISO)技术中的至少一种技术来无线地通信的多根天线。术语“传输介质”应当认为包括能够存储、编码或承载供由机器600执行的指令的任何无形介质，并且“传输介质”包括数字或模拟通信信号或者用于促进此类软件的通信的其他无形的介质。

附加注释和示例

示例1是一种用于自动语音识别预处理的***，所述***包括：采样器，所述采样器用于获得多个音频通道；去混响器，所述去混响器用于从所述多个音频通道去除混响；波束形成器处理器，所述波束形成器处理器用于在去除混响后将所述多个音频通道划分为诸波束；流选择器，所述流选择器用于基于噪声水平选择与所述诸波束中的波束相对应的分区；过滤器，所述过滤器用于降低来自所选分区的语音信号中的噪声水平；以及控制器，所述控制器用于经由预处理流水线的输出接口向外部实体提供音频信号。

在示例2中，示例1的主题可选地包括回声消除块，所述回声消除块设置在所述去混响器与所述波束形成器处理器之间，以用于：在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前，消除来自所述多个音频通道的回声。

在示例3中，示例1-2中的任何一个或多个的主题可选地包括，其中，为了将所述多个音频通道划分为诸波束，所述波束形成器处理器用于：接收所述多个音频通道；基于产生所述多个音频通道的麦克风之间的关系，将所述多个音频通道划分成两个音频通道的分区；以及将每个分区提供给基于相位的波束形成器。

在示例4中，示例1-3中的任何一个或多个的主题可选地包括，其中，为了基于噪声水平选择与波束相对应的分区，所述流选择器用于：比较所述诸波束之间的语音水平；以及基于具有从所述比较确定的最高语音水平来选择波束。

在示例5中，示例1-4中的任何一个或多个的主题可选地包括，其中，为了基于噪声水平选择与波束相对应的分区，所述流选择器用于：比较所述诸波束之间的噪声水平；以及基于具有从所述比较确定的最低噪声水平来选择波束。

在示例6中，示例5的主题可选地包括，其中所述流选择器使用所述流选择器的短语质量记分器来比较所述诸波束之间的噪声水平。

在示例7中，示例6的主题可选地包括，其中所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。

在示例8中，示例1-7中的任何一个或多个的主题可选地包括，其中，为了降低来自所述所选分区的语音信号中的噪声水平，所述过滤器将降噪应用于所述音频信号。

在示例9中，示例1-8中的任何一个或多个的主题可选地包括，其中，为了降低来自所述所选分区的语音信号中的噪声水平，所述过滤器将频谱分布匹配(SPM)应用于所述音频信号。

在示例10中，示例9的主题可选地包括，其中，在将降噪应用于所述音频信号之后，应用所述频谱分布匹配。

在示例11中，示例1-10中的任何一个或多个的主题可选地包括，其中，为了降低来自所述所选分区的语音信号中的噪声水平，所述过滤器将自动增益控制应用于所述音频信号。

在示例12中，示例11的主题可选地包括，其中，在将频谱分布匹配应用于所述音频信号之后，应用所述自动增益控制。

在示例13中，示例1-12中的任何一个或多个的主题可选地包括第二过滤器，所述第二过滤器用于对所述多个音频通道执行声学回声消除。

在示例14中，示例13的主题可选地包括，其中，在将所述多个音频通道划分为诸波束之前，执行所述声学回声消除。

示例15至少是包括用于预处理流水线的指令的机器可读介质，所述指令在由机器执行时使所述机器执行包括以下步骤的操作：获得多个音频通道；从所述音频通道去除混响；在去除混响后，将所述多个音频通道划分为诸波束；基于噪声水平，选择与所述诸波束中的波束相对应的分区；对来自所选分区的语音信号进行过滤；以及经由预处理流水线的输出接口向外部实体提供经过滤的音频信号。

在示例16中，示例15的主题可选地包括，其中所述操作包括：在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前，从所述多个音频通道消除回声。

在示例17中，示例15-16中的任何一个或多个的主题可选地包括，其中，将所述多个音频通道划分为诸波束包括：在波束形成器处理器处接收所述多个音频通道；基于产生所述多个音频通道的麦克风之间的关系，将所述多个音频通道划分成两个音频通道的分区；以及将每个分区提供给基于相位的波束形成器。

在示例18中，示例15-17中的任何一个或多个的主题可选地包括，其中，基于噪声水平选择对应于波束的分区包括：比较所述诸波束之间的语音水平；以及基于具有从所述比较确定的最高语音水平来选择波束。

在示例19中，示例15-18中的任何一个或多个的主题可选地包括，其中，基于噪声水平选择对应于波束的分区包括：比较所述诸波束之间的噪声水平；以及基于具有从所述比较确定的最低噪声水平来选择波束。

在示例20中，示例19的主题可选地包括，其中，执行分区选择的流选择器的短语质量记分器比较所述诸波束之间的噪声水平。

在示例21中，示例20的主题可选地包括，其中，所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。

在示例22中，示例15-21中的任何一个或多个的主题可选地包括，其中。所述过滤包括：将降噪应用于所述音频信号。

在示例23中，示例15-22中的任何一个或多个的主题可选地包括，其中，所述过滤包括：将频谱分布匹配(SPM)应用于所述音频信号。

在示例24中，示例23的主题可选地包括，其中，在将降噪应用于所述音频信号之后，应用所述频谱分布匹配。

在示例25中，示例15-24中的任何一个或多个的主题可选地包括，其中，所述过滤包括：将自动增益控制应用于所述音频信号。

在示例26中，示例25的主题可选地包括，其中，在将频谱分布匹配应用于所述音频信号之后，应用所述自动增益控制。

在示例27中，示例15-26中的任何一个或多个的主题可选地包括，其中，所述操作包括：对所述多个音频通道执行声学回声消除。

在示例28中，示例27的主题可选地包括，其中，在将所述多个音频通道划分为诸波束之前，执行所述声学回声消除。

示例29是一种用于自动语音识别预处理的方法，所述方法包括：获得多个音频通道；从所述音频通道去除混响；在去除所述混响后，将所述多个音频通道划分为诸波束；基于噪声水平，选择与所述诸波束中的波束相对应的分区；对来自所选分区的语音信号进行过滤；以及经由预处理流水线的输出接口向外部实体提供过滤出的音频信号。

在示例30中，示例29的主题可选地包括，在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前，从所述多个音频通道消除回声。

在示例31中，示例29-30中的任何一个或多个的主题可选地包括，其中，将所述多个音频通道划分为诸波束包括：在波束形成器处理器处接收所述多个音频通道；基于产生所述多个音频通道的麦克风之间的关系，将所述多个音频通道划分成两个音频通道的分区；以及将每个分区提供给基于相位的波束形成器。

在示例32中，示例29-31中的任何一个或多个的主题可选地包括，其中，基于噪声水平选择对应于波束的分区包括：比较所述诸波束之间的语音水平；以及基于具有从所述比较确定的最高语音水平来选择波束。

在示例33中，示例29-32中的任何一个或多个的主题可选地包括，其中，基于噪声水平选择对应于波束的分区包括：比较所述诸波束之间的噪声水平；以及基于具有从所述比较确定的最低噪声水平来选择波束。

在示例34中，示例33的主题可选地包括，其中，执行分区选择的流选择器的短语质量记分器比较所述诸波束之间的噪声水平。

在示例35中，示例34的主题可选地包括，其中，所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。

在示例36中，示例29-35中的任何一个或多个的主题可选地包括，其中，所述过滤包括：将降噪应用于所述音频信号。

在示例37中，示例29-36中的任何一个或多个的主题可选地包括，其中，所述过滤包括：将频谱分布匹配(SPM)应用于所述音频信号。

在示例38中，示例37的主题可选地包括，其中，在将降噪应用于所述音频信号之后，应用所述频谱分布匹配。

在示例39中，示例29-38中的任何一个或多个的主题可选地包括，其中，所述过滤包括：将自动增益控制应用于所述音频信号。

在示例40中，示例39的主题可选地包括，其中，在将频谱分布匹配应用于所述音频信号之后，应用所述自动增益控制。

在示例41中，示例29-40中的任何一个或多个的主题可选地包括：对所述多个音频通道执行声学回声消除。

在示例42中，示例41的主题可选地包括，其中，在将所述多个音频通道划分为诸波束之前，执行所述声学回声消除。

示例43是一种***，所述***包括用于执行方法29-42中的任一方法的装置。

示例44是至少一种机器可读介质，该机器可读介质包括指令，所述指令在被机器执行时，使所述机器执行方法29-42中的任一方法。

示例45是一种用于自动语音识别预处理的***，所述***包括：用于获得多个音频通道的装置；用于从所述音频通道去除混响的装置；用于在去除所述混响后将所述多个音频通道划分为诸波束的装置；用于基于噪声水平选择与所述诸波束中的波束相对应的分区的装置；用于对来自所选分区的语音信号进行过滤的装置；以及用于经由预处理流水线的输出接口向外部实体提供过滤出的音频信号的装置。

在示例46中，示例45的主题可选地包括，用于在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前从所述多个音频通道消除回声的装置。

在示例47中，示例45-46中的任何一个或多个的主题可选地包括，其中，所述用于将所述多个音频通道划分为诸波束的装置包括：用于在波束形成器处理器处接收所述多个音频通道的装置；用于基于产生所述多个音频通道的麦克风之间的关系将所述多个音频通道划分成两个音频通道的分区的装置；以及将每个分区提供给基于相位的波束形成器。

在示例48中，示例45-47中的任何一个或多个的主题可选地包括，其中，所述用于基于噪声水平选择对应于波束的分区的装置包括：用于比较所述诸波束之间的语音水平以及基于具有从所述比较确定的最高语音水平来选择波束的装置。

在示例49中，示例45-48中的任何一个或多个的主题可选地包括，其中所述用于基于噪声水平选择对应于波束的分区的装置包括：用于比较所述诸波束之间的噪声水平以及基于具有从所述比较确定的最低噪声水平来选择波束的装置。

在示例50中，示例49的主题可选地包括，其中，执行分区选择的流选择器的短语质量记分器比较所述诸波束之间的噪声水平。

在示例51中，示例50的主题可选地包括，其中，所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。

在示例52中，示例45-51中的任何一个或多个的主题可选地包括，其中，所述用于过滤的装置包括：用于将降噪应用于所述音频信号的装置。

在示例53中，示例45-52中的任何一个或多个的主题可选地包括，其中，所述用于过滤的装置包括：用于将频谱分布匹配(SPM)应用于所述音频信号的装置。

在示例54中，示例53的主题可选地包括，其中，在将降噪应用于所述音频信号之后，应用所述频谱分布匹配。

在示例55中，示例45-54中的任何一个或多个的主题可选地包括，其中，所述用于过滤的装置包括用于：将自动增益控制应用于所述音频信号的装置。

在示例56中，示例55的主题可选地包括，其中，在将频谱分布匹配应用于所述音频信号之后，应用所述自动增益控制。

在示例57中，示例45-56中的任何一个或多个的主题可选地包括：用于对所述多个音频通道执行声学回声消除的装置。

在示例58中，示例57的主题可选地包括，其中，在将所述多个音频通道划分为诸波束之前，执行所述声学回声消除。

以上具体实施方式包括对附图的引用，附图形成具体实施方式的部分。附图通过图示来示出可实践的特定实施例。这些实施例在本文中也被称为“示例”。此类示例可包括除所示出或所描述的那些要素以外的要素。然而，本申请发明人还构想了其中只提供所示或所描述的那些要素的示例。而且，本申请发明人还构想了相对于特定示例(或者其一个或多个方面)或者相对于本文中所示或所描述的其他示例(或者其一个或多个方面)使用所示或所描述的那些要素(或者其一个或多个方面)的组合或排列的示例。

本文档中所涉及的所有公开、专利、和专利文档通过引用整体结合于此，好像通过引用单独地结合。本文档和通过引用所结合的那些文档之间的不一致的用法的情况，在结合的引用中的用法应当被认为是对本文档的用法的补充；对于不可调和的不一致，以本文档中的用法为准。

在此文档中，如在专利文档中常见的那样，使用术语“一(a或an)”以包括一个或多于一个，这独立于“至少一个”或“一个或多个”的任何其他实例或用法。在此文档中，使用术语“或”来指非排他性的或，使得除非另外指示，否则“A或B”包括“A但非B”、“B但非A”、以及“A和B”。在所附权利要求书中，术语“包括(including)”和“其中(in which)”被用作相应的术语“包括(comprising)”和“其中(wherein)”的普通英语等价词。此外，在所附权利要求书中，术语“包括”和“包含”是开放式的，也就是说，包括了除权利要求中的此类术语之后列举的那些元件之外的元件的***、设备、制品或过程仍被视为落在那项权利要求的范围内。此外，在所附权利要求书中，术语“第一”、“第二”、“第三”等仅用作标记，而不旨在对它们的对象施加数值要求。

以上描述旨在是说明性的，而非限制性的。例如，上述示例(或者其一个或多个方面)可相互组合使用。诸如，本领域普通技术人员可通过回顾以上描述来使用其他实施例。摘要用于允许读者快速地确认本技术公开的性质，并且提交此摘要需理解：它不用于解释或限制权利要求书的范围或含义。此外，在以上具体实施方式中，各种特征可共同成组以使本公开流畅。但这不应被解释为意指未要求保护的所公开特征对任何权利要求而言都是必要的。相反，发明性主题可在于少于特定的所公开实施例的所有特征。因此，所附权利要求在此被结合到具体实施方式中，其中每项权利要求独立成为单独实施例。各实施例的范围应当参考所附权利要求连同这些权利要求赋予的等价方案的全部范围而确定。

Claims

1.一种用于自动语音识别预处理的***，所述***包括：

采样器，所述采样器用于获得多个音频通道；

去混响器，所述去混响器用于从所述多个音频通道去除混响；

波束形成器处理器，所述波束形成器处理器用于在去除混响后将所述多个音频通道划分为多个波束；

流选择器，所述流选择器用于基于噪声水平选择与所述多个波束中的波束相对应的分区；

过滤器，所述过滤器用于降低来自所选分区的语音信号中的噪声水平；以及

控制器，所述控制器用于经由预处理流水线的输出接口向外部实体提供音频信号。

2.如权利要求1所述的***，包括回声消除块，所述回声消除块设置在所述去混响器与所述波束形成器处理器之间，以用于：在所述混响被去除之后并且在所述多个音频通道被划分为多个波束之前，消除来自所述多个音频通道的回声。

3.如权利要求1所述的***，其特征在于，为了将所述多个音频通道划分为多分波束，所述波束形成器处理器用于：

接收所述多个音频通道；

基于产生所述多个音频通道的麦克风之间的关系，将所述多个音频通道划分成两个音频通道的分区；以及

将每个分区提供给基于相位的波束形成器。

4.如权利要求1所述的***，其特征在于，为了基于噪声水平选择与波束相对应的分区，所述流选择器用于：

比较所述多个波束之间的噪声水平；以及

基于具有从所述比较确定的最低噪声水平来选择波束。

5.如权利要求4所述的***，其特征在于，所述流选择器使用所述流选择器的短语质量记分器来比较所述多个波束之间的噪声水平。

6.如权利要求1所述的***，其特征在于，为了降低来自所选分区的语音信号中的噪声水平，所述过滤器将降噪应用于所述音频信号。

7.如权利要求1所述的***，其特征在于，为了降低来自所选分区的语音信号中的噪声水平，所述过滤器将频谱分布匹配(SPM)应用于所述音频信号。

8.如权利要求7所述的***，其特征在于，在将降噪应用于所述音频信号之后，应用所述频谱分布匹配。

9.如权利要求1所述的***，其特征在于，为了降低来自所选分区的语音信号中的噪声水平，所述过滤器将自动增益控制应用于所述音频信号。

10.如权利要求9所述的***，其特征在于，在将频谱分布匹配应用于所述音频信号之后，应用所述自动增益控制。

11.一种用于自动语音识别预处理的方法，所述方法包括：

获得多个音频通道；

从所述音频通道去除混响；

在去除所述混响后，将所述多个音频通道划分为多个波束；

基于噪声水平选择与所述多个波束中的波束相对应的分区；

对来自所选分区的语音信号进行过滤；以及

经由预处理流水线的输出接口向外部实体提供经过滤的音频信号。

12.如权利要求11所述的方法，包括：在所述混响被去除之后并且在所述多个音频通道被划分为多个波束之前，从所述多个音频通道消除回声。

13.如权利要求11所述的方法，其特征在于，将所述多个音频通道划分为多个波束包括：

在波束形成器处理器处接收所述多个音频通道；

将每个分区提供给基于相位的波束形成器。

14.如权利要求11所述的方法，其特征在于，基于噪声水平选择对应于波束的分区包括：比较所述多个波束之间的语音水平；以及基于具有从所述比较确定的最高语音水平来选择波束。

15.如权利要求11所述的方法，其特征在于，基于噪声水平选择对应于波束的分区包括：比较所述多个波束之间的噪声水平；以及基于具有从所述比较确定的最低噪声水平来选择波束。

16.如权利要求15所述的方法，其特征在于，执行分区选择的流选择器的短语质量记分器比较所述多个波束之间的噪声水平。

17.如权利要求11所述的方法，其特征在于，所述过滤包括：将降噪应用于所述音频信号。

18.如权利要求11所述的方法，其特征在于，所述过滤包括：将频谱分布匹配(SPM)应用于所述音频信号。

19.如权利要求18所述的方法，其特征在于，在将降噪应用于所述音频信号之后，应用所述频谱分布匹配。

20.如权利要求11所述的方法，其特征在于，所述过滤包括：将自动增益控制应用于所述音频信号。

21.如权利要求20所述的方法，其特征在于，在将频谱分布匹配应用于所述音频信号之后，应用所述自动增益控制。

22.如权利要求11所述的方法，包括：对所述多个音频通道执行声学回声消除。

23.如权利要求22所述的方法，其特征在于，在将所述多个音频通道划分为多个波束之前，执行所述声学回声消除。

24.一种***，包括用于执行如权利要求11-23中任一项所述的方法的装置。

25.至少一种机器可读介质，包括指令，所述指令在被机器执行时，使所述机器执行如权利要求11-23中任一项所述的方法。