CN109074816B - 远场自动语音识别预处理 - Google Patents

远场自动语音识别预处理 Download PDF

Info

Publication number
CN109074816B
CN109074816B CN201780029587.0A CN201780029587A CN109074816B CN 109074816 B CN109074816 B CN 109074816B CN 201780029587 A CN201780029587 A CN 201780029587A CN 109074816 B CN109074816 B CN 109074816B
Authority
CN
China
Prior art keywords
audio channels
beams
audio
audio signal
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780029587.0A
Other languages
English (en)
Other versions
CN109074816A (zh
Inventor
A·库普里亚诺夫
P·玛兹斯基
L·库里洛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN109074816A publication Critical patent/CN109074816A/zh
Application granted granted Critical
Publication of CN109074816B publication Critical patent/CN109074816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R31/00Apparatus or processes specially adapted for the manufacture of transducers or diaphragms therefor
    • H04R31/006Interconnection of transducer parts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/28Transducer mountings or enclosures modified by provision of mechanical or acoustic impedances, e.g. resonator, damping means
    • H04R1/2869Reduction of undesired resonances, i.e. standing waves within enclosure, or of undesired vibrations, i.e. of the enclosure itself
    • H04R1/2876Reduction of undesired resonances, i.e. standing waves within enclosure, or of undesired vibrations, i.e. of the enclosure itself by means of damping material, e.g. as cladding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • Manufacturing & Machinery (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本文描述了用于自动语音识别预处理的***和技术。首先,可以获得多个音频通道。然后,可以从音频通道去除混响。在去除混响之后,可以将多个音频通道划分为诸波束。可以基于噪声水平选择与诸波束中的波束对应的分区。可以从所选分区过滤音频信号。经过滤的音频信号可以经由预处理流水线的输出接口被提供给外部实体。

Description

远场自动语音识别预处理
优先权要求
本专利申请要求2016年12月22日提交的美国申请序列第15/388,147号的优先权权益,该申请要求2016年6月15日提交的发明名称为“远场自动语音识别”的美国临时申请序列第62/350,507号的优先权权益,两者通过引用整体结合于此。
技术领域
这里描述的实施例总体上涉及自动语音识别(ASR),更具体地涉及改进ASR预处理。
背景技术
ASR涉及用于理解人类语言的基于机器的技术集合。ASR是跨学科的,通常涉及麦克风、模数转换、频率处理、数据库和人工智能技术,用于将口语单词转换为不仅是人类说话者所说的内容(例如,抄本)而且是人类说话者所表达的意思(例如,语义理解)的文本或机器可读的表示。远场ASR涉及降低在距麦克风或麦克风阵列比传统意义上在ASR处理流水线中所考虑的情况更远的情况下进行的讲话中的字错误率(WER)。这种距离通常会降低信噪比(SNR),从而增加传统ASR***的WER。如本文中所使用,远场ASR涉及距麦克风超过半米的距离。
附图说明
在附图中(这些附图不一定是按比例绘制的),相同的数字可以描述不同视图中的类似的组件。具有不同的字母后缀的相同的数字可以表示类似组件的不同实例。附图一般通过示例的方式而不是限制的方式来图示在本文档中所讨论的各实施例。
图1是根据实施例的智能家庭网关外壳的示例。
图2是根据实施例的用于远场自动语音识别预处理的***的示例的框图。
图3图示了根据实施例的基于相位的波束形成(PBF)方向性图案。
图4是根据实施例的针对不同类型的噪声的远场ASR WER改善的曲线图。
图5图示了根据实施例的用于自动语音识别预处理的方法的示例。
图6是图示出可以在其上实现一个或多个实施例的机器的示例的框图。
具体实施方式
本文中的实施例和示例总体上描述了用于自动语音识别预处理的多个***、设备和技术。然而,应当理解,这些***、设备和技术是说明基本概念的示例。
图1是根据实施例的智能家庭网关105的示例。如图所示,外壳顶上的圆圈是管腔110,该管腔110后面是被容纳的麦克风(如图所示,有八个麦克风)。虚线示出了处于线性布置115的麦克风以及处于圆形布置120的麦克风。本文中描述的许多示例以相对于设备105的这些双重布置(例如,线性115和圆形120)操作。尽管这里的设备105采用智能家居网关的形式,但是可以设想其他配置,诸如台式或膝上型计算机配置、冰箱或其他设备等。
导致ASR的远场性能下降的因素可能包括由于混响、回声、噪声或幅度损失中的一些或所有引起的语音信号质量降级。例如,从几个实验中,发现了与远场ASR相关的四个问题:混响;回声;噪声;和幅度损失。可以通过智能地对各种处理技术进行排序来减轻这些因素中的一个或所有因素的影响。例如,混响(例如,产生混响)减少使得能够使用不是设计用于在混响条件下工作的波束形成器和降噪(NR)技术。在另一个示例中,声学回声消除(AEC)减少了由内部扩音器产生的回声。此外,例如,波束形成器和另外的后过滤模块降低了噪声水平。自动增益控制(AGC)设备抵消幅度损失。总的来说,在所描述的远场预处理流水线中使用的处理的独特的组合和顺序实现了准确的远场ASR。
设备105中的恰如此类的这种流水线的示例可以包括采样器125、去混响器127、波束形成器处理器130、流选择器135、过滤器140和控制器145。这些组件中的每一个都在诸如下文描述的那些电子硬件(例如,电路)中实现。
采样器125布置成获得多个音频通道。因此,采样器125可以是麦克风阵列的一部分,具有在麦克风输出上的轻击,或者具有经由设备105的另一组件递送的多个音频通道。在示例中,音频通道是来自单个麦克风的音频。在示例中,音频通道是来自多个麦克风的音频,其中来自这些麦克风的信号基于麦克风的物理布置(诸如间隔、线性或圆形关系等)相关联。在示例中,在由采样器125获得多个音频通道之后,在波束形成器处理器将多个音频通道划分成诸波束之前,去混响器127去除混响。去除混响可以使用各种技术来完成,诸如短时傅立叶变换(STFT)域逆过滤方法、非负房间脉冲响应(RIR)建模、统计RIR建模或非线性映射(例如,使用深度神经网络或双向长短期记忆(BLSTM)递归神经网络的去噪自动编码器)。在通过采样器125获得多个音频通道之后,并且在通过去混响器127将去混响应用于该音频通道之后,可以将输出引导至波束形成器处理器130或者由波束形成器处理器130检取该输出。
波束形成器处理器130被布置为将多个音频通道划分成诸波束。这里,波束指的是从特定方向接收的能量。通常,给定单个固定式麦克风,可以确定声能的频率和幅度,但是没有足够的信息再来确定方向。添加第二麦克风(例如,类似于两个人耳)提供两个信号,这两个信号可以在频率和幅度上相关,但可能在时间上变化。利用这些麦克风之间的已知且固定的关系,音频信号的时间变化可以提供能量的相对方向。然后可以将其认为是波束。因此,在示例中,为了将多个音频通道划分为诸波束,波束形成器处理器130被布置为获得(例如,接收或检取)多个音频通道,基于产生多个音频通道的麦克风之间的关系将多个音频通道划分为两个音频通道的分区,并将每个分区提供给基于相位的波束形成器。在该示例中,音频通道分区操作允许波束形成器处理器130或基于相位的波束形成器利用麦克风的已知物理布置来确定时间方差(例如,信号同相程度的度量)。如先前所解释,这提供了确定能量(例如声音)来自什么方向的信息。波束形成在找到用于处理ASR的干净信号时提供另一级别的控制。
流选择器135被布置为基于噪声水平选择与诸波束中的波束相对应的分区。在示例中,为了基于噪声水平选择对应于波束的分区,流选择器135被布置为比较诸波束之间的噪声水平,并基于具有从比较确定的最低噪声水平来选择波束。在示例中,流选择器135使用流选择器的短语质量记分器来比较跨诸波束的噪声水平。在示例中,流选择器的SNR计为每个波束提供噪声水平。因此,流选择器135在各种可能的输入源之间进行区分,以向下游处理器提供(例如,发送)更好的信号(或使更好的信号可用)。
过滤器140被布置成降低来自所选分区的音频信号中的噪声水平。在示例中,为了降低来自所选分区的音频信号中的噪声水平,过滤器140将降噪应用于音频信号。在示例中,为了增强来自所选分区的语音信号,过滤器将频谱分布匹配(SPM)应用于音频信号。在示例中,在将降噪应用于音频信号之后应用频谱分布匹配。
在示例中,为了增强所选分区中的语音信号,过滤器140将自动增益控制应用于音频信号。在示例中,在将频谱匹配分布应用于音频信号之后,应用自动增益控制。
在示例中,流水线可以可选地包括第二过滤器(未图示出)以用于对多个音频通道执行声学回声消除。在示例中,在将多个音频通道划分为诸波束之前,执行声学回声消除。在示例中,第二过滤器是去混响器127的一部分。
控制器145被布置为经由预处理流水线的输出接口将音频信号提供给外部实体。因此,控制器145与下游组件对接以进一步处理ASR***中的语义内容。
图2是根据实施例的用于远场自动语音识别预处理的***200的示例的框图。***200包括上面讨论的组件的附加示例。***200的组件在诸如上文或下文所描述的电子硬件(例如,电路)中实现。
***200包括用于实时远场ASR的流水线205。通过如图所示对***200的组件进行排序,可以重新引入先前由于混响而在远场ASR中被丢弃的ASR技术,诸如:
·基于相位的波束形成器(PBF);以及
·频谱分布匹配(SPM)
远场预处理流水线205可以由六个处理块组成:去混响器210;可选的AEC 215;波束形成器220;流选择器230;后过滤块245;和内容分析块265。在示例中,远场预处理块的顺序是重要的(即,它们必须按照图2中呈现的顺序)。远场预处理流水线205可以对多通道输入操作。可以从包含至少两个麦克风的麦克风阵列获得多通道输入。在示例中,可以使用的麦克风的数量没有上限。在示例中,对麦克风阵列几何形状(例如,线性、圆形等)没有限制。在示例中,麦克风的数量是偶数(例如,麦克风的数量对2求模为零)。
在去混响块210中,从多通道输入去除混响。可以调整去混响块210的参数以平衡计算复杂度和性能。如上所述,用于去除混响的技术可以包括预先配置的房间脉冲模型或其他模型。
在示例中,远场预处理流水线205可以与包含内部扩音器的设备一起使用。在该示例中,可以利用可选的多通道AEC块215来减少从扩音器到麦克风的声学泄漏。在示例中,AEC块215包括以下属性中的一个或多个:
·AEC块215位于去混响块210之后,因此AEC块215分析不受房间混响影响的信号;
·AEC块215创建使用多通道参考信号的消除过滤器,这样做由于可以从不同通道提取的附加信息而改善AEC性能;或者
·AEC块215位于光束形成器块220之前,而不是在光束形成器块220之后。
在AEC块215之后,多通道流已经(在可行的程度上)使房间混响和扩音器回声被去除。因此,波束形成器块220可以使用基于相位的波束形成器(PBF)225或者其他波束形成技术(诸如最小方差无失真响应波束形成器)来处理多通道流。通常,对于远场ASR,在不去除回声和混响的情况下不能使用PBF 225,因为PBF 225通常需要麦克风信号中的直接声音。在混响条件下,不满足该要求,因为也将捕获到反射(例如,非直接信号)。因此,对用户位置(PBF 225处理中的重要特征)的精确检测将是不太可能的。对于用户与设备之间大于两米的距离,该问题会恶化。然而,在所图示的布置中,几乎所有的反射(例如,这些反射的大部分能量)在PBF 225阶段之前被去除。因此,有可能有效地使用PBF 225。
PBF 225使用来自麦克风对的两个信号。因此,对于具有多于两个麦克风的麦克风阵列,可以使用多个PBF 225的实例(例如,对于每个专用对使用一个PBF 225)。每个PBF225实例可以朝(例如,相对于设备的)不同方向被转向。图3图示了当与本文所述的麦克风板一起使用时四个PBF 225实例的方向性图案。在图3中,来自八个麦克风的信号(两个空白的、两个对角条纹、两个对角交叉阴影线、以及两个垂直交叉阴影线(在中心处成对地分组,并且最中心的麦克风成组))被分组为四个转向对的覆盖区域[即,1)双点划线、2)单点划线、3)虚线、和4)点线的组]。如图所示,来自每个区域对的声音被馈送到单独的PBF 225实例中。结果,经PBF处理的信号指向四个不同的方向,每个方向具有45度的波束宽度。由于PBF 225处理是双向的——例如,相对于麦克风对的向前和向后方向相同的波束图案,这些方向垂直于在这两个麦克风之间绘制的线——因此组合后的解决方案提供360度覆盖(例如,图3中的圆形长短虚线)。
在示例中,由于四个有向流,用户定位是可能的。因此,流选择器230可以对照所选择的定位标准(诸如,例如使用内容分析块265中的信号水平测量(SLM)270或语音活动检测器(VAD)275的最高分数计算的最高信噪比(SNR))来评估每个有向流,并选择更有利于ASR的流。流选择器230可以包括短语质量记分器235或SNR计240中的一个或多个,用于在流上提供定位标准分数。基于定位标准,可由流选择器230仅选择经PBF处理的流中的一个(例如,具有最高SNR的流)以用于进一步处理。由于所选择的(例如,用于进一步处理的)流是波束形成的,所以来自所有方向(例如,未被所形成的波束覆盖的区域)的噪声的影响减小,并且用户的语音被更好地暴露(例如,更清晰或更少地受噪声阻碍)。这改善了SNR,从而产生更好的远场ASR性能。
在示例中,可由后过滤块245将一个或多个后过滤操作应用于流。示例后过滤操作可以包括:
·NR 250——用于减少残留噪声;
·频谱分布匹配(SPM)255——用于均衡语音信号以匹配ASR训练语料库的频率响应;或者
·AGC 260——用于标准化信号水平。
在示例中,NR 250可以接受包含经PBF处理的信号的参考流,该参考流被流选择器块230分类为至少与其他可用流(例如,指向与用户的方向不同的方向的波束)相比有噪声。在示例中,有噪声流可被用来计算NR 250将去除的噪声基底的稳健估计。
在示例中,AGC块260使用参考信号。在示例中,参考信号可以是来自回放路径的典型环回信号。
一些实验已经表明,SPM块255帮助一些ASR引擎,并且NR 250帮助一些其他(例如,不同的)ASR引擎。因此,在示例中,包含这些组件中的一个或多个是可选的,从而为性能、有效性、功率使用、设计复杂性等提供进一步的定制。
远场预处理流水线的输出可以被提供给可以实现ASR引擎285的客户端280。然而,在示例中,客户端280可以实现语音唤醒(WoV)引擎290或在VoIP通信通道295中实现。图4图示了使用远场预处理流水线205获得的远场ASR WER改善。图4图示了使用远场预处理流水线获得的针对不同噪声类型(LiRo:起居室;SiSp:侧扬声器;Public:公共场所;以及Work:工作场所)的远场ASR WER改善;未处理的信号是虚线(在顶部),经处理的信号是短的双点划线(在底部)。
图2中所图示的所有块都是被实现和评估,以发现这些块对远场ASR性能的影响。结果表明,流水线的每个元件都引入了改善。在远场场景中从多个ASR引擎获得的较低WER说明了该改善。此外,离线组合多个块来模拟远场预处理流水线。与单独地使用块相比,该模拟展现出更好的ASR性能。然后将远场预处理流水线205移植到实时音频栈,并在图1所图示的智能家庭网关设备(例如,智能扩音器)的实体模型(mock-up)中使用该远场处理流水线205。对该实体模型的实时演示表现出所模拟的远场ASR改善。尽管上面讨论的技术在远场应用中是有用的,但这些技术也可以应用于近场ASR或其他ASR应用(例如,距离)。
图5图示了根据实施例的用于自动语音识别预处理的方法500的示例。方法500的操作在诸如上文或下文所描述的电子硬件(例如,电路)中实现。
在操作505处,获得多个音频通道。在示例中,获得多个音频通道包括:在波束形成器处理器将多个音频通道划分为诸波束之前,去除混响。
在操作510处,将多个音频通道划分为诸波束。在示例中,将多个音频通道划分为诸波束包括:在波束形成器处理器处接收多个音频通道;基于产生该多个音频通道的麦克风之间的关系将该多个音频通道划分为两个音频通道的分区;以及将每个分区提供给基于相位的波束形成器。
在操作515处,基于噪声水平选择对应于诸波束中的波束的分区。在示例中,基于噪声水平选择对应于该波束的分区包括:比较诸波束之间的噪声水平;并基于具有从该比较确定的最低噪声水平来选择波束。在示例中,执行分区选择的流选择器的短语质量记分器比较诸波束之间的噪声水平。在示例中,流选择器的信噪比(SNR)计为每个波束提供噪声水平。
在操作520处,从所选分区过滤语音信号。在示例中,过滤包括:将降噪应用于音频信号。在示例中,过滤包括:将频谱匹配分布(SPM)应用于音频信号。在示例中,在将降噪应用于音频信号之后,应用SPM。
在示例中,过滤包括:将自动增益控制应用于音频信号。在示例中,在将频谱匹配分布应用于音频信号之后,应用自动增益控制。
在示例中,可以通过可选地对多个音频通道执行声学回声消除来扩展方法500。在示例中,在将多个音频通道划分为诸波束之前,执行声学回声消除。
在操作525处,经过滤的音频信号经由预处理流水线的输出接口被提供给外部实体。
图6图示出可在其上执行本文所讨论的技术(例如,方法)中的任何一者或多者的示例机器600的框图。在替代实施例中,机器600可作为独立设备来操作或可被连接(例如,联网)至其他机器。在联网的部署中,机器600可在服务器-客户端网络环境中作为服务器机器、客户端机器或这两者来操作。在示例中,机器600可充当对等(P2P)(或其他分布式)网络环境中的对等机器。机器600可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、web装置、网络路由器、交换机或桥接器、或者能够执行指定该机器要采取的行动的(顺序的或者以其他方式的)指令的任何机器。此外,虽然只图示出单个机器,但是术语“机器”也应当认为包括单独或联合地执行一组(或多组)指令以便执行本文所讨论的方法中的任何一种或多种方法的机器的任意集合,诸如云计算、软件即服务(SaaS)和其他计算机集群配置。
如本文中所述的示例可包括逻辑或多个组件或机制,或可通过逻辑或多个组件或机制来操作。电路***是实现于包括硬件(例如,简单电路、门、逻辑等)的有形实体中的电路集合。电路***成员随着时间的推移以及底层的硬件变化可以是灵活的。电路***包括在操作时可单独地或组合地执行所指定操作的成员。在示例中,电路***的硬件可被永久地设计为执行特定操作(例如,硬连线式)。在示例中,电路***的硬件可包括可变连接的物理组件(例如,执行单元、晶体管、简单电路等),包括物理上被修改(例如,对不变聚集粒子的磁性、电气、可移动地布置等)以对特定操作的指令进行编码的计算机可读介质。在连接物理组件时,硬件组成部分的底层电气性质改变,例如从绝缘体改变为导体,反之亦然。这些指令使嵌入式硬件(例如,执行单元或加载机构)能够经由可变连接在硬件中创建电路***的成员以在操作时执行特定操作的部分。相应地,当设备正在操作时,计算机可读介质可通信地耦合至电路***成员的其他组件。在示例中,物理组件中的任一个可在多于一个电路***的多于一个成员中使用。例如,在操作下,执行单元可在一个时刻在第一电路***的第一电路中被使用,并且在不同的时间被第一电路***中的第二电路或被第二电路***中的第三电路重新使用。
机器(例如,计算机***)600可包括硬件处理器602(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或者其任何组合)、主存储器604以及静态存储器606,这些部件中的一些或全部可经由互连链路(例如,总线)608彼此通信。机器600还可包括显示单元610、字母数字输入设备612(例如,键盘)以及用户界面(UI)导航设备614(例如,鼠标)。在示例中,显示单元1310、输入设备612以及UI导航设备614可以是触摸屏显示器。机器600可另外包括存储设备(例如,驱动单元)616、信号生成设备618(例如,扬声器)、网络接口设备620以及一个或多个传感器621(诸如,全球定位***(GPS)传感器、罗盘、加速度计或其他传感器)。机器600可包括用于以与一个或多个***设备(例如,打印机、读卡器等)通信或者控制一个或多个***设备(例如,打印机、读卡器等)的输出控制器628,诸如串行(例如,通用串行总线(USB))、并行、或者其他有线或无线(例如,红外(IR)、近场通信(NFC)等)连接。
存储设备616可包括在其上存储有一组或者多组数据结构或指令624(例如,软件)的机器可读介质622,该数据结构或指令624具体化本文中所描述的技术或功能中的任何一者或多者或由本文中所描述的技术或功能中的任何一者或多者利用。指令624还可在机器600执行该指令624期间完全地或至少部分地驻留在主存储器604内,驻留在静态存储器606内,或者驻留在硬件处理器602内。在示例中,硬件处理器602、主存储器604、静态存储器606或存储设备616的其中一者或任何组合都可以构成机器可读介质。
虽然机器可读介质622被图示为单一介质,但是术语“机器可读介质”可包括被配置成用于存储一条或多条指令624的单一介质或多个介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。
术语“机器可读介质”包括能够存储、编码或承载供机器600执行并且使机器600执行本公开的技术中的任何一项或多项的指令、或者能够存储、编码或承载由此类指令使用的或与此类指令相关联的数据结构的任何介质。非限制性的机器可读介质示例可以包括固态存储器以及光和磁介质。在示例中,大容量机器可读介质包括具有多个颗粒的机器可读介质,这些颗粒具有不变(例如,静止)质量。相应地,大容量机器可读介质不是瞬态传播信号。大容量机器可读介质的具体示例可包括:非易失性存储器,诸如半导体存储器设备(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))以及闪存设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。
还可以经由利用许多传输协议(例如,帧中继、网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等等)中的任何一种协议的网络接口设备620,通过使用传输介质的通信网络626来进一步发送或接收指令624。示例通信网络可包括局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络、以及无线数据网络(例如,称为的电气与电子工程师协会(IEEE)802.11系列标准、称为/>的IEEE 802.16系列标准)、IEEE 802.15.4系列标准、对等(P2P)网络等。在示例中,网络接口设备620可包括用于连接到通信网络626的一个或多个物理插口(jack)(例如,以太网、同轴、或电话插口)或者一根或多根天线。在示例中,网络接口设备620可包括使用单输入多输出(SIMO)、多输入多输出(MIMO)、或多输入单输出(MISO)技术中的至少一种技术来无线地通信的多根天线。术语“传输介质”应当认为包括能够存储、编码或承载供由机器600执行的指令的任何无形介质,并且“传输介质”包括数字或模拟通信信号或者用于促进此类软件的通信的其他无形的介质。
附加注释和示例
示例1是一种用于自动语音识别预处理的***,所述***包括:采样器,所述采样器用于获得多个音频通道;去混响器,所述去混响器用于从所述多个音频通道去除混响;波束形成器处理器,所述波束形成器处理器用于在去除混响后将所述多个音频通道划分为诸波束;流选择器,所述流选择器用于基于噪声水平选择与所述诸波束中的波束相对应的分区;过滤器,所述过滤器用于降低来自所选分区的语音信号中的噪声水平;以及控制器,所述控制器用于经由预处理流水线的输出接口向外部实体提供音频信号。
在示例2中,示例1的主题可选地包括回声消除块,所述回声消除块设置在所述去混响器与所述波束形成器处理器之间,以用于:在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前,消除来自所述多个音频通道的回声。
在示例3中,示例1-2中的任何一个或多个的主题可选地包括,其中,为了将所述多个音频通道划分为诸波束,所述波束形成器处理器用于:接收所述多个音频通道;基于产生所述多个音频通道的麦克风之间的关系,将所述多个音频通道划分成两个音频通道的分区;以及将每个分区提供给基于相位的波束形成器。
在示例4中,示例1-3中的任何一个或多个的主题可选地包括,其中,为了基于噪声水平选择与波束相对应的分区,所述流选择器用于:比较所述诸波束之间的语音水平;以及基于具有从所述比较确定的最高语音水平来选择波束。
在示例5中,示例1-4中的任何一个或多个的主题可选地包括,其中,为了基于噪声水平选择与波束相对应的分区,所述流选择器用于:比较所述诸波束之间的噪声水平;以及基于具有从所述比较确定的最低噪声水平来选择波束。
在示例6中,示例5的主题可选地包括,其中所述流选择器使用所述流选择器的短语质量记分器来比较所述诸波束之间的噪声水平。
在示例7中,示例6的主题可选地包括,其中所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。
在示例8中,示例1-7中的任何一个或多个的主题可选地包括,其中,为了降低来自所述所选分区的语音信号中的噪声水平,所述过滤器将降噪应用于所述音频信号。
在示例9中,示例1-8中的任何一个或多个的主题可选地包括,其中,为了降低来自所述所选分区的语音信号中的噪声水平,所述过滤器将频谱分布匹配(SPM)应用于所述音频信号。
在示例10中,示例9的主题可选地包括,其中,在将降噪应用于所述音频信号之后,应用所述频谱分布匹配。
在示例11中,示例1-10中的任何一个或多个的主题可选地包括,其中,为了降低来自所述所选分区的语音信号中的噪声水平,所述过滤器将自动增益控制应用于所述音频信号。
在示例12中,示例11的主题可选地包括,其中,在将频谱分布匹配应用于所述音频信号之后,应用所述自动增益控制。
在示例13中,示例1-12中的任何一个或多个的主题可选地包括第二过滤器,所述第二过滤器用于对所述多个音频通道执行声学回声消除。
在示例14中,示例13的主题可选地包括,其中,在将所述多个音频通道划分为诸波束之前,执行所述声学回声消除。
示例15至少是包括用于预处理流水线的指令的机器可读介质,所述指令在由机器执行时使所述机器执行包括以下步骤的操作:获得多个音频通道;从所述音频通道去除混响;在去除混响后,将所述多个音频通道划分为诸波束;基于噪声水平,选择与所述诸波束中的波束相对应的分区;对来自所选分区的语音信号进行过滤;以及经由预处理流水线的输出接口向外部实体提供经过滤的音频信号。
在示例16中,示例15的主题可选地包括,其中所述操作包括:在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前,从所述多个音频通道消除回声。
在示例17中,示例15-16中的任何一个或多个的主题可选地包括,其中,将所述多个音频通道划分为诸波束包括:在波束形成器处理器处接收所述多个音频通道;基于产生所述多个音频通道的麦克风之间的关系,将所述多个音频通道划分成两个音频通道的分区;以及将每个分区提供给基于相位的波束形成器。
在示例18中,示例15-17中的任何一个或多个的主题可选地包括,其中,基于噪声水平选择对应于波束的分区包括:比较所述诸波束之间的语音水平;以及基于具有从所述比较确定的最高语音水平来选择波束。
在示例19中,示例15-18中的任何一个或多个的主题可选地包括,其中,基于噪声水平选择对应于波束的分区包括:比较所述诸波束之间的噪声水平;以及基于具有从所述比较确定的最低噪声水平来选择波束。
在示例20中,示例19的主题可选地包括,其中,执行分区选择的流选择器的短语质量记分器比较所述诸波束之间的噪声水平。
在示例21中,示例20的主题可选地包括,其中,所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。
在示例22中,示例15-21中的任何一个或多个的主题可选地包括,其中。所述过滤包括:将降噪应用于所述音频信号。
在示例23中,示例15-22中的任何一个或多个的主题可选地包括,其中,所述过滤包括:将频谱分布匹配(SPM)应用于所述音频信号。
在示例24中,示例23的主题可选地包括,其中,在将降噪应用于所述音频信号之后,应用所述频谱分布匹配。
在示例25中,示例15-24中的任何一个或多个的主题可选地包括,其中,所述过滤包括:将自动增益控制应用于所述音频信号。
在示例26中,示例25的主题可选地包括,其中,在将频谱分布匹配应用于所述音频信号之后,应用所述自动增益控制。
在示例27中,示例15-26中的任何一个或多个的主题可选地包括,其中,所述操作包括:对所述多个音频通道执行声学回声消除。
在示例28中,示例27的主题可选地包括,其中,在将所述多个音频通道划分为诸波束之前,执行所述声学回声消除。
示例29是一种用于自动语音识别预处理的方法,所述方法包括:获得多个音频通道;从所述音频通道去除混响;在去除所述混响后,将所述多个音频通道划分为诸波束;基于噪声水平,选择与所述诸波束中的波束相对应的分区;对来自所选分区的语音信号进行过滤;以及经由预处理流水线的输出接口向外部实体提供过滤出的音频信号。
在示例30中,示例29的主题可选地包括,在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前,从所述多个音频通道消除回声。
在示例31中,示例29-30中的任何一个或多个的主题可选地包括,其中,将所述多个音频通道划分为诸波束包括:在波束形成器处理器处接收所述多个音频通道;基于产生所述多个音频通道的麦克风之间的关系,将所述多个音频通道划分成两个音频通道的分区;以及将每个分区提供给基于相位的波束形成器。
在示例32中,示例29-31中的任何一个或多个的主题可选地包括,其中,基于噪声水平选择对应于波束的分区包括:比较所述诸波束之间的语音水平;以及基于具有从所述比较确定的最高语音水平来选择波束。
在示例33中,示例29-32中的任何一个或多个的主题可选地包括,其中,基于噪声水平选择对应于波束的分区包括:比较所述诸波束之间的噪声水平;以及基于具有从所述比较确定的最低噪声水平来选择波束。
在示例34中,示例33的主题可选地包括,其中,执行分区选择的流选择器的短语质量记分器比较所述诸波束之间的噪声水平。
在示例35中,示例34的主题可选地包括,其中,所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。
在示例36中,示例29-35中的任何一个或多个的主题可选地包括,其中,所述过滤包括:将降噪应用于所述音频信号。
在示例37中,示例29-36中的任何一个或多个的主题可选地包括,其中,所述过滤包括:将频谱分布匹配(SPM)应用于所述音频信号。
在示例38中,示例37的主题可选地包括,其中,在将降噪应用于所述音频信号之后,应用所述频谱分布匹配。
在示例39中,示例29-38中的任何一个或多个的主题可选地包括,其中,所述过滤包括:将自动增益控制应用于所述音频信号。
在示例40中,示例39的主题可选地包括,其中,在将频谱分布匹配应用于所述音频信号之后,应用所述自动增益控制。
在示例41中,示例29-40中的任何一个或多个的主题可选地包括:对所述多个音频通道执行声学回声消除。
在示例42中,示例41的主题可选地包括,其中,在将所述多个音频通道划分为诸波束之前,执行所述声学回声消除。
示例43是一种***,所述***包括用于执行方法29-42中的任一方法的装置。
示例44是至少一种机器可读介质,该机器可读介质包括指令,所述指令在被机器执行时,使所述机器执行方法29-42中的任一方法。
示例45是一种用于自动语音识别预处理的***,所述***包括:用于获得多个音频通道的装置;用于从所述音频通道去除混响的装置;用于在去除所述混响后将所述多个音频通道划分为诸波束的装置;用于基于噪声水平选择与所述诸波束中的波束相对应的分区的装置;用于对来自所选分区的语音信号进行过滤的装置;以及用于经由预处理流水线的输出接口向外部实体提供过滤出的音频信号的装置。
在示例46中,示例45的主题可选地包括,用于在所述混响被去除之后并且在所述多个音频通道被划分为诸波束之前从所述多个音频通道消除回声的装置。
在示例47中,示例45-46中的任何一个或多个的主题可选地包括,其中,所述用于将所述多个音频通道划分为诸波束的装置包括:用于在波束形成器处理器处接收所述多个音频通道的装置;用于基于产生所述多个音频通道的麦克风之间的关系将所述多个音频通道划分成两个音频通道的分区的装置;以及将每个分区提供给基于相位的波束形成器。
在示例48中,示例45-47中的任何一个或多个的主题可选地包括,其中,所述用于基于噪声水平选择对应于波束的分区的装置包括:用于比较所述诸波束之间的语音水平以及基于具有从所述比较确定的最高语音水平来选择波束的装置。
在示例49中,示例45-48中的任何一个或多个的主题可选地包括,其中所述用于基于噪声水平选择对应于波束的分区的装置包括:用于比较所述诸波束之间的噪声水平以及基于具有从所述比较确定的最低噪声水平来选择波束的装置。
在示例50中,示例49的主题可选地包括,其中,执行分区选择的流选择器的短语质量记分器比较所述诸波束之间的噪声水平。
在示例51中,示例50的主题可选地包括,其中,所述流选择器的信噪比(SNR)计为每个波束提供噪声水平。
在示例52中,示例45-51中的任何一个或多个的主题可选地包括,其中,所述用于过滤的装置包括:用于将降噪应用于所述音频信号的装置。
在示例53中,示例45-52中的任何一个或多个的主题可选地包括,其中,所述用于过滤的装置包括:用于将频谱分布匹配(SPM)应用于所述音频信号的装置。
在示例54中,示例53的主题可选地包括,其中,在将降噪应用于所述音频信号之后,应用所述频谱分布匹配。
在示例55中,示例45-54中的任何一个或多个的主题可选地包括,其中,所述用于过滤的装置包括用于:将自动增益控制应用于所述音频信号的装置。
在示例56中,示例55的主题可选地包括,其中,在将频谱分布匹配应用于所述音频信号之后,应用所述自动增益控制。
在示例57中,示例45-56中的任何一个或多个的主题可选地包括:用于对所述多个音频通道执行声学回声消除的装置。
在示例58中,示例57的主题可选地包括,其中,在将所述多个音频通道划分为诸波束之前,执行所述声学回声消除。
以上具体实施方式包括对附图的引用,附图形成具体实施方式的部分。附图通过图示来示出可实践的特定实施例。这些实施例在本文中也被称为“示例”。此类示例可包括除所示出或所描述的那些要素以外的要素。然而,本申请发明人还构想了其中只提供所示或所描述的那些要素的示例。而且,本申请发明人还构想了相对于特定示例(或者其一个或多个方面)或者相对于本文中所示或所描述的其他示例(或者其一个或多个方面)使用所示或所描述的那些要素(或者其一个或多个方面)的组合或排列的示例。
本文档中所涉及的所有公开、专利、和专利文档通过引用整体结合于此,好像通过引用单独地结合。本文档和通过引用所结合的那些文档之间的不一致的用法的情况,在结合的引用中的用法应当被认为是对本文档的用法的补充;对于不可调和的不一致,以本文档中的用法为准。
在此文档中,如在专利文档中常见的那样,使用术语“一(a或an)”以包括一个或多于一个,这独立于“至少一个”或“一个或多个”的任何其他实例或用法。在此文档中,使用术语“或”来指非排他性的或,使得除非另外指示,否则“A或B”包括“A但非B”、“B但非A”、以及“A和B”。在所附权利要求书中,术语“包括(including)”和“其中(in which)”被用作相应的术语“包括(comprising)”和“其中(wherein)”的普通英语等价词。此外,在所附权利要求书中,术语“包括”和“包含”是开放式的,也就是说,包括了除权利要求中的此类术语之后列举的那些元件之外的元件的***、设备、制品或过程仍被视为落在那项权利要求的范围内。此外,在所附权利要求书中,术语“第一”、“第二”、“第三”等仅用作标记,而不旨在对它们的对象施加数值要求。
以上描述旨在是说明性的,而非限制性的。例如,上述示例(或者其一个或多个方面)可相互组合使用。诸如,本领域普通技术人员可通过回顾以上描述来使用其他实施例。摘要用于允许读者快速地确认本技术公开的性质,并且提交此摘要需理解:它不用于解释或限制权利要求书的范围或含义。此外,在以上具体实施方式中,各种特征可共同成组以使本公开流畅。但这不应被解释为意指未要求保护的所公开特征对任何权利要求而言都是必要的。相反,发明性主题可在于少于特定的所公开实施例的所有特征。因此,所附权利要求在此被结合到具体实施方式中,其中每项权利要求独立成为单独实施例。各实施例的范围应当参考所附权利要求连同这些权利要求赋予的等价方案的全部范围而确定。

Claims (25)

1.一种用于自动语音识别预处理的***,所述***包括:
采样器,所述采样器用于获得多个音频通道;
去混响器,所述去混响器用于从所述多个音频通道去除混响;
波束形成器处理器,所述波束形成器处理器用于在去除混响后将所述多个音频通道划分为多个波束;
流选择器,所述流选择器用于基于噪声水平选择与所述多个波束中的波束相对应的分区;
过滤器,所述过滤器用于降低来自所选分区的语音信号中的噪声水平;以及
控制器,所述控制器用于经由预处理流水线的输出接口向外部实体提供音频信号。
2.如权利要求1所述的***,包括回声消除块,所述回声消除块设置在所述去混响器与所述波束形成器处理器之间,以用于:在所述混响被去除之后并且在所述多个音频通道被划分为多个波束之前,消除来自所述多个音频通道的回声。
3.如权利要求1所述的***,其特征在于,为了将所述多个音频通道划分为多分波束,所述波束形成器处理器用于:
接收所述多个音频通道;
基于产生所述多个音频通道的麦克风之间的关系,将所述多个音频通道划分成两个音频通道的分区;以及
将每个分区提供给基于相位的波束形成器。
4.如权利要求1所述的***,其特征在于,为了基于噪声水平选择与波束相对应的分区,所述流选择器用于:
比较所述多个波束之间的噪声水平;以及
基于具有从所述比较确定的最低噪声水平来选择波束。
5.如权利要求4所述的***,其特征在于,所述流选择器使用所述流选择器的短语质量记分器来比较所述多个波束之间的噪声水平。
6.如权利要求1所述的***,其特征在于,为了降低来自所选分区的语音信号中的噪声水平,所述过滤器将降噪应用于所述音频信号。
7.如权利要求1所述的***,其特征在于,为了降低来自所选分区的语音信号中的噪声水平,所述过滤器将频谱分布匹配(SPM)应用于所述音频信号。
8.如权利要求7所述的***,其特征在于,在将降噪应用于所述音频信号之后,应用所述频谱分布匹配。
9.如权利要求1所述的***,其特征在于,为了降低来自所选分区的语音信号中的噪声水平,所述过滤器将自动增益控制应用于所述音频信号。
10.如权利要求9所述的***,其特征在于,在将频谱分布匹配应用于所述音频信号之后,应用所述自动增益控制。
11.一种用于自动语音识别预处理的方法,所述方法包括:
获得多个音频通道;
从所述音频通道去除混响;
在去除所述混响后,将所述多个音频通道划分为多个波束;
基于噪声水平选择与所述多个波束中的波束相对应的分区;
对来自所选分区的语音信号进行过滤;以及
经由预处理流水线的输出接口向外部实体提供经过滤的音频信号。
12.如权利要求11所述的方法,包括:在所述混响被去除之后并且在所述多个音频通道被划分为多个波束之前,从所述多个音频通道消除回声。
13.如权利要求11所述的方法,其特征在于,将所述多个音频通道划分为多个波束包括:
在波束形成器处理器处接收所述多个音频通道;
基于产生所述多个音频通道的麦克风之间的关系,将所述多个音频通道划分成两个音频通道的分区;以及
将每个分区提供给基于相位的波束形成器。
14.如权利要求11所述的方法,其特征在于,基于噪声水平选择对应于波束的分区包括:比较所述多个波束之间的语音水平;以及基于具有从所述比较确定的最高语音水平来选择波束。
15.如权利要求11所述的方法,其特征在于,基于噪声水平选择对应于波束的分区包括:比较所述多个波束之间的噪声水平;以及基于具有从所述比较确定的最低噪声水平来选择波束。
16.如权利要求15所述的方法,其特征在于,执行分区选择的流选择器的短语质量记分器比较所述多个波束之间的噪声水平。
17.如权利要求11所述的方法,其特征在于,所述过滤包括:将降噪应用于所述音频信号。
18.如权利要求11所述的方法,其特征在于,所述过滤包括:将频谱分布匹配(SPM)应用于所述音频信号。
19.如权利要求18所述的方法,其特征在于,在将降噪应用于所述音频信号之后,应用所述频谱分布匹配。
20.如权利要求11所述的方法,其特征在于,所述过滤包括:将自动增益控制应用于所述音频信号。
21.如权利要求20所述的方法,其特征在于,在将频谱分布匹配应用于所述音频信号之后,应用所述自动增益控制。
22.如权利要求11所述的方法,包括:对所述多个音频通道执行声学回声消除。
23.如权利要求22所述的方法,其特征在于,在将所述多个音频通道划分为多个波束之前,执行所述声学回声消除。
24.一种***,包括用于执行如权利要求11-23中任一项所述的方法的装置。
25.至少一种机器可读介质,包括指令,所述指令在被机器执行时,使所述机器执行如权利要求11-23中任一项所述的方法。
CN201780029587.0A 2016-06-15 2017-05-16 远场自动语音识别预处理 Active CN109074816B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662350507P 2016-06-15 2016-06-15
US62/350,507 2016-06-15
US15/388,147 US20170365255A1 (en) 2016-06-15 2016-12-22 Far field automatic speech recognition pre-processing
US15/388,147 2016-12-22
PCT/US2017/032913 WO2017218128A1 (en) 2016-06-15 2017-05-16 Far field automatic speech recognition pre-processing

Publications (2)

Publication Number Publication Date
CN109074816A CN109074816A (zh) 2018-12-21
CN109074816B true CN109074816B (zh) 2023-11-28

Family

ID=60659998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780029587.0A Active CN109074816B (zh) 2016-06-15 2017-05-16 远场自动语音识别预处理

Country Status (4)

Country Link
US (4) US20170366897A1 (zh)
EP (1) EP3472834A4 (zh)
CN (1) CN109074816B (zh)
WO (2) WO2017218128A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107290711A (zh) * 2016-03-30 2017-10-24 芋头科技(杭州)有限公司 一种语音寻向***及方法
US20170366897A1 (en) 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
CN109979476B (zh) * 2017-12-28 2021-05-14 电信科学技术研究院 一种语音去混响的方法及装置
USD920137S1 (en) * 2018-03-07 2021-05-25 Intel Corporation Acoustic imaging device
US10313786B1 (en) * 2018-03-20 2019-06-04 Cisco Technology, Inc. Beamforming and gainsharing mixing of small circular array of bidirectional microphones
US20190324117A1 (en) * 2018-04-24 2019-10-24 Mediatek Inc. Content aware audio source localization
US10586538B2 (en) 2018-04-25 2020-03-10 Comcast Cable Comminications, LLC Microphone array beamforming control
US10573301B2 (en) 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
US10667071B2 (en) * 2018-05-31 2020-05-26 Harman International Industries, Incorporated Low complexity multi-channel smart loudspeaker with voice control
CN109597022B (zh) * 2018-11-30 2023-02-17 腾讯科技(深圳)有限公司 声源方位角运算、定位目标音频的方法、装置和设备
US11902758B2 (en) * 2018-12-21 2024-02-13 Gn Audio A/S Method of compensating a processed audio signal
CN109524004B (zh) * 2018-12-29 2022-03-08 思必驰科技股份有限公司 一种实现多路音频和数据的并行传输的方法、外接式的语音交互装置和***
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
GB201902812D0 (en) * 2019-03-01 2019-04-17 Nokia Technologies Oy Wind noise reduction in parametric audio
CN110310655B (zh) * 2019-04-22 2021-10-22 广州视源电子科技股份有限公司 麦克风信号处理方法、装置、设备及存储介质
KR20200132613A (ko) 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
KR20210017252A (ko) * 2019-08-07 2021-02-17 삼성전자주식회사 다채널 오디오 신호 처리 방법 및 전자 장치
CN111341345B (zh) * 2020-05-21 2021-04-02 深圳市友杰智新科技有限公司 语音设备的控制方法、装置、语音设备和存储介质
CN112887877B (zh) * 2021-01-28 2023-09-08 歌尔科技有限公司 一种音频参数设置方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003010996A2 (en) * 2001-07-20 2003-02-06 Koninklijke Philips Electronics N.V. Sound reinforcement system having an echo suppressor and loudspeaker beamformer
CN101510425A (zh) * 2008-02-15 2009-08-19 株式会社东芝 声音识别装置以及用于执行声音识别的方法
EP2879402A1 (en) * 2012-07-27 2015-06-03 Sony Corporation Information processing system and storage medium
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN105355210A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
CN105635501A (zh) * 2014-11-20 2016-06-01 通用汽车环球科技运作有限责任公司 用于回声消除的***和方法

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07109560B2 (ja) * 1990-11-30 1995-11-22 富士通テン株式会社 音声認識装置
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6314394B1 (en) * 1999-05-27 2001-11-06 Lear Corporation Adaptive signal separation system and method
US6122331A (en) * 1999-06-14 2000-09-19 Atmel Corporation Digital automatic gain control
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
JP2004537232A (ja) 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多数のマイクロフォンのエコーを抑圧する回路をポストプロセッサとして有する音響補強システム
JP3984842B2 (ja) * 2002-03-12 2007-10-03 松下電器産業株式会社 ハウリング制御装置
DK174558B1 (da) * 2002-03-15 2003-06-02 Bruel & Kjaer Sound & Vibratio Stråleformende transducer-antennesystem
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US6798380B2 (en) * 2003-02-05 2004-09-28 University Of Florida Research Foundation, Inc. Robust capon beamforming
US7039200B2 (en) 2003-03-31 2006-05-02 Microsoft Corporation System and process for time delay estimation in the presence of correlated noise and reverberation
DE60325699D1 (de) 2003-05-13 2009-02-26 Harman Becker Automotive Sys Verfahren und System zur adaptiven Kompensation von Mikrofonungleichheiten
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
JP2005333180A (ja) 2004-05-18 2005-12-02 Audio Technica Corp バウンダリーマイクロホン
WO2009009568A2 (en) 2007-07-09 2009-01-15 Mh Acoustics, Llc Augmented elliptical microphone array
WO2007072757A1 (ja) * 2005-12-19 2007-06-28 Yamaha Corporation 放収音装置
CN102684628B (zh) * 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
EP1885154B1 (en) 2006-08-01 2013-07-03 Nuance Communications, Inc. Dereverberation of microphone signals
CN101192862B (zh) * 2006-11-30 2013-01-16 昂达博思公司 用于无线通信***的自动增益控制方法和设备
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
US8488803B2 (en) 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
KR100905586B1 (ko) * 2007-05-28 2009-07-02 삼성전자주식회사 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법
JP5102165B2 (ja) 2008-09-22 2012-12-19 株式会社デンソー レーダ装置
US8032236B2 (en) * 2008-09-30 2011-10-04 Rockwell Automation Technologies, Inc. Asymetrical process parameter control system and method
CN101986386B (zh) * 2009-07-29 2012-09-26 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US20110188671A1 (en) * 2009-10-15 2011-08-04 Georgia Tech Research Corporation Adaptive gain control based on signal-to-noise ratio for noise suppression
JP5423370B2 (ja) * 2009-12-10 2014-02-19 船井電機株式会社 音源探査装置
TWI415117B (zh) 2009-12-25 2013-11-11 Univ Nat Chiao Tung 使用在麥克風陣列之消除殘響與減低噪音方法及其裝置
US8861756B2 (en) 2010-09-24 2014-10-14 LI Creative Technologies, Inc. Microphone array system
US8798278B2 (en) * 2010-09-28 2014-08-05 Bose Corporation Dynamic gain adjustment based on signal to ambient noise level
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
KR20120128542A (ko) 2011-05-11 2012-11-27 삼성전자주식회사 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
WO2013166080A1 (en) * 2012-04-30 2013-11-07 Creative Technology Ltd A universal reconfigurable echo cancellation system
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US9860439B2 (en) * 2013-02-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
US9338551B2 (en) 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
WO2015041549A1 (en) 2013-09-17 2015-03-26 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (asr)
EP2866465B1 (en) * 2013-10-25 2020-07-22 Harman Becker Automotive Systems GmbH Spherical microphone array
US9571930B2 (en) * 2013-12-24 2017-02-14 Intel Corporation Audio data detection with a computing device
US9124234B1 (en) * 2014-04-11 2015-09-01 Entropic Communications, LLC. Method and apparatus for adaptive automatic gain control
JP2016169358A (ja) 2014-07-24 2016-09-23 セントラル硝子株式会社 硬化性シリコーン樹脂組成物およびその硬化物、並びにこれらを用いた光半導体装置
US9456276B1 (en) * 2014-09-30 2016-09-27 Amazon Technologies, Inc. Parameter selection for audio beamforming
US9997170B2 (en) 2014-10-07 2018-06-12 Samsung Electronics Co., Ltd. Electronic device and reverberation removal method therefor
US9390723B1 (en) * 2014-12-11 2016-07-12 Amazon Technologies, Inc. Efficient dereverberation in networked audio systems
US9860635B2 (en) * 2014-12-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Microphone array, monitoring system, and sound pickup setting method
US9800279B2 (en) * 2015-02-16 2017-10-24 Samsung Electronics Co., Ltd. Method and apparatus for automatic gain control in wireless receiver
US9843851B2 (en) 2015-05-22 2017-12-12 Amazon Technologies, Inc. Portable speaker system
US10028051B2 (en) * 2015-08-31 2018-07-17 Panasonic Intellectual Property Management Co., Ltd. Sound source localization apparatus
US9754605B1 (en) * 2016-06-09 2017-09-05 Amazon Technologies, Inc. Step-size control for multi-channel acoustic echo canceller
US20170366897A1 (en) 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003010996A2 (en) * 2001-07-20 2003-02-06 Koninklijke Philips Electronics N.V. Sound reinforcement system having an echo suppressor and loudspeaker beamformer
CN101510425A (zh) * 2008-02-15 2009-08-19 株式会社东芝 声音识别装置以及用于执行声音识别的方法
EP2879402A1 (en) * 2012-07-27 2015-06-03 Sony Corporation Information processing system and storage medium
CN105635501A (zh) * 2014-11-20 2016-06-01 通用汽车环球科技运作有限责任公司 用于回声消除的***和方法
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN105355210A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置

Also Published As

Publication number Publication date
EP3472834A1 (en) 2019-04-24
WO2017218129A1 (en) 2017-12-21
CN109074816A (zh) 2018-12-21
EP3472834A4 (en) 2020-02-12
WO2017218128A1 (en) 2017-12-21
US10657983B2 (en) 2020-05-19
US20170365255A1 (en) 2017-12-21
US20170366897A1 (en) 2017-12-21
US20170365271A1 (en) 2017-12-21
US20170365274A1 (en) 2017-12-21

Similar Documents

Publication Publication Date Title
CN109074816B (zh) 远场自动语音识别预处理
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Wang et al. Deep learning based target cancellation for speech dereverberation
Kinoshita et al. A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research
US10546593B2 (en) Deep learning driven multi-channel filtering for speech enhancement
KR102118411B1 (ko) 원신호 분리 시스템 및 방법
US10123113B2 (en) Selective audio source enhancement
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
WO2019089486A1 (en) Multi-channel speech separation
CN112017681B (zh) 定向语音的增强方法及***
CN107221336A (zh) 一种增强目标语音的装置及其方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
US11240621B2 (en) Three-dimensional audio systems
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN113470685A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN113784274A (zh) 三维音频***
Zwyssig et al. Recognition of overlapping speech using digital MEMS microphone arrays
Kim Hearing aid speech enhancement using phase difference-controlled dual-microphone generalized sidelobe canceller
US11528571B1 (en) Microphone occlusion detection
CN113241088A (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及***
Wang et al. Two-stage enhancement of noisy and reverberant microphone array speech for automatic speech recognition systems trained with only clean speech
CN110930991A (zh) 一种远场语音识别模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant