CN105355210A - 用于远场语音识别的预处理方法和装置 - Google Patents

用于远场语音识别的预处理方法和装置 Download PDF

Info

Publication number
CN105355210A
CN105355210A CN201510729573.2A CN201510729573A CN105355210A CN 105355210 A CN105355210 A CN 105355210A CN 201510729573 A CN201510729573 A CN 201510729573A CN 105355210 A CN105355210 A CN 105355210A
Authority
CN
China
Prior art keywords
beam forming
frequency components
module
low frequency
wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510729573.2A
Other languages
English (en)
Other versions
CN105355210B (zh
Inventor
宋辉
魏建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510729573.2A priority Critical patent/CN105355210B/zh
Publication of CN105355210A publication Critical patent/CN105355210A/zh
Application granted granted Critical
Publication of CN105355210B publication Critical patent/CN105355210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明提出一种用于远场语音识别的预处理方法和装置,该用于远场语音识别的预处理方法包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。该方法能够提高远场语音识别的性能。

Description

用于远场语音识别的预处理方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种用于远场语音识别的预处理方法和装置。
背景技术
为了提高语音识别的准确度,在语音识别之前通常会进行预处理。在远场语音识别场景下,目前采用比较多的一种预处理方案是回声消除(Acousticechocancellation,AEC)+声源定位+自适应波束形成技术。大致的思想是:先对每个麦克风采集的语音信号进行回声消除、再基于声源定位技术找到目标说话人的空间方位,进而通过自适应波束形成(AdaptiveBeamforming,ABF)技术将主波束指向说话人,实现声音增强的效果。
但是,上述处理方案在运算量、准确度、收敛速度和残差等方面都存在一定的问题,进而影响最终的远场语音识别性能。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于远场语音识别的预处理方法,该方法可以实现了信号的声源定位和语音增强功能,并且新的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别***的性能。
本发明的另一个目的在于提出一种用于远场语音识别的预处理装置。
为达到上述目的,本发明第一方面实施例提出的用于远场语音识别的预处理方法,包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
本发明第一方面实施例提出的用于远场语音识别的预处理方法,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别***的性能。
为达到上述目的,本发明第二方面实施例提出的用于远场语音识别的预处理装置,包括:获取模块,用于获取由麦克风阵列采集的多路语音信号;划分模块,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;波束形成模块,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
本发明第二方面实施例提出的用于远场语音识别的预处理装置,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别***的性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图;
图2是本发明另一实施例提出的用于远场语音识别的预处理方法的流程示意图;
图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图;
图4是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图,该方法包括:
S11:获取由麦克风阵列采集的多路语音信号。
其中,麦克风阵列可以具体是均匀环形麦克风阵列(UniformCircularArray,UCA),UCA是指将多个麦克风均匀设置在环形平面上。
通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。
麦克风的个数以及环形半径可以设置,例如,N=16,R=0.08m。
S12:根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量。
频率点阈值例如是f0=1kHz。
低频分量是指频率小于f0的部分,中高频分量是指频率大于f0的部分。
每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采集的多路语音信号分为低频分量和中高频分量。
S13:对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA,对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。
一些实施例中,参见图2,对低频分量的处理流程可以包括:
S201:对低频分量根据空间响应的公式,进行DS-UCA的波束成形。
其中,DS-UCA的波束成形时采用的空间响应的公式是:
B ( ω : θ , φ ) = 1 N Σ n = 1 N e - j k R [ c o s ( φ 0 - γ n ) - c o s ( φ - γ n ) ] 公式(1)
其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器的空间响应,ω是语音信号的角频率,θ,φ分别是语音信号的仰角和方向角,在远场识别场景下,θ=θ0=π/2,k是波数,k=ω/c,c是光速,θ00分别是主波束的仰角和方向角,γn是第n个麦克风的方向角,γn=2π(n-1)/N。主波束的仰角和方向角可以设置。
S202:对低频分量中的高频分量进行预加重处理。
通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低频分量(0-1kHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。
一些实施例中,参见图2,对中高频分量的处理流程可以包括:
S203:确定补偿滤波器。
补偿滤波器Hm(ω)的公式是:
H m ( ω ) = j - | m | KJ | m | ( 2 ω r ^ ) , f o r ω ∈ [ ω L , ω H ]
其中,ωLH分别表示ω的最低和最高值,K是麦克风的个数,m是相位模式(phase-mode)的索引,其中,麦克风采集的语音信号经过离散傅里叶逆变换(InverseDiscreteFourierTransform,IDFT)变换可以转换为相位模式,Jn(α)为第一类Bessel函数,ω=πf/fmaxr是麦克风阵列的半径,c是光速,f是语音信号的频率,fmax是最高频率。
S204:确定加权因子。
加权因子{gm}是一个M阶有限长单位冲激响应(FiniteImpulseResponse,FIR)滤波器系数,M是m的最大值,滤波器的形状可以根据实际需求来设计,可以参考的指标如主波束宽度、旁瓣衰减量等。
S205:确定相位模式分量。
相位模式分量的公式是:
V m ( ω ) = S ( ω ) Σ k = 0 K - 1 e j 2 ω r ^ cos ( φ - φ k ) e j 2 λ k m K
其中,令S(ω)=1。
S206:根据补偿滤波器、加权因子和相位模式分量计算空间响应。
空间响应的计算公式是:
G ( φ ) = Y ( ω ) = Σ m = - M / 2 M / 2 g m V m ( ω ) H m ( ω ) , 其中,S(ω)=1。
S207:将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行FIB-UCA的波束成形。
例如,预设主波束方向角是θD,则调整后的空间响应是:
G F i n a l ( φ ) = G ( φ ) e jmθ D .
通过上述流程可以得到波束形成器的输出波束(S208),具体的,通过S201-S202可以得到低频分量的波束形成器的输出波束,以及,通过S203-S207可以得到高频分量的波束形成器的输出波束。
本实施例中,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别***的性能。
在波束形成之后,该方法还可以包括:
S209:对波束形成得到的每个输出波束进行回声消除(AEC)。
其中,通过上述的波束形成以及主波束调向技术,可以将整个声学空间划分成了若干个区域,比如3个固定波束,每个固定波束覆盖120°;或者6个固定波束,每个固定波束覆盖60°范围。
以3个波束为例,则波束形成器的输出是3个波束,之后可以分别对3个输出波束中的每个波束进行AEC。
AEC可以消除***产生的音乐、文本到语音(TexttoSpeech,TTS)等干扰信号。
目前的方案需要对每一个麦克风信号进行AEC,当麦克风数量比较大时,回声消除的运算量非常大。
本实施例中,通过将AEC设置在波束形成之后,可以显著降低AEC所需运算量。
另外,AEC的处理效果要依赖于信噪比,回波信号信噪比越高,自适应滤波器的收敛越快,残留误差越小,但是,目前的方案中,由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度,所以实际中,无法将ABF模块放在AEC之前来提高信噪比,这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态,进而也会部分影响最终的远场语音识别性能。
本实施例中,通过在AEC之前先进行波束形成,可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题,从而可以提高AEC的效果,进而提高远场语音识别性能。
S210:根据AEC结果选择最优波束。
例如,可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。
S211:对最优波束进行单通道语音增强和后处理。
在对最优波束进行单通道语音增强和后处理后可以输入到用于语音识别的识别器中,以进行远场语音识别。
本实施例中,通过上述的预处理流程,可以使得识别器接收到的信号有效抑制了混响和噪声的影响,同时也保证了语音各个频谱分量的失真最小,因此能够显著提升远场场景下语音识别的性能。
图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图,该装置30包括:获取模块31、划分模块32和波束形成模块33。
获取模块31,用于获取由麦克风阵列采集的多路语音信号;
其中,麦克风阵列可以具体是均匀环形麦克风阵列(UniformCircularArray,UCA),UCA是指将多个麦克风均匀设置在环形平面上。
通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。
麦克风的个数以及环形半径可以设置,例如,N=16,R=0.08m。
划分模块32,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;
频率点阈值例如是f0=1kHz。
低频分量是指频率小于f0的部分,中高频分量是指频率大于f0的部分。
每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采集的多路语音信号分为低频分量和中高频分量。
波束形成模块33,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA,对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。
其中,DS-UCA的波束成形公式是:
B ( ω : θ , φ ) = 1 N Σ n = 1 N e - j k R [ c o s ( φ 0 - γ n ) - c o s ( φ - γ n ) ] 公式(1)
其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器的空间响应,ω是语音信号的频率,θ,φ分别是语音信号的仰角和方向角,在远场识别场景下,θ=θ0=π/2,k是波数,k=ω/c,c是光速,θ00分别是主波束的仰角和方向角,γn是第n个麦克风的方向角,γn=2π(n-1)/N。主波束的仰角和方向角可以设置。
一些实施例中,参见图4,所述波束形成模块包括:
低频分量波束形成单元331,用于对低频分量根据空间响应的公式,进行DS-UCA的波束成形:
预加重模块332,用于对低频分量中的高频分量进行预加重处理。
通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低频分量(0-1kHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。
一些实施例中,所述波束形成模块33包括:中高频分量波束形成单元333,所述中高频分量波束形成单元333具体用于:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
具体的DS-UCA的流程以及FIB-UCA的流程可以参见上述实施例中的相关描述,在此不再赘述。
一些实施例中,参见图4,该装置还包括:
回声消除模块34,用于对波束形成得到的每个输出波束进行回声消除;
其中,通过上述的波束形成以及主波束调向技术,可以将整个声学空间划分成了若干个区域,比如3个固定波束,每个固定波束覆盖120°;或者6个固定波束,每个固定波束覆盖60°范围。
以3个波束为例,则波束形成器的输出是3个波束,之后可以分别对3个输出波束中的每个波束进行AEC。
AEC可以消除***产生的音乐、文本到语音(TexttoSpeech,TTS)等干扰信号。
目前的方案需要对每一个麦克风信号进行AEC,当麦克风数量比较大时,回声消除的运算量非常大。
本实施例中,通过将AEC设置在波束形成之后,可以显著降低AEC所需运算量。
另外,AEC的处理效果要依赖于信噪比,回波信号信噪比越高,自适应滤波器的收敛越快,残留误差越小,但是,目前的方案中,由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度,所以实际中,无法将ABF模块放在AEC之前来提高信噪比,这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态,进而也会部分影响最终的远场语音识别性能。
本实施例中,通过在AEC之前先进行波束形成,可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题,从而可以提高AEC的效果,进而提高远场语音识别性能。
选择模块35,用于根据回声消除的结果选择最优波束;
例如,可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。
后处理模块36,用于对最优波束进行单通道语音增强和后处理。
本实施例中,通过上述的预处理流程,可以使得识别器接收到的信号有效抑制了混响和噪声的影响,同时也保证了语音各个频谱分量的失真最小,因此能够显著提升远场场景下语音识别的性能。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种用于远场语音识别的预处理方法,其特征在于,包括:
获取由麦克风阵列采集的多路语音信号;
根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;
对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
2.根据权利要求1所述的方法,其特征在于,还包括:
对波束形成得到的每个输出波束进行回声消除;
根据回声消除的结果选择最优波束;
对最优波束进行单通道语音增强和后处理。
3.根据权利要求1所述的方法,其特征在于,在对低频分量进行延迟求和波束形成之后,所述方法还包括:
对低频分量中的高频分量进行预加重处理。
4.根据权利要求1所述的方法,其特征在于,所述对中高频分量进行基于滤波器的波束形成,包括:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述麦克风阵列是均匀环形麦克风阵列。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述频率点阈值是1kHz。
7.一种用于远场语音识别的预处理装置,其特征在于,包括:
获取模块,用于获取由麦克风阵列采集的多路语音信号;
划分模块,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;
波束形成模块,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
8.根据权利要求7所述的装置,其特征在于,还包括:
回声消除模块,用于对波束形成得到的每个输出波束进行回声消除;
选择模块,用于根据回声消除的结果选择最优波束;
后处理模块,用于对最优波束进行单通道语音增强和后处理。
9.根据权利要求7所述的装置,其特征在于,所述波束形成模块包括:
低频分量波束形成单元,用于对低频分量根据空间响应的公式,进行DS-UCA的波束成形:
预加重模块,用于对低频分量中的高频分量进行预加重处理。
10.根据权利要求7所述的装置,其特征在于,所述波束形成模块包括:中高频分量波束形成单元,所述中高频分量波束形成单元具体用于:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
CN201510729573.2A 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置 Active CN105355210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510729573.2A CN105355210B (zh) 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729573.2A CN105355210B (zh) 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置

Publications (2)

Publication Number Publication Date
CN105355210A true CN105355210A (zh) 2016-02-24
CN105355210B CN105355210B (zh) 2020-06-23

Family

ID=55331171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729573.2A Active CN105355210B (zh) 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置

Country Status (1)

Country Link
CN (1) CN105355210B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210368A (zh) * 2016-06-20 2016-12-07 百度在线网络技术(北京)有限公司 消除多通道声回波的方法和装置
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106611600A (zh) * 2016-12-02 2017-05-03 广州音书科技有限公司 用于远场拾音及移动充电的音频处理装置及***
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107346661A (zh) * 2017-06-01 2017-11-14 李昕 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
CN107481729A (zh) * 2017-09-13 2017-12-15 百度在线网络技术(北京)有限公司 一种将智能终端升级为远场语音智能设备的方法及***
CN108447499A (zh) * 2018-04-18 2018-08-24 佛山市顺德区中山大学研究院 一种双层圆环麦克风阵列语音增强方法
CN108694957A (zh) * 2018-04-08 2018-10-23 湖北工业大学 基于圆形麦克风阵列波束形成的回声抵消设计方法
CN108831498A (zh) * 2018-05-22 2018-11-16 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
CN108922553A (zh) * 2018-07-19 2018-11-30 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及***
CN109074816A (zh) * 2016-06-15 2018-12-21 英特尔公司 远场自动语音识别预处理
CN109978034A (zh) * 2019-03-18 2019-07-05 华南理工大学 一种基于数据增强的声场景辨识方法
CN110691301A (zh) * 2019-09-25 2020-01-14 晶晨半导体(深圳)有限公司 一种测试远场语音设备与外置喇叭之间延迟时间的方法
CN111033423A (zh) * 2018-04-18 2020-04-17 百度时代网络技术(北京)有限公司 用于评估自动驾驶车辆的定位***的方法
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11310592B2 (en) 2015-04-30 2022-04-19 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11477327B2 (en) 2017-01-13 2022-10-18 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11678109B2 (en) 2015-04-30 2023-06-13 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020001389A1 (en) * 2000-06-30 2002-01-03 Maziar Amiri Acoustic talker localization
EP1455552A2 (en) * 2003-03-06 2004-09-08 Samsung Electronics Co., Ltd. Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same
CN1565144A (zh) * 2001-08-08 2005-01-12 数字信号处理工厂有限公司 使用过采样滤波器组的定向音频信号处理
CN1643571A (zh) * 2002-03-27 2005-07-20 艾黎弗公司 用于与通信***一起使用的麦克风和声音活动检测(vad)配置
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020001389A1 (en) * 2000-06-30 2002-01-03 Maziar Amiri Acoustic talker localization
CN1565144A (zh) * 2001-08-08 2005-01-12 数字信号处理工厂有限公司 使用过采样滤波器组的定向音频信号处理
CN1643571A (zh) * 2002-03-27 2005-07-20 艾黎弗公司 用于与通信***一起使用的麦克风和声音活动检测(vad)配置
EP1455552A2 (en) * 2003-03-06 2004-09-08 Samsung Electronics Co., Ltd. Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张成 等: "刚性圆柱体上圆阵波束形成性能分析", 《声学学报》 *
朱维杰等: "宽带波束形成器的自适应综合", 《声学学报》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11310592B2 (en) 2015-04-30 2022-04-19 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11832053B2 (en) 2015-04-30 2023-11-28 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11678109B2 (en) 2015-04-30 2023-06-13 Shure Acquisition Holdings, Inc. Offset cartridge microphones
CN109074816A (zh) * 2016-06-15 2018-12-21 英特尔公司 远场自动语音识别预处理
CN109074816B (zh) * 2016-06-15 2023-11-28 英特尔公司 远场自动语音识别预处理
CN106210368A (zh) * 2016-06-20 2016-12-07 百度在线网络技术(北京)有限公司 消除多通道声回波的方法和装置
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106611600A (zh) * 2016-12-02 2017-05-03 广州音书科技有限公司 用于远场拾音及移动充电的音频处理装置及***
US11477327B2 (en) 2017-01-13 2022-10-18 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10629194B2 (en) 2017-05-15 2020-04-21 Baidu Online Network Technology (Beijing) Co., Ltd. Speech recognition method and device based on artificial intelligence
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107346661A (zh) * 2017-06-01 2017-11-14 李昕 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
CN107346661B (zh) * 2017-06-01 2020-06-12 伊沃人工智能技术(江苏)有限公司 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
CN107481729A (zh) * 2017-09-13 2017-12-15 百度在线网络技术(北京)有限公司 一种将智能终端升级为远场语音智能设备的方法及***
CN108694957B (zh) * 2018-04-08 2021-08-31 湖北工业大学 基于圆形麦克风阵列波束形成的回声抵消设计方法
CN108694957A (zh) * 2018-04-08 2018-10-23 湖北工业大学 基于圆形麦克风阵列波束形成的回声抵消设计方法
CN111033423A (zh) * 2018-04-18 2020-04-17 百度时代网络技术(北京)有限公司 用于评估自动驾驶车辆的定位***的方法
CN108447499B (zh) * 2018-04-18 2020-08-04 佛山市顺德区中山大学研究院 一种双层圆环麦克风阵列语音增强方法
CN108447499A (zh) * 2018-04-18 2018-08-24 佛山市顺德区中山大学研究院 一种双层圆环麦克风阵列语音增强方法
CN111033423B (zh) * 2018-04-18 2023-11-21 百度时代网络技术(北京)有限公司 用于评估自动驾驶车辆的定位***的方法
CN108831498A (zh) * 2018-05-22 2018-11-16 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
US11800281B2 (en) 2018-06-01 2023-10-24 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11770650B2 (en) 2018-06-15 2023-09-26 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108922553A (zh) * 2018-07-19 2018-11-30 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及***
CN108922553B (zh) * 2018-07-19 2020-10-09 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及***
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN109978034A (zh) * 2019-03-18 2019-07-05 华南理工大学 一种基于数据增强的声场景辨识方法
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11778368B2 (en) 2019-03-21 2023-10-03 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11800280B2 (en) 2019-05-23 2023-10-24 Shure Acquisition Holdings, Inc. Steerable speaker array, system and method for the same
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11688418B2 (en) 2019-05-31 2023-06-27 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11750972B2 (en) 2019-08-23 2023-09-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
CN110691301A (zh) * 2019-09-25 2020-01-14 晶晨半导体(深圳)有限公司 一种测试远场语音设备与外置喇叭之间延迟时间的方法
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Also Published As

Publication number Publication date
CN105355210B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN105355210A (zh) 用于远场语音识别的预处理方法和装置
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
CN100524465C (zh) 一种噪声消除装置和方法
CN102421050A (zh) 使用麦克风的非均匀布局来增强音频质量的设备和方法
CN107223345B (zh) 用于波束成形滤波器的fir滤波器系数计算
US20130083943A1 (en) Processing Signals
CN107742522A (zh) 基于麦克风阵列的目标语音获取方法及装置
JP6780644B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
US9363598B1 (en) Adaptive microphone array compensation
CN104717587A (zh) 用于音频信号处理的耳机和方法
CN105788607A (zh) 应用于双麦克风阵列的语音增强方法
CN105427860A (zh) 远场语音识别方法和装置
CA2819393A1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
CN104810021A (zh) 应用于远场识别的前处理方法和装置
CN109285557A (zh) 一种定向拾音方法、装置及电子设备
RU2019124543A (ru) Звукозапись с использованием формирования диаграммы направленности
KR102071234B1 (ko) 오디오 신호 처리 장치 및 사운드 방출 장치
CN111954121B (zh) 一种麦克风阵列定向拾音方法及***
US9966081B2 (en) Method and apparatus for synthesizing separated sound source
CN108877828B (zh) 语音增强方法/***、计算机可读存储介质及电子设备
Qi-li et al. Time-domain nearfield wideband beamforming based on fractional delay filters
CN115866483A (zh) 一种音频信号的波束形成方法及设备
Mizumachi Neural network-based broadband beamformer with less distortion
KR20090098552A (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
Dam et al. Design of robust broadband beamformers with discrete coefficients and least squared criterion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant