CN113744752A - 语音处理方法及装置 - Google Patents
语音处理方法及装置 Download PDFInfo
- Publication number
- CN113744752A CN113744752A CN202111003630.0A CN202111003630A CN113744752A CN 113744752 A CN113744752 A CN 113744752A CN 202111003630 A CN202111003630 A CN 202111003630A CN 113744752 A CN113744752 A CN 113744752A
- Authority
- CN
- China
- Prior art keywords
- processed
- audio signal
- signal
- estimation
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 212
- 238000012545 processing Methods 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000001629 suppression Effects 0.000 claims abstract description 19
- 230000001360 synchronised effect Effects 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 35
- 230000000694 effects Effects 0.000 claims description 33
- 238000009499 grossing Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 12
- 206010002953 Aphonia Diseases 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开提供一种语音处理方法及装置,涉及语音技术领域,所述方法包括获取至少两个待处理音频信号;所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号;对所述麦克风阵列中任意两个麦克风进行波达方向估计;根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理;对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号;输出所述目标音频信号。本公开实现了音频拾取和增强功能,提高了音频识别的准确性。
Description
技术领域
本公开涉及语音技术领域,尤其涉及语音处理方法及装置。
背景技术
随着人工智能技术的不断发展,各领域中的传统设备都将逐渐被相应的智能终端所代替。智能终端是具有监控、感知、通信以及智能交互多种功能的全开放式平台,搭载了操作***,可自行安装和卸载各类应用软件,持续对功能进行扩充和升级的新型终端产品。在智能交互方面,很多复杂的项目并不是仅凭目标常用的遥控以及触摸屏就能实现的,其中最好的办法就是采用声音遥控,而声音遥控的关键是语音信号的获取与识别。
相关技术中,在获取到语音信号时,通常是直接对语音信号进行滤波后输出。
但在上述技术中,若获取到的语音信号中包含多个方向的语音时,仅滤波会导致最终得到的语音信号中的噪音较多,从而降低了语音识别的准确性。
发明内容
本公开实施例提供一种语音处理方法及装置,能够解决现有技术中降低了语音识别的准确性的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供一种语音处理方法,所述方法包括:
获取至少两个待处理音频信号;所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号;
对所述麦克风阵列中任意两个麦克风进行波达方向估计;
根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理;
对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号;
输出所述目标音频信号。
本公开实施例提供一种语音处理方法,在获取到多个待处理音频信号时,对麦克风阵列中任意两个麦克风进行波达方向估计,并根据波达方向估计和波束形成算法对待处理音频信号进行波束形成处理,并对波束形成处理后的待处理音频信号进行噪声抑制,最终将降噪抑制后得到的目标音频信号进行输出。可知,本公开对每两个待处理音频信号均进行了波达方向估计,并对波束形成处理后的待处理音频信号进行了噪声抑制处理,从而实现了音频拾取和增强功能,提高了音频识别的准确性。
在一个实施例中,在所述对所述麦克风阵列中任意两个麦克风进行波达方向估计之前,还包括:
对每个所述待处理音频信号进行语音活动检测和噪声估计,并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率;
所述对所述麦克风阵列中任意两个麦克风进行波达方向估计包括:
根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。
在一个实施例中,所述根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计包括:
根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计,根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度。
在一个实施例中,所述对每个所述待处理音频信号进行语音活动检测和噪声估计包括:
确定是否有同步输入信号;
在确定有所述同步输入信号时,对每个所述待处理音频信号进行回声消除处理;
对进行回声消除处理后的每个所述待处理音频信号进行语音活动检测和噪声估计;
在确定未有所述同步输入信号时,对每个所述待处理音频信号进行语音活动检测和噪声估计。
在一个实施例中,所述获取至少两个待处理音频信号包括:
获取至少两个原音频信号;所述原音频信号为音频输入模块输出的信号;
对每个所述原音频信号进行短时傅里叶变换,得到所述待处理音频信号。
在一个实施例中,所述对每个所述待处理音频信号进行回声消除处理包括:
其中,y(t,m)表示第m个麦克风在t时刻采集到的同步输入信号,s(t-l)表示t-l时刻的同步输入信号,hl表示同步输入信号到每个麦克风之间的信道,l为累加运算符中的标识符,L表示时间长度,h(t,m)=[h0h1...hL-1]表示在t时刻同步输入信号到第m个麦克风之间的信道;表示第m个麦克风在t+1时刻采集到的同步输入信号的信道估计值,表示第m个麦克风在t时刻采集到的同步输入信号的信道估计值,表示误差信号,μ表示平滑因子,表示第m个麦克风在t时刻的回声估计,x(t,m)表示第m个麦克风在t时刻的近端信号,s(k,m)=[s(k,m)s(k-1,m)…s(k-L+1,m)]表示同步输入信号向量,sT(k,m)表示s(k,m)的转置。
在一个实施例中,所述对每个所述待处理音频信号进行语音活动检测和噪声估计,并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率包括:
根据公式
根据公式
其中,αs表示有语音时噪声估计的平滑因子,αn表示无语音时噪声估计的平滑因子,V(k,t-1)表示第k个频点在t-1时刻的噪声频谱估计值,V(k,t)表示第k个频点在t时刻的噪声频谱估计值,X(k,t)表示第k个频点在t时刻的短时傅里叶变换;βs表示有语音时信号估计的平滑因子,βn表示无语音时信号估计的平滑因子,Y(k,t-1)表示第k个频点在t-1时刻的信号频谱估计值,Y(k,t)表示第k个频点在t时刻的信号频谱估计值;SNR(k,t)表示信噪比的估计值,P(k,t)表示第k个频点在t时刻的语音存在概率,THSNR表示信噪比阈值。
在一个实施例中,所述根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计,根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度包括:
其中,τ表示两个待处理音频信号之间的时延估计值,Ψ(m)表示两个待处理音频信号的广义互相关,表示权值,表示信号的能量的期望,θ表示波达方向,c表示空气中的声速,d表示两个待处理音频信号对应的两个麦克风之间的距离。
在一个实施例中,所述根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理包括:
其中,R=E{X(t)XT(t)},
d(θ)=[1e-jωδcosθ/c...e-j(M-1)ωδcosθ/c]T,
在一个实施例中,所述对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号包括:
其中,S(k,t)表示降噪处理后的待处理音频信号,hNR(k)表示降噪滤波器,X(k,t)表示经短时傅里叶变换后的待处理音频信号。
根据本公开实施例的第二方面,提供一种语音处理装置,所述方法包括:
获取模块,用于获取至少两个待处理音频信号;所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号;
第一处理模块,用于对所述麦克风阵列中任意两个麦克风进行波达方向估计;
第二处理模块,用于根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理;
第三处理模块,用于对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号;
输出模块,用于输出所述目标音频信号。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例提供的一种语音处理方法的流程图;
图2是本公开实施例提供的一种语音处理方法的流程图;
图3a是本公开实施例提供的一种语音处理装置的结构图;
图3b是本公开实施例提供的一种语音处理装置的结构图;
图3c是本公开实施例提供的一种语音处理装置的结构图;
图3d是本公开实施例提供的一种语音处理装置的结构图;
图3e是本公开实施例提供的一种语音处理装置的结构图;
图3f是本公开实施例提供的一种语音处理装置的结构图;
图3g是本公开实施例提供的一种语音处理装置的结构图;
图3h是本公开实施例提供的一种语音处理装置的结构图;
图3i是本公开实施例提供的一种语音处理装置的结构图;
图3j是本公开实施例提供的一种语音处理装置的结构图;
图4是本公开实施例提供的一种语音处理设备的框架图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供一种语音处理方法,如图1所示,该方法包括以下步骤:
步骤101、获取至少两个待处理音频信号。
其中,所述待处理音频信号为音频输入模块输出的所有信号,所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号。
步骤102、对所述麦克风阵列中任意两个麦克风进行波达方向估计。
步骤103、根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理。
步骤104、对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号。
步骤105、输出所述目标音频信号。
本公开实施例提供一种语音处理方法,在获取到多个待处理音频信号时,对麦克风阵列中任意两个麦克风进行波达方向估计,并根据波达方向估计和波束形成算法对待处理音频信号进行波束形成处理,并对波束形成处理后的待处理音频信号进行噪声抑制,最终将降噪抑制后得到的目标音频信号进行输出。可知,本公开对每两个待处理音频信号均进行了波达方向估计,并对波束形成处理后的待处理音频信号进行了噪声抑制处理,从而实现了音频拾取和增强功能,提高了音频识别的准确性。
本公开实施例提供一种语音处理方法,如图2所示,该方法包括以下步骤:
步骤201、获取至少两个原音频信号。
其中,所述原音频信号为音频输入模块输出的信号,所述原音频信号包括麦克风阵列输出的音频信号,和/或,智能麦克风输出的音频信号。
示例的,以固定的周期从音频输入模块获取多通道的原音频信号,该原音频信号的来源可以是麦克风阵列,也可以是其他智能麦克风。
需要说明的是,音频输入模块可以包括声音采集模块和至少一个输入通道,例如,音频输入模块包括16个输入通道;声音采集模块可以包括模数转换器件、麦克风阵列、智能麦克风等,例如,声音采集模块为8个模拟麦克风输入和2个模数转换器件;整体音频信号的输入源可以包括:麦克风阵列、第三方的模拟或者数字音频流、其他智能麦克风。
步骤202、对每个所述原音频信号进行短时傅里叶变换,得到所述待处理音频信号。
其中,X(k,t,m)表示第m个通道第k个频点在t时刻的短时傅里叶变换,即为待处理音频信号,N表示时间窗的长度,w(n)表示第n个窗函数值,x(n+t,m)表示n+t时刻第m个通道的待处理音频信号,n为大于等于1的整数,wk=2πk/K表示角频率,K表示短时傅里叶变换的长度,e为自然指数。
示例的,通过短时傅里叶变换将获取到的多通道的原音频信号从时域转换到频域。
步骤203、确定是否有同步输入信号。
示例的,同步输入信号通常指的是第三方的模拟和数字音频流,主要搭载的是在当前环境中播放的声音的音源,例如,音箱或者电视机播放的声音;同步输入信号的检测是进行回声消除处理的必要条件,所以确定是否有同步输入信号直接关系到是否进行回声消除;具体的,同步输入信号的检测通常通过能量检测来完成,即计算同步输入通道的信号能量,当信号能量大于或等于设定的阈值时,确定有同步输入信号,需要进行回声消除;当信号能量小于设定的阈值时,则确定没有同步输入信号,无需进行回声消除。
步骤204、在确定有所述同步输入信号时,对每个所述待处理音频信号进行回声消除处理。
其中,回声消除是指从采集到的待处理音频信号中消除人为播放的声音,即同步信号,并最大限度保留其他声音。
其中,y(t,m)表示第m个麦克风在t时刻采集到的同步输入信号,s(t-l)表示t-l时刻的同步输入信号,hl表示同步输入信号到每个麦克风之间的信道,l为累加运算符中的标识符,L表示时间长度,h(t,m)=[h0h1...hL-1]表示在t时刻同步输入信号到第m个麦克风之间的信道;表示第m个麦克风在t+1时刻采集到的同步输入信号的信道估计值,表示第m个麦克风在t时刻采集到的同步输入信号的信道估计值,表示误差信号,μ表示平滑因子,表示第m个麦克风在t时刻的回声估计,x(t,m)表示第m个麦克风在t时刻的近端信号,s(k,m)=[s(k,m)s(k-1,m)…s(k-L+1,m)]表示同步输入信号向量,sT(k,m)表示s(k,m)的转置。
需要说明的是,还可以通过现有技术中的其他方法进行回声消除,本公开对此不做限定。
步骤205、对每个所述待处理音频信号进行语音活动检测和噪声估计。
具体的,由于在真实的声学场景中,环境中并非一直都存在语音信号,大部分时候语音段和噪声段都是交替出现的,甚至有时大部分都是噪声段,因此,必须进行语音活动检测,语音活动检测是通过检测实时音频流的能量或者幅值大小,并在此基础上跟踪音频流中语音和噪声的变化来实现的。而为了获取更好的降噪效果,噪声估计是必不可少的,噪声估计是通过跟踪音频流信号中的信噪比、幅值等特征的变化来实时跟踪声频谱的变化的。其中,最典型的做法就是通过跟踪语音和噪声的频谱来实时估计音频的信噪比,再根据估计的音频的信噪比来更新语音和噪声的频谱。
可选的,在确定有同步输入信号时,对每个进行回声消除处理后的待处理音频信号进行语音活动检测和噪声估计,得到音频信号存在概率。
可选的,在确定未有同步输入信号时,直接对每个所述待处理音频信号进行语音活动检测和噪声估计,得到音频信号存在概率。
示例的,根据公式
其中,αs表示有语音时噪声估计的平滑因子,αn表示无语音时噪声估计的平滑因子,V(k,t-1)表示第k个频点在t-1时刻的噪声频谱估计值,V(k,t)表示第k个频点在t时刻的噪声频谱估计值,X(k,t)表示第k个频点在t时刻的短时傅里叶变换。
根据公式
其中,βs表示有语音时信号估计的平滑因子,βn表示无语音时信号估计的平滑因子,Y(k,t-1)表示第k个频点在t-1时刻的信号频谱估计值,Y(k,t)表示第k个频点在t时刻的信号频谱估计值。
其中,SNR(k,t)表示信噪比的估计值。
其中,P(k,t)表示第k个频点在t时刻的音频信号存在概率,THSNR表示信噪比阈值。
步骤206、根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。
其中,波达方向为目标声源与麦克风阵列的相对角度,波达方向估计分为两个步骤:根据音频信号的存在概率计算麦克风阵列中任意两个麦克风的时延估计,再根据时延估计的结果计算目标声源与麦克风阵列的相对角度。
其中,τ表示两个待处理音频信号之间的时延估计值,Ψ(m)表示两个待处理音频信号的广义互相关,φ(k)表示权值,φ(k)=1/|E{X(k,1)X*(k,2)|,E{X(k,1)X*(k,2)}表示信号的能量的期望,θ表示波达方向,c表示空气中的声速,d表示两个待处理音频信号对应的两个麦克风之间的距离。
步骤207、根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理。
具体的,在确定波达方向的情况下,利用波束形成算法可以最大限度的利用信号的空间信息,消除来自声源方向以外的噪声和混响。波束形成是通过在不同的频段分别对每个麦克风进行相位补偿,从而达到增强目标信号并抑制噪声和干扰的效果。具体来说,就是在不同的频段上分别设计空间滤波器,对每个待处理音频信号进行空间滤波。
其中,R=E{X(t)XT(t)},
d(θ)=[1e-jωδcosθ/c...e-j(M-1)ωδcosθ/c]T,
步骤208、对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号。
具体的,由于真实环境中噪声无处不在,所以噪声消除必不可少,这里的噪声消除是通过频率滤波来实现的,而该滤波器可以通过最小化纯净信号与估计信号之间的差值来求得。通常通过谱减法来降噪,谱减法的思路就是针对每个频点,利用当前信号的能量和噪声估计的能量,计算纯净信号与观测信号的比值,然后通过该比值进行频率滤波。
S(k,t)=hNR(k)X(k,t)得到所述目标音频信号。
其中,S(k,t)表示降噪处理后的待处理音频信号,hNR(k)表示降噪滤波器,X(k,t)表示经短时傅里叶变换后的待处理音频信号。
步骤209、对每个所述目标音频信号进行短时傅里叶反变换后输出。
示例的,在确定目标音频信号之后,再采用短时傅里叶反变换将目标音频信号从频域重新转换到时域,得到最终输出的数字音频流,输出的数字音频流可以通过音频输出模块来输出,音频输出模块可以为耳机接口、USB声卡或者其他智能麦克风等。
本公开实施例提供一种语音处理方法,在获取到多个待处理音频信号时,首先检测是否有同步输入信号,在有同步输入信号时,对每个待处理音频信号进行回声消除处理;然后对进行回声消除处理后的每个待处理音频信号进行语音活动检测和噪声估计,得到音频信号存在概率;再根据音频信号存在概率确定每两个待处理音频信号之间的波达方向估计,并根据波达方向估计对每个待处理音频信号进行降噪处理,最终将降噪处理后的目标音频信号进行输出。可知,本公开不仅对接收到的待处理音频信号进行了同步输入信号的检测,还进行了语音活动检测和噪声估计,最终根据语音活动检测和噪声估计得到的音频信号存在概率对每两个待处理音频信号均进行了波达方向估计,并根据波达方向估计对所有的待处理音频信号进行了降噪处理,从而进一步减少了目标音频信号中的各种噪音,实现了音频拾取和增强功能,进一步提高了音频识别的准确性;另外,本公开能够同时获取多个智能麦克风输出的待处理音频信号,并对多个智能麦克风输出的待处理音频信号进行同时处理,从而实现了对多个智能麦克风的联合处理,能够匹配处理难度较大的复杂场景,适应能力较强。本公开对麦克风阵列的最小尺寸无要求,相对于现有方法,可以做到更小的尺寸和更低的成本,通过本公开设计的麦克风拥有全面的中远场语音增强效果,可以应用于所有具有中远场语音增强需求的场景,具有极高的通用性。
基于上述实施例中所描述的语音处理方法,下述为本公开装置实施例,可以用于执行本公开方法实施例。
本公开实施例提供一种语音处理装置,如图3a所示,该语音处理装置30包括:获取模块301、第一处理模块302、第二处理模块303、第三处理模块304和输出模块305。
其中,获取模块301,用于获取至少两个待处理音频信号;所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号。
第一处理模块302,用于对所述麦克风阵列中任意两个麦克风进行波达方向估计。
第二处理模块303,用于根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理。
第三处理模块304,用于对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号。
输出模块305,用于输出所述目标音频信号。
在一个实施例中,如图3b所示,所述装置还包括确定模块306,所述第一处理模块302包括第一处理子模块3021。
其中,所述确定模块306,用于对每个所述待处理音频信号进行语音活动检测和噪声估计,并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率。
所述第一处理子模块3021,用于根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。
在一个实施例中,如图3c所示,所述第一处理子模块3021包括计算单元30211。
其中,所述计算单元30211,用于根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计,并根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度。
在一个实施例中,如图3d所示,所述确定模块306包括第一确定子模块3061、第二处理子模块3062、第三处理子模块3063和第四处理子模块3064。
其中,所述第一确定子模块3061,用于确定是否有同步输入信号。
所述第二处理子模块3062,用于在确定有所述同步输入信号时,对每个所述待处理音频信号进行回声消除处理。
所述第三处理子模块3063,用于对进行回声消除处理后的每个所述待处理音频信号进行语音活动检测和噪声估计。
所述第四处理子模块3064,用于在确定未有所述同步输入信号时,对每个所述待处理音频信号进行语音活动检测和噪声估计。
在一个实施例中,如图3e所示,所述获取模块301包括获取子模块3011和变换子模块3012。
其中,所述获取子模块3011,用于获取至少两个原音频信号;所述原音频信号为音频输入模块输出的信号。
所述变换子模块3012,用于对每个所述原音频信号进行短时傅里叶变换,得到所述待处理音频信号。
在一个实施例中,如图3f所示,所述第二处理子模块3062包括处理单元30621。
其中,y(t,m)表示第m个麦克风在t时刻采集到的同步输入信号,s(t-l)表示t-l时刻的同步输入信号,hl表示同步输入信号到每个麦克风之间的信道,l为累加运算符中的标识符,L表示时间长度,h(t,m)=[h0 h1...hL-1]表示在t时刻同步输入信号到第m个麦克风之间的信道;表示第m个麦克风在t+1时刻采集到的同步输入信号的信道估计值,表示第m个麦克风在t时刻采集到的同步输入信号的信道估计值,表示误差信号,μ表示平滑因子,表示第m个麦克风在t时刻的回声估计,x(t,m)表示第m个麦克风在t时刻的近端信号,s(k,m)表示=[s(k,m)s(k-1,m)…s(k-L+1,m)]表示同步输入信号向量,sT(k,m)表示s(k,m)的转置。
在一个实施例中,如图3g所示,所述确定模块306包括检测子模块3065、第五处理子模块3066和第二确定子模块3067。
其中,检测子模块3065,用于根据公式
第五处理子模块3066,用于根据公式
其中,αs表示有语音时噪声估计的平滑因子,αn表示无语音时噪声估计的平滑因子,V(k,t-1)表示第k个频点在t-1时刻的噪声频谱估计值,V(k,t)表示第k个频点在t时刻的噪声频谱估计值,X(k,t)表示第k个频点在t时刻的短时傅里叶变换;βs表示有语音时信号估计的平滑因子,βn表示无语音时信号估计的平滑因子,Y(k,t-1)表示第k个频点在t-1时刻的信号频谱估计值,Y(k,t)表示第k个频点在t时刻的信号频谱估计值;SNR(k,t)表示信噪比的估计值,P(k,t)表示第k个频点在t时刻的语音存在概率,THSNR表示信噪比阈值。
在一个实施例中,如图3h所示,所述计算单元30211包括第一计算子单元302111和第二计算子单元302112。
其中,τ表示两个待处理音频信号之间的时延估计值,Ψ(m)表示两个待处理音频信号的广义互相关,表示权值,表示信号的能量的期望,θ表示波达方向,c表示空气中的声速,d表示两个待处理音频信号对应的两个麦克风之间的距离。
在一个实施例中,如图3i所示,所述第二处理模块303包括第六处理子模块3031。
其中,R=E{X(t)XT(t)},
d(θ)=[1e-jωδcosθ/c...e-j(M-1)ωδcosθ/c]T,
在一个实施例中,如图3j所示,所述第三处理模块304包括第七处理子模块3041。
其中,所述第七处理子模块3041,用于根据公式
其中,S(k,t)表示降噪处理后的待处理音频信号,hNR(k)表示降噪滤波器,X(k,t)表示经短时傅里叶变换后的待处理音频信号。
本公开实施例提供一种语音处理装置,在获取到多个待处理音频信号时,对麦克风阵列中任意两个麦克风进行波达方向估计,并根据波达方向估计和波束形成算法对待处理音频信号进行波束形成处理,并对波束形成处理后的待处理音频信号进行噪声抑制,最终将降噪抑制后得到的目标音频信号进行输出。可知,本公开对每两个待处理音频信号均进行了波达方向估计,并对波束形成处理后的待处理音频信号进行了噪声抑制处理,从而实现了音频拾取和增强功能,提高了音频识别的准确性。
参考图4所示,本公开实施例还提供了一种语音处理设备,该语音处理设备包括接收器401、发射器402、存储器403和处理器404,该发射器402和存储器403分别与处理器404连接,存储器403中存储有至少一条计算机指令,处理器404用于加载并执行至少一条计算机指令,以实现上述图1对应的实施例中所描述的语音处理方法。
基于上述图1对应的实施例中所描述的语音处理方法,本公开实施例还提供一种计算机可读存储介质,例如,非临时性计算机可读存储介质可以是只读存储器(英文:ReadOnly Memory,ROM)、随机存取存储器(英文:Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有计算机指令,用于执行上述图1对应的实施例中所描述的语音处理方法,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
Claims (11)
1.一种语音处理方法,其特征在于,所述方法包括:
获取至少两个待处理音频信号;所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号;
对所述麦克风阵列中任意两个麦克风进行波达方向估计;
根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理;
对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号;
输出所述目标音频信号。
2.根据权利要求1所述的方法,其特征在于,在所述对所述麦克风阵列中任意两个麦克风进行波达方向估计之前,还包括:
对每个所述待处理音频信号进行语音活动检测和噪声估计,并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率;
所述对所述麦克风阵列中任意两个麦克风进行波达方向估计包括:
根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。
3.根据权利要求2所述的方法,其特征在于,所述根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计包括:
根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计;
根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度。
4.根据权利要求3所述的方法,其特征在于,所述对每个所述待处理音频信号进行语音活动检测和噪声估计包括:
确定是否有同步输入信号;
在确定有所述同步输入信号时,对每个所述待处理音频信号进行回声消除处理;
对进行回声消除处理后的每个所述待处理音频信号进行语音活动检测和噪声估计;
在确定未有所述同步输入信号时,对每个所述待处理音频信号进行语音活动检测和噪声估计。
5.根据权利要求1所述的方法,其特征在于,所述获取至少两个待处理音频信号包括:
获取至少两个原音频信号;所述原音频信号为音频输入模块输出的信号;
对每个所述原音频信号进行短时傅里叶变换,得到所述待处理音频信号。
6.根据权利要求4所述的方法,其特征在于,所述对每个所述待处理音频信号进行回声消除处理包括:
其中,y(t,m)表示第m个麦克风在t时刻采集到的同步输入信号,s(t-l)表示t-l时刻的同步输入信号,hl表示同步输入信号到每个麦克风之间的信道,l为累加运算符中的标识符,L表示时间长度,h(t,m)=[h0h1...hL-1]表示在t时刻同步输入信号到第m个麦克风之间的信道;表示第m个麦克风在t+1时刻采集到的同步输入信号的信道估计值,表示第m个麦克风在t时刻采集到的同步输入信号的信道估计值,表示误差信号,μ表示平滑因子,表示第m个麦克风在t时刻的回声估计,x(t,m)表示第m个麦克风在t时刻的近端信号,s(k,m)=[s(k,m)s(k-1,m)…s(k-L+1,m)]表示同步输入信号向量,sT(k,m)表示s(k,m)的转置。
7.根据权利要求6所述的方法,其特征在于,所述对每个所述待处理音频信号进行语音活动检测和噪声估计,并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率包括:
根据公式
根据公式
其中,αs表示有语音时噪声估计的平滑因子,αn表示无语音时噪声估计的平滑因子,V(k,t-1)表示第k个频点在t-1时刻的噪声频谱估计值,V(k,t)表示第k个频点在t时刻的噪声频谱估计值,X(k,t)表示第k个频点在t时刻的短时傅里叶变换;βs表示有语音时信号估计的平滑因子,βn表示无语音时信号估计的平滑因子,Y(k,t-1)表示第k个频点在t-1时刻的信号频谱估计值,Y(k,t)表示第k个频点在t时刻的信号频谱估计值;SNR(k,t)表示信噪比的估计值,P(k,t)表示第k个频点在t时刻的语音存在概率,THSNR表示信噪比阈值。
11.一种语音处理装置,其特征在于,包括:
获取模块,用于获取至少两个待处理音频信号;所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号;
第一处理模块,用于对所述麦克风阵列中任意两个麦克风进行波达方向估计;
第二处理模块,用于根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理;
第三处理模块,用于对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号;
输出模块,用于输出所述目标音频信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111003630.0A CN113744752A (zh) | 2021-08-30 | 2021-08-30 | 语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111003630.0A CN113744752A (zh) | 2021-08-30 | 2021-08-30 | 语音处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113744752A true CN113744752A (zh) | 2021-12-03 |
Family
ID=78733797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111003630.0A Pending CN113744752A (zh) | 2021-08-30 | 2021-08-30 | 语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744752A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579016A (zh) * | 2022-12-07 | 2023-01-06 | 成都海普迪科技有限公司 | 一种声学回声消除的方法和*** |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007147732A (ja) * | 2005-11-24 | 2007-06-14 | Japan Advanced Institute Of Science & Technology Hokuriku | 雑音低減システム及び雑音低減方法 |
CN106251877A (zh) * | 2016-08-11 | 2016-12-21 | 珠海全志科技股份有限公司 | 语音声源方向估计方法及装置 |
CN108831508A (zh) * | 2018-06-13 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法、装置和设备 |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及*** |
CN110097891A (zh) * | 2019-04-22 | 2019-08-06 | 广州视源电子科技股份有限公司 | 一种麦克风信号处理方法、装置、设备及存储介质 |
CN110164446A (zh) * | 2018-06-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
CN110556103A (zh) * | 2018-05-31 | 2019-12-10 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、***、设备和存储介质 |
CN111161751A (zh) * | 2019-12-25 | 2020-05-15 | 声耕智能科技(西安)研究院有限公司 | 复杂场景下的分布式麦克风拾音***及方法 |
CN111624553A (zh) * | 2020-05-26 | 2020-09-04 | 锐迪科微电子科技(上海)有限公司 | 声源定位方法及***、电子设备及存储介质 |
CN111856402A (zh) * | 2020-07-23 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 信号处理方法及装置、存储介质、电子装置 |
CN113270106A (zh) * | 2021-05-07 | 2021-08-17 | 深圳市友杰智新科技有限公司 | 双麦克风的风噪声抑制方法、装置、设备及存储介质 |
-
2021
- 2021-08-30 CN CN202111003630.0A patent/CN113744752A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007147732A (ja) * | 2005-11-24 | 2007-06-14 | Japan Advanced Institute Of Science & Technology Hokuriku | 雑音低減システム及び雑音低減方法 |
CN106251877A (zh) * | 2016-08-11 | 2016-12-21 | 珠海全志科技股份有限公司 | 语音声源方向估计方法及装置 |
CN110556103A (zh) * | 2018-05-31 | 2019-12-10 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、***、设备和存储介质 |
CN108831508A (zh) * | 2018-06-13 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法、装置和设备 |
CN110164446A (zh) * | 2018-06-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及*** |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN110097891A (zh) * | 2019-04-22 | 2019-08-06 | 广州视源电子科技股份有限公司 | 一种麦克风信号处理方法、装置、设备及存储介质 |
CN111161751A (zh) * | 2019-12-25 | 2020-05-15 | 声耕智能科技(西安)研究院有限公司 | 复杂场景下的分布式麦克风拾音***及方法 |
CN111624553A (zh) * | 2020-05-26 | 2020-09-04 | 锐迪科微电子科技(上海)有限公司 | 声源定位方法及***、电子设备及存储介质 |
CN111856402A (zh) * | 2020-07-23 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 信号处理方法及装置、存储介质、电子装置 |
CN113270106A (zh) * | 2021-05-07 | 2021-08-17 | 深圳市友杰智新科技有限公司 | 双麦克风的风噪声抑制方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579016A (zh) * | 2022-12-07 | 2023-01-06 | 成都海普迪科技有限公司 | 一种声学回声消除的方法和*** |
CN115579016B (zh) * | 2022-12-07 | 2023-03-21 | 成都海普迪科技有限公司 | 一种声学回声消除的方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10123113B2 (en) | Selective audio source enhancement | |
JP4815661B2 (ja) | 信号処理装置及び信号処理方法 | |
CN106710601B (zh) | 一种语音信号降噪拾音处理方法和装置及冰箱 | |
EP3542547B1 (en) | Adaptive beamforming | |
CN107479030B (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
KR101449433B1 (ko) | 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치 | |
KR101456866B1 (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
US8462962B2 (en) | Sound processor, sound processing method and recording medium storing sound processing program | |
CN109285557B (zh) | 一种定向拾音方法、装置及电子设备 | |
KR20040044982A (ko) | 선택적인 사운드 증강 | |
CN106887239A (zh) | 用于高度相关的混合物的增强型盲源分离算法 | |
JP4973655B2 (ja) | 適応アレイ制御装置、方法、プログラム、及びこれを利用した適応アレイ処理装置、方法、プログラム | |
JP2007523514A (ja) | 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム | |
CN108109617A (zh) | 一种远距离拾音方法 | |
KR100917460B1 (ko) | 잡음제거 장치 및 방법 | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
CN113744752A (zh) | 语音处理方法及装置 | |
CN117169812A (zh) | 一种基于深度学习和波束形成的声源定位方法 | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
CN116760442A (zh) | 波束形成方法、装置、电子设备以及存储介质 | |
KR20090098552A (ko) | 위상정보를 이용한 자동 이득 조절 장치 및 방법 | |
CN113948101A (zh) | 一种基于空间区分性检测的噪声抑制方法及装置 | |
JP6854967B1 (ja) | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム | |
CN111863017B (zh) | 一种基于双麦克风阵列的车内定向拾音方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |