CN107993670A - 基于统计模型的麦克风阵列语音增强方法 - Google Patents
基于统计模型的麦克风阵列语音增强方法 Download PDFInfo
- Publication number
- CN107993670A CN107993670A CN201711201341.5A CN201711201341A CN107993670A CN 107993670 A CN107993670 A CN 107993670A CN 201711201341 A CN201711201341 A CN 201711201341A CN 107993670 A CN107993670 A CN 107993670A
- Authority
- CN
- China
- Prior art keywords
- mrow
- model
- noise
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013179 statistical model Methods 0.000 title claims abstract description 21
- 230000003595 spectral effect Effects 0.000 claims abstract description 51
- 230000003044 adaptive effect Effects 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 230000000903 blocking effect Effects 0.000 claims abstract description 18
- 238000009432 framing Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了基于统计模型的麦克风阵列语音增强方法。该方法先建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型;将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn;从辅助支路的信号中估计噪声模型及噪声的线性频谱模型;对yc分帧,利用噪声模型和干净语音模型对每帧语音进行分类;根据分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器;用最佳滤波器对yc进行滤波,获得增强后的语音。本发明提高了输出语音的听觉质量,可在具有嘈杂背景的语音通信中应用。
Description
技术领域
本发明涉及语音信号处理领域,特别是一种基于统计模型的麦克风阵列语音增强方法。
背景技术
在实际语音通信中,语音信号常会受到外界环境噪声的干扰,影响接收语音的质量(非干净语音)。语音增强技术是语音信号处理的一个重要分支,目的是从带噪语音中尽可能地提取纯净的原始语音,广泛应用于嘈杂环境下的语音通信、语音压缩编码和语音识别等领域。
常用的语音增强方法包括两大类,一类是基于单麦克风的语音增强方法,另一类是基于麦克风阵列的语音增强方法。常用的单麦克风语音增强方法有谱减法、维纳滤波法、MMSE、卡尔曼滤波、小波变换等,这类算法通过时域、频域、小波变换域等滤波来抑制噪声,但无法利用信号的空间域信息,因此当噪声较强时,单麦克风语音增强算法的重建语音质量不高。
基于麦克风阵列的语音增强方法的基本思想是将一组麦克风按一定的方式布置在空间不同的位置上,用其构成的传感器阵列接收空间的音频信号。由于麦克风阵列语音增强技术可以利用多路接收信号之间的空间相关性,在接收区域内可以检测、定位和追踪声源,增强指定方向的有用语音信号,抑制无用的干扰和噪声,因此与单麦克风相比,麦克风阵列具有更高的信号增益和更强的干扰抑制能力。现有的麦克风阵列语音增强技术可以大致分为固定波束形成法、自适应波束形成法和后置自适应滤波法三类,其中自适应波束形成法中,滤波器系数随着输入信号统计特性的变化而变化,可以使波束的零陷方向自动对准噪声方向,而注视方向上信号的频率响应固定不变,因此能有效抑制其它方向上的干扰噪声,在实际中得到了广泛的应用。
广义旁瓣相消器(GSC)是麦克风阵列自适应波束形成器的一种通用模型,它把受限的线性约束最小方差(LCMV)最优化问题转化为非约束最优化问题,主支路使用固定波束形成器增强期望方向的信号,辅助支路使用空间陷波器来阻塞期望方向上的信号,估计主支路的噪声,并通过自适应抵消器将辅助支路估计的噪声与主支路的噪声抵消,从而最小化***干扰和噪声输出功率,实现对目标信号的增强。GSC提高了麦克风阵列在时变环境下的适应性,且结构简单,易于实现,广泛用于各种阵列信号处理中。但现有的GSC麦克风阵列语音增强技术还存在以下不足:(1)虽然GSC对空间相干的噪声具有较强的抑制能力,但是对空间非相干噪声的抑制能力不强,特别是在空间非相干的环境噪声与空间相干的噪声并存时,输出的增强语音存在的残余噪声较多;(2)GSC算法是针对一般输入信号设计的,没有利用语音信号的先验知识和针对语音信号的特点进行优化,因此重建语音的质量有待进一步提高。
发明内容
为了改善GSC算法的性能,本发明提供一种基于统计模型的麦克风阵列语音增强方法,该方法利用干净语音模型和从GSC辅助支路输出中估计的噪声模型构造最佳语音滤波器,来对GSC主支路信号进行增强。
本发明的目的至少通过如下技术方案之一实现。
本发明提供的基于统计模型的麦克风阵列语音增强方法,采用以下步骤对输入的语音信号进行增强:
步骤1:使用干净语音库建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型。上述干净语音库中的语音使用单麦克风进行采集。
步骤2:将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn。
步骤3:从辅助支路的信号中估计噪声模型及噪声的线性频谱模型。
步骤4:对yc分帧,并利用噪声模型和干净语音模型对每帧语音进行分类。
步骤5:根据步骤4的分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器。
步骤6:用步骤5中得到的最佳滤波器对yc进行滤波,获得增强后的语音。
上述步骤1中,采用以下方法建立用于语音帧分类的干净语音模型和计算出对应于每个分类的干净语音线性频谱模型:
步骤1.1:将干净语音库中的语音进行分帧预处理后,提取每帧的语音特征参数;
步骤1.2:用步骤1.1得到的语音特征参数训练用于语音帧分类的干净语音模型;
步骤1.3:使用干净语音模型对所有用于训练的语音帧进行分类;
步骤1.4:计算属于每个分类的所有语音帧的线性频谱,建立与每个分类对应的干净语音线性频谱模型。
上述步骤1.1中的语音特征参数为梅尔频率倒谱系数(MFCC)。
上述步骤1.2中,干净语音模型采用GMM(高斯混合模型)或HMM(隐马尔可夫模型)。
上述步骤1.4中的干净语音线性频谱模型为干净语音线性频谱均值。
上述步骤3中,采用以下方法估计噪声的线性频谱均值:
步骤3.1:初始化M路非相干噪声的线性频谱均值Sin(ω)和自适应抵消器输出噪声的线性频谱均值Srn(ω),其中M为麦克风阵列的阵元数。
步骤3.2:采用下式估计噪声的线性频谱均值Sn(ω):
其中Wq为固定波束形成器的权值矩阵,为Wq的转置,Wa为自适应抵消器的权值矩阵,为Wa2的转置,T为满秩矩阵且满足其中B为阻塞矩阵,x为任意向量,y为Tx比Bx多出来的元素。
步骤3.3:采用下式更新Sin(ω)和Srn(ω):
S′in(ω)=αSb(ω)+(1-α)Sin(ω) (2)
S′rn(ω)=α′Yn(ω)+(1-α′)Srn(ω) (3)
其中S′in(ω)和S′rn(ω)分别为更新后的Sin(ω)和Srn(ω),Sb(ω)为麦克风阵列输入信号通过T后的输出信号,Yn(ω)为yn的频谱,α和α′为权重系数。
上述步骤3.3中,α采用下式计算:
其中β和γ为预设的常数,En为自适应抵消器输出信号的能量,Eb为自适应抵消器M-1路输入信号能量之和。
上述步骤3.3中,α′为预设的权重系数。
上述步骤3中,噪声模型与噪声的线性频谱模型均为噪声的线性频谱均值。
上述步骤4中,先采用模型补偿技术将噪声模型和干净语音模型合并为带噪语音模型,然后用带噪语音模型对每帧语音进行分类。
上述步骤5中,采用以下式构造最佳滤波器:
其中H(ω)为最佳滤波器的频率响应,Sc,i(ω)为第i个分类对应的干净语音线性频谱均值,wi为步骤4中当前语音帧对应于第i个分类的得分。
与现有技术相比,本发明的有益之处有:
1、本发明用基于统计模型的滤波器替换了GSC中带噪语音和噪声直接相减的操作,可以更充分地利用语音信号的先验知识,使输出语音更符合人类的听觉特性。
2、GSC中采用自适应抵消器来消除空间相干噪声,但自适应抵消器对空间非相干噪声抑制能力较弱,本发明在噪声估计时对非相干噪声进行了补偿,能有效地提高***对非相干噪声的抑制能力,增强输出语音的质量。
说明书附图
图1为本发明实施例***结构总框图。
图2为本发明实施例流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施步骤作进一步说明,但本发明的实施和保护范围不限于此,需指出的是,以下若有未特别详细说明之处,均是本领域技术人员可参照现有技术实现或理解的。
本发明实施例***结构总框图如图1所示,由麦克风阵列接收模块、固定波束形成模块、阻塞矩阵模块、自适应抵消器模块、噪声估计模块、干净语音模型、最佳滤波器模块共同构成,其中麦克风阵列接收模块与固定波束形成模块、阻塞矩阵模块连接,用于接收语音信号;固定波束形成器模块和麦克风阵列接收模块、自适应抵消器模块、最佳滤波器模块连接,用于增强期望方向的信号;阻塞矩阵模块与麦克风阵列接收模块、自适应抵消器模块、噪声估计模块连接,用于阻塞期望方向的信号;自适应抵消器模块与阻塞矩阵模块、固定波束形成器模块、噪声估计模块连接,用于产生噪声抵消信号;噪声估计模块与阻塞矩阵模块、自适应抵消器模块、最佳滤波器模块连接,用于估计噪声模型及噪声的线性频谱模型;干净语音模型与最佳滤波器模块连接,用于存储干净语音模型及干净语音的线性频谱模型;最佳滤波器模块与干净语音模型、固定波束形成器模块、噪声估计模块连接,根据干净语音模型和噪声模型计算出当前语音帧的最佳滤波器系数,并对固定波束形成器模块的输出进行滤波。上述实施例中,麦克风阵列接收模块采用线性阵列结构,包含8个麦克风,均匀分布在直线上,各阵元各向同性。
本实例提供的基于统计模型的麦克风阵列语音增强方法的实施例,采用以下步骤对输入的语音进行增强,其流程如图2所示:
步骤1:使用干净语音库建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型。上述干净语音库中的语音使用单麦克风进行采集。
上述实施例中,***使用前首先用干净语音库建立用于语音帧分类的干净语音模型及对应于每个分类的干净语音线性频谱模型,具体分为以下步骤:
步骤1.1:将干净语音库中的语音进行分帧预处理后,提取每帧的语音特征参数。
上述实施例中,对干净语音库中的语音样本进行预加重、分帧、加窗预处理后,对语音进行离散傅里叶变换,将其能量谱输入梅尔三角滤波器组,进行带通滤波后,取其对数并进行离散余弦变换,得到干净语音的梅尔频率倒谱系数(MFCC)。
步骤1.2:用步骤1.1得到的语音特征参数训练用于语音帧分类的干净语音模型。
上述实施例中,采用高斯混合模型(GMM)来对干净语音进行建模。将一帧时域训练语音xt转换为MFCC系数则倒谱域干净语音GMM统计模型的概率密度函数为:
式中为单高斯模型的概率密度函数,K表示GMM模型中高斯分量的数目,πk、μk和Σk分别代表第K个高斯分量的混合权重、均值和方差。令GMM模型参数集为λmfcc=(πk,μk,Σk),用最大似然估计法来估计λmfcc,使GMM模型的似然函数最大。训练的倒谱域特征矢量集合为则GMM模型的似然函数为:
上述实施例中,先使用训练序列对模型参数集进行初始值,再用最大期望算法(EM)直到似然函数收敛,可计算得到模型最佳参数集。
在另一些实施例中,干净语音模型采用隐马尔可夫模型(HMM)来实现。
步骤1.3:使用干净语音模型对所有用于训练的语音帧进行分类。
上述实施例中,干净语音GMM模型中的每个高斯分量代表一个分类。对所有用于训练的干净语音帧,计算每一帧特征矢量属于干净语音倒谱域GMM模型中每个分类的概率为:
找到输出概率最大的分类,记下语音帧xt与这个分类的映射关系。
步骤1.4:计算属于每个分类的所有语音帧的线性频谱,建立与每个分类对应的干净语音线性频谱模型。
上述实施例中,对第i个GMM分类,计算与它有映射关系的所有语音帧的线性频谱均值Sc,i(ω),作为与第i个分类对应的干净语音线性频谱统计模型。
步骤2:将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn。
上述实施例中,均匀线性阵列阵元数为M=8,各阵元均为各向同性阵元,有1个期望信号和1个干扰信号从远场入射到阵列上,阵列接收信号可表示为:
式中x=[x1,…,xM]T表示阵列接收信号,N表示环境噪声,A表示阵列流形矩形,A=[a(θ0),…,a(θP)],a(θi)为各个入射信号导向矢量, P为干扰信号个数,λ为声波波长,d为阵元间距,取实施例中干扰信号个数取P=1,θ0为期望信号方向,θ1为干扰方向。
上述实施例中,将麦克风阵列接收的信号采用GSC算法得到初步增强的语音yc和噪声分量yn,具体又分为以下步骤:
步骤2.1:用广义互时间延迟估计方法来估计麦克风阵列各个阵元接收信号的时延。第m麦克风接收到的信号xm(n)为:
xm(n)=ams(t-τm)+em(n) (10)
其中s(n)为声源信号,e(n)为噪声,τm表示从声源到麦克风的传播时间,am为声波衰减系数。则第m麦克风与第l麦克风接收信号的互相关函数为:
Rml(τ)=Rss(τ-(τm-τl)) (11)
其中Rss是声源信号s(n)的自相关函数,当Rml(τ)取最大值时,便可求得两个麦克风接收信号之间的时间延迟τ,τ=τm-τl=τml。经过时间延迟补偿后,参考阵元接收的信号同步,再通过固定波束形成器的权重Wq,得到初步增强的语音yc(n)。
步骤2.2:将步骤2.1中延时补偿后的同步阵元信号输入阻塞矩阵,将指定方向的期望信号阻塞掉。其中阻塞矩阵B与约束矩阵C满足:
BHC=0 (12)
C取为期望信号方向矢量,C=a(θ0),θ0为期望信号方向角度,经延时补偿后θ0=0。上述实施例中,阻塞矩阵B选取Griffths和Jim提出的经典阻塞矩阵:
步骤2.3:初始化自适应抵消器的权值Wa,将阻塞矩阵的输出信号z(n)输入自适应抵消器,得到辅助支路输出yb(n)。将主支路和辅助支路相减,得到误差信号:
e(n)=yc(n)-yb(n) (14)
采用最小误差准则调节Wa,Wa更新公式为:
Wa(n+1)=Wa(n)+μe(n)z(n) (15)
步骤3:从辅助支路的信号中估计噪声模型及噪声的线性频谱模型。
上述实施例中,噪声模型与噪声的线性频谱模型相同,均为噪声的线性频谱均值,采用以下方法计算得到:
步骤3.1:初始化M路非相干噪声的线性频谱均值Sin(ω)和自适应抵消器输出噪声的线性频谱均值Srn(ω),其中M=8为麦克风阵列的阵元数。
步骤3.2:采用下式估计噪声的线性频谱均值Sn(ω):
其中Wq为固定波束形成器的权值,为Wq的转置,Wa为自适应抵消器的权值,为Wa2的转置,T为满秩矩阵且满足其中B为阻塞矩阵,x为任意向量,y为Tx比Bx多出来的元素。上述实施例中,T设置为:
步骤3.3:采用下式更新Sin(ω)和Srn(ω):
S′in(ω)=αSb(ω)+(1-α)Sin(ω) (18)
S′rn(ω)=α′Yn(ω)+(1-α′)Srn(ω) (19)
其中S′in(ω)和S′rn(ω)分别为更新后的Sin(ω)和Srn(ω),Sb(ω)为麦克风阵列输入信号通过T后的输出信号,Yn(ω)为yn的频谱,α采用下式计算:
其中β和γ为预设的常数,En为自适应抵消器输出信号的能量,Eb为自适应抵消器M-1路输入信号能量之和。α′为预设的权重系数。
步骤4:对yc分帧,并利用噪声模型和干净语音模型对每帧语音进行分类。上述实施例中,采用以下方法实现:
步骤4.1:采用Log-Add模型补偿技术将噪声模型和干净语音模型合并为带噪语音模型,具体方法如下:首先将干净语音GMM模型的倒谱域均值转换到线性频谱域,并与噪声的频谱均值相加,得到带噪语音的频谱均值。然后将上述带噪语音的频谱均值转换到倒谱域,得到带噪语音GMM模型的均值参数,带噪语音GMM模型的方差与干净语音GMM模型的方差相同。
步骤4.2:对yc分帧并提取每帧语音的MFCC特征参数,用步骤4.1得到的带噪语音模型对上述语音帧进行分类,计算出每一帧语音属于带噪语音统计模型中每个分类的概率。
步骤5:根据步骤4的分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器。
上述实施例中,采用以下式构造最佳滤波器:
其中H(ω)为最佳滤波器的频率响应,Sc,i(ω)为第i个分类对应的干净语音线性频谱均值,wi为步骤4中当前语音帧对应于第i个分类的得分。
步骤6:用步骤5中得到的最佳滤波器对yc进行滤波,获得增强后的语音。
与现有技术相比,本发明充分利用接收语音信号的先验知识,能针对空间相干与非相干噪声实时调整和优化滤波器参数,有效地提高输出语音的听觉质量。本发明可以广泛用于视频会议、车载通信、会场、多媒体教室等各种具有嘈杂背景的语音通信应用中。
Claims (10)
1.基于统计模型的麦克风阵列语音增强方法,其特征在于采用以下步骤对输入的语音信号进行增强:
步骤1:使用干净语音库建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型;所述干净语音库中的语音使用单麦克风进行采集;
步骤2:将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn;
步骤3:从辅助支路的信号中估计噪声模型及噪声的线性频谱模型;
步骤4:对yc分帧,并利用噪声模型和干净语音模型对每帧语音进行分类;
步骤5:根据步骤4的分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器;
步骤6:用步骤5中得到的最佳滤波器对yc进行滤波,获得增强后的语音。
2.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1中,采用以下方法建立用于语音帧分类的干净语音模型和计算出对应于每个分类的干净语音线性频谱模型:
步骤1.1:将干净语音库中的语音进行分帧预处理后,提取每帧的语音特征参数;
步骤1.2:用步骤1.1得到的语音特征参数训练用于语音帧分类的干净语音模型;
步骤1.3:使用干净语音模型对所有用于训练的语音帧进行分类;
步骤1.4:计算属于每个分类的所有语音帧的线性频谱,建立与每个分类对应的干净语音线性频谱模型。
3.根据权利要求2所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1.1中的语音特征参数为梅尔频率倒谱系数。
4.根据权利要求2所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1.2中,干净语音模型采用GMM或HMM。
5.根据权利要求2所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1.4中的干净语音线性频谱模型为干净语音线性频谱均值。
6.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤3中,采用以下方法估计噪声的线性频谱均值:
步骤3.1:初始化M路非相干噪声的线性频谱均值Sin(ω)和自适应抵消器输出噪声的线性频谱均值Srn(ω),其中M为麦克风阵列的阵元数;
步骤3.2:采用下式估计噪声的线性频谱均值Sn(ω):
<mrow>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mi>q</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>T</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>-</mo>
<msubsup>
<mi>W</mi>
<mrow>
<mi>a</mi>
<mn>2</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mo>)</mo>
</mrow>
<msub>
<mi>S</mi>
<mrow>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>r</mi>
<mi>n</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中Wq为固定波束形成器的权值矩阵,为Wq的转置,Wa为自适应抵消器的权值矩阵,为Wa2的转置,T为满秩矩阵且满足其中B为阻塞矩阵,x为任意向量,y为Tx比Bx多出来的元素;
步骤3.3:采用下式更新Sin(ω)和Srn(ω):
S′in(ω)=αSb(ω)+(1-α)Sin(ω) (2)
S′rn(ω)=α′Yn(ω)+(1-α′)Srn(ω) (3)
其中S′in(ω)和S′rn(ω)分别为更新后的Sin(ω)和Srn(ω),Sb(ω)为麦克风阵列输入信号通过T后的输出信号,Yn(ω)为yn的频谱,α和α′为权重系数。
7.根据权利要求6所述的基于统计模型的麦克风阵列语音增强方法,其特征在于上述步骤3.3中,α采用下式计算:
<mrow>
<mi>&alpha;</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>&beta;</mi>
<mrow>
<mo>(</mo>
<mfrac>
<msub>
<mi>E</mi>
<mi>n</mi>
</msub>
<msub>
<mi>E</mi>
<mi>b</mi>
</msub>
</mfrac>
<mo>-</mo>
<mi>&gamma;</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中β和γ为预设的常数,En为自适应抵消器输出信号的能量,Eb为自适应抵消器M-1路输入信号能量之和;α′为预设的权重系数。
8.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤3中,噪声模型与噪声的线性频谱模型均为噪声的线性频谱均值。
9.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤4中,先采用模型补偿技术将噪声模型和干净语音模型合并为带噪语音模型,然后用带噪语音模型对每帧语音进行分类。
10.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤5中,采用以下式构造最佳滤波器:
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<mfrac>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<msup>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>c</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<msup>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>c</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>&omega;</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中H(ω)为最佳滤波器的频率响应,Sc,i(ω)为第i个分类对应的干净语音线性频谱均值,wi为步骤4中当前语音帧对应于第i个分类的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711201341.5A CN107993670B (zh) | 2017-11-23 | 2017-11-23 | 基于统计模型的麦克风阵列语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711201341.5A CN107993670B (zh) | 2017-11-23 | 2017-11-23 | 基于统计模型的麦克风阵列语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107993670A true CN107993670A (zh) | 2018-05-04 |
CN107993670B CN107993670B (zh) | 2021-01-19 |
Family
ID=62032304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711201341.5A Expired - Fee Related CN107993670B (zh) | 2017-11-23 | 2017-11-23 | 基于统计模型的麦克风阵列语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107993670B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899042A (zh) * | 2018-06-25 | 2018-11-27 | 天津科技大学 | 一种基于移动平台的语音降噪方法 |
CN109389991A (zh) * | 2018-10-24 | 2019-02-26 | 中国科学院上海微***与信息技术研究所 | 一种基于麦克风阵列的信号增强方法 |
CN109727605A (zh) * | 2018-12-29 | 2019-05-07 | 苏州思必驰信息科技有限公司 | 处理声音信号的方法及*** |
CN109979469A (zh) * | 2019-04-03 | 2019-07-05 | 北京小米智能科技有限公司 | 信号处理方法、设备及存储介质 |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN110797042A (zh) * | 2018-08-03 | 2020-02-14 | 杭州海康威视数字技术股份有限公司 | 音频处理方法、装置及存储介质 |
CN110827847A (zh) * | 2019-11-27 | 2020-02-21 | 高小翎 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
CN111696572A (zh) * | 2019-03-13 | 2020-09-22 | 富士通株式会社 | 语音分离装置、方法及介质 |
CN111954121A (zh) * | 2020-08-21 | 2020-11-17 | 云知声智能科技股份有限公司 | 一种麦克风阵列定向拾音方法及*** |
WO2020237955A1 (zh) * | 2019-05-31 | 2020-12-03 | 歌尔股份有限公司 | 声音信号处理方法、装置及设备 |
CN112289335A (zh) * | 2019-07-24 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 语音信号的处理方法、装置及拾音设备 |
CN112331226A (zh) * | 2020-09-29 | 2021-02-05 | 江苏清微智能科技有限公司 | 一种针对主动降噪***的语音增强***及方法 |
WO2021128670A1 (zh) * | 2019-12-26 | 2021-07-01 | 紫光展锐(重庆)科技有限公司 | 降低噪声的方法、装置、电子设备及可读存储介质 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN113302690A (zh) * | 2019-01-15 | 2021-08-24 | 诺基亚技术有限公司 | 音频处理 |
CN113884986A (zh) * | 2021-12-03 | 2022-01-04 | 杭州兆华电子有限公司 | 波束聚焦增强的强冲击信号空时域联合检测方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149320A1 (en) * | 2003-12-24 | 2005-07-07 | Matti Kajala | Method for generating noise references for generalized sidelobe canceling |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
CN104835503A (zh) * | 2015-05-06 | 2015-08-12 | 南京信息工程大学 | 一种改进gsc自适应语音增强方法 |
CN105206281A (zh) * | 2015-09-14 | 2015-12-30 | 胡旻波 | 基于分布式麦克风阵列网络的语音增强方法 |
CN105632512A (zh) * | 2016-01-14 | 2016-06-01 | 华南理工大学 | 一种基于统计模型的双传感器语音增强方法与装置 |
US20160275961A1 (en) * | 2015-03-18 | 2016-09-22 | Qualcomm Technologies International, Ltd. | Structure for multi-microphone speech enhancement system |
CN107017003A (zh) * | 2017-06-02 | 2017-08-04 | 厦门大学 | 一种麦克风阵列远场语音增强装置 |
WO2017158338A1 (en) * | 2016-03-14 | 2017-09-21 | University Of Southampton | Sound reproduction system |
-
2017
- 2017-11-23 CN CN201711201341.5A patent/CN107993670B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149320A1 (en) * | 2003-12-24 | 2005-07-07 | Matti Kajala | Method for generating noise references for generalized sidelobe canceling |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
US20160275961A1 (en) * | 2015-03-18 | 2016-09-22 | Qualcomm Technologies International, Ltd. | Structure for multi-microphone speech enhancement system |
CN104835503A (zh) * | 2015-05-06 | 2015-08-12 | 南京信息工程大学 | 一种改进gsc自适应语音增强方法 |
CN105206281A (zh) * | 2015-09-14 | 2015-12-30 | 胡旻波 | 基于分布式麦克风阵列网络的语音增强方法 |
CN105632512A (zh) * | 2016-01-14 | 2016-06-01 | 华南理工大学 | 一种基于统计模型的双传感器语音增强方法与装置 |
WO2017158338A1 (en) * | 2016-03-14 | 2017-09-21 | University Of Southampton | Sound reproduction system |
CN107017003A (zh) * | 2017-06-02 | 2017-08-04 | 厦门大学 | 一种麦克风阵列远场语音增强装置 |
Non-Patent Citations (7)
Title |
---|
DONGXIA WANG等: "SUBBAND ADAPTIVE BEAMFORMING FOR MICROPHONE ARRAY SPEECH ENHANCEMENT", 《ICSP2006 PROCEEDINGS》 * |
JINGDONG CHEN: "A Minimum Distortion Noise Reduction Algorithm", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
MICHAEL W. HOFFMAN等: "GSC-Based Spatial Voice Activity Detection for Enhanced", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
QINGNING ZENG等: "Microphone Mini-array Based Speech Enhancement Using ISDS-MGS C Algorithm", 《APSIPA ASC》 * |
刘凤增: "复杂环境下语⾳增强⽅法研究", 《中国优秀硕士学位论文数据库 信息科技辑》 * |
栗晓丽等: "基于子带TF一GSC麦克风阵列语音增强", 《电子科技》 * |
潘甲: "多通道语音增强算法研究", 《中国优秀硕士学位论文数据库 信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899042A (zh) * | 2018-06-25 | 2018-11-27 | 天津科技大学 | 一种基于移动平台的语音降噪方法 |
CN110797042B (zh) * | 2018-08-03 | 2022-04-15 | 杭州海康威视数字技术股份有限公司 | 音频处理方法、装置及存储介质 |
CN110797042A (zh) * | 2018-08-03 | 2020-02-14 | 杭州海康威视数字技术股份有限公司 | 音频处理方法、装置及存储介质 |
CN109389991A (zh) * | 2018-10-24 | 2019-02-26 | 中国科学院上海微***与信息技术研究所 | 一种基于麦克风阵列的信号增强方法 |
CN109727605B (zh) * | 2018-12-29 | 2020-06-12 | 苏州思必驰信息科技有限公司 | 处理声音信号的方法及*** |
CN109727605A (zh) * | 2018-12-29 | 2019-05-07 | 苏州思必驰信息科技有限公司 | 处理声音信号的方法及*** |
CN113302690A (zh) * | 2019-01-15 | 2021-08-24 | 诺基亚技术有限公司 | 音频处理 |
CN111696572A (zh) * | 2019-03-13 | 2020-09-22 | 富士通株式会社 | 语音分离装置、方法及介质 |
CN111696572B (zh) * | 2019-03-13 | 2023-07-18 | 富士通株式会社 | 语音分离装置、方法及介质 |
CN109979469A (zh) * | 2019-04-03 | 2019-07-05 | 北京小米智能科技有限公司 | 信号处理方法、设备及存储介质 |
WO2020237955A1 (zh) * | 2019-05-31 | 2020-12-03 | 歌尔股份有限公司 | 声音信号处理方法、装置及设备 |
CN112289335A (zh) * | 2019-07-24 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 语音信号的处理方法、装置及拾音设备 |
CN110517701B (zh) * | 2019-07-25 | 2021-09-21 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN110827847A (zh) * | 2019-11-27 | 2020-02-21 | 高小翎 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
CN110827847B (zh) * | 2019-11-27 | 2022-10-18 | 添津人工智能通用应用***(天津)有限公司 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
WO2021128670A1 (zh) * | 2019-12-26 | 2021-07-01 | 紫光展锐(重庆)科技有限公司 | 降低噪声的方法、装置、电子设备及可读存储介质 |
CN111954121A (zh) * | 2020-08-21 | 2020-11-17 | 云知声智能科技股份有限公司 | 一种麦克风阵列定向拾音方法及*** |
CN112331226A (zh) * | 2020-09-29 | 2021-02-05 | 江苏清微智能科技有限公司 | 一种针对主动降噪***的语音增强***及方法 |
CN112331226B (zh) * | 2020-09-29 | 2024-04-12 | 江苏清微智能科技有限公司 | 一种针对主动降噪***的语音增强***及方法 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN113884986A (zh) * | 2021-12-03 | 2022-01-04 | 杭州兆华电子有限公司 | 波束聚焦增强的强冲击信号空时域联合检测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN107993670B (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993670A (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
US7995767B2 (en) | Sound signal processing method and apparatus | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110517701B (zh) | 一种麦克风阵列语音增强方法及实现装置 | |
CN107221336A (zh) | 一种增强目标语音的装置及其方法 | |
CN106251877A (zh) | 语音声源方向估计方法及装置 | |
CN108109617A (zh) | 一种远距离拾音方法 | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
CN109637554A (zh) | 基于cdr的mclp语音去混响方法 | |
US20180308503A1 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN114245266B (zh) | 小型麦克风阵列设备的区域拾音方法及*** | |
CN106331969A (zh) | 基于统计语音和噪声模型的有噪声语音的增强 | |
CN111341339A (zh) | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 | |
Jungmann et al. | Perturbation of room impulse responses and its application in robust listening room compensation | |
CN113763984B (zh) | 一种用于分布式多说话人的参数化噪声消除*** | |
Wang et al. | Two-stage enhancement of noisy and reverberant microphone array speech for automatic speech recognition systems trained with only clean speech | |
Guo et al. | Underwater target detection and localization with feature map and CNN-based classification | |
TWI517143B (zh) | 可消除雜音且增進語音辨識率之方法 | |
Ramesh Babu et al. | Speech enhancement using beamforming and Kalman Filter for In-Car noisy environment | |
US20240212701A1 (en) | Estimating an optimized mask for processing acquired sound data | |
Hongo et al. | Binaural speech enhancement method by wavelet transform based on interaural level and argument differences | |
Chen et al. | Early Reflections Based Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210119 |