CN103474066B - 基于多频带信号重构的生态声音识别方法 - Google Patents

基于多频带信号重构的生态声音识别方法 Download PDF

Info

Publication number
CN103474066B
CN103474066B CN201310472342.9A CN201310472342A CN103474066B CN 103474066 B CN103474066 B CN 103474066B CN 201310472342 A CN201310472342 A CN 201310472342A CN 103474066 B CN103474066 B CN 103474066B
Authority
CN
China
Prior art keywords
signal
omp
noise
reconstruct
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310472342.9A
Other languages
English (en)
Other versions
CN103474066A (zh
Inventor
李应
欧阳桢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201310472342.9A priority Critical patent/CN103474066B/zh
Publication of CN103474066A publication Critical patent/CN103474066A/zh
Application granted granted Critical
Publication of CN103474066B publication Critical patent/CN103474066B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于多频带信号重构的生态声音识别方法,首先,使用OMP稀疏分解作第一阶段重构,保留前景声音的主体结构;其次,将前阶段分解的剩余分量按频带划分,根据前景声音和背景噪声的频率分布,对重构信号进行自适应补偿,完成第二阶段重构;最后,根据支撑集原子时频信息和频域信息提取复合抗噪特征,使用深信度网对生态声音在不同环境和信噪比情境下进行分类识别。本发明采用二次重构不仅能抑制噪声,并且提高了对前景声音的重构精度,在自然环境下具有较好的噪声鲁棒性。

Description

基于多频带信号重构的生态声音识别方法
技术领域
本发明涉及一种基于多频带信号重构的生态声音识别方法。
背景技术
生态声音识别是对自然环境中各种声音信号进行抽取特征并作辨识。通过分析和识别环境中包含的音频信息,可以用于入侵监测、物种勘察等。在实际环境中,大量的非平稳噪声对声音识别产生干扰。因此,抗噪的生态声音识别具有重要的现实意义。
目前音频信号处理中,语音控制与说话人识别技术相对较多,而生态环境声音的研究相对较少。常用的是频域特征Mel频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)以及时频域的短时傅立叶变换和小波变换等,结合高斯混合模型(GMM)或隐马尔科夫模型(HMM)进行识别分类。由于生态声音随机性较大且并非都是结构化的,所以以上方法对其不一定有效。为了解决上述问题,一些新的工作被提出,例如:Khunarsal等人提出利用声谱图模式匹配方法对短时环境声音结合KNN分类器进行识别;Zhang等人使用改进的MFCCs作为特征并使用GMM对昆虫声音分类识别;Lee等人使用谱图形态特征进行建模,对连续型鸟叫进行分类识别;Raju等人提取基音,共振峰和短时能量特征集并结合支持向量机(SVM)对包括猫狗狮子在内的19种动物声音进行分类识别。
用上述方法识别生态声音存在的常见问题在于,面对不确定结构的声音信号,设计合适的分类器较难。判别式模型如支持向量机(SVM)和传统的神经网络等,能够较好的对非线性可分类进行建模,但在高维特征及类别数量较多时,分类效果还不如GMM或HMM。此外,在噪声环境下,尤其是低信噪比时识别能力骤降。目前常用的去噪方法有谱减法,维纳滤波等。谱减去噪易引入音乐噪声从而导致信号失真。滤波去噪在获得信号和噪声统计特性的前提下可以实现最优滤波,但是在自然环境中噪声复杂多变,这些先验信息往往无法得到,所以应用范围较为有限。
基于匹配追踪(MatchingPursuit,MP)重构信号的去噪方法是利用声音的稀疏性,将信号分解重构进行自适应表示,并不需要先验的获得待检测信号和噪声的统计特性,因此能够适用于不同场景多种信号。然而在实际应用中,信号和噪声会发生重叠,尽可能的降低噪声是以增加信号失真为代价,所以去噪算法必须在降低噪声和信号失真之间进行权衡。然而,简单利用MP稀疏去噪也存在一定的局限性。MP分解过程中,从过完备字典空间搜索最优原子的计算复杂度较高。现有做法是限制字典大小,或通过智能算法在减少分解次数的同时尽量获得与原信号相关度高的原子。但是重构信号后的剩余分量中不全是噪音,还包括部分有效声音。若是单纯为了提高重构精度而增加分解次数,一方面增加了新的计算量,另一方面也无法抑制噪声,后续识别效果较差。
发明内容
有鉴于此,本发明的目的是提供一种基于多频带信号重构的生态声音识别方法。
本发明采用以下方案实现:一种基于多频带信号重构的生态声音识别方法,其特征在于,包括以下步骤:
S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;
S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;
S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;
S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;
S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;
S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的符合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别。
在本发明一实施例中,假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散化时频参数γ=(s,u,v,w)=(aj,pajΔu,ka-jΔv,iΔw),其中,0<j≤log2N,0≤p≤N2-j+1,0≤k<2j+1,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;所述步骤S01具体步骤包括:
S011:初始化信号残差R0y'=f,迭代次数k=1,最大迭代次数L;
S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk | < R k y &prime; , g &gamma;k > | &GreaterEqual; &alpha; sup &gamma; &Element; &Gamma; | < R k y &prime; , g &gamma; > | , 0 < &alpha; &le; 1 ;
S013:判断||Rky'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||Rky'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;
S014:利用Gram-Schmidt方法将gγk关于已选原子集gγp,0<p≤k正交化得到投影Pk并分别计算新的近似重构信号y'=Pkf和残差Rk+1y'=f-y';
S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;
S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式
在本发明一实施例中,所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征,其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数。
在本发明一实施例中,选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征。
在本发明一实施例中,选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征。
在本发明一实施例中,所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。
在本发明一实施例中,RBM网络采用ContrastiveDivergence准则作为自训练策略,每层均由一个可视层V和隐层H组成,通过自底向上的层间加权连接组合多个RBM,用隐层单元的输出作为上层RBM可视层的输入,从而构建一个DBN框架,RBM包含三个参数,分别是可见层和隐层之间的权值W,以及各自偏置量b和c,因此对DBN分类器训练的过程转化为对RBM参数的求解,假设可视层和隐层的节点值分别为vi和hj,可视层V每一个节点置1的概率为同理,隐层H每一个节点置1的概率为P(hj=1),权值W的更新规则Δwij∝<vihj>data-<vihj>reconstruct,其中,<vihj>data表示已知样本集可视层节点vi与隐层节点未知hj的联合概率分布的期望值,<vihj>reconstruct为通过已知样本信息更新隐层单元,可视层单元再重构后的<vihj>联合概率分布的期望值。
在本发明一实施例中,前景声音在频谱上的分布并不是均匀的,为了确定其主频结构,将第一次重构得到的功率谱|Y'(λ,j)|2平均划分为M个线性子频带,对声音帧λ,计算在频带i上的能量比例其中,K是FFT系数的阶,FFTλ,p为帧λ的第p个FFT系数。
在本发明一实施例中,确定一个阈值γ,当能量比例超过阈值时,则子带i处于主频范围内,前景声音频率因子α(λ)设定较高的权重,而在主频范围之外,相应设定较低的权重,即,噪声频率因子β(λ)表征当前子频带噪声影响的程度高低,可以利用前阶段重构的信号作为先验信息估计出噪声,再计算帧λ第i子带的功率谱信噪比 SNR i ( &lambda; ) = 10 log 10 ( &Sigma; p = K M &CenterDot; ( i - 1 ) K M &CenterDot; i | Y i &prime; ( &lambda; , p ) | 2 &Sigma; p = K M &CenterDot; ( i - 1 ) K M &CenterDot; i | F i ( &lambda; , p ) | 2 - | Y i &prime; ( &lambda; , p ) | 2 ) , 帧λ第i子带的噪声频率因子 &beta; i ( &lambda; ) = 0.1 , SNR i ( &lambda; ) < 0 0.1 + 0.04 SNR i ( &lambda; ) , 0 &le; SNR i ( &lambda; ) &le; 20 0.9 , SNR i ( &lambda; ) > 20 ; 通过求解前景声音频率因子α(λ)和噪声频率因子β(λ)进行多频带增益,得到第二次重构的声音功率谱|Y(λ,j)|2≈|Y(λ,j)|2=|Y'(λ,j)|2+α(λ)β(λ)(|F(λ,j)|2-|Y'(λ,j)|2),当重构的前景声音功率谱超过原噪声音功率谱时,用进行更新。
本发明采用二次重构不仅能抑制噪声,并且提高了对前景声音的重构精度。与目前常用的Mel频率倒谱系数(MFCC)与SVM的方法相比,该方法在自然环境下具有较好的噪声鲁棒性。
为使本发明的目的、技术方案及优点更加清楚明白,以下将通过具体实施例和相关附图,对本发明作进一步详细说明。
附图说明
图1是本发明基于OMP多频带信号重构流程图。
图2a是纯净画眉叫声的波形图。
图2b是纯净画眉叫声的声谱图。
图2c是图2a添加信噪比为10dB流水噪声的波形图。
图2d是图2b添加信噪比为10dB流水噪声的声谱图。
图2e是图2d稀疏度为10的一次重构声谱图。
图2f是图2d稀疏度为30的一次重构声谱图。
图2g是二次重构的波形图。
图2h是二次重构的声谱图。
图3是本发明DBN识别分类流程图。
具体实施方式
本发明提出了一种基于多频带信号重构的生态声音识别方法,并构建了基于深度学习的分类识别框架。首先,使用OMP稀疏分解作第一阶段重构,保留前景声音的主体结构;其次,将前阶段分解的剩余分量按频带划分,根据前景声音和背景噪声的频率分布,对重构信号进行自适应补偿,完成第二阶段重构;最后,根据支撑集原子时频信息和频域信息提取复合抗噪特征,使用深信度网(DBN)对生态声音在不同环境和信噪比情境下进行分类识别。如图1所示,具体包括以下步骤:
S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;
S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;
S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;
S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;
S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;
S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的符合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别。
OMP算法是压缩感知(CompressedSensing,CS)过程中的一种贪婪重构算法,是在匹配追踪(MatchingPursuit,MP)算法基础上提出的,该算法改进之处在于每次分解从字典中挑选出的原子,称之为最优原子,先利用Gram-Schmidt方法与已选择原子集合进行正交化处理以保证迭代的最优性,从而减少迭代次数。在相同精度要求的前提下,使用OMP算法重构的信号稀疏度更高,收敛速度更快,利用OMP对生态声音去噪是利用信号稀疏性的特征,将待提取的有用信息作为稀疏成分,而将噪声作为去除稀疏成分后的残差成分。噪声具有一定随机性,由于字典中不包含随机的原子,故其相关性较低。根据CS理论,对带噪声音信号进行低维投影,当观测维数足够包含有用信息时,噪声不具有稀疏性。残差部分的噪声成分在重构时无法恢复,从而实现去噪的目的。将声音信号映射到原子字典进行分解,每轮分解得到与原信号内积最大,即相关度最高的原子,通过迭代提取出的原子越多,信号残差就越小,最后加权组合原子得到原信号的最佳重构。
假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散化时频参数γ=(s,u,v,w)=(aj,pajΔu,ka-jΔv,iΔw),其中,0<j≤log2N,0≤p≤N2-j+1,0≤k<2j+1,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;OMP稀疏分解具体步骤包括:
S011:初始化信号残差R0y'=f,迭代次数k=1,最大迭代次数L;
S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk | < R k y &prime; , g &gamma;k > | &GreaterEqual; &alpha; sup &gamma; &Element; &Gamma; | < R k y &prime; , g &gamma; > | , 0 < &alpha; &le; 1 ;
S013:判断||Rky'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||Rky'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;
S014:利用Gram-Schmidt方法将gγk关于已选原子集gγp,0<p≤k正交化得到投影Pk并分别计算新的近似重构信号y'=Pkf和残差Rk+1y'=f-y';
S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;
S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式
OMP分解的过程是按照能量的大小和相关程度的高低依次在每轮迭代中选择最优原子,这些被选择的最优原子组成重构信号的支撑集。噪声具有一定的随机性,由于字典中不包含随机的原子,故其相关性较低。对于有色噪声,利用纯净声音和背景噪声稀疏度不同的原理,根据CS理论,对带噪声音信号进行低维投影,当观测维数足够包含有用信息时,噪声不具有稀疏性。这就保证了在前期重构时,残差部分的噪声成分无法恢复,有效声音的主体结构被保留下来。将声音信号映射到原子字典进行分解,每轮分解得到与原信号内积最大,即相关度最高的原子。通过迭代提取出的原子越多,信号残差就越小,最后加权组合原子得到原信号的最佳重构。
所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征,其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数。
选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征。
选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征。
所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。
RBM网络采用ContrastiveDivergence准则作为自训练策略,每层均由一个可视层V和隐层H组成,通过自底向上的层间加权连接组合多个RBM,用隐层单元的输出作为上层RBM可视层的输入,从而构建一个DBN框架,RBM包含三个参数,分别是可见层和隐层之间的权值W,以及各自偏置量b和c,因此对DBN分类器训练的过程转化为对RBM参数的求解,假设可视层和隐层的节点值分别为vi和hj,可视层V每一个节点置1的概率为P(vi=1),同理,隐层H每一个节点置1的概率为P(hj=1),权值W的更新规则Δwij∝<vihj>data-<vihj>reconstruct,其中,<vihj>data表示已知样本集可视层节点vi与隐层节点未知hj的联合概率分布的期望值,<vihj>reconstruct为通过已知样本信息更新隐层单元,可视层单元再重构后的vihj联合概率分布的期望值。
假设加性噪声与待识别的前景声是不相关的,则带噪声音信号f(t)表示为f(t)=y(t)+n(t),其中,t为时间索引,y(t)是纯净的前景声音,n(t)为背景噪声,对f(t)进行快速傅里叶变换后得到幅度谱为F(λ,j),其中λ为帧索引,j为频率索引,功率谱|F(λ,j)|2分解为前景声音功率谱|Y(λ,j)|2和噪声功率谱|N(λ,j)|2,即,|F(λ,j)|2=|Y(λ,j)|2+|N(λ,j)|2;带噪声音信号通过OMP稀疏分解,得到相关度较高的前有限个原子线性加权组合进行第一次重构。与原信号相比,重构的前景声音功率谱|Y(λ,j)|2≈(1-δ(λ))|Y'(λ,j)|2+δ(λ)|F(λ,j)|2实际上并不是完整的,可以认为缺失的信号与噪音共同存在于剩余分量中,其中,δ(λ)为本文引入的增益因子,表征第λ帧的缺失量与原信号的比例关系。实验表明,前景声音与噪音在频谱上的分布共同影响该比例的变化。前景声音的残余分量在其主要频率分布(下文简称主频)范围内的存在概率相对与其他要高一些,而噪声影响较大的频带中,前景声音的残余分量存在概率相对较小。因此,增益因子可以细分为前景声频率因子α(λ)和噪声频率因子β(λ),即:δ(λ)=α(λ)β(λ)。
前景声音在频谱上的分布并不是均匀的,为了确定其主频结构,将第一次重构得到的功率谱|Y'(λ,j)|2平均划分为M个线性子频带,对声音帧λ,计算在频带i上的能量比例其中,K是FFT系数的阶,FFTλ,p为帧λ的第p个FFT系数。
确定一个阈值γ,当能量比例超过阈值时,则子带i处于主频范围内,前景声音频率因子α(λ)设定较高的权重,而在主频范围之外,相应设定较低的权重,即,噪声频率因子β(λ)表征当前子频带噪声影响的程度高低,可以利用前阶段重构的信号作为先验信息估计出噪声,再计算帧λ第i子带的功率谱信噪比 SNR i ( &lambda; ) = 10 log 10 ( &Sigma; p = K M &CenterDot; ( i - 1 ) K M &CenterDot; i | Y i &prime; ( &lambda; , p ) | 2 &Sigma; p = K M &CenterDot; ( i - 1 ) K M &CenterDot; i | F i ( &lambda; , p ) | 2 - | Y i &prime; ( &lambda; , p ) | 2 ) , 帧λ第i子带的噪声频率因子 &beta; i ( &lambda; ) = 0.1 , SNR i ( &lambda; ) < 0 0.1 + 0.04 SNR i ( &lambda; ) , 0 &le; SNR i ( &lambda; ) &le; 20 0.9 , SNR i ( &lambda; ) > 20 ; 通过求解前景声音频率因子α(λ)和噪声频率因子β(λ)进行多频带增益,得到第二次重构的声音功率谱|Y(λ,j)|2≈|Y(λ,j)|2=|Y'(λ,j)|2+α(λ)β(λ)(|F(λ,j)|2-|Y'(λ,j)|2),当重构的前景声音功率谱超过原噪声音功率谱时,用进行更新。
生态声音识别的精准度,很大程度上依赖于减噪消噪的有效性。针对生态场景中复杂多变的非平稳噪声,使用OMP稀疏分解并重构带噪声音信号的方法,能够保留前景声音的主体结构。为了保证后续特征提取的有效性,较高的信号重构精度是前提。而提高信号重构精度,最直接的方法是通过增加分解次数,一方面增加了计算复杂度,另一方面在重构过程中无法分离噪声成分。本文使用多频带补偿的方法从OMP分解的剩余分量中有区别的提取信号分量,用于补偿第一阶段的重构信号,从而自适应的进行二次重构。之后,提取复合抗噪时频特征用于构建DBN模型,高效的对生态声音分类识别,具体流程描述如下。
预处理及第一阶段OMP重构:
对所有声音样本做归一化处理,采用Hamming窗进行平滑后分帧,帧长取23ms(512个样本点),帧移取11。6ms(256个样本点)。图2a和图2b是一段包含三个有效音节的画眉声音信号波形图和频谱图。以此为例,在混入信噪比为10dB流水噪声后,从图2c和图2d中可以看出,噪声在频谱上的分布并不是均匀的,且对原信号造成较大程度的干扰。根据公式 | < R k y &prime; , g &gamma;k > | &GreaterEqual; &alpha; sup &gamma; &Element; &Gamma; | < R k y &prime; , g &gamma; > | , 0 < &alpha; &le; 1 ; y &prime; = P k f , R k + 1 y &prime; = f - y &prime; , y &prime; ( t ) &ap; &Sigma; n = 1 L P n g &gamma;n ( t ) 对每一帧信号进行稀疏分解后重构,图2e和图2f分别是稀疏度为10和30的重构信号频谱图。很明显可以看出,稀疏度提高后,带噪信号的整体还原程度有一定程度的提升,但噪声成分不可避免的也进行了重构。而稀疏度较低的重构信号,主体结构仍然保留,与原始信号相关度较低的噪声成分得到很大程度的削弱,画眉叫声不完整的部分则需要进行下一步多频带重构。
第二阶段多频带重构:
根据前景画眉叫声和背景流水噪声的频率分布,将频谱平均划分为8个线性子频带。对OMP重构信号做频谱分析,根据公式计算得到画眉叫声的主频带为2000Hz-3000Hz,则该频带内的剩余分量将得到较高的加权补偿,也可以称作“更重视”的部分。反之,其余频带可以认为是“被忽略”的部分。接着,还是利用OMP分解得到的重构信号作为先验信息,计算各子频带功率谱信噪比。信噪比高的部分,即噪声能量较高的频带,进一步利用较低权值进行削弱。通过两阶段的自适应重构,噪声得到较高程度的抑制。图2g和图2h是画眉信号通过两阶段的自适应重构,得到最终的信号波形图和声谱图。相比较图2c和图2d,也说明了多频带自适应重构能够较为有效降噪。
复合特征提取:
本发明选取的Gabor原子是由调制的高斯窗函数构成。由于高斯型函数在时域和频域都是局部化的,其局部特性保证了原子时频参数能够较好的刻画信号的非平稳时变特性。通过OMP分解,获得表示该段信号的前10个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征。由于第一次重构信号并不能完备的表征原声音的信息,所以单独使用OMP时频特征的识别效果并不理想。由于动物叫声存在不同的基音周期范围,因此使用基音频率(PITCH)作为特征对生态声音具有一定的区分性。本发明在进行二次自适应重构后,使用短时能量和过零率对重构信号进行端点检测,对非静音帧提取MFCCs和结合OMP特征组成复合特征。
MFCCs特征的获取分为以下几个步骤,首先采用24阶Mel波器组,经离散傅里叶变换(DFT)后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征。另外,采用循环平均幅度差函数(CAMDF)法获得每帧对应的1维PITCH特征。
预训练DBN模型的过程是将已标记好的生态声音特征初始化DBN最底层的可见层节点状态值,经过逐层无监督的训练受限玻尔兹曼机(RBM)模型得到特征向量,作为末端BP网络的输入值。接着,使用正确标注信息有监督的训练BP网络,将错误信息反向传播至底层RBM模型,微调整个DBN模型。具体流程如图3所示。
DBN的分类能力同时受RBM隐层层数和各层节点数量影响。增加隐层数能够提高DBN对特征向量的分类精度,但学习时间也随之增加。增加节点数提高DBN网络的逼近能力,但节点数过多又会降低网络的泛化能力,所以最佳的隐层数和节点数配置将通过实验确定。
上列较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多频带信号重构的生态声音识别方法,其特征在于,包括以下步骤:
S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;
S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;
S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;
S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;
S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;
S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的复合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别;
假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散化时频参数γ=(s,u,v,w)=(aj,pajΔu,ka-jΔv,iΔw),其中,0<j≤log2N,0≤p≤N2-j+1,0≤k<2j+1,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;所述步骤S01具体步骤包括:
S011:初始化信号残差R0y'=f,迭代次数k=1,最大迭代次数L;
S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk | < R k y &prime; , g &gamma; k > | &GreaterEqual; &alpha; s u p &gamma; &Element; &Gamma; | < R k y &prime; , g &gamma; > | , 0<α≤1;
S013:判断||Rky'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||Rky'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;
S014:利用Gram-Schmidt方法将gγk关于已选原子集gγp,0<p≤k正交化得到投影Pk并分别计算新的近似重构信号y'=Pkf和残差Rk+1y'=f-y';
S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;
S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式其中Pn为用于重构信号的原子支撑集进行加权组合的展开系数;
所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征,其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数,σ为伸缩因子s和频率因子v的标准差;
选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征;
选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征;
所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。
2.根据权利要求1所述的基于多频带信号重构的生态声音识别方法,其特征在于:RBM网络采用ContrastiveDivergence准则作为自训练策略,每层均由一个可视层V和隐层H组成,通过自底向上的层间加权连接组合多个RBM,用隐层单元的输出作为上层RBM可视层的输入,从而构建一个DBN框架,RBM包含三个参数,分别是可见层和隐层之间的权值W,以及各自偏置量b和c,因此对DBN分类器训练的过程转化为对RBM参数的求解,假设可视层和隐层的节点值分别为vi和hj,可视层V每一个节点置1的概率为P(vi=1),同理,隐层H每一个节点置1的概率为P(hj=1),权值W的更新规则Δwij∝<vihj>data-<vihj>reconstruct,其中,<vihj>data表示已知样本集可视层节点vi与隐层节点未知hj的联合概率分布的期望值,<vihj>reconstruct为通过已知样本信息更新隐层单元,可视层单元再重构后的<vihj>联合概率分布的期望值。
3.根据权利要求1所述的基于多频带信号重构的生态声音识别方法,其特征在于:前景声音在频谱上的分布并不是均匀的,为了确定其主频结构,将第一次重构得到的功率谱|Y'(λ,j)|2平均划分为M个线性子频带,对声音帧λ,计算在频带i上的能量比例其中,K是FFT系数的阶,FFTλ,p为帧λ的第p个FFT系数。
4.根据权利要求1所述的基于多频带信号重构的生态声音识别方法,其特征在于:确定一个阈值γ,当能量比例超过阈值时,则子带i处于主频范围内,前景声音频率因子α(λ)设定较高的权重,而在主频范围之外,相应设定较低的权重,即,噪声频率因子β(λ)表征当前子频带噪声影响的程度高低,可以利用前阶段重构的信号作为先验信息估计出噪声,再计算帧λ第i子带的功率谱信噪比 SNR i ( &lambda; ) = 10 log 10 ( &Sigma; p = K M &CenterDot; ( i - 1 ) K M &CenterDot; i | Y i &prime; ( &lambda; , p ) | 2 &Sigma; p = K M &CenterDot; ( i - 1 ) K M &CenterDot; i | F i ( &lambda; , p ) | 2 - | Y i &prime; ( &lambda; , p ) | 2 ) , 帧λ第i子带的噪声频率因子 &beta; i ( &lambda; ) = 0.1 , SNR i ( &lambda; ) < 0 0.1 + 0.04 SNR i ( &lambda; ) , 0 &le; SNR i ( &lambda; ) &le; 20 0.9 , SNR i ( &lambda; ) > 20 ; 通过求解前景声音频率因子α(λ)和噪声频率因子β(λ)进行多频带增益,得到第二次重构的声音功率谱|Y(λ,j)|2≈|Y(λ,j)|2=|Y'(λ,j)|2+α(λ)β(λ)(|F(λ,j)|2-|Y'(λ,j)|2),当重构的前景声音功率谱超过原噪声音功率谱时,用进行更新。
CN201310472342.9A 2013-10-11 2013-10-11 基于多频带信号重构的生态声音识别方法 Expired - Fee Related CN103474066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310472342.9A CN103474066B (zh) 2013-10-11 2013-10-11 基于多频带信号重构的生态声音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310472342.9A CN103474066B (zh) 2013-10-11 2013-10-11 基于多频带信号重构的生态声音识别方法

Publications (2)

Publication Number Publication Date
CN103474066A CN103474066A (zh) 2013-12-25
CN103474066B true CN103474066B (zh) 2016-01-06

Family

ID=49798887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310472342.9A Expired - Fee Related CN103474066B (zh) 2013-10-11 2013-10-11 基于多频带信号重构的生态声音识别方法

Country Status (1)

Country Link
CN (1) CN103474066B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268125A (zh) * 2014-09-28 2015-01-07 江南大学 一种用三个参数表示的Chirp时频原子的方法
CN104882144B (zh) * 2015-05-06 2018-10-30 福州大学 基于声谱图双特征的动物声音识别方法
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN105551503B (zh) * 2015-12-24 2019-03-01 武汉大学 基于原子预选择的音频匹配追踪方法与***
CN106297825B (zh) * 2016-07-25 2019-10-18 华南理工大学 一种基于集成深度信念网络的语音情感识别方法
CN106356058B (zh) * 2016-09-08 2019-08-20 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法
CN106653032B (zh) * 2016-11-23 2019-11-12 福州大学 低信噪比环境下基于多频带能量分布的动物声音检测方法
CN107276938A (zh) * 2017-06-28 2017-10-20 北京邮电大学 一种数字信号调制方式识别方法及装置
CN107729288B (zh) * 2017-09-30 2020-11-06 中国人民解放军战略支援部队航天工程大学 一种基于粒子群优化的多项式相位信号时频变换方法
CN107831549A (zh) * 2017-11-20 2018-03-23 中国地质大学(武汉) 一种enpemf信号的nmp倒谱sst时频方法
CN109344751B (zh) * 2018-09-20 2021-10-08 上海工程技术大学 一种车内噪声信号的重构方法
CN111711918B (zh) * 2020-05-25 2021-05-18 中国科学院声学研究所 一种多通道信号的相干声与环境声提取方法及***
CN112863517B (zh) * 2021-01-19 2023-01-06 苏州大学 基于感知谱收敛率的语音识别方法
CN113053417B (zh) * 2021-03-29 2022-04-19 济南大学 带噪语音情感识别方法、***、设备及存储介质
CN114822567B (zh) * 2022-06-22 2022-09-27 天津大学 一种基于能量算子的病理嗓音频谱重构方法
CN116705017B (zh) * 2022-09-14 2024-07-05 荣耀终端有限公司 语音检测方法及电子设备
CN116821644A (zh) * 2023-03-23 2023-09-29 南京航空航天大学 一种飞行数据辨识方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034478A (zh) * 2010-11-17 2011-04-27 南京邮电大学 基于压缩感知和信息隐藏的语音保密通信***设计方法
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034478A (zh) * 2010-11-17 2011-04-27 南京邮电大学 基于压缩感知和信息隐藏的语音保密通信***设计方法
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于DSP的OMP算法实现及音频信号处理;刘亚峰 等;;《电声技术》;20121231;全文 *
基于OMP方法的语音信号重构;陈臻圆;《知识经济》;20101231;全文 *
语音压缩感知关键技术研究;孙林慧;《南京邮电大学博士学位论文》;20121231;全文 *

Also Published As

Publication number Publication date
CN103474066A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103474066B (zh) 基于多频带信号重构的生态声音识别方法
CN103531199B (zh) 基于快速稀疏分解和深度学习的生态声音识别方法
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
Chang et al. Robust CNN-based speech recognition with Gabor filter kernels.
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN102945670B (zh) 一种用于语音识别***的多环境特征补偿方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及***
CN108922515A (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
Baby et al. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家***身份认证方法
CN102982351A (zh) 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及***
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
Seo et al. A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise
Tan et al. Novel variations of group sparse regularization techniques with applications to noise robust automatic speech recognition
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
CN106356058A (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN106297768A (zh) 一种语音识别方法
CN104536007A (zh) 一种基于多视角声学数据的鱼类识别方法
Akarsh et al. Speech enhancement using non negative matrix factorization and enhanced NMF
Bagwe et al. Automated Radar Signal Analysis Based on Deep Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160106

Termination date: 20191011