CN105989843A - 一种实现缺失特征重建的方法和装置 - Google Patents

一种实现缺失特征重建的方法和装置 Download PDF

Info

Publication number
CN105989843A
CN105989843A CN201510044910.4A CN201510044910A CN105989843A CN 105989843 A CN105989843 A CN 105989843A CN 201510044910 A CN201510044910 A CN 201510044910A CN 105989843 A CN105989843 A CN 105989843A
Authority
CN
China
Prior art keywords
speech
frame
speech frame
tested
tested speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510044910.4A
Other languages
English (en)
Inventor
王金明
尹海明
朱长宝
袁浩
徐志军
唐景山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510044910.4A priority Critical patent/CN105989843A/zh
Priority to PCT/CN2015/093901 priority patent/WO2016119501A1/zh
Publication of CN105989843A publication Critical patent/CN105989843A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种实现缺失特征重建的方法和装置,包括:预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用IMCRA算法计算测试语音的语音帧各维度的信噪比;根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。本发明的方案提高了缺失特征重建的精度。

Description

一种实现缺失特征重建的方法和装置
技术领域
本发明涉及声纹识别(VPR,Voiceprint Recognition)技术,尤指一种实现缺失特征重建的方法和装置。
背景技术
声纹识别***的识别性能会随着环境噪声的增强而急剧降低,为提高***在噪声环境下的识别率,作为语音识别领域的一种行之有效的前端处理方法,缺失特征重建的方法被应用到了声纹识别领域,并在实验条件下取得了良好的效果。
现有的实现缺失特征重建的方法大致包括:
将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用谱减算法获取测试语音的语音帧对应的训练语音帧,并根据获得的训练语音帧计算测试语音的语音帧各维度的信噪比;根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分;获取各训练语音帧对应的权重、均值向量和协方差矩阵;根据各训练语音帧对应的权重、均值向量和协方差矩阵获取测试语音的语音帧对应的权重、均值向量和协方差矩阵;根据测试语音的语音帧对应的权值、均值向量和协方差矩阵、测试语音的语音帧中的可靠部分采用最大后验法对测试语音的语音帧中的不可靠部分进行缺失特征重建。
现有的实现缺失特征重建的方法中,由于谱减算法默认为噪声是平稳的,而实际噪声是非平稳的,导致在进行缺失特征重建过程存在较大误差。
发明内容
为了解决上述问题,本发明提出了一种实现缺失特征重建的方法和装置,能够减小误差,从而提高缺失特征重建精度。
为了达到上述目的,本发明提出了一种实现缺失特征重建的方法,包括:
预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;
将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用改进的最小值控制递归平均IMCRA算法计算测试语音的语音帧各维度的信噪比;
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
优选地,在根据所述测试语音的语音帧的不可靠部分判断出所述测试语音的语音帧不需要进行缺失特征重建时,该方法还包括:丢弃所述测试语音的语音帧。
优选地,所述预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵包括:
预先获取两个或两个以上训练语音,对于每一个训练语音,将所述训练语音划分为两个或两个以上语音帧;
获取每一个所述训练语音的语音帧的梅尔域对数功率谱特征矢量参数,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵。
优选地,所述获取每一个训练语音的语音帧的梅尔域对数功率谱特征矢量参数包括:
对所述训练语音的语音帧进行傅里叶变换,对傅里叶变换后的训练语音的语音帧取模得到所述训练语音的语音帧的幅度谱;
对所述训练语音的语音帧的幅度谱取平方得到所述训练语音的语音帧的功率谱;
将所述训练语音的语音帧的功率谱经过梅尔梳状滤波器得到所述训练语音的语音帧的梅尔域功率谱特征矢量参数,对所述训练语音的语音帧的梅尔域功率谱特征矢量参数取对数得到所述训练语音的语音帧的梅尔域对数功率谱特征矢量参数。
优选地,所述根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵包括:
设置所述高斯混合聚类的个数,初始化各高斯混合聚类的均值向量、协方差矩阵和权重;
根据初始化的各高斯混合聚类的均值向量、协方差矩阵和权重、各训练语音的语音帧的梅尔域对数功率谱特征矢量参数采用高斯混合聚类算法获取各高斯混合聚类权重、均值向量和协方差矩阵。
优选地,所述采用IMCRA算法计算测试语音的语音帧各维度的信噪比包括:
获取所述测试语音的语音帧的梅尔域功率谱特征矢量参数;
根据所述测试语音的语音帧的梅尔域功率谱特征矢量参数采用所述IMCRA算法计算所述测试语音的语音帧各维度的信噪比。
优选地,所述获取测试语音的语音帧的梅尔域功率谱特征矢量参数包括:
对所述测试语音的语音帧进行傅里叶变换,对傅里叶变换后的测试语音的语音帧取模得到所述测试语音的语音帧的幅度谱;
对所述测试语音的语音帧的幅度谱取平方得到所述测试语音的语音帧的功率谱,将所述测试语音的语音帧的功率谱经过梅尔梳状滤波器得到所述测试语音的语音帧的梅尔域功率谱特征矢量参数。
优选地,所述根据测试语音的语音帧的梅尔域功率谱特征矢量参数采用IMCRA算法计算测试语音的语音帧各维度的信噪比包括:
根据公式D2(λ,k2)=αd(λ,k2)D2(λ-1,k2)+[1-αd(λ,k2)]Y2(λ,k2)计算所述测试语音的语音帧各维度的噪声功率,根据公式SNR(λ,k2)=20log10(Y(λ,k2)-D(λ,k2))-20log10D(λ,k2)计算所述测试语音的语音帧各维度的信噪比;
其中,D2(λ,k2)为测试语音的第λ个语音帧的梅尔域噪声功率的第k2维的值,k2为所述测试语音的语音帧的梅尔域功率谱特征矢量参数的维度序号,λ为所述测试语音的语音帧序号,αd为平滑参数,Y为所述测试语音的语音帧的梅尔域功率谱特征矢量参数的第k2维度值,Y2(λ,k2)为测试语音的第λ个语音帧的梅尔域功率谱特征矢量参数的第k2维的值。
优选地,所述根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分包括:
判断出所述测试语音的语音帧某一维度的信噪比大于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的可靠部分;
判断出所述测试语音的语音帧某一维度的信噪比小于或等于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的不可靠部分。
优选地,所述对测试语音的语音帧的不可靠部分进行缺失特征重建之前还包括:根据测试语音的语音帧的不可靠部分判断测试语音的语音帧是否需要进行缺失特征重建,包括:
当所述测试语音的语音帧的不可靠部分的维度数和所述测试语音的语音帧的总维度数之间的比值大于或等于预设比值时,判断出所述测试语音的语音帧需要进行缺失特征重建;
当所述测试语音的语音帧的不可靠部分的维度数和所述测试语音的语音帧的总维度数之间的比值小于预设比值时,判断出所述测试语音的语音帧不需要进行缺失特征重建。
优选地,所述根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建包括:
根据所述各高斯混合聚类的权重、均值向量和协方差矩阵判断出所述测试语音的语音帧所属的高斯混合聚类;
根据所述测试语音的语音帧所属的高斯混合聚类的权重、均值向量和协方差矩阵和公式对测试语音的语音帧的不可靠部分进行缺失特征重建;
其中,为所述测试语音的语音帧的不可靠部分;Xo为所述测试语音的语音帧的可靠部分;Ukm为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的不可靠部分相对应的部分;Uko为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的可靠部分相对应的部分;θkmo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的不可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵;θkoo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵。
优选地,所述根据各高斯混合聚类的权重、均值向量和协方差矩阵判断出测试语音的语音帧所属的高斯混合聚类包括:
根据公式判断出所述测试语音的语音帧所属的高斯混合聚类;
其中,X为测试语音的语音帧的梅尔域对数功率谱特征矢量参数,λk4为第k4个高斯混合聚类,为最大似然值对应的k4值,P为X和λk4之间的似然值,argmax为P为最大值时的k4值;
其中, P ( X | λ k 4 ) = ω k 4 Π y ∈ X 0 N 2 ( x , μ k 4 , y , σ k 4 , y ) Π y ∈ X m 0.5 ( 1 + erf ( x - μ k 4 , y 2 σ k 4 , y ) ) ;
N 2 ( y , μ k 4 , y , σ k 4 , y ) = 1 2 πσ k 4 , y 2 exp ( - 0.5 ( y - μ k 4 , y ) 2 σ k 4 , y 2 ) ;
其中,y为X的某一维数据,ωk4为高斯混合聚类λk4的权重,μk4,x为λk4与第y维相对应的均值,σk4,y为λk4中与第y维相对应的协方差阵对角值。通过比较X相对各高斯混合聚类的似然值P(X|λk4)的大小,选出似然值最大的高斯混合聚类λk4
本发明还提出了一种实现缺失特征重建的装置,至少包括:
获取模块,用于预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;
计算模块,用于将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用改进的最小值控制递归平均IMCRA算法计算测试语音的语音帧各维度的信噪比;
重建模块,用于根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
优选地,所述重建模块还用于:
在根据所述测试语音的语音帧的不可靠部分判断出所述测试语音的语音帧不需要进行缺失特征重建时,丢弃所述测试语音的语音帧。
优选地,所述获取模块具体用于:
预先获取两个或两个以上训练语音,对于每一个训练语音,将所述训练语音划分为两个或两个以上语音帧;获取每一个所述训练语音的语音帧的梅尔域对数功率谱特征矢量参数,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵。
优选地,所述计算模块具体用于:
将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,获取所述测试语音的语音帧的梅尔域功率谱特征矢量参数;根据所述测试语音的语音帧的梅尔域功率谱特征矢量参数采用所述IMCRA算法计算所述测试语音的语音帧各维度的信噪比。
优选地,所述重建模块具体用于:
判断出所述测试语音的语音帧某一维度的信噪比大于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的可靠部分;
判断出所述测试语音的语音帧某一维度的信噪比小于或等于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的不可靠部分;
根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
优选地,所述重建模块具体用于:
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分;
当所述测试语音的语音帧的不可靠部分的维度数和所述测试语音的语音帧的总维度数之间的比值大于或等于预设比值时,判断出所述测试语音的语音帧需要进行缺失特征重建;
根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
优选地,所述重建模块具体用于:
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建;
根据所述各高斯混合聚类的权重、均值向量和协方差矩阵判断出所述测试语音的语音帧所属的高斯混合聚类;
根据所述测试语音的语音帧所属的高斯混合聚类的权重、均值向量和协方差矩阵和公式对测试语音的语音帧的不可靠部分进行缺失特征重建;
其中,为所述测试语音的语音帧的不可靠部分;Xo为所述测试语音的语音帧的可靠部分;Ukm为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的不可靠部分相对应的部分;Uko为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的可靠部分相对应的部分;θkmo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的不可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵;θkoo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵。
与现有技术相比,本发明包括:预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用IMCRA算法计算测试语音的语音帧各维度的信噪比;根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。通过本发明的方案,由于IMCRA算法是能够在平稳及非平稳噪声环境下有效跟踪噪声的方法,因此提高了平稳以及非平稳噪声环境下缺失特征重建的精度,从而提高声纹识别***识别率。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的实现缺失特征重建的方法的流程图;
图2为本发明的实现缺失特征重建的装置的结构组成示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的各种方式可以相互组合。
参见图1,本发明提出了一种实现缺失特征重建的方法,包括:
步骤100、预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵。具体包括:
预先获取两个或两个以上训练语音,对于每一个训练语音,将训练语音划分为两个或两个以上语音帧;获取每一个训练语音的语音帧的梅尔域对数功率谱特征矢量参数,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵。
其中,将训练语音划分为两个或两个以上语音帧时,可以使训练语音的语音帧的长度为20毫秒(ms)到30ms之间,相邻两个训练语音的语音帧之间具有25%到50%的重叠。
其中,获取每一个训练语音的语音帧的梅尔域对数功率谱特征矢量参数包括:
对训练语音的语音帧进行傅里叶变换,对傅里叶变换后的训练语音的语音帧取模得到训练语音的语音帧的幅度谱,对训练语音的语音帧的幅度谱取平方得到训练语音的语音帧的功率谱,将训练语音的语音帧的功率谱经过梅尔梳状滤波器得到训练语音的语音帧的梅尔域功率谱特征矢量参数,对训练语音的语音帧的梅尔域功率谱特征矢量参数取对数得到训练语音的语音帧的梅尔域对数功率谱特征矢量参数。
其中,梅尔梳状滤波器可以是三角滤波器或双曲线滤波器。
其中,三角滤波器可以采用以下方法设计。
根据公式(1)将时域频率转至梅尔域频率。
f mel ( f ) = 2595 lg ( 1 + f 700 ) - - - ( 1 )
其中,f为时域频率,fmel为梅尔域频率。
再计算语音信号最大频率:
f g = f s 2 - - - ( 2 )
其中,fs为采样频率,采样频率一般为8000Hz,fg为语音信号的原始频率的最大值。
结合公式(1)和公式(2),令f=fg得出语音的最大梅尔域频率为:
f max [ mel ] = 2595 lg ( 1 + f s 1400 ) mel - - - ( 3 )
其中,fmax为最大梅尔域频率。
K阶梅尔域功率谱特征矢量参数为:
Δmel = f max K + 1 mel - - - ( 4 )
利用公式(1)的反函数将向量M={Δmel,2Δmel,3Δmel,…,(K+1)Δmel}转换成时域频率得到fcenter={f1,f2,f3,…,fK+1},最后利用fcenter设计三角滤波器。设计的三角滤波器满足增益为1,每一个三角形中心频率为fn,n∈{1,K},三角形中心频率左边带宽为fn—fn—1,右边带宽为fn+1—fn即可。第一个三角形中心频率左边带宽为f1
其中,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵包括:
设置高斯混合聚类的个数,初始化各高斯混合聚类的均值向量、协方差矩阵和权重,根据初始化的各高斯混合聚类的均值向量、协方差矩阵和权重、各训练语音的语音帧的梅尔域对数功率谱特征矢量参数采用高斯混合聚类算法获取各高斯混合聚类权重、均值向量和协方差矩阵。
其中,可以根据经验将高斯混合聚类的个数设置为128个。
其中,可以采用LBG-矢量量化(VQ,Vector Quantization)算法初始化各高斯混合聚类的均值向量,具体实现属于本领域技术人员的公知常识,并不用于限定本发明的保护范围,这里不再赘述。
其中,可以用0到2之间的数随机初始化各高斯混合聚类的协方差矩阵。
其中,随机初始化高斯混合聚类的权重时,应保证所有高斯混合聚类的权重之和为1。
其中,高斯混合聚类算法可以是EM算法。EM算法属于现有的算法,具体的实现并不用于限定本发明的保护范围。EM算法具体实现如下:
对于每一个高斯混合聚类,循环执行公式(5)到公式(9)。
γ ( i , k 1 ) = ω k 1 N 1 ( x i , μ k 1 , θ k 1 ) Σ j = 1 M ω j N 1 ( x i , μ j , θ j ) - - - ( 5 )
其中,i表示训练语音的语音帧的序号,N1为高斯函数,ωk1为第k1个高斯混合聚类的权重,xi为第i个训练语音的语音帧的梅尔域对数功率谱特征矢量参数,μk1为第k1个高斯混合聚类的均值向量,θk1为第k1个高斯混合聚类的协方差矩阵,μj为第j个高斯混合聚类的均值向量,θj为第j个高斯混合聚类的协方差矩阵,j,k1为高斯混合聚类的序号,M为高斯混合聚类的个数。
S k 1 = Σ i - 1 n γ ( i , k 1 ) - - - ( 6 )
其中,n为训练语音的语音帧的个数。
μ k 1 = 1 S k 1 Σ i = 1 n γ ( i , k 1 ) x i - - - ( 7 )
θ k 1 = 1 S k 1 Σ i = 1 n γ ( i , k 1 ) ( x i - μ k 1 ) ( x i - μ k 1 ) T - - - ( 8 )
ω k 1 = S k 1 Σ k = 1 M S k 1 - - - ( 9 )
其中,循环的次数可以预先设定,循环的次数越多,精度越高,例如,可以设置为10次。
其中,
N 1 ( X , U , θ ) = 1 ( 2 π ) d | θ | exp [ - 0.5 ( X - U ) T θ - 1 ( X - U ) ] - - - ( 10 )
其中,X为训练语音的语音帧的梅尔域对数功率谱特征矢量参数,U为高斯混合聚类的均值向量,θ为高斯混合聚类的协方差矩阵,d为训练语音的语音帧的梅尔域对数功率谱特征矢量参数的维度。
对10次循环结束后得到的128组ω、μ、θ进行保存,即认为这些参数代表了人类话音共性特征。
步骤101、将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用改进的最小值控制递归平均(IMCRA,The ImprovedMinima Controlled Recursive Averaging)算法计算测试语音的语音帧各维度的信噪比。
本步骤中,测试语音的语音帧的一个维度是指从测试语音的语音帧中提取得到的梅尔域功率谱特征矢量参数的一个子带。例如,当测试语音的梅尔域功率谱特征矢量参数为[2,3,4]时,测试语音的语音帧包括三个维度,分别为2,3,4。
本步骤中,将测试语音划分为两个或两个以上语音帧时,可以使测试语音的语音帧的长度为20ms到30ms之间,相邻两个测试语音的语音帧之间具有25%到50%的重叠。
本步骤中,采用IMCRA算法计算测试语音的语音帧各维度的信噪比包括:
获取测试语音的语音帧的梅尔域功率谱特征矢量参数,根据测试语音的语音帧的梅尔域功率谱特征矢量参数采用IMCRA算法计算测试语音的语音帧各维度的信噪比。
其中,获取测试语音的语音帧的梅尔域功率谱特征矢量参数包括:
对测试语音的语音帧进行傅里叶变换,对傅里叶变换后的测试语音的语音帧取模得到测试语音的语音帧的幅度谱,对测试语音的语音帧的幅度谱取平方得到测试语音的语音帧的功率谱,将测试语音的语音帧的功率谱经过梅尔梳状滤波器得到测试语音的语音帧的梅尔域功率谱特征矢量参数。
其中,根据测试语音的语音帧的梅尔域功率谱特征矢量参数采用IMCRA算法计算测试语音的语音帧各维度的信噪比包括:
根据公式D2(λ,k2)=αd(λ,k2)D2(λ-1,k2)+[1-αd(λ,k2)]Y2(λ,k2)计算测试语音的语音帧各维度的噪声功率,根据公式SNR(λ,k2)=20log10(Y(λ,k2)-D(λ,k2))-20log10D(λ,k2)计算测试语音的语音帧各维度的信噪比。
其中,D2(λ,k2)为测试语音的第λ个语音帧的梅尔域噪声功率的第k2维的值,k2为测试语音的语音帧的梅尔域功率谱特征矢量参数的维度序号,λ为测试语音的语音帧序号,αd为平滑参数,Y为测试语音的语音帧的梅尔域功率谱特征矢量参数的第k2维度值,Y2(λ,k2)为测试语音的第λ个语音帧的梅尔域功率谱特征矢量参数的第k2维的值。
其中,
αd(λ,k2)=α+(1-α)p(λ,k2) (11)
其中,α为常数,p(λ,k2)为第λ个测试语音的语音帧的第k2维度中存在语音的概率。
其中,q(λ,k2)为第λ个测试语音的语音帧的第k2维度中不存在语音的概率,γ(λ,k2)为第λ个测试语音的语音帧的梅尔域功率谱特征矢量参数的第k2维处的后验信噪比,ζ(λ,k2)为第λ个测试语音的语音帧的梅尔域功率谱特征矢量参数的第k2维处的先验信噪比。
γ ( λ , k ) = | Y ( λ , k 2 ) | 2 B min S min ( λ , k 2 ) - - - ( 13 )
其中,Bmin为偏差因子,Smin为S(λ,k2-1-k3)到S(λ,k2-1)的最小值。k3可以预先设定。
其中,
S(λ,k)=αSS(λ-1,k)+(1-αS)Sf(λ,k) (15)
其中,αs为常数平滑因子,且
S f ( λ , k ) = Σ i = - L w L w w ( i ) | Y ( λ , k - 1 ) | 2 - - - ( 16 )
其中,w(i)为汉宁窗函数,窗长2Lw+1
其中,γ1为一常数阈值。
γ ~ ( λ , k 2 ) = | Y ( λ , k 2 ) | 2 B min S ~ min ( λ , k 2 ) - - - ( 18 )
S ~ ( λ , k 2 ) = α S S ~ ( λ - 1 , k 2 ) + ( 1 - α S ) S ~ f ( λ , k 2 ) - - - ( 20 )
其中,γ0和ζ0为常数阈值。
步骤102、根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
本步骤中,在根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧不需要进行缺失特征重建时,丢弃测试语音的语音帧。
本步骤中,根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分包括:
判断出测试语音的语音帧某一维度的信噪比大于预设阈值,确定测试语音的语音帧的该维度为测试语音的语音帧的可靠部分;判断出测试语音的语音帧某一维度的信噪比小于或等于预设阈值,确定测试语音的语音帧的该维度为测试语音的语音帧的不可靠部分。
其中,可以采用标记的方式将测试语音的语音帧划分为可靠部分和不可靠部分,具体可以采用公式其中,L为预设阈值,m(λ,k2)为标记值。
其中,根据测试语音的语音帧的不可靠部分判断测试语音的语音帧是否需要进行缺失特征重建包括:
当测试语音的语音帧的不可靠部分的维度数和测试语音的语音帧的总维度数之间的比值大于或等于预设比值时,判断出测试语音的语音帧需要进行缺失特征重建;当测试语音的语音帧的不可靠部分的维度数和测试语音的语音帧的总维度数之间的比值小于预设比值时,判断出测试语音的语音帧不需要进行缺失特征重建。
本步骤中,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建包括:
根据各高斯混合聚类的权重、均值向量和协方差矩阵判断出测试语音的语音帧所属的高斯混合聚类,根据测试语音的语音帧所属的高斯混合聚类的权重、均值向量和协方差矩阵和公式对测试语音的语音帧的不可靠部分进行缺失特征重建。
其中,为测试语音的语音帧的不可靠部分;Xo为测试语音的语音帧的可靠部分;Ukm为测试语音的语音帧所属的高斯混合聚类的均值向量中与测试语音的语音帧的不可靠部分相对应的部分;Uko为测试语音的语音帧所属的高斯混合聚类的均值向量中与测试语音的语音帧的可靠部分相对应的部分;θkmo为由测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与测试语音的语音帧的不可靠部分相对应的行,和与测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵;θkoo为由测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与测试语音的语音帧的可靠部分相对应的行,和与测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵。
也就是说,在得到测试语音的语音帧所述的高斯混合聚类后,可以将测试语音的语音帧的均值向量重新排列为Uk=[Uko,Ukm],将测试语音的语音帧的协方差矩阵重新排列为 θ k = θ koo θ kom θ kmo θ kmm .
例如,测试语音的语音帧的总维度数为6,其中1,3,5维为可靠部分,2,4,6维为不可靠部分,那么Uko为测试语音的语音帧所属的高斯混合聚类的均值向量中第1,3,5维;θkmo为由测试语音的语音帧所属的高斯混合聚类的协方差矩阵中第2,4,6行和第1,3,5列相交叉的元素组成的矩阵;θkoo为由测试语音的语音帧所属的高斯混合聚类的协方差矩阵中第1,3,5行和第1,3,5列相交叉的元素组成的矩阵。
其中,根据各高斯混合聚类的权重、均值向量和协方差矩阵判断出测试语音的语音帧所属的高斯混合聚类包括:
根据公式判断出测试语音的语音帧所属的高斯混合聚类。
其中,X为测试语音的语音帧的梅尔域对数功率谱特征矢量参数,λk4为第k4个高斯混合聚类,为最大似然值对应的k4值,P为X和λk4之间的似然值,argmax为P为最大值时的k4值。
其中,
P ( X | λ k 4 ) = ω k 4 Π y ∈ X 0 N 2 ( x , μ k 4 , y , σ k 4 , y ) Π y ∈ X m 0.5 ( 1 + erf ( x - μ k 4 , y 2 σ k 4 , y ) ) - - - ( 23 )
N 2 ( y , μ k 4 , y , σ k 4 , y ) = 1 2 πσ k 4 , y 2 exp ( - 0.5 ( y - μ k 4 , y ) 2 σ k 4 , y 2 ) - - - ( 24 )
y为X的某一维数据,ωk4为高斯混合聚类λk4的权重,μk4,x为λk4与第y维相对应的均值,σk4,y为高斯混合聚类λk4中与第y维相对应的协方差阵对角值。
通过本发明的方法,由于IMCRA算法是能够在非平稳噪声环境下有效跟踪噪声的方法,从而提高了缺失特征重建的精度。
参见图2,本发明还提出了一种实现缺失特征重建的装置,至少包括:
获取模块,用于预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;
计算模块,用于将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用IMCRA算法计算测试语音的语音帧各维度的信噪比;
重建模块,用于根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
本发明的装置中,重建模块还用于:
在根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧不需要进行缺失特征重建时,丢弃测试语音的语音帧。
本发明的装置中,获取模块具体用于:
预先获取两个或两个以上训练语音,对于每一个训练语音,将训练语音划分为两个或两个以上语音帧;获取每一个训练语音的语音帧的梅尔域对数功率谱特征矢量参数,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵。
本发明的装置中,计算模块具体用于:
将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,获取测试语音的语音帧的梅尔域功率谱特征矢量参数;根据测试语音的语音帧的梅尔域功率谱特征矢量参数采用IMCRA算法计算测试语音的语音帧各维度的信噪比。
本发明的装置中,重建模块具体用于:
判断出测试语音的语音帧某一维度的信噪比大于预设阈值,确定测试语音的语音帧的该维度为测试语音的语音帧的可靠部分;
判断出测试语音的语音帧某一维度的信噪比小于或等于预设阈值,确定测试语音的语音帧的该维度为测试语音的语音帧的不可靠部分;
根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
本发明的装置中,重建模块具体用于:
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分;
当测试语音的语音帧的不可靠部分的维度数和测试语音的语音帧的总维度数之间的比值大于或等于预设比值时,判断出测试语音的语音帧需要进行缺失特征重建;
根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
本发明的装置中,重建模块具体用于:
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建;
根据各高斯混合聚类的权重、均值向量和协方差矩阵判断出测试语音的语音帧所属的高斯混合聚类;
根据测试语音的语音帧所属的高斯混合聚类的权重、均值向量和协方差矩阵和公式对测试语音的语音帧的不可靠部分进行缺失特征重建;
其中,为测试语音的语音帧的不可靠部分;Xo为测试语音的语音帧的可靠部分;Ukm为测试语音的语音帧所属的高斯混合聚类的均值向量中与测试语音的语音帧的不可靠部分相对应的部分;Uko为测试语音的语音帧所属的高斯混合聚类的均值向量中与测试语音的语音帧的可靠部分相对应的部分;θkmo为由测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与测试语音的语音帧的不可靠部分相对应的行,和与测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵;θkoo为由测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与测试语音的语音帧的可靠部分相对应的行,和与测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (19)

1.一种实现缺失特征重建的方法,其特征在于,包括:
预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;
将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用改进的最小值控制递归平均IMCRA算法计算测试语音的语音帧各维度的信噪比;
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
2.根据权利要求1所述的方法,其特征在于,在根据所述测试语音的语音帧的不可靠部分判断出所述测试语音的语音帧不需要进行缺失特征重建时,该方法还包括:丢弃所述测试语音的语音帧。
3.根据权利要求1或2所述的方法,其特征在于,所述预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵包括:
预先获取两个或两个以上训练语音,对于每一个训练语音,将所述训练语音划分为两个或两个以上语音帧;
获取每一个所述训练语音的语音帧的梅尔域对数功率谱特征矢量参数,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵。
4.根据权利要求3所述的方法,其特征在于,所述获取每一个训练语音的语音帧的梅尔域对数功率谱特征矢量参数包括:
对所述训练语音的语音帧进行傅里叶变换,对傅里叶变换后的训练语音的语音帧取模得到所述训练语音的语音帧的幅度谱;
对所述训练语音的语音帧的幅度谱取平方得到所述训练语音的语音帧的功率谱;
将所述训练语音的语音帧的功率谱经过梅尔梳状滤波器得到所述训练语音的语音帧的梅尔域功率谱特征矢量参数,对所述训练语音的语音帧的梅尔域功率谱特征矢量参数取对数得到所述训练语音的语音帧的梅尔域对数功率谱特征矢量参数。
5.根据权利要求3所述的方法,其特征在于,所述根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵包括:
设置所述高斯混合聚类的个数,初始化各高斯混合聚类的均值向量、协方差矩阵和权重;
根据初始化的各高斯混合聚类的均值向量、协方差矩阵和权重、各训练语音的语音帧的梅尔域对数功率谱特征矢量参数采用高斯混合聚类算法获取各高斯混合聚类权重、均值向量和协方差矩阵。
6.根据权利要求1或2所述的方法,其特征在于,所述采用IMCRA算法计算测试语音的语音帧各维度的信噪比包括:
获取所述测试语音的语音帧的梅尔域功率谱特征矢量参数;
根据所述测试语音的语音帧的梅尔域功率谱特征矢量参数采用所述IMCRA算法计算所述测试语音的语音帧各维度的信噪比。
7.根据权利要求6所述的方法,其特征在于,所述获取测试语音的语音帧的梅尔域功率谱特征矢量参数包括:
对所述测试语音的语音帧进行傅里叶变换,对傅里叶变换后的测试语音的语音帧取模得到所述测试语音的语音帧的幅度谱;
对所述测试语音的语音帧的幅度谱取平方得到所述测试语音的语音帧的功率谱,将所述测试语音的语音帧的功率谱经过梅尔梳状滤波器得到所述测试语音的语音帧的梅尔域功率谱特征矢量参数。
8.根据权利要求6所述的方法,其特征在于,所述根据测试语音的语音帧的梅尔域功率谱特征矢量参数采用IMCRA算法计算测试语音的语音帧各维度的信噪比包括:
根据公式D2(λ,k2)=αd(λ,k2)D2(λ-1,k2)+[1-αd(λ,k2)]Y2(λ,k2)计算所述测试语音的语音帧各维度的噪声功率,根据公式SNR(λ,k2)=20log10(Y(λ,k2)-D(λ,k2))-20log10D(λ,k2)计算所述测试语音的语音帧各维度的信噪比;
其中,D2(λ,k2)为测试语音的第λ个语音帧的梅尔域噪声功率的第k2维的值,k2为所述测试语音的语音帧的梅尔域功率谱特征矢量参数的维度序号,λ为所述测试语音的语音帧序号,αd为平滑参数,Y为所述测试语音的语音帧的梅尔域功率谱特征矢量参数的第k2维度值,Y2(λ,k2)为测试语音的第λ个语音帧的梅尔域功率谱特征矢量参数的第k2维的值。
9.根据权利要求1或2所述的方法,其特征在于,所述根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分包括:
判断出所述测试语音的语音帧某一维度的信噪比大于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的可靠部分;
判断出所述测试语音的语音帧某一维度的信噪比小于或等于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的不可靠部分。
10.根据权利要求1或2所述的方法,其特征在于,所述对测试语音的语音帧的不可靠部分进行缺失特征重建之前还包括:根据测试语音的语音帧的不可靠部分判断测试语音的语音帧是否需要进行缺失特征重建,包括:
当所述测试语音的语音帧的不可靠部分的维度数和所述测试语音的语音帧的总维度数之间的比值大于或等于预设比值时,判断出所述测试语音的语音帧需要进行缺失特征重建;
当所述测试语音的语音帧的不可靠部分的维度数和所述测试语音的语音帧的总维度数之间的比值小于预设比值时,判断出所述测试语音的语音帧不需要进行缺失特征重建。
11.根据权利要求1或2所述的方法,其特征在于,所述根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建包括:
根据所述各高斯混合聚类的权重、均值向量和协方差矩阵判断出所述测试语音的语音帧所属的高斯混合聚类;
根据所述测试语音的语音帧所属的高斯混合聚类的权重、均值向量和协方差矩阵和公式对测试语音的语音帧的不可靠部分进行缺失特征重建;
其中,为所述测试语音的语音帧的不可靠部分;Xo为所述测试语音的语音帧的可靠部分;Ukm为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的不可靠部分相对应的部分;Uko为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的可靠部分相对应的部分;θkmo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的不可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵;θkoo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵。
12.根据权利要求11所述的方法,其特征在于,所述根据各高斯混合聚类的权重、均值向量和协方差矩阵判断出测试语音的语音帧所属的高斯混合聚类包括:
根据公式判断出所述测试语音的语音帧所属的高斯混合聚类;
其中,X为测试语音的语音帧的梅尔域对数功率谱特征矢量参数,λk4为第k4个高斯混合聚类,为最大似然值对应的k4值,P为X和λk4之间的似然值,argmax为P为最大值时的k4值;
其中, P ( X | λ k 4 ) = ω k 4 Π y ∈ X 0 N 2 ( x , μ k 4 , y , σ k 4 , y ) Π y ∈ X m 0.5 ( 1 + erf ( x - μ k 4 , y 2 σ k 4 , y ) ) ;
N 2 ( y , μ k 4 , y , σ k 4 , y ) = 1 2 π σ k 4 , y 2 exp ( - 0.5 ( x - μ k 4 , y ) 2 σ k 4 , y 2 ) ;
其中,y为X的某一维数据,ωk4为高斯混合聚类λk4的权重,μk4x为λk4与第y维相对应的均值,σk4,y为λk4中与第y维相对应的协方差阵对角值;
通过比较X相对各高斯混合聚类的似然值P(X|λk4)的大小,选出似然值最大的高斯混合聚类λk4
13.一种实现缺失特征重建的装置,其特征在于,至少包括:
获取模块,用于预先获取两个或两个以上高斯混合聚类的权重、均值向量和协方差矩阵;
计算模块,用于将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,采用改进的最小值控制递归平均IMCRA算法计算测试语音的语音帧各维度的信噪比;
重建模块,用于根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,且根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
14.根据权利要求13所述的装置,其特征在于,所述重建模块还用于:
在根据所述测试语音的语音帧的不可靠部分判断出所述测试语音的语音帧不需要进行缺失特征重建时,丢弃所述测试语音的语音帧。
15.根据权利要求13或14所述的装置,其特征在于,所述获取模块具体用于:
预先获取两个或两个以上训练语音,对于每一个训练语音,将所述训练语音划分为两个或两个以上语音帧;获取每一个所述训练语音的语音帧的梅尔域对数功率谱特征矢量参数,根据各训练语音的语音帧的梅尔域对数功率谱特征矢量参数获取各高斯混合聚类权重、均值向量和协方差矩阵。
16.根据权利要求13或14所述的装置,其特征在于,所述计算模块具体用于:
将测试语音划分为两个或两个以上语音帧,对于每一个测试语音的语音帧,获取所述测试语音的语音帧的梅尔域功率谱特征矢量参数;根据所述测试语音的语音帧的梅尔域功率谱特征矢量参数采用所述IMCRA算法计算所述测试语音的语音帧各维度的信噪比。
17.根据权利要求13或14所述的装置,其特征在于,所述重建模块具体用于:
判断出所述测试语音的语音帧某一维度的信噪比大于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的可靠部分;
判断出所述测试语音的语音帧某一维度的信噪比小于或等于预设阈值,确定所述测试语音的语音帧的该维度为所述测试语音的语音帧的不可靠部分;
根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建,根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
18.根据权利要求13或14所述的装置,其特征在于,所述重建模块具体用于:
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分;
当所述测试语音的语音帧的不可靠部分的维度数和所述测试语音的语音帧的总维度数之间的比值大于或等于预设比值时,判断出所述测试语音的语音帧需要进行缺失特征重建;
根据获得的各高斯混合聚类的权重、均值向量和协方差矩阵、测试语音的语音帧的可靠部分对测试语音的语音帧的不可靠部分进行缺失特征重建。
19.根据权利要求13或14所述的装置,其特征在于,所述重建模块具体用于:
根据测试语音的语音帧各维度的信噪比将测试语音的语音帧划分为可靠部分和不可靠部分,根据测试语音的语音帧的不可靠部分判断出测试语音的语音帧需要进行缺失特征重建;
根据所述各高斯混合聚类的权重、均值向量和协方差矩阵判断出所述测试语音的语音帧所属的高斯混合聚类;
根据所述测试语音的语音帧所属的高斯混合聚类的权重、均值向量和协方差矩阵和公式对测试语音的语音帧的不可靠部分进行缺失特征重建;
其中,为所述测试语音的语音帧的不可靠部分;Xo为所述测试语音的语音帧的可靠部分;Ukm为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的不可靠部分相对应的部分;Uko为所述测试语音的语音帧所属的高斯混合聚类的均值向量中与所述测试语音的语音帧的可靠部分相对应的部分;θkmo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的不可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵;θkoo为由所述测试语音的语音帧所属的高斯混合聚类的协方差矩阵中与所述测试语音的语音帧的可靠部分相对应的行,和与所述测试语音的语音帧的可靠部分相对应的列相交叉的元素组成的矩阵。
CN201510044910.4A 2015-01-28 2015-01-28 一种实现缺失特征重建的方法和装置 Withdrawn CN105989843A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510044910.4A CN105989843A (zh) 2015-01-28 2015-01-28 一种实现缺失特征重建的方法和装置
PCT/CN2015/093901 WO2016119501A1 (zh) 2015-01-28 2015-11-05 一种实现缺失特征重建的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510044910.4A CN105989843A (zh) 2015-01-28 2015-01-28 一种实现缺失特征重建的方法和装置

Publications (1)

Publication Number Publication Date
CN105989843A true CN105989843A (zh) 2016-10-05

Family

ID=56542342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510044910.4A Withdrawn CN105989843A (zh) 2015-01-28 2015-01-28 一种实现缺失特征重建的方法和装置

Country Status (2)

Country Link
CN (1) CN105989843A (zh)
WO (1) WO2016119501A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653056A (zh) * 2016-11-16 2017-05-10 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
WO2020034593A1 (zh) * 2018-08-13 2020-02-20 平安科技(深圳)有限公司 人群绩效特征预测中的缺失特征处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1475987A (zh) * 2003-07-14 2004-02-18 中国科学院声学研究所 语音识别的隐马尔可夫模型边缘化解码数据重建方法
CN1571012A (zh) * 2003-07-11 2005-01-26 中国科学院声学研究所 语音识别的概率加权平均缺失特征数据重建方法
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
WO2009123387A1 (en) * 2008-03-31 2009-10-08 Transono Inc. Procedure for processing noisy speech signals, and apparatus and computer program therefor
CN101853661A (zh) * 2010-05-14 2010-10-06 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050251388A1 (en) * 2002-11-05 2005-11-10 Koninklijke Philips Electronics, N.V. Spectrogram reconstruction by means of a codebook
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
WO2013138747A1 (en) * 2012-03-16 2013-09-19 Yale University System and method for anomaly detection and extraction

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571012A (zh) * 2003-07-11 2005-01-26 中国科学院声学研究所 语音识别的概率加权平均缺失特征数据重建方法
CN1475987A (zh) * 2003-07-14 2004-02-18 中国科学院声学研究所 语音识别的隐马尔可夫模型边缘化解码数据重建方法
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
WO2009123387A1 (en) * 2008-03-31 2009-10-08 Transono Inc. Procedure for processing noisy speech signals, and apparatus and computer program therefor
CN101853661A (zh) * 2010-05-14 2010-10-06 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尹海明,王金明,李欢欢: "基于信噪比估计的说话人识别前端处理", 《军事通信技术》 *
王宁: "基于缺失特征重建的说话人识别", 《万方学术期刊数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653056A (zh) * 2016-11-16 2017-05-10 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN106653056B (zh) * 2016-11-16 2020-04-24 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
WO2020034593A1 (zh) * 2018-08-13 2020-02-20 平安科技(深圳)有限公司 人群绩效特征预测中的缺失特征处理方法及装置

Also Published As

Publication number Publication date
WO2016119501A1 (zh) 2016-08-04

Similar Documents

Publication Publication Date Title
Calhoun et al. A method for making group inferences from functional MRI data using independent component analysis
DE102017102134B4 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
CN104680495B (zh) 超声图像的自适应去噪方法
CN105989843A (zh) 一种实现缺失特征重建的方法和装置
Oliveira et al. A wavelet-based method for power-line interference removal in ECG signals
US20120243763A1 (en) Signal-to-noise enhancement in imaging applications using a time-series of images
CN101571949A (zh) 基于pcnn的小波域超声医学图像去噪方法
Calhoun et al. Group ICA of functional MRI data: separability, stationarity, and inference
CN109101890A (zh) 基于小波变换的电能质量扰动识别方法及装置
CN106228045A (zh) 一种身份识别***
CN106019256A (zh) 基于自回归模型的雷达信号自适应检测方法
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
Razali et al. A comparison of normality tests using SPSS, SAS and MINITAB: An application to Health Related Quality of Life data
CN107067407A (zh) 基于非经典感受野和线性非线性调制的轮廓检测方法
CN104515984A (zh) 基于贝叶斯压缩感知的宽带雷达目标复回波去噪方法
CN104360338B (zh) 一种基于对角加载的阵列天线自适应波束形成方法
CN108613737A (zh) 基于小波包与stft的飞行器多频振动信号的辨识方法
Bonettini et al. Primal-dual first order methods for total variation image restoration in presence of Poisson noise
CN106778001A (zh) 基于改进时频单源区的欠定混合矩阵盲估计方法
CN104156925B (zh) 对超声图像去除散斑和边界增强的处理方法及***
Ding et al. Performance evaluation of nonnegative matrix factorization algorithms to estimate task-related neuronal activities from fMRI data
CN109425473A (zh) 一种针对轨道交通噪声的分析方法
CN107255836B (zh) 基于矢量混合距离排序的多分量地震数据滤波方法
Turnip et al. P300 detection using nonlinear independent component analysis
CN109214431B (zh) 样本训练方法、分类方法、识别方法、装置、介质及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20161005

WW01 Invention patent application withdrawn after publication