CN109192200B - 一种语音识别方法 - Google Patents

一种语音识别方法 Download PDF

Info

Publication number
CN109192200B
CN109192200B CN201810514662.9A CN201810514662A CN109192200B CN 109192200 B CN109192200 B CN 109192200B CN 201810514662 A CN201810514662 A CN 201810514662A CN 109192200 B CN109192200 B CN 109192200B
Authority
CN
China
Prior art keywords
model
inputting
hidden markov
voice signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810514662.9A
Other languages
English (en)
Other versions
CN109192200A (zh
Inventor
范文涛
杜吉祥
符江鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201810514662.9A priority Critical patent/CN109192200B/zh
Publication of CN109192200A publication Critical patent/CN109192200A/zh
Application granted granted Critical
Publication of CN109192200B publication Critical patent/CN109192200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种语音识别方法,其包括所述语音识别方法包括输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率,其中使用变分推断更新优化模型参数;将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM,使用隐马尔科夫模型对语音信号时间序列结构进行建模;根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上,提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模,同时使用变分推断实现模型参数的求解,谋求模型鲁棒性和提高准确率。

Description

一种语音识别方法
技术领域
本发明涉及一种语音识别技术领域,更具体地涉及一种基于狄利克雷分布混合隐马尔科夫模型的语音识别方法。
背景技术
目前,语音识别成为一种重要的人机交互形式,语音识别技术渐渐地改变着人们和生活和工作方式。自然语言是最方便、舒适和快捷的一种交互方式,是人机通信和交互的重要领域之一,最终实现人机对话自由,自动语音识别(Automatic Speech Recognition,ASR)是实现人机交互尤为关键的技术,其需要让计算机听懂人类的语言,从而使得计算机按照人类的指示进行操作。
自动语音识别技术进过几十年的发展已经取得了显著的成效。上世纪80年代,Jelinek等科学家在贝尔实验室发现隐马尔科夫模型(Hidden Markov Model-HMM)的特性适合语音信号建模,此后陆续有学者提出基于HMM的参数估计和识别解码等配套的算法体系,其中高斯混合模型(Gaussian Mixed Model-GMM)混合隐马尔科夫模型(HMM)应用尤为广泛。GMM-HMM的核心架构是通过使用隐马尔科夫模型对语音的时序进行建模,而使用高斯混合模型(GMM)对语音的观测概率进行建模。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
根据本发明的一个方面,提供了一种语音识别方法,本发明提出使用狄利克雷分布混合模型(Dirichlet Mixed Model-DMM)对隐马尔科夫模型(Hidden Markov Model,HMM)的观测概率进行建模,同时使用变分推断(Variational Bayes inference)来实现模型参数的求解,以提高模型鲁棒性和准确率。
同时,利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模型的语音识别过程中,能过最大程度的降低运算并未得到准确的特征参数提供保证,采用倒谱均值归一化技术,使得本方法能够适应不同的口音,进一步提高特征提取的准确性。
所述语音识别方法包括步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;
步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;
步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;
步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。
可选地,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括:
步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括;
S'n=Sn-k*Sn-1
其中,S表示语音信号,Sn={S0,…,SN-1},n=0,…,N-1;S'表示处理之后的信号,Sn'={S'0,…,S'N-1},n=0,…N-1;
k∈[0.9,1]。
可选地,步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:
Figure GDA0004057957450000031
步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,
幅度频:
Figure GDA0004057957450000032
其中i表示第i帧,k表示傅里叶点数;
功率谱:
Figure GDA0004057957450000033
步骤S104:使用梅尔克度滤波组过滤所述频域信号;
步骤S105:使用log非线性描述能量值;
步骤S106:通过离散余弦变换获取频率谱的低频信息;其中,
Figure GDA0004057957450000034
步骤S107:通过差分增加语音信号的特征的时域连续性,其中,
Figure GDA0004057957450000035
其中dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间间隔。
步骤S108:倒谱均值归一化以获取语音信号的特征参数。
可选地,步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数的步骤进一步包括:
狄利克雷分布混合模型模型式为:
Figure GDA0004057957450000041
/>
Figure GDA0004057957450000042
其中,
Figure GDA0004057957450000043
表示混合系数,/>
Figure GDA0004057957450000044
是第j个混合分量的狄利克雷分布。
可选地,步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:
步骤S301:初始化分布参数,选择混合分量的数量,使用K-means算法初始化超参数{ujl}和{vjl}的值,
Figure GDA0004057957450000045
Figure GDA0004057957450000046
其中,M为混合分量数,N为输入样本数量,
Figure GDA0004057957450000047
表示伽马分布,Z表示M维二元随机变量。
其中:
Figure GDA0004057957450000048
Figure GDA0004057957450000049
Figure GDA00040579574500000410
Figure GDA0004057957450000051
Figure GDA0004057957450000052
注:<·>表示期望,Γ表示伽马函数。
超参数更新迭代式如下:
Figure GDA0004057957450000053
Figure GDA0004057957450000054
Figure GDA0004057957450000055
/>
Figure GDA0004057957450000056
其中Ψ和Ψ'分别表示digamma函数和trigamma函数。
Figure GDA0004057957450000057
可选地,步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:步骤S302:变分推断求解模型参数;
步骤S300进一步包括步骤S303:变分E步,更新Q(z)和
Figure GDA0004057957450000058
计算其最大似然估计值;
步骤S300进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大似然值来计算参数的值;
步骤S300进一步包括步骤S305:重复上述步骤S302和步骤S303,直至算法收敛。
由此可见,本发明实施例中,在现有GMM-HMM的方法基础上,本方法提出使用狄利克雷混合模型(DMM)来对隐马尔科夫混合模型(HMM)的观测概率来进行建模,同时使用变分推断(Variational Bayes inference)来实现模型参数的求解,谋求模型鲁棒性和提高准确率。
本发明利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模型的语音识别过程中,能够最大程度的降低运算并未得到准确的特征参数提供保证,采用倒谱均值归一化技术,使得本方法能够适应不同的口音,进一步提高特征提取的准确性。
本发明通过科学的算法及优化的训练条件,能够有效地训练而为后续进行语音识别创造了基础,为准确识别语音特征提供了保证。
附图说明
以下将结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来对本发明实施例进行进一步的解释,该附图构成说明书的一部分,且与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的附图标记通常代表相同或相似的部件或步骤。
图1是本发明实施例中狄利克雷混合模型混合隐马尔科夫模型处理语音识别过程的流程图;
图2是图1所述语音识别过程中的语音信号采集示图;
图3是图1所述的语音识别过程中的梅尔倒谱系数提取语音特征的流程图;
图4是图1所述狄利克雷混合模型混合隐马尔科夫模型处理语音学习过程示意图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
本发明实施例中的语音识别方法包括如下步骤,图1是本发明实施例中狄利克雷混合模型混合隐马尔科夫模型处理语音识别过程的流程图,其包括将输入的语音信号,使用梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)提取语音信号的特征向量;
将提取的MFCC特征向量输入到狄利克雷混合模型(Dirichlet Mixed Model,DMM)以中计算观测概率,其中使用变分推断(Variational Bayes inference)来更新优化模型参数;
将提取的MFCC特征向量和狄利克雷混合模型(DMM)计算得到的观测概率输入隐马尔科夫模型(HMM)中对语音信号的时间序列结构进行建模;以根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。
具体地,请参照图3,语音识别方法包括步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;
具体地,步骤S100进一步包括步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括;
S'n=Sn-k*Sn-1
其中S表示语音信号,Sn={S0,…,SN-1},n=0,…,N-1;S'表示处理之后的信号,Sn'={S'0,…,S'N-1},n=0,…N-1,
k∈[0.9,1]。
通过所述步骤S101对所述语音信号进行消除发声过程中声带和嘴唇造成的效应,补偿声音信号所受到发声***所压抑的高频部分,并且高频的共振峰。
步骤S1进一步包括步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:
Figure GDA0004057957450000081
上述步骤S101到步骤S102为加强语音信号性能,例如信噪比、处理精度等而对语音信号做的一些预处理工作,把音频信号中具有辨识性的成分进行提取。
步骤S1进一步包括步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,
幅度频:
Figure GDA0004057957450000082
其中i表示第i帧,k表示傅里叶点数。
功率谱:
Figure GDA0004057957450000083
对每一个短时分析窗,通过快速傅立叶变换(Fast Fourier Transformation,FFT)得到对应的频谱,获得分布在时间轴上不同时间窗内的频谱。
步骤S1进一步包括步骤S104:使用梅尔克度滤波组过滤所述频域信号,由于频率信号有很多冗余,滤波组可以对频域的幅值进行精简,每一个频段用一个值来表示。
对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在该滤波器对应频段的能量值。
步骤S100进一步包括步骤S105:使用log非线性描述能量值,人耳对声音的感知并不是线性的,用对数非线性关系能够更好地描述,取完log以后可以进行倒谱分析。
将上面的频谱通过Mel滤波器组得到Mel频谱,通过Mel频谱,将线形的自然频谱转换为体现人类听觉特性的Mel频谱,在Mel频谱上面进行倒谱分析。
步骤S100进一步包括步骤S106:通过离散余弦变换获取频率谱的低频信息;
Figure GDA0004057957450000091
上述公式是将对数能量进行离散余弦变换,求L阶MFCC参数,其中i表示第i阶,mj表示第j个三角滤波器值。由于滤波器之间是有重叠的,前述获得的能量值之间具有相关性,离散余弦变换可以对数据进行降维压缩和抽象,以获得特征参数。
步骤S100进一步包括步骤S107:通过差分增加语音信号的特征的时域连续性,由于语音信号是时域连续的,分帧提取的特征信息只反映了本帧语音的特性,为了使特征更能体现时域连续性,在特征维度增加前后帧信息和维度。
具体地,
Figure GDA0004057957450000092
其中dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间间隔。
取对数,做逆变换,实际逆变换一般是通过离散余弦变换(discrete cosinetransform,DCT)来实现,取DCT后的第2个到第13个系数作为MFCC系数,在语音特征中加入表征语音动态特性的差分参数,能够提高***的识别性能。
步骤S1进一步包括步骤S108:倒谱均值归一化以获取语音信号的特征参数。
采用倒谱均值归一化技术,以能够识别语音信号中的不同的口音,进一步提高语音信号特征提取的准确性。
获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征,倒谱分析,获得MFCC作为语音特征。
所述语音识别方法还包括步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率,其中使用变分推断(Variational Bayes inference)更新优化模型参数;
其中,狄利克雷分布混合模型模型式为
Figure GDA0004057957450000101
Figure GDA0004057957450000102
/>
其中,
Figure GDA0004057957450000103
表示混合系数,/>
Figure GDA0004057957450000104
是第j个混合分量的狄利克雷分布。
所述语音识别方法还包括步骤S300:在步骤2和步骤1的基础上,将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM,使用隐马尔科夫模型对语音信号时间序列结构进行建模。
具体地,步骤S300进一步包括步骤S301:初始化分布参数,选择混合分量的数量,使用K-means算法初始化超参数{ujl}和{vjl}的值,以进行数据聚类;
Figure GDA0004057957450000105
Figure GDA0004057957450000106
其中,M为混合分量数,N为输入样本数量,
Figure GDA0004057957450000107
表示伽马分布,Z表示M维二元随机变量。
其中:
Figure GDA0004057957450000108
Figure GDA0004057957450000109
Figure GDA0004057957450000111
Figure GDA0004057957450000112
Figure GDA0004057957450000113
注:<·>表示期望,Γ表示伽马函数。
超参数更新迭代式如下:
Figure GDA0004057957450000114
Figure GDA0004057957450000115
Figure GDA0004057957450000116
Figure GDA0004057957450000117
其中Ψ和Ψ'分别表示digamma函数和trigamma函数。
Figure GDA0004057957450000118
步骤S300进一步包括步骤S302:变分推断求解模型参数;
步骤S300进一步包括步骤S303:变分E步,更新Q(z)和
Figure GDA0004057957450000119
计算其最大似然估计值;
步骤S300进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大似然值来计算参数的值。
通过(EM)算法在概率模型中寻找参数最大似然估计。
步骤S300进一步包括步骤S305:重复上述步骤S302和步骤S303,直至算法收敛。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
所述语音识别方法还包括步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。即根据某个词的隐马尔科夫模型(HMM)的观测序列概率最高,从而判断此段语音属于哪个词,即将具有辨识性的成分提取出来。
本发明的语音识别过程可以应用于智能机器人上,例如无人机的语音控制指令,家庭陪伴机器人的语音交互过程,自动清洁机器人的语音控制指令,智能家电的语音交互过程等等。本发明的语音识别过程还可以应用到多种场景中,比如无人银行,无人超市,自动驾驶等多种领域中,同时解决人们工作生活中的繁琐的控制过程,通过简单的语音交互实现控制,实现快捷简便的人机交互。
本发明利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模型的语音识别过程中,能够最大程度的降低运算并未得到准确的特征参数提供保证,采用倒谱均值归一化技术,使得本方法能够适应不同的口音,进一步提高特征提取的准确性。
本发明提出使用狄利克雷混合模型(DMM)来对隐马尔科夫混合模型(HMM)的观测概率来进行建模,同时使用变分推断(Variational Bayes inference)来实现模型参数的求解,谋求模型鲁棒性和提高准确率。
本发明通过科学的算法及优化的训练条件,能够有效地训练而为后续进行语音识别创造了基础,为准确识别语音特征提供了保证。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种语音识别方法,其特征在于,所述语音识别方法包括:
步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;
步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;
步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;
步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。
2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括:
步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括:
S'n=Sn-k*Sn-1
其中:S表示语音信号,Sn={S0,…,SN-1},n=0,…,N-1;S'表示处理之后的语音信号,Sn'={S'0,…,S'N-1},n=0,…N-1;k∈[0.9,1];
步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:
Figure FDA0004057957440000011
步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,
幅度频:
Figure FDA0004057957440000021
其中,i表示第i帧,k表示傅里叶点数;
功率谱:
Figure FDA0004057957440000022
步骤S104:使用梅尔克度滤波组过滤所述频域信号;
步骤S105:使用log非线性描述能量值;
步骤S106:通过离散余弦变换获取频率谱的低频信息;其中,
Figure FDA0004057957440000023
步骤S107:通过差分增加语音信号的特征的时域连续性,其中,
Figure FDA0004057957440000024
/>
其中,dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间间隔;
步骤S108:倒谱均值归一化以获取语音信号的特征参数。
3.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数的步骤进一步包括:
狄利克雷分布混合模型模型式为:
Figure FDA0004057957440000025
Figure FDA0004057957440000031
其中,
Figure FDA0004057957440000032
表示混合系数,/>
Figure FDA0004057957440000033
Figure FDA00040579574400000311
是第j个混合分量的狄利克雷分布。
4.根据权利要求1所述语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:
步骤S301:初始化分布参数,选择混合分量的数量,使用K-means算法初始化超参数{ujl}和{vjl}的值,
Figure FDA0004057957440000034
Figure FDA0004057957440000035
其中,M为混合分量数,N为输入样本数量,
Figure FDA0004057957440000036
表示伽马分布,Z表示M维二元随机变量;
其中:
Figure FDA0004057957440000037
Figure FDA0004057957440000038
Figure FDA0004057957440000039
Figure FDA00040579574400000310
/>
Figure FDA0004057957440000041
注:<·>表示期望,Γ表示伽马函数;
超参数更新迭代式如下:
Figure FDA0004057957440000042
Figure FDA0004057957440000043
Figure FDA0004057957440000044
其中Ψ和Ψ'分别表示digamma函数和trigamma函数;
Figure FDA0004057957440000045
5.根据权利要求4所述的语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:
步骤S302:变分推断求解模型参数;
步骤S300进一步包括步骤S303:变分E步,更新Q(z)和
Figure FDA0004057957440000046
计算其最大似然估计值;
步骤S300进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大似然估计值来计算参数的值;
步骤S300进一步包括步骤S305:重复上述步骤S302和步骤S303,直至算法收敛。
CN201810514662.9A 2018-05-25 2018-05-25 一种语音识别方法 Active CN109192200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810514662.9A CN109192200B (zh) 2018-05-25 2018-05-25 一种语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810514662.9A CN109192200B (zh) 2018-05-25 2018-05-25 一种语音识别方法

Publications (2)

Publication Number Publication Date
CN109192200A CN109192200A (zh) 2019-01-11
CN109192200B true CN109192200B (zh) 2023-06-13

Family

ID=64948534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810514662.9A Active CN109192200B (zh) 2018-05-25 2018-05-25 一种语音识别方法

Country Status (1)

Country Link
CN (1) CN109192200B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597342B (zh) * 2019-01-16 2020-10-20 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
CN109801621B (zh) * 2019-03-15 2020-09-29 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110058689A (zh) * 2019-04-08 2019-07-26 深圳大学 一种基于脸部振动的智能设备输入方法
CN110289924B (zh) * 2019-06-05 2021-06-22 宁波大学 一种变分推断估计噪声功率的方法
CN110311743B (zh) * 2019-06-05 2021-06-22 宁波大学 一种变分推断估计主用户占空比的方法
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN111968671B (zh) * 2020-08-24 2024-03-01 中国电子科技集团公司第三研究所 基于多维特征空间的低空声目标综合识别方法及装置
CN112466056B (zh) * 2020-12-01 2022-04-05 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件***及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息***有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
KR101255468B1 (ko) * 2011-10-17 2013-04-16 포항공과대학교 산학협력단 대화 의도를 분류하는 방법
CN103578462A (zh) * 2012-07-18 2014-02-12 株式会社东芝 语音处理***
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104050972A (zh) * 2013-03-14 2014-09-17 雅马哈株式会社 声音信号分析设备以及声音信号分析方法和程序
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别***
CN104424943A (zh) * 2013-08-23 2015-03-18 株式会社东芝 语音处理***和方法
CN104737229A (zh) * 2012-10-22 2015-06-24 三菱电机株式会社 用于变换输入信号的方法
CN105282073A (zh) * 2015-09-23 2016-01-27 同济大学 一种基于认知无线电的车联网通信方法
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置
CN107851434A (zh) * 2015-05-26 2018-03-27 鲁汶大学 使用自适应增量学习方法的语音识别***和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010341B2 (en) * 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息***有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
KR101255468B1 (ko) * 2011-10-17 2013-04-16 포항공과대학교 산학협력단 대화 의도를 분류하는 방법
CN103578462A (zh) * 2012-07-18 2014-02-12 株式会社东芝 语音处理***
CN104737229A (zh) * 2012-10-22 2015-06-24 三菱电机株式会社 用于变换输入信号的方法
CN104050972A (zh) * 2013-03-14 2014-09-17 雅马哈株式会社 声音信号分析设备以及声音信号分析方法和程序
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别***
CN104424943A (zh) * 2013-08-23 2015-03-18 株式会社东芝 语音处理***和方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN107851434A (zh) * 2015-05-26 2018-03-27 鲁汶大学 使用自适应增量学习方法的语音识别***和方法
CN105282073A (zh) * 2015-09-23 2016-01-27 同济大学 一种基于认知无线电的车联网通信方法
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置

Also Published As

Publication number Publication date
CN109192200A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109192200B (zh) 一种语音识别方法
US20150340027A1 (en) Voice recognition system
CN109584896A (zh) 一种语音芯片及电子设备
CN103065629A (zh) 一种仿人机器人的语音识别***
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
CN102800316A (zh) 基于神经网络的声纹识别***的最优码本设计方法
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN110942766A (zh) 音频事件检测方法、***、移动终端及存储介质
EP2903003A1 (en) Online maximum-likelihood mean and variance normalization for speech recognition
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译***及其语言识别方法
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端***
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
AU2362495A (en) Speech-recognition system utilizing neural networks and method of using same
CN103886859B (zh) 基于一对多码书映射的语音转换方法
Loh et al. Speech recognition interactive system for vehicle
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
CN113744725B (zh) 一种语音端点检测模型的训练方法及语音降噪方法
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
CN111627426A (zh) 消除语音交互中信道差异的方法及***、电子设备及介质
Morales et al. Adding noise to improve noise robustness in speech recognition.
Kinnunen et al. Frequency warping and robust speaker verification: a comparison of alternative mel-scale representations.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant