CN110211568A - 一种语音识别方法及装置 - Google Patents
一种语音识别方法及装置 Download PDFInfo
- Publication number
- CN110211568A CN110211568A CN201910476451.5A CN201910476451A CN110211568A CN 110211568 A CN110211568 A CN 110211568A CN 201910476451 A CN201910476451 A CN 201910476451A CN 110211568 A CN110211568 A CN 110211568A
- Authority
- CN
- China
- Prior art keywords
- neural network
- recurrent neural
- current time
- value
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 87
- 230000000306 recurrent effect Effects 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语音识别方法及装置,所述方法包括:1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。应用本发明实施例,实现了语音的流式识别。
Description
技术领域
本发明涉及一种识别方法及装置,更具体涉及一种语音识别方法及装置。
背景技术
随着技术的发展,语音识别技术也得到了极大的发展。
由于语音信号为模拟信号,目前,通常使用梅尔频率倒谱系数(或梅尔标度滤波器组)和递归神经网络及卷积神经网络进行。卷积神经网络是人工神经网络的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。递归神经网络结合了多层次表征,经证明,这些表征使递归神经网络语音识别中非常有效。
但是,发明发现在使用递归神经网络识别时,由于全局注意力的计算需要获取完整的语音数据,导致无法做到流式识别。
发明内容
本发明所要解决的技术问题在于提供了一种语音识别方法及装置,解决现有技术无法进行流式识别的技术问题。
本发明是通过以下技术方案解决上述技术问题的:
本发明实施例提供了一种语音识别方法,所述方法包括:
1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;
2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;
3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;
4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。
可选的,所述步骤1),包括:
按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;
利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;
对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;
在梅尔刻度上使用三角滤波器获取所述能量谱的频带;
对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。
可选的,所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带,包括:
利用公式,获取所述能量谱的频带,其中,
Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且
可选的,所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,包括:
利用公式,获取当前语音特征的注意力值,其中,
eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;
利用公式,获取当前时刻的注意力值,其中,
aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;
利用公式,获取当前时刻的递归神经网络隐状态值,其中,
hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;
利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,
yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。
本发明实施例提供了一种语音识别装置,所述装置包括:
处理模块,用于对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;
使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;
编码模块,用于针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;
输出模块,用于将当前语音特征的下一语音特征作为当前语音特征,并触发编码模块,直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。
可选的,所述处理模块,用于:
按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;
利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;
对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;
在梅尔刻度上使用三角滤波器获取所述能量谱的频带;
对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。
可选的,所述处理模块,用于:
利用公式,获取所述能量谱的频带,其中,
Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且
可选的,所述编码模块,用于:
利用公式,获取当前语音特征的注意力值,其中,
eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;
利用公式,获取当前时刻的注意力值,其中,
aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;
利用公式,获取当前时刻的递归神经网络隐状态值,其中,
hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;
利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,
yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。
本发明相比现有技术具有以下优点:
应用本发明实施例,采用梅尔频率倒谱系数作为输入特征,后续通过卷积神经网络进一步编码后,通过递归神经网络进行分类,在使用递归神经网络进行识别时,在时间轴上进行从左到右的隐状态累加,在每一个时刻通过注意力机制进行权重的计算和进一步调整,这样既可以结合卷积神经网络和递归神经网络的拟合能力,又可以结合注意力机制对输入数据的有效取舍,并不需要全局数据进行计算,实现了语音的流式识别。
附图说明
图1为本发明实施例提供的一种语音识别方法的流程示意图;
图2为本发明实施例提供的一种语音识别方法的原理示意图;
图3为本发明实施例提供的一种语音识别装置的结构示意图;
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了一种语音识别方法及装置,下面首先就本发明实施例提供的一种语音识别方法进行介绍。
图1为本发明实施例提供的一种语音识别方法的流程示意图;图2为本发明实施例提供的一种语音识别方法的原理示意图,如图1和图2所示,所述方法包括:
S101:对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;
具体的,本步骤可以包括:
A:按照预设的窗口长度,如20毫秒;按照预设的移动步长,如10ms,对待识别语音信号进行分帧处理;得到语音信号帧序列。
B:然后,利用汉明窗加窗方法,利用公式,对分帧后的语音信号进行加窗处理,其中,
wn为加窗后的第n帧语音信号;n为语音信号帧的序号,且0≤n≤N-1,且N为窗口长度。
C:对加窗后的语音信号进行傅里叶变换处理,以将语音信号从时域信号变换为频域信号,进而得到傅里叶变换后的语音信号,并根据傅里叶变换后的语音信号,利用公式,获取变换后的语音信号的能量谱,其中,
P为变换后的语音信号的能量谱;FFT(xi)为傅里叶变化后的语音信号;FN为傅里叶变换的点数。
D:然后使用梅尔滤波器对傅里叶变换后的频域信号进行滤波处理。
利用公式,将傅里叶变换后的语音信号从频率域转到梅尔域,进而从0到Mel得到梅尔域的线性排列的每个点的值,其中,
Hz为语音信号在频率域的点值;Mel为得到的高频梅尔域线性点值。
然后,利用公式,将梅尔域线性点值转到频率域线性点值;Mel是高频梅尔域线性点值;Hz为对应的频率域的点值。
在梅尔刻度上使用频率域点值对应的三角滤波器,利用公式,
获取所述能量谱的频带,其中,
Hm(k)为频率域第k个点的滤波器频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值。
E:,将滤波器频带和能量谱做点乘并取对数,得到FBANK(Filter Banks,滤波器组)特征值。
F:利用公式,对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列,其中,
yk为第k个待识别语音信号的梅尔频率特征序列;xn为第n个FBANK特征值;YN为滤波器的个数。
如图2所示,图中MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)即为得到的梅尔特征序列。
可以理解的是,本步骤中使用的加窗算法、傅里叶变换算法以及能量谱的频带计算方法均为现有技术。
S102:使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列。
示例性的,卷积神经网络的具体参数为:
第一层1维卷积,核数量为40,核大小为3,步长为1,左右各填充1个0;
第二层1维卷积,核数量为80,核大小为3,步长为1,左右各填充1个0;
第三层1维卷积,核数量为160,核大小为3,步长为1,左右各填充1个0;
第四层1维卷积,核数量为160,核大小为3,步长为1,左右各填充1个0;
第五层1维卷积,核数量为160,核大小为3,步长为1,左右各填充1个0。
S103:针对语音特征序列中的当前语音特征,使用递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果。
示例性的,递归神经网络的具体参数为:
第一层递归,隐单元数量为128;注意力全连接网络隐单元数量为64;
第二层递归,隐单元数量为128;注意力全连接网络隐单元数量为64;
第三层递归,隐单元数量为128;注意力全连接网络隐单元数量为64。
本步骤可以包括:
利用公式,获取当前语音特征的注意力值,其中,
eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;
利用公式,获取当前时刻的注意力值,其中,
aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;
利用公式,获取当前时刻的递归神经网络隐状态值,其中,
hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;
利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,即编码结果,其中,
yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。
S104:将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤S103,直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。
示例性的,例如,当前语音特征为第i个语音特征,在本步骤中将第i+1个语音特征作为当前语音特征,并执行S103步骤,从而进行语音信号的流式识别。
应用本发明图1所示实施例,采用梅尔频率倒谱系数作为输入特征,后续通过卷积神经网络进一步编码后,通过递归神经网络进行分类,在使用递归神经网络进行识别时,在时间轴上进行从左到右的隐状态累加,在每一个时刻通过注意力机制进行权重的计算和进一步调整,这样既可以结合卷积神经网络和递归神经网络的拟合能力,又可以结合注意力机制对输入数据的有效取舍,并不需要全局数据进行计算,实现了语音的流式识别。
与本发明图1所示实施例相对应,本发明实施例提供了一种语音识别装置。
图3为本发明实施例提供的一种语音识别装置的结构示意图,如图3所示,所述装置包括:
处理模块301,用于对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;
使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;
编码模块302,用于针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;
输出模块303,用于将当前语音特征的下一语音特征作为当前语音特征,并触发编码模块302,直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。
应用本发明图1所示实施例,采用梅尔频率倒谱系数作为输入特征,后续通过卷积神经网络进一步编码后,通过递归神经网络进行分类,在使用递归神经网络进行识别时,在时间轴上进行从左到右的隐状态累加,在每一个时刻通过注意力机制进行权重的计算和进一步调整,这样既可以结合卷积神经网络和递归神经网络的拟合能力,又可以结合注意力机制对输入数据的有效取舍,并不需要全局数据进行计算,实现了语音的流式识别。
在本发明实施例的一种具体实施方式中,所述处理模块301,用于:
按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;
利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;
对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;
在梅尔刻度上使用三角滤波器获取所述能量谱的频带;
对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。
在本发明实施例的一种具体实施方式中,所述处理模块301,用于:
利用公式,获取所述能量谱的频带,其中,
Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且
在本发明实施例的一种具体实施方式中,所述编码模块302,用于:
利用公式,获取当前语音特征的注意力值,其中,
eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;
利用公式,获取当前时刻的注意力值,其中,
aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;
利用公式,获取当前时刻的递归神经网络隐状态值,其中,
hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;
利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,
yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种语音识别方法,其特征在于,所述方法包括:
1)、对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;
2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;
3)、针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;
4)、将当前语音特征的下一语音特征作为当前语音特征,并返回执行步骤3),直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。
2.根据权利要求1所述的一种语音识别方法,其特征在于,所述步骤1),包括:
按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;
利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;
对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;
在梅尔刻度上使用三角滤波器获取所述能量谱的频带;
对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。
3.根据权利要求1所述的一种语音识别方法,其特征在于,所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带,包括:
利用公式,获取所述能量谱的频带,其中,
Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且
4.根据权利要求1所述的一种语音识别方法,其特征在于,所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,包括:
利用公式,获取当前语音特征的注意力值,其中,
eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;
利用公式,获取当前时刻的注意力值,其中,
aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;
利用公式,获取当前时刻的递归神经网络隐状态值,其中,
hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;
利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,
yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。
5.一种语音识别装置,其特征在于,所述装置包括:
处理模块,用于对待识别语音信号进行梅尔频率倒谱处理,得到梅尔频率特征序列;
使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理,得到语音特征序列;
编码模块,用于针对语音特征序列中的当前语音特征,使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理,得到识别结果;
输出模块,用于将当前语音特征的下一语音特征作为当前语音特征,并触发编码模块,直至语音特征序列都被遍历,将所有的识别的集合作为目标识别结果。
6.根据权利要求5所述的一种语音识别装置,其特征在于,所述处理模块,用于:
按照预设的窗口长度和移动步长,对待识别语音信号进行分帧处理;
利用汉明窗加窗方法对分帧后的语音信号进行加窗处理;
对加窗后的语音信号进行傅里叶变换处理,并获取变换后的语音信号的能量谱;
在梅尔刻度上使用三角滤波器获取所述能量谱的频带;
对所述频带信号进行离散余弦变换,获取所述待识别语音信号的梅尔频率特征序列。
7.根据权利要求5所述的一种语音识别装置,其特征在于,所述处理模块,用于:
利用公式,获取所述能量谱的频带,其中,
Hm(k)为第k时刻的能谱频带;k为频率域点的下标;m为滤波器下标;f(m-1)为频率域第m-1个点的值;f(m)为频率域第m个点的值;且
8.根据权利要求5所述的一种语音识别装置,其特征在于,所述编码模块,用于:
利用公式,获取当前语音特征的注意力值,其中,
eij为当前语音特征的注意力值;为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值;w为预设权重;bias为预设的偏置;i为;j为;
利用公式,获取当前时刻的注意力值,其中,
aij为当前时刻的注意力值;eik为所有时刻注意力的值;w为预设权重;bias为预设的偏置;
利用公式,获取当前时刻的递归神经网络隐状态值,其中,
hi为当前时刻的递归神经网络隐状态值;为当前语音特征对应的当前时刻的隐状态值;w为预设权重;bias为预设的偏置;
利用公式,yi=hi*wh+xi*wx+bias,获取当前时刻的递归神经网络的输出,其中,
yi为当前时刻的递归神经网络的输出;hi为注意力网络第i时刻的输出;wh为递归神经网络中隐单元间相乘的权重;xi为递归神经网络第i时刻的输入,即卷积神经网络第i时刻的输出;wx为递归神经网络中输入和隐单元间相乘的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910476451.5A CN110211568A (zh) | 2019-06-03 | 2019-06-03 | 一种语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910476451.5A CN110211568A (zh) | 2019-06-03 | 2019-06-03 | 一种语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110211568A true CN110211568A (zh) | 2019-09-06 |
Family
ID=67790450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910476451.5A Pending CN110211568A (zh) | 2019-06-03 | 2019-06-03 | 一种语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110211568A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写*** |
CN110782882A (zh) * | 2019-11-04 | 2020-02-11 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112364779A (zh) * | 2020-11-12 | 2021-02-12 | 中国电子科技集团公司第五十四研究所 | 信号处理与深-浅网络多模型融合的水声目标识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107464559A (zh) * | 2017-07-11 | 2017-12-12 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及*** |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
US10281885B1 (en) * | 2016-05-20 | 2019-05-07 | Google Llc | Recurrent neural networks for online sequence generation |
-
2019
- 2019-06-03 CN CN201910476451.5A patent/CN110211568A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10281885B1 (en) * | 2016-05-20 | 2019-05-07 | Google Llc | Recurrent neural networks for online sequence generation |
CN107464559A (zh) * | 2017-07-11 | 2017-12-12 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及*** |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
Non-Patent Citations (3)
Title |
---|
宋知用: "《MATLAB语音信号分析与合成(第二版)》", 31 January 2018 * |
欧珠: "《藏语模式识别技术及工程实践》", 31 March 2015 * |
龙星延: "基于注意力机制的端到端语音识别技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写*** |
CN110473529B (zh) * | 2019-09-09 | 2021-11-05 | 北京中科智极科技有限公司 | 一种基于自注意力机制的流式语音转写*** |
CN110782882A (zh) * | 2019-11-04 | 2020-02-11 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN110782882B (zh) * | 2019-11-04 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112364779A (zh) * | 2020-11-12 | 2021-02-12 | 中国电子科技集团公司第五十四研究所 | 信号处理与深-浅网络多模型融合的水声目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Wave-tacotron: Spectrogram-free end-to-end text-to-speech synthesis | |
Ping et al. | Clarinet: Parallel wave generation in end-to-end text-to-speech | |
Tüske et al. | On the limit of english conversational speech recognition | |
Gowdy et al. | Mel-scaled discrete wavelet coefficients for speech recognition | |
CN102169692B (zh) | 信号处理方法和装置 | |
CN104392718B (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
CN110211568A (zh) | 一种语音识别方法及装置 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
EP2120234A1 (en) | Encoding device and encoding method | |
US20230282202A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
Sarikaya et al. | Subband based classification of speech under stress | |
CN113539232B (zh) | 一种基于慕课语音数据集的语音合成方法 | |
Zerari et al. | Bi-directional recurrent end-to-end neural network classifier for spoken Arab digit recognition | |
CN102436815B (zh) | 一种应用于英语口语网络机考***的语音识别装置 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
Kobayashi et al. | Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
Wu et al. | It\^ oTTS and It\^ oWave: Linear Stochastic Differential Equation Is All You Need For Audio Generation | |
Valente et al. | Hierarchical and parallel processing of modulation spectrum for ASR applications | |
Oura et al. | Deep neural network based real-time speech vocoder with periodic and aperiodic inputs | |
CN103886859B (zh) | 基于一对多码书映射的语音转换方法 | |
Saksamudre et al. | Comparative study of isolated word recognition system for Hindi language | |
Gaafar et al. | An improved method for speech/speaker recognition | |
Khatatneh | A novel Arabic Speech Recognition method using neural networks and Gaussian Filtering. | |
Sunil et al. | Exploration of class specific ABWE for robust children's ASR under mismatched condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |