CN107633842B - 语音识别方法、装置、计算机设备及存储介质 - Google Patents
语音识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN107633842B CN107633842B CN201710445076.9A CN201710445076A CN107633842B CN 107633842 B CN107633842 B CN 107633842B CN 201710445076 A CN201710445076 A CN 201710445076A CN 107633842 B CN107633842 B CN 107633842B
- Authority
- CN
- China
- Prior art keywords
- voice data
- connection unit
- training
- probability matrix
- filter bank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 181
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims description 130
- 210000002569 neuron Anatomy 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000003252 repetitive effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 abstract description 8
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种语音识别方法,该方法包括:获取待识别的语音数据;提取语音数据中的Filter Bank特征和MFCC特征;将MFCC特征作为GMM‑HMM模型的输入数据,获取第一似然概率矩阵;将Filter Bank特征作为具有连接单元LSTM模型的输入特征,获取后验概率矩阵;将后验概率矩阵和第一似然概率矩阵作为HMM模型的输入数据,获取第二似然概率矩阵,根据第二似然概率矩阵在音素解码网络中获取对应的目标词序列。该方法通过将混合高斯模型和深度学习模型结合,且采用创新的具有连接单元LSTM模型作为声学模型,提高了语音识别的准确度。此外,还提出了一种语音识别装置、计算机设备及存储介质。
Description
技术领域
本发明涉及计算机处理领域,特别是涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
语音识别,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解,把语音信号变成文字,是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提,并能有效推动声控交互相关领域的发展并极大方便人们的生活,如智能家居、语音输入。语音识别的准确度直接决定了技术应用的有效性。
传统的语音识别技术是基于GMM-HMM(混合高斯模型和隐马尔科夫模型)进行声学模型的建立,近年来,随着深度学习技术的发展,基于DNN-HMM(深度学习模型和隐马尔科夫模型)进行声学模型的建立相对于GMM-HMM在识别准确度上虽然有了很大的提升,但是还有待于进一步提高语音识别的准确度。
发明内容
基于此,有必要针对上述语音识别准确度不够的问题,本发明提出了一种能更加准确的语音识别方法、装置、计算机设备及存储介质。
一种语音识别方法,所述方法包括:
获取待识别的语音数据;
提取所述语音数据中的Filter Bank特征和MFCC特征;
将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;
将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动;
将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;
根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
一种语音识别装置,所述装置包括:
获取模块,用于获取待识别的语音数据;
提取模块,用于提取所述语音数据中的Filter Bank特征和MFCC特征;
第一输出模块,用于将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;
后验概率矩阵输出模块,用于将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动;
第二输出模块,用于将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;
解码模块,用于根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别的语音数据;
提取所述语音数据中的Filter Bank特征和MFCC特征;
将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;
将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动;
将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;
根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现以下步骤:
获取待识别的语音数据;
提取所述语音数据中的Filter Bank特征和MFCC特征;
将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;
将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动;
将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;
根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
上述语音识别方法、装置、计算机设备及存储介质,通过将混合高斯模型GMM和深度学习模型中的长短时递归神经网络LSTM结合进行语音识别,先采用GMM-HMM模型根据提取的MFCC特征计算得到第一似然概率矩阵,第一似然概率矩阵表示对语音数据在音素状态上对齐结果,然后再使用LSTM在之前初步对齐结果的基础上进行进一步的对齐,有利于提高语音识别的准确度,且该LSTM采用的是创新性的具有连接单元的LSTM模型,该模型通过在传统的LSTM模型的层与层之间增加了连接单元,该连接单元可以控制层与层之间信息流动,通过该连接单元可以实现对信息的筛选,不但可以提高识别的速度,而且可以提高识别的准确度。
附图说明
图1为一个实施例中计算机设备的内部结构框图;
图2为一个实施例中语音识别的架构图;
图3为一个实施例中语音识别方法的流程图;
图4为一个实施例中通过具有连接单元LSTM模型获取后验概率矩阵的方法流程图;
图5为一个实施例中提取语音数据中的Filter Bank特征和MFCC特征的方法流程图;
图6为另一个实施例中通过具有连接单元LSTM模型获取后验概率矩阵的方法流程图;
图7为一个实施例中GMM-HMM模型和具有连接单元LSTM模型建立的方法流程图;
图8为另一个实施例中语音识别方法的流程图;
图9为一个实施例中语音识别装置的结构框图;
图10为一个实施例中后验概率矩阵输出模块的结构框图;
图11为另一个实施例中语音识别装置的结构框图;
图12为又一个实施例中语音识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是终端也可以是服务器。参照图1,该计算机设备包括通过***总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏和输入装置。其中,该计算机设备的非易失性存储介质可存储操作***和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种语音识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种语音识别方法。计算机设备的网络接口用于进行网络通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。触摸层和显示屏构成触控屏。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
首先,介绍一下语音识别的框架,如图2所示,语音识别主要包括两个部分:声学模型和语言模型,然后结合字典就构成了语音识别的框架。语音识别的过程就是根据字典、声学模型和语言模型,将输入的语音特征序列转换为字符序列的过程。其中,声学模型的作用是得到语音特征与音素的映射,语言模型的作用是得到词与词、词与句子的映射,字典的作用是得到字词与音素之间的映射。具体语音识别的过程可以分为三步,第一步,把语音帧识别成音素状态,即进行语音帧和音素状态上的对齐。第二步是将状态组合成音素。第三步是把音素组合成单词。其中,第一步是声学模型的作用,是重点也是难点,语音帧与音素状态的对齐结果越准确,就意味着语音识别的效果就会越好。其中,音素状态是比音素更细致的语音单位,通常一个音素由3个音素状态构成。
如图3所示,在一个实施例中,提出了一种语音识别方法,该方法可应用于终端或服务器中,具体包括以下步骤:
步骤302,获取待识别的语音数据。
在本实施例中,这里待识别的语音数据通常是通过交互应用获取到用户输入的音频数据,包括数字的音频和文字的音频。
步骤304,提取语音数据中的Filter Bank特征和MFCC特征。
在本实施例中,Filter Bank(滤波器组)特征和MFCC(Mel frequency cepstrumcoefficient,梅尔倒谱系数)特征都是语音识别中用来表示语音特征的参数。其中,FilterBank用于深度学***滑,然后将经过预加重处理的语音数据进行分帧加窗,从而将非平稳的语音信号转变为短时平稳的信号,接着通过端点检测,区分语音与噪声,并提取出有效的语音部分。为了提取语音数据中的Filter Bank特征和MFCC特征,首先,将经过预处理的语音数据进行快速傅里叶变换,从而将时域的语音信号转换为频域的能量谱进行分析,然后将能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征,之后计算每个滤波器组输出的对数能量,该滤波器组输出的特征就是Filter Bank特征。进一步的,将计算得到的对数能量经离散余弦变换得到MFCC系数,即MFCC特征。
步骤306,将MFCC特征作为训练后的GMM-HMM模型的输入数据,获取训练后的GMM-HMM模型输出的第一似然概率矩阵。
在本实施例中,声学模型和语言模型共同实现对语音的识别。其中,声学模型的作用是用于识别语音帧与音素状态的对齐关系。GMM-HMM模型属于声学模型的一部分,用于将语音帧与音素状态进行初步对齐。具体地,将提取的待识别的语音数据的MFCC特征作为训练后的GMM-HMM模型的输入数据,然后获取该模型输出的似然概率矩阵,为了便于和后续进行区分,这里称为“第一似然概率矩阵”。似然概率矩阵表示的是语音帧与音素状态上的对齐关系,即根据计算得到的似然概率矩阵就可以得到语音帧与音素状态上的对齐关系,只不过,通过GMM-HMM训练得到的对齐关系并不十分准确,所以这里通过第一似然概率矩阵相当于对语音帧和音素状态进行了初步对齐。GMM模型具体的计算公式如下:
其中,x表示提取的语音特征(MFCC)向量,μ,D分别为均值和方差矩阵,K表示MFCC系数的阶数。
步骤308,将Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取具有连接单元的LSTM模型输出的后验概率矩阵,连接单元用于控制LSTM模型中层与层之间的信息流动。
在本实施例中,LSTM模型属于深度学习模型,也属于声学模型的一部分。具有连接单元的LSTM是在传统的LSTM模型的基础上提出的创新性的模型,该模型通过在传统的LSTM模型的层与层之间增加连接单元,通过该连接单元可以控制层与层之间的信息流动,所以通过该连接单元可以实现对有效信息的筛选,而且通过该连接单元可以使得LSTM模型训练的层次更深,层次越多,获得的特征表达越好,识别效果也就越好。所以具有连接单元的LSTM模型不但可以提高识别语音的速度,而且可以提高识别语音的准确度。具体地,连接单元是通过sigmoid函数来实现的,原理是将前一层的输出通过一个由sigmoid函数构成的门限来控制流入到后一层的信息,即输出作为后一层LSTM网络的输入。这个sigmoid函数的值是由前一层神经元节点的状态、前一层神经元节点的输出、后一层神经元节点的输入共同决定的。其中,神经元节点是负责神经网络模型的计算表达,每个节点包含一些计算关系,可以理解为一种计算公式,可以相同,也可以不同。每一层LSTM中的神经元结点的数量是根据输入的特征的帧数以及特征向量来决定的,比如,如果输入是拼接了前后5帧,那么总共有11帧输入向量,而每一帧对应的特征向量是由提取的语音特征决定的,比如,如果提取的Filter Bank特征为83维的特征向量,那么相应的训练得到的LSTM模型中每一层的神经元节点为11x83=913个。
步骤310,将后验概率矩阵和第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵。
在本实施例中,HMM(隐马尔科夫)模型是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程,作用是从可观察的参数中确定该过程中的隐含参数。HMM模型中主要涉及5个参数,分别是2个状态集合和3个概率集合。其中,2个状态集合分别为隐藏状态和观察状态,三个概率集合为初始矩阵,转移矩阵和混淆矩阵。其中,转移矩阵是训练得到的,也就是说,一旦HMM模型训练完成,该转移矩阵就确定了。在该实施例中,主要是采用可观察的语音特征(Filter Bank特征)作为观察状态,来计算确定音素状态与语音帧的对应关系(即隐含状态)。如果想要确定音素状态与语音帧的对应关系,还需要确定两个参数,那就是初始矩阵和混淆矩阵。其中,通过具有连接单元的LSTM模型计算得到的后验概率矩阵就是HMM模型中需要确定的混淆矩阵,第一似然概率矩阵就是需要确定的初始矩阵。所以将后验概率矩阵和第一似然概率矩阵作为训练后的HMM模型的输入数据,就可以获取输出的第二似然概率矩阵。该第二似然概率矩阵表示的是音素状态与语音帧的最终的对齐关系。后续根据该确定的第二似然概率矩阵就可以在音素解码网络中获取与待识别的语音数据对应的目标词序列。
步骤312,根据第二似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。
在本实施例中,在语音识别过程中,包括两个部分,一个是声学模型,一个是语言模型。在语音识别前,首先需要根据训练后的声学模型和语言模型以及字典建一个音素级别的解码网络,根据搜索算法在该网络中寻找最佳的一条路径,其中,搜索算法可以采用维特比算法(Viterbi算法)。这个路径就是能够以最大概率输出与待识别语音数据对应的词串,这样就确定了这个语音数据中所包含的文字了。其中,音素解码级别的解码网络(即音素解码网络)是通过有限状态机(Finite State Transducer,FST)相关算法来完成的,如确定化算法determination、最小化算法minimization,通过将句子拆分成词、再将词拆分为音素(如汉语的声韵母、英文的音标),然后将音素和发音词典、语法等通过上述方法进行对齐计算,得到输出的音素解码网络。音素解码网络中包含了所有可能识别的路径表达,解码的过程就是根据输入的语音数据,对这个庞大网络进行路径的删减,得到一个或多个候选路径,存储在一种词网络的数据结构中,然后最后的识别就是对候选路径进行打分,分数最高的路径为识别结果。
在本实施例中,通过将混合高斯模型GMM和深度学习模型中的长短时递归神经网络LSTM结合进行语音识别,先采用GMM-HMM模型根据提取的MFCC特征计算得到第一似然概率矩阵,第一似然概率矩阵表示对语音数据在音素状态上对齐结果,然后再使用LSTM在之前初步对齐结果的基础上进行进一步的对齐,且该LSTM采用的是创新性的具有连接单元的LSTM模型,该模型通过在传统的LSTM模型的层与层之间增加了连接单元,该连接单元可以控制层与层之间信息流动,通过该连接单元可以实现对有效信息的筛选,不但可以提高识别的速度,而且可以提高识别的准确度。
如图4所示,在一个实施例中,所述连接单元为sigmoid函数;所述将所述FilterBank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,包括:
步骤308a,将Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征。
步骤308b,根据LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值;
步骤308c,根据层与层之间的连接单元所对应的sigmoid函数值,输出与FilterBank特征对应的后验概率矩阵。
在本实施例中,连接单元是采用sigmoid函数来实现的,在LSTM模型中通过sigmoid函数来控制层与层信息的流动,比如,控制是否流动以及流动多少。其中,sigmoid函数对应的函数值的确定是由前一层神经元节点的状态、前一层神经元节点的输出和后一层神经元节点的输入来决定的。具体地,sigmoid函数表示为:σ(x)=1/(1+e-x),其中,X表示连接单元在该层的输入,t表示t时刻,d表示该连接单元的输出,l表示该连接单元的前一层,l+1表示该连接单元的下一层,b表示偏置项,W表示权重矩阵,其中,Wx是与输入相关的权重矩阵,Wc是与输出相关的权重矩阵,Wl是与层次相关的权重矩阵,c表示LSTM输出控制们的输出,LSTM有三个门限控制,输入控制门、遗忘控制门、输出控制门,输出控制门的作用是控制该神经元节点的输出流动量。是一种运算符,表示两个矩阵对应元素相乘。其中,偏置项b和权重矩阵W的值在模型完成训练后已经确定了,所以根据输入就可以确定层与层之间的信息流动了多少,在确定了层与层之间的信息流动,就可以获取输出的与Filter Bank特征对应的后验概率矩阵。
如图5所示,在一个实施例中,提取语音数据中的Filter Bank特征和MFCC特征的步骤304包括:
步骤304A,将待识别的语音数据进行傅里叶变换转换为频域的能量谱。
在本实施例中,由于语音信号在时域上的变换通常都很难看出信号的特性,所以通常需要将它转换为频域上的能量分布来观察,不同的能量分布,代表不同语音的特性。所以需要将待识别的语音数据经过快速傅里叶变换以得到频谱上的能量分布。其中,是通过将每一帧语音信号进行快速傅里叶变换得到每一帧的频谱,对语音信号的频谱取模平方得到语音信号的功率谱(即能量谱)。
步骤304B,将频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征。
在本实施例中,为了得到待识别语音数据的Filter Bank特征,需要将得到的频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算每个三角滤波器组输出的对数能量,即得到待识别语音数据的Filter Bank特征。其中,Filter Bank特征也是通过将每一帧语音信号对应的能量谱作为梅尔尺度的三角滤波器组的输入特征,然后得到每一帧语音信号对应的Filter Bank特征。
步骤304C,将Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。
在本实施例中,为了得到待识别语音数据的MFCC特征,还需要将经过滤波器组输出的对数能量进行离散余弦变换得到相应的MFCC特征。通过将每一帧语音信号对应的Filter Bank特征经过离散余弦变换得到每一帧语音信号对应的MFCC特征。其中,FilterBank特征与MFCC特征的区别在于,Filter Bank特征在不同特征维度之间存在数据相关性,而MFCC特征则是采用离散余弦变换去除Filter Bank特征的数据相关性所得到的特征。
如图6所示,在一个实施例中,将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动的步骤308包括:
步骤308A,获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序。
在本实施例中,在提取待识别语音数据中的Filter Bank特征时是通过先将语音数据进行分帧处理,然后提取每一帧语音数据对应的Filter Bank特征,并按照时间的先后顺序排序,即按照待识别语音数据中每一帧出现的先后顺序将对应的每一帧的FilterBank特征进行排序。
步骤308B,将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,通过连接单元控制层与层之间的信息流动,获取输出的每一帧语音数据对应的音素状态上的后验概率。
在本实施例中,深度学习模型的输入采用的是多帧特征,相对于传统的只有单帧输入的混合高斯模型更有优势,因为通过拼接前后语音帧有利于获取到上下文相关信息对当前的影响。所以一般是将每一帧语音数据和与每一帧语音数据的前后预设帧数的FilterBank特征作为训练后的具有连接单元的LSTM模型的输入特征。比如,将当前帧和该当前帧的前后5帧进行拼接,共11帧数据作为训练后的具有连接单元的LSTM模型的输入特征,这11帧语音特征序列通过具有连接单元的LSTM中的各个结点,输出该帧语音数据对应的音素状态上的后验概率。
步骤308C,根据每一帧语音数据对应的后验概率确定待识别语音数据对应的后验概率矩阵。
在本实施例中,当获取到每一帧语音数据对应的后验概率后就确定待识别语音数据对应的后验概率矩阵。后验概率矩阵是有一个个后验概率组成的。由于通过具有连接单元LSTM模型既可以包含有时间维度的信息,又可以包含有层次纬度的信息,所以相对于之前只有时间维度信息的传统模型,该模型能更好的得到待识别语音数据对应的后验概率矩阵。
如图7所示,在一个实施例中,在获取待识别的语音数据的步骤之前还包括:步骤301,GMM-HMM模型的建立和具有连接单元LSTM模型的建立。具体包括:
步骤301A,采用训练语料库对高斯混合模型GMM和HMM进行训练,通过不断的迭代训练确定GMM模型对应的方差和均值,根据方差和均值生成训练后的GMM-HMM模型。
在本实施例中,GMM-HMM声学模型的建立依次采用了单音素训练以及三音素进行训练,其中,三音素训练考虑了当前音素的前后相关音素影响,能够得到更加准确的对齐效果,也就能产生更好的识别结果。根据特征和作用的不用,三音素训练一般采用基于delta+delta-delta特征的三音素训练,线性判别分析+最大似然线性特征转换的三音素训练。具体地,首先对输入的训练预料库中的语音特征进行归一化,默认对方差进行归一化。语音特征归一化是为了消除电话信道等卷积噪声在特征提取计算造成的偏差。然后利用少量特征数据快速得到一个初始化的GMM-HMM模型,然后通过不断的迭代训练确定混合高斯模型GMM对应的方差和均值,一旦方差和均值确定,那么相应的GMM-HMM的模型就相应的确定了。
步骤301B,根据训练语料库中提取的MFCC特征,采用训练后的GMM-HMM模型获取到训练语料库对应的似然概率矩阵。
在本实施例中,采用训练预料库中的语音数据进行训练,提取训练语料库中语音的MFCC特征,然后作为上述训练后的GMM-HMM模型的输入特征,获取到输出的训练语料库中语音对应的似然概率矩阵。似然概率矩阵代表的是语音帧与音素状态上的对齐关系,通过训练后的GMM-HMM输出似然概率矩阵目的是将其作为后续训练深度学习模型的初始对齐关系,便于后续深度学习模型能够得到更好的深度学习的结果。
步骤301C,根据训练预料库中提取的Filter Bank特征和似然概率矩阵对具有连接单元的LSTM模型进行训练,确定与具有连接单元LSTM模型对应的权重矩阵和偏置矩阵,根据权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。
在本实施例中,将上述通过GMM-HMM计算得到的对齐结果(即似然概率矩阵)和原始语音特征一起作为具有连接单元LSTM模型的输入特征进行训练,其中,这里的原始语音特征采用的Filter Bank特征,相对于MFCC特征,Filter Bank特征具有数据相关性,所以具有更好的语音特征表达。通过对具有连接单元LSTM模型进行训练,确定每一层LSTM对应的权重矩阵和偏置矩阵。具体地,具有连接单元LSTM也属于深度神经网络模型中的一种,神经网络层一般分为三类:输入层、隐藏层和输出层,其中,隐含层有多层。训练具有连接单元LSTM模型的目的就是为了确定每一层中所有的权重矩阵和偏置矩阵以及相应的层数,训练的算法可以采用前向传播算法、维特比算法等现有的算法,这里不对具体的训练算法进行限定。
如图8所示,在一个实施例中,提出了一种语音识别方法,该方法包括以下步骤:
步骤802,获取待识别的语音数据。
步骤804,提取语音数据中的Filter Bank特征和MFCC特征。
步骤806,将MFCC特征作为训练后的GMM-HMM模型的输入数据,获取训练后的GMM-HMM模型输出的第一似然概率矩阵。
步骤808,将Filter Bank特征和第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据,获取训练后的DNN-HMM模型输出的第二似然概率矩阵。
步骤810,将Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取具有连接单元的LSTM模型输出的后验概率矩阵,连接单元用于控制LSTM模型中层与层之间的信息流动。
步骤812,将后验概率矩阵和第二似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第三似然概率矩阵。
步骤814,根据第三似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。
在本实施例中,为了能得到更准确的识别效果,在通过训练后的GMM-HMM模型得到初步对齐结果(第一似然概率矩阵),再经过训练后的DNN-HMM进行进一步的对齐,能够获取更好的对齐效果。由于深度神经网络模型比传统的混合高斯模型能得到更好的语音特征表达,因此使用深度神经网络模型做进一步强制对齐能进一步提高准确率。然后将该进一步对齐的结果(第二似然概率矩阵)代入具有创新型的具有连接单元LSTM-HMM模型,可以获取到最后的对齐结果(第三似然概率矩阵)。需要说明的是,这里的对齐结果是指语音帧与音素状态的对齐关系。上述不管是混合高斯模型还是深度学习模型等都是声学模型的一部分,而声学模型的作用就是获取语音帧与音素状态的对齐关系,便于后续结合语言模型在音素解码网络中获取与待识别语音数据对应的目标词序列。
如图9所示,在一个实施例中,提出了一种语音识别装置,该装置包括:
获取模块902,用于获取待识别的语音数据。
提取模块904,用于提取语音数据中的Filter Bank特征和MFCC特征。
第一输出模块906,用于将MFCC特征作为训练后的GMM-HMM模型的输入数据,获取训练后的GMM-HMM模型输出的第一似然概率矩阵。
后验概率矩阵输出模块908,将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动。
第二输出模块910,用于将后验概率矩阵和第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵。
解码模块912,用于根据第二似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。
在一个实施例中,提取模块还用于将待识别的语音数据进行傅里叶变换转换为频域的能量谱,将频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征,将Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。
在一个实施例中,连接单元为sigmoid函数;所述后验概率矩阵输出模块908还用于将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征;根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值;根据所述层与层之间的连接单元所对应的sigmoid函数值,输出与所述Filter Bank特征对应的后验概率矩阵。
如图10所示,在一个实施例中,后验概率矩阵输出模块908包括:
排序模块908A,用于获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序。
后验概率输出模块908B,用于将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征,通过所述连接单元控制层与层之间的信息流动,获取输出的每一帧语音数据对应的音素状态上的后验概率。
确定模块908C,用于根据每一帧语音数据对应的后验概率确定待识别语音数据对应的后验概率矩阵。
如图11所示,在一个实施例中,上述语音识别装置还包括:
GMM-HMM模型训练模块914,用于采用训练语料库对高斯混合模型GMM和HMM进行训练,通过不断的迭代训练确定GMM模型对应的方差和均值,根据方差和均值生成训练后的GMM-HMM模型。
似然概率矩阵获取模块916,用于根据训练语料库中提取的MFCC特征,采用训练后的GMM-HMM模型获取到训练语料库对应的似然概率矩阵。
LSTM模型训练模块918,用于根据训练预料库中提取的Filter Bank特征和似然概率矩阵对具有连接单元LSTM模型进行训练,确定与具有连接单元LSTM模型对应的权重矩阵和偏置矩阵,根据权重矩阵和偏置矩阵生成训练后的具有连接单元LSTM模型。
如图12所示,在一个实施例中,提出了一种语音识别装置,该装置包括:
获取模块1202,用于获取待识别的语音数据。
提取模块1204,用于提取语音数据中的Filter Bank特征和MFCC特征。
第一输出模块1206,用于将MFCC特征作为训练后的GMM-HMM模型的输入数据,获取训练后的GMM-HMM模型输出的第一似然概率矩阵。
第二输出模块1208,将Filter Bank特征和第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据,获取训练后DNN-HMM输出的第二似然概率矩阵。
后验概率矩阵输出模块1210,用于将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动。
第三输出模块1212,用于将后验概率矩阵和第二似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第三似然概率矩阵。
解码模块1214,用于根据第三似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。
在一个实施例中,提出一种计算机设备,该计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待识别的语音数据,提取所述语音数据中的Filter Bank特征和MFCC特征,将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵,将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵,根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
在一个实施例中,所述连接单元为sigmoid函数;所述处理器所执行的所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,包括:将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征;根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值,根据所述层与层之间的连接单元所对应的sigmoid函数值,输出与所述Filter Bank特征对应的后验概率矩阵。
在一个实施例中,所述处理器所执行的所述提取所述语音数据中的Filter Bank特征和MFCC特征,包括:将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱;将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征;将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。
在一个实施例中,所述处理器所执行的将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动的步骤包括:获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序;将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征,通过所述连接单元控制层与层之间的信息流动,获取输出的每一帧语音数据对应的音素状态上的后验概率;根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵。
在一个实施例中,在所述获取待识别的语音数据的步骤之前,所述处理器执行所述计算机程序是还用于实现以下步骤:采用训练语料库对高斯混合模型GMM和HMM进行训练,通过不断的迭代训练确定所述GMM模型对应的方差和均值;根据所述方差和均值生成训练后的GMM-HMM模型;根据所述训练语料库中提取的MFCC特征,采用训练后的GMM-HMM模型获取到所述训练语料库对应的似然概率矩阵;根据所述训练预料库中提取的Filter Bank特征和所述似然概率矩阵对所述具有连接单元的LSTM模型进行训练,确定与所述具有连接单元的LSTM模型对应的权重矩阵和偏置矩阵;根据所述权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。
在一个实施例中,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现以下步骤:获取待识别的语音数据;提取所述语音数据中的FilterBank特征和MFCC特征;将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动;将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
在一个实施例中,所述连接单元为sigmoid函数;所述处理器所执行的所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,包括:将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征;根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值;根据所述层与层之间的连接单元所对应的sigmoid函数值,输出与所述Filter Bank特征对应的后验概率矩阵。
在一个实施例中,所述处理器所执行的所述提取所述语音数据中的Filter Bank特征和MFCC特征,包括:将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱;将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征;将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。
在一个实施例中,所述处理器所执行的将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动的步骤包括:获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序;将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征,通过所述连接单元控制层与层之间的信息流动,获取输出的每一帧语音数据对应的音素状态上的后验概率;根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵。
在一个实施例中,在所述获取待识别的语音数据的步骤之前,所述处理器执行所述计算机程序是还用于实现以下步骤:采用训练语料库对高斯混合模型GMM和HMM进行训练,通过不断的迭代训练确定所述GMM模型对应的方差和均值;根据所述方差和均值生成训练后的GMM-HMM模型;根据所述训练语料库中提取的MFCC特征,采用训练后的GMM-HMM模型获取到所述训练语料库对应的似然概率矩阵;根据所述训练预料库中提取的Filter Bank特征和所述似然概率矩阵对所述具有连接单元的LSTM模型进行训练,确定与所述具有连接单元的LSTM模型对应的权重矩阵和偏置矩阵;根据所述权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种语音识别方法,所述方法包括:
获取待识别的语音数据;
提取所述语音数据中的Filter Bank特征和MFCC特征;
将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;
将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,包括:获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序;将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征,通过所述连接单元控制层与层之间的信息流动,获取输出的每一帧语音数据对应的音素状态上的后验概率;根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵;
将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;
根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
2.根据权利要求1所述的方法,其特征在于,所述连接单元为sigmoid函数;所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,包括:
将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征;
根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值;
根据所述层与层之间的连接单元所对应的sigmoid函数值,输出与所述FilterBank特征对应的后验概率矩阵。
3.根据权利要求1所述的方法,其特征在于,所述提取所述语音数据中的Filter Bank特征和MFCC特征的步骤包括:
将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱;
将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征;
将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。
4.根据权利要求1所述的方法,其特征在于,在所述获取待识别的语音数据的步骤之前还包括:
采用训练语料库对高斯混合模型GMM和HMM进行训练,通过不断的迭代训练确定所述GMM模型对应的方差和均值;
根据所述方差和均值生成训练后的GMM-HMM模型;
根据所述训练语料库中提取的MFCC特征,采用训练后的GMM-HMM模型获取到所述训练语料库对应的似然概率矩阵;
根据所述训练预料库中提取的Filter Bank特征和所述似然概率矩阵对所述具有连接单元的LSTM模型进行训练,确定与所述具有连接单元的LSTM模型对应的权重矩阵和偏置矩阵;
根据所述权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。
5.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的语音数据;
提取模块,用于提取所述语音数据中的Filter Bank特征和MFCC特征;
第一输出模块,用于将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵;
后验概率矩阵输出模块,用于将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征,获取所述具有连接单元的LSTM模型输出的后验概率矩阵,所述连接单元用于控制所述LSTM模型中层与层之间的信息流动,包括:获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序;将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征,通过所述连接单元控制层与层之间的信息流动,获取输出的每一帧语音数据对应的音素状态上的后验概率;根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵;
第二输出模块,用于将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据,获取输出的第二似然概率矩阵;
解码模块,用于根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。
6.根据权利要求5所述的装置,其特征在于,所述连接单元为sigmoid函数;所述后验概率矩阵输出模块还用于将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征;根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值;根据所述层与层之间的连接单元所对应的sigmoid函数值,输出与所述Filter Bank特征对应的后验概率矩阵。
7.根据权利要求5所述的装置,其特征在于,所述提取模块包括:
转换模块,用于将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱;
计算模块,用于将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征;
变换模块,用于将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。
8.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-4任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-4任意一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710445076.9A CN107633842B (zh) | 2017-06-12 | 2017-06-12 | 语音识别方法、装置、计算机设备及存储介质 |
US16/348,807 US11062699B2 (en) | 2017-06-12 | 2017-08-31 | Speech recognition with trained GMM-HMM and LSTM models |
PCT/CN2017/100043 WO2018227780A1 (zh) | 2017-06-12 | 2017-08-31 | 语音识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710445076.9A CN107633842B (zh) | 2017-06-12 | 2017-06-12 | 语音识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107633842A CN107633842A (zh) | 2018-01-26 |
CN107633842B true CN107633842B (zh) | 2018-08-31 |
Family
ID=61099105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710445076.9A Active CN107633842B (zh) | 2017-06-12 | 2017-06-12 | 语音识别方法、装置、计算机设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11062699B2 (zh) |
CN (1) | CN107633842B (zh) |
WO (1) | WO2018227780A1 (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510976B (zh) * | 2017-02-24 | 2021-03-19 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
US11157801B2 (en) | 2017-02-28 | 2021-10-26 | Microsoft Technology Licensing, Llc | Neural network processing with the neural network model pinned to on-chip memories of hardware nodes |
CN110310647B (zh) * | 2017-09-29 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
US10839809B1 (en) * | 2017-12-12 | 2020-11-17 | Amazon Technologies, Inc. | Online training with delayed feedback |
CN108364634A (zh) * | 2018-03-05 | 2018-08-03 | 苏州声通信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN108564940B (zh) * | 2018-03-20 | 2020-04-28 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN109087630B (zh) * | 2018-08-29 | 2020-09-15 | 深圳追一科技有限公司 | 语音识别的方法及相关装置 |
CN109887484B (zh) * | 2019-02-22 | 2023-08-04 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
CN110111774A (zh) * | 2019-05-13 | 2019-08-09 | 广西电网有限责任公司南宁供电局 | 机器人语音识别方法和装置 |
WO2020232180A1 (en) * | 2019-05-14 | 2020-11-19 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
CN110277088B (zh) * | 2019-05-29 | 2024-04-09 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
KR20210010133A (ko) * | 2019-07-19 | 2021-01-27 | 삼성전자주식회사 | 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들 |
CN110751958A (zh) * | 2019-09-25 | 2020-02-04 | 电子科技大学 | 一种基于rced网络的降噪方法 |
CN110738991A (zh) * | 2019-10-11 | 2020-01-31 | 东南大学 | 基于柔性可穿戴传感器的语音识别设备 |
CN111091809B (zh) * | 2019-10-31 | 2023-05-23 | 国家计算机网络与信息安全管理中心 | 一种深度特征融合的地域性口音识别方法及装置 |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN113409793B (zh) * | 2020-02-28 | 2024-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及智能家居***、会议设备、计算设备 |
CN111354344B (zh) * | 2020-03-09 | 2023-08-22 | 第四范式(北京)技术有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111524503B (zh) * | 2020-04-15 | 2023-01-17 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
CN111696522B (zh) * | 2020-05-12 | 2024-02-23 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN112037772B (zh) * | 2020-09-04 | 2024-04-02 | 平安科技(深圳)有限公司 | 基于多模态的响应义务检测方法、***及装置 |
CN112216270B (zh) * | 2020-10-09 | 2024-02-06 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及***、电子设备及存储介质 |
CN112509557B (zh) * | 2020-11-24 | 2023-03-31 | 杭州一知智能科技有限公司 | 一种基于非确定化词图生成的语音识别方法及其*** |
CN113191178B (zh) * | 2020-12-04 | 2022-10-21 | 中国船舶重工集团公司第七一五研究所 | 一种基于听觉感知特征深度学习的水声目标识别方法 |
CN112632977B (zh) * | 2020-12-23 | 2023-06-06 | 昆明学院 | 一种彝语语音数据自动标注方法 |
CN113643692B (zh) * | 2021-03-25 | 2024-03-26 | 河南省机械设计研究院有限公司 | 基于机器学习的plc语音识别方法 |
CN113314104B (zh) * | 2021-05-31 | 2023-06-20 | 北京市商汤科技开发有限公司 | 交互对象驱动和音素处理方法、装置、设备以及存储介质 |
CN113345431B (zh) * | 2021-05-31 | 2024-06-07 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
CN113393832B (zh) * | 2021-06-03 | 2023-10-10 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及*** |
CN113421545B (zh) * | 2021-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 多模态的语音合成方法、装置、设备及存储介质 |
CN113488052B (zh) * | 2021-07-22 | 2022-09-02 | 深圳鑫思威科技有限公司 | 无线语音传输和ai语音识别互操控方法 |
CN113595693B (zh) * | 2021-07-26 | 2024-07-12 | 大连大学 | 一种基于改进有效信噪比的混合自动重传请求方法 |
CN113380235B (zh) * | 2021-08-13 | 2021-11-16 | 中国科学院自动化研究所 | 基于知识迁移的电话信道虚假语音鉴别方法及存储介质 |
CN113506575B (zh) * | 2021-09-09 | 2022-02-08 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN113780408A (zh) * | 2021-09-09 | 2021-12-10 | 安徽农业大学 | 一种基于音频特征的生猪状态识别方法 |
CN113782054B (zh) * | 2021-09-22 | 2023-09-15 | 应急管理部国家自然灾害防治研究院 | 基于智能语音技术的闪电哨声波自动识别方法及*** |
CN113782000B (zh) * | 2021-09-29 | 2022-04-12 | 北京中科智加科技有限公司 | 一种基于多任务的语种识别方法 |
CN114626412B (zh) * | 2022-02-28 | 2024-04-02 | 长沙融创智胜电子科技有限公司 | 用于无人值守传感器***的多类别目标识别方法及*** |
CN114566155B (zh) * | 2022-03-14 | 2024-07-12 | 成都启英泰伦科技有限公司 | 一种连续语音识别的特征缩减方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2953065A2 (en) * | 2014-06-06 | 2015-12-09 | Google, Inc. | Generating representations of input sequences using neural networks |
CN105244020A (zh) * | 2015-09-24 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106803422A (zh) * | 2015-11-26 | 2017-06-06 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
US9754584B2 (en) * | 2014-12-22 | 2017-09-05 | Google Inc. | User specified keyword spotting using neural network feature extractor |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW418383B (en) * | 1998-09-23 | 2001-01-11 | Ind Tech Res Inst | Telephone voice recognition system and method and the channel effect compensation device using the same |
US7103547B2 (en) * | 2001-05-07 | 2006-09-05 | Texas Instruments Incorporated | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
US20040148160A1 (en) * | 2003-01-23 | 2004-07-29 | Tenkasi Ramabadran | Method and apparatus for noise suppression within a distributed speech recognition system |
KR100835993B1 (ko) * | 2006-11-30 | 2008-06-09 | 한국전자통신연구원 | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 |
JP2011107650A (ja) * | 2009-11-20 | 2011-06-02 | Casio Computer Co Ltd | 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置 |
CN104221079B (zh) * | 2012-02-21 | 2017-03-01 | 塔塔顾问服务有限公司 | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 |
US9454958B2 (en) * | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
US9665823B2 (en) * | 2013-12-06 | 2017-05-30 | International Business Machines Corporation | Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition |
US9620108B2 (en) * | 2013-12-10 | 2017-04-11 | Google Inc. | Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers |
US20160035344A1 (en) * | 2014-08-04 | 2016-02-04 | Google Inc. | Identifying the language of a spoken utterance |
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
CN104538028B (zh) * | 2014-12-25 | 2017-10-17 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN105810192B (zh) * | 2014-12-31 | 2019-07-02 | 展讯通信(上海)有限公司 | 语音识别方法及其*** |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
US9842106B2 (en) | 2015-12-04 | 2017-12-12 | Mitsubishi Electric Research Laboratories, Inc | Method and system for role dependent context sensitive spoken and textual language understanding with neural networks |
CN105679316A (zh) | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN105869624B (zh) * | 2016-03-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN105976812B (zh) * | 2016-04-28 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
US10387769B2 (en) * | 2016-06-30 | 2019-08-20 | Samsung Electronics Co., Ltd. | Hybrid memory cell unit and recurrent neural network including hybrid memory cell units |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
US11080595B2 (en) * | 2016-11-04 | 2021-08-03 | Salesforce.Com, Inc. | Quasi-recurrent neural network based encoder-decoder model |
-
2017
- 2017-06-12 CN CN201710445076.9A patent/CN107633842B/zh active Active
- 2017-08-31 US US16/348,807 patent/US11062699B2/en active Active
- 2017-08-31 WO PCT/CN2017/100043 patent/WO2018227780A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2953065A2 (en) * | 2014-06-06 | 2015-12-09 | Google, Inc. | Generating representations of input sequences using neural networks |
US9754584B2 (en) * | 2014-12-22 | 2017-09-05 | Google Inc. | User specified keyword spotting using neural network feature extractor |
CN105244020A (zh) * | 2015-09-24 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
CN106803422A (zh) * | 2015-11-26 | 2017-06-06 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US11062699B2 (en) | 2021-07-13 |
US20190266998A1 (en) | 2019-08-29 |
CN107633842A (zh) | 2018-01-26 |
WO2018227780A1 (zh) | 2018-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633842B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN107331384B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111276131B (zh) | 一种基于深度神经网络的多类声学特征整合方法和*** | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN112259106B (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
EP4016526B1 (en) | Sound conversion system and training method for same | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
CN107680582A (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN107093422B (zh) | 一种语音识别方法和语音识别*** | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
CN113707125B (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN107886968B (zh) | 语音评测方法及*** | |
CN108922515A (zh) | 语音模型训练方法、语音识别方法、装置、设备及介质 | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、***、设备及介质 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN111696525A (zh) | 一种基于Kaldi的中文语音识别声学模型构建方法 | |
CN114333762B (zh) | 基于表现力的语音合成方法、***、电子设备及存储介质 | |
CN116153339A (zh) | 一种基于改进注意力机制的语音情感识别方法及装置 | |
CN112259077B (zh) | 语音识别方法、装置、终端和存储介质 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN113539239A (zh) | 语音转换方法、装置、存储介质及电子设备 | |
Chen et al. | An end-to-end speech recognition algorithm based on attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1248908 Country of ref document: HK |