CN105139864B - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN105139864B
CN105139864B CN201510504840.6A CN201510504840A CN105139864B CN 105139864 B CN105139864 B CN 105139864B CN 201510504840 A CN201510504840 A CN 201510504840A CN 105139864 B CN105139864 B CN 105139864B
Authority
CN
China
Prior art keywords
layer
training
rnn
parameter
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510504840.6A
Other languages
English (en)
Other versions
CN105139864A (zh
Inventor
刘孟竹
唐青松
张祥德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Eye Intelligent Technology Co Ltd
Beijing Eyecool Technology Co Ltd
Original Assignee
Beijing Eye Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Eye Intelligence Technology Co Ltd filed Critical Beijing Eye Intelligence Technology Co Ltd
Priority to CN201510504840.6A priority Critical patent/CN105139864B/zh
Publication of CN105139864A publication Critical patent/CN105139864A/zh
Application granted granted Critical
Publication of CN105139864B publication Critical patent/CN105139864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音识别方法和装置,属于机器学习和语音识别领域,所述方法包括:获取待识别的语音信号;采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息。其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。与现有技术相比,本发明具有速度快、精度高的优点。

Description

语音识别方法和装置
技术领域
本发明涉及机器学习和语音识别领域,特别是指一种语音识别方法和装置。
背景技术
人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够通过语音进行交流,无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的不断发展,人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本,以便机器理解和产生相应的操作,对实现机器智能具有重要的意义。
近年来,涌现了一些的语音识别方法,比较常用的语音识别方法有:模板匹配的方法和利用人工神经网络的方法。其中,隐马尔科夫模型(HMM,Hidden Markov Model)是最常用的模板匹配方法,该方法能够合理地模仿人的言语过程,较好地描述语音信号的整体非平稳性和局部平稳性;人工神经网络(ANN,Artificial Neural Network)能够模拟人类神经元的活动,具有自适应性、容错性、鲁棒性和学习性。但是,隐马尔科夫模型没有考虑帧与帧之间的相关性,其对概率密度的先验分布的假设缺乏非线性的判别能力,会导致***精确度差,而且对操作环境的变化十分敏感;而人工神经网络增加了训练的计算要求,由于神经网络缺少对时间依赖问题的建模能力,不能适应语音时间序列,在连续识别任务方面表现很差。
发明内容
本发明要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。
为解决上述技术问题,本发明提供技术方案如下:
一种语音识别方法,包括:
获取待识别的语音信号;
采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
一种语音识别装置,包括:
获取模块:用于获取待识别的语音信号;
提取模块:用于采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
识别模块:用于将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
本发明的实施例具有以下有益效果:
本发明的语音识别方法和装置,首先采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数,能很好的反应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特性的语音特征参量,在实际应用中能够取得较高的识别率。然后,本发明利用逐层训练的方法训练RNN,所述RNN包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中,采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的特征既可以很好的表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的特点。与现有技术相比,本发明的具有速度快、精度高的优点。
附图说明
图1为本发明的语音识别方法的流程示意图;
图2为本发明的语音识别方法的MFCC特征提取的流程示意图;
图3为本发明的语音识别方法的非递归层的RNN逐层训练方法的流程示意图;
图4为本发明的语音识别方法的递归层的RNN逐层训练方法的流程示意图;
图5为本发明的语音识别方法的end-to-end训练方法的流程示意图;
图6为本发明的语音识别方法的语音识别的整体流程示意图;
图7为本发明的语音识别方法的RNN的连接方式示意图;
图8为本发明的语音识别方法的自动编码器的原理示意图;
图9为本发明的语音识别装置的结构示意图;
图10为本发明的语音识别装置的结构示意图一;
图11为本发明的语音识别装置的结构示意图二;
图12为本发明的语音识别装置的结构示意图三。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
名词解释:
RNN(Recurrent Neural Network):递归神经网络,是一种序列模型,在神经网络的基础上,考虑相邻时间t和t-1的隐含层神经元之间的连接关系。
CTC(Connectionist Temporal Classification):联结时间分类,通过对齐RNN的输出和语音序列标签最小化目标函数。
一方面,本发明提供一种语音识别方法,如图1所示,包括:
步骤S101:获取待识别的语音信号;
本步骤中的语音信号可以在本发明的不同应用场景中获取,其中,本发明可以应用在多种不同的应用场景中,如手机聊天工具中、手机语音搜索功能中、学习外语的校正***中,以及人与电脑进行语音交互的***中等。
步骤S102:采用MFCC算法对语音信号进行特征提取,得到MFCC特征;
本步骤中,MFCC特征的提取过程,如图2所示,MFCC特征是基于人耳听觉特性的Mel频率倒谱系数,该特性充分考虑了人耳的听觉***的非线性特性,将语音信号的频谱转化为基于Mel频率的非线性频谱,再转换到倒谱域上,因此MFCC具有良好识别性能和抗噪能力。
步骤S103:将MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
本步骤中,采用的RNN是一种序列模型,在神经网络的基础上,考虑相邻时间的隐含层单元之间的连接关系,对非线性时间序列信号中的有效信息有突出的表征能力。
其中,RNN通过逐层训练得到,RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
本发明的语音识别方法,首先采用MFCC算法对语音信号进行特征提取,得到MFCC特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数,能很好的反应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特性的语音特征参量,在实际应用中能够取得较高的识别率。然后,本发明利用逐层训练的方法训练RNN,RNN包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中,采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的特征既可以很好的表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的特点。与现有技术相比,本发明的具有速度快、精度高的优点。
作为本发明的一种改进,如图3所示,RNN的逐层训练方法包括:
步骤S201:当隐含层为非递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
步骤S202:采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
上述步骤S201和S202中,采用的自动编码器,具有良好的学习数据特征的能力,自动编码器能够学习数据中的特征,同时降低特征维数。本发明的实施过程为:
时间步t从1递增到T,编码过程为:
其中W(i),b(i)为网络参数,解码过程为:
其中,f是一个非线性函数,优选的,f采用sigmoid函数。计算得到样本的每个时间步的重构误差;
δt=xt-yt (3)
之后采用误差反向传播算法使得重构误差最小,更新参数值W(i)和b(i),接着,采用更新后的参数计算该层时间t的编码作为原始输入xt的抽象表示,如果编码值能够对它的原始输入进行良好的重构(即重构误差很小),那么就认为它保留了原始数据所含有的大部分信息。
步骤S203:将激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
因为前述步骤中采用的自动编码器是一个特征提取器,所以,本步骤中要实现分类功能还需要在网络后添加分类器,本发明中,优选采用softmax分类器进行多分类任务,softmax分类器是一个激活函数,可以实现多分类,公式为:
其中,j表示第j类,N表示类别总数;
然后,本步骤中采用CTC网络对齐序列标签,将分类器的输出与标签对齐来计算误差。
步骤S204:采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。
本发明中,采用逐层有监督训练RNN的语音识别方法,利用语音序列的标签逐层训练非递归层的RNN参数W(i)和b(i),使得提取的特征具有很好的分类能力,并且,与现有技术相比,本发明采用CTC网络计算目标函数,不需要对语音序列样本和标签预先分节或者进行后处理,在减少工作量的同时也能提高训练精度。
作为本发明的进一步改进,如图4所示,RNN的训练方法包括:
步骤S301:当隐含层为递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
步骤S302:采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
上述步骤S301和S302中,通过自动编码器训练该层隐含层参数W(i)和b(i),因为该层是递归层,编码过程还需考虑不同时间t的权重矩阵Whh,即
时间步t从1递增到T,编码过程为:
其中,W(i)、b(i)和Whh,以及t=1时的初始状态的激活值为网络参数,解码过程为:
其中,f是一个非线性函数,优选的,f采用sigmoid函数。计算得到样本的每个时间步的重构误差;
δt=xt-yt (7)
之后采用误差反向传播算法使得重构误差最小,更新参数值W(i)、b(i)、Whh从而得到该层时间t的编码作为原始输入xt的抽象表示。
步骤S303:将激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
步骤S304:采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
本步骤中,与非递归层的RNN的逐层训练方法不同的是,误差反向传播算法中还需考虑该层不同时间t之间误差的传播。
本发明中,采用逐层有监督训练RNN的语音识别方法,利用语音序列的标签逐层训练递归层的RNN参数W(i)、b(i)、Whh使得提取的特征具有很好的分类能力,并且,与现有技术相比,本发明采用CTC网络计算目标函数,不需要对语音序列样本和标签预先分节或者进行后处理,在减少工作量的同时也能提高训练精度。
本发明中,RNN在逐层训练之后还进行了end-to-end训练,如图5所示,end-to-end训练包括:
步骤S401:将逐层训练得到的每层隐含层的参数作为RNN参数的初始值,将训练样本的MFCC特征作为RNN的输入,从第一层隐含层开始,到最后一层隐含层结束,逐层向后传播,得到最后一层隐含层的激活值;
步骤S402:将最后一层隐含层的激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
步骤S403:采用误差反向传播算法从最后一层隐含层开始,到第一层隐含层结束,逐层地向前传播,调整每层隐含层的RNN参数。
本发明中,在RNN的训练方法之后又采用end-to-end训练,使我们在通过RNN的训练方法得到的很好的参数初值的基础上,再对每个隐含层的RNN参数进行微调,当调整对象为非递归层时,RNN参数为W(i)和b(i);当调整对象为递归层时,RNN参数为W(i)、b(i)、Whh本发明有效地避免了RNN参数陷入局部极小值,使每个隐含层的RNN参数串联后,能够具有很好的分类能力,可以更快的收敛到最优解。
本发明中,误差反向传播算法优选为BP算法。BP算法是将输出层误差通过隐含层向输入层逐层传播,并将误差按照权重分摊给前一层隐含层的所有单元,从而获得各隐含层单元的误差信号,此误差信号即作为修正各单元权值的依据,误差反向传播的各层权值调整过程,是周而复始地进行的,权值不断调整的过程,也就是网络的学习训练过程,此过程一直进行到网络输出的误差减少到可接受的程度为止。
本发明中的误差反向传播算法是对每个训练样本,时间从T(T为语音序列的长度)递减到1,目标函数对softmax层输入的导数为式(8),进行误差反向传播并更新参数。
其中,
下面,本发明提供了一个完整的实施例,对本发明的逐层有监督训练RNN的过程进行详细说明。
如图6所示,本实施例在进行训练时可以分为以下步骤:
(1)对训练集中的语音样本提取MFCC特征;
(2)将提取的特征作为RNN的输入,预训练网络参数;
(3)end-to-end调整网络参数,得到训练好的RNN。
本发明,在具体实施时可以参照如下步骤进行:
上述步骤(1)具体实施过程:
首先,对训练集中的语音信号进行分帧,一般分帧的间隔是0.2ms,分帧之后一维的语音信号变为了一个2维的矩阵,矩阵的每行表示一帧语音信号,然后,进行加窗处理并做FFT变换,将每帧的时域信号映射到频率域,最后提取MFCC特征,作为RNN的输入x。
上述步骤(2)具体实施过程:
训练RNN参数时,分成两部分:对递归层的训练和对非递归层的训练。即根据RNN的网络结构分类的,例如我们设计的网络是一个4层的网络,第1层是输入层,中间的2层是隐含层,其中第2层是非递归层,第3层是递归层,第4层是输出层。那么训练第2层就采用非递归层的训练方式,训练的参数只有W(2)和b(2),训练第3层采用递归层的训练方法,参数为W(3)、b(3)、Whh其中,Whh为序列样本前后时间的相关关系,为初始状态激活值参数。两种方法的本质相同,只是参数不同。
本发明中,RNN是一种序列模型,在神经网络的基础上,考虑相邻时间t和t-1的隐含层单元之间的连接关系,对非线性时间序列信号中的有效信息有突出的表征能力。如图7所示,为本发明的RNN连接方式,前向传导计算如下:
其中,xt为时间t的输入向量,为时间t的第i(i=1,2)层隐含层的输出向量,W(i)表示连接第i层与第i-1层的权重矩阵、Whh为递归层的权重矩阵,b(i)为第i层的偏差向量,f为隐含层的非线性激活函数,本发明中选用sigmoid函数作为激活函数:g为softmax层的激活函数。
当隐含层为非递归层时,具体训练每层参数的方法:
(a)如图8所示,本发明中采用的自动编码器是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器提取出可以代表输入数据的最重要的因素,找到可以代表原信号的主要成分。
编码之后的结果为式:
解码的过程:
解码后的时间t的重构误差为:
之后采用反向传播算法使得重构误差最小,得到W(i)和b(i),从而得到该层时间t的编码作为原始输入xt的抽象表示。
(b)在解码器后加入softmax分类器,通过CTC网络对齐序列标签,有监督地训练调整该层参数W(i)和b(i)。具体步骤如下:
按照(12)式计算softmax层的输出:
其中,g为softmax层的激活函数。
按照(13)式计算CTC前向变量:
这里,y′是语音序列标签y在开始和结尾加入空格(表示没有输出,用b表示),然后在每对标签字符之间加入空格得到的。
按照(14)式计算CTC后向变量:
前向变量、后向变量规范化:
目标函数为:
其中S为训练集,(x,y)为训练集中的一个训练样本,P(y/x)为CTC网络的输出是标签序列的概率。
当隐含层为递归层时,具体训练每层参数的方法:
(a)通过自动编码器训练该层隐含层参数W(i)和b(i),因为该层是递归层,编码过程还需考虑不同时间t的权重矩阵Whh,即
(b)加入序列标签,对该层参数W(i)、b(i)、Whh调整,误差反向传播过程需考虑该层不同时间t之间误差的传播,误差按照图7所示的箭头的反方向传播。
上述过程中采用的误差反向传播算法是对每个训练样本,时间从T(T为语音序列的长度)递减到1,目标函数对softmax层输入的导数为式(18),进行误差反向传播并更新参数W(i)和b(i)
其中,
上述步骤(3)具体实施过程:
end-to-end训练过程中,将逐层训练得到的每层隐含层的参数作为RNN参数的初始值,将训练样本的MFCC特征作为RNN的输入,从第一层隐含层开始,到最后一层隐含层结束,逐层向后传播,得到最后一层隐含层的激活值;
本实施例中,首先判断该层网络的结构是非递归层还是递归层,然后采用本领域技术人员公知的激活值计算公式进行计算:如果是非递归层,按照下式计算:
如果是递归层,则计算公式为:
当i=1时,即计算第一层隐含层激活值时,最后得到的即为softmax分类器的输入;
将计算得出的激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与标签的误差;
采用误差反向传播算法从最后一个隐含层开始,到第一个隐含层结束,逐层地向前传播,调整每个隐含层的RNN参数。
本实施例中,采用反向传播算法使得重构误差最小的具体说明如下:
根据式(21)得到解码后的时间t的重构误差:
然后求解δt对参数W(i)和b(i)的偏导数为
按照下式更新参数:
然后使用新的参数计算样本的重构误差,若不满足我们需要的精度,继续按照上式更新,如果满足我们需要的精度,就得到了训练好的参数W(i)和b(i)
本实施例中,采用误差反向传播算法进行参数更新的具体方法如下:对于第i层,首先判断是否是递归层:
对于非递归层:t从T递减到1:
按照下式更新参数:
其中,这里η为学习速率。
对于递归层:
按照下式更新参数:
当t=1时
本实施例的语音识别方法,利用语音序列的标签逐层训练RNN的参数,使得每层网络提取的特征既可以很好的表征原始信号,又具有分类能力。与现有技术相比,本方法在进行端到端(end-to-end)训练时可以获得一个相对较好的参数初始值,可以有效地避免陷入局部极小值,以更快地收敛到最优解,并且本发明利用CTC网络计算目标函数,不需要对语音序列样本和标签预先分节或者进行后处理,在减少工作量的同时也能提高训练精度。此外,本发明采用的RNN训练方法可以学习更加非线性和更加抽象的特征,与现有技术相比,无需对获取的语音信号进行预处理,就能够实现准确的语音识别,在一定程度上提高了本发明的语音识别的处理速度。本发明在TIMIT数据库上的RNN训练的速度是改进前的6倍,并且识别的错误率从37.67%下降到28.5%。
另一方面,本发明还提供一种语音识别装置,如图9所示,包括:
获取模块11:用于获取待识别的语音信号;
提取模块12:用于采用MFCC算法对语音信号进行特征提取,得到MFCC特征;
识别模块13:用于将MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
其中,RNN通过逐层训练得到,RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
本发明的语音识别装置,首先采用MFCC算法对语音信号进行特征提取,得到MFCC特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数,能很好的反应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特性的语音特征参量,在实际应用中能够取得较高的识别率。然后,本发明利用逐层训练的方法训练RNN,RNN包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中,采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的特征既可以很好的表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的特点。与现有技术相比,本发明的具有速度快、精度高的优点。
作为本发明的一种改进,识别模块13连接有RNN训练模块1,如图10所示,RNN训练模块1包括:
第一自动编码模块21:用于当隐含层为非递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
第一训练模块22:用于采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
第一计算模块23:用于将激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
第一调整模块24:用于采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。
本发明中,采用RNN训练模块1,利用语音序列的标签逐层训练非递归层的RNN参数W(i)和b(i),使得提取的特征既可以很好的表征原始信号,又具有分类能力。并且,与现有技术相比,本发明采用CTC网络计算目标函数,不需要对语音序列样本和标签预先分节或者进行后处理,在减少工作量的同时也能提高训练精度。
作为本发明的进一步改进,如图11所示,RNN训练模块1还包括:
第二自动编码模块31:用于当隐含层为递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
第二训练模块32:用于采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
第二计算模块33:用于将激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
第二调整模块34:用于采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
本发明中,采用RNN训练模块1,利用语音序列的标签逐层训练递归层的RNN参数W(i)、b(i)、Whh使得提取的特征既可以很好的表征原始信号,又具有分类能力。并且,与现有技术相比,本发明采用CTC网络计算目标函数,不需要对语音序列样本和标签预先分节或者进行后处理,在减少工作量的同时也能提高训练精度。
本发明中,RNN训练模块1还连接有end–to-end训练模块2,如图12所示,end–to-end训练模块2,包括:
传播模块41:用于将逐层训练得到的每层隐含层的参数作为RNN参数的初始值,将训练样本的MFCC特征作为RNN的输入,从第一层隐含层开始,到最后一层隐含层结束,逐层向后传播,得到最后一层隐含层的激活值;
计算模块42:用于将最后一层隐含层的激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
调整模块43:用于采用误差反向传播算法从最后一层隐含层开始,到第一层隐含层结束,逐层地向前传播,调整每层隐含层的RNN参数。
本发明中的end–to-end训练模块2,使我们在通过RNN训练模块1得到的很好的参数初值的基础上,再对每个隐含层的RNN参数进行微调,有效地避免了RNN参数陷入局部极小值,使每个隐含层的RNN参数串联后,能够具有很好的分类能力,可以更快的收敛到最优解。
本发明中,误差反向传播算法为BP算法。BP算法是将输出层误差通过隐含层向输入层逐层传播,并将误差按照权重分摊给前一层隐含层的所有单元,从而获得各隐含层单元的误差信号,此误差信号即作为修正各单元权值的依据,误差反向传播的各层权值调整过程,是周而复始地进行的,权值不断调整的过程,也就是网络的学习训练过程,此过程一直进行到网络输出的误差减少到可接受的程度为止。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种语音识别方法,其特征在于,包括:
获取待识别的语音信号;
采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数;
所述RNN的训练方法包括:
当隐含层为递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
将所述激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数;
所述RNN在逐层训练之后还进行了end-to-end训练,所述end-to-end训练包括:
将逐层训练得到的每层隐含层的参数作为RNN参数的初始值,将训练样本的MFCC特征作为RNN的输入,从第一层隐含层开始,到最后一层隐含层结束,逐层向后传播,得到最后一层隐含层的激活值;
将最后一层隐含层的激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
采用误差反向传播算法从最后一层隐含层开始,到第一层隐含层结束,逐层地向前传播,调整每层隐含层的RNN参数。
2.根据权利要求1所述的语音识别方法,其特征在于,所述RNN的逐层训练方法包括:
当隐含层为非递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
将所述激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。
3.根据权利要求2所述的语音识别方法,其特征在于,所述误差反向传播算法为BP算法。
4.一种语音识别装置,其特征在于,包括:
获取模块:用于获取待识别的语音信号;
提取模块:用于采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
识别模块:用于将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数;
所述RNN训练模块包括:
第二自动编码模块:用于当隐含层为递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
第二训练模块:用于采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
第二计算模块:用于将所述激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
第二调整模块:用于采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数;
所述RNN训练模块还连接有end–to-end训练模块,所述end–to-end训练模块,包括:
传播模块:用于将逐层训练得到的每层隐含层的参数作为RNN参数的初始值,将训练样本的MFCC特征作为RNN的输入,从第一层隐含层开始,到最后一层隐含层结束,逐层向后传播,得到最后一层隐含层的激活值;
计算模块:用于将最后一层隐含层的激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
调整模块:用于采用误差反向传播算法从最后一层隐含层开始,到第一层隐含层结束,逐层地向前传播,调整每层隐含层的RNN参数。
5.根据权利要求4所述的语音识别装置,其特征在于,所述识别模块连接有RNN训练模块,所述RNN训练模块还包括:
第一自动编码模块:用于当隐含层为非递归层时,采用自动编码器对训练样本依次进行编码和解码操作,计算得到训练样本的每个时间步的重构误差;
第一训练模块:用于采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表示;
第一计算模块:用于将所述激活值输入softmax分类器,并通过CTC网络对齐序列标签,计算softmax输出与序列标签的误差;
第一调整模块:用于采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。
6.根据权利要求5所述的语音识别装置,其特征在于,所述误差反向传播算法为BP算法。
CN201510504840.6A 2015-08-17 2015-08-17 语音识别方法和装置 Active CN105139864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510504840.6A CN105139864B (zh) 2015-08-17 2015-08-17 语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510504840.6A CN105139864B (zh) 2015-08-17 2015-08-17 语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN105139864A CN105139864A (zh) 2015-12-09
CN105139864B true CN105139864B (zh) 2019-05-07

Family

ID=54725185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510504840.6A Active CN105139864B (zh) 2015-08-17 2015-08-17 语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN105139864B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551483B (zh) * 2015-12-11 2020-02-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN105529027B (zh) * 2015-12-14 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107293291B (zh) * 2016-03-30 2021-03-16 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
CN105895081A (zh) * 2016-04-11 2016-08-24 苏州思必驰信息科技有限公司 一种语音识别解码的方法及装置
CN105975457A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于全自动学习的信息分类预测***
KR20190022439A (ko) * 2016-06-30 2019-03-06 파나소닉 아이피 매니지먼트 가부시키가이샤 정보 처리 장치, 시계열 데이터의 정보 처리 방법, 및 프로그램
CN106251860B (zh) * 2016-08-09 2020-02-11 张爱英 面向安防领域的无监督的新颖性音频事件检测方法及***
CN106372653B (zh) * 2016-08-29 2020-10-16 中国传媒大学 一种基于堆栈式自动编码器的广告识别方法
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN107610707B (zh) * 2016-12-15 2018-08-31 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN107123417B (zh) * 2017-05-16 2020-06-09 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及***
CN108922513B (zh) * 2018-06-04 2023-03-17 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN110085210B (zh) * 2019-03-15 2023-10-13 平安科技(深圳)有限公司 交互信息测试方法、装置、计算机设备及存储介质
CN110580908A (zh) * 2019-09-29 2019-12-17 出门问问信息科技有限公司 一种支持不同语种的命令词检测方法及设备
CN111092798B (zh) * 2019-12-24 2021-06-11 东华大学 一种基于口语理解的可穿戴***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604840A (en) * 1989-10-25 1997-02-18 Hitachi, Ltd. Information processing apparatus
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
CN104598972A (zh) * 2015-01-22 2015-05-06 清华大学 一种大规模数据回归神经网络快速训练方法
CN104794501A (zh) * 2015-05-14 2015-07-22 清华大学 模式识别方法及装置
CN104819846A (zh) * 2015-04-10 2015-08-05 北京航空航天大学 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE453183T1 (de) * 2005-06-01 2010-01-15 Loquendo Spa Verfahren zum anpassen eines neuronalen netzwerks einer automatischen spracherkennungseinrichtung

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604840A (en) * 1989-10-25 1997-02-18 Hitachi, Ltd. Information processing apparatus
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
CN104598972A (zh) * 2015-01-22 2015-05-06 清华大学 一种大规模数据回归神经网络快速训练方法
CN104819846A (zh) * 2015-04-10 2015-08-05 北京航空航天大学 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法
CN104794501A (zh) * 2015-05-14 2015-07-22 清华大学 模式识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于深层神经网络(DNN)的汉语方言种属语音识别》;景亚鹏等;《华东师范大学学报(自然科学版)》;20140131;第62页第6行至第65页第6行
《基于神经网络的语音识别研究》;滕云等;《重庆师范大学学报(自然科学版)》;20100731;第27卷(第4期);参见第74页第2栏第28行至第75页第2栏第18行

Also Published As

Publication number Publication date
CN105139864A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN105139864B (zh) 语音识别方法和装置
WO2021143327A1 (zh) 语音识别方法、装置和计算机可读存储介质
CN111243576B (zh) 语音识别以及模型训练方法、装置、设备和存储介质
Li et al. Learning small-size DNN with output-distribution-based criteria
CN105741832B (zh) 一种基于深度学习的口语评测方法和***
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology.
Li et al. Robust automatic speech recognition: a bridge to practical applications
Kanda et al. Elastic spectral distortion for low resource speech recognition with deep neural networks
Qi et al. Analyzing upper bounds on mean absolute errors for deep neural network-based vector-to-vector regression
Panchapagesan et al. Efficient knowledge distillation for rnn-transducer models
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
CN112071330A (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN109410974A (zh) 语音增强方法、装置、设备及存储介质
CN105895082A (zh) 声学模型训练方法、语音识别方法及装置
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别***及方法
Wu et al. Acoustic to articulatory mapping with deep neural network
CN108461080A (zh) 一种基于hlstm模型的声学建模方法和装置
Li et al. Semi-supervised ensemble DNN acoustic model training
Ng et al. Teacher-student training for text-independent speaker recognition
Fan et al. The impact of student learning aids on deep learning and mobile platform on learning behavior
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和***
Canevari et al. Relevance-weighted-reconstruction of articulatory features in deep-neural-network-based acoustic-to-articulatory mapping.
CN106875944A (zh) 一种语音控制家庭智能终端的***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100085, 1 floor 8, 1 Street, ten Street, Haidian District, Beijing.

Applicant after: Beijing eye Intelligence Technology Co., Ltd.

Address before: 100085, 1 floor 8, 1 Street, ten Street, Haidian District, Beijing.

Applicant before: Beijing Techshino Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for recognizing natural speech

Effective date of registration: 20191226

Granted publication date: 20190507

Pledgee: Beijing Zhongguancun sub branch of China Post Savings Bank Co., Ltd

Pledgor: Beijing eye Intelligence Technology Co., Ltd.

Registration number: Y2019990000808

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210917

Granted publication date: 20190507

Pledgee: Beijing Zhongguancun sub branch of China Post Savings Bank Co.,Ltd.

Pledgor: Beijing Eyes Intelligent Technology Co.,Ltd.

Registration number: Y2019990000808

PC01 Cancellation of the registration of the contract for pledge of patent right
TR01 Transfer of patent right

Effective date of registration: 20211215

Address after: 071800 Beijing Tianjin talent home (Xincheng community), West District, Xiongxian Economic Development Zone, Baoding City, Hebei Province

Patentee after: BEIJING EYECOOL TECHNOLOGY Co.,Ltd.

Patentee after: Beijing Eye Intelligent Technology Co., Ltd

Address before: 100085, 1 floor 8, 1 Street, ten Street, Haidian District, Beijing.

Patentee before: Beijing Eyes Intelligent Technology Co.,Ltd.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Speech recognition method and device

Effective date of registration: 20220228

Granted publication date: 20190507

Pledgee: China Construction Bank Corporation Xiongxian sub branch

Pledgor: BEIJING EYECOOL TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000113

PE01 Entry into force of the registration of the contract for pledge of patent right