CN109767759A - 基于改进型cldnn结构的端到端语音识别方法 - Google Patents

基于改进型cldnn结构的端到端语音识别方法 Download PDF

Info

Publication number
CN109767759A
CN109767759A CN201910115486.6A CN201910115486A CN109767759A CN 109767759 A CN109767759 A CN 109767759A CN 201910115486 A CN201910115486 A CN 201910115486A CN 109767759 A CN109767759 A CN 109767759A
Authority
CN
China
Prior art keywords
model
cldnn
network
rate
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910115486.6A
Other languages
English (en)
Other versions
CN109767759B (zh
Inventor
冯昱劼
张毅
徐轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910115486.6A priority Critical patent/CN109767759B/zh
Publication of CN109767759A publication Critical patent/CN109767759A/zh
Application granted granted Critical
Publication of CN109767759B publication Critical patent/CN109767759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于改进型CLDNN结构的端到端语音识别方法,常用于语音识别的传统CLDNN结构采用全连接LSTM(Long Short Term Memory)模型处理语音信号中的时序信息,在训练过程中易发生过拟合现象,影响学习效果。更深的模型往往表现更为优秀,但通过简单堆叠网络层增加模型深度会发生梯度消失、梯度***和“退化”问题。针对以上现象及问题,本发明提出一种改进型CLDNN结构,采用残差网络和ConvLSTM结合方式建立残差ConvLSTM模型,并以此代替传统CLDNN结构中的全连接LSTM模型。该模型结构改善了传统CLDNN模型存在的问题,并且可以通过堆叠残差ConvLSTM块增加模型深度而不发生梯度消失、梯度***和“退化”问题,使语音识别***性能更优。

Description

基于改进型CLDNN结构的端到端语音识别方法
技术领域
本发明属于语音识别领域,特别是一种基于深度学习的语音识别方法。
背景技术
自动语音识别技术一直在人工智能领域有着举足轻重的地位。以 HMM-GMM模型为代表的传统语音识别技术曾一直作为主流,统治了语音识别领域长达数十年。近年来,得益于深度学习的突破,自动语音识别技术也处于飞速发展的阶段。目前,以深度学习为基础的端到端语音识别***在在学术界中的流行程度上已经超越了传统语音识别***,并且开始逐步代替传统语音识别***运用于实际生产。
从20世纪80年代开始,基于混合高斯模型/隐马尔可夫模型(Gaussian MixtureModel/Hidden Markov Model,GMM/HMM)的声学模型就被广泛应用, HMM用于处理语音在时序上的变化,GMM用于完成声学输入到隐马尔科夫状态间的映射。近几年,基于深度神经网络(Deep Neural Network,DNN)的声学模型被证实在大词汇量的语音识别任务中拥有更好的表现,大量神经元的活动在模拟声学特征上表现更为优秀。由于DNN完全链接的性质,导致其不能充分利用语音特征空间中的结构局部性。而卷积神经网络(ConvolutionalNerual Network,CNN)可以利用其平移不变性来克服语音信号本身的多样性,并且可以很好地解释语音特征空间中的变化。递归神经网络(Recurrent Neural Network, RNN)通过递归来挖掘序列中的上下文相关信息,在一定程度上克服了DNN的缺点。但是RNN在训练中很容易出现梯度消失的问题,且难以记忆长时信息。长短期记忆单元(Long Short-TermMemory,LSTM)通过特定的门控单元使得当前时刻的误差能够保存下来并选择性传给特定的单元,从而避免了梯度消失的问题。连接时序分类算法(Connectionist TemporalClassifier,CTC)由Grave等在2006年提出,可应用于端到端语音识别***,刻画语音特征序列和音素序列的关联性,并且不必依赖人工对齐特征与音素。
目前国内外相关科技公司都在不断研发自己的端到端语音识别模型。百度研究人员2015年发表了Deep speech,2016年发表了Deep Speech2,两者利用 CLDNN和CTC结合的方式建立语音识别模型,达到优异性能。科大讯飞研究团队在2016年提出了深度全序列卷积神经网络(DF-CNN,Deep Fully Convolutional NeuralNetwork)结构,利用大量卷积层和池化层的组合,对整句语音进行建模,大大增强了CNN的表达能力。DFCNN通过累积非常多的这种卷积池化层对,可以看到非常长的历史和未来信息,这就保证了DFCNN可以出色地表达语音的长时相关性,相比RNN网络结构在鲁棒性上更加出色。IBM 的研究人员在2016年ICASSP上发表的文章称,使用3x3的卷积核和多层卷积之后再接池化层的技术可以训练出14层(包含全连接)Deep CNN模型。该模型在Switchboard数据集上相比传统CNN使用方法的模型可以带来相对约10.6%的WER下降。MSRA团队2015年提出了残差网络,解决了随着模型的深度加深出现的“退化”问题。残差网络后来也被应用到语音识别模型上,被证实有良好的效果。Google研究团队2017年在icassp会议中展示了一种由 Network-in-Network(NiN)、Batch Normalization(BN)和Convolutional LSTM (ConvLSTM)结合的声学模型结构。没有语言模型的情况下,该模型在WSJ语音识别任务中达到了10.5%的WER。
CLDNN由于其简单的构造和优异的性能,一直是端到端语音识别模型中一种比较流行的结构。但普通CLDNN模型的深度不够,提取的特征不够丰富,建立的语音识别模型不能达到最好的效果。其模型中的全连接长短时记忆模型 (FC-LSTM)无法保持语音特征空间的结构局部性,并且容易过拟合。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种可以有效地解决传统 CLDNN中,LSTM容易导致过拟合的问题,克服增加模型深度带来的梯度消失、梯度***和“退化”问题的基于改进型CLDNN结构的端到端语音识别方法。本发明的技术方案如下:
一种基于改进型CLDNN结构的端到端语音识别方法,其包括以下步骤:
S1、获取语音数据集并进行划分,将语音数据集划分为训练集、交叉验证集和测试集;
S2、对所有语音数据进行预处理,得到语音信号的梅尔频率倒谱系数MFCC;
S3、构建改进型CLDNN网络模型,包括由卷积神经网络CNN构成的语音特征抽象化处理部分、处理语音信号时序信息的残差卷积长短时记忆模型和将处理后的特征空间映射到输出层的深度神经网络DNN;
S4、构建语音识别损失函数,损失函数使用CTC loss;
S5、用训练集对步骤S3的改进型CLDNN模型进行训练,利用Adam算子优化步骤S4的目标函数;
S6、对步骤S5训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型。
进一步的,所述步骤2的预处理步骤包括:预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换。
进一步的,所述步骤S3中的残差卷积长短时记忆模型具体为:对全连接长短时记忆模型中的矩阵乘积替换为卷积运算得到卷积长短时记忆模型,对该模型使用残差网络结构得到残差卷积长短时记忆模型。
进一步的,所述残差网络结构用来构建深层网络,通过跳跃连接skip connection直接连接浅层网络与深层网络,从而使得梯度能更好地传递到浅层,残差网络由多个残差块构成,由多个残差块组成的深度残差网络结构来代替传统CLDNN模型中的多层LSTM(长短时记忆模型)结构。
进一步的,所述步骤S4损失函数,损失函数使用CTC loss,具体包括:
假设标签元素表L的大小为K,给定输入序列X=(x1,x2,...,xT),对应输出标签序列Y=(y1,y2,...,yU),CTC的任务是在给定的输入序列下,将损失值反馈给神经网络,通过调整神经网络内部参数使输出标签的对数概率最大化,即 max(lnP(Y|X)),CTC(连接时序分类)还引入了空标签blank来表示不属于标签元素表L的映射;
将最后一层DNN后的softmax层输出作为CTC的输入,softmax输出包含K+1 个节点映射到L∪{blank}中的每个元素,整个CTC路径概率如下式所示:
其中zt为在t时刻,softmax得到输出向量,代表第k个标签对应的后验概率,为了解决softmax输出和标签序列之间的对齐问题,引入输入序列在帧层面上一一对应的CTC路径p=(p1,p2,...,pT),将标签序列Y通过映射Ф对应到CTC 路径p上,由于此映射是一对多的映射,所以一个标签可以对应多个CTC路径,所以标签Y的概率由所有对应此标签的CTC路径概率和表示为下式:
CTC的损失函数而被定义为每个训练样本正确标记的负对数之和,如下式:
进一步的,所述步骤S5利用Adam算子优化步骤S4的目标函数;
计算t时间步的梯度:
首先,计算梯度的指数移动平均数,m0初始化为0。综合考虑之前时间步的梯度动量。β1系数为指数衰减率,控制权重分配(动量与当前梯度),通常取接近于1的值,默认为0.9
mt=β1mt-1+(1-β1)gt
第二,计算梯度平方的指数移动平均数,v0初始化为0。β2系数为指数衰减率,控制之前的梯度平方的影响情况,默认为0.999。
第三,由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段。所以,此处需要对梯度均值mt进行偏差纠正,降低偏差对训练初期的影响。
第四,由于v0初始化为0导致训练初始阶段vt偏向0,对其进行纠正。
第五,更新参数,初始的学***方根之比。其中默认学习率α=0.001,ε=10^-8。
进一步的,所述步骤S6对步骤S5训练后的模型进行交叉验证,调整模型的超参数,得到最终网络模型,具体包括:
交叉验证步骤:
1、初始化权值,取权值为-0.5至0.5之间的随机数。
2、将学习样本空间C分为N份。
3、从学习数据文件中依规定顺序取出N-1份作为训练数据样本。剩下的第N 份作为验证数据样本。完成步骤4到步骤7。
4、从训练数据样本中读入一个样本开始训练。
5、计算本样本输出误差总量度EP。修改两层权值直到EP<(为规定的误差量度),读入下一个训练样本。
6、直到N-1份训练样本中所有样本学习结束,产生一组权值,用此组权值计算验证样本,计算验证样本的验证成功率RATE=(满足EP<的验证样本个数)/(总的验证样本个数)
7、如果验证样本成功率RATE>rate(rate为规定的成功率),则结束此轮的学习。否则学习所有的验证样本。
超参数:
学习率:学习率是指在优化算法中更新网络权重的幅度大小。不同的优化算法决定不同的学习率。当学习率过大则可能导致模型不收敛,损失函数不断上下震荡;学习率过小则导致模型收敛速度偏慢,需要更长的时间训练。通常取值为0.01、0.001、0.0001。
批次大小:批次大小是每一次训练神经网络送入模型的样本数,在卷积神经网络中,大批次通常可使网络更快收敛,但由于内存资源的限制,批次过大可能会导致内存不够用或程序内核崩溃。通常取值为16、32、64、128。
迭代次数:迭代次数是指整个训练集输入到神经网络进行训练的次数,当验证错误率和训练错误率相差较小时,可认为当前迭代次数合适;当验证错误率先变小后变大时则说明迭代次数过大了,需要减小迭代次数,否则容易出现过拟合。
本发明的优点及有益效果如下:
本发明引入卷积长短时记忆模型(Convolutional Long Short-Term Memory,ConvLSTM)来代替普通CLDNN模型中的FC-LSTM,改善了模型无法保持空间结构局部性和容易过拟合的问题。为了加深模型深度而不发生“退化”、梯度消失和梯度***等问题,本发明还引入了残差网络(Residual Network,ResNet)。为了堆叠多层ConvLSTM提高模型的性能而又不发生梯度消失、梯度***和“退化”问题,本发明融合了ConvLSTM和残差网络结构,残差ConvLSTM块结构如图1所示。基于以上结构,本发明对传统CLDNN结构提出了改进。针对传统CLDNN模型中的全连接长短时记忆模型无法保持特征空间的结构局部性,并且容易过拟合的问题,使用由多个残差ConvLSTM块组成的深度残差 ConvLSTM网络结构来代替传统CLDNN模型中的多层LSTM结构,使模型在处理语音特征中的时间关系上有更好的表现,并且不容易过拟合。改进后的 CNN-ResconvLSTM-DNN模型能够通过叠加更多的残差ConvLSTM来建立更深的模型而不发生梯度消失、梯度***和“退化”问题,能在语音识别任务中发挥出更好的性能,其结构如图2所示。
附图说明
图1是本发明提供优选实施例残差卷积长短时记忆模型块结构;
图2为本发明提出的改进型CLDNN模型结构;
图3为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
S1、对语音数据集进行划分,将数据集划分为训练集、交叉验证集和测试集;
S2、对所有数据进行预处理,进而得到语音信号的梅尔频率倒谱系数(MFCC),预处理步骤为:
预加重:对于因信号通过高通滤波器H(Z)=1-μz-1
分帧:将整段语音信号分为每帧30ms,帧移10ms的小段。
加窗:为每一帧信号加汉明窗
S′(n)=S(n)*W(n)
快速傅里叶变换:每帧经过快速傅里叶变换以得到在频谱上的能量分布。
Mel滤波:将能量谱通过一组Mel滤波器组,单脚滤波器的频率响应定义为:
其中m为三角滤波器中心频率。
计算每个滤波器组输出的对数能量:
离散余弦变换:
S3、构建改进型CLDNN网络模型,模型包括由卷积神经网络(CNN)构成的语音特征抽象化处理部分、处理语音信号时序信息的残差卷积长短时记忆模型(ResConvLstm)部分和将处理后的特征空间映射到输出层的深度神经网络(DNN) 部分;
卷积长短时记忆模型,是完全连接的长短时记忆模型的扩展,它在输入到状态和状态到状态转换中均具有卷积结构,这种结构相比普通CNN更能表现特征的时间关系,而相比全连接LSTM更不容易过拟合,如下式:
it=σ(Wxi*xt+Whi*ht-1+bi)
ft=σ(Wxf*xt+Whf*ht-1+bi)
ot=σ(Wxo*xt+Who*ht-1+bo)
σ是sigmoid激活函数,it,ft,ot,ct,ht分别表示t时刻的输入门、遗忘门、输出门、单元输入激活和单元输出向量,表示向量的元素乘积,W表示连接不同门之间的权重矩阵,b代表相应的偏置向量。
残差网络结构来构建深层网络,通过跳跃连接(skip connection)直接连接浅层网络与深层网络,从而使得梯度能更好地传递到浅层。残差网络由多个残差块(ResidualBlock)构成,设残差块的输入为xl,输出为xl+1,则残差块的结构可表示为:
xl+1=xl+F(xl,wl) (9)
F(xl,wl)=wlσ(wl-1xl-1) (10)
其中σ为激活函数,所以,对于任意xL,有:
假设损失函数C,可以得到:
其中,保证了信息能够传回任意层xl保证了网络不会出现梯度消失的现象。
为了堆叠多层卷积长短时记忆模型提高模型的性能而又不发生梯度消失、梯度***和“退化”问题,本发明融合了卷积长短时记忆模型和残差网络结构,残差卷积长短时记忆模型块结构如图1所示。
基于以上结构,本发明对传统CLDNN结构提出了改进。针对传统CLDNN 模型中的全连接长短时记忆模型无法保持特征空间的结构局部性,并且容易过拟合的问题,使用由多个残差ConvLSTM块组成的深度残差ConvLSTM网络结构来代替传统CLDNN模型中的多层LSTM结构,使模型在处理语音特征中的时间关系上有更好的表现,并且不容易过拟合。改进后的CNN-ResconvLSTM-DNN模型能够通过叠加更多的残差ConvLSTM来建立更深的模型而不发生梯度消失、梯度***和“退化”问题,能在语音识别任务中发挥出更好的性能,其结构如图2所示。
S4、构建目标函数,即语音识别单词错误率(WER%),损失函数使用CTC loss;
假设标签元素表L的大小为K。给定输入序列X=(x1,x2,...,xT),对应输出标签序列Y=(y1,y2,...,yU)。CTC的任务是在给定的输入序列下,将损失值反馈给神经网络,通过调整神经网络内部参数使输出标签的对数概率最大化,即 max(lnP(Y|X))。CTC还引入了空标签blank来表示不属于标签元素表L的映射,比如停顿、咳嗽声等。
将最后一层DNN后的softmax层输出作为CTC的输入,softmax输出包含K+1 个节点映射到L∪{blank}中的每个元素。整个CTC路径概率如下式所示:
其中zt为在t时刻,softmax得到输出向量,代表第k个标签对应的后验概率。为了解决softmax输出和标签序列之间的对齐问题,引入输入序列在帧层面上一一对应的CTC路径p=(p1,p2,...,pT)。将标签序列Y通过映射Ф对应到CTC 路径p上,由于此映射是一对多的映射,所以一个标签可以对应多个CTC路径。所以标签Y的概率由所有对应此标签的CTC路径概率和表示为下式:
CTC的损失函数而被定义为每个训练样本正确标记的负对数之和,如下式:
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型;
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,包括以下步骤:
S1、获取语音数据集并进行划分,将语音数据集划分为训练集、交叉验证集和测试集;
S2、对所有语音数据进行预处理,得到语音信号的梅尔频率倒谱系数MFCC;
S3、构建改进型CLDNN网络模型,包括由卷积神经网络CNN构成的语音特征抽象化处理部分、处理语音信号时序信息的残差卷积长短时记忆模型和将处理后的特征空间映射到输出层的深度神经网络DNN;
S4、构建语音识别的损失函数,损失函数使用CTC loss;
S5、用训练集对步骤S3的改进型CLDNN模型进行训练,利用Adam算子优化步骤S4的目标函数;
S6、使用验证集对步骤S5训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型。
2.根据权利要求1所述的一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,所述步骤2的预处理步骤包括:预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换。
3.根据权利要求1所述的一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,所述步骤S3中的残差卷积长短时记忆模型具体为:对全连接长短时记忆模型中的矩阵乘积替换为卷积运算得到卷积长短时记忆模型,对该模型使用残差网络结构得到残差卷积长短时记忆模型。
4.根据权利要求3所述的一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,所述残差网络结构用来构建深层网络,通过跳跃连接skip connection直接连接浅层网络与深层网络,从而使得梯度能更好地传递到浅层,残差网络由多个残差块构成,由多个残差块组成的深度残差网络结构来代替传统CLDNN模型中的多层LSTM长短时记忆模型结构。
5.根据权利要求3所述的一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,所述步骤S4,损失函数使用CTC loss,具体包括:
假设标签元素表L的大小为K,给定输入序列X=(x1,x2,...,xT),对应输出标签序列Y=(y1,y2,...,yU),CTC的任务是在给定的输入序列下,将损失值反馈给神经网络,通过调整神经网络内部参数使输出标签的对数概率最大化,即max(lnP(Y|X)),CTC连接时序分类还引入了空标签blank来表示不属于标签元素表L的映射;
将最后一层DNN后的softmax层输出作为CTC的输入,softmax输出包含K+1个节点映射到L∪{blank}中的每个元素,整个CTC路径概率如下式所示:
其中zt为在t时刻,softmax得到输出向量,代表第k个标签对应的后验概率,为了解决softmax输出和标签序列之间的对齐问题,引入输入序列在帧层面上一一对应的CTC路径p=(p1,p2,...,pT),将标签序列Y通过映射Ф对应到CTC路径p上,由于此映射是一对多的映射,所以一个标签可以对应多个CTC路径,所以标签Y的概率由所有对应此标签的CTC路径概率和表示为下式:
CTC的损失函数而被定义为每个训练样本正确标记的负对数之和,如下式:
6.根据权利要求5所述的一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,所述步骤S5利用Adam算子优化步骤S4的目标函数;
计算t时间步的梯度:
gt=▽θJ(θt-1)
首先,计算梯度的指数移动平均数,m0初始化为0,综合考虑之前时间步的梯度动量,β1系数为指数衰减率,控制权重分配(动量与当前梯度),通常取接近于1的值,默认为0.9
mt=β1mt-1+(1-β1)gt
第二,计算梯度平方的指数移动平均数,v0初始化为0。β2系数为指数衰减率,控制之前的梯度平方的影响情况,默认为0.999;
第三,由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段。所以,此处需要对梯度均值mt进行偏差纠正,降低偏差对训练初期的影响;
第四,由于v0初始化为0导致训练初始阶段vt偏向0,对其进行纠正;
第五,更新参数,初始的学***方根之比。其中默认学习率α=0.001,ε=10^-8;
7.根据权利要求6所述的一种基于改进型CLDNN结构的端到端语音识别方法,其特征在于,所述步骤S6对步骤S5训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型,具体包括:
交叉验证步骤:
1、初始化权值,取权值为-0.5至0.5之间的随机数;
2、将学习样本空间C分为N份;
3、从学习数据文件中依规定顺序取出N-1份作为训练数据样本;剩下的第N份作为验证数据样本;完成步骤4到步骤7;
4、从训练数据样本中读入一个样本开始训练;
5、计算本样本输出误差总量度EP;修改两层权值直到EP<(为规定的误差量度),读入下一个训练样本;
6、直到N-1份训练样本中所有样本学习结束,产生一组权值,用此组权值计算验证样本,计算验证样本的验证成功率RATE=(满足EP<的验证样本个数)/(总的验证样本个数)
7、如果验证样本成功率RATE>rate(rate为规定的成功率),则结束此轮的学习;否则学习所有的验证样本;
超参数:
学习率:学习率是指在优化算法中更新网络权重的幅度大小;不同的优化算法决定不同的学习率;当学习率过大则可能导致模型不收敛,损失函数不断上下震荡;学习率过小则导致模型收敛速度偏慢,需要更长的时间训练;通常取值为0.01、0.001、0.0001;
批次大小:批次大小是每一次训练神经网络送入模型的样本数,在卷积神经网络中,大批次通常可使网络更快收敛,但由于内存资源的限制,批次过大可能会导致内存不够用或程序内核崩溃;通常取值为16、32、64、128;
迭代次数:迭代次数是指整个训练集输入到神经网络进行训练的次数,当验证错误率和训练错误率相差较小时,可认为当前迭代次数合适;当验证错误率先变小后变大时则说明迭代次数过大了,需要减小迭代次数,否则容易出现过拟合。
CN201910115486.6A 2019-02-14 2019-02-14 一种应用到端到端语音识别的cldnn结构的建立方法 Active CN109767759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910115486.6A CN109767759B (zh) 2019-02-14 2019-02-14 一种应用到端到端语音识别的cldnn结构的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910115486.6A CN109767759B (zh) 2019-02-14 2019-02-14 一种应用到端到端语音识别的cldnn结构的建立方法

Publications (2)

Publication Number Publication Date
CN109767759A true CN109767759A (zh) 2019-05-17
CN109767759B CN109767759B (zh) 2020-12-22

Family

ID=66456247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910115486.6A Active CN109767759B (zh) 2019-02-14 2019-02-14 一种应用到端到端语音识别的cldnn结构的建立方法

Country Status (1)

Country Link
CN (1) CN109767759B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110309771A (zh) * 2019-06-28 2019-10-08 南京丰厚电子有限公司 一种基于gbdt-insgaii的eas声磁***标签识别算法
CN110335591A (zh) * 2019-07-04 2019-10-15 广州云从信息科技有限公司 一种参数管理方法、装置、机器可读介质及设备
CN110443127A (zh) * 2019-06-28 2019-11-12 天津大学 结合残差卷积结构和循环神经网络的乐谱图像识别方法
CN110600053A (zh) * 2019-07-30 2019-12-20 广东工业大学 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN110659773A (zh) * 2019-09-16 2020-01-07 杭州师范大学 一种基于深度学习的航班延误预测方法
CN110751944A (zh) * 2019-09-19 2020-02-04 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
CN110942090A (zh) * 2019-11-11 2020-03-31 北京迈格威科技有限公司 模型训练、图像处理方法、装置、电子设备及存储介质
CN110992940A (zh) * 2019-11-25 2020-04-10 百度在线网络技术(北京)有限公司 语音交互的方法、装置、设备和计算机可读存储介质
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
CN111092798A (zh) * 2019-12-24 2020-05-01 东华大学 一种基于口语理解的可穿戴***
CN111243624A (zh) * 2020-01-02 2020-06-05 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 人员状态评估的方法和***
CN111401530A (zh) * 2020-04-22 2020-07-10 上海依图网络科技有限公司 循环神经网络及其训练方法训练方法
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
CN111898734A (zh) * 2020-07-10 2020-11-06 中国科学院精密测量科学与技术创新研究院 一种基于mlp的nmr弛豫时间反演方法
CN112289309A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的机器人语音控制方法
CN112560453A (zh) * 2020-12-18 2021-03-26 平安银行股份有限公司 语音信息校验方法、装置、电子设备及介质
CN112651313A (zh) * 2020-12-17 2021-04-13 国网上海市电力公司 一种设备铭牌双重智能化识别方法、存储介质及终端
CN112652296A (zh) * 2020-12-23 2021-04-13 北京华宇信息技术有限公司 流式语音端点检测方法、装置及设备
CN112669827A (zh) * 2020-12-28 2021-04-16 清华大学 一种自动语音识别器的联合优化方法及***
CN112904220A (zh) * 2020-12-30 2021-06-04 厦门大学 一种基于数字孪生和机器学习的ups健康预测方法、***、电子设备及可存储介质
CN113270097A (zh) * 2021-05-18 2021-08-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN113327590A (zh) * 2021-04-15 2021-08-31 中标软件有限公司 一种语音识别方法
CN113569992A (zh) * 2021-08-26 2021-10-29 中国电子信息产业集团有限公司第六研究所 异常数据识别方法及装置、电子设备和存储介质
CN113852434A (zh) * 2021-09-18 2021-12-28 中山大学 一种LSTM与ResNets辅助的深度学习端到端智能通信方法与***
CN114550706A (zh) * 2022-02-21 2022-05-27 苏州市职业大学 基于深度学习的智慧校园语音识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition
CN108564940A (zh) * 2018-03-20 2018-09-21 平安科技(深圳)有限公司 语音识别方法、服务器及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN108564940A (zh) * 2018-03-20 2018-09-21 平安科技(深圳)有限公司 语音识别方法、服务器及计算机可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
《SUYOUN KIM ET AL.》: "《Joint CTC-attention based end-to-end speech recognition using multi task learning》", 《ICASSP 2017》 *
DIEDERIK P.KINGMA ET AL.: "《Adam:A method for stochastic optimization》", 《ICLR 2015》 *
SYLVAIN ARLOT: "《A survey of cross-validation procedures for model selection》", 《STATISTICS SURVEYS》 *
TARA N.SAINATH ET AL.: "《Convolutional,Long Short-Term Memory,fully connected Deep Neural Networks》", 《ICASSP 2015》 *
李刚等: "《有指导机器学习超参数的交叉验证智能优化》", 《西安工业大学学报》 *
李睿琪等: "《一种基于支持向量机的锂电池健康状态评估方法》", 《17TH CCSSTAE 2016》 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110309771B (zh) * 2019-06-28 2023-03-24 南京丰厚电子有限公司 一种基于gbdt-insgaii的eas声磁***标签识别算法
CN110309771A (zh) * 2019-06-28 2019-10-08 南京丰厚电子有限公司 一种基于gbdt-insgaii的eas声磁***标签识别算法
CN110443127A (zh) * 2019-06-28 2019-11-12 天津大学 结合残差卷积结构和循环神经网络的乐谱图像识别方法
CN110335591A (zh) * 2019-07-04 2019-10-15 广州云从信息科技有限公司 一种参数管理方法、装置、机器可读介质及设备
CN110600053A (zh) * 2019-07-30 2019-12-20 广东工业大学 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
CN110659773A (zh) * 2019-09-16 2020-01-07 杭州师范大学 一种基于深度学习的航班延误预测方法
CN110751944A (zh) * 2019-09-19 2020-02-04 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
WO2021051628A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
CN110634476B (zh) * 2019-10-09 2022-06-14 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN110942090A (zh) * 2019-11-11 2020-03-31 北京迈格威科技有限公司 模型训练、图像处理方法、装置、电子设备及存储介质
CN110942090B (zh) * 2019-11-11 2024-03-29 北京迈格威科技有限公司 模型训练、图像处理方法、装置、电子设备及存储介质
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
US11250854B2 (en) * 2019-11-25 2022-02-15 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice interaction, device and computer-readable storage medium
CN110992940A (zh) * 2019-11-25 2020-04-10 百度在线网络技术(北京)有限公司 语音交互的方法、装置、设备和计算机可读存储介质
CN111092798A (zh) * 2019-12-24 2020-05-01 东华大学 一种基于口语理解的可穿戴***
CN111092798B (zh) * 2019-12-24 2021-06-11 东华大学 一种基于口语理解的可穿戴***
CN111243624A (zh) * 2020-01-02 2020-06-05 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 人员状态评估的方法和***
CN111243624B (zh) * 2020-01-02 2023-04-07 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 人员状态评估的方法和***
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
CN111429947B (zh) * 2020-03-26 2022-06-10 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
CN111401530B (zh) * 2020-04-22 2021-04-09 上海依图网络科技有限公司 一种用于语音识别装置神经网络的训练方法
WO2021212684A1 (zh) * 2020-04-22 2021-10-28 上海依图网络科技有限公司 循环神经网络及其训练方法
CN111401530A (zh) * 2020-04-22 2020-07-10 上海依图网络科技有限公司 循环神经网络及其训练方法训练方法
CN111898734A (zh) * 2020-07-10 2020-11-06 中国科学院精密测量科学与技术创新研究院 一种基于mlp的nmr弛豫时间反演方法
CN111898734B (zh) * 2020-07-10 2023-06-23 中国科学院精密测量科学与技术创新研究院 一种基于mlp的nmr弛豫时间反演方法
CN112289309A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的机器人语音控制方法
CN112651313A (zh) * 2020-12-17 2021-04-13 国网上海市电力公司 一种设备铭牌双重智能化识别方法、存储介质及终端
CN112560453B (zh) * 2020-12-18 2023-07-14 平安银行股份有限公司 语音信息校验方法、装置、电子设备及介质
CN112560453A (zh) * 2020-12-18 2021-03-26 平安银行股份有限公司 语音信息校验方法、装置、电子设备及介质
CN112652296A (zh) * 2020-12-23 2021-04-13 北京华宇信息技术有限公司 流式语音端点检测方法、装置及设备
CN112669827A (zh) * 2020-12-28 2021-04-16 清华大学 一种自动语音识别器的联合优化方法及***
CN112669827B (zh) * 2020-12-28 2022-08-02 清华大学 一种自动语音识别器的联合优化方法及***
CN112904220A (zh) * 2020-12-30 2021-06-04 厦门大学 一种基于数字孪生和机器学习的ups健康预测方法、***、电子设备及可存储介质
CN113327590A (zh) * 2021-04-15 2021-08-31 中标软件有限公司 一种语音识别方法
CN113270097B (zh) * 2021-05-18 2022-05-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN113270097A (zh) * 2021-05-18 2021-08-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN113569992A (zh) * 2021-08-26 2021-10-29 中国电子信息产业集团有限公司第六研究所 异常数据识别方法及装置、电子设备和存储介质
CN113569992B (zh) * 2021-08-26 2024-01-09 中国电子信息产业集团有限公司第六研究所 异常数据识别方法及装置、电子设备和存储介质
CN113852434A (zh) * 2021-09-18 2021-12-28 中山大学 一种LSTM与ResNets辅助的深度学习端到端智能通信方法与***
CN113852434B (zh) * 2021-09-18 2023-07-25 中山大学 一种LSTM与ResNets辅助的深度学习端到端智能通信方法与***
CN114550706A (zh) * 2022-02-21 2022-05-27 苏州市职业大学 基于深度学习的智慧校园语音识别方法

Also Published As

Publication number Publication date
CN109767759B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN109767759A (zh) 基于改进型cldnn结构的端到端语音识别方法
CN110556100B (zh) 端到端语音识别模型的训练方法及***
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN109801621A (zh) 一种基于残差门控循环单元的语音识别方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN103531199B (zh) 基于快速稀疏分解和深度学习的生态声音识别方法
CN112509564A (zh) 基于连接时序分类和自注意力机制的端到端语音识别方法
CN109597891A (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN109063820A (zh) 利用时频联合长时循环神经网络的数据处理方法
CN107408111A (zh) 端对端语音识别
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN110706692A (zh) 儿童语音识别模型的训练方法及***
CN110379418A (zh) 一种语音对抗样本生成方法
CN109448706A (zh) 神经网络语言模型压缩方法及***
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN107818080A (zh) 术语识别方法及装置
Yu et al. Acoustic modeling based on deep learning for low-resource speech recognition: An overview
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN110083824A (zh) 一种基于多模型组合神经网络的老挝语分词方法
CN108461080A (zh) 一种基于hlstm模型的声学建模方法和装置
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
Jin et al. Research on objective evaluation of recording audio restoration based on deep learning network
CN108388942A (zh) 基于大数据的信息智能处理方法
CN108417204A (zh) 基于大数据的信息安全处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant