CN109003601A - 一种针对低资源土家语的跨语言端到端语音识别方法 - Google Patents
一种针对低资源土家语的跨语言端到端语音识别方法 Download PDFInfo
- Publication number
- CN109003601A CN109003601A CN201811011859.7A CN201811011859A CN109003601A CN 109003601 A CN109003601 A CN 109003601A CN 201811011859 A CN201811011859 A CN 201811011859A CN 109003601 A CN109003601 A CN 109003601A
- Authority
- CN
- China
- Prior art keywords
- language
- tujia
- chinese
- speech recognition
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013526 transfer learning Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008555 neuronal activation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对低资源土家语的跨语言端到端语音识别方法,包括:土家语语料预处理;构建跨语言的土家语语料库;建立中文国际音标和民族国际音标的统一编码字典;建立跨语言的端到端土家语语音识别模型;利用连接时序分类模型并在编码字典的作用下解码得到识别结果。本发明借助大语种语料充足的优势,结合迁移学习的思想,构造泛化性更强的识别模型,能够提高土家语语音识别的准确率。
Description
技术领域
本发明属于语音识别领域,涉及一种针对低资源土家语的跨语言端到端语音识别方法。
背景技术
随着互联网技术的发展和计算机运算能力和硬件的提升,语音识别技术又一次迎来了新的热潮,尤其近年来,深度学习又一次点燃了科学家们语音识别技术的热情。语音识别技术的应用范围很广,伴随着人工智能的发展,语音识别技术不仅仅包括语音拨号,语音导航,语音文档检索,简单的听写数据录入等功能,还包括了智能交通控制,室内设备控制,智慧城市等方面的应用。若是语音识别技术能得到很好的发展,相信可以给人类衣食住行等方面带来极大的便利和影响,可以推动人类未来智能化生活和工作的进步。
语音信号是一种非平稳时序信号,其形成和感知的过程就是一个复杂信号的处理过程,而语音识别可视为一个序列到序列的分类问题,即声学观测序列X=(x1,x2,…,xT)被映射到字符序列W=(w1,w2,…,wN)上,其中T为时间,N为字符个数,解决概率P(W|X)的问题。在时序分类任务中,常用的方法是输入数据与给定标签必须要在时间上达到帧级别的对齐,只有这样才能使用隐马尔科夫模型(Hidden Markov Model,HMM)按帧进行训练。然而,逐帧训练输出的是单帧概率,对于时序问题来说,输出序列的概率远比输出单帧的概率重要得多。因此,针对此问题,在基于深度学习的语音识别领域中,端到端的语音识别技术已成为国内外近期研究的热点之一。
目前国内外自动语音识别技术多数是依赖于大量的数据资源,而濒危语言是指使用人数越来越少的、行将灭绝的语言,可采集的语音数据量非常有限,属于低资源语音识别。土家语作为众多濒危语言中的一种,没有文字,以口语的形式存在,母语人的数量少,导致数据不易收集,因此对土家语的自动语音识别有很大挑战性。据统计,我国少数民族使用的语言在130种以上,近一半处于衰退状态,当前我国有几十种语言处于濒危状态,这种趋势仍在持续,甚至有所加剧,对濒危语言的识别与保护有助于维护文化的多样性。
对语音材料的文本处理目前已经成为土家语保护工作中的难点和瓶颈。第一,工作量极大,要耗费大量的人力和时间。按照普遍性的经验,一分钟的录音至少需要花费一个小时以上的时间进行文本处理。而没有经过文本处理的语音资料不具备任何可理解性,不具有保存价值;第二,土家语的使用人数少,能够进行语料文本处理的母语人或专业人才稀缺。这使得原本需要大量人力和时间才能完成的语音资料文本处理工作难度更大。因此本发明的目的可以帮助语言学家完成对土家语的记音等工作,能够很大程度上减少人力和时间成本,具有重要的理论意义和应用价值。
发明内容
为了克服上述现有技术的不足,本发明公开了一种针对低资源土家语的跨语言端到端语音识别方法,能够解决土家语在识别过程中的低资源问题,并实现更好的语音识别。
本发明提供的技术方案是:
一种针对低资源土家语的跨语言端到端语音识别方法,包括以下步骤:
1)土家语语料预处理:首先利用Praat脚本完成土家语长篇原始语料的句子切分,得到每句声音与其对应的国际音标文本,并完成声音与文本标签的校对,确保一一对应;得到预处理后的土家语数据;
具体地,土家语国际音标的音位***由声母和韵母构成,21个声母中包括两个半元音声母,韵母由6个单元音、复元音11个和8个鼻化元音组成。
2)构建跨语言的土家语语料库:以汉语语音数据集(例如,清华大学30小时(thchs30)汉语语音数据集)作为土家语的扩展数据,将汉语拼音转换成国际音标,保证与步骤1)中的土家语数据格式一致性,建立汉语和土家语的跨语言语料库,解决土家语语音数据不足的问题;
3)建立中文国际音标和民族国际音标的统一编码字典:首先分别建立土家语和汉语的国际音标字典,并把汉语的国际音标转为民族国际音标,最终的统一编码字典由土家语和汉语的国际音标组成,统计结果表明土家语和汉语的国际音标字典相似度为70%以上(70.83%);
4)建立跨语言的端到端土家语语音识别模型:
使用已有的多语言语音识别方法,首先由步骤2)构建的语料库中的语音得到语谱图,将其输入到卷积神经网络完成特征提取;接着采用双向长短时记忆网络对长序列进行建模,完成共享声学特征提取;最后利用连接时序分类模型并在步骤3)中编码字典的作用下解码得到识别结果;具体执行如下操作:
41)模型的输入为土家语和汉语语音的语谱图,首先经过一层卷积和一层最大池化,接着再经过一层卷积,完成包含更复杂信息的高维特征(High-dimension Feature)提取;
42)然后将高维特征输入3层双向长短期记忆网络,完成共享声学特征提取;
43)最后利用连接时序分类模型并在步骤3)中编码字典的作用下解码得到识别结果,模型的输出为土家语国际音标;
5)采用跨语言和迁移学习的方法,使用步骤2)中土家语和汉语的跨语言语料库作为训练数据进行模型训练,得到初始模型;继续使用土家语语料库作为训练数据,得到最终的跨语言的端到端土家语语音识别模型;
本发明具体实施采用的跨语言的端到端语音识别模型的结构中,Conv为卷积层,BiLSTM为双向长短时记忆层,affine为映射层,softmax为分类器,CTC为连接时序分类层。具体实施时,借助清华大学30小时语料充足的优势,结合迁移学习的思想,先使用步骤2)中土家语和汉语的跨语言语料库作为训练数据得到的初始模型,并在初始模型的基础上继续使用步骤1)中的土家语语料库作为训练数据得到的最终模型,其泛化性更强且识别错误率更低,最终字符错误识别率为46.19%。
与现有技术相比,本发明的有益效果是:
本发明提供一种针对土家语的跨语言端到端语音识别方法,构建跨语言的土家语语料库,建立跨语言的端到端土家语语音识别模型,在以步骤2)中的跨语言语料库作为训练数据获得的初始模型基础之上,再次使用步骤1)中的土家语数据进行最终模型的训练,得到的最终模型的泛化性更强且识别错误率更低,相对仅使用步骤1)中的土家语数据作训练的模型的识别错误率下降了2.11%,并且能够可以帮助语言学家完成对土家语的记音等工作,能够很大程度上减少人力和时间成本,具有重要的理论意义和应用价值。
相比于现有技术,本发明在创建的网络结构中加入了卷积神经网络,可提取高维特征;同时,本发明创建的网络结构中的LSTM网络用BN(batch normalization)和SortaGrad来进行了优化;此外,本发明方法对土家语语音数据进行了扩展,构建了跨语言语料库,并使用了跨语言和迁移学习的方法,识别率相对提升显著,这也是本发明方法重要的技术创新和优势。
附图说明
图1是本发明方法的具体实施流程的示意图。
图2是本发明具体实施采用的跨语言的端到端语音识别模型的结构示意图;
其中,Conv为卷积层,BiLSTM为双向长短时记忆层,affine为映射层,softmax为分类器,CTC为连接时序分类层。
图3是本发明实施例循环神经网络(RNN)元胞状态为双向循环神经网络(BiRNN)的训练时损失函数值变化示意图。
图4是本发明实施例中RNN元胞状态为双向门限循环神经网络(BiGRU)的训练时损失函数值变化示意图。
图5是本发明实施例中RNN元胞状态为双向长短期记忆网络(BiLSTM)的训练时损失函数值变化示意图。
图3-图5中,横坐标为迭代次数(Passes),纵坐标为损失函数值(Cost)。
图6是本发明实施例中不同RNN元胞状态训练时的时间消耗示意图;
其中,横坐标为迭代次数(Passes),纵坐标为消耗的时间(Time)。
具体实施方式
以下结合附图对本发明做进一步说明。
本发明利用多语言(Multi-lingual)语音识别和迁移学习(Transfer Learning)的方法,具体实施过程如图1所示,其中模型A为是使用土家语语料库作为训练数据得到的模型,模型B是使用土家语和中文语料库作为训练数据得到的模型,模型C是在初始模型模型B的基础上继续使用土家语语料库作为训练数据得到的模型。
具体实施时,本发明采用2层卷积神经网络(Convolutional Neural Network,CNN)、3层双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)和连接时序分类连接时序分类(Connectionist Temporal Classification,CTC)组合的端到端语音识别模型。对跨语言语音数据进行一系列的预处理得到语谱图,使用多语言语音识别方法,将其输入到CNN完成特征提取,接着采用BiLSTM对长序列进行建模,充分挖掘上下文信息,完成共享声学特征提取,最后利用CTC模型代替传统的隐马尔可夫模型进行各状态之间转移概率的计算,并在编码字典的作用下解码得到识别结果。本发明利用迁移学习的思想,先使用土家语和汉语语料库作为训练数据得到的初始模型,并在初始模型的基础上继续使用土家语语料库作为训练数据得到的最终模型,土家语的识别错误率为46.19%,相对只使用土家语数据作训练的模型的识别错误率下降了2.11%。
在具体的实施过程中,跨语言的端到端语音识别模型结构如图2所示。模型的输出为土家语国际音标,模型的输入为土家语和汉语语音的语谱图,首先经过一层卷积和一层最大池化,通过最大池化得到的特征数据对纹理特征的信息更敏感一些;然后再经过一层卷积,第二层卷积中每一个节点的输入是上一层最大池化的一小块,将每一个小块进行更加深入地分析从而提取得到抽象程度更高的特征,即高维特征。其中,第一层卷积,滤波器的大小为11*41,输入通道个数为1,输出通道个数为32,步长的高宽为3*2,填充空间的高宽为5*20;第二层卷积,滤波器的大小为11*21,输入通道个数为1,输出通道个数为32,步长的高宽为1*2,填充空间的高宽为5*10。
在提取高维特征后进入3层双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM),其中每个神经元是一个“记忆细胞”,细胞里面有一个“输入门”、一个“遗忘门”和一个“输出门”,可以选择性记忆历史信息。输入门决定何时让输入进入细胞单元,遗忘门决定何时应该记住前一时刻的记忆,输出门决定何时让记忆流入到下一时刻。在正向长短时记忆网络中,BiLSTM在t时刻按照如下式1~式6进行计算,为了表达简便,将箭头“→”去掉。
it=σ(Wixxt+Wihht-1+Wicct-1+bi) (式1)
ft=σ(Wfxxt+Wfhht-1+Wfcct-1+bf) (式2)
ct=ftct-1+itφ(Wcxxt+Wchht-1+bc) (式3)
ot=σ(Woxxt+Wohht-1+Wocct+bo) (式4)
ht=otφ(ct) (式5)
yt=Wyhh+by (式6)
上式中it、ft、ct、ot、ht、xt、yt是分别是t时刻的输入门、遗忘门、记忆单元、输出门、隐藏层状态、输入和输出,W为各部分的权值矩阵,例如Wix为输入门与输入层之间的权值矩阵,b为各部分的偏置矩阵,例如bi为输入门的偏置矩阵;σ是sigmoid函数,φ为神经元激活函数,如tanh等。同理,反向长短时记忆网络的计算也一样,但使用箭头为“←”。
在语谱图经过卷积神经网络和BiLSTM网络,即完成跨语言共享声学特征提取,并充分挖掘上下文信息之后,得到输出序列Y=(y1,y2,…,yi,…,yT),其中第i帧的条件概率分布则softmax层的输出为:
式中,K为所有标签个数,即连接时序分类(Connectionist TemporalClassification,CTC)网络输出层结点个数K。
对于T帧声学输入,CTC网络学习得到长度为T的标注序列π的概率为
对于给定的标注序列μ,由于空白(blank)***的位置不同及非blank标注重复性的存在,π与μ存在多对一的关系。因此可将目标函数重写如下:
其中μ=B(π)为映射函数,即给定参考标注μ目标函数定义如下:
CTC(x)=-logP(μ|x)(式10)
从上述CTC网络的训练过程不难看出,CTC网络解码的最佳路径就是在给定输入序列的情况下,找到概率最大的输出序列:
式中π*为T帧输入序列的后验概率输出的最大值对应的标注序列。
在模型训练过程中,本发明选用BN(batch normalization)和SortaGrad来优化模型。BN是在神经网络的训练过程中对每层的输入数据加一个标准化处理。传统的神经网络,只是在样本进入输入层之前进行了标准化处理(比如减均值),以降低样本间的差异性,而BN是在此基础上,不仅仅只对输入层的输入数据进行标准化,还对每个隐藏层的输入进行标准化。它的作用是要最大限度地保证每次的正向传播输出在同一分布上,这样反向计算时参照的数据样本就会与正向计算时的数据分布一样,即保证统一分布。SortaGrad根据语音数据的时长特点,在batch中逐渐增加句子长度。这样不仅能加速模型收敛,而且使得模型稳定性更好。
在土家语语料上,我们通过修改RNN元胞状态,同时其他参数一致的情况下,即batch_size为16,卷积层为2,循环神经网络层为3,隐层节点个数为256,学习率为0.0001,对比模型训练时的损失函数值变化、时间消耗以及最终在测试集上的字符错误率,如图3~6和表1所示。
表1不同RNN元胞状态(RNN_CELL)在测试集上的字符错误率(CER)
RNN_CELL | CER |
BiRNN | 53.37% |
BiGRU | 51.95% |
BiLSTM | 48.30% |
通过图3~6和表1中结果可以看出,虽然BiRNN网络训练速度比BiGRU、BiLSTM要快,但是最终识别准确率最高的是BiLSTM,根据实际需求,本发明选择使用BiLSTM网络。
迁移学习是通过寻找已有任务与目标任务之间的共性知识,降低对目标训练数据的依赖,以更好地帮助目标任务的学习,使得机器学习算法有了更大的适用性,获得了机器学习和数据挖掘等研究者的关注,并在数据挖掘、图形处理等领域获得了应用。迁移学习虽然没有同分布的假设要求,但是需要源领域与目标领域具有相关性,这种相关性的定义相对广泛,只要两个领域的特征空间、边缘概率分布或者是条件概率分布具有一种相关性就可以,一般只要两个领域的特征空间具有显性或隐性的一点关系,就可以认为这两个领域是相关的。在建立中文国际音标和民族国际音标的统一编码字典过程中,统计结果表明土家语和汉语的国际音标字典相似度为70.83%。不同模型下的土家语语音识别实验对比如表2所示。
表2不同模型下的土家语字符错误率(CER)
模型类别 | CER |
模型A | 48.30% |
模型B | 50.26% |
模型C | 46.19% |
表2的实验结果表明,只使用土家语语料库作为训练数据得到的模型A优于使用土家语和中文语料库作为训练数据得到的模型B,而以初始模型模型B为基础继续使用土家语语料库作为训练数据得到的模型C优于A,因此对有较少数据的土家语进行语音识别,本发明中***方案是可行和有效的。
Claims (9)
1.一种针对低资源土家语的跨语言端到端语音识别方法,其特征在于,包括以下步骤:
1)对土家语语料进行预处理:对土家语长篇原始语料的句子进行切分,得到每个句子的声音与其对应的国际音标文本,完成句子的声音与文本的校对,使得句子的声音与文本一一对应,由此得到预处理后的土家语数据;
2)构建跨语言的土家语语料库:以汉语语音数据集作为土家语的扩展数据,将汉语拼音转换成国际音标,使其与步骤1)中的土家语数据格式一致;
建立汉语和土家语的跨语言语料库;汉语和土家语的跨语言语料库包括步骤1)预处理后的土家语数据和将汉语语音数据集中的汉语拼音转换成国际音标后得到的汉语数据;
3)建立中文国际音标和民族国际音标的统一编码字典:分别建立土家语和汉语的国际音标字典;并将汉语的国际音标转为民族国际音标;统一编码字典包括土家语的国际音标和汉语的国际音标;
4)建立跨语言的端到端土家语语音识别模型:首先使用多语言语音识别方法,由步骤2)构建的土家语语料库中的语音得到语谱图;将其输入到卷积神经网络完成特征提取;接着采用双向长短时记忆网络对长序列进行建模,完成共享声学特征提取;最后利用连接时序分类模型并在统一编码字典的作用下进行解码得到识别结果,输出土家语的国际音标;
5)采用跨语言和迁移学习的方法,使用土家语和汉语的跨语言语料库作为训练数据,对步骤4)建立的跨语言的端到端土家语语音识别模型进行训练,得到初始模型;继续使用土家语语料库作为训练数据进行训练,得到训练好的跨语言的端到端土家语语音识别模型;
利用训练好的跨语言的端到端土家语语音识别模型,即可实现对待识别的土家语进行跨语言端到端的语音识别。
2.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤1)具体利用Praat脚本完成土家语长篇原始语料的句子切分。
3.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤2)中,所述汉语语音数据集具体采用清华大学30小时汉语语音数据集thchs30作为土家语的扩展数据,用于解决土家语语音数据不足的问题。
4.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤3)中,土家语的国际音标字典和汉语的国际音标字典的相似度为70%以上。
5.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤4)建立跨语言的端到端土家语语音识别模型,具体执行如下操作:
41)将土家语和汉语语音的语谱图输入到卷积神经网络,首先经过第一层卷积层和一层最大池化层,再经过第二层卷积层,提取得到高维特征;
42)将高维特征输入3层双向长短期记忆网络BiLSTM,提取共享声学特征;
43)利用连接时序分类CTC模型及步骤3)所述统一编码字典进行解码,得到识别结果,模型输出为土家语国际音标。
6.如权利要求5所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤41)中,第一层卷积层的滤波器的大小为11*41,输入通道个数为1,输出通道个数为32,步长的高宽为3*2,填充空间的高宽为5*20;第二层卷积层的滤波器的大小为11*21,输入通道个数为1,输出通道个数为32,步长的高宽为1*2,填充空间的高宽为5*10;
步骤42)中,3层双向长短期记忆网络中的每个神经元包括一个输入门、一个遗忘门和一个输出门,可用于选择性记忆历史信息;正向长短时记忆网络和反向长短时记忆网络在t时刻按照式1~式6进行计算:
it=σ(Wixxt+Wihht-1+Wicct-1+bi) (式1)
ft=σ(Wfxxt+Wfhht-1+Wfcct-1+bf) (式2)
ct=ftct-1+itφ(Wcxxt+Wchht-1+bc) (式3)
ot=σ(Woxxt+Wohht-1+Wocct+bo) (式4)
ht=otφ(ct) (式5)
yt=Wyhh+by (式6)
对正向长短时记忆网络和反向长短时记忆网络,式1~式6分别省略了箭头“→”和“←”;式中,it、ft、ct、ot、ht、xt、yt分别是t时刻的输入门、遗忘门、记忆单元、输出门、隐藏层状态、输入和输出;W为各部分的权值矩阵,其中Wix为输入门与输入层之间的权值矩阵;b为各部分的偏置矩阵,其中bi为输入门的偏置矩阵;σ是sigmoid函数;φ为神经元激活函数;
语谱图经过卷积神经网络和BiLSTM网络提取跨语言共享声学特征,并充分挖掘上下文信息,得到输出序列Y=(y1,y2,…,yi,…,yT),其中第i帧的条件概率分布i=1,2,…,K;则softmax层的输出表示为式7:
式中,K为所有标签个数,即连接时序分类网络输出层结点个数;
对于T帧的声学输入,CTC网络学习得到长度为T的标注序列π的概率表示为式8:
对于给定的标注序列μ,π与μ存在多对一的关系;将目标函数表示为式9:
其中,μ=B(π)为映射函数,即给定参考标注μ目标函数定义如式10:
CTC(x)=-logP(μ|x) (式10)
步骤43)CTC网络解码具体是在给定输入序列的情况下,通过式11找到概率最大的输出序列:
式中,π*为T帧输入序列的后验概率输出的最大值对应的标注序列。
7.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,土家语的国际音标的音位***包括21个声母和25个韵母;声母包括两个半元音声母;韵母包括6个单元音、11个复元音和8个鼻化元音。
8.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,具体采用2层卷积神经网络CNN、3层双向长短期记忆网络BiLSTM和连接时序分类连接时序分类CTC构建端到端语音识别模型。
9.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法,其特征是,步骤5)在模型训练过程中,采用BN和SortaGrad对模型进行优化;通过BN对输入层的输入数据和每个隐藏层的输入数据均进行标准化;通过SortaGrad逐渐增加batch句子长度,使得模型收敛加速,模型稳定性更佳。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011859.7A CN109003601A (zh) | 2018-08-31 | 2018-08-31 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011859.7A CN109003601A (zh) | 2018-08-31 | 2018-08-31 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109003601A true CN109003601A (zh) | 2018-12-14 |
Family
ID=64590770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811011859.7A Pending CN109003601A (zh) | 2018-08-31 | 2018-08-31 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109003601A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110335609A (zh) * | 2019-06-26 | 2019-10-15 | 四川大学 | 一种基于语音识别的地空通话数据分析方法及*** |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110681051A (zh) * | 2019-10-21 | 2020-01-14 | 深圳大学 | 一种人工耳蜗信号处理方法、装置及计算机可读存储介质 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控***集成有限公司 | 人工智能cnn、lstm神经网络语音识别*** |
CN110930980A (zh) * | 2019-12-12 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 一种中英文混合语音的声学识别模型、方法及*** |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
CN111009236A (zh) * | 2019-11-20 | 2020-04-14 | 武汉水象电子科技有限公司 | 一种基于dblstm+ctc声学模型的语音识别方法 |
CN111261144A (zh) * | 2019-12-31 | 2020-06-09 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN111429913A (zh) * | 2020-03-26 | 2020-07-17 | 厦门快商通科技股份有限公司 | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN111627427A (zh) * | 2020-05-15 | 2020-09-04 | 北京青牛技术股份有限公司 | 特定领域的语音识别模型的构建方法 |
CN111833845A (zh) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
CN112885351A (zh) * | 2021-04-30 | 2021-06-01 | 浙江非线数联科技股份有限公司 | 一种基于迁移学习的方言语音识别方法及装置 |
CN112967710A (zh) * | 2021-03-25 | 2021-06-15 | 江西师范大学 | 一种低资源客家方言点识别方法 |
WO2021115083A1 (zh) * | 2019-12-11 | 2021-06-17 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及***及计算机可读存储介质 |
CN113077785A (zh) * | 2019-12-17 | 2021-07-06 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
CN113127622A (zh) * | 2021-04-29 | 2021-07-16 | 西北师范大学 | 一种从语音到图像的生成方法及*** |
CN113192487A (zh) * | 2021-04-30 | 2021-07-30 | 平安科技(深圳)有限公司 | 支持多语言混合的语音识别方法、装置、设备及存储介质 |
CN113223506A (zh) * | 2021-05-28 | 2021-08-06 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
CN113435441A (zh) * | 2021-07-22 | 2021-09-24 | 广州华腾教育科技股份有限公司 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
CN113488022A (zh) * | 2021-07-07 | 2021-10-08 | 北京搜狗科技发展有限公司 | 一种语音合成方法和装置 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN114999463A (zh) * | 2022-08-01 | 2022-09-02 | 深译信息科技(珠海)有限公司 | 语音识别方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN105825511A (zh) * | 2016-03-18 | 2016-08-03 | 南京邮电大学 | 一种基于深度学习的图片背景清晰度检测方法 |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其*** |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
-
2018
- 2018-08-31 CN CN201811011859.7A patent/CN109003601A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN105825511A (zh) * | 2016-03-18 | 2016-08-03 | 南京邮电大学 | 一种基于深度学习的图片背景清晰度检测方法 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其*** |
Non-Patent Citations (3)
Title |
---|
于重重等: "基于动态 BLSTM 和CTC的濒危语言语音识别研究", 《计算机应用研究》 * |
高志强等: "《深度学习:从入门到实战》", 30 June 2018 * |
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476067B (zh) * | 2019-01-23 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控***集成有限公司 | 人工智能cnn、lstm神经网络语音识别*** |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
CN110335609A (zh) * | 2019-06-26 | 2019-10-15 | 四川大学 | 一种基于语音识别的地空通话数据分析方法及*** |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110428818B (zh) * | 2019-08-09 | 2021-09-28 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110681051A (zh) * | 2019-10-21 | 2020-01-14 | 深圳大学 | 一种人工耳蜗信号处理方法、装置及计算机可读存储介质 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
CN111009236A (zh) * | 2019-11-20 | 2020-04-14 | 武汉水象电子科技有限公司 | 一种基于dblstm+ctc声学模型的语音识别方法 |
WO2021115083A1 (zh) * | 2019-12-11 | 2021-06-17 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及***及计算机可读存储介质 |
CN110930980A (zh) * | 2019-12-12 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 一种中英文混合语音的声学识别模型、方法及*** |
CN113077785A (zh) * | 2019-12-17 | 2021-07-06 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
CN113077785B (zh) * | 2019-12-17 | 2022-07-12 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
CN111261144A (zh) * | 2019-12-31 | 2020-06-09 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN111261144B (zh) * | 2019-12-31 | 2023-03-03 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
WO2021135611A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN111429913A (zh) * | 2020-03-26 | 2020-07-17 | 厦门快商通科技股份有限公司 | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 |
CN111627427A (zh) * | 2020-05-15 | 2020-09-04 | 北京青牛技术股份有限公司 | 特定领域的语音识别模型的构建方法 |
CN111627427B (zh) * | 2020-05-15 | 2023-05-05 | 北京青牛技术股份有限公司 | 特定领域的语音识别模型的构建方法 |
CN111833845A (zh) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN111833845B (zh) * | 2020-07-31 | 2023-11-24 | 平安科技(深圳)有限公司 | 多语种语音识别模型训练方法、装置、设备及存储介质 |
CN112967710A (zh) * | 2021-03-25 | 2021-06-15 | 江西师范大学 | 一种低资源客家方言点识别方法 |
CN112967710B (zh) * | 2021-03-25 | 2022-06-14 | 江西师范大学 | 一种低资源客家方言点识别方法 |
CN113127622A (zh) * | 2021-04-29 | 2021-07-16 | 西北师范大学 | 一种从语音到图像的生成方法及*** |
CN112885351A (zh) * | 2021-04-30 | 2021-06-01 | 浙江非线数联科技股份有限公司 | 一种基于迁移学习的方言语音识别方法及装置 |
CN112885351B (zh) * | 2021-04-30 | 2021-07-23 | 浙江非线数联科技股份有限公司 | 一种基于迁移学习的方言语音识别方法及装置 |
CN113192487A (zh) * | 2021-04-30 | 2021-07-30 | 平安科技(深圳)有限公司 | 支持多语言混合的语音识别方法、装置、设备及存储介质 |
CN113192487B (zh) * | 2021-04-30 | 2024-05-03 | 平安科技(深圳)有限公司 | 支持多语言混合的语音识别方法、装置、设备及存储介质 |
CN113223506B (zh) * | 2021-05-28 | 2022-05-20 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
CN113223506A (zh) * | 2021-05-28 | 2021-08-06 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
CN113488022B (zh) * | 2021-07-07 | 2024-05-10 | 北京搜狗科技发展有限公司 | 一种语音合成方法和装置 |
CN113488022A (zh) * | 2021-07-07 | 2021-10-08 | 北京搜狗科技发展有限公司 | 一种语音合成方法和装置 |
CN113435441A (zh) * | 2021-07-22 | 2021-09-24 | 广州华腾教育科技股份有限公司 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN114999463B (zh) * | 2022-08-01 | 2022-11-15 | 深译信息科技(珠海)有限公司 | 语音识别方法、装置、设备及介质 |
CN114999463A (zh) * | 2022-08-01 | 2022-09-02 | 深译信息科技(珠海)有限公司 | 语音识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN106126507B (zh) | 一种基于字符编码的深度神经翻译方法及*** | |
CN105938485B (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN109408812A (zh) | 一种基于注意力机制的序列标注联合抽取实体关系的方法 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN109858041B (zh) | 一种半监督学习结合自定义词典的命名实体识别方法 | |
CN110334354A (zh) | 一种中文关系抽取方法 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和*** | |
CN106652999A (zh) | 语音识别***以及方法 | |
CN107316654A (zh) | 基于dis‑nv特征的情感识别方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN105261358A (zh) | 用于语音识别的n元文法模型构造方法及语音识别*** | |
CN107766320A (zh) | 一种中文代词消解模型建立方法及装置 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN110569511A (zh) | 基于混合神经网络的电子病历特征提取方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
Zhu et al. | Robust spoken language understanding with unsupervised asr-error adaptation | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181214 |
|
WD01 | Invention patent application deemed withdrawn after publication |