CN109003601A

CN109003601A - 一种针对低资源土家语的跨语言端到端语音识别方法

Info

Publication number: CN109003601A
Application number: CN201811011859.7A
Authority: CN
Inventors: 于重重; 陈运兵; 徐世璇; 刘畅
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2018-12-14

Abstract

本发明公开了一种针对低资源土家语的跨语言端到端语音识别方法，包括：土家语语料预处理；构建跨语言的土家语语料库；建立中文国际音标和民族国际音标的统一编码字典；建立跨语言的端到端土家语语音识别模型；利用连接时序分类模型并在编码字典的作用下解码得到识别结果。本发明借助大语种语料充足的优势，结合迁移学习的思想，构造泛化性更强的识别模型，能够提高土家语语音识别的准确率。

Description

一种针对低资源土家语的跨语言端到端语音识别方法

技术领域

本发明属于语音识别领域，涉及一种针对低资源土家语的跨语言端到端语音识别方法。

背景技术

随着互联网技术的发展和计算机运算能力和硬件的提升,语音识别技术又一次迎来了新的热潮,尤其近年来,深度学习又一次点燃了科学家们语音识别技术的热情。语音识别技术的应用范围很广,伴随着人工智能的发展,语音识别技术不仅仅包括语音拨号,语音导航,语音文档检索,简单的听写数据录入等功能,还包括了智能交通控制,室内设备控制,智慧城市等方面的应用。若是语音识别技术能得到很好的发展,相信可以给人类衣食住行等方面带来极大的便利和影响,可以推动人类未来智能化生活和工作的进步。

语音信号是一种非平稳时序信号，其形成和感知的过程就是一个复杂信号的处理过程，而语音识别可视为一个序列到序列的分类问题，即声学观测序列X＝(x₁,x₂,…,x_T)被映射到字符序列W＝(w₁,w₂,…,w_N)上,其中T为时间，N为字符个数，解决概率P(W|X)的问题。在时序分类任务中，常用的方法是输入数据与给定标签必须要在时间上达到帧级别的对齐，只有这样才能使用隐马尔科夫模型(Hidden Markov Model,HMM)按帧进行训练。然而，逐帧训练输出的是单帧概率，对于时序问题来说，输出序列的概率远比输出单帧的概率重要得多。因此，针对此问题，在基于深度学习的语音识别领域中，端到端的语音识别技术已成为国内外近期研究的热点之一。

目前国内外自动语音识别技术多数是依赖于大量的数据资源，而濒危语言是指使用人数越来越少的、行将灭绝的语言，可采集的语音数据量非常有限，属于低资源语音识别。土家语作为众多濒危语言中的一种，没有文字，以口语的形式存在，母语人的数量少，导致数据不易收集，因此对土家语的自动语音识别有很大挑战性。据统计，我国少数民族使用的语言在130种以上，近一半处于衰退状态，当前我国有几十种语言处于濒危状态，这种趋势仍在持续,甚至有所加剧，对濒危语言的识别与保护有助于维护文化的多样性。

对语音材料的文本处理目前已经成为土家语保护工作中的难点和瓶颈。第一，工作量极大，要耗费大量的人力和时间。按照普遍性的经验，一分钟的录音至少需要花费一个小时以上的时间进行文本处理。而没有经过文本处理的语音资料不具备任何可理解性，不具有保存价值；第二，土家语的使用人数少，能够进行语料文本处理的母语人或专业人才稀缺。这使得原本需要大量人力和时间才能完成的语音资料文本处理工作难度更大。因此本发明的目的可以帮助语言学家完成对土家语的记音等工作，能够很大程度上减少人力和时间成本，具有重要的理论意义和应用价值。

发明内容

为了克服上述现有技术的不足，本发明公开了一种针对低资源土家语的跨语言端到端语音识别方法，能够解决土家语在识别过程中的低资源问题，并实现更好的语音识别。

本发明提供的技术方案是：

一种针对低资源土家语的跨语言端到端语音识别方法，包括以下步骤：

1)土家语语料预处理：首先利用Praat脚本完成土家语长篇原始语料的句子切分，得到每句声音与其对应的国际音标文本，并完成声音与文本标签的校对，确保一一对应；得到预处理后的土家语数据；

具体地，土家语国际音标的音位***由声母和韵母构成，21个声母中包括两个半元音声母，韵母由6个单元音、复元音11个和8个鼻化元音组成。

2)构建跨语言的土家语语料库：以汉语语音数据集(例如，清华大学30小时(thchs30)汉语语音数据集)作为土家语的扩展数据，将汉语拼音转换成国际音标，保证与步骤1)中的土家语数据格式一致性，建立汉语和土家语的跨语言语料库，解决土家语语音数据不足的问题；

3)建立中文国际音标和民族国际音标的统一编码字典：首先分别建立土家语和汉语的国际音标字典，并把汉语的国际音标转为民族国际音标，最终的统一编码字典由土家语和汉语的国际音标组成，统计结果表明土家语和汉语的国际音标字典相似度为70％以上(70.83％)；

4)建立跨语言的端到端土家语语音识别模型：

使用已有的多语言语音识别方法，首先由步骤2)构建的语料库中的语音得到语谱图，将其输入到卷积神经网络完成特征提取；接着采用双向长短时记忆网络对长序列进行建模，完成共享声学特征提取；最后利用连接时序分类模型并在步骤3)中编码字典的作用下解码得到识别结果；具体执行如下操作：

41)模型的输入为土家语和汉语语音的语谱图，首先经过一层卷积和一层最大池化，接着再经过一层卷积，完成包含更复杂信息的高维特征(High-dimension Feature)提取；

42)然后将高维特征输入3层双向长短期记忆网络，完成共享声学特征提取；

43)最后利用连接时序分类模型并在步骤3)中编码字典的作用下解码得到识别结果，模型的输出为土家语国际音标；

5)采用跨语言和迁移学习的方法，使用步骤2)中土家语和汉语的跨语言语料库作为训练数据进行模型训练，得到初始模型；继续使用土家语语料库作为训练数据，得到最终的跨语言的端到端土家语语音识别模型；

本发明具体实施采用的跨语言的端到端语音识别模型的结构中，Conv为卷积层，BiLSTM为双向长短时记忆层，affine为映射层，softmax为分类器，CTC为连接时序分类层。具体实施时，借助清华大学30小时语料充足的优势，结合迁移学习的思想，先使用步骤2)中土家语和汉语的跨语言语料库作为训练数据得到的初始模型，并在初始模型的基础上继续使用步骤1)中的土家语语料库作为训练数据得到的最终模型，其泛化性更强且识别错误率更低，最终字符错误识别率为46.19％。

与现有技术相比，本发明的有益效果是：

本发明提供一种针对土家语的跨语言端到端语音识别方法，构建跨语言的土家语语料库，建立跨语言的端到端土家语语音识别模型，在以步骤2)中的跨语言语料库作为训练数据获得的初始模型基础之上，再次使用步骤1)中的土家语数据进行最终模型的训练，得到的最终模型的泛化性更强且识别错误率更低，相对仅使用步骤1)中的土家语数据作训练的模型的识别错误率下降了2.11％，并且能够可以帮助语言学家完成对土家语的记音等工作，能够很大程度上减少人力和时间成本，具有重要的理论意义和应用价值。

相比于现有技术，本发明在创建的网络结构中加入了卷积神经网络，可提取高维特征；同时，本发明创建的网络结构中的LSTM网络用BN(batch normalization)和SortaGrad来进行了优化；此外，本发明方法对土家语语音数据进行了扩展，构建了跨语言语料库，并使用了跨语言和迁移学习的方法，识别率相对提升显著，这也是本发明方法重要的技术创新和优势。

附图说明

图1是本发明方法的具体实施流程的示意图。

图2是本发明具体实施采用的跨语言的端到端语音识别模型的结构示意图；

其中，Conv为卷积层，BiLSTM为双向长短时记忆层，affine为映射层，softmax为分类器，CTC为连接时序分类层。

图3是本发明实施例循环神经网络(RNN)元胞状态为双向循环神经网络(BiRNN)的训练时损失函数值变化示意图。

图4是本发明实施例中RNN元胞状态为双向门限循环神经网络(BiGRU)的训练时损失函数值变化示意图。

图5是本发明实施例中RNN元胞状态为双向长短期记忆网络(BiLSTM)的训练时损失函数值变化示意图。

图3-图5中，横坐标为迭代次数(Passes)，纵坐标为损失函数值(Cost)。

图6是本发明实施例中不同RNN元胞状态训练时的时间消耗示意图；

其中，横坐标为迭代次数(Passes)，纵坐标为消耗的时间(Time)。

具体实施方式

以下结合附图对本发明做进一步说明。

本发明利用多语言(Multi-lingual)语音识别和迁移学习(Transfer Learning)的方法，具体实施过程如图1所示，其中模型A为是使用土家语语料库作为训练数据得到的模型，模型B是使用土家语和中文语料库作为训练数据得到的模型，模型C是在初始模型模型B的基础上继续使用土家语语料库作为训练数据得到的模型。

具体实施时，本发明采用2层卷积神经网络(Convolutional Neural Network，CNN)、3层双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)和连接时序分类连接时序分类(Connectionist Temporal Classification，CTC)组合的端到端语音识别模型。对跨语言语音数据进行一系列的预处理得到语谱图，使用多语言语音识别方法，将其输入到CNN完成特征提取，接着采用BiLSTM对长序列进行建模，充分挖掘上下文信息，完成共享声学特征提取，最后利用CTC模型代替传统的隐马尔可夫模型进行各状态之间转移概率的计算，并在编码字典的作用下解码得到识别结果。本发明利用迁移学习的思想，先使用土家语和汉语语料库作为训练数据得到的初始模型，并在初始模型的基础上继续使用土家语语料库作为训练数据得到的最终模型，土家语的识别错误率为46.19％，相对只使用土家语数据作训练的模型的识别错误率下降了2.11％。

在具体的实施过程中，跨语言的端到端语音识别模型结构如图2所示。模型的输出为土家语国际音标，模型的输入为土家语和汉语语音的语谱图，首先经过一层卷积和一层最大池化，通过最大池化得到的特征数据对纹理特征的信息更敏感一些；然后再经过一层卷积，第二层卷积中每一个节点的输入是上一层最大池化的一小块，将每一个小块进行更加深入地分析从而提取得到抽象程度更高的特征,即高维特征。其中，第一层卷积，滤波器的大小为11*41，输入通道个数为1，输出通道个数为32，步长的高宽为3*2，填充空间的高宽为5*20；第二层卷积，滤波器的大小为11*21，输入通道个数为1，输出通道个数为32，步长的高宽为1*2，填充空间的高宽为5*10。

在提取高维特征后进入3层双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)，其中每个神经元是一个“记忆细胞”，细胞里面有一个“输入门”、一个“遗忘门”和一个“输出门”，可以选择性记忆历史信息。输入门决定何时让输入进入细胞单元，遗忘门决定何时应该记住前一时刻的记忆，输出门决定何时让记忆流入到下一时刻。在正向长短时记忆网络中，BiLSTM在t时刻按照如下式1～式6进行计算，为了表达简便，将箭头“→”去掉。

i_t＝σ(W_ixx_t+W_ihh_t-1+W_icc_t-1+b_i) (式1)

f_t＝σ(W_fxx_t+W_fhh_t-1+W_fcc_t-1+b_f) (式2)

c_t＝f_tc_t-1+i_tφ(W_cxx_t+W_chh_t-1+b_c) (式3)

o_t＝σ(W_oxx_t+W_ohh_t-1+W_occ_t+b_o) (式4)

h_t＝o_tφ(c_t) (式5)

y_t＝W_yhh+b_y (式6)

上式中i_t、f_t、c_t、o_t、h_t、x_t、y_t是分别是t时刻的输入门、遗忘门、记忆单元、输出门、隐藏层状态、输入和输出，W为各部分的权值矩阵，例如W_ix为输入门与输入层之间的权值矩阵，b为各部分的偏置矩阵，例如b_i为输入门的偏置矩阵；σ是sigmoid函数，φ为神经元激活函数，如tanh等。同理，反向长短时记忆网络的计算也一样，但使用箭头为“←”。

在语谱图经过卷积神经网络和BiLSTM网络，即完成跨语言共享声学特征提取，并充分挖掘上下文信息之后，得到输出序列Y＝(y₁,y₂,…,y_i,…,y_T)，其中第i帧的条件概率分布则softmax层的输出为：

式中，K为所有标签个数，即连接时序分类(Connectionist TemporalClassification，CTC)网络输出层结点个数K。

对于T帧声学输入，CTC网络学习得到长度为T的标注序列π的概率为

对于给定的标注序列μ，由于空白(blank)***的位置不同及非blank标注重复性的存在，π与μ存在多对一的关系。因此可将目标函数重写如下：

其中μ＝B(π)为映射函数，即给定参考标注μ目标函数定义如下：

CTC(x)＝-logP(μ|x)(式10)

从上述CTC网络的训练过程不难看出，CTC网络解码的最佳路径就是在给定输入序列的情况下，找到概率最大的输出序列：

式中π^*为T帧输入序列的后验概率输出的最大值对应的标注序列。

在模型训练过程中，本发明选用BN(batch normalization)和SortaGrad来优化模型。BN是在神经网络的训练过程中对每层的输入数据加一个标准化处理。传统的神经网络，只是在样本进入输入层之前进行了标准化处理(比如减均值)，以降低样本间的差异性，而BN是在此基础上，不仅仅只对输入层的输入数据进行标准化，还对每个隐藏层的输入进行标准化。它的作用是要最大限度地保证每次的正向传播输出在同一分布上，这样反向计算时参照的数据样本就会与正向计算时的数据分布一样，即保证统一分布。SortaGrad根据语音数据的时长特点，在batch中逐渐增加句子长度。这样不仅能加速模型收敛，而且使得模型稳定性更好。

在土家语语料上，我们通过修改RNN元胞状态，同时其他参数一致的情况下，即batch_size为16，卷积层为2，循环神经网络层为3，隐层节点个数为256，学习率为0.0001，对比模型训练时的损失函数值变化、时间消耗以及最终在测试集上的字符错误率，如图3～6和表1所示。

表1不同RNN元胞状态(RNN_CELL)在测试集上的字符错误率(CER)

RNN_CELL	CER
		BiRNN	53.37％
BiGRU	51.95％
		BiLSTM	48.30％

通过图3～6和表1中结果可以看出，虽然BiRNN网络训练速度比BiGRU、BiLSTM要快，但是最终识别准确率最高的是BiLSTM，根据实际需求，本发明选择使用BiLSTM网络。

迁移学习是通过寻找已有任务与目标任务之间的共性知识，降低对目标训练数据的依赖，以更好地帮助目标任务的学习，使得机器学习算法有了更大的适用性，获得了机器学习和数据挖掘等研究者的关注，并在数据挖掘、图形处理等领域获得了应用。迁移学习虽然没有同分布的假设要求，但是需要源领域与目标领域具有相关性，这种相关性的定义相对广泛，只要两个领域的特征空间、边缘概率分布或者是条件概率分布具有一种相关性就可以，一般只要两个领域的特征空间具有显性或隐性的一点关系，就可以认为这两个领域是相关的。在建立中文国际音标和民族国际音标的统一编码字典过程中，统计结果表明土家语和汉语的国际音标字典相似度为70.83％。不同模型下的土家语语音识别实验对比如表2所示。

表2不同模型下的土家语字符错误率(CER)

模型类别	CER
		模型A	48.30％
模型B	50.26％
		模型C	46.19％

表2的实验结果表明，只使用土家语语料库作为训练数据得到的模型A优于使用土家语和中文语料库作为训练数据得到的模型B，而以初始模型模型B为基础继续使用土家语语料库作为训练数据得到的模型C优于A，因此对有较少数据的土家语进行语音识别，本发明中***方案是可行和有效的。

Claims

1.一种针对低资源土家语的跨语言端到端语音识别方法，其特征在于，包括以下步骤：

1)对土家语语料进行预处理：对土家语长篇原始语料的句子进行切分，得到每个句子的声音与其对应的国际音标文本，完成句子的声音与文本的校对，使得句子的声音与文本一一对应，由此得到预处理后的土家语数据；

2)构建跨语言的土家语语料库：以汉语语音数据集作为土家语的扩展数据，将汉语拼音转换成国际音标，使其与步骤1)中的土家语数据格式一致；

建立汉语和土家语的跨语言语料库；汉语和土家语的跨语言语料库包括步骤1)预处理后的土家语数据和将汉语语音数据集中的汉语拼音转换成国际音标后得到的汉语数据；

3)建立中文国际音标和民族国际音标的统一编码字典：分别建立土家语和汉语的国际音标字典；并将汉语的国际音标转为民族国际音标；统一编码字典包括土家语的国际音标和汉语的国际音标；

4)建立跨语言的端到端土家语语音识别模型：首先使用多语言语音识别方法，由步骤2)构建的土家语语料库中的语音得到语谱图；将其输入到卷积神经网络完成特征提取；接着采用双向长短时记忆网络对长序列进行建模，完成共享声学特征提取；最后利用连接时序分类模型并在统一编码字典的作用下进行解码得到识别结果，输出土家语的国际音标；

5)采用跨语言和迁移学习的方法，使用土家语和汉语的跨语言语料库作为训练数据，对步骤4)建立的跨语言的端到端土家语语音识别模型进行训练，得到初始模型；继续使用土家语语料库作为训练数据进行训练，得到训练好的跨语言的端到端土家语语音识别模型；

利用训练好的跨语言的端到端土家语语音识别模型，即可实现对待识别的土家语进行跨语言端到端的语音识别。

2.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，步骤1)具体利用Praat脚本完成土家语长篇原始语料的句子切分。

3.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，步骤2)中，所述汉语语音数据集具体采用清华大学30小时汉语语音数据集thchs30作为土家语的扩展数据，用于解决土家语语音数据不足的问题。

4.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，步骤3)中，土家语的国际音标字典和汉语的国际音标字典的相似度为70％以上。

5.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，步骤4)建立跨语言的端到端土家语语音识别模型，具体执行如下操作：

41)将土家语和汉语语音的语谱图输入到卷积神经网络，首先经过第一层卷积层和一层最大池化层，再经过第二层卷积层，提取得到高维特征；

42)将高维特征输入3层双向长短期记忆网络BiLSTM，提取共享声学特征；

43)利用连接时序分类CTC模型及步骤3)所述统一编码字典进行解码，得到识别结果，模型输出为土家语国际音标。

6.如权利要求5所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，步骤41)中，第一层卷积层的滤波器的大小为11*41，输入通道个数为1，输出通道个数为32，步长的高宽为3*2，填充空间的高宽为5*20；第二层卷积层的滤波器的大小为11*21，输入通道个数为1，输出通道个数为32，步长的高宽为1*2，填充空间的高宽为5*10；

步骤42)中，3层双向长短期记忆网络中的每个神经元包括一个输入门、一个遗忘门和一个输出门，可用于选择性记忆历史信息；正向长短时记忆网络和反向长短时记忆网络在t时刻按照式1～式6进行计算：

i_t＝σ(W_ixx_t+W_ihh_t-1+W_icc_t-1+b_i) (式1)

f_t＝σ(W_fxx_t+W_fhh_t-1+W_fcc_t-1+b_f) (式2)

c_t＝f_tc_t-1+i_tφ(W_cxx_t+W_chh_t-1+b_c) (式3)

o_t＝σ(W_oxx_t+W_ohh_t-1+W_occ_t+b_o) (式4)

h_t＝o_tφ(c_t) (式5)

y_t＝W_yhh+b_y (式6)

对正向长短时记忆网络和反向长短时记忆网络，式1～式6分别省略了箭头“→”和“←”；式中，i_t、f_t、c_t、o_t、h_t、x_t、y_t分别是t时刻的输入门、遗忘门、记忆单元、输出门、隐藏层状态、输入和输出；W为各部分的权值矩阵，其中W_ix为输入门与输入层之间的权值矩阵；b为各部分的偏置矩阵，其中b_i为输入门的偏置矩阵；σ是sigmoid函数；φ为神经元激活函数；

语谱图经过卷积神经网络和BiLSTM网络提取跨语言共享声学特征，并充分挖掘上下文信息，得到输出序列Y＝(y₁,y₂,…,y_i,…,y_T)，其中第i帧的条件概率分布i＝1,2,…,K；则softmax层的输出表示为式7：

式中，K为所有标签个数，即连接时序分类网络输出层结点个数；

对于T帧的声学输入，CTC网络学习得到长度为T的标注序列π的概率表示为式8：

对于给定的标注序列μ，π与μ存在多对一的关系；将目标函数表示为式9：

其中，μ＝B(π)为映射函数，即给定参考标注μ目标函数定义如式10：

CTC(x)＝-logP(μ|x) (式10)

步骤43)CTC网络解码具体是在给定输入序列的情况下，通过式11找到概率最大的输出序列：

式中，π^*为T帧输入序列的后验概率输出的最大值对应的标注序列。

7.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，土家语的国际音标的音位***包括21个声母和25个韵母；声母包括两个半元音声母；韵母包括6个单元音、11个复元音和8个鼻化元音。

8.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，具体采用2层卷积神经网络CNN、3层双向长短期记忆网络BiLSTM和连接时序分类连接时序分类CTC构建端到端语音识别模型。

9.如权利要求1所述针对低资源土家语的跨语言端到端语音识别方法，其特征是，步骤5)在模型训练过程中，采用BN和SortaGrad对模型进行优化；通过BN对输入层的输入数据和每个隐藏层的输入数据均进行标准化；通过SortaGrad逐渐增加batch句子长度，使得模型收敛加速，模型稳定性更佳。