CN109949796A

CN109949796A - 一种基于藏文部件的端到端架构拉萨方言语音识别方法

Info

Publication number: CN109949796A
Application number: CN201910152781.9A
Authority: CN
Inventors: 党建武; 潘立馨; 王龙标
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-28
Anticipated expiration: 2039-02-28
Also published as: CN109949796B

Abstract

本发明公开一种基于藏文部件的端到端架构拉萨方言语音识别方法,主要步骤包括:首先,端到端语音识别架构；其次，提出了更适合低资源语言在此架构上进行训练的策略，包括以下两点：迁移其他语言性能良好的模型作为初始模型和同语系语言初始化原则；然后是高度压缩的基于藏文部件的声学建模单元；最后是类多语言语音识别的***融合。本发明有效的提高其在端到端架构上的语音识别准确率，并利用多语言语音识别的思路进行两种建模单元级别的***融合以进一步提升性能。

Description

一种基于藏文部件的端到端架构拉萨方言语音识别方法

技术领域

本发明属于自动语音识别领域，主要是有关提高藏语这种低资源语言的语音识别性能的技术。

背景技术

语言是文化的载体和传播媒介，因而针对藏语语言的保护性技术也在不断深入。在藏语语系中，主要有三大方言，即拉萨方言、康巴方言和安多方言，其中拉萨方言在三大方言中使用人群范围较广，数目较多。且具有大量历史悠久的经典西藏手稿文件，因此成为影响力最深远的一种。因此以往的关于藏语的语音识别技术也大多集中在这类方言上。

目前有关藏语的语音识别技术仍然由于资源匮乏而发展缓慢。现有的研究都集中在传统的语音识别架构上，通过解码器连结声学模型、语言模型和发音词典来进行语音识别***搭建，构建速度和解码速度较慢，且需要分别提升声学模型和语言模型的性能。而受传统架构的隐马尔科夫模型(HMM)结构与语音的对齐问题所限，现有研究采用的声学模型建模单元都是音素，这是语音识别技术通用的最小建模单元。当前研究未能抓住藏语语言独有特性，来提升语音识别的***的性能。

发明内容

针对藏语这一低资源语言的语音识别，本发明旨在直接实现语音的输入与解码识别，去除繁杂的对齐工作与发音词典制作工作，并力求挖掘其本身特性促进技术的持续发展。

而目前兴起的端到端架构，有效的简化了语音识别***的构建过程，并解决了对齐问题。因此，本发明将藏语的语音识别迁移到端到端架构，并针对藏文的本身文字组合结构和发音拼读的特性，结合低资源语言这一困难条件，提出了一种基于藏文部件的端到端架构拉萨方言语音识别方法。并在此基础上，进行***融合以进一步提高识别效果。

本发明的技术方案是：一种基于藏文部件的端到端架构拉萨方言语音识别方法,具体步骤包括以下四部分：

(1)端到端语音识别架构——转换器模型

其中，编码器的输入端是语音的声学特征序列，输出是一组中间表达序列；而编码器的输出也正是解码器的输入，根据这组中间表达序列，解码器的输出端给出由建模单元组成的预测结果；

(2)针对低资源语言的端到端架构初始化策略

提出了更适合低资源语言在此架构上进行训练的策略，包括以下两点：

a)迁移其他语言性能良好的模型作为初始模型

不采用随机初始化全部模型参数的方式来初始化训练模型，而是使用其他资源丰富的语言先行进行同样规模的模型训练，并测试其性能，将训练完成后的性能良好的模型迁移至低资源语言的端到端架构上作为初始模型开始训练，以代替随机初始化模型；

b)同语系语言初始化原则

这种原则主要基于上一种策略，提出对初始模型的一项最佳策略，即选用与低资源语言同语系的资源丰富语言作为初始模型的实验对象；

(3)高度压缩的基于藏文部件的声学建模单元

每个部件都有其特定的发音，且整个藏文字的发音正是基于构成它的每个部件的发音，即：将每个部件的发音按照组合的顺序拼读；

(4)类多语言语音识别的***融合

采用一种类似多语言语音识别的方法，为拉萨方言这个单语语音识别***采用了不同建模单元级别的***融合。

所述步骤(4)具体策略是：将字级别建模单元的藏文字和藏文部件级别建模单元的藏文字，当作两种不同的语言进行统一组合处理，采用类似多语言语音识别训练资源共享的思路，将建模单元扩充至原有的两种建模单元的总和，进行两种建模单元的声学特征及对应转录文本的共同训练；

在解码阶段，由***自动选择解码的建模级别，两种建模单元在解码阶段不会产生混淆，并进行简单的后期处理，以统一解码单元为字级别并计算字级别错误率。后期处理包括，将由藏文部件级别的建模单元解码结果组合为对应的字级别文本，并保留本身就为字级别的建模单元的解码结果。

有益效果

这种方法不仅为低资源语言在端到端架构进行语音识别任务提出了通用的训练策略，也着重抓住了藏语本身的独特性发音方式及构字结构，从而针对藏语拉萨方言，进一步有效的提高其在端到端架构上的语音识别准确率，并利用多语言语音识别的思路进行两种建模单元级别的***融合以进一步提升性能。

本发明的工作为之后的拉萨方言语音识别工作开拓了一条新的思路，为推动现有拉萨方言语音识别研究做出了贡献。

附图说明

图1是转换器模型架构图；

图2是世界使用人数较多的各个语言的语系分布图；

图3是藏文字构字结构图：

(a)一个藏文字的构字示例图；

(b)藏文字各藏文部件的位置及构字结构图；

图4是一个藏文字及其拆解后的藏文部件示例图；

图5是边界标记在组合解码结果中的作用示意图。

具体实施方式

下面结合实验过程及实验结果对本发明做进一步详细地描述和证明。

本发明将藏语的语音识别迁移到端到端架构，采用目前已进行一些语音识别工作并取得可观效果的基于注意力机制的编码器-解码器模型——转换器(transformer)，并在此基础上，将拉萨方言这种语言的独特性应用到语音识别的任务中；即提出了这种低资源语言适应端到端架构的策略，并首次将藏文部件作为高度压缩的声学建模单元用以提高语音识别***的性能。并在此基础上，进一步采用一种类多语言语音识别的方法，对两个建模粒度的识别系统进行***融合。具体技术方案要点分为以下四部分：

(1)端到端语音识别架构——转换器模型

基于自动语音识别任务的转换器模型主要由编码器和解码器组成端到端的架构。其中，编码器的输入端是语音的声学特征序列，输出是一组中间表达序列。而编码器的输出也正是解码器的输入，根据这组中间表达序列，解码器的输出端给出由建模单元组成的预测结果。

图1给出了该模型的架构图，其编码器和解码器都主要由三部分组成，即：多头的自我关注组件(multi-head self-attention,MHA),位置编码组件(positional-encoding,PE)和基于位置的前馈网络(position-wise feed-forward networks,PFFN)。

位置编码组件能够提供序列内每个标记的相对或绝对位置；多头的自我关注组件能够更好的利用位置信息，将一个序列的不同位置联系起来，来计算这个序列的表达；前馈网络主要进行进一步的训练和线性变换，以适应输出或进行分类。

该模型能有效在端到端架构上进行语音识别任务。本发明主要使用的端到端架构就是该模型。

(2)针对低资源语言的端到端架构初始化策略

端到端的转换器模型需要通过随机初始化来赋值模型参数，且模型参数相对来说数量庞大。而低资源语言整个数据库仅有几十小时的语音数据，存在模型参数训练不足或训练集过拟合的问题，这一问题也会严重影响低资源语言语音识别***的实际性能。

基于此种理论基础，本发明提出了更适合低资源语言在此架构上进行训练的策略。包括以下两点：

c)迁移其他语言性能良好的模型作为初始模型

不采用随机初始化全部模型参数的方式来初始化训练模型，而是使用其他资源丰富的语言先行进行同样规模的模型训练，并测试其性能，将训练完成后的性能良好的模型迁移至低资源语言的端到端架构上作为初始模型开始训练，以代替随机初始化模型。

这种策略是专门针对低资源语言提出的，能通过迁移其他语言的良好模型补偿低资源语言的训练问题，解决低资源语言直接应用至端到端架构上性能严重下降的问题。

d)同语系语言初始化原则

这种原则主要基于上一种策略，提出对初始模型的一项最佳策略，即选用与低资源语言同语系的资源丰富语言作为初始模型的实验对象。

目前世界上存在的各种语言，在发音，构字及语法方面都有诸多不同，但部分语言从某种程度上说存在一定的相似性，因此目前语言根据相似性被分为几类语系。根据图2显示，藏语与汉语同属一个语系，并且汉语是目前资源丰富的一种语言，迁移汉语先行训练出的性能良好的模型，能更好的初始化藏语的训练模型。

(3)高度压缩的基于藏文部件的声学建模单元

基于以上的技术方案，本发明还提出了一种根据藏语独有特性设计的声学建模单元。这种建模单元，相比较在端到端架构中经典且通用的字级别声学建模单元，能一定程度缓解低资源语言某些训练样本稀疏的问题，进一步提升藏语拉萨方言的语音识别***的性能。

图3显示了藏文字本身的构字结构，藏文字本身的构字较为复杂，实际上是由藏文部件 (radical)构成。由于不同部件在构建藏文字的位置结构特性，一共可被分为7类56个。他们分别是前加字(pre-script)，上加字(super-script)，基字(root-script)，下加字(sub-script)，元音(vowel)，后加字(post-script(I))和又后加字(post-script(II))。其中元音有两种，可出现在最上方或最下方，但由于每个藏文字在构建过程中，仅可能出现其中一个元音，因此这两种元音被并为一类。

每个部件都有其特定的发音，且整个藏文字的发音正是基于构成它的每个部件的发音，即：将每个部件的发音按照组合的顺序拼读。这一特性，为本发明提出基于藏文部件的建模单元提供了理论基础。

此外，由于藏文字的特殊构建规则，藏文字可以按照一定的拆解顺序，拆成藏文部件；藏文部件也同样能够根据一定的组合顺序，组合为藏文字，且拆解顺序和组合顺序的一致的，如图4所示。这一规则，为本发明拆解藏语训练集转录文本，构建基于藏文部件的建模单元以及组合解码结果提供了操作方法上的指导。

由于低资源语言本身资源较为匮乏，以字级别粒度进行建模，某些字出现在训练集的字频较低，会导致训练数据稀疏的问题，也会一定程度影响语音识别性能。由此，本发明提出基于高度压缩的下降两个数量级的藏文部件建模单元，来缓解这一问题，进一步提升藏语拉萨方言的语音识别***的性能。

为了能顺利完成组合解码结果的步骤，将解码得到的藏文部件组合成对应的藏字，在本发明中，将每个藏文字之间的空格用一个边界标记代替，并将该边界标记同样作为一个声学建模单元，图5可看出边界标记的作用。因此，本发明提出的基于藏文部件的建模单元一共由56个藏文部件和1个边界标记组成。

(4)类多语言语音识别的***融合

不同的建模单元的识别***，在性能上存在一定的互补，基于这样的考虑，本发明采用一种类似多语言语音识别的方法，为拉萨方言这个单语语音识别***采用了不同建模单元级别的***融合，以进一步提升该语种在端到端架构的识别性能。

具体策略是将字级别建模单元的藏文字和藏文部件级别建模单元的藏文字，当作两种不同的语言进行统一组合处理，采用类似多语言语音识别训练资源共享的思路，将建模单元扩充至原有的两种建模单元的总和，进行两种建模单元的声学特征及对应转录文本的共同训练。在解码阶段，由***自动选择解码的建模级别，两种建模单元在解码阶段不会产生混淆，并进行简单的后期处理，以统一解码单元为字级别并计算字级别错误率。后期处理包括，将由藏文部件级别的建模单元解码结果组合为对应的字级别文本，并保留本身就为字级别的建模单元的解码结果。

选取并适当划分低资源拉萨方言数据库，如表1所示，进行端到端架构上的语音识别任务。数据库共34.3小时语音数据，共13个男性和10个女性发音人，所有参与录制的发音人都为母语是藏语拉萨方言的大学生。转录文本共有超过38,700句藏语句子，并按照一定的比例分为训练集和测试集，其中说话人没有重叠。

表1实验数据库划分及其基本情况

采用端到端转换器模型进行基线实验和优化实验。具体的模型架构及训练测试参数设置如表2.实验使用了4块K40m型号的GPU，分别完成了模型的训练以及解码工作。

表2模型架构及训练测试参数

基线实验采用藏语字级别建模单元，即藏字。分别采用随机初始化和本发明提出的更为合理的针对低资源语言的初始化策略，本发明采用以178小时标准汉语普通话数据库 AISEHLL-1训练的字级别错误率为9％的模型作为拉萨方言的初始模型。经过实验对比，字级别错误率分别为97.20％和38.90％。由此可见，针对低资源语言，随机初始化的模型存在问题明显。而采用本发明提出的迁移模型初始化策略及同语系语言初始化原则，在提升低资源语言在此端到端架构上的性能方面作用极大。

根据这种对比，在后续基线与优化实验中，均采用同样的性能良好的AISHELL-1模型作为初始模型，进一步对比建模单元粒度变化，对拉萨方言的性能影响程度。基线实验采用2072 个藏字，作为声学建模单元，而优化实验采用的是56个藏文部件和1个边界标记组合的共 57个建模单元。最终还进行了基线识别***和优化识别***的***融合。实验结果对比如表 3，实验充分验证了本发明提出的方法，在藏语特有的构字及发音方面的语言学知识的理论支持下，采用高度压缩建模单元的方法，有利于模型充分学习各建模单元，从而进一步提升拉萨方言在这种端到端架构上的性能。而***融合也在一定程度上继续对***进行了提升，是两种识别***互补后的优化结果。

表3不同建模单元粒度及***融合人建立的拉萨方言识别***字级别错误率(CER)

尽管上述文字结合图表对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于藏文部件的端到端架构拉萨方言语音识别方法,其特征在于,具体步骤包括以下四部分：

(1)端到端语音识别架构——转换器模型

(2)针对低资源语言的端到端架构初始化策略

a)迁移其他语言性能良好的模型作为初始模型

b)同语系语言初始化原则

(3)高度压缩的基于藏文部件的声学建模单元

(4)类多语言语音识别的***融合

2.根据权利要求1所述的一种基于藏文部件的端到端架构拉萨方言语音识别方法,其特征在于,所述步骤(4)具体策略是：将字级别建模单元的藏文字和藏文部件级别建模单元的藏文字，当作两种不同的语言进行统一组合处理，采用类似多语言语音识别训练资源共享的思路，将建模单元扩充至原有的两种建模单元的总和，进行两种建模单元的声学特征及对应转录文本的共同训练；