CN110930982A

CN110930982A - 一种多口音声学模型及多口音语音识别方法

Info

Publication number: CN110930982A
Application number: CN201911050896.3A
Authority: CN
Inventors: 计哲; 黄远; 高圣翔; 沈亮; 林格平; 徐艳云
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-27

Abstract

本发明提供一种多口音声学模型和多口音语音识别方法，所述多口音声学模型包括多个BLSTM层、多个Softmax输出层和一个门控单元，多个BLSTM层依次串接后与每一个Softmax输出层串接，门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间。本发明对传统的普通话声学模型构造进行改进，针对需要识别的多种口音数据的类别数量，将传统的普通话声学模型中的Softmax输出层复制多份，每一个Softmax输出层为口音特定输出层，将输出层设计为口音特定的形式，即每种口音独享其对应的输出层；而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节，以使该模型更好地适用于多种口音。

Description

一种多口音声学模型及多口音语音识别方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种多口音声学模型及多口音语音识别方法。

背景技术

针对普通话构建的基于使用神经网络与隐马尔科夫混合模型的普通话声学模型的语音识别***在标准普通话语音的语音识别上已经可以达到比较令人满意的效果，但这种普通话声学模型在应用于带有口音的语音识别任务上时性能会明显下降，这种性能下降主要是由于基于普通话构建的普通话声学模型无法对带口音的语音数据进行准确的音素状态分类。因此，在处理带有口音的语音的语音识别任务时，需要构建专用的声学模型。

一种语言的口音主要有两个来源，一是由母语为其他语言的说话人发音产生的，二是由母语为该语言某种方言的说话人发音产生的。在汉语中，后者是口音的主要来源。汉语大致可以划分成七大方言，即官话方言，吴方言、湘方言、客家方言、闽方言、粤方言、赣方言。此外，在一个比较复杂的大方言区内，有时可以再划分成许多的小方言区，市县级别的方言可以称之为地方方言，例如广州话、青岛话、唐山话等。因而，由不同方言所派生出的口音种类也是十分繁杂的，这就导致了在语音识别的实际应用中通常需要处理的是多口音语音识别问题。

在实际的生产环境中，大量的普通话语音数据较容易获取，而带口音的语音数据由于标注的复杂性以及高昂的人工成本往往面临数据稀疏的问题。为了充分利用有限的数据来达到语音识别***的最优性能，通常的做法是先使用大数据量的普通话语音数据训练一个鲁棒的普通话声学模型，然后针对单个口音使用其对应的数据进行自适应得到特定口音声学模型，这种方法被称为口音特定声学模型的自适应。然而，这种方法需要对每个目标口音都进行单独的自适应训练，并且需要找到其最优的配置参数，最终会得到多个声学模型，得到的多个特定口音声学模型在训练复杂度和存储空间上的代价是很大的。

多口音声学模型的自适应，即直接使用多口音语音数据利用传统方法对普通话声学模型进行优化可以解决这个问题，但传统的多口音声学模型自适应方法得到的多口音声学模型性能通常差于口音特定声学模型自适应方法。

发明内容

为克服上述现有的无法对多种口音识别以及识别率低的问题或者至少部分地解决上述问题，本发明实施例提供一种多口音声学模型和多口音语音识别方法。

根据本发明的一个方面，提供一种多口音声学模型，包括多个双向长短期记忆网络BLSTM(Bidirectional Long Short-Term Memory)层、多个Softmax输出层和一个门控单元，所述多个BLSTM层依次串接后与每一个Softmax输出层串接，所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间；

其中，所述Softmax输出层的数量与口音数据的类别数量相等，每一个Softmax输出层与口音数据的类别一一对应。

在上述技术方案的基础上，本发明还可以作出如下改进。

优选的，所述门控单元为加法型门控单元或者点乘型门控单元。

根据本发明的另一个方面，提供一种多口音语音识别方法，包括：

提取待识别口音数据的声学特征；

将所述声学特征输入训练后的多口音声学模型中，输出所述待识别口音数据的三音素状态的后验概率；

根据所述待识别口音数据的三音素状态的后验概率，得到所述待识别口音数据的文本序列。

优选的，通过如下方式对所述多口音声学模型进行训练：

提取包括多种类别的口音数据的口音数据训练集中的每一条口音数据的声学特征和口音类别标签；

基于每一条口音数据的声学特征和口音类别标签，对所述多口音声学模型进行训练。

优选的，所述基于每一条口音数据的声学特征和口音类别标签，对所述多口音声学模型进行训练包括：

将每一条口音数据的所述声学特征输入所述多口音声学模型的第一BLSTM层，依次经过多个BLSTM层，将所述门控单元前的BLSTM层的第一输出向量和当前口音数据的口音类别标签同时输入所述门控单元；

经过所述门控单元的特定运算后的第二输出向量作为所述门控单元后的BLSTM层的输入，并由与当前口音数据对应的Softmax输出层输出当前口音数据的三音素状态的后验概率。

优选的，当所述门控单元为加法型门控单元时，所述门控单元的特定运算为：

g(h_i,v_a)＝h_i+Vv_a+b；

其中，h_i为第i个BLSTM层的第一输出向量，v_a为当前口音数据的口音类别标签，g(h_i,v_a)为门控单元运算后的第二输出向量，V为M×N的矩阵，h_i和v_a的维度分别是M和N，b为偏置向量，M和N均为正整数。

优选的，当所述门控单元为点乘型门控单元时，所述门控单元的特定运算为：

g(h_i,v_a)＝h_i·Vv_a+b；

优选的，采用每一个口音数据类别的独热码作为每一个口音数据的类别标签。

优选的，采用小批量随机梯度下降方法对所述多口音声学模型进行训练。

本发明的有益效果为：

对传统的普通话声学模型构造进行改进，针对需要识别的多种口音数据的类别数量，将传统的普通话声学模型中的Softmax输出层复制多份，每一个Softmax输出层为口音特定输出层，将输出层设计为口音特定的形式，即每种口音独享其对应的输出层；而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节，以使该模型更好地适用于多种口音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为传统的普通话声学模型架构图；

图2为本发明实施例的多口音声学模型架构图；

图3为本发明实施例的采用图2中多口音声学模型进行多口音语音识别的方法流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

参见图2，提供了一种多口音声学模型，用于对多种类别的口音数据进行识别，该多口音声学模型包括多个BLSTM层、多个Softmax输出层和一个门控单元，所述多个BLSTM层依次串接后与每一个Softmax输出层串接，所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间；其中，所述Softmax输出层的数量与口音数据的类别数量相等，每一个Softmax输出层与口音数据的类别一一对应。

可以理解的是，参见图1，为传统的标准普通话声学模型的架构图，通常，传统的普通话声学模型采用深度模型，主要包括多个BLSTM层和一个Softmax输出层，多个BLSTM层依次串接后再串接Softmax输出层，基于标准普通话语音训练集，对普通话声学模型进行训练。训练后的普通话声学模型可用于对普通话进行识别。

传统的普通话声学模型仅能够对标准的普通话进行识别，对于地域性口音的语音数据是无法识别或者识别精度非常低。本发明实施例提供了一种改进的多口音声学模型，能够对多种口音的语音数据进行精准识别。

参见图2，为本发明实施例提供的多口音声学模型，多口音声学模型是在普通话声学模型的网络架构上进行改进的。将普通声学模型中的Softmax输出层复制n份，n为该多口音声学模型可以识别的口音类别的数量，每一种口音数据对应一个Softmax输出层；以及在神经网络中的多个BLSTM层的其中任意两个相邻的BLSTM层之间添加一个门控单元。

本发明实施例提出了在使用大数据量的普通话语音数据训练得到的鲁棒普通话声学模型的基础上利用迁移学习方法进行优化，具体实现上结合了基于BLSTM层的多任务分类模型和基于口音信息的门控机制，其中，口音特定输出层(与每一种口音数据对应的Softmax输出层)是基于多任务分类模型将神经网络的BLSTM层在多个口音的语音识别任务中共享，而将Softmax输出层设计为口音特定的形式，即每种口音独享其对应的Softmax输出层；而门控机制是指利用一种门控单元对神经网络的隐藏层输出进行一种口音特定的调节，以使该模型更好地适用于多种口音。

可以理解的是，本发明实施例中在普通声学模型的多个BLSTM层中间设置门控单元，需要说明的是，门控单元可以设置于其中任意两个相邻的BLSTM层之间，在本发明实施例中，门控单元设置于所有相邻的BLSTM层之间，通过实验证明，这样的多口音声学模型对多口音语音数据的识别准确率会更高。

在上述实施例的基础上，本发明实施例中，所述门控单元为加法型门控单元或者点乘型门控单元。门控单元的类型可根据带有口音的语音数据量大小和普通话声学模型的性能确定。门控单元具体的实现方式为：第i层的输出向量h_i与口音类别标签向量v_a共同送入门控单元，在门控单元经过了特定的运算后，变换后的向量g(h_i,v_a)作为输入传入第(i+1)层，其中，门控单元位于第i个BLSTM层和第(i+1)个BLSTM层之间。

参见图3，提供了一种多口音语音识别方法，该方法基于上述各实施例提供的多口音声学模型来进行多口音语音识别。该方法包括：

提取待识别口音数据的声学特征；

可以理解的是，本发明实施例基于上述实施例提供的多口音声学模型对多口音语音数据进行识别。在对多口音语音数据进行识别的过程中，将提取的待识别语音数据的声学特征输入训练后的多口音声学模型中，输出该待识别口音数据的三音素状态的后验概率。将待识别口音数据的三音素状态的后验概率联合语言模型、发音词典通过解码器得到识别出的文本序列，实现对待识别口音数据的识别过程。

在上述实施例的基础上，本发明实施例中，通过如下方式对所述多口音声学模型进行训练：

在上述各实施例的基础上，本发明实施例中，所述基于每一条口音数据的声学特征和口音类别标签，对所述多口音声学模型进行训练包括：

需要理解的是，多口音声学模型是在具有充足数据的普通话语音训练集训练得到的性能鲁棒的普通话声学模型基础上进行的。口音特定输出层及门控单元在模型的初始化阶段被添加到普通话声学模型之上，之后再使用随机梯度下降方法对更改后的网络(即本发明实施例)进行优化。

在实际应用中，特定口音的语音识别***通常是根据地域进行部署的，因此针对地域性的口音问题，可将一个地域内采集到的语音数据划分为同一种口音，并使用采集到的口音数据构建语音识别声学模型。

需要说明的是，传统的普通话声学模型通常采用神经网络与隐马尔科夫模型混合架构，其中神经网络部分使用多层双向长短期记忆网络(BLSTM)构建，神经网络部分的输出目标为上下文相关的音素的状态值的后验概率。

本发明实施例提供的多口音声学模型是在传统的普通话声学模型基础上进行改进得到的。得到改进后的多口音声学模型后，需要对多口音声学模型进行训练，在对多口音声学模型进行训练的过程中，按地域采集带有口音的语音数据并进行数据标注(即标注口音类别标签)，构建多口音语音训练集，训练集中应包含目标的多个口音数据，原则上不同类别的语音数据数量应保持大致相等，并针对每条语音保存代表其口音类别的独热码(即采用每一个口音数据类别的独热码作为每一个口音数据的类别标签)。使用该训练集对得到的多口音声学模型进行训练。在训练过程中，先将多口音数据打乱，并使用小批量随机梯度下降以保证多个口音是同时进行学习的。当一个口音数据样本送入多口音声学模型时，只有其对应的Softmax输出层及共享隐藏层(多个BLSTM层)会被更新，而其他的Softmax输出层则保持不变。训练过程中，应使用与普通话声学模型训练时使用的学习率相比较小的学习率来保证对普通话声学模型的有效利用，即改进后的多口音声学模型对普通话语音数据也具有较好的识别率。

在上述各实施例的基础上，本发明实施例中，当门控单元为加法型门控单元时，门控单元的特定运算为：

g(h_i,v_a)＝h_i+Vv_a+b；

当门控单元为点乘型门控单元时，所述门控单元的特定运算为：

g(h_i,v_a)＝h_i·Vv_a+b；

其中，具体的门控单元选择可根据确定带有口音的训练语音数据量大小和普通话声学模型的性能确定，本发明实施例不做限定。

对于训练后的多口音声学模型，针对每种口音，将口音数据的声学特征输入训练后的多口音声学模型中，将多口音声学模型中神经网络对应的口音特定输出层(Softmax输出层)输出的因素状态的后验后验概率联合针对特定任务构建的语言模型、发音词典通过解码器得到识别出的文本序列，完成对待识别口音的识别。

下面将本发明实施例提供的多口音声学模型与传统的多种声学模型进行对比，表1中示出了不同声学模型的识别错误率。

表1

基于本发明实施例构建的多口音声学模型的合理性和有效性已经在实际中得到了验证，各个地域口音的语音识别的词错误率见表1。该表中是利用7000小时普通话语音数据训练普通话声学模型，利用四个地域的口音语音数据(每个地域20小时)进行多口音声学模型构建得到的结果，每个口音的测试集数据量为两小时，所有语音数据均为实际场景中的客服通话语音数据。

使用本发明实施例构建的多口音声学模型相对普通话声学模型(基线模型)词错误率平均相对下降了9.8％，且相对于传统多口音声学模型和特定口音声学模型都有一定程度的性能提升，说明本发明实施例的多口音声学模型是一种高效率且高性能的多口音语音识别声学模型。

本发明实施例提供的一种多口音声学模型及多口音语音识别方法，对传统的普通话声学模型构造进行改进，针对需要识别的多种口音数据的类别数量，将传统的普通话声学模型中的Softmax输出层复制多份，每一个Softmax输出层为口音特定输出层，将输出层设计为口音特定的形式，即每种口音独享其对应的输出层；而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节，即利用迁移学习方法，采用基于共享隐藏层(即针对多个Softmax输出层，共用BLSTM层)的多任务分类模型和基于口音信息的门控机制，在性能鲁棒的普通话声学模型的基础上，同时向多个目标口音，使用多口音混合数据进行优化得到一个多口音声学模型，在节省时间和成本的同时得到在多目标口音上性能鲁棒的多口音声学模型。

本发明实施例提供的多口音声学模型相比于传统的多种特定口音声学模型，传统的每一种特定口音声学模型在训练时，需要大量的特定口音数据，对训练集口音数据的获取存在很大难度，而在对本发明实施例提供的多口音声学模型进行训练时，对于每一种口音数据的训练数据量无需太多，为多种口音数据的混合训练，因此，本发明实施例提供的多口音声学模型能够在一定程度上解决数据稀疏的问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多口音声学模型，用于对多种类别的口音数据进行识别，其特征在于，包括多个双向长短期记忆网络BLSTM层、多个Softmax输出层和一个门控单元，所述多个BLSTM层依次串接后与每一个Softmax输出层串接，所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间；

2.根据权利要求1所述的多口音声学模型，其特征在于，所述门控单元为加法型门控单元或者点乘型门控单元。

3.一种多口音语音识别方法，其特征在于，包括：

提取待识别口音数据的声学特征；

将所述声学特征输入训练后的权利要求1所述的多口音声学模型中，输出所述待识别口音数据的三音素状态的后验概率；

4.根据权利要求3所述的多口音语音识别方法，其特征在于，通过如下方式对所述多口音声学模型进行训练：

5.根据权利要求4所述的多口音语音识别方法，其特征在于，所述基于每一条口音数据的声学特征和口音类别标签，对所述多口音声学模型进行训练包括：

6.根据权利要求5所述的多口音语音识别方法，其特征在于，

当所述门控单元为加法型门控单元时，所述门控单元的特定运算为：

g(h_i,v_a)＝h_i+Vv_a+b；

7.根据权利要求5所述的多口音语音识别方法，其特征在于，

当所述门控单元为点乘型门控单元时，所述门控单元的特定运算为：

g(h_i,v_a)＝h_i·Vv_a+b；

8.根据权利要求4-7任一项所述的多口音语音识别方法，其特征在于，采用每一个口音数据类别的独热码作为每一个口音数据的类别标签。

9.根据权利要求5所述的多口音语音识别方法，其特征在于，采用小批量随机梯度下降方法对所述多口音声学模型进行训练。