CN111243578A

CN111243578A - 一种基于自注意力机制的中文普通话字音转换方法

Info

Publication number: CN111243578A
Application number: CN202010027248.2A
Authority: CN
Inventors: 张鹏远; 黎塔; 邬龙; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-05

Abstract

本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法，将位置相关注意力机制分类和联结主义分类进行融合，其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题，提高了端到端语音识别***性能。

Description

一种基于自注意力机制的中文普通话字音转换方法

技术领域

本发明涉及语音合成领域，特别涉及一种基于时限自注意力联结主义分类的端到端语音识别方法。

背景技术

语音识别技术是将输入的语音转换成文本的重要技术，其中端到端语音识别框架以其结构简洁、通用性强、不依赖语言学知识、推理速度快等优点已经成为重要的研究方向。

传统的基于隐氏马尔科夫和深度神经网络的语音识别算法虽然已经达到了很高的识别正确率，但是存在流程复杂、非一致优化、帧之间条件独立、解码复杂以及需要专家知识等缺点。为此，端到端语音识别变成了研究热点，该方法通过一个统一的神经网络完成语音到文字的转换。目前主流的端到端识别框架主要包括：基于联结主义分类的端到端语音识别和基于注意力机制编解码网络的端到端语音识别。

基于注意力机制的编解码网络的端到端架构将语音识别视为序列映射的问题，即将输入特征映射成相应的文字。其中，解码网络利用注意力机制来找到输出的每一个词和编码器状态之间的对应关系。对于输出的每一个词，通过解码器的状态和编码器状态信息计算出主意力权重的分布，并对编码器的状态进行加权求和作为解码器的输入。虽然上述结构的优点是端到端的语音识别而且并未进行任何条件独立的假设，但是对注意力系数约束不够，在实际训练过程中会学习到非连续的注意力权重。因此为了更好地对注意力权重进行约束，研究人员将联结主义分类准则加入训练中进行联合优，从而大量减少了不规则的注意力系数的出现。

然而基于联结主义分类准则的端到端建模框架存在帧之间相互独立的假设，实际语音是一个连续时间序列不满足该假设。

发明内容

为此本发明提出一种时限自注意力联结主义分类的端到端语音识别算法，将位置相关注意力机制分类和联结主义分类进行融合，其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题，提高了端到端语音识别***性能。。

本发明为解决上述技术问题采用的技术方案为，提供一种端到端语音识别方法,所述端到端语音识别通过神经网络模型，所述神经网络模型包括编码层、解码层、注意力联结主义分类层，所述方法包括：

将语音特征输入所述神经网络模型的编码层，所述编码层将所述语音序列转化为语音特征；

所述解码层对所述高维度向量计入注意力分配概率,并将所述高维度向量转化为表示文字的第一输出符号序列；

所述注意力联结主义分类层利用注意力机制，使用联结主义分类器，将所述高维度向量转化为表示文字的第二输出符号序列；

结合所述第一输出符号序列和所述第二输出符号序列得到所述神经网络模型的表示文字的输出符号序列。

优选地，所述神经网络模型的分类准则的数学表达式为：

L_MTL＝λL_ctc+(1-λ)L_attention

其中，λ是插值系数，L_ctc和L_attention分别是所述解码层和所述注意力联结主义分类层的分类准则。

具体地，所述注意力联结主义分类层的分类准则的数学表达式为:

L_CTC＝-ln P(y|ph_u),

ph_u＝W_projc_u+b

a_ut＝Attend(ph_u-1,a_u-1,h_t)

其中，W_proj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵,ph_u代表u时刻联结主义分类准则输出映射层的输出,a_ut代表了注意力权重,c_u代表隐含层的加权求和结果,τ代表了注意力的窗长,

Attend()是注意力函数，注意力权重a_ut计算如下：

e_ut＝Score(s_u-1,a_u-1,h_t)

其中,Score()是基于内容的注意力,或基于位置的注意力,上式可为：

e_ut＝v^Ttanh(Ks_u-1+Q(F*a_u-1)+Wh_t)

L_CTC＝-lnP(y|ph_u),

ph_u＝W_projc_u+b

其中,

q_t＝Qb_t,t＝u

k_t＝Kb_t,t＝u-τ,...,u+τ

v_t＝Vb_t,t＝u-τ,...,u+τ

b_t＝W_embdh_t,t＝u-τ,...,u+τ

bt为通过输入映射矩阵Wembd将编码网络的输入ht映射成注意力机制的输入向量，k、v、q为键、值、查询，K、V、Q为参数矩阵。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种端到端语音识别神经网络模型的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一、端到端语音识别神经网络的结构：

图1本发明实施例提供的一种端到端语音识别神经网络模型的结构图：如图所示，其包括编码层(Shared Encoder)、解码层(Decoder)、注意力联结主义分类层(CTC attetion)。

编码层，将输入特征映射成高维向量。

解码网络，将高维度解码成输出符号序列。

注意力联结主义分类层

编码层，接受输入的语音特征，并将其转化为高维度向量；

解码层，将高维度向量转化为表示文字的第一输出符号序列，转化中计入对语音特征的注意力分配概率；

注意力联结主义分类层，使用联结主义分类器以及注意力机制，将高维度向量转化为表示文字的第二输出符号序列；

结合表示文字的第一输出符号序列和第二输出符号序列，获取神经网络模型的表示文字的输出符号序列。

二、模型的详细论述和实施例：

为了解决基于注意力编解码网络端到端语音识别算法对注意力系数约束不够，在实际训练过程中会学习到非连续的注意力权重的问题。本发明提出多任务学习机制，即对联结主义分类准则和编解码网络的准则进行联合优化。

具体的，在训练过程中，利用联结主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐。

在一个实施例中，联合优化准则的数学表达式为：

L_MTL＝λL_ctc+(1-λ)L_attention (1)

其中，λ是插值系数，L_ctc和L_attention分别是联结主义分类准则和基于注意力编解码器准则(例如图1中CTC attention层和Decoder层分别使用了分类准则)。

对于联结主义分类准则而言，为了解决输出序列长度小于输入序列长度的问题，在输出符号集中加入一个blank符号，并允许blank符号的重复出现。

在另一个实施例中，联结主义分类准则预测整个输出序列的条件概率为：

通过帧之间相互独立的假设，上述公式可以分解成：

其中x代表输入语音特征，y代表输出序列。L代表输出符号集合，T代表语音总帧数。π_1:T＝(π₁,...,π_T)代表每一帧的输出符号，π_t∈L'并且L'＝L∪blank。P(π_t|x)是t时刻的条件概率。B是映射函数，完成输出路径到输出符号序列的映射。

对于基于注意力机制的编码解码网络而言，它并未有任何条件独立的假设直接估计最终的后验概率，它使用了两个网络：编码网络(例如图1中Encoder层)和解码网络(例如图1中Decoder层)，编码网络的作用是将输入特征x映射成隐含层向量h(高维向量)，解码网络的作用是将隐含层向量h解码成输出符号序列y。

在一个实施例中，其中后验概率可以表示为：

其中，c_u是输入特征x的函数，U是输出序列的长度和输入帧长不相等，P(y_u|y_1:u-1,c_u)可以表示为：

P(y_u|y_1:u-1,c_u)＝Decoder(y_u-1,s_u-1,c_u) (5)

h_t＝Encoder(x) (7)

a_ut＝Attend(s_u-1,a_u-1,h_t) (8)

其中，Encoder()和Decoder()分别表示编码网络和解码网络，s是解码网络的隐含状态向量，h是编码网络的隐含状态向量，Attend()是注意力网络，注意力权重a_ut计算如下：

e_ut＝Score(s_u-1,a_u-1,h_t) (10)

其中，Score()既可以是基于内容的注意力也可以是基于位置的注意力，在另一个实施例中，

e_ut＝v^Ttanh(Ks_u-1+Wh_t) (11)

在又一个实施例中，

e_ut＝v^Ttanh(Ks_u-1+Q(F*a_u-1)+Wh_t) (12)

根据以上叙述，加入联结主义分类准则进行联合优化能有效地约束注意力权重的学习，使得学习出来的注意力权重保持单调的特性，然而对于联结主义分类准则而言，它通过帧条件独立的假设将联合概率分解成一系列概率之积，然而实际的语音不满足帧相互独立的假设。

为解决这个问题，本发明提出基于时限自注意力联结主义分类的端到端语音识别算法如图1所示，在联结主义分类准则之前加入时限注意力模块，从而使得输出不仅依赖当前时刻编码网络输出，而且和一段时间内编码网络输出有关。

在一个实施例中，所述L_CTC可表示为：

ph＝W_projh+b (14)

其中，W_proj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵，ph代表联结主义分类准则的输入。

在另一个实施例中，在联结主义分类准则中加入注意力权重，其数学表达式变为：

L_CTC＝-ln P(y|ph_u) (15)

ph_u＝W_projc_u+b (16)

a_ut＝Attend(ph_u-1,a_u-1,h_t) (18)

其中，ph_u代表u时刻联结主义分类准则输出映射层的输出，a_ut代表了注意力权重，c_u代表隐含层(分类层中内含，分类层为具有分类作用的网络层如图1中CTC attention和解码层)的加权求和结果，τ代表了注意力的窗长。

在一个实施例中，注意力权重为基于位置的注意力权重，其数学表达式为公式(9)、(10)、(12)所示，然而，该注意力机制需要学习序列之间的依赖关系，一定程度上增大了建模难度。为缓解这个问题，

在另一个实施例中，提出一种基于自注意力机制的联结主义分类准则。

首先，通过输入映射矩阵将编码网络的输入映射成注意力机制的输入向量：

b_t＝W_embdh_t,t＝u-τ,...,u+τ (16)

其次，通过线性映射层将公式(16)中的b_t映射成键、值、查询即：

q_t＝Qb_t,t＝u (20)

k_t＝Kb_t,t＝u-τ,...,u+τ (21)

v_t＝Vb_t,t＝u-τ,...,u+τ (22)

最后，获得自注意力的注意力系数以及的结果可表示为：

从以上实施例可以看出，本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法，将位置相关注意力机制分类和联结主义分类进行融合，其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题，可以提高端到端语音识别***性能。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。