CN113160803A

CN113160803A - 基于多层级标识的端到端语音识别模型及建模方法

Info

Publication number: CN113160803A
Application number: CN202110642751.3A
Authority: CN
Inventors: 唐健; 胡宇晨; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-07-23

Abstract

本发明提供了一种基于多层级标识的端到端语音识别建模方法，包括解码推论，所述解码推论采用后推理算法，所述后推理算法包括：对应细粒度文本序列的模型产生后验概率输出序列

所述输出序列

能够唯一对应出粗粒度子序列

计算模型生成所述粗粒度子序列

的对数似然值，并以此作为现有预测输出序列

的交叉验证；依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪，保证搜索路径控制在束宽度范围内。

Description

基于多层级标识的端到端语音识别模型及建模方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于多层级标识的端到端语音识别模型及建模方法。

背景技术

基于编码-解码框架的端到端(End-to-End,E2E)自动语音识别(AutomaticSpeech Recognition,ASR)直接建模输入音频序列与输出文本间的序列映射关系。简洁的框架、无须语言学背景知识的优点让该结构逐渐受到学术界与工业界的追捧。

在端到端ASR中，输入的语音序列可以映射到不同层级的文本序列。语音序列与文本序列间的映射关系是一对多的。在中文ASR中，文本序列可以由拼音(pinyin)、汉字构成；英文中文本序列可以由单词(word)、字符(character)构成。

一般来说，在端到端语音识别中，采用词级文本序列进行建模是最理想的选择。模型输出不需要通过词典做进一步的转化，实现了完全意义上的端到端建模。但如果采用词级文本进行建模，模型的容量及所需的模型参数量都较大；另一方面，字符级(character)文本序列也是一种候选方案。字符文本序列能有效地控制模型大小和参数量上，但捕捉语音信号中长时序上下文相关性的能力不足，而且从已有研究工作来看，字符级文本序列在大词汇量连续语音识别任务上性能表现不佳。

近年来，受益于深度学习(Deep Learning,DL)的发展，自动语音识别(AutomaticSpeech Recognition,ASR)取得了巨大的进步。传统的基于深度学习的ASR框架基于混合架构，其由基于条件独立近似训练得来的几个独立的组件构成。另一方面，ASR方面新的研究着重于采用端到端的方法来建模输入音频到目标文本的序列间的映射关系。如，联结主义时间分类(Connectionist Temporal Classification,CTC)、循环神经网络转换器(Recurrent Neural Network Transducer,RNN-T)、分段条件随机场(SegmentalConditional Random Field,SCRF)，基于注意力机制的编解码(Attention-basedEncoder-Decoder,AED)模型和Transformer模型。与传统的混合架构相比，端到端框架的ASR减少对语言学信息的依赖，简化***结构。

端到端的序列映射方法将输入音频序列映射到目标文本。目标文本序列可以由不同层级的文本组成。如英文文本可以由单词(word)、子词(subword)或者字符(character)构成。不同层级的标识有其对应的优缺点。

词级文本表示是现实中最常见的文本表示方式。将其作为端到端语音识别的目标序列是最为理想的选择，也与端到端语音的应用设想相符。它的另一个优点在于：词级模型的输出与性能评测指标一致，避免了模型优化目标和评价指标的不匹配。在所需带文本标识的训练语料充足的情况下，词级文本是端到端语音识别建模最为理想的选择。其不足之处在于所需训练数据量大、样本分布不均的问题。为了避免直接采用词级文本存在的问题，研究人员尝试使用字符进行建模。字符级文本序列的文本单元较少，能较好的控制输出单元个数与模型大小，从而减少了对于训练数据量的需求。但字符级文本单元在构建上未考虑输出文本序列中相邻单元间的影响，无法考虑到语音的协同发音、不发音等问题。考虑到词建模单元的建模难度和字符文本单元在性能上的不足。已有工作使用子词进行建模，旨在建模难度与模型性能间寻求的平衡点。

对于多层级标识信息的使用，另一个研究方向是在ASR***中结合多个文本序列而非挑选其中一个。多种文本序列共同表示输出序列内容可以为模型提供丰富、多层次的输出信息增强了目标文本的信息量。在端到端语音识别建模中，研究人员们已经采用过一些多层级标识端到端语音识别建模方法。目前的多层级标识端到端语音识别建模方法整体可分为多任务学习策略(multi-task learning，MTL)、预训练方法(pre-training)和得分融合(score fusion)三类。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于多层级标识的端到端语音识别模型及建模方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一方面，提供了一种基于多层级标识的端到端语音识别建模方法，包括解码推论，所述解码推论采用后推理算法，所述后推理算法包括：

对应细粒度文本序列的模型产生后验概率输出序列

所述输出序列

能够唯一对应出粗粒度子序列

计算模型生成所述粗粒度子序列

的对数似然值，并以此作为现有预测输出序列

的交叉验证；

依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪，保证搜索路径控制在束宽度范围内。

其中，所述后推理算法的核心在于，在解码推论阶段使用序列间对齐映射信息。

其中，在所述交叉验证的过程中并未生成新的解码路径，而是从另一个角度对于现有路径输出结果进行得分的重排序。

其中，每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。

作为本发明的另一方面，提供了一种由上所述的建模方法所得到的端到端语音识别模型，所述语音识别模型包括交互解码器，所述交互解码器包括字符模块、交互模块、子词隐层模块和子词分类模块；其中，

所述字符模块用于建模字符子序列的输出预测

并为后续运算过程提供字符历史状态

所述交互模块用于融合字符状态和子词状态，并使用融合后的交互状态作为交互注意力模块的计算。

其中，所述字符模块包括字符注意力模块计算、循环神经网络层和全连接层；所述字符模块的输入是字符历史输出的信息表征以及编码器输出序列

其中，所述交互模块包括交互注意力机制与循环神经网络层；所述交互模块的输入是字符历史状态、子词状态以及编码器输出序列

其中，所述子词隐层模块的输入是子词历史输出的信息表征以及编码器输出序列

通过所述子词注意力模块和所述循环神经网络层结构分别实现对子词注意力向量的计算和子词状态的更新。

其中，所述子词分类模块的的输入是交互状态和子词状态，将所述交互状态和子词状态分别通过全连接层实现对子词的输出预测，将两项输出分别称为子词输出和辅助子词输出。

其中，所述交互解码器生成三种类型的输出：字符输出、子词输出和辅助子词输出，这三类输出对应三项交叉熵损失，三者共同构成了模型训练的损失函数。

基于上述技术方案可知，本发明的基于多层级标识的端到端语音识别模型及建模方法相对于现有技术至少具有如下有益效果之一：

(1)本发明提出的后推理算法和交互解码器的应用使得本发明的端到端语音识别模型与现有的识别模型相比，提高了语音识别结果的准确率。

(2)本发明提出的后推理算法的应用不受端到端结构的限制。

附图说明

图1为本发明实施例提供的多层级标识间的对齐映射关系(此处以子词和字符为例)；

图2为本发明实施例提供的基于MTL的多层级标识建模方法与端到端多层级标识序列对齐方法；

图3为本发明实施例提供的与多层级标识端到端模型联合条件概率相对应的图模型；

图4为本发明实施例提供的对齐映射关系在多层级标签端到端解码过程中的应用：联合解码算法(yⁱ和y^j分别以子词y^b和字符y^c为例)；

图5为本发明实施例提供的不同实验配置描述；

图6为本发明实施例提供的一种双层自回归解码的序列到序列语音合成声学模型结构图；

图7为本发明实施例提供的一种序列到序列语音合成声学模型中的交互解码器的结构图；

图8为本发明实施例提供的使用多粒度目标信息；其中，(a)交互解码器；(b)联合解码算法；

具体实施方式

从多层级的文本序列中挑选一项进行端到端语音识别建模并非是唯一选择，更非最优选择。语音识别端到端建模中所选取多种文本序列，记其为多层级标识(Multiple-Granularity Target Sequence)。本发明考虑选取多种文本序列共同用于端到端语音识别建模能实现更好的效果，提出了一多粒度序列对齐方法(Multi-Granularity SequenceAlignment,MGSA)。

端到端ASR***整体可拆分成模型训练阶段(training stage)与解码推论(inference stage)两个部分。本专利所提出的MGSA方法将在这两个阶段中分别使用多层级标识信息对ASR***进行优化。首先，在模型结构中，端到端ASR的解码器模块将依序生成多层级的文本序列，模型结构中将考虑不同层级标识间的相互影响。此外，在端到端的输出推论阶段中，本专利探索并利用不同层级标识之间隐性对齐映射关系进一步提升识别性能。所提出的后推理算法(Post Inference Algorithm)能使用多层级标识信息进一步校准输出序列的后验概率得分。WSJ-80hrs和Switchboard 300hrs数据集上的实验结果表明，该方法与传统的多任务方法以及单粒度基线***相比具有明显的优越性。

本发明提出的MGSA方法目的旨在充分利用多粒度信息，在不增加整体输入信息量的情况下尽量提升端到端语音识别***的性能。另一方面，多层级信息的提出从某种角度上起到了部分语言模型的作用，能减轻端到端模型对于外接语言模型的依赖。MGSA通过不同粒度单元之间的对齐映射关系，利用其交互信息，使得模型能够学习到其中的语义信息，进而提升模型性能。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

1、多层级标识间的序列对齐映射关系

在端到端的语音识别建模中，有三类文本单元——字符单元、子词单元和词级单元。在这三类文本单元中，前一文本单元(如字符)可以通过聚类形成后者(如子词)，后者对应于前者中的一个或多个文本单元。例如，在图1中词单元“COURSE”对应于子词子串“_COUR SE”，子词单元“OUR”也唯一地映射到字符子序列“O U R”。上述各文本序列间隐性的序列间对齐映射关系，可以通过查询词典获得。文本序列间的对齐映射关系整体严格、明确且容易获得。我们将这样多层级文本之间存在的隐性、唯一的对应关系(如图1中中间实线所示)记为对齐映射关系。本发明将介绍如何在端到端语音识别建模中引入对齐映射关系的方法MGSA。

端到端ASR可以分为模型训练和解码推论两个阶段。MGSA方法在这两个阶段都考虑了对齐映射的使用。该方法的总体框架如图2(b)所示。与图2(a)中常用的基于MTL的传统方法相比，有三个主要区别。

首先，MGSA基于多层级标识的联合条件概率作为模型优化的目标，并在优化过程中充分考虑了序列间对齐映射关系的使用。其次是提出了一种全新的解码器模块，其在结构层面上体现多层级标识之间的信息传输。通过该结构多层级标识间的交互和融合就在模型内部得以实现(图2中的虚线)；此外，在端到端ASR的输出解码阶段，本项专利提出的一种后推理算法，通过多层级标识输出之间的对应关系校验、纠正模型的识别结果(图2中的虚点线)。

2、多层级标识的编解码结构

2.1、优化目标的公式推导

对于任意两种的文本表示

和

设定yⁱ为细粒度文本序列，y^j为粗粒度文本序列。在yⁱ中的各文本单元唯一映射到y^j中的文本序列中由一个或多个文本单元的子序列。此处将y^j中与yⁱ中第t个文本单元

相对应的文本子串记为

在

中包含k_t个的文本单元。进一步，将

中第u个文本单元记为

通过该表示形式，可以将y^j改写成以下形式。

公式(1)中的Δ将文本序列y^j和yⁱ间的序列对齐映射关系以更为直观、显性的方式体现出来。基于此本发明提出了多层级标识序列对齐(Multi-granularity SequenceAlignment，MGSA)方法。介绍该方法细节之前，我们采用公式推导方式获得MGSA的优化公式。以细粒度文本序列yⁱ和粗粒度文本序列y^j为例进行端到端语音识别目标函数的推导。在此仅讨论两个文本表示序列时的情况，三个及以上文本序列的联合条件概率的推导过程可以通过类比获得。给定输入语音特征序列x的情况下，多层级标识端到端语音识别模型的目标是建模联合条件概率P_θ(yⁱ；y^j|x)。

套用公式(1)中对于粗粒度文本序列y^j的显性表达方式，并在此基础上将由

和其相对应的文本子序列

共同构成的文本对记为

此时模型的联合条件概率可以表示为

多层级标识是相同文本在不同粒度下的表示。虽然各标识表示形式不同，但对应着相同的文本含义。其中各单元均与其他单元间存在相互关联。在图3(a)中，我们给出了与建模目标(公式(2))相对应的图模型表示。

考虑到多层级标识间的时序因果属性，图3(a)中两类文本序列间的相互影响是不合理的。首先，某一粒度文本序列中的单元应独立于另一粒度文本序列中时序相对靠前的单元。例如，

不应影响

的预测输出。其次，在一组文本对

中的两个文本单元不应相互影响。如图3中的一组文本对

和

它们是对于文本单元是对于同一文本″OUR″在不同粒度上的表达。允许了它们之间的相互影响意味着在已知真实标识的前提下计算输出，这样计算过程是毫无意义的。综合以上两种时序因果的考虑，进一步将联合条件概率P_θ(yⁱ；y^j|x)表示为(下边将采用简化形式P_θ表示联合条件概率P_θ(yⁱ；y^j|x))

此时联合条件概率的图模型通过利用文本表示序列间的时序因果属性可简化如图3(b)所示。

对比公式(3)，继续简化对应的图模型。在此基础上，假设文本序列的变量服从一阶马尔科夫假设。由此进一步地对联合条件概率进行简化，结果为

图3(c)与公式(4)相对应。联合条件概率中，文本子序列

是一个长度为k_t的子序列。将该关系带入联合条件概率中，粗粒度文本子串的计算过程

可以通过链式法则进一步展开。获得联合条件概率的公式表达如下

公式(6)对应图3(d)。该公式表明两个文本序列的联合优化中，模型预测输出的生成过程需考虑两个层级对应时刻的历史信息。

从推导过程可得出构建模型时需满足的基本原则：

1.序列间对齐映射关系：对于同一文本内容的细粒度和粗粒度文本序列表达间存在严格的对应关系，即细粒度文本序列中每个文本单元均对应着一个或多个粗粒度文本序列中的文本单元。二者文本单元间存在严格的一对多映射关系，这是进行多层级标识端到端语音识别建模的根本所在。之后考虑的多层级标识间的相互影响需建立在此映射关系的前提下。

2.历史信息相互独立：要保证两个文本序列的历史信息

和

不会对彼此产生直接的影响。对于每一个状态变量，应保证其自身的历史时序建模能力，避免其它文本序列历史输出的影响。

3.直接作用于分类：多层级标识的交互影响需直接作用于文本单元的分类过程。基于递归形式展开的端到端建模过程可拆分为：历史文本序列建模和对模型预测的估计。考虑到前面所提到的历史信息的独立性前提——多层级标识信息的交互过程需反映到分类过程中。

在上述推导中，多层级标识间的相互影响是双向的。但在实际使用中可以进行一定的简化。忽略细粒度文本序列yⁱ到粗粒度文本序列y^j的信息传输，公式(6)进一步简化为：

2.2、多层级标识的编解码结构描述

所提出的模型结构由编码器和解码器两个部分构成。其编码器结构与传统编码器结构相同；在解码器部分，本发明提出了交互解码器结构。该结构由字符模块、交互模块、子词隐层模块和子词分类模块构成；另外，总共三个损失函数被用于指导模型训练。

编码器模块，该模块的输入是一句语音的特征序列x，编码器模块起到特征提取器的功能，用于增强输入序列在时间维度上的相关性，生成编码器输出序列

具体来说，通过使用卷积神经网络(convolutional neural network，CNNs)和双向长短时记忆网络(bidirectional long short-term memory，Bi-LSTM)将特征序列编码融合得到各时刻的上下文信息表达。

解码器模块。该模块包括字符模块、子词隐层模块、交互模块和子词分类模块，整体而言其输入是编码器输出序列

输出是字词输出，基于编码器输出的上下文信息预测当前时刻的字词输出。

1.字符模块。该模块的输入是字符历史输出的信息表征以及编码器输出序列

该模块由字符注意力模块计算、循环神经网络(recurrent neuaral network，RNN)层和全连接层(fully connection，FC)构成，该部分用于建模字符子序列的输出预测

并为后续运算过程提供字符历史状态

2.子词隐层模块。该模块的输入是子词历史输出的信息表征以及编码器输出序列

通过子词注意力模块和RNN层结构分别实现对子词注意力向量的计算和子词状态的更新。

3.交互模块。该模块的输入是字符历史状态、子词状态以及编码器输出序列

该模块由交互注意力机制与RNN层构成。该模块用于融合字符状态和子词状态，并使用融合后的交互状态作为交互注意力模块的计算。该过程主要体现字符状态对子词状态的影响。

4.子词分类模块。该模块的输入是交互状态和子词状态，将它们分别通过全连接层实现对子词的输出预测。此处将两项输出分别称为子词输出和辅助子词输出。

在交互解码器中主要生成三种类型的输出：字符输出、子词输出和辅助子词输出，三类输出对应三项交叉熵损失，三者共同构成了模型训练的损失函数。其中，前面两种是为了保证字符模块、交互模块、子词分类模块的模型训练与收敛；最后一项辅助模型中子词隐层模块中子词注意力模块的训练。

3、后推论算法

序列间对齐映射信息的使用并不局限应用于模型结构中，在解码阶段同样可以使用。

以细粒度文本序列yⁱ和粗粒度文本序列y^j为例进行介绍。当模型在解码过程中生成第t时刻的候选输出结果

时，我们可以通过序列间对齐映射关系获得相应的子序列

举例来说当模型获得子词候选输出为”SE”时，其对应的字符子序列”S E”可同步的获得。在解码阶段中，本发明将研究如何使用

对预测输出

进行验证。

3.1、优化目标的公式推导

端到端ASR的解码阶段采用束搜索算法挑选在限定束宽度下的解码路径。一般使用现有解码路径的对数似然概率作为当前的路径得分值。解码阶段的公式表达如下

公式中

为序列

对应的词典。argmax函数的输出结果是由函数相对数值决定的，在上述公式基础上乘以2并不会改变结果。

公式(9)中第二项

是t时刻生成

的似然概率；采用与之对应的粗粒度子序列

对齐进行替换(对应公式(10))，此时

作为细粒度的预测输出

的交叉验证；进一步将粗粒度子序列展开，获得最终的联合解码算法表达式(对应公式(11))。基于以上解码过程的公式推论提出了一种新的端到端模型解码算法，称之为联合解码算法。以上推导过程是基于两个文本序列展开，三个及以上文本序列的推导过程可以通过类比获得。

3.2、后推理算法(联合解码算法)思路介绍

具体介绍联合解码算法的实现细节。联合解码过程整体上可划分成预测，校验和裁剪三个步骤。图4给出了t时刻端到端语音识别解码过程。其中，预测：对应细粒度文本序列的模型产生后验概率输出

校验：因为输出序列

可以唯一对应出粗粒度子串

计算模型生成子序列

的对数似然值，并以此作为现有预测输出

的交叉验证。在此过程中并未生成新的解码路径，而是从另一个角度对于现有路径输出结果进行得分的重排序(re-scoring)，故称为为校验。最后是裁剪，依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪，保证搜索路径控制在束宽度范围内。在此过程中，每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。整体上，联合解码算法与传统的束搜索算法相比，添加了校验这个步骤。

如图6所示，模型编码器的输入是语音特征序列，经过CNN和BLSTM抽取出其时间维度上的特征表示

模型解码器的输入是编码器输出

前一帧对应的字词输出以及前一帧的字符序列输出，输出是当前帧的预测字词输出，另外还有字符级的预测输出等。

给定一组多层级标注的训练样本[x；(y^b，y^c)]；其中的语音序列通过特征提取操作转化为音频特征序列x，对应的多层级标识分别为子词(subword)文本序列y^b和字符(character)文本序列y^c。

模型的编码器模块起到特征提取器的功能，用于增强输入音频特征序列在时间维度上的相关性，生成编码器输出序列

交互解码器模块在解码时刻t，从

中提取与当前时刻输出相关的信息，并结合模型历史输出生成子词预测输出

下面，将以第t时刻的子词预测过程为例，对模型中交互解码器的具体结构进行介绍。

在模型进行t时刻的子词预测输出前，需要先完成与t-1时刻子词对应的字符子序列

的预测输出。

如图7所示，为序列到序列语音合成声学模型中的交互解码器的结构图，具体各部分如下详细介绍。

(1)字符模块

字符子序列

中的第u字符的预测输出过程如下，首先，与传统解码器结构相同，模型进行字符解码器状态更新和注意力向量计算。状态向量

根据前一字符时刻的输出

更新字符解码器状态

其中RNN表示单层循环神经网络(recurrent neural network)。

字符解码器状态

与

作为反馈信息加载到字符注意力模块中，用于生成字符注意力向量

和上下文向量

语音识别中的输入、输出序列具有单调对齐映射关系，故采用带卷积特征的加性注意力计算[1]。该注意力向量计算对应以下公式

其中Attend表示通用的注意力模块；在此基础上进行字符的输出预测，根据

进一步更新解码器状态

将

和

共同作用于

的输出预测过程。此时字符的预测输出过程如下所示

当忽略子词状态

对于字符预测输出的影响，字符预测输出过程可进一步简化为

公式中W^c和b^c分别为可训矩阵参数和偏差向量(bias vector)。以上公式构成了对字符子序列

中的第u单元的预测输出。重复上述过程，直至完成字符子序列

的输出预测。完成后将此刻字符解码器的状态向量

记为

该向量中包含了生成t时刻子词预测输出所需的字符历史信息。

(2)子词隐层模块

完成字符部分的准备工作后，进行第t时刻子词的输出预测。同样进行解码状态的更新与注意力向量的计算。首先采用历史时刻的预测输出

更新解码器状态

更新过程如

而后更新后的状态信息

将作为注意力模块的输入，生成对应的注意力向量和上下文向量

子词隐层模块的整体结构如图7所示。接下来的计算过程不同于传统的编码-解码模型。在子词预测

过程中需考虑额外引入字符解码器状态

对子词输出的影响。本发明将通过添加交互模块实现上述字符对预测过程的影响。

(3)交互模块

该模块整体由一个注意力模块和两层RNN构成，对应的计算过程如图7中中间区域示。进一步描述了交互模块的结构：通过单层RNN融合

和

获得t时刻的交互状态向量

中包含满足序列间对齐映射关系的历史输出信息，用其计算交互模块的注意力向量

包含该计算过程，交互解码器结构中总共包含三个Attend。为了将它们加以区分，本发明将上述Attend计算过程分别称为字符注意力模块、子词注意力模块和交互注意力模块。该处的交互注意力模块能生成兼顾子词和字符信息的交互上下文向量

可以作为

的信息补充。

完成上述过程便同时获得子词状态

和字符状态

中包含了子词历史状态

和子词历史输出

两组信息；

是字符历史状态

和

的结合。两种状态处于相同时序且构成内容类似可进行进一步的信息融合。参考GLU激活单元[2]计算融合向量

公式中σ(.)和FC分别代指sigmoid激活函数和全连接层。获得融合向量

后，通过单层RNN和

更新交互解码器状态

计算过程如

(4)子词分类模块

最后使用交互模块的状态

预测当前时刻t的主要子词输出

计算过程为

除却计算

子词状态

在此同时作为输入向量生成辅助子词输出

计算过程为

在这两个公式中，Wⁱ和W^b为可训矩阵参数，bⁱ和b^b为偏移向量。子词分类模块整体对应图7左下角区域。

(5)模型损失函数

在上述计算过程中，模型生成三种类型的输出：字符子序列的输出

子词单元的输出

和辅助子词输出

三类输出相对应的分别对应损失函数中的一部分。当完成长度为T的子词输出的预测过程后，模型对应的损失函数如下

公式中，λ∈[0，1]是模型训练过程中预设的超参数。在模型训练中我们选用交叉熵(cross entropy，CE)损失函数作为目标函数。公式中的第一项和第二项分别对应字符输出和子词输出的交叉熵损失，第三项是辅助子词输出

对应的交叉熵损失，用于辅助模型中子词注意力模块的训练。

(6)信息使用差异

后推理算法和交互解码器模块均使用对齐映射信息，但使用的阶段不同。在图8中说明性地解释了解得字词

所用到的上下文的差异。对于后推理算法，子序列

可以进一步应用于验证和校正图8(a)中的预测输出，而在图8(b)所示的交互解码器模块中则使用的是对应时间步(t-1)的历史输出字符。显然，对齐映射信息是在不同的时间步被利用的。因此，提出的MGSA端到端模型通过在解码阶段使用后推理算法，可以充分利用当前和历史时间步中的对齐映射信息。

实验验证

为了验证所提出的帧间解码器模块和后推理算法的有效性，针对各种***，根据在Switchboard-300hrs数据集上的误码率(WER)评估其ASR性能。Switchboard由大量的英语电话语音组成，选择了300小时的子集LDC97S62进行训练，保留10％做交叉验证。并选择Hub5 eval2000(即LDC2002S09)进行性能评估，它由两个子集组成：1)Switchboard(类似于训练集)和2)CallHome，它是从朋友之间以及家庭内部的对话中收集的。完整的Hub5eval2000，子集Switchboard和CallHome分别表示为“Full”，“SWD”和“CHE”。为了完整性，还评估了RT03 Switchboard测试集(即LDC2007S10)的ASR性能。

模型的编码器具有两个卷积层，它们使用3×3滤波器和32个通道对时间序列进行向下采样，随后是6层双向长短时记忆(LSTM),cell size大小为800。默认解码器是具有800个单元的2层单向LSTM。使用80维log-mel滤波器组系数，三个音高系数以及归一化的均值和方差作为输入特征。实验中的char目标是一组46个字符，其包含英文字母，数字，标点符号和特殊的转录符号；对于子词目标，使用基于BPE算法的SentencePiece进行分段；基于ESPnet中的默认设置，为Switchboard使用大小约为2000的词汇表。

使用的不同实验配置如图5所示，其中Baseline为基线，Baseline+在前者encoder模块中增加了一层BLSTM，目的为排除模型大小的影响，MultiTask为多任务学习方案，MGSA_bi和MGSA_uni为本发明提出的MGSA方案，前者考虑字词与字符间的交互信息，而后者仅考虑字符对字词的信息贡献。

实验结果如表I和表II所示：

表I switchboard数据集实验结果

表II后推理算法实验结果

1.实验一：联合解码算法

为了分析模型结构对性能的影响，我们首先在解码阶段考虑所有方法的传统束搜索算法。表I列出了在Switchboard两个验证集上实现的WER。显然，与基于eval2000数据集的MultiTask和Baseline相比，本发明提出的MGSA_uni分别将WER降低了1.4％和1.9％；对于RT03，与MultiTask和Baseline相比，MGSA_uni的WER分别降低了1.0％和1.7％；而且MGSA_bi的性能不如MGSA_uni。实际上，MGSA_uni的另一个优势在于，可以同时计算所有字符序列的预测，并且可以一次提取所有需要为相应子词提供的参数字符。

2.实验二：交互解码器

由于多粒度目标不仅影响模型结构，而且影响解码，因此，我们在解码阶段通过实验评估了应用所提出的后推理算法的影响。为了简洁起见，下面将分别用MGSA_uni+、MultiTask+表示MGSA_uni和MultiTask加上后推理算法。

Switchboard数据集上的实验结果示于表II中。相比于MGSA_uni，本发明提出MGSA_uni+方法也使eval2000的WER降低了0.7％，而RT03的WER降低了0.8％。相比于MultiTask方法也有明显提升。

由于提出的后推理算法的应用不受端到端结构的限制，因此，在表II中的Switchboard数据集上展示了MultiTask+的性能。由于使用了后推理算法，与原始MultiTask方法相比，Switchboard上MultiTask的WER降低了1.2％。因此，得出的结论是，提出的后推理算法能够进一步改善ASR性能。值得注意的是，该算法在MGSA_uni模型上的改进高于MultiTask。这是由于在前者中考虑了多个粒度中包含的对齐映射信息，而后者则没有考虑。由于MGSA_uni+相对于MGSA_uni实现了性能提升，并且比MultiTask+对MultiTask的提升略小一点，可以得出结论，分别使用帧间解码器和后推理算法获得的性能提升可能是部分互补的。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层级标识的端到端语音识别建模方法，其特征在于，包括解码推论，所述解码推论采用后推理算法，所述后推理算法包括：

对应细粒度文本序列的模型产生后验概率输出序列

所述输出序列

能够唯一对应出粗粒度子序列

计算模型生成所述粗粒度子序列

的对数似然值，并以此作为现有预测输出序列

的交叉验证；

2.根据权利要求1所述的建模方法，其特征在于，所述后推理算法的核心在于，在解码推论阶段使用序列间对齐映射信息。

3.根据权利要求1所述的建模方法，其特征在于，在所述交叉验证的过程中并未生成新的解码路径，而是从另一个角度对于现有路径输出结果进行得分的重排序。

4.根据权利要求1所述的建模方法，其特征在于，每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。

5.一种由权利要求1-4任一项所述的建模方法所得到的端到端语音识别模型，其特征在于，所述语音识别模型包括交互解码器，所述交互解码器包括字符模块、交互模块、子词隐层模块和子词分类模块；其中，

所述字符模块用于建模字符子序列的输出预测

并为后续运算过程提供字符历史状态

6.根据权利要求5所述的语音识别模型，其特征在于，所述字符模块包括字符注意力模块计算、循环神经网络层和全连接层；所述字符模块的输入是字符历史输出的信息表征以及编码器输出序列

7.根据权利要求5所述的语音识别模型，其特征在于，所述交互模块包括交互注意力机制与循环神经网络层；所述交互模块的输入是字符历史状态、子词状态以及编码器输出序列

8.根据权利要求5所述的语音识别模型，其特征在于，所述子词隐层模块的输入是子词历史输出的信息表征以及编码器输出序列

9.根据权利要求5所述的语音识别模型，其特征在于，所述子词分类模块的的输入是交互状态和子词状态，将所述交互状态和子词状态分别通过全连接层实现对子词的输出预测，将两项输出分别称为子词输出和辅助子词输出。

10.根据权利要求5所述的语音识别模型，其特征在于，所述交互解码器生成三种类型的输出：字符输出、子词输出和辅助子词输出，这三类输出对应三项交叉熵损失，三者共同构成了模型训练的损失函数。