CN114882874A

CN114882874A - 一种端到端模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN114882874A
Application number: CN202210601865.8A
Authority: CN
Inventors: 赵梦原; 王健宗; 张之勇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-09

Abstract

本申请实施例属于人工智能中的语音识别技术领域，涉及一种应用于语音识别的端到端模型训练方法、装置、计算机设备及存储介质。本申请将声学模型的输出作为音频训练数据的扩充文本，并将该扩充文本以及音频标注文本一同作为语言模型输入以训练该语音识别模型，从而有效解决传统语音训练集中标注文本内容过于局限的弊端，使得语音识别模型的语言模型学到更加丰富全面的信息，从而有效提升该语音识别模型的识别准确率，同时，在一定程度上减轻端到端模型中声学信息与语言信息的耦合程度，提升整个模型在不同场景，尤其是识别不同领域的语音时的鲁棒性，避免了更换应用场景时准确率大幅下降的问题，也增加了模型实际使用和部署时的灵活性。

Description

一种端到端模型训练方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能中的语音处理技术领域，尤其涉及一种应用于语音识别的端到端模型训练方法、装置、计算机设备及存储介质。

背景技术

随着人工智能领域的快速发展，语音识别成为人工智能领域中越来越重要的应用技术。语音识别技术从较早的hmm-gmm模型、声学模型发展至目前常用的端到端模型。

目前，最新的端到端模型为基于CTC-Attention的端到端模型，该基于CTC-Attention的端到端模型采用multi-tasklearning的方法联合优化语音和文本，很好地结合了二者的优势，相比传统模型，取得了很大的提升。

然而，申请人发现传统基于CTC-Attention的端到端模型存在合声学信息和语言信息耦合的问题，如果测试集与训练集同源，那么识别准确率很高；一旦测试集与训练集不同源，尤其是说话领域差别较大，那么准确率就会明显下降，由此可见，传统基于CTC-Attention的端到端模型严重依赖训练数据，导致鲁棒性、灵活性较低的问题。

发明内容

本申请实施例的目的在于提出一种应用于语音识别的端到端模型训练方法、装置、计算机设备及存储介质，以解决传统基于CTC-Attention的端到端模型严重依赖训练数据，导致鲁棒性、灵活性较低的问题。

为了解决上述技术问题，本申请实施例提供一种应用于语音识别的端到端模型训练方法，采用了如下所述的技术方案：

获取模型训练数据，其中，所述模型训练数据包括音频训练集合，所述音频训练集合包括训练音频数据以及音频标注文本；

将所述训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据所述音频识别文本构建CTC损失函数；

对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据；

将所述融合数据输入至所述端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据所述语言翻译结果构建交叉熵损失函数；

根据所述CTC损失函数以及所述交叉熵损失函数对所述端到端模型进行联合训练，得到目标端到端模型。

为了解决上述技术问题，本申请实施例还提供一种应用于语音识别的端到端模型训练装置，采用了如下所述的技术方案：

训练数据获取模块，用于获取模型训练数据，其中，所述模型训练数据包括音频训练集合，所述音频训练集合包括训练音频数据以及音频标注文本；

音频识别模块，用于将所述训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据所述音频识别文本构建CTC损失函数；

文本融合模块，用于对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据；

语言翻译模块，用于将所述融合数据输入至所述端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据所述语言翻译结果构建交叉熵损失函数；

联合训练模块，用于根据所述CTC损失函数以及所述交叉熵损失函数对所述端到端模型进行联合训练，得到目标端到端模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的应用于语音识别的端到端模型训练方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的应用于语音识别的端到端模型训练方法的步骤。

本申请提供了一种应用于语音识别的端到端模型训练方法，包括：获取模型训练数据，其中，所述模型训练数据包括音频训练集合，所述音频训练集合包括训练音频数据以及音频标注文本；将所述训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据所述音频识别文本构建CTC损失函数；对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据；将所述融合数据输入至所述端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据所述语言翻译结果构建交叉熵损失函数；根据所述CTC损失函数以及所述交叉熵损失函数对所述端到端模型进行联合训练，得到目标端到端模型。与现有技术相比，本申请在训练语音识别模型时，将声学模型的输出(音频识别文本)作为音频训练数据的扩充文本，并将该扩充文本以及音频标注文本一同作为语言模型输入以训练该语音识别模型，从而有效解决传统语音训练集中标注文本内容过于局限的弊端，使得语音识别模型的语言模型学到更加丰富全面的信息，从而有效提升该语音识别模型的识别准确率，同时，在一定程度上减轻端到端模型中声学信息与语言信息的耦合程度，提升整个模型在不同场景，尤其是识别不同领域的语音时的鲁棒性，避免了更换应用场景时准确率大幅下降的问题，也增加了模型实际使用和部署时的灵活性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是本申请实施例一提供的应用于语音识别的端到端模型训练方法的实现流程图；

图3是本申请实施例一提供的标准CTC-Attention模型的一种具体实施方式的结构示意图；

图4是本申请实施例一提供的改进CTC-Attention模型的的一种具体实施方式的结构示意图；

图5是本申请实施例一提供的融合数据获取方法的一种具体实施方式的流程图；

图6是本申请实施例一提供的融合数据获取方法的另一种具体实施方式的流程图；

图7是图2中步骤S203的一种具体实施方式的流程图；

图8是本申请实施例一提供的融合数据获取方法的一种具体实施方式的流程图；

图9是本申请实施例二提供的应用于语音识别的端到端模型训练装置的结构示意图；

图10是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的应用于语音识别的端到端模型训练方法一般由服务器/终端设备执行，相应地，应用于语音识别的端到端模型训练装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

实施例一

继续参考图2，示出了本申请实施例一提供的应用于语音识别的端到端模型训练方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

上述的应用于语音识别的端到端模型训练方法，包括：步骤S201、步骤S202、步骤S203、步骤S204以及步骤S205。

在步骤S201中，获取模型训练数据，其中，模型训练数据包括音频训练集合，音频训练集合包括训练音频数据以及音频标注文本。

在本申请实施例中，应用于语音识别的端到端模型可以采用标准的CTC-Attention模型，如图3所示。

在本申请实施例中，训练音频数据指的是用于训练端到端模型中的声学模型的音频，其中，用户可以根据实际场景需要筛选与目标场景相对应的领域音频，以使训练好的端到端模型能够在该目标场景中进行精准语音识别。

在本申请实施例中，音频标注文本指的是针对该训练音频数据预先标注好翻译信息的标注文本。

在本申请实施例中，音频训练集合指的是由上述训练音频数据和上述音频标准文本建立对应关系的集合数据。

在步骤S202中，将训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据音频识别文本构建CTC损失函数。

在本申请实施例中，声学模型是一种“语音-文字序列”的端到端模型，可以将一段音频转化成为一列文本序列，具体的，该声学模型可以是传统的Hmm-dnn模型，应当理解，此处对声学模型的举例仅为方便理解，不用于限定本申请。

在本申请实施例中，开始模型训练后，依次将该音频训练集合中的一批训练音频数据输入至该声学模型进行音频识别，得到对应的音频识别文本，以便后续根据该音频识别结果进行模型参数调整。

在本申请实施例中，CTC(Connectionist Temporal Classification)算法，它可以让RNN直接对序列数据进行学习，而无需事先标注好训练数据中输入序列和输出序列的映射关系，打破了RNN应用于语音识别、手写字识别等领域的数据依赖约束，使得RNN模型在序列学习任务中取得更好的应用效果。

在步骤S203中，对音频识别文本以及音频标注文本进行融合操作，得到融合数据。

在本申请实施例中，当声学模型进行音频识别得到音频识别文本之后，本申请在标准CTC-Attention模型的基础上，将该声学模型的输出端链接至word-embedding层，如图4所示改进CTC-Attention模型的虚线部分，即：对encoder(编码器)的输出进行解码，得到CTC 1-best的文本，然后把CTC 1-best输入到decoder(解码器)一侧，与标注文本一起送入到decoder(解码器)中，以此达到扩充训练文本的目的。

在本申请实施例中，融合数据即为上述扩充完的训练文本。

在步骤S204中，将融合数据输入至端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据语言翻译结果构建交叉熵损失函数。

在本申请实施例中，语言模型主要用于对对候选句子进行排序，从而挑选出最符合目标场景的句子，其中，该语言模型可以是n-gram模型，应当理解，此处对语言模型的举例仅为方便理解，不用于限定本申请。

在本申请实施例中，在获得融合数据之后，可采用待训练的语言模型对该融合数据进行模拟翻译，得到翻译结果，并根据该翻译结果构建交叉熵损失函数，以便后续根据该翻译结果结果进行模型参数调整。

在步骤S205中，根据CTC损失函数以及交叉熵损失函数对端到端模型进行联合训练，得到目标端到端模型。

在诸如hmm-dnn的传统模型中，声学模型和语言模型是分别训练的。Hmm-dnn模型是一个纯的声学模型，需用有标注的语音数据来训练。语言模型则一般使用n-gram模型，需要用纯文本数据训练。最后再用基于wfst的方法将两个模型联合起来进行解码。由于获取文本数据远比获取语音数据容易，因此一般而言，语言模型的训练语料会远远多于语音训练集的标注文本。而且可以根据语音识别实际应用场景说话内容的领域，来训练不同领域的语言模型，这样就可以使用不同的语言模型搭配同一个声学模型，以支持不同的应用场景。

CTC-Attention的模型结构，和它所使用的multi-task learning这种联合学***。

在本申请实施例中，设法修改模型，使CTC-Attention在训练过程中，能够生成更多的文本，提供给decoder进行训练(语言模型信息主要包含在decoder中)，使模型中所包含的语言模型的信息更鲁棒，减轻对语音训练集的标注文本的依赖。

在本申请实施例中，提供了一种应用于语音识别的端到端模型训练方法，包括：获取模型训练数据，其中，模型训练数据包括音频训练集合，音频训练集合包括训练音频数据以及音频标注文本；将训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据音频识别文本构建CTC损失函数；对音频识别文本以及音频标注文本进行融合操作，得到融合数据；将融合数据输入至端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据语言翻译结果构建交叉熵损失函数；根据CTC损失函数以及交叉熵损失函数对端到端模型进行联合训练，得到目标端到端模型。与现有技术相比，本申请在训练语音识别模型时，将声学模型的输出(音频识别文本)作为音频训练数据的扩充文本，并将该扩充文本以及音频标注文本一同作为语言模型输入以训练该语音识别模型，从而有效解决传统语音训练集中标注文本内容过于局限的弊端，使得语音识别模型的语言模型学到更加丰富全面的信息，从而有效提升该语音识别模型的识别准确率，同时，在一定程度上减轻端到端模型中声学信息与语言信息的耦合程度，提升整个模型在不同场景，尤其是识别不同领域的语音时的鲁棒性，避免了更换应用场景时准确率大幅下降的问题，也增加了模型实际使用和部署时的灵活性。

继续参阅图5，示出了本申请实施例一提供的融合数据获取方法的一种具体实施方式的流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，在步骤S202之后且步骤S203之前，还包括：步骤S501，步骤S203具体包括：步骤S502。

在步骤S501中，根据贪心搜索算法对音频识别文本进行搜索操作，得到贪心搜索结果。

在本申请实施例中，贪心搜索算法(Greedy Algorithm)是指一种在求解问题时总是采取当前状态下最优的选择从而得到最优解的算法。

在步骤S502中，对贪心搜索结果以及音频标注文本进行融合操作，得到融合数据。

在本申请实施例中，在encoder输出h之后经过一个线性层、softmax层，得到CTC的后验。然后用greedy search算法搜索得到CTC 1-best识别结果W＝(w₁,…,w_L)：

h＝E(x)

其中E(·)表示encoder(编码器)；

W＝G(Softmax(Linear(h)))

其中，G是greedy search算法。

继续参阅图6，示出了本申请实施例一提供的融合数据获取方法的另一种具体实施方式的流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，在步骤S202之后且步骤S203之前，还包括：步骤S601；步骤S203具体包括：步骤S602。

在步骤S601中，根据编辑距离算法对音频识别文本以及音频标注文本进行对齐操作，得到对齐识别文本以及对齐标注文本。

在步骤S602中，对对齐识别文本以及对齐标注文本进行融合操作，得到融合数据。

在本申请实施例中，因为CTC1-best是识别的结果，因此不可避免地包含一些错误。我们既希望引入一定的错误，来扩充训练文本，又不希望错误太多，使模型学坏。因此我们需要设法控制“错误”。

假如标注文本y＝{A,B,C,A}，CTC 1-best是W＝{A,C,A}。如果使用标注文本，在训练的第二步，输入{sos,A,B}，期望得到的输出是{C}。而如果用CTC 1-best，输入是{sos,A,C}，期望的输出是{C}。这个训练样本是错误的。

为了解决这个问题，我们使用编辑距离算法，把标注文本和CTC 1-best结果做对齐。

(y_align,W_align)＝A_text(y,W)

其中，A_text(·)表示使用编辑距离算法对2个文本序列做对齐。在上例中，对齐之后的CTC 1-best变为{A,blank,C,A}。

继续参阅图7，示出了图2中步骤S203的一种具体实施方式的流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，步骤S203具体包括：步骤S701以及步骤S702。

在步骤S701中，获取与音频识别文本相对应的音频识别权重α。

在步骤S702中，根据融合算法计算音频识别权重α、音频识别文本W以及音频标注文本y，得到融合数据∈_fusion，其中，融合算法表示为：

∈_fusion＝α·ε(W)+(1-α)·ε(y)

其中，∈_fusion表示融合数据；α表示音频识别权重；ε(·)表示word-embedding函数；W表示音频识别文本；y表示音频标注文本。

继续参阅图8，示出了本申请实施例一提供的融合数据获取方法的一种具体实施方式的流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，在步骤S701之后且步骤S702之前，还包括：步骤S801；步骤S702具体包括：步骤S802、步骤S803以及步骤S804。

在步骤S801中，比较音频识别文本以及音频标注文本的文本长度，得到文本长度差。

在步骤S802中，若文本长度差为零，则执行根据融合算法计算音频识别权重α、音频识别文本W以及音频标注文本y，得到融合数据∈_fusion的步骤；

在步骤S803中，若文本长度差不为零且满足预设长度差阈值区间，则将音频识别权重α修改为第一调整权重α₁＝1，并根据融合算法、第一调整权重α₁、音频识别文本W以及音频标注文本y计算融合数据∈_fusion；

在步骤S804中，若文本长度差不为零且不满足预设长度差阈值区间，则将音频识别权重α修改为第二调整权重α₂＝0，并根据融合算法、第二调整权重α₂、音频识别文本W以及音频标注文本y计算融合数据∈_fusion。

在本申请实施例中，CTC 1-best的长度可能与标注文本的长度不一致，这就会导致两个文本经过word-embedding之后得到的矩阵大小不同，无法用上面的公式进行融合。尤其是训练刚开始时，encoder(编码器)并没有被充分训练，此时通过greedy search得到的CTC 1-best可能会很差，这会污染我们的训练语料。因此，需要对该音频识别权重α进行如下调整：

如果二者的长度相同，那么就使用上述公式对二者进行融合；

如果二者长度不同但满足预设长度差阈值区间，那么就只使用CTC 1-best；

如果二者长度不同而且不满足预设长度差阈值区间，那么就只使用标注文本。

在本实施例的一些可选的实现方式中，预设长度差阈值可以表示为：

T_l＝|L_ctc-L_y|

其中，L_ctc表示音频识别文本的文本长度；L_y表示音频标注文本的文本长度。

在实际应用中，预设长度差阈值T_l的选取可能与数据集相关性较大。

在本实施例的一些可选的实现方式中，预设长度差阈值还可以表示为：

T_r＝|L_ctc-L_y|/L_y

在实际应用中，预设长度差阈值T_r的选取更方便。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

进一步参考图9，作为对上述图2所示方法的实现，本申请提供了一种应用于语音识别的端到端模型训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图9所示，本实施例的应用于语音识别的端到端模型训练装置200包括：训练数据获取模块210、音频识别模块220、文本融合模块230、语言翻译模块240以及联合训练模块250。其中：

训练数据获取模块210，用于获取模型训练数据，其中，模型训练数据包括音频训练集合，音频训练集合包括训练音频数据以及音频标注文本；

音频识别模块220，用于将训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据音频识别文本构建CTC损失函数；

文本融合模块230，用于对音频识别文本以及音频标注文本进行融合操作，得到融合数据；

语言翻译模块240，用于将融合数据输入至端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据语言翻译结果构建交叉熵损失函数；

联合训练模块250，用于根据CTC损失函数以及交叉熵损失函数对端到端模型进行联合训练，得到目标端到端模型。

在本申请实施例中，应用于语音识别的端到端模型可以采用标准的CTC-Attention模型，如图2所示。

在本申请实施例中，融合数据即为上述扩充完的训练文本。

在本申请实施例中，提供了一种应用于语音识别的端到端模型训练装置，包括：训练数据获取模块210，用于获取模型训练数据，其中，模型训练数据包括音频训练集合，音频训练集合包括训练音频数据以及音频标注文本；音频识别模块220，用于将训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本，并根据音频识别文本构建CTC损失函数；文本融合模块230，用于对音频识别文本以及音频标注文本进行融合操作，得到融合数据；语言翻译模块240，用于将融合数据输入至端到端模型的语言模型进行语言翻译操作，得到语言翻译结果，并根据语言翻译结果构建交叉熵损失函数；联合训练模块250，用于根据CTC损失函数以及交叉熵损失函数对端到端模型进行联合训练，得到目标端到端模型。与现有技术相比，本申请在训练语音识别模型时，将声学模型的输出(音频识别文本)作为音频训练数据的扩充文本，并将该扩充文本以及音频标注文本一同作为语言模型输入以训练该语音识别模型，从而有效解决传统语音训练集中标注文本内容过于局限的弊端，使得语音识别模型的语言模型学到更加丰富全面的信息，从而有效提升该语音识别模型的识别准确率，同时，在一定程度上减轻端到端模型中声学信息与语言信息的耦合程度，提升整个模型在不同场景，尤其是识别不同领域的语音时的鲁棒性，避免了更换应用场景时准确率大幅下降的问题，也增加了模型实际使用和部署时的灵活性。

在本实施例的一些可选的实现方式中，上述应用于语音识别的端到端模型训练装置100还包括：结果搜索模块；上述文本融合模块230包括：第一文本融合子模块。其中：

结果搜索模块，用于根据贪心搜索算法对音频识别文本进行搜索操作，得到贪心搜索结果；

第一文本融合子模块，用于对贪心搜索结果以及音频标注文本进行融合操作，得到融合数据。

h＝E(x)

其中E(·)表示encoder(编码器)；

W＝G(Softmax(Linear(h)))

其中，G是greedy search算法。

在本实施例的一些可选的实现方式中，上述应用于语音识别的端到端模型训练装置100还包括：文本对齐模块；上述文本融合模块230包括：第二文本融合子模块。其中：

文本对齐模块，用于根据编辑距离算法对音频识别文本以及音频标注文本进行对齐操作，得到对齐识别文本以及对齐标注文本；

第二文本融合子模块，用于对对齐识别文本以及对齐标注文本进行融合操作，得到融合数据。

(y_align,W_align)＝A_text(y,W)

在本实施例的一些可选的实现方式中，上述文本融合模块230包括：权重获取子模块以及融合数据计算子模块，其中：

权重获取子模块，用于获取与音频识别文本相对应的音频识别权重α；

融合数据计算子模块，用于根据融合算法计算音频识别权重α、音频识别文本W以及音频标注文本y，得到融合数据∈_fusion，其中，融合算法表示为：

∈_fusion＝α·ε(W)+(1-α)·ε(y)

在本实施例的一些可选的实现方式中，上述应用于语音识别的端到端模型训练装置100还包括：长度比较模块；上述融合数据计算子模块包括：第一权重修改单元、第二权重修改单元以及第三权重修改单元，其中：

长度比较模块，用于比较音频识别文本以及音频标注文本的文本长度，得到文本长度差；

第一权重修改单元，用于若文本长度差为零，则执行根据融合算法计算音频识别权重α、音频识别文本W以及音频标注文本y，得到融合数据∈_fusion的步骤；

第二权重修改单元，用于若文本长度差不为零且满足预设长度差阈值区间，则将音频识别权重α修改为第一调整权重α₁＝1，并根据融合算法、第一调整权重α₁、音频识别文本W以及音频标注文本y计算融合数据∈_fusion；

第三权重修改单元，用于若文本长度差不为零且不满足预设长度差阈值区间，则将音频识别权重α修改为第二调整权重α₂＝0，并根据融合算法、第二调整权重α₂、音频识别文本W以及音频标注文本y计算融合数据∈_fusion。

T_l＝|L_ctc-L_y|

T_r＝|L_ctc-L_y|/L_y

在实际应用中，预设长度差阈值T_r的选取更方便。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

所述计算机设备300包括通过***总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是，图中仅示出了具有组件310-330的计算机设备300，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器310至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器310可以是所述计算机设备300的内部存储单元，例如该计算机设备300的硬盘或内存。在另一些实施例中，所述存储器310也可以是所述计算机设备300的外部存储设备，例如该计算机设备300上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中，所述存储器310通常用于存储安装于所述计算机设备300的操作***和各类应用软件，例如应用于语音识别的端到端模型训练方法的计算机可读指令等。此外，所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器320在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中，所述处理器320用于运行所述存储器310中存储的计算机可读指令或者处理数据，例如运行所述应用于语音识别的端到端模型训练方法的计算机可读指令。

所述网络接口330可包括无线网络接口或有线网络接口，该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。

本申请提供的计算机设备，在训练语音识别模型时，将声学模型的输出(音频识别文本)作为音频训练数据的扩充文本，并将该扩充文本以及音频标注文本一同作为语言模型输入以训练该语音识别模型，从而有效解决传统语音训练集中标注文本内容过于局限的弊端，使得语音识别模型的语言模型学到更加丰富全面的信息，从而有效提升该语音识别模型的识别准确率，同时，在一定程度上减轻端到端模型中声学信息与语言信息的耦合程度，提升整个模型在不同场景，尤其是识别不同领域的语音时的鲁棒性，避免了更换应用场景时准确率大幅下降的问题，也增加了模型实际使用和部署时的灵活性。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的应用于语音识别的端到端模型训练方法的步骤。

本申请提供的计算机可读存储介质，在训练语音识别模型时，将声学模型的输出(音频识别文本)作为音频训练数据的扩充文本，并将该扩充文本以及音频标注文本一同作为语言模型输入以训练该语音识别模型，从而有效解决传统语音训练集中标注文本内容过于局限的弊端，使得语音识别模型的语言模型学到更加丰富全面的信息，从而有效提升该语音识别模型的识别准确率，同时，在一定程度上减轻端到端模型中声学信息与语言信息的耦合程度，提升整个模型在不同场景，尤其是识别不同领域的语音时的鲁棒性，避免了更换应用场景时准确率大幅下降的问题，也增加了模型实际使用和部署时的灵活性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对齐中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种应用于语音识别的端到端模型训练方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的应用于语音识别的端到端模型训练方法，其特征在于，在所述将所述训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本的步骤之后，且在所述对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据的步骤之前，还包括下述步骤：

根据贪心搜索算法对所述音频识别文本进行搜索操作，得到贪心搜索结果；

所述对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据的步骤，具体包括下述步骤：

对所述贪心搜索结果以及所述音频标注文本进行融合操作，得到所述融合数据。

3.根据权利要求1所述的应用于语音识别的端到端模型训练方法，其特征在于，在所述将所述训练音频数据输入至端到端模型的声学模型进行音频识别操作，得到音频识别文本的步骤之后，且在所述对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据的步骤之前，还包括下述步骤：

根据编辑距离算法对所述音频识别文本以及所述音频标注文本进行对齐操作，得到对齐识别文本以及对齐标注文本；

所述对所述音频识别文本以及所述音频标注文本进行融合操作，得到融合数据的步骤，具体包括：

对所述对齐识别文本以及所述对齐标注文本进行所述融合操作，得到所述融合数据。

4.根据权利要求1所述的应用于语音识别的端到端模型训练方法，其特征在于，所述融合所述音频识别文本以及所述音频标注文本，得到融合数据的步骤，具体包括下述步骤：

获取与所述音频识别文本相对应的音频识别权重α；

根据融合算法计算所述音频识别权重α、所述音频识别文本W以及所述音频标注文本y，得到所述融合数据∈_fusion，其中，所述融合算法表示为：

∈_fusion＝α·ε(W)+(1-α)·ε(y)

其中，∈_fusion表示所述融合数据；α表示所述音频识别权重；ε(·)表示word-embedding函数；W表示所述音频识别文本；y表示所述音频标注文本。

5.根据权利要求4所述的应用于语音识别的端到端模型训练方法，其特征在于，在所述获取与所述音频识别文本相对应的音频识别权重α的步骤之后，且所述根据融合算法计算所述音频识别权重α、所述音频识别文本W以及所述音频标注文本y，得到所述融合数据∈_fusion的步骤之前，还包括下述步骤：

比较所述音频识别文本以及所述音频标注文本的文本长度，得到文本长度差；

所述根据融合算法计算所述音频识别权重α、所述音频识别文本W以及所述音频标注文本y，得到所述融合数据∈_fusion的步骤，具体包括下述步骤：

若所述文本长度差为零，则执行所述根据融合算法计算所述音频识别权重α、所述音频识别文本W以及所述音频标注文本y，得到所述融合数据∈_fusion的步骤；

若所述文本长度差不为零且满足预设长度差阈值区间，则将所述音频识别权重α修改为第一调整权重α₁＝1，并根据所述融合算法、第一调整权重α₁、所述音频识别文本W以及所述音频标注文本y计算所述融合数据∈_fusion；

若所述文本长度差不为零且不满足预设长度差阈值区间，则将所述音频识别权重α修改为第二调整权重α₂＝0，并根据所述融合算法、第二调整权重α₂、所述音频识别文本W以及所述音频标注文本y计算所述融合数据∈_fusion。

6.根据权利要求5所述的应用于语音识别的端到端模型训练方法，其特征在于，所述预设长度差阈值可以表示为：

T_l＝|L_ctc-L_y|

其中，L_ctc表示所述音频识别文本的文本长度；L_y表示所述音频标注文本的文本长度。

7.根据权利要求5所述的应用于语音识别的端到端模型训练方法，其特征在于，所述预设长度差阈值还可以表示为：

T_r＝|L_ctc-L_y|/L_y

8.一种应用于语音识别的端到端模型训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的应用于语音识别的端到端模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的应用于语音识别的端到端模型训练方法的步骤。