CN111833852A

CN111833852A - 一种声学模型的训练方法、装置以及计算机可读存储介质

Info

Publication number: CN111833852A
Application number: CN202010618657.XA
Authority: CN
Inventors: 薛峰
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-27
Anticipated expiration: 2040-06-30
Also published as: CN111833852B

Abstract

本发明公开了一种声学模型的训练方法、装置以及计算机可读存储介质，包括获取带标注的声学训练数据；将所获取的声学训练数据作为云端声学模型的输入进行训练，得到第一声学后验概率；将云端声学模型中的模型参数信息更新至本地第一声学模型；基于声学训练数据和第一声学后验概率，对本地第一声学模型进行训练，得到目标第一声学模型；以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；基于声学训练数据和第一声学后验概率，对本地第二声学模型进行训练，得到目标第二声学模型。利用云端的计算资源来得到模型参数，并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型，因而大大提高了训练效率。

Description

一种声学模型的训练方法、装置以及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声学模型的训练方法、装置以及计算机可读存储介质。

背景技术

语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。近年来，随着高质量的训练数据的增加，加上本地芯片计算能力不足，导致现如今依靠芯片来训练一个模型的效率变得十分低下。

发明内容

本发明实施例提供了一种声学模型的训练方法、装置以及计算机可读存储介质，具有高效地训练声学模型的效果。

本发明一方面提供一种声学模型的训练方法，所述方法包括：获取带标注的声学训练数据；将所获取的声学训练数据作为云端声学模型的输入进行训练，得到第一声学后验概率；将所述云端声学模型中的模型参数信息更新至本地第一声学模型；基于所述声学训练数据和第一声学后验概率，对所述本地第一声学模型进行训练，得到目标第一声学模型；以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；基于所述声学训练数据和第一声学后验概率，对所述本地第二声学模型进行训练，得到目标第二声学模型。

在一可实施方式中，所述带标注的声学训练数据包括相互对应的声学特征信息和文本信息。

在一可实施方式中，所述云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。

在一可实施方式中，所述云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。

在一可实施方式中，所述基于所述声学训练数据和第一声学后验概率，对所述本地第一声学模型进行训练，得到目标第一声学模型，包括：将所述声学训练数据作为所述本地第一声学模型的输入进行训练，得到第二声学后验概率；基于所述第一声学后验概率和第二声学后验概率，更新所述本地第一声学模型中的参数信息，得到目标第一声学模型。

在一可实施方式中，所述基于所述声学训练数据和第一声学后验概率，对所述本地第二声学模型进行训练，得到目标第二声学模型，包括：将所述声学训练数据作为所述本地第二声学模型的输入进行训练，得到第三声学后验概率；基于所述第一声学后验概率和第三声学后验概率，更新所述本地第二声学模型中的参数信息；利用序列建模模型训练准则进一步更新所述本地第二声学模型的参数信息，得到目标第二声学模型。

在一可实施方式中，在对所述本地第二声学模型训练的过程中，所述方法还包括：利用语音端点检测技术去除所述声学训练数据中的长静音部分。

本发明另一方面提供一种声学模型的训练装置，所述装置包括：训练数据获取模块，用于获取带标注的声学训练数据；声学后验概率生成模块，用于将所获取的声学训练数据作为云端声学模型的输入，得到第一声学后验概率；参数更新模块，用于将所述云端声学模型中的模型参数信息更新至本地第一声学模型；第一训练模块，用于基于所述声学训练数据和第一声学后验概率，对所述本地第一声学模型进行训练，得到目标第一声学模型；模型生成模块，用于以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；第二训练模块，用于基于所述声学训练数据和第一声学后验概率，对所述本地第二声学模型进行训练，得到目标第二声学模型。

在一可实施方式中，所述第一训练模块具体用于：将所述声学训练数据作为所述本地第一声学模型的输入进行训练，得到第二声学后验概率；基于所述第一声学后验概率和第二声学后验概率，更新所述本地第一声学模型中的参数信息，得到目标第一声学模型。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行一种声学模型的训练方法。

在本发明实施例中，利用云端的计算资源来得到模型参数，并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地本地的声学模型，相比较于在芯片端训练声学模型而言，本方案大大提高了训练效率，并且还可以应用于其他神经网络模型。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种声学模型的训练方法的实现流程示意图；

图2为本发明实施例一种声学模型的训练装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一方面提供一种声学模型的训练方法，方法包括：

步骤101，获取带标注的声学训练数据；

步骤102，将所获取的声学训练数据作为云端声学模型的输入进行训练，得到第一声学后验概率；

步骤103，将云端声学模型中的模型参数信息更新至本地第一声学模型；

步骤104，基于声学训练数据和第一声学后验概率，对本地第一声学模型进行训练，得到目标第一声学模型；

步骤105，以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；

步骤106，基于声学训练数据和第一声学后验概率，对本地第二声学模型进行训练，得到目标第二声学模型。

本实施例中，在步骤101中，声学训练数据具体为由特征提取模块提取的特征向量，获取方式可以是利用爬虫技术从线上获取，也可以从本地语料库中直接获取。

在步骤102中，云端声学模型放置于云端中，一般为训练成熟的模型，具有强大并且高效的计算能力，能快速地训练大量的训练数据，得到对应的第一声学后验概率。

在步骤103中，模型参数信息为模型中的变化信息参数，包括权重参数、卷积核参数等。此步骤目的在于将本地第一声学模型中的模型参数信息与云端声学模型中的模型参数一致，可通过迁移学习方法进行参数移植操作。结合步骤102，省去了在本地端进行数据训练的过程，提高了训练效率。

步骤104中，本地第一声学模型中的“本地”可以是服务器，也可以是计算机等终端设备。

步骤105中，利用模型压缩算法将本地第一声学模型进行模型压缩，得到本地第二声学模型，以在保证模型预测效果的前提下，从中减少了模型参数，尽可能地降低模型的大小，使本地第二声学模型能够应用于芯片端；

步骤106中，再利用训练数据和第一声学后验概率，进一步对本地第二声学模型进行训练，以再次调整本地第二声学模型中的模型参数，得到目标第二声学模型。

由此，利用云端的计算资源来得到模型参数，并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型，相比较于在芯片端训练声学模型而言，本方案大大提高了训练效率，并且还可以应用于其他神经网络模型。

在一可实施方式中，带标注的声学训练数据包括相互对应的声学特征信息和文本信息。

本实施例中，声学特征信息可以利用梅尔频率倒谱系数特征提取法从语音信息中提取得到。文本信息与语音信息相对应，可以由人工书写得到，也可以从线上获取。

在一可实施方式中，云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。

本实施例中，FSMN即前馈型序列记忆网络，FSMN模型相比较其他模型而言，能大大缩减训练时间，进而提升训练效率。

在一可实施方式中，云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。

本实施例中，通过将建模单元均设置为粗粒度并且不带音调的音节，可提升复杂声学环境下模型的泛化能力。

在一可实施方式中，基于声学训练数据和第一声学后验概率，对本地第一声学模型进行训练，得到目标第一声学模型，包括：

将声学训练数据作为本地第一声学模型的输入进行训练，得到第二声学后验概率；

基于第一声学后验概率和第二声学后验概率，更新本地第一声学模型中的参数信息，得到目标第一声学模型。

本实施例中，步骤104的具体过程为：将声学训练数据作为本地第一声学模型的输入进行训练，也同样利用神经网络前向传播得到第二声学后验概率，接着通过损失函数计算所得到的第二声学后验概率与第一声学后验概率之间的误差，当误差大小在预设阈值范围之外时，则更新第一声学模型中的参数信息，并继续对本地第一声学模型进行训练，直到当所计算得到的误差小于预设阈值时，训练完成，最终得到目标第一声学模型。

在一可实施方式中，基于声学训练数据和第一声学后验概率，对本地第二声学模型进行训练，得到目标第二声学模型，包括：

将声学训练数据作为本地第二声学模型的输入进行训练，得到第三声学后验概率；

基于第一声学后验概率和第三声学后验概率，更新本地第二声学模型中的参数信息；

利用序列建模模型训练准则进一步更新本地第二声学模型的参数信息，得到目标第二声学模型。

本实施例中，步骤106的具体过程为：将声学训练数据作为本地第二声学模型的输入进行训练，也同样利用神经网络前向传播得到第三声学后验概率，接着通过损失函数计算所得到的第三声学后验概率与第一声学后验概率之间的误差，当误差大小在预设阈值范围之外时，则更新本地第二声学模型中的参数信息，并继续对本地第二声学模型进行训练，直到所计算得到的误差小于预设阈值时，初步训练完成，接着利用序列建模模型训练准则进一步更新本地第二声学模型的参数信息，最终得到目标第二声学模型。其中序列建模模型训练准则为最大互信息训练准则、交叉熵训练准则和状态级贝叶斯风险训练准则中的一种或者多种，以上三种训练准则为现有技术，在本实施例中不再详细阐述。

在一可实施方式中，在对本地第二声学模型训练的过程中，方法还包括：

利用语音端点检测技术去除声学训练数据中的静音信息和噪声信息。

本实施例中，在训练云端声学模型、本地第一声学模型以及本地第二声学模型的过程中，在将声学训练数据输入于上述三种模型之后，利用语音端点检测技术(即VAD)来去除声学训练数据中的长静音部分，以保证模型训练的准确性，并且能最大化利用有限的空间资源。

本发明实施例还提供一种基于上文中所训练的目标第二声学模型的语音识别***。

语音识别***主要包括基于本地语法的搜索网络、置信度判别器。

在测试阶段，搜索网络与目标第二声学模型结合，对输入数据进行逐帧维特比解码，搜索得到发音特征序列对应的识别结果，及其相应的识别概率，作为识别结果的置信度，再通过置信度判别器来确定输出识别结果。

图2为本发明实施例一种声学模型的训练装置的结构组成示意图，如图2所示。

基于上文提供的一种声学模型的训练方法，本发明另一方面提供一种声学模型的训练装置，装置包括：

训练数据获取模块201，用于获取带标注的声学训练数据；

声学后验概率生成模块202，用于将所获取的声学训练数据作为云端声学模型的输入，得到第一声学后验概率；

参数更新模块203，用于将云端声学模型中的模型参数信息更新至本地第一声学模型；

第一训练模块204，用于基于声学训练数据和第一声学后验概率，对本地第一声学模型进行训练，得到目标第一声学模型；

模型生成模块205，用于以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；

第二训练模块206，用于基于声学训练数据和第一声学后验概率，对本地第二声学模型进行训练，得到目标第二声学模型。

本实施例中，在训练数据获取模块201中，声学训练数据具体为由特征提取模块提取的特征向量，获取方式可以是利用爬虫技术从线上获取，也可以从本地语料库中直接获取。

在声学后验概率生成模块202中，云端声学模型放置于云端中，一般为训练成熟的模型，具有强大并且高效的计算能力，能快速地训练大量的训练数据，得到对应的第一声学后验概率。

在参数更新模块203中，模型参数信息为模型中的变化信息参数，包括权重参数、卷积核参数等。此步骤目的在于将本地第一声学模型中的模型参数信息与云端声学模型中的模型参数一致，可通过迁移学习方法进行参数移植操作。结合声学后验概率生成模块202，省去了在本地端进行数据训练的过程，提高了训练效率。

第一训练模块204中，本地第一声学模型中的“本地”可以是服务器，也可以是计算机等终端设备。

模型生成模块205中，利用模型压缩算法将本地第一声学模型进行模型压缩，得到本地第二声学模型，以在保证模型预测效果的前提下，从中减少了模型参数，尽可能地降低模型的大小，使本地第二声学模型能够应用于芯片端；

第二训练模块206中，再利用训练数据和第一声学后验概率，进一步对本地第二声学模型进行训练，以再次调整本地第二声学模型中的模型参数，得到目标第二声学模型。

在一可实施方式中，第一训练模块204具体用于：

将声学训练数据作为所述本地第一声学模型的输入进行训练，得到第二声学后验概率；

本实施例中，第一训练模块204具体用于：将声学训练数据作为本地第一声学模型的输入进行训练，也同样利用神经网络前向传播得到第二声学后验概率，接着通过损失函数计算所得到的第二声学后验概率与第一声学后验概率之间的误差，当误差大小在预设阈值范围之外时，则更新第一声学模型中的参数信息，并继续对本地第一声学模型进行训练，直到当所计算得到的误差小于预设阈值时，训练完成，最终得到目标第一声学模型。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的一种声学模型的训练方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取带标注的声学训练数据；将所获取的声学训练数据作为云端声学模型的输入进行训练，得到第一声学后验概率，并通过迁移学习算法将所得到的第一声学后验概率移至本地；基于声学训练数据和第一声学后验概率，对第一声学模型进行训练，得到目标第一声学模型；以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到第二声学模型；基于声学训练数据和第一声学后验概率，对第二声学模型进行训练，得到目标第二声学模型。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种声学模型的训练方法，其特征在于，所述方法包括：

获取带标注的声学训练数据；

将所获取的声学训练数据作为云端声学模型的输入进行训练，得到第一声学后验概率；

将所述云端声学模型中的模型参数信息更新至本地第一声学模型；

基于所述声学训练数据和第一声学后验概率，对所述本地第一声学模型进行训练，得到目标第一声学模型；

以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；

基于所述声学训练数据和第一声学后验概率，对所述本地第二声学模型进行训练，得到目标第二声学模型。

2.根据权利要求1所述的方法，其特征在于，所述带标注的声学训练数据包括相互对应的声学特征信息和文本信息。

3.根据权利要求1所述的方法，其特征在于，所述云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。

4.根据权利要求1所述的方法，其特征在于，所述云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。

5.根据权利要求1所述的方法，其特征在于，所述基于所述声学训练数据和第一声学后验概率，对所述本地第一声学模型进行训练，得到目标第一声学模型，包括：

将所述声学训练数据作为所述本地第一声学模型的输入进行训练，得到第二声学后验概率；

基于所述第一声学后验概率和第二声学后验概率，更新所述本地第一声学模型中的参数信息，得到目标第一声学模型。

6.根据权利要求1所述的方法，其特征在于，所述基于所述声学训练数据和第一声学后验概率，对所述本地第二声学模型进行训练，得到目标第二声学模型，包括：

将所述声学训练数据作为所述本地第二声学模型的输入进行训练，得到第三声学后验概率；

基于所述第一声学后验概率和第三声学后验概率，更新所述本地第二声学模型中的参数信息；

利用序列建模模型训练准则进一步更新所述本地第二声学模型的参数信息，得到目标第二声学模型。

7.根据权利要求6所述的方法，其特征在于，在对所述本地第二声学模型训练的过程中，所述方法还包括：

利用语音端点检测技术去除所述声学训练数据中的长静音部分。

8.一种声学模型的训练装置，其特征在于，所述装置包括：

训练数据获取模块，用于获取带标注的声学训练数据；

声学后验概率生成模块，用于将所获取的声学训练数据作为云端声学模型的输入，得到第一声学后验概率；

参数更新模块，用于将所述云端声学模型中的模型参数信息更新至本地第一声学模型；

第一训练模块，用于基于所述声学训练数据和第一声学后验概率，对所述本地第一声学模型进行训练，得到目标第一声学模型；

模型生成模块，用于以所训练得到的目标第一声学模型为基础，利用模型压缩算法得到本地第二声学模型；

第二训练模块，用于基于所述声学训练数据和第一声学后验概率，对所述本地第二声学模型进行训练，得到目标第二声学模型。

9.根据权利要求8所述的装置，其特征在于，所述第一训练模块具体用于：

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-7任一项所述的一种声学模型的训练方法。