CN113420121B

CN113420121B - 文本处理模型训练方法、语音文本处理方法及装置

Info

Publication number: CN113420121B
Application number: CN202110704938.1A
Authority: CN
Inventors: 周军; 张震; 李成章; 李鹏; 刘建; 石瑾; 刘睿霖; 颜永红
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-07-28
Anticipated expiration: 2041-06-24
Also published as: CN113420121A

Abstract

本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置，涉及自然语言处理技术领域。该方法包括：从互联网爬取对话文本，得到正样本；对对话文本中的语句进行变换操作，得到负样本和负样本的第一标签信息；将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。根据本申请实施例，能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。

Description

文本处理模型训练方法、语音文本处理方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本处理模型训练方法、语音文本处理方法及装置。

背景技术

随着自然语言处理技术的发展和人们对高效率的需求，语音识别技术已经被广泛地应用于生活的各个领域，如将会议内容录音后转换文本作为会议纪要；对老师讲课的录音内容转换成文本作为课堂笔记等等。

目前，为了能够准确地识别将语音转换成文本，且转换的文本能够易于用户理解，需要对识别的语音转换成文本，然后再对文本进行校对，从而得到易于用户理解的文本。但是，相关技术中对文本校对的模型在训练时，由于缺乏足量的训练样本，模型难以训练，且即使成功，得到的文本校对模型也需要进行多次迭代来完成文本校对，因此，耗时较长，效率低，且计算资源占用大。

发明内容

本申请实施例提供了一种文本处理模型训练方法、语音文本处理方法及装置，能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。

第一方面，本申请实施例提供了文本处理模型训练方法，该方法包括：

从互联网爬取对话文本，得到正样本；对话文本中的语句为语法正确的语句，正样本为对话文本中的语句；

对对话文本中的语句进行变换操作，得到负样本和负样本的第一标签信息，负样本中的语句为语法错误的语句，第一标签信息表示将正样本变换为负样本的变换序列；

将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；第二文本处理模型的维度小于第一文本处理模型，第一文本处理模型是根据正样本、负样本和负样本的变换序列训练得到的；

根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。

在一种可能的实现方式中，在第一文本处理模型的层数与第二文本处理模型的层数相同的情况下，第一特征向量包括第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对负样本进行校对的第一预测校对向量，第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对负样本进行校对的第二预测校对向量。

在一种可能的实现方式中，根据第一特征向量和第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：

根据第一文本处理模型的维度和第二文本处理模型的维度，确定投影矩阵；

根据投影矩阵、第一输入层特征向量和第二输入层特征向量，计算第一文本处理模型的输入层和第二文本处理模型的输入层之间的第一均方差损失；

根据投影矩阵、第一隐藏层特征向量和第二隐藏层特征向量，计算第一文本处理模型的隐藏层和第二文本处理模型的隐藏层之间的第二均方差损失；

计算第一注意力向量和第二注意力向量之间的第三均方差损失；

根据预设的温度参数计算第一预测校对向量和第二预测校对向量的交叉熵损失；

根据第一均方差损失、第二均方差损失、第三均方差损失和交叉熵损失更新第二文本处理模型。

在一种可能的实现方式中，在第一文本处理模型的层数为M，第二文本处理模型的层数为N，且M不等于N的情况下，第一特征向量包括第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对负样本进行校对的第一预测校对向量，第二特征向量包括第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第一输入层特征向量和对负样本进行校对的第一预测校对向量。

对M层的中每一层的第一注意力向量和N层中每一层的第二注意力向量进行两两相比较，得到第一文本处理模型和第二文本处理模型之间的注意力损失矩阵；

对M层的中每一层的第一隐藏层特征向量和N层中每一层的第二隐藏层特征向量进行两两相比较，得到第一文本处理模型和第二文本处理模型之间的隐藏层损失矩阵；

根据第一文本处理模型中每一层的权重、第二文本处理模型中每一层的权重和注意力损失矩阵，计算第一陆地移动距离EMD矩阵；

根据第一文本处理模型中每一层的权重、第二文本处理模型中每一层的权重和隐藏层损失矩阵，计算第二EMD矩阵；

根据第一EMD矩阵和注意力损失矩阵，计算第一文本处理模型中M层的第一注意力向量和第二文本处理模型中N层的第二注意力向量之间的第四均方差损失；

根据第二EMD矩阵和隐藏层损失矩阵，计算第一文本处理模型中M层的第一隐藏层特征向量和第二文本处理模型中N层的第二隐藏层特征向量之间的第五均方差损失；

根据第一均方差损失、交叉熵损失、第四均方差损失和第五均方差损失，更新第一文本处理模型中每一层的权重和第二文本处理模型中每一层的权重，直至第一均方差损失、交叉熵损失、第四均方差损失和第五均方差损失收敛。

在一种可能的实现方式中，方法还包括：

将正样本和负样本输入至待训练的第二文本处理模型中，生成负样本的预测校对序列；

根据负样本的预测校对序列和第一标签信息训练文本处理模型。

在一种可能的实现方式中，训练样本还包括正样本对和正样本对的第二标签信息，第二标签信息表示将正样本转换为正样本的转换序列，正样本对中的两个正样本相同，方法还包括：

将正样本对输入至训练后的文本处理模型中，生成正样本的预测校对序列；

根据正样本的预测校对序列和第二标签信息，训练文本处理模型。

在一种可能的实现方式中，将正样本和负样本输入至待训练的第二文本处理模型中，生成负样本的预测校对序列，包括：

在正样本中的字符数量大于预设数量的情况下，按照从前到后的顺序，将正样本中预设数量的字符、负样本中与正样本中预设数量的字符相对应的字符输入至待训练的第二文本处理模型中，得到负样本中预设数量的字符的预测校对序列；

将正样本中剩余的字符和负样本中剩余的字符作为下一次模型训练过程的训练样本。

第二方面，本申请实施例提供了一种语音文本处理方法，方法包括：

识别目标语音对应的语音文本；

将语音文本输入至如第一方面或第一方面任一种可能的实现方式中的第二文本处理模型中，确定语音文本的校对序列，校对序列表示语音文本中每个字符的校对规则；

根据校对序列对语音文本进行校对，得到目标语音对应的校对文本。

第三方面，本申请实施例提供了一种文本处理模型训练装置，装置包括：

获取模块，用于从互联网爬取对话文本，得到正样本；对话文本中的语句为语法正确的语句，正样本为对话文本中的语句；

变换模块，用于和负样本的第一标签信息，负样本中的语句为语法错误的语句，第一标签信息表示将正样本变换为负样本的变换序列；

生成模块，用于将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；第二文本处理模型的维度小于第一文本处理模型，第一文本处理模型是根据正样本、负样本和负样本的变换序列训练得到的；

训练模块，用于根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。

在一种可能的实现方式中，训练模块用于：

在一种可能的实现方式中，装置还包括：

确定模块，用于根据变换操作确定负样本对应的变换序列，得到负样本第一标签信息；其中，第一标签信息表示将正样本变换为负样本的变换序列；

生成模块还用于将正样本和负样本输入至待训练的第二文本处理模型中，生成负样本的预测校对序列；

训练模块还用于根据负样本的预测校对序列和第一标签信息训练文本处理模型。

在一种可能的实现方式中，训练样本还包括正样本对和正样本对的第二标签信息，第二标签信息表示将正样本转换为正样本的转换序列，正样本对中的两个正样本相同，生成模块还用于将正样本对输入至训练后的文本处理模型中，生成正样本的预测校对序列；

训练模块还用于根据正样本的预测校对序列和第二标签信息，训练文本处理模型。

在一种可能的实现方式中，生成模块用于：

第四方面，本申请实施例提供了一种语音文本处理装置，方法包括：

识别模块，用于识别目标语音对应的语音文本；

确定模块，用于将语音文本输入至如第一方面或第一方面任一种可能的实现方式中的第二文本处理模型中，确定语音文本的校对序列，校对序列表示语音文本中每个字符的校对规则；

校对模块，用于根据校对序列对语音文本进行校对，得到目标语音对应的校对文本。

第五方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上述第一方面或第一方面中任一种可能的实现方式中所提供的方法，或实现如上述第二方面所提供的方法。

第六方面，本申请实施例提供了一种计算机存储介质，计算机存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一种可能的实现方式中所提供的方法，或实现如上述第二方面所提供的方法。

本申请实施例提供的文本处理模型训练方法、语音文本处理方法及装置，通过从互联网中爬取语法正确的对话文本，如情景对话相关的文本、会议纪要文本等等，从而得到正样本，如此通过从互联网爬取对话文本的方式，从而能够获取大量的正样本；接着，对对话文本中的语句进行变换操作，如删除字符、替换同音字、合并自然段等，使得变换后的语句均为语法错误的语句，从而得到负样本，并且通过变换操作获取负样本和负样本的标签信息，如此，能够获取大量的具有标注信息的负样本。接着，根据正样本和负样本分别输入至已经训练好的第一文本处理模型和待训练的第二文本处理模型，得到第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量，其中，第二文本处理模型的维度小于第一文本处理模型的维度。基于第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型能够学习到第一文本处理模型的特征，进而对文本进行校对。如此，能够得到轻量级的第二文本处理模型对文本进行校对，降低了资源的占用。在使用第二文本处理模型进行文本校对的过程中也不需要迭代，提高了文本校对效率的同时降低了计算资源的占用。

附图说明

图1示出了本申请实施例提供的一种文本处理模型训练方法的流程示意图；

图2示出了本申请实施例提供的一种语音文本处理方法的流程示意图；

图3示出了本申请实施例提供的一种文本处理模型训练装置的结构示意图；

图4示出了本申请实施例提供的一种语音文本处理装置的结构示意图；

图5示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个***是指两个或两个以上的***，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

对话内容通常是冗长、曲折、非正式、重复的，其中还会出现病句、倒退、重复、重新确认、犹豫、说话人中断话题等情况，并且重要的信息分散在多个角色、多个时间点中。而且语音识别过程的识别错误，生成的语音识别文本可读性常常很差，不利于事后回顾、总结、整理内容。

基于此，本申请实施例提供了一种文本处理模型训练方法、语音文本处理方法及装置，能够获取足量的训练文本，且训练后的模型为轻量级的模型，降低了存储资源的占用，并且提高了文本校对效率的同时降低了计算资源的占用。下面对本申请实施例提供的文本处理模型训练方法进行详细说明。

图1是本申请实施例提供的一种文本处理模型训练方法的流程示意图。如图1所示，本申请实施例提供的文本处理模型训练方法可以包括S101-S104。

S101：从互联网爬取对话文本，得到正样本；对话文本中的语句为语法正确的语句，正样本为对话文本中的语句。

为了获取大量的训练样本，可以从互联网爬取对话文本，如论坛对话文本、情景对话文本、视频字幕、剧本等。其中，互联网中的对话文本中的语句为语法正确的语句。将对话文本中的语句作为训练样本中的正样本。

在一些实施例中，为了保证正样本的准确性，还可以对爬取到的对话文本进行数据清洗，如，去除对话文本中的特殊字符和无意义的空格、链接和图片等等。

S102：对对话文本中的语句进行变换操作，得到负样本和负样本的第一标签信息，负样本中的语句为语法错误的语句，第一标签信息表示将正样本变换为负样本的变换序列。

与正样本对应的负样本即为语法错误的语句，如此，正样本和负样本凑成纠错文本平行语料对。其中，本申请实施例通过对对话文本中的语句进行变换操作，从而把对话文本中的语句变换成语法错误的语句。例如，删除标点符号、替换同音字、合并自然段、随机删除、增加字符等等。如此，可以生成与正样本对应的负样本。例如，正样本为语句“我在海滨街道等你，你快过来吧”，则可以变换成“我再海滨街道等你快过来吧”。

基于变换操作还可以确定将负样本变换成正样本的变换序列，进而得到负样本的第一标签信息。其中，变换序列表示一个语句中每个字符对应的变换操作。例如，将语句“我再海滨街道等你快过来吧”变换为语句“我在海滨街道等你，你快过来吧”，对应的变换序列为“保持、替换为在、保持、保持、保持、保持、保持、保持、删除、删除、保持、保持、保持、保持”。

S103：将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；第二文本处理模型的维度小于第一文本处理模型，第一文本处理模型是根据正样本、负样本和负样本的变换序列训练得到的。

第一文本处理模型是预先通过正样本、负样本和负样本的变换序列训练得到的。第二文本处理模型可以是预先构建的未经训练的模型，还可以是基于第一文本处理模型生成的模型，例如，从第一文本处理模型中抽取多个中间层构建第二文本处理模型。在这里，第二文本处理模型的维度小于第一文本处理模型的维度。

将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量。

在一些实施例中，第一文本处理模型的目标层包括输入层、隐藏层和输出层，第二文本处理模型的目标层包括输入层、隐藏层和输出层。

第一文本处理模型的层数和第二文本处理模型的层数可以相同，也可以不同。

在第一文本处理模型的层数与第二文本处理模型的层数相同的情况下，第一特征向量包括第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对负样本进行校对的第一预测校对向量。其中，第一隐藏层向量是指第一文本处理模型中所有隐藏层共同确定的特征向量，例如，有3层隐藏层，则第一隐藏层特征向量是指3隐藏层共同确定的特征向量。第一注意力向量为第一文本处理模型中所有隐藏层共同确定的注意力向量。第二特征向量包括第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对负样本进行校对的第二预测校对向量。其中，第二隐藏层特征向量是指第二文本处理模型中所有隐藏层共同确定的特征向量。第二注意力向量为第二文本处理模型中所有隐藏层共同确定的注意力向量。

在第一文本处理模型的层数和第二文本处理模型的层数不相同的情况下，设第一文本处理模型的层数为M，第二文本处理模型的层数为N，则第一特征向量包括第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对负样本进行校对的第一预测校对向量，第二特征向量包括第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第一输入层特征向量和对负样本进行校对的第一预测校对向量。

S104：根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。

在一些实施例中，在第一文本处理模型的层数与第二文本处理模型的层数相同的情况下，根据第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型学习第一文本处理模型的参数特征。

其中，在S104中，根据第一文本处理模型的维度和第二文本处理模型的维度，确定投影矩阵。

根据投影矩阵、第一输入层特征向量和第二输入层特征向量，计算第一文本处理模型的输入层和第二文本处理模型的输入层之间的第一均方差损失。其中，第一均方差损失L_embd满足下述公式(1)：

L_embd＝MSE(E^SW,E^T) (1)

E^S表示第二文本处理模型的第二输入层向量，W表示投影矩阵，E^T表示第二文本处理模型的第一输入层向量。

根据投影矩阵、第一隐藏层特征向量和第二隐藏层特征向量，计算第一文本处理模型的隐藏层和第二文本处理模型的隐藏层之间的第二均方差损失。其中，第二均方差损失L_hidden满足下述公式(2)：

W表示投影矩阵，表示第二文本处理模型的第i层的第二隐藏层特征向量，/>表示第一文本处理模型的第i层的第一隐藏层特征向量。

计算第一注意力向量和第二注意力向量之间的第三均方差损失。其中，第三均方差损失L_atten满足下述公式(3)：

h为注意力多头数，表示第二文本处理模型的第i层的注意力向量，/>表示第一文本处理模型的第i层的注意力向量。

根据预设的温度参数计算第一预测校对向量和第二预测校对向量的交叉熵损失。其中，交叉熵损失L_pred满足下述公式(4)：

L_pred＝-softmax(z^T)log_-softmax(z^s/t) (4)

z^T表示第一预测校对向量，z^s表示第二预测校对向量，t温度。

在一些实施例中，在第一文本处理模型的层数与第二文本处理模型的层数不同的情况下，根据第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型学习第一文本处理模型的参数特征。在这里，第一文本处理模型的每一层和第二文本处理模型的每一层均有权重。权重权重大的层作用越大，在第二文本处理模型向第一文本处理模型进行学习时占有更大的比重。初始化时赋予相同的权重，例如，第一文本处理模型有M层，第二文本处理模型有N层，第一文本处理模型中每一层的权重为1/M，第二文本处理模型中的每一层权重/>为1/N。

其中，在S104中，根据第一文本处理模型的维度和第二文本处理模型的维度，确定投影矩阵；根据投影矩阵、第一输入层特征向量和第二输入层特征向量，计算第一文本处理模型的输入层和第二文本处理模型的输入层之间的第一均方差损失根据预设的温度参数计算第一预测校对向量和第二预测校对向量的交叉熵损失。其中，第一均方差矩阵满足上述公式(1)，交叉熵损失满足上述公式(4)，在此不再详细说明。

接着，对M层的中每一层的第一注意力向量和N层中每一层的第二注意力向量进行两两相比较，得到第一文本处理模型和第二文本处理模型之间的注意力损失矩阵。对M层的中每一层的第一隐藏层特征向量和N层中每一层的第二隐藏层特征向量进行两两相比较，得到第一文本处理模型和第二文本处理模型之间的隐藏层损失矩阵。

在这里，注意力损失矩阵是指第一文本处理模型的所有层和第二文本处理模型的所有层之间的损失矩阵；隐藏层损失矩阵是指第一文本处理模型的所有隐藏层和第二文本处理模型的所有隐藏层之间的损失矩阵。

确定注意力损失矩阵和隐藏层损失矩阵后，根据第一文本处理模型中每一层的权重、第二文本处理模型中每一层的权重和注意力损失矩阵，计算第一陆地移动距离(EarthMover's Distance，EMD)矩阵。以及根据第一文本处理模型中每一层的权重、第二文本处理模型中每一层的权重和隐藏层损失矩阵，计算第二EMD矩阵。

根据第一EMD矩阵和注意力损失矩阵，计算第一文本处理模型中M层的第一注意力向量和第二文本处理模型中N层的第二注意力向量之间的第四均方差损失。其中，第四均方差损失L_attn满足下述公式(5)：

其中，M表示第一文本处理模型的层数，N表示第二文本处理模型的层数，表示第一文本处理模型的第i层和第二文本处理模型的第j层之间的第一EMD矩阵，/>表示注意力损失矩阵。

根据第二EMD矩阵和隐藏层损失矩阵，计算第一文本处理模型中M层的第一隐藏层特征向量和第二文本处理模型中N层的第二隐藏层特征向量之间的第五均方差损失。其中，第五均方差矩阵满足下述公式(6)：

其中，M表示第一文本处理模型的层数，N表示第二文本处理模型的层数，表示第一文本处理模型的第i层和第二文本处理模型的第j层之间的第二EMD矩阵，/>表示隐藏层损失矩阵。

根据第四均方差损失和第五均方差损失，更新第一文本处理模型中每一层的权重和第二文本处理模型中每一层的权重，直至第四均方差损失和第五均方差损失收敛。

在一些实施例中，本申请实施例提供的文本处理模型训练方法还包括第一文本处理模型的训练过程。具体地，将正样本和负样本输入至待训练的第二文本处理模型中，生成负样本的预测校对序列；根据负样本的预测校对序列和第一标签信息训练文本处理模型。在这里，为了保证第一文本处理模型的精确性，还可以在训练过程中将人工标注的正样本和负样本输入至第一文本处理模型中进行训练。

在一些实施例中，为了保证第一文本处理模型的精确性，训练样本还包括正样本对和正样本对的第二标签信息，第二标签信息表示将正样本转换为正样本的转换序列，正样本对中的两个正样本相同。在训练过程中，还可以将正样本对输入至训练后的文本处理模型中，生成正样本的预测校对序列；根据正样本的预测校对序列和第二标签信息，训练文本处理模型。

作为一个示例，将足量的正样本和负样本对与真实人工标注数据结合，进行由合成数据过渡到真实数据的三段式训练。其中，首先，将只包含语法错误-语法正确的句对进行训练。接着，使用少量的人工标注的正样本和负样本对对训练后的第一文本处理模型的参数进行微调；最后，使用少量的人工标注的正样本和负样本和正样本和正样本对训练后的第一文本处理模型进一步进行参数的微调，进而提高模型的性能。

在一些实施例中，由于第二文本输入模型对输入字符可能存在限制，为了使得第二文本处理模型能够进行长文本分段，在S103中，首先，可以在正样本中的字符数量大于预设数量的情况下，按照从前到后的顺序，将正样本中预设数量的字符、负样本中与正样本中预设数量的字符相对应的字符输入至待训练的第二文本处理模型中，得到负样本中预设数量的字符的预测校对序列；接着，将正样本中剩余的字符和负样本中剩余的字符作为下一次模型训练过程的训练样本。

本申请实施例提供的文本处理模型训练方法，通过通过从互联网中爬取语法正确的对话文本，如情景对话相关的文本、会议纪要文本等等，从而得到正样本，如此通过从互联网爬取对话文本的方式，从而能够获取大量的正样本；接着，对对话文本中的语句进行变换操作，如删除字符、替换同音字、合并自然段等，使得变换后的语句均为语法错误的语句，从而得到负样本，并且通过变换操作获取负样本和负样本的标签信息，如此，能够获取大量的具有标注信息的负样本。接着，根据正样本和负样本分别输入至已经训练好的第一文本处理模型和待训练的第二文本处理模型，得到第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量，其中，第二文本处理模型的维度小于第一文本处理模型的维度。基于第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型能够学习到第一文本处理模型的特征，进而对文本进行校对。如此，能够得到轻量级的第二文本处理模型对文本进行校对，降低了资源的占用。在使用第二文本处理模型进行文本校对的过程中也不需要迭代，提高了文本校对效率的同时降低了计算资源的占用。

本申请实施例还提供了第二文本处理模型的应用方案，下面进行详细介绍。

图2是本申请实施例提供的一种语音文本处理方法的流程示意图，如图2所示，本申请实施例提供的语音文本处理方法可以包括S201-S203。

S201：识别目标语音对应的语音文本。

目标语音可以是任何途径获取的语音，例如，电话录音、会议录音，语音聊天过程中产生的语音。获取到目标语音后，对目标语音进行识别，从而确定目标语音对应的语音文本。

S202：将所述语音文本输入至第二文本处理模型中，确定所述语音文本的校对序列，所述校对序列表示所述语音文本中每个字符的校对规则。

将语音文本输入至第二文本处理模型中，则可以确定该语音文本的校对序列。例如，语音文本为“就象是遗失在风中的烟花”，则校对序列为“保持、替换为像、保持、保持、保持、保持、保持、保持、保持、保持、保持、”。

S203：根据所述校对序列对所述语音文本进行校对，得到所述目标语音对应的校对文本。

例如，语音文本为“就象是遗失在风中的烟花”，校对序列为“保持、替换为像、保持、保持、保持、保持、保持、保持、保持、保持、保持、”，则校对后的文本为“就像是遗失在风中的烟花”。

本申请实施例提供的语音文本处理方法方法，通过通过从互联网中爬取语法正确的对话文本，如情景对话相关的文本、会议纪要文本等等，从而得到正样本，如此通过从互联网爬取对话文本的方式，从而能够获取大量的正样本；接着，对对话文本中的语句进行变换操作，如删除字符、替换同音字、合并自然段等，使得变换后的语句均为语法错误的语句，从而得到负样本，并且通过变换操作获取负样本和负样本的标签信息，如此，能够获取大量的具有标注信息的负样本。接着，根据正样本和负样本分别输入至已经训练好的第一文本处理模型和待训练的第二文本处理模型，得到第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量，其中，第二文本处理模型的维度小于第一文本处理模型的维度。基于第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型能够学习到第一文本处理模型的特征，进而对文本进行校对。如此，能够得到轻量级的第二文本处理模型对文本进行校对，降低了资源的占用。在使用第二文本处理模型进行文本校对的过程中也不需要迭代，提高了文本校对效率的同时降低了计算资源的占用。

基于上述实施例中的文本处理模型训练方法，本申请实施例还提供了一种文本处理模型训练装置。图3是本申请实施例提供的一种文本处理模型训练装置300的结构示意图，如图3所示，该装置300可以包括获取模块301，变换模块302，生成模块303，训练模块304。

获取模块301，用于从互联网爬取对话文本，得到正样本；对话文本中的语句为语法正确的语句，正样本为对话文本中的语句；

变换模块302，用于和负样本的第一标签信息，负样本中的语句为语法错误的语句，第一标签信息表示将正样本变换为负样本的变换序列；

生成模块303，用于将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；第二文本处理模型的维度小于第一文本处理模型，第一文本处理模型是根据正样本、负样本和负样本的变换序列训练得到的；

训练模块304，用于根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。

在一种可能的实现方式中，训练模块304用于：

在一种可能的实现方式中，装置还包括：

生成模块303还用于将正样本和负样本输入至待训练的第二文本处理模型中，生成负样本的预测校对序列；

训练模块304还用于根据负样本的预测校对序列和第一标签信息训练文本处理模型。

在一种可能的实现方式中，训练样本还包括正样本对和正样本对的第二标签信息，第二标签信息表示将正样本转换为正样本的转换序列，正样本对中的两个正样本相同，生成模块303还用于将正样本对输入至训练后的文本处理模型中，生成正样本的预测校对序列；

训练模块304还用于根据正样本的预测校对序列和第二标签信息，训练文本处理模型。

在一种可能的实现方式中，生成模块303用于：

本申请实施例提供的文本处理模型训练装置能够执行图1所示的实施例中的方法步骤，并达到相同的技术效果，为避免重复，在此不再详细赘述。

本申请实施例提供的文本处理模型训练装置，通过通过从互联网中爬取语法正确的对话文本，如情景对话相关的文本、会议纪要文本等等，从而得到正样本，如此通过从互联网爬取对话文本的方式，从而能够获取大量的正样本；接着，对对话文本中的语句进行变换操作，如删除字符、替换同音字、合并自然段等，使得变换后的语句均为语法错误的语句，从而得到负样本，并且通过变换操作获取负样本和负样本的标签信息，如此，能够获取大量的具有标注信息的负样本。接着，根据正样本和负样本分别输入至已经训练好的第一文本处理模型和待训练的第二文本处理模型，得到第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量，其中，第二文本处理模型的维度小于第一文本处理模型的维度。基于第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型能够学习到第一文本处理模型的特征，进而对文本进行校对。如此，能够得到轻量级的第二文本处理模型对文本进行校对，降低了资源的占用。在使用第二文本处理模型进行文本校对的过程中也不需要迭代，提高了文本校对效率的同时降低了计算资源的占用。

基于上述实施例中的语音文本处理方法，本申请实施例还提供了一种语音文本处理装置。图4是本申请实施例提供的一种语音文本处理装置400的结构示意图，如图4所示，该装置400可以包括识别模块401，确定模块402，校对模块403。

识别模块401，用于识别目标语音对应的语音文本。

确定模块402，用于将语音文本输入至如第一方面或第一方面任一种可能的实现方式中的第二文本处理模型中，确定语音文本的校对序列，校对序列表示语音文本中每个字符的校对规则。

校对模块403，用于根据校对序列对语音文本进行校对，得到目标语音对应的校对文本。

本申请实施例提供的语音文本处理装置能够执行图2所示的实施例中的方法步骤，并达到相同的技术效果，为避免重复，在此不再详细赘述。

本申请实施例提供的语音文本处理装置，通过通过从互联网中爬取语法正确的对话文本，如情景对话相关的文本、会议纪要文本等等，从而得到正样本，如此通过从互联网爬取对话文本的方式，从而能够获取大量的正样本；接着，对对话文本中的语句进行变换操作，如删除字符、替换同音字、合并自然段等，使得变换后的语句均为语法错误的语句，从而得到负样本，并且通过变换操作获取负样本和负样本的标签信息，如此，能够获取大量的具有标注信息的负样本。接着，根据正样本和负样本分别输入至已经训练好的第一文本处理模型和待训练的第二文本处理模型，得到第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量，其中，第二文本处理模型的维度小于第一文本处理模型的维度。基于第一特征向量和第二特征向量对第二文本处理模型进行知识蒸馏，从而使得第二文本处理模型能够学习到第一文本处理模型的特征，进而对文本进行校对。如此，能够得到轻量级的第二文本处理模型对文本进行校对，降低了资源的占用。在使用第二文本处理模型进行文本校对的过程中也不需要迭代，提高了文本校对效率的同时降低了计算资源的占用。

下面介绍本申请实施例提供的一种电子设备。

图5是本申请实施例提供的一种电子设备的结构示意图。如图5所示，本申请实施例提供的电子设备可用于实现上述方法实施例中描述的文本处理模型训练方法或语音文本处理方法。

电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关容灾设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本申请中的方法所描述的操作。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种文本处理模型训练方法或语音文本处理方法。

在一个示例中，电子设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种文本处理模型训练方法或语音文本处理方法。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种文本处理模型训练方法，其特征在于，所述方法包括：

从互联网爬取对话文本，得到正样本；所述对话文本中的语句为语法正确的语句，所述正样本为所述对话文本中的语句；

对所述对话文本中的语句进行变换操作，得到负样本和所述负样本的第一标签信息，所述负样本中的语句为语法错误的语句，所述第一标签信息表示将所述正样本变换为所述负样本的变换序列，所述变换序列表示一个语句中每个字符对应的变换操作；

将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量；所述第二文本处理模型的维度小于所述第一文本处理模型，所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的；

根据所述第一特征向量、所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型；

在所述第一文本处理模型的层数与所述第二文本处理模型的层数相同的情况下，所述第一特征向量包括第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对所述负样本进行校对的第一预测校对向量，所述第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对所述负样本进行校对的第二预测校对向量；

所述根据所述第一特征向量和所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：

根据所述第一文本处理模型的维度和所述第二文本处理模型的维度，确定投影矩阵；

根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量，计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失；

根据所述投影矩阵、所述第一隐藏层特征向量和所述第二隐藏层特征向量，计算所述第一文本处理模型的隐藏层和所述第二文本处理模型的隐藏层之间的第二均方差损失；

计算所述第一注意力向量和所述第二注意力向量之间的第三均方差损失；

根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失；

根据所述第一均方差损失、所述第二均方差损失、所述第三均方差损失和所述交叉熵损失更新所述第二文本处理模型。

2.根据权利要求1所述的方法，其特征在于，在所述第一文本处理模型的层数为M，所述第二文本处理模型的层数为N，且M不等于N的情况下，所述第一特征向量包括所述第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量，所述第二特征向量包括所述第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第二输入层特征向量和对所述负样本进行校对的第二预测校对向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：

对所述M层的中每一层的第一注意力向量和所述N层中每一层的第二注意力向量进行两两相比较，得到所述第一文本处理模型和所述第二文本处理模型之间的注意力损失矩阵；

对所述M层的中每一层的第一隐藏层特征向量和所述N层中每一层的第二隐藏层特征向量进行两两相比较，得到所述第一文本处理模型和所述第二文本处理模型之间的隐藏层损失矩阵；

根据所述第一文本处理模型中每一层的权重、所述第二文本处理模型中每一层的权重和所述注意力损失矩阵，计算第一陆地移动距离EMD矩阵；

根据所述第一文本处理模型中每一层的权重、所述第二文本处理模型中每一层的权重和所述隐藏层损失矩阵，计算第二EMD矩阵；

根据所述第一EMD矩阵和所述注意力损失矩阵，计算所述第一文本处理模型中M层的第一注意力向量和所述第二文本处理模型中N层的第二注意力向量之间的第四均方差损失；

根据所述第二EMD矩阵和所述隐藏层损失矩阵，计算所述第一文本处理模型中M层的第一隐藏层特征向量和所述第二文本处理模型中N层的第二隐藏层特征向量之间的第五均方差损失；

根据所述第一均方差损失、所述交叉熵损失、所述第四均方差损失和所述第五均方差损失，更新所述第一文本处理模型中每一层的权重和所述第二文本处理模型中每一层的权重，直至所述第一均方差损失、所述交叉熵损失、所述第四均方差损失和所述第五均方差损失收敛。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

将所述正样本和负样本输入至待训练的第二文本处理模型中，生成所述负样本的预测校对序列；

根据所述负样本的预测校对序列和所述第一标签信息训练所述文本处理模型。

5.根据权利要求4所述的方法，其特征在于，训练样本还包括正样本对和所述正样本对的第二标签信息，所述第二标签信息表示将所述正样本转换为所述正样本的转换序列，所述正样本对中的两个正样本相同，所述方法还包括：

将所述正样本对输入至训练后的文本处理模型中，生成所述正样本的预测校对序列；

根据所述正样本的预测校对序列和所述第二标签信息，训练所述文本处理模型。

6.根据权利要求1-3任一项所述的方法，其特征在于，将所述正样本和负样本输入至待训练的第二文本处理模型中，生成所述负样本的预测校对序列，包括：

在所述正样本中的字符数量大于预设数量的情况下，按照从前到后的顺序，将所述正样本中预设数量的字符、所述负样本中与所述正样本中预设数量的字符相对应的字符输入至所述待训练的第二文本处理模型中，得到所述负样本中预设数量的字符的预测校对序列；

将所述正样本中剩余的字符和所述负样本中剩余的字符作为下一次模型训练过程的训练样本。

7.一种语音文本处理方法，其特征在于，所述方法包括：

识别目标语音对应的语音文本；

将所述语音文本输入至如权利要求1-6任一项所述的第二文本处理模型中，确定所述语音文本的校对序列，所述校对序列表示所述语音文本中每个字符的校对规则；

根据所述校对序列对所述语音文本进行校对，得到所述目标语音对应的校对文本。

8.一种文本处理模型训练装置，其特征在于，所述装置包括：

获取模块，用于从互联网爬取对话文本，得到正样本；所述对话文本中的语句为语法正确的语句，所述正样本为所述对话文本中的语句；

变换模块，用于对所述对话文本中的语句进行变换操作，得到负样本和所述负样本的第一标签信息，所述负样本中的语句为语法错误的语句，所述第一标签信息表示将所述正样本变换为所述负样本的变换序列，所述变换序列表示一个语句中每个字符对应的变换操作；

生成模块，用于将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量；所述第二文本处理模型的维度小于所述第一文本处理模型，所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的；

训练模块，用于根据所述第一特征向量、所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型；

所述训练模块，用于：