CN111428130A

CN111428130A - 一种知识蒸馏过程中增强文本数据的方法及装置

Info

Publication number: CN111428130A
Application number: CN202010151299.6A
Authority: CN
Inventors: 姜姗
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-17
Anticipated expiration: 2040-03-06
Also published as: CN111428130B

Abstract

本发明公开了一种知识蒸馏过程中增强文本数据的方法及装置，包括：获取第一预设数目个当前文本数据；根据判定结果对当前文本数据进行增强处理；输出增强处理后的当前文本数据。通过获取第一预设数目个当前文本数据保证了知识蒸馏的需要，通过对当前文本数据进行判定并根据判定结果来对当前文本数据进行增强处理来获得更多的文本数据，进而可以使得训练模型可以获得大量的训练数据，解决了现有技术中由于训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合的问题。

Description

一种知识蒸馏过程中增强文本数据的方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种知识蒸馏过程中增强文本数据的方法及装置。

背景技术

知识蒸馏是一种常见的模型压缩方法，目前，知识蒸馏的方法越来越被普及，在“教师-学生”框架中，将复杂、学习能力强的教师网络学到的特征知识迁移到简单、学习能力弱的学生网络，以提高学生网络的精度，但是，这种方法只是从教师网络发送定量的文本数据到学生网络，教师端和学生端之间训练模型的数据有限，由于在蒸馏过程中教师网络需要需要推送大量的数据作为知识载体所以从而无法满足知识蒸馏的需要，并且训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合。

发明内容

针对上述所显示出来的问题，本方法基于在知识蒸馏过程中获取预设数目个当前文本数据以保证能够满足知识蒸馏的需要，然后对当前文本数据进行判定，根据判定结果对当前文本数据进行增强处理最后输出增强处理后的当前年文本数据来实现知识蒸馏过程中增强文本数据。

一种知识蒸馏过程中增强文本数据的方法，包括以下步骤：

获取第一预设数目个当前文本数据；

对所述当前文本数据进行判定,获得判定结果；

根据所述判定结果对所述当前文本数据进行增强处理；

输出增强处理后的所述当前文本数据。

优选的，所述获取第一预设数目个当前文本数据，包括：

接收教师端发出的远大于所述第一预设数目个第一文本数据；

将所述第一文本数据进行查重处理；

将查重处理之后的第一文本数据确认为第二文本数据；

将第一预设数目个所述第二文本数据进行压缩；获取压缩后的第二文本数据，将所述压缩后的第二文本数据确定为所述当前文本数据。

优选的，所述对所述当前文本数据进行判定，获得判定结果，包括：

对所述当前文本数据进行解压获得第一预设数目个当前文本数据；

获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容；

设定所述每个当前文本数据的文本内容中的第一单词序列为{W₁，...，W_n}；其中，所述w₁为每个文本内容中的第一个单词，所述w_n为每个文本内容中的最后一个单词；

计算所述第一单词序列中的每一个单词的随机数值X_i，其中X_I的取值范围为(0,1)；

设定第一阈值参数P_mask∈[0,1],第二阈值参数P_POS∈[0,1]；

判定所述随机数值X_i与所述第一阈值参数和第二阈值参数的大小关系，获得所述判定结果。

优选的，所述根据判定结果对所述当前文本数据进行增强处理，包括：

当所述随机数值X_i小于所述第一阈值参数时，将所述X_i替换为[MASK]；

当所述随机数值X_i大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时，将所述随机数值X_i替换为与其词性相同的单词；

当所述随机数值X_i大于等于所述第一阈值参数和第二阈值参数之和时，无需进行改动；

保存改动后的第一单词序列；

对改动后的每个单词序列迭代N次，获得N个增强后的单词序列；

将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列；

选取困惑度最小的单词序列作为第二单词序列；

将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。

优选的，所述输出增强处理后的所述当前文本数据，包括：

当所述当前文本数据中的第一单词序列都替换完毕后，将所述当前文本数据进行二次压缩；

将二次压缩后的所述当前文本数据发送到学生端。

一种知识蒸馏过程中增强文本数据的装置，该装置包括：

获取模块，用于获取第一预设数目个当前文本数据；

判定模块，用于对所述当前文本数据进行判定,获得判定结果；

增强处理模块，用于根据所述判定结果对所述当前文本数据进行增强处理；

输出模块，用于输出增强处理后的所述当前文本数据。

优选的，所述获取模块，包括：

接收子模块，用于接收教师端发出的远大于所述第一预设数目个第一文本数据；

查重子模块，用于将所述第一文本数据进行查重处理；

确认子模块，用于将查重处理之后的第一文本数据确认为第二文本数据；

压缩子模块，用于将第一预设数目个所述第二文本数据进行压缩；获取压缩后的第二文本数据，将所述压缩后的第二文本数据确定为所述当前文本数据。

优选的，所述判定模块，包括：

解压子模块，用于对所述当前文本数据进行解压获得第一预设数目个当前文本数据；

获取子模块，用于获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容；

第一设定子模块，用于设定所述每个当前文本数据的文本内容中的第一单词序列为{W₁，...，W_n}；其中，所述w₁为每个文本内容中的第一个单词，所述w_n为每个文本内容中的最后一个单词；

第一计算子模块，用于计算所述第一单词序列中的每一个单词的随机数值X_i，其中X_I的取值范围为(0,1)；

第二设定子模块，用于设定第一阈值参数P_mask∈[0,1],第二阈值参数P_POS∈[0,1]；

判定子模块，用于判定所述随机数值X_i与所述第一阈值参数和第二阈值参数的大小关系，获得所述判定结果。

优选的，所述增强处理模块，包括：

第一替换子模块，用于当所述判定子模块判定所述随机数值X_i小于所述第一阈值参数时，将所述X_i替换为[MASK]；

第二替换子模块，用于当所述判定子模块判定所述随机数值X_i大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时，将所述随机数值X_i替换为与其词性相同的单词；

保持子模块，用于当所述判定子模块判定所述随机数值X_i大于等于所述第一阈值参数和第二阈值参数之和时，无需进行改动；

保存子模块，用于保存改动后的第一单词序列；

迭代子模块，用于对改动后的每个单词序列迭代N次，获得N个增强后的单词序列；

第二计算子模块，用于将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列；

选取子模块，用于选取困惑度最小的单词序列作为第二单词序列；

第三替换子模块，用于将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。

优选的，所述输出模块，包括：

二次压缩子模块，用于当所述当前文本数据中的第一单词序列都替换完毕后，将所述当前文本数据进行二次压缩；

发送子模块，用于将二次压缩后的所述当前文本数据发送到学生端。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种知识蒸馏过程中增强文本数据的方法的工作流程图；

图2为本发明所提供的一种知识蒸馏过程中增强文本数据的方法的另一工作流程图；

图3为本发明所提供的一种知识蒸馏过程中增强文本数据的装置的结构图；

图4为本发明所提供的一种知识蒸馏过程中增强文本数据的装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

知识蒸馏是一种常见的模型压缩方法，目前，知识蒸馏的方法越来越被普及，在“教师-学生”框架中，将复杂、学习能力强的教师网络学到的特征知识迁移到简单、学习能力弱的学生网络，以提高学生网络的精度，但是，这种方法只是从教师网络发送定量的文本数据到学生网络，教师端和学生端之间训练模型的数据有限，由于在蒸馏过程中教师网络需要需要推送大量的数据作为知识载体所以从而无法满足知识蒸馏的需要，并且训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合。现有技术中的数据增强方法是通过加噪或者同义替换来使训练模型获得大量的训练数据，但是这种方法存在以下缺点：1、加噪类方法会极大地破坏文本的可读性，甚至造成文本数据损坏，从而导致数据丢失和财产损失的问题。2、同义替换类方法只能扩展相同语义的数据，对数据多样性贡献较少。为了解决上述问题，本实施例公开了一种基于在知识蒸馏过程中获取预设数目个当前文本数据以保证能够满足知识蒸馏的需要，然后对当前文本数据进行判定，根据判定结果对当前文本数据进行增强处理最后输出增强处理后的当前年文本数据来实现知识蒸馏过程中增强文本数据的方法。

一种知识蒸馏过程中增强文本数据的方法，如图1所示，包括以下步骤：

步骤S101、获取第一预设数目个当前文本数据；

步骤S102、获取第一预设数目个当前文本数据；

步骤S103、根据判定结果对当前文本数据进行增强处理；

步骤S104、输出增强处理后的当前文本数据。

在本实施例中，上述第一预设数目个当前文本数据可以为满足知识蒸馏需要的数目个文本数据，上述增强处理为通过不同的方式获得与当前文本数据对应的新的文本数据。

上述技术方案的工作原理为：获取第一预设数目个当前文本数据，然后对当前文本数据进行判定，获得判定结果，根据判定结果对当前文本数据进行增强处理，最后输出增强处理后的当前文本数据。

上述技术方案的有益效果为：通过获取第一预设数目个当前文本数据保证了知识蒸馏的需要，通过对当前文本数据进行判定并根据判定结果来对当前文本数据进行增强处理来获得更多的文本数据，进而可以使得训练模型可以获得大量的训练数据，解决了现有技术中由于训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合的问题。

在一个实施例中，如图2所示，获取第一预设数目个当前文本数据，包括：

步骤S201、接收教师端发出的远大于所述第一预设数目个第一文本数据；

步骤S202、将第一文本数据进行查重处理；

步骤S203、将查重处理之后的第一文本数据确认为第二文本数据；

步骤S204、将第一预设数目个第二文本数据进行压缩；获取压缩后的第二文本数据，将压缩后的第二文本数据确定为当前文本数据。

上述技术方案的有益效果为：剔除掉重复的第一文本数据来保证文本数据的质量，将第二文本数据进行压缩可以避一次性的将所有第二文本数据归结在一起并可以选择性的进行加密，提高了安全性。

在一个实施例中，对所述当前文本数据进行判定，获得判定结果，包括：

对当前文本数据进行解压获得第一预设数目个当前文本数据；

获取第一预设数目个当前文本数据中的每个当前文本数据的文本内容；

设定每个当前文本数据的文本内容中的第一单词序列为{W₁，...，W_n}；其中，w₁为每个文本内容中的第一个单词，w_n为每个文本内容中的最后一个单词；

计算第一单词序列中的每一个单词的随机数值X_i，其中X_I的取值范围为(0,1)；

设定第一阈值参数P_mask∈[0,1],第二阈值参数P_POS∈[0,1]；

判定随机数值X_i与第一阈值参数和第二阈值参数的大小关系，获得判定结果。

上述技术方案的有益效果为:利用判定结果对每个文本内容中的单词序列进行判定，以便于对单词序列进行增强处理，设定两个阈值参数可以使计算出每一个单词的随机数值有一个更准确的参考区间，使得计算的结果更加准确。

在一个实施例中，根据判定结果对当前文本数据进行增强处理，包括：

当随机数值X_i小于第一阈值参数时，将X_i替换为[MASK]；

当随机数值X_i大于等于第一阈值参数并且小于第一阈值参数和第二阈值参数之和时，将随机数值X_i替换为与其词性相同的单词；

当随机数值X_i大于等于第一阈值参数和第二阈值参数之和时，无需进行改动；

保存改动后的第一单词序列；

选取困惑度最小的单词序列作为第二单词序列；

将第二单词序列替换为当前文本数据中的所述第一单词序列。

上述技术方案的有益效果为：使用[MASK]以随机概率遮盖单词，可以控制数据中的噪声比例，解决了现有技术中加噪类方法会极大地破坏文本的可读性，甚至造成文本数据损坏，从而导致数据丢失和财产损失的问题，保持了文本数据的完整性，同时，替换为词性相同的单词，使得文本数据更加多样化，相比于现有技术中替换相同语义的单词，替换的内容更多，供训练模型使用的训练模型也更多，进一步的提高了训练模型的学习能力。

在一个实施例中，输出增强处理后的所述当前文本数据，包括：

当前文本数据中的第一单词序列都替换完毕后，将当前文本数据进行二次压缩；

将二次压缩后的当前文本数据发送到学生端。

上述技术方案的有益效果为：以压缩的版本向学生端发送使学生端可以一次性的接收到当前文本数据，并且扩大了文本数据的规模，使得学生可以更充分地学习到教师端的知识内容。

在一个实施例中，包括：

1.对于标准数据集中的一条数据{W₁，...，W_n}，为每个单词W_i计算一个随机数值；

2.设定阈值超参数P_mask∈[0，1]，P_pos∈[0，1]；

3.当X_i<P_mask时，将W_i替换为[MASK]；当P_mask≤X_i<P_mask+P_pos时，将W_i替换为词性相同的单词；当X_i≥P_mask+P_pos，W_i保持不变。两种替换互斥，不同时作用于一个单词；

4.对于每条数据迭代N_iter次，可产生N_iter条增强后的语料。使用预训练好的语言模型计算增强语料的困惑度，按从小到大排序，选择困惑度最低的语料去重后加入原始数据集。

上述技术方案的有益效果为：1.使用[MASK]以随机概率遮盖单词，可以控制数据中的噪声比例，同时在有监督学习任务中，能帮助神经网络模型学习每个单词对真实标签的重要程度；

2.随机替换相同词性的单词，同时使用语言模型过滤增强后的文本，能尽可能提高数据增强文本的可读性和流畅度，同时引入不同的语义特征，增加了数据的多样性；

3.通过本专利的无标签数据增强方法，可以扩大数据规模，让学生网络更充分地学到教师模型的知识，有助于提高知识蒸馏的性能。

本实施例还公开了一种知识蒸馏过程中增强文本数据的装置，如图3所示，该装置包括：

获取模块301，用于获取第一预设数目个当前文本数据；

判定模块302，用于对当前文本数据进行判定,获得判定结果；

增强处理模块303，用于根据判定结果对当前文本数据进行增强处理；

输出模块304，用于输出增强处理后的当前文本数据。

在一个实施例中，如图4所示，获取模块，包括：

接收子模块3011，用于接收教师端发出的远大于第一预设数目个第一文本数据；

查重子模块3012，用于将第一文本数据进行查重处理；

确认子模块3013，用于将查重处理之后的第一文本数据确认为第二文本数据；

压缩子模块3014，用于将第一预设数目个第二文本数据进行压缩；获取压缩后的第二文本数据，将压缩后的第二文本数据确定为当前文本数据。

在一个实施例中，判定模块，包括：

解压子模块，用于对当前文本数据进行解压获得第一预设数目个当前文本数据；

获取子模块，用于获取第一预设数目个当前文本数据中的每个当前文本数据的文本内容；

第一设定子模块，用于设定每个当前文本数据的文本内容中的第一单词序列为{W₁，...，W_n}；其中，w₁为每个文本内容中的第一个单词，w_n为每个文本内容中的最后一个单词；

第一计算子模块，用于计算第一单词序列中的每一个单词的随机数值X_i，其中X_I的取值范围为(0,1)；

判定子模块，用于判定随机数值X_i与第一阈值参数和第二阈值参数的大小关系，获得判定结果。

在一个实施例中，增强处理模块，包括：

第一替换子模块，用于当判定子模块判定随机数值X_i小于第一阈值参数时，将X_i替换为[MASK]；

第二替换子模块，用于当判定子模块判定随机数值X_i大于等于第一阈值参数并且小于第一阈值参数和第二阈值参数之和时，将随机数值X_i替换为与其词性相同的单词；

保持子模块，用于当判定子模块判定所述随机数值X_i大于等于第一阈值参数和第二阈值参数之和时，无需进行改动；

保存子模块，用于保存改动后的第一单词序列；

第三替换子模块，用于将第二单词序列替换为当前文本数据中的第一单词序列。

在一个实施例中，输出模块，包括：

二次压缩子模块，用于当当前文本数据中的第一单词序列都替换完毕后，将当前文本数据进行二次压缩；

发送子模块，用于将二次压缩后的当前文本数据发送到学生端。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种知识蒸馏过程中增强文本数据的方法，其特征在于，包括以下步骤：

获取第一预设数目个当前文本数据；

对所述当前文本数据进行判定,获得判定结果；

根据所述判定结果对所述当前文本数据进行增强处理；

输出增强处理后的所述当前文本数据。

2.根据权利要求1所述知识蒸馏过程中增强文本数据的方法，其特征在于，所述获取第一预设数目个当前文本数据，包括：

将所述第一文本数据进行查重处理；

将查重处理之后的第一文本数据确认为第二文本数据；

3.根据权利要求1所述知识蒸馏过程中增强文本数据的方法，其特征在于，所述对所述当前文本数据进行判定，获得判定结果，包括：

设定第一阈值参数P_mask∈[0,1],第二阈值参数P_POS∈[0,1]；

4.根据权利要求1所述知识蒸馏过程中增强文本数据的方法，其特征在于，所述根据判定结果对所述当前文本数据进行增强处理，包括：

保存改动后的第一单词序列；

选取困惑度最小的单词序列作为第二单词序列；

5.根据权利要求1所述知识蒸馏过程中增强文本数据的方法，其特征在于，所述输出增强处理后的所述当前文本数据，包括：

将二次压缩后的所述当前文本数据发送到学生端。

6.一种知识蒸馏过程中增强文本数据的装置，其特征在于，该装置包括：

获取模块，用于获取第一预设数目个当前文本数据；

输出模块，用于输出增强处理后的所述当前文本数据。

7.根据权利要求6所述知识蒸馏过程中增强文本数据的装置，其特征在于，所述获取模块，包括：

查重子模块，用于将所述第一文本数据进行查重处理；

8.根据权利要求1所述知识蒸馏过程中增强文本数据的装置，其特征在于，所述判定模块，包括：

9.根据权利要求6所述知识蒸馏过程中增强文本数据的装置，其特征在于，所述增强处理模块，包括：

保存子模块，用于保存改动后的第一单词序列；

10.根据权利要求6所述知识蒸馏过程中增强文本数据的装置，其特征在于，所述输出模块，包括：