CN111428130A - 一种知识蒸馏过程中增强文本数据的方法及装置 - Google Patents

一种知识蒸馏过程中增强文本数据的方法及装置 Download PDF

Info

Publication number
CN111428130A
CN111428130A CN202010151299.6A CN202010151299A CN111428130A CN 111428130 A CN111428130 A CN 111428130A CN 202010151299 A CN202010151299 A CN 202010151299A CN 111428130 A CN111428130 A CN 111428130A
Authority
CN
China
Prior art keywords
text data
current text
submodule
threshold parameter
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010151299.6A
Other languages
English (en)
Other versions
CN111428130B (zh
Inventor
姜姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010151299.6A priority Critical patent/CN111428130B/zh
Publication of CN111428130A publication Critical patent/CN111428130A/zh
Application granted granted Critical
Publication of CN111428130B publication Critical patent/CN111428130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种知识蒸馏过程中增强文本数据的方法及装置,包括:获取第一预设数目个当前文本数据;根据判定结果对当前文本数据进行增强处理;输出增强处理后的当前文本数据。通过获取第一预设数目个当前文本数据保证了知识蒸馏的需要,通过对当前文本数据进行判定并根据判定结果来对当前文本数据进行增强处理来获得更多的文本数据,进而可以使得训练模型可以获得大量的训练数据,解决了现有技术中由于训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合的问题。

Description

一种知识蒸馏过程中增强文本数据的方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种知识蒸馏过程中增强文本数据的方法及装置。
背景技术
知识蒸馏是一种常见的模型压缩方法,目前,知识蒸馏的方法越来越被普及,在“教师-学生”框架中,将复杂、学习能力强的教师网络学到的特征知识迁移到简单、学习能力弱的学生网络,以提高学生网络的精度,但是,这种方法只是从教师网络发送定量的文本数据到学生网络,教师端和学生端之间训练模型的数据有限,由于在蒸馏过程中教师网络需要需要推送大量的数据作为知识载体所以从而无法满足知识蒸馏的需要,并且训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合。
发明内容
针对上述所显示出来的问题,本方法基于在知识蒸馏过程中获取预设数目个当前文本数据以保证能够满足知识蒸馏的需要,然后对当前文本数据进行判定,根据判定结果对当前文本数据进行增强处理最后输出增强处理后的当前年文本数据来实现知识蒸馏过程中增强文本数据。
一种知识蒸馏过程中增强文本数据的方法,包括以下步骤:
获取第一预设数目个当前文本数据;
对所述当前文本数据进行判定,获得判定结果;
根据所述判定结果对所述当前文本数据进行增强处理;
输出增强处理后的所述当前文本数据。
优选的,所述获取第一预设数目个当前文本数据,包括:
接收教师端发出的远大于所述第一预设数目个第一文本数据;
将所述第一文本数据进行查重处理;
将查重处理之后的第一文本数据确认为第二文本数据;
将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。
优选的,所述对所述当前文本数据进行判定,获得判定结果,包括:
对所述当前文本数据进行解压获得第一预设数目个当前文本数据;
获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;
计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。
优选的,所述根据判定结果对所述当前文本数据进行增强处理,包括:
当所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];
当所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;
当所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;
保存改动后的第一单词序列;
对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取困惑度最小的单词序列作为第二单词序列;
将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。
优选的,所述输出增强处理后的所述当前文本数据,包括:
当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;
将二次压缩后的所述当前文本数据发送到学生端。
一种知识蒸馏过程中增强文本数据的装置,该装置包括:
获取模块,用于获取第一预设数目个当前文本数据;
判定模块,用于对所述当前文本数据进行判定,获得判定结果;
增强处理模块,用于根据所述判定结果对所述当前文本数据进行增强处理;
输出模块,用于输出增强处理后的所述当前文本数据。
优选的,所述获取模块,包括:
接收子模块,用于接收教师端发出的远大于所述第一预设数目个第一文本数据;
查重子模块,用于将所述第一文本数据进行查重处理;
确认子模块,用于将查重处理之后的第一文本数据确认为第二文本数据;
压缩子模块,用于将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。
优选的,所述判定模块,包括:
解压子模块,用于对所述当前文本数据进行解压获得第一预设数目个当前文本数据;
获取子模块,用于获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
第一设定子模块,用于设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;
第一计算子模块,用于计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
第二设定子模块,用于设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定子模块,用于判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。
优选的,所述增强处理模块,包括:
第一替换子模块,用于当所述判定子模块判定所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];
第二替换子模块,用于当所述判定子模块判定所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;
保持子模块,用于当所述判定子模块判定所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;
保存子模块,用于保存改动后的第一单词序列;
迭代子模块,用于对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
第二计算子模块,用于将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取子模块,用于选取困惑度最小的单词序列作为第二单词序列;
第三替换子模块,用于将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。
优选的,所述输出模块,包括:
二次压缩子模块,用于当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;
发送子模块,用于将二次压缩后的所述当前文本数据发送到学生端。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种知识蒸馏过程中增强文本数据的方法的工作流程图;
图2为本发明所提供的一种知识蒸馏过程中增强文本数据的方法的另一工作流程图;
图3为本发明所提供的一种知识蒸馏过程中增强文本数据的装置的结构图;
图4为本发明所提供的一种知识蒸馏过程中增强文本数据的装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
知识蒸馏是一种常见的模型压缩方法,目前,知识蒸馏的方法越来越被普及,在“教师-学生”框架中,将复杂、学习能力强的教师网络学到的特征知识迁移到简单、学习能力弱的学生网络,以提高学生网络的精度,但是,这种方法只是从教师网络发送定量的文本数据到学生网络,教师端和学生端之间训练模型的数据有限,由于在蒸馏过程中教师网络需要需要推送大量的数据作为知识载体所以从而无法满足知识蒸馏的需要,并且训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合。现有技术中的数据增强方法是通过加噪或者同义替换来使训练模型获得大量的训练数据,但是这种方法存在以下缺点:1、加噪类方法会极大地破坏文本的可读性,甚至造成文本数据损坏,从而导致数据丢失和财产损失的问题。2、同义替换类方法只能扩展相同语义的数据,对数据多样性贡献较少。为了解决上述问题,本实施例公开了一种基于在知识蒸馏过程中获取预设数目个当前文本数据以保证能够满足知识蒸馏的需要,然后对当前文本数据进行判定,根据判定结果对当前文本数据进行增强处理最后输出增强处理后的当前年文本数据来实现知识蒸馏过程中增强文本数据的方法。
一种知识蒸馏过程中增强文本数据的方法,如图1所示,包括以下步骤:
步骤S101、获取第一预设数目个当前文本数据;
步骤S102、获取第一预设数目个当前文本数据;
步骤S103、根据判定结果对当前文本数据进行增强处理;
步骤S104、输出增强处理后的当前文本数据。
在本实施例中,上述第一预设数目个当前文本数据可以为满足知识蒸馏需要的数目个文本数据,上述增强处理为通过不同的方式获得与当前文本数据对应的新的文本数据。
上述技术方案的工作原理为:获取第一预设数目个当前文本数据,然后对当前文本数据进行判定,获得判定结果,根据判定结果对当前文本数据进行增强处理,最后输出增强处理后的当前文本数据。
上述技术方案的有益效果为:通过获取第一预设数目个当前文本数据保证了知识蒸馏的需要,通过对当前文本数据进行判定并根据判定结果来对当前文本数据进行增强处理来获得更多的文本数据,进而可以使得训练模型可以获得大量的训练数据,解决了现有技术中由于训练模型得不到足够的训练数据会导致模型的学习能力降低、训练过程中出现数据拟合的问题。
在一个实施例中,如图2所示,获取第一预设数目个当前文本数据,包括:
步骤S201、接收教师端发出的远大于所述第一预设数目个第一文本数据;
步骤S202、将第一文本数据进行查重处理;
步骤S203、将查重处理之后的第一文本数据确认为第二文本数据;
步骤S204、将第一预设数目个第二文本数据进行压缩;获取压缩后的第二文本数据,将压缩后的第二文本数据确定为当前文本数据。
上述技术方案的有益效果为:剔除掉重复的第一文本数据来保证文本数据的质量,将第二文本数据进行压缩可以避一次性的将所有第二文本数据归结在一起并可以选择性的进行加密,提高了安全性。
在一个实施例中,对所述当前文本数据进行判定,获得判定结果,包括:
对当前文本数据进行解压获得第一预设数目个当前文本数据;
获取第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
设定每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,w1为每个文本内容中的第一个单词,wn为每个文本内容中的最后一个单词;
计算第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定随机数值Xi与第一阈值参数和第二阈值参数的大小关系,获得判定结果。
上述技术方案的有益效果为:利用判定结果对每个文本内容中的单词序列进行判定,以便于对单词序列进行增强处理,设定两个阈值参数可以使计算出每一个单词的随机数值有一个更准确的参考区间,使得计算的结果更加准确。
在一个实施例中,根据判定结果对当前文本数据进行增强处理,包括:
当随机数值Xi小于第一阈值参数时,将Xi替换为[MASK];
当随机数值Xi大于等于第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将随机数值Xi替换为与其词性相同的单词;
当随机数值Xi大于等于第一阈值参数和第二阈值参数之和时,无需进行改动;
保存改动后的第一单词序列;
对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取困惑度最小的单词序列作为第二单词序列;
将第二单词序列替换为当前文本数据中的所述第一单词序列。
上述技术方案的有益效果为:使用[MASK]以随机概率遮盖单词,可以控制数据中的噪声比例,解决了现有技术中加噪类方法会极大地破坏文本的可读性,甚至造成文本数据损坏,从而导致数据丢失和财产损失的问题,保持了文本数据的完整性,同时,替换为词性相同的单词,使得文本数据更加多样化,相比于现有技术中替换相同语义的单词,替换的内容更多,供训练模型使用的训练模型也更多,进一步的提高了训练模型的学习能力。
在一个实施例中,输出增强处理后的所述当前文本数据,包括:
当前文本数据中的第一单词序列都替换完毕后,将当前文本数据进行二次压缩;
将二次压缩后的当前文本数据发送到学生端。
上述技术方案的有益效果为:以压缩的版本向学生端发送使学生端可以一次性的接收到当前文本数据,并且扩大了文本数据的规模,使得学生可以更充分地学习到教师端的知识内容。
在一个实施例中,包括:
1.对于标准数据集中的一条数据{W1,...,Wn},为每个单词Wi计算一个随机数值;
2.设定阈值超参数Pmask∈[0,1],Ppos∈[0,1];
3.当Xi<Pmask时,将Wi替换为[MASK];当Pmask≤Xi<Pmask+Ppos时,将Wi替换为词性相同的单词;当Xi≥Pmask+Ppos,Wi保持不变。两种替换互斥,不同时作用于一个单词;
4.对于每条数据迭代Niter次,可产生Niter条增强后的语料。使用预训练好的语言模型计算增强语料的困惑度,按从小到大排序,选择困惑度最低的语料去重后加入原始数据集。
上述技术方案的有益效果为:1.使用[MASK]以随机概率遮盖单词,可以控制数据中的噪声比例,同时在有监督学习任务中,能帮助神经网络模型学习每个单词对真实标签的重要程度;
2.随机替换相同词性的单词,同时使用语言模型过滤增强后的文本,能尽可能提高数据增强文本的可读性和流畅度,同时引入不同的语义特征,增加了数据的多样性;
3.通过本专利的无标签数据增强方法,可以扩大数据规模,让学生网络更充分地学到教师模型的知识,有助于提高知识蒸馏的性能。
本实施例还公开了一种知识蒸馏过程中增强文本数据的装置,如图3所示,该装置包括:
获取模块301,用于获取第一预设数目个当前文本数据;
判定模块302,用于对当前文本数据进行判定,获得判定结果;
增强处理模块303,用于根据判定结果对当前文本数据进行增强处理;
输出模块304,用于输出增强处理后的当前文本数据。
在一个实施例中,如图4所示,获取模块,包括:
接收子模块3011,用于接收教师端发出的远大于第一预设数目个第一文本数据;
查重子模块3012,用于将第一文本数据进行查重处理;
确认子模块3013,用于将查重处理之后的第一文本数据确认为第二文本数据;
压缩子模块3014,用于将第一预设数目个第二文本数据进行压缩;获取压缩后的第二文本数据,将压缩后的第二文本数据确定为当前文本数据。
在一个实施例中,判定模块,包括:
解压子模块,用于对当前文本数据进行解压获得第一预设数目个当前文本数据;
获取子模块,用于获取第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
第一设定子模块,用于设定每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,w1为每个文本内容中的第一个单词,wn为每个文本内容中的最后一个单词;
第一计算子模块,用于计算第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
第二设定子模块,用于设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定子模块,用于判定随机数值Xi与第一阈值参数和第二阈值参数的大小关系,获得判定结果。
在一个实施例中,增强处理模块,包括:
第一替换子模块,用于当判定子模块判定随机数值Xi小于第一阈值参数时,将Xi替换为[MASK];
第二替换子模块,用于当判定子模块判定随机数值Xi大于等于第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将随机数值Xi替换为与其词性相同的单词;
保持子模块,用于当判定子模块判定所述随机数值Xi大于等于第一阈值参数和第二阈值参数之和时,无需进行改动;
保存子模块,用于保存改动后的第一单词序列;
迭代子模块,用于对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
第二计算子模块,用于将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取子模块,用于选取困惑度最小的单词序列作为第二单词序列;
第三替换子模块,用于将第二单词序列替换为当前文本数据中的第一单词序列。
在一个实施例中,输出模块,包括:
二次压缩子模块,用于当当前文本数据中的第一单词序列都替换完毕后,将当前文本数据进行二次压缩;
发送子模块,用于将二次压缩后的当前文本数据发送到学生端。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种知识蒸馏过程中增强文本数据的方法,其特征在于,包括以下步骤:
获取第一预设数目个当前文本数据;
对所述当前文本数据进行判定,获得判定结果;
根据所述判定结果对所述当前文本数据进行增强处理;
输出增强处理后的所述当前文本数据。
2.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述获取第一预设数目个当前文本数据,包括:
接收教师端发出的远大于所述第一预设数目个第一文本数据;
将所述第一文本数据进行查重处理;
将查重处理之后的第一文本数据确认为第二文本数据;
将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。
3.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述对所述当前文本数据进行判定,获得判定结果,包括:
对所述当前文本数据进行解压获得第一预设数目个当前文本数据;
获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;
计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。
4.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述根据判定结果对所述当前文本数据进行增强处理,包括:
当所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];
当所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;
当所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;
保存改动后的第一单词序列;
对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取困惑度最小的单词序列作为第二单词序列;
将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。
5.根据权利要求1所述知识蒸馏过程中增强文本数据的方法,其特征在于,所述输出增强处理后的所述当前文本数据,包括:
当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;
将二次压缩后的所述当前文本数据发送到学生端。
6.一种知识蒸馏过程中增强文本数据的装置,其特征在于,该装置包括:
获取模块,用于获取第一预设数目个当前文本数据;
判定模块,用于对所述当前文本数据进行判定,获得判定结果;
增强处理模块,用于根据所述判定结果对所述当前文本数据进行增强处理;
输出模块,用于输出增强处理后的所述当前文本数据。
7.根据权利要求6所述知识蒸馏过程中增强文本数据的装置,其特征在于,所述获取模块,包括:
接收子模块,用于接收教师端发出的远大于所述第一预设数目个第一文本数据;
查重子模块,用于将所述第一文本数据进行查重处理;
确认子模块,用于将查重处理之后的第一文本数据确认为第二文本数据;
压缩子模块,用于将第一预设数目个所述第二文本数据进行压缩;获取压缩后的第二文本数据,将所述压缩后的第二文本数据确定为所述当前文本数据。
8.根据权利要求1所述知识蒸馏过程中增强文本数据的装置,其特征在于,所述判定模块,包括:
解压子模块,用于对所述当前文本数据进行解压获得第一预设数目个当前文本数据;
获取子模块,用于获取所述第一预设数目个当前文本数据中的每个当前文本数据的文本内容;
第一设定子模块,用于设定所述每个当前文本数据的文本内容中的第一单词序列为{W1,...,Wn};其中,所述w1为每个文本内容中的第一个单词,所述wn为每个文本内容中的最后一个单词;
第一计算子模块,用于计算所述第一单词序列中的每一个单词的随机数值Xi,其中XI的取值范围为(0,1);
第二设定子模块,用于设定第一阈值参数Pmask∈[0,1],第二阈值参数PPOS∈[0,1];
判定子模块,用于判定所述随机数值Xi与所述第一阈值参数和第二阈值参数的大小关系,获得所述判定结果。
9.根据权利要求6所述知识蒸馏过程中增强文本数据的装置,其特征在于,所述增强处理模块,包括:
第一替换子模块,用于当所述判定子模块判定所述随机数值Xi小于所述第一阈值参数时,将所述Xi替换为[MASK];
第二替换子模块,用于当所述判定子模块判定所述随机数值Xi大于等于所述第一阈值参数并且小于第一阈值参数和第二阈值参数之和时,将所述随机数值Xi替换为与其词性相同的单词;
保持子模块,用于当所述判定子模块判定所述随机数值Xi大于等于所述第一阈值参数和第二阈值参数之和时,无需进行改动;
保存子模块,用于保存改动后的第一单词序列;
迭代子模块,用于对改动后的每个单词序列迭代N次,获得N个增强后的单词序列;
第二计算子模块,用于将改动后的每个单词序列和其对应的N个增强后的单词序列利用语言模型计算困惑度并将计算出来的困惑度按照从小到大的顺序排列;
选取子模块,用于选取困惑度最小的单词序列作为第二单词序列;
第三替换子模块,用于将所述第二单词序列替换为所述当前文本数据中的所述第一单词序列。
10.根据权利要求6所述知识蒸馏过程中增强文本数据的装置,其特征在于,所述输出模块,包括:
二次压缩子模块,用于当所述当前文本数据中的第一单词序列都替换完毕后,将所述当前文本数据进行二次压缩;
发送子模块,用于将二次压缩后的所述当前文本数据发送到学生端。
CN202010151299.6A 2020-03-06 2020-03-06 一种知识蒸馏过程中增强文本数据的方法及装置 Active CN111428130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010151299.6A CN111428130B (zh) 2020-03-06 2020-03-06 一种知识蒸馏过程中增强文本数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010151299.6A CN111428130B (zh) 2020-03-06 2020-03-06 一种知识蒸馏过程中增强文本数据的方法及装置

Publications (2)

Publication Number Publication Date
CN111428130A true CN111428130A (zh) 2020-07-17
CN111428130B CN111428130B (zh) 2023-04-18

Family

ID=71546153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010151299.6A Active CN111428130B (zh) 2020-03-06 2020-03-06 一种知识蒸馏过程中增强文本数据的方法及装置

Country Status (1)

Country Link
CN (1) CN111428130B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507209A (zh) * 2020-11-10 2021-03-16 中国科学院深圳先进技术研究院 一种基于陆地移动距离进行知识蒸馏的序列推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
US20190129932A1 (en) * 2017-10-30 2019-05-02 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program
CN110458765A (zh) * 2019-01-25 2019-11-15 西安电子科技大学 基于感知保持卷积网络的图像质量增强方法
CN110795939A (zh) * 2019-10-15 2020-02-14 腾讯科技(深圳)有限公司 文本处理方法、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190129932A1 (en) * 2017-10-30 2019-05-02 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
CN110458765A (zh) * 2019-01-25 2019-11-15 西安电子科技大学 基于感知保持卷积网络的图像质量增强方法
CN110795939A (zh) * 2019-10-15 2020-02-14 腾讯科技(深圳)有限公司 文本处理方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
葛仕明;赵胜伟;***;李晨钰;: "基于深度特征蒸馏的人脸识别" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507209A (zh) * 2020-11-10 2021-03-16 中国科学院深圳先进技术研究院 一种基于陆地移动距离进行知识蒸馏的序列推荐方法

Also Published As

Publication number Publication date
CN111428130B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及***
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN111476658A (zh) 一种贷款连续逾期的预测方法及装置
CN111428130B (zh) 一种知识蒸馏过程中增强文本数据的方法及装置
CN111190973A (zh) 一种申报表的分类方法、装置、设备及存储介质
CN114254077A (zh) 一种基于自然语言对稿件完整性的评估方法
CN105373568B (zh) 问题答案自动学习方法和装置
CN110362828B (zh) 网络资讯风险识别方法及***
CN115859128B (zh) 一种基于档案数据交互相似度的分析方法和***
CN113849634B (zh) 用于提升深度模型推荐方案可解释性的方法
CN114547391A (zh) 消息审核方法及装置
CN114358579A (zh) 评阅方法、评阅装置、电子设备以及计算机可读存储介质
Agarwal et al. Contextual Derivation of Stable BKT Parameters for Analysing Content Efficacy.
CN115617959A (zh) 问题解答方法及装置
CN113313615A (zh) 一种对企业司法风险进行量化评分定级的方法及装置
CN107977360B (zh) 一种影视剧本中人物阵营的识别和划分方法
CN112528887A (zh) 审核方法及装置
CN115905500B (zh) 问答对数据的生成方法及装置
CN112037770B (zh) 发音词典的生成方法、单词语音识别的方法和装置
CN116501764B (zh) 一种基于生成式预训练模型的自动化sql优化方法
CN112685532B (zh) 试题资源分析方法、装置、电子设备和存储介质
CN112528019A (zh) 文本中实体关系处理方法、装置、电子设备及存储介质
CN115147132A (zh) 客服对话模板的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant