CN114722805A

CN114722805A - 基于大小导师知识蒸馏的少样本情感分类方法

Info

Publication number: CN114722805A
Application number: CN202210653730.6A
Authority: CN
Inventors: 李寿山; 常晓琴; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-07-08
Anticipated expiration: 2042-06-10
Also published as: CN114722805B

Abstract

本发明涉及一种基于大小导师知识蒸馏的少样本情感分类方法，包括收集大量情感分类任务上的未标注样本和有标注样本，使用有标注样本训练大导师模型和小导师模型；全部未标注样本经过小导师模型得到每个样本概率的不确定性，然后根据阈值筛选出样本概率高度不确定的样本再次经过大导师模型；结合大导师模型和小导师模型的概率输出形成软标签来蒸馏学生模型，使用蒸馏后的学生模型进行分类预测。本发明减少了访问大导师模型的频率，减少了训练学生模型过程中的蒸馏时间，减少资源消耗的同时提升了分类识别的正确率。

Description

基于大小导师知识蒸馏的少样本情感分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其是指一种基于大小导师知识蒸馏的少样本情感分类方法。

背景技术

情感分类任务旨在对文本表达的情感极性（如：消极和积极）进行自动判断。该任务是自然语言处理研究领域中的研究热点，并在意见挖掘、信息检索和问答***等众多应用***中广泛应用，是这些应用***的基础环节。情感分类只中的少样本情感分类是指在训练分类器时仅有少量的标注样本可以使用。

在进行少样本情感分类时，人工智能领域通常使用机器学***衡的少量标注样本的语料；（2）基于提示的大规模预训练语言模型（比如GPT-3）利用少量的标注样本训练模型，获得分类模型；（3）使用分类模型对某个未知标签的文本进行测试，获得该文本段的极性标签。测试过程中，每次输入分类模型的是单个文本。其中第（2）步的基于提示的大规模预训练语言模型的网络结构如图1所示，图中[CLS] x [SEP]是输入语句，[CLS]标志句首，[SEP]标志句子与句子的分隔，x是原始预训练模型预测句子的分类。图1中“MLM head”是掩码语言模型在基于提示的大规模预训练语言模型中的固定用法。通过“MLM head”得到积极标签“好”，从而得到输入语句“[CLS]我会把他们推荐给每一个人！它 [MASK]。[SEP]”的反馈输出为“我会把他们推荐给每一个人！它好。”。

少样本情感分类由于训练样本很少，常见的浅层神经网络（例如CNN、LSTM等）和深度预训练语言模型（例如BERT、RoBERTa等）很难对某些文本的语义做出正确判断，分类的识别率不够高。现有技术GPT-3大型模型的参数量达1750亿，通过增加一些输入和相应输出的实例作为上下文，能够在少样本学习任务上表现优异。但是由于参数量过于庞大，调用模型需要耗费昂贵的计算资源，推理速度也很慢，给实际应用带来了阻碍。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于大小导师知识蒸馏的少样本情感分类方法，可以有效减少访问大导师模型的频率和训练学生模型过程中的蒸馏时间，并在减少资源消耗的同时提升分类识别的正确率。

为解决上述技术问题，本发明提供了一种基于大小导师知识蒸馏的少样本情感分类方法，包括以下步骤：

S1：将样本分为有标注样本x _u和未标注样本x _u′，收集大量情感分类任务上的未标注样本x _u′，建立有标注样本的集合

和未标注样本的集合D _u={x _u′}；

S2：构建大导师模型和小导师模型，使用有标注样本集合D _l训练大导师模型得到训练完成的大导师模型M _L，使用有标注样本集合D _l训练小导师模型得到训练完成的小导师模型M _B；

S3：使用训练完成的小导师模型M _B预测全部未标注样本x _u′得到样本概率

，计算每个样本概率的不确定性

；

S4：将不确定性

与预设阈值threshold比较，筛选出样本概率高度不确定的样本x _u″；

S5：将样本x _u′输入训练完成的小导师模型M _B得到小导师模型的软标签P，将样本x _u″输入训练完成的大导师模型M _L得到大导师模型的软标签P′，结合小导师模型的软标签P 和大导师模型的软标签P′得到最终的软标签

；

S6：构建学生模型，使用所述未标注样本集合D _u和所述软标签

蒸馏学生模型，得到蒸馏完成的学生模型；

S7：使用蒸馏完成的学生模型对测试集进行分类预测。

作为优选的，所述大导师模型和所述小导师模型均为由基于提示的预训练语言模型M组成的教师模型，所述大导师模型的参数量大于所述小导师模型的参数量。

作为优选的，所述使用有标注样本集合D _l训练大导师模型得到训练完成的大导师模型M _L，具体为：

S21：训练集D_l={x _u}={x,y}中，x表示输入样例，y表示真实标签；对输入样例x添加提示模板转化成完形填空任务形式：

P(x)=[CLS] x It is [MASK].[SEP]，其中[MASK]为填充词，P(x)是语言模型的输入，It is [MASK].是输入文本添加的提示模板；

S22：将L作为分类任务的标签集合，V作为分类任务的标签词集合，构造标签映射函数：

；

P(x)作为语言模型的输入，通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签

上的得分

，

其中

，

表示标签l对应的标签词，k为标签词的长度；

S23：通过softmax层建立预测[MASK]在不同标签l上的类别概率，通过类别概率得到输入样例x的情感类别

；

S24：建立大导师模型输出层的损失函数；

S25：重复S22~S24，直到大导师模型收敛，结束训练，得到训练完成的大导师模型M _L；

所述使用有标注样本集合D _l训练小导师模型得到训练完成的小导师模型M _B，具体为：

S26：训练集D_l={x _u}={x,y}中，x表示输入样例，y表示真实标签；对输入样例x添加提示模板转化成完形填空任务形式：

P(x)=[CLS] x It is [MASK].[SEP]，其中[MASK]为填充词；

S27：将L作为分类任务的标签集合，V作为分类任务的标签词集合，构造标签映射函数：

；

通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签

上的得分

，

其中

，

表示标签l对应的标签词，k为标签词的长度；

S28：通过softmax层建立预测[MASK]在不同标签l上的类别概率，通过类别概率得到输入样例x的情感类别

；

S29：建立小导师模型的输出层的损失函数；

S210：重复S27~S29，直到小导师模型收敛，结束训练，得到训练完成的小导师模型M _B。

作为优选的，所述使用训练完成的小导师模型M _B预测全部未标注样本x _u′得到样本概率

，计算每个样本概率的不确定性

，具体为：

S31：将全部未标注样本x _u′输入训练完成的小导师模型M _B，预测得到的概率分布为

；

S32：计算每个样本概率的不确定性

，计算公式为：

；

其中|L|为分类任务中标签的类别个数。

作为优选的，所述预设阈值threshold的取值范围为

。

作为优选的，所述将不确定性

与预设阈值threshold比较，筛选出样本概率高度不确定的样本x _u″，具体为：

若样本概率的不确定性

大于threshold，则将此样本作为样本概率高度不确定的样本x _u″。

作为优选的，所述将样本x _u′输入训练完成的小导师模型M _B得到小导师模型的软标签P，将样本x _u″输入训练完成的大导师模型M _L得到大导师模型的软标签P′，结合小导师模型的软标签P和大导师模型的软标签P′得到最终的软标签

，具体为：

S51：将样本x _u′输入训练完成的小导师模型M _B得到小导师模型的软标签

；

S52：将样本x _u″输入训练完成的大导师模型M _L得到大导师模型的软标签

；

S53：

的表达式为：

。

作为优选的，所述使用所述未标注样本集合D _u和所述软标签

蒸馏学生模型，得到蒸馏完成的学生模型，具体过程为：

S61：将未标注样本集合D _u作为蒸馏学生模型的训练集，经过学生模型的向量表示为

，其中g( )表示学生模型的网络函数，A _u为未标注样本集合D _u对应的词向量矩阵，上标s表示学生模型，

表示学生模型的可学习参数；

S62：建立学生模型输出层的损失函数

，其中n表示批大小，

表示经过学生模型的第i个样本的预测概率，

表示最终的样本概率

中第i个样本的预测概率，T是蒸馏模型的温度参数，D_KL表示KL散度损失函数；

S63：

依次经过线性层和softmax激活层，得到未标注样本集合D _u的概率输出

，W ^s表示学生模型的线性层上待学习的权重矩阵；

S64：使用损失函数L_KD更新学生模型的可学习参数；

S65：重复S61~S64直到损失函数L_KD收敛，得到蒸馏完成的学生模型。

作为优选的，所述词向量矩阵A _u中，每一行是输入样本x _u′中每个字符的字向量表示，每个字符的字向量通过word2vec或Glove模型训练获得。

作为优选的，所述KL散度损失函数的表达式为

，其中|L|为分类任务中标签的类别个数。

本发明的上述技术方案相比现有技术具有以下优点：

本发明通过建立大导师模型和小导师模型对学生模型进行蒸馏，使得样本经过小导师模型筛选后再经过大导师模型，可以有效减少对学生模型的蒸馏时间，从而减少资源消耗；同时，在大导师模型和小导师模型减少资源消耗的情况下，可以收集情感分类任务中的大量未标注样本，从而提高分类识别的正确率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是基于提示的大规模预训练语言模型的网络结构；

图2是传统单一教师和单一学生知识蒸馏方法的结构示意图；

图3是本发明中基于大小导师机制的知识蒸馏方法的结构示意图；

图4是本发明实施例中YELP和IMDB数据集在BERT模型上的实验结果图；

图5是本发明实施例中YELP和IMDB数据集在RoBERTa模型上的实验结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在模型的优化过程中，大模型往往是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力；而小模型因为网络规模较小，表达能力有限。因此，可以利用大模型（教师模型）学习到的知识去指导小模型（学生模型）训练，使得小模型具有与大模型相当的性能，但是参数数量大幅降低，从而实现模型压缩与加速，这个过程称为蒸馏。

与图2所示的传统单一教师和单一学生知识蒸馏方法相比，图3所示的本发明方法在传统方法的基础上使用了大量未标注样本，并引入基于提示的大导师模型和小导师模型两个教师模型，图中

为学生模型的输出概率。

本发明一种基于大小导师知识蒸馏的少样本情感分类方法，包括以下步骤：

和未标注样本的集合

，有标注样本x _u为含有标签的样本，未标注样本x _u′为无标签的样本，样本中有少量的有标注样本x _u和大量的未标注样本x _u′。

S2：构建大导师模型和小导师模型，大导师模型和小导师模型均为由基于提示的预训练语言模型M（即prompt方法）组成的教师模型，所述大导师模型的参数量大于所述小导师模型的参数量，本实施例中所述大导师模型的参数量远远大于所述小导师模型的参数量。使用有标注样本集合D _l训练大导师模型得到训练完成的大导师模型M _L，使用有标注样本集合D _l训练小导师模型得到训练完成的小导师模型M _B。

使用有标注样本集合D _l分别训练大导师模型和小导师模型，大导师模型和小导师模型的训练过程类似，具体过程为：

P(x)=[CLS] x It is [MASK].[SEP]，其中[MASK]为填充词，目的是让基于提示的预训练语言模型M来决定[MASK]处的填充词，将分类任务转化成完形填空任务。输入文本添加提示模板“It is [MASK].”，[MASK]对应分类任务的不同标签，将新的输入通过语言模型，让语言模型决定[MASK]处的填充词，从而实现对文本的分类。

；用于将任务标签映射到基于提示的预训练语言模型M的词表中的某个词或多个词。例如：情感二分类任务中用0类别对应词表中的单词“terrible”，1类别对应词表中的单词“great”。P(x)作为语言模型的输入，通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签

上的得分

，

其中

，

表示标签l对应的标签词，k为标签词的长度。

。

S24：建立大导师模型的输出层的损失函数；本实施例中损失函数为交叉熵函数，用来衡量训练样本的真实标签y和预测概率

之间的差异。

S25：重复S22~S24，直到大导师模型收敛结束训练，得到训练完成的大导师模型

。

P(x)=[CLS] x It is [MASK].[SEP]，其中[MASK]为填充词。

；

上的得分

，

其中

，

表示标签l对应的标签词，k为标签词的长度。

。

S29：建立小导师模型的输出层的损失函数。

，计算每个样本概率的不确定性

。

；

S32：计算每个样本概率的不确定性

，计算公式为：

；

其中|L|为分类任务中标签的类别个数，通过不确定性

可以衡量样本预测概率的质量。

S4：将不确定性

与预设阈值threshold比较，筛选出样本概率高度不确定的样本，预设阈值threshold的取值范围为

。

若样本概率的不确定性

大于threshold，则将此样本作为样本概率高度不确定的样本。样本概率的不确定性

大于threshold，说明小导师对样本x _u′ 的分类概率结果置信度不够，需要再次经过大导师模型得到新的概率分布。

。

；

；

S53：

的表达式为：

。

S6：构建学生模型，本实施例中的学生模型由小型的浅层神经网络模型组成。使用未标注样本集合D _u和软标签

蒸馏学生模型，得到蒸馏完成的学生模型。

，其中g( )表示学生模型的网络函数，A _u为未标注样本集合D _u对应的词向量矩阵，未标注样本x _u′的长度为k，字向量的维度为d，则

；上标s表示学生模型，

表示学生模型的可学习参数。

词向量矩阵A _u中，每一行是输入样本x _u′中每个字符的字向量表示，每个字符的字向量通过word2vec或Glove模型训练获得。

S62：建立学生模型输出层的损失函数，即教师模型蒸馏学生模型时使用的损失函数

，其中n表示批大小，

表示经过学生模型的第i个样本的预测概率，

表示最终的样本概率

中第i个样本的预测概率，T是蒸馏模型的温度参数，T是蒸馏模型自带的参数，T越大，softmax的概率分布就越趋于平滑，分布的熵也就越大，携带的信息越多，D_KL表示KL散度损失函数。

KL散度损失函数的表达式为

，其中|L|为分类任务中标签的类别个数。

S63：

，

表示学生模型的线性层上待学习的权重矩阵；

S64：使用损失函数L_KD更新学生模型的可学习参数；

S7：使用蒸馏完成的学生模型对测试集进行分类预测。

本发明的有益效果：

为了进一步说明本发明的有益效果，本实施例中将测试集输入到训练完成的学生模型中得到预测概率。从（1）学生模型对测试集进行预测得到的分类结果的正确率、（2）蒸馏模型中教师模型对所有未标注样本的预测时间和（3）对大导师模型访问率减少的比例这三方面来分析本发明的效果。

本实施例中使用了句子级YELP数据集（详见文献“Zhang X, Zhao J, LeCun Y.Character-level convolutional networks for text classification[J]. Advancesin neural information processing systems, 2015, 28: 649-657.”）和篇章级IMDB数据集（详见文献“Maas A L , Daly R E , Pham P T , et al. Learning Word Vectorsfor Sentiment Analysis[C]// Meeting of the ACL: Human Language Technologies.ACL, 2011.”）作为测试集，分别进行仿真实验，YELP数据集包含用户对餐馆、购物中心、酒店、旅游等领域的商户的评价以及正负情感倾向，IMDB数据集包含来自互联网电影数据库的两级分化的评论。实验过程中，每个数据集分别选取正负平衡的8个样本作为训练集和验证集，正负500个样本作为测试集。此外，YELP数据集的未标注样本数为10万，IMDB数据集的未标注样本数为9.8万。

为了模拟大小导师机制的知识蒸馏过程，本发明在BERT、RoBERTa模型下分别设置大导师模型和小导师模型，使用BERT-large（BERT下的大导师模型）、BERT-base（BERT下的小导师模型）和RoBERTa-large（RoBERTa下的大导师模型）、RoBERTa-base（RoBERTa下的小导师模型）表示。训练教师模型时，标签词分别为“terrible”和“great；批大小设置为4或8；优化器使用AdamW，其中，学习率选择{1e-5, 2e-5, 5e-5}中的一个，权重衰减设置为1e-3，批大小和学习率根据网格搜索超参数的方式确定。学生模型为CNN模型，使用3种不同尺寸的卷积核，分别为(3, 50)、(4, 50)和(5, 50)。每种卷积核的数量为100；每个CNN 使用Glove.6B.50d作为词向量；批大小设置为128；优化器使用Adam，其中，学习率设置为1e-3，权重衰减为1e-5。为防止神经网络模型训练过程出现过拟合现象，设置Dropout参数为0.5。

YELP和IMDB数据集在BERT模型上的实验结果如图4所示，其中YELP和IMDB数据集上的不确定性阈值均设为0.85；YELP和IMDB数据集在RoBERTa模型上的实验结果如图5所示，其中YELP数据集上的不确定性阈值设为0.6，IMDB数据集上的不确定性阈值设为0.9。图4和图5中Fine-tuning表示使用标准微调预训练语言模型，LM-BFF表示使用基于提示微调预训练语言模型，LM-BFF蒸馏CNN表示使用基于提示的预训练语言模型蒸馏CNN模型。由于少样本学***均值（5次结果的方差）”的形式表示。

从图4的分类结果的正确率可以看出，本发明方法与BERT-large模型的蒸馏性能相比，在YELP数据集下提高了91.13%-90.64%=0.49%、在IMDB数据集下提高了84.14%-84.08%=0.06%。并且，本发明方法与BERT-base模型的蒸馏性能相比，在YELP数据集下91.13% > 87.18%、在IMDB数据集下84.14%>84.08%，本发明方法的结果远优于BERT-base模型的蒸馏性能。从图4的预测时间可以看出，本发明方法蒸馏花费的时间与BERT-large教师模型相比，在YELP数据集下提高了91.93s/163.27s=56.31%、在IMDB数据集下提高了962.37s/1598.34s=60.21%。同时，仿真程序统计出，本发明方法对大导师模型访问率减少的比例（对大导师模型访问率减少的比例，即大小导师机制下未标注样本经过大导师模型的次数相比全部经过大导师模型减少的次数占比）与BERT-large相比，在YELP数据集下减少了74.40%、在IMDB数据集下减少了72.42%。

从图5的分类结果的正确率可以看出，本发明方法与RoBERTa-large模型的蒸馏性能相比，在YELP数据集下提高了93.16%-92.80%=0.36%、在IMDB数据集下提高了87.84%-87.64%=0.2%。并且，本发明方法与RoBERTa-base模型的蒸馏性能相比，在YELP数据集下93.16% > 91.82%、在IMDB数据集下87.84%>87.64%，本发明方法的结果优于RoBERTa-base模型的蒸馏性能。从图5的预测时间可以看出，本发明方法蒸馏花费的时间与RoBERTa-large教师模型相比，在YELP数据集下提高了75.59s/163.32s=46.28%、在IMDB数据集下提高了912.65s/1594.93s=57.22%。同时，仿真程序统计出，本发明方法对大导师模型访问率减少的比例（对大导师模型访问率减少的比例，即大小导师机制下未标注样本经过大导师模型的次数相比全部经过大导师模型减少的次数占比）与RoBERTa-large相比，在YELP数据集下减少了84.65%、在IMDB数据集下减少了75.56%。

访问频率和占用的资源成正比的。全部未标注样本都需要经过小导师模型，阈值筛选出的少部分样本再经过大导师模型。相比全部未标注样本都经过大导师模型可以减少大量资源消耗，小导师模型参数量相对较小、占用的计算资源也少，因此仿真中只对大导师模型访问率减少的比例进行分析。

仿真结果进一步说明了本发明可以有效减少访问大导师模型的频率和训练学生模型过程中的蒸馏时间，并在减少资源消耗的同时提升分类识别的正确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。