CN117057414B

CN117057414B - 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***

Info

Publication number: CN117057414B
Application number: CN202311012488.5A
Authority: CN
Inventors: 韩咏; 黄铭杰; 叶展宏; 孔蕾蕾; 齐浩亮
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2024-06-07
Anticipated expiration: 2043-08-11
Also published as: CN117057414A

Abstract

本发明一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***，涉及自然语言处理领域，为解决现有方法，无法获取模型的参数及结构、模型输出的概率分布及模型的训练数据的问题。包括如下过程对初始文本序列样本进行释义改写，再生成多个用于文本生成的prompt，与释义改写后的的序列样本相结合，得到教师模型的输出结果；生成一个用于文本生成的prompt，将初始序列样本与用于文本生成的prompt相结合输入学生模型，得到学生模型的输出结果；构建统计语言模型，分别计算教师模型和学生模型输出结果的概率分布；计算教师模型和学生模型输出结果的概率分布的差异损失，及学生模型在对应的目标文本上的损失，得到学生模型。本发明模型更具有较高的准确性。

Description

一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***。

背景技术

知识蒸馏致力于将知识从复杂的模型转移到较小模型，黑盒蒸馏是指在教师模型为黑盒(black-box)的情况下，即当教师模型的结构、参数不可见并且只能获得模型输出的最终结果而不是软标签时，通过知识蒸馏将知识传递给学生模型的训练方法。目前，黑盒知识蒸馏的方法主要包括：构建特殊输入样例、训练样例生成器和模拟教师输出分布。

构建特殊输入样例的核心思想是通过下游任务数据、域外数据(OOD，Out-Of-Domain data)或者按照一定规则构建的特殊数据作为输入样例，将其与教师模型的对应输出组成样例标签对，用于训练学生模型。训练样例生成器的核心思想是使用深度神经网络来生成训练和测试样例，该生成器在训练的过程中会不断地与教师模型或学生模型进行交互，从而获得针对性更强、特征更丰富的样例。模拟教师输出分布是当教师模型是一个黑盒时，只能获取教师模型的输出，而不能获取位于输出前一层的概率分布，因此就出现了许多关于模拟教师输出分布的研究。而现有的黑盒知识蒸馏方法，首先无法获取模型的参数及结构；其次，无法获取模型输出的概率分布；再者，无法获取模型的训练数据。

发明内容

本发明要解决的技术问题是：

现有的黑盒知识蒸馏方法，存在无法获取模型的参数及结构、模型输出的概率分布及模型的训练数据的问题。

本发明为解决上述技术问题所采用的技术方案：

本发明提供了一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，包括如下步骤：

S1、采用大语言模型生成多个用于释义改写的prompt，将初始文本序列样本进行释义改写，得到多个释义改写后的序列样本；

S2、采用大语言模型生成多个用于文本生成的prompt，将释义改写后的序列样本与用于文本生成的prompt相结合，输入到教师模型进行文本生成，得到教师模型输出结果；

S3、采用大语言模型生成一个用于文本生成的prompt，将初始序列样本与用于文本生成的prompt相结合输入学生模型，得到学生模型的输出结果；

S4、构建统计语言模型，采用所述统计语言模型对教师模型的多个输出结果和学生模型的一个输出结果分别建模，分别计算教师模型和学生模型输出结果的概率分布；

S5、以第一损失函数计算教师模型和学生模型输出结果的概率分布的差异损失，以第二损失函数计算学生模型在对应的目标文本上的损失，结合两个损失结果计算总损失，对学生模型的参数进行调整；

S6、重复执行S4到S5，至模型收敛或者达到预设迭代次数，得到训练后的学生模型。

进一步地，S1中采用大语言模型生成多个用于释义改写的prompt，记为其中＝1,2,…；针对一个初始文本序列x＝x₁x₂…x_s，将输入序列与生成的个/>相结合，得到多个不同的序列x+p_k，输入教师模型进行释义改写，得到多个释义改写后的序列样本x^k；

进行全部次改写后，得到个不同的释义改写后的序列，即{x¹,x²,…,x^K}。

进一步地，S1中还包括使用释义判别模型对生成的个prompt两两进行相似度判断，以确保提示间语义的相似性。

进一步地，S2中采用大语言模型生成多个用于文本生成的prompt，记为其中＝1,2,…K，将释义改写后的的序列样本{x¹,x²,…,x^K}与用于文本生成的prompt相结合，输入教师模型，得到文本生成序列样本y^(k)；

进行全部K次文本生成后，得到教师模型输出结果，即K个不同序列{y⁽¹⁾,y⁽²⁾,…,y^(K)}。

进一步地，S2中使用释义判别模型对个释义改写后的序列两两进行相似度判断，若基本保持语义一致，则全部送入下一轮进行文本生成；否则，对语义偏差较大的文本，重新进行释义改写，以使个释义文本间保持语义的一致性。

进一步地，S3中学生模型的文本生成过程中，模型采用贪心采样的策略，对每个位置采样时仅提取出现在当前位置的概率最大的词作为结果。

进一步地，S4中所述的统计语言模型的构建方法为：针对文本序列ω＝ω₁ω₂…ω_n，通过统计ω在整个文本语料库中出现的概率P(ω)实现机器对语言的识别，采用条件概率公式可得P(ω)为：

P(ω)＝P(ω₁)P(ω₂|ω₁)P(ω₃|ω₁ω₂)…P(ω_n|ω₁ω₂…ω_n-1)

其中，P(ω_n|ω₁ω₂…ω_n-1)表示在已知前n-1个词的前提下，第n个词ω_n的出现概率；

采用基于马尔科夫假设的二元模型Bi-gram对计算公式进行简化，具体地，假设第ω_n的出现概率仅与它的前一个词ω_n-1有关，则：

P(ω)＝P(ω₁)P(ω₂|ω₁)P(ω₃|ω₂)…P(ω_n|ω_n-1)

采用拉普拉斯平滑的方法对每个词的概率分布进行平滑处理，则概率分布为：

其中，C(ω_n)为ω_n在语料库中出现的次数，C(y_n-1y_n)为y_n-1y_n的bi-gram组合在语料库/>中出现的概率，/>为整个词汇表的大小；为常数，需根据具体的词汇表进行调整。

进一步地，S5中所述第一损失函数，首先采用KL散度计算教师模型和学生模型输出结果的概率分布间的差异，损失函数为：

其中，y_{pred_w}为y_pred序列中的第w个词，P(y_{pred_w}|y_pred)为词y_{pred_w}在y_pred映射到的词空间上的概率分布，P(y_{pred_w}|y)为词y_{pred_w}在y映射到的词空间上的概率分布，LM_T为统计语言模型对教师模型的输出结果进行的建模，即：

LM_T＝Language Model(y₁,y₂,…,y_n)

LM_S为统计语言模型对学生模型的输出结果的建模，即：

LM_S＝Language Model(y_{pred_1},y_{pred_2},…,y_{pred_m})

将教师模型的次输出与学生模型的输出y_pred依次计算KL散度后取平均，得到损失函数：

其中，|K|为调用教师模型对输入生成不同文本的次数，为语言模型对教师模型的第个输出文本的建模；

所述第二损失函数为计算学生模型在对应的目标文本上的负对数似然损失，损失函数为：

其中，n为目标序列的长度，为文本序列/>

结合两部分损失，得到总损失函数为：

L_KD＝(1-λ)L_NLL+λL_{KL_avg}

其中，λ是一个超参数，用于决定两类损失的比重。

一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏***，该***具有与上述技术方案任一项的步骤对应的程序模块，运行时执行上述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现上述技术方案中任一项所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法的步骤。

相较于现有技术，本发明的有益效果是：

本发明一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***，引入了统计语言模型对教师模型和学生模型的输出进行建模以获取两个输出的概率分布，并使用KL散度计算分布间的差异，以及学生模型生成文本与真实目标文本之间的损失，以此作为蒸馏损失，使模型更具有较高的准确性。本发明应用大规模语言模型，生成多个具有相同释义的prompt。并将同一个输入结合不同的prompt，输入到大规模语言模型中进行改写的策略，可以实现对于同一个输入获得多个不同输出，利用这种多样性特点对教师模型的输出分布进行建模，以弥补无法获取黑盒模型真实输出概率的问题。同时，多样性的教师输出，也能为学生模型提供更丰富的文本特征，以提高知识蒸馏的效果。

附图说明

图1为本发明实施例中面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法流程图一；

图2为本发明实施例中面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法流程图二。

具体实施方式

在本发明的描述中，应当说明的是，在本发明的实施例中所提到的术语“第一”、“第二”、“第三”仅用于描述目的，并不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者多个该特征。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

具体实施方案一：如图1和图2所示，本发明提供一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，包括如下步骤：

本实施方案中，S3中所述的学生模型对文本的编码过程为：

学生模型使用基于Transformer的预训练语言模型，在预训练阶段，给定一个文本序列ω＝ω₁ω…ω作为输入，模型首先会在输入层对ω中的每个词ω做词嵌入(WordEmbedding)并映射为向量：

其中，表示词ω的词嵌入(Token Embedding)，/>表示词ω的位置嵌入(Position Embedding)，v为第i个位置的单词ω经过学生模型输入层进行词嵌入后的输出；由于每个词在文本序列中的不同位置可能有不同的语义，并且Transformer在对词进行逐个编码时无法感知词的位置，所以此处增加位置嵌入以补充更多的位置信息。

文本序列ω＝ω₁ω…ω经过输入层编码为向量序列v＝v₁v…v，随后L个编码层对向量序列先编码后解码；编码过程中，在自注意力的机制下，每个编码层中的每个表示向量都能与之前位置中的向量相结合以获得更丰富的上下文信息；经过多层解码后，最后一个隐藏层中包含了单词层次化的组合式表示，L层Transformer的计算过程公式如下：

其中，表示第L层的表示向量序列，n为序列长度，d为模型隐藏层维度，L为模型总层数。

学生模型的文本生成过程为：

学生模型在生成文本前首先对表示向量进行解码，解码后的输出为每个位置上的条件概率，即在每个位置上每个词出现的概率，当前位置的条件概率基于第L层的隐藏状态h^(L)和之前位置的预测结果；对于第一个位置，则结合句首标记<BOS>进行预测；其对应的计算公式为：

P(ω_i|ω₁ω₂…ω_i-1)＝Softmax(W^eh^(L)+b^out)

其中，为词向量矩阵，/>为词汇表大小，/>为偏置项；

模型的训练目标是最大化似然概率估计，即最小化似然概率损失，对于输入的文本序列，其对应的损失函数为：

其中，θ为模型参数；

在下游任务精调阶段采用相同的方式进行编码与解码；经过预训练的模型具备了一定的通用语言表示能力，在下游任务中根据具体的数据集和任务目标进行适配。

在下游任务精调阶段，给定一个源序列q＝q₁q₂…q_m和一个目标序列a＝a₁a₂…a_n，采用提示学习的方法，在输入序列中添加提示(prompt)，记为p，将提示与原输入序列q组合为形如q+p的带提示的序列作为输入。训练的目标为在给定的输入为q+p时最大化生成a的似然概率，对应的概率计算公式为：

其中，θ为模型的参数，a_＜t表示文本序列a₁a₂…a_t-1；在训练阶段，a_＜t采用的是训练目标中的序列，即a_＜t∈a；而在模型推理阶段，a_＜t均是由模型自行预测所得；在t＝0的时刻，则仅依据输入序列q+p去计算输出序列第一个位置的词为a₁的概率。

由于教师模型为黑盒模型，因此只调用教师模型生成结果，而不对教师模型进行训练。同样也不对大规模语言模型进行训练。通过单个输入得到多个不同的输出来捕获教师模型的输出分布规律，以弥补无法获取黑盒模型真实输出概率的问题。同时，多样性的教师输出，也能为学生模型提供更丰富的文本特征，以提高知识蒸馏的效果。学生模型的参数与结构都是可训练的，训练学生模型的目的是期望学生模型的最优输出能够在教师模型的指导下生成目标文本。

具体实施方案二：S1中采用大语言模型生成多个用于释义改写的prompt，记为其中k＝1,2,…K；针对一个初始文本序列x＝x₁x₂…x_s，将输入序列与生成的个/>相结合，得到多个不同的序列x+p_k，输入教师模型进行释义改写，得到多个释义改写后的序列样本x^k；

进行全部次改写后，得到个不同的释义改写后的序列，即{x¹,x²,…,x^K}。本实施方案其它与具体实施方案一相同。

具体实施方案三：S1中还包括使用释义判别模型对生成的个prompt两两进行相似度判断，以确保提示间语义的相似性。本实施方案其它与具体实施方案二相同。

本实施方案中释义判别模型采用预训练语言模型BERT。

具体实施方案四：S2中采用大语言模型生成多个用于文本生成的prompt，记为其中k＝1,2,…K，将释义改写后的的序列样本{x¹,x²,…,x^K}与用于文本生成的prompt相结合，输入教师模型，得到文本生成序列样本y^(k)；

进行全部次文本生成后，得到教师模型输出结果，即个不同序列{y⁽¹⁾,y⁽²⁾,…,y^(K)}。本实施方案其它与具体实施方案一相同。

具体实施方案五：S2中使用释义判别模型对个释义改写后的序列两两进行相似度判断，若基本保持语义一致，则全部送入下一轮进行文本生成；否则，对语义偏差较大的文本，重新进行释义改写，以使个释义文本间保持语义的一致性。本实施方案其它与具体实施方案四相同。

具体实施方案六：S3中学生模型的文本生成过程中，模型采用贪心采样的策略，对每个位置采样时仅提取出现在当前位置的概率最大的词作为结果。本实施方案其它与具体实施方案一相同。

具体实施方案七：S4中所述的统计语言模型的构建方法为：针对文本序列ω＝ω₁ω₂…ω_n，通过统计ω在整个文本语料库中出现的概率P(ω)实现机器对语言的识别，采用条件概率公式可得P(ω)为：

P(ω)＝P(ω₁)P(ω₂|ω₁)P(ω₃|ω₁ω₂)…P(ω_n|ω₁ω₂…ω_n-1)

P(ω)＝P(ω₁)P(ω₂|ω₁)P(ω₃|ω₂)…P(ω_n|ω_n-1)

其中，C(ω_n)为ω_n在语料库中出现的次数，C(y_n-1y_n)为y_n-1y_n的bi-gram组合在语料库/>中出现的概率，/>为整个词汇表的大小；为常数，需根据具体的词汇表进行调整。本实施方案其它与具体实施方案一相同。

本实施方案中采用基于马尔科夫假设的二元模型Bi-gram对计算公式进行简化，以避免数据稀疏问题带来计算量巨大的问题。

本实施方案中统计语言模型是基于每个词_n在整个语料库出现的条件概率所构造的，一旦在文本序列中出现未登录词OOV(Out Of Vocabulary)，则会直接让个文本序列的概率归零或者造成数据稀疏，因此，本实施方案采用拉普拉斯平滑(LaplaceSmoothing)的方法对每个词的概率分布进行平滑处理，从而避免OOV造成的零概率以及数据稀疏的问题。

具体实施方案八：S5中所述第一损失函数，首先采用KL散度计算教师模型和学生模型输出结果的概率分布间的差异，损失函数为：

其中，y_{pred_w}为y_pred序列中的第个词，P(y_{pred_w}|y_pred)为词y_{pred_w}在y_pred映射到的词空间上的概率分布，P(y_{pred_w}|)为词y_{pred_w}在y映射到的词空间上的概率分布，lm_T为统计语言模型对教师模型的输出结果进行的建模，即：

LM_T＝Language Model(y₁,y₂,…,y_n)

LM_s为统计语言模型对学生模型的输出结果的建模，即：

LM_s＝Language Model(y_{pred_1},y_{pred_2},…,y_{pred_m})

其中，|K|为调用教师模型对输入x生成不同文本的次数，为语言模型对教师模型的第个输出文本的建模；

其中，n为目标序列的长度，为文本序列/>结合两部分损失，得到总损失函数为：

L_KD＝(1-λ)L_NLL+λL_{KL_avg}

其中，λ是一个超参数，用于决定两类损失的比重。本实施方案其它与具体实施方案一相同。

本实施方案中面向文本生成的基于语言模型的黑盒知识蒸馏模型的训练方法为：

具体实施方案九：一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏***，该***具有与上述实施方案一至八任一项的步骤对应的程序模块，运行时执行上述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法中的步骤。

具体实施方案十：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现实施方案一至八中任一项所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法的步骤。

通过下述实施例验证本发明方法的有效性。

实施例1

数据集介绍

使用开源的Stanford Question Answering Dataset，SQuAD问答数据集构建demo，该数据集是一个阅读理解数据集，由众包工作者在一组***文章上提出的问题组成。SQuAD的训练集包含87,599条数据，验证集包含10,570条数据。Demo在训练集上训练，并取验证集上的结果，在EM(exact match)和F1(F1-score)两个指标上进行比较。

模型介绍

以mT0-base为教师模型，mT0-small为学生模型验证方法的有效性。mT0模型为预训练语言模型mT5系列在多任务上精调后的变体，而mT5为T5模型的多语言变体。其中mT0-small模型包含300M参数，mT0-base包含580M参数。

实验结果

如表1所示为教师模型、学生模型、蒸馏后学生模型在SQuAD验证集上的实验结果如下：

表1

其中，mT0-small-KD为使用黑盒蒸馏算法精调的学生模型。

通过分析在demo上的实验结果可以看到，尽管模型的规模相比于大规模语言模型小很多，本发明所提出的蒸馏方法仍能够实现在教师模型为黑盒的限制条件下，仍然能够通过知识蒸馏的方法，把性能较强的教师模型的知识迁移到性能较弱的学生模型上，从而提升学生模型的性能，且在性能上超过了仅依靠学生模型单独训练时的性能，因此，证明本发明蒸馏方法有效性。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本发明领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，其特征在于，包括如下步骤：

所述的统计语言模型的构建方法为：针对文本序列ω＝ω₁ω₂…ω_n，通过统计ω在整个文本语料库中出现的概率P(ω)实现机器对语言的识别，采用条件概率公式可得P(ω)为：

P(ω)＝P(ω₁)P(ω₂|ω₁)P(ω₃|ω₁ω₂)…P(ω_n|ω₁ω₂…ω_n-1)

P(ω)＝P(ω₁)P(ω₂|ω₁)P(ω₃|ω₂)...P(ω_n|ω_n-1)

其中，C(ω_n)为ω_n在语料库中出现的次数，C(y_n-1y_n)为y_n-1y_n的bi-gram组合在语料库/>中出现的概率，/>为整个词汇表的大小；为常数，需根据具体的词汇表进行调整；

所述第一损失函数，首先采用KL散度计算教师模型和学生模型输出结果的概率分布间的差异，损失函数为：

LM_T＝Language Model(y₁,y₂，...,y_n)

LM_s为统计语言模型对学生模型的输出结果的建模，即：

LM_S＝Language Model(y_{pred_1}，y_{pred_2}，...，y_{pred_m})

其中，n为目标序列的长度，为文本序列/>

结合两部分损失，得到总损失函数为：

L_KD＝(1-λ)L_NLL+λL_{KL_avg}

其中，是一个超参数，用于决定两类损失的比重；

2.根据权利要求1所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，其特征在于，S1中采用大语言模型生成多个用于释义改写的prompt，记为其中k＝1,2,...K；针对一个初始文本序列x＝x₁x₂...x_s，将输入序列x与生成的K个/>相结合，得到多个不同的序列x+p_k，输入教师模型进行释义改写，得到多个释义改写后的序列样本x^k；

进行全部K次改写后，得到K个不同的释义改写后的序列，即{x¹,x²,...,x^K}。

3.根据权利要求2所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，其特征在于，S1中还包括使用释义判别模型对生成的K个prompt两两进行相似度判断，以确保提示间语义的相似性。

4.根据权利要求1所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，其特征在于，S2中采用大语言模型生成多个用于文本生成的prompt，记为其中k＝1,2,…K，将释义改写后的的序列样本{x¹,x²,…,x^K}与用于文本生成的prompt相结合，输入教师模型，得到文本生成序列样本y^(k)；

5.根据权利要求4所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，其特征在于，S2中使用释义判别模型对K个释义改写后的序列两两进行相似度判断，若基本保持语义一致，则全部送入下一轮进行文本生成；否则，对语义偏差较大的文本，重新进行释义改写，以使K个释义文本间保持语义的一致性。

6.根据权利要求1所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法，其特征在于，S3中学生模型的文本生成过程中，模型采用贪心采样的策略，对每个位置采样时仅提取出现在当前位置的概率最大的词作为结果。

7.一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏***，其特征在于，该***具有与上述权利要求1～6任一项权利要求的步骤对应的程序模块，运行时执行上述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1～6中任一项所述的面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法的步骤。