CN115983282A

CN115983282A - 一种基于提示的高效率小样本对话语义理解方法

Info

Publication number: CN115983282A
Application number: CN202310272467.0A
Authority: CN
Inventors: 游世学; 王丙栋; 郭锐; 张晓东; 乔亚飞
Original assignee: Beijing Zhongke Huilian Technology Co ltd
Current assignee: Beijing Zhongke Huilian Technology Co ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-04-18

Abstract

本发明提供了一种基于提示的高效率小样本对话语义理解方法，包括：收集槽位标签的中文名称及描述语句，得到预训练数据集，构造提示模板，搭建小样本微调语言模型，将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练，输入需要预测的语句，进行小样本对话语义理解预测。本发明提供的基于提示的高效率小样本对话语义理解方法，通过在提示中陈述槽类型来预测槽值，减少了解码和预测的所需要的模型前向传播次数，在不损失模型表现的同时，大大提高了模型的效率。

Description

一种基于提示的高效率小样本对话语义理解方法

技术领域

本发明涉及语义识别技术领域，特别是涉及一种基于提示的高效率小样本对话语义理解方法。

背景技术

基于模板（template）或者提示（prompting）的方法最近在对话***的小样本语义理解任务（Natural language understanding， NLU）中取得了进展，这对工业界的对话***快速扩充业务面有重大意义。这些方法使用模板来修改输入样本，并解码标签tokens以将输入中的某个span映射到相应的槽标签。然而，如图4所示，这样的基于提示的方法对于NLU中槽标记任务来说是非常低效的，因为一个句子中有多个n-gram，模型必须对这些n-gram都进行标签解码，才能得到一个句子的完整槽填充结果，这大大减慢了预测速度。但是对话***对模型效率有着严格的要求。所以目前基于提示的方法在工业界的应用受到了很大限制。因此，设计一种基于提示的高效率小样本对话语义理解方法是十分有必要的。

发明内容

本发明的目的是提供一种基于提示的高效率小样本对话语义理解方法，通过在提示中陈述槽类型来预测槽值，减少了解码和预测的所需要的模型前向传播次数，在不损失模型表现的同时，大大提高了模型的效率。

为实现上述目的，本发明提供了如下方案：

一种基于提示的高效率小样本对话语义理解方法，包括如下步骤：

步骤1：收集槽位标签的中文名称及描述语句，得到预训练数据集；

步骤2：构造提示模板；

步骤3：搭建小样本微调语言模型；

步骤4：将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练；

步骤5：输入需要预测的语句，进行小样本对话语义理解预测。

可选的，步骤1中，收集槽位标签的中文名称及描述语句，得到预训练数据集，具体为：

收集槽位标签的中文名称，根据槽位标签的中文名称将其转换为小样本微调语言模型容易理解的单词或短语形式，得到槽位标签的描述语句，将槽位标签的中文名称及描述语句作为预训练数据集。

可选的，步骤2中，构造提示模板，具体为：

构建面向槽填充的提示模板及面向意图识别的提示模板，其中，面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句，输出为预定义的槽位标签的描述语句；

面向意图识别的提示模板包括输入句子，输出为识别的意图。

可选的，面向槽填充的提示模板为：

<s>sentence [slot-prompt] [slot-desc] s_i，decs [/slot-desc]

其中，s_i为预定义的槽位标签，包括槽位标签的中文名称s_i，name以及槽位标签的描述语句s_i，decs ，sentence为输入句子。

可选的，面向意图识别的提示模板为：

<s>sentence [intent-prompt]

其中，sentence为输入句子，输出为识别的意图。

可选的，步骤4中，将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练，具体为：

将面向槽填充的提示模板、面向意图识别的提示模板以及预训练数据输入小样本微调语言模型，小样本微调语言模型在输入的基础上进行解码，在解码的每一步均计算词汇表的概率分布，并与金标准词进行对比，计算交叉熵损失函数值，进行小样本微调言语模型的训练。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的基于提示的高效率小样本对话语义理解方法，该方法包括收集槽位标签的中文名称及描述语句，得到预训练数据集，构造提示模板，搭建小样本微调语言模型，将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练，输入需要预测的语句，进行小样本对话语义理解预测；将槽位标签的描述语句放入提示，让小样本微调语言模型来预测槽位标签类型下的槽值，减少了解码和预测所需要的模型前向传播次数，在不损失模型表现的同时，大大提高了模型的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于提示的高效率小样本对话语义理解方法流程示意图；

图2为面向槽填充的提示模板构造示意图；

图3为基于部分槽位答案的prompt构造示意图；

图4为现有的小样本对话语义理解流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明实施例提供的基于提示的高效率小样本对话语义理解方法，包括如下步骤：

步骤2：构造提示模板，给定槽位标签的中文名称，确定类型，让小样本微调语言模型生成预测语句的槽值；

步骤3：搭建小样本微调语言模型；

步骤1中，收集槽位标签的中文名称及描述语句，得到预训练数据集，具体为：

步骤2中，构造提示模板，具体为：

为了实现面向槽位标签的中文名称及类型的提示，本发明填充了一个原始句子，和采用槽位标签的中文名称来组成提示，将提示共同输入语言模型，随后让语言模型生成相应的槽值；

提示模板包括面向槽填充的提示模板及面向意图识别的提示模板，其中，面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句，输出为预定义的槽位标签的描述语句；

具体来说，本发明给定一个输入句子sentence，预定义的槽位标签s_i，包括槽位标签的中文名称s_i，name以及槽位标签的描述语句s_i，decs ，面向槽填充的提示模板为：

<s>sentence [slot-prompt] [slot-desc]s_i，decs [/slot-desc] “本句中 s_i的信息为 ”

将模板输入小样本微调语言模型的编码器，用编码器生成得到空格部分的内容，即槽值。

面向意图识别的提示模板为：

<s>sentence [intent-prompt] “本句话的意图是 ”

如图2所示，为本发明的一种实施例，若需要得到用户输入中“目的地”槽位信息，利用提示将输入修改为“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 目的地：航班去什么地方 [/slot-desc] 本句的目的地信息是 ____”，然后语言模型能够解码出一个span“纽约”，也就是“目的地”槽位的槽值；

对于图2中的实施例，本发明为了得到输入句子中的四种槽位类型信息，将输入修改为以下四个模板：

“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 目的地：航班去什么地方 [/slot-desc] 本句的目的地信息是 ____”

“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 价格：航班耗费的钱的数额 [/slot-desc] 本句的价格信息是 ____”

“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 起点：从什么地方出发 [/slot-desc] 本句的起点信息是 ____”

“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 出发时间：动身的时间 [/slot-desc] 本句的出发时间信息是 ____”

另外，本发明引入了控制字符来完成槽填充任务的提示功能。为了识别槽类型没有对应实体的情况，本发明引入<NONE> 字符来填充输出。为了支持一个槽类型有多个槽值的情况，本发明引入 [sep-slot] 字符来间隔不同的槽值；

本发明引入“</s>” 作为句子结束标记来表达单个生成任务的结束，也就是说如果解码器生成“</s>”符号，那么当前生成任务结束；

本发明还可以通过对话历史和以前的对话状态加入到模型输入中，帮助当前用户输入的语义理解。例如，上述模板可以扩展为：

“[dialogue-history]对话历史[/dialogue-history][dialogue-status]对话状态[/dialogue-status]预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc]目的地：航班去什么地方 [/slot-desc] 本句的目的地信息是 ____”

通过对话历史的文本和状态信息，可以帮助当前句子的语义理解，使得模型获得更好的表现。

面向意图识别的提示模板与上述过程相同，因此不在详细叙述。

步骤4中，将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练，具体为：

将面向槽填充的提示模板、面向意图识别的提示模板以及预训练数据输入小样本微调语言模型，小样本微调语言模型在输入的基础上进行解码，在解码的每一步均计算词汇表的概率分布，并与金标准词进行对比，计算交叉熵损失函数值，进行小样本微调言语模型的训练；

以样本“<s>预定明天早上从北京到纽约的航班。[slot-prompt] 航班价格指的是____”为例子，金标准答案是“None</s>”，金标准答案长度为2。于是，让语言模型在输入的基础上做2步的解码，基于语言模型的解码结果计算损失，解码的每一步会计算出词汇表的概率分布，与金标准词进行对比，计算交叉熵损失函数值。此训练过程不是采用常见的teacher forcing策略，而是需要模型在答案完全不可见的情况下进行预测，更加符合预测时的场景，训练效果会比teacher forcing策略更好；

可以采用部分答案作为提示引导训练的方式，提升模型训练的效果。如图3所示，选取一部分的槽位的答案填入模板，作为附加的预测信息。比如，选择将时间信息的取值作为附加信息填入prompt中：“<s>预定明天早上从北京到纽约的航班，[slot-prompt][slot-desc] 出发时间：动身的时间 [/slot-desc] 本句的出发时间信息是 __明天早上__ 。[slot-desc] 目的地：航班去什么地方 [/slot-desc] 本句的目的地信息是____”。通过这样的训练，模型可以捕捉到各种不同槽位之间的语义关联性，从而改善模型训练过程。尤其在一些比较困难，比较容易引起混淆的槽位类型上，这种训练过程起到了一种缓解样本难度的作用，因为这样的prompt可以进行一些错误答案的排除。在最终的预测中，本步骤构建的这类prompt不会被使用；

在预测时，本发明将构建好的模板输入到微调的预训练语言模型中，并让语言模型生成出现的槽值和意图标签，从而对话***可以对用户输入做出相应的回复。

本发明提供的基于提示的高效率小样本对话语义理解方法，该方法包括收集槽位标签的中文名称及描述语句，得到预训练数据集，构造提示模板，搭建小样本微调语言模型，将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练，输入需要预测的语句，进行小样本对话语义理解预测；将槽位标签的描述语句放入提示，让小样本微调语言模型来预测槽位标签类型下的槽值，减少了解码和预测所需要的模型前向传播次数，在不损失模型表现的同时，大大提高了模型的效率。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于提示的高效率小样本对话语义理解方法，其特征在于，包括如下步骤：

步骤2：构造提示模板；

步骤3：搭建小样本微调语言模型；

2.根据权利要求1所述的基于提示的高效率小样本对话语义理解方法，其特征在于，步骤1中，收集槽位标签的中文名称及描述语句，得到预训练数据集，具体为：

3.根据权利要求2所述的基于提示的高效率小样本对话语义理解方法，其特征在于，步骤2中，构造提示模板，具体为：

4.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法，其特征在于，面向槽填充的提示模板为：

<s> sentence [slot-prompt] [slot-desc] s_i，decs [/slot-desc]

5.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法，其特征在于，面向意图识别的提示模板为：

<s> sentence [intent-prompt]

其中，sentence为输入句子，输出为识别的意图。

6.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法，其特征在于，步骤4中，将提示模板及预训练数据集输入小样本微调语言模型，对小样本微调语言模型进行训练，具体为：