CN115983282A - 一种基于提示的高效率小样本对话语义理解方法 - Google Patents

一种基于提示的高效率小样本对话语义理解方法 Download PDF

Info

Publication number
CN115983282A
CN115983282A CN202310272467.0A CN202310272467A CN115983282A CN 115983282 A CN115983282 A CN 115983282A CN 202310272467 A CN202310272467 A CN 202310272467A CN 115983282 A CN115983282 A CN 115983282A
Authority
CN
China
Prior art keywords
slot
small sample
prompt
language model
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310272467.0A
Other languages
English (en)
Inventor
游世学
王丙栋
郭锐
张晓东
乔亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Huilian Technology Co ltd
Original Assignee
Beijing Zhongke Huilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Huilian Technology Co ltd filed Critical Beijing Zhongke Huilian Technology Co ltd
Priority to CN202310272467.0A priority Critical patent/CN115983282A/zh
Publication of CN115983282A publication Critical patent/CN115983282A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于提示的高效率小样本对话语义理解方法,包括:收集槽位标签的中文名称及描述语句,得到预训练数据集,构造提示模板,搭建小样本微调语言模型,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,输入需要预测的语句,进行小样本对话语义理解预测。本发明提供的基于提示的高效率小样本对话语义理解方法,通过在提示中陈述槽类型来预测槽值,减少了解码和预测的所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。

Description

一种基于提示的高效率小样本对话语义理解方法
技术领域
本发明涉及语义识别技术领域,特别是涉及一种基于提示的高效率小样本对话语义理解方法。
背景技术
基于模板(template)或者提示(prompting)的方法最近在对话***的小样本语义理解任务(Natural language understanding, NLU)中取得了进展,这对工业界的对话***快速扩充业务面有重大意义。这些方法使用模板来修改输入样本,并解码标签tokens以将输入中的某个span映射到相应的槽标签。然而,如图4所示,这样的基于提示的方法对于NLU中槽标记任务来说是非常低效的,因为一个句子中有多个n-gram,模型必须对这些n-gram都进行标签解码,才能得到一个句子的完整槽填充结果,这大大减慢了预测速度。但是对话***对模型效率有着严格的要求。所以目前基于提示的方法在工业界的应用受到了很大限制。因此,设计一种基于提示的高效率小样本对话语义理解方法是十分有必要的。
发明内容
本发明的目的是提供一种基于提示的高效率小样本对话语义理解方法,通过在提示中陈述槽类型来预测槽值,减少了解码和预测的所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。
为实现上述目的,本发明提供了如下方案:
一种基于提示的高效率小样本对话语义理解方法,包括如下步骤:
步骤1:收集槽位标签的中文名称及描述语句,得到预训练数据集;
步骤2:构造提示模板;
步骤3:搭建小样本微调语言模型;
步骤4:将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练;
步骤5:输入需要预测的语句,进行小样本对话语义理解预测。
可选的,步骤1中,收集槽位标签的中文名称及描述语句,得到预训练数据集,具体为:
收集槽位标签的中文名称,根据槽位标签的中文名称将其转换为小样本微调语言模型容易理解的单词或短语形式,得到槽位标签的描述语句,将槽位标签的中文名称及描述语句作为预训练数据集。
可选的,步骤2中,构造提示模板,具体为:
构建面向槽填充的提示模板及面向意图识别的提示模板,其中,面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句,输出为预定义的槽位标签的描述语句;
面向意图识别的提示模板包括输入句子,输出为识别的意图。
可选的,面向槽填充的提示模板为:
<s>sentence [slot-prompt] [slot-desc] si,decs [/slot-desc]
其中,si为预定义的槽位标签,包括槽位标签的中文名称si,name以及槽位标签的描述语句si,decs ,sentence为输入句子。
可选的,面向意图识别的提示模板为:
<s>sentence [intent-prompt]
其中,sentence为输入句子,输出为识别的意图。
可选的,步骤4中,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,具体为:
将面向槽填充的提示模板、面向意图识别的提示模板以及预训练数据输入小样本微调语言模型,小样本微调语言模型在输入的基础上进行解码,在解码的每一步均计算词汇表的概率分布,并与金标准词进行对比,计算交叉熵损失函数值,进行小样本微调言语模型的训练。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于提示的高效率小样本对话语义理解方法,该方法包括收集槽位标签的中文名称及描述语句,得到预训练数据集,构造提示模板,搭建小样本微调语言模型,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,输入需要预测的语句,进行小样本对话语义理解预测;将槽位标签的描述语句放入提示,让小样本微调语言模型来预测槽位标签类型下的槽值,减少了解码和预测所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于提示的高效率小样本对话语义理解方法流程示意图;
图2为面向槽填充的提示模板构造示意图;
图3为基于部分槽位答案的prompt构造示意图;
图4为现有的小样本对话语义理解流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于提示的高效率小样本对话语义理解方法,通过在提示中陈述槽类型来预测槽值,减少了解码和预测的所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明实施例提供的基于提示的高效率小样本对话语义理解方法,包括如下步骤:
步骤1:收集槽位标签的中文名称及描述语句,得到预训练数据集;
步骤2:构造提示模板,给定槽位标签的中文名称,确定类型,让小样本微调语言模型生成预测语句的槽值;
步骤3:搭建小样本微调语言模型;
步骤4:将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练;
步骤5:输入需要预测的语句,进行小样本对话语义理解预测。
步骤1中,收集槽位标签的中文名称及描述语句,得到预训练数据集,具体为:
收集槽位标签的中文名称,根据槽位标签的中文名称将其转换为小样本微调语言模型容易理解的单词或短语形式,得到槽位标签的描述语句,将槽位标签的中文名称及描述语句作为预训练数据集。
步骤2中,构造提示模板,具体为:
为了实现面向槽位标签的中文名称及类型的提示,本发明填充了一个原始句子,和采用槽位标签的中文名称来组成提示,将提示共同输入语言模型,随后让语言模型生成相应的槽值;
提示模板包括面向槽填充的提示模板及面向意图识别的提示模板,其中,面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句,输出为预定义的槽位标签的描述语句;
面向意图识别的提示模板包括输入句子,输出为识别的意图。
具体来说,本发明给定一个输入句子sentence,预定义的槽位标签si,包括槽位标签的中文名称si,name以及槽位标签的描述语句si,decs ,面向槽填充的提示模板为:
<s>sentence [slot-prompt] [slot-desc]si,decs [/slot-desc] “本句中 si的信息为 ”
将模板输入小样本微调语言模型的编码器,用编码器生成得到空格部分的内容,即槽值。
面向意图识别的提示模板为:
<s>sentence [intent-prompt] “本句话的意图是 ”
如图2所示,为本发明的一种实施例,若需要得到用户输入中“目的地”槽位信息,利用提示将输入修改为“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 目的地:航班去什么地方 [/slot-desc] 本句的 目的地 信息是 ____”,然后语言模型能够解码出一个span“纽约”,也就是“目的地”槽位的槽值;
对于图2中的实施例,本发明为了得到输入句子中的四种槽位类型信息,将输入修改为以下四个模板:
“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 目的地:航班去什么地方 [/slot-desc] 本句的 目的地 信息是 ____”
“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 价格:航班耗费的钱的数额 [/slot-desc] 本句的 价格 信息是 ____”
“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 起点:从什么地方出发 [/slot-desc] 本句的 起点 信息是 ____”
“<s>预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc] 出发时间:动身的时间 [/slot-desc] 本句的 出发时间 信息是 ____”
另外,本发明引入了控制字符来完成槽填充任务的提示功能。为了识别槽类型没有对应实体的情况,本发明引入<NONE> 字符来填充输出。为了支持一个槽类型有多个槽值的情况,本发明引入 [sep-slot] 字符来间隔不同的槽值;
本发明引入“</s>” 作为句子结束 标记来表达单个生成任务的结束, 也就是说如果解码器生成“</s>”符号,那么当前生成任务结束;
本发明还可以通过对话历史和以前的对话状态加入到模型输入中,帮助当前用户输入的语义理解。例如,上述模板可以扩展为:
“[dialogue-history]对话历史[/dialogue-history][dialogue-status]对话状态[/dialogue-status]预定明天早上从北京到纽约的航班。[slot-prompt] [slot-desc]目的地:航班去什么地方 [/slot-desc] 本句的 目的地 信息是 ____”
通过对话历史的文本和状态信息,可以帮助当前句子的语义理解,使得模型获得更好的表现。
面向意图识别的提示模板与上述过程相同,因此不在详细叙述。
步骤4中,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,具体为:
将面向槽填充的提示模板、面向意图识别的提示模板以及预训练数据输入小样本微调语言模型,小样本微调语言模型在输入的基础上进行解码,在解码的每一步均计算词汇表的概率分布,并与金标准词进行对比,计算交叉熵损失函数值,进行小样本微调言语模型的训练;
以样本“<s>预定明天早上从北京到纽约的航班。[slot-prompt] 航班价格 指的是____”为例子,金标准答案是“None</s>”, 金标准答案长度为2。于是,让语言模型在输入的基础上做2步的解码,基于语言模型的解码结果计算损失,解码的每一步会计算出词汇表的概率分布,与金标准词进行对比,计算交叉熵损失函数值。此训练过程不是采用常见的teacher forcing策略,而是需要模型在答案完全不可见的情况下进行预测,更加符合预测时的场景,训练效果会比teacher forcing策略更好;
可以采用部分答案作为提示引导训练的方式,提升模型训练的效果。如图3所示,选取一部分的槽位的答案填入模板,作为附加的预测信息。比如,选择将时间信息的取值作为附加信息填入prompt中:“<s>预定明天早上从北京到纽约的航班,[slot-prompt][slot-desc] 出发时间:动身的时间 [/slot-desc] 本句的 出发时间 信息是 __明天早上__ 。[slot-desc] 目的地:航班去什么地方 [/slot-desc] 本句的 目的地 信息是____”。通过这样的训练,模型可以捕捉到各种不同槽位之间的语义关联性,从而改善模型训练过程。尤其在一些比较困难,比较容易引起混淆的槽位类型上,这种训练过程起到了一种缓解样本难度的作用,因为这样的prompt可以进行一些错误答案的排除。在最终的预测中,本步骤构建的这类prompt不会被使用;
在预测时,本发明将构建好的模板输入到微调的预训练语言模型中,并让语言模型生成出现的槽值和意图标签,从而对话***可以对用户输入做出相应的回复。
本发明提供的基于提示的高效率小样本对话语义理解方法,该方法包括收集槽位标签的中文名称及描述语句,得到预训练数据集,构造提示模板,搭建小样本微调语言模型,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,输入需要预测的语句,进行小样本对话语义理解预测;将槽位标签的描述语句放入提示,让小样本微调语言模型来预测槽位标签类型下的槽值,减少了解码和预测所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于提示的高效率小样本对话语义理解方法,其特征在于,包括如下步骤:
步骤1:收集槽位标签的中文名称及描述语句,得到预训练数据集;
步骤2:构造提示模板;
步骤3:搭建小样本微调语言模型;
步骤4:将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练;
步骤5:输入需要预测的语句,进行小样本对话语义理解预测。
2.根据权利要求1所述的基于提示的高效率小样本对话语义理解方法,其特征在于,步骤1中,收集槽位标签的中文名称及描述语句,得到预训练数据集,具体为:
收集槽位标签的中文名称,根据槽位标签的中文名称将其转换为小样本微调语言模型容易理解的单词或短语形式,得到槽位标签的描述语句,将槽位标签的中文名称及描述语句作为预训练数据集。
3.根据权利要求2所述的基于提示的高效率小样本对话语义理解方法,其特征在于,步骤2中,构造提示模板,具体为:
构建面向槽填充的提示模板及面向意图识别的提示模板,其中,面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句,输出为预定义的槽位标签的描述语句;
面向意图识别的提示模板包括输入句子,输出为识别的意图。
4.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法,其特征在于,面向槽填充的提示模板为:
<s> sentence [slot-prompt] [slot-desc] si,decs [/slot-desc]
其中,si为预定义的槽位标签,包括槽位标签的中文名称si,name以及槽位标签的描述语句si,decs ,sentence为输入句子。
5.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法,其特征在于,面向意图识别的提示模板为:
<s> sentence [intent-prompt]
其中,sentence为输入句子,输出为识别的意图。
6.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法,其特征在于,步骤4中,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,具体为:
将面向槽填充的提示模板、面向意图识别的提示模板以及预训练数据输入小样本微调语言模型,小样本微调语言模型在输入的基础上进行解码,在解码的每一步均计算词汇表的概率分布,并与金标准词进行对比,计算交叉熵损失函数值,进行小样本微调言语模型的训练。
CN202310272467.0A 2023-03-21 2023-03-21 一种基于提示的高效率小样本对话语义理解方法 Pending CN115983282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310272467.0A CN115983282A (zh) 2023-03-21 2023-03-21 一种基于提示的高效率小样本对话语义理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310272467.0A CN115983282A (zh) 2023-03-21 2023-03-21 一种基于提示的高效率小样本对话语义理解方法

Publications (1)

Publication Number Publication Date
CN115983282A true CN115983282A (zh) 2023-04-18

Family

ID=85958594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310272467.0A Pending CN115983282A (zh) 2023-03-21 2023-03-21 一种基于提示的高效率小样本对话语义理解方法

Country Status (1)

Country Link
CN (1) CN115983282A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216220A (zh) * 2023-09-25 2023-12-12 福建实达集团股份有限公司 一种大语言模型的使用方法及装置
CN118095218A (zh) * 2024-04-25 2024-05-28 科讯嘉联信息技术有限公司 一种基于大模型的保险行业对话数据增强方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926313A (zh) * 2021-03-10 2021-06-08 新华智云科技有限公司 一种槽位信息的提取方法与***
CN113326360A (zh) * 2021-04-25 2021-08-31 哈尔滨工业大学 一种小样本场景下的自然语言理解方法
CN113821616A (zh) * 2021-08-09 2021-12-21 北京交通大学 领域自适应的槽位填充方法、装置、设备及存储介质
CN114139548A (zh) * 2021-11-30 2022-03-04 北京比特易湃信息技术有限公司 基于模板匹配结合小样本深度模型的口语语言理解方法
JP2022096661A (ja) * 2020-12-17 2022-06-29 カラクリ株式会社 情報処理装置、システム、プログラム、及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022096661A (ja) * 2020-12-17 2022-06-29 カラクリ株式会社 情報処理装置、システム、プログラム、及び方法
CN112926313A (zh) * 2021-03-10 2021-06-08 新华智云科技有限公司 一种槽位信息的提取方法与***
CN113326360A (zh) * 2021-04-25 2021-08-31 哈尔滨工业大学 一种小样本场景下的自然语言理解方法
CN113821616A (zh) * 2021-08-09 2021-12-21 北京交通大学 领域自适应的槽位填充方法、装置、设备及存储介质
CN114139548A (zh) * 2021-11-30 2022-03-04 北京比特易湃信息技术有限公司 基于模板匹配结合小样本深度模型的口语语言理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAN LIU 等: "An Explicit-Joint and Supervised-Contrastive Learning Framework for Few-Shot Intent Classification and Slot Filling", HTTPS://ARXIV.ORG/ABS/2110.13691, pages 1 - 11 *
YUTAI HOU 等: "Inverse is Better! Fast and Accurate Prompt for Few-shot Slot Tagging", HTTPS://ARXIV.ORG/ABS/2204.00885, pages 1 - 11 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216220A (zh) * 2023-09-25 2023-12-12 福建实达集团股份有限公司 一种大语言模型的使用方法及装置
CN117216220B (zh) * 2023-09-25 2024-06-07 福建实达集团股份有限公司 一种大语言模型的使用方法及装置
CN118095218A (zh) * 2024-04-25 2024-05-28 科讯嘉联信息技术有限公司 一种基于大模型的保险行业对话数据增强方法

Similar Documents

Publication Publication Date Title
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN111477216B (zh) 一种用于对话机器人的音意理解模型的训练方法及***
Forbes-Riley et al. Predicting emotion in spoken dialogue from multiple knowledge sources
CN115983282A (zh) 一种基于提示的高效率小样本对话语义理解方法
US10902846B2 (en) Spoken language understanding apparatus and spoken language understanding method using the same
CN111341293B (zh) 一种文本语音的前端转换方法、装置、设备和存储介质
US11450310B2 (en) Spoken language understanding
CN112183058B (zh) 基于bert句子向量输入的诗词生成方法及装置
CN110517668B (zh) 一种中英文混合语音识别***及方法
CN110718208A (zh) 基于多任务声学模型的语音合成方法及***
CN112489618A (zh) 利用多级别上下文特征的神经文本到语音合成
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
CN109933773A (zh) 一种多重语义语句解析***及方法
KR20220128397A (ko) 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱
CN111916063A (zh) 基于bpe编码的序列化方法、训练方法、***及存储介质
CN113743117A (zh) 用于实体标注的方法和装置
CN114333838A (zh) 语音识别文本的修正方法及***
US20230410794A1 (en) Audio recognition method, method of training audio recognition model, and electronic device
Hamad et al. Arabic text-to-speech synthesizer
Galley et al. Hybrid natural language generation for spoken dialogue systems
CN112150103B (zh) 一种日程设置方法、装置和存储介质
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
CN114783405A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN113792556A (zh) 一种基于深度神经网络的电网实时调度智能语音交互***
Iacoponi et al. Sylli: Automatic phonological syllabification for Italian

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230418

RJ01 Rejection of invention patent application after publication