CN116644168A - 一种交互数据构建方法、装置、设备及存储介质 - Google Patents
一种交互数据构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116644168A CN116644168A CN202310645661.9A CN202310645661A CN116644168A CN 116644168 A CN116644168 A CN 116644168A CN 202310645661 A CN202310645661 A CN 202310645661A CN 116644168 A CN116644168 A CN 116644168A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- interactive
- interaction
- generated language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 89
- 238000010276 construction Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 95
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 238000004891 communication Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 239000000047 product Substances 0.000 description 23
- 230000000007 visual effect Effects 0.000 description 16
- 241000209094 Oryza Species 0.000 description 9
- 235000007164 Oryza sativa Nutrition 0.000 description 9
- 229910052573 porcelain Inorganic materials 0.000 description 9
- 235000009566 rice Nutrition 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 239000003205 fragrance Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种交互数据构建方法、装置、设备及存储介质***,涉及自然语言处理的技术领域,方法包括:获取交互小样本数据,组成交互小样本数据集;选择用于构建数据和数据增强的生成式语言大模型,基于交互小样本数据集,对生成式语言大模型进行微调;采集待处理的交互数据,将交互数据进行文本向量化,得到交互数据对应的文本向量,基于文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;将交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复,本发明实现从0‑1构建量产交互数据并进行数据增强,满足广泛的语义交互需求。
Description
技术领域
本发明涉及自然语言处理的技术领域,特别涉及一种交互数据构建方法、装置、设备及存储介质。
背景技术
语义交互是自然语言处理技术中的一种,应用于智能座舱中是一件复杂的工作。主机厂在自研阶段,交互数据集从0-1构建是最困难的环节之一。由于语言的泛化性和模糊性,导致识别到广泛的交互需求成为了产品累计的重要壁垒。
在传统模式下,交互数据集从0-1构建往往需要很长的周期,要经过产品定义-数据埋点-数据收集-数据标注-人工复核等重要环节,数据收集阶段往往通过正则+词典的方式获取泛化数据,但在语言通用性上,表达方式多种多样,导致了正则方式无法覆盖复杂语义,使得构建量产数据并进行数据增强成为了主机厂在语音上做到自主可控的关键难点。生成式大模型为解决上述问题提供了参考方向,生成式大模型是自然语言处理技术的研究热门,运用生成式大模型涵盖了大量知识的智能体模型,通过机器学习预测优化工程,使其创造性生成数据并标注,满足现阶段零样本学习的数据构建需求。
现有技术公开了一种对话数据生成方法,获取目标对话数据模板,目标对话数据模板包括一个或多个目标单轮对话数据模板,并且每个目标单轮对话数据模板包括一个或多个关键词槽位以及每个关键词槽位的相关信息,每个关键词槽位的相关信息包括位置信息和属性信息;针对每个关键词槽位,至少基于该关键词槽位的属性信息,从关键词数据集中确定与该关键词槽位匹配的一个或多个目标关键词;以及针对每个目标单轮对话数据模板,基于一个或多个关键词槽位的位置信息,将一个或多个目标关键词相应填充到该目标单轮对话数据模板中,以得到目标对话数据;一方面,将关键词相应填充到目标单轮对话数据模板中以得到目标对话数据,这种方式是通过规则式的替换解决关键词的泛化问题,但无法解决整体语义的泛化问题;另一方面,该方法是在有基础语料、基础模板的情况下去构造数据,如果在定制化程度较高的领域,则无法从0至1构建定制化数据并泛化增强。
发明内容
为解决上述现有技术的不足,本发明需要解决的问题是如何在无基础语料或无基础模板条件下从0构造定制化数据并泛化增强,实现从0-1构建量产交互数据并进行数据增强,满足广泛的语义交互需求。
为了达到上述技术效果,本发明的技术方案如下:
一种交互数据构建方法,包括以下步骤:
获取交互小样本数据,组成交互小样本数据集;
选择用于构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
进一步,所述对所述生成式语言大模型进行微调是通过微调任务执行。
进一步,所述微调任务包括:数据集标签生成任务、数据泛化语料生成任务、类正则表达式生成任务和定制化回复生成任务;
所述数据集标签生成任务具体包括:首先在生成式语言大模型的数据输入阶段,将生成式语言大模型的输入数据转化为第一标签信息,基于所述第一标签信息,在生成式语言大模型的数据输出阶段构造第二标签信息;然后在第二标签信息中加入状态列表的考虑,将加入状态列表的第二标签信息转化为第三标签信息,输出第三标签信息的语义;最后将第三标签信息的语义转化,得到标签输出结果;
所述数据泛化语料生成任务具体包括:将生成式语言大模型的输入数据转化为小样本数据对应的泛化语料信息,并在该泛化语料信息中加入输出限制条件,得到泛化语料输出结果;
所述类正则表达式生成任务具体包括:将生成式语言大模型的输入数据转化为小样本数据对应的泛化文本数据,将该泛化文本数据抽象成规则格式,得到规则输出结果;
所述定制化回复生成任务具体包括:在生成式语言大模型的输入数据中加入状态列表的考虑,将生成式语言大模型的输入数据转化,得到定制化输出结果。
进一步,所述交互数据为现网无标签语料、现网无标签语料的泛化数据和状态列表,所述现网无标签语料包括产品文档、功能清单、产品细节描述、手册、信源、天气数据、新闻数据、音乐数据、热词映射数据和知识库。
进一步,所述将所述交互数据进行文本向量化,具体包括:
采用文本向量化表征所述交互数据的产品文档、功能清单、产品细节描述、手册、信源、天气数据、新闻数据、音乐数据、热词映射数据和知识库等,将所述产品文档和功能清单分别转化为对应的第一嵌入向量embedding1,将产品细节描述和手册分别转化为第二嵌入向量embedding2,将所述信源、天气数据和新闻数据分别转化为第三嵌入向量embedding3,将所述热词映射数据转化为第四嵌入向量embedding4,将所述知识库转化为第五嵌入向量embedding5;
利用所述第一嵌入向量embedding1、第二嵌入向量embedding2、第三嵌入向量embedding3、第四嵌入向量embedding4和第五嵌入向量embedding5,组成嵌入向量数据集;
根据所述嵌入向量数据集在预设的embedding向量数据库中查询,得到交互数据相似文本。
进一步,所述将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,具体处理过程包括:数据集标签构建、数据文本增强、规则强化和定制化回复构建;
所述数据集标签构建是首先将所述交互数据中的现网无标签语料和交互数据相似文本,均转化为相应指令和动作单元,并通过多轮提示学习工程,将微调后的生成式语言大模型的输出文本转化为限定格式的输出文本,记所述限定格式的输出文本为定制化数据集标签;
所述文本增强是构造所述交互数据和交互数据相似文本的泛化语料信息,在该泛化语料信息中加入微调后的生成式语言大模型的输出限制条件,引导生成式语言大模型的泛化功能,得到数据泛化语料;
所述规则强化是构造所述交互数据的泛化文本数据,将该泛化文本数据抽象成微调后的规则格式,得到类正则表达式;
所述定制化回复构建是在所述交互数据和交互数据相似文本中加入状态列表的考虑,将输入生成式语言大模型的交互数据和交互数据相似文本转化,得到定制化回复。
进一步,所述状态列表包括:背景与前景执行单元,地址信息点、充电状态、蓝牙状态、wifi状态、是否注册权限和上下文业务领域。
本发明还提出了一种交互数据构建装置,包括:数据获取单元、生成式语言大模型微调单元、数据转化单元和定制化数据生成单元;
所述数据获取单元用于获取交互小样本数据,组成交互小样本数据集;
所述生成式语言大模型微调单元用于选择构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
所述数据转化单元,用于采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
所述定制化数据生成单元,用于将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
本发明还提出了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的交互数据构建方法的操作。
本发明还提出了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行所述的交互数据构建方法的操作。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出了一种交互数据构建方法、装置、设备及存储介质,用于交互对话领域的语义理解中数据构建与数据增强,首先结合给的交互小样本数据集微调生成式语言大模型,微调目的是让生成式语言大模型学习到输入输出格式限制输出的重要过程,限制生成的数据格式;然后将待处理的交互数据采用文本向量化手段表征,获取交互数据对应的文本向量,并根据文本向量在预设的embedding向量数据库查询,其作用是在输入微调后的生成式语言大模型的交互数据中加入交互数据相似文本,保证生成式语言大模型的输出质量;最后通过微调后的生成式语言大模型对输入的交互数据和交互数据相似文本处理,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复,本方法通过生成式语言大模型和向量化embedding嵌入的结合生成一系列的定制化数据,实现了在无基础语料或无基础模板条件下从0构造定制化数据并泛化增强,实现从0-1构建量产交互数据并进行数据增强,满足广泛的语义交互需求。
附图说明
图1表示本发明实施例中提出的一种交互数据构建方法的流程示意图;
图2表示本发明实施例中提出的生成式语言大模型的微调原理图;
图3表示本发明实施例中提出的一种交互数据构建方法的推理示意图;
图4表示本发明实施例中提出的文本向量化的流程框图;
图5表示本发明实施例中提出的一种交互数据构建装置的结构示意图;
图6表示本发明实施例中提出的一种计算机设备的结构示意图;
500.计算机设备;510.数据获取单元;520.生成式语言大模型微调单元;530.数据转化单元;540.定制化数据生成单元;601.处理器;602存储器;603.通信接口;604.通信总线;605.可执行指令。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸,“上”“下”等部位方向的描述非对本专利的限制;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,本实施例提出了一种交互数据构建方法,包括以下步骤:
S1.获取交互小样本数据,组成交互小样本数据集;
S2.选择用于构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
步骤S2选择的生成式语言大模型是一种用于自然语言处理的人工智能模型,旨在理解和生成人类语言,它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。它们的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。随着生成式语言大模型的普及,gpt类、t5类的生成式语言大模型层出不穷,运用这些生成式语言大模型涵盖了大量知识的智能体模型,通过prompt提示符工程,使其创造性生成数据并标注,满足现阶段零样本的数据构建需求。本步骤选择以ChatGPT为例,它是一个优秀gpt类的生成式语言大模型,在智能座舱领域中,ChatGPT的训练语料足够涵盖座舱的各个技能,经过测试,在zero-shot场景下,ChatGPT在座舱各个领域中的识别准确率部分达到92%以上,说明以ChatGPT为代表的生成式语言大模型在识别能力上有着强大的基础。
在步骤S2中,参见图2,所述对所述生成式语言大模型进行微调是通过微调任务执行;所述微调任务包括:数据集标签生成任务、数据泛化语料生成任务、类正则表达式生成任务和定制化回复生成任务;
所述数据集标签生成任务具体包括:
第一阶段转化:首先在生成式语言大模型的数据输入阶段,将生成式语言大模型的输入数据“我想听周杰伦的歌曲”转化为第一标签信息“#语音音乐助手输入#:我想听周杰伦的歌曲”,基于第一标签信息“#语音音乐助手输入#:我想听周杰伦的歌曲”,在生成式语言大模型的数据输出阶段构造第二标签信息“#语音音乐助手输出#:{执行动作:play,歌手:周杰伦}”;
第二阶段转化:然后在第二标签信息中加入状态列表的考虑,将加入状态列表的第二标签信息“#语音音乐助手输出#:{执行动作:play,歌手:周杰伦,状态列表:default}”转化为第三标签信息“#语音音乐助手输入#:在音乐领域,搜索周杰伦的歌”,输出第三标签信息的语义“#语音音乐助手输出#:已找到青花瓷、稻香的歌”;
第三阶段转化:将第三标签信息的语义“#语音音乐助手输出#:已找到青花瓷、稻香的歌”转化,得到标签输出结果“#语音音乐助手输出#:{歌曲:青花瓷、稻香}”。
所述数据泛化语料生成任务具体包括:将生成式语言大模型的输入数据“#泛化助手输入#座椅腿托调低点”转化为小样本数据对应的泛化语料信息,并在该泛化语料信息中加入输出限制条件,得到泛化语料输出结果“#泛化助手输出#把座椅托腿低调点、把座椅腿一点往下移撑、把座椅腿撑往下移、把座椅腿撑往上移一点、把座椅腿撑下移往一点、把座椅小腿支撑往低调点、座椅把腿部支撑往低调点、把后排腿部支撑往低调点”
所述类正则表达式生成任务具体包括:将生成式语言大模型的输入数据“#泛化助手输入#视角切换到后、视角切换到前、视角切换到右后、视角切换到右前、视角切换到左后、视角切换到左前、视角切换到前”转化为小样本数据对应的泛化文本数据,将该泛化文本数据抽象成规则格式,得到规则输出结果“#泛化助手输出#(视角切换|切换视角)[切换到](后/前/右后/右前/左后/左前)”;
所述定制化回复生成任务具体包括:在生成式语言大模型的输入数据中加入状态列表的考虑,将生成式语言大模型的输入数据“#语音音乐助手输入#:{执行动作:play,歌手:周杰伦,状态列表:default}”转化,得到定制化输出结果“#语音音乐助手输出#:已找到青花瓷、稻香的歌”;
需要特别说明的是,上述具体的数据泛化语料生成任务、数据泛化语料生成任务、类正则表达式生成任务和定制化回复生成任务仅作为一个示例说明,在实际微调任务执行过程中并不局限于示例中的数据泛化语料生成任务、数据泛化语料生成任务、类正则表达式生成任务和定制化回复生成任务。
S3.采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
在步骤S3中,embedding向量数据库是一种特殊的数据库,它专门用于存储和管理向量数据。向量数据是指由多个数值组成的数据,这些数值通常表示某种特征或属性。例如一个文本可以表示为一个由单词频率组成的向量。embedding向量数据库的主要特点是能够高效地存诸和查询大规模的向量数据,它通常采用基于embedding向量相似度的查询方式,即根据向量之间的相似度来检索数据,这种查询方式可以用于各种应用场景,例如图像搜索、音乐推荐、文本分类等,embedding向量数据库的实现方式有很多种,其中比较常见的是基于向量索引的方法,这种方法将向量数据映射到一个高维空间中,并在这个空间中构建索引结构,以支持高效的相似度查询。常见的向量索引结构包括KD树、球树、LSH等。embedding向量数据库在人工智能、机器学习、大数据等领域有着广泛的应用,它可以帮助用户快速地检索和分析大规模的向量数据,从而提高数据处理的效率和准确性。
参见图3,所述交互数据为现网无标签语料如、现网无标签语料的泛化数据和状态列表,所述现网无标签语料包括产品文档、功能清单、产品细节描述、手册、信源、天气数据、新闻数据、音乐数据、热词映射数据和知识库;所述泛化数据是指现网无标签语料经过同义词转化、叠词、删减和增加词、倒装和回译等处理手段处理完的数据。
参见图4,所述将所述交互数据进行文本向量化,具体包括:
采用文本向量化表征交互数据的产品文档、功能清单、产品细节描述:座椅腿托调低点、手册、信源、天气数据、新闻数据、音乐数据、热词映射数据和知识库;
将所述产品文档和功能清单分别转化为对应的第一嵌入向量embedding1,其中产品文档是指对产品进行说明的文档,在本实例中产品为智能车,功能清单包括:座椅设置、视角设置和音乐设置等;
将产品细节描述和手册分别转化为第二嵌入向量embedding2,其中产品细节描述包括:座椅腿托调低点、视角切换到后、视角切换到前、视角切换到右后、视角切换到右前、视角切换到左后、视角切换到左前、视角切换到前等,手册指智能车的使用手册;将所述信源、天气数据、音乐数据和新闻数据分别转化为第三嵌入向量embedding3,其中信源为发布语音指令的驾驶者,天气数据指关于天气描述的数据,音乐数据指关于音乐描述的数据,如:我想听周杰伦的歌曲,{执行动作:play,歌手:周杰伦,状态列表:default};将所述热词映射数据转化为第四嵌入向量embedding4,其中热词映射数据包括与指定词语存在映射关系的热词;将所述知识库转化为第五嵌入向量embedding5,其中,知识库是一个集中的自助服务集合,其中存储、组织和共享有关产品、服务、特定主题或整个企业的信息。
利用所述第一嵌入向量embedding1、第二嵌入向量embedding2、第三嵌入向量embedding3、第四嵌入向量embedding4和第五嵌入向量embedding5,组成嵌入向量数据集;
根据所述嵌入向量数据集在预设的embedding向量数据库中查询,得到交互数据相似文本。
文本向量化目的是加入特定领域和实时的数据,保证模型输出的质量,结合特定数据、特征、产品,生成独特的定制化数据集,如公司有特定场景零重力座椅设置,将产品细节描述,功能清单,限制条件等都通过文本特征向量embedding抽象出来。其余与时间高度相关的业务如天气,音乐,新闻等通过加入时间信息和信源信息导入相关文本,保证生成数据的实时性,如:“2023年2月21日,重庆,天气晴,领域:music,我想听周杰伦的歌曲”,“2023年2月23日,北京,天气阴,领域:座舱设置,座椅腿托调低点”,“2023年2月25日,广州,天气小雨,领域:视角设置,视角切换到后、视角切换到前、视角切换到右后、视角切换到右前、视角切换到左后、视角切换到左前、视角切换到前”等,通过高度抽象的文本向量化和微调后的生成式语言大模型作为基座的结合,实现特定领域的数据构建与增强。
S4.将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
在步骤S4中,所述将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,具体处理过程包括:数据集标签构建、数据文本增强、规则强化和定制化回复构建;在从0到1的数据构建中,没有批量的量产数据,只有产品定义的文档,或现网无标签语料;
所述数据集标签构建是首先将所述交互数据中的现网无标签语料和交互数据相似文本,均转化为相应指令和动作单元,并通过三轮提示学习工程,具体包括:
第一轮提示学习工程:将用户输入数据“我想听周杰伦的歌曲”转化为第四标签信息{领域:music,执行动作:play,歌手:周杰伦};
第二轮提示学习工程:在第四标签信息{领域:music,执行动作:play,歌手:周杰伦}加入状态列表的考虑,第四标签信息转化为第五标签信息{领域:music,执行动作:play,歌手:周杰伦,状态列表:default},将第五标签信息{领域:music,执行动作:play,歌手:周杰伦,状态列表:default}输入微调后的生成式语言大模型,输出类似第六标签信息“已找到青花瓷、稻香的歌”的话语;
第三轮提示学习工程:将第六标签信息“已找到青花瓷、稻香的歌”转化为{歌曲:青花瓷、稻香};
将微调后的生成式语言大模型的输出文本转化为限定格式的输出文本{歌曲:青花瓷、稻香},记所述限定格式的输出文本为定制化数据集标签;
让生成式语言大模型做到以上的输出需要对其进行微调,微调时需要构建交互小样本数据,目的是让生成式语言大模型学习到输入输出格式限制输出的重要过程,在数据集标签构建中,采用***提示符(systemprompt)方式提供前置条件,使得生成式语言大模型将这句话定制化识别生成,并通过强化微调数据的语言规则来限制生成的数据格式,并且在标签构建中需要通过embedding引入定制化动作和意图的文本抽象特征,这是因为定制化的理解是产品定义,而描述文本的embedding则成为了定制化语义的最相似向量,通过引入该向量以获得定制化输出。
所述文本增强是构造所述交互数据“#泛化助手输入#座椅腿托调低点”和交互数据“#泛化助手输入#座椅腿托调低点”相似文本的泛化语料信息,其中构造形式不限于同义词转化、叠词、删减与增加词、倒装、回译等,在该泛化语料信息中加入微调后的生成式语言大模型的输出限制条件,引导生成式语言大模型的泛化功能,得到数据泛化语料“#泛化助手输出#把座椅托腿低调点、把座椅腿一点往下移撑、把座椅腿撑往下移、把座椅腿撑往上移一点、把座椅腿撑下移往一点、把座椅小腿支撑往低调点、座椅把腿部支撑往低调点、把后排腿部支撑往低调点”;在文本增强中,还将包含交互数据的单词映射表抽象到定制化embedding中,如输入的是“#泛化助手输入#座椅腿托调低点”,则得到对应的数据泛化语料为“#泛化助手输出#把座椅托腿低调点、把座椅腿一点往下移撑、把座椅腿撑往下移、把座椅腿撑往上移一点、把座椅腿撑下移往一点、把座椅小腿支撑往低调点、座椅把腿部支撑往低调点、把后排腿部支撑往低调点”,强化微调后的生成式语言大模型的泛化能力,最终实现定制化领域的数据泛化能力。数据文本增强要求数据质量,而微调过程中主要调整的是语义质量。
所述规则强化是构造所述交互数据的泛化文本数据“#泛化助手输入#视角切换到后、视角切换到前、视角切换到右后、视角切换到右前、视角切换到左后、视角切换到左前、视角切换到前”,通过产品将该泛化文本数据抽象成微调后的规则格式,如“(视角切换|切换视角)[切换到](后/前/右后/右前/左后/左前)”,该规则通过多条语句融合而成,通过微调后的生成式语言大模型引导其规则生成能力;记该规则格式为类正则表达式;
所述定制化回复构建是在所述交互数据和交互数据相似文本中加入状态列表的考虑,将输入生成式语言大模型的交互数据“#语音音乐助手输入#:{执行动作:play,歌手:周杰伦,状态列表:default}”和交互数据相似文本转化,得到定制化回复“#语音音乐助手输出#:已找到青花瓷、稻香的歌”。
在定制化回复构建中,如果在语义正确的情况下出现信源,网络问题,或是当前状态与正常状态不一致的情况下,时常回复结果需要调整。在第二阶段和第三阶段转化时时常需要考虑状态列表,所述状态列表包括:背景与前景执行单元,地址信息点、充电状态、蓝牙状态、wifi状态、是否注册权限和上下文业务领域。定制化回复构建只有在都是默认状态时才能正常转化,否则生成定制化回复,如“#语音音乐助手输出#:无法连接网络,请联网后重试”,如输入“播放周杰伦的歌”在遇到网络问题时,需回复“#语音音乐助手输出#:无法连接网络,请联网后重试”等字样。
在本实施例中,首先结合给的交互小样本数据集微调生成式语言大模型,微调目的是让生成式语言大模型学习到输入输出格式限制输出的重要过程,限制生成的数据格式;然后将待处理的交互数据采用文本向量化手段表征,获取交互数据对应的文本向量,并根据文本向量在预设的embedding向量数据库查询,其作用是在输入微调后的生成式语言大模型的交互数据中加入交互数据相似文本,保证生成式语言大模型的输出质量;最后通过微调后的生成式语言大模型对输入的交互数据和交互数据相似文本处理,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复,本方法通过生成式语言大模型和向量化embedding嵌入的结合生成一系列的定制化数据,实现了在无基础语料或无基础模板条件下从0构造定制化数据并泛化增强,实现从0-1构建量产交互数据并进行数据增强,满足广泛的语义交互需求;
在本实施例中,首先结合给的交互小样本数据集微调生成式语言大模型,微调目的是让生成式语言大模型学习到输入输出格式限制输出的重要过程,限制生成的数据格式;然后将待处理的交互数据采用文本向量化手段表征,获取交互数据对应的文本向量,并根据文本向量在预设的embedding向量数据库查询,其作用是在输入微调后的生成式语言大模型的交互数据中加入交互数据相似文本,保证生成式语言大模型的输出质量;最后通过微调后的生成式语言大模型对输入的交互数据和交互数据相似文本处理,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复,本方法通过生成式语言大模型和向量化embedding嵌入的结合生成一系列的定制化数据,实现了在无基础语料或无基础模板条件下从0构造定制化数据并泛化增强,实现从0-1构建量产交互数据并进行数据增强,满足广泛的语义交互需求;另外,
本实施例还提出了一种交互数据构建装置500,参见图5,包括:数据获取单元510、生成式语言大模型微调单元520、数据转化单元530和定制化数据生成单元540;
所述数据获取单元510用于获取交互小样本数据,组成交互小样本数据集;
所述生成式语言大模型微调单元520用于选择构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
所述数据转化单元530用于采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
所述定制化数据生成单元540用于将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
本实施例还提出了一种计算机设备,参见图6,包括:处理器601、存储器602、通信接口603和通信总线604,所述处理器601、所述存储器602和所述通信接口603通过所述通信总线604完成相互间的通信;
其中:处理器601、存储器602以及通信接口603通过通信总线604完成相互间的通信。通信接口603,用于与其它设备比如客户端或其它服务器等的网元通信。处理器601,用于执行可执行指令605,具体可以执行上述用于交互数据构建方法实施例中的相关步骤。
具体地,可执行指令605可以包括程序代码。处理器601可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器602,用于存放可执行指令605。存储器602可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
可执行指令605具体可以被处理器601调用使计算机设备执行以下操作:
获取交互小样本数据,组成交互小样本数据集;
选择用于构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
本实施例还提出了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行如所述的交互数据构建方法的操作,具体包括以下步骤:
获取交互小样本数据,组成交互小样本数据集;
选择用于构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。
Claims (10)
1.一种交互数据构建方法,其特征在于,包括以下步骤:
获取交互小样本数据,组成交互小样本数据集;
选择用于构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
2.根据权利要求1所述的交互数据构建方法,其特征在于,所述对所述生成式语言大模型进行微调是通过微调任务执行。
3.根据权利要求2所述的交互数据构建方法,其特征在于,所述微调任务包括:数据集标签生成任务、数据泛化语料生成任务、类正则表达式生成任务和定制化回复生成任务;
所述数据集标签生成任务具体包括:首先在生成式语言大模型的数据输入阶段,将生成式语言大模型的输入数据转化为第一标签信息,基于所述第一标签信息,在生成式语言大模型的数据输出阶段构造第二标签信息;然后在第二标签信息中加入状态列表的考虑,将加入状态列表的第二标签信息转化为第三标签信息,输出第三标签信息的语义;最后将第三标签信息的语义转化,得到标签输出结果;
所述数据泛化语料生成任务具体包括:将生成式语言大模型的输入数据转化为小样本数据对应的泛化语料信息,并在该泛化语料信息中加入输出限制条件,得到泛化语料输出结果;
所述类正则表达式生成任务具体包括:将生成式语言大模型的输入数据转化为小样本数据对应的泛化文本数据,将该泛化文本数据抽象成规则格式,得到规则输出结果;
所述定制化回复生成任务具体包括:在生成式语言大模型的输入数据中加入状态列表的考虑,将生成式语言大模型的输入数据转化,得到定制化输出结果。
4.根据权利要求3所述的交互数据构建方法,其特征在于,所述交互数据为现网无标签语料、现网无标签语料的泛化数据和状态列表,所述现网无标签语料包括产品文档、功能清单、产品细节描述、手册、信源、天气数据、新闻数据、音乐数据、热词映射数据和知识库。
5.根据权利要求4所述的交互数据构建方法,其特征在于,所述将所述交互数据进行文本向量化,具体包括:
采用文本向量化表征所述交互数据的产品文档、功能清单、产品细节描述、手册、信源、天气数据、新闻数据、音乐数据、热词映射数据和知识库,将所述产品文档和功能清单分别转化为对应的第一嵌入向量embedding1,将产品细节描述和手册分别转化为第二嵌入向量embedding2,将所述信源、天气数据和新闻数据分别转化为第三嵌入向量embedding3,将所述热词映射数据转化为第四嵌入向量embedding4,将所述知识库转化为第五嵌入向量embedding5;
利用所述第一嵌入向量embedding1、第二嵌入向量embedding2、第三嵌入向量embedding3、第四嵌入向量embedding4和第五嵌入向量embedding5,组成嵌入向量数据集;
根据所述嵌入向量数据集在预设的embedding向量数据库中查询,得到交互数据相似文本。
6.根据权利要求5所述的交互数据构建方法,其特征在于,所述将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,具体处理过程包括:数据集标签构建、数据文本增强、规则强化和定制化回复构建;
所述数据集标签构建是首先将所述交互数据中的现网无标签语料和交互数据相似文本,均转化为相应指令和动作单元,并通过多轮提示学习工程,将微调后的生成式语言大模型的输出文本转化为限定格式的输出文本,记所述限定格式的输出文本为定制化数据集标签;
所述文本增强是构造所述交互数据和交互数据相似文本的泛化语料信息,在该泛化语料信息中加入微调后的生成式语言大模型的输出限制条件,引导生成式语言大模型的泛化功能,得到数据泛化语料;
所述规则强化是构造所述交互数据的泛化文本数据,将该泛化文本数据抽象成微调后的规则格式,得到类正则表达式;
所述定制化回复构建是在所述交互数据和交互数据相似文本中加入状态列表的考虑,将输入生成式语言大模型的交互数据和交互数据相似文本转化,得到定制化回复。
7.根据权利要求6所述的交互数据构建方法,其特征在于,所述状态列表包括:背景与前景执行单元,地址信息点、充电状态、蓝牙状态、wifi状态、是否注册权限和上下文业务领域。
8.一种交互数据构建装置,其特征在于,包括:数据获取单元、生成式语言大模型微调单元、数据转化单元和定制化数据生成单元;
所述数据获取单元用于获取交互小样本数据,组成交互小样本数据集;
所述生成式语言大模型微调单元用于选择构建数据和数据增强的生成式语言大模型,基于所述交互小样本数据集,对所述生成式语言大模型进行微调;
所述数据转化单元,用于采集待处理的交互数据,将所述交互数据进行文本向量化,得到所述交互数据对应的文本向量,基于所述文本向量,查找预设的embedding向量数据库,得到交互数据相似文本;
所述定制化数据生成单元,用于将所述交互数据和交互数据相似文本输入微调后的生成式语言大模型,输出定制化数据集标签、数据泛化语料、类正则表达式和定制化回复。
9.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的交互数据构建方法的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行如权利要求1-7任意一项所述的交互数据构建方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310645661.9A CN116644168A (zh) | 2023-06-01 | 2023-06-01 | 一种交互数据构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310645661.9A CN116644168A (zh) | 2023-06-01 | 2023-06-01 | 一种交互数据构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116644168A true CN116644168A (zh) | 2023-08-25 |
Family
ID=87618576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310645661.9A Pending CN116644168A (zh) | 2023-06-01 | 2023-06-01 | 一种交互数据构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644168A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709361A (zh) * | 2024-02-06 | 2024-03-15 | 北京水滴科技集团有限公司 | 会话场景的模型生成方法、装置及设备 |
CN117851443A (zh) * | 2024-03-07 | 2024-04-09 | 北京偶数科技有限公司 | 基于人工智能的sql规则标签生成方法及可读存储介质 |
CN117931985A (zh) * | 2024-03-25 | 2024-04-26 | 北京工业大学 | 一种国际工程规范问答助手的高级提示工程***、方法和电子设备 |
-
2023
- 2023-06-01 CN CN202310645661.9A patent/CN116644168A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709361A (zh) * | 2024-02-06 | 2024-03-15 | 北京水滴科技集团有限公司 | 会话场景的模型生成方法、装置及设备 |
CN117709361B (zh) * | 2024-02-06 | 2024-04-26 | 北京水滴科技集团有限公司 | 会话场景的模型生成方法、装置及设备 |
CN117851443A (zh) * | 2024-03-07 | 2024-04-09 | 北京偶数科技有限公司 | 基于人工智能的sql规则标签生成方法及可读存储介质 |
CN117851443B (zh) * | 2024-03-07 | 2024-05-14 | 北京偶数科技有限公司 | 基于人工智能的sql规则标签生成方法及可读存储介质 |
CN117931985A (zh) * | 2024-03-25 | 2024-04-26 | 北京工业大学 | 一种国际工程规范问答助手的高级提示工程***、方法和电子设备 |
CN117931985B (zh) * | 2024-03-25 | 2024-06-21 | 北京工业大学 | 一种国际工程规范问答助手的高级提示工程***、方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答*** | |
CN116644168A (zh) | 一种交互数据构建方法、装置、设备及存储介质 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN109325040B (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN116501306B (zh) | 一种基于自然语言描述生成接口文档代码的方法 | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
Dethlefs et al. | Conditional random fields for responsive surface realisation using global features | |
CN117056531A (zh) | 领域知识驱动的大语言模型精调方法、***、设备及存储介质 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN114118417A (zh) | 一种多模态预训练方法、装置、设备及介质 | |
CN111553138B (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN110795547B (zh) | 文本识别方法和相关产品 | |
CN116881641A (zh) | 预训练模型调整方法及装置、存储介质、计算设备 | |
CN117216212A (zh) | 对话处理方法、对话模型训练方法、装置、设备及介质 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和*** | |
Vishwakarma et al. | A review & comparative analysis on various chatbots design | |
CN117236337B (zh) | 基于混合提示学习完成历史知识图谱生成自然语言方法 | |
CN113408292A (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN117633162A (zh) | 机器学习任务模板生成方法、训练方法、微调方法及设备 | |
CN114490922A (zh) | 一种自然语言理解模型训练方法及装置 | |
CN114860869A (zh) | 一种意图泛化的可控制通用对话模型 | |
CN110232182B (zh) | 语义识别方法、装置和语音对话*** | |
CN113836932A (zh) | 交互方法、装置和***,以及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |