CN117494814A - 提示词全生命周期管理方法、***、电子设备、存储介质 - Google Patents

提示词全生命周期管理方法、***、电子设备、存储介质 Download PDF

Info

Publication number
CN117494814A
CN117494814A CN202311471134.7A CN202311471134A CN117494814A CN 117494814 A CN117494814 A CN 117494814A CN 202311471134 A CN202311471134 A CN 202311471134A CN 117494814 A CN117494814 A CN 117494814A
Authority
CN
China
Prior art keywords
prompt
word
words
version
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311471134.7A
Other languages
English (en)
Inventor
赵阳阳
吴俊�
朱磊
屠坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311471134.7A priority Critical patent/CN117494814A/zh
Publication of CN117494814A publication Critical patent/CN117494814A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例公开了一种提示词全生命周期管理方法、***、电子设备、存储介质。其中,提示词全生命周期管理方法中通过获取原始提示词;再基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;然后采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;接着根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理,进一步完成提示词全生命周期管理。

Description

提示词全生命周期管理方法、***、电子设备、存储介质
技术领域
本说明书的一个或多个实施例涉及计算机技术领域,具体涉及提示词全生命周期管理方法、***、电子设备、存储介质。
背景技术
提示词(Prompt)指的是在特定任务或问题中,为了引导人工智能模型生成特定类型的输出而提供的输入文本片段或关键词。提示词可以是一个单词、一句话、一段话或一篇文章等。提示词用于向模型提供任务的上下文和指导,帮助模型产生符合预期的输出。在文本生成、机器翻译、问答等任务中,提示词对于大模型生成高质量的输出至关重要。对于同一个任务,不同的提示词会产生不同的效果,一个精心设计的提示词可以将模型的潜力最大化,并实现更高效的信息检索、个性化的推荐***、智能客服等应用,设置好提示词能帮助模型更好地理解任务,并生成更准确、连贯的结果。
提示词作为模型性能和使用范围提升的重要因素,其研发研发领域尚处于起步阶段,目前缺乏统一规范的流程。因此,亟需一种能够进行提示词全生命周期管理的方法。
发明内容
本说明书实施例提供了一种提示词全生命周期管理方法、***、电子设备、存储介质,其技术方案如下:
第一方面,本说明书实施例提供了一种提示词全生命周期管理方法,包括:获取原始提示词;基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理。
第二方面,本说明书实施例提供了一种提示词全生命周期管理***,包括:提示词获取模块,用于获取原始提示词;迭代优化模块,用于基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;测试模块,用于采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;评估模块,用于根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;线上版本管理模块,用于根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理。
第三方面,本说明书实施例提供了一种电子设备,包括处理器以及存储器;处理器与存储器相连;存储器,用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述实施例第一方面的提示词全生命周期管理方法的步骤。
第四方面,本说明书实施例提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述实施例第一方面的提示词全生命周期管理方法的步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
能够为提示词的生命周期的各个阶段提供一站式服务,帮助用户更好地管理提示词的生命周期,解决了传统方案分散管理的问题。而且,本说明书一些实施例提供提示词优化测试评估一体化设计方案,能够帮助提示词快速迭代升级。本说明书一些实施例集成了一套持续优化体系,帮助用户快速生成一个效果好的提示词,从而帮助大模型相关的应用快速上线。另外,本说明书一些实施例通过版本比较并替换方法实现了提示词版本的并发控制,用户可以以一种更加灵活直观的形式对提示词进行管理,并对改动做到留痕以及回溯。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种提示词全生命周期管理***的应用场景示意图。
图2是本说明书提供的一种提示词全生命周期管理方法的流程示意图。
图3是本说明书提供的又一种提示词全生命周期管理方法的流程示意图。
图4是本说明书提供的又一种提示词全生命周期管理方法的流程示意图。
图5是本说明书提供的提示词测试反馈流程示意图。
图6是本说明书提供的又一种提示词全生命周期管理方法的流程示意图。
图7是本说明书提供的一种提示词全生命周期管理***的结构示意图。
图8为本说明书提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述。
本说明书中的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”以及它的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
人工智能是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,人工智能对话***是一种利用自然语言处理和机器学习等人工智能技术,与人类用户进行交互和对话的***。人工智能对话***能够理解用户的语言输入,生成相应的回复,并模拟出与人类类似的对话体验。人工智能(AI)对话***可以包括大模型(Language Models,LMs)等,其中,提示词(Prompt)是输入到大模型的初始条件,可以是一个单词、一句话、一段话或一篇文章等。在文本生成、机器翻译、问答等任务中,设置好Prompt可以帮助模型更好地理解任务,并生成更准确、连贯的结果。
大模型(Language Models,LMs)是在自然语言处理(Nature Languageprocessing,NLP)领域中使用大量数据进行训练的语言模型。大模型可以包括各种规模的模型,大语言模型(Large Language Model,LLM)属于大模型的一种。这些模型通常是基于深度学习技术构建的,可以对文本数据进行建模和生成。大模型在NLP任务中具有广泛的应用,如机器翻译、文本摘要、对话生成等。大模型不仅可以生成流畅、连贯的文本,还可以理解和推理语义信息,具备一定的语言理解能力。比如GPT、BERT和GPT-3等,这些模型在NLP领域取得了重大的突破,并在各种任务中取得了令人瞩目的性能。
BERT模型是一种基于Transformer架构的预训练语言模型。BERT模型是一个双向的、无监督的预训练模型,利用大规模的无标签文本数据进行预训练。相较于传统的单向语言模型,BERT模型可以同时利用前后文信息,更好地理解和表示句子中的语义和上下文关系。
大语言模型(Large Language Model,LLM)是指具有大规模参数和能力的自然语言处理模型。大语言模型使用深度学习技术,特别是基于神经网络的模型,通过在大规模文本数据上进行训练,能够生成和理解自然语言的文本。大语言模型已经在多个领域展示出了广泛的应用,包括机器翻译、文本摘要、对话***、智能写作、信息检索等。大语言模型为自然语言处理任务提供了强大的基础模型和工具。
随着大模型体量的不断增大,传统自然语言处理领域遵循的预训练加精调方式的成本也越来越高,因此研究者们希望探索出更轻量、更普适、更高效的方法,便在预训练语言模型的基础上对原始输入进行改造,设计出了一种特殊的输入形式/模板,这种模板即为提示词,提示词能够帮助预训练语言模型回忆起预训练阶段学习到的知识,提示词对于生成式AI模型生成高质量的输出至关重要。因此对于同一个任务,不同的提示词会产生不同的效果,一个精心设计的提示词可以将模型的潜力最大化,并实现更高效的信息检索、个性化的推荐***、智能客服等应用,如何对提示词进行高效的生成以及管理也变的重要起来。
本说明书在结合一个或多个实施例对提示词全生命周期管理方法进行详细阐述之前,先介绍该提示词全生命周期管理方法应用的场景。
本说明书多个实施例提供的提示词全生命周期管理方法,可应用于提示词全生命周期管理***与人工智能对话***进行交互时的场景,其中,提示词全生命周期管理***可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该提示词全生命周期管理***还可以集成在多个电子设备中,比如,提示词全生命周期管理***可以集成在多个服务器中,由多个服务器来实现本申请的提示词全生命周期管理方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1,提示词全生命周期管理***100可以与人工智能对话***110之间相互通信连接。提示词全生命周期管理***100与人工智能对话***110可以设置在同一个电子设备上,也可以设置在不同的电子设备上,本说明书实施例对此不作限制。
提示词全生命周期管理***100集成在电子设备中,该电子设备可以包括服务器120、存储终端130等,存储终端130可以用于存储原始提示词等,服务器120、存储终端130之间相互通信连接。其中,服务器120可以包括处理器和存储器等。
人工智能对话***110为一种可以生成自然语言文本的AI模型,人工智能对话***可以包括大模型等,大模型可以为大语言模型,大模型还可以为其他AI模型等,人工智能对话***110可以应用于多个场景,包括但不限于内容创作、技术支持、智能问答、营销和广告、社交媒体管理、语言翻译、自动摘要和文本生成等方面。人工智能对话***110可以集成在电子设备中,该电子设备可以为终端、服务器等设备。
在一些实施例中,当提示词全生命周期管理***100与人工智能对话***110进行交互时,用户可以向人工智能对话***110的大模型输入训练样本,通过训练样本对大语言模型进行训练,用户还可以通过权限登录提示词全生命周期管理***100,向提示词全生命周期管理***100发布关于使用提示词的用户需求以及对符合评估指标的提示词进行编辑、保存等。提示词全生命周期管理***100中的服务器120可以获取原始提示词;还可以基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;再采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;接着根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理等。
请参阅图2,图2示出了本说明书实施例提供的一种提示词全生命周期管理方法的流程示意图,该方法可以由图1所示的电子设备执行,提示词全生命周期管理***100集成在该电子设备上。
如图2所示,该提示词全生命周期管理方法至少可以包括以下步骤:
步骤210、获取原始提示词;
步骤220、基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;
步骤230、采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;
步骤240、根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;
步骤250、根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理。
在本说明书一些实施例中,提示词可以为引导大模型生成特定类型的输出而提供的输入文本片段或关键词。原始提示词可以为通过模版自动生成***生成的提示词,在其他实施例中,原始提示词还可以为用户直接输入的提示词等。在本说明书一些实施例中,有效提示词可以为采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试后得到的提示词,该测试后得到的提示词能够满足测试阈值。
在本说明书实施例中,可以通过计算模型输出与测试参考数据之间的相似度,当相似度大于相似度阈值时,则说明输入模型中进行测试的提示词能够满足测试阈值。测试参考数据可以是用户根据模型输出的预期效果而设置的参考输出数据,参考输出数据可以是文本,还可以是关键词等等,本说明书实施例对此不作限制。
本说明书实施例可以将一个提示词的生命周期分为若干阶段,具体可以包括提示词生成、优化、测试、评估、上线以及下线等阶段,本说明书实施例可以通过提供提示词全生命周期管理方法对提示词的每个阶段进行管理。
在提示词生成阶段,可以获取用户直接输入的提示词,也可以获取通过模版自动生成***生成的提示词。当获取原始提示词之后,需要根据实际应用场景对原始提示词进行优化。
在优化阶段,本说明书实施例采用模型协同优化的策略加速提示词的优化进程,模型协同优化的策略可以通过多个大模型对提示词进行协同优化,还可以通过人工和模型协同优化的方式对提示词进行优化。
在测试阶段,本说明书实施例采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,可以实时调用模型对每次优化的效果进行反馈,从而可以不断对提示词进行迭代优化,并且每次变动都可以以版本的形式保存下来,方便对历史回溯以及回滚。
在评估阶段,本说明书实施例评估指标对有效提示词进行评估,评估指标可以包括但不限于定性指标、定量指标等,本说明书实施例通过不同评估指标对有效提示词进行综合评估,以确保评估结果的全面性和客观性。
在版本管理过程中,本说明书实施例使用了版本比较并替换(Compare and swap,CAS)的方法进行版本并发控制,以防止多个用户同时编辑并保存提示词之后出现版本混乱的问题。其中,CAS方法是一种并发编程中用于实现原子操作的方法,用于多线程环境下对共享变量进行操作,确保对变量的修改是原子性的,即不会被其他线程的操作干扰。原子性是指一个操作在执行过程中不会被其他操作中断,要么完全执行成功,要么完全不执行。在并发环境中,多个线程可能同时对同一个变量进行读取和写入操作,如果这些操作不具备原子性,就可能导致数据不一致或者出现竞态条件。本说明书实施例根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理,进一步完成提示词全生命周期管理。
在本说明书一些实施例中,获取原始提示词,包括:获取由模版自动生成***生成的提示词;将模版自动生成***生成的提示词作为原始提示词。
可以理解的是,为了帮助用户更好地构建提示词,本申请实施例中设置了模版自动生成***,模版自动生成***中设置有多种提示词类型可供用户选择。本申请实施例中的原始提示词可以为模版自动生成***根据符合用户需求的提示词类型自动生成的规范模版。
本说明书实施例在获取原始提示词的过程中,可以先获取由模版自动生成***生成的提示词;然后将模版自动生成***生成的提示词作为原始提示词。模版自动生成***可帮助用户构建一个规范的提示词,以提高任务效果。
在本说明书一些实施例中,获取由模版自动生成***生成的提示词,包括:基于用户需求,从模版自动生成***的多种提示词类型中选出符合用户需求的提示词类型;基于符合用户需求的提示词类型,利用模版自动生成***生成提示词。
在本说明书实施例中,模版自动生成***设有多种提示词类型,提示词类型可以包括但不限制于:few-shot、zero-shot、指令型、CoT(Chain of Thought)、ICL(In-ContextLearning)等,用户可以根据自己的需求选择合适的提示词类型。模版自动生成***检测到用户选择提示词类型后,根据符合用户需求的提示词类型自动生成一个规范模版,这一规范模版可以供用户二次修改。
在本说明书实施例中,提示词类型中的few-shot形式是指使用少量示例来指导模型完成特定任务的形式。比如,对于命名实体识别(NER)任务,few-shot形式的提示词可以是一些标注好的文本示例,其中包含了实体的名称和对应的实体类型。模型在训练阶段会通过这些示例学习到实体的上下文和特征,然后在推理阶段可以根据这些学习到的知识来提取新的文本中的实体信息。
在本说明书实施例中,提示词类型中的zero-shot形式是指模型在没有接触到特定示例的情况下,通过理解任务描述和给定的一些背景知识,能够推断出正确的答案或执行相应任务的形式。与few-shot形式不同,zero-shot形式的提示词并不提供具体的示例。相反,zero-shot形式的提示词通过对任务的描述、上下文信息以及预先学习的知识进行综合,从而进行推断和泛化。比如,对于文本分类任务,如果模型在训练阶段只接触到某些类别的示例,但在推理阶段遇到了一个新的类别,那么通过zero-shot形式的提示词,模型可以利用任务描述和背景知识来推断出这个新类别的标签,而无需具体示例的支持。这种能力使得模型在面对新领域、新任务或者未见过的类别时可以进行有效的推理和泛化。
在本说明书实施例中,提示词类型中的指令型为特定的格式或关键词,用于指导模型的行为。指令型提示词明确告诉模型应该生成何种类型的文本,从而引导模型的生成过程。指令型提示词可以是一个明确的问题,也可以是一个要求生成特定类型文本的指示,还可以是一个需要模型执行特定操作的指令。例如,对于文本生成任务,指令型提示词可以是:“请根据下面的问题回答。问题:什么是人工智能?”、或“请生成一段关于水果的描述。”等。
在本说明书实施例中,CoT(Chain of Thought)型提示词是指一种通过提供一系列相关问题或指令的方式来引导模型进行推理和生成的提示词。CoT型提示词通常以连贯的问题或指令链的形式出现,每个问题或指令都依赖于前一个问题或指令的答案或结果。这种形式的提示词可以模拟人类思考或推理的过程,通过逐步引导模型进行推理和生成,从而产生更连贯、合理的结果。例如,对于文本生成任务,CoT型提示词可以是以下形式:“生成一段关于水果的描述。在上一段描述的基础上,继续写一句关于石榴的特征。根据前面的描述和特征,写出一个可能发生在菜市场上买水果的场景。”在这个示例中,每个问题都依赖于前一个问题的答案,模型需要根据上下文信息和给定的指令逐步生成文本。CoT型提示词可以帮助模型进行更加连贯和有逻辑性的推理和生成,从而提高任务的质量和一致性。
在本说明书实施例中,ICL(In-Context Learning)型提示词是指一种通过在上下文中进行学习和迭代的方式来引导模型进行推理和生成的提示词。ICL型提示词可以用于在任务执行过程中,通过模型与用户或环境的交互来不断学习和调整生成的结果。模型可以通过在上下文中观察和理解用户的反馈,以及对之前生成结果的评估,来自适应地调整生成策略和提供更准确、符合用户意图的结果。例如,对于对话生成任务,ICL型提示词可以是以下形式:
用户:请帮我预订明天晚上8点的餐厅。
模型:我找到了一家名为“ABC餐厅”的地方,您是否满意?
用户:不,我想要一家更接近市中心的餐厅。
模型:好的,我会尝试找到一家更接近市中心的餐厅。
在上述示例中,模型根据用户的反馈进行了调整,并在下一次生成中考虑了用户的偏好和要求。ICL型提示词可以帮助模型进行实时的学习和调整,从而提供更符合用户意图和要求的结果。
请参阅图3,图3示出了本说明书再一实施例提供的一种提示词全生命周期管理方法的流程示意图,图中仅示出下述的步骤3200~步骤3220,下述步骤310与上述步骤210一致,步骤330~步骤350与上述步骤230~步骤250一致,因此未在图3中重复展示,该方法可以由图1所示的电子设备执行。
如图3所示,该提示词全生命周期管理方法至少可以包括以下步骤:
步骤310、获取原始提示词;
步骤3200、基于原始提示词,获取上一次优化后的提示词;
步骤3210、对上一次优化后的提示词进行模型协同优化,得到当前模型协同优化后的提示词;
步骤3220、当当前模型协同优化后的提示词达到效果阈值时,将当前模型协同优化后的提示词作为迭代优化后的提示词;
步骤330、采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;
步骤340、根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;
步骤350、根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理,以完成提示词全生命周期管理。
在本说明书实施例中,当获取到原始提示词之后,需要根据用户实际应用场景对原始提示词进行优化。在优化阶段,本申请实施例设计了模型协同优化方法,以加速提示词的迭代。模型协同优化是依靠至少一个大模型的通用能力,从模型的视角提供优化建议,进一步加速提示词的优化进程,然后根据模型的输出以及优化建议进行针对性的调整。
本说明书实施例可以将原始提示词作为第一次进行优化的提示词,经过若干轮的迭代优化之后,当当前模型协同优化后的提示词达到效果阈值时,将当前模型协同优化后的提示词作为迭代优化后的提示词,即输出一个效果较好的提示词。
例如,在本说明书实施例中当判断当前模型协同优化后的提示词是否达到效果阈值时,可以利用提示词全生命周期管理***的测试模块对当前模型协同优化后的提示词进行测试,如果模型的输出达到测试阈值时,则可以判别当前模型协同优化后的提示词达到了效果阈值。
可以理解的是,在对第i次待优化的提示词进行优化时,还可以先对第i次待优化的提示词进行人工优化,人工优化即是用户根据掌握的提示词应用场景以及大模型相关的知识手工调整提示词,然后通过大模型对人工优化后的提示词进行自动优化,得到第i次迭代优化后的提示词,接着对第i次迭代优化后的提示词进行评估,若第i次迭代优化后的提示词未达到效果阈值时,则将第i次迭代优化后的提示词作为上一次优化后的提示词,上一次优化后的提示词即为第i+1次待优化的提示词,继续对上一次优化后的提示词进行人工和模型协同优化,得到当前模型协同优化后的提示词,再接着对当前模型协同优化后的提示词进行评估,以确定该轮优化是否有效。
在本说明书一些实施例中,对上一次优化后的提示词进行模型协同优化,得到模型协同优化后的提示词,包括:基于大模型对上一次优化后的提示词进行自动优化,得到当前自动优化后的提示词;获取当前人工优化后的提示词,当前人工优化后的提示词为对上一次优化后的提示词进行人工优化后的提示词;基于当前自动优化后的提示词以及当前人工优化后的提示词,确定出模型协同优化后的提示词。
本说明书一些实施例中,还可以对上一次优化后的提示词进行自动优化,得到当前自动优化后的提示词;再获取当前人工优化后的提示词,然后基于当前自动优化后的提示词以及当前人工优化后的提示词,确定出当前模型协同优化后的提示词。本说明书实施例在确定出当前模型协同优化后的提示词的过程中,可以分别对当前自动优化后的提示词以及当前人工优化后的提示词进行评估,以从当前自动优化后的提示词以及当前人工优化后的提示词中选择出效果较好的提示词。
在本说明书一些实施例中,对上一次优化后的提示词进行自动优化,得到当前自动优化后的提示词,包括:利用大模型对上一次优化后的提示词进行测试,得到测试后大模型的输出以及模型视角下的优化建议;根据大模型的输出以及模型视角下的优化建议对上一次优化后的提示词进行优化,得到当前自动优化后的提示词。
本说明书一些实施例每次对提示词进行优化后,大模型可以输出模型视角的优化建议,用户可根据模型的输出以及优化建议进行针对性的调整,经过若干轮的迭代优化之后,最终输出一个效果较好的提示词。
与提示词由人工生成且人工迭代优化,迭代速度会受到限制的现有技术相比,本说明书实施例则利用大模型自动优化提示词,在优化阶段本说明书实施例可以提供提示词自动优化以及人工优化相互协同等多种方式,在一定程度上能够加速提示词的迭代速度。
请参阅图4,图4示出了本说明书又一实施例提供的一种提示词全生命周期管理方法的流程示意图,图中仅示出下述的步骤4300~步骤4340,下述步骤410~步骤420与上述步骤210~步骤220一致,步骤440~步骤450与上述步骤240~步骤250一致,因此未在图4中重复展示,该方法可以由图1所示的电子设备执行。
如图4所示,该提示词全生命周期管理方法至少可以包括以下步骤:
步骤410、获取原始提示词;
步骤420、基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;
步骤4300、基于迭代优化后的提示词,获取当前轮对话提示词,当前轮对话提示词为与大模型进行当前轮对话的提示词;
步骤4310、当当前轮对话不为首轮对话时,获取与大模型之间进行的历史对话内容;
步骤4320、将历史对话内容与当前轮对话的提示词进行拼接,得到拼接后的提示词;
步骤4330、获取大模型对拼接后的提示词的模型输出;
步骤4340、当大模型对拼接后的提示词的模型输出达到测试阈值时,将当前轮对话的提示词作为测试后的有效提示词;
步骤440、根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;
步骤450、根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理,以完成提示词全生命周期管理。
在本说明书实施例中,经过对提示词的优化之后,本说明书实施例可以实时的对提示词进行测试,根据测试结果实时调整优化方向。在对提示词测试时,本说明书实施例采用与大模型进行多轮对话的模式,可以通过和大模型之间的多轮对话,判断提示词是否有效。在进行每轮对话前,会把之前的对话内容拼接到提示词当中,从而作为上下文一并输入到大模型中去。当大模型给出结果后,本说明书实施例可以对模型的结果进行反馈,以此搜集更多的数据来反哺模型的迭代升级。
在本说明书一些实施例中,采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词,包括:当当前轮对话为首轮对话时,将迭代优化后的提示词作为首轮对话的提示词;获取大模型对首轮对话的提示词的模型输出;当大模型对首轮对话的提示词的模型输出达到测试阈值时,将迭代优化后的提示词作为测试后的有效提示词。
具体地,请参阅图5,图5示出了本说明书再一实施例提供的提示词测试反馈流程示意图。本说明书实施例可以先判断当前轮对话是否为首轮对话,如果当前轮对话为首轮对话,则将迭代优化后的提示词作为首轮对话的提示词;通过大模型对首轮对话的提示词进行测试,得到测试后与大模型进行首轮对话的模型输出,当基于与大模型进行首轮对话的模型输出确定出当前轮对话提示词有效时(即基于与大模型进行首轮对话的模型输出确定出当前轮对话提示词达到测试阈值),可以直接将迭代优化后的提示词作为测试后的有效提示词。若基于与大模型进行首轮对话的模型输出确定出当前轮对话提示词未达到测试阈值时,则可以根据模型输出结果对迭代优化后的提示词进行微调,得到微调后的提示词,然后将微调后的提示词作为下一轮对话提示词,同时将与大模型进行首轮对话的内容存入缓存。
继续参阅图5,本说明书实施例若当前轮对话不为首轮对话,则先从缓存中获取与大模型之间进行的历史对话内容,然后将历史对话内容与当前轮对话的提示词进行拼接,得到拼接后的提示词,再通过大模型对拼接后的提示词进行测试,得到测试后与大模型进行当前轮对话的模型输出,将与大模型进行当前轮对话的内容存入缓存。若基于与大模型进行当前轮对话的模型输出确定出当前轮对话提示词未达到测试阈值时,则继续根据模型输出结果对当前轮对话提示词进行微调,得到当前轮微调后的提示词,接着继续将当前轮微调后的提示词作为再下一轮对话提示词,重复多轮对话,直到当前轮对话提示词达到测试阈值时,得到有效提示词。
在本说明书实施例中,用户在提示词全生命周期管理***生成的提示词模版中填充进特定应用场景的领域知识以及相应例子后,提示词全生命周期管理***可以提供实时的提示词测试功能,可以根据模型的输出结果对提示词不断微调,直到模型输出一个效果比较好的提示词。
请参阅图6,图6示出了本说明书又一实施例提供的一种提示词全生命周期管理方法的流程示意图,图中仅示出下述的步骤6400~步骤6430,下述步骤610~步骤630与上述步骤210~步骤230一致,步骤650与上述步骤650一致,因此未在图6中重复展示,该方法可以由图1所示的电子设备执行。
如图6所示,该提示词全生命周期管理方法至少可以包括以下步骤:
步骤610、获取原始提示词;
步骤620、基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;
步骤630、采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;
步骤6400、根据定性评估指标对有效提示词进行评估,得到有效提示词对应的定性评估结果;
步骤6410、根据定量评估指标对有效提示词进行评估,得到有效提示词对应的定量评估结果;
步骤6420、根据有效提示词对应的定性评估结果以及有效提示词对应的定量评估结果对有效提示词进行综合评估,得到有效提示词对应的综合评估结果;
步骤6430、当有效提示词对应的综合评估结果满足评估阈值时,将有效提示词作为符合评估指标的提示词;
步骤650、根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理。
为了更为全面的评估提示词的好坏,本说明书实施例可以从定性和定量两个角度对提示词进行评估。定性评估指标可以包括但不限于有帮助指标、无编造指标、无危害指标、专业性指标等,其中,有帮助指标为回复通顺流畅且符合预期;无编造指标为回复中不存在事实错误或虚假编造;无危害指标为回复中不存在暴力、色情等违反道德伦理或法律的内容;专业性指标为能够结合专业维度做出恰当回复。本说明书实施例对定性评估指标可以采用打分制,通过打分制从而有效反映模型输出在人机体验上的情况,在本说明书其他实施例中,还可以对定性评估指标采用其他考核机制,在此不再赘述。
本说明书实施例结合定性和定量计算的结果对有效提示词做一个综合的评估,评估完成后可以根据评估结果决定是否将此提示词上线,如果有效提示词对应的综合评估结果满足评估阈值时,则将有效提示词作为符合评估指标的提示词,如果有效提示词对应的综合评估结果不满足评估阈值时,则继续对其进行优化。
在本说明书一些实施例中,根据定量评估指标对有效提示词进行评估,得到有效提示词对应的定量评估结果,包括:基于参考提示词,通过预先训练好的BERT模型获取有效提示词对应的语义表示以及参考提示词对应的语义表示;根据BERTScore指标计算有效提示词对应的语义表示与参考提示词对应的语义表示之间的相似度;将相似度作为有效提示词对应的定量评估结果。
参考提示词是在计算提示词的BERTScore指标时所设置的参考词。关于定量评估指标,本说明书实施例可以通过计算BERTScore指标来进行评估。BERTScore指标是将两个句子分别输入到预先训练好的BERT模型中,获取句子的语义表示,然后比较这些句子的语义表示的相似程度。与其他基于词向量的相似度指标不同,BERTScore指标考虑了上下文信息和语义信息,因此能够更准确地衡量句子之间的相似度,特别是对于语义相似但表达不同的句子,BERTScore指标更能捕捉到句子之间的相似度。
在本说明书一些实施例中,根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理,包括:根据版本比较并替换方法,对符合评估指标的提示词进行版本并发控制,以将符合评估指标的提示词发布到线上;当对线上提示词执行下线操作时,对线上提示词对应的所有版本进行软删除。
可以理解的是,线上提示词为发布到线上的符合评估指标的提示词。本说明书实施例的线上版本管理过程可以包括提示词上线以及下线两个阶段。在完成对提示词的优化测试以及评估之后,便可以将符合评估指标的提示词发布到线上。为了能够方便对提示词进行回滚,本说明书实施例可以将发布到线上的提示词以版本的形式保存下来。
在本说明书一些实施例中,根据版本比较并替换方法,对符合评估指标的提示词进行版本并发控制,以将符合评估指标的提示词发布到线上,还包括:当检测到用户对符合评估指标的提示词进行编辑时,生成符合评估指标的提示词对应的编辑版本;当检测到用户对编辑版本进行保存,且编辑版本为第一预设版本时,将编辑版本保存至提示词数据库;当编辑版本不为第一预设版本时,获取符合评估指标的提示词在提示词数据库中的最新版本;当编辑版本低于或等于符合评估指标的提示词在提示词数据库中的最新版本时,向用户发送提醒消息。
在本说明书实施例中,第一预设版本可以为将符合评估指标的提示词发布到线上时的第一个版本。提醒消息为符合评估指标的提示词在编辑期间已被修改的消息。
本说明书实施例为了防止多个用户同时编辑并保存之后出现版本混乱的问题,用户进入提示词全生命周期管理***的新建/编辑页面,且提示词全生命周期管理***检测到用户对符合评估指标的提示词进行编辑时,会生成符合评估指标的提示词对应的编辑版本。
例如,符合评估指标的提示词为m,提示词m发布到线上时的第一个版本的版本号设为0,当提示词全生命周期管理***检测到用户a编辑提示词m时,会生成提示词m对应的编辑版本,提示词m对应的编辑版本的版本为1。
本说明书实施例使用版本比较并替换(Compare and swap,CAS)的方法对提示词的版本进行并发控制。例如,当多个用户同时对提示词m进行编辑并点击保存后,提示词全生命周期管理***会判断某个用户对提示词m进行编辑的编辑版本是否为第一预设版本,即判断该用户对提示词m进行编辑的编辑版本是否为发布到线上时的第一个版本,若该用户对提示词m进行编辑的编辑版本为发布到线上时的第一个版本,则直接将该用户对提示词m进行编辑的编辑版本保存至提示词数据库。
若该用户对提示词m进行编辑的编辑版本不是发布到线上时的第一个版本,说明此时提示词m是在被编辑状态,为了防止多个用户同时编辑并保存之后出现版本混乱的问题,在进入提示词全生命周期管理***的新建/编辑页面时,会先对每个用户对提示词m进行编辑的编辑版本生成一个将要保存的版本号,例如,有两个用户同时对提示词m进行编辑,提示词m在提示词数据库中的最新版本的版本号为5,将提示词m在提示词数据库中的最新版本的版本号加1作为两个用户对提示词m进行编辑的编辑版本的版本号(即为6)。
可以理解的是,因为同一时间段可以存在多个用户编辑同一个提示词的情况,因此,当检测到某个用户对编辑版本进行保存时,提示词全生命周期管理***会判断提示词数据库中提示词的最新版本是否高于或等于该用户对该提示词进行编辑并保存的编辑版本。例如,可以比较提示词数据库中提示词m的最新版本的版本号是否大于或等于用户对提示词m进行编辑的编辑版本的版本号。
在本说明书实施例中,版本的高低判断可以通过版本的id进行比较,版本的id包括但不限于数字、字母、数字与字母的组合以及其他形式等等,在此不再赘述。
可以理解的是,若编辑版本低于或等于符合评估指标的提示词在提示词数据库中的最新版本,说明在该用户在编辑提示词的同时,还有其他用户同时在编辑并进行了保存,此时可以向用户发送提醒消息,从而提醒用户该提示词在编辑期间已经被修改。若编辑版本高于符合评估指标的提示词在提示词数据库中的最新版本,则说明不存在版本并发问题,可以直接将该编辑版本直接保存进提示词数据库中。
例如,提示词m在提示词数据库中的最新版本的版本号为6,在某一个时间段内有用户a以及用户b对提示词m进行了编辑,***向两个用户分配的关于提示词m的编辑版本的版本号均相同,即为6+1=7,用户a先对提示词m的编辑版本进行保存,将用户a对提示词m进行编辑的编辑版本作为提示词数据库中关于提示词m的最新版本,并将提示词m的最新版本的版本号更新为7。接着,用户b再对提示词m的编辑版本进行保存,***会将用户b对提示词m的编辑版本的版本号(即为7)与提示词数据库中更新后的提示词m的最新版本的版本号(即为7)进行比较,可以得出用户b对提示词m的编辑版本等于新后的提示词m的最新版本的结论,此时可以向用户b发送提醒消息,从而提醒用户该提示词在编辑期间已经被修改。
在本说明书一些实施例中,编辑版本低于或等于符合评估指标的提示词在提示词数据库中的最新版本时,还包括:向用户发送查询消息,查询消息为是否查询符合评估指标的提示词在提示词数据库中的最新版本的消息;当检测到用户同意查询符合评估指标的提示词在提示词数据库中的最新版本时,将符合评估指标的提示词在提示词数据库中的最新版本发送至用户。
本说明书实施例中,当编辑版本低于或等于符合评估指标的提示词在提示词数据库中的最新版本时,向用户发送提醒消息的同时,还可以向用户发送查询消息,当用户同意查询符合评估指标的提示词在提示词数据库中的最新版本后,将符合评估指标的提示词在提示词数据库中的最新版本发送至用户。
在本说明书一些实施例中,当检测到用户同意查询符合评估指标的提示词在提示词数据库中的最新版本时,将符合评估指标的提示词在提示词数据库中的最新版本发送至用户之后,还包括:获取用户对符合评估指标的提示词进行编辑的内容;将符合评估指标的提示词在提示词数据库中的最新版本与用户对符合评估指标的提示词进行编辑的内容进行对比,得到对比结果;将对比结果发送至用户,当检测到用户保存对符合评估指标的提示词进行编辑的内容时,保存符合评估指标的提示词进行编辑的内容。
本说明书实施例中,当检测到用户同意查询符合评估指标的提示词在提示词数据库中的最新版本时,将符合评估指标的提示词在提示词数据库中的最新版本发送至用户之后,还可以将符合评估指标的提示词在提示词数据库中的最新版本与当前用户编辑的内容进行对比,由用户决定是否保留此次编辑。
在本说明书实施例中,符合评估指标的提示词可以经过上线审批,审批通过之后,该提示词的最新版本的版本号可以根据用户的编辑情况自动加一,同时保留该提示词的历史版本;当需要进行回滚时,还可以指定需要回滚的历史版本。
可以理解的是,本说明书实施例的线上版本管理过程可以包括提示词上线以及下线两个阶段。提示词上线之前可以包括新建模板以及编辑模板过程,在新建模板过程中,可以先通过模板自动生成***生成原始提示词,对原始提示词进行优化、测试以及评估后得到符合评估指标的提示词,对符合评估指标的提示词进行上线审批,上线审批通过后将符合评估指标的提示词保存到提示词数据库中。
在编辑模板过程中,当检测到用户对提示词数据库中某个提示词进行编辑并保存时,可以对用户进行编辑的编辑版本的版本号进行设置,例如,将用户对提示词进行编辑的编辑版本的版本号设置为该提示词的最新版本号加1。然后通过版本比较并替换方法对提示词的版本进行并发控制。
在本说明书一些实施例中,当对线上提示词执行下线操作时,对线上提示词对应的所有版本进行软删除,以完成提示词全生命周期管理,还包括:将线上提示词的基本信息存储到元信息表中;当检测出没有用户正在编辑线上提示词时,基于元信息表,对线上提示词对应的所有版本进行软删除。
元信息表用于存储线上提示词的基本信息,线上提示词的基本信息包括但不限于线上提示词的id、唯一标识、是否已删除信息、是否处于编辑状态信息。
本说明书实施例在对线上提示词执行下线操作时,会对该线上提示词的所有版本进行一个软删除。为了防止在删除操作时,有用户正在进行编辑该线上提示词,本说明书实施例可以先将所有线上提示词的基本信息存储到一张元信息表中,元信息表主要记录该提示词的id、唯一标识、是否已删除、是否处于编辑状态(is_edit)等信息。当对线上提示词进行删除操作时,***会根据is_edit字段判断该线上提示词是否还有用户在编辑。
一个完整的提示词生命周期可以分为提示词生成、测试、评估、优化、上线、下线等阶段。现有技术中每个阶段分散在不同的平台,有的直接使用线下脚本进行测试或者评估,缺少一个***对这些阶段的全局化管理。相对于现有技术,本说明书实施例提供的提示词全生命周期管理方法能够为提示词的生命周期的各个阶段提供一站式服务,帮助用户更好地管理提示词的生命周期,解决了传统方案分散管理的问题。而且,本说明书一些实施例提供提示词优化测试评估一体化设计方案,能够帮助提示词快速迭代升级。本说明书一些实施例集成了一套持续优化体系,帮助用户快速生成一个效果好的提示词,从而帮助大模型相关的应用快速上线。本说明书实施例在优化阶段本***采用人工和模型协同优化的策略,加速了提示词的优化进程;在测试阶段实时调用模型对每次优化的效果进行反馈,从而可以不断对提示词进行迭代优化,并且每次变动还可以以版本的形式保存下来,方便对历史回溯以及回滚;在评估阶段采用定性和定量的方式对提示词t进行评估,以确保评估结果的全面性和客观性。另外,本说明书一些实施例通过版本比较并替换方法实现了提示词版本的并发控制,用户可以以一种更加灵活直观的形式对提示词进行管理,并对改动做到留痕以及回溯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
请参阅图7,图7为本说明书实施例提供的一种提示词全生命周期管理***的结构示意图。
如图7所示,该提示词全生命周期管理***至少可以包括提示词获取模块700、迭代优化模块710、测试模块720、评估模块730、线上版本管理模块740,其中:
提示词获取模块700,用于获取原始提示词;
迭代优化模块710,用于基于模型协同优化方法对原始提示词进行迭代优化,得到迭代优化后的提示词;
测试模块720,用于采用与大模型之间进行多轮对话的模式,对迭代优化后的提示词进行测试,得到测试后的有效提示词;
评估模块730,用于根据评估指标对有效提示词进行评估,得到符合评估指标的提示词;
线上版本管理模块740,用于根据版本比较并替换方法对符合评估指标的提示词进行线上版本管理。
在本说明书的一个实施例中,提示词获取模块700包括提示词生成模块,提示词生成模块用于:获取由模版自动生成***生成的提示词;将模版自动生成***生成的提示词作为原始提示词。
在本说明书的一个实施例中,模版自动生成***设有多种提示词类型,提示词生成模块还包括提示词生成子模块,提示词生成子模块用于:基于用户需求,从模版自动生成***的多种提示词类型中选出符合用户需求的提示词类型;基于符合用户需求的提示词类型,利用模版自动生成***生成提示词。
在本说明书的一个实施例中,迭代优化模块710包括上一次优化后的提示词获取模块、模型协同优化模块和提示词效果比对模块,其中:
上一次优化后的提示词获取模块用于:基于原始提示词,获取上一次优化后的提示词;
模型协同优化模块用于:对上一次优化后的提示词进行模型协同优化,得到当前模型协同优化后的提示词;
提示词效果比对模块用于:当当前模型协同优化后的提示词达到效果阈值时,将当前模型协同优化后的提示词作为迭代优化后的提示词。
在本说明书的一个实施例中,模型协同优化模块还包括自动优化模块,自动优化模块用于:基于大模型对上一次优化后的提示词进行自动优化,得到当前自动优化后的提示词;获取当前人工优化后的提示词,当前人工优化后的提示词为对上一次优化后的提示词进行人工优化后的提示词;基于当前自动优化后的提示词以及当前人工优化后的提示词,确定出模型协同优化后的提示词。
在本说明书的一个实施例中,自动优化模块还包括自动优化子模块,自动优化子模块用于:利用大模型对上一次优化后的提示词进行测试,得到测试后大模型的输出以及模型视角下的优化建议;根据大模型的输出以及模型视角下的优化建议对上一次优化后的提示词进行优化,得到当前自动优化后的提示词。
在本说明书的一个实施例中,测试模块720包括多轮对话测试模块,多轮对话测试模块用于:基于迭代优化后的提示词,获取当前轮对话提示词,当前轮对话提示词为与大模型进行当前轮对话的提示词;当当前轮对话不为首轮对话时,获取与大模型之间进行的历史对话内容;将历史对话内容与当前轮对话的提示词进行拼接,得到拼接后的提示词;获取大模型对拼接后的提示词的模型输出;当大模型对拼接后的提示词的模型输出达到测试阈值时,将当前轮对话的提示词作为测试后的有效提示词。
在本说明书的一个实施例中,多轮对话测试模块包括首轮测试模块,首轮测试模块用于:当当前轮对话为首轮对话时,将迭代优化后的提示词作为首轮对话的提示词;获取大模型对首轮对话的提示词的模型输出;当大模型对首轮对话的提示词的模型输出达到测试阈值时,将迭代优化后的提示词作为测试后的有效提示词。
在本说明书的一个实施例中,评估模块730包括定性评估模块、定量评估模块、综合评估模块以及评估阈值比对模块,其中:
定性评估模块,用于根据定性评估指标对有效提示词进行评估,得到有效提示词对应的定性评估结果;
定量评估模块,用于根据定量评估指标对有效提示词进行评估,得到有效提示词对应的定量评估结果;
综合评估模块,用于根据有效提示词对应的定性评估结果以及有效提示词对应的定量评估结果对有效提示词进行综合评估,得到有效提示词对应的综合评估结果;
评估阈值比对模块,用于当有效提示词对应的综合评估结果满足评估阈值时,将有效提示词作为符合评估指标的提示词。
在本说明书的一个实施例中,定量评估模块还包括定量评估子模块,定量评估子模块用于:基于参考提示词,通过预先训练好的BERT模型获取有效提示词对应的语义表示以及参考提示词对应的语义表示;根据BERTScore指标计算有效提示词对应的语义表示与参考提示词对应的语义表示之间的相似度;将相似度作为有效提示词对应的定量评估结果。
在本说明书的一个实施例中,线上版本管理模块740包括线上版本并发控制模块以及执行下线模块,其中:
线上版本并发控制模块,用于根据版本比较并替换方法,对符合评估指标的提示词进行版本并发控制,以将符合评估指标的提示词发布到线上;
执行下线模块,用于当对线上提示词执行下线操作时,对线上提示词对应的所有版本进行软删除,线上提示词为发布到线上的符合评估指标的提示词。
在本说明书的一个实施例中,线上版本并发控制模块包括编辑版本生成模块、编辑版本保存模块、第一预设版本比对模块以及编辑版本比较模块,其中:
编辑版本生成模块,用于当检测到用户对符合评估指标的提示词进行编辑时,生成符合评估指标的提示词对应的编辑版本;
编辑版本保存模块,用于当检测到用户对编辑版本进行保存,且编辑版本为第一预设版本时,将编辑版本保存至提示词数据库;
第一预设版本比对模块,用于当编辑版本不为第一预设版本时,获取符合评估指标的提示词在提示词数据库中的最新版本;
编辑版本比较模块,用于当编辑版本低于或等于符合评估指标的提示词在提示词数据库中的最新版本时,向用户发送提醒消息,提醒消息为符合评估指标的提示词在编辑期间已被修改的消息。
在本说明书的一个实施例中,编辑版本比较模块还包括查询消息发送模块和查询消息检测模块,其中:
查询消息发送模块,用于向用户发送查询消息,查询消息为是否查询符合评估指标的提示词在提示词数据库中的最新版本的消息;
查询消息检测模块,用于当检测到用户同意查询符合评估指标的提示词在提示词数据库中的最新版本时,将符合评估指标的提示词在提示词数据库中的最新版本发送至用户。
在本说明书的一个实施例中,编辑版本比较模块还包括编辑内容获取模块、编辑内容比对模块和编辑内容保存模块,其中:
编辑内容获取模块,用于获取用户对符合评估指标的提示词进行编辑的内容;
编辑内容比对模块,用于将符合评估指标的提示词在提示词数据库中的最新版本与用户对符合评估指标的提示词进行编辑的内容进行对比,得到对比结果;
编辑内容保存模块,用于将对比结果发送至用户,当检测到用户保存对符合评估指标的提示词进行编辑的内容时,保存符合评估指标的提示词进行编辑的内容。
在本说明书的一个实施例中,执行下线模块还包括信息存储模块和软删除模块,其中:
信息存储模块,用于将线上提示词的基本信息存储到元信息表中;
软删除模块,用于当检测出没有用户正在编辑线上提示词时,基于元信息表,对线上提示词对应的所有版本进行软删除。
基于本说明书多个实施例中的提示词全生命周期管理***内容,可知,本说明书实施例提供了一整套针对提示词生成、优化、测试、评估、上线以及下线等阶段过程中的全生命周期管理框架,能够为提示词的生命周期的各个阶段提供一站式服务,帮助用户更好地管理提示词的生命周期,解决了传统方案分散管理的问题。而且,本说明书一些实施例提供提示词优化测试评估一体化设计方案,能够帮助提示词快速迭代升级。本说明书一些实施例集成了一套持续优化体系,帮助用户快速生成一个效果好的提示词,从而帮助大模型相关的应用快速上线。本说明书实施例在优化阶段本***采用人工和模型协同优化的策略,加速了提示词的优化进程;在测试阶段实时调用模型对每次优化的效果进行反馈,从而可以不断对提示词进行迭代优化,并且每次变动还可以以版本的形式保存下来,方便对历史回溯以及回滚;在评估阶段采用定性和定量的方式对提示词t进行评估,以确保评估结果的全面性和客观性。另外,本说明书一些实施例通过版本比较并替换方法实现了提示词版本的并发控制,用户可以以一种更加灵活直观的形式对提示词进行管理,并对改动做到留痕以及回溯。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于提示词全生命周期管理***实施例而言,由于其基本相似于提示词全生命周期管理方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图8示出的本说明书实施例提供的一种电子设备的结构示意图。
如图8所示,该电子设备800可以包括:至少一个处理器801、至少一个网络接口804、用户接口803、存储器805以及至少一个通信总线802。
其中,通信总线802可用于实现上述各个组件的连接通信。
其中,用户接口803可以包括按键,可选用户接口还可以包括标准的有线接口、无线接口。
其中,网络接口804可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。
其中,处理器801可以包括一个或者多个处理核心。处理器801利用各种接口和线路连接整个电子设备800内的各个部分,通过运行或执行存储在存储器805内的指令、程序、代码集或指令集,以及调用存储在存储器805内的数据,执行电子设备800的各种功能和处理数据。可选的,处理器801可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器801可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器801中,单独通过一块芯片进行实现。
其中,存储器805可以包括RAM,也可以包括ROM。可选的,该存储器805包括非瞬时性计算机可读介质。存储器805可用于存储指令、程序、代码、代码集或指令集。存储器805可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器805可选的还可以是至少一个位于远离前述处理器801的存储装置。作为一种计算机存储介质的存储器805中可以包括操作***、网络通信模块、用户接口模块以及提示词全生命周期管理应用程序。处理器801可以用于调用存储器805中存储的提示词全生命周期管理应用程序,并执行前述实施例中提及的提示词全生命周期管理的步骤。
本说明书实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述图2~图4所示实施例中的一个或多个的步骤。上述电子设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本说明书实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
以上的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入本说明书的权利要求书确定的保护范围内。

Claims (18)

1.一种提示词全生命周期管理方法,包括:
获取原始提示词;
基于模型协同优化方法对所述原始提示词进行迭代优化,得到迭代优化后的提示词;
采用与大模型之间进行多轮对话的模式,对所述迭代优化后的提示词进行测试,得到测试后的有效提示词;
根据评估指标对所述有效提示词进行评估,得到符合评估指标的提示词;
根据版本比较并替换方法对所述符合评估指标的提示词进行线上版本管理。
2.根据权利要求1所述的方法,所述获取原始提示词,包括:
获取由模版自动生成***生成的提示词;
将所述模版自动生成***生成的提示词作为原始提示词。
3.根据权利要求2所述的方法,所述获取由模版自动生成***生成的提示词,所述模版自动生成***设有多种提示词类型,包括:
基于用户需求,从所述模版自动生成***的多种提示词类型中选出符合所述用户需求的提示词类型;
基于符合所述用户需求的提示词类型,利用所述模版自动生成***生成提示词。
4.根据权利要求1所述的方法,所述基于模型协同优化方法对所述原始提示词进行迭代优化,得到迭代优化后的提示词,包括:
基于原始提示词,获取上一次优化后的提示词;
对所述上一次优化后的提示词进行模型协同优化,得到当前模型协同优化后的提示词;
当所述当前模型协同优化后的提示词达到效果阈值时,将所述当前模型协同优化后的提示词作为迭代优化后的提示词。
5.根据权利要求4所述的方法,所述对所述上一次优化后的提示词进行模型协同优化,得到模型协同优化后的提示词,包括:
基于大模型对所述上一次优化后的提示词进行自动优化,得到当前自动优化后的提示词;
获取当前人工优化后的提示词,所述当前人工优化后的提示词为对所述上一次优化后的提示词进行人工优化后的提示词;
基于所述当前自动优化后的提示词以及所述当前人工优化后的提示词,确定出模型协同优化后的提示词。
6.根据权利要求5所述的方法,所述基于大模型对所述上一次优化后的提示词进行自动优化,得到当前自动优化后的提示词,包括:
利用大模型对所述上一次优化后的提示词进行测试,得到测试后所述大模型的输出以及模型视角下的优化建议;
根据所述大模型的输出以及模型视角下的优化建议对所述上一次优化后的提示词进行优化,得到当前自动优化后的提示词。
7.根据权利要求1所述的方法,所述采用与大模型之间进行多轮对话的模式,对所述迭代优化后的提示词进行测试,得到测试后的有效提示词,包括:
基于所述迭代优化后的提示词,获取当前轮对话提示词,所述当前轮对话提示词为与所述大模型进行当前轮对话的提示词;
当所述当前轮对话不为首轮对话时,获取与所述大模型之间进行的历史对话内容;
将所述历史对话内容与所述当前轮对话的提示词进行拼接,得到拼接后的提示词;
获得所述大模型对所述拼接后的提示词的模型输出;
当所述大模型对所述拼接后的提示词的模型输出达到测试阈值时,将当前轮对话的提示词作为测试后的有效提示词。
8.根据权利要求7所述的方法,所述采用与大模型之间进行多轮对话的模式,对所述迭代优化后的提示词进行测试,得到测试后的有效提示词,包括:
当所述当前轮对话为首轮对话时,将所述迭代优化后的提示词作为首轮对话的提示词;
获取所述大模型对首轮对话的提示词的模型输出;
当所述大模型对首轮对话的提示词的模型输出达到测试阈值时,将所述迭代优化后的提示词作为测试后的有效提示词。
9.根据权利要求1所述的方法,所述根据评估指标对所述有效提示词进行评估,得到符合评估指标的提示词,包括:
根据定性评估指标对所述有效提示词进行评估,得到所述有效提示词对应的定性评估结果;
根据定量评估指标对所述有效提示词进行评估,得到所述有效提示词对应的定量评估结果;
根据所述有效提示词对应的定性评估结果以及所述有效提示词对应的定量评估结果对所述有效提示词进行综合评估,得到所述有效提示词对应的综合评估结果;
当所述有效提示词对应的综合评估结果满足评估阈值时,将所述有效提示词作为符合评估指标的提示词。
10.根据权利要求9所述的方法,所述根据定量评估指标对所述有效提示词进行评估,得到所述有效提示词对应的定量评估结果,包括:
基于参考提示词,通过预先训练好的BERT模型获取所述有效提示词对应的语义表示以及所述参考提示词对应的语义表示;
根据BERTScore指标计算所述有效提示词对应的语义表示与所述参考提示词对应的语义表示之间的相似度;
将所述相似度作为所述有效提示词对应的定量评估结果。
11.根据权利要求1所述的方法,所述根据版本比较并替换方法对所述符合评估指标的提示词进行线上版本管理,包括:
根据版本比较并替换方法,对所述符合评估指标的提示词进行版本并发控制,以将所述符合评估指标的提示词发布到线上;
当对线上提示词执行下线操作时,对所述线上提示词对应的所有版本进行软删除,所述线上提示词为发布到线上的符合评估指标的提示词。
12.根据权利要求11所述的方法,所述根据版本比较并替换方法,对所述符合评估指标的提示词进行版本并发控制,以将所述符合评估指标的提示词发布到线上,包括:
当检测到用户对所述符合评估指标的提示词进行编辑时,生成所述符合评估指标的提示词对应的编辑版本;
当检测到所述用户对所述编辑版本进行保存,且所述编辑版本为第一预设版本时,将所述编辑版本保存至提示词数据库;
当所述编辑版本不为所述第一预设版本时,获取所述符合评估指标的提示词在所述提示词数据库中的最新版本;
当所述编辑版本低于或等于所述符合评估指标的提示词在所述提示词数据库中的最新版本时,向所述用户发送提醒消息,所述提醒消息为所述符合评估指标的提示词在编辑期间已被修改的消息。
13.根据权利要求12所述的方法,所述编辑版本低于或等于所述符合评估指标的提示词在所述提示词数据库中的最新版本时,向所述用户发送提醒消息,还包括:
向所述用户发送查询消息,所述查询消息为是否查询所述符合评估指标的提示词在所述提示词数据库中的最新版本的消息;
当检测到所述用户同意查询所述符合评估指标的提示词在所述提示词数据库中的最新版本时,将所述符合评估指标的提示词在所述提示词数据库中的最新版本发送至所述用户。
14.根据权利要求13所述的方法,所述当检测到所述用户同意查询所述符合评估指标的提示词在所述提示词数据库中的最新版本时,将所述符合评估指标的提示词在所述提示词数据库中的最新版本发送至所述用户之后,还包括:
获取所述用户对所述符合评估指标的提示词进行编辑的内容;
将所述符合评估指标的提示词在所述提示词数据库中的最新版本与所述用户对所述符合评估指标的提示词进行编辑的内容进行对比,得到对比结果;
将所述对比结果发送至所述用户,当检测到所述用户保存对所述符合评估指标的提示词进行编辑的内容时,保存所述符合评估指标的提示词进行编辑的内容。
15.根据权利要求11所述的方法,所述当对线上提示词执行下线操作时,对所述线上提示词对应的所有版本进行软删除,包括:
将所述线上提示词的基本信息存储到元信息表中;
当检测出没有用户正在编辑所述线上提示词时,基于所述元信息表,对所述线上提示词对应的所有版本进行软删除。
16.一种提示词全生命周期管理***,包括:
提示词获取模块,用于获取原始提示词;
迭代优化模块,用于基于模型协同优化方法对所述原始提示词进行迭代优化,得到迭代优化后的提示词;
测试模块,用于采用与大模型之间进行多轮对话的模式,对所述迭代优化后的提示词进行测试,得到测试后的有效提示词;
评估模块,用于根据评估指标对所述有效提示词进行评估,得到符合评估指标的提示词;
线上版本管理模块,用于根据版本比较并替换方法对所述符合评估指标的提示词进行线上版本管理。
17.一种电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1~15任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~15任一项所述的方法。
CN202311471134.7A 2023-11-06 2023-11-06 提示词全生命周期管理方法、***、电子设备、存储介质 Pending CN117494814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311471134.7A CN117494814A (zh) 2023-11-06 2023-11-06 提示词全生命周期管理方法、***、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311471134.7A CN117494814A (zh) 2023-11-06 2023-11-06 提示词全生命周期管理方法、***、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN117494814A true CN117494814A (zh) 2024-02-02

Family

ID=89682380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311471134.7A Pending CN117494814A (zh) 2023-11-06 2023-11-06 提示词全生命周期管理方法、***、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN117494814A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744753A (zh) * 2024-02-19 2024-03-22 浙江同花顺智能科技有限公司 大语言模型的提示词确定方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744753A (zh) * 2024-02-19 2024-03-22 浙江同花顺智能科技有限公司 大语言模型的提示词确定方法、装置、设备及介质
CN117744753B (zh) * 2024-02-19 2024-05-03 浙江同花顺智能科技有限公司 大语言模型的提示词确定方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11537793B2 (en) System for providing intelligent part of speech processing of complex natural language
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN107832433B (zh) 基于对话交互的信息推荐方法、装置、服务器和存储介质
US11961509B2 (en) Training a user-system dialog in a task-oriented dialog system
CN111738016B (zh) 多意图识别方法及相关设备
US10977155B1 (en) System for providing autonomous discovery of field or navigation constraints
US11308940B2 (en) Counterfactual annotated dialogues for conversational computing
CN116521841B (zh) 用于生成回复信息的方法、装置、设备及介质
US11763095B2 (en) Creating apps from natural language descriptions
Sonntag Ontologies and adaptivity in dialogue for question answering
CN116821457B (zh) 一种基于多模态大模型的智能咨询及舆情处理***
CN117494814A (zh) 提示词全生命周期管理方法、***、电子设备、存储介质
Saha et al. Towards sentiment-aware multi-modal dialogue policy learning
Tiwari et al. A dynamic goal adapted task oriented dialogue agent
Devi et al. ChatGPT: Comprehensive Study On Generative AI Tool
Zheng et al. BIM-GPT: a prompt-based virtual Assistant framework for BIM information retrieval
US11544467B2 (en) Systems and methods for identification of repetitive language in document using linguistic analysis and correction thereof
Orin Implementation of a Bangla chatbot
CN117193738A (zh) 应用搭建方法、装置、设备及存储介质
CN117035078A (zh) 一种多模态知识图谱统一表示学习框架
Tamla Supporting access to textual resources using named entity recognition and document classification
Buddhiraja et al. IntelliAssistant–AI based Personal Assistant
US20240038226A1 (en) Prompt generation for guided custom machine learning collaboration
US20240153396A1 (en) Language learning
Gasós et al. Intelligent E-commerce with guiding agents based on Personalized Interaction Tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination