CN117744753B - 大语言模型的提示词确定方法、装置、设备及介质 - Google Patents

大语言模型的提示词确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN117744753B
CN117744753B CN202410182475.0A CN202410182475A CN117744753B CN 117744753 B CN117744753 B CN 117744753B CN 202410182475 A CN202410182475 A CN 202410182475A CN 117744753 B CN117744753 B CN 117744753B
Authority
CN
China
Prior art keywords
current
word
prompt
language model
prompting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410182475.0A
Other languages
English (en)
Other versions
CN117744753A (zh
Inventor
王强
赵愿
马中柱
陈康明
吴海胖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Original Assignee
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tonghuashun Intelligent Technology Co Ltd filed Critical Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority to CN202410182475.0A priority Critical patent/CN117744753B/zh
Publication of CN117744753A publication Critical patent/CN117744753A/zh
Application granted granted Critical
Publication of CN117744753B publication Critical patent/CN117744753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种大语言模型的提示词确定方法、装置、设备及介质,涉及计算机技术领域,包括:利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;从当前提示词集合中选择当前提示词,将当前提示词确定为当前动作;将当前动作和当前测试样本输入至目标大语言模型,以便目标大语言模型生成当前测试结果;根据当前测试结果及其准确性得分对当前提示词集合进行调整,得到下一提示词集合,基于准确性得分从下一提示词集合中选择下一提示词,以进行下一轮的提示词准确性得分确定,直至满足预设停止测试条件,以确定目标大语言模型的目标提示词集合。通过上述方案,能够确定出准确的提示词以提升大语言模型的推理能力。

Description

大语言模型的提示词确定方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,特别涉及大语言模型的提示词确定方法、装置、设备及介质。
背景技术
近年来,随着语言模型技术的不断发展,模型的参数量已经增至千亿乃至万亿级别。例如,像GPT(Generative Pre-trained Transformer)-3这样的大型模型的出现极大地推动了自然语言处理(Natural language processing,即NLP)技术领域的进步。这些千亿级大模型在处理任务时通常只需要进行小样本或零样本学习,无需依赖大量标注数据进行精细调整,就能够取得出色的效果。这一成就主要得益于prompt(提示词)的使用方式,通过合理引导大模型的输入,从而获得所期望的输出结果。
为了进一步提高大语言模型在推理任务中的性能,研究者们提出了一些创新方法。其中之一是思维链提示(Chain-of-Thought Prompting),通过逐步引导模型进行推理,生成多步的推理解释来解决复杂的推理任务。这种方法使得模型能够按照合理的思维步骤进行推理,从而提高推理的准确性和可解释性。
在现有研究中,存在一个问题,即在大型语言模型的测试阶段提升性能时,对于提示词的准确性验证存在一些不足,这意味着在选择最佳的提示词时可能存在偏差或错误,从而影响模型在复杂推理任务中的表现。
综上可见,如何确定出准确的提示词以提升大语言模型的推理能力是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种大语言模型的提示词确定方法、装置、设备及介质,能够确定出准确的提示词以提升大语言模型的推理能力。其具体方案如下:
第一方面,本申请公开了一种大语言模型的提示词确定方法,包括:
利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;
从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;
将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;
根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;
基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。
可选的,所述根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,包括:
确定所述目标大语言模型生成当前测试结果的速度得分;
根据所述速度得分和所述准确性得分确定折扣奖励和,并基于所述折扣奖励和对所述当前提示词集合进行调整,以得到下一提示词集合。
可选的,所述基于所述准确性得分从所述当前提示词集合中选择下一提示词,包括:
基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词。
可选的,所述基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词,包括:
确定第一预设概率和第二预设概率;其中,所述第一预设概率和所述第二预设概率之和为1;
以所述第一预设概率从所述当前提示词集合中选择所述准确性得分满足预设条件的第一目标提示词;
以所述第二预设概率从所述当前提示词集合中选择第二目标提示词;
基于所述第一目标提示词和所述第二目标提示词获取下一提示词。
可选的,所述基于所述准确性得分从所述当前提示词集合中选择下一提示词,包括:
基于所述准确性得分,并利用基于置信度上界的探索策略从所述当前提示词集合中选择下一提示词。
可选的,所述确定所述当前测试结果的准确性得分,包括:
利用验证器模型或辩论模型确定所述当前测试结果的准确性得分。
可选的,所述确定所述当前测试结果的准确性得分,包括:
获取所述目标大语言模型输出的所述当前测试结果的准确性评估得分;
利用所述验证器模型获取所述当前测试结果的置信度评估得分;
基于所述准确性评估得分和所述置信度评估得分确定所述当前测试结果的准确性得分。
第二方面,本申请公开了一种大语言模型的提示词确定装置,包括:
大语言模型训练模块,语言利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;
当前动作确定模块,用于从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;
准确性得分确定模块,用于将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;
提示词更新模块,用于根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;
目标提示词确定模块,用于基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的大语言模型的提示词确定方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的大语言模型的提示词确定方法的步骤。
本申请有益效果为:本申请利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。由此可见,本申请得到目标大语言模型后,在测试阶段利用强化学习对提示词集合进行确定,以确定出更加准确的目标提示词集合,即确定提示词的准确性得分,并根据测试结果和准确性得分调整提示词,直至满足预设停止测试条件,输出的当前提示词集合就是最终的目标提示词集合,根据各个提示词的准确性得分可以得到准确度更高的目标提示词集合,如此一来,利用准确度更高的目标提示词集合可以提升目标大语言模型的推理能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种大语言模型的提示词确定方法流程图;
图2为本申请公开的一种具体的大语言模型的提示词确定方法流程图;
图3为本申请公开的一种大语言模型的提示词确定装置结构示意图;
图4为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了进一步提高大语言模型在推理任务中的性能,研究者们提出了一些创新方法。其中之一是思维链提示,通过逐步引导模型进行推理,生成多步的推理解释来解决复杂的推理任务。这种方法使得模型能够按照合理的思维步骤进行推理,从而提高推理的准确性和可解释性。
在现有研究中,存在一个问题,即在大型语言模型的测试阶段提升性能时,对于提示词的准确性验证存在一些不足,这意味着在选择最佳的提示词时可能存在偏差或错误,从而影响模型在复杂推理任务中的表现。
为此本申请相应的提供了一种大语言模型的提示词确定方案,能够确定出准确的提示词以提升大语言模型的推理能力。
参见图1所示,本申请实施例公开了一种大语言模型的提示词确定方法,包括:
步骤S11:利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型。
可以理解的是,在训练阶段中采集训练数据,对训练数据进行分词、标注等预处理操作,得到初始提示词集合,并选择初始大语言模型,然后利用初始提示词集合对初始大语言模型进行多轮迭代训练,在每一轮迭代训练过程中,根据模型输出的训练结果计算训练结果的准确性奖励和速度奖励,并确定准确性奖励和速度奖励的奖励之和,根据奖励之和以及策略梯度方法更新大语言模型的参数,直至满足迭代训练停止条件,得到目标大语言模型,其中,可以是迭代训练的次数到达预设阈值即为满足迭代训练停止条件,也可以是模型的收敛程度到达预设阈值即为满足迭代训练停止条件。
步骤S12:从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作。
在测试阶段确定出当前动作,并基于强化学习算法和当前动作进行本轮测试,也就是说,预先采集多个提示词以得到当前提示词集合,然后从当前提示词集合中选择当前提示词,并将当前提示词作为当前动作,例如“给定前提‘A是B’和问题‘C是A’,预测结论‘C是B’”等。强化学习算法可以通过学习如何选择最优的动作(即最佳的提示词),从而提升模型的性能。通过将强化学习应用于提示词选择的问题,本实施例能够实现自适应学习和动态调整,使模型能够快速适应不同的推理任务,提高推理性能。
步骤S13:将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分。
将当前动作和当前测试样本输入目标大语言模型,以便目标大语言模型基于当前测试样本,并在当前动作的引导下生成当前测试结果。目标大语言模型生成当前测试结果后,计算当前测试结果的准确性得分。
步骤S14:根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合。
本实施例中,所述根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,包括:确定所述目标大语言模型生成当前测试结果的速度得分;根据所述速度得分和所述准确性得分确定折扣奖励和,并基于所述折扣奖励和对所述当前提示词集合进行调整,以得到下一提示词集合。基于折扣奖励和对当前提示词集合进行调整,如此一来,得到的下一提示词集合会使得目标大语言模型处理速度更快、输出的结果准确度更高,其中,折扣奖励公式具体如下:
式中,表示折扣奖励,/>表示在第t个时间步的准确性得分,/>表示在第t个时间步的速度得分,/>表示准确性得分和速度得分之间的重要性权重。
可以使用基于策略梯度的方法来最大化预期奖励。具体而言,可以使用如下公式计算梯度:
式中,表示目标大语言模型的参数,/>表示策略/>的期望,/>表示策略/>的性能指标,/>表示时间步t的状态,/>表示时间步t的动作,可以使用蒙特卡罗采样方法来估计期望值。
步骤S15:基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。
在一种具体实施例中,所述基于所述准确性得分从所述当前提示词集合中选择下一提示词,包括:基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词。可以理解的是,可以根据准确性得分,并利用贪心策略从当前提示词集合中选择下一提示词。
本实施例中,所述基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词,包括:确定第一预设概率和第二预设概率;其中,所述第一预设概率和所述第二预设概率之和为1;以所述第一预设概率从所述当前提示词集合中选择所述准确性得分满足预设条件的第一目标提示词;以所述第二预设概率从所述当前提示词集合中选择第二目标提示词;基于所述第一目标提示词和所述第二目标提示词获取下一提示词。确定第一预设概率和第二预设概率/>,以概率/>从当前提示词集合中选择准确性得分满足预设条件的第一目标提示词,也就是说,选择具有最高性能的第一目标提示词,即第一目标提示词的准确性得分较高,以概率/>从当前提示词集合中选择第二目标提示词,该第二目标提示词的准确性得分较低,如此一来,可以基于第一目标提示词和第二目标提示词获取下一提示词。
在另一种具体实施例中,所述基于所述准确性得分从所述当前提示词集合中选择下一提示词,包括:基于所述准确性得分,并利用基于置信度上界的探索策略从所述当前提示词集合中选择下一提示词。选择下一提示词时还可以利用基于置信度上界的探索策略(Upper Confidence Bound,即UCB),即根据已有的信息来进行探索,同时最大化收益的上界,UCB策略具有更好的理论保证。
本申请有益效果为:本申请利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。由此可见,本申请得到目标大语言模型后,在测试阶段利用强化学习对提示词集合进行确定,以确定出更加准确的目标提示词集合,即确定提示词的准确性得分,并根据测试结果和准确性得分调整提示词,直至满足预设停止测试条件,输出的当前提示词集合就是最终的目标提示词集合,根据各个提示词的准确性得分可以得到准确度更高的目标提示词集合,如此一来,利用准确度更高的目标提示词集合可以提升目标大语言模型的推理能力。
参见图2所示,本申请实施例公开了一种具体的大语言模型的提示词确定方法,包括:
步骤S21:利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型。
步骤S22:从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作。
步骤S23:将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果。
步骤S24:利用验证器模型或辩论模型确定所述当前测试结果的准确性得分。
可以使用验证器或辩论等方法确定当前测试结果的准确性得分,验证器模型是一种能够对模型输出进行二次评估的模型,可以提供更可靠的提示词准确性验证,辩论是一种同时使用多个模型进行对话的方法,可以提供更多的提示词探索空间,并验证其正确性。可以理解的是,如果利用验证器模型确定当前测试结果的准确性得分,则预先选择初始的验证器模型,并初始化提示词集合,利用该提示词集合训练初始的验证器模型,直至得到最终的验证器模型;同理,如果利用辩论模型确定当前测试结果的准确性得分,则预先选择初始的辩论模型,并初始化提示词集合,利用该提示词集合训练初始的辩论模型,直至得到最终的辩论模型。
本实施例中还可以利用除验证器以外的其他验证方法确定准确性得分,根据具体应用场景和所需准确性水平确定所利用的验证方法,验证方法可以是交叉验证、引入外部评估数据集、使用启发式评估方法、或者采用与验证器不同的机器学习模型来评估准确性得分。
本实施例中,所述确定所述当前测试结果的准确性得分,包括:获取所述目标大语言模型输出的所述当前测试结果的准确性评估得分;利用所述验证器模型获取所述当前测试结果的置信度评估得分;基于所述准确性评估得分和所述置信度评估得分确定所述当前测试结果的准确性得分。利用验证器模型确定当前测试结果的准确性得分具体过程为:
1)获取目标大语言模型输出的当前测试结果的准确性评估得分
2)利用验证器模型获取当前测试结果的置信度评估得分
3)基于准确性评估得分和置信度评估得分确定当前测试结果的准确性得分,具体公式如下所示:
式中,和/>表示权重系数,用于平衡准确性和置信度的重要性,在实际应用中,可以根据具体需求和实验结果进行调整和优化。
需要注意的是,关于验证器模型,需要综合考虑以下因素:任务需求、数据特征和模型性能。验证器模型通过接收模型的输出并生成准确性验证的二元标签,提供可靠的提示词准确性验证。为了设计和训练验证器模型,可以采取以下步骤:收集带有正确答案的训练数据,并进行必要的预处理;选择适当的模型架构,包括输入表示、网络结构和输出层;使用适当的损失函数和优化算法训练模型;通过验证集评估模型性能并调整超参数;最后,在推理过程中使用验证器模型对模型的输出进行二次评估,以获得准确性验证。如此一来,可以设计和训练一个准确可靠的验证器模型来支持提示词的选择和推理过程。
步骤S25:根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合。
可以理解的是,根据当前测试结果和准确性得分对当前提示词集合进行调整时,具体可以是剔除准确性得分较低的提示词,保留准确性得分较高的提示词,如此一来,后续目标提示词集合中的提示词准确性得分高,可以使得目标大语言模型性能更好。
步骤S26:基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。
由此可见,本申请提出在测试时的boosting算法中引入验证器或其他验证方法来对目标大语言模型的输出进行二次评估,通过引入独立的验证模型,可以对模型生成的测试结果进行准确性验证。这种验证机制可以有效解决现有方法中对提示词准确性验证不足的问题,提供更可靠的验证机制,避免选择具有偏差或错误的提示词,以确保所选择的提示词是正确和有效的。
参见图3所示,本申请实施例公开了一种大语言模型的提示词确定装置,包括:
大语言模型训练模块11,语言利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;
当前动作确定模块12,用于从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;
准确性得分确定模块13,用于将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;
提示词更新模块14,用于根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;
目标提示词确定模块15,用于基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。
本申请有益效果为:本申请利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合。由此可见,本申请得到目标大语言模型后,在测试阶段利用强化学习对提示词集合进行确定,以确定出更加准确的目标提示词集合,即确定提示词的准确性得分,并根据测试结果和准确性得分调整提示词,直至满足预设停止测试条件,输出的当前提示词集合就是最终的目标提示词集合,根据各个提示词的准确性得分可以得到准确度更高的目标提示词集合,如此一来,利用准确度更高的目标提示词集合可以提升目标大语言模型的推理能力。
进一步的,本申请实施例还提供了一种电子设备。图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备的结构示意图。具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的由电子设备执行的大语言模型的提示词确定方法中的相关步骤。
本实施例中,电源23用于为电子设备上的各硬件设备提供工作电压;通信接口24能够为电子设备创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作***221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作***221用于管理与控制电子设备上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备执行的大语言模型的提示词确定方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的大语言模型的提示词确定方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(Random Access Memory,即RAM)、内存、只读存储器(Read-Only Memory,即ROM)、电可编程EPROM(Erasable Programmable Read Only Memory)、电可擦除可编程EEPROM(Electrically Erasable Programmable read only memory)、寄存器、硬盘、可移动磁盘、CD-ROM(CoMP23035834act Disc Read-Only Memory,即紧凑型光盘只读储存器)、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种大语言模型的提示词确定方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种大语言模型的提示词确定方法,其特征在于,包括:
利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;
从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;
将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;
根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;
基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合;
所述根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,包括:
确定所述目标大语言模型生成当前测试结果的速度得分;根据所述速度得分和所述准确性得分确定折扣奖励和,并基于所述折扣奖励和对所述当前提示词集合进行调整,以得到下一提示词集合;
所述基于所述准确性得分从所述当前提示词集合中选择下一提示词,包括:
基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词;
所述基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词,包括:
确定第一预设概率和第二预设概率;其中,所述第一预设概率和所述第二预设概率之和为1;以所述第一预设概率从所述当前提示词集合中选择所述准确性得分满足预设条件的第一目标提示词;以所述第二预设概率从所述当前提示词集合中选择第二目标提示词;基于所述第一目标提示词和所述第二目标提示词获取下一提示词;
所述基于所述准确性得分从所述当前提示词集合中选择下一提示词,包括:
基于所述准确性得分,并利用基于置信度上界的探索策略从所述当前提示词集合中选择下一提示词。
2.根据权利要求1所述的大语言模型的提示词确定方法,其特征在于,所述确定所述当前测试结果的准确性得分,包括:
利用验证器模型或辩论模型确定所述当前测试结果的准确性得分。
3.根据权利要求2所述的大语言模型的提示词确定方法,其特征在于,所述确定所述当前测试结果的准确性得分,包括:
获取所述目标大语言模型输出的所述当前测试结果的准确性评估得分;
利用所述验证器模型获取所述当前测试结果的置信度评估得分;
基于所述准确性评估得分和所述置信度评估得分确定所述当前测试结果的准确性得分。
4.一种大语言模型的提示词确定装置,其特征在于,包括:
大语言模型训练模块,语言利用强化学习算法对初始大语言模型进行训练,以得到目标大语言模型;
当前动作确定模块,用于从当前提示词集合中选择当前提示词,并将所述当前提示词确定为当前动作;
准确性得分确定模块,用于将所述当前动作和当前测试样本输入至所述目标大语言模型,以便所述目标大语言模型生成当前测试结果,并确定所述当前测试结果的准确性得分;
提示词更新模块,用于根据所述当前测试结果和所述准确性得分对所述当前提示词集合进行调整,以得到下一提示词集合,并将所述下一提示词集合更新为当前提示词集合;
目标提示词确定模块,用于基于所述准确性得分从所述当前提示词集合中选择下一提示词,并将所述下一提示词更新为当前提示词,然后重新跳转至所述将所述当前提示词确定为当前动作的步骤,直至满足预设停止测试条件,以将输出的当前提示词集合确定为所述目标大语言模型的目标提示词集合;
所述提示词更新模块,具体用于:
确定所述目标大语言模型生成当前测试结果的速度得分;根据所述速度得分和所述准确性得分确定折扣奖励和,并基于所述折扣奖励和对所述当前提示词集合进行调整,以得到下一提示词集合;
所述目标提示词确定模块,具体用于:
基于所述准确性得分,并利用贪心策略从所述当前提示词集合中选择下一提示词;
所述目标提示词确定模块,还具体用于:
确定第一预设概率和第二预设概率;其中,所述第一预设概率和所述第二预设概率之和为1;以所述第一预设概率从所述当前提示词集合中选择所述准确性得分满足预设条件的第一目标提示词;以所述第二预设概率从所述当前提示词集合中选择第二目标提示词;基于所述第一目标提示词和所述第二目标提示词获取下一提示词;
所述目标提示词确定模块,具体用于:
基于所述准确性得分,并利用基于置信度上界的探索策略从所述当前提示词集合中选择下一提示词。
5.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至3任一项所述的大语言模型的提示词确定方法的步骤。
6.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的大语言模型的提示词确定方法的步骤。
CN202410182475.0A 2024-02-19 2024-02-19 大语言模型的提示词确定方法、装置、设备及介质 Active CN117744753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410182475.0A CN117744753B (zh) 2024-02-19 2024-02-19 大语言模型的提示词确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410182475.0A CN117744753B (zh) 2024-02-19 2024-02-19 大语言模型的提示词确定方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117744753A CN117744753A (zh) 2024-03-22
CN117744753B true CN117744753B (zh) 2024-05-03

Family

ID=90253076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410182475.0A Active CN117744753B (zh) 2024-02-19 2024-02-19 大语言模型的提示词确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117744753B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754020B1 (en) * 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
CN107590119A (zh) * 2016-07-07 2018-01-16 北京国双科技有限公司 人物属性信息抽取方法及装置
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及***
WO2022026984A1 (en) * 2020-07-31 2022-02-03 Splunk Inc. Data field extraction model training for a data intake and query system
CN115758707A (zh) * 2022-11-10 2023-03-07 北京航天驭星科技有限公司 卫星东西保持策略模型的建模方法、模型、获取方法
CN116186243A (zh) * 2023-01-03 2023-05-30 华润数字科技有限公司 文本摘要生成方法、装置、设备和存储介质
CN117093696A (zh) * 2023-10-16 2023-11-21 浙江同花顺智能科技有限公司 一种大语言模型的提问文本生成方法、装置、设备及介质
WO2023231961A1 (zh) * 2022-06-02 2023-12-07 华为技术有限公司 一种多智能体强化学习方法及相关装置
CN117237893A (zh) * 2023-09-12 2023-12-15 南京工业大学 基于实例自适应动态神经网络的自动驾驶多目标检测方法
CN117272797A (zh) * 2023-09-18 2023-12-22 杭州电子科技大学 用于微波负群时延电路谐振结构的联合仿真优化方法及***
CN117407498A (zh) * 2023-10-17 2024-01-16 上海青木易立网络科技有限公司 自动调整提示词的大语言模型回复方法、***、终端及介质
CN117422067A (zh) * 2023-10-10 2024-01-19 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质
CN117494814A (zh) * 2023-11-06 2024-02-02 支付宝(杭州)信息技术有限公司 提示词全生命周期管理方法、***、电子设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220391687A1 (en) * 2021-06-03 2022-12-08 Google Llc Reinforcement learning algorithm search
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754020B1 (en) * 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
CN107590119A (zh) * 2016-07-07 2018-01-16 北京国双科技有限公司 人物属性信息抽取方法及装置
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及***
WO2022026984A1 (en) * 2020-07-31 2022-02-03 Splunk Inc. Data field extraction model training for a data intake and query system
WO2023231961A1 (zh) * 2022-06-02 2023-12-07 华为技术有限公司 一种多智能体强化学习方法及相关装置
CN117236459A (zh) * 2022-06-02 2023-12-15 华为技术有限公司 一种多智能体强化学习方法及相关装置
CN115758707A (zh) * 2022-11-10 2023-03-07 北京航天驭星科技有限公司 卫星东西保持策略模型的建模方法、模型、获取方法
CN116186243A (zh) * 2023-01-03 2023-05-30 华润数字科技有限公司 文本摘要生成方法、装置、设备和存储介质
CN117237893A (zh) * 2023-09-12 2023-12-15 南京工业大学 基于实例自适应动态神经网络的自动驾驶多目标检测方法
CN117272797A (zh) * 2023-09-18 2023-12-22 杭州电子科技大学 用于微波负群时延电路谐振结构的联合仿真优化方法及***
CN117422067A (zh) * 2023-10-10 2024-01-19 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质
CN117093696A (zh) * 2023-10-16 2023-11-21 浙江同花顺智能科技有限公司 一种大语言模型的提问文本生成方法、装置、设备及介质
CN117407498A (zh) * 2023-10-17 2024-01-16 上海青木易立网络科技有限公司 自动调整提示词的大语言模型回复方法、***、终端及介质
CN117494814A (zh) * 2023-11-06 2024-02-02 支付宝(杭州)信息技术有限公司 提示词全生命周期管理方法、***、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯冲 ; 陈肇雄 ; 黄河燕 ; 关真珍 ; .基于Multigram语言模型的主动学习中文分词.中文信息学报.2006,(第01期),全文. *

Also Published As

Publication number Publication date
CN117744753A (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
US11227581B2 (en) Systems and methods for generating a response based on task-independent conversational responses or task-specific responses
CN111602148B (zh) 正则化神经网络架构搜索
US10936949B2 (en) Training machine learning models using task selection policies to increase learning progress
CN108630190B (zh) 用于生成语音合成模型的方法和装置
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN110852438B (zh) 模型生成方法和装置
US10083169B1 (en) Topic-based sequence modeling neural networks
EP4231197A1 (en) Training machine learning models on multiple machine learning tasks
US10656605B1 (en) Recurrent neural networks for online sequence generation
US7734471B2 (en) Online learning for dialog systems
EP3971786A1 (en) Feedforward generative neural networks
RU2708941C1 (ru) Способ и устройство распознавания сегментированных предложений для человеко-машинной интеллектуальной вопросно-ответной системы
US11488067B2 (en) Training machine learning models using teacher annealing
US10679006B2 (en) Skimming text using recurrent neural networks
EP3475890A1 (en) Reward augmented model training
CN109918568B (zh) 个性化学习方法、装置、电子设备及存储介质
US20220215209A1 (en) Training machine learning models using unsupervised data augmentation
CN116595356B (zh) 时序信号预测方法、装置、电子设备及存储介质
Tagliaferri et al. A real-time strategy-decision program for sailing yacht races
CN115827838A (zh) 基于故事续写和动态知识库的对话生成方法及***
WO2018204706A2 (en) Recurrent neural networks for online sequence generation
CN114219078A (zh) 一种神经网络模型交互训练方法、装置及存储介质
CN117744753B (zh) 大语言模型的提示词确定方法、装置、设备及介质
US11676035B2 (en) Learning non-differentiable weights of neural networks using evolutionary strategies
CN117093684A (zh) 企业服务领域预训练对话式大语言模型的构建方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant