CN117708307B

CN117708307B - 一种大语言模型微调和Adapter融合方法及装置

Info

Publication number: CN117708307B
Application number: CN202410170139.4A
Authority: CN
Inventors: 王震; 高德宏; 马宇飞; 蔡晓妍; 杨黎斌
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-05-14
Anticipated expiration: 2044-02-06
Also published as: CN117708307A

Abstract

本发明公开了一种大语言模型微调和Adapter融合方法及装置，涉及深度学***台上收集多个问答数据集和对话数据集；对问答数据集和对话数据集分别进行LoRA‑adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；得到问答数据集和对话数据集在理想状态下的理想损失函数、理想融合权重和第一理想参数；得到问答LoRA‑adapter的最佳参数、对话LoRA‑adapter的最佳参数和最佳融合参数；根据问答LoRA‑adapter的最佳参数、对话LoRA‑adapter的最佳参数和所述最佳融合参数得到通用LORA‑adapter。

Description

一种大语言模型微调和Adapter融合方法及装置

技术领域

本发明涉及深度学习领域，更具体的涉及一种大语言模型微调和Adapter融合方法及装置。

背景技术

训练大型语言模型具有重要的科研和应用价值，能够提升自然语言处理任务的性能，改进对话***的交互体验，推动科学研究、技术创新和人工智能发展的普惠性。大型语言模型通过训练海量的语料库，能够学习到丰富的语言知识和语法规则，从而在如机器翻译、文本生成和文本分类等自然语言处理任务中表现出更好的性能。这些模型能够理解和生成更准确、更流畅的自然语言。大型语言模型可用于构建智能对话***，通过与用户进行对话，提供更加自然、准确和个性化的回复。训练出的模型能够理解和生成人类语言，从而能够更好地满足用户的需求，提升对话***的交互体验。训练大型语言模型需要处理海量的数据和庞大的计算资源，这对于推动科学研究和技术创新具有重要意义。训练大型语言模型的过程中，需要解决许多技术挑战，如数据处理、模型设计、训练算法等，这些挑战的解决对于相关领域的研究和发展都有积极的推动作用。

目前大型语言模型训练采用的常规方案为：收集大量的指令微调数据，对其进行融合后构建出来一个大规模的数据集，在此数据集上微调开源大语言模型。然而，将多个数据集融合构建一个多功能数据集似乎是不可能的，一方面不同数据集之间可能存在矛盾的可能性，而且很难评估数据的质量；另一方面这些数据集由各种特定任务的实例组成，例如数学、编码、角色扮演、写作等。若将这些数据集混合，并在这个融合数据集上进行微调时，大语言模型的性能可能会下降，甚至出现严重下降的问题。

发明内容

本发明实施例提供一种大语言模型微调和Adapter融合方法及装置，可以防止由于不同数据集在语义空间中存在冲突而导致性能下降的问题。

本发明实施例提供一种大语言模型微调和Adapter融合方法，包括：

从设定网络平台上收集多个问答数据集和对话数据集，对所述问答数据集和所述对话数据集分别进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；

根据所述问答负对数似然损失函数、所述对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，得到所述问答数据集和所述对话数据集在理想状态下的理想损失函数，根据所述理想损失函数的最小值得到所述理想损失函数所对应的理想融合权重和第一理想参数；其中，所述第一理想参数表示分别添加到所述问答大语言模型和所述对话大语言模型的所有的LoRA-adapter；

根据所述理想损失函数，对每个所述问答数据集对应的问答LoRA-adapter、每个所述对话数据集对应的对话LoRA-adapter进行微调，分别得到问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数；

根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter。

优选地，所述对所述问答数据集进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数，具体包括：

对所述问答数据集进行训练得到问答LoRA-adapter，根据所述问答LoRA-adapter和所述问答数据集，得到所述问答大语言模型；

根据所述问答大语言模型和所述问答大语言模型的token得到所述问答负对数似然损失函数；

所述问答数据集、所述问答大语言模型和所述问答负对数似然损失函数如下所示：

其中，Q_i表示第i个问答数据集，s_i,j表示第i个问答数据集的第j个***信息，q_i,j表示第i个问答数据集的第j个问题，r_i,j表示第i个问答数据集的第j个回复，|Q_i|表示问答数据集Q_i的长度，表示在问答数据集Q_i上训练得到的问答LoRA-adapter，|r_i,j|表示r_i,j的长度，r_k表示大语言模型生成的第k个token，p_θ表示大语言模型，θ表示大语言模型的冻结参数，/>表示问答负对数似然损失函数。

优选地，所述对所述对话数据集进行LoRA-adapter微调，依次得到对话大语言模型、对话负对数似然损失函数，具体包括：

对所述对话数据集进行训练得到对话LoRA-adapter，根据所述对话LoRA-adapter和所述对话数据集，得到对话大语言模型；

根据所述对话大语言模型和所述对话大语言模型的token得到所述对话负对数似然损失函数；

所述对话数据集、对话大语言模型和所述对话负对数似然损失函数如下所示：

其中，C_i表示第i个对话数据集，表示第T轮中第i个对话数据集的第j个查询，表示第T轮中第i个对话数据集的第j个回复，|C_i|表示对话数据集C_i的长度，/>表示在对话数据集C_i上训练得到的对话LoRA-adapter，Q_j表示属于用户查询的所有标记，R_j表示目标标记，/>表示对话数据集C_i中第j个数据包含token的数量，/>表示对话负对数似然损失函数，p_θ表示大语言模型，θ表示大语言模型的冻结参数。

优选地，所述理想损失函数如下所示：

所述理想损失函数的最小值如下所示：

其中，L表示理想损失函数，表示在问答数据集Q_i上微调获得/>的初始融合权重，/>表示在对话数据集C_i上微调获得/>的初始融合权重，A^*表示所有的第一理想参数，ω^*表示所有的理想融合权重，A表示第一理想参数，ω表示理想融合权重。

优选地，所述第一理想参数如下所示：

所述理想融合权重如下所示：

其中，A表示第一理想参数，表示在问答数据集Q_M上微调获得的第一理想参数，表示在对话数据集C_N上微调获得的第一理想参数，M表示问答数据集的数量，N表示对话数据集的数量，ω表示理想融合权重，/>表示/>的理想融合权重，/>表示/>的理想融合权重。

优选地，所述问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数如下所示：

其中，表示问答LoRA-adapter的最佳参数，/>表示对话LoRA-adapter的最佳参数，ω^**表示最佳融合参数，/>表示问答负对数似然损失函数，/>表示对话负对数似然损失函数，/>表示在问答数据集Q_i上微调获得的初始融合权重，/>表示在对话数据集C_i上微调获得的初始融合权重，/>表示在对话数据集C_i上训练得到的对话LoRA-adapter。

本发明实施例提供一种大语言模型微调和Adapter融合装置，包括：

第一得到单元，用于从设定网络平台上收集多个问答数据集和对话数据集；对所述问答数据集和对话数据集分别进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；

第二得到单元，用于根据所述问答负对数似然损失函数、所述对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，得到问答数据集和对话数据集在理想状态下的理想损失函数，根据所述理想损失函数的最小值得到理想损失函数所对应的理想融合权重和第一理想参数；其中，所述第一理想参数表示分别添加到所述问答大语言模型和所述对话大语言模型的所有的LoRA-adapter；

第三得到单元，用于根据所述理想损失函数，对每个所述问答数据集对应的问答LoRA-adapter、每个所述对话数据集对应的对话LoRA-adapter进行微调，分别得到问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数；

第四得到单元，用于根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter。

本发明实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一项所述的大语言模型微调和Adapter融合方法。

本发明实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任意一项所述的大语言模型微调和Adapter融合方法。

本发明实施例提供一种大语言模型微调和Adapter融合方法及装置，该方法包括：从设定网络平台上收集多个问答数据集和对话数据集；对所述问答数据集和对话数据集分别进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；根据所述问答负对数似然损失函数、所述对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，得到问答数据集和对话数据集在理想状态下的理想损失函数，根据所述理想损失函数的最小值得到理想损失函数所对应的理想融合权重和第一理想参数；其中，所述第一理想参数表示分别添加到所述问答大语言模型和所述对话大语言模型的所有的LoRA-adapter；根据所述理想损失函数，对每个所述问答数据集对应的问答LoRA-adapter、每个所述对话数据集对应的对话LoRA-adapter进行微调，分别得到问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数；根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter。该方法通过构建多个指令微调数据集，利用QLoRA的量化技术来节约GPU(英文为：Graphic Process Unit，中文为：图形处理器)的消耗，提供了一种节约计算资源成本且高质量的大语言模型训练方式，同时设计了基于Grid-Search(中文为：调参手段)优化多LoRA-adapter融合方式对训练出的LoRA-adapter进行融合。该方法通过对LoRA-adapter进行融合，可以有效避免数据集融合引起的语义空间冲突，同时提升大语言模型在多个任务上的泛化性能。解决了现有技术中由于不同数据集在语义空间中存在冲突而导致性能下降的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种大语言模型微调和Adapter融合方法流程示意图；

图2为本发明实施例提供的一种大语言模型微调和Adapter融合装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

训练大型语言模型不仅仅是为了提升自然语言处理任务的性能和改进对话***的交互体验，它还在科研和应用领域具有更为丰富的价值和意义。

首先，大型语言模型通过训练海量的语料库，能够学习到丰富的语言知识和语法规则。这些模型可以理解和生成更准确、更流畅的自然语言，为机器翻译、文本生成、文本分类等自然语言处理任务提供更好的性能表现。在机器翻译任务中，大型语言模型能够更准确地理解源语言的含义并生成更自然的目标语言翻译结果。在文本生成任务中，模型能够生成更富有逻辑和连贯性的文本内容。在文本分类任务中，模型可以更准确地判断文本的类别，提升分类的准确率。

其次，大型语言模型可用于构建智能对话***，通过与用户进行对话，提供更加自然、准确和个性化的回复。这种能力对于日常生活中的聊天机器人、智能客服等场景非常有用。训练出的模型能够理解和生成人类语言，从而能够更好地满足用户的需求，提升对话***的交互体验。对话***可以通过模型生成个性化回复，使用户感受到与人类对话一样的交互体验，增强用户的满意度。

此外，训练大型语言模型需要处理海量的数据和庞大的计算资源，这对于推动科学研究和技术创新具有重要意义。在训练大型语言模型的过程中，需要解决许多技术挑战，如数据处理、模型设计、训练算法等。这些挑战的解决不仅能够推动语言模型的发展，还有助于相关领域的研究和发展。例如，通过对模型进行改进和优化，可以提高模型的效率和性能，为其他自然语言处理任务的开发和应用提供技术支持。

最后，训练大型语言模型可以提供智能化的自然语言处理服务，促进人工智能技术的普惠性发展。这些模型可以被应用于各个领域，如教育、医疗、金融等。在教育领域，模型可以用于辅助学***台。在医疗领域，模型可以用于辅助医生诊断、智能化病历记录等，提升医疗服务的质量和效率。在金融领域，模型可以用于智能客服、风险管理等，提供更个性化、高效的金融服务。

综上所述，训练大型语言模型具有重要的科研和应用价值，不仅能提升自然语言处理任务的性能和改进对话***的交互体验，还能推动科学研究、技术创新和人工智能发展的普惠性。通过训练大型语言模型，可以在各个领域应用智能化的自然语言处理技术，为社会提供更好的智能化服务和解决方案。

由于目前大型语言模型训练采用的常规方案，多个数据集融合构建一个多功能数据集似乎是不可能的，不同数据集之间可能存在矛盾的可能性，而且很难评估数据的质量。基于此，本发明实施例为了能够构建一个高质量且能力强的大语言模型，提出了一种高效的训练方法。通过Huggingface平台上的多个开源数据进行清洗与整理，得到多个不同的知识问答数据集和对话数据集，然后采用QLoRA(中文为：低秩适配)在每个数据集上单独训练一个LoRA-adapter，最后利用Grid-Search对这些LoRA-adapter的融合权重进行动态优化。

图1为本发明实施例提供的一种大语言模型微调和Adapter融合方法流程示意图；如图1所示，该方法包括以下步骤：

步骤101，从设定网络平台上收集多个问答数据集和对话数据集；对所述问答数据集和对话数据集分别进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；

步骤102，根据所述问答负对数似然损失函数、所述对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，得到问答数据集和对话数据集在理想状态下的理想损失函数，根据所述理想损失函数的最小值得到理想损失函数所对应的理想融合权重和第一理想参数；其中，所述第一理想参数表示分别添加到所述问答大语言模型和所述对话大语言模型的所有的LoRA-adapter；

步骤103，根据所述理想损失函数，对每个所述问答数据集对应的问答LoRA-adapter、每个所述对话数据集对应的对话LoRA-adapter进行微调，分别得到问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数；

步骤104，根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter。

需要说明的是，本发明实施例提供的大语言模型微调和Adapter融合方法，其执行主体为处理器。

在步骤101中，先从设定网络平台上收集多个问答数据集和对话数据集，这里的设定网络平台可以是Huggingface社区，在本发明实施例中，对设定网络平台不做具体限定。

具体地，从设定网络平台上收集多个数据集之后，需要对上述多个数据集进行清洗，清洗之后最终得到多个问答数据集和多个对话数据集，在本发明实施例中，对数据集的清洗规则如下：

1)删除与ChatGPT(英文为：Chat Generative Pre-trained Transformer)-3.5-Turbo之间的对话实例，只保留与GPT-4之间的对话实例；2)删除GPT-4拒绝回答或直接解释的对话；3)删除的回答为GPT-4空或GPT-4遗漏回答的对话；4)删除包含有毒或非法信息的对话；5)删除包含OpenAI或ChatGPT字样的对话，或者将包含OpenAI或ChatGPT字样的对话替换为确保该模型具有正确身份的信息；6)删除与基准问题相似度大于85％的用户提问；7)将过长的对话实例分成与模型最大上下文长度匹配对话。

通过上述情形规则，最终可以得到本发明实施例所需的多个问答数据集合多个对话数据集。

在本发明实施例中，问答数据集可以表示为{Q₁,Q₂,…,Q_M}，对话数据集可以表示为{C₁,C₂,…,C_N}。

具体地，问答数据集可以通过公式(1)表示：

其中，s代表***信息system message，q代表用户的问题query，r代表人工智能的回复response，Q_i表示第i个问答数据集，s_i,j表示第i个问答数据集的第j个***信息，q_i,j表示第i个问答数据集的第j个问题，r_i,j表示第i个问答数据集的第j个回复，|Q_i|表示问答数据集Q_i的长度。

在本发明实施例中，对得到的问答数据集进行LoRA-adapter微调时，给定来自特定实例的***消息s_i,j和查询q_i,j，大语言模型应该学会生成相应的回复r_i,j。这个过程就可以得到问答大语言模型，问答大语言模型如下所示：

其中，表示在问答数据集Q_i上训练得到的问答LoRA-adapter，p_θ表示大语言模型，|r_i,j|表示r_i,j的长度，r_k表示大语言模型生成的第k个token，θ表示大语言模型的冻结参数，r_<k表示小标小于k的所有的r。

进一步地，根据问答大语言模型和问答大语言模型的token得到问答负对数似然损失函数。

其中，问答负对数似然损失函数如下所示：

其中，表示问答负对数似然损失函数，s_i,j表示第i个问答数据集的第j个***信息，q_i,j表示第i个问答数据集的第j个问题，r_i,j表示第i个问答数据集的第j个回复。

相应地，对话数据集可以通过公式(4)表示：

其中，对话数据集包含多个拥有T轮的对话实例，C_i表示第i个对话数据集，表示第T轮中第i个对话数据集的第j个查询，/>表示第T轮中第i个对话数据集的第j个回复，|C_i|表示对话数据集C_i的长度。

在本发明实施例中，在对话数据集进行LoRA-adapter微调时，大语言模型将学习在给定第T轮之前的对话历史和查询的情况下预测每个回复/>这个过程就可以得到对话大语言模型，对话大语言模型如下所示：

其中，表示在对话数据集C_i上训练得到的对话LoRA-adapter，Q_j表示属于用户查询的所有标记，R_j表示目标标记，/>表示对话数据集C_i中第j个数据包含token的数量。

进一步地，根据对话大语言模型和对话大语言模型的token得到对话负对数似然损失函数。其中，对话负对数似然损失函数如下所示：

其中，表示对话负对数似然损失函数，/>表示对话数据集C_i中第j个数据包含token的数量，p_θ表示大语言模型，θ表示大语言模型的冻结参数，/>表示在对话数据集C_i上训练得到的对话LoRA-adapter。

需要说明的是，在本发明实施例中，对于LoRA-adapter的融合，每个微调LoRA-adapter的损失函数将被赋予一个可训练的权重，并且微调所有带有融合权重的LoRA-adapter的损失函数，其中，融合权重可以表示为：

在步骤102中，根据问答负对数似然损失函数、对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，可以得到问答数据集和对话数据集在理想状态下的理想损失函数，其中，理想损失函数如下所示：

其中，L表示理想损失函数，表示问答负对数似然损失函数，/>表示对话负对数似然损失函数，/>表示在问答数据集Q_i上微调获得/>的初始融合权重，/>表示在对话数据集C_i上微调获得/>的初始融合权重。

进一步地，根据理想损失函数的最小值得到理想损失函数所对应理想融合权重和第一理想参数，通过下列公式表示理想损失函数的最小值：

其中，A^*表示所有的理想LORA-adaper，ω^*表示所有理想融合权重，argmin表示当后面的公式取得最小值时，对应的参数A和ω的取值。

在本发明实施例中，所有的理想LORA-adaper也可以称为所有的第一理想参数，第一理想参数表示分别添加到问答大语言模型和所述对话大语言模型的所有的LoRA-adapter，其中，第一理想参数通过下列公式表示：

其中，A表示第一理想参数，表示在问答数据集Q_M上微调获得的第一理想参数，表示在对话数据集C_N上微调获得的第一理想参数，M表示问答数据集的数量，N表示对话数据集的数量。

具体地，ω表示所有LoRA-adapter的理想融合权重，即表示问答LoRA-adapter和对话LoRA-adapter的理想融合权重，其可以通过下列公式表示：

其中，ω表示理想融合权重，表示/>的理想融合权重，/>表示/>的理想融合权重。

在步骤103中，根据所述理想损失函数，对每个所述问答数据集对应的问答LoRA-adapter、每个所述对话数据集对应的对话LoRA-adapter进行微调，分别得到问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数。

在实际应用中，为了提高效率和简便性，第一理想参数和理想融合权重会被顺序微调。在第一阶段，分别对每个问答数据集或对话数据集上的每个LoRA-adapter(所有第一理想参数)进行微调，即针对公式(8)，先将公式(8)拆分为两个如下所示的公式，然后可以求出问答LoRA-adapter的最佳参数和对话LoRA-adapter的最佳参数，具体如下所示：

其中，表示问答LoRA-adapter的最佳参数，/>表示对话LoRA-adapter的最佳参数，/>表示在对话数据集C_i上训练得到的对话LoRA-adapter，/>表示在问答数据集Q_i上训练得到的问答LoRA-adapter，/>表示问答负对数似然损失函数，/>表示对话负对数似然损失函数。

进一步地，在第二阶段只微调理想融合权重，而将基本大语言模型和第一理想参数冻结，得到最佳融合参数，最佳融合参数具体如下所示：

其中，ω^**表示最佳融合参数，表示在问答数据集Q_i上微调获得/>的初始融合权重，/>表示在对话数据集C_i上微调获得/>的初始融合权重，/>表示问答负对数似然损失函数，/>表示对话负对数似然损失函数，ω表示理想融合权重。

需要说明的是，在实际应用中，当问答数据集和对话数据集的数量较少时，可以使用一些简单快捷的算法来优化理想融合权重。

综上所述，本发明实施例提供一种大语言模型微调和Adapter融合方法及装置，该方法通过对LoRA-adapter进行融合，可以有效避免数据集融合引起的语义空间冲突，同时提升大语言模型在多个任务上的泛化性能。解决了现有技术中由于不同数据集在语义空间中存在冲突而导致性能下降的问题。

基于同一发明构思，本发明实施例提供了一种大语言模型微调和Adapter融合装置，由于该装置解决技术问题的原理与一种大语言模型微调和Adapter融合方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图2所示，该装置主要包括第一得到单元201，第二得到单元202，第三得到单元203和第四得到单元204。

第一得到单元201，用于从设定网络平台上收集多个问答数据集和对话数据集，对所述问答数据集和所述对话数据集分别进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；

第二得到单元202，用于根据所述问答负对数似然损失函数、所述对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，得到所述问答数据集和所述对话数据集在理想状态下的理想损失函数，根据所述理想损失函数的最小值得到所述理想损失函数所对应的理想融合权重和第一理想参数；其中，所述第一理想参数表示分别添加到所述问答大语言模型和所述对话大语言模型的所有的LoRA-adapter；

第三得到单元203，用于根据所述理想损失函数，对每个所述问答数据集对应的问答LoRA-adapter、每个所述对话数据集对应的对话LoRA-adapter进行微调，分别得到问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数；

第四得到单元204，用于根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter。

应当理解，以上一种大语言模型微调和Adapter融合装置包括的单元仅根据该装置实现的功能进行逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的一种大语言模型微调和Adapter融合装置所实现的功能与上述实施例提供的一种大语言模型微调和Adapter融合方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例一中已做详细描述，此处不再详细描述。

本发明另一实施例还提供一种计算机设备，计算机设备包括：处理器和存储器；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行上述方法实施例所示的方法流程中大语言模型微调和Adapter融合方法的各个步骤。

本发明另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在计算机设备上运行时，使得计算机设备执行上述方法实施例所示的方法流程中大语言模型微调和Adapter融合方法的各个步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种大语言模型微调和Adapter融合方法，其特征在于，包括：

根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter；

所述理想损失函数、所述问答LoRA-adapter的最佳参数、对话LoRA-adapter的最佳参数和最佳融合参数如下所示：

其中，L表示理想损失函数，表示在问答数据集Q_i上微调获得/>的初始融合权重，表示在对话数据集C_i上微调获得/>的初始融合权重，/>表示问答LoRA-adapter的最佳参数，/>表示对话LoRA-adapter的最佳参数，ω^**表示最佳融合参数，/>表示问答负对数似然损失函数，/>表示对话负对数似然损失函数，/>表示在问答数据集Q_i上训练得到的问答LoRA-adapter，/>表示在对话数据集C_i上训练得到的对话LoRA-adapter。

2.如权利要求1所述的方法，其特征在于，所述对所述问答数据集进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数，具体包括：

其中，Q_i表示第i个问答数据集，s_i，j表示第i个问答数据集的第j个***信息，q_i，j表示第i个问答数据集的第j个问题，r_i，j表示第i个问答数据集的第j个回复，|Q_i|表示问答数据集Q_i的长度，表示在问答数据集Q_i上训练得到的问答LoRA-adapter，p_θ表示大语言模型，|r_i，j|表示r_i，j的长度，r_k表示大语言模型生成的第k个token，θ表示大语言模型的冻结参数，表示问答负对数似然损失函数。

3.如权利要求1所述的方法，其特征在于，所述对所述对话数据集进行LoRA-adapter微调，依次得到对话大语言模型、对话负对数似然损失函数，具体包括：

其中，C_i表示第i个对话数据集，表示第T轮中第i个对话数据集的第j个查询，/>表示第T轮中第i个对话数据集的第j个回复，|C_i|表示对话数据集C_i的长度，/>表示在对话数据集C_i上训练得到的对话LoRA-adapter，Q_j表示属于用户查询的所有标记，R_j表示目标标记，/>表示对话数据集C_i中第j个数据包含token的数量，/>表示对话负对数似然损失函数，p_θ表示大语言模型，θ表示大语言模型的冻结参数。

4.如权利要求1所述的方法，其特征在于，所述理想损失函数的最小值如下所示：

其中，表示在问答数据集Q_i上微调获得/>的初始融合权重，/>表示在对话数据集C_i上微调获得/>的初始融合权重，A^*表示所有的第一理想参数，ω^*表示所有的理想融合权重，A表示第一理想参数，ω表示理想融合权重。

5.如权利要求1所述的方法，其特征在于，所述第一理想参数如下所示：

所述理想融合权重如下所示：

其中，A表示第一理想参数，表示在问答数据集Q_M上微调获得的第一理想参数，/>表示在对话数据集C_N上微调获得的第一理想参数，M表示问答数据集的数量，N表示对话数据集的数量，ω表示理想融合权重，/>表示/>的理想融合权重，/>表示/>的理想融合权重。

6.一种大语言模型微调和Adapter融合装置，其特征在于，包括：

第一得到单元，用于从设定网络平台上收集多个问答数据集和对话数据集，对所述问答数据集和所述对话数据集分别进行LoRA-adapter微调，依次得到问答大语言模型、问答负对数似然损失函数、对话大语言模型和对话负对数似然损失函数；

第二得到单元，用于根据所述问答负对数似然损失函数、所述对话负对数似然损失函数和基于每个LoRA-adapter微调所包括的初始融合权重，得到所述问答数据集和所述对话数据集在理想状态下的理想损失函数，根据所述理想损失函数的最小值得到所述理想损失函数所对应的理想融合权重和第一理想参数；其中，所述第一理想参数表示分别添加到所述问答大语言模型和所述对话大语言模型的所有的LoRA-adapter；

第四得到单元，用于根据所述问答LoRA-adapter的最佳参数、所述对话LoRA-adapter的最佳参数和所述最佳融合参数得到通用LoRA-adapter；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-5任意一项所述的大语言模型微调和Adapter融合方法。

8.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-5任意一项所述的大语言模型微调和Adapter融合方法。