CN117689041B

CN117689041B - 云端一体化的嵌入式大语言模型训练方法及语言问答方法

Info

Publication number: CN117689041B
Application number: CN202410108095.2A
Authority: CN
Inventors: 陈浩; 田聪; 于斌; 贺子轩
Original assignee: Xidian University
Current assignee: Xi'an Dongjian Data Technology Co.,Ltd.
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-04-19
Anticipated expiration: 2044-01-26
Also published as: CN117689041A

Abstract

本发明公开了一种云端一体化的嵌入式大语言模型训练方法及语言问答方法，该训练方法应用于边缘端，包括：输入测试样本至第一待训练模型，推理获得第一待训练模型的困惑度和吞吐率；当困惑度和吞吐率不满足用户需求时，将相关信息发送至与自身通信连接的至少一个服务器，以使服务器结合训练样本和正则化损失函数对第二待训练模型进行训练后，将训练完成的第二待训练模型的网络参数下发至边缘端；返回上述推理获得第一待训练模型的困惑度和吞吐率的步骤，直至困惑度和吞吐率满足用户需求时，将对应的第一待训练模型作为语言问答模型。本发明提供的训练方法实现了推理速度和准确度之间的平衡，得到的语言问答模型具有更高效、智能的语言处理能力。

Description

云端一体化的嵌入式大语言模型训练方法及语言问答方法

技术领域

本发明属于人工智能技术领域，具体涉及一种云端一体化的嵌入式大语言模型训练方法及语言问答方法。

背景技术

大语言模型在自然语言处理领域至关重要，其是一种基于深度学习技术的人工智能模型，具备强大的自然语言处理能力，可以理解和生成自然语言文本，因而能够应用于自动问答场景。例如，用户提出问题后，它能够理解问题的语义，并从大量的文本数据中提取相关信息，从而给出准确答案。

由于大语言模型面临数据隐私、信息安全等问题，因此边缘端大语言模型的部署和应用场景巨大，在手机端部署大语言模型的需求也愈发强烈。但是，大语言模型对于CPU(Central Processing Unit，中央处理器)的计算能力和***运行内存大小要求非常高，将大语言模型应用于类似手机这样的边缘端设备时，计算资源如处理器速度、内存容量等计算资源往往会对推理计算造成严重的限制，进而直接影响大语言模型的回答准确率、回答速度等。因此，如何在这样有限的计算资源下实现高速的推理，成为本领域技术人员亟待解决的问题。

为了应对这一挑战，现有方法是对大语言模型进行优化，以减小其在推理阶段所需的计算量，如对大语言模型进行压缩、量化等，通过减少参数数量和计算操作来降低计算负载，以提高推理效率。此外，还有一些针对边缘端设备而专门设计的轻量级模型被提出，这些模型在保持相对较高的准确度的同时，减小了模型的规模和复杂度，从而在有限的计算资源下能够更快地完成推理任务。

然而，上述方法在解决边缘端大语言模型的推理问题时仍存在局限性，现有方法往往只关注于单一的推理速度或准确度，缺乏在不同场景下灵活调节的能力；同时，由于大语言模型在不同边缘计算硬件平台之间的兼容性差，如若要达到速度与精度的均衡，则会导致运算量较大、效率较低，难以实现自然语言处理。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种云端一体化的嵌入式大语言模型训练方法及语言问答方法。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供一种云端一体化的嵌入式大语言模型训练方法，应用于边缘端，包括：

将测试样本输入至第一待训练模型，通过推理获得所述第一待训练模型的困惑度PS和吞吐率T；

当所述困惑度PS和吞吐率T不满足用户需求时，将相关信息发送至与自身通信连接的至少一个服务器，以使所述服务器结合训练样本和正则化损失函数对第二待训练模型进行训练，并将训练完成的第二待训练模型的网络参数下发至边缘端；所述测试样本和所述训练样本均为自然语言序列；

将所述训练完成的第二待训练模型的网络参数代入所述第一待训练模型，并返回所述通过推理获得所述第一待训练模型的困惑度PS和吞吐率T的步骤，直至所述困惑度PS和吞吐率T满足用户需求，将满足用户需求的第一待训练模型作为训练得到的语言问答模型。

在本发明的一个实施例中，所述正则化损失函数为：

；

式中，Regularized Loss 表示正则化损失函数，Standard Loss表示标准损失函数，IL表示目标函数，表示超参数。

在本发明的一个实施例中，所述目标函数为：，其中，/>、/>分别表示第一权系数和第二权系数，/>。

在本发明的一个实施例中，所述标准损失函数为：

；

式中，表示输入第二待训练模型的自然语言序列的数量，/>表示输入第二待训练模型的自然语言序列/>中的第/>个词元，/>表示输入第二待训练模型的自然语言序列对应的期望输出序列，/>表示/>中的第/>个词元，/>表示/>包含的词元数量，/>表示中的第/>个元素，/>表示第二待训练模型的网络参数，/>表示/>中第个元素，/>表示在给定/>、/>和/>的条件下/>的条件概率。

在本发明的一个实施例中，所述相关信息至少包括超参数的初始值、预先根据用户需求及自身计算平台特性确定的第一权系数/>和第二权系数/>；

当所述困惑度PS和吞吐率T不满足用户需求时，将相关信息发送至与自身通信连接的至少一个服务器，以使所述服务器结合训练样本和正则化损失函数对第二待训练模型进行训练，并将训练完成的第二待训练模型的网络参数下发至边缘端的步骤，包括：

当所述困惑度PS和吞吐率T不满足用户需求时，将所述超参数的初始值、所述第一权系数/>和所述第二权系数/>发送至与自身通信连接的至少一个服务器，以使服务器将所述第一权系数/>、所述第二权系数/>和所述超参数/>的初始值代入所述正则化损失函数，并利用训练样本及该正则化损失函数对第二待训练模型进行训练后，将训练完成的第二待训练模型的网络参数下发至边缘端。

在本发明的一个实施例中，所述服务器按照如下步骤对第二待训练模型进行训练：

将个训练样本输入至第二待训练模型；

基于所述正则化损失函数计算当前第二待训练模型的损失值；

判断所述损失值是否收敛；若否，则调整所述正则化损失函数中的超参数，并返回所述将/>个训练样本输入至第二待训练模型的步骤；反之，则训练结束，将训练完成的第二待训练模型的网络参数下发至边缘端。

在本发明的一个实施例中，所述边缘端以报文的形式将所述超参数的初始值、所述第一权系数/>和所述第二权系数/>发送至与自身通信连接的至少一个服务器。

第二方面，本发明提供一种云端一体化的嵌入式大语言模型训练方法，应用于服务器，包括：

接收边缘端发送的相关信息，并根据所述相关信息建立正则化损失函数；

将预设数量的训练样本输入至第二待训练模型后，计算正则化损失函数的损失值；

判断所述损失值是否收敛；若否，则调整所述正则化损失函数中的超参数，并返回所述将预设数量的训练样本输入至第二待训练模型的步骤；若是，则训练结束，将训练完成的第二待训练模型的网络参数下发至边缘端，以使边缘端将所述训练完成的第二待训练模型的网络参数代入第一待训练模型后，通过推理获得第一待训练模型的困惑度PS和吞吐率T，并在推理出的困惑度PS和吞吐率T满足用户需求时，将满足用户需求的第一待训练模型作为训练得到的语言问答模型。

在本发明的一个实施例中，所述服务器以报文的形式将训练完成的第二待训练模型的参数下发至边缘端。

第三方面，本发明还提供一种语言问答方法，包括：

获取用户输入的问题；

将所述问题输入至采用第一方面或第二方面所述的云端一体化的嵌入式大语言模型训练方法训练得到的语言问答模型，得到以自然语言形式输出的该问题的答案。

与现有技术相比，本发明的有益效果在于：

(1) 本发明提供了一种云端一体化的嵌入式大语言模型训练方法，能够基于用户对于推理速度和准确度的不同需求，灵活调整模型的训练参数，训练过程结合了训练端和推理端的优化策略，可以实现推理速度和准确度之间的最佳平衡。

(2) 本发明采用了自适应的参数调节策略，通过端到端的自适应参数调节，在推理过程中可以动态调整服务器端第二待训练模型的训练参数，从而能够根据不同边缘推理场景下的速度和准确度的性能指标，自适应的指导服务器端模型训练的参数配置和训练进展。

(3) 本发明采用端到端的实时反馈机制，引入了实时反馈网络协议，在边缘推理过程中实时监测推理速度和准确度，再通过实时反馈网络协议将相关参数传递给云服务器端，使得云服务器端能够及时调整训练参数，以适应动态变化的速度和准确度需求。

(4) 本发明训练得到的语言问答模型可应用于各种边缘端场景，如嵌入式***、移动设备、物联网等，从而为边缘端实现自然语言问答时提供更高效、更智能的语言处理能力。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的应用于边缘端的云端一体化的嵌入式大语言模型训练方法的一种流程图；

图2是本发明实施例提供的云端一体化的嵌入式大语言模型训练方法的一种流程图；

图3是本发明实施例提供的应用于服务器的云端一体化的嵌入式大语言模型训练方法的一种流程图；

图4是本发明实施例提供的云端一体化的嵌入式大语言模型训练方法的一种应用场景的示意图；

图5是本发明实施例提供的云端一体化的嵌入式大语言模型训练方法的另一应用场景的示意图；

图6是本发明实施例提供的语言问答方法的一种流程图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

应当理解，边缘端设备资源受限会导致大语言模型在推理过程中需要权衡推理速度和准确度，一般来说，高速推理往往伴随着一定的准确度损失，而高准确度推理则可能牺牲推理速度；特别是在不同的边缘计算硬件平台上，由于计算资源的异质性，对推理速度和准确度的需求也可能存在差异。

为了在速度和准确度之间取得最好的用户体验的平衡，需要针对每一设备的硬件配置和性能情况对大语言模型进行训练与部署。目前，尽管存在一些推理优化方法，但这些方法在解决边缘端大语言模型推理问题时仍存在一些局限性，如只关注于单一的推理速度或准确度，缺乏在不同场景下灵活调节的能力；同时，边缘端大语言模型的推理在边缘端设备进行、训练在服务器中进行，这种设备割裂的训练-推理场景对于开发者极不友好，需要人工在不同端连接和测试，并且如果有数十个系列、高中低端的手机，每个系列又有数十个产品，且每个产品3-6个月就要迭代一次硬件配置，这就需要大量的人力来手动调整云端训练大语言模型的参数，以适配多种不同型号、不同性能参数的手机。

有鉴于此，本发明提供一种云端一体化的嵌入式大语言模型训练方法及语言问答方法。

图1是本发明实施例提供的应用于边缘端的云端一体化的一种流程示意图。如图1所示，本发明实施例提供了一种云端一体化的嵌入式大语言模型训练方法，应用于边缘端，包括：

S11、将测试样本输入至第一待训练模型，通过推理获得第一待训练模型的困惑度PS和吞吐率T；

S12、当困惑度PS和吞吐率T不满足用户需求时，将相关信息发送至与自身通信连接的至少一个服务器，以使服务器结合训练样本和正则化损失函数对第二待训练模型进行训练，并将训练完成的第二待训练模型的网络参数下发至边缘端；测试样本和训练样本均为自然语言序列；

S13、将训练完成的第二待训练模型的网络参数代入第一待训练模型，并返回上述通过推理获得第一待训练模型的困惑度PS和吞吐率T的步骤，直至困惑度PS和吞吐率T满足用户需求，将满足用户需求的第一待训练模型作为训练得到的语言问答模型。

这里需要说明的是，本实施例中第一待训练模型与第二待训练模型为网络结构相同的大语言模型，并且可选择性使用现有的大语言模型如LLaMA、LLaMA2等，本申请对此不作限定。

本实施例能够根据不同场景和边缘计算硬件平台的需求，动态调整大语言模型的训练参数，从而获得兼具最佳的推理速度和准确度的语言问答模型。

可选地，正则化损失函数为：

；

具体而言，定义正则化损失函数，即正则化损失函数为标准损失函数Standard Loss与IL(Inference loss，目标函数)之和，其中，标准损失函数Standard Loss是用于估量第二待训练模型的预测值与真实值的不一致程度的非负实值函数，本实施例选择性使用负对数似然函数，目标函数IL用于描述边缘端的推理准确度和速度，需要说明的是，本实施例通过在正则化损失函数中为目标函数IL引入超参数/>，可以在训练过程中控制目标函数IL的强度，从而在训练过程中最小化目标函数IL。

可选地，目标函数IL为：，其中，/>、/>分别表示第一权系数和第二权系数，/>。

具体而言，PS(perplexity score，困惑度)可用于表征边缘端第一待训练模型的推理准确度，本实施例中将困惑度PS定义如下：

；

其中，边缘端的测试样本也为自然语言序列，表示推理过程中输入第一待训练模型的自然语言序列中的第/>个词元，/>表示第/>个词元之前的所有词元，/>表示推理过程中输入第一待训练模型的自然语言序列的长度，即词元数量，/>表示在给定/>和第一待训练模型的网络参数/>的条件下第/>个词元/>的条件概率。

T(throughput，吞吐率)表征边缘端第一待训练模型的推理速度，定义为：，/>表示输出词元的总数，/>表示从将测试样本输入第一待训练模型到获得全部输出的总用时。

另外，第一权系数及第二权系数/>可基于用户需求、边缘计算平台特性等特性确定，用于在表征准确度的困惑度PS和表征速度的吞吐率T之间进行权衡。

进一步地，标准损失函数为：

；

图2是本发明实施例提供的云端一体化的嵌入式大语言模型训练方法的一种流程图。本实施例中，相关信息至少包括超参数的初始值、预先根据用户需求及自身计算平台特性确定的第一权系数/>和第二权系数/>。

步骤S12中，当困惑度PS和吞吐率T不满足用户需求时，将相关信息发送至与自身通信连接的至少一个服务器，以使服务器结合训练样本和正则化损失函数对第二待训练模型进行训练，并将训练完成的第二待训练模型的网络参数下发至边缘端的步骤，包括：

当困惑度PS和吞吐率T不满足用户需求时，将超参数的初始值、第一权系数和第二权系数/>发送至与自身通信连接的至少一个服务器，以使服务器将第一权系数/>、第二权系数/>和超参数/>的初始值代入正则化损失函数，并利用训练样本及该正则化损失函数对第二待训练模型进行训练后，将训练完成的第二待训练模型的网络参数下发至边缘端。

具体而言，请结合图1-2，边缘端首先获取用户需求，然后将测试样本输入至第一待训练模型，通过推理获得第一待训练模型的困惑度PS和吞吐率T，并将推理出的困惑度PS和吞吐率T与用户需求进行比较，如若满足用户需求，则结束流程，说明上述第一待训练模型即为能够满足用户需求的自然预言问答模型。反之，则获取第一权系数、第二权系数/>、超参数/>的初始值等相关信息，以报文的形式将这些相关信息传输至服务器，接着服务器结合相关信息构建正则化损失函数，以利用训练样本和正则化损失函数对第二待训练模型进行训练，训练过程中通过调整超参数/>达到收敛，再将训练完成的第二待训练模型的网络参数下发至边缘端，边缘端将接收到的这些网络参数代入第一待训练模型后，重新进行推理，直至推理出的困惑度PS及吞吐率T满足用户需求，此时即可获得训练完成的语言问答模型。

可选地，服务器按照如下步骤对第二待训练模型进行训练：

将个训练样本输入至第二待训练模型；

基于正则化损失函数计算当前第二待训练模型的损失值；

判断损失值是否收敛；若否，则调整正则化损失函数中的超参数，并返回上述将个训练样本输入至第二待训练模型的步骤；反之，则训练结束，将训练完成的第二待训练模型的网络参数下发至边缘端。

本实施例中，超参数为经验参数，用于控制目标函数IL对正则化损失函数Regularized Loss的影响，超参数/>越大，则第二待训练模型在训练过程中会更考虑目标函数IL，但过大的超参数/>可能会使第二待训练模型无法收敛或过拟合；反之，过小的超参数/>会弱化对于目标函数IL的考虑，因此，合适的超参数/>需要通过多次实验才能得出。

可选地，边缘端以报文的形式将超参数的初始值、第一权系数/>和第二权系数/>发送至与自身通信连接的至少一个服务器，除了上述内容之外，报文中还包括：报文ID、服务器ID、服务器名称、边缘端ID、边缘端名称、第一待训练模型的哈希值、超参数/>的初始值、第一权系数/>、第二权系数/>和时间戳，报文内容详见表1：

表1

需要说明的是，表1中“int”、“string”、“long”和“float”均为数据类型，分别表示整型、字符串、长整型和浮点型。

图3是本发明实施例提供的应用于服务器的云端一体化的嵌入式大语言模型训练方法的一种流程图。如图3所示，本发明实施例提供了一种云端一体化的嵌入式大语言模型训练方法，应用于服务器，包括：

S31、接收边缘端发送的相关信息，并根据相关信息建立正则化损失函数；

S32、将预设数量的训练样本输入至第二待训练模型后，计算正则化损失函数的损失值；

S33、判断损失值是否收敛；

S34、若否，则调整超参数，并返回上述将预设数量的训练样本输入至第二待训练模型的步骤；

S35、判断损失值是否收敛；若否，则调整正则化损失函数中的超参数，并返回上述将预设数量的训练样本输入至第二待训练模型的步骤；若是，则训练结束，将训练完成的第二待训练模型的网络参数下发至边缘端，以使边缘端将训练完成的第二待训练模型的网络参数代入第一待训练模型后，通过推理获得第一待训练模型的困惑度PS和吞吐率T，并在推理出的困惑度PS和吞吐率T满足用户需求时，将满足用户需求的第一待训练模型作为训练得到的语言问答模型。

具体而言，正则化损失函数Regularized Loss为：

；

式中，Standard Loss表示标准损失函数，IL表示目标函数，表示超参数。

标准损失函数Standard Loss为：

；

本实施例中，服务器同样可以报文的形式将训练完成的第二待训练模型的网络参数下发至边缘端。

边缘端发送的相关信息可以包括：超参数λ的初始值、预先根据用户需求及自身计算平台特性确定的第一权系数W_p和第二权系数W_t，第一权系数W_p及第二权系数W_t可根据用户需求、边缘计算平台特性等特性获得，用于在表征准确度的困惑度PS和表征速度的吞吐率T之间进行权衡，超参数λ的初始值为一随机数。

图4-5分别是本发明实施例提供的云端一体化的嵌入式大语言模型训练方法的两种应用场景的示意图。示例性地，如图4所示，对于规模较小的自然语言模型，如若需要在多个不同品牌的手机(边缘端)上运行，那么可以采用“经济模式”，即这些边缘端在训练过程中共用同一个服务器。而如图5所示，在另一种对模型性能要求较高的应用场景下，一个边缘端则可以与多个服务器进行协同训练，最后从得到的多个模型中选择性能最优的一个。

图6是本发明实施例提供的语言问答方法的一种流程图。如图6所示，本发明实施例还提供一种语言问答方法，包括：

S61、获取用户输入的问题；

S62、将问题输入至采用上述云端一体化训练方法训练得到的语言问答模型，得到以自然语言形式输出的该问题的答案。

通过上述各实施例可知，本发明的有益效果在于：

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种云端一体化的嵌入式大语言模型训练方法，其特征在于，应用于边缘端，包括：

将所述训练完成的第二待训练模型的网络参数代入所述第一待训练模型，并返回所述通过推理获得所述第一待训练模型的困惑度PS和吞吐率T的步骤，直至所述困惑度PS和吞吐率T满足用户需求，将满足用户需求的第一待训练模型作为训练得到的语言问答模型；

所述相关信息至少包括超参数λ的初始值、预先根据用户需求及自身计算平台特性确定的第一权系数W_p和第二权系数W_t；

所述正则化损失函数为：

Regularized Loss＝Standard Loss+λIL；

式中，Regularized Loss表示正则化损失函数，Standard Loss表示标准损失函数，IL表示目标函数，λ表示超参数；

所述目标函数为：IL＝W_p*PS+W_t*T，其中，W_p、W_t分别表示第一权系数和第二权系数，W_p+W_t＝1。

2.根据权利要求1所述的云端一体化的嵌入式大语言模型训练方法，其特征在于，所述标准损失函数为：

式中，N表示输入第二待训练模型的自然语言序列的数量，x_i表示输入第二待训练模型的自然语言序列x中的第i个词元，y表示输入第二待训练模型的自然语言序列对应的期望输出序列，y_i表示y中的第i个词元，|y|表示y包含的词元数量，y_ij表示y_i中的第j个元素，θ表示第二待训练模型的网络参数，y_i,1:j-1表示y_i中第1～j-1个元素，P(y_ij|y_i,1:j-1,x_i,θ)表示在给定y_i,1:j-1、x_i和θ的条件下y_ij的条件概率。

3.根据权利要求1所述的云端一体化的嵌入式大语言模型训练方法，其特征在于，

当所述困惑度PS和吞吐率T不满足用户需求时，将所述超参数λ的初始值、所述第一权系数W_p和所述第二权系数W_t发送至与自身通信连接的至少一个服务器，以使服务器将所述第一权系数W_p、所述第二权系数W_t和所述超参数λ的初始值代入所述正则化损失函数，并利用训练样本及该正则化损失函数对第二待训练模型进行训练后，将训练完成的第二待训练模型的网络参数下发至边缘端。

4.根据权利要求3所述的云端一体化的嵌入式大语言模型训练方法，其特征在于，所述服务器按照如下步骤对第二待训练模型进行训练：

将N个训练样本输入至第二待训练模型；

判断所述损失值是否收敛；若否，则调整所述正则化损失函数中的超参数λ，并返回所述将N个训练样本输入至第二待训练模型的步骤；反之，则训练结束，将训练完成的第二待训练模型的网络参数下发至边缘端。

5.根据权利要求3所述的云端一体化的嵌入式大语言模型训练方法，其特征在于，所述边缘端以报文的形式将所述超参数λ的初始值、所述第一权系数W_p和所述第二权系数W_t发送至与自身通信连接的至少一个服务器。

6.一种云端一体化的嵌入式大语言模型训练方法，其特征在于，应用于服务器，包括：

判断所述损失值是否收敛；若否，则调整所述正则化损失函数中的超参数λ，并返回所述将预设数量的训练样本输入至第二待训练模型的步骤；若是，则训练结束，将训练完成的第二待训练模型的网络参数下发至边缘端，以使边缘端将所述训练完成的第二待训练模型的网络参数代入第一待训练模型后，通过推理获得第一待训练模型的困惑度PS和吞吐率T，并在推理出的困惑度PS和吞吐率T满足用户需求时，将满足用户需求的第一待训练模型作为训练得到的语言问答模型；

所述正则化损失函数为：

Regularized Loss＝Standard Loss+λIL；

7.根据权利要求6所述的云端一体化的嵌入式大语言模型训练方法，其特征在于，所述服务器以报文的形式将训练完成的第二待训练模型的参数下发至边缘端。

8.一种语言问答方法，其特征在于，包括：

获取用户输入的问题；

将所述问题输入至采用权利要求1～5或6～7任一所述的云端一体化的嵌入式大语言模型训练方法训练得到的语言问答模型，得到以自然语言形式输出的该问题的答案。