WO2023024378A1

WO2023024378A1 - 多智能体模型的训练方法、装置、电子设备、存储介质及程序产品

Info

Publication number: WO2023024378A1
Application number: PCT/CN2021/142157
Authority: WO
Inventors: 何元钦; 康焱; 刘洋; 陈天健
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2021-08-25
Filing date: 2021-12-28
Publication date: 2023-03-02
Also published as: CN113658689A

Abstract

本申请提供一种多智能体模型的训练方法、装置、电子设备、存储介质及程序产品，包括：参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定训练参数值的情况下，将多个参数值组分别输入至多智能体模型进行预测，得到多个预测结果，以与各预测结果对应的实际结果进行比较，从而确定每个参数值组的影响因子，进而对各不可预测参数的参数值进行聚合，得到对应各不可预测参数的中间参数值并发送至协作方设备，其中，中间参数值用于触发协作方设备对接收的中间参数值进行聚合处理，得到对应各不可预测参数的目标参数值；接收协作方设备返回的对应各不可预测参数的目标参数值，并基于目标参数值对多智能体模型进行更新。

Description

多智能体模型的训练方法、装置、电子设备、存储介质及程序产品

相关申请的交叉引用

本申请基于申请号为202110981895.1、申请日为2021年08月25日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种多智能体模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

相关技术中的横向联邦学习通常由不同的参与方和一个协作方训练机器学习模型，其目标是利用各方有限的数据，在保障数据安全的前提下，共同训练一个全局模型。该全局模型因为利用了各参与方的数据进行训练，所以模型效果能够逼近将各参与方数据放在一起训练的情况，显著优于各参与方只基于自有数据得到的模型的效果。然而，多智能体的模型的使用与传统的机器学习十分不同，无法按照传统的联邦机器学习模型的训练方式来应用联邦学习解决多方智能体模型的验证。

发明内容

本申请实施例提供一种多智能体模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够在保障本地数据安全的同时，提升模型预测准确度。

本申请实施例提供一种多智能体模型的训练方法，基于联邦学习***，所述***包括协作方设备及至少两个参与方设备，所述方法由参与方设备执行，包括：

参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定所述训练参数值的情况下，将多个参数值组分别输入至所述多智能体模型进行预测，得到多个预测结果；

其中，所述参数值组包括至少一个不可预测参数的参数值；

基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子；

基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值；

将得到的所述中间参数值发送至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值；

接收所述协作方设备返回的对应各所述不可预测参数的目标参数值，并基于所述目标参数值对所述多智能体模型进行更新。

本申请实施例还提供一种多智能体模型的训练装置，所述装置包括：

获取模块，配置为参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定所述训练参数值的情况下，将多个参数值组分别输入至所述多智能体模型进行预测，得到多个预测结果；其中，所述参数值组包括至少一个不可预测参数的参数值；

对比模块，配置为基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子；

聚合模块，配置为基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值；

发送模块，配置为将得到的所述中间参数值发送至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值；

更新模块，配置为接收所述协作方设备返回的对应各所述不可预测参数的目标参数值，并基于所述目标参数值对所述多智能体模型进行更新。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的多智能体模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的多智能体模型的训练方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的多智能体模型的训练方法。

本申请实施例具有以下有益效果：

相较于相关技术中多智能体的模型只能由数据拥有方单独训练的方式，应用本申请实施例提供的基于横向联邦学习架构的多智能体模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，通过参与方在本地对不可预测参数进行聚合后得到中间参数值并发送至协作方，并基于协作方对接收的中间参数值进行二次聚合后得到的目标参数值，以对多智能体模型进行更新，如此，当多个参与方对用途相同的多智能体模型进行训练时，联合优化不可预测参数的取值，从而获得模拟结果与真实数据符合更好的多智能体模型，并保障了本地数据的安全，解决多智能体的模型领域的数据孤岛问题，实现多参与方之间共同建模，从而提升了模型预测准确度。

附图说明

图1是本申请实施例提供的多智能体模型的训练方法的实施场景示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3是本申请实施例提供的多智能体模型的验证过程和机器学习模型的训练过程的对比图；

图4是本申请实施例提供的多智能体模型的训练方法的流程示意图；

图5是本申请实施例提供的多智能体模型的训练方法的一个可选的流程示意图；

图6A是本申请实施例提供的一个多智能体模型的不可预测参数聚合的一个可选示意图；

图6B是本申请实施例提供的一个多智能体模型的不可预测参数聚合的一个可选示意图；

图7A是本申请实施例提供的多智能体模型训练方法的一个可选的流程示意图；

图7B是本申请实施例提供的多智能体模型训练方法的一个可选的流程示意图；

图8是本申请实施例提供的多智能体模型的预测方法的流程示意图；

图9是本申请实施例提供的多智能体模型的训练方法的流程示意图；

图10是本申请实施例提供的一个多智能体模型的横向联邦学习方法；

图11是本申请实施例提供的一个多智能体模型的不可预测参数聚合的一个可选示意图；

图12是本申请实施例提供的多智能体模型的训练装置的结构示意图；

图13是本申请实施例提供的多智能体模型的预测装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)联邦学习(federated learning)是指通过联合不同的参与者(participant，或者party，也称为数据拥有者(data owner)，或者客户(client))进行机器学习的方法。在联邦学习中，参与者并不需要向其它参与者和协调者(coordinator，也称为参数服务器(parameter server)，或者聚合服务器(aggregation server))暴露自己拥有的数据，因而联邦学习可以很好的保护用户隐私和保障数据安全。

其中，横向联邦学习是在各个参与者的数据特征重叠较多，而用户重叠较少的情况下，取出参与者数据特征相同而用户不完全相同的那部分数据进行联合机器学习。比如有两家不同地区的银行，它们的用户群体分别来自各自所在的地区，相互的交集很小。但是它们的业务很相似，记录的用户数据特征很大部分是相同的。可以使用横向联邦学习来帮助两家银行构建联合模型来预测他们的客户行为。

2)多智能体模型的模拟方法(agent based simulation or agent based modeling，ABS或ABM)，是一种用来模拟智能体(独立个体或共同群体，例如组织、团队)的行动和相互作用的计算模型。多智能体模型是一个微观模型，通过模拟多个智能体的同时行动和相互作用以再现和预测复杂现象。这个过程是从低(微观)层次到高(宏观)层次的涌现，通过ABS可以模拟城市交通情况和疾病传播等现象，例如，可以通过ABS模拟新冠病毒的传播，帮助预测新冠病毒疫情的发展情况和分析不同干预手段对疫情的抑制效果。这种场景下，通常涉及到3个部分，1)贴近真实分布的人群模型；2)人群之间的社交网络模型；3)疾病的传播模型；基于以上三部分模型和对应的参数，可以模拟在给定初始感染人数的情况下，疫情的发展趋势。其中，除了模型中通过数据得到的参数和经验参数(称为可预测参数)，还有部分参数的取值无法确定(称为不可预测参数)，这部分参数取值就需要通过在真实数据上进行验证(validation)来得到，这里在真实数据上的验证步骤类似于机器学习中的训练步骤，即优化不可预测参数的值，让模型模拟的结果与真实数据尽量接近。一种常用的确定这些参数的方法是基于优化的方法，比如Nelder-Mead Optimization优化方法。

3)同态加密(Homomorphic Encryption，HE)是一种对称加密算法，同态加密的目的是找到一种加密算法，这种加密算法能够在密文上执行加法、乘法运算，使得对加密后的密文进行某种操作所得到的结果，恰好等于对加密前的明文进行预期操作后再加密得到的密文。同态加密有效保证了数据处理方可以直接对数据的密文进行相应的处理，而无法获知其所处理的数据明文信息。同态加密的这一特性使用户的数据和隐私可以得到相应的安全保障，因此，同态加密被应用于许多现实场景来保证数据的安全。

如果一个加密函数同时满足加法同态和乘法同态，称为全同态加密。使用这个加密函数可以完成各种加密后的运算(加减乘除、多项式求值、指数、对数、三角函数等)。

申请人发现，一个构建好的多智能体模型的模拟ABS模型，可以适用于不同的地区，只需要根据目标地区相应的情况调整其可预测参数(如人口的年龄，性别比例等)，然后验证得出不可预测参数的值，即可使用该模型在目标地区预测和分析疫情的后续发展情况。通常，参与模拟的区域越大，构建模型使用的智能体越多，模型的效果越好，越能准确反应***的真实情况。然而由于各地区的人口分布、人***动情况以及疫情情况数据可能涉及隐私或安全问题，比较敏感，因此这些数据通常只有当地的具有公信力的机构有权限查看，无法汇总到一处用于训练/验证，所以各机构只能基于自有的有限的数据进行验证的模拟，得到的不可预测参数的值往往不是最优结果，模型效果会受到影响，可能导致预测的偏差。

基于此，本申请实施例提供一种多智能体模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，使得多参与方设备在协作方设备的协调下可以共同训练一个多智能体的模型，并保障本地数据的安全，解决多智能体的模型领域的数据孤岛问题。

基于上述对本申请实施例中涉及的名词和术语的解释，下面说明本申请实施例提供的多智能体模型的训练方法的实施场景，参见图1，图1是本申请实施例提供的多智能体模型的训练方法的实施场景示意图，为实现支撑一个示例性应用，参与方设备200-1、200-2、……、200-n通过网络300连接协作方设备400，其中，参与方设备200-1、200-2、……、200-n可以是存储有可预测参数、不可预测参数以及预测目标的真实值的机构，例如可以是医院，协作方设备400可以是具有公信力的机构，参与方设备200-1、200-2、……、200-n和协作方设备400互相协助进行联邦学习以使参与方设备200-1、200-2、……、200-n得到多智能体模型，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

参与方设备(包括参与方设备200-1、200-2、……、200-n)，用于可预测参数的训练参数值输入至本地的多智能体模型，并在固定训练参数值的情况下，将多个参数值组分别输入至多智能体模型进行预测，得到多个预测结果；其中，参数值组包括至少一个不可预测参数的参数值；基于多个预测结果与各预测结果对应的实际结果，确定每个参数值组的影响因子；基于各参数值组以及相应的影响因子，对各不可预测参数的参数值进行聚合，得到对应各不可预测参数的中间参数值；将得到的中间参数值发送至协作方设备。

协作方设备(包括协作方设备400)，用于对多个参与方设备发送的中间参数值进行聚合处理，得到对应各不可预测参数的目标参数值；将目标参数值发送至参与方设备。

参与方设备(包括参与方设备200-1、200-2、……、200-n)，还用于接收协作方设备返回的对应各不可预测参数的目标参数值，并基于目标参数值对多智能体模型进行更新。

在实际应用中，训练得到的多智能体模型可以应用于近期在世界蔓延的新冠疫情的建模，实现多城市、多地区、多国家之间共同建模，提升模型预测准确度，为民众和政策制定者提供更为准确的数据。

在实际应用中，参与方设备200-1、200-2、……、200-n和协作方设备400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Deliver Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。参与方设备200-1、200-2、……、200-n和协作方设备400同样可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。参与方设备200-1、200-2、……、200-n和协作方设备400可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

下面对本申请实施例提供的实施多智能体模型的训练方法的电子设备的硬件结构做详细说明，电子设备包括但不限于服务器或终端。参见图2，图2是本申请实施例提供的电子设备的结构示意图，图2所示的电子设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。电子设备200中的各个组件通过总线***240耦合在一起。可以理解的是，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(Digital Signal Processor，DSP)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory，ROM)，易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wireless Fidelity，WiFi)、和通用串行总线(Universal Serial Bus，USB)等；

输入处理模块253，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的多智能体模型的训练装置可以采用软件方式实现，图2示出了存储在存储器250中多智能体模型的训练装置254，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2541、对比模块2542、聚合模块2543，发送模块2544，以及更新模块2545，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的多智能体模型的训练装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的多智能体模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的多智能体模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、DSP、可编程逻辑器件(Programmable Logic Device，PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或其他电子元件。

基于上述对本申请实施例的多智能体模型的训练方法的实施场景及电子设备的说明，下面说明本申请实施例提供的多智能体模型的训练方法。需要说明的是，本申请实施例中的多智能体模型的训练过程与传统机器学习模型的训练过程存在显著差异，参见图3，图3是本申请实施例提供的多智能体模型的验证过程和机器学习模型的训练过程的对比图，基于图3，得到一个更新完成的多智能体模型的过程具体包括构建初始多智能体模型(构建模型)、验证多智能体模型(验证过程)以及测试多智能体模型(测试过程)。其中，构建初始多智能体模型是指对模型参数进行初始化、预设损失函数(用于对多智能体模型进行更新)等；验证过程是指通过预设轮次的迭代来更新模型中的不可预测参数；测试过程是指通过修改模型的输出结果对多智能体模型的正确性进行测试。而得到一个已收敛的机器学习模型的过程具体包括构建初始机器学习模型、训练机器学习模型以及测试机器学习模型，其中，机器学习模型的训练阶段是通过训练样本数据对机器学习模型进行预测轮次的迭代更新。需要说明的是，多智能体模型的在真实数据上的验证过程类似于机器学习中的训练过程，即优化不可预测参数的值，让模型预测的结果与真实数据尽量接近。

参见图4，图4是本申请实施例提供的多智能体模型的训练方法的流程示意图，本申请实施例提供的多智能体模型的训练方法包括：

步骤101，参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定训练参数值的情况下，将多个参数值组分别输入至多智能体模型进行预测，得到多个预测结果；其中，参数值组包括至少一个不可预测参数的参数值。

在实际实施时，这里的可预测参数的取值根据各方本地的情况确定，示例性地，可以是当地居民的年龄、职业、性别以及每天出行轨迹，又或者目标疾病的感染者的性别、年龄、职业，感染人数，以及目标疾病感染者的行动轨迹等；这里，可预测参数的训练参数值是基于本地的多智能体模型的训练目的的差异，所获取的不同的可预测参数，即在对一个多智能体模型进行训练优化的过程中，可预测参数的取值是固定的，作为一个示例，如果该多智能体模型用于预测当地疾病死亡人数，则当地居民的总人数、居民的性别、年龄等是在对该多智能体模型进行训练优化的过程中固定的可预测参数；相应地，在改变该多智能体模型的用途时，只需调整可预测参数即可实现模型的其他用途，示例性地，当该模型用于预测另一地区的死亡人数，则将可预测参数调整为另一地区居民的总人数、居民的性别、年龄等；又或者该多智能体模型是用于预测疾病的传播概率，则此时固定的可预测参数可以是健康用户与患病用户的接触次数；相应地，可通过改变可预测参数即健康用户与患病用户的接触次数，来确定新的疾病传播概率。

在本申请实施例中，参数值组包括至少一个不可预测参数的参数值，不可预测参数的取值无法从已有数据或经验中推出，需要通过对将不可预测参数带入模型得到的预测值与相应的真实值进行比较从而得到，即通过调整不可预测参数的取值，使得模型结果与实际预测目标相符合，确定其最优值，并在测试数据上验证模拟结果准确性，也就是说，选取合适的不可预测参数的取值，使得模型的模拟结果尽可能符合真实数据(的分布)。

在一些实施例中，针对将多个参数值组分别输入至多智能体模型进行预测，得到多个预测结果的处理过程参见图5，图5是本申请实施例提供的多智能体模型的训练方法的一个可选的流程示意图，基于图4，步骤101还可以通过如下方式实现：

步骤1011，获取不可预测参数的数量，并基于不可预测参数的数量确定参数值组的数量。

在实际实施时，确定需要进行优化的不可预测参数的个数，从而基于不可预测参数的个数确定参数值组的个数。作为一个示例，当需要进行优化的不可预测参数的个数为n个时，参数值组的个数可以为n+1个。

步骤1012，基于参数值组的数量，确定各参数值组中不可预测参数的参数值。

在实际实施时，当确定可参数值组的个数后，基于参数值组的个数，选取与参数值组个数对应的不可预测参数的参数值。接上述示例，当参数值组的个数为n+1个时，选取n+1个参数值作为各参数值组中不可预测参数，接上述示例，当n为3时，参数值组即为4组为A、B、C以及D，这里的不可预测参数的参数值包括A(a ₁，b ₁，c ₁，d ₁)、B(a ₂，b ₂，c ₂，d ₂)、C(a ₃，b ₃，c ₃，d ₃)以及D(a ₄，b ₄，c ₄，d ₄)。

需要说明的是，这里选取不可预测参数的参数值包括获取参数值组中各不可预测参数的参数类型，然后根据各不可预测参数对应的参数类型，确定相应的参数值范围，再根据各不可预测参数的参数值范围，确定各不可预测参数的参数值。这里，不可预测参数可以为疾病的传播系数，或者可以是天气、年龄、性别等对疾病传播造成的影响，示例性地，当待优化的不可预测参数之一为疾病的传播系数时，确定该不可预测参数的取值范围为0-K，然后从0-K的范围内随机选取不可预测参数的参数值。接上述示例，例如这里的a是取值范围为0-K的待优化的不可预测参数，则a ₁、a ₂、a ₃以及a ₄均为(0，K)之间的参数值。

步骤1013，分别将各参数值组中不可预测参数的参数值输入至多智能体模型进行预测，得到对应多个参数值组的多个预测结果。

接上述示例，将A(a ₁，b ₁，c ₁，d ₁)、B(a ₂，b ₂，c ₂，d ₂)、C(a ₃，b ₃，c ₃，d ₃)以及D(a ₄，b ₄，c ₄，d ₄)分别输入至多智能体模型进行预测，得到对应A组的预测结果，对应B组的预测结果，对应C组的预测结果以及对应D组的预测结果。

步骤102，基于多个预测结果与各预测结果对应的实际结果，确定每个参数值组的影响因子。

这里，影响因子可以用于表征每个参数值组中不可预测参数的影响程度，即用于表征每个参数值租的影响程度。

在一些实施例中，基于多个预测结果与各预测结果对应的实际结果，确定每个参数值组的影响因子包括分别基于每个参数值组对应的预测结果与相应的实际结果，确定每个参数值组对应的预测准确度；将每个参数值组对应的预测准确度作为相应的影响因子。这里，预测准确度可以为每个参数值组对应的权重。

在另一些实施例中，基于多个预测结果与各预测结果对应的实际结果，确定每个参数值组的影响因子包括分别基于每个参数值组对应的预测结果与相应的实际结果，确定每个参数值组对应的损失值；基于每个参数值组对应的损失值，确定相应参数值组的影响因子。在实际实施时，可以将损失值的倒数作为相应参数值组的影响因子，损失值越大，则损失值的倒数越小即影响因子越小，又或者将损失值作为相应参数值组的影响因子，损失值越大，则影响因子越大，这里，对于通过损失值确定相应参数值组的影响因子的方式，本申请实施例对此不做限制。

步骤103，基于各参数值组以及相应的影响因子，对各不可预测参数的参数值进行聚合，得到对应各不可预测参数的中间参数值。

在一些实施例中，当相应参数值组的影响因子为权重时，分别将各参数值组对应的权重与不可预测参数的参数值进行相乘，得到对应各参数值组的乘积结果，然后对各参数值组对应的乘积结果进行累加，得到累加结果，最后将累加结果作为不可预测参数的中间参数值。接上述示例，这里的参数组为A(a ₁，b ₁，c ₁，d ₁)、B(a ₂，b ₂，c ₂，d ₂)、C(a ₃，b ₃，c ₃，d ₃)以及D(a ₄，b ₄，c ₄，d ₄)，相应的权重为将x、y、z以及k，则不可预测参数的中间参数值P为(a ₁*x+a ₂*y+a ₃*z+a ₄*k，b ₁*x+b ₂*y+b ₃*z+b ₄*k，c ₁*x+c ₂*y+c ₃*z+c ₄*k，d ₁*x+d ₂*y+d ₃*z+d ₄*k)。

在一些实施例中，当相应参数值组的影响因子与每个参数值组对应的损失值相关时，基于各参数值组的影响因子，对多个参数值组进行排序，得到排序结果；基于排序结果，从多个参数值组中选取目标数量的参数值组；其中，目标数量小于多个参数值组的数量；获取目标数量的参数值组中不可预测参数的参数值的平均值；将平均值作为不可预测参数的中间参数值。

在实际实施时，当影响因子为损失值的倒数时，基于损失值的大小，从大到小或者从小到大的对多个参数值组进行排序，然后从排序后的参数值组中选取目标数量的参数值组，这里，目标数量为小于多个参数值组的数量。

接上述示例，这里的参数组为A(a ₁，b ₁，c ₁，d ₁)、B(a ₂，b ₂，c ₂，d ₂)、C(a ₃，b ₃，c ₃，d ₃)以及D(a ₄，b ₄，c ₄，d ₄)，基于损失值的大小，确定最优模型参数值组A，最差模型参数值组D以及其它模型参数值组B和C。然后对选取出的目标数量的参数值组中不可预测参数的参数值进行聚合，即将a ₁、a ₂、a ₃、a ₄进行聚合，将b ₁、b ₂、b ₃、b ₄进行聚合，将c ₁、c ₂、c ₃、c ₄进行聚合以及将d ₁、d ₂、d ₃、d ₄进行聚合。

这里，对选取出的目标数量的参数值组中不可预测参数的参数值进行聚合的过程包括获取目标数量的参数值组中不可预测参数的参数值的平均值，然后将平均值作为不可预测参数的中间参数值，作为一个示例，对获取目标数量的参数值组中不可预测参数的参数值的平均值，将平均值作为不可预测参数的中间参数值的过程进行说明，示例性地，优化n个参数，从n+1个参数组中选取n个参数组，对n个参数组中相应的不可预测参数的参数值求平均值，以作为该不可预测参数的参数值的中间参数值。

需要说明的是，在得到目标数量的参数值组中不可预测参数的参数值的平均值后，还可以利用该平均值对多智能体模型进行更新，再对该平均值以及选取的目标数量的参数值组进行聚合，即再一次选取目标数量的参数值组，对再一次所选取的目标数量的参数值组中不可预测参数的参数值求取平均值，然后继续上述更新多智能体模型的过程并再一次聚合的过程，以此进行迭代，将最后一次所聚合得到的平均值作为不可预测参数的中间参数值。如此，各参与方本地迭代优化各自不可预测参数预设轮次，得到各自的最终平均值即中间参数值。

接上述示例，这里的参数组为A(a ₁，b ₁，c ₁，d ₁)、B(a ₂，b ₂，c ₂，d ₂)、C(a ₃，b ₃，c ₃，d ₃)以及D(a ₄，b ₄，c ₄，d ₄)，基于损失值的大小，确定最优模型参数值组A，最差模型参数值组D以及其它模型参数值组B和C，接着求取最优模型参数值组和其它模型参数组的几何平均点，这里，参照图6A，图6A是本申请实施例提供的一个多智能体模型的不可预测参数聚合的一个可选示意图，此处求取A、B、C三组参数值组的几何平均点P，这里的P＝[(a ₁+a ₂+a ₃)/3，(b ₁+b ₂+b ₃)/3，(c ₁+c ₂+c ₃)/3，(d ₁+d ₂+d ₃)/3]。在得到几何中心点P后，基于P对应的模型参数值组[(a ₁+a ₂+a ₃)/3，(b ₁+b ₂+b ₃)/3，(c ₁+c ₂+c ₃)/3，(d ₁+d ₂+d ₃)/3]对模型参数进行更新，这里，并将A、B、C、P继续带入更新后的模型进行模拟，得到分别对应四组模型参数值组的预测结果，这里，参见图6B，图6B是本申请实施例提供的一个多智能体模型的不可预测参数聚合的一个可选示意图，依据损失值的大小，从A、B、C、P四组模型参数值组中继续确定最优模型参数值组，最差模型参数值组以及其它模型参数值组，接着求取最优模型参数值组和其它模型参数组的几何平均点，继续上述过程，如此，各参与方本地迭代优化各自不可预测参数预设轮次，得到各自的最终几何中心点即中间参数值。

如此，通过上述对参数值组的不可预测参数的参数值进行聚合的方式，不会产生额外的模拟量即不产生新的全局不可预测参数取值，从而各参与方无需对新值进行模拟，可以较单方本地优化更快更稳定的找到最优的不可预测参数值，减少了模拟次数和模型计算量。

在一些实施例中，当相应参数值组的影响因子为权重时，还可以基于各参数值组的权重，对多个参数值组进行排序，基于排序结果，从多个参数值组中选取目标数量的参数值组，其中，目标数量小于多个参数值组的数量，然后分别将所选取的各参数值组对应的权重与不可预测参数的参数值进行相乘，得到对应各参数值组的乘积结果，再对各参数值组对应的乘积结果进行累加，得到累加结果，最后将累加结果作为不可预测参数的中间参数值。

需要说明的是，对于基于各参数值组以及相应的影响因子，对各不可预测参数的参数值进行聚合的方式，还可以基于损失值对多个参数值组进行排序，基于排序结果，从多个参数值组中选取目标数量的参数值组，其中，目标数量小于多个参数值组的数量，然后分别将所选取的各参数值组对应的权重与不可预测参数的参数值进行相乘，得到对应各参数值组的乘积结果，再对各参数值组对应的乘积结果进行累加，得到累加结果，最后将累加结果作为不可预测参数的中间参数值，本申请实施例对基于各参数值组以及相应的影响因子，对各不可预测参数的参数值进行聚合的方式不做限制。

步骤104，将得到的中间参数值发送至协作方设备，其中，中间参数值用于触发协作方设备对多个参与方设备发送的中间参数值进行聚合处理，得到对应各不可预测参数的目标参数值。

在实际实施时，得到中间参数值后对各不可预测参数的中间参数值分别进行隐私保护，得到隐私保护后的中间参数值；这里隐私保护的方式可以为对中间参数值进行模糊处理，例如添加噪声、差分隐私处理等，协作方设备获得的即为至少两个参与方设备对中间参数值进行隐私处理后的参数值，应当理解的是，协作方设备在统计至少两个参与方设备的中间参数值时，其中的噪声将会互相抵消，不影响对中间参数值的聚合结果。此外，隐私保护的处理方式还可以为对中间参数值进行同态加密。

在实际实施时，协作方对多个参与方设备发送的中间参数值进行聚合处理的过程可以有多种方式，示例性地，对各参与方发送的中间参数值求几何平均，或者随机选取部分参与方上传的中心点进行平均，又或者在参与方除了上传几何中心点，同时上传最优模型参数值组或最差模型参数值组的损失值，或除最差模型参数值组之外其它所有模型参数值组的平均损失值的基础上，根据损失值对参与方进行排序，选取较好的多个中心点进行平均，得到新的中心点。对于协作方进行参数聚合操作的过程本申请实施例对此不做限制。

步骤105，接收协作方设备返回的对应各不可预测参数的目标参数值，并基于目标参数值对多智能体模型进行更新。

需要说明的是，参与方基于目标参数值对多智能体模型进行更新有两种实现方式。

在一些实施例中，参见图7A，图7A是本申请实施例提供的多智能体模型训练方法的一个可选的流程示意图，这里，整个模型训练过程分成两个阶段完成，第一阶段是本地的多智能体模型训练，直至模型达到收敛条件后，将收敛时的各中间参数值上传至协作方设备(参数聚合设备)，其中，中间参数值用于触发协作方设备进行第二阶段的参数聚合操作，为了适应初步建模或快速建模场景，第二阶段的参数聚合可只进行一次，整个模型就收敛。

在另一些实施例中，参见图7B，图7B是本申请实施例提供的多智能体模型训练方法的一个可选的流程示意图，这里，参与方还可以仅进行一次本地的多智能体模型的参数聚合，即将各中间参数值上传至协作方设备，其中，中间参数值用于触发协作方设备进行仅一次的第二阶段的参数聚合操作，然后将聚合后的目标参数值返回至各参与方设备，以供各参与方设备进行本地的模型更新，然后基于更新后的模型，继续进行本地的多智能体模型的模拟，再将各中间参数值上传至协作方设备，继续上述过程，直至本地的多智能体模型收敛。

需要说明的是，在上述第二种更新方式中，各参与方设备在得到目标参数值后，参与方设备基于目标参数值更新本地多智能体模型，再将目标参数值与模型更新前所选取的目标数量的参数值组输入至更新后的本地多智能体模型，对该目标参数值以及模型更新前所选取的目标数量的参数值组进行聚合，即再一次选取目标数量的参数值组，对再一次所选取的目标数量的参数值组中不可预测参数的参数值求取平均值，以作为中间参数值发送至协作方设备，然后继续上述过程。

在一些实施例中，在多智能体模型训练完成后，可以通过改变可预测参数的实际参数值来实现多智能体模型的其他用途，这里的实际参数值不同于所述可预测参数的训练参数值；作为一个示例，可预测参数包括目标疾病的感染者的性别、年龄、职业，以及感染人数，实际参数值可以是目标区域内目标疾病的感染者的性别、年龄、职业，以及感染人数，然后将实际参数值输入更新后的多智能体模型进行预测，从而可以得到目标区域内目标疾病导致的死亡人数。

如此，通过该多智能体模型进行与疾病相关的数据的预测，提升了模型预测准确度，进而及时掌控与疾病相关的情况，以快速调度医疗资源并及时进行疾病防治与管控。

应用本申请上述实施例，相较于相关技术中多智能体的模型只能由数据拥有方单独训练的方式，通过参与方在本地对不可预测参数进行聚合后得到的中间参数值并发送至协作方，并基于协作方对接收到中间参数值进行二次聚合返回的目标参数值，以对多智能体模型进行更新，如此，当多个参与方对用途相同的多智能体模型进行训练时，联合优化不可预测参数的取值，从而获得模拟结果与真实数据符合更好的多智能体模型，并保障了本地数据的安全，解决多智能体的模型领域的数据孤岛问题，实现多参与方之间共同建模，从而提升了模型预测准确度。

在对本申请实施例提供的多智能体模型的训练方法进行说明之后，接下来对训练得到的多智能体模型的应用进行说明，这里，以疾病的传播预测的实际场景为例，对本申请实施例提供的多智能体模型的预测方法进行介绍，参见图8，图8是本申请实施例提供的多智能体模型的预测方法的流程示意图，本申请实施例提供的基于多智能体模型的预测方法包括：

步骤201，参与方设备获取可预测参数的实际参数值，其中，实际参数值不同于可预测参数的训练参数值。

在实际实施时，获取可预测参数的实际参数值包括获取目标区域内居民的总人数，居民的性别、年龄、职业，和目标疾病感染者的性别、年龄、职业，以及感染者的活动轨迹。这里，目标区域可以是某一城市或者某一国家，目标疾病可以是一种传播性强的新型疾病，目标疾病感染者可以是从目标区域以外的区域流入目标区域内的至少一个外来疾病感染者，或者也可以是在目标区域内没有接受疾病管控的自由行动的本地传播者。

步骤202，将实际参数值输入更新后的多智能体模型进行预测，得到相应的预测结果。

在实际实施时，将获取到的目标区域内居民的总人数，居民的性别、年龄、职业，和目标疾病感染者的性别、年龄、职业，以及感染者的活动轨迹输入至更新后的多智能体模型，可以预测目标疾病感染者对目标区域内居民的影响，即得到目标疾病感染者导致目标区域内的新增感染人数。

如此，在获取到具体的可预测参数值后，相较于之前的多智能体模型，通过更新后的多智能体模型可以准确的预测出目标疾病感染者对目标区域的影响即传染人数，这样，可以充分准备医疗资源，对疾病感染者进行及时治疗，避免由于医疗资源不足导致疾病死亡率上升的问题。

在一些实施例中，更新完成的多智能体模型还可以用于城市交通情况预测，即预测未来一段时间内，针对目标区域的目标路段在目标时间段内拥堵车辆数，具体包括获取可预测参数的实际参数值即目标区域的人口出行轨迹、办公区域分布、节假日时间等；这里，目标区域可以是城市的不同中心区域，在实际实施时，将获取到的目标区域的人口出行轨迹、办公区域分布、节假日时间等输入至更新后的多智能体模型，可以预测目标区域的目标路段在目标时间段内拥堵车辆数。如此，在获取到具体的可预测参数值后，相较于之前的多智能体模型，通过更新后的多智能体模型可以准确的预测出目标区域的目标路段在目标时间段内的拥堵情况，从而及时做出交通管控。

接下来以横向联邦学习的应用场景为例，对本申请实施例提供的多智能体模型的训练进行说明。在横向联邦学习的场景下，通常有一个协作方与至少两个参与方，也即对于模型的训练由一个协作方设备和至少两个参与方设备共同实施。参与方设备与协作方设备均可以是服务器，也可以是终端。参见图9，图9是本申请实施例提供的多智能体模型的训练方法的流程示意图，包括：

步骤301，各参与方设备初始化本地多智能体模型。

这里，在横向联邦学习的应用场景下，各参与方作为数据持有方，所拥有的数据集中用户重叠相对少而用户特征重叠相对较多，各参与方拥有对应用户的标签；比如各参与方可以为不同地区的医院，他们触达的用户为不同地区的居民(即样本不同)，但是业务相同(即特征相同)；相应地，协作方设备可以是具有公信力的机构。

参见图10，图10是本申请实施例提供的一个多智能体模型的横向联邦学习方法，这里展示了一个协作方设备和n个参与方设备，各参与方的结构与工作方式均相同。在本实施例中，各参与方设备都有一个相同的多智能体模型，有各自私有的可预测参数X _1，E，…，X _N， _E，各自的不可预测参数X _1，V，…，X _N，V，以及各方本地多智能体模型模拟的目标变量Y _1， _gt，…，Y _N，gt。在具体实施时，通过确定可预测参数取值X _E、多智能体模型结构、预测目标Y _gt以及选取不可预测参数X _V来初始化本地多智能体模型。

步骤302，将可预测参数的参数值输入至本地的多智能体模型。

继续参见图10，将各自私有的可预测参数X _1，E，…，X _N，E输入至本地的ABS模型。

步骤303，在固定可预测参数的参数值的情况下，将多个参数值组分别输入至多智能体模型进行预测，得到多个预测结果。

作为一个示例，这里以优化2个参数为例(a，b)，各参与方初始化3组取值(可看作一个点)，每组包含这2个参数的一种取值。将这3组参数分别带入模型进行模拟，得到对应三组参数的模型预测结果。这里继续参见图10，将各自的不可预测参数X _1，V，…，X _N，V输入至本地的ABS模型，结合上述示例，这里的X _1，V对应参数a，X _2，V对应参数b，则各参与方初始化3组取值(可看作一个点)即为[a ₁，b ₁]，[a ₂，b ₂]和[a ₃，b ₃]，将这3组参数分别带入模型进行模拟，得到对应三组参数的模型预测结果也就是将[a1，b1]，[a2，b2]和[a3，b3]带入模型进行模拟，得到分别对应三组参数的模型预测结果。

步骤304，分别将多个预测结果与相应的实际结果进行比较。

接上述示例，如果该多智能体模型的用途是预测当地死亡人数，则在某一时段内，当地实际死亡人数即是实际结果，将多个预测结果与相应的实际结果进行比较即是将[a ₁，b ₁]，[a ₂，b ₂]和[a ₃，b ₃]分别对应的预测死亡人数与当地实际死亡人数进行比较。

步骤305，基于比较结果，确定每个参数值组对应的损失值。

在实际实施时，通常可用均方误差(MSE)作为损失函数来计算得到每个参数值组对应的损失值。

步骤306，对多个损失值进行排序，得到最优模型参数值组，最差模型参数值组以及其它模型参数值组。

接上述示例，确定[a ₁，b ₁]，[a ₂，b ₂]和[a ₃，b ₃]分别对应的预测结果的损失值，对三个损失值进行排序，得到最优模型参数值组[a ₁，b ₁]，最差模型参数值组[a ₂，b ₂]以及其它模型参数值组[a ₃，b ₃]。

步骤307，对除最差模型参数值组之外所有模型参数值组的不可预测参数的参数值进行聚合，得到对应各不可预测参数的中间参数值。

作为一个示例，这里对不可预测参数的参数值进行聚合可以是求取最优模型参数值组和其它模型参数值组的几何中心点，参照图11，图11是本申请实施例提供的一个多智能体模型的不可预测参数聚合的一个可选示意图，接上述示例，此处求最优模型参数值组[a ₁，b ₁]和其它模型参数值组[a ₃，b ₃]的几何中心点C，这里C＝[(a ₁+a ₃)/2，(b ₁+b ₃)/2]。

需要说明的是，在得到几何中心点C后，基于C对应的模型参数值组[(a ₁+a ₃)/2，(b ₁+b ₃)/2]对模型参数进行更新，并将[a ₁，b ₁]，[a ₃，b ₃]和[(a ₁+a ₃)/2，(b ₁+b ₃)/2]继续带入更新后的模型进行模拟，得到分别对应三组模型参数值组的预测结果，然后继续步骤304-步骤307的过程，如此，各参与方本地迭代优化各自不可预测参数N _L轮，得到各自的最终几何中心点C _i,V ^t+1即中间参数值。

步骤308，将中间参数值发送至协作方设备。

继续参见图10，n个参与方设备将各自的最终几何中心点C _i,V ^t+1各发送至协作方设备。

步骤309，协作方设备对接收到的中间参数值进行聚合处理，得到对应各不可预测参数的目标参数值。

作为一个示例，列举三种具体的聚合方法对协作方对接收到的中间参数值进行聚合处理的过程进行详细说明，具体包括，a)一种典型的聚合方式为求几何平均，即C _Server， _V ^t+1＝centroid(C _1，V ^t+1，…，C _N，V ^t+1)；b)随机选取部分参与方上传的中心点进行平均，如随机选取K方，K<N，C _Server，V ^t+1＝centroid(C _1，V ^t+1，…，C _K，V ^t+1)；c)参与方除了上传几何中心点，同时上传最优点或最差点的损失值，或除最差点之外其它所有点的平均损失值；根据损失值对参与方进行排序，选取最好的K个中心点进行平均，得到新的中心点，K<N，C _Server，V ^t+1＝centroid(C _1，V ^t+1，…，C _K，V ^t+1)。

示例性地，协作方设备对接收到的几何中心点进行聚合处理，即对C ₁，…，C _n求几何平均，这里，若C ₁＝[x ₁，y ₁]，C _n＝[x _n，y _n]，则C _Server，V ^t+1＝[(x ₁+…+x _n)/n，(y ₁+…+y _n)/n]。

步骤310，将目标参数值发送至各参与方设备。

继续参见图10，协作方设备将通过聚合得到的对应各不可预测参数的目标参数值C _Server， _V ^t+1发送至n个参与方设备。

步骤311，基于目标参数值对多智能体模型进行更新。

在实际实施时，参与方设备在得到目标参数值即优化后的不可预测参数后，根据该不可预测参数对本地的多智能体模型进行优化。

下面继续说明本申请实施例提供的多智能体模型的训练装置254，参见图12，图12是本申请实施例提供的多智能体模型的训练装置254的结构示意图，本申请实施例提供的多智能体模型的训练装置254包括：

获取模块2541，配置为参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定所述训练参数值的情况下，将多个参数值组分别输入至所述多智能体模型进行预测，得到多个预测结果；其中，所述参数值组包括至少一个不可预测参数的参数值；

对比模块2542，配置为基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子；

聚合模块2543，配置为基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值；

发送模块2544，配置为将得到的所述中间参数值发送至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值；

更新模块2545，配置为接收所述协作方设备返回的对应各所述不可预测参数的目标参数值，并基于所述目标参数值对所述多智能体模型进行更新。

在一些实施例中，所述获取模块2541，还配置为获取所述不可预测参数的数量，并基于所述不可预测参数的数量确定所述参数值组的数量；基于所述参数值组的数量，确定各参数值组中不可预测参数的参数值；分别将所述各参数值组中不可预测参数的参数值输入至所述多智能体模型进行预测，得到对应所述多个参数值组的多个预测结果。

在一些实施例中，所述获取模块2541，还配置为获取所述参数值组中各不可预测参数的参数类型；根据所述各不可预测参数对应的参数类型，确定相应的参数值范围；根据所述各不可预测参数的参数值范围，确定所述各不可预测参数的参数值。

在一些实施例中，所述对比模块2542，还配置为分别基于每个所述参数值组对应的预测结果与相应的实际结果，确定每个所述参数值组对应的预测准确度；将每个所述参数值组对应的预测准确度作为相应的影响因子。

在一些实施例中，所述聚合模块2543，还配置为分别将各所述参数值组对应的预测准确度与所述不可预测参数的参数值进行相乘，得到对应各所述参数值组的乘积结果；对各所述参数值组对应的乘积结果进行累加，得到累加结果；将所述累加结果作为所述不可预测参数的中间参数值。

在一些实施例中，所述对比模块2542，还配置为分别基于每个所述参数值组对应的预测结果与相应的实际结果，确定每个所述参数值组对应的损失值；基于每个所述参数值组对应的损失值，确定相应参数值组的影响因子。

在一些实施例中，所述聚合模块2543，还配置为基于各所述参数值组的影响因子，对所述多个参数值组进行排序，得到排序结果；基于所述排序结果，从所述多个参数值组中选取目标数量的参数值组；其中，所述目标数量小于所述多个参数值组的数量；基于选取的目标数量的参数值组，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值。

在一些实施例中，所述聚合模块2543，还配置为获取所述目标数量的参数值组中所述不可预测参数的参数值的平均值；将所述平均值作为所述不可预测参数的中间参数值。

在一些实施例中，所述发送模块2544，还配置为对各所述不可预测参数的中间参数值分别进行隐私保护，得到隐私保护后的中间参数值；发送隐私保护后的中间参数值至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的、隐私保护后的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值。

在一些实施例中，所述装置还包括第二获取模块1210和预测模块1220，所述第二获取模块1210测参数的训练参数值；所述预测模块1220，配置为将所述实际参数值输入更新后的所述多智能体模型进行预测，得到相应的预测结果。

在一些实施例中，所述可预测参数包括目标疾病的感染者的性别、年龄、职业，以及感染人数；所述第二获取模块1210，还配置为获取目标区域内目标疾病的感染者的性别、年龄、职业，以及感染人数；所述预测模块1220，还配置为将所述目标区域内目标疾病的感染者的性别、年龄、职业，以及感染人数输入至更新后的所述多智能体模型，预测得到所述目标区域内所述目标疾病导致的死亡人数。

下面说明本申请实施例提供的基于多智能体模型的预测装置1200，参见图13，图13是本申请实施例提供的基于多智能体模型的预测装置1200的结构示意图，本申请实施例提供的基于多智能体模型的预测装置1200包括：

第二获取模块1210，配置为获取所述可预测参数的实际参数值，所述实际参数值不同于所述可预测参数的训练参数值；

预测模块1220，配置为将所述实际参数值输入更新后的所述多智能体模型进行预测，得到相应的预测结果。

本申请实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的多智能体模型的训练方法。

本申请实施例还提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的多智能体模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(Hyper Text Markup Language，HTML)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例当多个参与方对用途相同的多智能体模型进行训练时，联合优化不可预测参数的取值，从而获得模拟结果与真实数据符合更好的多智能体模型，并保障了本地数据的安全，解决多智能体的模型领域的数据孤岛问题，实现多参与方之间共同建模，从而提升了模型预测准确度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

一种多智能体模型的训练方法，基于联邦学习***，所述***包括协作方设备及至少两个参与方设备，所述方法由参与方设备执行，所述方法包括：

参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定所述训练参数值的情况下，将多个参数值组分别输入至所述多智能体模型进行预测，得到多个预测结果；

其中，所述参数值组包括至少一个不可预测参数的参数值；

基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子；

基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值；

将得到的所述中间参数值发送至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值；

接收所述协作方设备返回的对应各所述不可预测参数的目标参数值，并基于所述目标参数值对所述多智能体模型进行更新。
根据权利要求1所述的方法，其中，所述将多个参数值组分别输入至所述多智能体模型进行预测，得到多个预测结果，包括：

获取所述不可预测参数的数量，并基于所述不可预测参数的数量确定所述参数值组的数量；

基于所述参数值组的数量，确定各参数值组中不可预测参数的参数值；

分别将所述各参数值组中不可预测参数的参数值输入至所述多智能体模型进行预测，得到对应所述多个参数值组的多个预测结果。
根据权利要求2所述的方法，其中，所述确定各参数值组中不可预测参数的参数值，包括：

获取所述参数值组中各不可预测参数的参数类型；

根据所述各不可预测参数对应的参数类型，确定相应的参数值范围；

根据所述各不可预测参数的参数值范围，确定所述各不可预测参数的参数值。
根据权利要求1所述的方法，其中，所述基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子，包括：

分别基于每个所述参数值组对应的预测结果与相应的实际结果，确定每个所述参数值组对应的预测准确度；

将每个所述参数值组对应的预测准确度作为相应的影响因子。
根据权利要求4所述的方法，其中，所述基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值，包括：

针对所述参数值组中任一所述不可预测参数执行以下操作：

分别将各所述参数值组对应的预测准确度与所述不可预测参数的参数值进行相乘，得到对应各所述参数值组的乘积结果；

对各所述参数值组对应的乘积结果进行累加，得到累加结果；

将所述累加结果作为所述不可预测参数的中间参数值。
根据权利要求1所述的方法，其中，所述基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子，包括：

分别基于每个所述参数值组对应的预测结果与相应的实际结果，确定每个所述参数值组对应的损失值；

基于每个所述参数值组对应的损失值，确定相应参数值组的影响因子。
根据权利要求1所述的方法，其中，所述基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值，包括：

基于各所述参数值组的影响因子，对所述多个参数值组进行排序，得到排序结果；

基于所述排序结果，从所述多个参数值组中选取目标数量的参数值组；其中，所述目标数量小于所述多个参数值组的数量；

基于选取的目标数量的参数值组，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值。
根据权利要求7所述的方法，其中，所述基于选取的目标数量的参数值组，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值，包括：

针对所述参数值组中任一所述不可预测参数执行以下操作：

获取所述目标数量的参数值组中所述不可预测参数的参数值的平均值；

将所述平均值作为所述不可预测参数的中间参数值。
根据权利要求1所述的方法，其中，所述将得到的所述中间参数值发送至协作方设备，包括：

对各所述不可预测参数的中间参数值分别进行隐私保护，得到隐私保护后的中间参数值；

发送隐私保护后的中间参数值至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的、隐私保护后的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值。
根据权利要求1所述的方法，其中，所述方法还包括：

获取所述可预测参数的实际参数值，所述实际参数值不同于所述可预测参数的训练参数值；

将所述实际参数值输入更新后的所述多智能体模型进行预测，得到相应的预测结果。
根据权利要求10所述的方法，其中，所述可预测参数包括目标疾病的感染者的性别、年龄、职业，以及感染人数；

所述获取所述可预测参数的实际参数值，包括：

获取目标区域内目标疾病的感染者的性别、年龄、职业，以及感染人数；

所述将所述实际参数值输入更新后的所述多智能体模型进行预测，得到相应的预测结果，包括：

将所述目标区域内目标疾病的感染者的性别、年龄、职业，以及感染人数输入至更新后的所述多智能体模型，预测得到所述目标区域内所述目标疾病导致的死亡人数。
一种多智能体模型的训练装置，所述装置包括：

获取模块，配置为参与方设备将可预测参数的训练参数值输入至本地的多智能体模型，并在固定所述训练参数值的情况下，将多个参数值组分别输入至所述多智能体模型进行预测，得到多个预测结果；其中，所述参数值组包括至少一个不可预测参数的参数值；

对比模块，配置为基于所述多个预测结果与各所述预测结果对应的实际结果，确定每个所述参数值组的影响因子；

聚合模块，配置为基于各所述参数值组以及相应的影响因子，对各所述不可预测参数的参数值进行聚合，得到对应各所述不可预测参数的中间参数值；

发送模块，配置为将得到的所述中间参数值发送至协作方设备，其中，所述中间参数值用于触发所述协作方设备对多个参与方设备发送的所述中间参数值进行聚合处理，得到对应各所述不可预测参数的目标参数值；

更新模块，配置为接收所述协作方设备返回的对应各所述不可预测参数的目标参数值，并基于所述目标参数值对所述多智能体模型进行更新。
一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的方法。
一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现权利要求1至11任一项所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。