CN113159190B

CN113159190B - 联邦激励分配方法、装置、计算机设备及存储介质

Info

Publication number: CN113159190B
Application number: CN202110449555.4A
Authority: CN
Inventors: 李泽远; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2024-02-02
Anticipated expiration: 2041-04-25
Also published as: CN113159190A

Abstract

本发明公开了一种联邦激励分配方法、装置、计算机设备及存储介质，通过自加入联邦***的各参与方发送初始训练数据集中，确定与各参与方对应的有效训练数据集及其训练质量向量；根据与各参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度；采用边际效用衡量方法确定各所述参与方的贡献值，并根据所述联邦激励深度以及与各所述参与方对应的所述贡献值，确定与各所述参与方对应的预设激励分配值；根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值；根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务。本发明提高了联邦***的综合效益。

Description

联邦激励分配方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种联邦激励分配方法、装置、计算机设备及存储介质。

背景技术

由于联邦学习技术兼具分布式机器学习和隐私保护技术的优势，能够在保证数据安全和隐私的前提下，联合多方进行训练，从而提升模型性能和实际效益，联邦学习技术目前应用在智能安防、资产风险检测等应用场景中。

现有技术中，联邦学习的应用场景的前提是多个参与方主动加入，并且利用高质量数据训练本地模型。但是，由于联邦学习的输入数据的质量以及数量均由参与方决定，因此可能会出现联邦***中联邦学习激励的分配无法与各参与方的需求匹配的问题，进而导致联邦***的综合效益较低。

发明内容

本发明实施例提供一种联邦激励分配方法、装置、计算机设备及存储介质，以解决联邦***的综合效益较低的问题。

一种联邦激励分配方法，包括：

接收加入联邦***的各参与方发送的初始训练数据集，自所述初始训练数据集中，确定与各所述参与方对应的有效训练数据集及其训练质量向量；一个所述参与方的有效训练数据集关联一个有效数据总量；

根据与各所述参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度；

采用边际效用衡量方法确定各所述参与方的贡献值，并根据所述联邦激励深度以及与各所述参与方对应的所述贡献值，确定与各所述参与方对应的预设激励分配值；

根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值；

根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务。

一种联邦激励分配装置，包括：

数据处理模块，用于接收加入联邦***的各参与方发送的初始训练数据集，自所述初始训练数据集中，确定与各所述参与方对应的有效训练数据集及其训练质量向量；一个所述参与方的有效训练数据集关联一个有效数据总量；

联邦激励深度确定模块，用于根据与各所述参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度；

预设激励分配值确定模块，用于采用边际效用衡量方法确定各所述参与方的贡献值，并根据所述联邦激励深度以及与各所述参与方对应的所述贡献值，确定与各所述参与方对应的预设激励分配值；

实际激励分配值确定模块，用于根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值；

激励分配任务执行模块，用于根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述联邦激励分配方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述联邦激励分配方法。

上述联邦激励分配方法、装置、计算机设备及存储介质，通过接收加入联邦***的各参与方发送的初始训练数据集，自所述初始训练数据集中，确定与各所述参与方对应的有效训练数据集及其训练质量向量；一个所述参与方的有效训练数据集关联一个有效数据总量；根据与各所述参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度；采用边际效用衡量方法确定各所述参与方的贡献值，并根据所述联邦激励深度以及与各所述参与方对应的所述贡献值，确定与各所述参与方对应的预设激励分配值；根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值；根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务。

本发明通过各参与方传输的有效训练数据集的有效数据总量，以及与有效训练数据集对应的训练质量向量，对各参与方对联邦***的联邦训练作出的贡献进行评估，以确定与各参与方对应的贡献值相匹配的激励，并引入预设激励确定策略，使得所有参与方均持有正向激励，从而可以吸引更多的参与方提供更多，且质量更好的训练数据加入至联邦***，提高了联邦***的综合效益。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中联邦激励分配方法的一应用环境示意图；

图2是本发明一实施例中联邦激励分配方法的一流程图；

图3是本发明一实施例中联邦激励分配方法中步骤S10的一流程图；

图4是本发明一实施例中联邦激励分配方法中步骤S20的一流程图；

图5是本发明一实施例中联邦激励分配方法中步骤S40的一流程图；

图6是本发明一实施例中联邦激励分配装置的一原理框图；

图7是本发明一实施例中联邦激励分配装置中数据处理模块的一原理框图；

图8是本发明一实施例中联邦激励分配装置中联邦激励深度确定模块的一原理框图；

图9是本发明一实施例中联邦激励分配装置中实际激励分配值确定模块的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的联邦激励分配方法，该联邦激励分配方法可应用如图1所示的应用环境中。具体地，该联邦激励分配方法应用在联邦激励分配***中，该联邦激励分配***包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决联邦***的综合效益较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种联邦激励分配方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：接收加入联邦***的各参与方发送的初始训练数据集，自所述初始训练数据集中，确定与各所述参与方对应的有效训练数据集及其训练质量向量；一个所述参与方的有效训练数据集关联一个有效数据总量。

可以理解地，参与方指的是确定参与联邦***训练的用户或者终端。联邦***指的是基于联邦学习技术，且等待进行联邦训练的***。初始训练数据集指的是各参与方的本地数据，也即各参与方确定输入至用以联邦***训练所使用的数据。有效训练数据集指的是初始训练数据集中除去不满足训练需求之后的剩余训练数据的集合，该有效训练数据集中的训练数据均满足联邦***的训练需求。训练质量向量用于表征有效训练数据集中训练数据的质量，该训练质量向量通过如饱和度、相似性等多种维度性能评估后得到。有效数据总量指的是每一个有效训练数据集中有效训练数据的总数。

在一实施例中，如图3所示，所述初始训练数据集中包含至少一个初始训练数据；步骤S10中，包括：

S101：接收包含训练需求的数据清洗指令，以对各所述参与方的所述初始训练集进行数据清洗处理，以剔除所述初始训练集中不符合所述训练需求的初始训练数据。

S102：将剔除不符合所述训练需求的初始训练数据之后的初始训练集记录为所述有效训练数据集。

可以理解地，训练需求指的是对联邦***进行联邦训练的需求，该训练需求可以包含对训练数据的需求，对模型参数的需求等。数据清洗指令可以由用户(如联邦***训练人员)发送，也可以在键入训练需求之后自动生成。

具体地，在接收到包含训练需求的数据清洗指令之后，对各参与方的初始训练集中的初始训练数据进行数据清洗处理，以剔除初始训练数据集中不符合训练需求的初始训练数据，并将剔除不符合训练需求的初始训练数据之后的初始训练集记录为有效训练数据集。进一步地，有效训练数据集关联的有效数据总量即为初始训练数据集中初始训练数据的总量，与不符合训练需求的初始训练数据的总量之间的差值。

S103：将所述有效训练数据集输入至联邦特征工程模块中，通过所述联邦特征工程模块对所述有效训练数据集进行特征评估处理，确定与各所述有效训练数据集对应的训练质量向量。

可以理解地，联邦特征工程模块指的是联邦***中用于从多个不同的维度衡量有效训练数据集中数据的质量的模块。

具体地，在将剔除不符合所述训练需求的初始训练数据之后的初始训练集记录为所述有效训练数据集之后，将有效训练数据集输入至联邦***中的联邦特征工程模块中，通过联邦特征工程模块从如饱和度、稀疏性、相似性、数据分布等多种维度，对有效训练数据集中的训练数据进行特征性评估处理，进而确定与各有效训练数据集对应的训练质量向量。

S20：根据与各所述参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度。

可以理解地，在各参与方提供数据用于联邦***的联邦训练之后，会对参与方进行激励反馈，而联邦激励深度为影响对参与方进行激励反馈的参数，联邦激励深度越大，给各参与方进行激励反馈越多；反之联邦激励深度越小，给各参与方进行激励反馈越少。

在一具体实施例中，如图4所示，步骤S20包括：

S201：从与各所述参与方对应的训练质量向量中，确定匹配质量向量；所述匹配质量是指与所述训练需求匹配度最高的训练质量向量。

可以理解地，在通过联邦特征工程模块对有效训练数据集进行特征评估处理，确定与各有效训练数据集对应的训练质量向量之后，可以根据各参与方对应的有效训练数据集对应的训练质量向量，确定出与训练需求最匹配，也即质量最高的训练质量向量，进而将质量最高的训练质量向量记录为匹配质量向量。

S202：根据与各所述参与方对应的训练质量向量，采用数学期望算法确定平均质量向量。

具体地，在通过联邦特征工程模块对有效训练数据集进行特征评估处理，确定与各有效训练数据集对应的训练质量向量之后，根据与各参与方对应的训练质量向量，通过数学期望算法确定平均质量向量。示例性地，可以通过如下数学期望算法确定平均质量向量：

其中，指的是m个参与方对应的平均质量向量；E(qi)指的是第i个参与方对应的训练质量向量；m为参与方的总个数。

S203：根据与各所述参与方对应的有效数据总量，采用数学期望算法确定平均有效数据量。

具体地，在将剔除不符合所述训练需求的初始训练数据之后的初始训练集记录为所述有效训练数据集之后，确定每一有效训练数据集中训练数据的数量，也即确定有效训练数据集的有效数据总量，进而根据与各参与方对应的有效训练数据集中关联的有效数据总量，采用数学期望算法确定平均有效数据量。示例性地，可以通过如下数学期望算法确定平均有效数据量：

其中，指的是m个参与方对应的平均有效数据量；Q(i)指的是第i个参与方对应的有效数据总量。

S204：获取所述联邦***的最大数据承载量，并根据所述匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。

可以理解地，最大数据承载量指的是联邦***可以承载最大的训练数据量。进而在获取联邦***的最大数据承载量之后，根据匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定联邦激励深度。

在一具体实施方式中，步骤S204中，包括：

接收自各所述参与方发送的***服务参数，并根据各所述参与方的所述***服务参数，确定所述联邦***的服务总参数。

可以理解地，***服务参数指的是每个参与方在确定加入联邦***进行联邦训练之后，需要提交的***服务费用(每一参与方提交的***服务费用均可以设置为相同的费用)。服务总参数即为所有参与方提交的***服务费用的总和。

具体地，在接收自各参与方发送的***服务参数之后，将各参与方的***服务参数的总和，记录为联邦***的服务总参数。

获取所述联邦***的第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数；所述第二预设数量决策参数大于所述第一预设数量决策参数。

可以理解地，第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数均为联邦***的决策参数，且上述参数可以通过联邦***的应用环境，***运营情况等多种因素进行确定。第一预设数量决策参数以及第二预设数量决策参数用于衡量平均有效数据量的大小。第一预设深度决策参数以及第二预设深度决策参数用于决定联邦激励深度的大小。

在所述平均有效数据量小于所述第一预设数量决策参数时，根据所述服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。

具体地，在获取联邦***的第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数之后，将平均有效数据量与第一预设数量决策参数以及第二预设数量决策参数进行比较，在平均有效数据量小于第一预设数量决策参数时，根据服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定联邦激励深度。示例性地，可以根据下述表达式确定在平均有效数据量小于第一预设数量决策参数时对应的联邦激励深度：

其中，T1为在平均有效数据量小于第一预设数量决策参数时对应的联邦激励深度；C为参与方对应的***服务参数(此处将各参与方对应的***服务参数均设置为C，若参与方对应的***服务参数不同，则可以替换为各参与方对应的***服务参数之和)；指的是m个参与方对应的平均质量向量；/>指的是m个参与方对应的平均有效数据量；/>为匹配质量向量；/>为最大数据承载量；x1为第一预设数量决策参数。

在所述平均有效数据量大于或等于所述第一预设数量决策参数，且小于所述第二预设数量决策参数时，根据所述第一预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。

具体地，在获取联邦***的第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数之后，将平均有效数据量与第一预设数量决策参数以及第二预设数量决策参数进行比较，在平均有效数据量大于或等于第一预设数量决策参数，且小于第二预设数量决策参数时，根据第一预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定联邦激励深度。示例性地，可以根据下述表达式确定在平均有效数据量大于或等于第一预设数量决策参数，且小于第二预设数量决策参数时对应的联邦激励深度：

其中，T2为在平均有效数据量大于或等于第一预设数量决策参数，且小于第二预设数量决策参数时对应的联邦激励深度；x2为第二预设数量决策参数；t1为第一预设深度决策参数。

在所述平均有效数据量大于或等于所述第二预设数量决策参数时，根据所述第二预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。

具体地，在获取联邦***的第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数之后，将平均有效数据量与第一预设数量决策参数以及第二预设数量决策参数进行比较，在平均有效数据量大于或等于第二预设数量决策参数时，根据第二预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。示例性地，可以根据下述表达式确定在平均有效数据量大于或等于第二预设数量决策参数时对应的联邦激励深度：

其中，T3为在平均有效数据量大于或等于第二预设数量决策参数时对应的联邦激励深度；t2为第二预设深度决策参数。

S30：采用边际效用衡量方法确定各所述参与方的贡献值，并根据所述联邦激励深度以及与各所述参与方对应的所述贡献值，确定与各所述参与方对应的预设激励分配值。

可以理解地，边际效用衡量方法用于衡量每一参与方为联邦***的训练作出的贡献。预设激励分配值指的是根据参与方对联邦***的训练作出的贡献，预设对每一参与方进行激励分配的值。

在一具体实施方式中，步骤S30中包括：

根据与各所述参与方对应的有效训练数据集，采用Shapley值算法确定各所述参与方针对所述联邦***的边际效用。

根据各所述参与方对应的边际效用，确定与各所述参与方对应的贡献值。

其中，Shapley值算法用于衡量各参与方对联邦***的训练作出的贡献。具体地，在根据与各参与方对应的训练质量向量以及有效数据总量，确定联邦***的联邦激励深度之后，采用Shapley值算法确定各所述参与方针对联邦***的训练过程中，其对应的有效训练数据集对联邦***的训练带来的边际效用，进而根据各参与方对应的边际效用，确定与各参与方对应的贡献值。进一步地，各参与方对应的贡献值之和为1。

进一步地，可以通过下述表达式确定与各所述参与方对应的贡献值：

δi＝v(S∪{i})-v(S)

其中，δi为第i个参与方加入至联邦***后带来的边际效用；v(S∪{i})为所有参与方加入至联邦***后带来的边际效用；v(S)为除了第i个参与方之外其它参与方加入至联邦***后带来的边际效用(S为不包含第i个参与方的集合)；为各参与方对应的贡献值；M为所有参与方的集合；m为参与方的个数。

示例性地，假设一共存在2个参与方X以及Y，若仅存在参与方X时，此时联邦***对应的边际效用为v(x)；若存在参与方X以及参与方Y，且此时联邦***对应的边际效用为v(x+y)时，参与方Y对应的边际效用则为v(x+y)-v(x)；假设一共存在3个参与方X,Y,Z，若需要计算参与方X的边际效用，则枚举所有参与方的集合为{X}，{Y}，{Z}，{X,Y}，{X，Z}，{Y，Z}，其中排出参与方A的子集有{Y}，{Z}，{Y，Z}，则可以用S代表这些子集。

S40：根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值。

可以理解地，预测激励确定策略用于确定与各参与方对应的实际激励分配值。由于参与方在联邦训练过程中产生了数据计算以及通信损耗，当分配至参与方的激励较少时，可能会出现参与方实际获得的激励不能满足数据计算以及通信损耗带来的总消耗，因此本实施例中引入预测激励确定策略，使得当参与方的预设激励分配值不满足其数据计算以及通信损耗带来的总消耗时，通过联邦***中的激励池将其对应的预设激励分配值补充至与总消耗匹配的激励分配值。

在一实施例中，如图5所示，步骤S40中，包括：

S401：获取与各所述参与方对应的基础损耗值，并将与同一所述参与方对应的所述预设激励分配值与所述基础损耗值进行比较。

可以理解地，基础损耗值指的是参与方在联邦训练过程中产生了数据计算以及通信损耗的总和。

在一具体实施例中，步骤S401之前，包括：

通过计算损耗函数，根据与各所述参与方对应的硬件设备参数以及所述有效数据总量，确定与各所述参与方对应的计算损耗值。

可以理解地，硬件设备参数可以为参与方的终端的电容系数，参与方的终端的CPU(Central Processing Unit，中央处理单元)的处理周期数，处理周期频率等。

具体地，可以通过下述表达式确定与各所述参与方对应的计算损耗值：

其中，Ei为第i个参与方对应的计算损耗值；为参与方的终端的电容系数；ci为第i个参与方对应的有效数据总量；Di为参与方的终端的CPU(Central Processing Unit，中央处理单元)的处理周期数；fi为参与方的终端的CPU(Central Processing Unit，中央处理单元)的处理周期频率。

通过通信损耗函数，根据与各所述参与方对应的通信传输参数确定与各所述参与方对应的通信损耗值。

可以理解地，通信传输参数可以包括数据传输时长，传输功率，传输数据总量，网络宽带等。

具体地，可以通过下述表达式确定与各所述参与方对应的通信损耗值：

F_i＝τ_ip_i(s_i/τ_i)

其中，Fi为第i个参与方对应的通信损耗值；τi为第i个参与方传输初始训练数据集的传输时长；pi为第i个参与方传输初始训练数据集的传输功率；si为第第i个参与方传输初始训练数据集中初始训练数据的总量；N0为传输背景噪音；hi为第i个参与方的终端信道增益；B为网络带宽。

通过乘积对数函数，根据与各所述参与方对应的硬件设备参数以及所述通信传输参数确定与各所述参与方对应的损耗代价。

其中，乘积对数函数为Lambert W函数，该乘积对数函数用于确定与各参与方对应的损耗代价。可以理解地，由于每一参与方的终端的硬件异构性，每一参与方产生的损耗不同，因此通过引入每一参与方的损耗代价，可以提高确定的每一参与方对应的基础损耗值的准确率。

具体地，可以通过下述表达式确定与各所述参与方对应的损耗代价：

其中，gi为第i个参与方对应的损耗代价；W()为乘积对数函数；k为损耗参数，该损耗参数可以根据各参与方的终端的CPU的状态进行改变。

根据与各所述参与方对应的所述计算损耗值、所述通信损耗值以及所述损耗代价，确定与各所述参与方对应的基础损耗值。

具体地，在确定与各参与方对应的计算损耗值、通信损耗值以及损耗代价之后，根据与各参与方对应的计算损耗值、通信损耗值以及所述损耗代价，确定与各参与方对应的基础损耗值。进一步地，可以根据下述表达式确定与各参与方对应的基础损耗值：

其中，Ri为第i个参与方对应的基础损耗值；为第i个参与方对应的最佳服务能力值，该最佳服务能力值可以根据上述说明中的损耗参数k进行确定(可以理解地，针对不同的终端，已经预先设定与每一损耗参数k对应的最佳服务能力值，并将该映射关系存储至预设存储表格中，以在确定损耗参数k之后，可以通过查询该预设存储表格进行确定最佳服务能力值)。

S402：在所述预设激励分配值大于或等于所述基础损耗值时，将与所述预设激励分配值对应的所述参与方的实际激励分配值记录为所述预设激励分配值。

具体地，在获取与各参与方对应的基础损耗值之后，将与同一所述参与方对应的预设激励分配值与基础损耗值进行比较，在预设激励分配值大于或等于基础损耗值时，表明该参与方传输的有效训练数总量大，以及训练数据的质量较高，因此将预设激励分配值记录为与该参与方对应的实际激励分配值。

S403：在所述预设激励分配值小于所述基础损耗值时，根据所述预设激励确定策略，将与所述基础损耗值对应的所述参与方的所述实际激励分配值记录为所述基础损耗值。

具体地，在获取与各参与方对应的基础损耗值之后，将与同一所述参与方对应的预设激励分配值与基础损耗值进行比较，在预设激励分配值小于基础损耗值时，表明该参与方传输的有效训练数总量较小，以及训练数据的质量较低，因此通过预设激励确定策略，通过联邦***的激励池对其预设激励分配值进行补充，以将预设激励分配值补充至基础损耗值，并将基础损耗值记录为与该参与方对应的实际激励分配值。

S50：根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务。

具体地，在根据预设激励分配值以及预设激励确定策略，确定与各参与方对应的实际激励分配值之后，根据与各参与方对应的实际激励分配值执行联邦激励分配任务，以将与参与方对应的实际激励分配值分配至各参与方中。

在本实施例中，通过各参与方传输的有效训练数据集的有效数据总量，以及与有效训练数据集对应的训练质量向量，对各参与方对联邦***的联邦训练作出的贡献进行评估，以确定与各参与方对应的贡献值相匹配的激励，并引入预设激励确定策略，使得给联邦***的联邦训练贡献较少的参与方也可以获取与其基础消耗值匹配的激励，进而使得所有参与方均持有正向激励，从而可以吸引更多的参与方提供更多，且质量更好的训练数据加入至联邦***，提高联邦***的综合效益。

在另一具体实施例中，为了保证上述实施例中的初始训练数据集的私密以及安全性，可以将初始训练数据集存储在区块链中。其中，区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

例如，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，从而基于哈希值实现区块中交易的防篡改和防伪造；新产生的交易被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种联邦激励分配装置，该联邦激励分配装置与上述实施例中联邦激励分配方法一一对应。如图6所示，该联邦激励分配装置包括数据处理模块10、联邦激励深度确定模块20、预设激励分配值确定模块30、实际激励分配值确定模块40和激励分配任务执行模块50。各功能模块详细说明如下：

数据处理模块10，用于接收加入联邦***的各参与方发送的初始训练数据集，自所述初始训练数据集中，确定与各所述参与方对应的有效训练数据集及其训练质量向量；一个所述参与方的有效训练数据集关联一个有效数据总量；

联邦激励深度确定模块20，用于根据与各所述参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度；

预设激励分配值确定模块30，用于采用边际效用衡量方法确定各所述参与方的贡献值，并根据所述联邦激励深度以及与各所述参与方对应的所述贡献值，确定与各所述参与方对应的预设激励分配值；

实际激励分配值确定模块40，用于根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值；

激励分配任务执行模块50，用于根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务。

优选地，如图7所示，所述初始训练数据集中包含至少一个初始训练数据；所述数据处理模块10包括：

数据清洗单元101，用于接收包含训练需求的数据清洗指令，以对各所述参与方的所述初始训练集进行数据清洗处理，以剔除所述初始训练集中不符合所述训练需求的初始训练数据；

有效数据确定单元102，用于将剔除不符合所述训练需求的初始训练数据之后的初始训练集记录为所述有效训练数据集；

特征评估单元103，用于将所述有效训练数据集输入至联邦特征工程模块中，通过所述联邦特征工程模块对所述有效训练数据集进行特征评估处理，确定与各所述有效训练数据集对应的训练质量向量。

优选地，如图8所示，联邦激励深度确定模块20包括：

匹配质量向量确定单元201，用于从与各所述参与方对应的训练质量向量中，确定匹配质量向量；所述匹配质量是指与所述训练需求匹配度最高的训练质量向量；

平均质量向量确定单元202，用于根据与各所述参与方对应的训练质量向量，采用数学期望算法确定平均质量向量；

平均有效数据量确定单元203，用于根据与各所述参与方对应的有效数据总量，采用数学期望算法确定平均有效数据量；

联邦激励深度确定单元204，用于获取所述联邦***的最大数据承载量，并根据所述匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。

优选地，联邦激励深度确定单元204包括：

服务总参数确定子单元，用于接收自各所述参与方发送的***服务参数，并根据各所述参与方的所述***服务参数，确定所述联邦***的服务总参数；

参数获取子单元，用于获取所述联邦***的第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数；所述第二预设数量决策参数大于所述第一预设数量决策参数；

第一联邦激励深度确定子单元，用于在所述平均有效数据量小于所述第一预设数量决策参数时，根据所述服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度；

第二联邦激励深度确定子单元，用于在所述平均有效数据量大于或等于所述第一预设数量决策参数，且小于所述第二预设数量决策参数时，根据所述第一预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度；

第三联邦激励深度确定子单元，用于在所述平均有效数据量大于或等于所述第二预设数量决策参数时，根据所述第二预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度。

优选地，预设激励分配值确定模块30包括：

边际效用确定单元，用于根据与各所述参与方对应的有效训练数据集，采用Shapley值算法确定各所述参与方针对所述联邦***的边际效用；

贡献值确定单元，用于根据各所述参与方对应的边际效用，确定与各所述参与方对应的贡献值。

优选地，如图9所示，实际激励分配值确定模块40包括：

基础损耗值获取单元401，用于获取与各所述参与方对应的基础损耗值，并将与同一所述参与方对应的所述预设激励分配值与所述基础损耗值进行比较；

第一实际激励分配值确定单元402，用于在所述预设激励分配值大于或等于所述基础损耗值时，将与所述预设激励分配值对应的所述参与方的实际激励分配值记录为所述预设激励分配值；

第二实际激励分配值确定单元403，用于在所述预设激励分配值小于所述基础损耗值时，根据所述预设激励确定策略，将与所述基础损耗值对应的所述参与方的所述实际激励分配值记录为所述基础损耗值。

优选地，所述联邦激励分配装置还包括：

计算损耗值确定模块，用于通过计算损耗函数，根据与各所述参与方对应的硬件设备参数以及所述有效数据总量，确定与各所述参与方对应的计算损耗值；

通信损耗值确定模块，用于通过通信损耗函数，根据与各所述参与方对应的通信传输参数确定与各所述参与方对应的通信损耗值；

损耗代价确定模块，用于通过乘积对数函数，根据与各所述参与方对应的硬件设备参数以及所述通信传输参数确定与各所述参与方对应的损耗代价；

基础损耗值确定模块，用于根据与各所述参与方对应的所述计算损耗值、所述通信损耗值以及所述损耗代价，确定与各所述参与方对应的基础损耗值。

关于联邦激励分配装置的具体限定可以参见上文中对于联邦激励分配方法的限定，在此不再赘述。上述联邦激励分配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中联邦激励分配方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种联邦激励分配方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中联邦激励分配方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中联邦激励分配方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种联邦激励分配方法，其特征在于，包括：

根据与各所述参与方对应的实际激励分配值执行联邦激励分配任务；

所述根据与各所述参与方对应的训练质量向量以及有效数据总量，确定所述联邦***的联邦激励深度，包括：

从与各所述参与方对应的训练质量向量中，确定匹配质量向量；所述匹配质量是指与训练需求匹配度最高的训练质量向量；

根据与各所述参与方对应的训练质量向量，采用数学期望算法确定平均质量向量；

根据与各所述参与方对应的有效数据总量，采用数学期望算法确定平均有效数据量；

获取所述联邦***的最大数据承载量，并根据所述匹配质量向量、平均质量向量、平均有效数据量以及最大数据承载量，确定所述联邦激励深度；

所述根据所述匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度，包括：

接收自各所述参与方发送的***服务参数，并根据各所述参与方的所述***服务参数，确定所述联邦***的服务总参数；

获取所述联邦***的第一预设数量决策参数、第二预设数量决策参数、第一预设深度决策参数以及第二预设深度决策参数；所述第二预设数量决策参数大于所述第一预设数量决策参数；

在所述平均有效数据量小于所述第一预设数量决策参数时，根据所述服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度；

在所述平均有效数据量大于或等于所述第一预设数量决策参数，且小于所述第二预设数量决策参数时，根据所述第一预设深度决策参数、服务总参数、匹配质量向量、平均质量向量、平均有效数据以及最大数据承载量，确定所述联邦激励深度；

2.如权利要求1所述的联邦激励分配方法，其特征在于，所述初始训练数据集中包含至少一个初始训练数据；所述自所述初始训练数据集中，确定与各所述参与方对应的有效训练数据集以及与各所述有效训练数据集对应的训练质量向量，包括：

接收包含训练需求的数据清洗指令，以对各所述参与方的所述初始训练数据集进行数据清洗处理，以剔除所述初始训练数据集中不符合所述训练需求的初始训练数据；

将剔除不符合所述训练需求的初始训练数据之后的初始训练数据集记录为所述有效训练数据集；

将所述有效训练数据集输入至联邦特征工程模块中，通过所述联邦特征工程模块对所述有效训练数据集进行特征评估处理，确定与各所述有效训练数据集对应的训练质量向量。

3.如权利要求1所述的联邦激励分配方法，其特征在于，所述采用边际效用衡量方法确定各所述参与方的贡献值，包括：

根据与各所述参与方对应的有效训练数据集，采用Shapley值算法确定各所述参与方针对所述联邦***的边际效用；

4.如权利要求1所述的联邦激励分配方法，其特征在于，所述根据所述预设激励分配值以及预设激励确定策略，确定与各所述参与方对应的实际激励分配值，包括：

获取与各所述参与方对应的基础损耗值，并将与同一所述参与方对应的所述预设激励分配值与所述基础损耗值进行比较；

在所述预设激励分配值大于或等于所述基础损耗值时，将与所述预设激励分配值对应的所述参与方的实际激励分配值记录为所述预设激励分配值；

在所述预设激励分配值小于所述基础损耗值时，根据所述预设激励确定策略，将与所述基础损耗值对应的所述参与方的所述实际激励分配值记录为所述基础损耗值。

5.如权利要求4所述的联邦激励分配方法，其特征在于，所述获取与各所述参与方对应的基础损耗值之前，包括：

通过计算损耗函数，根据与各所述参与方对应的硬件设备参数以及所述有效数据总量，确定与各所述参与方对应的计算损耗值；

通过通信损耗函数，根据与各所述参与方对应的通信传输参数确定与各所述参与方对应的通信损耗值；

通过乘积对数函数，根据与各所述参与方对应的硬件设备参数以及所述通信传输参数确定与各所述参与方对应的损耗代价；

6.一种联邦激励分配装置，其特征在于，所述联邦激励分配装置用于执行如权利要求1至5任一项所述联邦激励分配方法，所述联邦激励分配装置包括：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述联邦激励分配方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述联邦激励分配方法。