CN116384502B - 联邦学习中参与方价值贡献计算方法、装置、设备及介质 - Google Patents

联邦学习中参与方价值贡献计算方法、装置、设备及介质 Download PDF

Info

Publication number
CN116384502B
CN116384502B CN202211101276.XA CN202211101276A CN116384502B CN 116384502 B CN116384502 B CN 116384502B CN 202211101276 A CN202211101276 A CN 202211101276A CN 116384502 B CN116384502 B CN 116384502B
Authority
CN
China
Prior art keywords
data
participant
value
federal learning
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211101276.XA
Other languages
English (en)
Other versions
CN116384502A (zh
Inventor
王济平
黎刚
汤克云
徐炽明
杨劲业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingxin Data Technology Co ltd
Original Assignee
Jingxin Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingxin Data Technology Co ltd filed Critical Jingxin Data Technology Co ltd
Priority to CN202211101276.XA priority Critical patent/CN116384502B/zh
Publication of CN116384502A publication Critical patent/CN116384502A/zh
Application granted granted Critical
Publication of CN116384502B publication Critical patent/CN116384502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明实施例公开了一种联邦学***台运营方的算力损耗价值;计算各参与方上传数据中的有效数据量价值;计算各参与方上传数据中数据特征价值;计算各参与方上传数据中垂直业务数据价值;计算各参与方上传数据中数据特征分级价值;将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。本发明可有效评估出整个联邦学习中各角色的价值贡献,满足了不同业务场景下的商用价值划分。

Description

联邦学习中参与方价值贡献计算方法、装置、设备及介质
技术领域
本发明涉及机器学习技术领域,更具体地说是联邦学习中参与方价值贡献计算方法、装置、设备及介质。
背景技术
联邦学习(Federated Learning)指的是一种多个参与方在保证各自原始私有数据不出数据方定义的私有边界的前提下,协作完成某项机器学习任务的模式。
现有的联邦学习产品中,仅完成了模型任务训练预测本身。产品本身缺乏有效的措施对各参与方提供贡献价值进行评估,而在以数据为中心衡量各参与方贡献价值的方式上,更是存在如下几个重要问题:
第一,联邦学***台方,目前没有对平台方的价值进行计算。
第二,大部分产品仅简单计算特征重要性与信息熵,这样的场景下在横向联邦无法计算各参与方的数据价值贡献。
第三,在联邦学习中,存在着部分不良参与方利用数据实施非主动性攻击。例如:使用包含大量噪音的数据集。若不识别出噪音数据,将会对降低数据价值评估的准确性。
第四,在联邦学习模型中,存在着一类特征对模型重要程度不高,但实际业务价值重大。若不识别出这类特征,将会对降低数据价值评估的准确性。
第五,在联邦学习模型中,数据针对不同的业务场景其实有着不一样的分级体现。这种等级更多的从商业化安全的角度衡量数据特征的重要性。若不识别出这类特征,将会对降低数据价值评估的准确性。
由此存在上述问题,目前联邦学***台对联邦学习任务的维护贡献评估,由于缺乏一种有效的价值贡献评估方法,导致无法从商业化的角度将模型或结果以收费的形式提供给第三方机构使用。
因此,有必要设计一种可实现合理的联邦学习价值贡献计算的方法,以满足不同业务场景下的商用价值划分。
发明内容
本发明的目的在于克服现有技术的不足,提供联邦学***台运营方的价值贡献的计算,满足了不同业务场景下的商用价值划分。
为实现上述目的,本发明采用以下技术方案:
第一方面,联邦学***台运营方,其中多个参与方中有一个参与方为联邦学习任务的发起者,其余的参与方负责协助完成联邦学习任务;所述方法包括:
各参与方上传数据并创建联邦学习模型;
各参与方设置数据总价值并通过发起者运行创建的联邦学习模型;
统计平台运营方的算力损耗价值;
计算各参与方上传数据中的有效数据量价值;
计算各参与方上传数据中数据特征价值;
计算各参与方上传数据中垂直业务数据价值;
计算各参与方上传数据中数据特征分级价值;
将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。
其进一步技术方案为:所述各参与方上传数据并创建联邦学习模型中,所述上传数据为联邦学习模型所需使用到的meta信息。
其进一步技术方案为:所述统计平台运营方的算力损耗价值,包括:
为联邦学习任务分配硬件计算资源;
统计硬件计算资源的使用时长,以得到算力损耗价值。
其进一步技术方案为:所述计算各参与方上传数据中的有效数据量价值,包括:
根据各参与方上传数据判断联邦学习的任务类型;
若任务类型为纵向联邦学习,则对上传数据进行第一次安全求交处理,以得到安全求交结果;
对安全求交结果进行数据意图分析处理,以得到意图识别结果;
对意图识别结果进行训练行为分析,以得到训练行为识别结果;
采用知识图谱分析各参与方的作用价值,并结合意图识别结果和训练行为识别结果,以得到各参与方的有效特征数据;
将各参与方的有效特征数据与各参与方上传数据进行对比,以得到各参与方的有效数据量价值。
其进一步技术方案为:所述计算各参与方上传数据中数据特征价值,包括:
同步计算各参与方上传数据对联邦学习模型的重要行程度,以得到特征重要性结果;
同步计算各参与方上传数据的信息熵,以得到特征信息熵结果;
对各参与方上传数据采用固定值的方法进行权衡,以确定出是否包含数据标签。
其进一步技术方案为:所述计算各参与方上传数据中垂直业务数据价值,包括:
采用神经网络对联邦学习模型进行意图分析,以得到意图分析结果;
基于意图分析结果搭建全连接神经网络,并通过全连接神经网络分析得到联邦学习模型所属领域;
通过知识图谱对联邦学习模型所属领域进行相关知识内容提取;
将提取的相关知识内容利用图神经网络进行分析处理,以得到各参与方的垂直业务数据价值。
其进一步技术方案为:所述计算各参与方上传数据中数据特征分级价值,包括:
将各参与方上传数据中的有效数据量价值经过神经网络处理,以得到关于信息重要性的张量体现信息;
将各参与方上传数据中数据特征价值经过神经网络处理,以得到关于特征价值的张量体现信息;
各参与方分别上传数据的分布信息,以得到分布信息结果;
将张量体现信息、张量体现信息和分布信息汇总后利用神经网络进行分级分析,以得到分级分析结果;
通过分级分析结果计算各参与方的数据分级贡献值,以得到数据特征分级价值。
第二方面,联邦学***台运营方,其中多个参与方中有一个参与方为联邦学习任务的发起者,其余的参与方负责协助完成联邦学习任务;所述装置包括:
创建单元,用于各参与方上传数据并创建联邦学习模型;
运行单元,用于各参与方设置数据总价值并通过发起者运行创建的联邦学习模型;
统计单元,用于统计平台运营方的算力损耗价值;
第一计算单元,用于计算各参与方上传数据中的有效数据量价值;
第二计算单元,用于计算各参与方上传数据中数据特征价值;
第三计算单元,用于计算各参与方上传数据中垂直业务数据价值;
第四计算单元,用于计算各参与方上传数据中数据特征分级价值;
汇总处理单元,用于将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的联邦学习中参与方价值贡献计算方法。
第四方面,一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的联邦学习中参与方价值贡献计算方法。
本发明与现有技术相比的有益效果是:本发明通过将各参与方上传数据并创建联邦学***台运营方的算力损耗价值;计算各参与方上传数据中的有效数据量价值;计算各参与方上传数据中数据特征价值;计算各参与方上传数据中垂直业务数据价值;计算各参与方上传数据中数据特征分级价值;将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。本发明可有效评估出整个联邦学习中各角色的价值贡献,满足了不同业务场景下的商用价值划分。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明具体实施例提供的联邦学习中参与方价值贡献计算方法的应用场景示意图;
图2为本发明具体实施例提供的联邦学习中参与方价值贡献计算方法的流程图;
图3本发明具体实施例提供的联邦学习中参与方价值贡献计算装置的示意性框图;
图4为本发明具体实施例提供的一种计算机设备的示意性框图;
图5为本发明具体实施例提供的***框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的联邦学习中参与方价值贡献计算方法的应用场景示意图;图2为本发明实施例提供的联邦学习中参与方价值贡献计算方法的流程示意图,该基于联邦学习中参与方价值贡献计算方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图5所示,联邦学***台运营方,其中多个参与方中有一个参与方为联邦学***台运营方承担协调者的角色,负责任务中的参数传输统筹;在平台运营方自身运营上,平台运营方承担联邦学习的中间媒介,也就是仲裁方,通过约束了各参与方的协议和专线专用的硬件设备来达到数据可用不可见的初衷。
从图5中可知,示意出的参与方A和参与方B均包括联邦学***台运营方包括联邦学***台提供方共同维护。
离线算力集群用于提供联邦学***台运营方维护。算力计数器用于统计联邦学***台运营方维护。知识图谱用于为数据贡献定价衡量提供知识支持,该模块由平台运营方维护。AI中台用于为数据贡献定价衡量提供人工智能算法计算支持。该模块由平台运营方维护。
需要说明的是,图5中仅仅示意出了参与方A和参与方B,但并不代表本发明只是适用于只有两个参与方的情况,当然也可以适用于三个、四个或者更多的参与方的情况。
如图2所示,联邦学习中参与方价值贡献计算方法,包括以下步骤:S10-S80。
S10、各参与方上传数据并创建联邦学习模型。
各参与方通过平台运营方约定在联邦学***台运营方不会对数据本身进行任何操作,数据依然存储在参与方自身服务器当中。
S20、各参与方设置数据总价值并通过发起者运行创建的联邦学习模型。
各参与方通过商讨的方式,设定上传数据的总价值,然后由发起方开始运行联邦学习模型。
S30、统计平台运营方的算力损耗价值。
当联邦学***台运营方除了保证正常的联邦学习流程外,便开始进入算力损耗价值的统计。
在一实施例中,步骤S30具体包括以下步骤:S301-S302。
S301、为联邦学习任务分配硬件计算资源。
平台运营方会提供不同的硬件加速在方案,其中包括:CPU、GPU、FPGA三种方式。需要说明的是,这类硬件加速主要负责用于联邦学***台方运营方将为本次任务分配硬件计算资源。平台对每种硬件环境初始化一个不同的贡献权重记:ω。其中ωCPUGPUFPGA
S302、统计硬件计算资源的使用时长,以得到算力损耗价值。
在本实施例中,平台运营方过算力损耗值来计算项目的运维成本。这里设算力损耗公式为:fdevice=ω*t+b,其中ω为贡献权重,t为任务计算时间,b为默认权重固定0.05。考虑到平台贡献值不可能无限拓展,fdevice的最大值为0.2。假设本次计算平台占比得分是0.2,那么各参与方后续的贡献得分将从剩余的0.8中分配。
S40、计算各参与方上传数据中的有效数据量价值。
当联邦学***台运营方除了保证正常的联邦学习流程外,便开始进入有效数据量价值的统计。
通过统计有效数据量价值,可以剔除联邦学习中的无效数据量。这样做的意义除了作为数据贡献其中一个衡量维度之外,还可以增强联邦学习模型的拟合能力以及防止其中一个参与方注入大量的无效数据形成恶意攻击。
在一实施例中,步骤S40具体包括以下步骤:S401-S406。
S401、根据各参与方上传数据判断联邦学习的任务类型。
S402、若任务类型为纵向联邦学习,则对上传数据进行第一次安全求交处理,以得到安全求交结果。
对于S401、S402,平台运营方会优先判断任务类型,假设任务为纵向联邦学习平台运营方首先使用对数据进行安全求交,其主要原理就是通过ID对碰的方式,得到各参与方间ID列相同的数据。
S403、对安全求交结果进行数据意图分析处理,以得到意图识别结果。
在本实施例中,对安全求交结果进行数据意图分析。具体的,利用神经网络分析其数据使用意图,分析维度包括:数据描述、字段特征信息、数据分布特征、数据统计特征。这些维度均由各参与方在自己的机器集群中进行统计,最后将其通过加密通道发送至平台运营方。平台运营方再利用这些数据结合神经网络对各数据进行意图分析。
S404、对意图识别结果进行训练行为分析,以得到训练行为识别结果。
在本实施例中,平台运营方利用作为平台运营方可得到的训练数据结合意图识别结果进行训练行为分析。该分析过程采用了神经网络模型来分析各数据对本次联邦学习模型的训练行为分析。
S405、采用知识图谱分析各参与方的作用价值,并结合意图识别结果和训练行为识别结果,以得到各参与方的有效特征数据。
平台运营方结合知识图谱分析各数据特征在该领域范畴下的作用价值。同步结合结合意图识别结果和训练行为识别结果,得出每个数据特征的有效数据特征。该特征描述了本次任务下,有效数据的度量标准。如:最大最小值、偏离程度等。
S406、将各参与方的有效特征数据与各参与方上传数据进行对比,以得到各参与方的有效数据量价值。
在本实施例中,平台运营方将训练行为识别结果重新发送至各参方中。各参与方利用这份结果与训练数据进行对比。最终会对自己的每一笔数据得到一个无效置信度μ。μ是一个[0,1]的权重值,反映着数据为无效数据的概率。当μ>0.95时,可认为该笔数据为无效数据;换言之当μ<0.95时,可认为该笔数据为有效数据。最终将有效的数据量发送给平台运营方做最后的统计。平台运营方根据各参与方的有效数据量再求出总有效数据量,最后利用有效数据量公式得到factive。记:
factive=f参与方1+f参与方2+...+f参与方n
其中有:
可选地,平台运营方要求各参与方进行再次的安全求交,最终得到训练时需要的真实有效数据。但考虑到参与方不一定希望平台通过人工智能的手段压缩训练数据,所以不进行再次的安全求交。当参与方关闭二次求交功能时,平台运营方仅统计各参与方的有效数据量,不会要求各参与方进行二次求交。
S50、计算各参与方上传数据中数据特征价值。
通过结合机器学习和统计学对训练数据进行分析,需要统计的内容包括:特征重要性、信息熵、是否包含标签。他们分别对应分发明专利中的其中三个维度:fimportance、fentropy、flabel
在一实施例中,步骤S50具体包括以下步骤:S501-S503。
S501、同步计算各参与方上传数据对联邦学习模型的重要行程度,以得到特征重要性结果。
特征重要性分析是数据特征对联邦学***台运营方会在联邦学习模型训练的过程中同步地对计算各数据特征对联邦学习模型的重要性程度。针对模型算法的不同,选用不同重要性公式。如:用户场景为决策树模型,此时的特征重要性公式为:
然后统计各参与方的特征重要性。记:
fimport=f参与方1+f参与方2+...+f参与方n;其中单个参与方则有:
S502、同步计算各参与方上传数据的信息熵,以得到特征信息熵结果。
信息熵是从另一个维度反应数据的重要性,常用于解决信息的量化问题。进一步地平台会在模型训练过程中同步地计算各数据特征的信息熵。所以这里就有信息熵公式:
然后与特征重要性类似,统计各参与方的数据信息熵。记:
fentropy=f参与方1+f参与方2+...+f参与方n
由于信息熵出来的结果不是一个小数,且总和不为1。所以参与方关于信息熵的贡献度是该参与方信息熵综合与各参与方信息熵的比,则有:
通过这种变化,最终可以达到根据信息熵计算各参与方的数据贡献度的效果。
S503、对各参与方上传数据采用固定值的方法进行权衡,以确定出是否包含数据标签。
数据标签是监督学习中的核心数据,它反应着每一笔数据的目标结果。联邦学习模型会针对这个结果进行学习,最终达到识别数据的效果。考虑到在无监督学习的场景下,数据是不具备数据标签,且数据标签本身是一个独立的计算衡量指标。所以对数据标签采用固定值的方法进行权衡。最终则有:
flabel=0,不存在标签
flabel=0.1,存在标签列;
若双方均不存在或均存在数据标签,则最终多维核算数据特征价值上不以这个维度作为衡量维度。
S60、计算各参与方上传数据中垂直业务数据价值。
垂直业务数据价值评估是利用神经网络以及知识图谱计算出数据特征价值对联邦学习模型的作用。站在模型与业务场景的维度出发,主要目的是通过数据在特殊领域上的贡献度。如:在信贷领域中,个人收入信息或家庭信息则非常重要,对身高体重则不太需要;在健康领域上,身高体重往往又发挥着至关重要的作用。通过这个维度的衡量,可以知道在各参与方提供的数据特征中,哪部分是对业务模型有意义的。
在一实施例中,步骤S60具体包括以下步骤:S601-S604。
S601、采用神经网络对联邦学习模型进行意图分析,以得到意图分析结果。
获取联邦学习模型意图是得到业务领域的入口。具体的,利用神经网络从多方面对模型意图进行分析。在本实施例中,采用NLP+多头全连接的神经网络结构,其中,NLP技术主要用于分析项目训练过程中所产出的所有可分析的文字内容,其中包括:项目名、项目注释、双方约定、数据或字段名等内容。利用注意力机制对上述内容进行理解,对于理解得到的内容经过卷积及胶囊网络进行二次理解。最后达到接近出人为阅读信息得到相关领域的目的。最后产出的是一份张量数据,它的维度是n*m。n代表是行,每一行是模型对一个项目的理解;m代表是列,说明该项目理解结果使用m列数字进行表示。
S602、基于意图分析结果搭建全连接神经网络,并通过全连接神经网络分析得到联邦学习模型所属领域。
基于得到的意图分析结果再搭建全连接神经网络。全连接神经网络的作用是分析训练过程中所产出的数字信息。利用拼接、残差等手段将文字内容的理解与数字内容的理解进行合并。最后由一个较大的连接层对合并结果进行综合的计算,并分析出联邦学习模型所属领域。
S603、通过知识图谱对联邦学习模型所属领域进行相关知识内容提取。
S604、将提取的相关知识内容利用图神经网络进行分析处理,以得到各参与方的垂直业务数据价值。
对于步骤S603和步骤S604,得到了模型所属领域以后。平台运营方会将这一结果传送给知识图谱平台,知识图谱平台具有知识图谱,知识图谱平台具有该领域下模型的相关知识内容。然后结合这些知识内容与训练的字段信息进行图神经网络的计算,进一步评估出每一个特征对该网络的数据价值Iknowledge。结合所有数据价值统计各参与方再知识业务领域的数据价值特征,记:
fknowledge=f参与方1+f参与方2+...+f参与方n
在统计单个参与方的价值贡献时,则有:
S70、计算各参与方上传数据中数据特征分级价值。
数据分级主要是从数据安全的维度出发。一方面反映着这份数据对企业本身的重要程度,另一方面反映数据在社会上的稀缺性。如:个人性别身高年龄等信息是相对普遍的信息,所有安全价值等级相对较低;但个人征信法律信息属于隐私安全信息,其安全等级较相对较高。通过从安全的维度出发,可以得到参与方所提供的数据的安全性与稀缺性。
在一实施例中,步骤S70具体包括以下步骤:S701-S705。
S701、将各参与方上传数据中的有效数据量价值经过神经网络处理,以得到关于信息重要性的张量体现信息。
数据分级分类需要获取大量的数据meta信息进行分析。这里首先获取特征重要性、信息熵等数据参数。为了避免重复计算,直接使用有效数据量价值产出的中间数据即可。然后把这些中间数据经过一个神经网络处理,会得到一个关于信息重要性的张量体现信息。
S702、将各参与方上传数据中数据特征价值经过神经网络处理,以得到关于特征价值的张量体现信息。
与获得张量体现信息类似,利用神经网络分析各参与方的数据价值,最后得到一个关于特征价值的张量体现信息。
S703、各参与方分别上传数据的分布信息,以得到分布信息结果。
各参与方分别统计上传数据的每一个特征的详细分布信息,分布信息包括:四分位数、极致、离散度、众数、中位数等一系列反馈数据分布的数据。然后将这些特征信息传到平台运营方进行统一汇总。
S704、将张量体现信息、张量体现信息和分布信息汇总后利用神经网络进行分级分析,以得到分级分析结果。
平台运营方根据张量体现信息、张量体现信息和分布信息的结果汇总到一个神经网络当中,利用神经网络对数据进行分级分析。值得注意的是,考虑到部分特征本身安全等级不高,但组合起来却很高。所以网络设计除了使用全连接网络正向推理反向传播以外,还需结合卷积、循环神经网络的计算特征组合的效果。最后各自输出一个新的二维张量数据,然后将每一部分的网络推理结果统一到一个汇总子网络当中,对数据进行最后的分级分析。最终会得到每个数据特征的具体等级Ilevel
S705、通过分级分析结果计算各参与方的数据分级贡献值,以得到数据特征分级价值。
统计通过分级分析结果过得到基于数据特征分级级别维度的贡献值,得到每个特征的最终贡献值以后,平台运营方将统计各参与方的综合数据分级贡献值。记:
flevel=f参与方1+f参与方2+...+f参与方n
由于数据特征等级是一个[0,∞)的整数,所以在统计单个参与方的综合数据分级时,则有:
S80、将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。
所以使用的汇总公式为:
f=fdevice+factive+fimportance+fentropy+flabel+fknowledge+flevel=1;
其中fdevice均属于[0.05,0.2]的区间内;flabel只有是否存在的问题,所以它的取值只能是0或0.1;剩余的factive、fimportance、fentropy、fknowledge、flevel(后续统称为fother)在剩余的上权重中平分。则有:
所以fother属于[0.14,0.19]的区间内。
仅接着会针对每一个参与方在各维度的权重中进行分配,也就是将各维度的权重二次划分至每一个参与方当中。所以,当计算一个参与方在一个维度的贡献时,可以使用下面公式:
fother_参与方=ωother_参与方*forter
其中ω参与方是上述计算出的各参与方在该指标下的权重,fother是扣除平台及标签贡献后的平均。结合上述公式,最终可以得到多维权衡算法的最终公式:
平台运营方会记录下来每一个参与方及平台运营方方关于该联邦学习模型的数据贡献价值权重。同步地输出贡献价值报告,描述着每个维度各参与方的价值贡献组成。值得注意的是,当联邦学习模型进行二次训练成功后,该贡献价值会被覆盖。
本发明可有效评估出整个联邦学习中各角色的价值贡献,满足了不同业务场景下的商用价值划分。
图3是本发明实施例提供的联邦学习中参与方价值贡献计算装置100的示意性框图。对应于上述的联邦学习中参与方价值贡献计算方法,本发明具体实施例还提供了联邦学习中参与方价值贡献计算装置100。该联邦学习中参与方价值贡献计算装置100包括用于执行上述联邦学习中参与方价值贡献计算方法的单元,该装置可以被配置于服务器中。
如图3所示,联邦学习中参与方价值贡献计算装置100,包括:
创建单元110,用于各参与方上传数据并创建联邦学习模型。
各参与方通过平台运营方约定在联邦学***台运营方不会对数据本身进行任何操作,数据依然存储在参与方自身服务器当中。
运行单元120,用于各参与方设置数据总价值并通过发起者运行创建的联邦学习模型。
各参与方通过商讨的方式,设定上传数据的总价值,然后由发起方开始运行联邦学习模型。
统计单元130,用于统计平台运营方的算力损耗价值。
当联邦学***台运营方除了保证正常的联邦学习流程外,便开始进入算力损耗价值的统计。
在一实施例中,统计单元130包括:
分配模块,用于为联邦学习任务分配硬件计算资源。
平台运营方会提供不同的硬件加速在方案,其中包括:CPU、GPU、FPGA三种方式。需要说明的是,这类硬件加速主要负责用于联邦学***台方运营方将为本次任务分配硬件计算资源。平台对每种硬件环境初始化一个不同的贡献权重记:ω。其中ωCPUGPUFPGA
统计模块,用于统计硬件计算资源的使用时长,以得到算力损耗价值。
在本实施例中,平台运营方过算力损耗值来计算项目的运维成本。这里设算力损耗公式为:fdevice=ω*t+b,其中ω为贡献权重,t为任务计算时间,b为默认权重固定0.05。考虑到平台贡献值不可能无限拓展,fdevice的最大值为0.2。假设本次计算平台占比得分是0.2,那么各参与方后续的贡献得分将从剩余的0.8中分配。
第一计算单元140,用于计算各参与方上传数据中的有效数据量价值。
当联邦学***台运营方除了保证正常的联邦学习流程外,便开始进入有效数据量价值的统计。
通过统计有效数据量价值,可以剔除联邦学习中的无效数据量。这样做的意义除了作为数据贡献其中一个衡量维度之外,还可以增强联邦学习模型的拟合能力以及防止其中一个参与方注入大量的无效数据形成恶意攻击。
在一实施例中,第一计算单元140包括:
判断模块,用于根据各参与方上传数据判断联邦学习的任务类型。
求交处理模块,用于若任务类型为纵向联邦学习,则对上传数据进行第一次安全求交处理,以得到安全求交结果。
对于判断模块和求交处理模块,平台运营方会优先判断任务类型,假设任务为纵向联邦学习平台运营方首先使用对数据进行安全求交,其主要原理就是通过ID对碰的方式,得到各参与方间ID列相同的数据。
第一意图分析模块,用于对安全求交结果进行数据意图分析处理,以得到意图识别结果。
在本实施例中,对安全求交结果进行数据意图分析。具体的,利用神经网络分析其数据使用意图,分析维度包括:数据描述、字段特征信息、数据分布特征、数据统计特征。这些维度均由各参与方在自己的机器集群中进行统计,最后将其通过加密通道发送至平台运营方。平台运营方再利用这些数据结合神经网络对各数据进行意图分析。
行为分析模块,用于对意图识别结果进行训练行为分析,以得到训练行为识别结果。
在本实施例中,平台运营方利用作为平台运营方可得到的训练数据结合意图识别结果进行训练行为分析。该分析过程采用了神经网络模型来分析各数据对本次联邦学习模型的训练行为分析。
第一计算模块,用于采用知识图谱分析各参与方的作用价值,并结合意图识别结果和训练行为识别结果,以得到各参与方的有效特征数据。
平台运营方结合知识图谱分析各数据特征在该领域范畴下的作用价值。同步结合结合意图识别结果和训练行为识别结果,得出每个数据特征的有效数据特征。该特征描述了本次任务下,有效数据的度量标准。如:最大最小值、偏离程度等。
对比模块,用于将各参与方的有效特征数据与各参与方上传数据进行对比,以得到各参与方的有效数据量价值。
在本实施例中,平台运营方将训练行为识别结果重新发送至各参方中。各参与方利用这份结果与训练数据进行对比。最终会对自己的每一笔数据得到一个无效置信度μ。μ是一个[0,1]的权重值,反映着数据为无效数据的概率。当μ>0.95时,可认为该笔数据为无效数据;换言之当μ<0.95时,可认为该笔数据为有效数据。最终将有效的数据量发送给平台运营方做最后的统计。平台运营方根据各参与方的有效数据量再求出总有效数据量,最后利用有效数据量公式得到factive。记:
factive=f参与方1+f参与方2+...+f参与方n
其中有:
可选地,平台运营方要求各参与方进行再次的安全求交,最终得到训练时需要的真实有效数据。但考虑到参与方不一定希望平台通过人工智能的手段压缩训练数据,所以不进行再次的安全求交。当参与方关闭二次求交功能时,平台运营方仅统计各参与方的有效数据量,不会要求各参与方进行二次求交。
第二计算单元150,用于计算各参与方上传数据中数据特征价值。
通过结合机器学习和统计学对训练数据进行分析,需要统计的内容包括:特征重要性、信息熵、是否包含标签。他们分别对应分发明专利中的其中三个维度:fimportance、fentropy、flabel
在一实施例中,第二计算单元150包括:
第一同步计算模块,用于同步计算各参与方上传数据对联邦学习模型的重要行程度,以得到特征重要性结果。
特征重要性分析是数据特征对联邦学***台运营方会在联邦学习模型训练的过程中同步地对计算各数据特征对联邦学习模型的重要性程度。针对模型算法的不同,选用不同重要性公式。如:用户场景为决策树模型,此时的特征重要性公式为:
然后统计各参与方的特征重要性。记:
fimport=f参与方1+f参与方2+...+f参与方n;其中单个参与方则有:
第二同步计算模块,用于同步计算各参与方上传数据的信息熵,以得到特征信息熵结果。
信息熵是从另一个维度反应数据的重要性,常用于解决信息的量化问题。进一步地平台会在模型训练过程中同步地计算各数据特征的信息熵。所以这里就有信息熵公式:
然后与特征重要性类似,统计各参与方的数据信息熵。记:
fentropy=f参与方1+f参与方2+...+f参与方n
由于信息熵出来的结果不是一个小数,且总和不为1。所以参与方关于信息熵的贡献度是该参与方信息熵综合与各参与方信息熵的比,则有:
通过这种变化,最终可以达到根据信息熵计算各参与方的数据贡献度的效果。
权衡计算模块,用于对各参与方上传数据采用固定值的方法进行权衡,以确定出是否包含数据标签。
数据标签是监督学习中的核心数据,它反应着每一笔数据的目标结果。联邦学习模型会针对这个结果进行学习,最终达到识别数据的效果。考虑到在无监督学习的场景下,数据是不具备数据标签,且数据标签本身是一个独立的计算衡量指标。所以对数据标签采用固定值的方法进行权衡。最终则有:
flabel=0,不存在标签
flabel=0.1,存在标签列;
若双方均不存在或均存在数据标签,则最终多维核算数据特征价值上不以这个维度作为衡量维度。
第三计算单元160,用于计算各参与方上传数据中垂直业务数据价值。
垂直业务数据价值评估是利用神经网络以及知识图谱计算出数据特征价值对联邦学习模型的作用。站在模型与业务场景的维度出发,主要目的是通过数据在特殊领域上的贡献度。如:在信贷领域中,个人收入信息或家庭信息则非常重要,对身高体重则不太需要;在健康领域上,身高体重往往又发挥着至关重要的作用。通过这个维度的衡量,可以知道在各参与方提供的数据特征中,哪部分是对业务模型有意义的。
在一实施例中,第三计算单元160包括:
第二意图分析模块,用于采用神经网络对联邦学习模型进行意图分析,以得到意图分析结果。
获取联邦学习模型意图是得到业务领域的入口。具体的,利用神经网络从多方面对模型意图进行分析。在本实施例中,采用NLP+多头全连接的神经网络结构,其中,NLP技术主要用于分析项目训练过程中所产出的所有可分析的文字内容,其中包括:项目名、项目注释、双方约定、数据或字段名等内容。利用注意力机制对上述内容进行理解,对于理解得到的内容经过卷积及胶囊网络进行二次理解。最后达到接近出人为阅读信息得到相关领域的目的。最后产出的是一份张量数据,它的维度是n*m。n代表是行,每一行是模型对一个项目的理解;m代表是列,说明该项目理解结果使用m列数字进行表示。
第一分析模块,用于基于意图分析结果搭建全连接神经网络,并通过全连接神经网络分析得到联邦学习模型所属领域。
基于得到的意图分析结果再搭建全连接神经网络。全连接神经网络的作用是分析训练过程中所产出的数字信息。利用拼接、残差等手段将文字内容的理解与数字内容的理解进行合并。最后由一个较大的连接层对合并结果进行综合的计算,并分析出联邦学习模型所属领域。
提取模块,用于通过知识图谱对联邦学习模型所属领域进行相关知识内容提取。
分析处理模块,用于将提取的相关知识内容利用图神经网络进行分析处理,以得到各参与方的垂直业务数据价值。
对于提取模块和分析处理模块,得到了模型所属领域以后。平台运营方会将这一结果传送给知识图谱平台,知识图谱平台具有知识图谱,知识图谱平台具有该领域下模型的相关知识内容。然后结合这些知识内容与训练的字段信息进行图神经网络的计算,进一步评估出每一个特征对该网络的数据价值Iknowledge。结合所有数据价值统计各参与方再知识业务领域的数据价值特征,记:
fknowledge=f参与方1+f参与方2+...+f参与方n
在统计单个参与方的价值贡献时,则有:
第四计算单元170,用于计算各参与方上传数据中数据特征分级价值。
数据分级主要是从数据安全的维度出发。一方面反映着这份数据对企业本身的重要程度,另一方面反映数据在社会上的稀缺性。如:个人性别身高年龄等信息是相对普遍的信息,所有安全价值等级相对较低;但个人征信法律信息属于隐私安全信息,其安全等级较相对较高。通过从安全的维度出发,可以得到参与方所提供的数据的安全性与稀缺性。
在一实施例中,第四计算单元170包括:
第一神经网络处理模块,用于将各参与方上传数据中的有效数据量价值经过神经网络处理,以得到关于信息重要性的张量体现信息。
数据分级分类需要获取大量的数据meta信息进行分析。这里首先获取特征重要性、信息熵等数据参数。为了避免重复计算,直接使用有效数据量价值产出的中间数据即可。然后把这些中间数据经过一个神经网络处理,会得到一个关于信息重要性的张量体现信息。
第二神经网络处理模块,用于将各参与方上传数据中数据特征价值经过神经网络处理,以得到关于特征价值的张量体现信息。
与获得张量体现信息类似,利用神经网络分析各参与方的数据价值,最后得到一个关于特征价值的张量体现信息。
上传模块,用于各参与方分别上传数据的分布信息,以得到分布信息结果。
各参与方分别统计上传数据的每一个特征的详细分布信息,分布信息包括:四分位数、极致、离散度、众数、中位数等一系列反馈数据分布的数据。然后将这些特征信息传到平台运营方进行统一汇总。
分级分析模块,用于将张量体现信息、张量体现信息和分布信息汇总后利用神经网络进行分级分析,以得到分级分析结果。
平台运营方根据张量体现信息、张量体现信息和分布信息的结果汇总到一个神经网络当中,利用神经网络对数据进行分级分析。值得注意的是,考虑到部分特征本身安全等级不高,但组合起来却很高。所以网络设计除了使用全连接网络正向推理反向传播以外,还需结合卷积、循环神经网络的计算特征组合的效果。最后各自输出一个新的二维张量数据,然后将每一部分的网络推理结果统一到一个汇总子网络当中,对数据进行最后的分级分析。最终会得到每个数据特征的具体等级Ilevel
第二计算模块,用于通过分级分析结果计算各参与方的数据分级贡献值,以得到数据特征分级价值。
统计通过分级分析结果过得到基于数据特征分级级别维度的贡献值,得到每个特征的最终贡献值以后,平台运营方将统计各参与方的综合数据分级贡献值。记:
flevel=f参与方1+f参与方2+...+f参与方n
由于数据特征等级是一个[0,∞)的整数,所以在统计单个参与方的综合数据分级时,则有:
汇总处理单元180,用于将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。
所以使用的汇总公式为:
f=fdevice+factive+fimportance+fentropy+flabel+fknowledge+flevel=1;
其中fdevice均属于[0.05,0.2]的区间内;flabel只有是否存在的问题,所以它的取值只能是0或0.1;剩余的factive、fimportance、fentropy、fknowledge、flevel(后续统称为fother)在剩余的上权重中平分。则有:
所以fother属于[0.14,0.19]的区间内。
仅接着会针对每一个参与方在各维度的权重中进行分配,也就是将各维度的权重二次划分至每一个参与方当中。所以,当计算一个参与方在一个维度的贡献时,可以使用下面公式:
fother_参与方=ωother_参与方*forter
其中ω参与方是上述计算出的各参与方在该指标下的权重,fother是扣除平台及标签贡献后的平均。结合上述公式,最终可以得到多维权衡算法的最终公式:
平台运营方会记录下来每一个参与方及平台运营方方关于该联邦学习模型的数据贡献价值权重。同步地输出贡献价值报告,描述着每个维度各参与方的价值贡献组成。值得注意的是,当联邦学习模型进行二次训练成功后,该贡献价值会被覆盖。
上述联邦学习中参与方价值贡献计算装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
如图4所示,该计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的联邦学习中参与方价值贡献计算方法步骤。
该计算机设备700可以是终端或服务器。该计算机设备700包括通过***总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
该非易失性存储介质730可存储操作***731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种联邦学习中参与方价值贡献计算方法。
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种联邦学习中参与方价值贡献计算方法。
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现以下步骤:
联邦学习中参与方价值贡献计算方法,包括:
各参与方上传数据并创建联邦学习模型;
各参与方设置数据总价值并通过发起者运行创建的联邦学习模型;
统计平台运营方的算力损耗价值;
计算各参与方上传数据中的有效数据量价值;
计算各参与方上传数据中数据特征价值;
计算各参与方上传数据中垂直业务数据价值;
计算各参与方上传数据中数据特征分级价值;
将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重。
在一实施例中:所述各参与方上传数据并创建联邦学习模型中,所述上传数据为联邦学习模型所需使用到的meta信息。
在一实施例中:所述统计平台运营方的算力损耗价值,包括:
为联邦学习任务分配硬件计算资源;
统计硬件计算资源的使用时长,以得到算力损耗价值。
在一实施例中:所述计算各参与方上传数据中的有效数据量价值,包括:
根据各参与方上传数据判断联邦学习的任务类型;
若任务类型为纵向联邦学习,则对上传数据进行第一次安全求交处理,以得到安全求交结果;
对安全求交结果进行数据意图分析处理,以得到意图识别结果;
对意图识别结果进行训练行为分析,以得到训练行为识别结果;
采用知识图谱分析各参与方的作用价值,并结合意图识别结果和训练行为识别结果,以得到各参与方的有效特征数据;
将各参与方的有效特征数据与各参与方上传数据进行对比,以得到各参与方的有效数据量价值。
在一实施例中:所述计算各参与方上传数据中数据特征价值,包括:
同步计算各参与方上传数据对联邦学习模型的重要行程度,以得到特征重要性结果;
同步计算各参与方上传数据的信息熵,以得到特征信息熵结果;
对各参与方上传数据采用固定值的方法进行权衡,以确定出是否包含数据标签。
在一实施例中:所述计算各参与方上传数据中垂直业务数据价值,包括:
采用神经网络对联邦学习模型进行意图分析,以得到意图分析结果;
基于意图分析结果搭建全连接神经网络,并通过全连接神经网络分析得到联邦学习模型所属领域;
通过知识图谱对联邦学习模型所属领域进行相关知识内容提取;
将提取的相关知识内容利用图神经网络进行分析处理,以得到各参与方的垂直业务数据价值。
在一实施例中:所述计算各参与方上传数据中数据特征分级价值,包括:
将各参与方上传数据中的有效数据量价值经过神经网络处理,以得到关于信息重要性的张量体现信息;
将各参与方上传数据中数据特征价值经过神经网络处理,以得到关于特征价值的张量体现信息;
各参与方分别上传数据的分布信息,以得到分布信息结果;
将张量体现信息、张量体现信息和分布信息汇总后利用神经网络进行分级分析,以得到分级分析结果;
通过分级分析结果计算各参与方的数据分级贡献值,以得到数据特征分级价值。
应当理解,在本申请实施例中,处理器720可以是中央处理单元(CentralProcessing Unit,CPU),该处理器720还可以是其他通用处理器、专业图形处理器(GraphicProcessing Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图4中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的联邦学习中参与方价值贡献计算方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.联邦学***台运营方,其中多个参与方中有一个参与方为联邦学习任务的发起者,其余的参与方负责协助完成联邦学习任务;所述方法包括:
各参与方上传数据并创建联邦学习模型;
各参与方设置数据总价值并通过发起者运行创建的联邦学习模型;
统计平台运营方的算力损耗价值;
计算各参与方上传数据中的有效数据量价值;
计算各参与方上传数据中数据特征价值;
计算各参与方上传数据中垂直业务数据价值;
计算各参与方上传数据中数据特征分级价值;
将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重;
所述计算各参与方上传数据中的有效数据量价值,包括:
根据各参与方上传数据判断联邦学习的任务类型;
若任务类型为纵向联邦学习,则对上传数据进行第一次安全求交处理,以得到安全求交结果;
对安全求交结果进行数据意图分析处理,以得到意图识别结果;
对意图识别结果进行训练行为分析,以得到训练行为识别结果;
采用知识图谱分析各参与方的作用价值,并结合意图识别结果和训练行为识别结果,以得到各参与方的有效特征数据;
将各参与方的有效特征数据与各参与方上传数据进行对比,以得到各参与方的有效数据量价值;
所述计算各参与方上传数据中数据特征价值,包括:
同步计算各参与方上传数据对联邦学习模型的重要性程度,以得到特征重要性结果;
同步计算各参与方上传数据的信息熵,以得到特征信息熵结果;
对各参与方上传数据采用固定值的方法进行权衡,以确定出是否包含数据标签;
所述计算各参与方上传数据中垂直业务数据价值,包括:
采用神经网络对联邦学习模型进行意图分析,以得到意图分析结果;
基于意图分析结果搭建全连接神经网络,并通过全连接神经网络分析得到联邦学习模型所属领域;
通过知识图谱对联邦学习模型所属领域进行相关知识内容提取;
将提取的相关知识内容利用图神经网络进行分析处理,以得到各参与方的垂直业务数据价值;
所述计算各参与方上传数据中数据特征分级价值,包括:
将各参与方上传数据中的有效数据量价值经过神经网络处理,以得到关于信息重要性的张量体现信息;
将各参与方上传数据中数据特征价值经过神经网络处理,以得到关于特征价值的张量体现信息;
各参与方分别上传数据的分布信息,以得到分布信息结果;
将张量体现信息、张量体现信息和分布信息汇总后利用神经网络进行分级分析,以得到分级分析结果;
通过分级分析结果计算各参与方的数据分级贡献值,以得到数据特征分级价值。
2.根据权利要求1所述的联邦学习中参与方价值贡献计算方法,其特征在于,所述各参与方上传数据并创建联邦学习模型中,所述上传数据为联邦学习模型所需使用到的meta信息。
3.根据权利要求1所述的联邦学***台运营方的算力损耗价值,包括:
为联邦学习任务分配硬件计算资源;
统计硬件计算资源的使用时长,以得到算力损耗价值。
4.联邦学***台运营方,其中多个参与方中有一个参与方为联邦学习任务的发起者,其余的参与方负责协助完成联邦学习任务;所述装置包括:
创建单元,用于各参与方上传数据并创建联邦学习模型;
运行单元,用于各参与方设置数据总价值并通过发起者运行创建的联邦学习模型;
统计单元,用于统计平台运营方的算力损耗价值;
第一计算单元,用于计算各参与方上传数据中的有效数据量价值;
第二计算单元,用于计算各参与方上传数据中数据特征价值;
第三计算单元,用于计算各参与方上传数据中垂直业务数据价值;
第四计算单元,用于计算各参与方上传数据中数据特征分级价值;
汇总处理单元,用于将有效数据量价值、数据特征价值、垂直业务数据价值和数据特征分级价值进行价值汇总处理,以得到各参与方的价值贡献权重;
第一计算单元包括判断模块、求交处理模块、第一意图分析模块、行为分析模块、第一计算模块以及对比模块;
判断模块,用于根据各参与方上传数据判断联邦学习的任务类型;
求交处理模块,用于若任务类型为纵向联邦学习,则对上传数据进行第一次安全求交处理,以得到安全求交结果;
第一意图分析模块,用于对安全求交结果进行数据意图分析处理,以得到意图识别结果;
行为分析模块,用于对意图识别结果进行训练行为分析,以得到训练行为识别结果;
第一计算模块,用于采用知识图谱分析各参与方的作用价值,并结合意图识别结果和训练行为识别结果,以得到各参与方的有效特征数据;
对比模块,用于将各参与方的有效特征数据与各参与方上传数据进行对比,以得到各参与方的有效数据量价值;
第二计算单元包括第一同步计算模块、第二同步计算模块、以及权衡计算模块;
第一同步计算模块,用于同步计算各参与方上传数据对联邦学习模型的重要性程度,以得到特征重要性结果;
第二同步计算模块,用于同步计算各参与方上传数据的信息熵,以得到特征信息熵结果;
权衡计算模块,用于对各参与方上传数据采用固定值的方法进行权衡,以确定出是否包含数据标签;
第三计算单元包括第二意图分析模块、第一分析模块、提取模块以及分析处理模块;
第二意图分析模块,用于采用神经网络对联邦学习模型进行意图分析,以得到意图分析结果;
第一分析模块,用于基于意图分析结果搭建全连接神经网络,并通过全连接神经网络分析得到联邦学习模型所属领域;
提取模块,用于通过知识图谱对联邦学习模型所属领域进行相关知识内容提取;
分析处理模块,用于将提取的相关知识内容利用图神经网络进行分析处理,以得到各参与方的垂直业务数据价值;
第四计算单元包括第一神经网络处理模块、第二神经网络处理模块、上传模块、分级分析模块以及第二计算模块;
第一神经网络处理模块,用于将各参与方上传数据中的有效数据量价值经过神经网络处理,以得到关于信息重要性的张量体现信息;
第二神经网络处理模块,用于将各参与方上传数据中数据特征价值经过神经网络处理,以得到关于特征价值的张量体现信息;
上传模块,用于各参与方分别上传数据的分布信息,以得到分布信息结果;
分级分析模块,用于将张量体现信息、张量体现信息和分布信息汇总后利用神经网络进行分级分析,以得到分级分析结果;
第二计算模块,用于通过分级分析结果计算各参与方的数据分级贡献值,以得到数据特征分级价值。
5.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-3任意一项所述的联邦学习中参与方价值贡献计算方法。
6.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如权利要求1-3任意一项所述的联邦学习中参与方价值贡献计算方法。
CN202211101276.XA 2022-09-09 2022-09-09 联邦学习中参与方价值贡献计算方法、装置、设备及介质 Active CN116384502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211101276.XA CN116384502B (zh) 2022-09-09 2022-09-09 联邦学习中参与方价值贡献计算方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211101276.XA CN116384502B (zh) 2022-09-09 2022-09-09 联邦学习中参与方价值贡献计算方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116384502A CN116384502A (zh) 2023-07-04
CN116384502B true CN116384502B (zh) 2024-02-20

Family

ID=86966180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211101276.XA Active CN116384502B (zh) 2022-09-09 2022-09-09 联邦学习中参与方价值贡献计算方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116384502B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453414B (zh) * 2023-11-10 2024-07-19 国网山东省电力公司营销服务中心(计量中心) 电力数据参与数据共享计算的贡献度预测方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784994A (zh) * 2020-12-31 2021-05-11 浙江大学 基于区块链的联邦学习数据参与方贡献值计算和激励方法
CN112926897A (zh) * 2021-04-12 2021-06-08 平安科技(深圳)有限公司 基于联邦学习的客户端贡献计算方法和装置
CN113159190A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 联邦激励分配方法、装置、计算机设备及存储介质
CN113254943A (zh) * 2021-05-25 2021-08-13 深圳市洞见智慧科技有限公司 一种基于纵向联邦学习的模型贡献度评估***
WO2021219054A1 (zh) * 2020-04-29 2021-11-04 深圳前海微众银行股份有限公司 横向联邦学习***优化方法、装置、设备及可读存储介质
CN113626168A (zh) * 2021-08-11 2021-11-09 中国电信股份有限公司 联邦学习中参与方贡献量计算方法、***、设备及介质
CN113947213A (zh) * 2021-10-19 2022-01-18 中国电信股份有限公司 联邦学习参与方贡献度量方法、装置、存储介质及设备
WO2022088541A1 (zh) * 2020-10-28 2022-05-05 广州中国科学院软件应用技术研究所 一种基于差分进化的联邦学习激励方法和***
CN114997411A (zh) * 2022-05-11 2022-09-02 深圳市人工智能与机器人研究院 基于联邦学习的贡献计算方法以及相关设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021219054A1 (zh) * 2020-04-29 2021-11-04 深圳前海微众银行股份有限公司 横向联邦学习***优化方法、装置、设备及可读存储介质
WO2022088541A1 (zh) * 2020-10-28 2022-05-05 广州中国科学院软件应用技术研究所 一种基于差分进化的联邦学习激励方法和***
CN112784994A (zh) * 2020-12-31 2021-05-11 浙江大学 基于区块链的联邦学习数据参与方贡献值计算和激励方法
CN112926897A (zh) * 2021-04-12 2021-06-08 平安科技(深圳)有限公司 基于联邦学习的客户端贡献计算方法和装置
CN113159190A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 联邦激励分配方法、装置、计算机设备及存储介质
CN113254943A (zh) * 2021-05-25 2021-08-13 深圳市洞见智慧科技有限公司 一种基于纵向联邦学习的模型贡献度评估***
CN113626168A (zh) * 2021-08-11 2021-11-09 中国电信股份有限公司 联邦学习中参与方贡献量计算方法、***、设备及介质
CN113947213A (zh) * 2021-10-19 2022-01-18 中国电信股份有限公司 联邦学习参与方贡献度量方法、装置、存储介质及设备
CN114997411A (zh) * 2022-05-11 2022-09-02 深圳市人工智能与机器人研究院 基于联邦学习的贡献计算方法以及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Xudong Zhu ; Hui Li.Privacy-preserving Decentralized Federated Deep Learning.《 ACM TURC 2021: ACM Turing Award Celebration Conference - China ( ACM TURC 2021)》.2021,第33-38页. *
多数据源下机器学习的隐私保护研究;张铭凯;范宇豪;夏仕冰;;网络空间安全(04);第73-77页 *
联邦学习浅析;王佳;苗璐;;现代计算机(25);第28-32+37页 *

Also Published As

Publication number Publication date
CN116384502A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US20210329094A1 (en) Discovering signature of electronic social networks
US11032585B2 (en) Real-time synthetically generated video from still frames
EP3355547B1 (en) Method and system for learning representations of network flow traffic
US11436430B2 (en) Feature information extraction method, apparatus, server cluster, and storage medium
WO2020185973A1 (en) System and method with federated learning model for medical research applications
WO2023071106A1 (zh) 联邦学习管理方法、装置、计算机设备及存储介质
CN109784736A (zh) 一种基于大数据的分析决策***
CN111681091A (zh) 基于时间域信息的金融风险预测方法、装置及存储介质
CN108428001B (zh) 信用分值预测方法及装置
CN113377797B (zh) 联合更新模型的方法、装置及***
CN112101577B (zh) 基于XGBoost的跨样本联邦学习、测试方法、***、设备和介质
CN116384502B (zh) 联邦学习中参与方价值贡献计算方法、装置、设备及介质
CN117236855A (zh) 一种生物饲料仓储管理***及方法
CN114021188A (zh) 一种联邦学习协议交互安全验证方法、装置及电子设备
CN113298121A (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN112365007A (zh) 模型参数确定方法、装置、设备及存储介质
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN113360514B (zh) 联合更新模型的方法、装置及***
CN111815442B (zh) 一种链接预测的方法、装置和电子设备
CN116582452B (zh) 流量分类方法、装置、设备及介质
CN114676838B (zh) 联合更新模型的方法及装置
CN114329213B (zh) 基于用户行为的电商平台优化方法、装置、设备及介质
CN117874117A (zh) 一种数据信息管理的会员增值服务平台
CN114298320A (zh) 联合学习的贡献值计算方法、装置、电子设备及存储介质
CN117764426A (zh) 一种员工办公社交行为评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant