CN114091690A - 联邦学习模型的训练方法和调用方法以及联邦学习*** - Google Patents

联邦学习模型的训练方法和调用方法以及联邦学习*** Download PDF

Info

Publication number
CN114091690A
CN114091690A CN202111411921.3A CN202111411921A CN114091690A CN 114091690 A CN114091690 A CN 114091690A CN 202111411921 A CN202111411921 A CN 202111411921A CN 114091690 A CN114091690 A CN 114091690A
Authority
CN
China
Prior art keywords
training data
training
participant
learning model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111411921.3A
Other languages
English (en)
Inventor
刘鹤洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111411921.3A priority Critical patent/CN114091690A/zh
Publication of CN114091690A publication Critical patent/CN114091690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Storage Device Security (AREA)

Abstract

本说明书实施例提供一种联邦学习模型的训练方法和调用方法以及联邦学习***。该训练方法包括:分别由多个参与者中的每个参与者获取该参与者的水印化训练数据集,其中,水印化训练数据集包括具有水印标签的水印训练数据,和基于该水印化训练数据集进行训练,以产生该参与者的本地模型;以及将多个参与者的本地模型进行聚合,以产生联邦学习模型。

Description

联邦学习模型的训练方法和调用方法以及联邦学习***
技术领域
本说明书实施例属于机器学习技术领域,尤其涉及一种联邦学习模型的训练方法和调用方法以及联邦学习***。
背景技术
近年来,对联邦学习的研究受到了越来越多的关注。联邦学习是一种机器学习框架,其中用于训练模型的数据可以由多个参与者提供,而联邦学习可以在不共享不同参与者的数据的情况下进行联合建模,从而能够在满足用户隐私保护、数据安全和政府法规等的要求下,更有效地使用数据。可以理解的是,每个参与者的数据有着十分重要的价值,而使这些数据的价值被更好地挖掘、流转和评价也有着十分重要的意义。因此,需要提供一种有效的方案来更好地实现和保护数据和模型的价值。
发明内容
本发明的目的在于提供一种联邦学习模型的训练方法和调用方法以及联邦学习***,以更好地实现和保护数据和模型的价值。
根据本说明书一个或多个实施例的第一方面,提供了一种联邦学习模型的训练方法,其中,用于训练所述联邦学习模型的训练数据由多个参与者提供,所述训练方法包括:
分别由所述多个参与者中的每个参与者在该参与者的本地执行以下步骤:
获取该参与者的水印化训练数据集,其中,水印化训练数据集包括具有水印标签的水印训练数据;和,
基于该水印化训练数据集进行训练,以产生该参与者的本地模型;以及,
将所述多个参与者的本地模型进行聚合,以产生所述联邦学习模型。
根据本说明书一个或多个实施例的第二方面,提供了一种联邦学习模型的调用方法,其中,所述联邦学习模型被配置为能够执行水印化验证,所述水印化验证识别待验证数据是否为具有水印标签的水印验证数据,所述调用方法包括:
由共享平台获取来自调用者的调用请求信息;
所述共享平台根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证;以及,
当所述共享平台确定待验证数据中的具有水印标签的水印验证数据的数目大于或等于预设验证数目时,确定为通过水印化验证,并为所述调用者分配所述联邦学习模型的调用权限,以供所述调用者调用所述联邦学习模型。
根据本说明书一个或多个实施例的第三方面,提供了一种联邦学***台,所述共享平台包括:
第一通信单元,所述第一通信单元被配置为获取来自调用者的调用请求信息;
验证单元,所述验证单元被配置为根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证,所述验证单元还被配置为当确定待验证数据中的具有水印标签的水印验证数据的数目大于或等于预设验证数目时,确定为通过水印化验证,其中,所述联邦学习模型被配置为能够执行水印化验证,所述水印化验证识别待验证数据是否为具有水印标签的水印验证数据;
分配单元,所述分配单元被配置为为所述调用者分配所述联邦学习模型的调用权限;以及,
模型运行单元,所述模型运行单元被配置为运行所述联邦学习模型以实现所述调用者对所述联邦学习模型的调用。
根据本说明书一个或多个实施例的第四方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如上所述的训练方法或如上所述的调用方法的步骤。
根据本说明书一个或多个实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如上所述的训练方法或如上所述的调用方法的步骤。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一实施例中联邦学习***的架构图;
图2是本说明书另一实施例中联邦学习***的架构图;
图3是本说明书一实施例中联邦学习模型的训练方法的流程图;
图4是本说明书一实施例中联邦学习模型的训练方法中步骤S110的流程图;
图5是本说明书一实施例中基于横向联邦学习算法来聚合多个参与者的本地模型的流程图;
图6是本说明书另一实施例中基于横向联邦学习算法来聚合多个参与者的本地模型的流程图;
图7是本说明书另一实施例中联邦学习模型的训练方法的流程图;
图8是本说明书一实施例中联邦学习模型的调用方法的流程图;
图9是本说明书一实施例中联邦学习模型的调用方法的步骤S730的流程图;
图10是本说明书另一实施例中联邦学习模型的调用方法的步骤S730流程图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
为了解决联邦学习中,数据价值的挖掘、流转和评价问题,本说明书一个或多个实施例提出了一种联邦学习模型的训练方法、联邦学习模型的调用方法、联邦学习***、非暂态计算机可读存储介质和计算机程序产品,以更好地保护数据和模型的价值。
如图1和图2所示,为联邦学***台910和一一对应地设置在多个参与者中的每个参与者的本地的一个或多个参与设备920。
在一些实施例中,共享平台910可以包括可验证计算引擎(MYTF),其可以利用可信执行环境(TEE)和WebAssembly(WASM)虚拟机等技术,允许在TEE中执行可验证计算任务(例如,可验证应用或可信应用(TAPP)),同时可以向任何人证明该计算任务是在TEE中按照用户预期被执行的。
其中,TEE可以是处理器中的安全可信区域,以保证放入其中的代码和数据的安全性、机密性和完整性。TEE提供了一种隔离的执行环境,代码和数据可以在TEE中运行,且在运行过程中可以保证不被常规操作***干扰的计算的运行,从而保证代码和数据的机密性和完整性。在TEE中执行的代码程序可以被称为Enclave。用户在使用Enclave程序前,通常需要测量Enclave程序的代码和数据,并且经过远程验证,以确认该Enclave程序是用户所期望被执行的程序。
其中,WASM虚拟机是一种基于二进制操作指令的栈式结构的虚拟机。WASM代码可以被编译成机器码,并被加载到该WASM虚拟机中执行。
其中,TAPP是使用可验证计算(Verifiable Computation)技术实现的应用,可以在MYTF中运行,例如运行在WASM虚拟机中。具体而言,任何人可以通过将WASM字节码上传到MYTF中,并调用该WASM字节码来执行计算任务,并获得计算结果。
在每个参与者的本地可以设置有相应的参与设备920。参与设备920可以用于进行相应的参与者的数据的本地训练,从而获得该参与者的本地模型。
进一步地,共享平台910或者其中一个参与设备920可以获得所有参与者的经过加密处理的本地加密模型,并对这些本地加密模型进行密文安全聚合,以产生聚合加密模型。此后,所产生的聚合加密模型可以分别本地存储在各个参与设备920上,即实现对联邦学习模型的训练。
当对联邦学***台910来对调用者进行水印化验证,并在通过水印化验证后,由共享平台910对其接收到的聚合加密模型进行解密,从而产生联邦学***台910中运行该联邦学习模型,从而为调用者提供相应的服务。
在一些实施例中,联邦学习***还可以包括具有一个或多个节点931的区块链930。区块链930是一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。在区块链***中,可以按照时间顺序将数据区块以顺序相连的方式组合成链式数据结构,并以密码学方式保证不可篡改和不可伪造的分布式账本。在本说明书一个或多个实施例中,至少部分与联邦学习模型的训练、调用等相关的信息可以被记录在区块链930的相应的节点931中,从而为数据价值的流转和评价,以及相应的收益的分配等提供可靠性高的凭证信息。
如图3所示,在本说明书的一实施例中,提出了一种联邦学习模型的训练方法,其中,用于训练联邦学习模型的训练数据可以由多个参与者提供。该训练方法可以包括分别由多个参与者中的每个参与者在该参与者的本地执行以下步骤:
步骤S110,获取该参与者的水印化训练数据集,其中,水印化训练数据集包括具有水印标签的水印训练数据。
在一些实施例中,水印化训练数据集可以是从参与者处直接得到的。或者,在一些实施例中,也可以对参与者所提供的原始的训练数据集进行水印化处理,以产生相应的水印化训练数据集。
如图4所示,在一些实施例中,步骤S110可以包括:
步骤S111,从参与者提供的第一训练数据集中提取第二训练数据集,其中,第二训练数据集为第一训练数据集的非空真子集;
步骤S113,根据第二训练数据集来产生第三训练数据集,其中,第三训练数据集中的每条训练数据的特征部分由对第二训练数据集中的相应的训练数据的特征部分进行水印化处理而产生,且第三训练数据集中的每条训练数据的标签部分由将第二训练数据集中的相应的训练数据的标签部分修改为水印标签而产生;以及,
步骤S115,将第三训练数据集与第一训练数据集的至少一部分合并为该参与者的水印化训练数据集。
具体而言,第一训练数据集可以包括多条训练数据,每条训练数据可以包括特征部分和相应的标签部分。其中,训练数据的特征部分可以作为所训练的模型的输入,在模型对输入进行一系列计算后,可以产生相应的输出,而训练数据的标签部分可以用于与模型基于相应的特征部分所产生的输出进行比较,从而根据比较结果来调整所训练的模型中的相关参数,直至模型达到预设的准确率。
从第一训练数据集中提取的第二训练数据集可以被水印化,以产生第三训练数据集。在一些实施例中,第二训练数据集可以是从第一训练数据集中随机提取的。或者,在一些实施例中,可以按照预设的提取规律来提取第二训练数据集。
进一步地,对第二训练数据集中的每条训练数据的特征部分进行水印化处理而产生第三训练数据集中的相应的训练数据的特征部分可以包括:
将噪声与第二训练数据集中的训练数据的特征部分进行叠加,并将叠加的结果作为第三训练数据集中的相应的训练数据的特征部分。
其中,噪声的维度、第二训练数据集中的训练数据的特征部分的维度和第三训练数据集中的训练数据的特征部分的维度彼此相等,以方便叠加。例如,如果某一参与者的第二训练数据集中的某一训练数据的特征部分可以被表示为A2=(ax2,ay2,az2),与该训练数据的特征部分进行叠加的噪声可以被表示为N=(nx,ny,nz),那么作为第三训练数据集中的相应的训练数据的特征部分的叠加的结果可以被表示为A3=(ax3,ay3,az3)=(ax2+nx,ay2+ny,az2+nz),即ax3=ax2+nx,ay3=ay2+ny,且az3=az2+nz。需要注意的是,根据实际需求,叠加到各个训练数据的特征部分上的噪声可以是彼此相同的、部分相同的或者是不同的,在此不作限制。
在一些实施例中,噪声可以包括根据非训练数据而产生的噪声。或者,噪声可以包括基于图像对抗算法(FGSM)等产生的噪声。或者,噪声可以包括高斯噪声等,其中,高斯噪声是指随机生成的、噪声值符合高斯分布的噪声,且这里高斯噪声的噪声平均值可以是零。
另外,可以将第二训练数据集中的每条训练数据的标签部分统一修改为水印标签,以作为第三数据训练集中的相应的训练数据的标签部分。其中,若联邦学习模型为分类模型,则水印标签可以被设置为对应于水印类型的标签,即不同于未水印化的模型中的已有分类类型标签的一种新的分类类型的标签;若联邦学习模型为回归模型,则水印标签可以被设置为对应于联邦学习模型的最小输出值或最大输出值的标签,以区分于未水印化的模型可能输出的数值结果。
水印化处理所产生的某一参与者的第三训练数据集中的训练数据的特征部分可以作为该参与者的水印验证数据。如后文中将详细描述的,在模型调用之前的验证或投票过程中,参与者可以使用水印验证数据来验证自身的合法身份,或者将水印验证数据作为同意其他调用者的调用请求的投票。因此,为了使每个参与者的验证或投票权限与其在模型训练过程中所贡献的数据的量相匹配,在多个参与者中,每个参与者的第二训练数据集中的训练数据的数目(其等于第三训练数据集中的训练数据的数目)与该参与者的第一训练数据集中的训练数据的数目的比例可以是彼此相等的。也就是说,可以从每个参与者提供的训练数据中提取相等比例的数据做水印化处理,那么,在后文所述的验证或投票过程中,提供了更多的训练数据的参与者就可以拥有占比更多的验证或投票权。
在一些实施例中,每个参与者的第二训练数据集中的训练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例可以由多个参与者通过共同商议来确定。例如,上述比例可以在从5%至20%的范围内。在一具体示例中,上述比例可以为10%。
在将第三训练数据集与第一训练数据集的至少一部分合并为水印化训练数据集时,在一些实施例中,为了最大限度地保留每个参与者所提供的训练数据用于模型的训练,可以将一参与者的第三训练数据集与其提供的完整的第一训练数据集进行合并,从而产生水印化训练数据集。或者,在一些实施例中,为了避免合并所得的水印化训练数据集过大而导致训练成本增高、训练效率降低等,也可以将第三训练数据集与第一训练数据集的一部分合并为水印化训练数据集。
返回图3,多个参与者中的每个参与者还在该参与者的本地执行以下步骤:
步骤S130,基于水印化训练数据集进行训练,以产生该参与者的本地模型。
在模型的训练过程中,具体可以通过数据的分布或标签对线性/非线性模型进行拟合,以达到逼近真实值的效果。此外,在训练结束后,基于所得的线性/非线性模型,可以对同样的数据进行预测,从而得到相应的预测结果,这一预测过程可以用于后文中所述的对参与者的身份验证。其中,基于水印化训练数据集所训练的本地模型可以识别出水印验证数据,即当水印验证数据被输入本地模型中时,该本地模型将输出水印标签,以在后续的模型调用中用于验证或投票。
进一步地,如图3所示,训练方法还可以包括:
步骤S300,将多个参与者的本地模型进行聚合,以产生联邦学习模型。
其中,联邦学习是由谷歌研究团队于2016年提出的一种机器学习模式,其为了满足数据安全法而被部署,可以是一种分布式机器学习。在联邦学习中,通过对本地数据进行训练,然后以密文的方式进行安全聚合,从而产生相当于采用全量数据进行训练所获得的聚合模型。联邦学习可以包括横向联邦学习、纵向联邦学习和迁移联邦学习。
在一些实施例中,可以基于横向联邦学习算法来聚合多个参与者的本地模型。具体而言,在横向联邦学习中,训练数据的特征可以是完全重合的,但样本基本上是独立分布的、彼此并不重合。因此,横向联邦学习的建模效果很大程度上取决于每个参与者的样本量(训练数据集中的数据的数目)。
如图5所示,在一实施例中,基于横向联邦学习算法来聚合多个参与者的本地模型可以包括:
步骤S311,从多个参与者中选择一个参与者作为聚合者;
步骤S313,多个参与者中的每个参与者分别利用其公钥对其本地模型进行加密,以产生该参与者的本地加密模型;
步骤S315,多个参与者中的不是聚合者的所有其他参与者分别将其本地加密模型传输给聚合者;
步骤S317,聚合者将多个参与者的所有本地加密模型进行聚合,以产生并存储作为加密的联邦学习模型的聚合加密模型;以及,
步骤S319,聚合者将聚合加密模型分别返回给多个参与者中的其他所有参与者,以供其他所有参与者分别在其本地存储聚合加密模型。
其中,多个参与者的本地模型的密文聚合可以由其中一个参与者来执行。出于安全性的考虑,作为聚合者的参与者可以被随机选择。并且,其他每个参与者并不直接将本地模型传输给聚合者,而是将经过加密处理的本地加密模型传输给聚合者,再由聚合者进行聚合处理。在聚合处理后,每个参与者都可以从聚合者处获得处于加密状态的聚合加密模型。上述聚合过程可以很好地保障数据和模型的安全性,避免泄露。
如图6所示,在另一实施例中,基于横向联邦学习算法来聚合多个参与者的本地模型可以包括:
步骤S331,多个参与者中的每个参与者分别利用其公钥对其本地模型进行加密,以产生该参与者的本地加密模型;
步骤S333,多个参与者中的每个参与者分别将其本地加密模型传输给共享平台;
步骤S335,共享平台将多个参与者的所有本地加密模型进行聚合,以产生作为加密的联邦学习模型的聚合加密模型;以及,
步骤S337,共享平台将聚合加密模型分别返回给多个参与者中的每个参与者,以供每个参与者分别在其本地存储聚合加密模型。
其中,多个本地模型的聚合也可以由共享平台来执行。为了保证安全性,每个参与者并不直接将本地模型传输给共享平台,而是传输经过加密处理的本地加密模型,然后由共享平台进行多个本地加密模型的密文聚合处理,再将所产生的处于加密状态的聚合加密模型分别返回给每个参与者。
在一些实施例中,用于加密的公钥和用于解密的私钥可以由共享平台生成。此外,为了提高安全性,分配给多个参与者的相匹配的公钥和私钥可以是彼此不同的,即某一参与者并不知晓其他参与者的公钥和私钥的信息。在一些实施例在,共享平台可以将所产生的公钥分别分配给相应的参与者,以供该参与者利用公钥对其本地模型进行加密。另外,与公钥匹配的、可以用于解密聚合加密模型的私钥可以被存储在共享平台中。这样,当需要使用联邦学***台中利用存储的私钥解密所接收到的聚合加密模型以得到联邦学***台中运行该联邦学习模型,从而避免了某个参与者或调用者直接接触该联邦学习模型,进而更好地保证了联邦学习模型的安全性。
在一些实施例中,每个参与者的相匹配的公钥和私钥可以基于同态加密算法而产生。同态加密算法是一类具有特殊自然属性的加密算法,其可以实现当对经过同态加密的数据进行处理得到输出、然后将这一输出进行解密所得到的结果是与用同一方法处理未加密的原始数据得到的输出结果是一样的。也就是说,同态加密除了能实现基本的加密操作之外,还能实现密文间的多种计算功能,即先计算后解密可等价于先解密后计算。这样,在联邦学习模型的训练过程中,虽然是对本地模型进行加密,然后对聚合加密模型进行解密,但仍然可以得到正确的联邦学习模型。
进一步地,如图7所示,在本说明书一实施例中,训练方法还可以包括:
步骤S500,共享平台测试并记录联邦学习模型的对具有水印标签的水印测试数据的水印识别准确率。
具体而言,共享平台可以基于水印测试数据来单独测试并记录联邦学习模型的水印识别准确率,该水印识别准确率可以用于后文中所述的联邦学习模型的调用方法中。在一些实施例中,水印测试数据可以包括相应的参与者的第三训练数据集中的训练数据的特征部分。
在本说明书一个或多个实施例提供的联邦学习模型的训练方法中,基于具有水印标签的水印化训练数据集对联邦学习模型进行训练,从而得到了能够识别出水印验证数据的联邦学习模型,其为数据的价值的挖掘、流转和评价提供了基础,有助于更好地实现和保护数据和模型的价值。
此外,本说明书一个或多个实施例还提出了一种联邦学习模型的调用方法,其中,联邦学习模型可以被配置为能够执行水印化验证,该水印化验证可以识别待验证数据是否为具有水印标签的水印验证数据。如上文所述,水印验证数据可以为相应的水印训练数据的特征部分。或者,水印验证数据可以是采用其他方式所获得的数据,例如通过对水印训练数据的特征部分进行一些转换计算而产生。在一些实施例中,可以采用如上所述的联邦学习模型的训练方法来训练产生这样的联邦学习模型。或者,也可以采用其他方式来获得这样的联邦学习模型。
如图8所示,在本说明书一实施例中,联邦学习模型的调用方法可以包括:
步骤S710,由共享平台获取来自调用者的调用请求信息;
步骤S730,共享平台根据调用请求信息,利用联邦学习模型对待验证数据进行水印化验证;以及,
步骤S750,当共享平台确定待验证数据中的具有水印标签的水印验证数据的数目大于或等于预设验证数目时,确定为通过水印化验证,并为调用者分配联邦学习模型的调用权限,以供调用者调用联邦学习模型。
其中,调用请求信息可以包括第一调用请求信息和第二调用请求信息,第一调用请求信息用于指示以参与者身份对联邦学习模型的调用请求,而第二调用请求信息用于指示以非参与者身份对联邦学习模型的调用请求。
在一实施例中,如图9所示,当调用请求信息为第一调用请求信息时,共享平台根据调用请求信息,利用联邦学习模型对待验证数据进行水印化验证可以包括:
步骤S731,共享平台从调用者获取聚合加密模型和待验证数据;
步骤S733,共享平台利用私钥对聚合加密模型进行解密,以获得联邦学习模型;以及,
步骤S735,共享平台将待验证数据中的每条数据分别输入联邦学习模型中,以确定该数据是否为具有水印标签的水印验证数据。
也就是说,当以参与者身份发起调用请求时,只要该调用者本身能够通过参与者身份验证,即可以获取对联邦学***台中,该待验证数据可以是该参与者的第三训练数据集中的至少一部分训练数据的特征部分。
在一些实施例中,待验证数据的数目可以由多个参与者商议确定。例如,待验证数据的数目可以至少为多个参与者中的提供最小的水印化训练数据集的参与者的水印训练数据的数目的一半,或者可以至少为发出第一调用请求信息的参与者的水印训练数据的数目的一半等。
在一些实施例中,当调用者为模型的参与者时,调用者可以通过区块链节点验签以基于所分配的调用权利来调用联邦学***台中运行,而调用者可以将待分析的数据传输给共享平台,并从共享平台接收联邦学***台可以是基于MYTF技术的,从而使得调用者也可以确认对联邦学习模型的调用是按照其期望的方式进行的,保障了输出的结果的可靠性。
在另一实施例中,如图10所示,当调用请求信息为第二调用请求信息时,共享平台根据调用请求信息,利用联邦学习模型对待验证数据进行水印化验证可以包括:
步骤S732,共享平台向多个参与者广播所述第二调用请求信息;
步骤S734,当共享平台从多个参与者中的至少一个参与者获取到聚合加密模型时,利用私钥对聚合加密模型进行解密,以获得联邦学习模型;
步骤S736,当共享平台从多个参与者中的至少部分参与者获取到待验证数据时,将待验证数据中的每条数据分别输入联邦学习模型中,以确定该数据是否为具有水印标签的水印验证数据。
也就是说,当以非参与者身份发起调用请求时,需要联邦学***台可以将第二调用请求信息广播给所有的参与者。如果参与者同意该调用,则可以将其水印验证数据上传到共享平台上用于投票验证,否则可以不上传其水印验证数据。当大于或等于预设验证数目的水印验证数据被识别出来时,可以认为该调用已经得到了参与者的同意,因此该调用者可以调用联邦学习模型。
在一些实施例中,共享平台可以从多个参与者中的任一个或多个参与者处获取聚合加密模型。为了避免聚合加密模型的重复上传造成资源的占用,一旦共享平台从任一参与者处获取到可用的聚合加密模型时,其也可以向其他参与者发出信号以避免其他参与者重复上传聚合加密模型。或者,在一些实施例中,共享平台可以仅从多个参与者中的提供最大的水印化训练数据集的参与者处获取聚合加密模型。这样,仅当提供了最多的训练数据的参与者同意该调用时,对共享平台的调用才可能继续,而如果提供最多的训练数据的参与者不同意调用者的本次调用,则该调用无法进行下去,即提供最多的训练数据的参与者在决定是否同意调用这件事上拥有着更大的权利。
在一些实施例中,待验证数据的数目可以是多个参与者共同商议决定的。例如,待验证数据的数目可以至少为多个参与者的水印化训练数据集中的水印训练数据的总数目的一半。
在一些实施例中,当调用请求信息为第二调用请求信息时,调用者调用联邦学习模型可以包括:
共享平台从多个参与者中的至少一个参与者获取聚合加密模型,并利用私钥对聚合加密模型进行解密,以获得联邦学习模型;
调用者基于所分配的调用权限来调用联邦学***台中运行。
在一些实施例中,共享平台可以从多个参与者中的任一个或多个参与者处获取聚合加密模型。为了避免聚合加密模型的重复上传造成资源的占用,一旦共享平台从任一参与者处获取到可用的聚合加密模型时,其也可以向其他参与者发出信号以避免其他参与者重复上传聚合加密模型。或者,在一些实施例中,共享平台也可以从多个参与者中的提供最大的水印化训练数据集的参与者处获取聚合加密模型。
聚合加密模型的解密和所产生的联邦学***台中进行,而调用者可以将待分析的数据上传到共享平台,并从共享平台接收联邦学***台可以是基于MYTF技术的,从而使得调用者也可以确认对联邦学习模型的调用是按照其期望的方式进行的,保障了输出的结果的可靠性。
在一些实施例中,预设验证数目可以至少是根据联邦学习模型的水印识别准确率来确定的。例如,如果多个参与者商议在每次验证时,一个或多个参与者需要提供至少100条的水印验证数据时,方可通过验证,且测试得到的联邦学习模型的水印识别准确率为95%,那么,所设定的预设验证数目可以为100*95%=95条,即当联邦学习模型确定待验证数据中存在至少95条具有水印标签的水印验证数据时,即可通过水印化验证。
在一些实施例中,共享平台可以采用区块链上的智能合约来进行水印化验证。智能合约是一种旨在以信息化方式传播、验证或执行合同的计算机协议,其允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转,从而提高了验证的可靠性和安全性。在一些实施例中,智能合约可以对具有水印标签的水印验证数据进行计数,当计数达到预设验证数目时,即确定为通过了水印化验证,可以进行下一步的调用操作。
在一些实施例中,为了避免恶意的调用者频繁调用联邦学习***带来可能的攻击风险,和/或为了帮助实现对调用权限的可定制的交易,调用权限可以是有限的。例如,调用权限可以是在通过水印化验证之后的预设时间段内,对联邦学习模型调用预设次数的权限。可以理解是,调用权限也可以有其他具体的形式。而如果对联邦学习模型的调用超出了调用权限,则以参与者身份发起调用的调用者可以通过再次验证身份来获取新的调用权限,而以非参与者身份发起调用的调用者可以通过再次购买使参与者为其进行投票验证来获取新的调用权限。可以理解的是,调用者也可以通过其他约定的方式来获得新的调用权限,在此不作限制。
在一些实施例中,调用方法还可以包括:
当通过了水印化验证后,将模型调用信息记录在区块链上。
具体而言,可以在通过水印化验证后立即将模型调用信息记录在区块链上,或者在完成调用后,将模型调用信息记录在区块链上。模型调用信息可以包括调用者的身份信息、调用时间信息、调用次数信息等。此外,为了节约区块链上的节点中的存储空间,可以对调用过程中所产生的数据进行哈希后再上链存储。
在一些实施例中,调用方法还可以包括:
当共享平台确定待验证数据中的具有水印标签的水印验证数据的数目小于预设验证数目时,确定为未通过水印化验证,并记录调用请求信息。
通过记录未通过水印化验证的调用请求信息,可以方便对调用者的身份等进行查验,以及时发现潜在的风险,保护数据和模型的安全。
在一些实施例中,为了更好地分配数据和模型所带来的收益,在联邦学习模型的训练期间,每次训练完成后,可以将多个参与者中的每个参与者的训练信息保存在区块链上。其中,参与者的训练信息可以包括参与者的相应的区块链节点标识信息(例如节点ID)、所涉及的模型的字段等。此外,为了节约区块链上的存储空间,可以对参与者的相应的区块链节点标识信息(例如节点ID)、所涉及的模型的字段等信息进行哈希后再上链保存。
相应地,调用方法还可以包括:
在通过水印化验证后,根据区块链上记录的每个参与者的模型训练信息,为每个参与者分配相应的收益。
基于上文所述的联邦学习模型的调用方法,调用者可以实现对联邦学习模型的调用。在调用过程中,调用者本身并不会直接接触联邦学习模型,从而很好地保障了数据和模型的安全性。此外,本说明书一个或多个实施例中的调用方法很好地解决了作为重要数据资产的明文模型无法自由流转的问题,使得参与者之外的其他调用者也可以调用联邦学习模型,从而更好地挖掘了数据和模型的价值,也有助于在保障数据安全的前提下使得参与者获得更多的收益。
本说明书一个或多个实施例还提出了一种联邦学***台910,共享平台910可以包括:
第一通信单元911,可以被配置为获取来自调用者的调用请求信息;
验证单元912,可以被配置为根据调用请求信息,利用联邦学习模型对待验证数据进行水印化验证,验证单元912还可以被配置为当确定待验证数据中的具有水印标签的水印验证数据的数目大于或等于预设验证数目时,确定为通过水印化验证,其中,联邦学习模型被配置为能够执行水印化验证,水印化验证识别待验证数据是否为具有水印标签的水印验证数据;
分配单元913,可以被配置为为调用者分配联邦学习模型的调用权限;以及,
模型运行单元914,可以被配置为运行联邦学习模型以实现调用者对联邦学习模型的调用。
进一步地,如图1和图2所示,共享平台还可以包括以下中的至少一者:
测试单元915,可以被配置为测试联邦学习模型的对具有水印标签的水印测试数据的水印识别准确率;
密钥单元916,可以被配置为生成用于对本地模型进行加密以产生本地加密模型的公钥,和与公钥匹配的、用于对聚合加密模型进行解密以产生联邦学习模型的私钥;以及,
存储单元917,可以被配置为存储私钥和/或记录水印识别准确率。
如图1和图2所示,联邦学习***还可以包括多个参与设备920,多个参与设备920中的每个参与设备920一一对应地设置在与该参与设备920相应的参与者的本地,且多个参与设备920中的每个参与设备920可以包括:
第二通信单元921,可以被配置为获取该参与者的水印化训练数据集,其中,水印化训练数据集包括具有水印标签的水印训练数据;和,
本地训练单元922,可以被配置为基于该水印化训练数据集进行训练,以产生该参与者的本地模型。
此外,联邦学***台910上,聚合单元940可以被配置为将多个参与者的本地模型进行聚合,以产生联邦学习模型。
进一步地,如图1和图2所示,联邦学习***还可以包括具有一个或多个节点931的区块链930,其中,区块链930上可以包括用于进行水印化验证的智能合约,且一个或多个节点931中可以记录有模型训练信息和模型调用信息中的至少一者。
本说明书一个或多个实施例还提出了一种非暂态计算机可读存储介质,其上可以存储有计算机指令,计算机指令被处理器执行时可以实现如上所述的联邦学习模型的训练方法或调用方法的步骤。
本说明书一个或多个实施例中的非暂态计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。应注意,本文描述的计算机可读存储介质旨在包括但不限于这些和任意其他适合类型的存储器。
本说明书一个或多个实施例也提出了一种计算机程序产品,该计算机程序产品可以包括指令,当指令被处理器执行时,可以实现如上所述的联邦学习模型的训练方法或调用方法的步骤。
指令可以是将由一个或多个处理器直接地执行的任何指令集,诸如机器代码,或者间接地执行的任何指令集,诸如脚本。本文中的术语“指令”、“应用”、“过程”、“步骤”和“程序”在本文中可以互换使用。指令可以存储为目标代码格式以便由一个或多个处理器直接处理,或者存储为任何其他计算机语言,包括按需解释或提前编译的独立源代码模块的脚本或集合。指令可以包括引起诸如一个或多个处理器来充当本文中的各神经网络的指令。本文其他部分更加详细地解释了指令的功能、方法和例程。
在本说明书一个或多个实施例中,可以基于水印化训练数据集产生能够识别具有水印标签的水印验证数据的联邦学***台中运行联邦学习模型,避免参与者或者调用者直接接触明文形式的联邦学习模型,从而在避免泄露可能造成安全风险的信息、保障数据和模型安全的前提下,实现了模型的自由流转,有助于充分地挖掘和释放数据的价值,为数据和模型的拥有者提供更多的收益。此外,与模型的训练、调用等有关的信息可以被存储在区块链上,从而保障了交易的正当性和可靠性。相应地,由多个参与者共同训练所得的联邦学习模型可以被视为一种非同质化代币(NFT),并按照区块链上的相应的交易规则进行流转。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由使用者对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为服务器***。当然,本申请不排除随着未来计算机技术的发展,实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
本发明是参照根据本发明实施例的方法、装置(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (41)

1.一种联邦学习模型的训练方法,其中,用于训练所述联邦学习模型的训练数据由多个参与者提供,所述训练方法包括:
分别由所述多个参与者中的每个参与者在该参与者的本地执行以下步骤:
获取该参与者的水印化训练数据集,其中,水印化训练数据集包括具有水印标签的水印训练数据;和
基于该水印化训练数据集进行训练,以产生该参与者的本地模型;以及
将所述多个参与者的本地模型进行聚合,以产生所述联邦学习模型。
2.根据权利要求1所述的训练方法,其中,获取该参与者的水印化训练数据集包括:
从该参与者提供的第一训练数据集中提取第二训练数据集,其中,所述第二训练数据集为所述第一训练数据集的非空真子集;
根据所述第二训练数据集来产生第三训练数据集,其中,所述第三训练数据集中的每条训练数据的特征部分由对所述第二训练数据集中的相应的训练数据的特征部分进行水印化处理而产生,且所述第三训练数据集中的每条训练数据的标签部分由将所述第二训练数据集中的相应的训练数据的标签部分修改为水印标签而产生;以及
将所述第三训练数据集与所述第一训练数据集的至少一部分合并为该参与者的水印化训练数据集。
3.根据权利要求2所述的训练方法,其中,在所述多个参与者中,每个参与者的第二训练数据集中的训练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例彼此相等。
4.根据权利要求2所述的训练方法,其中,每个参与者的第二训练数据集中的训练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例在从5%至20%的范围内。
5.根据权利要求2所述的训练方法,其中,每个参与者的第二训练数据集中的训练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例为10%。
6.根据权利要求2所述的训练方法,其中,所述第二训练数据集是从所述第一训练数据集中随机提取的。
7.根据权利要求2所述的训练方法,其中,所述第三训练数据集中的每条训练数据的特征部分由对所述第二训练数据集中的相应的训练数据的特征部分进行水印化处理而产生包括:
将噪声与所述第二训练数据集中的训练数据的特征部分进行叠加,并将叠加的结果作为所述第三训练数据集中的相应的训练数据的特征部分;
其中,噪声的维度、所述第二训练数据集中的训练数据的特征部分的维度和所述第三训练数据集中的训练数据的特征部分的维度彼此相等。
8.根据权利要求7所述的训练方法,其中,噪声包括根据非训练数据而产生的噪声;或者
噪声包括基于图像对抗算法而产生的噪声;或者
噪声包括高斯噪声。
9.根据权利要求1所述的训练方法,其中,当所述联邦学习模型为分类模型时,水印标签被设置为对应于水印类型的标签。
10.根据权利要求1所述的训练方法,其中,当所述联邦学习模型为回归模型时,水印标签被设置为对应于所述联邦学习模型的最小输出值或最大输出值的标签。
11.根据权利要求1所述的训练方法,其中,将所述多个参与者的本地模型进行聚合,以产生所述联邦学习模型包括:
基于横向联邦学习算法来聚合所述多个参与者的本地模型。
12.根据权利要求11所述的训练方法,其中,基于横向联邦学习算法来聚合所述多个参与者的本地模型包括:
从所述多个参与者中选择一个参与者作为聚合者;
所述多个参与者中的每个参与者分别利用其公钥对其本地模型进行加密,以产生该参与者的本地加密模型;
所述多个参与者中的不是所述聚合者的所有其他参与者分别将其本地加密模型传输给所述聚合者;
所述聚合者将所述多个参与者的所有本地加密模型进行聚合,以产生并存储作为加密的联邦学习模型的聚合加密模型;以及
所述聚合者将所述聚合加密模型分别返回给所述多个参与者中的其他所有参与者,以供其他所有参与者分别在其本地存储所述聚合加密模型。
13.根据权利要求12所述的训练方法,其中,所述聚合者是从所述多个参与者中随机选择的。
14.根据权利要求11所述的训练方法,其中,基于横向联邦学习算法来聚合所述多个参与者的本地模型包括:
所述多个参与者中的每个参与者分别利用其公钥对其本地模型进行加密,以产生该参与者的本地加密模型;
所述多个参与者中的每个参与者分别将其本地加密模型传输给共享平台;
所述共享平台将所述多个参与者的所有本地加密模型进行聚合,以产生作为加密的联邦学习模型的聚合加密模型;以及
所述共享平台将所述聚合加密模型分别返回给所述多个参与者中的每个参与者,以供每个参与者分别在其本地存储所述聚合加密模型。
15.根据权利要求12或14所述的训练方法,其中,每个参与者的相匹配的公钥和私钥由共享平台产生,且公钥由所述共享平台传输给相应的参与者,私钥被存储在所述共享平台中。
16.根据权利要求12或14所述的训练方法,其中,每个参与者的相匹配的公钥和私钥是基于同态加密算法而产生的。
17.根据权利要求1所述的训练方法,在产生联邦学习模型之后,所述训练方法还包括:
共享平台测试并记录所述联邦学习模型的对具有水印标签的水印测试数据的水印识别准确率。
18.一种联邦学习模型的调用方法,其中,所述联邦学习模型被配置为能够执行水印化验证,所述水印化验证识别待验证数据是否为具有水印标签的水印验证数据,所述调用方法包括:
由共享平台获取来自调用者的调用请求信息;
所述共享平台根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证;以及
当所述共享平台确定待验证数据中的具有水印标签的水印验证数据的数目大于或等于预设验证数目时,确定为通过水印化验证,并为所述调用者分配所述联邦学习模型的调用权限,以供所述调用者调用所述联邦学习模型。
19.根据权利要求18所述的调用方法,其中,所述联邦学习模型是根据权利要求1至17中任一项所述的训练方法被训练产生的。
20.根据权利要求18所述的调用方法,其中,水印验证数据为相应的水印训练数据的特征部分。
21.根据权利要求18所述的调用方法,其中,当所述调用者请求以参与者身份调用所述联邦学习模型时,所述调用请求信息为第一调用请求信息。
22.根据权利要求21所述的调用方法,其中,当所述调用请求信息为第一调用请求信息时,所述共享平台根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证包括:
所述共享平台从所述调用者获取聚合加密模型和待验证数据;
所述共享平台利用私钥对所述聚合加密模型进行解密,以获得联邦学习模型;以及
所述共享平台将待验证数据中的每条数据分别输入所述联邦学习模型中,以确定该数据是否为具有水印标签的水印验证数据。
23.根据权利要求21所述的调用方法,其中,待验证数据的数目至少为所述多个参与者中的提供最小的水印化训练数据集的参与者的水印训练数据的数目的一半。
24.根据权利要求21所述的调用方法,其中,所述调用者调用所述联邦学习模型包括:
所述调用者通过区块链节点验签以基于所分配的调用权利来调用所述联邦学***台中运行。
25.根据权利要求18所述的调用方法,其中,当所述调用者请求以非参与者身份调用所述联邦学习模型时,所述调用请求信息为第二调用请求信息。
26.根据权利要求25所述的调用方法,其中,当所述调用请求信息为第二调用请求信息时,所述共享平台根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证包括:
所述共享平台向所述多个参与者广播所述第二调用请求信息;
当所述共享平台从所述多个参与者中的至少一个参与者获取到聚合加密模型时,利用私钥对所述聚合加密模型进行解密,以获得联邦学习模型;
当所述共享平台从所述多个参与者中的至少部分参与者获取到待验证数据时,将待验证数据中的每条数据分别输入所述联邦学习模型中,以确定该数据是否为具有水印标签的水印验证数据。
27.根据权利要求26所述的调用方法,其中,所述共享平台仅从所述多个参与者中的提供最大的水印化训练数据集的参与者获取聚合加密模型。
28.根据权利要求26所述的调用方法,其中,待验证数据的数目至少为所述多个参与者提供的水印化训练数据集中的水印训练数据的总数目的一半。
29.根据权利要求25所述的调用方法,其中,所述调用者调用所述联邦学习模型包括:
所述共享平台从所述多个参与者中的至少一个参与者获取聚合加密模型,并利用私钥对所述聚合加密模型进行解密,以获得联邦学习模型;
所述调用者基于所分配的调用权限来调用所述联邦学***台中运行。
30.根据权利要求18所述的调用方法,其中,所述预设验证数目至少是根据所述联邦学习模型的水印识别准确率来确定的。
31.根据权利要求18所述的调用方法,其中,所述共享平台根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证包括:
所述共享平台采用区块链上的智能合约来对进行水印化验证。
32.根据权利要求18所述的调用方法,其中,所述调用权限为在通过水印化验证之后的预设时间段内,对所述联邦学习模型调用预设次数的权限。
33.根据权利要求18所述的调用方法,还包括:
当通过了水印化验证后,将模型调用信息记录在区块链上。
34.根据权利要求18所述的调用方法,还包括:
当所述共享平台确定待验证数据中的具有水印标签的水印验证数据的数目小于预设验证数目时,确定为未通过水印化验证,并记录所述调用请求信息。
35.根据权利要求18所述的调用方法,其中,在联邦学习模型的训练期间,每次训练完成后,将所述多个参与者中的每个参与者的模型训练信息保存在区块链上,所述调用方法还包括:
在通过水印化验证后,根据所述区块链上记录的每个参与者的模型训练信息,为每个参与者分配相应的收益。
36.一种联邦学***台,所述共享平台包括:
第一通信单元,所述第一通信单元被配置为获取来自调用者的调用请求信息;
验证单元,所述验证单元被配置为根据所述调用请求信息,利用所述联邦学习模型对待验证数据进行水印化验证,所述验证单元还被配置为当确定待验证数据中的具有水印标签的水印验证数据的数目大于或等于预设验证数目时,确定为通过水印化验证,其中,所述联邦学习模型被配置为能够执行水印化验证,所述水印化验证识别待验证数据是否为具有水印标签的水印验证数据;
分配单元,所述分配单元被配置为为所述调用者分配所述联邦学习模型的调用权限;以及
模型运行单元,所述模型运行单元被配置为运行所述联邦学习模型以实现所述调用者对所述联邦学习模型的调用。
37.根据权利要求36所述的联邦学***台还包括以下中的至少一者:
测试单元,所述测试单元被配置为测试所述联邦学习模型的对具有水印标签的水印测试数据的水印识别准确率;
密钥单元,所述密钥单元被配置为生成用于对本地模型进行加密以产生本地加密模型的公钥,和与公钥匹配的、用于对聚合加密模型进行解密以产生所述联邦学习模型的私钥;以及
存储单元,所述存储单元被配置为存储私钥和/或记录水印识别准确率。
38.根据权利要求36所述的联邦学习***,还包括:
多个参与设备,所述多个参与设备中的每个参与设备一一对应地设置在与该参与设备相应的参与者的本地,且所述多个参与设备中的每个参与设备包括:
第二通信单元,所述第二通信单元被配置为获取该参与者的水印化训练数据集,其中,水印化训练数据集包括具有水印标签的水印训练数据;和
本地训练单元,所述本地训练单元被配置为基于该水印化训练数据集进行训练,以产生该参与者的本地模型;以及
聚合单元,所述聚合单元被设置在所述共享平台或所述多个参与设备中的至少一个参与设备上,所述聚合单元被配置为将所述多个参与者的本地模型进行聚合,以产生所述联邦学习模型。
39.根据权利要求36所述的联邦学习***,还包括具有一个或多个节点的区块链,其中,所述区块链上包括用于进行水印化验证的智能合约,且所述一个或多个节点中记录有模型训练信息和模型调用信息中的至少一者。
40.一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现根据权利要求1至17中任一项所述的训练方法或根据权利要求18至35中任一项所述的调用方法的步骤。
41.一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现根据权利要求1至17中任一项所述的训练方法或根据权利要求18至35中任一项所述的调用方法的步骤。
CN202111411921.3A 2021-11-25 2021-11-25 联邦学习模型的训练方法和调用方法以及联邦学习*** Pending CN114091690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111411921.3A CN114091690A (zh) 2021-11-25 2021-11-25 联邦学习模型的训练方法和调用方法以及联邦学习***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111411921.3A CN114091690A (zh) 2021-11-25 2021-11-25 联邦学习模型的训练方法和调用方法以及联邦学习***

Publications (1)

Publication Number Publication Date
CN114091690A true CN114091690A (zh) 2022-02-25

Family

ID=80304349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111411921.3A Pending CN114091690A (zh) 2021-11-25 2021-11-25 联邦学习模型的训练方法和调用方法以及联邦学习***

Country Status (1)

Country Link
CN (1) CN114091690A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238250A (zh) * 2022-09-15 2022-10-25 支付宝(杭州)信息技术有限公司 一种模型的处理方法、装置及设备
CN116614273A (zh) * 2023-05-23 2023-08-18 国网江苏省电力有限公司信息通信分公司 基于cp-abe的对等网络中联邦学习数据共享模型及其构建方法
CN116881872A (zh) * 2023-09-06 2023-10-13 南京信息工程大学 一种面向联邦学习的鲁棒可溯源版权保护方法及***
US12010249B1 (en) 2022-12-07 2024-06-11 Nanhu Laboratory Method and device for zero-trust fusion computation of multi-party data

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428058A (zh) * 2019-08-08 2019-11-08 深圳前海微众银行股份有限公司 联邦学习模型训练方法、装置、终端设备及存储介质
US20190370440A1 (en) * 2018-06-04 2019-12-05 International Business Machines Corporation Protecting deep learning models using watermarking
CN110601814A (zh) * 2019-09-24 2019-12-20 深圳前海微众银行股份有限公司 联邦学习数据加密方法、装置、设备及可读存储介质
CN111782543A (zh) * 2020-07-20 2020-10-16 王天宝 一种在云端进行的评测方法、相关设备及***
CN112329010A (zh) * 2020-10-16 2021-02-05 深圳前海微众银行股份有限公司 基于联邦学习的自适应数据处理方法、装置、设备及存储介质
CN112383396A (zh) * 2021-01-08 2021-02-19 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及***
CN112632620A (zh) * 2020-12-30 2021-04-09 支付宝(杭州)信息技术有限公司 一种增强隐私保护的联邦学习方法和***
US20210117792A1 (en) * 2020-12-23 2021-04-22 Intel Corporation Methods and apparatus to facilitate continuous learning
CN112997195A (zh) * 2018-12-10 2021-06-18 希侬人工智能公司 机器学习模型的数字水印
CN113254943A (zh) * 2021-05-25 2021-08-13 深圳市洞见智慧科技有限公司 一种基于纵向联邦学习的模型贡献度评估***
CN113434898A (zh) * 2021-05-22 2021-09-24 西安电子科技大学 一种非交互式的隐私保护逻辑回归联邦训练方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370440A1 (en) * 2018-06-04 2019-12-05 International Business Machines Corporation Protecting deep learning models using watermarking
CN112997195A (zh) * 2018-12-10 2021-06-18 希侬人工智能公司 机器学习模型的数字水印
CN110428058A (zh) * 2019-08-08 2019-11-08 深圳前海微众银行股份有限公司 联邦学习模型训练方法、装置、终端设备及存储介质
CN110601814A (zh) * 2019-09-24 2019-12-20 深圳前海微众银行股份有限公司 联邦学习数据加密方法、装置、设备及可读存储介质
CN111782543A (zh) * 2020-07-20 2020-10-16 王天宝 一种在云端进行的评测方法、相关设备及***
CN112329010A (zh) * 2020-10-16 2021-02-05 深圳前海微众银行股份有限公司 基于联邦学习的自适应数据处理方法、装置、设备及存储介质
US20210117792A1 (en) * 2020-12-23 2021-04-22 Intel Corporation Methods and apparatus to facilitate continuous learning
CN112632620A (zh) * 2020-12-30 2021-04-09 支付宝(杭州)信息技术有限公司 一种增强隐私保护的联邦学习方法和***
CN112383396A (zh) * 2021-01-08 2021-02-19 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及***
CN113434898A (zh) * 2021-05-22 2021-09-24 西安电子科技大学 一种非交互式的隐私保护逻辑回归联邦训练方法及***
CN113254943A (zh) * 2021-05-25 2021-08-13 深圳市洞见智慧科技有限公司 一种基于纵向联邦学习的模型贡献度评估***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周俊;方国英;吴楠;: "联邦学习安全与隐私保护研究综述", 西华大学学报(自然科学版), no. 04, 10 July 2020 (2020-07-10) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238250A (zh) * 2022-09-15 2022-10-25 支付宝(杭州)信息技术有限公司 一种模型的处理方法、装置及设备
US12010249B1 (en) 2022-12-07 2024-06-11 Nanhu Laboratory Method and device for zero-trust fusion computation of multi-party data
CN116614273A (zh) * 2023-05-23 2023-08-18 国网江苏省电力有限公司信息通信分公司 基于cp-abe的对等网络中联邦学习数据共享模型及其构建方法
CN116614273B (zh) * 2023-05-23 2024-03-19 国网江苏省电力有限公司信息通信分公司 基于cp-abe的对等网络中联邦学习数据共享***及模型构建方法
CN116881872A (zh) * 2023-09-06 2023-10-13 南京信息工程大学 一种面向联邦学习的鲁棒可溯源版权保护方法及***

Similar Documents

Publication Publication Date Title
US10289816B1 (en) Methods, systems, and devices for an encrypted and obfuscated algorithm in a computing environment
CN108681966B (zh) 一种基于区块链的信息监管方法及装置
CN108055125B (zh) 一种产品信息的加密、解密方法及装置
CN114091690A (zh) 联邦学习模型的训练方法和调用方法以及联邦学习***
CN113255005B (zh) 一种基于区块链的数据资产流转方法、装置及设备
CN114091103A (zh) 联邦学习模型的训练方法和调用方法以及联邦学习***
CN113765657A (zh) 一种密钥数据处理方法、装置及服务器
CN112182644A (zh) 一种数据处理方法、装置和电子设备
CN110197082A (zh) 数据处理方法、数据处理装置和计算机***
CN105468940B (zh) 软件保护方法及装置
CN113315745A (zh) 一种数据处理方法、装置、设备及介质
CN115296794A (zh) 基于区块链的密钥管理方法及装置
CN114386058A (zh) 一种模型文件加密与解密方法及装置
CN107133517B (zh) 一种基于内存中数据加密和计算的数据还原方法
EP2286610B1 (en) Techniques for peforming symmetric cryptography
CN113055153A (zh) 一种基于全同态加密算法的数据加密方法、***和介质
CN112182509A (zh) 一种合规数据的异常检测方法、装置及设备
CN102770869B (zh) 计算资源的安全执行
CN112948465B (zh) 基于区块链的数据处理方法和装置
AU2021100948A4 (en) Enhancing cyber security using high speed hybrid authentication technique
CN111639353B (zh) 一种数据管理方法、装置、嵌入式设备及存储介质
CN114638000A (zh) 用于隐私计算的数据加密方法以及隐私计算方法、设备和***
CN113051587A (zh) 一种隐私保护智能交易推荐方法、***和可读介质
CN114065293A (zh) 机器学习模型的训练方法和调用方法以及机器学习***
Yuan et al. Secure integrated circuit design via hybrid cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination