CN110572253B

CN110572253B - 一种联邦学习训练数据隐私性增强方法及***

Info

Publication number: CN110572253B
Application number: CN201910872625.XA
Authority: CN
Inventors: 赵川; 张谦; 荆山; 陈贞翔; 张波; 王吉伟
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2023-03-24
Anticipated expiration: 2039-09-16
Also published as: CN110572253A

Abstract

一种联邦学***均得到全局模型参数，分别采用各个客户端的公钥加密，并经由第二服务器发送至各个客户端；客户端基于各自的私钥解密得到全局模型参数，改进本地模型，重复上述过程，直至各客户端本地模型收敛。本发明通过采用双服务器模式结合多密钥同态加密，保证了数据和模型参数的安全。

Description

一种联邦学习训练数据隐私性增强方法及***

技术领域

本发明属于数据安全保护技术领域，尤其涉及一种联邦学习训练数据隐私性增强方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，随着机器学***不断提高。但是传统的机器学习应用要求客户端将用户的数据上传到服务器，在服务器训练模型，这样可能会导致严重的用户隐私泄露。类似隐私泄露的事件频繁发生，用户数据隐私保护所受到的关注与日增加，如何提升信息的安全性已成为全球性问题。而且，机器学习的快速发展一直依赖于大量可用性的标记数据来训练模型，从而使模型达到预期的效果。例如，2016年AlphaGo使用了总计30万场已经被标记好的游戏数据进行训练。然而在更多的行业与领域中，经常会出现训练数据集不足的问题，导致数据拥有方训练的模型达不到预期的效果。出现这种问题，一方面是因为标记数据需要专业人员进行标注，代价昂贵；另一方面是由于数据拥有方出于隐私性考虑不愿共享自己的隐私数据。如何在提高隐私数据的安全性的同时，让那些数据量不足的相关企业训练得到一个高效、准确的模型，是一个重大的挑战。为了克服这些挑战，谷歌提出了一种新的分布式机器学习技术--联邦学习(Federated Learning,FL)，允许客户端(比如移动设备)在本地训练数据，完成后只需要将代表模型的优化参数上传到服务器，并通过聚合上传的模型参数，使客户端以协作的形式，学习共享模型。2017年，谷歌在输入法Gboard成功应用联邦学习，Gboard基于用户的历史搜索数据，为用户的下一次搜索结果提供迭代与持续的改进。

联邦学习允许客户端基于本地数据训练模型，在不需要共享本地数据到服务器的情况下，完成模型训练，达到传统集中学习训练的效果。但是，服务器并非可信第三方，无法保证各客户端传输到服务器的模型优化参数是否安全。如果模型的优化参数在服务器被攻击者窃取，攻击者可以通过模型参数还原客户端本地训练数据或者根据模型优化参数重建本地模型。于是，Geyer等人提出了采用差分隐私对敏感信息添加噪声的方式提高模型参数安全性。该方法即使采用差分隐私的方式对模型参数添加噪声，攻击者仍然可以通过腐化服务器获取添加噪声的模型参数来还原其他客户端的训练数据。所以，单纯的添加噪声是有缺陷的。

发明内容

为克服上述现有技术的不足，本发明提供了一种联邦学习训练数据隐私性增强方法及***，皆在保证服务器聚合模型参数过程在内的所有操作安全性得以提高。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种联邦学习训练数据隐私性增强方法，第一服务器生成公共参数和主密钥，将所述公共参数发送给第二服务器；参与联邦学习的多个客户端均从第二服务器获取所述公共参数，并基于所述公共参数生成各自的公钥和私钥对；所述多个客户端进行联邦学习的过程如下：

(1)各客户端基于本地数据集训练本地模型，将得到的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到第二服务器；

(2)第二服务器对各加密模型参数进行盲化处理，将盲化的加密模型参数与相应公钥发送给第一服务器；

(3)第一服务器基于主密钥对各盲化的加密模型参数进行解密，通过加权平均得到盲化的全局模型参数，分别采用各个客户端的公钥加密所述盲化的全局模型参数，并发送给第二服务器；

(4)第二服务器移除全局模型参数的盲化信息，将加密的全局模型参数发送至各个客户端；

(5)客户端基于各自的私钥解密得到全局模型参数，根据全局模型参数改进本地模型，将得到的新的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到第二服务器，转入步骤(2)，直至各客户端本地模型收敛。

进一步地，进行联邦学习之前，各客户端从第二服务器获取待训练通用模型。

进一步地，所述步骤(1)中，各客户端采用随机梯度下降法训练本地模型。

进一步地，所述步骤(2)中，第二服务器对各加密模型参数进行盲化处理后，将盲化的加密模型参数与相应公钥发送给第一服务器。

进一步地，所述步骤(2)中，第二服务器进行盲化处理包括：

依次为每个客户端相应的模型参数生成随机数，各随机数服从Z_n下的均匀分布；

将各随机数依次使用相应客户端的公钥加密；

将加密后的随机数与对应的模型参数依次进行加法同态运算，得到盲化的加密模型参数。

进一步地，所述步骤(3)中通过第一服务器通过联邦平均算法进行加权平均。

进一步地，所述步骤(4)中第二服务器移除全局模型参数的盲化信息后，将加密的全局模型参数发送至各个客户端。

进一步地，所述步骤(4)中第二服务器通过加法同态方法移除全局模型参数的盲化信息。

一个或多个实施例提供了一种联邦学习训练数据隐私性增强***，包括第一服务器、第二服务器和参与联邦学习的多个客户端，其中，

第一服务器，生成公共参数和主密钥，将所述公共参数发送给第二服务器；若接收到加密模型参数与相应公钥，基于主密钥对各盲化的加密模型参数进行解密，通过加权平均得到全局模型参数，分别采用各个客户端的公钥加密所述全局模型参数，并发送给第二服务器；

第二服务器，接收并存储公共参数；接收加密模型参数与相应公钥，发送给第一服务器；接收到经加密的全局模型参数，发送至各个客户端；

多个客户端，从第二服务器获取所述公共参数，并基于所述公共参数生成各自的公钥和私钥对；进行联邦学习时，各客户端基于本地数据集训练本地模型，将得到的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到第二服务器；接收到加密的全局模型参数后，基于各自的私钥解密得到全局模型参数，根据全局模型参数改进本地模型，将得到的新的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到第二服务器，进入下一次迭代，直至各客户端本地模型收敛。

一个或多个实施例提供了一种服务器，应用于联邦学习，经由另一服务器与参与联邦学习的多个客户端通信，被配置为：

生成公共参数和主密钥，并将所述公共参数发送给另一服务器，供多个客户端下载；其中，所述公共参数用于各客户端生成各自的公钥；

自另一服务器接收加密模型参数与相应公钥，其中，所述加密模型参数是各客户端基于各自的公钥对训练得到的本地模型参数进行加密得到的；

基于主密钥对加密模型参数进行解密，通过加权平均得到全局模型参数，分别采用各个客户端的公钥加密所述全局模型参数，并经另一服务器发送至各客户端。

一个或多个实施例提供了一种服务器，应用于联邦学习，用于另一服务器与参与联邦学习的多个客户端之间的通信，被配置为：

接收并存储公共参数供所述多个客户端下载，所述公共参数用于各客户端生成各自的公钥；

接收各客户端发送的加密模型参数与相应公钥，其中，所述加密模型参数是各客户端基于各自的公钥对训练得到的本地模型参数进行加密得到的

对各加密模型参数进行盲化处理，将盲化的加密模型参数与相应公钥发送给另一服务器；

自另一服务器接收经各客户端相应公钥加密的盲化全局模型参数，移除盲化信息，将加密的全局模型参数发送至各个客户端。

一个或多个实施例提供了一种客户端，应用于联邦学习，被配置为：

自服务器获取公共参数，并生成各自的公钥；

基于本地数据集训练本地模型，将得到的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到服务器；

接收加密的全局模型参数后，基于各自的私钥解密得到全局模型参数，根据全局模型参数改进本地模型，其中，所述全局模型参数为服务器基于多个客户端发送的模型参数经加权平均得到的。

以上一个或多个技术方案存在以下有益效果：

(1)本发明采用双服务器模式进行联邦学习，在客户端和执行模型参数聚合的服务器(第一服务器)之间增加另一服务器(第二服务器)，使得客户端和第一服务器不直接通信，并且，第二服务器对接收到的模型参数进行盲化处理，保证了即便第一服务器可以利用主密钥解密客户端的密文，所得到的明文仍然是被随机数盲化过的，保障了数据的安全。

(2)本发明针对联邦学习多用户的场景，提出使用多密钥同态加密针对联邦学习多用户的场景，提出使用多密钥同态加密，打破多用户需要预先共享相同的公私钥对的限制，方便新的客户端随时加入模型更新，并允许任意客户端随时离线，增加了***的灵活性与可扩展性。

(3)本发明通过联邦平均算法对多个客户端的模型参数进行聚合，保证了模型参数安全性的同时，可以达到与传统联邦学习相同的通信轮数与模型训练效果，模型准确率不变。

(4)本发明可以成功抵抗服务器借助基于生成对抗网络(GAN)的分布式深度学习攻击方法通过模型参数还原客户端训练数据，保证服务器端在聚合模型参数过程中各客户端所共享的模型参数的安全性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例中联邦学习训练数据隐私性增强方法流程图；

图2为本发明一个或多个实施例中联邦学习训练数据隐私性增强方法数据传输示意图；

图3为本发明一个或多个实施例中两个服务器之间的通信过程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

同态加密(Homomorphic Encryption,HE)是由Rivest等人于1978年提出的一种特殊加密方案，可以在数据不解密的情况下对密文数据进行加法和乘法计算，得到与在明文状态下计算相同的结果。一般而言，同态加密方案包括4个算法，分别是密钥生成算法Gen、加密算法Enc、解密算法Dec和求值算法Eval。因全同态加密可支持无限次加法和乘法运算的特性，一直被认为是密码学圣杯。但自1978年Rivest提出后，直到2009年IBM研究员Gentry才提出第一个真正意义上的全同态加密方案。但就目前而言使用全同态加密算法效率仍然较低，并不能广泛应用。

双陷门解密方案(BCP方案，参见“A simple public-key cryptosystem with adouble trapdoor decryption mechanism and its applications”,E.Bresson,D.Catalano,D.Pointcheval,in:Advances in Cryptology-ASIACRYPT 2003,Springer,2003,pp.37–54.)属于一种特殊的同态加密算法，其存在两种独立的解密算法，分别为用户解密算法(客户端通过私钥解密)和主密钥解密算法(服务器通过主密钥解密)，即指BCP方案除了通过公私钥对数据正常加解密以外，拥有主密钥(master secret key，记为mk)的一方可以在没有对应客户端私钥的情况下解密密文。

本发明基于由Bresson等人提出的双陷门解密的加法同态方案，采用BCP结合双服务器的方案，与多密钥联邦学习场景相结合。此方案共有5种算法，分别为设置算法Setup、公私钥对生成算法KeyGen、加密算法Enc、解密算法Dec与用主密钥解密算法mDec。

实施例一

一种联邦学习训练数据隐私性增强方法，应用于：n个互不信任的客户端，记为F_i(i＝1…n)，和两个半诚实的第三方服务器，分别记为第一服务器S和第二服务器S′。其中，服务器S′被配置为：负责客户端与服务器S两方的通信以及S′内部的计算；负责存储客户端上传的数据与计算过程中的各种数据；以及存储服务器S发送的公共参数PP。服务器S被配置为：只能与服务器S′交互；负责存储服务器S′发送的数据与计算过程的各种数据；负责存储BCP算法产生的公共参数和主密钥。

如图1和图2所示，所述方法具体包括以下步骤：

步骤1：服务器S运用BCP算法生成公共参数PP和mk；服务器S将公共参数PP发送给服务器S′；

首先服务器S初始化，通过设置算法Setup生成公共参数PP＝(N,k,g)与主密钥mk＝(p′,q′)，并将PP发送给S′。具体地，服务器S初始化生成公共参数(Public Parameter,PP)和主密钥(Master Secret Key,mk)：(pp,mk)←Setup(1ⁿ)：给定一个符合RSA标准的安全参数n，使n＝pq，生成公式为：p＝2p′+1，q＝2q′+1，其中p,q,p′,q′皆为素数。选择一个随机数g使g^p′q′mod N²＝1+kN,k∈[1,N-1],g是群

的素数(g∈Z_N ²)，生成公共参数PP(Public parameters)＝(N,k,g)和主密钥mk(master secret key)＝(p′,q′)。

步骤2：客户端从服务器S′下载公共参数PP并利用公共参数PP生成每个客户端自身的公钥和私钥对。

具体地，客户端从服务器S′下载公共参数PP＝(N,k,g)，并通过KeyGen算法生成客户端各自的公钥和私钥对(pk_i,sk_i)：(pk,sk)←KeyGen(pp):输入PP，选择随机数a,

计算h＝g^a mod N²,得到公钥pk＝h和私钥sk＝a。

步骤3：开始学习(即迭代次数t＝0时)，客户端从服务器S′下载待训练通用模型，客户端基于本地数据集训练模型，计算出代表本地模型的模型参数；每个客户端利用自身的公钥对模型参数进行加密处理并将加密后的模型参数与客户端自己的公钥发送到服务器S′。

每个客户端拥有自己的本地数据集，k是参与客户端的索引值，用p_k表示客户端数据的索引集合，长度为n_k，n_k＝|p_k|。每个客户端基于本地数据集训练模型，获得模型参数

具体地，客户端采用随机梯度下降(SGD)方法，根据上一轮的模型参数ω_t计算平均梯度g_k，然后本地客户端通过学***局梯度g_k与ω_t生成需要上传到服务器的模型参数

各客户端训练得到的模型参数

后，均利用自己的公钥pk_i加密，获得密文状态下的模型参数ω_i，/>

客户端将模型参数ω_i与公钥pk_i发送给服务器S′。

客户端通过公钥pk与公共参数PP对明文m加密，得到密文c：c←Enc_pk,pp(m):给定公共参数PP，公钥pk和明文数据m，输出密文c，密文c含有两个值(A,B),其中A＝g^r mod N²,B＝h^r(1+mN)mod N²(r为随机数且

)。

在多密钥的场景下，客户端通过自己的公钥加密模型数据，既提高了模型参数的安全性保障了客户端的隐私，又增加了***的灵活性与可扩展性。

步骤4：服务器S′对密文状态下的模型参数盲化，然后将盲化的密文与相对应的公钥发送给服务器S。

在本步骤中，服务器S′对模型参数ω_i盲化的主要原因是服务器S′无法计算不同公钥下的加密数据，需要S用主密钥mk解密数据，并通过FedAvg算法对数据加权平均，而且我们的两个服务器是半诚实且互不勾结的。为了保证S不能知道模型参数的数据，所以需要在服务器S′中对密文状态下的模型参数盲化，将每个模型参数ω_i加入随机数τ_i。

具体地，S′依次为每个ω_i生成随机数τ_i(i＝1…n),随机数τ_i服从Z_n下的均匀分布。S′将τ_i依次使用每个客户端的公钥加密，得到

S′将加密后的随机数

与对应的ω_i依次进行加法同态的运算，得到盲化的加密信息

并将Enc_pki(φ_i)和pk_i发送给服务器S。

S’的这种盲化保证了即便另一个服务器可以利用主密钥解密客户端的密文，所得到的明文仍然是被随机数盲化过的。

步骤5：服务器S通过主密钥对盲化的密文解密，然后对其加权平均，获得一个盲化的全局模型参数；

S通过主密钥解密算法mDec解密S’发送的加密数据：m←mDec_pp,pk,mk(c):给定密文c，通过主密钥mk，用户通过公钥pk和公共参数PP将密文c解密得到明文m。

S首先用主密钥解密算法mDec解密Enc_pki(φ_i)，获得

盲化的明文；S通过联邦平均算法(FederatedAveraging,FedAvg)加权平均α_i，计算得到β_i。

联邦平均算法FedAvg:Google在2017年提出了联邦平均算法(FederatedAveraging,FedAvg)，FedAvg可以通过较少次数高质量迭代，得到期望的模型。我们在服务器用FedAvg算法对各客户端上传的模型参数进行加权平均，得到新的全局模型参数。具体地，服务器通过聚合客户端的模型优化参数

获得一个新的全局模型参数ω_t+1，N＝∑_kn_k：/>

步骤6：服务器S通过各个客户端的公钥分别重新加密全局模型参数，并发送给服务器S′。

具体地，S通过S′发送的公钥pk_i加密β_i，将得到

发送到S′。

图3为服务器S和服务器S′之间的交互过程。

步骤7：服务器S′移除密文状态下全局模型参数的盲化信息，将加密的模型参数发送到各个客户端。

服务器S′通过FedAvg算法将τ_i(将步骤5中的α_i替换为τ_i)加权平均得到参数τ_fed；服务器S′利用各个客户端的公钥pk_i加密加权平均后的盲化参数

然后S′通过加法同态方式，移除密文γ_i的盲化信息，计算出新的全局模型权重

并发送给各个客户端。

步骤8：客户端用自己的公钥解密全局模型参数，根据全局模型参数改进本地模型，本轮迭代结束，各客户端得到新的模型参数并基于各自的公钥加密后发送至服务器S′，转入步骤4，进入下一轮迭代。

当客户端接收到服务器S′发送的密文时，通过私钥sk与PP解密：m←Dec_pp,sk(c)：给定密文c←(A,B)和私钥sk＝a，解密得到明文m，

客户端收到服务器S′发送的密文状态下的全局模型参数ω_fed，并解密ω_fed,Dec_pp,sk(ω_fed)，客户端根据解密后的ω_fed改进本地模型。

在第t轮通信中，服务器通过聚合客户端的模型权重生成一个新的全局模型参数ω_t+1，客户端基于服务器发送的ω_t+1优化本地模型，第t轮迭代结束。

步骤9：继续执行步骤3-步骤8,直到训练过程收敛，客户端本地模型得到完善，达到了传统集中学习的效果，迭代结束。

通过这种方式，两个服务器都无法获得有关模型参数的任何信息，从而保障了模型参数及客户端本地训练数据的安全性。

实施例二

本实施例的目的是提供一种联邦学习训练数据隐私性增强***。

为了实现上述目的，本实施例提供了一种联邦学习训练数据隐私性增强***，包括第一服务器、第二服务器和参与联邦学习的多个客户端。

实施例三

本实施例的目的是提供一种服务器。

所述服务器应用于联邦学习，经由另一服务器与参与联邦学习的多个客户端通信，被配置为：

实施例四

本实施例的目的是提供一种服务器。

所述服务器应用于联邦学习，用于另一服务器与参与联邦学习的多个客户端之间的通信，被配置为：

实施例五

本实施例的目的是提供一种客户端，应用于联邦学习，被配置为：

自服务器获取公共参数，并生成各自的公钥；

以上一个或多个实施例具有以下有益效果：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种联邦学习训练数据隐私性增强方法，其特征在于，

第一服务器生成公共参数和主密钥，将所述公共参数发送给第二服务器；参与联邦学习的多个客户端均从第二服务器获取所述公共参数，并基于所述公共参数生成各自的公钥和私钥对；所述多个客户端进行联邦学习的过程如下：

步骤(1)各客户端基于本地数据集训练本地模型，将得到的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到第二服务器；

步骤(2)第二服务器将加密模型参数与相应公钥发送给第一服务器；

所述步骤(2)中，第二服务器对各加密模型参数进行盲化处理后，将盲化的加密模型参数与相应公钥发送给第一服务器；

第二服务器进行盲化处理包括：

将各随机数依次使用相应客户端的公钥加密；

将加密后的随机数与对应的模型参数依次进行加法同态运算，得到盲化的加密模型参数；

步骤(3)第一服务器基于主密钥对各加密模型参数进行解密，通过加权平均得到全局模型参数，分别采用各个客户端的公钥加密所述全局模型参数，并发送给第二服务器；所述步骤(3)中第一服务器通过联邦平均算法进行加权平均；

步骤(4)第二服务器将加密的全局模型参数发送至各个客户端；

步骤(5)客户端基于各自的私钥解密得到全局模型参数，根据全局模型参数改进本地模型，将得到的新的模型参数采用各自的公钥进行加密，并将加密模型参数与相应公钥发送到第二服务器，转入步骤(2)，直至各客户端本地模型收敛。

2.如权利要求1所述的一种联邦学习训练数据隐私性增强方法，其特征在于，所述步骤(4)中第二服务器移除全局模型参数的盲化信息后，将加密的全局模型参数发送至各个客户端。

3.如权利要求2所述的一种联邦学习训练数据隐私性增强方法，其特征在于，第二服务器通过加法同态方法移除全局模型参数的盲化信息。

4.一种联邦学习训练数据隐私性增强***，其特征在于，包括第一服务器、第二服务器和参与联邦学习的多个客户端，其中，

第一服务器，生成公共参数和主密钥，将所述公共参数发送给第二服务器；若接收到加密模型参数与相应公钥，基于主密钥对各盲化的加密模型参数进行解密，通过联邦平均算法进行加权平均得到全局模型参数，分别采用各个客户端的公钥加密所述全局模型参数，并发送给第二服务器；

第二服务器进行盲化处理包括：

将各随机数依次使用相应客户端的公钥加密；