CN114186694B

CN114186694B - 一种高效安全，低通信的纵向联邦学习方法

Info

Publication number: CN114186694B
Application number: CN202111356723.1A
Authority: CN
Inventors: 刘健; 田志华; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2024-06-11
Anticipated expiration: 2041-11-16
Also published as: WO2023087549A1; US20230281517A1; CN114186694A

Abstract

本发明公开了一种高效安全，低通信的纵向联邦学习方法，该方法包括：所有参与者选择持有数据特征集合的部分特征以及所选特征的部分样本；所述参与者将选择的数据添加满足差分隐私的噪声后连同所选样本的数据索引互相发送给其他参与者；所有参与者以接收的特征数据作为标签，以每个缺失的特征作为学习任务，利用相同数据索引中原本持有的特征数据，分别为每个任务训练模型；所述参与者利用训练的模型来预测其他样本的数据以补齐特征数据；所述参与者利用横向联邦学习来共同训练一个模型。本发明的高效安全，低通信的纵向联邦学习方法可以借助横向联邦学习的优势，在高效训练的同时保护数据隐私，为数据隐私保护提供量化支持。

Description

一种高效安全，低通信的纵向联邦学习方法

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种高效安全，低通信的纵向联邦学习方法。

背景技术

联邦学习是由Google提出的，用于在分布式的设备或存储有数据的服务器上共同训练模型的机器学习技术。与传统的中心化学习想比，联邦学习不需要将数据汇集在一起，减少了设备之间的传输成本，同时极大的保护了数据的隐私情况。

自提出以来，联邦学习已得到了巨大的发展。尤其随着分布式场景越来越广泛的应用，联邦学习应用越来越受到人们的重视。根据数据划分方式的不同，联邦学习主要分为横向联邦学习和纵向联邦学习。在横向联邦学习中，分布在不同设备中的数据拥有相同的特征，却属于不同的用户。而在纵向联邦学习中，分布在不同设备上的数据属于相同的用户却有着不同的特征。两种联邦学习范式有着截然不同的训练机制，目前的研究大多将他们分别来讨论。因此虽然目前横向联邦学习已经有了较大的发展，纵向联邦学习却仍存在安全性以及效率低下等问题需要解决。

如今随着大数据时代的到来，公司可以轻易获得庞大的数据集，但不同的特征的数据却难以获取。因此在工业界，纵向联邦学习越来越受到人们的重视。如果可以借助横向联邦学习的优势，在纵向联邦学习的过程中借助横向联邦学习，则可以事半功倍的研究出更加安全，高效的纵向联邦学习机制。

发明内容

本发明的目的在于提供了一种高效安全，低通信的纵向联邦学习方法，在参与者包含不同特征数据(包含仅有一方参与者持有标签的情形)的情况下训练模型补齐每个参与者的特征数据，再利用横向联邦学习利用每个参与者持有的数据共同训练模型，解决了纵向联邦学习过程中安全效率以及通信量等问题。以极小的精度损失为代价，更加高效、快速的完成训练。

本发明的目的是通过以下技术方案来实现的：

一种高效安全，低通信的纵向联邦学习方法，包括以下步骤：

(1)所有参与者选择持有数据特征集合的部分特征，再将所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者；所述持有数据特征集合由特征数据和标签数据组成。将标签数据视为一特征参与特征数据补齐过程，当多方(不包含所有)或仅有一方参与者持有标签时，标签数据同样视为一缺失特征，进行模型训练并预测并进行补齐所有参与者的标签。

(2)所有参与者依据数据索引将数据对齐，并以接收的特征数据作为标签，以每个缺失的特征作为学习任务，利用相同数据索引中原本持有的特征数据，分别训练多个模型；

(3)所有参与者利用步骤(2)训练的多个模型预测其他数据索引对应的数据以补齐缺失的特征数据；

(4)所有参与者利用横向联邦学习方法共同合作，得到最终的训练模型。

进一步地，当所有参与者均持有标签数据时，所述持有数据特征集合仅由特征数据组成。

进一步地，所述步骤(1)中，所述数据特征集合为个人隐私信息。在纵向联邦学习的场景中，发送索引数据并不会泄露额外信息。

进一步地，所述步骤(1)中，每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量，再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引发送给其他对应参与者。该方法只需要提前发送极少数量的样本给对方，便可以确定需要发送的最佳(最少)的样本量。

进一步地，每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量，具体为：

(a)每个参与者针对选择的每个特征i，均匀并随机选择n₀个样本数据，添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者。

(b)收到数据的参与者j依据数据索引将数据对齐，收到数据的参与者j依据数据索引将数据对齐，并以接收的该特征i数据作为标签，利用相同数据索引中原本持有的特征数据来训练获得模型M_i，j。

(c)构建矩阵Q，Q的每一行为n₀个每个样本更新M_i，j的模型参数θ_i，j而得来的参数梯度；

(d)计算L＝UΛ，其中，U为矩阵Q奇异值分解后大小为n0×n0的矩阵，Λ为对角矩阵，其对角线上第r个元素的值为其中s_r为∑中的第r个奇异值，β为正则化系数，可取0.001；∑为矩阵Q的奇异值矩阵。

(e)从正态分布N(θ_i，j，α₁LL^T)中抽样得到再从正态分布中抽样得到θ_{i，j，N，k}，重复K次得到K对/>k表示抽样次数。

其中，表示发送给参与者j的第i个特征的候选样本数量；N为每个参与者的样本总数。

(f)计算其中，表示参与者j以样本x持有的特征数据作为输入，/>为模型参数，模型M_i，j的输出，D为样本集合，E(*)为期望；∈为实数表示阈值。

如果p＞1-δ，令如果p＜1-δ，令/>δ表示阈值，为实数。按照步骤(e)(f)过程执行多次，直至收敛得到每个特征应当选择的最优的候选样本数量/>

(g)所述参与者针对参与者j，每个特征i随机选择的样本数量为

进一步地，所述步骤(2)中，每个参与者若存在缺失特征未接收到数据，则利用labeled-unlabeled的多任务学习(A.Pentina and C.H.Lampert，“Multi-task learningwith labeled and unlabeled tasks，”in Proceedings of the 34th InternationalConference on Machine Learning-Volume 70，ser.ICML’17.JMLR.org，2017，p.2807-2816.)方法获得未接收到数据缺失特征的模型，具体为：

(a)参与者将自身已有的数据划分为m个数据集S，分别对应每个缺失特征的训练数据，其中m为参与者缺失特征的数量，I为缺失特征中有标签任务的集合；

(b)根据训练数据计算数据集之间的差异disc(S_p，S_q)，p，q∈{1，...，m}，p≠q，disc(S_p，S_p)＝0；

(c)对于每个无标签的任务，最小化得到权重σ^T＝{σ₁，...，σ_m}，/>

(e)对于每个无标签的任务，可通过最小化有标签任务的训练误差的凸组合得到其模型M_T，T∈{1，...，m}/I：

其中

L(*)为模型以数据集S_p的样本作为输入的损失函数，表示数据集S_p的样本量，x为输入的样本特征，y为标签。

进一步地，所有参与者利用横向联邦学习来合作训练一个模型，此横向联邦学习方法不限于某特定方法。

与现有技术相比，本发明的有益效果如下：本发明将纵向联邦学习与横向联邦学习相结合，通过将纵向联邦学习转化为横向联邦学习，为纵向联邦学习的发展提供了新的思路；通过将差分隐私应用到本发明的方法当中，保证了数据隐私，为数据安全提供了理论上的保证；结合多任务学习的方法，极大降低数据的通信量，降低了训练时间。本发明的高效安全，低通信的纵向联邦学习方法具有使用简便，训练高效等优点，在保护数据隐私的同时，可以在工业场景中实现。

附图说明

图1为本发明的纵向联邦学习的流程图

具体实施方式

互联网时代的到来虽然为大数据的收集提供了条件，但随着数据安全问题逐渐暴露，以及企业对数据隐私的保护，数据“孤岛”问题的越来越严重。同时，得益于互联网技术的发展，各个企业虽然拥有大量的数据，但由于业务限制等原因，这些数据的用户特征各不相同，如果加以利用，可以训练一个精度更高，泛化能力更强的模型。因此企业之间分享数据，打破数据“孤岛”的同时，保护数据隐私，成为解决该问题的方法之一。

本发明就是针对上述场景。即数据在保存在本地的前提下，利用多方数据来共同训练一个模型，在控制精度损失的同时，保护各方的数据隐私安全，提高训练效率。

如图1为本发明一种高效安全，低通信的纵向联邦学习方法的流程图，本发明中所采用的数据特征集合为个人隐私信息，具体包括以下步骤：

(1)所有参与者选择持有数据特征集合的部分特征以及所选特征的少量样本，其中特征的选择方法为随机选择，样本的选择方法优选为BlinkML方法，具体包括以下步骤：

(a)每个参与者针对选择的每个特征i，均匀并随机选择n₀个样本数据，添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者，其中n₀极小，优选为1-1％×N的正整数；其中N为样本总数。

(b)接收数据的参与者j依据数据索引将数据对齐，并以接收的该特征i数据作为标签利用相同数据索引中原本持有的特征数据，训练获得模型M_i，j，模型M_i，j的模型参数矩阵θ_i，j的大小为1×d_i，j；d_i，j为模型参数的数量；

(c)利用n₀个样本和θ_i，j构建矩阵Q(矩阵大小为n₀×d_i，j)，Q的每一行表示每个样本更新θ_i，j而得来的参数梯度；

(d)利用矩阵分解Q^T＝U∑V^T得到∑，其中∑为非负的对角矩阵，U，V分别满足Q^TQ＝U，V^TV＝I，I为单位矩阵。再构建对角矩阵Λ，其对角线上第r个元素的值为s_r为∑中的第r个奇异值，β为正则化系数，可取0.001，计算L＝UΛ；

(e)重复以下过程K次，得到K对 θ_{i，j，N，k}分别表示第k个采样得到的用/>或N个样本训练得到的模型参数；/>表示发送给参与者j的第i个特征的最佳候选样本数量。

a.从正态分布N(θ_i，j，α₁LL^T)中抽样得到其中/>

b.从正态分布中抽样得到θ_{i，j，N，k}，其中/>

其中，表示发送给参与者j的第i个特征的候选样本数量；

(f)计算其中，表示参与者j以样本x持有的特征数据作为输入，/>为模型参数，模型M_i，j输出即预测的特征i数据，D为样本集合，E(*)表示期望；∈为实数表示阈值，例如0.1，0.01等，根据要求的模型精度(1-∈)选取。

如果p＞1-δ，令如果p＜1-δ，令/>δ表示阈值，为实数，一般取0.05。按照步骤(e)(f)过程执行多次，直至/>收敛得到每个特征应当选择的最优的候选样本数量/>

(g)将得到的的大小发送给原来的参与者，所述参与者针对参与者j，每个特征i随机选择/>个样本。每个参与者按照如上步骤确定要发送给每个参与者，每个选择的特征的最优的样本数量，并选择样本。

(2)所有参与者将步骤(1)选中的数据添加满足差分隐私的噪声，并将添加完噪声之后的数据以及数据索引互相发送给其他参与者；

(3)所有参与者接收所有数据后依据数据索引将数据对齐，并以相同数据索引中原本持有的特征数据作为输入，以接收的特征数据作为标签分别训练多个模型。具体来说，若将所有参与者拥有的特征看作一个集合，所有参与者以每个缺失的特征看作一个学习任务。利用步骤(2)接收到的特征数据作为每个任务的标签，将已有的数据作为输入来预测缺失的特征训练多个模型。

对于未接收到数据的特征，利用labeled-unlabled的多任务学习方法来学习该任务的模型，以一个参与者为例，该过程包括以下步骤：

(a)参与者将自身已有的数据划分为m个数据集S，分别对应每个缺失特征的训练数据，其中m为缺失特征的数量，I为缺失特征中有标签任务的特征数量；

(c)对于每个无标签的任务，最小化得到权重σ^T＝{σ₁，...，σ_m}，/>其中I为有标签任务的集合；

其中

(4)所有参与者利用所述训练得到的每个任务对应的模型来预测其他数据索引对应的数据以补齐缺失的特征数据；

(5)所有参与者利用横向联邦学习方法共同合作，得到最终的训练模型，此横向联邦学习方法不限于某特定方法。

为使本申请的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

A、B分别代表一家银行以及一家电商公司，希望通过本发明的联邦学***。由于银行和电商公司的业务不同，训练数据持有的特征不同，因此他们一起合作共同训练一个精度更高，泛化性能更强的模型是可行的。A、B分别持有数据(X_A，Y_A)，(X_B，Y_B)，其中为训练数据，为其对应的标签，N表示数据量的大小。A、B的训练数据中包含相同的用户样本，但每个样本拥有不同的特征。用m_A，m_B分别表示A、B的特征数量，即：由于用户隐私问题以及其他原因，A、B之间不能互享数据，因此数据都保存在本地。为了解决这种情况，该银行和电商公司可以使用下面展示的纵向联邦学习来合作训练一个模型。

步骤S101，银行A和电商公司B随机选择持有数据特征集合的部分特征以及所选特征的少量样本；

具体地，银行A以及电商公司B分别从其拥有的m_A，m_B个特征中随机选择r_A，r_B个特征，针对选中的每个特征，A，B分别随机选择个样本，其中i_A＝1...r_A，i_B＝1...r_B；

步骤S1011，针对每个特征，银行A以及电商公司B利用BlinkML法确定样本数量，可以在减少数据传输量的同时，保证该特征模型的训练精度；

具体地，以A发送B特征i_A的部分样本为例。A随机选择n₀个样本发送给B，n₀非常小，B计算B利用接受到的n₀个样本的特征i_A作为标签训练模型/>利用n₀个样本和/>构建矩阵Q，Q的每一行代表用每个样本更新/>而得来的梯度；利用矩阵分解Q^T＝U∑V^T得到∑，构建对角矩阵Λ，第r个元素的值为/>s_r为∑中的第r个奇异值，β为正则化系数，可取0.001，计算L＝UA；重复以下过程K次，得到K对

a.从正态分布和抽样得到/>其中/>

b.从正态分布中抽样得到/>其中/>计算/>如果p＞1-δ，令如果p＜1-δ，令/>并重复上个过程以及此过程。值得注意的是，该过程实际上是一个二分查找的过程，用于查找最优的/>之后，B将/>的大小发送给A。类似的，此过程也可以用于确定B发送给A的最小样本数量。

步骤S1011，A和B分别将选中的数据添加满足差分隐私的噪声，并将添加完噪声之后的数据以及数据索引发送给对方。数据索引可以保证后续阶段进行数据对齐。在纵向联邦学习的场景下，索引不会泄露额外信息。

步骤S102，A和B分别将预测每个缺失的特征看作一个学习任务，以接收到的特征数据作为标签来分别训练多个模型。同时对于没有数据的特征，利用labeled-unlabeled的多任务学习方法来训练模型；

具体地，以A发送给B部分样本为例。

(a)B将自身已有的数据划分为m_A个数据集，分别对应每个特征的训练数据，其中mA为缺失特征的数量，本实施例中也为A拥有的特征数量；

(b)根据训练数据计算数据集之间的差异disc(S_p，S_q)，p，q∈{1，...，m_A}，p≠q，disc(S_p，S_p)＝0；

(c)假设I为有标签任务的集合，I∈{1，...，m_A}，|I|＝r_A，对于每个无标签的任务，最小化得到权重/>

(d)对于有标签的任务，可以利用接收到标签直接训练得到其对应的模型；

(e)对于每个无标签的任务，可通过最小化有标签任务的训练误差的凸组合得到其模型M_TT∈{1，...，m_A}/I：

其中

L(*)为模型以数据集S_p的样本作为输入的损失函数，表示数据集S_p的样本量，x为输入的样本特征，y为数据集S_p训练任务时的标签。

步骤S103，A和B利用训练得到的模型分别预测其他样本的数据以补齐缺失的特征数据。

步骤S104，A和B利用横向联邦学习方法共同合作训练，得到最终的训练模型。

本发明的高效安全，低通信的纵向联邦学***满足差分隐私，模型的训练结果接近中心化学习。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高效安全，低通信的纵向联邦学习方法，其特征在于，包括以下步骤：

(1)所有参与者选择持有数据特征集合的部分特征，再将所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者；所述持有数据特征集合由特征数据和标签数据组成；其中，所述数据特征集合为个人隐私信息；每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量，再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引发送给其他对应参与者；

(2)所有参与者依据数据索引将数据对齐，并以接收的特征数据作为标签，以每个缺失的特征作为学习任务，利用相同数据索引中原本持有的特征数据，分别为每个任务训练模型；其中，每个参与者若存在缺失特征未接收到数据，则利用labeled-unlabeled的多任务学习方法获得未接收到数据缺失特征的模型，具体为：

(b)根据训练数据计算数据集之间的差异disc(S_p,S_q),p,q∈{1,...,m},p≠q，disc(S_p,S_p)＝0；

(c)对于每个无标签的任务，最小化得到权重σ^T＝{σ₁,...,σ_m}，/>

(e)对于每个无标签的任务，可通过最小化有标签任务的训练误差的凸组合得到其模型M_T,T∈{1,...,m}/I：

其中

L(*)为模型以数据集S_p的样本作为输入的损失函数，表示数据集S_p的样本量，x为输入的样本特征，y为标签；

2.根据权利要求1所述的高效安全，低通信的纵向联邦学习方法，其特征在于，当所有参与者均持有标签数据时，所述持有数据特征集合仅由特征数据组成。

3.根据权利要求1所述的高效安全，低通信的纵向联邦学习方法，其特征在于，每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量，具体为：

(a)每个参与者针对选择的每个特征i，均匀并随机选择n₀个样本数据，添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者；

(b)收到数据的参与者j依据数据索引将数据对齐，并以接收的该特征i数据作为标签，利用相同数据索引中原本持有的特征数据来训练获得模型M_i,j；

(c)构建矩阵Q，Q的每一行为n₀个样本更新M_i,j的模型参数θ_i,j而得来的参数梯度；

(d)计算L＝UΛ，其中，U为矩阵Q奇异值分解后大小为n₀×n₀的矩阵，Λ为对角矩阵，其对角线上第r个元素的值为s_r为Σ中的第r个奇异值，β为正则化系数；Σ为矩阵Q的奇异值矩阵；

(e)从正态分布N(θ_i,j,α₁LL^T)中抽样得到再从正态分布/>中抽样得到θ_i,j,N,k，重复K次得到K对/>k表示抽样次数；

其中，表示发送给参与者j的第i个特征的候选样本数量；N为每个参与者的样本总数；

(f)计算其中，表示参与者j以样本x持有的特征数据作为输入，/>为模型参数，模型M_i,j的输出，D为样本集合，E(*)表示期望；∈为实数，表示阈值；

如果p>1-δ，令如果p<1-δ，令/>δ表示阈值，为实数；按照步骤(e)(f)过程执行多次，直至收敛得到每个特征应当选择的最优的候选样本数量/>