CN114282652B - 一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质 - Google Patents

一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质 Download PDF

Info

Publication number
CN114282652B
CN114282652B CN202111578391.1A CN202111578391A CN114282652B CN 114282652 B CN114282652 B CN 114282652B CN 202111578391 A CN202111578391 A CN 202111578391A CN 114282652 B CN114282652 B CN 114282652B
Authority
CN
China
Prior art keywords
initiator
participant
neural network
deep neural
interaction layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111578391.1A
Other languages
English (en)
Other versions
CN114282652A (zh
Inventor
于海宁
张宏莉
尹莱莱
孙骁
申旭弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111578391.1A priority Critical patent/CN114282652B/zh
Publication of CN114282652A publication Critical patent/CN114282652A/zh
Application granted granted Critical
Publication of CN114282652B publication Critical patent/CN114282652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明提出一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质,属于隐私保护模型构建技术领域。首先,发起方和所有参与方找出共有的样本ID,生成自己的公私钥对,利用公钥对中间数据进行加密;其次,参与方基于本地数据集与发起方进行安全前向传播过程,使发起方获得深度神经网络模型交互层的真实加权值;最后,参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差,使双方各自获得更新交互层模型参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型。在无可信第三方的前提下保护数据隐私安全,对不同神经网络结构进行多方安全联合建模。解决构建模型成本高、风险大、结构敏感的问题。

Description

一种隐私保护的纵向深度神经网络模型构建方法、计算机及 存储介质
技术领域
本申请涉及一种模型构建方法,尤其涉及一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质,属于隐私保护模型构建技术领域。
背景技术
深度学习(Deep Learning,DL)在语音合成、图像分类、文本识别等人工智能领域都拥有广泛的应用,但其模型效果依赖于数据集的质量和规模。在大数据时代,数据已成为关键生成要素,各企业采取集中多源数据的方式来增加训练数据集的维度和数量,进而大大提升模型训练效果。但是数据的集中收集和存储却带来了严重的隐私问题,世界各国也在颁布相关法案以保护数据隐私安全,这使得各个行业甚至同一公司的不同部门之间的数据无法实现整合,造成“数据孤岛”现象。
针对这种现象,“联邦学习”给出了解决办法,在数据不出本地的情况下,进行多方联合建模。纵向联邦学习场景指一方数据集拥有数据特征XG和标签t,作为发起方Guest;另一方数据集只拥有数据特征XH,作为参与方Host,两方数据集的特征重叠较小而样本重叠较多。
在纵向深度神经网络模型现有的研究方案中,大多利用信任第三方进行中间数据的加解密,从而获得模型更新所需梯度,然而在现实生活中,这种理想情况是很难实现的且存在一些问题,主要包括两方面的原因:(1)找到合作双方共同信任的第三方协作者是困难的:由第三方获取明文中间数据会在无形之中提高数据泄露的风险,因此第三方必须是可信任的,不能与其他参与方勾结,此外还需要第三方具备支持联邦学习的技术、算力和人力资源;(2)提高了***部署的整体复杂性,第三方协作者的参与也会提升联合建模的成本。
因此,我们需要考虑从***中删除第三方协作者的角色。此外,一些现有方案对深度神经网络模型结构敏感,模型结构的变化会极大低影响模型性能,使得在不同的应用场景中需要重新设计方法,增加了纵向联邦学习的使用难度。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在的构建模型的成本高、风险大、结构敏感的技术问题,本发明提供一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质。
方案一:本发明提供了一种隐私保护的纵向深度神经网络模型构建方法,具体包括以下步骤:
步骤一、发起方和所有参与方找出共有的样本ID,生成自己的公私钥对,利用公钥对中间数据进行加密;
步骤二、参与方基于本地数据集与发起方进行安全前向传播过程,使发起方获得深度神经网络模型交互层的真实加权值;
步骤三、参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差δ,进而使得双方各自获得更新交互层模型参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型。
优选的,步骤一所述发起方和参与方找出共有的样本ID的具体方法,包括以下步骤:
步骤一一、参与方生成RSA公钥Pk=(n,e)和私钥Sk=(n,d),将公钥Pk发送给发起方;
步骤一二、发起方计算己方各样本ID(ui,i=1,2,...,m)的哈希值{H(ui)|i=1,2,...,m},其中m为发起方样本ID数;
步骤一三、发起方生成随机数ri,计算第一中间数据{rie*H(ui)|i=1,2,...,n}并发送给参与方;
步骤一四、参与方接收发起方第一中间数据,计算第二中间数据{(rie*H(ui))d|i=1,2,...,m},对己方各样本ID(uj,j=1,2,...,l)计算第三中间数据{H((H(uj))d)|j=1,2,...,l},其中l为参与方样本ID数;
步骤一五、参与方将第二中间数据{(rie*H(ui))d|i=1,2,...,m}和第三中间数据{H((H(uj))d)j=1,2,...,l}发送给发起方;
步骤一六、发起方接收并计算第四中间数据{H(ri*(H(ui))d/ri)|i=1,2,...,m},将计算结果与第三中间数据{H((H(uj))d)|j=1,2,...,l}作比较,集合交集即为共有的样本ID,并将集合交集发送给参与方。
优选的,步骤一所述生成自己的公私钥对的具体方法是:发起方和各参与方使用Paillier密钥生成算法得到自己的公私钥对(PG,SG)和(PH1,SH1),(PH2,SH2).....(PHh,SHh),其中h为参与方数量。
优选的,步骤一所述利用公钥对中间数据进行加密的具体方法是,发起方和参与方使用Paillier同态加密算法对中间数据进行加密。
优选的,步骤二所述参与方基于本地数据集与发起方进行安全前向传播过程,使发起方获得深度神经网络模型交互层的真实加权值的具体方法是:包括以下步骤:
步骤二一、发起方计算加密累计噪声[εacc]G发送给参与方,参与方接收并计算加密加权值(WH+[εacc]G)XH发送给发起方,其中XH表示参与方数据特征;WH表示参与方交互层参数WH
步骤二二、发起方利用私钥对参与方加密加权值(WH+[εacc]G)XH进行解密,得到参与方真实加权值(WHacc)XH,因此可以计算因此可以计算参与方和发起方的真实加权值WX=(WHacc)XH+WGXG,并利用计算结果得到深度神经网络交互层的激活函数输出,进而继续执行模型顶层的前向传播过程,其中XG表示发起方数据特征;WG表示发起方交互层参数。
优选的,步骤三所述参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差δ,进而使得双方各自获得更新交互层模型参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型的具体方法是:包括以下步骤:
步骤三一、发起方执行顶层的反向传播过程,得到交互层中间误差δ。
步骤三二、参与方计算加密数据[XH]H发送给发起方;
步骤三三、发起方接收并计算参与方加密梯度值生成随机噪声ε,计算参与方带噪声的加密梯度值/>并发送给参与方,更新累计噪声εacc+=ε,其中η为学习率,L表示损失函数;
步骤三四、参与方接收带噪声的加密梯度值对加密梯度值进行解密得到带噪声的梯度值/>利用解密结果进行交互层参与方的参数更新/>其中/>表示带噪声的参与方交互层参数;
步骤三五:发起方计算自己的梯度值利用计算结果进行交互层发起方的参数更新WG=WG-η·gG
方案二:一种计算机,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述一种隐私保护的纵向深度神经网络模型构建方法的步骤。
方案三:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述一种隐私保护的纵向深度神经网络模型构建方法。
本发明的有益效果如下:本发明提供的一种隐私保护的纵向深度神经网络模型构建方法,参与方基于本地数据集与发起方进行安全前向传播过程,使发起方获得深度神经网络模型交互层的真实加权值,之后参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差,使双方各自获得更新交互层模型参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型。本发明无需可信第三方的协助,可在发起方和参与方双方之间直接实现安全联合建模过程,降低了***架构的复杂性和数据泄露风险,减少了模型构建成本;同时,本发明支持各种深度神经网络模型,解决了结构敏感的技术问题;因此,本发明解决了现有技术存在的构建模型的成本高、风险大、结构敏感的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为方法流程示意图;
图2为找出共有的样本ID的流程示意图;
图3为生成自己的公私钥对的流程示意图;
图4为利用公钥对中间数据进行加密的流程示意图;
图5为模型示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1-图5说明本实施方式,一种隐私保护的纵向深度神经网络模型构建方法,具体包括以下步骤:
步骤一、发起方和所有参与方找出共有的样本ID,生成自己的公私钥对,利用公钥对中间数据进行加密;
步骤一中发起方和所有参与方找出共有的样本ID的具体方法包括以下步骤:
步骤一一、参与方生成RSA公钥Pk=(n,e)和私钥Sk=(n,d),将公钥Pk发送给发起方;
步骤一二、发起方计算己方各样本ID(ui,i=1,2,...,m)的哈希值{H(ui)|i=1,2,...,m},其中m为发起方样本ID数;
步骤一三、发起方生成随机数ri,计算第一中间数据{rie*H(ui)|i=1,2,...,m}并发送给参与方;
步骤一四、参与方接收发起方第一中间数据,计算第二中间数据{(rie*H(ui))d|i=1,2,...,m},对己方各样本ID(uj,j=1,2,...,l)计算第三中间数据{H((H(uj))d)|j=1,2,...,l},其中l为参与方样本ID数;
步骤一五、参与方将第二中间数据{(rie*H(ui))d|i=1,2,...,m}和第三中间数据{H((H(uj))d)|j=1,2,...,l}发送给发起方;
步骤一六、发起方接收并计算第四中间数据{H(ri*(H(ui))d/ri)|i=1,2,...,m},将计算结果与第三中间数据{H((H(uj))d)|j=1,2,...,l}作比较,集合交集即为共有的样本ID,并将集合交集发送给参与方。
步骤一中生成自己的公私钥对的具体方法是:发起方和各参与方使用Paillier密钥生成算法得到自己的公私钥对(PG,SG)和(PH1,SH1),(PH2,SH2).....(PHh,SHh),其中h为参与方数量。
首先选择两个大素数p,q并令它们满足pq与(p-1)(q-1)的最大公约数为1。计算n=pq,设λ为(p-1)(q-1)的最小公倍数,并随机选取一个整数定义μ=(L(gλmodn2))-1,其中L(x)=(x-1)/n,则可生成一对密钥,公钥P表示为(n,g),私钥S表示为λ。
步骤一中利用公钥对中间数据进行加密的具体方法是,发起方和参与方使用Paillier同态加密算法对中间数据进行加密。
对于将要进行加密的明文m,有0≤m≤n,Paillier加密算法中的加解密操作为:
随机选择一个整数r,使并令r,n互质,即两者最大公约数为1。此时,可得密文c=E(m,r)=gm·rnmodn2
对于即将进行解密的密文明文m=D(c)=L(cλmodn2)·μmodn,其中L(x)=(x-1)/n。
步骤二、参与方基于本地数据集与发起方进行安全前向传播过程,使发起方获得深度神经网络模型交互层的真实加权值。
发起方和参与方基于共有的样本进行联合建模。假设发起方和参与方联合训练一个深度神经网络模型,包括交互层模型和顶层模型。参与方Host拥有数据特征XH={x1,x2,...,xk},发起方Guest拥有数据特征XG={xk+1,xk+2,...,xI},其中k表示参与方数据特征个数,(I-k)为发起方数据特征个数,wij表示交互层第i个神经元到顶层模型输入层第j个神经元的线性系数。对于神经网络模型中的各参数,Host方持有交互层参数WH,且对Guest保密;Guest方持有交互层参数WG和顶层模型的参数,并对Host方保密,其中
WH={w11,...,w1J,w21,...,w2J,...,wk1,...,wkJ},
WG={w(k+1)1,...,w(k+1)J,w(k+2)1,...,w(k+2)J,...,wI1,...,wIJ},J表示顶层模型输入层神经元的总数。
发起方计算加密累计噪声[εacc]G发送给参与方,参与方接收并计算加密加权值(WH+[εacc]G)XH发送给发起方。
具体方法是:包括以下步骤:
步骤二一、发起方计算加密累计噪声[εacc]G发送给参与方,参与方接收并计算加密加权值(WH+[εacc]G)XH发送给发起方,其中XH表示参与方数据特征;WH表示参与方交互层参数;
步骤二二、发起方利用私钥对参与方加密加权值(WH+[εacc]G)XH进行解密,得到参与方真实加权值(WHacc)XH,因此可以计算因此可以计算参与方和发起方的真实加权值WX=(WHacc)XH+WGXG,并利用计算结果得到深度神经网络交互层的激活函数输出,进而继续执行模型顶层的前向传播过程,其中XG表示发起方数据特征;WG表示发起方交互层参数。
步骤三、参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差δ,进而使得双方各自获得更新交互层模犁参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型。
步骤三一、发起方执行顶层的反向传播过程,得到交互层中间误差δ。
步骤三二、参与方计算加密数据[XH]H发送给发起方;
步骤三三、发起方接收并计算参与方加密梯度值生成随机噪声ε,计算参与方带噪声的加密梯度值/>并发送给参与方,更新累计噪声εacc+=ε,其中η为学习率,L表示损失函数;
步骤三四、参与方接收带噪声的加密梯度值对加密梯度值进行解密得到带噪声的梯度值/>利用解密结果进行交互层参与方的参数更新/>其中/>表示带噪声的参与方交互层参数;
步骤三五、发起方计算自己的梯度值利用计算结果进行交互层发起方的参数更新WG=WG-η·gG
具体的,参与方Host拥有数据特征XH={x1,x2,...,xk},发起方Guest拥有数据特征XG={xk+1,xk+2,...,xI},其中k表示参与方数据特征个数,(I-k)为发起方数据特征个数,wij表示交互层第i个神经元到顶层模型输入层第j个神经元的线性系数。对于神经网络模型中的各参数,Host方持有交互层参数WH,且对Guest保密;Guest方持有交互层参数WG和顶层模型的参数,并对Host方保密,其中
WH={w11,...,w1J,w21,...,w2j,...,wk1,...,wkI},
WG={w(k+1)1,...,w(k+1)J,w(k+2)1,...,w(k+2)J,...,wI1,...,wIJ},J表示顶层模型输入层神经元的总数。
实施例2、为使本发明实施例的目的、技术方案和优点更加清楚,以构建银行用户消费信贷意愿模型为例,阐述此发明的具体实施过程。
消费信贷是指为消费者提供的用于购买住房、耐用消费品及其他消费用途的个人贷款。2025年消费信贷市场总体预计将翻番,有望达到29万亿元,然而在互联网金融机构的冲击下,传统商业银行面临市场被蚕食、客户流失、利润缩减等挑战。面对这种新局面和新挑战,银行G仅通过自己的数据集构建意愿模型,缺乏对用户画像的全面性认识,精确率不高,因此银行G可联合电商H1,H2进行用户消费信贷意愿纵向联邦学习模型的构建,增加数据特征维度,提高模型预测精度,从而挖掘新用户,提供优质的客户服务体验。
银行G作为发起方持有数据(IDG,XG,Y),电商H1,H2作为参与方分别持有数据(IDH1,XH1)和(IDH2,XH2),其中为样本标识,XG,XH1,XH2为三方的数据特征,Y为消费信贷标签。银行和电商的样本重叠较多,拥有的数据特征不同,为了提高消费信贷意愿模型的精确率,银行G联合电商H1,H2联合构建深度神经网络模型,具体过程如下:
参与方H1生成RSA公私钥对Pk1=(n1,e1)和Sk1=(n1,d1),参与方H2生成RSA公私钥对Pk2=(n2,e2)和Sk2=(n2,d2),分别将公钥Pk1和Pk2发送给发起方G;
发起方G计算己方各样本ID的哈希值{H(id1),H(id2),H(id3)},生成随机数r1,r2,r3,计算{r1e1*H(id1),r2e1*H(id2),r3e1*H(id3)并发送给参与方H1,计算{r1e2*H(id1),r2e2*H(id2),r3e3*H(id3)并发送给参与方H2;
参与方H1接收发起方数据,计算
DH1={(r1e1*H(id1))d1,(r1e1*H(id2))d1,(r1e1*H(id3))d1},对己方各样本ID计算EH1={H((H(id1))d1),H((H(id2))d1),H((H(id4))d1)},将计算结果DH1和EH1发送给发起方G;
参与方H2接收发起方数据,计算
DH2={(r1e2*H(id1))d2,(r1e2*H(id2))d2,(r1e1*H(id3))d2},对己方各样本ID计算EH2={H((H(id1))d2),H((H(id2))d2),H((H(id5))d2)},将计算结果DH2和EH2发送给发起方G;
发起方G接收参与方H1数据,计算{H(r1*(H(id1))d1/r1),H(r2*(H(id2))d1/r2),H(r3*(H(id3))d1/r3)},将计算结果与EH1作比较,集合交集ID1即为参与方H1和发起方G共有的样本标识集合;
发起方G接收参与方H2数据,计算{H(r1*(H(id1))d2/r1),H(r2*(H(id2))d2/r2),H(r3*(H(id3))d2/r3)},将计算结果与EH2作比较,集合交集ID2即为参与方H2和发起方G共有的样本标识集合;
集合ID1与ID2的交集ID即为三方共有的样本标识集合。
发起方和各参与方使用Paillier密钥生成算法得到自己的公私钥对(PG,SG)和(PH1,SH1),(PH2,SH2),具体步骤如下:
首先选择两个大素数p,q并令它们满足pq与(p-1)(q-1)的最大公约数为1。计算n=pq,设λ为(p-1)(q-1)的最小公倍数,并随机选取一个整数定义μ=(L(gλmodn2))-1,其中L(x)=(x-1)/n,则可生成一对密钥,公钥表示为(n,g),私钥表示为λ。
发起方和参与方使用Paillier同态加密算法对中间数据进行加解密,对于将要进行加密的明文m,有0≤m≤n,Paillier加密算法中的加解密操作为:
随机选择一个整数r,使0<r<n,并令r,n互质,即两者最大公约数为1。此时,可得密文c=E(m,r)=gm·rnmodn2
对于即将进行解密的密文明文m=D(c)=L(cλmodn2)·μmodn,其中L(x)=(x-1)/n。[·]G,[·]H1,[·]H2分别表示使用G、H1、H2方的公钥进行同态加密。
进一步地,发起方和参与方基于共有的样本集合进行联合建模,发起方计算[εacc]G加密值发送给参与方,参与方接H1,H2收并计算(WH1+[εacc]G)XH1,(WH2+[εacc]G)XH2发送给发起方。
发起方利用私钥对(WH1+[εacc]G)XH1,(WH2+[εacc]G)XH2进行解密,计算真实加权值WX=(WH1acc)XH1+(WH2acc)XH2+WGXG,利用计算结果得到深度神经网络交互层的激活函数输出,并继续执行模型顶层的前向传播过程。
进一步地,发起方执行顶层的反向传播过程,得到交互层中间误差δ。参与方H1,H2计算[XH1]H1,[XH2]H2发送给发起方。发起方接收并计算 生成随机噪声ε,计算/> 发送给参与方H1,H2,更新累计噪声εacc+=ε。
参与方H1接收对结果进行解密得到/>利用解密结果进行交互层参数更新/>
参与方H2接收对结果进行解密得到/>利用解密结果进行交互层参数更新
发起方计算利用计算结果进行交互层参数更新
WG=WG-η·gG
迭代训练完毕,发起方银行完成用户消费信贷意愿纵向联邦学习模型的构建。
本发明的关键点:本发明利用同态加密技术对中间数据进行加密,并基于密文进行计算;同时通过加噪声的方式保护隐私数据,执行参数更新,并在使用模型参数时去除累计噪声,最终实现深度神经网络模型的安全联合建模和无损性。
实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例4、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (7)

1.一种隐私保护的纵向深度神经网络模型构建方法,其特征在于,具体包括以下步骤:
步骤一、发起方和所有参与方找出共有的样本ID,生成自己的公私钥对,利用公钥对中间数据进行加密,包括以下步骤:
步骤一一、参与方生成RSA公钥Pk=(n,e)和私钥Sk=(n,d),将公钥Pk发送给发起方;
步骤一二、发起方计算己方各样本的哈希值{H(ui)|i=1,2,...,m)},其中m为发起方样本ID数;
步骤一三、发起方生成随机数ri,计算第一中间数据{ri e*H(ui)|i=1,2,...,m)},并发送给参与方;
步骤一四、参与方接收发起方第一中间数据,计算第二中间数据{(ri e*H(ui))d|i=1,2,...,m)},对己方各样本计算第三中间数据{H((H(uj))d)|j=1,2,...,l)},其中l为参与方样本ID数;
步骤一五、参与方将第二中间数据{(ri e*H(ui))d|i=1,2,...,m)}和第三中间数据{H((H(uj))d)|j=1,2,...,l)}发送给发起方;
步骤一六、发起方接收并计算第四中间数据{H(ri*H(ui))d/ri|i=1,2,...,m)},将计算结果与第三中间数据{H((H(uj))d)|j=1,2,...,l)}作比较,集合交集即为共有的样本ID,并将集合交集发送给参与方;
步骤二、参与方基于本地数据集与发起方在深度神经网络交互层进行安全前向传播过程,使发起方获得深度神经网络交互层的真实加权值;
步骤三、参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差δ,进而使得双方各自获得更新交互层模型参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型。
2.根据权利要求1所述的一种隐私保护的纵向深度神经网络模型构建方法,其特征在于,步骤一所述生成自己的公私钥对的具体方法是:发起方和各参与方使用Paillier密钥生成算法得到自己的公私钥对(PG,SG)和(PH1,SH1),(PH2,SH2).....(PHh,SHh),其中h为参与方数量。
3.根据权利要求2所述的一种隐私保护的纵向深度神经网络模型构建方法,其特征在于,步骤一所述利用公钥对中间数据进行加密的具体方法是,发起方和参与方使用Paillier同态加密算法对中间数据进行加密。
4.根据权利要求3所述的一种隐私保护的纵向深度神经网络模型构建方法,其特征在于,步骤二所述参与方基于本地数据集与发起方进行安全前向传播过程,使发起方获得深度神经网络模型交互层的真实加权值的具体方法是:包括以下步骤:
步骤二一、发起方计算加密累计噪声[εacc]G发送给参与方,参与方接收并计算加密加权值(WH+[εacc]G)XH发送给发起方,其中XH表示参与方数据特征;WH表示参与方交互层参数;
步骤二二、发起方利用私钥对参与方加密加权值(WH+[εacc]G)XH进行解密,得到参与方真实加权值(WHacc)XH,计算参与方和发起方的真实加权值WX=(WHacc)XH+WGXG,并利用计算结果得到深度神经网络交互层的激活函数输出,进而继续执行模型顶层的前向传播过程,其中XG表示发起方数据特征;WG表示发起方交互层参数。
5.根据权利要求4所述的一种隐私保护的纵向深度神经网络模型构建方法,其特征在于,步骤三所述参与方和发起方进行安全反向传播过程,发起方基于加权值计算交互层中间误差δ,进而使得双方各自获得更新交互层模型参数的梯度,进行深度神经网络交互层模型的更新,得到纵向深度神经网络模型的具体方法是:
步骤三一、发起方执行顶层的反向传播过程,得到交互层中间误差δ;
步骤三二、参与方计算加密数据[XH]H发送给发起方;
步骤三三、发起方接收并计算参与方加密梯度值生成随机噪声ε,计算参与方带噪声的加密梯度值/>并发送给参与方,更新累计噪声εacc+=ε,其中η为学习率,L表示损失函数;
步骤三四、参与方接收带噪声的加密梯度值对加密梯度值进行解密得到带噪声的梯度值/>利用解密结果进行交互层参与方的参数更新/>其中/>表示带噪声的参与方交互层参数;
步骤三五、发起方计算自己的梯度值利用计算结果进行交互层发起方的参数更新WG=WG-η·gG
6.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1至5任一项所述的一种隐私保护的纵向深度神经网络模型构建方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的一种隐私保护的纵向深度神经网络模型构建方法。
CN202111578391.1A 2021-12-22 2021-12-22 一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质 Active CN114282652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111578391.1A CN114282652B (zh) 2021-12-22 2021-12-22 一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111578391.1A CN114282652B (zh) 2021-12-22 2021-12-22 一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质

Publications (2)

Publication Number Publication Date
CN114282652A CN114282652A (zh) 2022-04-05
CN114282652B true CN114282652B (zh) 2024-06-21

Family

ID=80874262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111578391.1A Active CN114282652B (zh) 2021-12-22 2021-12-22 一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN114282652B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633805B (zh) * 2019-09-26 2024-04-26 深圳前海微众银行股份有限公司 纵向联邦学习***优化方法、装置、设备及可读存储介质
CN111931950B (zh) * 2020-09-28 2021-01-26 支付宝(杭州)信息技术有限公司 一种基于联邦学习进行模型参数更新的方法及***
CN112183730B (zh) * 2020-10-14 2022-05-13 浙江大学 一种基于共享学习的神经网络模型的训练方法
CN113435592B (zh) * 2021-05-22 2023-09-22 西安电子科技大学 一种隐私保护的神经网络多方协作无损训练方法及***
CN113434873A (zh) * 2021-06-01 2021-09-24 内蒙古大学 一种基于同态加密的联邦学习隐私保护方法
CN113609781B (zh) * 2021-08-16 2023-12-26 广域铭岛数字科技有限公司 基于联邦学习的汽车生产模具优化方法、***、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator;Shengwen Yang et al;《arXiv》;20191122;第1-6页 *
一种构造前向安全公钥加密算法的一般方法;李成邦等;《信息安全与通信保密》;20090831;第313-315页 *

Also Published As

Publication number Publication date
CN114282652A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
WO2021197037A1 (zh) 双方联合进行数据处理的方法及装置
Evans et al. A pragmatic introduction to secure multi-party computation
CN112989368B (zh) 多方联合进行隐私数据处理的方法及装置
Karlstrøm Do libertarians dream of electric coins? The material embeddedness of Bitcoin
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
González-Serrano et al. Training support vector machines with privacy-protected data
CN112989399B (zh) 数据处理***及方法
JP2023512725A (ja) パターンの安全な照合および識別
CN116070709A (zh) 纵向联邦学习中逻辑回归模型的训练方法及***
CN114282652B (zh) 一种隐私保护的纵向深度神经网络模型构建方法、计算机及存储介质
US20230385446A1 (en) Privacy-preserving clustering methods and apparatuses
CN117150550A (zh) 隐私保护联邦学习方法、装置、电子设备及存储介质
CN116915383A (zh) 不经意键值存储编解码方法、***、装置和介质
Polat et al. Private predictions on hidden Markov models
Rao et al. Secure two-party feature selection
CN115409095A (zh) 多方泊松回归隐私计算模型训练方法、装置和存储介质
CN113886868A (zh) 一种多源垂直分布数据的逻辑回归安全训练方法及***
Rao Paras-A Private NFT Protocol
CN111698284A (zh) 基于区块链的计算机加密***及方法
CN112199702B (zh) 一种基于联邦学习的隐私保护方法、存储介质及***
Xu Functional encryption based approaches for practical privacy-preserving machine learning
CN115396148B (zh) 隐私保护的名单查询方法、***、介质、设备及终端
CN117675411B (zh) 一种基于纵向XGBoost算法的全局模型获取方法及***
Raykova Secure Computation in Heterogeneous Environments: How to Bring Multiparty Computation Closer to Practice?
Huang et al. Edge-based secure image denoising scheme supporting flexible user authorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant