CN111241582A - 数据隐私保护方法、装置及计算机可读存储介质 - Google Patents
数据隐私保护方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111241582A CN111241582A CN202010029622.2A CN202010029622A CN111241582A CN 111241582 A CN111241582 A CN 111241582A CN 202010029622 A CN202010029622 A CN 202010029622A CN 111241582 A CN111241582 A CN 111241582A
- Authority
- CN
- China
- Prior art keywords
- weight
- model
- participant
- cloud server
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据隐私保护方法、装置及计算机可读存储介质,该数据隐私保护方法包括以下步骤:参与者获取云服务器发送的第一权重;所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器。本发明提高了互相分享数据的隐私保护水平,并且提高了参与者与云服务器联合训练模型的精确度。
Description
技术领域
本发明涉及物联网技术领域,尤其涉及一种数据隐私保护方法、装置及计算机可读存储介质。
背景技术
随着通信网络的发展,大量物联网设备持续接入网络并产生大量的数据。作为大数据分析领域的主流方法,深度学习正与物联网应用紧密结合,已经广泛应用到智慧城市、智慧家居、无人驾驶等多个领域。
传统中心化的深度学习要求用户将数据提交到一个数据中心,然后,由云服务器统一进行训练。然而,这些数据很可能会被模型训练者滥用,推测出更多有关用户的隐私信息。分布式的深度学习在不公开数据集的前提下,允许多个参与者联合学习一个共同的模型。但是,在分布式的深度学习环境下,在云服务器与参与者之间分享数据的过程中,由于互相分享的数据隐私保护性差,仍会导致敏感信息的泄露。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据隐私保护方法、装置及计算机可读存储介质,旨在解决数据隐私保护性差的技术问题。
为实现上述目的,本发明提供一种数据隐私保护方法,所述数据隐私保护方法包括以下步骤:
参与者获取云服务器发送的第一权重;
所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;
所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;
所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器。
可选地,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器的步骤之后,还包括:
所述云服务器接收所述参与者所发送的扰动权重;
所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重,其中,所述第二目标模型为所述模型环中所述第一目标模型的前一个模型;
所述云服务器将所述第三权重发送至所述参与者,以供所述参与者接收所述第三权重,将所述第三权重作为所述第一权重,并执行所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤。
可选地,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重的步骤之后,还包括:
所述云服务器获取所述第一目标模型;
所述云服务器将所述第一目标模型作为所述第二目标模型,并执行所述获取所述模型环的第二目标模型的第三权重的步骤。
可选地,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重的步骤之前,还包括:
所述云服务器获取非隐私数据;
所述云服务器基于所述非隐私数据,初始化所述模型环中的目标模型,所述目标模型包括所述第一目标模型以及所述第二目标模型。
可选地,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器的步骤包括:
所述参与者基于所述权重重要性以及扰动机制,对所述权重重要性进行归一化操作,确定权重归一化结果;
所述参与者获取总隐私预算,并基于所述权重归一化结果以及所述总隐私预算,确定所述权重重要性对应的隐私预算;
所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重。
可选地,所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重的步骤包括:
所述参与者基于所述隐私预算以及差分隐私机制,对所述第二权重进行扰动,确定干扰所述第二权重后的扰动权重。
可选地,所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性的步骤包括:
所述参与者基于所述第二权重以及权重重要性算法,确定所述本地模型的神经元重要性;
所述参与者基于所述神经元重要性,确定所述第二权重对应的权重重要性。
可选地,所述确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤包括:
所述参与者获取迭代所述本地模型的迭代步骤;
所述参与者若检测到所述迭代步骤达预设步骤,则确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重。
此外,为实现上述目的,本发明还提供一种数据隐私保护装置,所述数据隐私保护装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据隐私保护程序,所述数据隐私保护程序被所述处理器执行时实现如上述的数据隐私保护方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据隐私保护程序,所述数据隐私保护程序被处理器执行时实现如上述的数据隐私保护方法的步骤。
本发明通过参与者获取云服务器发送的第一权重;所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器,通过结合权重重要性算法和扰动机制,对参与者与云服务器之间分享的数据即权重进行有差别地扰动,对重要性较高的权重分配较少的扰动噪音,对重要性不高的权重注入较多的扰动噪音,从而提高了互相分享数据的隐私保护水平,同时,提高参与者与云服务器联合训练模型的精确度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的数据隐私保护装置结构示意图;
图2为本发明数据隐私保护方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的数据隐私保护装置结构示意图。
本发明实施例数据隐私保护装置可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该数据隐私保护装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,数据隐私保护装置还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的数据隐私保护装置结构并不构成对数据隐私保护装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据隐私保护程序。
在图1所示的数据隐私保护装置中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据隐私保护程序。
在本实施例中,数据隐私保护装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据隐私保护程序,其中,处理器1001调用存储器1005中存储的数据隐私保护程序时,并执行以下操作:
参与者获取云服务器发送的第一权重;
所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;
所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;
所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述云服务器接收所述参与者所发送的扰动权重;
所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重,其中,所述第二目标模型为所述模型环中所述第一目标模型的前一个模型;
所述云服务器将所述第三权重发送至所述参与者,以供所述参与者接收所述第三权重,将所述第三权重作为所述第一权重,并执行所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述云服务器获取所述第一目标模型;
所述云服务器将所述第一目标模型作为所述第二目标模型,并执行所述获取所述模型环的第二目标模型的第三权重的步骤。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述云服务器获取非隐私数据;
所述云服务器基于所述非隐私数据,初始化所述模型环中的目标模型,所述目标模型包括所述第一目标模型以及所述第二目标模型。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述参与者基于所述权重重要性以及扰动机制,对所述权重重要性进行归一化操作,确定权重归一化结果;
所述参与者获取总隐私预算,并基于所述权重归一化结果以及所述总隐私预算,确定所述权重重要性对应的隐私预算;
所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述参与者基于所述隐私预算以及差分隐私机制,对所述第二权重进行扰动,确定干扰所述第二权重后的扰动权重。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述参与者基于所述第二权重以及权重重要性算法,确定所述本地模型的神经元重要性;
所述参与者基于所述神经元重要性,确定所述第二权重对应的权重重要性。
进一步地,处理器1001可以调用存储器1005中存储的数据隐私保护程序,还执行以下操作:
所述参与者获取迭代所述本地模型的迭代步骤;
所述参与者若检测到所述迭代步骤达预设步骤,则确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重。
本发明还提供一种数据隐私保护方法,参照图2,图2为本发明数据隐私保护方法第一实施例的流程示意图。
在本实施例中,该数据隐私保护方法包括以下步骤:
本发明实施例所适用的一种***架构,包括云服务器以及多个参与者。在本实施例的技术方案中,各参与者在预训练阶段,预先用公开的非隐私数据训练本地模型,以对本地模型进行初始化;然后运行权重重要性算法来量化深度学习模型中权重对模型预测的重要性;在保护隐私阶段,结合差分隐私机制来有差别地扰动本地模型的权重值;然后将被扰动的本地模型权重值上传给服务器,并请求一个新的训练模型。云服务器中部署多个同类型不同参数值的深度学习模型,轮转着接收参与者发来的本地模型,并替换其中一个深度学习模型;服务器在处理客户端的模型请求时,将其他参与者上传的模型发给请求模型的参与者。
云服务器可以是计算机等网络设备。云服务器可以是一个独立的设备,也可以是多个服务器所形成的服务器集群。优选地,云服务器可以采用云计算技术进行信息处理。参与者部署于终端上,终端可以是手机、平板电脑或者是专用的手持设备等具有无线通信功能的电子设备,也可以是个人计算机(personal computer,简称PC),笔记本电脑,服务器等有线接入方式连接上网的设备。终端可以是一个独立的设备,也可以是多个终端所形成的终端集群。优选地,终端可以采用云计算技术进行信息处理。参与者可以通过INTERNET网络与云服务器进行通信,也可以通过全球移动通信***(Global System for MobileCommunications,简称GSM)、长期演进(long termevolution,简称LTE)***等移动通信***与云服务器进行通信。
步骤S10,参与者获取云服务器发送的第一权重;
一实施例中,云服务器中部署了多个深度学习模型,多个深度学习模型组成模型环,云服务器接收参与者上传的模型参数(权重),并将模型参数输入至模型环中的一个深度学习模型中,当接收到下一个参与者上传的模型参数,则将下一个参与者的模型参数输入至下一个深度学习模型,以此类推,云服务器轮转着接收参与者发来的本地模型的权重参数,并同时轮转着将权重参数输入至模型环中的深度学习模型中,这样不断更新云服务器中的深度学习模型。具体地,若在云服务器中部署M个深度学习模型,并且云服务器已对模型环上的所有深度学习模型进行初始化,那么一旦接收到参与者发来的模型参数,将模型参数输入至模型环上的第m个深度学习模型(m∈[0,M-1]),然后将第m-1个模型发送给参与者进行下一轮的训练。值得注意的是,第m-1个模型是将上一个与云服务器交互的参与者上传的模型参数输入的深度学习模型。与每个参与者交互之后,执行m←m+1。
云服务器获取上一个与该云服务器交互的另一参与者上传的权重参数,并将该权重参数输入至云服务器的模型环的目标模型中。当参与者将本地模型的权重参数发送给云服务器时,同时向云服务器请求新的本地模型参数即第一权重,则云服务器获取目标模型中的第一权重,并将第一权重发送至参与者,参与者获取云服务器发送过来的第一权重。
步骤S20,所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;
一实施例中,参与者接收云服务器发送过来的第一权重后,参与者开始训练本地模型,将第一权重输入到本地模型中,通过一定的模型训练规则训练本地模型。具体地,将第一权重输入至本地模型中,以及将用户数据作为训练样本输入至本地模型中,首先对本地模型进行正向传播过程的运算,确定本地模型中所有的激活值,激活值包括神经网络隐含层的输出控制量等。之后,对本地模型进行反向传播过程的运算,针对本地模型中每一层的每一个节点,确定每个节点的新的权值和阈值,新的权值和阈值表明了该节点对输出层的最终的输出控制量对应的权值和阈值产生了多少影响。如此,不断对本地模型进行一系列的正向传播过程以及反向传播过程的运算,直至本地模型迭代完成,即训练完成。最后,确定并输出本地模型的第二权重。其中,本地模型的训练过程由正向传播过程和反向传播过程组成,正向传播过程,输入模式从输入层经隐单元层逐层处理,并转向输出层,每一层神经元的状态只影响下一层神经元的状态;反向传播过程,将误差信号沿原来的连接通路返回,通过修改各神经元的权值和阈值,使各神经元的权值和阈值的误差最小。
步骤S30,所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;
一实施例中,参与者迭代本地模型完成后,运行权重重要性算法,确定第二权重对应的权重重要性。具体地,运行权重重要性算法,确定第二权重对应的权重重要性的具体过程如下:
2)计算输出层神经元重要性:首先计算输出层中各个神经元ap对模型预测值的重要性即输出层神经元重要性,其中,输出层神经元对模型预测值的重要性为该神经元的输出值,也就是模型的输出值,输出层神经元重要性的计算公式如下:
3)计算权重重要性:参与者从后往前逐层递推,计算相邻层间权重wp,q对模型预测值的重要性,假设是第h-1层神经元ap和第h层神经元aq,第h-1层神经元ap和第h层神经元ap之间的权重重要性计算公式如下:
其中,公式中的ap指的是除输出层外其他各层神经元ap的输出值。
5)重复步骤3)和步骤4),直到本地模型中的全部权重重要性计算完毕,最终确定第二权重对应的权重重要性。可以理解的是,计算神经元的重要性来作为计算重要性矩阵的中间参数。
步骤S40,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器。
一实施例中,运行运行权重重要性算法确定第二权重对应的权重重要性后,参与者运行在参与者定制的扰动机制,基于不同的权重重要性,对第二权重进行干扰,得到扰动权重,并将干扰后的扰动权重发送至云服务器,以供云服务器联合其他参与者进行训练不同参与者的模型,其中,权重重要性决定了对第二权重的干扰程度,权重重要性越高,则干扰程度越低,以保证数据的准确性。具体地,对基于不同的权重重要性,运行扰动机制对第二权重进行干扰,得到扰动权重的具体过程如下:
2)调整隐私预算:对权重重要性矩阵中的每个权重重要性设定一个隐私预算εp,q,使得对重要性较高的权重分配较少的扰动噪音,目的是提高模型的精确度;对重要性不高的权重注入较多的扰动噪音,目的是提高模型参数的数据的隐私保护水平:
其中,εT指的是总的隐私预算。
3)保护本地模型参数:此时模型迭代步骤达到最大步骤s,最大步骤所得到的权重为第二权重,为保护参与者的训练数据不被泄漏或被推测,采用差分隐私机制对第二权重进行有差别地扰动,即:对不同重要性的权重添加调整后的拉普拉斯噪音,最终得到扰动权重具体如下:
其中,指的是从拉普拉斯分布中抽样,该分布满足均值为0,该抽样值大小由参数来决定。其中,εp,q是调整后的隐私预算,一般来说隐私预算越大表示噪音值越小,将导致更高的***精确度,也意味着提供更弱的隐私保护水平;Δf是模型权重的敏感度,一般来说,给定两个最多只有一条数据不相同的邻居数据库:D1与D2,计算随机算法Γ的敏感度过程如下:
本实施例提出的数据隐私保护方法,通过参与者获取云服务器发送的第一权重;以及,所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;以及,所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;以及,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器,通过结合权重重要性算法和扰动机制,对参与者与云服务器之间分享的数据即权重进行有差别地扰动,对重要性较高的权重分配较少的扰动噪音,对重要性不高的权重注入较多的扰动噪音,从而提高了互相分享数据的隐私保护水平,同时,提高参与者与云服务器联合训练模型的精确度。
基于第一实施例,提出本发明数据隐私保护方法的第二实施例,在本实施例中,步骤S40之后,还包括:
步骤a,所述云服务器接收所述参与者所发送的扰动权重;
步骤b,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重,其中,所述第二目标模型为所述模型环中所述第一目标模型的前一个模型;
步骤c,所述云服务器将所述第三权重发送至所述参与者,以供所述参与者接收所述第三权重,将所述第三权重作为所述第一权重,并执行所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤。
一实施例中,云服务器中部署了多个深度学习模型,多个深度学习模型组成模型环,当参与者对本地模型迭代完成,并将本地模型参数进行扰动得到扰动权重后,参与者将扰动权重发送至云服务器,并请求新的权重参数进行下一次的联合训练。云服务器接收参与者上传的扰动权重,并将扰动权重输入至模型环中的第一目标模型中。然后,获取模型环中第一模型模型的前一个模型即第二目标模型的权重参数(即第三权重)。云服务器将第一目标模型的前一个模型(第二目标模型)的权重参数(第三权重)发送至参与者,以供参与者进行下一次的联合训练,即以供参与者接受第三权重,将第三权重作为第一权重,并执行参与者基于第一权重以及模型训练规则,迭代参与者对应的本地模型,确定迭代本地模型完成后所述本地模型中各个神经元的第二权重的步骤。
进一步地,一实施例中,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重的步骤之前,还包括:
所述云服务器获取非隐私数据;
所述云服务器基于所述非隐私数据,初始化所述模型环中的目标模型,所述目标模型包括所述第一目标模型以及所述第二目标模型。
进一步地,在参与者与云服务器联合训练模型开始,多个参与者需要联合得到一个更加精确且不会导致局部过拟合的学习模型,参与者与云服务器之间预先协商好一个深度学习的网络结构,如卷积神经网络(CNN),循环神经网络(RNN)等。云服务器与参与者之间协商好所要训练的网络结构后,云服务器对模型环中的深度学习模型进行初始化,云服务器使用公开数据或者历史数据(非隐私数据)对深度学习模型进行训练,得到预设数量的深度学习模型。
进一步地,当参与者对本地模型迭代完成,并将本地模型参数进行扰动得到扰动权重后,参与者将扰动权重发送至云服务器,并请求新的权重参数进行下一次的联合训练。云服务器接收参与者上传的扰动权重,将扰动权重输入至模型环中的第一目标模型中,并获取所述模型环的第二目标模型。若第二目标模型为云服务器初始化的深度学习模型,则发送继续训练指令至参与者,以供参与者将扰动权重作为第一权重,执行所述基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤,即若第二目标模型为云服务器初始化的深度学习模型,云服务器告知该参与者持续用当前模型进行下一轮的训练。
进一步地,一实施例中,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重的步骤之后,还包括:
步骤d,所述云服务器获取所述第一目标模型;
步骤e,所述云服务器将所述第一目标模型作为所述第二目标模型,并执行所述获取所述模型环的第二目标模型的第三权重的步骤。
一实施例中,云服务器将扰动权重输入至云服务器的模型环中的第一目标模型,将第一目标模型作为第二目标模型,以供后续云服务器获取模型环的第二目标模型的第三权重,云服务器将第三权重发送至参与者,从而参与者接收第三权重,将第三权重作为第一权重,基于第一权重以及模型训练规则,迭代参与者对应的本地模型,确定迭代本地模型完成后本地模型中各个神经元的第二权重。
也就是说,当云服务器接收到下一个参与者上传的模型参数,则将下一个参与者的模型参数输入至下一个深度学习模型,以此类推,云服务器轮转着接收参与者发来的本地模型的权重参数,并同时轮转着将权重参数输入至模型环中的深度学习模型中,这样不断更新云服务器中的深度学习模型。具体地,若在云服务器中部署M个深度学习模型,并且云服务器已对模型环上的所有深度学习模型进行初始化,那么一旦接收到参与者发来的模型参数,将模型参数输入至模型环上的第m个深度学习模型(m∈[0,M-1]),然后将第m-1个模型发送给参与者进行下一轮的训练。值得注意的是,第m-1个模型是将上一个与云服务器交互的参与者上传的模型参数输入的深度学习模型。与每个参与者交互之后,执行m←m+1。
进一步地,一实施例中,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器的步骤包括:
步骤f,所述参与者基于所述权重重要性以及扰动机制,对所述权重重要性进行归一化操作,确定权重归一化结果;
步骤g,所述参与者获取总隐私预算,并基于所述权重归一化结果以及所述总隐私预算,确定所述权重重要性对应的隐私预算;
一实施例中,参与者获取总隐私预算,对权重重要性矩阵中的每个权重重要性设定一个隐私预算εp,q,使得对重要性较高的权重分配较少的扰动噪音,目的是提高模型的精确度;对重要性不高的权重注入较多的扰动噪音,目的是提高模型参数的数据的隐私保护水平,不同权重重要性对应的隐私预算的计算公式如下:
其中,εT为总隐私预算。
步骤h,所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重。
一实施例中,此时模型迭代步骤达到最大步骤s,最大步骤所得到的权重为第二权重,为保护参与者的训练数据不被泄漏或被推测,对第二权重进行有差别地扰动,即:对不同重要性的权重添加调整后的拉普拉斯噪音,最终得到扰动权重具体如下:
其中,指的是从拉普拉斯分布中抽样,该分布满足均值为0,该抽样值大小由参数来决定。其中,εp,q是调整后的隐私预算,一般来说隐私预算越大表示噪音值越小,将导致更高的***精确度,也意味着提供更弱的隐私保护水平;Δf是模型权重的敏感度,一般来说,给定两个最多只有一条数据不相同的邻居数据库:D1与D2,计算随机算法Γ的敏感度过程如下:
进一步地,一实施例中,所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重的步骤包括:
步骤i,基于所述隐私预算以及差分隐私机制,对所述第二权重进行扰动,确定干扰所述第二权重后的扰动权重。
一实施例中,此时模型迭代步骤达到最大步骤s,最大步骤所得到的权重为第二权重,为保护参与者的训练数据不被泄漏或被推测,采用差分隐私机制对第二权重进行有差别地扰动,即:对不同重要性的权重添加调整后的拉普拉斯噪音,最终得到扰动权重具体如下:
其中,指的是从拉普拉斯分布中抽样,该分布满足均值为0,该抽样值大小由参数来决定。其中,εp,q是调整后的隐私预算,一般来说隐私预算越大表示噪音值越小,将导致更高的***精确度,也意味着提供更弱的隐私保护水平;Δf是模型权重的敏感度,一般来说,给定两个最多只有一条数据不相同的邻居数据库:D1与D2,计算随机算法Γ的敏感度过程如下:
本实施例提出的数据隐私保护方法,通过所述云服务器接收所述参与者所发送的扰动权重;以及,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重,其中,所述第二目标模型为所述模型环中所述第一目标模型的前一个模型;以及,所述云服务器将所述第三权重发送至所述参与者,以供所述参与者接收所述第三权重,将所述第三权重作为所述第一权重,并执行所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤,云服务器轮转着接收参与者发来的本地模型的权重参数,并同时轮转着将权重参数输入至模型环中的深度学习模型中,这样不断更新云服务器中的深度学习模型,实现异步更新及异步优化,高效地处理物联网应用中实时出现的数据流,防止参与者的本地模型出现局部过拟合的现象。
基于第一实施例,提出本发明数据隐私保护方法的第三实施例,在本实施例中,步骤S30包括:
步骤j,所述参与者基于所述第二权重以及权重重要性算法,确定所述本地模型的神经元重要性;
步骤k,所述参与者基于所述神经元重要性,确定所述第二权重对应的权重重要性。
一实施例中,参与者迭代本地模型完成后,运行权重重要性算法,首先,确定神经元重要性,之后基于神经元重要性,确定第二权重对应的权重重要性。可以理解的是,计算神经元重要性来作为计算权重重要性的中间参数。
具体地,运行权重重要性算法,确定第二权重对应的权重重要性的具体过程如下:
2)计算输出层神经元重要性:首先计算输出层中各个神经元ap对模型预测值的重要性即输出层神经元重要性,其中,输出层神经元对模型预测值的重要性为该神经元的输出值,也就是模型的输出值,输出层神经元重要性的计算公式如下:
3)计算权重重要性:参与者从后往前逐层递推,计算相邻层间权重wp,q对模型预测值的重要性,假设是第h-1层神经元ap和第h层神经元aq,第h-1层神经元ap和第h层神经元ap之间的权重重要性计算公式如下:
其中,公式中的ap指的是除输出层外其他各层神经元ap的输出值。
5)重复步骤3)和步骤4),直到本地模型中的全部权重重要性计算完毕,最终确定第二权重对应的权重重要性。
进一步地,一实施例中,所述确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤包括:
步骤m,所述参与者获取迭代所述本地模型的迭代步骤;
步骤n,所述参与者若检测到所述迭代步骤达预设步骤,则确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重。
一实施例中,参与者终端时刻在检测迭代本地模型是否达到预设步骤,当模型迭代步骤达到最大步骤s时,最大步骤s即预设步骤,停止迭代本地模型,确定迭代本地模型完成后本地模型中各个神经元的第二权重。
本实施例提出的数据隐私保护方法,通过所述参与者基于所述第二权重以及权重重要性算法,确定所述本地模型的神经元重要性;以及,所述参与者基于所述神经元重要性,确定所述第二权重对应的权重重要性,通过权重重要性算法,确定不同权重的权重重要性,从而可以对参与者与云服务器之间分享的数据即权重进行有差别地扰动,对重要性较高的权重分配较少的扰动噪音,对重要性不高的权重注入较多的扰动噪音,因此提高了互相分享数据的隐私保护水平,同时,提高参与者与云服务器联合训练模型的精确度。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据隐私保护程序,所述数据隐私保护程序被处理器执行时实现如上述中任一项所述的数据隐私保护方法的步骤。
本发明计算机可读存储介质具体实施例与上述数据隐私保护方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据隐私保护方法,其特征在于,所述数据隐私保护方法包括以下步骤:
参与者获取云服务器发送的第一权重;
所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重;
所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性;
所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器。
2.如权利要求1所述的数据隐私保护方法,其特征在于,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器的步骤之后,还包括:
所述云服务器接收所述参与者所发送的扰动权重;
所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重,其中,所述第二目标模型为所述模型环中所述第一目标模型的前一个模型;
所述云服务器将所述第三权重发送至所述参与者,以供所述参与者接收所述第三权重,将所述第三权重作为所述第一权重,并执行所述参与者基于所述第一权重以及模型训练规则,迭代所述参与者对应的本地模型,确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤。
3.如权利要求2所述的数据隐私保护方法,其特征在于,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重的步骤之后,还包括:
所述云服务器获取所述第一目标模型;
所述云服务器将所述第一目标模型作为所述第二目标模型,并执行所述获取所述模型环的第二目标模型的第三权重的步骤。
4.如权利要求2所述的数据隐私保护方法,其特征在于,所述云服务器将所述扰动权重输入至所述云服务器的模型环中的第一目标模型,并获取所述模型环的第二目标模型的第三权重的步骤之前,还包括:
所述云服务器获取非隐私数据;
所述云服务器基于所述非隐私数据,初始化所述模型环中的目标模型,所述目标模型包括所述第一目标模型以及所述第二目标模型。
5.如权利要求1所述的数据隐私保护方法,其特征在于,所述参与者基于所述第二权重、所述权重重要性以及扰动机制,确定干扰所述第二权重后的扰动权重,并将所述扰动权重发送至云服务器的步骤包括:
所述参与者基于所述权重重要性以及扰动机制,对所述权重重要性进行归一化操作,确定权重归一化结果;
所述参与者获取总隐私预算,并基于所述权重归一化结果以及所述总隐私预算,确定所述权重重要性对应的隐私预算;
所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重。
6.如权利要求5所述的数据隐私保护方法,其特征在于,所述参与者基于所述第二权重以及所述隐私预算,确定干扰所述第二权重后的扰动权重的步骤包括:
所述参与者基于所述隐私预算以及差分隐私机制,对所述第二权重进行扰动,确定干扰所述第二权重后的扰动权重。
7.如权利要求1所述的数据隐私保护方法,其特征在于,所述参与者基于所述第二权重以及权重重要性算法,确定所述第二权重对应的权重重要性的步骤包括:
所述参与者基于所述第二权重以及权重重要性算法,确定所述本地模型的神经元重要性;
所述参与者基于所述神经元重要性,确定所述第二权重对应的权重重要性。
8.如权利要求1至7任一项所述的数据隐私保护方法,其特征在于,所述确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重的步骤包括:
所述参与者获取迭代所述本地模型的迭代步骤;
所述参与者若检测到所述迭代步骤达预设步骤,则确定迭代所述本地模型完成后所述本地模型中各个神经元的第二权重。
9.一种数据隐私保护装置,其特征在于,所述数据隐私保护装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据隐私保护程序,所述数据隐私保护程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据隐私保护方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据隐私保护程序,所述数据隐私保护程序被处理器执行时实现如权利要求1至8中任一项所述的数据隐私保护方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029622.2A CN111241582B (zh) | 2020-01-10 | 2020-01-10 | 数据隐私保护方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029622.2A CN111241582B (zh) | 2020-01-10 | 2020-01-10 | 数据隐私保护方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241582A true CN111241582A (zh) | 2020-06-05 |
CN111241582B CN111241582B (zh) | 2022-06-10 |
Family
ID=70880828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010029622.2A Active CN111241582B (zh) | 2020-01-10 | 2020-01-10 | 数据隐私保护方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241582B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492428A (zh) * | 2018-10-29 | 2019-03-19 | 南京邮电大学 | 一种面向主成分分析的差分隐私保护方法 |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN109902506A (zh) * | 2019-01-08 | 2019-06-18 | 中国科学院软件研究所 | 一种多隐私预算的本地差分隐私数据分享方法和*** |
CN110084380A (zh) * | 2019-05-10 | 2019-08-02 | 深圳市网心科技有限公司 | 一种迭代训练方法、设备、***及介质 |
CN110443063A (zh) * | 2019-06-26 | 2019-11-12 | 电子科技大学 | 自适性保护隐私的联邦深度学习的方法 |
-
2020
- 2020-01-10 CN CN202010029622.2A patent/CN111241582B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492428A (zh) * | 2018-10-29 | 2019-03-19 | 南京邮电大学 | 一种面向主成分分析的差分隐私保护方法 |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN109902506A (zh) * | 2019-01-08 | 2019-06-18 | 中国科学院软件研究所 | 一种多隐私预算的本地差分隐私数据分享方法和*** |
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN110084380A (zh) * | 2019-05-10 | 2019-08-02 | 深圳市网心科技有限公司 | 一种迭代训练方法、设备、***及介质 |
CN110443063A (zh) * | 2019-06-26 | 2019-11-12 | 电子科技大学 | 自适性保护隐私的联邦深度学习的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111241582B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7157154B2 (ja) | 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索 | |
US10474950B2 (en) | Training and operation of computational models | |
JP7439151B2 (ja) | ニューラルアーキテクチャ検索 | |
CN110520871A (zh) | 训练机器学习模型 | |
WO2021151336A1 (zh) | 基于注意力机制的道路图像目标检测方法及相关设备 | |
WO2019018375A1 (en) | NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS | |
CN109690576A (zh) | 在多个机器学习任务上训练机器学习模型 | |
US11922281B2 (en) | Training machine learning models using teacher annealing | |
CN109918684A (zh) | 模型训练方法、翻译方法、相关装置、设备及存储介质 | |
WO2021174877A1 (zh) | 基于智能决策的目标检测模型的处理方法、及其相关设备 | |
EP4187440A1 (en) | Classification model training method, hyper-parameter searching method, and device | |
US20220044109A1 (en) | Quantization-aware training of quantized neural networks | |
Qu et al. | Privacy protection in intelligent vehicle networking: A novel federated learning algorithm based on information fusion | |
CN106803092B (zh) | 一种标准问题数据的确定方法及装置 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN114281976A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN112446462B (zh) | 目标神经网络模型的生成方法和装置 | |
CN117217284A (zh) | 一种数据处理方法及其装置 | |
CN110580171B (zh) | App分类方法、相关装置及产品 | |
CN116258657A (zh) | 模型训练方法、图像处理方法、装置、介质及电子设备 | |
CN111178082A (zh) | 一种句向量生成方法、装置及电子设备 | |
US20190324606A1 (en) | Online training of segmentation model via interactions with interactive computing environment | |
CN111241582B (zh) | 数据隐私保护方法、装置及计算机可读存储介质 | |
CN112381236A (zh) | 联邦迁移学习的数据处理方法、装置、设备及存储介质 | |
CN117453933A (zh) | 一种多媒体数据推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |