CN112199717B - 一种基于少量公共数据的隐私模型训练方法及装置 - Google Patents

一种基于少量公共数据的隐私模型训练方法及装置 Download PDF

Info

Publication number
CN112199717B
CN112199717B CN202011065611.6A CN202011065611A CN112199717B CN 112199717 B CN112199717 B CN 112199717B CN 202011065611 A CN202011065611 A CN 202011065611A CN 112199717 B CN112199717 B CN 112199717B
Authority
CN
China
Prior art keywords
data
privacy
model
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011065611.6A
Other languages
English (en)
Other versions
CN112199717A (zh
Inventor
葛仕明
刘浩林
刘博超
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202011065611.6A priority Critical patent/CN112199717B/zh
Publication of CN112199717A publication Critical patent/CN112199717A/zh
Application granted granted Critical
Publication of CN112199717B publication Critical patent/CN112199717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于少量公共数据的隐私模型训练方法及电子装置,包括:使用若干训练得到N个神经网络教师模型;将少量的公共数据xi分别输入N个神经网络教师模型,得到各公共数据xi对各标签k的统计投票结果;对各统计投票结果添加噪声,获取满足差分隐私原理的公共数据xi及相应标签;通过大量的随机噪声向量与一预训练判别神经网络,优化对抗生成网络,并生成大量无标注数据;通过满足差分隐私原理的公共数据xi及相应标签、大量无标注数据对预训练的自编码器联合训练学生模型,得到隐私学生模型。本发明只需少量公共数据即可训练一个隐私学生模型,实现对敏感数据的物理隔离和网络隔离,解决了隐私学生模型的精确度不高这一问题。

Description

一种基于少量公共数据的隐私模型训练方法及装置
技术领域
本发明属于互联网领域,具体而言,涉及一种基于差分隐私、半监督学习、教师学生知识聚合的神经网络模型隐私保护训练方法和装置。
背景技术
近些年,深度学习技术在许多的领域取得了令人震惊的突破性进展,比如在计算机视觉、自然语言处理、强化学习等领域,同时,深度学习技术的发展也离不开大量的训练数据,当前许多极其有力的应用都使用大量敏感的数据进行训练模型,例如,使用大量患者的医疗数据进行训练医疗诊断***、利用大量用户金融数据进行金融风险控制等。
虽然深度学习工具能极大的便利工业生产生活,但是近年来的研究表明,深度学习模型容易受到黑客的攻击,攻击者常常通过不断的查询目标模型来分析数据,进一步地推断出模型训练时记住地敏感数据来窃取相关的隐私数据。
针对以上问题,现有的解决方法都将差分隐私引入模型的训练当中,以防止敏感数据被窃取,具体的有以下几种方法:
一、采用差分隐私随机梯度下降算法(DP-SGD)和自适应的Laplace机制(AdLM)等差分隐私深度学习算法,给模型在训练过程中的梯度加上较大的噪声,以满足差分隐私保护机制,难以满足训练优化的灵活性和模型的准确性。
二、基于差分隐私的对抗生成网络,在训练生成器的过程中引入噪声,训练一个满足差分隐私的生成器,相对于不加噪声训练的生成器,隐私生成器模型的准确性往往有较大的牺牲。
三、基于差分隐私的联邦学习,联邦学习可以使多个用户之间无需进行数据交换就能实现跨用户协同训练AI模型,联邦学习在传输梯度数据过程中易受到攻击,攻击者可推理出训练的隐私数据,将高斯噪声加入用户端模型训练过程中,避免梯度参数直接暴露在传输过程中,训练的过程灵活性不强,模型的准确性不高。
上述现有技术的缺陷主要是:1.模型复杂度高,训练困难;2.模型准确度不佳。3.模型安全性差。
发明内容
本发明提供了一种基于少量公共数据的隐私模型训练方法及装置,以解决神经网络模型采用敏感数据训练隐私被攻击者窃取的问题。
本发明的技术方案为:
一种基于少量公共数据的隐私模型训练方法,其步骤包括:
1)使用若干包含N个部分敏感数据的样本数据,训练得到N个神经网络教师模型,N≥1;
2)将少量的公共数据xi分别输入N个神经网络教师模型,并对各神经网络教师模型输出结果进行统计投票,得到各公共数据xi对各标签Bk的统计投票结果,i为公共数据的序号,k为标签类别;
3)对各统计投票结果添加噪声,获取满足差分隐私原理的公共数据xi及相应标签;
4)通过大量的随机噪声向量与一预训练判别神经网络,优化一对抗生成网络,并生成大量无标注数据1≤m≤M,M为优化对抗生成网络的次数,p为大量无标注数据的序号;
5)通过满足差分隐私原理的公共数据xi及相应标签、大量无标注数据以及预训练的自编码器联合训练学生模型,得到隐私学生模型。
进一步地,所述神经网络教师模型的结构包括:卷积神经网络结构、循环神经网络结构或LSTM结构。
进一步地,训练神经网络教师模型的方法包括:SGD、Momentum、Adagrad或Adam。
进一步地,所述噪声包括:高斯噪声或拉普拉斯噪声。
进一步地,通过以下步骤获取满足差分隐私原理的公共数据xi的相应标签:
1)在一公共数据xi对各标签Bk的统计投票结果中,选取数值最大投票结果;
2)在数值最大投票结果上加入高斯分布第一标准差参数σ1,并与一设定门限值比较;
3)若不小于所述设定门限值,则对各标签Bk的投票结果上加入高斯分布噪声并将数值最大投票结果相应的标签Bk作为满足差分隐私原理的公共数据xi的相应标签,其中,σ2为高斯分布第二标准差参数。
进一步地,优化对抗生成网络的损失函数LG=αLh+βLa+γLf,其中信息熵损失函数Hinfo()为数据类别k生成概率的信息熵表示,/>为预训练判别神经网络对生成网络输出xi′的预测结果,xi′通过将随机噪声向量zi′输入对抗生成网络得到,1≤i′≤b,b为随机噪声向量的数量,激活损失函数/> 为预训练判别网络全连接层之前的输出,独热编码损失函数/>t为预训练判别神经网络的预测标签,Hcross()为交叉熵损失函数,α、β、γ为对抗生成网络的超参数。
进一步地,预训练的自编码器包括:预训练VAE模型。
进一步地,对学生模型训练时,损失函数LN=lsup1Lt2Ln3Le,其中,θ1、θ2、θ3为调节的超参数,监督损失函数lsup为隐私学生模型针对满足差分隐私原理公共数据xi的监督交叉熵损失函数,Lt为无标注数据的潜在数据流形的切向空间损失函数,Ln为无标注数据的潜在数据流形的法向空间损失函数,Le为交叉熵正则损失函数。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明的积极效果为:
1.创新性地引入了对抗生成网络,使得只需极少量的少量公共数据即可训练一个隐私学生模型,易于部署在常见的应用场景。
2.创新性地使用教师集合隐私***,实现了对敏感数据的物理隔离和网络隔离,易于部署,差分隐私模块能提供可控性更强、隐私保护开销更小的敏感数据隐私保护。
3.创新性地使用教师集合隐私训练***,通过使用隔离网闸技术、物理隔离卡等技术,实现对敏感数据的物理隔离,通过设计差分隐私聚合模块,提供可控性更强、隐私开销更小的敏感数据隐私保护。
4.创新性的针对少量公共数据训练隐私学生模型,使用了半监督学习方法,有效的解决了隐私学生模型的精确度不高这一问题。
附图说明
图1为本发明的少量公共数据的隐私模型训练优化框架示意图。
图2为本发明的教师集合训练流程图。
图3为本发明的差分隐私聚合流程图。
图4为本发明的公共数据生成流程图。
图5为本发明的隐私模型训练流程图。
图6为本发明的一个简易装置示例图。
图7为本发明的一个应用场景示例。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的隐私模型训练方法,包括以下步骤:
1)对于N个部分的敏感数据,每个部分的数据都不相同,用N部分数据训练N个神经网络教师模型,得到教师集合模型{f1...fn};
进一步地,所述N个神经网络教师模型{f1...fn},可以是使用相同的网络结构,也可以是不同的网络结构,例如使用相同的层数的卷积神经网络结构,或者使用不同层数、不同尺寸的卷积神经网络结构;
2)使用训练好的教师集合模型作为预测模型{f1...fn},对少量公共数据{x1...xu}进行预测,得到预测的批量one-hot结果为{y1...yn},进一步的得到N个模型对少量公共数据的统计投票结果nk(x)=||{j:fj(x)=k}||0,将统计投票结果输入差分隐私聚合器,,得到教师集合隐私保护***的输出输出为查询样本xj统计投票最大值对应的类别k,即为查询样本xj的标签,***可以通过查询的方式对数据进行预测,同时***整体实行严格的物理和网络保护,使得对用户和攻击者不可见;
进一步地,one-hot结果为每个教师模型预测出的二值化的结果,0代表不是,1代表是,{y1...yn}为对N个教师模型对少量公共数据预测的结果,nk(x)=||{j:fj(x)=k}||0表示为教师模型预测为第k类别的统计投票值,将nk(x)输入差分隐私聚合器,差分隐私聚合器将对输入nk(x)加入高斯噪声N代表其服从高斯分布,其输出中的/>不限于为高斯分布,可以为拉普拉斯分布,***通过查询的方式对数据进行预测;
进一步地差分隐私聚合器的实现方法为:设定一组初始化参数:门限值T,高斯分布的标准差参数{σ1,σ2},如果统计投票结果的最大值加上标准差为σ1的高斯分布噪声,大于等于门限值T,公式化表示为:那么给统计投票结果加上标准差为σ2的高斯分布噪声,公式化表示为:/> 否则,统计投票结果不进行任何处理,并且不输出统计投票结果;
3)使用差分隐私聚合器输出的带噪标签{l1...ll}及其对应的数据{x1...xl},作为隐私学生模型训练数据的一部分;
4)具体的隐私学生模型训练采用以下的步骤;
5)首先使用预训练的判别器优化生成器,使用LG作为损失函数优化生成器,每一阶段优化结束,使用生成器生成大量的无标签公共数据{x1...xp},隐私学生模型将此无标签数据作为训练数据的另一部分;
进一步地LG=αLh+βLa+γLf,其中Lh为one-hot损失函数,计算判别器的输出与判别的one-hot输出的交叉熵,La为激活损失函数,计算生成器的全连接层之前的特征的L1范数,Lf为信息交叉熵损失函数,计算生成器的输出的交叉熵,α、β、γ为需要调节的超参数。
6)使用少量得到数据标签的公共数据及其标签{x1...xl}、{l1...ll},无标注数据{x1...xp},以及预训练的自编码器联合训练隐私学生模型,使用Ls=Lsup1Lt2Ln3Le损失函数进行优化;
进一步地Lsup为隐私学生模型针对标注数据的监督交叉熵损失函数,其中,θ1、θ2、θ2为调节参数,Lt为无标注数据的潜在数据流形的切向空间损失函数,Ln为无标注数据的潜在数据流形的法向空间损失函数,Le为交叉熵正则损失函数;
7)迭代训练步骤5)、6)直至收敛,学习得到高精度的隐私学生模型。
这里的意思是,先使用随机噪声向量{z1,z2,...,zn},生成无标注数据{x1…xp},通过少量公共数据及其标签{x1…xl}、{l1...ll}及无标注数据{x1...xp}进行训练,若未达成目标,优化训练生成器,重新生成无标注数据{x1...xp},接着再同样使用少量公共数据及其标签{x1...xl}、{l1...ll}及无标注数据{x1...xp}进行训练,直到收敛。
一种基于少量公共数据的神经网络模型隐私保护训练装置,其包括:
教师集合训练器,用于训练本地隐私数据的N个深度神经网络教师模型,将训练好的模型,对任意的输入样本进行预测,并输出N个深度神经网络教师模型的统计投票结果;差分隐私聚合器,用于给教师集合训练器输出的统计投票结果,加上满足差分隐私理论的噪声,然后输出教师投票的最大值作为样本的标签值。
公共数据生成器,用于通过预训练的判别器优化生成器,并输出无标签的公共数据。
隐私模型训练器,用于通过差分隐私聚合器生成的样本标签和对应的样本、公共数据生成器输出的无标签公共数据,输出优化后的隐私模型。
根据本发明实施例的一方面,提供了一种隐私模型的训练方法的方法实施例。本发明的方法流程如图1所示。本发明的方法框架包含深度神经网络(DNN)的数目不是固定的,主要由教师集合训练器、差分隐私聚合器、公共数据生成器和隐私模型训练器四个模块组成,特别的图1中虚线框代表着四个模块组成的***与外界进行物理隔离。
一.教师集合训练器
本发明构建基于DNN的教师集合训练器。具体地,教师集合训练器将N部分的敏感数据分别进行训练N个教师模型,具体的模型结构不限于采用卷积神经网络结构、循环神经网络结构、LSTM等结构,教师模型的优化方法不限于采用SGD、Momentum、Adagrad、Adam等方式,N部分的敏感数据表示为{1...n},训练优化后的N个教师模型表示为{f1...fn},训练优化后的模型,用于对任意的数据输入xi,输出一个教师集合的投票结果为nk(xi)=||{j:fj(xi)=k}||0,其中nk(xi)为教师投票为第k的统计计数结果。其中k代表数据的标签类别,教师集合训练器的流程如图2所示。
该教师集合训练器的优点在于,对于任意的输入,教师集合训练器能得到一个是大多数教师共识的一个预测结果,保证模型的准确性,减小了输出的随机性。
二.差分隐私聚合器
教师集合训练器能得到一个较为准确的预测结果,然而却面临着被恶意攻击者攻击的风险,近些年的研究表明,恶意攻击者可以通过白盒攻击或者黑盒攻击方式,恢复出被教师集合训练器隐性记住的敏感数据,从而达到泄露用户隐私的目的,针对此种情形,构建一个差分隐私聚合器,该模块主要用于给教师集合训练器的输出结果加上差分隐私,从而保护敏感数据。具体地,本模块通过以下的步骤对教师集合训练器的输出结果加上噪声,满足差分隐私理论;首先输入教师集合训练器对查询样本xi的统计投票结果nk(xi),并初始化门限值T、高斯分布标准差参数{σ1,σ2},将教师集合训练器的统计投票取最大的投票值在此上加上服从标准差参数为σ1,均值为0的高斯分布噪声/>与门限值T进行比较大小,若大于等于T值,则对教师集合训练起的各统计投票值nk(xi)加上服从标准差参数为σ2,均值为0的高斯分布噪声/>最终取该结果的最大投票值对应的类别作为查询样本xi的标签,差分隐私聚合器最终输出结果为敏感数据xi投票最大值,最大值对应的类别k;若小于T值,则对此次输入的查询样本xi的统计投票结果nk(xi)不做任何处理,直接舍弃该投票结果,差分隐私聚合器的流程如图3所示。
该模块的优点体现在:给教师模型的共识加上了高斯分布的随机噪声,使得满足差分隐私理论,能进一步的保护敏感数据不被攻击者窃取和泄露。
基于此,本模块构建了一个基于DNN的标签去噪优化与集成决策模型Φt,具体地,模型由11个全连接层构成,
该模块的优点体现在:有效地利用了既有弱标签所蕴含的对场景数据的理解能力,通过知识再整合,用于提升模型在具体业务上的表现,形成了一个通用的模型框架。
三.公共数据生成器
为了有效的提高隐私模型训练后的有效性,本模块构建了公共数据生成器,用于生成大量无标签的公共数据辅助隐私学生模型进行训练,具体地,采用以下的步骤来生成无标签的公共数据,使用对抗生成网络框架,通过将预训练的模型作为判别器,来优化生成网络,生成网络从噪声中生成逼真的公共数据,进一步的使用判别器判别真假,将生成网络和判别器分别表示为G,fT,给定以随机噪声向量{z1,z2,...,zb}作为生成网络的输入,则生成网络的输出为{x1,x2,...,xb},其中xi=G(zi),判别器对生成网络输出进行判别,得到预测的输出结果其中/>进一步地得到输出结果的预测标签则/>对应的预测标签为{t1,t2,...,tb},将独热编码损失函数Lh来优化判别器输出的结果与独热编码相似,其中/>Hcross(p,q)为交叉熵损失函数,其中p,q为独立的概率分布,卷积层取出的特征图包含有关于输入的丰富信息,真实的输入相比于随机噪声,将在特征图中具有极高的激活值,通过采用判别网络全连接层之前的输出/>来构建激活损失函数La来指导优化生成网络,具体地/>其中||·||1代表1范数。为了使得生成网络生成的样本的类别保持平衡,采用信息熵来度量样本类别生成的概率p′,信息熵表示为/>进一步地使用信息熵损失函数Lf,其中/>采用下式LG=αLh+βLa+γLf进行联合优化生成网络,其中α,α,β为需要调节的超参数,通过最小化LG得到能够生成逼真样本的生成网络,从而生成大量的无标注的公共数据。公共数据生成器的流程如图4所示。
该模块的优点体现在:统一融合了模型和知识,创新性地构建了生成网络模型优化策略,利用判别器的知识引导模型优化,从而提高生成模型的生成真实数据的能力。
四.隐私模型训练器
利用少量公共数据及其标签{x1...xl}、{l1...ll},无标注数据{x1...xp}作为隐私学生模型的训练数据,本模块构建了隐私模型训练器,用于训练一个隐私保护性能强、模型性能好的可发布隐私学生模型。具体地,采用一个预训练VAE模型来寻找训练数据空间潜在数据的流形空间,对于输入x∈M,其中M为训练数据潜在的流行空间,编码器和解码器分别表示为h(x),g(z),其中z=h(x),对VAE模型的任意的数据输入x,在VAE模型的中间隐层表示z分别加入扰动r和扰动以限制潜在的数据流行空间分别在切向空间和法向空间的平滑性,这里的切线空间平行于潜在的数据流行空间,法向空间正交与潜在的数据流行空间,通过采用切向空间正则损失函数、法向空间正则损失函数、交叉熵损失函数、监督损失函数来联合优化隐私学生模型。其中切向空间正则损失函数表示为:
其中r为对抗扰动,其中z=h(x),为自编码器的中间隐层表示,其中θ是模型训练的参数,τ是一个控制对抗扰动r的常量,MΔ为潜在数据流行的切向空间,J为求雅克比矩阵,Rd为真实输入空间,x为输入的样本,为虚拟对抗损失函数,其中dist采用交叉熵来度量两个不同分布之间的差异性,具体地上式求解采用迭代计算共轭梯度来完成,同样的对于法向空间正则损失函数也可以表示为:
其中ε是一个控制对抗扰动的常量,同样的可以转化为使用迭代计算共轭梯度来完成,监督损失函数表示为
lsup=l(yl,p(y|xl,θ))
其中yl为少量公共数据标签,xl为少量公共数据数据,y为预测结果,交叉熵损失函数表示为
通过总的损失函数LN=lsup1Lt2Ln3Le来指导优化一个隐私学生模型,最终得到一个可发布的高精度隐私模型,隐私模型训练器的流程如图5所示。
该模块的优点体现在:统一融合了带噪标签数据和无标签公共数据,创新性地构建了隐私学生模型优化策略,利潜在的数据流行空间知识引导模型优化,从而提高隐私模型可用性及其泛化能力。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
下面结合图6对本发明在具体场景中的利用进行描述。
如图6,将已有的少量公共数据作为输入,经本发明提出的基于少量公共数据的隐私模型训练方法与装置即可得到一个与之相适应的高精度、强隐私保护的隐私学生模型,进而实现隐私保护和模型可用的双重目的。
当前在多家医院往往都在与相关部门合作,开发精准的医学诊断模型,然而出于隐私保护的目的,医院之间的病人数据往往不共享,如图7,将所有的医院数据接入基于少量公共数据的隐私模型训练方法及装置,可以得到一个可以发布的隐私学生模型,进而可以将其部署到各种用户终端,相比于其他技术而言,在发布隐私学生模型之前,不仅可以通过物理隔离保护敏感数据,而且在训练过程中可以通过隐私模型训练方法保护敏感数据不被窃取,相比于PATE方法而言,本发明,仅需要少量的公共数据,大大减少隐私学生模型训练部署的难度,提升了方法的实用性。
本发明的以上技术方案中,未详细描述的部分可以采用现有技术实现。
本发明方案中,所提到的网络的结构并不仅限于卷积神经网络,而可以根据具体业务场景设计具体的网络架构(例如,循环神经网络等)。本发明方案中定义的距离函数均可替换为其他广义距离度量。

Claims (7)

1.一种基于少量公共数据的隐私模型训练方法,其步骤包括:
1)使用若干包含N个部分敏感数据的样本数据,训练得到N个神经网络教师模型,N≥1;
2)将少量的公共数据xi分别输入N个神经网络教师模型,并对各神经网络教师模型输出结果进行统计投票,得到各公共数据xi对各标签Bk的统计投票结果,i为公共数据的序号,k为标签类别;
3)对各统计投票结果添加噪声,获取满足差分隐私原理的公共数据xi及相应标签;其中,获取满足差分隐私原理的公共数据xi的相应标签,包括:
在一公共数据xi对各标签Bk的统计投票结果中,选取数值最大投票结果;
在数值最大投票结果上加入高斯分布第一标准差参数σ1,并与一设定门限值比较;
若不小于所述设定门限值,则对各标签Bk的投票结果上加入高斯分布噪声并将数值最大投票结果相应的标签Bk作为满足差分隐私原理的公共数据xi的相应标签,其中,σ2为高斯分布第二标准差参数
4)通过大量的随机噪声向量与预训练判别神经网络,优化对抗生成网络,并生成大量无标注数据其中,1≤m≤M,M为优化对抗生成网络的次数,p为大量无标注数据的序号,优化所述对抗生成网络的损失函数LG=αLh+βLa+γLf,信息熵损失函数/> Hinfo()为数据类别k生成概率的信息熵表示,/>为预训练判别神经网络对生成网络输出xi′的预测结果,xi′通过将随机噪声向量zi′输入对抗生成网络得到,1≤i′≤b,b为随机噪声向量的数量,激活损失函数/> 为预训练判别网络全连接层之前的输出,独热编码损失函数/>t为预训练判别神经网络的预测标签,Hcross()为交叉熵损失函数,α、β、γ为对抗生成网络的超参数;
5)通过满足差分隐私原理的公共数据xi及相应标签、大量无标注数据以及预训练的自编码器联合训练学生模型;其中,对学生模型训练时,损失函数LN=lsup1Lt2Ln3Le,θ1、θ2、θ3为调节的超参数,监督损失函数lsup为隐私学生模型针对满足差分隐私原理公共数据xi的监督交叉熵损失函数,Lt为无标注数据的潜在数据流形的切向空间损失函数,Ln为无标注数据的潜在数据流形的法向空间损失函数,Le为交叉熵正则损失函数;
6)重复步骤4)和步骤5)直至收敛,得到隐私学生模型。
2.如权利要求1所述的方法,其特征在于,所述神经网络教师模型的结构包括:卷积神经网络结构、循环神经网络结构或LSTM结构。
3.如权利要求1所述的方法,其特征在于,训练神经网络教师模型的方法包括:SGD、Momentum、Adagrad或Adam。
4.如权利要求1所述的方法,其特征在于,所述噪声包括:高斯噪声或拉普拉斯噪声。
5.如权利要求1所述的方法,其特征在于,预训练的自编码器包括:预训练VAE模型。
6.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-5中任一所述方法。
7.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-5中任一所述方法。
CN202011065611.6A 2020-09-30 2020-09-30 一种基于少量公共数据的隐私模型训练方法及装置 Active CN112199717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011065611.6A CN112199717B (zh) 2020-09-30 2020-09-30 一种基于少量公共数据的隐私模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011065611.6A CN112199717B (zh) 2020-09-30 2020-09-30 一种基于少量公共数据的隐私模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN112199717A CN112199717A (zh) 2021-01-08
CN112199717B true CN112199717B (zh) 2024-03-22

Family

ID=74013828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011065611.6A Active CN112199717B (zh) 2020-09-30 2020-09-30 一种基于少量公共数据的隐私模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN112199717B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885468A (zh) * 2021-01-26 2021-06-01 深圳大学 一种基于随机响应差分隐私技术的教师共识聚集学习方法
CN112766422B (zh) * 2021-03-15 2022-11-15 山东大学 一种基于轻量级人脸识别模型的隐私保护方法
CN113052338B (zh) * 2021-03-31 2022-11-08 上海天旦网络科技发展有限公司 基于规则与模型增强的运维告警规则生成方法和***
CN113807536B (zh) * 2021-04-01 2024-04-16 京东科技控股股份有限公司 一种数据处理方法、装置及电子设备
CN114169007B (zh) * 2021-12-10 2024-05-14 西安电子科技大学 基于动态神经网络的医疗隐私数据识别方法
CN113961967B (zh) * 2021-12-13 2022-03-22 支付宝(杭州)信息技术有限公司 基于隐私保护联合训练自然语言处理模型的方法及装置
CN114912624A (zh) * 2022-04-12 2022-08-16 支付宝(杭州)信息技术有限公司 针对业务模型的纵向联邦学习方法及装置
CN114943101B (zh) * 2022-05-18 2024-05-17 广州大学 一种隐私保护的生成模型构建方法
CN116383884B (zh) * 2023-04-14 2024-02-23 天翼安全科技有限公司 一种基于人工智能的数据安全防护方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
WO2018201009A1 (en) * 2017-04-28 2018-11-01 Anonos Inc. Systems and methods for enforcing centralized privacy controls in de-centralized systems
CN110070183A (zh) * 2019-03-11 2019-07-30 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
CN110647765A (zh) * 2019-09-19 2020-01-03 济南大学 协同学习框架下基于知识迁移的隐私保护方法及***
CN111091193A (zh) * 2019-10-31 2020-05-01 武汉大学 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016101665A1 (de) * 2015-01-29 2016-08-04 Affectomatics Ltd. Auf datenschutzüberlegungen gestützte filterung von messwerten der affektiven reaktion
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
FR3079329A1 (fr) * 2018-03-20 2019-09-27 Idemia Identity & Security France Procedes d'apprentissage de parametres d'un reseau de neurones a convolution, et de classification d'une donnee d'entree

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018201009A1 (en) * 2017-04-28 2018-11-01 Anonos Inc. Systems and methods for enforcing centralized privacy controls in de-centralized systems
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN110070183A (zh) * 2019-03-11 2019-07-30 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
CN110647765A (zh) * 2019-09-19 2020-01-03 济南大学 协同学习框架下基于知识迁移的隐私保护方法及***
CN111091193A (zh) * 2019-10-31 2020-05-01 武汉大学 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于DCGAN反馈的深度差分隐私保护方法;毛典辉;李子沁;蔡强;薛子育;;北京工业大学学报(第06期);全文 *
基于加权贝叶斯网络的隐私数据发布方法;王良;王伟平;孟丹;;计算机研究与发展(第10期);全文 *

Also Published As

Publication number Publication date
CN112199717A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112199717B (zh) 一种基于少量公共数据的隐私模型训练方法及装置
Liang et al. Explaining the black-box model: A survey of local interpretation methods for deep neural networks
Kumar et al. Blockchain-federated-learning and deep learning models for covid-19 detection using ct imaging
Mohammadpour et al. A survey of CNN-based network intrusion detection
Edalatpanah Neutrosophic structured element
Zegeye et al. Multi-layer hidden Markov model based intrusion detection system
Chen et al. The distance of random permutation set
CN112885468A (zh) 一种基于随机响应差分隐私技术的教师共识聚集学习方法
Cao et al. Two-level attention model of representation learning for fraud detection
Huang Network Intrusion Detection Based on an Improved Long‐Short‐Term Memory Model in Combination with Multiple Spatiotemporal Structures
CN110210540A (zh) 基于注意力机制的跨社交媒体用户身份识别方法及***
Singh et al. [Retracted] Medical Image Captioning Using Optimized Deep Learning Model
Sun et al. Adversarial learning for cross-project semi-supervised defect prediction
CN115579141A (zh) 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
Lu et al. Self‐supervised domain adaptation for cross‐domain fault diagnosis
Wang et al. Knowledge graph embedding model with attention-based high-low level features interaction convolutional network
Chang et al. Research on side-channel analysis based on deep learning with different sample data
Li et al. [Retracted] Deep Learning and Improved HMM Training Algorithm and Its Analysis in Facial Expression Recognition of Sports Athletes
CN114513337A (zh) 一种基于邮件数据的隐私保护链接预测方法及***
Chen et al. CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19
He et al. Fast and accurate deep leakage from gradients based on wasserstein distance
Ye et al. MedAttacker: Exploring black-box adversarial attacks on risk prediction models in healthcare
Tong et al. Learning discriminative text representation for streaming social event detection
CN115620342A (zh) 跨模态行人重识别方法、***及计算机
Huang et al. A deep learning approach for predicting critical events using event logs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant