CN112765653B - 一种多隐私策略组合优化的多源数据融合隐私保护方法 - Google Patents

一种多隐私策略组合优化的多源数据融合隐私保护方法 Download PDF

Info

Publication number
CN112765653B
CN112765653B CN202110014817.4A CN202110014817A CN112765653B CN 112765653 B CN112765653 B CN 112765653B CN 202110014817 A CN202110014817 A CN 202110014817A CN 112765653 B CN112765653 B CN 112765653B
Authority
CN
China
Prior art keywords
data
privacy
node
attribute
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110014817.4A
Other languages
English (en)
Other versions
CN112765653A (zh
Inventor
周志刚
白增亮
王宇
梁子恺
吴天生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shancai Hi Tech Shanxi Co ltd
Original Assignee
Shancai Hi Tech Shanxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shancai Hi Tech Shanxi Co ltd filed Critical Shancai Hi Tech Shanxi Co ltd
Priority to CN202110014817.4A priority Critical patent/CN112765653B/zh
Publication of CN112765653A publication Critical patent/CN112765653A/zh
Application granted granted Critical
Publication of CN112765653B publication Critical patent/CN112765653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明数据发布领域,具体涉及一种多隐私策略优化组合优化的多源数据融合隐私保护方法。提出一种基于重匿名(over‑anonymity)的多方数据融合架构,防止融合后的数据出现隐私泄露的情况。进一步地,数据融合的现实意义在于为用户提供更全面的数据基础,以便在此基础上进行广泛的知识挖掘。为此,设计了一种多隐私保护策略组合优化方案,在满足各方隐私约束的同时,最大限度地提高融合后数据的可用性。该策略将多源多隐私约束的数据融合映射为一张超图,通过使用启发式规则逐一在超图上选择、求解并消除各个超边,超边被消解的过程也是隐私约束逐一实现的过程,并以此制定一个数据融合方案。

Description

一种多隐私策略组合优化的多源数据融合隐私保护方法
技术领域
本发明数据发布领域,具体涉及一种多隐私策略组合优化的多源数据融合隐私保护方法。
背景技术
多源跨平台、数据应用跨域是大数据最突出的特征,在大数据时代由于不同应用领域数据***式增长,单一类型的数据(如位置数据、社交数据、Cookie日志、购物网站流水等)难以满足人们对上层复杂应用服务的需求。例如,Bob需要App搜索附近喜欢打篮球的好友,这个需求的实现需要位置数据与社交数据的有机融合。不仅个人对数据有跨域融合的需要,企业内部不同部门间、不同质企业间甚至企业与政府部门间对数据跨域融合也存在现实的需求应用,例如精准广告推送、网约车优化管理、智能城市地铁线路规划等,都需要不同领域平台的数据源所有者在各自所拥有的数据层面展开深入的融合协作。然而,各个平台的数据往往极具“使用价值”,可能包括了用户的身份信息、行为信息、财务信息甚至疾病信息等敏感/隐私信息,直接发布原始数据必将导致用户隐私的泄露。
为了防止用户隐私的泄露,各个数据源平台在进行大数据融合发布之前,需要先对各自平台的数据集进行脱敏处理(如扰动、加噪、泛化等),传统的匿名类隐私保护方法大多只针对单数据源的数据进行隐私保护,不能有效地应对大数据深度关联分析所带来的非显性隐私信息泄露问题;此外,单一的隐私保护方法已经不能满足数据使用者个性化的隐私需求,正如对各个来源数据的局部隐私保护并不能避免融合后全局数据隐私泄露的风险(例如Alice在A购票网站购买一张去慕尼黑的机票,并在B旅游公司的网页上浏览慕尼黑的旅游景点。而A、B两公司分别对外发布信息,其中A公司采用基于3-匿名的信息泛化技术,即将“去慕尼黑的机票”泛化为“去欧洲的机票”,B公司采用3-多样性技术,即将与Alice同时浏览该公司网站的两个用户的浏览行为作为一组进行发布{2017-07-11 9:30:{慕尼黑:新天鹅堡,日本:富士山,美国:麻省理工学院}}。假设敌手已知Alice有出国旅游的计划,并从窃取的上网记录中获知其登录过A和B公司的网页,通过关联A、B两公司发布的信息,敌手可以精确地推出Alice将在何时去慕尼黑-新天鹅堡的旅行路线)。这也正是面向大数据发布隐私保护所面临的最本质问题“分布式大数据多源融合后,被攻击者构建数据关联分析所导致的隐私泄露”。一个朴素的方法是对自然连接的融合数据进行隐私保护方法级粒度的组合。然而,隐私保护方法级粒度的组合可能会导致对隐私信息的“过度保护”,从而严重降低数据的可用性,如图1所示:两方在数据融合中,方案一(先进行5-匿名,再进行3-多样性)需要添加29条噪声,方案二(先进行3-多样性,再进行5-匿名)需要添加20条噪声,所以,在隐私保护的大数据融合发布领域,面向数据可用性最大化的多隐私保护方法细粒度组合优化依然是一个开放性问题。
在数据发布的隐私保护领域,传统的隐私保护算法包括差分隐私、k匿名、l-diversity匿名、t-closeness匿名等,一些学者对这些传统算法的改进也具有里程碑意义,如Wang等人借助语义层级树,通过将数量不及匿名需求的记录项进行语义泛化,以使得记录项在更为宽泛的语义下实现k-匿名,然而,记录项泛化技术的使用造成了不可逆的信息损失,且对高维稀疏数据使用k-匿名准则将使得数据的可用性大幅降低;Brijesh B等人提出一种改进l-diversity匿名的方法,在运行时间方面有显着改善,并且与现有方法相比,其信息损失也更小,同时由于初始等价类中记录的紧密排列,提供了相同级别的隐私。总体来看,这些传统的隐私保护模型通常只适用于特定场景下的静态数据发布。然而,大数据发布所面临的风险体现在其发布过程的动态性,且具备多源跨平台发布的特点,这就需要防止攻击者对多源融合后的数据进行关联分析,进而破坏数据的匿名性。
就数据融合的隐私保护方面,H Patel等人提出了一种自底向上实现两方数据的安全融合方法,但是该模型的前提是存在着可信任的第三方先融合所有的数据形成一个完整的原始数据表,然后对数据表实现匿名化处理,而在大部分情况下可信任第三方是不存在的,所以该文献的方法利用价值不大;Jiang等人提出了一种在半诚实模型下实现两方数据的DkA安全融合模型,该算法利用可交换加密策略在通信过程中隐藏原始信息,并通过构建完整的匿名表判断是否满足匿名门限k来实现对数据融合过程的隐私保护,但是该方法的资源耗费太大,不适合大数据集的融合;Clifton等人开发了针对关系数据计数、并、交、笛卡儿积四种典型操作的安全数据多方数据集成工具;Yeom等人研究了由模型泛化能力不足导致的间接隐私泄露,紧接着,Mohammed等人基于分类树结构使用数据泛化技术实现数据集成各方的数据隐私保护,但集成后数据的信息损失较高,具体的信息损失度与数据集相关。上述方案都假设参与数据融合的多方都采用相同的隐私保护策略,然而,面对大数据各异的隐私保护需求,不同平台在大数据融合前可能根据己方的应用需求采用了个性化的隐私保护策略,现有的方案难以适用。
发明内容
本发明提出了一种多隐私策略组合优化的多源数据融合隐私保护方法。具体来说,本专利首先提出一种基于重匿名(over-anonymity)的多方数据融合架构,其中,内层数据匿名存在于数据融合前,由各自局部数据的拥有者实施,对数据进行初始保护;外层数据匿名发生在数据融合时,由参与融合的多方按照既定的多方隐私保护协议(为了简化描述,本专利将其视为同时满足各个参与方的隐私约束)实施,防止融合后的数据出现隐私泄露的情况。进一步地,数据融合的现实意义在于为用户提供更全面的数据基础,以便在此基础上进行广泛的知识挖掘。为此,本专利设计了一种多隐私保护策略组合优化方案,在满足各方隐私约束的同时,最大限度地提高融合后数据的可用性。该策略将多源多隐私约束的数据融合映射为一张超图,通过使用启发式规则逐一在超图上选择、求解并消除各个超边,超边被消解的过程也是隐私约束逐一实现的过程,并以此制定一个数据融合方案。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
步骤1,构建数据多源融合的***模型:
如图2所示,首先,在***模型中数据拥有者收集来自各方的数据,为了防止隐私泄露,各方进行数据匿名操作;其次,由于一些实体数据量巨大,必须将数据存储在公有云端,公有云端的数据融合是将多源跨平台的数据进行有机集成,旨在通过融合各方完备的数据集来更好的挖掘有用信息,而如果只是进行简单的数据融合,无法消除数据融合后公有云端对隐私的窥探顾虑,所以在公有云端还需要进行重匿名操作;此外,用户可以通过定制需要的服务以享受大数据带来的便捷,然而,未知的攻击者也可能隐藏在用户中,因此这里假设用户也是“好奇的”,即用户与云服务提供商视为具有相同攻击能力的疑似隐私挖掘群体。
步骤2,设计多方数据融合的重匿名架构:
针对大数据信息的频繁跨平台交流共享,本专利提出一种基于多方数据融合的重匿名架构,分为初始状态、握手过程、数据同步以及二次匿名四个过程。首先,初始状态各方按照其各自的隐私保护要求对各自数据进行相应匿名化操作;其次,握手过程进行多方通信,各方发布各自的数据隐私保护力度要求;数据同步,也即在此过程中需要使多方数据的公共属性值的分布一致化,同时满足多方的隐私保护要求;二次匿名是重匿名架构中最关键的步骤,具体而言,二次匿名时将数据集转化为贝叶斯网络,通过对贝叶斯网络进行编码来构建层次结构图,最终使得隐私保护问题转化为一个概率推理问题,其具体过程包括网络结构学习和网络编码。
步骤3,隐私保护策略实现:
给定隐私保护策略,通过上述两个过程最终形成贝叶斯网络G,接着需要对属性
Figure GDA0003836312730000041
进行操作,使隐私节点Xs满足策略要求。具体而言,对于隐私保护策略
Figure GDA0003836312730000042
Figure GDA0003836312730000043
本专利定义单位隐私保护操作,即将隐私预算进行d等分,每一轮仅对选定的一个属性节点的概率分布进行隐私保护,对于待进行隐私操作的属性
Figure GDA0003836312730000044
本专利实现了对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作。
步骤4,通过将多方多隐私约束的数据融合映射为一张超图,并设计了相应的启发式规则,将数据融合过程演化为超图消解的过程,在满足隐私约束的同时提高了数据的可用性。
进一步,所述步骤1中采用对抗式学习架构构建数据融合模型与隐私攻击模型,具体步骤为:
步骤1.1,构建数据融合模型:
数据融合是将分属多源的数据进行有机集成,旨在通过较以前更完备的数据集来更好的挖掘有用信息,以便于为用户提供高质量的服务。为了方便讨论,首先给出数据的形式化描述:一个数据集表示为一个四元组D(X,A,F,V),其中,X={x1,x2,…,xn}为数据记录集,每一条数据xi都排他地关联一个专属用户ui;A为属性集;进一步地,根据属性的敏感性,将其分为信息属性集IA和敏感属性集SA,并且IA∪SA=A,
Figure GDA0003836312730000045
F为X与A之间的关系集
Figure GDA0003836312730000046
Figure GDA0003836312730000051
为属性ak的值域。
定义1(等价类):给定数据集D(X,A,F,V),对于
Figure GDA0003836312730000052
若存在t条记录{x1,x2,…,xt},(t≥1),使得
Figure GDA0003836312730000053
成立,称{x1,x2,…,xt}为D上关于A′的一个等价类,记为[xi]A′,反之,由属性集A形成的所有等价类的集合EA′,构成对D的一个划分,记为D/EA′。特别地,若
Figure GDA0003836312730000054
相应的等价类称为信息等价类。
定义2(数据融合):给定m个数据集{D1,…,Dm},则融合后的数据集D(x,{IA,SA},F,V)满足:
Figure GDA0003836312730000055
特别地,若存在两个待融合的数据集Di,Dj满足
Figure GDA0003836312730000056
(
Figure GDA00038363127300000519
表示对称差操作符),则称为信息增量融合;若存在记录xk∈Xi∩Xj,满足
Figure GDA0003836312730000057
Figure GDA0003836312730000058
Figure GDA0003836312730000059
则称为信息加细融合;若任意记录xk∈Xi∩Xj,满足
Figure GDA00038363127300000510
(其中,SAi=SAj),则称为协调融合,否则,称为非协调融合。本专利的研究范畴为协调的信息增量加细融合。
步骤1.2,构建隐私及隐私攻击模型:
隐私是指用户与其所对应数据敏感属性值的单射,若此单射关系泄露,则用户的隐私泄露。由数据模型可知,用户与数据记录存在一一映射,从数据层面看,每一个用户都对应一组信息属性值,即用户与信息属性值存在单射,而含有该组信息属性值的等价类也对应一个隐私属性值集合。根据单射的传递性,若该组信息属性值与相应的隐私属性值集合构成单射(即该隐私属性值集合仅包含一个元素),则数据集的发布对该用户存在数据隐私泄露。
定义3(数据隐私泄露):给定一个数据集D(X,{IA,SA},F,V),如果
Figure GDA00038363127300000517
[xi]IA为其所属的信息等价类,对于
Figure GDA00038363127300000518
其相应的隐私属性值记为
Figure GDA00038363127300000511
Figure GDA00038363127300000512
则称数据隐私泄露。
定义4(知识推理攻击):假设敌手已知目标用户ui的信息属性值
Figure GDA00038363127300000513
且获知该用户的数据记录xi存在于待发布的数据集D(X,{IA,SA},F,V)中,当数据发布后,敌人构建如下关系:
Figure GDA00038363127300000514
并据此形成隐私推理概率,即对
Figure GDA00038363127300000515
用户ui在SA上值是vj的概率为
Figure GDA00038363127300000516
(其中,C(*)为计数统计函数,|*为论域限定符)。
定义5(数据增量发布的多版本攻击):给定一个首次发布的数据集D(X,{IA,SA},F,V)及相应的发布者发布的更新数据集D′(X′,{IA′,SA′},F′,V′),假设敌手通过比较一个专属用户ui的X′,X,构建如下关系:
Figure GDA0003836312730000061
并形成隐私推理概率,也即对于两个数据集中
Figure GDA0003836312730000062
敌手推断出用户的隐私概率为
Figure GDA0003836312730000063
其中SEL为选择函数。
进一步,所述步骤2中纵向编码包括两个阶段:贝叶斯网络结构学习阶段和网络编码阶段;
所述贝叶斯网络结构学习阶段的具体步骤为:
步骤2.1,考虑从数据集D={D1,…,Dn}中学习贝叶斯网络结构,包括m个随机变量集是
Figure GDA0003836312730000068
假设变量是分类变量并且数据集是完整的。贝叶斯网络构造算法的目标是通过定义每个变量的父项集Π1,…,Πm在节点集x上找到得分最高的有向无环图(Directed Acyclic Graph,DAG)g。通过假定Markov条件,会引入联合概率分布,每个变量在给定其父变量的情况下都在条件上独立于其非后代变量。
步骤2.2,对于对生成DAG质量的评估,使用不同的评分函数,采用BayesianInformation Criterion(BIC)评分,其与DAG的后验概率乘数成正比。BIC是可分解的,由每个变量及其父节点集合的分数之和构成:
Figure GDA0003836312730000064
其中,LL(Xi|∏i)表示Xi与其父节点集合∏i的对数似然函数:
Figure GDA0003836312730000065
Pen(Xii)表示Xi与其父节点集合∏i的复杂度惩罚函数:
Figure GDA0003836312730000066
其中,
Figure GDA0003836312730000067
是条件概率P(Xi=x|Πi=π)的极大似然估计,Nx,π表示(X=x|Πi=π)在数据集中出现的次数,|·|表示给出变量的笛卡尔积空间的大小。
本专利使用爬山法生成相应数据的贝叶斯网络,主要步骤如算法1所示:
算法1基于爬山法的贝叶斯网络结构生成方法
Figure GDA0003836312730000071
需要说明的是,“翻转边”操作不能简单地看成“删除一条边,添加一条与前一操作方向相反的边”的序列操作。由于算法采用贪心策略,删除边操作可能使得贝叶斯网络的BIC评分降低,程序提前终止,进而导致添加相应的翻转边操作无法实施。
所述贝叶斯网络编码阶段的具体步骤为:
步骤2.3,通过纵向编码贝叶斯网络来构建层次结构图,其中包括两个阶段:自底向上的编码阶段和自顶向下的修正阶段。具体来说,给定一个贝叶斯网络,通过编码将其转化为一个层次结构图,算法2为贝叶斯网络编码过程:
算法2贝叶斯网络纵向编码
Figure GDA0003836312730000072
Figure GDA0003836312730000081
1)自底向上的编码阶段。首先,所有节点的层次结构最初标记为零,该算法从叶节点开始连续标记,并逐步跟踪相应的父节点。在每个轮次中,当子节点的层次结构为q时,父节点的层次结构将标记为q+1。然后,对于非叶子节点仅记录当前最大编码,即若该节点的编码非0,则比较新的编码与原编码,保留大者,若两者相等,则停止对该节点的向上回溯,看叶子节点队列是否为空,若为空,则停止。接下来,提取下一个叶子节点进行标记,直到叶子节点序列为空。
2)自顶向下的修正阶段。首先按层次结构对所有节点进行从大到小的排序,并将所有节点编码初始化为未标记。然后,该算法提取节点序列中层次结构最大(即编码最大)的未标记节点,并将该节点作为在广度上遍历图形的起点,逐级向下广度优先遍历。在每一轮中,当父节点的层次结构为q时,子节点的层次结构将标记为q-1。将qold表示的节点的当前层次结构数值大小与新派生的节点表示节点的数值大小进行比较,考虑以下两种情况:(a)当qold<qnew时,算法将节点的层次结构设置为qnew,并将该节点设为已标记;(b)当qold=qnew且该节点为已标记时,此节点的向下遍历将提前终止。接下来,将继续提取下一个未标记的节点,直到序列中没有未标记的节点。
进一步,所述步骤3中实现对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作,具体步骤为:
步骤3.1,实现k-anonymous:根据领域专家或数据拥有者对属性
Figure GDA0003836312730000091
值域范围设定,接着对属性
Figure GDA0003836312730000092
在贝叶斯网络中的值域空间进行扩充,使得其值域空间中不同值的数量大于等于k。修正时隐私节点的父节点根据信息熵最大化的修正原则,将父节点的子节点中概率分布值最大的属性值分配给隐私节点,使得隐私节点满足k要求;
步骤3.2,实现l-diversity:根据数据方对属性
Figure GDA0003836312730000093
值域范围的设定,对属性
Figure GDA0003836312730000094
在贝叶斯网络中的值域空间进行扩充,使得其值域空间中不同值的数量大于等于l。修正后属性
Figure GDA0003836312730000095
中各值的概率分布根据信息熵最大化的修正原则,在每一轮修正的过程中,仅选择一个概率分布最大的值作为待修正的目标对象,将其高于均值的概率分布值平均分配给新增的属性值;
步骤3.3,实现t-closeness:将属性
Figure GDA0003836312730000096
值域空间中导致信息熵最大化的值分布情况定义为理论基准,使用方差进行度量,对属性
Figure GDA0003836312730000097
中各个值的概率分布进行修正,使得各值出现概率与理论基准的方差不高于t;
步骤3.4,实现属性值泛化:根据领域专家或数据拥有者对属性设置的属性值层次树,将属性C值域中相近值的概率分布进行融合。将属性C值域中待匿名保护的属性叶节点与其所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换,该节点所对应的属性值概率分布继承自参与聚合的所有原叶节点。
通过将不同隐私保护策略的数据集转化为贝叶斯网络,并对贝叶斯网络进行编码,实现了二次匿名的过程,至此,多方数据融合的重匿名架构得以实现。然而,在多源数据融合过程中,还需要对多隐私保护策略组合方案进行优化,在满足各方隐私约束的同时,最大限度地提高融合后数据的可用性。
进一步,所述步骤4中采用启发式规则将数据融合过程演化为超图消解的过程,具体步骤为:
即PROG(HG)是:
FOR每个与超边N相交的超边M DO
自底向上消去R(M)中无概率依赖的元组
ENDFOR;
PROG(HG1),PROG(HG2),……,PROG(HGk);
Figure GDA0003836312730000102
超图消解算法递归地调用以上3个规则,逐条地从HG中选择、求解和消除各个超边,构造出RESULT(HG)程序PROG(HG),超边被消解的过程也是隐私约束逐一实现的过程。超图消解启发式算法如下:
算法3超边消解启发式算法
Figure GDA0003836312730000101
以上文提及的两个隐私保护策略操作F1=(A,B,D)和F2=(D,E,G,H)的连接超图为例,我们看如何利用启发式算法构造程序PROG(HG)和产生结果“RESULT(HG):
(1)消解超边{A,B,D}、{D,E,G,H},其结果超图为HG1=({B,D}、{D,G}、{A}、{E}、{H}),根据消解规则3,得到PROG(HG)程序
PROG(HG1);
Figure GDA0003836312730000112
(2)令HG2=({A}、{E}、{H}),HG3=({B,D}、{D,G}),根据消解规则2,得到PROG(HG1)程序
PROG(HG2)、PROG(HG3);
RESULT(HG1):=RESULT(HG2)×RESULT(HG3)。
因为HG2包含分别独立的三条超边,所以PROG(HG2)为
RESULT(HG2):=R({A}、{E}、{H})
(3)构造计算HG3的程序PROG(HG3)来消解超边{B,D}、{D,G},其结果超图为HG4,根据消解规则3,产生PROG(HG3)程序
PROG(HG4);
Figure GDA0003836312730000113
(4)由于HG4只包含一条超边,所以由规则1可知,PROG(HG4)是
RESULT(HG4):=R({D,G})。
最后的程序可写为:
Figure GDA0003836312730000111
当然,实施本发明的任一产品并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为不同隐私保护策略执行顺序结果比较案例分析;
图2为多源数据融合的***模型;
图3为超图HG;
图4为是否重匿名对比结果;
图5为朴素算法与优化算法比较结果;
图6为不同等价类中判别器和生成器的隐私属性概率。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种多隐私策略组合优化的多源数据融合隐私保护方法,包括以下步骤:
步骤1,构建数据多源融合的***模型:首先,在***模型中数据拥有者收集来自各方的数据,为了防止隐私泄露,各方进行数据匿名操作;其次,由于一些实体数据量巨大,必须将数据存储在公有云端,公有云端的数据融合是将多源跨平台的数据进行有机集成,旨在通过融合各方完备的数据集来更好的挖掘有用信息,而如果只是进行简单的数据融合,无法消除数据融合后公有云端对隐私的窥探顾虑,所以在公有云端还需要进行重匿名操作;此外,用户可以通过定制需要的服务以享受大数据带来的便捷,然而,未知的攻击者也可能隐藏在用户中,因此这里假设用户也是“好奇的”,即用户与云服务提供商视为具有相同攻击能力的疑似隐私挖掘群体。具体步骤如下:
步骤1.1,构建数据融合模型。数据融合是将分属多源的数据进行有机集成,旨在通过较以前更完备的数据集来更好的挖掘有用信息,以便于为用户提供高质量的服务。数据集表示为一个四元组D(X,A,F,V),其中,X={x1,x2,…,xn}为数据记录集,每一条数据xi都排他地关联一个专属用户ui;A为属性集;进一步地,根据属性的敏感性,将其分为信息属性集IA和敏感属性集SA,并且IA∪SA=A,
Figure GDA0003836312730000121
F为X与A之间的关系集
Figure GDA0003836312730000122
为属性ak的值域。
步骤1.2,构建隐私及隐私攻击模型。隐私是指用户与其所对应数据敏感属性值的单射,若此单射关系泄露,则用户的隐私泄露。由数据模型可知,用户与数据记录存在一一映射,从数据层面看,每一个用户都对应一组信息属性值,即用户与信息属性值存在单射,而含有该组信息属性值的等价类也对应一个隐私属性值集合。根据单射的传递性,若该组信息属性值与相应的隐私属性值集合构成单射(即该隐私属性值集合仅包含一个元素),则数据集的发布对该用户存在数据隐私泄露。
步骤2,设计多方数据融合的重匿名架构:针对大数据信息的频繁跨平台交流共享,本专利提出一种基于多方数据融合的重匿名架构,分为初始状态、握手过程、数据同步以及二次匿名四个过程。首先,初始状态各方按照其各自的隐私保护要求对各自数据进行相应匿名化操作;其次,握手过程进行多方通信,各方发布各自的数据隐私保护力度要求;数据同步,也即在此过程中需要使多方数据的公共属性值的分布一致化,同时满足多方的隐私保护要求;二次匿名是重匿名架构中最关键的步骤,具体而言,二次匿名时将数据集转化为贝叶斯网络,通过对贝叶斯贝叶斯网络进行编码来构建层次结构图,最终使得隐私保护问题转化为一个概率推理问题,其具体过程包括网络结构学习和网络编码。
步骤2.1,考虑从数据集D={D1,…,Dn}中学习贝叶斯网络结构,包括m个随机变量集是
Figure GDA0003836312730000135
假设变量是分类变量(即变量的状态数有限)并且数据集是完整的。贝叶斯网络构造算法的目标是通过定义每个变量的父项集∏1,…,Πm在节点集
Figure GDA0003836312730000136
上找到得分最高的有向无环图(Directed Acyclic Graph,DAG)
Figure GDA0003836312730000137
通过假定Markov条件,会引入联合概率分布,每个变量在给定其父变量的情况下都在条件上独立于其非后代变量。
步骤2.2,对于对生成DAG质量的评估,使用不同的评分函数,在本专利中,我们采用Bayesian Information Criterion(BIC)评分,其与DAG的后验概率乘数成正比。BIC是可分解的,由每个变量及其父节点集合的分数之和构成:
Figure GDA0003836312730000131
其中,LL(Xii)表示Xi与其父节点集合Πi的对数似然函数:
Figure GDA0003836312730000132
Pen(Xii)表示Xi与其父节点集合Πi的复杂度惩罚函数:
Figure GDA0003836312730000133
其中,
Figure GDA0003836312730000134
是条件概率P(Xi=x|Πi=π)的极大似然估计,Nx,π表示(X=x|∏i=π)在数据集中出现的次数,|·|表示给出变量的笛卡尔积空间的大小。
所述贝叶斯网络编码通过纵向编码贝叶斯网络来构建层次结构图,其中包括两个阶段:自底向上的编码阶段和自顶向下的修正阶段。具体来说,给定一个贝叶斯网络,通过编码将其转化为一个层次结构图。
步骤2.3,自底向上的编码阶段。首先,所有节点的层次结构最初标记为零,该算法从叶节点开始连续标记,并逐步跟踪相应的父节点。在每个轮次中,当子节点的层次结构为q时,父节点的层次结构将标记为q+1。然后,对于非叶子节点仅记录当前最大编码,即若该节点的编码非0,则比较新的编码与原编码,保留大者,若两者相等,则停止对该节点的向上回溯,看叶子节点队列是否为空,若为空,则停止。接下来,提取下一个叶子节点进行标记,直到叶子节点序列为空。
步骤2.4,自顶向下的修正阶段。首先按层次结构对所有节点进行从大到小的排序,并将所有节点编码初始化为未标记。然后,该算法提取节点序列中层次结构最大(即编码最大)的未标记节点,并将该节点作为在广度上遍历图形的起点,逐级向下广度优先遍历。在每一轮中,当父节点的层次结构为q时,子节点的层次结构将标记为q-1。在这里,我们将qold表示的节点的当前层次结构数值大小与新派生的节点表示节点的数值大小进行比较,考虑以下两种情况:(a)当qold<qnew时,算法将节点的层次结构设置为qnew,并将该节点设为已标记;(b)当qold=qnew且该节点为已标记时,此节点的向下遍历将提前终止。接下来,将继续提取下一个未标记的节点,直到序列中没有未标记的节点。
步骤3,隐私保护策略实现:给定隐私保护策略,通过步骤1-2最终形成贝叶斯网络G,接着需要对属性
Figure GDA0003836312730000141
进行操作,使隐私节点Xs满足策略要求。具体而言,对于隐私保护策略
Figure GDA0003836312730000142
本文定义单位隐私保护操作,即将隐私预算进行d等分,每一轮仅对选定的一个属性节点的概率分布进行隐私保护,对于待进行隐私操作的属性
Figure GDA0003836312730000143
本专利实现了对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作。
步骤3.1,实现k-anonymous:根据领域专家或数据拥有者对属性
Figure GDA0003836312730000144
值域范围设定,接着对属性
Figure GDA0003836312730000145
在贝叶斯网络中的值域空间进行扩充,使得其值域空间中不同值的数量大于等于k。修正时隐私节点的父节点根据信息熵最大化的修正原则,将父节点的子节点中概率分布值最大的属性值分配给隐私节点,使得隐私节点满足k要求;
步骤3.2,实现l-diversity:同上,根据数据方对属性
Figure GDA0003836312730000151
值域范围的设定,对属性
Figure GDA0003836312730000152
在贝叶斯网络中的值域空间进行扩充,使得其值域空间中不同值的数量大于等于l。修正后属性
Figure GDA0003836312730000153
中各值的概率分布根据信息熵最大化的修正原则,在每一轮修正的过程中,仅选择一个概率分布最大的值作为待修正的目标对象,将其高于均值的概率分布值平均分配给新增的属性值;
步骤3.3,实现t-closeness:将属性
Figure GDA0003836312730000154
值域空间中导致信息熵最大化的值分布情况定义为理论基准,使用方差进行度量,对属性
Figure GDA0003836312730000155
中各个值的概率分布进行修正,使得各值出现概率与理论基准的方差不高于t;
步骤3.4,实现属性值泛化:根据领域专家或数据拥有者对属性设置的属性值层次树,将属性
Figure GDA0003836312730000156
值域中相近值的概率分布进行融合。将属性
Figure GDA0003836312730000157
值域中待匿名保护的属性叶节点与其所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换,该节点所对应的属性值概率分布继承自参与聚合的所有原叶节点。
通过将不同隐私保护策略的数据集转化为贝叶斯网络,并对贝叶斯网络进行编码,实现了二次匿名的过程,至此,多方数据融合的重匿名架构得以实现。然而,在多源数据融合过程中,还需要对多隐私保护策略组合方案进行优化,在满足各方隐私约束的同时,最大限度地提高融合后数据的可用性。
步骤4,通过将多方多隐私约束的数据融合映射为一张超图,并设计了相应的启发式规则,将数据融合过程演化为超图消解的过程,在满足隐私约束的同时提高了数据的可用性。具体步骤为:
步骤4.1,将隐私保护策略形式化定义为一个五元组F=(G,IA,SA,OP,V),其中G表示由数据集转化而来的贝叶斯网络;IA表示信息属性节点,IA=(a1,a2,…,am),a1,a2,…,am不相互独立,它们之间存在概率依赖关系;SA表示隐私节点,OP表示某操作步骤,OP=(OP1,OP2,…,OPm)。V表示经过操作OP后的值域,
Figure GDA0003836312730000158
从数据层面和结构层面对不同隐私保护策略的执行顺序进行判断:
1)若am可由a1,a2,…,an表示,则
Figure GDA0003836312730000159
也即OPm后执行,反之亦然;
从结构层面看:
2)从贝叶斯网络的隐私节点出发,通过自底向上的编码阶段和自顶向下的修正阶段,对贝叶斯网络进行编码,通过在最大修正阈值内修正隐私节点SA,来比较对隐私属性的操作OPi(SAi,Vai)与OPj(SAk,Vaj)达到隐私保护要求的效能,若OPi对数据结构的影响较小,则OPi达到要求的效能比OPj高,也即
Figure GDA0003836312730000169
OPi较OPj先执行,反之亦然;
3)若涉及到多个对信息属性的操作
Figure GDA0003836312730000161
则分以下两种情况:首先若
Figure GDA00038363127300001610
通过IA之间的概率推理关系,分别计算每个操作的值域
Figure GDA0003836312730000162
若IAj
Figure GDA0003836312730000163
则OPi较OPj、OPk先执行,若
Figure GDA0003836312730000164
则OPk较OPj、OPi先执行;其次当
Figure GDA00038363127300001611
Figure GDA00038363127300001612
则OPk较OPj、OPi先执行,而对于OPj、OPi顺序,若在操作
Figure GDA0003836312730000165
Figure GDA0003836312730000166
中,
Figure GDA0003836312730000167
Figure GDA0003836312730000168
会影响到OPj,那么
Figure GDA00038363127300001613
OPo较OPj先执行,反之亦然。
例如,设两个隐私保护策略操作可拆解为F1=(A,B,D)和F2=(D,E,G,H),分别用超边{A,B,D}、{D,E,G,H}表示,其中B,D是F1中某一操作中的两步,用条件超边{B,D}表示,D,G是F2中某一操作中的两步,用条件超边{D,G}表示,由于HG3、HG4不相互独立,所以它们之间有交集,A,E,H分别为三个独立的操作,分别用超边{A}、{E}、{H}来表示。根据超边关系得到它们之间连接超图HG如图3所示:
步骤4.2,通过对不同隐私保护策略F执行顺序的判断,产生如下超边消解和产生PROG(HG)的启发式规则:
规则1.如果超图HG只包含一条超边N,将其直接消解,则PROG(HG)只包含RESULT(HG):=R(N);
规则2.如果超图HG是k个不相交超图HG1、HG2……HGk的并集,则PROG(HG)是:
PROG(HG1),PROG(HG2),……,PROG(HGk);
RESULT(HG):=RESULT(HG1)×RESULT(HG2)×……×RESULT(HGk)
规则3.由贝叶斯网络的性质可知,给定隐私节点SA及其纵向编码XSA.L,在所有以隐私节点为链尾节点的链集合Links中,令Xi和Xj是Links中非SA的任意两个节点,若Xi.L<Xj.L,则在同等隐私保护粒度下,修正Xi的概率分布对全局数据可用性的影响更小,所以形成下贴近原则,即修正的属性节点越向下贴近隐私属性,修正越具有靶向性。换言之,如果超图HG由k个连通分量HG1、HG2……HGk组成,那么判断各个超边对隐私节点的概率依赖关系,若HGi较HGj更向下贴近隐私节点,则
Figure GDA0003836312730000172
即HGi先进行消解,反之亦然。
在本实施例中通过实验模拟验证本专利提出隐私保护模型的正确性和有效性。所提架构由采用python语言实现,硬件环境为Intel(R)Core(TM)[email protected]处理器,内存为16G,操作***为Windows 10。
第一组实验为了凸显重匿名握手协议的优越性,我们的实验分别对使用重匿名握手协议方法和不使用本方法做了比较,首先本专利借助贝叶斯网络生成数据集,在生成数据集的同时,也是各方第一次匿名的实现,其次,通过实验我们观察到数据量的变化对隐私泄露概率有一定的影响,所以我们将数据量作为测试的自变量,隐私泄露概率为因变量,实验结果如图4所示。从图中可以看出,在数据量极小的情况下,是否进行重匿名其隐私泄露概率基本相似,随着实验数据量的增大,我们的重匿名方法会使得隐私泄露的概率显著降低,数据量达到10万条时,隐私泄露概率会下降到20%以下,相反,在没有使用重匿名的方法下,随着实验数据量增大,隐私泄露概率会随之增大,数据量达到10万条时,隐私泄露的概率会高达80%以上。
第二组实验为了验证本专利提出的优化算法能极大程度提高数据可用性,我们设计了对比实验,将朴素算法与本专利优化算法来进行比较。本实验将数据可用性用Q来表示,其公式为:
Figure GDA0003836312730000171
其中a表示原始数据,b表示加噪数据,从公式可以观察出,加入噪声越多,数据可用性越差。我们依然将数据量作为自变量,数据量分别为5000、1万、2万、4万、6万、8万、10万进行实验,观察数据可用性的实验结果,如图5所示。由图5可知,在数据量极小的情况下,朴素算法与优化算法对数据可用性的影响效果相差不大;数据量达到4万条时,我们的优化算法比朴素算法在数据可用性上要高出约30%;数据量达到10万条时,朴素算法在数据可用性上比优化算法低约40%。通过以上分析可知使用本专利优化的融合算法,其数据可用性远高于使用朴素的融合算法。
第三组实验为了验证本专利的方法在增量数据融合上的可用性,本实验利用了生成式对抗网络的思想,首先利用已生成的贝叶斯网络生成数据集,判别器和生成器分别对数据集进行不同比例的抽样,其中判别器抽样百分比为30%,生成器抽样百分比为15%,将抽样的数据集利用爬山法分别生成贝叶斯网络,然后将各自生成的贝叶斯网络再次生成等量的40000条数据集,利用KL散度来衡量两个数据集某几个等价类中隐私属性的分布差异,计算公式为:
Figure GDA0003836312730000181
KL散度越接近0,说明判别器和生成器之间的差异越小,实验效果越好。
本专利选取了三个不同等价类中判别器和生成器隐私属性概率进行计算,其概率分布如图6所示,然后分别计算其KL散度,得到KL1=0.0042,KL2=0.0043,KL3=0.0053,可以看出,三个KL散度都接近于0,说明判别器和生成器的差异很小,实验效果很好。
通过以上三个仿真实验分析可知,本专利提出的方法不仅在多源数据融合的隐私保护效果上有很大的改善,而且在数据的可用性方面也有极大地提升。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.一种多隐私策略组合优化的多源数据融合隐私保护方法,其特征在于,包括以下步骤:
步骤1,构建数据多源融合的***模型:首先,在***模型中数据拥有者收集来自各方的数据,各方进行数据匿名操作;其次将数据存储在公有云端,在公有云端还需要进行重匿名操作;此外,用户能够通过定制需要的服务以享受大数据带来的便捷;
步骤2,设计多方数据融合的重匿名架构:分为初始状态、握手过程、数据同步以及二次匿名四个过程,首先,初始状态各方按照其各自的隐私保护要求对各自数据进行相应匿名化操作;其次,握手过程进行多方通信,各方发布各自的数据隐私保护力度要求;数据同步,也即在此过程中需要使多方数据的公共属性值的分布一致化,同时满足多方的隐私保护要求,二次匿名时将数据集转化为贝叶斯网络,通过对贝叶斯网络进行编码来构建层次结构图,其具体过程包括网络结构学习和网络编码;
步骤3,隐私保护策略实现:给定隐私保护策略,通过步骤1-2最终形成贝叶斯网络G,接着需要对属性
Figure FDA0003848609140000011
进行操作,使隐私节点Xs满足策略要求,具体而言,对于隐私保护策略
Figure FDA0003848609140000012
本方法定义单位隐私保护操作,即将隐私预算进行d等分,每一轮仅对选定的一个属性节点的概率分布进行隐私保护,对于待进行隐私操作的属性
Figure FDA0003848609140000013
本方法实现了对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作;
步骤4,通过将多方多隐私约束的数据融合映射为一张超图,并设计了相应的启发式规则,将数据融合过程演化为超图消解的过程,具体步骤为:
步骤4.1,将隐私保护策略形式化定义为一个五元组F=(G,IA,SA,OP,V),其中G表示由数据集转化而来的贝叶斯网络;IA表示信息属性节点,IA=(a1,a2,…,am),a1,a2,…,am不相互独立,它们之间存在概率依赖关系;SA表示隐私节点,OP表示某操作步骤,OP=(OP1,OP2,…,OPm);V表示经过操作OP后的值域,
Figure FDA0003848609140000014
从数据层面和结构层面对不同隐私保护策略的执行顺序进行判断:
1)若am可由a1,a2,…,an表示,则OPm<OPn,也即OPm后执行,反之亦然;
从结构层面看:
2)从贝叶斯网络的隐私节点出发,通过自底向上的编码阶段和自顶向下的修正阶段,对贝叶斯网络进行编码,通过在最大修正阈值内修正隐私节点SA,来比较对隐私属性的操作
Figure FDA0003848609140000021
Figure FDA0003848609140000022
达到隐私保护要求的效能,若OPi对数据结构的影响较小,则OPi达到要求的效能比OPj高,也即OPj<OPi,OPi较OPj先执行,反之亦然;
3)若涉及到多个对信息属性的操作
Figure FDA00038486091400000211
Figure FDA0003848609140000023
则分以下两种情况:首先若OPi<OPj<OPk<OPi,通过IA之间的概率推理关系,分别计算每个操作的值域
Figure FDA0003848609140000024
若IAj
Figure FDA0003848609140000025
则OPi较OPj、OPk先执行,若
Figure FDA0003848609140000026
则OPk较OPj、OPi先执行;其次当OPi<OPj<OPk,OPi<OPk,则OPk较OPj、OPi先执行,而对于OPj、OPi顺序,若在操作
Figure FDA0003848609140000027
Figure FDA0003848609140000028
中,
Figure FDA0003848609140000029
Figure FDA00038486091400000210
会影响到OPj,那么OPj<OPi,OPi较OPj先执行,反之亦然;
步骤4.2,通过对不同隐私保护策略F执行顺序的判断,产生如下超边消解和产生PROG(HG)的启发式规则:
规则1.如果超图HG只包含一条超边N,将其直接消解,则PROG(HG)只包含RESULT(HG):=R(N);
规则2.如果超图HG是k个不相交超图HG1、HG2……HGk的并集,则PROG(HG)是:
PROG(HG1),PROG(HG2),……,PROG(HGk);
RESULT(HG):=RESULT(HG1)×RESULT(HG2)×……×RESULT(HGk)
规则3.由贝叶斯网络的性质可知,给定隐私节点SA及其纵向编码XSA.L,在所有以隐私节点为链尾节点的链集合Links中,令Xi和Xj是Links中非SA的任意两个节点,若Xi.L<Xj.L,则在同等隐私保护粒度下,修正Xi的概率分布对全局数据可用性的影响更小,所以形成下贴近原则,即修正的属性节点越向下贴近隐私属性,修正越具有靶向性,换言之,如果超图HG由k个连通分量HG1、HG2……HGk组成,那么判断各个超边对隐私节点的概率依赖关系,若HGi较HGj更向下贴近隐私节点,则HGj<HGi,即HGi先进行消解,反之亦然。
2.根据权利要求1所述的一种多隐私策略组合优化的多源数据融合隐私保护方法,其特征在于,所述步骤1中采用对抗式学习架构构建数据融合模型与隐私攻击模型,具体步骤为:
步骤1.1,构建数据融合模型:
数据融合是将分属多源的数据进行有机集成,一个数据集表示为一个四元组D(X,A,F,V),其中,X={x1,x2,…,xn}为数据记录集,每一条数据xi都排他地关联一个专属用户ui;A为属性集;根据属性的敏感性,将其分为信息属性集IA和敏感属性集SA,并且IA∪SA=A,
Figure FDA0003848609140000031
F为X与A之间的关系集
Figure FDA0003848609140000032
Figure FDA0003848609140000033
为属性ak的值域;
定义1等价类:给定数据集D(X,A,F,V),对于
Figure FDA0003848609140000034
若存在t条记录{x1,x2,…,xt},(t≥1),使得
Figure FDA0003848609140000035
成立,称{x1,x2,…,xt}为D上关于A′的一个等价类,记为[xi]A′,反之,由属性集A′形成的所有等价类的集合EA′,构成对D的一个划分,记为D/EA′,若
Figure FDA00038486091400000318
相应的等价类称为信息等价类;
定义2数据融合:给定m个数据集{D1,…,Dm},则融合后的数据集D(X,{IA,SA},F,V)满足:
Figure FDA0003848609140000036
若存在两个待融合的数据集Di,Dj满足
Figure FDA0003848609140000037
其中
Figure FDA0003848609140000038
表示对称差操作符,则称为信息增量融合;若存在记录xk∈Xi∩Xj,满足
Figure FDA0003848609140000039
Figure FDA00038486091400000310
则称为信息加细融合;若任意记录xk∈Xi∩Xj,满足
Figure FDA00038486091400000311
Figure FDA00038486091400000312
其中,SAi=SAj,则称为协调融合,否则,称为非协调融合;本方法的研究范畴为协调的信息增量加细融合;
步骤1.2,构建隐私及隐私攻击模型:
隐私是指用户与其所对应数据敏感属性值的单射,若此单射关系泄露,则用户的隐私泄露,由数据模型可知,用户与数据记录存在一一映射,从数据层面看,每一个用户都对应一组信息属性值,即用户与信息属性值存在单射,而含有该组信息属性值的等价类也对应一个隐私属性值集合,根据单射的传递性,若该组信息属性值与相应的隐私属性值集合构成单射,则数据集的发布对该用户存在数据隐私泄露;
定义3数据隐私泄露:给定一个数据集D(X,{IA,SA},F,V),如果
Figure FDA00038486091400000316
Figure FDA00038486091400000317
[xi]IA为其所属的信息等价类,对于
Figure FDA00038486091400000313
其相应的隐私属性值记为
Figure FDA00038486091400000314
Figure FDA00038486091400000315
则称数据隐私泄露;
定义4知识推理攻击:假设敌手已知目标用户ui的信息属性值
Figure FDA0003848609140000041
(aj∈IA),且获知该用户的数据记录xi存在于待发布的数据集D(X,{IA,SA},F,V)中,当数据发布后,敌人构建如下关系:
Figure FDA0003848609140000042
并据此形成隐私推理概率,即对
Figure FDA0003848609140000043
用户ui在SA上值是vj的概率为
Figure FDA0003848609140000044
其中,C为计数统计函数,|*为论域限定符;
定义5数据增量发布的多版本攻击:给定一个首次发布的数据集D(X,{IA,SA},F,V)及相应的发布者发布的更新数据集D′(X,{IA,SA},F,V),假设敌手通过比较一个专属用户ui的X,X,构建如下关系:
Figure FDA0003848609140000045
并形成隐私推理概率,也即对于两个数据集中
Figure FDA0003848609140000046
敌手推断出用户的隐私概率为
Figure FDA0003848609140000047
其中SEL为选择函数。
3.根据权利要求1所述的一种多隐私策略组合优化的多源数据融合隐私保护方法,其特征在于,所述步骤2中纵向编码包括两个阶段:贝叶斯网络结构学习阶段和网络编码阶段;
所述贝叶斯网络结构学习阶段的具体步骤为:
步骤2.1,考虑从数据集D={D1,…,Dn}中学习贝叶斯网络结构,包括m个随机变量集是
Figure FDA0003848609140000049
假设变量是分类变量并且数据集是完整的,贝叶斯网络构造算法的目标是通过定义每个变量的父项集∏1,…,Пm在节点集
Figure FDA00038486091400000410
上找到得分最高的有向无环图(Directed Acyclic Graph,DAG)g,通过假定Markov条件,会引入联合概率分布,每个变量在给定其父变量的情况下都在条件上独立于其非后代变量;
步骤2.2,对于对生成DAG质量的评估,使用不同的评分函数,采用BayesianInformationCriterion(BIC)评分,其与DAG的后验概率乘数成正比,BIC是可分解的,由每个变量及其父节点集合的分数之和构成:
Figure FDA0003848609140000048
其中,LL(Xii)表示Xi与其父节点集合Пi的对数似然函数:
Figure FDA0003848609140000051
Pen(Xi|∏i)表示Xi与其父节点集合Πi的复杂度惩罚函数:
Figure FDA0003848609140000052
其中,
Figure FDA0003848609140000053
是条件概率P(Xi=x|∏i=π)的极大似然估计,Nx,π表示(X=x|Πi=π)在数据集中出现的次数,|·|表示给出变量的笛卡尔积空间的大小;
贝叶斯网络编码通过纵向编码贝叶斯网络来构建层次结构图,其中包括两个阶段:自底向上的编码阶段和自顶向下的修正阶段,具体步骤为:
步骤2.3,自底向上的编码阶段,首先,所有节点的层次结构最初标记为零,该算法从叶节点开始连续标记,并逐步跟踪相应的父节点;在每个轮次中,当子节点的层次结构为q时,父节点的层次结构将标记为q+1;然后,对于非叶子节点仅记录当前最大编码,即若该节点的编码非0,则比较新的编码与原编码,保留大者,若两者相等,则停止对该节点的向上回溯,看叶子节点队列是否为空,若为空,则停止;接下来,提取下一个叶子节点进行标记,直到叶子节点序列为空;
步骤2.4,自顶向下的修正阶段,首先按层次结构对所有节点进行从大到小的排序,并将所有节点编码初始化为未标记;然后,该算法提取节点序列中层次结构编码最大的未标记节点,并将该节点作为在广度上遍历图形的起点,逐级向下广度优先遍历,在每一轮中,当父节点的层次结构为q时,子节点的层次结构将标记为q-1;将qold表示的节点的当前层次结构数值大小与新派生的节点表示节点的数值大小进行比较,考虑以下两种情况:(a)当qold<qnew时,算法将节点的层次结构设置为qnew,并将该节点设为已标记;(b)当qold=qnew且该节点为已标记时,此节点的向下遍历将提前终止;接下来,将继续提取下一个未标记的节点,直到序列中没有未标记的节点。
4.根据权利要求1所述的一种多隐私策略组合优化的多源数据融合隐私保护方法,其特征在于,所述步骤3中实现对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作,具体步骤为:
步骤3.1,实现k-anonymous:根据领域专家或数据拥有者对属性
Figure FDA0003848609140000054
值域范围设定,接着对属性
Figure FDA0003848609140000061
在贝叶斯网络中的值域空间进行扩充,使得其值域空间中不同值的数量大于等于k,修正时隐私节点的父节点根据信息熵最大化的修正原则,将父节点的子节点中概率分布值最大的属性值分配给隐私节点,使得隐私节点满足k要求;
步骤3.2,实现l-diversity:根据数据方对属性
Figure FDA0003848609140000062
值域范围的设定,对属性
Figure FDA0003848609140000063
在贝叶斯网络中的值域空间进行扩充,使得其值域空间中不同值的数量大于等于l,修正后属性
Figure FDA0003848609140000064
中各值的概率分布根据信息熵最大化的修正原则,在每一轮修正的过程中,仅选择一个概率分布最大的值作为待修正的目标对象,将其高于均值的概率分布值平均分配给新增的属性值;
步骤3.3,实现t-closeness:将属性
Figure FDA0003848609140000065
值域空间中导致信息熵最大化的值分布情况定义为理论基准,使用方差进行度量,对属性
Figure FDA0003848609140000066
中各个值的概率分布进行修正,使得各值出现概率与理论基准的方差不高于t;
步骤3.4,实现属性值泛化:根据领域专家或数据拥有者对属性设置的属性值层次树,将属性
Figure FDA0003848609140000067
值域中相近值的概率分布进行融合,将属性
Figure FDA0003848609140000068
值域中待匿名保护的属性叶节点与其所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换,该节点所对应的属性值概率分布继承自参与聚合的所有原叶节点;
通过将不同隐私保护策略的数据集转化为贝叶斯网络,并对贝叶斯网络进行编码,实现了二次匿名的过程,多方数据融合的重匿名架构得以实现。
CN202110014817.4A 2021-01-06 2021-01-06 一种多隐私策略组合优化的多源数据融合隐私保护方法 Active CN112765653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110014817.4A CN112765653B (zh) 2021-01-06 2021-01-06 一种多隐私策略组合优化的多源数据融合隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110014817.4A CN112765653B (zh) 2021-01-06 2021-01-06 一种多隐私策略组合优化的多源数据融合隐私保护方法

Publications (2)

Publication Number Publication Date
CN112765653A CN112765653A (zh) 2021-05-07
CN112765653B true CN112765653B (zh) 2022-11-25

Family

ID=75700181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110014817.4A Active CN112765653B (zh) 2021-01-06 2021-01-06 一种多隐私策略组合优化的多源数据融合隐私保护方法

Country Status (1)

Country Link
CN (1) CN112765653B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420333B (zh) * 2021-07-16 2022-10-04 合肥工业大学 一种隐私保护的网约车上车点推荐***与方法
CN115118531B (zh) * 2022-08-30 2022-11-18 北京金睛云华科技有限公司 基于差分隐私的分布式云端协同加密方法和设备
CN117035380B (zh) * 2023-07-11 2024-04-16 山东理工大学 跨组织业务流程一致性检测与异常行为诊断方法及***
CN116702214B (zh) * 2023-08-02 2023-11-07 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及***
CN117808643B (zh) * 2024-02-29 2024-05-28 四川师范大学 一种基于汉语言的教学管理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109618338A (zh) * 2018-12-22 2019-04-12 山西财经大学 一种基于Hilbert填充曲线的传感器网络路由方法
CN109726758A (zh) * 2018-12-28 2019-05-07 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN110096895A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联图谱的服务隐私泄露检测方法、物联网服务平台
CN110363236A (zh) * 2019-06-29 2019-10-22 河南大学 空谱联合超图嵌入的高光谱图像极限学习机聚类方法
CN110866277A (zh) * 2019-11-13 2020-03-06 电子科技大学广东电子信息工程研究院 一种DaaS应用的数据集成的隐私保护方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140287723A1 (en) * 2012-07-26 2014-09-25 Anonos Inc. Mobile Applications For Dynamic De-Identification And Anonymity
CN109871375A (zh) * 2018-09-12 2019-06-11 国网浙江省电力有限公司嘉兴供电公司 分布式新能源规模化接入的信息平台及其控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109618338A (zh) * 2018-12-22 2019-04-12 山西财经大学 一种基于Hilbert填充曲线的传感器网络路由方法
CN109726758A (zh) * 2018-12-28 2019-05-07 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN110096895A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联图谱的服务隐私泄露检测方法、物联网服务平台
CN110363236A (zh) * 2019-06-29 2019-10-22 河南大学 空谱联合超图嵌入的高光谱图像极限学习机聚类方法
CN110866277A (zh) * 2019-11-13 2020-03-06 电子科技大学广东电子信息工程研究院 一种DaaS应用的数据集成的隐私保护方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A semantic k-anonymity privacy protection method for publishing sparse location data;Xudong Yang等;《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6831149》;20191128;第1-7页 *
Practical and Privacy-assured Data Indexes for Outsourced Cloud Data;Zhigang Zhou等;《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8916470》;20140612;第1-6页 *
群智感知网络中基于隐私保护的数据融合方法;龙浩等;《计算机工程与设计》;20201229;第41卷(第12期);第3346-3352页 *
集体噪声信道中错误容忍的可控量子对话;常利伟等;《光通信技术》;20201022;第44卷(第9期);第7-12页 *
面向敏感值的层次化多源数据融合隐私保护;杨月平等;《计算机科学》;20171020;第44卷(第9期);第156-161页 *

Also Published As

Publication number Publication date
CN112765653A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112765653B (zh) 一种多隐私策略组合优化的多源数据融合隐私保护方法
Qian et al. De-anonymizing social networks and inferring private attributes using knowledge graphs
Gardner et al. Incorporating vector space similarity in random walk inference over knowledge bases
Gehrke et al. Towards privacy for social networks: A zero-knowledge based definition of privacy
Ju et al. Things and strings: improving place name disambiguation from short texts by combining entity co-occurrence with topic modeling
Gao et al. Local differential privately anonymizing online social networks under hrg-based model
Nasution et al. Social network extraction based on Web. A comparison of superficial methods
Cao et al. HitFraud: a broad learning approach for collective fraud detection in heterogeneous information networks
Xing et al. A survey of across social networks user identification
Deng et al. Contextualized knowledge-aware attentive neural network: Enhancing answer selection with knowledge
CN102662987B (zh) 一种基于百度百科的网络文本语义的分类方法
Du et al. Sanitizing sentence embeddings (and labels) for local differential privacy
Su et al. Mining user-aware multi-relations for fake news detection in large scale online social networks
CN106649262B (zh) 一种社交媒体中企业硬件设施敏感信息防护方法
Ren et al. Cross-network social user embedding with hybrid differential privacy guarantees
Wang et al. DHCF: Dual disentangled-view hierarchical contrastive learning for fake news detection on social media
Xin et al. Subjective knowledge base construction powered by crowdsourcing and knowledge base
Zhang et al. Improving entity linking in Chinese domain by sense embedding based on graph clustering
CN113065918A (zh) 基于半监督学习的稀疏信任推荐方法
Deng et al. A multiuser identification algorithm based on internet of things
Ling et al. Efficient federated learning privacy preservation method with heterogeneous differential privacy
CN112822004A (zh) 一种基于信念网络的靶向型隐私保护数据发布方法
Mami et al. Generating realistic synthetic relational data through graph variational autoencoders
Cui et al. Short text analysis based on dual semantic extension and deep hashing in microblog
Pujara Probabilistic models for scalable knowledge graph construction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant