CN112765653B

CN112765653B - 一种多隐私策略组合优化的多源数据融合隐私保护方法

Info

Publication number: CN112765653B
Application number: CN202110014817.4A
Authority: CN
Inventors: 周志刚; 白增亮; 王宇; 梁子恺; 吴天生
Original assignee: Shancai Hi Tech Shanxi Co ltd
Current assignee: Shancai Hi Tech Shanxi Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-11-25
Anticipated expiration: 2041-01-06
Also published as: CN112765653A

Abstract

本发明数据发布领域，具体涉及一种多隐私策略优化组合优化的多源数据融合隐私保护方法。提出一种基于重匿名(over‑anonymity)的多方数据融合架构，防止融合后的数据出现隐私泄露的情况。进一步地，数据融合的现实意义在于为用户提供更全面的数据基础，以便在此基础上进行广泛的知识挖掘。为此，设计了一种多隐私保护策略组合优化方案，在满足各方隐私约束的同时，最大限度地提高融合后数据的可用性。该策略将多源多隐私约束的数据融合映射为一张超图，通过使用启发式规则逐一在超图上选择、求解并消除各个超边，超边被消解的过程也是隐私约束逐一实现的过程，并以此制定一个数据融合方案。

Description

一种多隐私策略组合优化的多源数据融合隐私保护方法

技术领域

本发明数据发布领域，具体涉及一种多隐私策略组合优化的多源数据融合隐私保护方法。

背景技术

多源跨平台、数据应用跨域是大数据最突出的特征，在大数据时代由于不同应用领域数据***式增长，单一类型的数据(如位置数据、社交数据、Cookie日志、购物网站流水等)难以满足人们对上层复杂应用服务的需求。例如，Bob需要App搜索附近喜欢打篮球的好友,这个需求的实现需要位置数据与社交数据的有机融合。不仅个人对数据有跨域融合的需要,企业内部不同部门间、不同质企业间甚至企业与政府部门间对数据跨域融合也存在现实的需求应用，例如精准广告推送、网约车优化管理、智能城市地铁线路规划等，都需要不同领域平台的数据源所有者在各自所拥有的数据层面展开深入的融合协作。然而，各个平台的数据往往极具“使用价值”，可能包括了用户的身份信息、行为信息、财务信息甚至疾病信息等敏感/隐私信息，直接发布原始数据必将导致用户隐私的泄露。

为了防止用户隐私的泄露，各个数据源平台在进行大数据融合发布之前，需要先对各自平台的数据集进行脱敏处理(如扰动、加噪、泛化等)，传统的匿名类隐私保护方法大多只针对单数据源的数据进行隐私保护，不能有效地应对大数据深度关联分析所带来的非显性隐私信息泄露问题；此外，单一的隐私保护方法已经不能满足数据使用者个性化的隐私需求，正如对各个来源数据的局部隐私保护并不能避免融合后全局数据隐私泄露的风险(例如Alice在A购票网站购买一张去慕尼黑的机票，并在B旅游公司的网页上浏览慕尼黑的旅游景点。而A、B两公司分别对外发布信息，其中A公司采用基于3-匿名的信息泛化技术，即将“去慕尼黑的机票”泛化为“去欧洲的机票”，B公司采用3-多样性技术，即将与Alice同时浏览该公司网站的两个用户的浏览行为作为一组进行发布{2017-07-11 9:30：{慕尼黑：新天鹅堡，日本：富士山，美国：麻省理工学院}}。假设敌手已知Alice有出国旅游的计划，并从窃取的上网记录中获知其登录过A和B公司的网页，通过关联A、B两公司发布的信息，敌手可以精确地推出Alice将在何时去慕尼黑-新天鹅堡的旅行路线)。这也正是面向大数据发布隐私保护所面临的最本质问题“分布式大数据多源融合后，被攻击者构建数据关联分析所导致的隐私泄露”。一个朴素的方法是对自然连接的融合数据进行隐私保护方法级粒度的组合。然而，隐私保护方法级粒度的组合可能会导致对隐私信息的“过度保护”，从而严重降低数据的可用性，如图1所示：两方在数据融合中，方案一(先进行5-匿名，再进行3-多样性)需要添加29条噪声，方案二(先进行3-多样性，再进行5-匿名)需要添加20条噪声，所以，在隐私保护的大数据融合发布领域，面向数据可用性最大化的多隐私保护方法细粒度组合优化依然是一个开放性问题。

在数据发布的隐私保护领域，传统的隐私保护算法包括差分隐私、k匿名、l-diversity匿名、t-closeness匿名等，一些学者对这些传统算法的改进也具有里程碑意义，如Wang等人借助语义层级树，通过将数量不及匿名需求的记录项进行语义泛化，以使得记录项在更为宽泛的语义下实现k-匿名，然而，记录项泛化技术的使用造成了不可逆的信息损失，且对高维稀疏数据使用k-匿名准则将使得数据的可用性大幅降低；Brijesh B等人提出一种改进l-diversity匿名的方法，在运行时间方面有显着改善，并且与现有方法相比，其信息损失也更小，同时由于初始等价类中记录的紧密排列，提供了相同级别的隐私。总体来看，这些传统的隐私保护模型通常只适用于特定场景下的静态数据发布。然而，大数据发布所面临的风险体现在其发布过程的动态性，且具备多源跨平台发布的特点，这就需要防止攻击者对多源融合后的数据进行关联分析，进而破坏数据的匿名性。

就数据融合的隐私保护方面，H Patel等人提出了一种自底向上实现两方数据的安全融合方法，但是该模型的前提是存在着可信任的第三方先融合所有的数据形成一个完整的原始数据表，然后对数据表实现匿名化处理，而在大部分情况下可信任第三方是不存在的，所以该文献的方法利用价值不大；Jiang等人提出了一种在半诚实模型下实现两方数据的DkA安全融合模型，该算法利用可交换加密策略在通信过程中隐藏原始信息，并通过构建完整的匿名表判断是否满足匿名门限k来实现对数据融合过程的隐私保护，但是该方法的资源耗费太大，不适合大数据集的融合；Clifton等人开发了针对关系数据计数、并、交、笛卡儿积四种典型操作的安全数据多方数据集成工具；Yeom等人研究了由模型泛化能力不足导致的间接隐私泄露，紧接着，Mohammed等人基于分类树结构使用数据泛化技术实现数据集成各方的数据隐私保护，但集成后数据的信息损失较高，具体的信息损失度与数据集相关。上述方案都假设参与数据融合的多方都采用相同的隐私保护策略，然而，面对大数据各异的隐私保护需求，不同平台在大数据融合前可能根据己方的应用需求采用了个性化的隐私保护策略，现有的方案难以适用。

发明内容

本发明提出了一种多隐私策略组合优化的多源数据融合隐私保护方法。具体来说，本专利首先提出一种基于重匿名(over-anonymity)的多方数据融合架构，其中，内层数据匿名存在于数据融合前，由各自局部数据的拥有者实施，对数据进行初始保护；外层数据匿名发生在数据融合时，由参与融合的多方按照既定的多方隐私保护协议(为了简化描述，本专利将其视为同时满足各个参与方的隐私约束)实施，防止融合后的数据出现隐私泄露的情况。进一步地，数据融合的现实意义在于为用户提供更全面的数据基础，以便在此基础上进行广泛的知识挖掘。为此，本专利设计了一种多隐私保护策略组合优化方案，在满足各方隐私约束的同时，最大限度地提高融合后数据的可用性。该策略将多源多隐私约束的数据融合映射为一张超图，通过使用启发式规则逐一在超图上选择、求解并消除各个超边，超边被消解的过程也是隐私约束逐一实现的过程，并以此制定一个数据融合方案。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

步骤1，构建数据多源融合的***模型：

如图2所示，首先，在***模型中数据拥有者收集来自各方的数据，为了防止隐私泄露，各方进行数据匿名操作；其次，由于一些实体数据量巨大，必须将数据存储在公有云端，公有云端的数据融合是将多源跨平台的数据进行有机集成，旨在通过融合各方完备的数据集来更好的挖掘有用信息，而如果只是进行简单的数据融合，无法消除数据融合后公有云端对隐私的窥探顾虑，所以在公有云端还需要进行重匿名操作；此外，用户可以通过定制需要的服务以享受大数据带来的便捷，然而，未知的攻击者也可能隐藏在用户中，因此这里假设用户也是“好奇的”，即用户与云服务提供商视为具有相同攻击能力的疑似隐私挖掘群体。

步骤2，设计多方数据融合的重匿名架构：

针对大数据信息的频繁跨平台交流共享，本专利提出一种基于多方数据融合的重匿名架构，分为初始状态、握手过程、数据同步以及二次匿名四个过程。首先，初始状态各方按照其各自的隐私保护要求对各自数据进行相应匿名化操作；其次，握手过程进行多方通信，各方发布各自的数据隐私保护力度要求；数据同步，也即在此过程中需要使多方数据的公共属性值的分布一致化，同时满足多方的隐私保护要求；二次匿名是重匿名架构中最关键的步骤，具体而言，二次匿名时将数据集转化为贝叶斯网络，通过对贝叶斯网络进行编码来构建层次结构图，最终使得隐私保护问题转化为一个概率推理问题，其具体过程包括网络结构学习和网络编码。

步骤3，隐私保护策略实现：

给定隐私保护策略，通过上述两个过程最终形成贝叶斯网络G，接着需要对属性

进行操作，使隐私节点X_s满足策略要求。具体而言，对于隐私保护策略

本专利定义单位隐私保护操作，即将隐私预算进行d等分，每一轮仅对选定的一个属性节点的概率分布进行隐私保护，对于待进行隐私操作的属性

本专利实现了对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作。

步骤4，通过将多方多隐私约束的数据融合映射为一张超图，并设计了相应的启发式规则，将数据融合过程演化为超图消解的过程，在满足隐私约束的同时提高了数据的可用性。

进一步，所述步骤1中采用对抗式学习架构构建数据融合模型与隐私攻击模型，具体步骤为：

步骤1.1，构建数据融合模型：

数据融合是将分属多源的数据进行有机集成，旨在通过较以前更完备的数据集来更好的挖掘有用信息，以便于为用户提供高质量的服务。为了方便讨论,首先给出数据的形式化描述：一个数据集表示为一个四元组D(X,A,F,V)，其中，X＝{x₁,x₂,…,x_n}为数据记录集，每一条数据x_i都排他地关联一个专属用户u_i；A为属性集；进一步地，根据属性的敏感性，将其分为信息属性集IA和敏感属性集SA，并且IA∪SA＝A，

F为X与A之间的关系集

为属性a_k的值域。

定义1(等价类)：给定数据集D(X,A,F,V)，对于

若存在t条记录{x₁,x₂,…,x_t}，(t≥1)，使得

成立，称{x₁,x₂,…,x_t}为D上关于A′的一个等价类，记为[x_i]_A′，反之，由属性集A^′形成的所有等价类的集合E_A′，构成对D的一个划分，记为D/E_A′。特别地，若

相应的等价类称为信息等价类。

定义2(数据融合)：给定m个数据集{D₁,…,D_m}，则融合后的数据集D(x,{IA,SA},F,V)满足：

特别地，若存在两个待融合的数据集D_i,D_j满足

(

表示对称差操作符)，则称为信息增量融合；若存在记录x_k∈X_i∩X_j，满足

且

则称为信息加细融合；若任意记录x_k∈X_i∩X_j，满足

(其中，SA_i＝SA_j),则称为协调融合，否则，称为非协调融合。本专利的研究范畴为协调的信息增量加细融合。

步骤1.2，构建隐私及隐私攻击模型：

隐私是指用户与其所对应数据敏感属性值的单射，若此单射关系泄露，则用户的隐私泄露。由数据模型可知，用户与数据记录存在一一映射，从数据层面看，每一个用户都对应一组信息属性值，即用户与信息属性值存在单射，而含有该组信息属性值的等价类也对应一个隐私属性值集合。根据单射的传递性，若该组信息属性值与相应的隐私属性值集合构成单射(即该隐私属性值集合仅包含一个元素),则数据集的发布对该用户存在数据隐私泄露。

定义3(数据隐私泄露)：给定一个数据集D(X,{IA,SA},F,V)，如果

[x_i]_IA为其所属的信息等价类，对于

其相应的隐私属性值记为

若

则称数据隐私泄露。

定义4(知识推理攻击)：假设敌手已知目标用户u_i的信息属性值

且获知该用户的数据记录x_i存在于待发布的数据集D(X,{IA,SA},F,V)中，当数据发布后，敌人构建如下关系：

并据此形成隐私推理概率，即对

用户u_i在SA上值是v_j的概率为

(其中，C(*)为计数统计函数，|_*为论域限定符)。

定义5(数据增量发布的多版本攻击)：给定一个首次发布的数据集D(X,{IA,SA},F,V)及相应的发布者发布的更新数据集D′(X′,{IA′,SA′},F′,V′)，假设敌手通过比较一个专属用户u_i的X′,X，构建如下关系：

并形成隐私推理概率，也即对于两个数据集中

敌手推断出用户的隐私概率为

其中SEL为选择函数。

进一步，所述步骤2中纵向编码包括两个阶段：贝叶斯网络结构学习阶段和网络编码阶段；

所述贝叶斯网络结构学习阶段的具体步骤为：

步骤2.1，考虑从数据集D＝{D₁,…,D_n}中学习贝叶斯网络结构，包括m个随机变量集是

假设变量是分类变量并且数据集是完整的。贝叶斯网络构造算法的目标是通过定义每个变量的父项集Π₁,…,Π_m在节点集x上找到得分最高的有向无环图(Directed Acyclic Graph，DAG)g。通过假定Markov条件，会引入联合概率分布，每个变量在给定其父变量的情况下都在条件上独立于其非后代变量。

步骤2.2，对于对生成DAG质量的评估，使用不同的评分函数，采用BayesianInformation Criterion(BIC)评分，其与DAG的后验概率乘数成正比。BIC是可分解的，由每个变量及其父节点集合的分数之和构成：

其中，LL(X_i|∏_i)表示X_i与其父节点集合∏_i的对数似然函数：

Pen(X_i|Π_i)表示X_i与其父节点集合∏_i的复杂度惩罚函数：

其中，

是条件概率P(X_i＝x|Π_i＝π)的极大似然估计，N_x,π表示(X＝x|Π_i＝π)在数据集中出现的次数，|·|表示给出变量的笛卡尔积空间的大小。

本专利使用爬山法生成相应数据的贝叶斯网络，主要步骤如算法1所示：

算法1基于爬山法的贝叶斯网络结构生成方法

需要说明的是，“翻转边”操作不能简单地看成“删除一条边，添加一条与前一操作方向相反的边”的序列操作。由于算法采用贪心策略，删除边操作可能使得贝叶斯网络的BIC评分降低，程序提前终止，进而导致添加相应的翻转边操作无法实施。

所述贝叶斯网络编码阶段的具体步骤为：

步骤2.3，通过纵向编码贝叶斯网络来构建层次结构图，其中包括两个阶段：自底向上的编码阶段和自顶向下的修正阶段。具体来说，给定一个贝叶斯网络，通过编码将其转化为一个层次结构图，算法2为贝叶斯网络编码过程：

算法2贝叶斯网络纵向编码

1)自底向上的编码阶段。首先，所有节点的层次结构最初标记为零，该算法从叶节点开始连续标记，并逐步跟踪相应的父节点。在每个轮次中，当子节点的层次结构为q时，父节点的层次结构将标记为q+1。然后，对于非叶子节点仅记录当前最大编码，即若该节点的编码非0，则比较新的编码与原编码，保留大者，若两者相等，则停止对该节点的向上回溯，看叶子节点队列是否为空，若为空，则停止。接下来，提取下一个叶子节点进行标记，直到叶子节点序列为空。

2)自顶向下的修正阶段。首先按层次结构对所有节点进行从大到小的排序，并将所有节点编码初始化为未标记。然后，该算法提取节点序列中层次结构最大(即编码最大)的未标记节点，并将该节点作为在广度上遍历图形的起点，逐级向下广度优先遍历。在每一轮中，当父节点的层次结构为q时，子节点的层次结构将标记为q-1。将q_old表示的节点的当前层次结构数值大小与新派生的节点表示节点的数值大小进行比较，考虑以下两种情况：(a)当q_old＜q_new时，算法将节点的层次结构设置为q_new，并将该节点设为已标记；(b)当q_old＝q_new且该节点为已标记时，此节点的向下遍历将提前终止。接下来，将继续提取下一个未标记的节点，直到序列中没有未标记的节点。

进一步，所述步骤3中实现对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作，具体步骤为：

步骤3.1，实现k-anonymous：根据领域专家或数据拥有者对属性

值域范围设定，接着对属性

在贝叶斯网络中的值域空间进行扩充，使得其值域空间中不同值的数量大于等于k。修正时隐私节点的父节点根据信息熵最大化的修正原则，将父节点的子节点中概率分布值最大的属性值分配给隐私节点，使得隐私节点满足k要求；

步骤3.2，实现l-diversity：根据数据方对属性

值域范围的设定，对属性

在贝叶斯网络中的值域空间进行扩充，使得其值域空间中不同值的数量大于等于l。修正后属性

中各值的概率分布根据信息熵最大化的修正原则，在每一轮修正的过程中，仅选择一个概率分布最大的值作为待修正的目标对象，将其高于均值的概率分布值平均分配给新增的属性值；

步骤3.3，实现t-closeness：将属性

值域空间中导致信息熵最大化的值分布情况定义为理论基准，使用方差进行度量，对属性

中各个值的概率分布进行修正，使得各值出现概率与理论基准的方差不高于t；

步骤3.4，实现属性值泛化：根据领域专家或数据拥有者对属性设置的属性值层次树，将属性C值域中相近值的概率分布进行融合。将属性C值域中待匿名保护的属性叶节点与其所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换，该节点所对应的属性值概率分布继承自参与聚合的所有原叶节点。

通过将不同隐私保护策略的数据集转化为贝叶斯网络，并对贝叶斯网络进行编码，实现了二次匿名的过程，至此，多方数据融合的重匿名架构得以实现。然而，在多源数据融合过程中，还需要对多隐私保护策略组合方案进行优化，在满足各方隐私约束的同时，最大限度地提高融合后数据的可用性。

进一步，所述步骤4中采用启发式规则将数据融合过程演化为超图消解的过程，具体步骤为：

即PROG(HG)是：

FOR每个与超边N相交的超边M DO

自底向上消去R(M)中无概率依赖的元组

ENDFOR；

PROG(HG₁)，PROG(HG₂)，……，PROG(HG_k)；

超图消解算法递归地调用以上3个规则，逐条地从HG中选择、求解和消除各个超边，构造出RESULT(HG)程序PROG(HG)，超边被消解的过程也是隐私约束逐一实现的过程。超图消解启发式算法如下：

算法3超边消解启发式算法

以上文提及的两个隐私保护策略操作F₁＝(A,B,D)和F₂＝(D,E,G,H)的连接超图为例，我们看如何利用启发式算法构造程序PROG(HG)和产生结果“RESULT(HG)：

(1)消解超边{A,B,D}、{D,E,G,H}，其结果超图为HG₁＝({B,D}、{D,G}、{A}、{E}、{H})，根据消解规则3，得到PROG(HG)程序

PROG(HG₁)；

(2)令HG₂＝({A}、{E}、{H})，HG₃＝({B,D}、{D,G})，根据消解规则2，得到PROG(HG₁)程序

PROG(HG₂)、PROG(HG₃)；

RESULT(HG₁):＝RESULT(HG₂)×RESULT(HG₃)。

因为HG₂包含分别独立的三条超边，所以PROG(HG₂)为

RESULT(HG₂):＝R({A}、{E}、{H})

(3)构造计算HG₃的程序PROG(HG₃)来消解超边{B,D}、{D,G}，其结果超图为HG₄，根据消解规则3，产生PROG(HG₃)程序

PROG(HG₄)；

(4)由于HG₄只包含一条超边，所以由规则1可知，PROG(HG₄)是

RESULT(HG₄):＝R({D,G})。

最后的程序可写为：

当然，实施本发明的任一产品并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为不同隐私保护策略执行顺序结果比较案例分析；

图2为多源数据融合的***模型；

图3为超图HG；

图4为是否重匿名对比结果；

图5为朴素算法与优化算法比较结果；

图6为不同等价类中判别器和生成器的隐私属性概率。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种多隐私策略组合优化的多源数据融合隐私保护方法，包括以下步骤：

步骤1，构建数据多源融合的***模型：首先，在***模型中数据拥有者收集来自各方的数据，为了防止隐私泄露，各方进行数据匿名操作；其次，由于一些实体数据量巨大，必须将数据存储在公有云端，公有云端的数据融合是将多源跨平台的数据进行有机集成，旨在通过融合各方完备的数据集来更好的挖掘有用信息，而如果只是进行简单的数据融合，无法消除数据融合后公有云端对隐私的窥探顾虑，所以在公有云端还需要进行重匿名操作；此外，用户可以通过定制需要的服务以享受大数据带来的便捷，然而，未知的攻击者也可能隐藏在用户中，因此这里假设用户也是“好奇的”，即用户与云服务提供商视为具有相同攻击能力的疑似隐私挖掘群体。具体步骤如下：

步骤1.1，构建数据融合模型。数据融合是将分属多源的数据进行有机集成，旨在通过较以前更完备的数据集来更好的挖掘有用信息，以便于为用户提供高质量的服务。数据集表示为一个四元组D(X,A,F,V)，其中，X＝{x₁,x₂,…,x_n}为数据记录集，每一条数据x_i都排他地关联一个专属用户u_i；A为属性集；进一步地，根据属性的敏感性，将其分为信息属性集IA和敏感属性集SA，并且IA∪SA＝A，

F为X与A之间的关系集

为属性a_k的值域。

步骤1.2，构建隐私及隐私攻击模型。隐私是指用户与其所对应数据敏感属性值的单射，若此单射关系泄露，则用户的隐私泄露。由数据模型可知，用户与数据记录存在一一映射，从数据层面看，每一个用户都对应一组信息属性值，即用户与信息属性值存在单射，而含有该组信息属性值的等价类也对应一个隐私属性值集合。根据单射的传递性，若该组信息属性值与相应的隐私属性值集合构成单射(即该隐私属性值集合仅包含一个元素),则数据集的发布对该用户存在数据隐私泄露。

步骤2，设计多方数据融合的重匿名架构：针对大数据信息的频繁跨平台交流共享，本专利提出一种基于多方数据融合的重匿名架构，分为初始状态、握手过程、数据同步以及二次匿名四个过程。首先，初始状态各方按照其各自的隐私保护要求对各自数据进行相应匿名化操作；其次，握手过程进行多方通信，各方发布各自的数据隐私保护力度要求；数据同步，也即在此过程中需要使多方数据的公共属性值的分布一致化，同时满足多方的隐私保护要求；二次匿名是重匿名架构中最关键的步骤，具体而言，二次匿名时将数据集转化为贝叶斯网络，通过对贝叶斯贝叶斯网络进行编码来构建层次结构图，最终使得隐私保护问题转化为一个概率推理问题，其具体过程包括网络结构学习和网络编码。

假设变量是分类变量(即变量的状态数有限)并且数据集是完整的。贝叶斯网络构造算法的目标是通过定义每个变量的父项集∏₁,…,Π_m在节点集

上找到得分最高的有向无环图(Directed Acyclic Graph，DAG)

通过假定Markov条件，会引入联合概率分布，每个变量在给定其父变量的情况下都在条件上独立于其非后代变量。

步骤2.2，对于对生成DAG质量的评估，使用不同的评分函数，在本专利中，我们采用Bayesian Information Criterion(BIC)评分，其与DAG的后验概率乘数成正比。BIC是可分解的，由每个变量及其父节点集合的分数之和构成：

其中，LL(X_i|Π_i)表示X_i与其父节点集合Π_i的对数似然函数：

Pen(X_i|Π_i)表示X_i与其父节点集合Π_i的复杂度惩罚函数：

其中，

是条件概率P(X_i＝x|Π_i＝π)的极大似然估计，N_x,π表示(X＝x|∏_i＝π)在数据集中出现的次数，|·|表示给出变量的笛卡尔积空间的大小。

所述贝叶斯网络编码通过纵向编码贝叶斯网络来构建层次结构图，其中包括两个阶段：自底向上的编码阶段和自顶向下的修正阶段。具体来说，给定一个贝叶斯网络，通过编码将其转化为一个层次结构图。

步骤2.3，自底向上的编码阶段。首先，所有节点的层次结构最初标记为零，该算法从叶节点开始连续标记，并逐步跟踪相应的父节点。在每个轮次中，当子节点的层次结构为q时，父节点的层次结构将标记为q+1。然后，对于非叶子节点仅记录当前最大编码，即若该节点的编码非0，则比较新的编码与原编码，保留大者，若两者相等，则停止对该节点的向上回溯，看叶子节点队列是否为空，若为空，则停止。接下来，提取下一个叶子节点进行标记，直到叶子节点序列为空。

步骤2.4，自顶向下的修正阶段。首先按层次结构对所有节点进行从大到小的排序，并将所有节点编码初始化为未标记。然后，该算法提取节点序列中层次结构最大(即编码最大)的未标记节点，并将该节点作为在广度上遍历图形的起点，逐级向下广度优先遍历。在每一轮中，当父节点的层次结构为q时，子节点的层次结构将标记为q-1。在这里，我们将q_old表示的节点的当前层次结构数值大小与新派生的节点表示节点的数值大小进行比较，考虑以下两种情况：(a)当q_old＜q_new时，算法将节点的层次结构设置为q_new，并将该节点设为已标记；(b)当q_old＝q_new且该节点为已标记时，此节点的向下遍历将提前终止。接下来，将继续提取下一个未标记的节点，直到序列中没有未标记的节点。

步骤3，隐私保护策略实现：给定隐私保护策略，通过步骤1-2最终形成贝叶斯网络G，接着需要对属性

本文定义单位隐私保护操作，即将隐私预算进行d等分，每一轮仅对选定的一个属性节点的概率分布进行隐私保护，对于待进行隐私操作的属性

步骤3.1，实现k-anonymous：根据领域专家或数据拥有者对属性

值域范围设定，接着对属性

步骤3.2，实现l-diversity：同上，根据数据方对属性

值域范围的设定，对属性

步骤3.3，实现t-closeness：将属性

步骤3.4，实现属性值泛化：根据领域专家或数据拥有者对属性设置的属性值层次树，将属性

值域中相近值的概率分布进行融合。将属性

值域中待匿名保护的属性叶节点与其所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换，该节点所对应的属性值概率分布继承自参与聚合的所有原叶节点。

步骤4，通过将多方多隐私约束的数据融合映射为一张超图，并设计了相应的启发式规则，将数据融合过程演化为超图消解的过程，在满足隐私约束的同时提高了数据的可用性。具体步骤为：

步骤4.1，将隐私保护策略形式化定义为一个五元组F＝(G,IA,SA,OP,V)，其中G表示由数据集转化而来的贝叶斯网络；IA表示信息属性节点，IA＝(a₁,a₂,…,a_m)，a₁,a₂,…,a_m不相互独立，它们之间存在概率依赖关系；SA表示隐私节点，OP表示某操作步骤，OP＝(OP₁,OP₂,…,OP_m)。V表示经过操作OP后的值域，

从数据层面和结构层面对不同隐私保护策略的执行顺序进行判断：

1)若a_m可由a₁,a₂,…,a_n表示，则

也即OP_m后执行，反之亦然；

从结构层面看：

2)从贝叶斯网络的隐私节点出发，通过自底向上的编码阶段和自顶向下的修正阶段，对贝叶斯网络进行编码，通过在最大修正阈值内修正隐私节点SA，来比较对隐私属性的操作OP_i(SA_i,V_ai)与OP_j(SA_k,V_aj)达到隐私保护要求的效能，若OP_i对数据结构的影响较小，则OP_i达到要求的效能比OP_j高，也即

OP_i较OP_j先执行，反之亦然；

3)若涉及到多个对信息属性的操作

则分以下两种情况：首先若

通过IA之间的概率推理关系，分别计算每个操作的值域

若IA_j，

则OP_i较OP_j、OP_k先执行，若

则OP_k较OP_j、OP_i先执行；其次当

则OP_k较OP_j、OP_i先执行，而对于OP_j、OP_i顺序，若在操作

与

中，

则

会影响到OP_j，那么

OP_o较OP_j先执行，反之亦然。

例如，设两个隐私保护策略操作可拆解为F₁＝(A,B,D)和F₂＝(D,E,G,H),分别用超边{A,B,D}、{D,E,G,H}表示，其中B,D是F₁中某一操作中的两步，用条件超边{B,D}表示，D,G是F₂中某一操作中的两步，用条件超边{D,G}表示，由于HG₃、HG₄不相互独立，所以它们之间有交集，A,E,H分别为三个独立的操作，分别用超边{A}、{E}、{H}来表示。根据超边关系得到它们之间连接超图HG如图3所示：

步骤4.2，通过对不同隐私保护策略F执行顺序的判断，产生如下超边消解和产生PROG(HG)的启发式规则：

规则1.如果超图HG只包含一条超边N，将其直接消解，则PROG(HG)只包含RESULT(HG):＝R(N)；

规则2.如果超图HG是k个不相交超图HG₁、HG₂……HG_k的并集，则PROG(HG)是：

PROG(HG₁)，PROG(HG₂)，……，PROG(HG_k)；

RESULT(HG):＝RESULT(HG₁)×RESULT(HG₂)×……×RESULT(HG_k)

规则3.由贝叶斯网络的性质可知，给定隐私节点SA及其纵向编码X_SA.L，在所有以隐私节点为链尾节点的链集合Links中，令X_i和X_j是Links中非SA的任意两个节点，若X_i.L＜X_j.L，则在同等隐私保护粒度下，修正X_i的概率分布对全局数据可用性的影响更小，所以形成下贴近原则，即修正的属性节点越向下贴近隐私属性，修正越具有靶向性。换言之，如果超图HG由k个连通分量HG₁、HG₂……HG_k组成，那么判断各个超边对隐私节点的概率依赖关系，若HG_i较HG_j更向下贴近隐私节点，则

即HG_i先进行消解，反之亦然。

在本实施例中通过实验模拟验证本专利提出隐私保护模型的正确性和有效性。所提架构由采用python语言实现，硬件环境为Intel(R)Core(TM)[email protected]处理器，内存为16G，操作***为Windows 10。

第一组实验为了凸显重匿名握手协议的优越性，我们的实验分别对使用重匿名握手协议方法和不使用本方法做了比较，首先本专利借助贝叶斯网络生成数据集，在生成数据集的同时，也是各方第一次匿名的实现，其次，通过实验我们观察到数据量的变化对隐私泄露概率有一定的影响，所以我们将数据量作为测试的自变量，隐私泄露概率为因变量，实验结果如图4所示。从图中可以看出，在数据量极小的情况下，是否进行重匿名其隐私泄露概率基本相似，随着实验数据量的增大，我们的重匿名方法会使得隐私泄露的概率显著降低，数据量达到10万条时，隐私泄露概率会下降到20％以下，相反，在没有使用重匿名的方法下，随着实验数据量增大，隐私泄露概率会随之增大，数据量达到10万条时，隐私泄露的概率会高达80％以上。

第二组实验为了验证本专利提出的优化算法能极大程度提高数据可用性，我们设计了对比实验，将朴素算法与本专利优化算法来进行比较。本实验将数据可用性用Q来表示，其公式为：

其中a表示原始数据，b表示加噪数据，从公式可以观察出，加入噪声越多，数据可用性越差。我们依然将数据量作为自变量，数据量分别为5000、1万、2万、4万、6万、8万、10万进行实验，观察数据可用性的实验结果，如图5所示。由图5可知，在数据量极小的情况下，朴素算法与优化算法对数据可用性的影响效果相差不大；数据量达到4万条时，我们的优化算法比朴素算法在数据可用性上要高出约30％；数据量达到10万条时，朴素算法在数据可用性上比优化算法低约40％。通过以上分析可知使用本专利优化的融合算法，其数据可用性远高于使用朴素的融合算法。

第三组实验为了验证本专利的方法在增量数据融合上的可用性，本实验利用了生成式对抗网络的思想，首先利用已生成的贝叶斯网络生成数据集，判别器和生成器分别对数据集进行不同比例的抽样，其中判别器抽样百分比为30％，生成器抽样百分比为15％，将抽样的数据集利用爬山法分别生成贝叶斯网络，然后将各自生成的贝叶斯网络再次生成等量的40000条数据集，利用KL散度来衡量两个数据集某几个等价类中隐私属性的分布差异，计算公式为：

KL散度越接近0，说明判别器和生成器之间的差异越小，实验效果越好。

本专利选取了三个不同等价类中判别器和生成器隐私属性概率进行计算，其概率分布如图6所示，然后分别计算其KL散度，得到KL1＝0.0042，KL2＝0.0043，KL3＝0.0053，可以看出，三个KL散度都接近于0，说明判别器和生成器的差异很小，实验效果很好。

通过以上三个仿真实验分析可知，本专利提出的方法不仅在多源数据融合的隐私保护效果上有很大的改善，而且在数据的可用性方面也有极大地提升。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种多隐私策略组合优化的多源数据融合隐私保护方法，其特征在于，包括以下步骤：

步骤1，构建数据多源融合的***模型：首先，在***模型中数据拥有者收集来自各方的数据，各方进行数据匿名操作；其次将数据存储在公有云端，在公有云端还需要进行重匿名操作；此外，用户能够通过定制需要的服务以享受大数据带来的便捷；

步骤2，设计多方数据融合的重匿名架构：分为初始状态、握手过程、数据同步以及二次匿名四个过程，首先，初始状态各方按照其各自的隐私保护要求对各自数据进行相应匿名化操作；其次，握手过程进行多方通信，各方发布各自的数据隐私保护力度要求；数据同步，也即在此过程中需要使多方数据的公共属性值的分布一致化，同时满足多方的隐私保护要求，二次匿名时将数据集转化为贝叶斯网络，通过对贝叶斯网络进行编码来构建层次结构图，其具体过程包括网络结构学习和网络编码；

进行操作，使隐私节点X_s满足策略要求，具体而言，对于隐私保护策略

本方法定义单位隐私保护操作，即将隐私预算进行d等分，每一轮仅对选定的一个属性节点的概率分布进行隐私保护，对于待进行隐私操作的属性

本方法实现了对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作；

步骤4，通过将多方多隐私约束的数据融合映射为一张超图，并设计了相应的启发式规则，将数据融合过程演化为超图消解的过程，具体步骤为：

步骤4.1，将隐私保护策略形式化定义为一个五元组F＝(G,IA,SA,OP,V)，其中G表示由数据集转化而来的贝叶斯网络；IA表示信息属性节点，IA＝(a₁,a₂,…,a_m)，a₁,a₂,…,a_m不相互独立，它们之间存在概率依赖关系；SA表示隐私节点，OP表示某操作步骤，OP＝(OP₁,OP₂,…,OP_m)；V表示经过操作OP后的值域，

1)若a_m可由a₁,a₂,…,a_n表示，则OP_m＜OP_n，也即OP_m后执行，反之亦然；

从结构层面看：

2)从贝叶斯网络的隐私节点出发，通过自底向上的编码阶段和自顶向下的修正阶段，对贝叶斯网络进行编码，通过在最大修正阈值内修正隐私节点SA，来比较对隐私属性的操作

与

达到隐私保护要求的效能，若OP_i对数据结构的影响较小，则OP_i达到要求的效能比OP_j高，也即OP_j＜OP_i，OP_i较OP_j先执行，反之亦然；

3)若涉及到多个对信息属性的操作

则分以下两种情况：首先若OP_i＜OP_j＜OP_k＜OP_i，通过IA之间的概率推理关系，分别计算每个操作的值域

若IA_j，

则OP_i较OP_j、OP_k先执行，若

则OP_k较OP_j、OP_i先执行；其次当OP_i＜OP_j＜OP_k，OP_i＜OP_k，则OP_k较OP_j、OP_i先执行，而对于OP_j、OP_i顺序，若在操作

与

中，

则

会影响到OP_j，那么OP_j＜OP_i，OP_i较OP_j先执行，反之亦然；

PROG(HG₁)，PROG(HG₂)，……，PROG(HG_k)；

RESULT(HG):＝RESULT(HG₁)×RESULT(HG₂)×……×RESULT(HG_k)

规则3.由贝叶斯网络的性质可知，给定隐私节点SA及其纵向编码X_SA.L，在所有以隐私节点为链尾节点的链集合Links中，令X_i和X_j是Links中非SA的任意两个节点，若X_i.L<X_j.L，则在同等隐私保护粒度下，修正X_i的概率分布对全局数据可用性的影响更小，所以形成下贴近原则，即修正的属性节点越向下贴近隐私属性，修正越具有靶向性，换言之，如果超图HG由k个连通分量HG₁、HG₂……HG_k组成，那么判断各个超边对隐私节点的概率依赖关系，若HG_i较HG_j更向下贴近隐私节点，则HG_j＜HG_i，即HG_i先进行消解，反之亦然。

2.根据权利要求1所述的一种多隐私策略组合优化的多源数据融合隐私保护方法，其特征在于，所述步骤1中采用对抗式学习架构构建数据融合模型与隐私攻击模型，具体步骤为：

步骤1.1，构建数据融合模型：

数据融合是将分属多源的数据进行有机集成，一个数据集表示为一个四元组D(X,A,F,V)，其中，X＝{x₁,x₂,…,x_n}为数据记录集，每一条数据x_i都排他地关联一个专属用户u_i；A为属性集；根据属性的敏感性，将其分为信息属性集IA和敏感属性集SA，并且IA∪SA＝A，

F为X与A之间的关系集

为属性a_k的值域；

定义1等价类：给定数据集D(X,A,F,V)，对于

若存在t条记录{x₁,x₂,…,x_t}，(t≥1)，使得

成立，称{x₁,x₂,…,x_t}为D上关于A′的一个等价类，记为[x_i]_A′，反之，由属性集A′形成的所有等价类的集合E_A′，构成对D的一个划分，记为D/E_A′，若

相应的等价类称为信息等价类；

定义2数据融合：给定m个数据集{D₁,…,D_m}，则融合后的数据集D(X,{IA,SA},F,V)满足：

若存在两个待融合的数据集D_i,D_j满足

其中

表示对称差操作符，则称为信息增量融合；若存在记录x_k∈X_i∩X_j，满足

且

则称为信息加细融合；若任意记录x_k∈X_i∩X_j，满足

其中，SA_i＝SA_j,则称为协调融合，否则，称为非协调融合；本方法的研究范畴为协调的信息增量加细融合；

步骤1.2，构建隐私及隐私攻击模型：

隐私是指用户与其所对应数据敏感属性值的单射，若此单射关系泄露，则用户的隐私泄露，由数据模型可知，用户与数据记录存在一一映射，从数据层面看，每一个用户都对应一组信息属性值，即用户与信息属性值存在单射，而含有该组信息属性值的等价类也对应一个隐私属性值集合，根据单射的传递性，若该组信息属性值与相应的隐私属性值集合构成单射，则数据集的发布对该用户存在数据隐私泄露；

定义3数据隐私泄露：给定一个数据集D(X,{IA,SA},F,V)，如果

[x_i]_IA为其所属的信息等价类，对于

其相应的隐私属性值记为

若

则称数据隐私泄露；

定义4知识推理攻击：假设敌手已知目标用户u_i的信息属性值

(a_j∈IA)，且获知该用户的数据记录x_i存在于待发布的数据集D(X,{IA,SA},F,V)中，当数据发布后，敌人构建如下关系：

并据此形成隐私推理概率，即对

用户u_i在SA上值是v_j的概率为

其中，C为计数统计函数，|_*为论域限定符；

定义5数据增量发布的多版本攻击：给定一个首次发布的数据集D(X,{IA,SA},F,V)及相应的发布者发布的更新数据集D′(X^′,{IA^′,SA^′},F^′,V^′)，假设敌手通过比较一个专属用户u_i的X^′,X，构建如下关系：

并形成隐私推理概率，也即对于两个数据集中

敌手推断出用户的隐私概率为

其中SEL为选择函数。

3.根据权利要求1所述的一种多隐私策略组合优化的多源数据融合隐私保护方法，其特征在于，所述步骤2中纵向编码包括两个阶段：贝叶斯网络结构学习阶段和网络编码阶段；

所述贝叶斯网络结构学习阶段的具体步骤为：

假设变量是分类变量并且数据集是完整的，贝叶斯网络构造算法的目标是通过定义每个变量的父项集∏₁,…,П_m在节点集

上找到得分最高的有向无环图(Directed Acyclic Graph，DAG)g，通过假定Markov条件，会引入联合概率分布，每个变量在给定其父变量的情况下都在条件上独立于其非后代变量；

步骤2.2，对于对生成DAG质量的评估，使用不同的评分函数，采用BayesianInformationCriterion(BIC)评分，其与DAG的后验概率乘数成正比，BIC是可分解的，由每个变量及其父节点集合的分数之和构成：

其中，LL(X_i|Π_i)表示X_i与其父节点集合П_i的对数似然函数：

Pen(X_i|∏_i)表示X_i与其父节点集合Π_i的复杂度惩罚函数：

其中，

是条件概率P(X_i＝x|∏_i＝π)的极大似然估计，N_x,π表示(X＝x|Π_i＝π)在数据集中出现的次数，|·|表示给出变量的笛卡尔积空间的大小；

贝叶斯网络编码通过纵向编码贝叶斯网络来构建层次结构图，其中包括两个阶段：自底向上的编码阶段和自顶向下的修正阶段，具体步骤为：

步骤2.3，自底向上的编码阶段，首先，所有节点的层次结构最初标记为零，该算法从叶节点开始连续标记，并逐步跟踪相应的父节点；在每个轮次中，当子节点的层次结构为q时，父节点的层次结构将标记为q+1；然后，对于非叶子节点仅记录当前最大编码，即若该节点的编码非0，则比较新的编码与原编码，保留大者，若两者相等，则停止对该节点的向上回溯，看叶子节点队列是否为空，若为空，则停止；接下来，提取下一个叶子节点进行标记，直到叶子节点序列为空；

步骤2.4，自顶向下的修正阶段，首先按层次结构对所有节点进行从大到小的排序，并将所有节点编码初始化为未标记；然后，该算法提取节点序列中层次结构编码最大的未标记节点，并将该节点作为在广度上遍历图形的起点，逐级向下广度优先遍历，在每一轮中，当父节点的层次结构为q时，子节点的层次结构将标记为q-1；将q_old表示的节点的当前层次结构数值大小与新派生的节点表示节点的数值大小进行比较，考虑以下两种情况：(a)当q_old<q_new时，算法将节点的层次结构设置为q_new，并将该节点设为已标记；(b)当q_old＝q_new且该节点为已标记时，此节点的向下遍历将提前终止；接下来，将继续提取下一个未标记的节点，直到序列中没有未标记的节点。

4.根据权利要求1所述的一种多隐私策略组合优化的多源数据融合隐私保护方法，其特征在于，所述步骤3中实现对k-anonymous、l-diversity、t-closeness和属性值泛化四种隐私保护操作，具体步骤为：

步骤3.1，实现k-anonymous：根据领域专家或数据拥有者对属性