CN107832631A

CN107832631A - 一种数据发布的隐私保护方法和***

Info

Publication number: CN107832631A
Application number: CN201711115389.4A
Authority: CN
Inventors: 唐雪琴
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Taizhou Jiji Intellectual Property Operation Co.,Ltd.
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-03-23

Abstract

本发明公开了一种数据发布的隐私保护方法，所述方法包括以下步骤：S10：接收数据，对所述数据的敏感属性值的种类进行多样性判断；保证后续等价类划分具有相同的多样性；S20：根据多样性判断结果，进行数据等价类划分；S30：将等价类划分后的结果进行数据分割。本发明实现简单方便，使用本发明处理后的数据具有较高的隐私保护度、较低的信息损失度和较好的可用性的，实用性强，能够抵御多种隐私窥探攻击。

Description

一种数据发布的隐私保护方法和***

技术领域

本发明涉及信息安全保护领域，尤其涉及一种数据发布的隐私保护方法和***。

背景技术

随着互联网的高速发展，人们对网络的依赖也逐步加深，数据信息量迅猛增长，当网络给人们提供便利的同时，如网上购物、转账、订机票等无需走出家门，在网络上即可方便快速的实现，也存在大量的信息泄露风险，如个人隐私信息、医疗数据、账号密码、银行卡信息、商业机密信息等等通过网络传播后容易被拦截被利用，导致身份泄露、财物损失等，严重的甚至会危害生命健康。由此可见，信息安全保护的重要性。继“棱镜门”事件之后，各国也都在加强网络的安全防护，这给数据安全和隐私保护带来新的机遇与挑战。

为保证数据的隐私性，在进行数据发布和共享的同时，需要对数据进行隐私保护处理。目前，发布数据表通常分为三类属性：(1)个体标识属性(Individually IdentifierAttribute,ID)，能够识别个体身份属性；(2)准标识属性(Quasi-dientifier,QI)，同时存在于隐私表与外表中，可以利用链接来标识推测出个体信息，敏感属性(SensitiveAttribute，SA)，记录的数据包含用户不希望被他人所知的隐私信息。

对上述三类属性发布时仅仅删除QI属性或ID属性已不能阻止隐私泄露，当把发布的数据与其他数据进行连接就会导致身份信息和敏感属性泄露；2002年Sweeney等提出的k-匿名隐私保护模型，可以有效的防止连接攻击，但是k-匿名没有约束敏感属性值，进而不能阻止背景知识攻击和同质性攻击；为有效解决上述问题，l-多样性(l-diversity)、(α，k)匿名、t逼近(t closeness)等陆续被提出，这些隐私保护模型对数据的处理过程主要采用概化、泛化实现，这种处理方法基本保持了原来的语义信息，但会造成信息损失且降低数据的效用。

近年来，聚类算法在数据挖掘中被大量运用，隐私保护的数据发布要求公布的数据集中的每个簇概化到相同的准标识符，这与数据挖掘中的聚类过程十分相似，于是就有了利用聚类方法实现l-多样性的研究。

如公告号为CN104317904A的专利文献公开了“一种带权重社会网络的泛化方法”，包括：对节点依节点度进行降序排序并分组；泛化已经存在的边的权重，并计算边存在概率；遍历所有匿名组集后抽取所有节点敏感属性形成敏感属性包；计算节点间的敏感属性包的最大相似性，根据泛化树，得到敏感属性包的泛化包；遍历K-权重匿名组集，最终得到满足K-Weighted-inv-l-diversityanonymous图。该发明考虑了边的权重，并且考虑了多敏感属性的问题，使得隐私保护方法更加适用于实际的社会网络，可以更完整地保护带权重图中的多敏感属性。

又如公开号为CN106874788A的专利文献公开了“一种敏感数据发布中的隐私保护方法，包括：接收来自用户的数据集以及对应的多个概化输入树，遍历数据集中的每一组数据，并依次判断该组数据中的每一列数据是否存在对应的概化输入树，如果存在，则根据该数据的属性值在对应概化输入树中查找对应的节点，并将该节点的信息输入到坐标数组中，如果不存在，则直接将该数据的属性值输入坐标数组中，从而得到m行坐标数组，并为每个坐标数组添加初始值为0的标志位，建立p个簇，从m行坐标数组中随机选择其中p行坐标数组分别作为建立的p个簇的中心点。通过先聚类再概化的方法，提高了计算效率，为数据的隐私发布提供了保障。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种实现简单方便，具有较高的隐私保护度、较低的信息损失度和较好的可用性的数据发布的隐私保护方法和***。

为了实现上述目的，本发明采用的技术方案为：

一种数据发布的隐私保护方法，所述方法包括以下步骤：

S10：接收数据，对所述数据的敏感属性值的种类进行多样性判断；

S20：根据多样性判断结果，进行数据等价类划分；

S30：将等价类划分后的结果进行数据分割。

进一步地，所述步骤S10中所述数据的敏感属性值的种类进行多样性判断具体为：所述数据的敏感属性值的种类与多样性参数L相比较；

所述步骤S20中包括以下步骤：

S21：若敏感属性值的种类大于等于多样性参数L，则选择执行单个等价类划分；

S22：若敏感属性值的种类小于多样性参数L，则选择执行候选等价类划分。

进一步地，所述步骤S10中接收数据后在进行多样性判断前进行数据预处理，包括以下步骤：

S11：标准化每个准标识符属性值，将所述准标识符属性值映射到[0,1]范围；

S12：计算准标识符属性的权重；

S13：计算每条记录的综合值，所述综合值的计算公式如下：

其中：W_i表示综合值，w_j表示权重，x_ij表示标准化后的准标识符属性值，n表示有n个准标识符属性，η表示有η条记录。

进一步地，所述数据预处理还包括：

S14：对数据中的每条记录根据综合值大小进行排序。

进一步地，所述步骤S20中所述执行数据的等价类划分包括以下步骤：

S201：根据综合值大小依次选择预设数量的记录划分为同一等价类；

S202：判断是否有剩余记录未执行步骤S201；

S203：若有剩余记录未执行步骤S201，则执行候选等价类划分。

进一步地，所述执行候选等价类划分具体为：

判断数据是否存在候选等价类，若存在，则将数据归类到最优候选等价类，若不存在，则将数据归类到最优等价类。

进一步地，所述步骤S30之后还包括以下步骤：

S40：将分割后的数据通过共同属性进行连接后发布。

一种数据发布的隐私保护***，所述***包括：

判断模块，用于接收数据，对所述数据的敏感属性值的种类进行多样性判断；

等价类划分模块，用于根据多样性判断结果，进行数据等价类划分；

分割模块，用于将等价类划分后的结果进行数据分割。

进一步地，所述***还包括：

发布模块，用于将分割后的数据通过共同属性进行连接后发布；

所述判断模块包括：

计算单元，用于计算每条记录的综合值；

排序单元，用于对数据中的每条记录根据综合值大小进行排序；

比较单元，用于将所述数据的敏感属性值的种类与多样性参数L相比较。

进一步地，所述等价类划分模块包括：

第一划分单元，用于执行单个等价类划分；

第二划分单元，用于执行候选等价类划分；

所述第一划分单元包括：

第一判断子单元，用于判断是否有剩余记录未执行根据综合值大小依次选择预设数量的记录划分为同一等价类；

所述第二划分单元包括：

第二判断子单元，用于判断数据是否存在候选等价类；

归类子单元，用于若存在候选等价类，则将数据归类到最优候选等价类，若不存在候选等价类，则将数据归类到最优等价类。

采用上述技术方案后，本发明的有益效果是：

通过将数据基于多样性进行等价类划分，等价类划分过程中不破坏数据的原始信息，将相似的元素集合到一起，有利于使得数据具有较好的可用性，更规范化；

将等价类划分后的数据分割开来减少数据的联系，不改变敏感属性、准标识符属性的原始数据，对数据的损失度较小，同时有利于数据发布后隐私保护，使得数据更安全；

通过将等价类划分分为单个等价类划分和候选等价类不同的划分方式，可更有针对性和更完整的处理数据，保障每一条记录的隐私保护；

通过计算数据中每条记录的综合值，并根据综合值大小将具有最优相似度的记录集合成一个等价类，使得数据处理简单易实现，数据排布更有序，实用性更好，有利于自身对数据的挖掘和整合，使得数据的可用性大大提高，整个过程信息损失度低；

将分割后的数据通过共同属性进行连接后发布，该共同属性可以根据等价类的划分结果自定义属性，一般采用增加多余信息来干扰真实信息，到达数据隐私保护的目的，使得数据的损失度低且隐私保护效果好。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，附图如下：

图1为本发明实施例1提供的一种数据发布的隐私保护方法流程图；

图2为本发明实施例2提供的一种数据发布的隐私保护方法流程图；

图3为本发明实施例3提供的一种数据发布的隐私保护方法流程图；

图4为本发明实施例4提供的一种数据发布的隐私保护***框图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

隐私保护的数据发布主要是处理准标识符属性，无论是采用概化/隐匿方法还是聚类方法，都是对准标识符属性进行处理。

本发明主要使用聚类和分割两项技术，实现发布数据的隐私保护，特别是静态数据的隐私保护。

聚类技术是将相似的元素集合到一起，分析数据的相似性，不同场景需求不同，聚类的算法也不尽相同。聚类模型的设计是实现本发明中较为关键的一步，不同的聚类模型会有不同的聚类算法。

分割技术的提出，为数据发布的隐私保护提供新思路和方法，它不改变敏感属性、准标识属性的原始数据值，通过降低敏感属性与准标识属性的联系达到隐私保护的目的，一般地，利用分割技术将数据集中的准标识符属性(QI)和敏感属性(SA)分成两个互不相连的两个数据集后进行发布，也可以根据数据集的相关规律分割为多个数据集。

本发明更详细的描述如下：

实施例1

如图1所示，本实施例提供一种数据发布的隐私保护方法，所述方法包括以下步骤：

本步骤中，接收有隐私保护需求的数据，一般为一张数据表，先了解数据表的个体标识属性，准标识属性，敏感属性，确定原始数据中的敏感数据，即查看数据的敏感属性值，统计出数据表的敏感属性栏中不同敏感属性值的种类有几种，例如敏感属性值的种类为S_c，基于S_c的大小进行数据表的不同划分，一般通过设定一个多样性参数l，判断S_c与l的关系，将满足l-多样性的记录归类，也有的设定两个多样性参数l和l’,l和l’取值不同，将敏感属性分为两类(如主敏感属性，辅敏感属性)后进行数据更有针对性的划分。

S20：根据多样性判断结果，进行数据等价类划分；

本步骤是数据的聚类过程，本步骤中，敏感属性值的种类的多样性不同，执行不同的等价类划分方式。例如，若判断敏感属性值的种类S_c≥l，则执行单个等价类划分，将数据表中毎l-1个数量的记录归为同一个等价类，且这些记录之间具有较高的相似度，若单个等价类划分结束后，原始数据表中还有剩余记录没有划分类别，则执行候选等价类划分，查看是否有候选的等价类可以与其归为一类，候选等价类定义为具有较高的相似度且具有相同敏感属性值的类别中，若判断敏感属性值的种类S_c＜l，则直接执行候选等价类划分。

S30：将等价类划分后的结果进行数据分割。

本步骤中，将步骤S20聚类划分归类好的数据表，按照多个等价类的划分情况，分割成多张单独的数据表，可以以个体标识属性，准标识属性，敏感属性分类进行数据表的分割，减低数据间的联系，从而达到隐私保护的目的。

执行本实施例的步骤后的数据表信息失真度低，发布后，隐私泄露的概率低，数据后期的可用性好。

实施例2

如图2所示，本实施例与之前实施例的区别在于，本实施例提供一种具有具体聚类算法的数据发布的隐私保护方法，所述步骤S10中所述数据的敏感属性值的种类进行多样性判断具体为：所述数据的敏感属性值的种类与多样性参数L相比较，L值为预先设定的数值，一般情况下，例如敏感属性值的种类为7种，则L值设定为7除以2取整后的值3，即L＝3；

所述步骤S20中包括以下步骤：

S21：若敏感属性值的种类大于等于多样性参数L，则选择执行单个等价类划分；本步骤中划分单个等价类的过程中，循环判断等价类长度是否小于L，当大于L时，执行下一次等价类划分过程，保证每个等价类满足L多样性。

实施例3

如图3所示，本实施例与实施例1的区别在于，所述步骤S10中接收数据后在进行多样性判断前进行数据预处理，数据预处理是考虑数据发布过程中不同的属性具有不同的权重，利用权重聚类数据实现简单，更能体现数据的相似度，具体包括以下步骤：

S11：标准化每个准标识符属性值，将所述准标识符属性值映射到[0,1]范围；对数值型的属性值，使用极差标准化计算公式映射到[0,1]范围，新准标识符属性值＝(原准标识符属性值-极小值)/(极大值-极小值)；

具体地，假设原始数据表T＝＜ID,QI₁,QI₂,...,QI_n,SA＞，具有n个准标识符属性，η个记录，即η个聚类的对象，每一个聚类对象都有n个要素；

假设属性值域为[x_min,x_max]，使用极差标准化的计算公式映射到[0,1]范围，具体公式如下：

其中，x_ij为标准化后的准标识符属性值，下文的x_ij也均表示此含义，x_i'_j表示第i个记录的第j个准标识属性(QI)所对应的数值，即原准标识符属性值；

对分类型属性，则先将属性值映射到自然序列，如性别，有男、女两种，映射为1和2，然后再使用极差标准化计算公式映射到[0,1]范围，需要说明的是当分类只有两种时，属性值的值域需要扩大到[0,3]范围，这样计算误差相对较小。

S12：计算准标识符属性的权重；在数据表中每一准标识符属性按列分布，每列属性的方差能够反映属性取值的紧密度，当较小方差属性与较大方差的属性发生相同大小的变化时，较大方差的属性信息损失量更小，即较大方差的属性占有更大的权重，所以本步骤中使用方差计算公式计算权重，所述计算公式如下：

其中，V_j(1≤j≤n)为每列属性的方差，avg_j(1≤j≤n)为每列属性的平均值，w_j(1≤j≤n)为每列属性的权重。

S13：计算每条记录的综合值，所述综合值的计算公式如下：

进一步地，所述数据预处理还包括：

S14：对数据中的每条记录根据综合值大小进行从小到大或从大到小的排序。

假设原始数据表为表1：

表1

Name	Age	Race	Sex	Disease
					Alicy	21	Black	F	Flu
Lucy	45	White	F	HIV
					Tom	36	Black	M	Gastritis
Helen	18	White	M	Obesity
					David	56	White	M	Cancer
Bob	21	Black	M	Dyspepsia
					Linda	43	Black	F	Gastritis

其中{Name}是个体标识属性，属性集合{Age,Race,Sex}是准标识符属性，{Disease}是敏感属性。

经本实施例数据预处理后新数据表如表2：

表2

Name	Age	Race	Sex	Disease	综合值
						Helen	0.086956522	0.333	0.667	Obesity	0.277806565
Alicy	0.152173913	0.667	0.333	Flu	0.312889739
						Bob	0.152173913	0.667	0.667	Dyspepsia	0.390053425
Lucy	0.673913043	0.333	0.333	HIV	0.516391444
						Tom	0.47826087	0.667	0.667	Gastritis	0.565469295
Linda	0.630434783	0.667	0.333	Gastritis	0.570166348
						David	0.913043478	0.333	0.667	Cancer	0.722193435

S201：根据综合值大小依次选择预设数量的记录划分为同一等价类；本步骤中依据综合值的相似度划分等价类，可得到不同记录之间的最大相似度聚类数据。

S202：判断是否有剩余记录未执行步骤S201；可保证数据等价类划分的完整性。

所述执行候选等价类划分具体为：

判断数据是否存在候选等价类，候选等价类定义为综合值相差最小且具有相同敏感属性值的等价类；

若存在，则将数据归类到最优候选等价类，若不存在，则将数据归类到最优等价类，最优等价类定义为综合值相差最小的等价类。

上述表2执行本实施例等价类划分后数据如表3所示：

表3

其中GroupID为等价类编号，编号相同的即为同一等价类。

本实施例中等价类划分结束后，采用分割技术将敏感属性与准标识符属性分开，即将表3数据分割为如表4和表5两张表所示：

表4

Age	Race	Sex	GroupID
				18	White	M	1
21	Black	F	1
				21	Black	M	2
45	White	F	2
				36	Black	M	3
43	Black	F	3
				56	White	M	3

表5

GroupID	Disease
		1	Obesity
1	Flu
		2	Dyspepsia
2	HIV
		3	Gastritis
3	Gastritis
		3	Cancer

所述步骤S30之后还包括以下步骤：

S40：将分割后的数据通过共同属性进行连接后发布。

本步骤中，利用笛卡尔积将分割后的数据进行连接，以产生多余的信息达到隐私保护的目的，而且不会破坏和降低信息的损失度。

利用笛卡尔积连接后的数据表如表6所示：

表6

本实施例提供的一种数据发布的隐私保护方法，使得数据得到更有序的、更完整的排布、实用性更佳，能够抵抗多种攻击，发布数据的隐私得到了更进一步的保护。

实施例4

如图4所示，本实施例提供一种数据发布的隐私保护***，所述***用于上述实施例1和2一种数据发布的隐私保护方法的实现，所述***包括：

判断模块100，用于接收数据，对所述数据的敏感属性值的种类进行多样性判断；

等价类划分模块200，用于根据多样性判断结果，进行数据等价类划分；

分割模块300，用于将等价类划分后的结果进行数据分割。

所述***还包括：

发布模块400，用于将分割后的数据通过共同属性进行连接后发布；

所述判断模块100包括：

计算单元110，用于计算每条记录的综合值；

排序单元120，用于对数据中的每条记录根据综合值大小进行排序；

比较单元130，用于将所述数据的敏感属性值的种类与多样性参数L相比较。

所述等价类划分模块200包括：

第一划分单元210，用于执行单个等价类划分；

第二划分单元220，用于执行候选等价类划分；

所述第一划分单元210包括：

第一判断子单元211，用于判断是否有剩余记录未执行根据综合值大小依次选择预设数量的记录划分为同一等价类；

所述第二划分单元220包括：

第二判断子单元221，用于判断数据是否存在候选等价类；

归类子单元222，用于若存在候选等价类，则将数据归类到最优候选等价类，若不存在候选等价类，则将数据归类到最优等价类。

本实施例提供一种数据发布的隐私保护***，采用实用性更好的聚类算法，将具有最优相似度的数据聚类，数据的完整性更高，数据的可用性更高，还采用输入树的方式泛化数据，整个过程数据的损失度降低，数据经过合理分割后又连接增加多余信息干扰数据，使得数据的隐私保护度大大提高。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种数据发布的隐私保护方法，其特征在于，所述方法包括以下步骤：

S20：根据多样性判断结果，进行数据等价类划分；

S30：将等价类划分后的结果进行数据分割。

2.根据权利要求1所述的一种数据发布的隐私保护方法，其特征在于，所述步骤S10中所述数据的敏感属性值的种类进行多样性判断具体为：所述数据的敏感属性值的种类与多样性参数L相比较；

所述步骤S20中包括以下步骤：

3.根据权利要求1所述的一种数据发布的隐私保护方法，其特征在于，所述步骤S10中接收数据后在进行多样性判断前进行数据预处理，包括以下步骤：

S12：计算准标识符属性的权重；

S13：计算每条记录的综合值，所述综合值的计算公式如下：

<mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>&eta;</mi> </mrow>

4.根据权利要求3所述的一种数据发布的隐私保护方法，其特征在于，所述数据预处理还包括：

S14：对数据中的每条记录根据综合值大小进行排序。

5.根据权利要求4所述的一种数据发布的隐私保护方法，其特征在于，所述步骤S20中所述执行数据的等价类划分包括以下步骤：

S202：判断是否有剩余记录未执行步骤S201；

6.根据权利要求2或5所述的一种数据发布的隐私保护方法，其特征在于，所述执行候选等价类划分具体为：

7.根据权利要求1所述的一种数据发布的隐私保护方法，其特征在于，所述步骤S30之后还包括以下步骤：

S40：将分割后的数据通过共同属性进行连接后发布。

8.一种数据发布的隐私保护***，其特征在于，所述***包括：

分割模块，用于将等价类划分后的结果进行数据分割。

9.根据权利要求8所述的一种数据发布的隐私保护***，其特征在于，所述***还包括：

所述判断模块包括：

计算单元，用于计算每条记录的综合值；

10.根据权利要求8所述的一种数据发布的隐私保护***，其特征在于，所述等价类划分模块包括：

第一划分单元，用于执行单个等价类划分；

第二划分单元，用于执行候选等价类划分；

所述第一划分单元包括：

所述第二划分单元包括：

第二判断子单元，用于判断数据是否存在候选等价类；