CN107832631A - 一种数据发布的隐私保护方法和*** - Google Patents

一种数据发布的隐私保护方法和*** Download PDF

Info

Publication number
CN107832631A
CN107832631A CN201711115389.4A CN201711115389A CN107832631A CN 107832631 A CN107832631 A CN 107832631A CN 201711115389 A CN201711115389 A CN 201711115389A CN 107832631 A CN107832631 A CN 107832631A
Authority
CN
China
Prior art keywords
data
equivalence class
record
diversity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711115389.4A
Other languages
English (en)
Inventor
唐雪琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taizhou Jiji Intellectual Property Operation Co.,Ltd.
Original Assignee
Shanghai Feixun Data Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feixun Data Communication Technology Co Ltd filed Critical Shanghai Feixun Data Communication Technology Co Ltd
Priority to CN201711115389.4A priority Critical patent/CN107832631A/zh
Publication of CN107832631A publication Critical patent/CN107832631A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种数据发布的隐私保护方法,所述方法包括以下步骤:S10:接收数据,对所述数据的敏感属性值的种类进行多样性判断;保证后续等价类划分具有相同的多样性;S20:根据多样性判断结果,进行数据等价类划分;S30:将等价类划分后的结果进行数据分割。本发明实现简单方便,使用本发明处理后的数据具有较高的隐私保护度、较低的信息损失度和较好的可用性的,实用性强,能够抵御多种隐私窥探攻击。

Description

一种数据发布的隐私保护方法和***
技术领域
本发明涉及信息安全保护领域,尤其涉及一种数据发布的隐私保护方法和***。
背景技术
随着互联网的高速发展,人们对网络的依赖也逐步加深,数据信息量迅猛增长,当网络给人们提供便利的同时,如网上购物、转账、订机票等无需走出家门,在网络上即可方便快速的实现,也存在大量的信息泄露风险,如个人隐私信息、医疗数据、账号密码、银行卡信息、商业机密信息等等通过网络传播后容易被拦截被利用,导致身份泄露、财物损失等,严重的甚至会危害生命健康。由此可见,信息安全保护的重要性。继“棱镜门”事件之后,各国也都在加强网络的安全防护,这给数据安全和隐私保护带来新的机遇与挑战。
为保证数据的隐私性,在进行数据发布和共享的同时,需要对数据进行隐私保护处理。目前,发布数据表通常分为三类属性:(1)个体标识属性(Individually IdentifierAttribute,ID),能够识别个体身份属性;(2)准标识属性(Quasi-dientifier,QI),同时存在于隐私表与外表中,可以利用链接来标识推测出个体信息,敏感属性(SensitiveAttribute,SA),记录的数据包含用户不希望被他人所知的隐私信息。
对上述三类属性发布时仅仅删除QI属性或ID属性已不能阻止隐私泄露,当把发布的数据与其他数据进行连接就会导致身份信息和敏感属性泄露;2002年Sweeney等提出的k-匿名隐私保护模型,可以有效的防止连接攻击,但是k-匿名没有约束敏感属性值,进而不能阻止背景知识攻击和同质性攻击;为有效解决上述问题,l-多样性(l-diversity)、(α,k)匿名、t逼近(t closeness)等陆续被提出,这些隐私保护模型对数据的处理过程主要采用概化、泛化实现,这种处理方法基本保持了原来的语义信息,但会造成信息损失且降低数据的效用。
近年来,聚类算法在数据挖掘中被大量运用,隐私保护的数据发布要求公布的数据集中的每个簇概化到相同的准标识符,这与数据挖掘中的聚类过程十分相似,于是就有了利用聚类方法实现l-多样性的研究。
如公告号为CN104317904A的专利文献公开了“一种带权重社会网络的泛化方法”,包括:对节点依节点度进行降序排序并分组;泛化已经存在的边的权重,并计算边存在概率;遍历所有匿名组集后抽取所有节点敏感属性形成敏感属性包;计算节点间的敏感属性包的最大相似性,根据泛化树,得到敏感属性包的泛化包;遍历K-权重匿名组集,最终得到满足K-Weighted-inv-l-diversityanonymous图。该发明考虑了边的权重,并且考虑了多敏感属性的问题,使得隐私保护方法更加适用于实际的社会网络,可以更完整地保护带权重图中的多敏感属性。
又如公开号为CN106874788A的专利文献公开了“一种敏感数据发布中的隐私保护方法,包括:接收来自用户的数据集以及对应的多个概化输入树,遍历数据集中的每一组数据,并依次判断该组数据中的每一列数据是否存在对应的概化输入树,如果存在,则根据该数据的属性值在对应概化输入树中查找对应的节点,并将该节点的信息输入到坐标数组中,如果不存在,则直接将该数据的属性值输入坐标数组中,从而得到m行坐标数组,并为每个坐标数组添加初始值为0的标志位,建立p个簇,从m行坐标数组中随机选择其中p行坐标数组分别作为建立的p个簇的中心点。通过先聚类再概化的方法,提高了计算效率,为数据的隐私发布提供了保障。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种实现简单方便,具有较高的隐私保护度、较低的信息损失度和较好的可用性的数据发布的隐私保护方法和***。
为了实现上述目的,本发明采用的技术方案为:
一种数据发布的隐私保护方法,所述方法包括以下步骤:
S10:接收数据,对所述数据的敏感属性值的种类进行多样性判断;
S20:根据多样性判断结果,进行数据等价类划分;
S30:将等价类划分后的结果进行数据分割。
进一步地,所述步骤S10中所述数据的敏感属性值的种类进行多样性判断具体为:所述数据的敏感属性值的种类与多样性参数L相比较;
所述步骤S20中包括以下步骤:
S21:若敏感属性值的种类大于等于多样性参数L,则选择执行单个等价类划分;
S22:若敏感属性值的种类小于多样性参数L,则选择执行候选等价类划分。
进一步地,所述步骤S10中接收数据后在进行多样性判断前进行数据预处理,包括以下步骤:
S11:标准化每个准标识符属性值,将所述准标识符属性值映射到[0,1]范围;
S12:计算准标识符属性的权重;
S13:计算每条记录的综合值,所述综合值的计算公式如下:
其中:Wi表示综合值,wj表示权重,xij表示标准化后的准标识符属性值,n表示有n个准标识符属性,η表示有η条记录。
进一步地,所述数据预处理还包括:
S14:对数据中的每条记录根据综合值大小进行排序。
进一步地,所述步骤S20中所述执行数据的等价类划分包括以下步骤:
S201:根据综合值大小依次选择预设数量的记录划分为同一等价类;
S202:判断是否有剩余记录未执行步骤S201;
S203:若有剩余记录未执行步骤S201,则执行候选等价类划分。
进一步地,所述执行候选等价类划分具体为:
判断数据是否存在候选等价类,若存在,则将数据归类到最优候选等价类,若不存在,则将数据归类到最优等价类。
进一步地,所述步骤S30之后还包括以下步骤:
S40:将分割后的数据通过共同属性进行连接后发布。
一种数据发布的隐私保护***,所述***包括:
判断模块,用于接收数据,对所述数据的敏感属性值的种类进行多样性判断;
等价类划分模块,用于根据多样性判断结果,进行数据等价类划分;
分割模块,用于将等价类划分后的结果进行数据分割。
进一步地,所述***还包括:
发布模块,用于将分割后的数据通过共同属性进行连接后发布;
所述判断模块包括:
计算单元,用于计算每条记录的综合值;
排序单元,用于对数据中的每条记录根据综合值大小进行排序;
比较单元,用于将所述数据的敏感属性值的种类与多样性参数L相比较。
进一步地,所述等价类划分模块包括:
第一划分单元,用于执行单个等价类划分;
第二划分单元,用于执行候选等价类划分;
所述第一划分单元包括:
第一判断子单元,用于判断是否有剩余记录未执行根据综合值大小依次选择预设数量的记录划分为同一等价类;
所述第二划分单元包括:
第二判断子单元,用于判断数据是否存在候选等价类;
归类子单元,用于若存在候选等价类,则将数据归类到最优候选等价类,若不存在候选等价类,则将数据归类到最优等价类。
采用上述技术方案后,本发明的有益效果是:
通过将数据基于多样性进行等价类划分,等价类划分过程中不破坏数据的原始信息,将相似的元素集合到一起,有利于使得数据具有较好的可用性,更规范化;
将等价类划分后的数据分割开来减少数据的联系,不改变敏感属性、准标识符属性的原始数据,对数据的损失度较小,同时有利于数据发布后隐私保护,使得数据更安全;
通过将等价类划分分为单个等价类划分和候选等价类不同的划分方式,可更有针对性和更完整的处理数据,保障每一条记录的隐私保护;
通过计算数据中每条记录的综合值,并根据综合值大小将具有最优相似度的记录集合成一个等价类,使得数据处理简单易实现,数据排布更有序,实用性更好,有利于自身对数据的挖掘和整合,使得数据的可用性大大提高,整个过程信息损失度低;
将分割后的数据通过共同属性进行连接后发布,该共同属性可以根据等价类的划分结果自定义属性,一般采用增加多余信息来干扰真实信息,到达数据隐私保护的目的,使得数据的损失度低且隐私保护效果好。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,附图如下:
图1为本发明实施例1提供的一种数据发布的隐私保护方法流程图;
图2为本发明实施例2提供的一种数据发布的隐私保护方法流程图;
图3为本发明实施例3提供的一种数据发布的隐私保护方法流程图;
图4为本发明实施例4提供的一种数据发布的隐私保护***框图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
隐私保护的数据发布主要是处理准标识符属性,无论是采用概化/隐匿方法还是聚类方法,都是对准标识符属性进行处理。
本发明主要使用聚类和分割两项技术,实现发布数据的隐私保护,特别是静态数据的隐私保护。
聚类技术是将相似的元素集合到一起,分析数据的相似性,不同场景需求不同,聚类的算法也不尽相同。聚类模型的设计是实现本发明中较为关键的一步,不同的聚类模型会有不同的聚类算法。
分割技术的提出,为数据发布的隐私保护提供新思路和方法,它不改变敏感属性、准标识属性的原始数据值,通过降低敏感属性与准标识属性的联系达到隐私保护的目的,一般地,利用分割技术将数据集中的准标识符属性(QI)和敏感属性(SA)分成两个互不相连的两个数据集后进行发布,也可以根据数据集的相关规律分割为多个数据集。
本发明更详细的描述如下:
实施例1
如图1所示,本实施例提供一种数据发布的隐私保护方法,所述方法包括以下步骤:
S10:接收数据,对所述数据的敏感属性值的种类进行多样性判断;
本步骤中,接收有隐私保护需求的数据,一般为一张数据表,先了解数据表的个体标识属性,准标识属性,敏感属性,确定原始数据中的敏感数据,即查看数据的敏感属性值,统计出数据表的敏感属性栏中不同敏感属性值的种类有几种,例如敏感属性值的种类为Sc,基于Sc的大小进行数据表的不同划分,一般通过设定一个多样性参数l,判断Sc与l的关系,将满足l-多样性的记录归类,也有的设定两个多样性参数l和l’,l和l’取值不同,将敏感属性分为两类(如主敏感属性,辅敏感属性)后进行数据更有针对性的划分。
S20:根据多样性判断结果,进行数据等价类划分;
本步骤是数据的聚类过程,本步骤中,敏感属性值的种类的多样性不同,执行不同的等价类划分方式。例如,若判断敏感属性值的种类Sc≥l,则执行单个等价类划分,将数据表中毎l-1个数量的记录归为同一个等价类,且这些记录之间具有较高的相似度,若单个等价类划分结束后,原始数据表中还有剩余记录没有划分类别,则执行候选等价类划分,查看是否有候选的等价类可以与其归为一类,候选等价类定义为具有较高的相似度且具有相同敏感属性值的类别中,若判断敏感属性值的种类Sc<l,则直接执行候选等价类划分。
S30:将等价类划分后的结果进行数据分割。
本步骤中,将步骤S20聚类划分归类好的数据表,按照多个等价类的划分情况,分割成多张单独的数据表,可以以个体标识属性,准标识属性,敏感属性分类进行数据表的分割,减低数据间的联系,从而达到隐私保护的目的。
执行本实施例的步骤后的数据表信息失真度低,发布后,隐私泄露的概率低,数据后期的可用性好。
实施例2
如图2所示,本实施例与之前实施例的区别在于,本实施例提供一种具有具体聚类算法的数据发布的隐私保护方法,所述步骤S10中所述数据的敏感属性值的种类进行多样性判断具体为:所述数据的敏感属性值的种类与多样性参数L相比较,L值为预先设定的数值,一般情况下,例如敏感属性值的种类为7种,则L值设定为7除以2取整后的值3,即L=3;
所述步骤S20中包括以下步骤:
S21:若敏感属性值的种类大于等于多样性参数L,则选择执行单个等价类划分;本步骤中划分单个等价类的过程中,循环判断等价类长度是否小于L,当大于L时,执行下一次等价类划分过程,保证每个等价类满足L多样性。
S22:若敏感属性值的种类小于多样性参数L,则选择执行候选等价类划分。
实施例3
如图3所示,本实施例与实施例1的区别在于,所述步骤S10中接收数据后在进行多样性判断前进行数据预处理,数据预处理是考虑数据发布过程中不同的属性具有不同的权重,利用权重聚类数据实现简单,更能体现数据的相似度,具体包括以下步骤:
S11:标准化每个准标识符属性值,将所述准标识符属性值映射到[0,1]范围;对数值型的属性值,使用极差标准化计算公式映射到[0,1]范围,新准标识符属性值=(原准标识符属性值-极小值)/(极大值-极小值);
具体地,假设原始数据表T=<ID,QI1,QI2,...,QIn,SA>,具有n个准标识符属性,η个记录,即η个聚类的对象,每一个聚类对象都有n个要素;
假设属性值域为[xmin,xmax],使用极差标准化的计算公式映射到[0,1]范围,具体公式如下:
其中,xij为标准化后的准标识符属性值,下文的xij也均表示此含义,xi'j表示第i个记录的第j个准标识属性(QI)所对应的数值,即原准标识符属性值;
对分类型属性,则先将属性值映射到自然序列,如性别,有男、女两种,映射为1和2,然后再使用极差标准化计算公式映射到[0,1]范围,需要说明的是当分类只有两种时,属性值的值域需要扩大到[0,3]范围,这样计算误差相对较小。
S12:计算准标识符属性的权重;在数据表中每一准标识符属性按列分布,每列属性的方差能够反映属性取值的紧密度,当较小方差属性与较大方差的属性发生相同大小的变化时,较大方差的属性信息损失量更小,即较大方差的属性占有更大的权重,所以本步骤中使用方差计算公式计算权重,所述计算公式如下:
其中,Vj(1≤j≤n)为每列属性的方差,avgj(1≤j≤n)为每列属性的平均值,wj(1≤j≤n)为每列属性的权重。
S13:计算每条记录的综合值,所述综合值的计算公式如下:
其中:Wi表示综合值,wj表示权重,xij表示标准化后的准标识符属性值,n表示有n个准标识符属性,η表示有η条记录。
进一步地,所述数据预处理还包括:
S14:对数据中的每条记录根据综合值大小进行从小到大或从大到小的排序。
假设原始数据表为表1:
表1
Name Age Race Sex Disease
Alicy 21 Black F Flu
Lucy 45 White F HIV
Tom 36 Black M Gastritis
Helen 18 White M Obesity
David 56 White M Cancer
Bob 21 Black M Dyspepsia
Linda 43 Black F Gastritis
其中{Name}是个体标识属性,属性集合{Age,Race,Sex}是准标识符属性,{Disease}是敏感属性。
经本实施例数据预处理后新数据表如表2:
表2
Name Age Race Sex Disease 综合值
Helen 0.086956522 0.333 0.667 Obesity 0.277806565
Alicy 0.152173913 0.667 0.333 Flu 0.312889739
Bob 0.152173913 0.667 0.667 Dyspepsia 0.390053425
Lucy 0.673913043 0.333 0.333 HIV 0.516391444
Tom 0.47826087 0.667 0.667 Gastritis 0.565469295
Linda 0.630434783 0.667 0.333 Gastritis 0.570166348
David 0.913043478 0.333 0.667 Cancer 0.722193435
进一步地,所述步骤S20中所述执行数据的等价类划分包括以下步骤:
S201:根据综合值大小依次选择预设数量的记录划分为同一等价类;本步骤中依据综合值的相似度划分等价类,可得到不同记录之间的最大相似度聚类数据。
S202:判断是否有剩余记录未执行步骤S201;可保证数据等价类划分的完整性。
S203:若有剩余记录未执行步骤S201,则执行候选等价类划分。
所述执行候选等价类划分具体为:
判断数据是否存在候选等价类,候选等价类定义为综合值相差最小且具有相同敏感属性值的等价类;
若存在,则将数据归类到最优候选等价类,若不存在,则将数据归类到最优等价类,最优等价类定义为综合值相差最小的等价类。
上述表2执行本实施例等价类划分后数据如表3所示:
表3
其中GroupID为等价类编号,编号相同的即为同一等价类。
本实施例中等价类划分结束后,采用分割技术将敏感属性与准标识符属性分开,即将表3数据分割为如表4和表5两张表所示:
表4
Age Race Sex GroupID
18 White M 1
21 Black F 1
21 Black M 2
45 White F 2
36 Black M 3
43 Black F 3
56 White M 3
表5
GroupID Disease
1 Obesity
1 Flu
2 Dyspepsia
2 HIV
3 Gastritis
3 Gastritis
3 Cancer
所述步骤S30之后还包括以下步骤:
S40:将分割后的数据通过共同属性进行连接后发布。
本步骤中,利用笛卡尔积将分割后的数据进行连接,以产生多余的信息达到隐私保护的目的,而且不会破坏和降低信息的损失度。
利用笛卡尔积连接后的数据表如表6所示:
表6
本实施例提供的一种数据发布的隐私保护方法,使得数据得到更有序的、更完整的排布、实用性更佳,能够抵抗多种攻击,发布数据的隐私得到了更进一步的保护。
实施例4
如图4所示,本实施例提供一种数据发布的隐私保护***,所述***用于上述实施例1和2一种数据发布的隐私保护方法的实现,所述***包括:
判断模块100,用于接收数据,对所述数据的敏感属性值的种类进行多样性判断;
等价类划分模块200,用于根据多样性判断结果,进行数据等价类划分;
分割模块300,用于将等价类划分后的结果进行数据分割。
所述***还包括:
发布模块400,用于将分割后的数据通过共同属性进行连接后发布;
所述判断模块100包括:
计算单元110,用于计算每条记录的综合值;
排序单元120,用于对数据中的每条记录根据综合值大小进行排序;
比较单元130,用于将所述数据的敏感属性值的种类与多样性参数L相比较。
所述等价类划分模块200包括:
第一划分单元210,用于执行单个等价类划分;
第二划分单元220,用于执行候选等价类划分;
所述第一划分单元210包括:
第一判断子单元211,用于判断是否有剩余记录未执行根据综合值大小依次选择预设数量的记录划分为同一等价类;
所述第二划分单元220包括:
第二判断子单元221,用于判断数据是否存在候选等价类;
归类子单元222,用于若存在候选等价类,则将数据归类到最优候选等价类,若不存在候选等价类,则将数据归类到最优等价类。
本实施例提供一种数据发布的隐私保护***,采用实用性更好的聚类算法,将具有最优相似度的数据聚类,数据的完整性更高,数据的可用性更高,还采用输入树的方式泛化数据,整个过程数据的损失度降低,数据经过合理分割后又连接增加多余信息干扰数据,使得数据的隐私保护度大大提高。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种数据发布的隐私保护方法,其特征在于,所述方法包括以下步骤:
S10:接收数据,对所述数据的敏感属性值的种类进行多样性判断;
S20:根据多样性判断结果,进行数据等价类划分;
S30:将等价类划分后的结果进行数据分割。
2.根据权利要求1所述的一种数据发布的隐私保护方法,其特征在于,所述步骤S10中所述数据的敏感属性值的种类进行多样性判断具体为:所述数据的敏感属性值的种类与多样性参数L相比较;
所述步骤S20中包括以下步骤:
S21:若敏感属性值的种类大于等于多样性参数L,则选择执行单个等价类划分;
S22:若敏感属性值的种类小于多样性参数L,则选择执行候选等价类划分。
3.根据权利要求1所述的一种数据发布的隐私保护方法,其特征在于,所述步骤S10中接收数据后在进行多样性判断前进行数据预处理,包括以下步骤:
S11:标准化每个准标识符属性值,将所述准标识符属性值映射到[0,1]范围;
S12:计算准标识符属性的权重;
S13:计算每条记录的综合值,所述综合值的计算公式如下:
<mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>&amp;eta;</mi> </mrow>
其中:Wi表示综合值,wj表示权重,xij表示标准化后的准标识符属性值,n表示有n个准标识符属性,η表示有η条记录。
4.根据权利要求3所述的一种数据发布的隐私保护方法,其特征在于,所述数据预处理还包括:
S14:对数据中的每条记录根据综合值大小进行排序。
5.根据权利要求4所述的一种数据发布的隐私保护方法,其特征在于,所述步骤S20中所述执行数据的等价类划分包括以下步骤:
S201:根据综合值大小依次选择预设数量的记录划分为同一等价类;
S202:判断是否有剩余记录未执行步骤S201;
S203:若有剩余记录未执行步骤S201,则执行候选等价类划分。
6.根据权利要求2或5所述的一种数据发布的隐私保护方法,其特征在于,所述执行候选等价类划分具体为:
判断数据是否存在候选等价类,若存在,则将数据归类到最优候选等价类,若不存在,则将数据归类到最优等价类。
7.根据权利要求1所述的一种数据发布的隐私保护方法,其特征在于,所述步骤S30之后还包括以下步骤:
S40:将分割后的数据通过共同属性进行连接后发布。
8.一种数据发布的隐私保护***,其特征在于,所述***包括:
判断模块,用于接收数据,对所述数据的敏感属性值的种类进行多样性判断;
等价类划分模块,用于根据多样性判断结果,进行数据等价类划分;
分割模块,用于将等价类划分后的结果进行数据分割。
9.根据权利要求8所述的一种数据发布的隐私保护***,其特征在于,所述***还包括:
发布模块,用于将分割后的数据通过共同属性进行连接后发布;
所述判断模块包括:
计算单元,用于计算每条记录的综合值;
排序单元,用于对数据中的每条记录根据综合值大小进行排序;
比较单元,用于将所述数据的敏感属性值的种类与多样性参数L相比较。
10.根据权利要求8所述的一种数据发布的隐私保护***,其特征在于,所述等价类划分模块包括:
第一划分单元,用于执行单个等价类划分;
第二划分单元,用于执行候选等价类划分;
所述第一划分单元包括:
第一判断子单元,用于判断是否有剩余记录未执行根据综合值大小依次选择预设数量的记录划分为同一等价类;
所述第二划分单元包括:
第二判断子单元,用于判断数据是否存在候选等价类;
归类子单元,用于若存在候选等价类,则将数据归类到最优候选等价类,若不存在候选等价类,则将数据归类到最优等价类。
CN201711115389.4A 2017-11-13 2017-11-13 一种数据发布的隐私保护方法和*** Withdrawn CN107832631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711115389.4A CN107832631A (zh) 2017-11-13 2017-11-13 一种数据发布的隐私保护方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711115389.4A CN107832631A (zh) 2017-11-13 2017-11-13 一种数据发布的隐私保护方法和***

Publications (1)

Publication Number Publication Date
CN107832631A true CN107832631A (zh) 2018-03-23

Family

ID=61654266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711115389.4A Withdrawn CN107832631A (zh) 2017-11-13 2017-11-13 一种数据发布的隐私保护方法和***

Country Status (1)

Country Link
CN (1) CN107832631A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492429A (zh) * 2018-10-30 2019-03-19 华南师范大学 一种数据发布的隐私保护方法
CN109726589A (zh) * 2018-12-22 2019-05-07 北京工业大学 一种面向众智云环境的隐私数据访问方法
CN109857780A (zh) * 2019-01-17 2019-06-07 西北大学 一种针对统计查询攻击的线性-正交数据发布方法
CN110348238A (zh) * 2019-05-28 2019-10-18 北京邮电大学 一种面向应用的隐私保护分级方法及装置
CN110968887A (zh) * 2018-09-28 2020-04-07 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和***
CN111046431A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 数据处理方法、查询方法、装置、电子设备和***
CN111159730A (zh) * 2019-12-13 2020-05-15 支付宝(杭州)信息技术有限公司 数据处理方法、查询方法、装置、电子设备和***
CN111241581A (zh) * 2020-01-09 2020-06-05 山东师范大学 基于敏感度分层的多敏感属性隐私保护方法及***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968887A (zh) * 2018-09-28 2020-04-07 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和***
CN110968887B (zh) * 2018-09-28 2022-04-05 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和***
CN109492429A (zh) * 2018-10-30 2019-03-19 华南师范大学 一种数据发布的隐私保护方法
CN109492429B (zh) * 2018-10-30 2020-10-16 华南师范大学 一种数据发布的隐私保护方法
CN109726589A (zh) * 2018-12-22 2019-05-07 北京工业大学 一种面向众智云环境的隐私数据访问方法
CN109726589B (zh) * 2018-12-22 2021-11-12 北京工业大学 一种面向众智云环境的隐私数据访问方法
CN109857780A (zh) * 2019-01-17 2019-06-07 西北大学 一种针对统计查询攻击的线性-正交数据发布方法
CN109857780B (zh) * 2019-01-17 2023-04-28 西北大学 一种针对统计查询攻击的线性-正交数据发布方法
CN110348238A (zh) * 2019-05-28 2019-10-18 北京邮电大学 一种面向应用的隐私保护分级方法及装置
CN111046431A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 数据处理方法、查询方法、装置、电子设备和***
CN111159730A (zh) * 2019-12-13 2020-05-15 支付宝(杭州)信息技术有限公司 数据处理方法、查询方法、装置、电子设备和***
CN111241581A (zh) * 2020-01-09 2020-06-05 山东师范大学 基于敏感度分层的多敏感属性隐私保护方法及***

Similar Documents

Publication Publication Date Title
CN107832631A (zh) 一种数据发布的隐私保护方法和***
Mabu et al. An intrusion-detection model based on fuzzy class-association-rule mining using genetic network programming
CN106021541B (zh) 区分准标识符属性的二次k‑匿名隐私保护算法
Horng et al. A novel intrusion detection system based on hierarchical clustering and support vector machines
CN108768986A (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
Kiabod et al. TSRAM: A time-saving k-degree anonymization method in social network
Araújo et al. Identifying important characteristics in the KDD99 intrusion detection dataset by feature selection using a hybrid approach
CN105574544A (zh) 一种数据处理方法和装置
CN107992887A (zh) 分类器生成方法、分类方法、装置、电子设备及存储介质
CN106817248A (zh) 一种apt攻击检测方法
CN103136372B (zh) 网络可信性行为管理中url快速定位、分类和过滤方法
Hu et al. Loan default analysis with multiplex graph learning
Li et al. Intelligent anti-money laundering solution based upon novel community detection in massive transaction networks on spark
Ma et al. De-anonymizing social networks with random forest classifier
Folorunso et al. Ca-NIDS: A network intrusion detection system using combinatorial algorithm approach
Williams et al. Black-box sparse adversarial attack via multi-objective optimisation
CN109783805A (zh) 一种网络社区用户识别方法及装置
Chi et al. Privacy preserving record linkage in the presence of missing values
CN107070932B (zh) 社会网络动态发布中防止标签邻居攻击的匿名方法
Jiang et al. On spectral graph embedding: A non-backtracking perspective and graph approximation
CN106557983B (zh) 一种基于模糊多类svm的微博垃圾用户检测方法
CN116192537B (zh) 一种apt攻击报告事件抽取方法、***和存储介质
Vasan et al. Feature subset selection for intrusion detection using various rank-based algorithms
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200818

Address after: 318015 no.2-3167, zone a, Nonggang City, no.2388, Donghuan Avenue, Hongjia street, Jiaojiang District, Taizhou City, Zhejiang Province

Applicant after: Taizhou Jiji Intellectual Property Operation Co.,Ltd.

Address before: 201616 Shanghai city Songjiang District Sixian Road No. 3666

Applicant before: Phicomm (Shanghai) Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180323