CN103605749A - 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 - Google Patents

一种基于多参数干扰的隐私保护关联规则数据挖掘方法 Download PDF

Info

Publication number
CN103605749A
CN103605749A CN201310591116.2A CN201310591116A CN103605749A CN 103605749 A CN103605749 A CN 103605749A CN 201310591116 A CN201310591116 A CN 201310591116A CN 103605749 A CN103605749 A CN 103605749A
Authority
CN
China
Prior art keywords
item
data
item collection
prime
disturbing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310591116.2A
Other languages
English (en)
Inventor
马云龙
刘敏
楼灏亮
章锋
魏晓婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201310591116.2A priority Critical patent/CN103605749A/zh
Publication of CN103605749A publication Critical patent/CN103605749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法,包括:将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则。与现有技术相比,本发明实现了数据干扰策略和查询限制策略的相互结合,克服了两个策略本身存在的缺陷,提高了隐私保护程度;根据矩阵分块思想发现了概率逆矩阵之间的递推关系,避免了先求出概率矩阵再计算其逆矩阵的繁琐过程,基于集合原理优化计数过程,消除了计数过程中的指数级时间复杂度,很大地提高了方法执行效率。

Description

一种基于多参数干扰的隐私保护关联规则数据挖掘方法
技术领域
本发明涉及数据挖掘中隐私数据的保护技术,尤其是涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法。
背景技术
数据挖掘技术通过融合人工智能、统计学和数据库管理等传统数据分析方法可以从大规模数据集中提取出隐藏的规则和模式,从而为相关部门提供有效决策支持。当数据挖掘发挥越来越大的作用时,随之也带来了隐私方面的问题。比如说疾病控制中心可以通过分析医院病人的病历信息得到疾病间的关系(成年女性患疟疾的同时可能会患有肺结核)。但是数据挖掘技术是基于真实的数据上进行的,无法有效地保护病人所患疾病等隐私信息。与此同时,这些敏感的信息恰恰是医院和病人不想泄露的。再例如,两个公司共享各自数据库进行合作挖掘,得出对双方都有用的信息,但是企业往往不愿意公布自己的真实数据给合作方以免泄露自己的企业机密。隐私保护数据挖掘技术就是为了解决上述问题而产生的。
隐私保护数据挖掘的目标就是在保证数据挖掘的同时尽可能地保护隐私数据,在无法获得精确数据的情况下,却能够得到准确的模型和分析结果。基于隐私保护的关联规则挖掘是隐私保护数据挖掘中最活跃的研究方向之一。申请号为201010209518.8的中国专利公开了一种面向关联规则挖掘的隐私数据保护方法,该方法保护了隐私数据在传输过程中的安全性,但在挖掘前仍要恢复原始数据,存在泄漏隐私的风险。2009年王锐提出了MRD算法,提高了关联规则挖掘过程中的隐私保护度,但是运行时间效率不高。2010年沈中林提出了改进的隐私保护关联规则挖掘算法,通过分治策略对MASK算法进行改进,提高了运行时间效率但隐私保护程度低。现有的隐私保护关联规则挖掘方法普遍存在着时间复杂度高、隐私保护程度低等缺点,很难将其应用到实际中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多参数干扰的隐私保护关联规则数据挖掘方法,该方法结合数据干扰和查询限制策略,通过设置不同的参数对原始数据进行不同的处理,实现了对隐私数据更有效的保护,数据挖掘的对象是干扰后的数据,而且在重构过程中引入集合原理,依据扰动参数对数据的真实支持度进行重构以获得频繁项集,消除了额外的计数开销,提高了执行效率。
本发明的目的可以通过以下技术方案来实现:一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:
(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;
(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。
实施步骤(1)具体为,
11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1,i2,...ik],k代表项的个数;
其中,ij,l≤j≤k的值为0或1,1表示该项出现,0表示该项不出现;
12)设置三个随机化参数:p1、p2、p3,满足0≤p1,p2,p3≤1和p1+p2+p3=1;
13)对每个项ij进行随机干扰,将数据记录T=[i1,i2,...ik]变换成T′=[i1′,i2′,...ik′],得到干扰后数据集D′,其中,ij′表示以p1的概率保持原来的值ij,以p2的概率变成1-ij,以p3的概率取值为0。
实施步骤(2)具体为,
21)设置最小支持度阈值s,扫描干扰后数据集D′,产生候选1-项集C1
22)n=1,根据下式从干扰后数据集D′中重构得到候选1-项集中各个1-项集的真实支持度
Figure BDA0000418213700000021
C n D = M 2 n - 1 C n D ′ ⇒ C 1 D = M 2 - 1 C 1 D ′ ⇒ c 1 D c 0 D = p 1 p 2 p 2 + p 3 p 1 + p 3 - 1 c 1 D ′ c 0 D ′ ⇒ c 1 D = c 1 D ′ - p 2 ( c 1 D ′ + c 0 D ′ ) p 1 - p 2
其中,
Figure BDA0000418213700000032
表示在干扰后数据集D′的任意1-项集c中1的个数,
Figure BDA0000418213700000033
表示在干扰后数据集D′的任意1-项集c中0的个数;
23)若每个1-项集的真实支持度均不小于最小支持度阈值s,则将候选1-项集C1作为频繁1-项集L1;否则将真实支持度小于阈值s的1-项集从候选1-项集C1中剔除后得到频繁1-项集L1
24)更新n=n+1,根据频繁n-1-项集得到候选n-项集Cn,计算候选n-项集Cn中各个n-项集的真实支持度
Figure BDA0000418213700000034
C n D = M 2 n - 1 C n D ′ ⇒ c 2 n - 1 D . . . C 1 D c 0 D = M 2 n - 1 c 2 n - 1 D ′ . . . c 1 D ′ c 0 D ′ ,
其中,
Figure BDA0000418213700000036
表示元组l在干扰后数据集D′的任意n-项集中出现的次数,元组l为十进制数m的二进制形式,m=0,1,…,2n-1;
Figure BDA0000418213700000037
Figure BDA0000418213700000038
表示十进制数jx的二进制元组变成十进制数ix的二进制元组的扭曲概率,ix=0,1,…,2n-1,jx=0,1,…,2n-1;
25)若每个n-项集的真实支持度均不小于最小支持度阈值s,则将候选n-项集Cn作为频繁n-项集Ln;否则将真实支持度小于阈值s的n-项集从候选n-项集Cn中剔除后得到频繁n-项集Ln
26)判断频繁n-项集Ln是否为空,是则执行步骤27),否则返回步骤24);
27)从干扰后数据集中重构得到所有原始频繁项集L=L1∪…∪Ln-1
步骤24)所述的
Figure BDA0000418213700000039
可以根据已知的
Figure BDA00004182137000000310
通过以下公式简化后计算得到,
M 2 n - 1 = 1 - p 2 p 1 - p 2 M 2 n - 1 - 1 - p 2 p 1 - p 2 M 2 n - 1 - 1 p 1 - 1 p 1 - p 2 M 2 n - 1 - 1 p 1 p 1 - p 2 M 2 n - 1 - 1 ,
其中, M 2 - 1 = p 1 p 2 p 2 + p 3 p 1 + p 3 - 1 .
步骤24)所述的计算任意n-项集的真实支持度
Figure BDA0000418213700000043
需要计算2n
Figure BDA0000418213700000044
m=0,1,…,2n-1,计算2n
Figure BDA0000418213700000045
的过程具体为,
51)先扫描干扰后数据集D′,得到全由1组成的元组在任意n-项集中出现的次数
Figure BDA0000418213700000046
其中χ+y=n,{A1A2...AxB1B2...By}表示干扰后数据集D′中的任意n-项集;
52)再通过集合原理的公式,得出其余元组在任意n-项集中出现的次数,
I ( A ‾ 1 A ‾ 2 . . . A ‾ x B 1 B 2 . . . B y ) = I ( B 1 B 2 . . . B y ) + Σ i = 1 x Σ { x 1 . . . x i } ⋐ { 1 . . . x } ( - 1 ) i I ( A x 1 A x 2 . . . A x 1 . . . B 1 B 2 . . . B y ) ,
其中
Figure BDA0000418213700000048
表示A1的补集。
与现有技术相比,本发明具有以下优点:
1、数据干扰和查询限制策略的结合:本发明方法通过采用多参数扰动,根据不同参数对数据进行不同处理,既可以变换数据项也可以隐藏数据项,实现了数据干扰策略和查询限制策略的相互结合,克服了两个策略本身存在的缺陷,提高了隐私保护程度。
2、概率矩阵求逆的优化:在根据公式进行支持度重构过程中,求解概率逆矩阵的效率严重影响整个挖掘方法的执行性能,本发明方法根据矩阵分块思想发现了概率逆矩阵之间的递推关系,从而简化了求解过程,只需要求一次概率逆矩阵,后面的逆矩阵均可通过递推公式直接获得,避免了先求出概率矩阵再计算其逆矩阵的繁琐过程,提高了方法执行效率。
3、基于集合原理优化计数过程:由于本发明方法的挖掘对象是干扰后的数据,支持度重构的过程比较复杂,本方法通过集合原理可以优化项集计数过程,只需查询那些项集全为“1”的个数,其它组合的个数可以通过基于集合原理的公式计算出来,消除了计数过程中的指数级时间复杂度,方法执行效率获得了很大改进。
附图说明
图1为本发明随机扰乱原始数据集得到干扰后数据集的流程图;
图2为本发明项集支持度重构获得频繁项集的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:
(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;
(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则。
如图1所示,实施步骤(1)具体为,
11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1,i2,...ik],k代表项的个数;
其中,ij,l≤j≤k的值为0或1,1表示该项出现,0表示该项不出现;
12)设置三个随机化参数:p1、p2、p3,满足0≤p1,p2,p3≤1和p1+p2+p3=1;
13)对每个项ij进行随机干扰,将数据记录T=[i1,i2,...ik]变换成T′=[i1′,i2′,...ik′],得到干扰后数据集D′,其中,ij′表示以p1的概率保持原来的值ij,以p2的概率变成1-ij,以p3的概率取值为0。
如图2所示,实施步骤(2)具体为,
21)设置最小支持度阈值s,扫描干扰后数据集D′,产生候选1-项集C1
22)n=1,根据下式从干扰后数据集D′中重构得到候选1-项集中各个1-项集的真实支持度
Figure BDA0000418213700000051
C n D = M 2 n - 1 C n D ′ ⇒ C 1 D = M 2 - 1 C 1 D ′ ⇒ c 1 D c 0 D = p 1 p 2 p 2 + p 3 p 1 + p 3 - 1 c 1 D ′ c 0 D ′ ⇒ c 1 D = c 1 D ′ - p 2 ( c 1 D ′ + c 0 D ′ ) p 1 - p 2
其中,
Figure BDA0000418213700000053
表示在干扰后数据集D′的任意1-项集c中1的个数,
Figure BDA0000418213700000054
表示在干扰后数据集D′的任意1-项集c中0的个数;
23)若每个1-项集的真实支持度均不小于最小支持度阈值s,则将候选1-项集C1作为频繁1-项集L1;否则将真实支持度小于阈值s的1-项集从候选1-项集C1中剔除后得到频繁1-项集L1
24)更新n=n+1,根据频繁n-1-项集得到候选n-项集Cn,计算候选n-项集Cn中各个n-项集的真实支持度
Figure BDA0000418213700000061
C n D = M 2 n - 1 C n D ′ ⇒ c 2 n - 1 D . . . C 1 D c 0 D = M 2 n - 1 c 2 n - 1 D ′ . . . c 1 D ′ c 0 D ′ ,
其中,
Figure BDA0000418213700000063
表示元组l在干扰后数据集D′的任意n-项集中出现的次数,元组l为十进制数m的二进制形式,m=0,1,…,2n-1;
Figure BDA0000418213700000065
表示十进制数jx的二进制元组变成十进制数ix的二进制元组的扭曲概率,ix=0,1,…,2n-1,jx=0,1,…,2n-1;
25)若每个n-项集的真实支持度均不小于最小支持度阈值s,则将候选n-项集Cn作为频繁n-项集Ln;否则将真实支持度小于阈值s的n-项集从候选n-项集Cn中剔除后得到频繁n-项集Ln
26)判断频繁n-项集Ln是否为空,是则执行步骤27),否则返回步骤24);
27)从干扰后数据集中重构得到所有原始频繁项集L=L1∪…∪Ln-1
步骤24)所述的
Figure BDA0000418213700000066
可以根据已知的
Figure BDA0000418213700000067
通过以下公式简化后计算得到,
M 2 n - 1 = 1 - p 2 p 1 - p 2 M 2 n - 1 - 1 - p 2 p 1 - p 2 M 2 n - 1 - 1 p 1 - 1 p 1 - p 2 M 2 n - 1 - 1 p 1 p 1 - p 2 M 2 n - 1 - 1 ,
其中, M 2 - 1 = p 1 p 2 p 2 + p 3 p 1 + p 3 - 1 .
由于本发明方法是在干扰后数据集中进行挖掘的,支持度重构的过程比较复杂。例如,原始数据项000经过干扰后可能变成000,001,010,100,011,110,101,111中的任意一种,而在重构n-项集支持度时必须考虑到2n种情况,即需要扫描2n次数据集来得到2n种组合的个数。本发明方法通过集合原理可以优化计数过程,只需查询那些项集全为“1”的个数,其它组合的个数可以通过基于集合原理的公式计算出来。
步骤24)所述的计算任意n-项集的真实支持度
Figure BDA0000418213700000071
需要计算2n
Figure BDA0000418213700000072
m=0,1,…,2n-1,计算2n
Figure BDA0000418213700000073
的过程具体为,
51)先扫描干扰后数据集D′,得到全由1组成的元组在任意n-项集中出现的次数
Figure BDA0000418213700000074
其中χ+y=n,{A1A2...AxB1B2...By}表示干扰后数据集D′中的任意n-项集;
52)再通过集合原理的公式,得出其余元组在任意n-项集中出现的次数,
I ( A ‾ 1 A ‾ 2 . . . A ‾ x B 1 B 2 . . . B y ) = I ( B 1 B 2 . . . B y ) + Σ i = 1 x Σ { x 1 . . . x i } ⋐ { 1 . . . x } ( - 1 ) i I ( A x 1 A x 2 . . . A x 1 . . . B 1 B 2 . . . B y ) ,
其中
Figure BDA0000418213700000076
表示A1的补集。
例如,假设数据库中的数据记录总数为Number,对于数据集中的任意集合a和b,有以下关系成立:
Figure BDA0000418213700000077
其中
Figure BDA0000418213700000078
是集合a的补集,I(b)表示集合b的元素个数。
以2-项集为例,a和b分别表示候选2-项集中的元素,那么‘11’元组的个数可以表示成I(a∩b),‘10’元组的个数可以表示成
Figure BDA00004182137000000717
‘01’元组的个数可以表示成
Figure BDA0000418213700000079
‘00’元组的个数可以表示成
Figure BDA00004182137000000710
我们只需要扫描‘11’元组的个数,运用以上的集合公式我们可以得到其它组合的个数:
I ( a ‾ ∩ b ) = I ( b ) - I ( a ∩ b ) , 得到“01”元组的个数;
I ( a ∩ b ‾ ) = I ( a ) - I ( a ∩ b ) , 得到“10”元组的个数;
I ( a ‾ ∩ b ‾ ) = I ( b ‾ ) - I ( a ∩ b ‾ ) = Number - I ( a ) - ( b ) + I ( a ∩ b ) , 得到“00”元组的个数。
以3-项集为例,a,b和c分别表示候选3-项集中的元素,运用以上公式我们可以得到:
I ( a ‾ ∩ b ∩ c ) = I ( b ∩ c ) - I ( a ∩ b ∩ c ) , 得到“011”元组的个数;
I ( a ‾ ∩ b ‾ ∩ c ) = I ( c ) - [ I ( a ∩ c ) + I ( b ∩ c ) - I ( a ∩ b ∩ c ) ] , 得到“001”元组的个数;
I ( a ‾ ∩ b ∩ c ‾ ) = I ( b ) - [ I ( a ∩ b ) + I ( c ∩ b ) - I ( a ∩ b ∩ c ) ] , 得到“010”元组的个数。
实施例:
如表1所示,原始数据集由3个项目和10个数据记录组成,最小支持度阈值设为2。
表1原始数据集
ID A B C
1 1 1 0
2 0 1 0
3 0 1 1
4 1 1 0
5 1 0 1
6 0 1 1
7 1 0 1
8 1 1 1
9 1 1 1
10 1 0 1
具体执行步骤如下:
(1)设置三个干扰参数为p1=0.4,p2=0.3,p3=0.3,对于原始数据集中的任意一个项目t∈{0,1},设f1=t,f2=1-t,f3=0,定义一个函数f(t),函数值以概率pj取值为fj,j=1,2,3,对原始数据库进行随机干扰,得到干扰后数据集D′,如表2所示;
表2干扰后数据集D′
ID A B C
1 1 1 0
2 0 1 1
3 0 1 0
4 0 0 1
5 1 1 1
6 0 0 1
7 0 1 0
8 0 1 0
9 1 0 1
10 1 0 1
(2)还原频繁项集
①还原频繁1-项集:
M 2 = p 1 p 2 p 2 + p 3 p 1 + p 3 = 0.4 0.3 0.6 0.7 , M 2 - 1 = 7 - 3 - 6 4 ,
根据公式可以得到候选1-项集中各个项的真实支持度
Figure BDA0000418213700000083
并将各个项在干扰后数据集中出现的次数记录下来:I(A)=4,I(B)=6,I(C)=6;
分别判断各个项的真实支持度是否大于最小支持度阈值:Sup(A)=10>2;Sup(B)=30>2;Sup(C)=30>2,所以频繁1-项集为L={A,B,C};
②还原频繁2-项集:
由频繁1-项集得到候选2-项集:{{A,B}{A,C}{B,C}},
M 4 - 1 = 1 - p 2 p 1 - p 2 M 2 - 1 - p 2 p 1 - p 2 M 2 - 1 p 1 - 1 p 1 - p 2 M 2 - 1 p 1 p 1 - p 2 M 2 - 1 = 49 - 21 - 21 9 - 42 28 18 - 12 - 42 18 28 - 12 36 - 24 - 24 16 ,
此时我们只需要扫描数据集得到I(AB)也即
Figure BDA0000418213700000092
的个数即可,通过集合原理便可直接计算得出其它各个组合的个数:
c , 01 ′ D ′ = I ( A ‾ ∩ B ) = I ( B ) - I ( A ∩ B ) = 6 - 2 = 4 ;
c , 10 ′ D ′ = I ( A ∩ B ‾ ) = I ( A ) - I ( A ∩ B ) = 4 - 2 = 2 ;
c 00 D ′ = I ( A ‾ ∩ B ‾ ) = Number - I ( A ) - I ( B ) + I ( A ∩ B ) = 10 - 4 - 6 + 2 = 2 ;
由以上结果可得到候选2-项集中各个项集的真实支持度,
Sup(A,B):
C 4 D = M 4 - 1 * c 11 D ′ c 10 D ′ c 01 D ′ c 00 D ′ = 49 - 21 - 21 9 - 42 28 18 - 12 - 42 18 28 - 12 36 - 24 - 24 16 * 2 2 4 2 = - 10 20 40 - 40 ;
Sup(A,C):
C 4 D = M 4 - 1 * c 11 D ′ c 10 D ′ c 01 D ′ c 00 D ′ = 49 - 21 - 21 9 - 42 28 18 - 12 - 42 18 28 - 12 36 - 24 - 24 16 * 3 1 3 3 = 90 - 80 - 60 60 ;
Sup(B,C):
C 4 D = M 4 - 1 * c 11 D ′ c 10 D ′ c 01 D ′ c 00 D ′ = 49 - 21 - 21 9 - 42 28 18 - 12 - 42 18 28 - 12 36 - 24 - 24 16 * 2 4 4 0 = - 70 100 100 - 120 ;
从上式得到:
Figure BDA0000418213700000099
所以{A,B)不是频繁2-项集;Sup(A,C)=90>2,所以{A,C}是频繁2-项集;Sup(B,C)=-70<2,所以{B,C}不是频繁2-项集。
③由频繁2-项集生成候选3-项集,候选3-项集为空集,整个过程结束;
④我们最后可以得出频繁项集L=L1∪L2={{A},{B},{C},{A,C}}。

Claims (5)

1.一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:
(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;
(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。
2.根据权利要求1所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,实施步骤(1)具体为,
11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1,i2,...ik],k代表项的个数;
其中,ij,l≤j≤k的值为0或1,1表示该项出现,0表示该项不出现;
12)设置三个随机化参数:p1、p2、p3,满足0≤p1,p2,p3≤1和p1+p2+p3=1;
13)对每个项ij进行随机干扰,将数据记录T=[i1,i2,...ik]变换成T′=[i1′,i2′,...ik′],得到干扰后数据集D′,其中,ij′表示以p1的概率保持原来的值ij,以p2的概率变成1-ij,以p3的概率取值为0。
3.根据权利要求2所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,实施步骤(2)具体为,
21)设置最小支持度阈值s,扫描干扰后数据集D′,产生候选1-项集C1
22)n=1,根据下式从干扰后数据集D′中重构得到候选1-项集中各个1-项集的真实支持度
Figure FDA0000418213690000011
C n D = M 2 n - 1 C n D &prime; &DoubleRightArrow; C 1 D = M 2 - 1 C 1 D &prime; &DoubleRightArrow; c 1 D c 0 D = p 1 p 2 p 2 + p 3 p 1 + p 3 - 1 c 1 D &prime; c 0 D &prime; &DoubleRightArrow; c 1 D = c 1 D &prime; - p 2 ( c 1 D &prime; + c 0 D &prime; ) p 1 - p 2
其中,
Figure FDA0000418213690000013
表示在干扰后数据集D′的任意1-项集c中1的个数,
Figure FDA0000418213690000014
表示在干扰后数据集D′的任意1-项集c中0的个数;
23)若每个1-项集的真实支持度均不小于最小支持度阈值s,则将候选1-项集C1作为频繁1-项集L1;否则将真实支持度小于阈值s的1-项集从候选1-项集C1中剔除后得到频繁1-项集L1
24)更新n=n+1,根据频繁n-1-项集得到候选n-项集Cn,计算候选n-项集Cn中各个n-项集的真实支持度
C n D = M 2 n - 1 C n D &prime; &DoubleRightArrow; c 2 n - 1 D . . . C 1 D c 0 D = M 2 n - 1 c 2 n - 1 D &prime; . . . c 1 D &prime; c 0 D &prime; ,
其中,
Figure FDA0000418213690000023
表示元组l在干扰后数据集D′的任意n-项集中出现的次数,元组l为十进制数m的二进制形式,m=0,1,…,2n-1;
Figure FDA0000418213690000025
表示十进制数jx的二进制元组变成十进制数ix的二进制元组的扭曲概率,ix=0,1,…,2n-1,jx=0,1,…,2n-1;
25)若每个n-项集的真实支持度均不小于最小支持度阈值s,则将候选n-项集Cn作为频繁n-项集Ln;否则将真实支持度小于阈值s的n-项集从候选n-项集Cn中剔除后得到频繁n-项集Ln
26)判断频繁n-项集Ln是否为空,是则执行步骤27),否则返回步骤24);
27)从干扰后数据集中重构得到所有原始频繁项集L=L1∪…∪Ln-1
4.根据权利要求3所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,步骤24)所述的
Figure FDA0000418213690000026
可以根据已知的
Figure FDA0000418213690000027
通过以下公式简化后计算得到,
M 2 n - 1 = 1 - p 2 p 1 - p 2 M 2 n - 1 - 1 - p 2 p 1 - p 2 M 2 n - 1 - 1 p 1 - 1 p 1 - p 2 M 2 n - 1 - 1 p 1 p 1 - p 2 M 2 n - 1 - 1 ,
其中, M 2 - 1 = p 1 p 2 p 2 + p 3 p 1 + p 3 - 1 .
5.根据权利要求3所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,步骤24)所述的计算任意n-项集的真实支持度
Figure FDA00004182136900000210
需要计算2n
Figure FDA00004182136900000211
m=0,1,…,2n-1,计算2n
Figure FDA00004182136900000212
的过程具体为,
51)先扫描干扰后数据集D′,得到全由1组成的元组在任意n-项集中出现的次数
Figure FDA0000418213690000031
其中χ+y=n,{A1A2...AxB1B2...By}表示干扰后数据集D′中的任意n-项集;
52)再通过集合原理的公式,得出其余元组在任意n-项集中出现的次数,
I ( A &OverBar; 1 A &OverBar; 2 . . . A &OverBar; x B 1 B 2 . . . B y ) = I ( B 1 B 2 . . . B y ) + &Sigma; i = 1 x &Sigma; { x 1 . . . x i } &Subset; { 1 . . . x } ( - 1 ) i I ( A x 1 A x 2 . . . A x 1 . . . B 1 B 2 . . . B y ) , 其中
Figure FDA0000418213690000033
表示Ai的补集。
CN201310591116.2A 2013-11-20 2013-11-20 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 Pending CN103605749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310591116.2A CN103605749A (zh) 2013-11-20 2013-11-20 一种基于多参数干扰的隐私保护关联规则数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310591116.2A CN103605749A (zh) 2013-11-20 2013-11-20 一种基于多参数干扰的隐私保护关联规则数据挖掘方法

Publications (1)

Publication Number Publication Date
CN103605749A true CN103605749A (zh) 2014-02-26

Family

ID=50123971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310591116.2A Pending CN103605749A (zh) 2013-11-20 2013-11-20 一种基于多参数干扰的隐私保护关联规则数据挖掘方法

Country Status (1)

Country Link
CN (1) CN103605749A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984723A (zh) * 2014-05-15 2014-08-13 江苏易酒在线电子商务有限公司 一种针对增量数据对频繁项进行更新数据挖掘方法
CN104298778A (zh) * 2014-11-04 2015-01-21 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及***
CN104765810A (zh) * 2015-04-02 2015-07-08 西安电子科技大学 基于布尔矩阵的诊疗规则挖掘方法
CN104881467A (zh) * 2015-05-26 2015-09-02 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN105354336A (zh) * 2015-12-07 2016-02-24 Tcl集团股份有限公司 一种处理交易事务数据库数据的方法和装置
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及***
CN106202246A (zh) * 2016-06-27 2016-12-07 广东工业大学 一种基于压缩矩阵的隐私保护挖掘方法
CN106909666A (zh) * 2017-02-27 2017-06-30 广东工业大学 一种基于多参数扰动的数据挖掘隐私保护方法
CN107113183A (zh) * 2014-11-14 2017-08-29 马林·利佐尤 大数据的受控共享的***和方法
CN107203725A (zh) * 2017-05-23 2017-09-26 广东工业大学 一种垂直分布式关联规则挖掘隐私信息保护方法
CN107302521A (zh) * 2017-05-23 2017-10-27 全球能源互联网研究院 一种用户隐私数据的发送方法和接收方法
CN109389412A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 一种训练模型的方法及装置
CN117993027A (zh) * 2024-03-28 2024-05-07 之江实验室 针对重复查询攻击的数据保护方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266097A1 (en) * 2006-04-25 2007-11-15 Pagebites, Inc. Method for information gathering and dissemination in a social network
CN102929896A (zh) * 2011-08-13 2013-02-13 句容今太科技园有限公司 基于隐私保护的数据挖掘方法
CN103294967A (zh) * 2013-05-10 2013-09-11 中国地质大学(武汉) 大数据挖掘下的用户隐私保护方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266097A1 (en) * 2006-04-25 2007-11-15 Pagebites, Inc. Method for information gathering and dissemination in a social network
CN102929896A (zh) * 2011-08-13 2013-02-13 句容今太科技园有限公司 基于隐私保护的数据挖掘方法
CN103294967A (zh) * 2013-05-10 2013-09-11 中国地质大学(武汉) 大数据挖掘下的用户隐私保护方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张长星: "隐私保护数据挖掘算法的研究", 《中国优秀硕士论文全文数据库 信息科技辑》 *
李威: "多参数扰动的隐私保护关联规则挖掘算法研究", 《中国优秀硕士论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984723A (zh) * 2014-05-15 2014-08-13 江苏易酒在线电子商务有限公司 一种针对增量数据对频繁项进行更新数据挖掘方法
CN104298778B (zh) * 2014-11-04 2017-07-04 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及***
CN104298778A (zh) * 2014-11-04 2015-01-21 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及***
CN107113183A (zh) * 2014-11-14 2017-08-29 马林·利佐尤 大数据的受控共享的***和方法
CN104765810B (zh) * 2015-04-02 2018-03-06 西安电子科技大学 基于布尔矩阵的诊疗规则挖掘方法
CN104765810A (zh) * 2015-04-02 2015-07-08 西安电子科技大学 基于布尔矩阵的诊疗规则挖掘方法
CN104881467B (zh) * 2015-05-26 2018-08-31 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN104881467A (zh) * 2015-05-26 2015-09-02 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN105354336A (zh) * 2015-12-07 2016-02-24 Tcl集团股份有限公司 一种处理交易事务数据库数据的方法和装置
CN105608135B (zh) * 2015-12-18 2020-03-31 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及***
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及***
CN106202246A (zh) * 2016-06-27 2016-12-07 广东工业大学 一种基于压缩矩阵的隐私保护挖掘方法
CN106909666A (zh) * 2017-02-27 2017-06-30 广东工业大学 一种基于多参数扰动的数据挖掘隐私保护方法
CN107302521A (zh) * 2017-05-23 2017-10-27 全球能源互联网研究院 一种用户隐私数据的发送方法和接收方法
CN107203725A (zh) * 2017-05-23 2017-09-26 广东工业大学 一种垂直分布式关联规则挖掘隐私信息保护方法
CN109389412A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 一种训练模型的方法及装置
CN109389412B (zh) * 2017-08-02 2022-03-04 创新先进技术有限公司 一种训练模型的方法、装置、服务设备以及用户设备
CN117993027A (zh) * 2024-03-28 2024-05-07 之江实验室 针对重复查询攻击的数据保护方法和装置

Similar Documents

Publication Publication Date Title
CN103605749A (zh) 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN103150515A (zh) 一种分布式环境下隐私保护的关联规则挖掘方法
Rodó et al. Malaria trends in Ethiopian highlands track the 2000 ‘slowdown’in global warming
Mittal An exploratory data analysis of COVID-19 in India
Gao et al. Deforestation in Heilongjiang Province of China, 1896–2000: Severity, spatiotemporal patterns and causes
CN103577323B (zh) 基于动态关键指令序列胎记的软件抄袭检测方法
Chen et al. An indoor trajectory frequent pattern mining algorithm based on vague grid sequence
Yamamoto et al. Quantifying compliance with COVID-19 mitigation policies in the US: A mathematical modeling study
Sharma et al. A review study on the privacy preserving data mining techniques and approaches
CN103778051A (zh) 基于l*算法的业务流程增量挖掘方法
CN108809628B (zh) 基于安全多方下的时间序列异常检测方法与***
CN104899896A (zh) 一种基于子空间特征的多任务学习目标跟踪方法
CN112669980A (zh) 一种基于节点相似度的流行病传播网络重构方法和***
Meng et al. How can spatial structural metrics improve the accuracy of forest disturbance and recovery detection using dense Landsat time series?
CN105183785B (zh) 一种保护原交易数据集关联规则的数据挖掘方法及***
Zhao et al. Investigate the effects of urban land use on PM2. 5 concentration: An application of deep learning simulation
Seol et al. Reduction of association rules for big data sets in socially-aware computing
Zhao et al. Illuminated border: Spatiotemporal analysis of COVID-19 pressure in the Sino-Burma border from the perspective of nighttime light
Benkhaddra et al. Secure transmission of secret data using optimization based embedding techniques in Blockchain
Ersöz et al. Comparative Performance Analysis of ARIMA, Prophet and Holt-Winters Forecasting Methods on European COVID-19 Data
Nasiri et al. How do conservation policies, climate and socioeconomic changes impact Hyrcanian forests of northern Iran?
CN110457940B (zh) 一种基于图论和互信息量的差分隐私度量方法
Liu et al. DynaPro: dynamic wireless sensor network data protection algorithm in IoT via differential privacy
Zou et al. Research on privacy protection of large-scale network data aggregation process
Liu et al. BP-Model-based convoy mining algorithms for moving objects

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140226

RJ01 Rejection of invention patent application after publication