CN107203725A - 一种垂直分布式关联规则挖掘隐私信息保护方法 - Google Patents

一种垂直分布式关联规则挖掘隐私信息保护方法 Download PDF

Info

Publication number
CN107203725A
CN107203725A CN201710366773.5A CN201710366773A CN107203725A CN 107203725 A CN107203725 A CN 107203725A CN 201710366773 A CN201710366773 A CN 201710366773A CN 107203725 A CN107203725 A CN 107203725A
Authority
CN
China
Prior art keywords
website
data
party
association rule
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710366773.5A
Other languages
English (en)
Inventor
凌捷
张燕平
谢锐
柳毅
杨育斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201710366773.5A priority Critical patent/CN107203725A/zh
Publication of CN107203725A publication Critical patent/CN107203725A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

目前国内外的隐私保护数据挖掘算法存在不足,例如,目前分布式环境下关联规则挖掘隐私保护算法较多的使用同态加密技术,在将该技术运用在分布式关联规则挖掘中时,私钥拥有者容易通过两两计算站点的信息,获得足够多的方程组后,解出各站点数据集中项集的支持度信息造成隐私泄漏。针对现有技术的不足,本发明提出了一种垂直分布式关联规则挖掘隐私信息保护方法。该方法使用了部分隐藏的随机化回答方法对各站点原始数据进行扰乱与隐藏,引入半可信第三方,各站点计算得到本地持有的项集事务向量,利用Paillier加密算法统计出项集全局事务向量,由第三方进行解密并得到项集全局支持度。本发明方法提高了支持数的计算效率和安全性。

Description

一种垂直分布式关联规则挖掘隐私信息保护方法
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种垂直分布式关联规则挖掘隐私信息保护方法。
背景技术
伴随着数据挖掘技术在各个领域的广泛应用,数据挖掘对用户的隐私和数据安全所造成的威胁越来越引起人们的关注。在涉及企业敏感数据(如电子病历中包含的医院医疗业务或财务状况)或个人隐私信息(如电子病历中包含的患者隐私病症)的各种数据挖掘日常应用中,对于如何提高数据的安全性引起了学者的广泛关注。
目前国内外的隐私保护数据挖掘算法主要有基于数据扰乱的、基于查询限制等方法,在分布式环境下主要有基于查询限制或数据扰乱和查询限制混合使用等方法。数据扰乱首先通过数据离散化、数据随机变换和增加噪声等操作对原始数据进行干扰,对干扰后的数据进行挖掘,减少挖掘中隐私的泄漏;查询限制则是通过数据隐藏、抽样、划分或加密等方式,再利用概率统计或分布式计算的方法得到挖掘结果,以达到保护数据的目的。目前分布式环境下关联规则挖掘隐私保护算法较多的使用同态加密技术,该技术最主要的特点是对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。在将该技术运用在分布式关联规则挖掘中时,私钥拥有者容易通过两两计算站点的信息,获得足够多的方程组后,解出各站点数据集中项集的支持度信息造成隐私泄漏。
发明内容
针对现有技术存在的不足,本发明提出一种垂直分布式关联规则挖掘隐私信息保护方法,增强在垂直分布式环境下关联规则挖掘中各站点支持度和个体信息的安全性,图2是分布式数据挖掘框架。
主要思想如下:
(1)在对站点的数据进行挖掘之前,首先使用部分随机化回答方法对原始数据集进行隐藏与干扰,对隐藏与干扰后的数据进行挖掘,再通过重构方法重构出数据中包含的项的支持度,保护站点原始数据的安全性的同时,通过重构项集支持度来保证数据的准确性。
(2)在计算分布在各站点中的数据的项的支持度时,各站点先对数据进行Paillier算法加密,Paillier算法具有加法同态加密性质,站点之间通过对已加密的项的数据进行相加操作,高效安全地求出项集的全局支持度。
附图说明
图1是方法流程图;
图2是分布式数据挖掘框架。
具体实施方式
一种垂直分布式关联规则挖掘隐私信息保护方法,如图1所示,包含以下步骤:
若k=1,即判断1-项集是否为频繁项集,通过统计该1-项集存在的事务个数,即来计算出该1-项集的支持数,并根据给定的最小支持度来判断该1-项集是否为频繁项集。
若k≥2,则采用以下方法:
(1)各站点Si(1≤i≤n)产生Paillier加密算法密钥对(ei,di),并把公钥ei发送给DSC,在DSC向站点发送数据时,先使用与该站点相应的公钥ei对数据进行加密,保证数据在传输中的安全性;
(2)DSC产生Paillier加密算法密钥对(pk,sk)和随机干扰参数p1,p2,使用ei对公钥pk、和参数p1,p2进行加密并发送到各站点,在站点向其他站点或者DSC发送数据时,先使用公钥pk对数据进行加密,保证数据在传输中的安全性;
(3)站点Si根据从DSC接收到的随机干扰参数p1和p2并行使用部分随机化回答方法对原始数据进行隐藏与扰乱;
(4)当Si拥有多个频繁项集时,对每个事务向量(事务向量表示该项在事务中的存在情况)进行相加运算,得出新的事务向量
(5)Si使用公钥pk对进行Paillier同态加密,并发送到下一个站点Si+1,Si+1站点对其自身的数据同样使用pk进行加密,将得到的结果与接收到的数据进行相加运算,把最后的结果发送到下一个站点,最后一个站点运算后把最后的结果发送给DSC。
(6)DSC将接收到的结果进行解密,即得到该项集隐藏与扰乱后的全局事务向量,通过重构方法重构出原始数据中的k-项集的全局事务向量,最后统计出k-项集的事务向量中“k”出现的次数,即为k-项集的全局支持数。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:包含于以下步骤:
1)各站点产生Paillier加密算法公钥私钥对(ei,di),并将公钥ei发送给引入的半可信第三方;
2)第三方产生Paillier加密算法的公钥私钥对(pk,sk)以及部分随机化回答方法的参数,并将公钥pk和参数发送给各站点;
3)各站点利用从第三方接收的参数对持有的数据集进行隐藏与干扰操作;
4)持有多个项集的站点对项集的事务存在情况进行相加运算;
5)各站点使用公钥pk对持有的数据进行加密,并将已加密的数据发送给下一个站点;
6)接收到数据的站点将已加密的持有的数据与接收到的数据进行相加运算,并将结果发送到下一个站点,最后一个站点将数据发送给第三方;
7)第三方解密接收到的数据,计算出项集支持数。
2.根据权利要求1所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:各站点产生Paillier加密算法公钥私钥对,把公钥发送给第三方,在第三方向站点发送信息时,先对信息使用相应的站点的公钥进行加密,再传输。
3.根据权利要求2所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:第三方产生Paillier加密算法公钥私钥对和部分随机化回答方法的参数,并把公钥和参数发送给各站点,各站点先使用接收到的参数对数据进行隐藏与扰乱,并且向外发送信息时先使用该公钥对信息进行加密。
4.根据权利要求3所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:各站点使用从第三方接收到的参数先对持有的原始数据进行隐藏与扰乱,得到新的数据集,在后续挖掘中使用该隐藏与扰乱后的数据。
5.根据权利要求4所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:拥有j个项集的站点先对持有的项集的事务情况进行相加运算,形成一个新的事务项集;事务项集表示项集在事务中的存在情况,存在为1,不存在为0,当j个事务向量相加时,向量中的元素大小小于等于j。
6.根据权利要求5所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:各站点对最终的事务项集使用公钥pk进行加密,并将已加密的数据发送给下一个相应的站点。
7.根据权利要求6所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:接收到数据的站点将已加密的持有的事务向量进行相加运算,并将结果发送给下一个相应的站点。
8.根据权利要求7所述的一种垂直分布式关联规则挖掘隐私信息保护方法,其特征在于:第三方解密接收到的数据,重构出项集的支持数,并通过统计出该k-项集的事务向量中“k”的个数得到k-项集的原始支持数,将该支持数与给定的最小支持数进行比较,判断出该k-项集是否为频繁项集。
CN201710366773.5A 2017-05-23 2017-05-23 一种垂直分布式关联规则挖掘隐私信息保护方法 Pending CN107203725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710366773.5A CN107203725A (zh) 2017-05-23 2017-05-23 一种垂直分布式关联规则挖掘隐私信息保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710366773.5A CN107203725A (zh) 2017-05-23 2017-05-23 一种垂直分布式关联规则挖掘隐私信息保护方法

Publications (1)

Publication Number Publication Date
CN107203725A true CN107203725A (zh) 2017-09-26

Family

ID=59905779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710366773.5A Pending CN107203725A (zh) 2017-05-23 2017-05-23 一种垂直分布式关联规则挖掘隐私信息保护方法

Country Status (1)

Country Link
CN (1) CN107203725A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022654A (zh) * 2017-12-20 2018-05-11 深圳先进技术研究院 一种基于隐私保护的关联规则挖掘方法、***及电子设备
CN108920714A (zh) * 2018-07-26 2018-11-30 上海交通大学 一种分布式环境下隐私保护的关联规则挖掘方法和***
CN109743299A (zh) * 2018-12-19 2019-05-10 西安电子科技大学 一种面向大型商场交易记录的高安全性频繁项集挖掘方法
CN110120873A (zh) * 2019-05-08 2019-08-13 西安电子科技大学 基于云外包交易数据的频繁项集挖掘方法
CN112948864A (zh) * 2021-03-19 2021-06-11 西安电子科技大学 基于垂直分区数据库的可验证ppfim方法
CN112966283A (zh) * 2021-03-19 2021-06-15 西安电子科技大学 基于多方集合求交集的垂直分区数据pparm方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150515A (zh) * 2012-12-29 2013-06-12 江苏大学 一种分布式环境下隐私保护的关联规则挖掘方法
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN106503575A (zh) * 2016-09-22 2017-03-15 广东工业大学 一种分布式关联规则挖掘隐私信息保护方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150515A (zh) * 2012-12-29 2013-06-12 江苏大学 一种分布式环境下隐私保护的关联规则挖掘方法
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN106503575A (zh) * 2016-09-22 2017-03-15 广东工业大学 一种分布式关联规则挖掘隐私信息保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈玉婵: "面向关联规则挖掘的分布式隐私保护算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022654A (zh) * 2017-12-20 2018-05-11 深圳先进技术研究院 一种基于隐私保护的关联规则挖掘方法、***及电子设备
CN108920714A (zh) * 2018-07-26 2018-11-30 上海交通大学 一种分布式环境下隐私保护的关联规则挖掘方法和***
CN108920714B (zh) * 2018-07-26 2021-10-01 上海交通大学 一种分布式环境下隐私保护的关联规则挖掘方法和***
CN109743299A (zh) * 2018-12-19 2019-05-10 西安电子科技大学 一种面向大型商场交易记录的高安全性频繁项集挖掘方法
CN109743299B (zh) * 2018-12-19 2021-01-12 西安电子科技大学 一种面向大型商场交易记录的高安全性频繁项集挖掘方法
CN110120873A (zh) * 2019-05-08 2019-08-13 西安电子科技大学 基于云外包交易数据的频繁项集挖掘方法
CN110120873B (zh) * 2019-05-08 2021-04-27 西安电子科技大学 基于云外包交易数据的频繁项集挖掘方法
CN112948864A (zh) * 2021-03-19 2021-06-11 西安电子科技大学 基于垂直分区数据库的可验证ppfim方法
CN112966283A (zh) * 2021-03-19 2021-06-15 西安电子科技大学 基于多方集合求交集的垂直分区数据pparm方法
CN112948864B (zh) * 2021-03-19 2022-12-06 西安电子科技大学 基于垂直分区数据库的可验证ppfim方法
CN112966283B (zh) * 2021-03-19 2023-04-18 西安电子科技大学 基于多方集合求交集的垂直分区数据pparm方法

Similar Documents

Publication Publication Date Title
CN107203725A (zh) 一种垂直分布式关联规则挖掘隐私信息保护方法
Li et al. Differentially private Naive Bayes learning over multiple data sources
Elhoseny et al. Secure medical data transmission model for IoT-based healthcare systems
CN106503575B (zh) 一种分布式关联规则挖掘隐私信息保护方法
Liu et al. Toward highly secure yet efficient KNN classification scheme on outsourced cloud data
KR102224998B1 (ko) 데이터 재-암호화를 통하여 민감한 데이터를 보호하기 위한 컴퓨터-구현 시스템 및 방법
Liu et al. A novel robust watermarking algorithm for encrypted medical image based on DTCWT-DCT and chaotic map
WO2020006302A1 (en) Method and apparatus for obtaining input of secure multiparty computation protocol
Xu et al. A visually secure asymmetric image encryption scheme based on RSA algorithm and hyperchaotic map
CN103023633B (zh) 基于混沌随机相位和相干叠加原理的数字图像隐藏方法
Koppu et al. A fast enhanced secure image chaotic cryptosystem based on hybrid chaotic magic transform
CN102622545A (zh) 图片文件追踪方法
Kumar et al. Internet of things: IETF protocols, algorithms and applications
CN108881230B (zh) 一种政务大数据的安全传输方法及装置
Angelou et al. Asymmetric private set intersection with applications to contact tracing and private vertical federated machine learning
CN105553980A (zh) 基于云计算的安全指纹识别***和方法
EP4293557A2 (en) Generating sequences of network data while preventing acquisition or manipulation of time data
Liu et al. Image encryption via complementary embedding algorithm and new spatiotemporal chaotic system
Kim et al. A method for decrypting data infected with hive ransomware
CN104537604B (zh) 一种图像确定性加密双盲保密匹配方法
Rostam et al. Privacy-preserving in the Internet of Things based on steganography and chaotic functions
Wang et al. An encryption algorithm for vector maps based on the Gaussian random and Haar transform
CN104574380A (zh) 一种图像随机加密双盲保密匹配方法
Benkhaddra et al. Secure transmission of secret data using optimization based embedding techniques in Blockchain
Rachmawanto et al. Block-based arnold chaotic map for image encryption

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170926