CN103294967B - 大数据挖掘下的用户隐私保护方法及*** - Google Patents

大数据挖掘下的用户隐私保护方法及*** Download PDF

Info

Publication number
CN103294967B
CN103294967B CN201310171066.2A CN201310171066A CN103294967B CN 103294967 B CN103294967 B CN 103294967B CN 201310171066 A CN201310171066 A CN 201310171066A CN 103294967 B CN103294967 B CN 103294967B
Authority
CN
China
Prior art keywords
data
algorithm
user
privacy
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310171066.2A
Other languages
English (en)
Other versions
CN103294967A (zh
Inventor
任伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoerguosi Chi Chi Future Mdt Infotech Ltd
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201310171066.2A priority Critical patent/CN103294967B/zh
Publication of CN103294967A publication Critical patent/CN103294967A/zh
Application granted granted Critical
Publication of CN103294967B publication Critical patent/CN103294967B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种大数据挖掘下的用户隐私保护方法及***,包括以下步骤:获取用户对上传数据的隐私敏感度的设定值;对用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若敏感度分析值大于设定值,则生成预警信息,以提示用户是否需要修改上传数据的隐私敏感度的设定值;根据敏感度分析值设定数据挖掘算法的访问权限度;在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据,或对数据进行相应处理,包括数据匿名化混淆处理方法和数据碎片化混淆处理。本发明可较为清晰地判定大数据挖掘时是否会导致隐私泄漏,可有效保护用户的隐私。

Description

大数据挖掘下的用户隐私保护方法及***
技术领域
本发明涉及大数据安全领域,尤其涉及一种大数据挖掘下的用户隐私保护方法及***。
背景技术
大数据是一种战略资源,大数据的挖掘可以为企业等带来巨大的经济效益。云计算为大数据提供了技术支撑。当前,大数据挖掘面临一个重要困难,即大数据挖掘时可能会导致用户的隐私泄漏,如何在大数据挖掘下进行用户的隐私保护是当前急需解决的课题。
发明内容
本发明要解决的技术问题在于针对现有技术中缺少大数据挖掘下的用户隐私保护方法的缺陷,提供一种可有效保护用户隐私的方法。
本发明解决其技术问题所采用的技术方案是:
提供一种大数据挖掘下的用户隐私保护方法,包括以下步骤:
S1、获取用户对上传数据的隐私敏感度的设定值;
S2、对用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若所述敏感度分析值大于所述设定值,则生成预警信息,以提示用户是否修改上传数据的隐私敏感度的设定值;
S3、根据所述敏感度分析值设定数据挖掘算法的访问权限度;
S4、在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据。
本发明所述的方法中,步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括:
选取一个随机数,将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。
本发明所述的方法中,步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括:
将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割,对于每个分割后的数据,均选取一个随机数作为分割后数据的标识。
本发明所述的方法中,步骤S2中对用户进行分类的分类依据包括:性别、年龄和职业。
本发明所述的方法中,所述数据挖掘算法根据功能分类进行设定,包括:计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法;
所述数据挖掘算法根据用户进行设定,包括:供服务方使用的算法,供客户端使用的算法和供第三方使用的算法。
本发明解决其技术问题所采用的另一技术方案是:
提供一种大数据挖掘下的用户隐私保护***,包括:
用户设定模块,用于获取用户对上传数据的隐私敏感度的设定值;
分类预警模块,用于对用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若所述敏感度分析值大于所述设定值,则生成预警信息,以提示用户是否修改上传数据的隐私敏感度的设定值;
权限度设定模块,用于根据所述敏感度分析值设定数据挖掘算法的访问权限度;
隐私保护模块,用于在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据。
本发明所述的***中,所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时,具体用于:选取一个随机数,将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。
本发明所述的***中,所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时,具体用于:将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割,对于每个分割后的数据,均选取一个随机数作为分割后数据的标识。
本发明所述的***中,所述分类预警模块对用户进行分类的分类依据包括:性别、年龄和职业。
本发明所述的***中,所述数据挖掘算法根据功能分类进行设定,包括:计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法;
所述数据挖掘算法根据用户进行设定,包括:供服务方使用的算法,供客户端使用的算法和供第三方使用的算法。
本发明产生的有益效果是:本发明基于对隐私敏感度的度量和对挖掘行为的隐私破坏程度或数据挖掘数据访问权限度的度量,能够判定数据挖掘行为及其算法是否会破坏潜在的用户隐私,在可能破坏的情况下,阻止其访问。
进一步地,本发明给出了数据匿名化混淆处理方法和数据碎片化混淆处理方法,其简单易行,容易实现,耗电量低,操作快,成本低。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例大数据挖掘下的用户隐私保护方法的流程图;
图2是本发明实施例大数据挖掘下的用户隐私保护***结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明大数据挖掘下的用户隐私保护方法,该方法由下文实施例的大数据挖掘下的用户隐私保护***执行,包括以下步骤:
S1、获取用户对上传数据的隐私敏感度的设定值;
S2、对用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若敏感度分析值大于设定值,则生成预警信息,以提示用户是否修改上传数据的隐私敏感度的设定值;
S3、根据敏感度分析值设定数据挖掘算法的访问权限度;
S4、在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据。
在本发明的一个实施例中,当***获取用户的个人数据时,需要询问用户该数据的隐私敏感度,敏感度越高的数据,是用户越在意的隐私数据,用户可以选择不询问模式,则此模式下的个人数据均视为隐私敏感度较低的数据,例如用户注册服务时,填写个人信息中的年龄,婚否,职业,收入,email地址,手机号码,QQ号码等信息时,可以分别对这些信息设定隐私敏感度,不妨设为7个分值,一般通过文字描述,让用户选择,如7高度机密,6较机密,5机密,4尽量不公开,3可视情况公开,2无所谓,1可公开。
本发明的一个实施例中,***对用户进行分类的分类依据包括:性别、年龄和职业。分析同类用户中对相同上传数据的隐私敏感度的设定值,根据多数原则,确定对上传数据的敏感度值,称其为敏感度分析值,例如对于女性30岁群体,对于“婚否”的隐私敏感度分析值为5机密,对于男性大学生群体,对于“婚否”的隐私敏感度分析值为1完全可公开。对于隐私敏感度分析值大于用户设定值的情况,作为一个预警提示,例如,多数女性30岁群体设定“婚否”为5机密,但是属于该类群体的用户却设定为1完全可公开,则在该用户登录***后,提示该用户是否需要修改对“婚否”这一数据的隐私敏感度。
本发明的一个具体实施例中,步骤S4中可通过数据匿名化混淆方法阻止该数据挖掘算法访问该用户的上传数据,具体包括:
选取一个随机数,如0001,将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。如“姓名”、“用户名”等输入的标识信息改为该随机数;该方法使得用户数据无法与用户关联。
本发明的另一具体实施例中,步骤S4中可通过数据碎片化混淆方法阻止该数据挖掘算法访问该用户的上传数据,具体包括:
将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割,对于每个分割后的数据,均选取一个随机数作为分割后数据的标识。该方法使得用户的数据与数据之间无法关联。
本发明实施例中,数据挖掘算法根据功能分类进行设定,包括:计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法;
数据挖掘算法根据用户进行设定,包括:供服务方使用的算法,供客户端使用的算法和供第三方使用的算法。
该步骤S3中,可设定某个数据挖掘算法的访问权限度,级别和隐私敏感度级别保持一致。计数统计算法,不妨设为7,表示完全可访问权限;数据分类算法,不妨设为6,表示弱完全可访问权限;数据聚类算法,不妨设为5,表示部分可访问权限;个性推荐算法,不妨设为4,表示弱部分可访问权限;数据检索算法,不妨设为3,表示少量可访问权限;访问个别数据的数据检索算法,不妨设为2,表示个别可访问权限;要公开数据的数据检索算法,不妨设为1,表示最小访问权限。
步骤S4中,数据挖掘算法操作过程中会访问一些上传数据,若被访问的数据的隐私敏感度的设定值大于或等于数据挖掘算法的访问权限度,例如,算法访问权限为4,数据隐私敏感度的设定值为5,则该算法将会破坏用户的隐私;否则,判定该数据挖掘算法不会破坏隐私。当出现算法破坏隐私的情况,可以采取算法回避数据的方法,也可以采取上文实施例中的数据碎片化混淆方法和数据匿名化混淆方法。
如图2所示,本发明实施例大数据挖掘下的用户隐私保护***,用于实现上述实施例的方法,该***包括:
用户设定模块10,用于获取用户对上传数据的隐私敏感度的设定值;
分类预警模块20,用于对用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若敏感度分析值大于设定值,则生成预警信息,以提示用户是否修改上传数据的隐私敏感度的设定值;
权限度设定模块30,用于根据敏感度分析值设定数据挖掘算法的访问权限度;
隐私保护模块40,用于在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据。
本发明的实施例中,隐私保护模块40在阻止该数据挖掘算法访问该用户的上传数据时,具体用于:选取一个随机数,将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。
本发明的实施例中,隐私保护模块40在阻止该数据挖掘算法访问该用户的上传数据时,具体用于:将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割,对于每个分割后的数据,均选取一个随机数作为分割后数据的标识。
本发明实施例中,分类预警模块20对用户进行分类的分类依据包括:性别、年龄和职业。
本发明实施例中,数据挖掘算法根据功能分类进行设定,包括:计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法;
数据挖掘算法根据用户进行设定,包括:供服务方使用的算法,供客户端使用的算法和供第三方使用的算法。
本发明通过给出隐私的度量方法和对数据挖掘算法的权限度量方法,能较为清晰地判定大数据挖掘时是否会导致隐私泄漏,并给出了数据匿名化混淆和碎片化混淆方法,可以解决大数据挖掘下的隐私保护这一当前急需解决的难题。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种大数据挖掘下的用户隐私保护方法,其特征在于,包括以下步骤:
S1、获取用户对上传数据的隐私敏感度的设定值;
S2、对上传数据的用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若所述敏感度分析值大于所述设定值,则生成预警信息,以提示用户是否修改上传数据的隐私敏感度的设定值;
S3、根据所述敏感度分析值设定数据挖掘算法的访问权限度;
S4、在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据。
2.根据权利要求1所述的方法,其特征在于,步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括:
选取一个随机数,将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。
3.根据权利要求1所述的方法,其特征在于,步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括:
将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割,对于每个分割后的数据,均选取一个随机数作为分割后数据的标识。
4.根据权利要求1所述的方法,其特征在于,步骤S2中对用户进行分类的分类依据包括:性别、年龄和职业。
5.根据权利要求1所述的方法,其特征在于,所述数据挖掘算法根据功能分类进行设定,包括:计数统计算法、求和统计算法、数据分类算法、数据聚类算法和个性推荐算法;
所述数据挖掘算法根据用户进行设定,包括:供服务方使用的算法,供客户端使用的算法和供第三方使用的算法。
6.一种大数据挖掘下的用户隐私保护***,其特征在于,包括:
用户设定模块,用于获取用户对上传数据的隐私敏感度的设定值;
分类预警模块,用于对上传数据的用户进行分类,根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值,若所述敏感度分析值大于所述设定值,则生成预警信息,以提示用户是否修改上传数据的隐私敏感度的设定值;
权限度设定模块,用于根据所述敏感度分析值设定数据挖掘算法的访问权限度;
隐私保护模块,用于在数据挖掘算法访问用户的上传数据时,若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度,则阻止该数据挖掘算法访问该用户的上传数据。
7.根据权利要求6所述的***,其特征在于,所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时,具体用于:选取一个随机数,将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。
8.根据权利要求6所述的***,其特征在于,所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时,具体用于:将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割,对于每个分割后的数据,均选取一个随机数作为分割后数据的标识。
9.根据权利要求6所述的***,其特征在于,所述分类预警模块对用户进行分类的分类依据包括:性别、年龄和职业。
10.根据权利要求6所述的***,其特征在于,所述数据挖掘算法根据功能分类进行设定,包括:计数统计算法、求和统计算法、数据分类算法、数据聚类算法和个性推荐算法;
所述数据挖掘算法根据用户进行设定,包括:供服务方使用的算法,供客户端使用的算法和供第三方使用的算法。
CN201310171066.2A 2013-05-10 2013-05-10 大数据挖掘下的用户隐私保护方法及*** Expired - Fee Related CN103294967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310171066.2A CN103294967B (zh) 2013-05-10 2013-05-10 大数据挖掘下的用户隐私保护方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310171066.2A CN103294967B (zh) 2013-05-10 2013-05-10 大数据挖掘下的用户隐私保护方法及***

Publications (2)

Publication Number Publication Date
CN103294967A CN103294967A (zh) 2013-09-11
CN103294967B true CN103294967B (zh) 2016-06-29

Family

ID=49095807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310171066.2A Expired - Fee Related CN103294967B (zh) 2013-05-10 2013-05-10 大数据挖掘下的用户隐私保护方法及***

Country Status (1)

Country Link
CN (1) CN103294967B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379275A1 (en) * 2013-02-08 2015-12-31 Thomson Licensing Privacy against inference attacks for large data
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN104123465B (zh) * 2014-07-24 2017-04-19 中国软件与技术服务股份有限公司 一种基于聚类的大数据交叉分析预警方法及***
CN105488059A (zh) * 2014-09-18 2016-04-13 江苏威盾网络科技有限公司 一种基于数据挖掘技术的服务个性化提供方法
US11520930B2 (en) 2014-09-26 2022-12-06 Alcatel Lucent Privacy protection for third party data sharing
CN104392167B (zh) * 2014-10-27 2018-04-10 东莞宇龙通信科技有限公司 一种隐私信息检测预警的方法、装置及终端
CN105824821B (zh) * 2015-01-05 2019-06-21 华为技术有限公司 数据处理方法和大数据平台
CN107480550B (zh) * 2017-07-04 2020-05-26 东华大学 一种基于角度划分和位置语义的轨迹隐私保护算法
CN107886009B (zh) * 2017-11-20 2020-09-08 北京大学 防隐私泄露的大数据生成方法和***
CN107886010A (zh) * 2017-12-21 2018-04-06 中国电力科学研究院有限公司 大数据环境下保护用户隐私的数据管理方法
CN108171076B (zh) * 2017-12-22 2021-04-02 湖北工业大学 保护电子交易中消费者隐私的大数据相关性分析方法及***
CN110197078B (zh) * 2018-04-28 2023-01-24 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN110096896B (zh) * 2019-04-09 2021-06-11 中国航天***科学与工程研究院 适于大数据融合与共享结果数据集敏感性评估方法及***
CN111556339B (zh) * 2020-04-15 2022-04-08 长沙学院 一种基于敏感信息度量的视频信息隐私保护***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845032A (zh) * 2005-04-06 2006-10-11 杭州波导软件有限公司 一种移动终端用户使用权限分级管理实现方法
CN101917513A (zh) * 2010-08-02 2010-12-15 中兴通讯股份有限公司 一种实现隐私信息分级显示的方法及装置
CN201859444U (zh) * 2010-04-07 2011-06-08 苏州市职业大学 一种用于隐私保护的数据挖掘装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271374A1 (en) * 2008-04-29 2009-10-29 Microsoft Corporation Social network powered query refinement and recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845032A (zh) * 2005-04-06 2006-10-11 杭州波导软件有限公司 一种移动终端用户使用权限分级管理实现方法
CN201859444U (zh) * 2010-04-07 2011-06-08 苏州市职业大学 一种用于隐私保护的数据挖掘装置
CN101917513A (zh) * 2010-08-02 2010-12-15 中兴通讯股份有限公司 一种实现隐私信息分级显示的方法及装置

Also Published As

Publication number Publication date
CN103294967A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103294967B (zh) 大数据挖掘下的用户隐私保护方法及***
US11030311B1 (en) Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise
Gupta et al. Towards detecting fake user accounts in facebook
Tariq et al. A review of deep learning security and privacy defensive techniques
US9652597B2 (en) Systems and methods for detecting information leakage by an organizational insider
US20120330959A1 (en) Method and Apparatus for Assessing a Person's Security Risk
Drakonakis et al. Please forget where I was last summer: The privacy risks of public location (meta) data
US11036800B1 (en) Systems and methods for clustering data to improve data analytics
US11983297B2 (en) Efficient statistical techniques for detecting sensitive data
Wang et al. Mlifdect: android malware detection based on parallel machine learning and information fusion
Wang et al. Identity theft detection in mobile social networks using behavioral semantics
Löbner et al. Comparison of de-identification techniques for privacy preserving data analysis in vehicular data sharing
US9160757B1 (en) Systems and methods for detecting suspicious attempts to access data based on organizational relationships
Kulkarni et al. Personally identifiable information (pii) detection in the unstructured large text corpus using natural language processing and unsupervised learning technique
US9332031B1 (en) Categorizing accounts based on associated images
CN104426836A (zh) 一种入侵检测方法及装置
Wang et al. Application research of file fingerprint identification detection based on a network security protection system
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
Gore et al. Assessing cyber-incidents using machine learning
US20210397638A1 (en) System and method for cyberbullying detection
Rahman et al. Everything about you: A multimodal approach towards friendship inference in online social networks
Liu et al. [Retracted] Local Privacy Protection for Sensitive Areas in Multiface Images
US9253214B1 (en) Systems and methods for optimizing data loss prevention systems
Arora et al. Comparative analysis of anonymization techniques
Panda et al. Securing database integrity in intelligent government systems that employ fog computing technology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Jiao Ke

Inventor before: Ren Wei

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20170705

Address after: Room B-413-19, incubator of innovation and entrepreneurship Park, 1 Kaiyuan Road, Huoerguosi Economic Development Zone, the Xinjiang Uygur Autonomous Region, Yili

Patentee after: Huoerguosi Chi Chi future Mdt InfoTech Ltd

Address before: 430074 Wuhan Road, Hongshan, Shandong Province, Lu Lu Road, No. 388, No.

Patentee before: China University of Geosciences (Wuhan)

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160629

Termination date: 20210510

CF01 Termination of patent right due to non-payment of annual fee