CN103294967B

CN103294967B - 大数据挖掘下的用户隐私保护方法及***

Info

Publication number: CN103294967B
Application number: CN201310171066.2A
Authority: CN
Inventors: 任伟
Original assignee: China University of Geosciences
Current assignee: Huoerguosi Chi Chi Future Mdt Infotech Ltd
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2016-06-29
Anticipated expiration: 2033-05-10
Also published as: CN103294967A

Abstract

本发明公开了一种大数据挖掘下的用户隐私保护方法及***，包括以下步骤：获取用户对上传数据的隐私敏感度的设定值；对用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若敏感度分析值大于设定值，则生成预警信息，以提示用户是否需要修改上传数据的隐私敏感度的设定值；根据敏感度分析值设定数据挖掘算法的访问权限度；在数据挖掘算法访问用户的上传数据时，若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度，则阻止该数据挖掘算法访问该用户的上传数据,或对数据进行相应处理，包括数据匿名化混淆处理方法和数据碎片化混淆处理。本发明可较为清晰地判定大数据挖掘时是否会导致隐私泄漏，可有效保护用户的隐私。

Description

大数据挖掘下的用户隐私保护方法及***

技术领域

本发明涉及大数据安全领域，尤其涉及一种大数据挖掘下的用户隐私保护方法及***。

背景技术

大数据是一种战略资源，大数据的挖掘可以为企业等带来巨大的经济效益。云计算为大数据提供了技术支撑。当前，大数据挖掘面临一个重要困难，即大数据挖掘时可能会导致用户的隐私泄漏，如何在大数据挖掘下进行用户的隐私保护是当前急需解决的课题。

发明内容

本发明要解决的技术问题在于针对现有技术中缺少大数据挖掘下的用户隐私保护方法的缺陷，提供一种可有效保护用户隐私的方法。

本发明解决其技术问题所采用的技术方案是：

提供一种大数据挖掘下的用户隐私保护方法，包括以下步骤：

S1、获取用户对上传数据的隐私敏感度的设定值；

S2、对用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若所述敏感度分析值大于所述设定值，则生成预警信息，以提示用户是否修改上传数据的隐私敏感度的设定值；

S3、根据所述敏感度分析值设定数据挖掘算法的访问权限度；

S4、在数据挖掘算法访问用户的上传数据时，若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度，则阻止该数据挖掘算法访问该用户的上传数据。

本发明所述的方法中，步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括：

选取一个随机数，将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。

将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割，对于每个分割后的数据，均选取一个随机数作为分割后数据的标识。

本发明所述的方法中，步骤S2中对用户进行分类的分类依据包括：性别、年龄和职业。

本发明所述的方法中，所述数据挖掘算法根据功能分类进行设定，包括：计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法；

所述数据挖掘算法根据用户进行设定，包括：供服务方使用的算法，供客户端使用的算法和供第三方使用的算法。

本发明解决其技术问题所采用的另一技术方案是：

提供一种大数据挖掘下的用户隐私保护***，包括：

用户设定模块，用于获取用户对上传数据的隐私敏感度的设定值；

分类预警模块，用于对用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若所述敏感度分析值大于所述设定值，则生成预警信息，以提示用户是否修改上传数据的隐私敏感度的设定值；

权限度设定模块，用于根据所述敏感度分析值设定数据挖掘算法的访问权限度；

隐私保护模块，用于在数据挖掘算法访问用户的上传数据时，若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度，则阻止该数据挖掘算法访问该用户的上传数据。

本发明所述的***中，所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时，具体用于：选取一个随机数，将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。

本发明所述的***中，所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时，具体用于：将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割，对于每个分割后的数据，均选取一个随机数作为分割后数据的标识。

本发明所述的***中，所述分类预警模块对用户进行分类的分类依据包括：性别、年龄和职业。

本发明所述的***中，所述数据挖掘算法根据功能分类进行设定，包括：计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法；

本发明产生的有益效果是：本发明基于对隐私敏感度的度量和对挖掘行为的隐私破坏程度或数据挖掘数据访问权限度的度量，能够判定数据挖掘行为及其算法是否会破坏潜在的用户隐私，在可能破坏的情况下，阻止其访问。

进一步地，本发明给出了数据匿名化混淆处理方法和数据碎片化混淆处理方法，其简单易行，容易实现，耗电量低，操作快，成本低。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例大数据挖掘下的用户隐私保护方法的流程图；

图2是本发明实施例大数据挖掘下的用户隐私保护***结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明大数据挖掘下的用户隐私保护方法，该方法由下文实施例的大数据挖掘下的用户隐私保护***执行，包括以下步骤：

S1、获取用户对上传数据的隐私敏感度的设定值；

S2、对用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若敏感度分析值大于设定值，则生成预警信息，以提示用户是否修改上传数据的隐私敏感度的设定值；

S3、根据敏感度分析值设定数据挖掘算法的访问权限度；

在本发明的一个实施例中，当***获取用户的个人数据时，需要询问用户该数据的隐私敏感度，敏感度越高的数据，是用户越在意的隐私数据，用户可以选择不询问模式，则此模式下的个人数据均视为隐私敏感度较低的数据，例如用户注册服务时，填写个人信息中的年龄，婚否，职业，收入，email地址，手机号码，QQ号码等信息时，可以分别对这些信息设定隐私敏感度，不妨设为7个分值，一般通过文字描述，让用户选择，如7高度机密，6较机密，5机密，4尽量不公开，3可视情况公开，2无所谓，1可公开。

本发明的一个实施例中，***对用户进行分类的分类依据包括：性别、年龄和职业。分析同类用户中对相同上传数据的隐私敏感度的设定值，根据多数原则，确定对上传数据的敏感度值，称其为敏感度分析值，例如对于女性30岁群体，对于“婚否”的隐私敏感度分析值为5机密，对于男性大学生群体，对于“婚否”的隐私敏感度分析值为1完全可公开。对于隐私敏感度分析值大于用户设定值的情况，作为一个预警提示，例如，多数女性30岁群体设定“婚否”为5机密，但是属于该类群体的用户却设定为1完全可公开，则在该用户登录***后，提示该用户是否需要修改对“婚否”这一数据的隐私敏感度。

本发明的一个具体实施例中，步骤S4中可通过数据匿名化混淆方法阻止该数据挖掘算法访问该用户的上传数据，具体包括：

选取一个随机数，如0001，将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。如“姓名”、“用户名”等输入的标识信息改为该随机数；该方法使得用户数据无法与用户关联。

本发明的另一具体实施例中，步骤S4中可通过数据碎片化混淆方法阻止该数据挖掘算法访问该用户的上传数据，具体包括：

将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割，对于每个分割后的数据，均选取一个随机数作为分割后数据的标识。该方法使得用户的数据与数据之间无法关联。

本发明实施例中，数据挖掘算法根据功能分类进行设定，包括：计数统计算法、求和统计算法、数据分类算法、数据聚类算法、个性推荐算法和数据检索算法；

数据挖掘算法根据用户进行设定，包括：供服务方使用的算法，供客户端使用的算法和供第三方使用的算法。

该步骤S3中，可设定某个数据挖掘算法的访问权限度，级别和隐私敏感度级别保持一致。计数统计算法，不妨设为7，表示完全可访问权限；数据分类算法，不妨设为6，表示弱完全可访问权限；数据聚类算法，不妨设为5，表示部分可访问权限；个性推荐算法，不妨设为4，表示弱部分可访问权限；数据检索算法，不妨设为3，表示少量可访问权限；访问个别数据的数据检索算法，不妨设为2，表示个别可访问权限；要公开数据的数据检索算法，不妨设为1，表示最小访问权限。

步骤S4中，数据挖掘算法操作过程中会访问一些上传数据，若被访问的数据的隐私敏感度的设定值大于或等于数据挖掘算法的访问权限度，例如，算法访问权限为4，数据隐私敏感度的设定值为5，则该算法将会破坏用户的隐私；否则，判定该数据挖掘算法不会破坏隐私。当出现算法破坏隐私的情况，可以采取算法回避数据的方法，也可以采取上文实施例中的数据碎片化混淆方法和数据匿名化混淆方法。

如图2所示，本发明实施例大数据挖掘下的用户隐私保护***，用于实现上述实施例的方法，该***包括：

用户设定模块10，用于获取用户对上传数据的隐私敏感度的设定值；

分类预警模块20，用于对用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若敏感度分析值大于设定值，则生成预警信息，以提示用户是否修改上传数据的隐私敏感度的设定值；

权限度设定模块30，用于根据敏感度分析值设定数据挖掘算法的访问权限度；

隐私保护模块40，用于在数据挖掘算法访问用户的上传数据时，若其隐私敏感度的设定值大于该数据挖掘算法的访问权限度，则阻止该数据挖掘算法访问该用户的上传数据。

本发明的实施例中，隐私保护模块40在阻止该数据挖掘算法访问该用户的上传数据时，具体用于:选取一个随机数，将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。

本发明的实施例中，隐私保护模块40在阻止该数据挖掘算法访问该用户的上传数据时，具体用于：将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割，对于每个分割后的数据，均选取一个随机数作为分割后数据的标识。

本发明实施例中，分类预警模块20对用户进行分类的分类依据包括：性别、年龄和职业。

本发明通过给出隐私的度量方法和对数据挖掘算法的权限度量方法，能较为清晰地判定大数据挖掘时是否会导致隐私泄漏，并给出了数据匿名化混淆和碎片化混淆方法，可以解决大数据挖掘下的隐私保护这一当前急需解决的难题。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种大数据挖掘下的用户隐私保护方法，其特征在于，包括以下步骤：

S1、获取用户对上传数据的隐私敏感度的设定值；

S2、对上传数据的用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若所述敏感度分析值大于所述设定值，则生成预警信息，以提示用户是否修改上传数据的隐私敏感度的设定值；

2.根据权利要求1所述的方法，其特征在于，步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括：

3.根据权利要求1所述的方法，其特征在于，步骤S4中阻止该数据挖掘算法访问该用户的上传数据具体包括：

4.根据权利要求1所述的方法，其特征在于，步骤S2中对用户进行分类的分类依据包括：性别、年龄和职业。

5.根据权利要求1所述的方法，其特征在于，所述数据挖掘算法根据功能分类进行设定，包括：计数统计算法、求和统计算法、数据分类算法、数据聚类算法和个性推荐算法；

6.一种大数据挖掘下的用户隐私保护***，其特征在于，包括：

分类预警模块，用于对上传数据的用户进行分类，根据同类用户对相同上传数据的隐私敏感度的设定值确定敏感度分析值，若所述敏感度分析值大于所述设定值，则生成预警信息，以提示用户是否修改上传数据的隐私敏感度的设定值；

7.根据权利要求6所述的***，其特征在于，所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时，具体用于：选取一个随机数，将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据的标识改为该随机数。

8.根据权利要求6所述的***，其特征在于，所述隐私保护模块在阻止该数据挖掘算法访问该用户的上传数据时，具体用于：将待访问的隐私敏感度大于该数据挖掘算法的访问权限度的上传数据进行分割，对于每个分割后的数据，均选取一个随机数作为分割后数据的标识。

9.根据权利要求6所述的***，其特征在于，所述分类预警模块对用户进行分类的分类依据包括：性别、年龄和职业。

10.根据权利要求6所述的***，其特征在于，所述数据挖掘算法根据功能分类进行设定，包括：计数统计算法、求和统计算法、数据分类算法、数据聚类算法和个性推荐算法；