CN112100670A

CN112100670A - 一种基于大数据的隐私数据分级保护方法

Info

Publication number: CN112100670A
Application number: CN202011018209.2A
Authority: CN
Inventors: 周丽君
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-18

Abstract

本发明公开了一种基于大数据的隐私数据分级保护方法，包括以下步骤：1）获取关键词，设定隐私程度等级；将获取的关键词按照隐私程度分为不同的等级，每个隐私程度等级下有若干个关键词，为每一个关键词建立一个存储目录；2）选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索，将使用此关键词搜索到的数据归类到此关键词的存储目录下；3）重复步骤2）的操作，直至遍历步骤2）选取隐私程度等级内的全部关键词。本申请的技术方案以隐私数据中的高频词作为关键词并计算关键词的敏感度值，以敏感度值作为隐私数据的分级标准，使得隐私数据的分级有一个定量的标准，使得隐私数据的分级准确，方便对隐私数据进行保护。

Description

一种基于大数据的隐私数据分级保护方法

技术领域

本发明涉及一种基于大数据的隐私数据分级保护方法，属于数据库领域。

背景技术

互联网、云计算、大数据等信息技术的蓬勃发展，催生了许多开放互联的信息网络(Information Network)。在这些信息网络中，用户数据往往分散存储在网络中多个服务提供者(Service Provider，简称：SP)中，如在医疗信息网络中，患者的病历信息往往存储在多家医院。通过分布式查询处理，对分散在各个SP的数据进行汇聚、关联与分析，不仅是用户自身的直接需求，更是挖掘数据价值、便捷公共管理、推动社会发展的必然需求。但是，这些数据往往包含大量隐私信息(private information)，简单地将这些数据汇聚、关联、分析并进行公开，会导致隐私泄露，引发严重的社会问题与安全问题。因此，隐私数据的保护越来越受到人们重视，而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。

大数据具有海量的数据规模、多样的数据类型和价值密度低的特点，所以对于大数据中的隐私数据，难以用人工分级、人工复核的方式进行，并且用户对于隐私数据的兴趣敏感度也难以通过人工方式进行查询统计，造成了大数据中的隐私数据的分级调整困难。

发明内容

针对现有技术存在的不足，本发明提供一种基于大数据的隐私数据分级保护方法，以隐私数据中的高频词作为关键词并计算关键词的敏感度值，以敏感度值作为隐私数据的分级标准，使得隐私数据的分级有一个定量的标准，使得隐私数据的分级准确，方便对隐私数据进行保护。

为解决上述技术问题，本发明采取的技术方案是，一种基于大数据的隐私数据分级保护方法，包括以下步骤：

1)获取关键词，设定隐私程度等级；将获取的关键词按照隐私程度分为不同的等级，每个隐私程度等级下有若干个关键词，为每一个关键词建立一个存储目录；

2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索，将使用此关键词搜索到的数据归类到此关键词的存储目录下；

3)重复步骤2)的操作，直至遍历步骤2)选取隐私程度等级内的全部关键词；

4)重复步骤2)至步骤3)的操作，直至遍历全部隐私程度等级；

5)对隐私程度等级高的关键词的存储目录内存储的数据进行加密。

优化的，上述基于大数据的隐私数据分级保护方法，在步骤1)中，获取关键词的方法为：搜索数据库内待处理的隐私数据，提取数据库内待处理的隐私数据中的高频词，将提取的高频词作为高频词集合。

优化的，上述基于大数据的隐私数据分级保护方法，在步骤1)中，将获取的关键词按照隐私程度分为不同的等级的步骤包括：

1-1)遍历高频词集合中的全部高频词，计算高频词集合中任意两个高频词之间的相似度；

1-2)设置相似度阈值，将相似度处于相似度阈值内的两个高频词归于同一个关键词内，以此获得全部关键词；

1-3)通过数据库服务器获取外部服务器访问每个关键词的访问频次；

1-4)依据关键词的访问频次，计算包含此关键词的数据的访问信任度；

1-5)计算步骤1-2)获得的全部关键词中任意两个关键词之间的相似度，建立邻近关系矩阵；

1-6)通过关键词邻近关系矩阵，得到关键词在邻近关系矩阵内受到相邻关键词的影响关系，获得关键词在邻近关系矩阵内的特征向量；

1-7)建立关键词的敏感度查询函数，计算关键词的敏感度值；

1-8)以关键词的敏感度值为标准，判断关键词的隐私度，并将全部关键词分为不同的隐私等级。

优化的，上述基于大数据的隐私数据分级保护方法，在步骤1-1)中，计算高频词集合中任意两个高频词之间的相似度时，包括以下步骤：

1-1-1)分别找出两个高频词所在的数据；

1-1-2)计算两个高频词在其所在数据中的词频，分别生成两个高频词所在的数据的词频向量；

1-1-3)计算两个高频词的词频向量的余弦相似度；

在步骤1-2)中，将步骤1-1-3)中计算的高频词的词频向量的余弦相似度数值作为两个高频词的相似度。

优化的，上述基于大数据的隐私数据分级保护方法，步骤1-4)中，依据关键词的访问频次，计算包含此关键词的数据的访问信任度；将访问信任度表示为：

αF_u,i+1＞0是一个关于F_u,i的单调递增函数，F_u,i为关键词i的被访问频次，W_u,i为关键词i 的访问信任度。

优化的，上述基于大数据的隐私数据分级保护方法，步骤1-5)中，步骤1-2)获得的全部关键词中任意两个关键词之间的相似度的过程包括：

找到包含这两个关键词的数据，计算这两个关键词在包含这两个关键词的数据中的词频，分别生成包含这两个关键词的数据的词频向量；

计算包含这两个关键词的数据的词频向量的余弦相似度，以包含这两个关键词的数据的词频向量的余弦相似度作为这两个关键词的相似度；

以上述步骤计算出的关键词的相似度为基础，以相似度高的两个关键词为两个相邻元，建立邻近关系矩阵。

优化的，上述基于大数据的隐私数据分级保护方法，在步骤1-6)中，关键词在邻近关系矩阵内的特征向量表示为：

其中，

是邻近关系矩阵内所有关键词的相似度的归一化值，L(i)表示关系矩阵内关键词i相邻的关键词的集合，sim(i,j)表示关键词i和关键词j的相似度，

表示关键词i的特征向量。

优化的，上述基于大数据的隐私数据分级保护方法，步骤1-7)中，敏感度查询函数表示为：

其中，

为关键词i的第n个高频词的敏感度函数，关键词i为包括n个高频词的数集，n和n-1为关键词i中的两个高频词，f(n)为高频词n想关于关键词i的一个单调递增函数。

本发明的优点在于：

本申请的技术方案中，以隐私数据中的高频词作为关键词并计算关键词的敏感度值，以敏感度值作为隐私数据的分级标准，使得隐私数据的分级有一个定量的标准，使得隐私数据的分级准确，方便对隐私数据进行保护。

由于相似度高的高频词对应的一般为相同类型的隐私数据，本申请中通过计算高频词的词频向量的余弦相似度判定高频词之间的相似度，将相似度高的高频词作为一个集合归于同一个关键词之下，通过关键词对隐私数据分级时，可以使得隐私数据的分级更加精确，并且能够降低使用关键词进行隐私数据分级时的计算量。

访问信任度反映了与关键词对应的隐私数据的兴趣敏感度，方便对关键词产生的兴趣敏感度进行测量。

通过建立关键词的邻近关系矩阵获得关键词的特征向量，进而通过关键词的敏感度查询函数计算出关键词的敏感度，通过关键词的敏感度作为包含关键词的数据的隐私度等级的特征值，使得包含关键词的数据的隐私程度和隐私等级有一个数值标准。

本申请通过关键词作为隐私数据隐私等级的评定标志，与直接对隐私数据进行分级相比，通过关键词作为隐私数据隐私等级的评定标志，可以降低计算量，并且能够达到较好的分级精度。

附图说明

图1是本发明的基于大数据的隐私数据分级保护方法的流程框图。

具体实施方式

下面结合附图与具体实施例进一步阐述本发明的技术特点。

本发明为一种基于大数据的隐私数据分级保护方法，包括以下步骤：

4)重复步骤2)至步骤3)的操作，直至遍历全部隐私程度等级；

在步骤1)中，获取关键词的方法为：搜索数据库内待处理的隐私数据，提取数据库内待处理的隐私数据中的高频词，将提取的高频词作为高频词集合。

在步骤1)中，将获取的关键词按照隐私程度分为不同的等级的步骤包括：

1-7)建立关键词的敏感度查询函数，计算关键词的敏感度值；

在步骤1-1)中，计算高频词集合中任意两个高频词之间的相似度时，包括以下步骤：

1-1-1)分别找出两个高频词所在的数据；

1-1-3)计算两个高频词的词频向量的余弦相似度；

步骤1-4)中，依据关键词的访问频次，计算包含此关键词的数据的访问信任度；将访问信任度表示为：

αF_u,i+1＞0是一个关于F_u,i的单调递增函数，F_u,i为关键词i的被访问频次，W_u,i为关键词i的访问信任度。

步骤1-5)中，步骤1-2)获得的全部关键词中任意两个关键词之间的相似度的过程包括：

在步骤1-6)中，关键词在邻近关系矩阵内的特征向量表示为：

其中，

表示关键词i的特征向量。

步骤1-7)中，敏感度查询函数表示为：

其中，

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，作出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种基于大数据的隐私数据分级保护方法，其特征在于：包括以下步骤：

4)重复步骤2)至步骤3)的操作，直至遍历全部隐私程度等级；

2.根据权利要求1所述的基于大数据的隐私数据分级保护方法，其特征在于：在步骤1)中，获取关键词的方法为：搜索数据库内待处理的隐私数据，提取数据库内待处理的隐私数据中的高频词，将提取的高频词作为高频词集合。

3.根据权利要求2所述的基于大数据的隐私数据分级保护方法，其特征在于：在步骤1)中，将获取的关键词按照隐私程度分为不同的等级的步骤包括：

1-7)建立关键词的敏感度查询函数，计算关键词的敏感度值；

4.根据权利要求3所述的基于大数据的隐私数据分级保护方法，其特征在于：在步骤1-1)中，计算高频词集合中任意两个高频词之间的相似度时，包括以下步骤：

1-1-1)分别找出两个高频词所在的数据；

1-1-3)计算两个高频词的词频向量的余弦相似度；

5.根据权利要求3所述的基于大数据的隐私数据分级保护方法，其特征在于：步骤1-4)中，依据关键词的访问频次，计算包含此关键词的数据的访问信任度；将访问信任度表示为：

6.根据权利要求3所述的基于大数据的隐私数据分级保护方法，其特征在于：步骤1-5)中，步骤1-2)获得的全部关键词中任意两个关键词之间的相似度的过程包括：

7.根据权利要求6所述的基于大数据的隐私数据分级保护方法，其特征在于：在步骤1-6)中，关键词在邻近关系矩阵内的特征向量表示为：

其中，

表示关键词i的特征向量。

8.根据权利要求6所述的基于大数据的隐私数据分级保护方法，其特征在于：步骤1-7)中，敏感度查询函数表示为：

其中，