CN111292008A

CN111292008A - 一种基于知识图谱的隐私保护数据发布风险评估方法

Info

Publication number: CN111292008A
Application number: CN202010139728.8A
Authority: CN
Inventors: 王瑞锦; 张凤荔; 何兴高; 张巍琦; 唐榆程; 郭鹏宇; 谭琪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-16

Abstract

本发明公开了一种基于知识图谱的隐私保护数据发布风险评估方法，方法包括以下步骤：获取数据申请者提交的信息，判断基本信息是否符合规范；将数据申请者的信息映射为RDF数据集，然后转化为知识图谱中的图数据；基于知识图谱利用相关算法完成对数据申请者的基本信息风险评估、身份异常风险评估、组团欺诈风险评估、个体信用风险评估；结合所有风险评估数据，构建风险模型，对数据申请者进行风险评分；对综合风险评估的得分进行标签化，得出风险评估结论以及具体的风险项评估结果。本方案能够自动抽取数据申请者的信息并分析风险，主动防护隐私保护数据发布的过程，大量减少了人工审核的工作量，更直观的描述了隐私保护数据发布的风险。

Description

一种基于知识图谱的隐私保护数据发布风险评估方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于知识图谱的隐私保护数据发布风险评估方法。

背景技术

随着大数据技术的广泛应用，数据已经成为许多公司的重要资产之一。目前的隐私保护数据发布***仅对脱敏后数据的隐私泄露风险进行评估，而忽略了主动对数据申请者进行风险评估，恶意攻击者虽然无法从技术方面窃取隐私数据，但是可以利用社会工程学进行数据欺诈窃取，例如通过用户仿冒、组团欺诈等手段获取不同的数据，然后再用数据分析手段解析得到隐私数据。知识图谱作为一种基于图结构的技术，可以快速分析出其中的节点之间的关系。所以，将数据申请者映射到知识图谱中，基于知识图谱分析它们的隐含关系，可以有效的防范利用社会工程学窃取隐私数据。

发明内容

本发明目的在于提供一种基于知识图谱的隐私保护数据发布风险评估方法，可以有效防范隐私数据被窃取欺诈。本发明的目的是通过以下技术方案来实现的：

一种基于知识图谱的隐私保护数据发布风险评估方法，包括以下步骤：

S1，获取数据申请者的信息并将获取的信息映射为RDF数据集，然后转化为知识图谱中的图数据，然后转化为知识图谱中的图数据；

S2，基于知识图谱对数据申请者的基本信息进行检测，完成基本信息风险评估；

S3，基于知识图谱利用异常检测算法对数据申请者进行身份异常检测，完成身份异常风险评估；

S4，基于知识图谱利用社区发现算法对数据申请者团体之间进行社团划分，计算组团欺诈风险，完成数据申请者组团欺诈风险评估；

S5，基于知识图谱利用改进的个性化PageRank算法对数据申请者进行个体信用计算分析，完成数据申请者个体信用风险评估；

S6，结合所有风险评估数据，构建风险模型，按照评估标准对数据申请者进行风险评分，完成数据申请者的综合风险评估；

S7，对综合风险评估的得分采取分层标签化的方法进行处理，汇总得出风险评估结论以及具体的风险项评估结果。

进一步的，所述步骤S1中包含以下子步骤：

S101，根据关系型数据库的逻辑表，生成映射文件；

S102，解析映射文件，获取其中包含的映射元素；

S103，分析映射元素，获取其中的子元素和逻辑表及其属性列的映射规则；

S104，从关系型数据库中获取逻辑表中的元组，按照映射规则将元组中对应属性列映射为RDF术语；

S105，将得到的RDF术语组合为RDF三元组，输出到RDF数据集。

进一步的，所述的步骤S3中的身份异常风险评估包含以下子步骤：

S301，给定一个检测的目标用户

其中

是该目标用户的第i个属性；

S302，给定一个正常用户集合U＝{u₁,u₂,...,u_m}，将每个正常用户的第k个属性提取出来得到属性集

其中

表示第j个用户的第k个属性；

S303，从每个正常用户中提取出l个属性，构成一个多用户多属性集Muti_UP＝{P₁,P₂,...,P_l}，然后从待检测目标用户中提取出对应的l个属性，构成一个待检测属性集P^Test＝{p₁,p₂,...,p_l}；

S304，将多用户多属性集Muti_UP映射到一个l维的聚类空间中，然后进行聚类操作，再将待检测属性集P^Test＝{p₁,p₂,...,p_l}映射到该聚类空间，使用异常检测算法，计算异常检测结果，完成身份异常风险评估。

进一步的，所述的步骤S4中的组团欺诈风险评估包含以下子步骤：

S401，给定欺诈用户的样本集

其中

是一个欺诈用户样本，该欺诈用户样本的属性为

其中

是该欺诈用户样本的第j个属性；

S402，初始化一个欺诈团体集并将其初始化为空，即

S403，选取欺诈用户m个属性中的l个属性，构成一个属性子集

S404，根据上面的l个属性使用社区发现算法对所有欺诈用户进行分类，将具有相似特征的欺诈用户分为一类，最终得到一个用户分类集U'＝{U₁,U₂,...,U_p}，该集合中的每个元素表示一类欺诈团体；将不同类型的欺诈团体作为一个元素加入欺诈团体集，得到欺诈团体集Group＝{U₁,U₂,...,U_p}，完成组团欺诈风险评估。

进一步的，所述的步骤S5中的个体信用风险评估包含以下子步骤：

S501，给定一个用户关系网络U＝＜G_U,V_U＞，其中G_U是关系网络中的用户节点集合，V_U是关系网络中的边集合；

S502，假设有一个风险权重为w的用户节点u，与用户节点u相连的n个用户节点为U＝{u₁,u₂,...,u_n}；

S503，假设用户节点u发生了某个不良信用事件，有一个时间相关函数δ(u,t)将节点u的风险权重传导给与u相连的节点；

S504，使用改进的个性化PageRank算法遍历所有节点同时完成不良信用事件风险权重传导计算，最后按照风险权重，对该用户关系网络中的所有用户进行排序，得到用户风险排序集合，完成个体信用风险评估。

进一步的，所述的步骤S6中的构建的风险模型为：

score(u)＝μ(B,F)

其中，μ是风险评分函数，B表示数据使用者的基本信息，F表示基于数据使用者的身份异常风险、组团欺诈风险、个体信用风险的评估结果。

本发明的有益效果：

(1)大量减少人工审核数据申请者信息的工作，对隐私保护数据发布的过程提供主动防护；

(2)自动的抽取数据申请者的背景信息、关联关系分析等信息，分析其风险；

(3)给出了风险评估定量和定性方案，更直观的描述隐私保护数据发布的风险；

(4)可以减少复杂关系网络中，对数据申请者身份验证的复杂度，最终通过标签化得到风险评估结果进行语义化表达，直观易懂。

附图说明

图1是本发明的方法步骤图。

图2是本发明的分层标签化方法图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

在本发明的实施例中，如图1所示，一种基于知识图谱的隐私保护数据发布风险评估方法，包括以下步骤：获取数据申请者的信息并将获取的信息映射为RDF数据集，然后转化为知识图谱中的图数据；基于知识图谱对数据申请者的基本信息进行检测，完成基本信息风险评估；基于知识图谱利用异常检测算法对数据申请者进行身份异常检测，完成身份异常风险评估；基于知识图谱利用社区发现算法对数据申请者团体之间进行社团划分，计算组团欺诈风险，完成数据申请者组团欺诈风险评估；基于知识图谱利用改进的个性化PageRank算法对数据申请者进行个体信用计算分析，完成数据申请者个体信用风险评估；结合所有风险评估数据，构建风险模型，按照评估标准对数据申请者进行风险评分，完成数据申请者的综合风险评估；对综合风险评估的得分采取分层标签化的方法进行处理，汇总得出风险评估结论以及具体的风险项评估结果。

进一步的，在获取数据申请者的信息转化为知识图谱的步骤中还包括判断数据申请者提交的信息基本信息是否符合规范。

数据申请者信息的知识图谱映射具体过程如下：

在数据申请者信息的知识图谱映射过程中，数据申请者的信息一般以结构化数据和文本型非结构化数据存储，该存储方式不利于发掘数据申请者之间的深层信息和隐含关系。本发明将数据申请者的信息映射为RDF数据集，然后转化为知识图谱中的图数据。知识图谱的映射流程描述如下：

(1)根据关系型数据库的逻辑表，生成映射文件；

(2)解析映射文件，获取其中包含的映射元素；

(3)分析映射元素，获取其中子元素和逻辑表及其属性列的映射规则；

(4)从关系型数据库中获取逻辑表中的元组，按照映射规则将元组中对应属性列映射为RDF术语；

(5)将得到的RDF术语组合为RDF三元组，输出到RDF数据集。

数据申请者信息的身份异常检测风险评估具体过程如下：

异常检测是在无监督模型学习中比较有代表性的方法，即在数据中找出具有异常性质的点或点集。在数据申请者身份异常风险评估中，异常检测常用于识别企图套用合法信息，来伪装成正常用户的非法用户，本发明将数据身份异常风险评估任务描述为：

(1)给定一个检测的目标用户

其中

是该目标用户的第i个属性；

(2)给定一个正常用户集合U＝{u₁,u₂,...,u_m}，将每个正常用户的第k个属性提取出来得到属性集

其中

表示第j个用户的第k个属性；

(3)从每个正常用户中提取出l个属性，构成一个多用户多属性集Muti_UP＝{P₁,P₂,...,P_l}，然后从待检测目标用户中提取出对应的l个属性，构成一个待检测属性集P^Test＝{p₁,p₂,...,p_l}；

(4)将多用户多属性集Muti_UP映射到一个l维的聚类空间中，然后进行聚类操作，再将待检测属性集P^Test＝{p₁,p₂,...,p_l}映射到该聚类空间，基于异常检测算法，计算异常检测结果。

由上面的任务可知，异常检测算法是整个用户身份异常检测中的关键部分，它直接关系到异常检测的结果，所以本发明选用了异常检测算法中的局部异常因子(LocalOutlier Factor，LOF)算法来进行异常检测。

LOF算法的基本思想是：计算一个目标样本点周围的样本点所处位置的平均密度与目标样本点所在位置的密度之比，该比值以1为基准，当比值大于1时，其值越大，目标样本点所在位置的密度越小于周围样本点所在位置的密度，目标样本点是异常点的可能性越大。

LOF算法的定义如下：

(1)两点距离：假设p，o为给定集合中的两个点，它们之间的距离记为d(p,o)；

(2)第k远距离(k-distance)：点p的第k远距离的意义为距离点p第k远的点的距离。将点p的第k远距离记为d_k(p)，则d_k(p)＝d(p,o)，且在集合中至少有不包括p在内的k个点o'∈C{x≠p}，满足d(p,o')≤d(p,o)；同时在集合中最多有不包括p在内的k-1个点o”∈C{x≠p}，满足d(p,o”)＜d(p,o)；

(3)第k远距离邻域(k-distance neighborhoodofp)：点p的第k远距离邻域的意义为包括第k远距离在内的，第k远距离以内的所有点，将点p的第k远距离邻域记为N_k(p)，则其中点的个数记为|N_k(p)|≥k；

(4)可达距离(reach-distance，rd)：点o到点p的第k远可达距离为：

rd_k(p,o)＝max{d_k(o),d(p,o)}

上式说明点o到点p的第k远可达距离至少是o的第k距离，即距离点o最近的k个点，o到这些点的可达距离都等于d_k(o)；

(5)局部可达密度(local reachability density，lrd)：表示点p的第k远邻域内的点到点p的平均可达距离的倒数，即：

上式说明，如果点p和周围邻域点是同一簇，那么可达距离为较小值d_k(o)的可能性越大，可达距离之和较小，局部可达密度较高；如果点p和周围邻域点距离较远，则可达距离取较大值d(p,o)的可能性越大，可达距离之和较大，局部可达密度较低，该点是离群点的可能性较大。

(6)局部离群因子(local outlier factor，lof)：表示点p的邻域点N_k(p)的局部可达密度与点p的局部可达密度之比的平均数。即：

如果LOF_k(p)→1，说明点p有可能和邻域属于同一簇；如果LOF_k(p)＜1，而且其值越小，说明点p的密度越高于其邻域点的密度，反之则点p的密度越低于其邻域点的密度，点p是异常点的可能性越大。

综上所述，通过计算点之间的距离来计算密度，然后通过比较每个点p与其邻域点的密度来判断该点是否为异常点，点p的密度越低，是异常点的可能性越大。在进行用户身份异常检测时，将多用户多属性集Muti_UP映射到一个聚类空间中，然后将待检测属性集P^Test＝{p₁,p₂,...,p_l}映射到该聚类空间中，作为LOF算法中的“点p”即可。

数据申请者信息的组团欺诈风险评估具体过程如下：

团体是指相互之间联系紧密，行为、属性具有一定相似度的个体的集合，其特点是：团体之内的个体关系紧密，团体之间关系稀疏。在数据申请者的组团欺诈风险评估过程中，使用社区发现算法来识别数据申请者团体中的欺诈团体。本发明将组团欺诈风险评估任务描述为：

(1)给定欺诈用户的样本集

其中

是一个欺诈用户样本，该欺诈用户样本的属性为

其中

是该欺诈用户样本的第j个属性；

(2)初始化一个欺诈团体集并将其初始化为空，即

(3)选取欺诈用户m个属性中的l个属性，构成一个属性子集

(4)根据上面的l个属性对所有欺诈用户进行分类，将具有相似特征的欺诈用户分为一类，最终得到一个用户分类集U'＝{U₁,U₂,...,U_p}，该集合中的每个元素表示一类欺诈团体；将不同类型的欺诈团体作为一个元素加入欺诈团体集，得到欺诈团体集Group＝{U₁,U₂,...,U_p}。

由上面的任务可知，欺诈团体的发现方法是该任务的关键部分，社区发现算法利用图拓扑结构中所蕴藏的信息，从复杂网络中解析出其模块化的社团结构，该问题的深入研究有助于以一种分而治之的方式研究整个网络的模块、功能及其演化，更准确地理解复杂***的组织原则、拓扑结构与动力学特性，具有十分重要的意义，常用于识别欺诈团体，所以本发明使用一种模块度量化算法来发现欺诈团体。

模块度量化团体发现算法是一种将团体的特征进行量化，然后通过比较量化结果来划分团体的算法，该算法性能好，可以处理大规模网络，同时还可以发现不同粒度的是社团，最重要的是，该算法可以自动发现社团，无需提前指定社团数量。该算法的基本思想是：基于模块度，通过移动网络中的节点，观察对模块度增益的影响，将对模块度增量影响最大的社团合并，直到模块度不再增加，即得到最终的社团划分。

模块度量化团体发现算法的定义如下：

(1)模块度(modularity)：一个网络的模块度记为：

其中，m为整个网络中的边数，A_ij为节点i和节点j之间的权值，k_i和k_j分别表示网络节点i和节点j的权值之和，c_i表示节点i所属的社团，如果i和j在同属一个社团，则δ(c_i,c_j)＝1否则δ(c_i,c_j)＝0。

(2)模块度增益：假设网络中有N个节点，首先给每个节点分配一个社团，共得到N个社团。然后，对于网络中每个节点i及其所有的邻居节点j，将把节点i从它所在的社区移动到其邻居j所在的社区时，模块度的增量变化为：

其中，m是网络中所有边的权重之和，∑_in是社团内部节点之间所有边的权重之和，∑_tot是社团中所有与节点i相关的边的权重之和，k_i,in是节点i到社团中所有节点的边的权重之和。

(3)模块度增益最大化划分社团：把节点i移动到使模块度增益最大的节点j所在的社团，若节点i无法找到使其模块度正增益的社团，则节点i留在原社团中。重复该过程，直到移动任何一个节点都不会导致模块度增加。

(4)迭代划分社团：将(3)中划分的得到的社团作为节点组成一个新的网络，新节点之间的权重为两个新节点之间原权重之和，迭代进行(3)的划分，当出现最大模块度或网络不再改变时，即得到网络的最优分割，停止迭代。

综上所述，在进行组团欺诈风险评估时，将给定用户集中的用户作为模块度量化团体发现算法中的节点，其属性集中的业务联系、利益往来等属性作为节点之间的边，然后进行社团划分，最终得到一个欺诈用户划分集Group＝{U₁,U₂,...,U_p}，完成数据申请者组团欺诈风险评估。

数据申请者信息的个体信用风险评估具体过程如下：

个体的信用会根据该个体有关的事件而改变，如果个体发生不良信用事件或受到某个不良信用事件的影响，则其信用会降低，反之增加，同时不良事件对某个个体的影响会随着时间的增长而逐渐降低。在个体信用风险评估过程中，个体信用风险分析任务描述如下：

(1)给定一个用户关系网络U＝＜G_U,V_U＞，其中G_U是关系网络中的用户节点集合，V_U是关系网络中的边集合；

(2)假设有一个风险权重为w的用户节点u，与用户节点u相连的n个用户节点为U＝{u₁,u₂,...,u_n}；

(3)假设用户节点u发生了某个不良信用事件，有一个时间相关函数δ(u,t)将节点u的风险权重传导给与u相连的节点；

(4)遍历所有节点同时完成不良信用事件风险权重传导，最后按照风险权重，对该用户关系网络中的所有用户进行排序，得到用户风险排序集合。

由上面的任务可知，节点的风险的计算是该任务的关键部分，本发明选用PageRank算法计算的数据申请者的风险。所以本发明对选用改进的个性化PageRank算法来计算数据申请者的个体信用风险。传统的PageRank算法基本思想为：在一个有向图中，用户从任意节点开始访问，当跳转到下一个节点时，用户将从当前节点出发的所有有向边中，以概率c随机选择下一个访问节点，或者跳转到任意的一个节点并以(1-c)的概率开始新一轮的随机游走，重复进行以上过程，直到用户停留在任意节点的概率保持稳定，以稳定状态下的各节点的概率分布为基准，对于其中的一个节点p，指向节点p的节点越多，说明节点p的权重越大，即：

r＝(1-c)Mr+cu

其中，r即PageRank值，表示该节点被访问到的概率，c为重启随机游走的概率，u为该节点在重启随机游走时被选中的概率，在PageRank中，每个节点被选中的概率相等，M为一个归一化邻接矩阵。

但是传统的PageRank算法并不符合实际情况，实际使用场景中，网络中的每个节点在重启随机游走时，被选中的概率使不同的，而是基于用户的偏好，有一定的偏向性。所以之后有人对PageRank算法进行了改进，提出了个性化PageRank算法。

个性化PageRank算法假设每次重新随机游走时，不可随机选择跳转到任意节点，而是从特定节点集合中选择一个节点开始，同时在初始化节点权重时，将特定节点集合中的节点与其他节点进行区别对待，当计算到稳定状态时，用户偏好的节点和相关节点能获得更好的权重。对于节点p，其个性化PageRank的计算方法为：

r＝(1-c)Mr+cv

其中，v为用户的偏好向量，表示关系网络中的每个节点针对给定的偏好向量的重要性，即用户的偏好。

但是，在个体信用风险分析问题中，两个节点之间的权重影响，除了和不良事件本身有关，还和不良事件发生的时间有关，按照一般常识，发生时间越近的不良事件，对当前影响越大，反之亦然，但是个性化PageRank算法没有考虑时间对节点权重的影响。

基于时间影响问题，需要对个性化PageRank算法做了进一步改进，在邻接矩阵中加入时间衰减因子，设δ为指数时间衰变函数，则有：

其中，β是衰减常数，表示过去信息影响力下降的速率，t是不良事件发生的时间与当前时间的间隔，当t＝0时表示不良事件是当前正在发生的。通过指数时间衰变函数后，原来的邻接矩阵M变换为加入时间衰减的权重矩阵W，此时，PageRank值的计算方法为：

r＝(1-c)Wr+cv

同时，在该任务中，节点的度高低应该和分配的权重无关，而在个性化PageRank中，(1-c)Qr表示将节点的不良事件带来的权重影响分散传播给邻居节点，但是在权重相等时，高度节点传播给邻居节点较低的权重影响，而低度节点传播给邻居节点较高的权重影响。在改进的个性化PageRank算法中，通过放大高度节点的权重影响，保证传播时，不同度的节点其邻居节点得到的权重影响在一个尺度上。此时PageRank的计算方法为：

r＝(1-c)Wr+cz'

其中，若v为用户的偏好向量，d为节点的度数，z为向量v中的每个元素与向量d每个元素逐个相乘的结果，z'由z经归一化后得到。

迭代地对关系网络中的所有节点执行改进的个性化PageRank算法，最终可以得到一个基于不良事件影响的用户风险排序表，完成个体信用风险评估。

数据申请者信息的综合风险评估具体过程如下：

为了评估数据申请者的综合风险，结合之前的数据，可以初步构建一个风险模型：

score(u)＝μ(B,F)

其中，μ是风险评分函数，B表示数据使用者的基本信息，F表示基于数据使用者的身份异常风险、组团欺诈风险、个体信用风险的评估结果。该模型表示，对于一个数据使用者u进行风险评分，评分的结果和它的基本信息、身份异常风险、组团欺诈风险、个体信用风险有关。本发明将每一项的评分以10分制计算，对数据申请者进行综合风险评估。

首先，针对数据申请者的基本信息B，其来源为数据申请者主动提交。需要对其从真实性、完整性、客观性三个角度进行评估，本发明给出一个评估的标准，如表1所示。

表1数据申请者基本信息评估标准表

对于数据使用者的身份信息F，来源于前面所述身份检测得到的结果，在此将对F的评分分为三个部分——异常检测评分F_LOF、组团欺诈风险评分F_Fuard、个体风险评分F_PR。对于局部离群因子LOF，对于一个用户u和其他正常用户集U＝{u₁,u₂,...,u_n}，如果LOF(u)→1，说明用户u是正常用户的可能性较大，F_LOF越接近10分。对于组团欺诈检测，若已知一个用户u、已知的a个欺诈团体和b个正常团体，分别对用户u和两类团体利用社团发现算法进行划分，如果u和b个正常团体划分为一个团体的频度记为f_b，和a个欺诈团体划分为一个团体的频度记为f_a，计算该用户是欺诈团体成员的概率f＝f_b/(f_a+f_b)，重复进行该操作，得到所有用户的概率，将得到的概率集合从高到低排序，然后平均划分为10个层级，每个层级对应1～10分中的一个分数，概率越高的层级，说明该层级中的用户是欺诈团体中的个体的可能性越大，该层级对应的分数低，反之分数越高。对于当前的数据申请者，可以计算其是诈骗团体的概率，然后得到对应的分数F_Fuard。类似的，对于个体风险评估，可以计算所有用户的PageRank值，然后从高到低排序，再将它们平均划分为10个层级，每个层级对应1～10分中的一个分数，分数越高的层级，说明其中的用户发生的不良事件或受到不良事件的影响越多，个体风险更大，反之则分数越低。最终，数据申请者的身份检测得分F为异常检测评分F_LOF、组团欺诈风险评分F_Fuard、个体风险评分F_PR的平均分。

六、最后，对综合风险评估的得分进行标签化，可以得到风险评估结论。本发明采用如图2所示的对综合评估的得分采用分层标签化处理，以便得到总得风险评估结论以及具体的风险项评估结果，完成隐私保护数据发布***中对数据申请者的风险评估。

本发明的方法能自动的抽取数据申请者的背景信息、关联关系分析等信息，分析其风险，对隐私保护数据发布的过程提供主动防护，大量减少人工审核数据申请者信息的工作，通过给出风险评估定量和定性方案，更直观的描述了隐私保护数据发布的风险，可以减少复杂关系网络中，对数据申请者身份验证的复杂度，最终通过标签化得到风险评估结果进行语义化表达，直观易懂。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。