CN109886334B

CN109886334B - 一种隐私保护的共享近邻密度峰聚类方法

Info

Publication number: CN109886334B
Application number: CN201910126420.7A
Authority: CN
Inventors: 鲍舒婷; 孙丽萍; 慈尚; 郑孝遥; 罗永龙
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2023-09-22
Anticipated expiration: 2039-02-20
Also published as: CN109886334A

Abstract

本发明揭示了一种隐私保护的共享近邻密度峰聚类方法，其特征在于使用ε‑差分隐私保护方法保护用户的隐私安全，并通过定义共享近邻相似度的概念，更精确地度量样本间的相似度和局部密度，在满足ε‑差分隐私保护的前提下提高聚类有效性。本发明在计算局部密度和最短距离时加入Laplace噪音，满足ε‑差分隐私保护；将共享近邻相似度和欧氏距离进行统一计算样本的局部密度，以便于局部密度ρ获得关于簇结构的信息，充分揭示了样本之间的内在联系。

Description

一种隐私保护的共享近邻密度峰聚类方法

技术领域

本发明涉及差分隐私保护方法，具体涉及一种隐私保护的共享近邻密度峰聚类方法。

背景技术

互联网与人类社会生活紧密相关，其产生的数据量呈现快速增长，电子邮件、博客、交易数据等数十亿网站每天创建新数据的万亿字节，因此从庞大和多元化的数据中挖掘出被隐藏的有价值的模型和信息变得越来越困难。面对如此庞大的数据量，传统的数据分析技术显得力不从心，从海量的数据中提炼有价值的信息和模型就成为至关重要的技术，聚类(Clustering)是数据挖掘中重要的研究邻域之一，是一种无监督的数据分析方法，通过聚类分析，根据样本之间的相似度将原始杂乱无章的数据处理成不同的簇，使得簇中的样本相似度高，但每个簇之间的样本相似度低。聚类在模式识别、分类、图像处理、Web搜索、商务智能等邻域都有广泛的研究。经典的聚类算法有：基于划分聚类算法、基于密度聚类算法和基于图聚类算法等。

现实生活中许多公司或机构都拥有大量的数据，如医院、金融公司、银行等机构。这些数据往往隐含许多有价值的信息，但也可能包含许多个人敏感信息。虽然隐藏数据中的标识符信息(姓名、身份证号等)能够在一定程度上保护用户的信息安全，但是通过如聚类、分类等数据挖掘技术是对数据的挖掘和再利用，因此未经保护的聚类方法可能会使得用户的敏感信息被泄露。随着越来越强大的聚类技术和工具投入使用，人们越来越担心敏感信息被泄露。因此，聚类中的隐私保护十分重要。

密度峰聚类(Density Peaks Clustering,DPC)算法是一种基于密度的聚类方法，能对任意形状的簇进行聚类，简单高效，无需迭代。近年来，DPC算法引起了广泛的研究。BoWu和Bogdan M.Wilamowski利用网格聚类通过计算网格节点的密度代替样本密度的计算，保留了DPC算法可以检测噪音数据和任意形状簇的优势，并且通过网格减少样本间的距离计算次数，提高DPC算法性能。Rongfang Bie和Rashid Mehmood等人提出一种模糊DPC算法，该算法首先基于欧氏距离筛选出期望聚类中心集合，其次排除集合中密度较低的样本(即噪音点)，最后根据局部聚类中心之间的欧氏距离，合并较近的聚类中心所在的簇。Ji Xu和Guoyin Wang等人将DPC与层次聚类算法结合设计了一种新的聚类算法，该算法首先根据γ值利用线性拟合方法筛选出潜在的聚类中心，并用层次聚类的概念使得一些潜在的聚类中心退化成普通样本，形成最终的聚类中心集合。最后，通过构建前导树实现对剩余样本的分配。

近几年，聚类中的差分隐私保护逐渐成为研究热点。Blum等人提出在SuLQ平台上实现差分隐私K-means算法，但其查询函数敏感度较大且并未给出如何设置隐私预算，降低了聚类结果的可用性。Yu等人提出了基于离群点消除的差分隐私K-means算法，根据样本的密度在数据集预处理时消除离群点，将Laplace机制加入聚类中心的选择中。李杨等人在将数据集平均分为若干个子集，分别计算每个子集扰动后的中心点，将其作为初始中心点，提高了聚类的有效性。Gao等人结合布谷鸟搜索和粒子群优化算法改进K-means聚类中心的选择过程。Li等人提出了一种基于多核心点的差分隐私保护DBSCAN算法，重新定义了初始聚类中心的选择方法，在距离的计算中加入Laplace机制噪音，满足差分隐私保护。

发明内容

本发明将共享近邻相似度和欧氏距离结合度量样本的局部密度，并引入到聚类中心的自适应选择中，考虑到邻域样本对簇结构的影响，提高了聚类的有效性。同时，为了避免对原始数据直接添加噪音影响数据的可用性，算法在局部密度和最短距离计算时添加随机噪音使得数据失真，从而达到差分隐私保护的目的。

为了实现上述目的，本发明采用的技术方案为：一种隐私保护的共享近邻密度峰聚类方法，使用ε-差分隐私保护方法保护用户的隐私安全，并通过定义共享近邻相似度的概念，更精确地度量样本间的相似度和局部密度，在满足ε-差分隐私保护的前提下提高聚类有效性。包括以下步骤：

步骤1、密度距离计算阶段：在密度距离计算过程中，将共享近邻相似度和欧氏距离进行统一度量样本间的相似度，并计算样本的最短距离，根据差分隐私定义，在度量样本的局部密度ρ和最短距离δ时加入满足Laplace机制的噪音；

步骤2、聚类中心选择阶段：在聚类中心选择过程中，将共享近邻相似度引入聚类中心选择过程，自适应地进行聚类中心的选择；

步骤3、剩余样本分配阶段：在剩余样本分配过程中，根据样本的密度和距离将剩余样本进行分配，完成聚类过程。

所述步骤1中，根据k近邻集、共享近邻相似度的概念，将共享近邻相似度和欧氏距离进行统一计算样本的局部密度，最短距离为样本到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离，根据差分隐私的定义，计算查询函数的敏感度，计算满足ε-差分隐私保护所需的Laplace噪音的大小，并将噪音分别加入局部密度和最短距离中。

所述步骤2中，理想的聚类中心为最短距离大并且局部密度相对较大样本，根据步骤1得到的样本的局部密度和最短距离，自适应地进行聚类中心的选择。

所述步骤3中，将样本按照局部密度由大到小排序，若样本未被分配，就将该样本分配到距其最近并拥有较高密度的样本所在的类簇中，否则，对下一个样本进行分配。

所述步骤1包括以下步骤：

步骤1.1、数据集预处理；

步骤1.2、假定数据集X_N×M＝[x₁,x₂,...,x_N]^T，对于任意向量x_i＝[x_i1,x_i2,...,x_iM]表示样本x_i(1≤i≤N)的M个属性，N为样本总个数，利用以下公式，计算样本x_i和样本x_j(1≤j≤N)的欧氏距离：

步骤1.3、数据集X中任意样本x_i和x_j，KNN(x_i)为样本x_i的k近邻，KNN(x_j)为样本x_j的k近邻，则通过以下公式计算样本x_i和x_j的共享近邻相似度SNNS(x_i,x_j)：

SNNS(x_i,x_j)＝|KNN(x_i)∩KNN(x_j)|；

步骤1.4、设有查询函数f:D→R^d，其中D为输入的数据集，输出为一个d维实数向量，对于任意数据集D和D'(D和D'具有同属性结构，且差别至多为一条记录)：则通过以下公式计算敏感度：

步骤1.5、给定数据集D，设有查询函数f:D→R^d，其敏感度为Δf，那么随机算法R(D)＝F(D)+Y提供ε-差分隐私保护，Y～Lap(b)为随机噪音，其中尺度参数b＝Δf/ε，服从满足Laplace机制的概率密度函数为：

步骤1.6、满足差分隐私保护的样本局部密度计算，通过以下公式计算样本x_i的局部密度：

步骤1.7、满足差分隐私保护的样本最短距离计算，通过以下公式计算样本x_i的最短距离：

计算样本x_i的最短距离δ_i，δ_i为x_i到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离。

所述步骤2包括以下步骤：

步骤2.1、基于密度距离计算阶段，已经得到加入噪音后的样本局部密度ρ和最短距离δ，初始化聚类中心数组centers，初始化队列Q，标记所有样本未访问；

步骤2.2、理想的聚类中心为高δ值和相对较高ρ值的样本，因此计算γ_i＝ρ_i×δ_i，将样本按照γ值降序排列，从未被访问的样本中依次取出γ值最大的样本加入队列Q，并标记该样本已访问，直到所有样本都被访问；

步骤2.3、取出队列Q的对头样本h，将h加入数组centers，并为该样本分配类标签；

步骤2.4、依次取出队列Q中未被分配的样本q，若q满足则将其加入到数组centers中，并为其分配类标签；

步骤2.5.若数组centers中样本个数小于等于类簇个数L，转入步骤2.4；否则，聚类中心选择完毕。

所述步骤3包括以下步骤：

步骤3.1、聚类中心选择阶段得到聚类中心数组centers及其类标签，初始化队列Q和数组cl；

步骤3.2、将所有样本按照局部密度ρ降序排列，依次加入队列Q；

步骤3.3、依次取出队头样本，若该队头样本已被分配，将其从队头删除，若未被分配，将其分配至距离其最近并拥有较高密度的样本所在的簇；

步骤3.4、所有样本都被分配，否则，转入步骤3.3。

本发明在计算局部密度和最短距离时加入Laplace噪音，满足ε-差分隐私保护；将共享近邻相似度和欧氏距离进行统一计算样本的局部密度，以便于局部密度ρ获得关于簇结构的信息，充分揭示了样本之间的内在联系。

附图说明

下面对本发明说明书中每幅附图表达的内容作简要说明：

图1为攻击模型；

图2为隐私保护的共享近邻密度峰聚类方法流程图；

图3为局部密度和最短距离计算阶段；

图4为共享近邻相似度示意图。

具体实施方式

如图2所示，隐私保护的共享近邻密度峰聚类方法包括以下三个步骤：

步骤1：密度距离计算阶段：根据k近邻集、共享近邻相似度的概念，依次计算样本的k近邻集和样本之间的共享近邻相似度，将共享近邻相似度和欧氏距离进行统一计算样本的局部密度。最短距离为样本到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离。根据差分隐私的定义，计算查询函数的敏感度，计算满足ε-差分隐私保护所需的Laplace噪音的大小，并将噪音分别加入局部密度和最短距离中。

步骤2：聚类中心选择阶段：在聚类中心选择过程中，将共享近邻相似度引入聚类中心选择过程，自适应地进行聚类中心的选择；

步骤3：剩余样本分配阶段：在剩余样本分配过程中，根据样本的密度和距离将剩余样本进行分配，完成聚类过程。

如图3所示，密度距离计算阶段包括以下步骤：

步骤1.1.数据预处理。本发明基于数据的最大值和最小值，采用归一化方法对数据集预处理，以消除缺失值和不同维度范围的差异的影响，提高计算效率。具体计算公式如下：

其中：x′_ij为数据集X中第i行第j列的元素x_ij归一化后的结果。max(x_j)为数据集X中第j列属性中的最大值；min(x_j)为数据集X中第j列属性中的最小值。

步骤1.2.假定数据集X_N×M＝[x₁,x₂,...,x_N]^T，对于任意向量x_i＝[x_i1,x_i2,...,x_iM]表示样本x_i(1≤i≤N)的M个属性，N为样本总个数。利用以下公式，计算样本x_i和样本x_j(1≤j≤N)的欧氏距离：

共享近邻相似度是一种基于样本k近邻的一种非参数的聚类方法，适用于处理大样本数据的实际问题。通常情况下，一个样本和它的邻居样本被分到同一个簇的可能性较大。因此，通过度量样本及其邻居样本的联系更能正确反映样本的分布情况。

步骤1.3.数据集X中任意样本x_i和x_j，KNN(x_i)为样本x_i的k近邻，KNN(x_j)为样本x_j的k近邻，则通过以下公式计算样本x_i和x_j的共享近邻相似度SNNS(x_i,x_j)：

SNNS(x_i,x_j)＝|KNN(x_i)∩KNN(x_j)|；

步骤1.4.设有查询函数f:D→R^d，其中D为输入的数据集，输出为一个d维实数向量，对于任意数据集D和D'(D和D'具有同属性结构，且差别至多为一条记录)：则通过以下公式计算敏感度：

步骤1.5.给定数据集D，设有查询函数f:D→R^d，其敏感度为Δf，那么随机算法R(D)＝F(D)+Y提供ε-差分隐私保护，Y～Lap(b)为随机噪音，其中尺度参数b＝Δf/ε。服从满足Laplace机制的概率密度函数为：

步骤1.6.满足差分隐私保护的样本局部密度计算。通过以下公式计算样本x_i的局部密度：

如果一定，样本x_i与x_j的k近邻样本距离之和越小，即/>越小，样本x_i的局部密度越大；如果/>一定，x_i与x_j的k近邻样本共享近邻相似度之和越大，即/>越大，样本x_i的局部密度越大。

图4为一组二维据的分布图，p,q,r,s,t,v为数据中的任意样本，近邻个数k＝6。如图4所示，p、q、t在一个簇，s、r在一个簇，s为离群点。其中，SNNS(p,q)＝SNNS(q,v)＝2，但由于dist(q,v)>dist(p,q)，说明p、q在同一个簇的可能性大，q、v在同一个簇的可能性小。因此，可以得到ρ_v较小，δ_v较大，判断样本v为离群点。另外，d(s,t)＝d(s,r)，若只采用欧氏距离进行样本相似性的度量，很容易将原本不属于同一簇的样本s和r分到同一个簇。但是，SNNS(s,r)＝2，说明s与r在同一类簇的可能性更大。综上所述，在一般情况下共享近邻相似度和欧氏距离结合能够更加精确地衡量样本间的相似度，以便于局部密度ρ获得关于簇结构的信息，充分揭示了样本之间的内在联系。

步骤1.7.满足差分隐私保护的样本最短距离计算。通过以下公式计算样本x_i的最短距离：

聚类中心选择阶段包括以下步骤：

步骤2.1.基于密度距离计算阶段，已经得到加入噪音后的样本局部密度ρ和最短距离δ，初始化聚类中心数组centers，初始化队列Q，标记所有样本未访问；

步骤2.2.理想的聚类中心为高δ值和相对较高ρ值的样本，因此计算γ_i＝ρ_i×δ_i，将样本按照γ值降序排列，从未被访问的样本中依次取出γ值最大的样本加入队列Q，并标记该样本已访问，直到所有样本都被访问；

步骤2.3.取出队列Q的对头样本h，将h加入数组centers，并为该样本分配类标签；

步骤2.4.依次取出队列Q中未被分配的样本q，若q满足则将其加入到数组centers中，并为其分配类标签；

剩余样本分配阶段包括以下步骤：

步骤3.1.聚类中心选择阶段得到聚类中心数组centers及其类标签，初始化队列Q和数组cl。

步骤3.2.将所有样本按照局部密度ρ降序排列，依次加入队列Q。

步骤3.3.依次取出队头样本，若该队头样本已被分配，将其从队头删除，若未被分配，将其分配至距离其最近并拥有较高密度的样本所在的簇。

步骤3.4.所有样本都被分配，否则，转入步骤3.3.

为了验证算法的有效性和准确性，采用聚类中经典的真实数据集和模拟数据集进行测试和评价，真实数据集为四个UCI数据集，来自UCI机器学习库(http://archive.ics.uci.edu/ml/)。对比算法为：DP-MCDBSCAN、IDP-Kmeans、DP-DPC。实验由Matlab 2013b编程实现，硬件配置为Windows 7操作***、4G物理内存、CPU为1.9GHz的计算机。

表1数据集基本特征：

本发明和DP-DPC,IDP-Kmeans,DP-MCDBSCAN算法在给定参数后,都能自动寻找和发现类簇。实验采用四个UCI数据集和四个模拟数据集来检测算法发现类簇的能力。表2为使用ACC、AMI、F-Measure和ARI指标评价四种算法在八个数据集上的聚类结果。其中，加粗加黑的值表示较好的实验结果。针对UCI数据集和模拟数据集，本发明方法与对比算法的实验结果如表2所示，其中加粗数据表示最优结果。

表2 UCI数据集上各聚类算法的ACC,AMI,F-Measure和ARI聚类评价指标值比较：

表3模拟数据集上各聚类算法的ACC,AMI,F-Measure和ARI聚类评价指标值比较：

表2中的Zoo是聚类分析中常用的数据集包含了101个样本，分为7个类簇，是线性不可分的。Zoo是动物园数据集，由16个属性构成，其中15个为布尔属性值{0,1}和另外1个分类属性是动物腿的数量{0,2,4,6,8}。由于Zoo中有15个属性是布尔属性，导致数据集中较多样本拥有相同的属性值，因此较多样本彼此之间的欧氏距离为0，使得DP-DPC算法中dc为0，从而导致聚类性能较差。DP-MCDBSCAN和IDP-Kmeans将欧氏距离当作唯一的相似性度量指标，因此聚类性能较差。但是，本文算法即避免了参数dc的设置，又将欧氏距离与共享近邻相似度相统一进行局部密度的计算，因此相对于其他算法的聚类结果，本文算法拥有较大优势。对于数据集Zoo，本文算法的ACC指标较DP-DPC算法提高了约76.3％，较DP-MCDBSCAN提高了约60.5％。本文算法的ARI指标较DP-DPC提高了87.1％，本文算法的AMI指标较IDP-Kmeans提高了67.9％。

Vote数据集包含435个样本,共分为两个类簇，每一个样本用16个特征表示。三个对比算法将部分属于第二个类簇的样本分配到第一个类簇，导致聚类结果不够理想。本文算法的ACC、AMI、F-Measure和ARI值最优，聚类结果最接近标准分类结果。对于数据集Vote，本文算法的AMI指标较DP-DPC算法提高了71.8％，本文算法的F-Measure较DP-MCDBSCAN提高了11.2％。

Eyes数据集是聚类常用的模拟数据集，238个样本共分为三个类簇。由于加入部分噪音，使得算法整体聚类性能略微下降，IDP-Kmeans、DP-DPC算法将本属于第三类中的多数样本错误的分配到第一类和第二类中，导致聚类效果不够理想。由于DP-DPC算法中第三类分错的样本略少于IDP-Kmeans，所以DP-DPC算法的评价指标值略高于IDP-Kmeans。DP-MCDBSCAN算法将部分样本分为同一类，因此聚类效果较差。对于Eyes数据集，本文算法的F-Measure值较DP-MCDBSCAN算法提高了58.7％，本文算法的AMI值较IDP-Kmeans提高了9.4％。

Size5数据集包含4类共1000个样本，其中属于第一类的样本数为769个，该类密度较高，样本分布较密集，其他三类各77个样本，每一类密度较低，样本分布较稀疏。本文算法正确的找到了四个聚类中心，并将剩余样本正确分配。但是，DP-DPC算法错误的将属于较稀疏的第二类和第三类的样本分配到第一类，这是由于样本间相似度的错误估计，导致聚类效果较差。由于第一类样本较密集，IDP-Kmeans算法发现了两个在同一个类簇的聚类中心，使得第一类的样本被错误地分配为两个类。对于Size5数据集，本文算法的ACC值较IDP-Kmeans算法提高了25.8％，本文算法的ARI值较DP-DPC提高了33.8％。

实验结果表明，通过与DP-DPC算法实验结果的对比，证明本文算法能够更准确的发现聚类中心和样本分布情况。在UCI和模拟数据集上，保证算法满足ε-差分隐私保护的前提下本文提出的算法在评价结果中相较其他算法有明显的优势，拥有较好的聚类性能。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种隐私保护的共享近邻密度峰聚类方法，其特征在于：

步骤3、剩余样本分配阶段：在剩余样本分配过程中，根据样本的密度和距离将剩余样本进行分配，完成聚类过程；

所述步骤1包括以下步骤：

步骤1.1、数据集预处理；

步骤1.2、假定数据集X_N×M＝[x₁，x₂，...，x_N]^T，对于任意向量x_i＝[x_i1，x_i2，...，x_iM]表示样本x_i(1≤i≤N)的M个属性，N为样本总个数，利用以下公式，计算样本x_i和样本x_j(1≤j≤N)的欧氏距离：

步骤1.3、数据集X_i中任意样本x_i和x_j，KNN(x_i)为样本x_i的k近邻，KNN(x_j)为样本x_j的k近邻，则通过以下公式计算样本x_i和x_j的共享近邻相似度SNNS(x_i,x_j)：SNNS(x_i，x_j)＝|KNN(x_i)∩KNN(x_j)|

步骤1.4、设有查询函数f：D→R^d，其中D为输入的数据集，输出为一个d维实数向量，对于任意数据集D和D'(D和D'具有同属性结构，且差别至多为一条记录)：则通过以下公式计算敏感度：

步骤1.5、给定数据集D，设有查询函数f：D→R^d，其敏感度为Δf，那么随机算法R(D)＝F(D)+Y提供ε-差分隐私保护，Y～Lap^(b)为随机噪音，其中尺度参数b＝Δf/ε，服从满足Laplace机制的概率密度函数为：

计算样本x_i的最短距离δ_i，δ_i为x_i到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离；

所述步骤1.1包括数据收集：应用终端为移动终端或计算机传输的数据包括但不限于电子邮件、博客、交易数据。

2.根据权利要求1所述的隐私保护的共享近邻密度峰聚类方法，其特征在于：所述步骤1中，根据k近邻集、共享近邻相似度的概念，将共享近邻相似度和欧氏距离进行统一计算样本的局部密度，最短距离为样本到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离，根据差分隐私的定义，计算查询函数的敏感度，计算满足ε-差分隐私保护所需的Laplace噪音的大小，并将噪音分别加入局部密度和最短距离中。

3.根据权利要求1所述的隐私保护的共享近邻密度峰聚类方法，其特征在于：所述步骤2中，理想的聚类中心为最短距离大并且局部密度相对较大样本，根据步骤1得到的样本的局部密度和最短距离，自适应地进行聚类中心的选择。

4.根据权利要求1所述的隐私保护的共享近邻密度峰聚类方法，其特征在于：所述步骤3中，将样本按照局部密度由大到小排序，若样本未被分配，就将该样本分配到距其最近并拥有较高密度的样本所在的类簇中，否则，对下一个样本进行分配。

5.根据权利要求1或3所述的隐私保护的共享近邻密度峰聚类方法，其特征在于：所述步骤2包括以下步骤：

步骤2.5、若数组centers中样本个数小于等于类簇个数L，转入步骤2.4；否则，聚类中心选择完毕。

6.根据权利要求1或4所述的隐私保护的共享近邻密度峰聚类方法，其特征在于：所述步骤3包括以下步骤：

步骤3.4、所有样本都被分配，否则，转入步骤3.3。