CN105868352A

CN105868352A - 一种基于维度相关性分析的高维数据维度排序方法

Info

Publication number: CN105868352A
Application number: CN201610185969.XA
Authority: CN
Inventors: 刘腾; 张怡; 李克非
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-08-17

Abstract

本发明涉及一种基于维度相关性分析的高维数据维度排序方法，包括：进行维度聚类；计算维度间类和类的对应概率来判断两个维度成强相关还是弱相关，若是两个类之间对应概率较大，则成强相关，反之则成弱相关，然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准；维度排序。本发明的维度相关性的分析方法是基于聚类的，通过分析类与类之间的对应关系来判断其所属维度的相关性，比起直接计算数据点之间的对应关系要简便很多，很大程度上减少了计算量，而且最终的相关性用数值来表示，可以很直观的看出两个维度的相关性大小。

Description

一种基于维度相关性分析的高维数据维度排序方法

技术领域

本发明属于高维可视分析领域，涉及一种维度相关性的分析方法，并用于维度排序，方便用户分析高维数据。

背景技术

随着信息技术的高速发展，产生了大量的结构繁多、数目巨大的高维数据，这些高维数据加大了我们对于它们的理解难度，给我们带来了巨大的挑战，但同时也给我们带来了许多机遇，让我们从中获取许多有价值的信息，为我们创造更多的财富。而这些信息往往存在于复杂的数据关系中，如果我们能够发现隐藏在高维数据中的那些复杂的数据关系，我们便可以利用它们来做一些预测的工作，为我们创造价值，因此相关性分析在高维数据分析中变得尤为重要。相关性分析主要是分析属性之间的数据元素是否是相关的，如果它们是相关的，是强相关还是弱相关，是正相关还是负相关。在众多的高维可视化方法中，平行坐标(ParallelCoordinates)和散点图(ScatterPlot)可以比较有效的展示维度间的关系，其中散点图(ScatterPlot)可以比较清晰的表现两个维度间的关系，而平行坐标(Parallel Coordinates)可以表现所有维度间的关系，但是维度关系表现不够清晰。由于高维数据维数众多、数目巨大，这两种方法在表现维度间关系时容易产生混乱，不能够很好的帮助我们分析维度间的相关性。于是，为了能够更好地帮助我们分析维度间的关系，产生了许多基于维度相关性分析的维度排序方法，主要是使相邻维度间具有较强的相关性，从排序后的维度序列中我们还可以看出一定的高维数据结构。

发明内容

为了能够更好地帮助人们理解高维数据，发现隐藏在其中的复杂的数据关系，本发明提供一种高维数据维度排序方法，本发明采用相关性分析方法，发现维度间的强弱相关性以及正负相关性，并将这种相关性分析方法用于维度排序，使其相邻的维度间具有较强的相关性，方便用户对其数据作进一步的分析。本发明的技术方案如下：

一种基于维度相关性分析的高维数据维度排序方法，包括下列步骤：

(1)进行维度聚类

使用K-means算法对高维数据集D＝{d₁,d₂,d₃,...,d_m}的每一维度分别聚类；

(2)维度相关性分析

根据上述的聚类结果，计算维度间类和类的对应概率来判断两个维度成强相关还是弱相关，若是两个类之间对应概率较大，则成强相关，反之则成弱相关，然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准，步骤如下：

①计算类之间的对应概率

对于高维数据集D＝{d₁,d₂,d₃,...,d_m}的任意两个维度d_i和d_j，设维度d_i被聚成n类，维度d_j被聚成m类，计算类之间的对应概率，令d_i,p为维度d_i的p类,d_j,q为维度d_j的q类,统计落在d_i,p中的数据个数num_(i,p)和落在d_j,q中的数据个数num_(j,q)，然后统计共同落在这两个类中的数据个数num，得到这两个类d_i,p和d_j,q的对应概率定义为：

p (d_{i, p}, d_{j, q}) = \frac{{num}^{2}}{{num}_{(i, p)} \cdot {num}_{(j, q)}}

②维度间的相关性分析

计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准，进行维度间的相关性分析；

(3)维度排序

在维度相关性分析的基础上，将维度按照相关性大小进行排序，使得相邻之间的维度有较强的相关性，方法为：首先选择一个维度放在序列的第一个位置，然后找与其最相关的维度放在其后，以此类推，直到所有的维度排列完成。

作为优选实施方式，其特征在于，步骤(1)中，

使用改进了初始聚类中心选取方法的K-means算法对高维数据集D＝{d₁,d₂,d₃,...,d_m}的每一维度分别聚类，对于每一维数据集，设为X＝{x₁,x₂,x₃,...,x_n}，其初始聚类中心选取步骤如下：

①利用公式d(x_i,x_j)＝|x_i-x_j|求出一维数据集X任意两点x_i和x_j之间的距离，并组成距离矩阵distarray_n×n；

②利用公式求出一维数据集X的平均半径；

③利用公式得到所有数据点的密度集，其中f是一个函数，当distarray(i,j)＜meanradium时，f＝1，否则f＝0；

④最后计算每个数据点的簇内相似度

⑤求密度集合density中的最大值相对应的序号，如果这样的值唯一，则取其相对应的数据点为一个聚类中心c，如果这样的值不唯一，则以dens_distaver中最小值为基准，取最小值的对应的那个数据点为一个聚类中心c，并将此初始聚类中心c放入集合C中；

⑥在距离矩阵中去掉那些和聚类中心c相关的且小于meanradium的值，得到新的距离矩阵，并根据新的距离矩阵生成新的平均半径meanradium、密度集density和簇内样本相似度集dens_distaver；

⑦重复步骤⑤-⑥，直到集合C中的数据不再发生变化，则得到k个初始聚类中心，其中k为集合c中数据点的个数。

计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准，进行维度间的相关性分析的步骤可以如下：

a根据上式对应概率的定义求出维度d_i的第一个类和维度d_j的所有类的对应概率，并选择其中最大的那个概率p_m1放入集合P中；

b求出维度d_i的第二个类和维度d_j的所有类的对应概率，并选择其中最大的那个概率p_m2放入集合P中；

c以此类推，直至求出维度d_i的第n个类和维度d_j的所有类的对应概率，并选择其中最大的那个概率p_mn放入集合P中；

d计算集合P中的概率值的和sum(P),即为高维数据集D的维度d_i和维度d_j的相关性。

本发明的维度相关性的分析方法是基于聚类的，通过分析类与类之间的对应关系来判断其所属维度的相关性，比起直接计算数据点之间的对应关系要简便很多，很大程度上减少了计算量，而且最终的相关性用数值来表示，可以很直观的看出两个维度的相关性大小。然后基于相关性将维度重新排序，排序后的维度序列加上维度聚类的效果，更加清晰的展示了相邻维度间的相关性，在一定程度上可以帮助用户发现其中隐藏的一些数据结构。

附图说明

图1为总的流程图；

图2(a)为正相关示例图；

图2(b)为负相关示例图；

图3为所有维度的每一类数据的均值和标准差组成的散点图，且属于同一维度的类用曲线连接；

图4为类和类的对应概率条形图；

图5为维度相关性示例图；

图5(a)为汽车数据集(Car Data Set)中属性”power”的类1和其它属性的类之间的对应概率；

图5(b)为汽车数据集(Car Data Set)中属性”power”的类2和其它属性的类之间的对应概率；

图5(c)为汽车数据集(Car Data Set)中属性”power”的类3和其它属性的类之间的对应概率；

图6(a)属性”power”和属性“weight”组成的散点图；

图6(b)属性”power”和属性“economy”组成的散点图；

图7(a)为汽车数据集(Car Data Set)排序前的维度序列图；

图7(b)为汽车数据集(Car Data Set)排序后的维度序列图。

具体实施方式

本发明是一种基于维度相关性分析的高维可视化方法，提出一种基于维度聚类的维度相关性计算方法，可以直接用数值来表示维度间的相关性，然后利用维度间的相关性将维度重新排序，使得相邻之间的维度具有较强的相关性，有利于我们分析高维数据。

图1为总的流程图，具体包括以下步骤：

1.维度聚类

利用聚类将每一维度数据分成几个小类，我们希望聚类算法可以自动识别聚类数目，且每一类之内数据相似度较大，因此我们选取一种改进的K-means算法，它优化了初始聚类中心，且可以自动给出聚类数目。这里会用到几个公式：

定义一维数据集X＝{x₁,x₂,x₃,...,x_n}，

任意两点之间的距离为：

d(x_i,x_j)＝|x_i-x_j| (1)

其中x_i和x_j均为数据集X中任意两点，i和j的取值为1～n，n代表数据集X中数据点的个数；

得到距离矩阵：

{distarray}_{n \times n} = [\begin{matrix} 0 & d (x_{1}, x_{2}) & ... & d (x_{1}, x_{n}) \\ d (x_{2}, x_{1}) & 0 & ... & d (x_{2}, x_{n}) \\ d (x_{3}, x_{1}) & d (x_{3}, x_{2}) & 0 & ... \\ ... & ... & ... & ... \\ d (x_{n}, x_{1}) & d (x_{n}, x_{2}) & d (x_{n}, x_{3}) & 0 \end{matrix}] - - - (2)

数据集间的平均半径：

m e a n r a d i u m = \frac{Σ_{i = 1}^{n} Σ_{j = i}^{n} d i s t a r r a y (i, j)}{n \times n} - - - (3)

其中，distarray(i,j)代表数据点x_i和x_j之间的距离；

数据点x_i的密度值：

d e n s i t y (i) = Σ_{j = 1}^{n} f (d i s t a r r a y (i, j) - m e a n r a d i u m) - - - (4)

其中，f是一个函数，当distarray(i,j)＜meanradium时，f＝1，否则f＝0；

数据点x_i的簇内相似度：

d e n s_d i s t a v e r (i) = \frac{Σ_{j = 1}^{n} d i s t a r r a y (i, j)}{d e n s i t y (i)} - - - (5)

基于以上公式，对于高维数据集的每一维度，此处设为d，进行如下步骤的聚类操作：

a根据式(1)和式(2)计算维度数据集d的距离矩阵distarray_n×n，根据式(3)得到其平均半径meanradium；

b根据式(4)统计距离矩阵的每一行中小于meanradium的值，得到数据点的密度集合density；

c根据式(5)生成簇内样本相似度集dens_distaver；

d求密度集合density中的最大值相对应的序号，如果这样的值唯一，则取其相对应的数据点为一个聚类中心c，如果这样的值不唯一，则以dens_distaver中最小值为基准，取最小值的对应的那个数据点为一个聚类中心c，并将此初始聚类中心c放入集合C中；

e在距离矩阵中去掉那些和聚类中心c相关的且小于meanradium的值，得到新的距离矩阵，并根据新的距离矩阵生成新的平均半径meanradium、密度集density和簇内样本相似度集dens_distaver；

f重复步骤d-e，直到集合C中的数据不再发生变化，则得到k个初始聚类中心，其中k为集合c中数据点的个数；

g得到k个初始聚类中心之后，再用K-means算法对数据集d进行聚类，最终得到维度d的k个类；

2.维度相关性分析

维度间的相关性主要分为正相关和负相关两种，其中正相关是指维度间的数据一一对应(如图2(a)所示)，而负相关是指维度间的数据交叉对应(如图2(b)所示)。在两个维度之间，若对应的数据点数越多则说明其相关性较强，否则相关性较弱，甚至没有相关性。直接统计两个维度间数据点的对应程度是不太容易的，而且对于数据量巨大的高维数据，计算起来是很耗费时间的。于是这里我们通过上述聚类算法将每一个维度的数据聚成几个小类，我们来计算维度间类和类的对应概率来判断两个维度成正相关还是负相关，若是两个类之间一一对应得概率较大，则其成正相关，反之，若是其交叉对应概率较大，则其成负相关，然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准。具体计算步骤如下：

(1)计算类之间的对应概率

p (d_{i, p}, d_{j, q}) = \frac{{num}^{2}}{{num}_{(i, p)} \cdot {num}_{(j, q)}} - - - (6)

为了便于后续操作和直观的统计每一维度的每一类所包含的数据点个数，我们将每一类数据用一个点来表示，这里我们取其均值和标准差并用散点图显示，用标签显示每一类所包含的数据点个数(如图3所示)。类和类之间的对应概率我们用条形图来表示，这样我们便可以直观的看出其相关性大小以及正负相关性。如图4所示，点击属性“displacement”的类1，得到其它属性的所有类与之对应的概率，其中属性“cylinders”的类1与其性关性最大。

(2)计算维度间的相关性

计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准，步骤如下：

a利用式(6)求出维度d_i的第一个类和维度d_j的所有类的对应概率，并选择其中最大的那个概率p_m1放入集合P中；

d计算集合P中的概率值的和sum(P),即为维度d_i和维度d_j的相关性。

(3)除此之外，我们还可以使用散点图(scatterplot)来作为相关性分析的辅助方法，因为散点图是展现任意两个维度相关性最好的可视化方法，通过它我们可以直观的看出两个维度是呈正相关或是呈负相关，还是没有相关性。如图6(a)所示，我们可以清楚看出属性“power”和属性“weight”呈正相关，而从图6(b)我们可以看出，属性“power”和属性“economy”呈负相关

实例1：汽车数据集(Car Data Set)是高维数据分析中经常用的一个数据集，它包含7个属性和406条数据，这里我们用它作为一个实例来分析，在这个数据集中，维度间存在着比较清晰的相关性，且有的呈正相关，有的呈负相关。如图5所示，属性“cylinders”和“mph”被聚成了2类，属性“displacement”、“power”、“weight”和“economy”被聚成了3类，属性“year”被聚成了4类，我们给出了属性“power”的三个类和其它属性的所有类的对应概率条形图，其中图5(a)中展示的是“power”的类1和其它属性的类的对应概率，根据表3的算法，我们选取属性间对应概率大的类，p(power1,weight1)＝0.58，

p(power1,cylinders1)＝0.54，p(power1,displacement1)＝0.51，

p(power1,economy3)＝0.46，p(power1,mph2)＝0.36，p(power1,year3)＝0.12；

图5(b)中展示的是“power”的类2和其它属性的类的对应概率，根据表3的算法，我们选取属性间对应概率大的类，p(power2,weight2)＝0.46，

p(power2,cylinders2)＝0.23，p(power2,displacement2)＝0.36，

p(power2,economy2)＝0.34，p(power2,mph1)＝0.27，p(power2,year2)＝0.15；

图5(c)中展示的是“power”的类3和其它属性的类的对应概率，根据表3的算法，我们选取属性间对应概率大的类，p(power3,weight3)＝0.72，

p(power3,cylinders2)＝0.50，p(power3,displacement3)＝0.87，

p(power3,economy1)＝0.54，p(power3,mph1)＝0.38，p(power3,year1)＝0.29；

我们从这些类的对应概率可以看出，属性“power”和属性“weight”、“displacement”的类之间是一一对应的，且对应概率较大，因此我们可以猜测它们呈正相关，且具有较强的相关性，而属性“power”和属性“economy”的类之间是交叉对应的，但对应概率没有太大，因此我们猜测属性“power”和属性“economy”呈负相关，且相关性较弱。属性“power”和其它的几个属性的类之间的对应没有太明显的规律，且对应概率较小，因此我们猜测它们相关性很弱，几乎没有相关性。下面我们具体计算它们的相关性：

corr(power,weight)＝p(power1,weight1)+p(power2,weight2)+p(power3,weight3)＝0.58+0.46+0.72＝1.76

corr(power,cylinders)＝p(power1,cylinders1)+p(power2,cylinders2)+p(power3,cylinders2)＝0.54+0.23+0.50＝1.27

corr(power,displacement)＝p(power1,displacement1)+p(power2,displacement2)+p(power3,displacement3)＝0.51+0.36+0.87＝1.74

corr(power,economy)＝p(power1,economy3)+p(power2,economy2)+p(power3,economy1)＝0.46+0.34+0.54＝1.34

corr(power,mph)＝p(power1,mph2)+p(power2,mph1)+p(power3,mph1)＝0.36+0.27+0.38＝1.01

corr(power,year)＝p(power1,year3)+p(power2,year2)+p(power3,year1)＝0.12+0.15+0.29＝0.56

从上述计算结果我们可以看出，属性“power”和属性“weight”、“displacement”具有很强的相关性，而与属性“mph”、“year”相关性很弱，几乎没有相关性，与属性“economy”、“cylinders”有着较弱的相关性。

3.维度排序

在维度相关性分析的基础上，我们将维度按照相关性大小进行排序，使得相邻之间的维度有较强的相关性。我们首先需要选择一个维度放在序列的第一个位置，然后找与其最相关的维度放在其后，以此类推，直到所有的维度排列完成。

实例2：我们选取高维数据分析中常用的一个数据集——汽车数据集(Car Data Set)作为我们的一个分析实例，在这个数据集中有7个维度和406条数据，且维度间有着较明显的相关关系。图7(a)显示了排序之前的维度序列，图7(b)为按照相关性排序之后的维度序列图，这里我们选择属性“displacement”作为核心维度放在第一个位置，然后依次排序。从图7(b)中我们可以看出，属性“displacement”、“weight”和“power”之间的相关性较强，且呈正相关。而属性“mph”、“cylinders”和“year”之间的相关性很弱，而且类的对应关系比较混乱，因此这三个属性之间几乎不存在相关性。属性“power”、“economy”和“cylinders”之间存在着较弱的负相关性。对比图7(a)和图7(b)，我们可以看到排序后的序列图比较清楚的展现了维度间的相关关系，而且其强弱性可以从具体数据值来直观的判断，除此之外，从整个排序后的序列图中我们还可以看到数据的一个明显的趋势。

Claims

1.一种基于维度相关性分析的高维数据维度排序方法，包括下列步骤：