CN109271441A

CN109271441A - 一种高维数据可视化聚类分析方法及***

Info

Publication number: CN109271441A
Application number: CN201811517242.2A
Authority: CN
Inventors: 黎明; 黄珊; 陈昊; 陈震; 李军华; 张聪炫
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-01-25
Anticipated expiration: 2038-12-12
Also published as: CN109271441B

Abstract

本发明公开了一种高维数据可视化聚类分析方法及***。该方法包括：对高维数据进行归一化预处理；通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据；利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类。本方法或***能够高效地实现高维数据尤其是包含非线性结构高维数据的可视化聚类。

Description

一种高维数据可视化聚类分析方法及***

技术领域

本发明涉及高维数据可视化聚类领域，特别是涉及一种高维数据可视化聚类分析方法及***。

背景技术

可视化技术是一种重要的数据分析工具，其主要利用计算机图形学、图像处理、信号处理等方法来表达数据的内部结构、信息和知识，有利于模式识别、离群点检测等研究。随着计算机和传感设备的飞速发展，多维甚至高维数据已广泛存在经济、医学、军事和工业等领域，如高维功能性磁共振成像数据，多维结构的三层防御体系等。数据维度和规模的增加给数据可视化带来了新的机遇。但是传统的直角坐标最多能表达三维数据，不适用于高维数据可视化研究。

目前高维可视化技术主要有两类。其中，一类是降维方法，将高维数据映射到低维空间，并用散点或其他符号表示降维后的数据。主要包括主成分分析、自组织映、神经元度量法等。尽管降维可视化方法在某种意义上能克服可视化技术的维度灾难，但是其可能导致潜在重要信息的丢失，制约着高维数据分析的准确性。另一类方法在不使用降维技术的情况下获得可视化结果，如散点图矩阵、平行坐标系和热点图等，其能完整无损地表示高维数据信息。但是随着数据维数和规模的增加，由于屏幕的限制，大量的曲线或色块会复杂地交织在一起，极大地制约了可视化的有效性。

相较于上述方法，以径向坐标可视化方法(Radial Visualization,RadViz)和星坐标(Star Coordinates，SC)为代表的径向布局可视化方法在表达高维数据具有明显的优势。径向布局可视化方法利用圆形半径表征数据维度，并将每个个体映射至低维空间的一个点。不仅能在低维空间中高效地表达任意维数据，并可将具有相似特征的数据投影至相近的位置，从而形成较好的可视化聚类效果。但是RadViz被定义为一般的不考虑数据的形状和分布的非线性映射；而SC本身是一种线性可视化方法。因此当数据为非线性流形结构时，传统的径向布局可视化方法在捕获非线性数据结构存在局限性。

因此，如何高效地实现高维数据尤其是包含非线性结构高维数据的可视化聚类，成为本领域技术人员亟需解决的技术问题。

发明内容

本发明的目的是提供一种高维数据可视化聚类分析方法及***，用以高效地实现高维数据尤其是包含非线性结构高维数据的可视化聚类。

为实现上述目的，本发明提供了如下方案：

一种高维数据可视化聚类分析方法，所述方法包括：

对高维数据进行归一化预处理；

通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据；

利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类。

可选的，所述对高维数据进行归一化预处理，具体包括：

根据公式对所述高维数据归一化预处理，其中，F_km和分别表示第k组高维数据在第m维上的原始属性值和归一化后属性值；max(F_m)和min(F_m)分别表示高维数据F在第m维上最大属性值和最小属性值；k＝1,2,...,K，m＝1,2,...,M，K和M分别表示高维数据F的规模和维数。

可选的，所述通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据，具体包括：

初始化所述多目标遗传算法的种群；所述种群包括多个个体；所述个体表示所述高维数据的扩展状态；

构建多目标评价指标；多目标评价指标包含所述高维数据的扩展维数、拓扑保持指标、Dunn指标；

通过多目标评价指标筛选出最优的个体，所述最优的个体表示最优的扩展状态；

根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据。

可选的，所述构建多目标评价指标，具体包括：

通过统计种群中各所述个体二进制编码中1的个数，确定所述高维数据的扩展维数；

根据公式确定各所述个体的拓扑保持指标，其中，TP表示拓扑保持指标，K表示高维数据F的规模，t_k表示第k组数据的等级排序，根据公式确定，u和s均表示最近邻数据点个数，通常u＝4，s＝10，NN_ky和nn_ky分别表示原始空间和映射空间第k组数据点y个最邻近的数据点，nn_kl和nn_kt分别表示映射空间第k组数据点l个和t个最邻近的数据点；

根据公式确定各所述个体Dunn指标，DI表示Dunn指标，d(x,y)表示映射点x和y的欧氏距离，C_i、C_j和C_k均表示映射点i、j、k的聚类簇，nc表示映射点聚类簇数，表示簇C_i和簇C_j的距离；表示簇C_k的直径。

可选的，所述根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据，具体包括：

统计所述归一化处理后的高维数据的各维度在[0，1]取值范围上r等分出现的概率，确定各维度的概率直方图；

利用近邻传播聚类算法对各所述概率直方图进行划分，确定各维度划分结果；

根据所述划分结果以及所述最优扩展状态进行维度扩展，得到维度扩展后的高维数据，其中，各个维度扩展后的维数等于各维概率分布直方图聚类簇数，各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值。

可选的，所述利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类，具体包括：

构建类圆空间C_O，所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间；

根据确定各组维度扩展后的高维数据维度之间的相关性，得到相似矩阵，其中，S_ij为所述相似矩阵中第i行第j列的元素，K表示高维数据F的规模，t_ki为第k个组数据在第i维的标序值，所述标序值为利用1到M个整数将所述维度扩展后的高维数据的各组数据按照在各维度上的属性值大小进行标序的数值；

通过求解所述相似矩阵的Laplace矩阵最大特征值对应的特征向量，确定Fiedler向量；

根据Fiedler向量中元素大小对所述各组维度扩展后的高维数据的维度进行排序，得到排序后的高维数据；

根据公式确定排序后的高维数据各维度在C_O圆弧上的坐标点V_λ(i)，其中，向量λ表示Fiedler向量元素大小的标序向量，λ(i)表示向量λ第i个元素值，i＝1,2,...,N，N为排序后的高维数据的维数；

在类圆空间中，对任一高维数据在坐标原点与坐标点V_λ(i)相连的直线上，确定到所述坐标原点的距离为的点，记为二维映射点，其中，为第k组数据在第λ(i)维上的属性值，任一个体对应N个二维映射点；

通过所述各组数据对应的二维空间点集构成一一对应的多边形，并确定多边形的几何中心；

通过t-分布邻域嵌入算法缩小所述多边形几何中心的同簇间距，增大所述多边形几何中心的异簇间距确定映射点位置，实现高维数据可视化聚类。

一种高维数据可视化聚类分析***，所述***包括：

预处理模块，用于对高维数据进行归一化预处理；

维度扩展模块，用于通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据；

映射模块，用于利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类。

可选的，所述维度扩展模块，具体包括：

初始化单元，用于初始化所述多目标遗传算法的种群；所述种群包括多个个体；所述个体表示所述高维数据的扩展状态；

指标构建单元，用于构建多目标评价指标；多目标评价指标包含所述高维数据的扩展维数、拓扑保持指标、Dunn指标；

筛选单元，用于通过多目标评价指标筛选出最优的个体，所述最优的个体表示最优的扩展状态；

维度扩展单元，用于根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据。

可选的，所述维度扩展单元，具体包括：

统计子单元，用于统计所述归一化处理后的高维数据的各维度在[0，1]取值范围上r等分出现的概率，确定各维度的概率直方图；

划分子单元，用于利用近邻传播聚类算法对各所述概率直方图进行划分，确定各维度划分结果；

扩展子单元，用于根据所述划分结果以及所述最优扩展状态进行维度扩展，得到维度扩展后的高维数据，其中，各个维度扩展后的维数等于各维概率分布直方图聚类簇数，各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值。

可选的，所述映射模块，具体包括：

类圆空间构建单元，用于构建类圆空间C_O，所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间；

相似矩阵确定单元，用于根据确定各组维度扩展后的高维数据维度之间的相关性，得到相似矩阵，其中，S_ij为所述相似矩阵中第i行第j列的元素，K表示高维数据F的规模，t_ki为第k个组数据在第i维的标序值，所述标序值为利用1到M个整数将所述维度扩展后的高维数据的各组数据按照在各维度上的属性值大小进行标序的数值；

Fiedler向量确定单元，用于通过求解所述相似矩阵的Laplace矩阵最大特征值对应的特征向量，确定Fiedler向量；

排序单元，用于根据Fiedler向量中元素大小对所述各组维度扩展后的高维数据的维度进行排序，得到排序后的高维数据；

坐标点确定单元，用于根据公式确定排序后的高维数据各维度在C_O圆弧上的坐标点V_λ(i)，其中，向量λ表示Fiedler向量元素大小的标序向量，λ(i)表示向量λ第i个元素值，i＝1,2,...,N，N为排序后的高维数据的维数；

二维映射点确定单元，用于在类圆空间中，对任一高维数据在坐标原点与坐标点V_λ(i)相连的直线上，确定到所述坐标原点的距离为的点，记为二维映射点，其中，为第k组数据在第λ(i)维上的属性值，任一个体对应N个二维映射点；

几何中心确定单元，用于通过所述各组数据对应的二维空间点集构成一一对应的多边形，并确定多边形的几何中心；

可视化聚类实现单元，用于通过t-分布邻域嵌入算法缩小所述多边形几何中心的同簇间距，增大所述多边形几何中心的异簇间距确定映射点位置，实现高维数据可视化聚类。

与现有技术相比，本发明具有以下技术效果：本发明对高维数据进行归一化预处理；通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据；利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类，本发明提供的高维数据可视化聚类分析方法及***能够保障可视化聚类分析的科学、有效性，从而能够更加高效地实现高维数据尤其是包含非线性结构高维数据的可视化聚类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例高维数据可视化聚类分析方法流程图；

图2为本发明实施例高维数据可视化聚类分析***的结构框图；

图3为本发明实施例当r＝20时，鸢尾花数据集各个维度的概率直方图及划分结果的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，高维数据可视化聚类分析方法包括以下步骤：

步骤101：对高维数据进行归一化预处理。

步骤102：通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据。具体包括：

1)初始化所述多目标遗传算法的种群；所述种群包括多个个体；所述个体表示所述高维数据的扩展状态。

2)构建多目标评价指标；多目标评价指标包含所述高维数据的扩展维数、拓扑保持指标、Dunn指标。具体的：

通过统计种群中各所述个体二进制编码中1的个数，确定所述高维数据的扩展维数。

3)通过多目标评价指标筛选出最优的个体，所述最优的个体表示最优的扩展状态。

4)根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据。统计所述归一化处理后的高维数据的各维度在[0，1]取值范围上r等分出现的概率，确定各维度的概率直方图；利用近邻传播聚类算法对各所述概率直方图进行划分，确定各维度划分结果；根据所述划分结果以及所述最优扩展状态进行维度扩展，得到维度扩展后的高维数据，其中，各个维度扩展后的维数等于各维概率分布直方图聚类簇数，各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值，该维度等于原始维度数据值所属等分，其余维度上的数据值为0。

步骤103：利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类。具体包括：

构构建类圆空间C_O，所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间；

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明对高维数据进行归一化预处理；通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据；利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类，本发明提供的高维数据可视化聚类分析方法及***能够保障可视化聚类分析的科学、有效性，从而能够更加高效地实现高维数据尤其是包含非线性结构高维数据的可视化聚类。

下面以规模为150的4维鸢尾花数据集为例，对本专利提出的可视化聚类分析方法做介绍。

步骤A：对鸢尾花数据集进行归一化预处理，具体包括：

根据公式对鸢尾花数据集F归一化预处理，其中，F_km和分别表示第k组鸢尾花数据集在第m维上的原始属性值和归一化后属性值；max(F_m)和min(F_m)分别表示鸢尾花数据集在第m维上最大和最小的属性值；k＝1,2,...,150，m＝1,2,3,4；

步骤B:通过NSGAII多目标遗传算法对归一化处理后的鸢尾花数据集进行维度扩展，得到维度扩展后的鸢尾花数据集，具体包括：

初始化所述NSGAII多目标遗传算法的种群；所述种群包括多个个体；所述个体表示所述高维数据二进制编码的扩展状态，长度为鸢尾花数据集维度4，其中，二进制编码中的1和0分别表示对应的鸢尾花数据集维度进行和不进行维度扩展；

构建多目标评价指标，多目标评价指标包含所述鸢尾花数据集的扩展维数、拓扑保持指标、Dunn指标；

通过所述多目标评价指标筛选出最优的个体，所述最优的个体表示鸢尾花数据集最优的扩展状态；

根据所述最优的扩展状态对归一化处理后的鸢尾花数据集进行维度扩展，得到维度扩展后的鸢尾花数据集，具体包括：

统计所述归一化处理后的鸢尾花数据集的各维度在[0，1]取值范围上20等分出现的概率，确定这4个维度概率直方图；

利用近邻传播聚类算法对各所述4个概率直方图进行划分，确定4个维度划分结果，所述概率分布的划分可以看作是对二维数据进行聚类，所述二维数据分别为各个维度概率分布直方图的x轴(即取值)和y轴(即概率值)。图3展示了鸢尾花数据集4个维度的概率直方图及划分结果，图中二维数据坐标用散点表示，同一划分类散点用同一类型折线相连。

根据所述划分结果以及所述最优扩展状态进行维度扩展，得到维度扩展后的高维鸢尾花数据集，其中，4个维度扩展后的维数等于对应概率分布直方图聚类簇数，各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值，该维度等于原始维度数据值所属等分，其余维度上的数据值为0。例如图3说明了鸢尾花数据集的第一维度被分成3部分，包括数据点分别为6个、7个和7个。即Iris数据集的第一维度被扩展成三个新的维度，并且在概率为0.3和0.65的地方被划分。由此可知，若鸢尾花数据集的第一维度的3组数据值分别为0.2、0.5、0.8，则其在新维度中的值分别为[0.200]，[00.50]，[000.8]。

步骤C：利用类圆映射可视化方法分别将所述各组维度扩展后的高维鸢尾花数据集映射至类圆空间，具体包括：

构建类圆空间，所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间；

根据确定各组维度扩展后的鸢尾花数据集维度之间的相关性，得到相似矩阵，其中，S_ij为所述相似矩阵中第i行第j列的元素，K表示高维数据F的规模，t_ki为第k个组数据在第i维的标序值，所述标序值为利用1到N个整数将所述维度扩展后的鸢尾花数据的各组数据按其在各维度上的属性值大小进行标序的数值，其中，N为维度扩展后鸢尾花数据集的维度；

通过求解所述相似矩阵的Laplace矩阵最大特征值对应的特征向量确定Fiedler向量；

根据Fiedler向量中元素大小对所述各组维度扩展后的高维鸢尾花数据集的维度进行排序，得到排序后的高维数据；

根据公式确定排序后的高维鸢尾花数据集各维度在C_O圆弧上的坐标点V_λ(i)，其中，向量λ表示Fiedler向量元素大小的标序向量，λ(i)表示向量λ第i个元素值，i＝1,2,...,N，N为排序后的高维数据的维数；

在类圆空间中，对任一维度扩展后的鸢尾花数据集在坐标原点与坐标点V_λ(i)相连的直线上，确定到所述坐标原点的距离为的点，记为二维映射点，其中，为第k组数据在第λ(i)维上的属性值，任一个体对应N个二维映射点；

通过所述各组鸢尾花数据集对应的二维空间点集构成一一对应的多边形，并确定多边形的几何中心；

通过t-SNE算法缩小所述多边形几何中心的同簇间距，增大所述多边形几何中心的异簇间距确定映射点位置，实现鸢尾花数据集可视化聚类。。

如图2所示，本发明还提供了一种高维数据可视化聚类分析***，所述***包括：

预处理模块201，用于对高维数据进行归一化预处理。根据公式对所述高维数据归一化预处理，其中，F_km和分别表示第k组高维数据在第m维上的原始属性值和归一化后属性值；max(F_m)和min(F_m)分别表示高维数据F在第m维上最大属性值和最小属性值；k＝1,2,...,K，m＝1,2,...,M，K和M分别表示高维数据F的规模和维数。

维度扩展模块202，用于通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据。

所述维度扩展模块202，具体包括：

指标构建单元，用于构建多目标评价指标；多目标评价指标包含所述高维数据的扩展维数、拓扑

保持指标、Dunn指标；具体的，通过统计种群中各所述个体二进制编码中1的个数，确定所述高维数据的扩展维数；根据公式确定各所述个体的拓扑保持指标，其中，TP表示拓扑保持指标，K表示高维数据F的规模，t_k表示第k组数据的等级排序，根据公式确定，u和s均表示最近邻数据点个数，通常u＝4，s＝10，NN_ky和nn_ky分别表示原始空间和映射空间第k组数据点y个最邻近的数据点，nn_kl和nn_kt分别表示映射空间第k组数据点l个和t个最邻近的数据点；

所述维度扩展单元，具体包括：

映射模块203，用于利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类。

所述映射模块203，具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种高维数据可视化聚类分析方法，其特征在于，所述方法包括：

对高维数据进行归一化预处理；

2.根据权利要求1所述的高维数据可视化聚类分析方法，其特征在于，所述对高维数据进行归一化预处理，具体包括：

3.根据权利要求1所述的高维数据可视化聚类分析方法，其特征在于，所述通过多目标遗传算法对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据，具体包括：

4.根据权利要求3所述的高维数据可视化聚类分析方法，其特征在于，所述构建多目标评价指标，具体包括：

5.根据权利要求3所述的高维数据可视化聚类分析方法，其特征在于，所述根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展，得到维度扩展后的高维数据，具体包括：

6.根据权利要求1所述的高维数据可视化聚类分析方法，其特征在于，所述利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间，实现高维数据的可视化聚类，具体包括：

7.一种高维数据可视化聚类分析***，其特征在于，所述***包括：

预处理模块，用于对高维数据进行归一化预处理；

8.根据权利要求7所述的高维数据可视化聚类分析***，其特征在于，所述维度扩展模块，具体包括：

9.根据权利要求8所述的高维数据可视化聚类分析***，其特征在于，所述维度扩展单元，具体包括：

10.根据权利要求7所述的高维数据可视化聚类分析***，其特征在于，所述映射模块，具体包括：