CN114677530A

CN114677530A - 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质

Info

Publication number: CN114677530A
Application number: CN202210247307.6A
Authority: CN
Inventors: 胡宇; 孟臻
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-28

Abstract

本发明提出一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质，该方法从聚类簇中随机抽取或加入任意元素，形成原始簇与簇；将原始簇与测试簇分别转化为二维图像；检测原始簇与测试簇二维图像的轮廓边界；计算原始簇与测试簇二维图像的轮廓的小波形状描述子，得到轮廓上每个像素的特征向量；分别计算原始簇与测试簇二维图像的相似性；构建聚类算法有效性评价模型，基于原始簇与测试簇二维图像的相似性即可计算作为聚类算法有效性评价模型的参数，即可评价聚类算法的有效性。该方法适用于所有聚类算法的有效性评价，使用前不需要预了解聚类算法相关信息，速度快、准确性高，实现了聚类算法有效性的盲评估。

Description

一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质

技术领域

本发明属于人工智能技术领域，特别是涉及一种基于小波形状描述子WD(WaveletDescriptor)的聚类算法有效性评价方法、设备及介质。

背景技术

研究或处理客观世界事物时，经常需要将事物分类。聚类算法是数据挖掘的重要的算法，它将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强，目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样本应该彼此相似，而属于不同组的样本应该足够不相似。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类，聚类分析所使用方法的不同，常常会得到不同的结论，不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。现有的聚类算法有二十余种，作为数据挖掘的重要算法，即可直接用于数据分析，又可作为开展其它分析的一个预处理过程，聚类效果的好坏直接决定各个数据分析结构的正确性。因此对聚类算法有效性开展客观科学的评估，是聚类算法使用的重要环节。

目前，聚类算法有效性评估主要是对聚类算法产生的结果的质量进行客观评价。常用的方法主要包括：估计聚类趋势、确定数据集中的簇数、测定聚类质量三类。现有评估方法多是有监督学习，对数据真实值或聚类算法的预知是结果质量评估的前置条件。而在数据真实值或聚类算法盲知，仅有聚类结果的条件下，如何评判聚类结果质量的好坏是聚类算法需要解决的问题。此外，现在聚类结果质量评估方法在数据规模的适应性方法具有一定的局限性，不同的评估方法适用不同的数据规模，因此构建一个突破数据规模限制的聚类算法有效性评估方法也是聚类算法需要解决的问题。通过对上述两个缺陷问题的解决，可以拓展聚类算法有效性评估的使用范围，适用于数据真实性或聚类算法盲知的条件，及各种规模的数据集。

发明内容

本发明为了解决现有技术中的问题，提出了一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质。

本发明是通过以下技术方案实现的，本发明提出一种基于小波形状描述子的聚类算法有效性评价方法，所述方法具体包括：

随机生成多个服从正态分布的数据构成数据集；

在构建的数据集上采用任一聚类算法进行聚类，将聚类结果的任一簇作为原始簇，添加或移除任意个元素作为测试簇；

采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图；

利用高斯滤波器及梯度函数，检测原始簇与测试簇二维映射图的边缘轮廓，利用小波形状描述子分别计算二者的边缘轮廓特征；

采用图像相似度的方法计算原始簇与测试簇的二维映射图的边缘轮廓的形状相似度实现聚类结果的质量评估，即聚类算法的有效性评估。

进一步地，利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。

进一步地，假设数据集被分为N个类，分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N；从中随机挑选一个簇作为实验对象，即原始簇Ⅰ，向其随机添加或移除n个元素，生成测试簇Ⅰ。

进一步地，所述原始簇Ⅰ进行图形化过程，所述图形化过程是以原始簇Ⅰ中任一点作为三角形的顶点，将与它欧氏距离最近的两个点与其连接，经过N次迭代得到德劳内三角网络；记录共用各点的三角形，求出三角形的外接圆圆心，再按顺时针方向连接圆心即为该点对应的泰森多边形。

进一步地，所述采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图，具体为：

设(X,Y)＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}表示原始簇Ⅰ上N个不重复的点组成的点集P；

①将所述N个点以x坐标为主，以y坐标为辅进行排序；

②构造过程：

ⅰ如果N＝2，则直接返回；

ⅱ如果N＝3，则连接三个点构成三角网，返回；

ⅲ将N个点平均或者按最近原则分成两份子点集P_l和P_r；

ⅳ分别构建点集P_l和点集P_r的德劳内三角网络DT(P_l)与DT(P_r)；

ⅴ合并DT(P_l)与DT(P_r)为DT(P)；

③合并过程：

ⅰ对于给定的DT(P_l)与DT(P_r)，计算点集P_l和P_r的凸包；

ⅱ得到顶端切线UCT与底端切线BCT，两切线在最终合并的三角网中是可见的；

ⅲ从凸包的底端切线开始，利用切线的左端点、右端点以及它们的相邻点进行局部更新以完成DT(P_l)与DT(P_r)，直到遇到顶端切线UCT为止。

进一步地，所述检测原始簇与测试簇二维映射图的边缘轮廓，具体为：

步骤(1)图像与高斯平滑滤波器卷积：

采用大小为(2K+1)×(2K+1)高斯滤波器核式对图像进行高斯滤波：

其中，K为正整数，H_ij表示第i行第j列的像素值，σ标准差；

若映射图像中一个3×3的窗口为A，要滤波的像素点为e，则经过高斯滤波后，像素点e的亮度值e′为：

其中*为卷积体符号，sum表示矩阵中所有元素相加求和；

步骤(2)计算滤波后的原始簇Ⅰ二维映射图的水平、垂直和对角边缘，返回水平G_x和垂直方向G_y方向的一阶导数，确定像素点的梯度强度G和方向梯度θ；

已用高斯滤波器平滑的二维映射图记为g(x,y)，其梯度使用2×2一阶有限差分近似来计算x和y偏导数的两个阵列f_x'(x,y)与f_y'(x,y)：

f′_x(x,y)≈G_x＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)

f′_y(x,y)≈G_y＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)

在2×2正方形内求有限差分的均值，以便在图像中的同一点计算x和y的偏导数梯度；梯度强度G和方向梯度θ用直角坐标到极坐标转化公式来计算：

步骤(3)对梯度幅值进行非极大值仰制：利用梯度的方向将梯度角离散为圆周的四个方向之一，以便用3×3的窗口作为抑制运算；四个扇区的标号为0～3，对应3*3邻域的四种可能组合；在每一点上，邻域的中心像素G(x,y)与沿着梯度线的两个像素相比，如果G(x,y)的梯度值小于沿梯度线的两个像素梯度值，则令G(x,y)＝0；

步骤(4)二维映射图轮廓边缘的检测与连接：对非极大值抑制图像作用两个阈值th1和th2，且th1＝0.4th2；把梯度值小于th1的像素的灰度值设为0，得到图像1；把梯度值小于th2的像素的灰度值设为0，得到图像2；图像2以高阈值为基数得到，在去除噪声的同时也造成了有用边缘信息的损失；而图像1以低阈值为基数取得，虽然噪音多，但也保留了多的信息；因此，采用图像1与图像2相结合的方法完成图像轮廓边缘的连接；

所述采用图像1与图像2相结合的方法完成图像轮廓边缘的连接，具体为：

第一步：当在图像2上遇到一个非零灰度的像素p(x,y)时，按照一定方向跟踪以p(x,y)为起点的轮廓线，直到轮廓线的终点q(x,y)；第二步：找到图像1中与q(x,y)点位置相对应的点s(x,y)的8邻近区域；第三步：如果在s(x,y)点的8邻近区域中有非零像素存在，则将其包括在图像2中，记作r(x,y)点；第四步：从r(x,y)开始，重复第一步，直到在图像1与图像2中都无法继续为止；

当完成对包含p(x,y)的轮廓线的连续之后，将这条轮廓线标记为已经访问，回到第一步，寻找下一条轮廓线，重复第二步、第三步和第四步，直到图像2中找不到新轮廓线为止；

至此，原始簇Ⅰ的二维映射图的轮廓边缘提取完成。

进一步地，所述利用小波形状描述子分别计算二者的边缘轮廓特征，具体为：

(1)原始簇Ⅰ二维映射图半径序列计算：从原始簇Ⅰ二维映射图上任选一点(x_k,y_k),k＝0,1,2,…，作为起点沿逆时针方向以一定的速度移动一周，就可以用边界点的坐标序列对来描述边界；利用格林公式对映射图的闭合边界开展积分计算形心：

其中B表示闭区域；

离散化为：

以形心(x_c,y_c)为圆心，依据边界点的序列对(x_k,y_k),k＝0,1,2,…,m-1计算半径序列，并归一化处理：

(2)提取原始簇Ⅰ二维映射图边缘轮廓小波形状描述子，形成轮廓边缘的特征向量；在原始簇Ⅰ二维映射图边缘轮廓上均匀设置m＝345个采样点，提取半径序列r_g(k)，选取Biorthogonal小波基，对半径序列对进行3～5层小波分解，

其中，

分别为L²([0,1])上周期尺度函数和小波函数；

称为尺度系数，

称为小波系数，二者作为原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓特征的小波描述子WD1和WD2。

进一步地，构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数，其值作为聚类算法有效性的评估指标：

其中cov()表示两个描述子的协方差，σ表示描述子向量的标准差；sim的值越接近1，说明聚类算法的稳定性越好。

本发明提出一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述一种基于小波形状描述子的聚类算法有效性评价方法的步骤。

本发明提出一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现所述一种基于小波形状描述子的聚类算法有效性评价方法的步骤。

本发明的有益效果为：

本发明提出的基于小波形状描述子的聚类算法有效性评估方法，在分析了聚类结果的类簇分离特性，聚类结果稳定性与类边界形状变化的相关性，提出可以在数据真实值或聚类算法未知的条件下，基于簇边界形状变化程度值的评估聚类算法有效性的指标。所述方法首先通过对聚类簇内的元素数量做随机增减，形成原始簇与测试簇。然后利用德劳内三角函数将原始簇与测试簇分别映射为二维图像。利用利用高斯滤波器及梯度函数提取原始簇与测试簇的轮廓边界及边界像素序列对，采用小波形状描述子计算二者的形状特征描述向量。构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数，其值作为聚类算法有效性的评估指标。本发明方法编制的程序(编译环境R语言)可以在主流配置计算机上运行，实现聚类算法的有效性评价，解决聚类算法有效性无监督评估的问题。

附图说明

图1是本发明方法的流程图；

图2是本发明方法实例中原始簇Ⅰ的三角形网络图；

图3是本发明方法实例中测试簇Ⅰ的三角形网络图；

图4是水平方向梯度计算示意图；

图5是垂直方向梯度计算示意图；

图6是3×3窗口抑制运算示意图；

图7是本发明方法实例中原始簇Ⅰ的轮廓边缘图；

图8是本发明方法实例中测试簇Ⅰ的轮廓边缘图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-8，本发明提出一种基于小波形状描述子的聚类算法有效性评价方法，通过图像相似度计算的方法评估聚类结果的质量，所述方法具体包括：

随机生成多个服从正态分布的数据构成数据集；

利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。

假设数据集被分为N个类，分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N；从中随机挑选一个簇作为实验对象，即原始簇Ⅰ，向其随机添加或移除n个元素，生成测试簇Ⅰ。

所述原始簇Ⅰ进行图形化过程，所述图形化过程是以原始簇Ⅰ中任一点作为三角形的顶点，将与它欧氏距离最近的两个点与其连接，经过N次迭代得到德劳内三角网络；记录共用各点的三角形，求出三角形的外接圆圆心，再按顺时针方向连接圆心即为该点对应的泰森多边形。

所述采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图，具体为：

①将所述N个点以x坐标为主，以y坐标为辅进行排序；

②构造过程：

ⅰ如果N＝2，则直接返回；

ⅱ如果N＝3，则连接三个点构成三角网，返回；

ⅲ将N个点平均或者按最近原则分成两份子点集P_l和P_r；

ⅴ合并DT(P_l)与DT(P_r)为DT(P)；

③合并过程：

ⅰ对于给定的DT(P_l)与DT(P_r)，计算点集P_l和P_r的凸包；

ⅲ从凸包的底端切线开始，利用切线的左端点、右端点以及它们的相邻点(左端点按逆时针方向，右端点按顺时针方向)进行局部更新以完成DT(P_l)与DT(P_r)，直到遇到顶端切线UCT为止。

原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓边缘检测。以原始簇Ⅰ的轮廓边缘提取过程为例进行描述。

由于原始簇Ⅰ在进行二维图像映射的过程中，会产生噪点等影响二维映射图轮廓边缘提取质量的因素，需要首先完成图像的平滑操作，以减少边缘检测器上明显的噪声影响；

所述检测原始簇与测试簇二维映射图的边缘轮廓，具体为：

步骤(1)图像与高斯平滑滤波器卷积：

其中，K为正整数，H_ij表示第i行第j列的像素值，σ标准差；

其中*为卷积体符号，sum表示矩阵中所有元素相加求和；

已用高斯滤波器平滑的二维映射图记为g(x,y)，其梯度使用2×2一阶有限差分近似来计算x和y偏导数的两个阵列f′_x(x,y)与f′_y(x,y)：

f′_x(x,y)≈G_x＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)

f′_y(x,y)≈G_y＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)

像素点的梯度值具体如表1所示：

表1像素点的梯度值

步骤(3)对梯度幅值进行非极大值仰制：仅仅得到全局的梯度并不足以确定边缘，必须保留局部梯度最大的点，而抑制非极大值。利用梯度的方向将梯度角离散为圆周的四个方向之一，以便用3×3的窗口作为抑制运算；四个扇区的标号为0～3，对应3*3邻域的四种可能组合；在每一点上，邻域的中心像素G(x,y)与沿着梯度线的两个像素相比，如果G(x,y)的梯度值小于沿梯度线的两个像素梯度值，则令G(x,y)＝0；

至此，原始簇Ⅰ的二维映射图的轮廓边缘提取完成。

所述利用小波形状描述子分别计算二者的边缘轮廓特征，具体为：

其中B表示闭区域；

离散化为：

其中，

分别为L²([0,1])上周期尺度函数和小波函数；

称为尺度系数，

如果聚类算法的稳定性好，则类中心的凝聚力较强，即向某一类中添加或移除同类数据时，聚类结果的形状变化极小，反之则形状变化较大。因此，将原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓形状的相似性定义为聚类算法有效性的评价标准，以聚类簇中心对簇内其它元素凝聚力与簇边缘轮廓变化程度大小的相关性为核心思想，构建聚类算法有效性评价方法。构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数，其值作为聚类算法有效性的评估指标：

实施例

本发明所述方法采用以下实例进行详细说明：

⑴利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。数据集样本点如表2所示：

表2数据集样本点

⑵在构建的数据集上采用任一聚类算法进行聚类。假设数据集被分为N个类，分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N。从中随机挑选一个簇作为实验对象，如原始簇Ⅰ。再次随机生个200个服从正态分布的数据，加入原始簇Ⅰ，生成测试簇Ⅰ。原始簇Ⅰ样本数据如表3所示，测试簇Ⅰ样本数据如表4所示；

表3原始簇Ⅰ样本数据

表4测试簇Ⅰ样本数据

⑶采用德劳内函数将步骤⑵中表3与表4中空间点集映射为三角网络二维映射图。

以表3的数据为例，将表3中任一点作为三角形的顶点，将与它欧氏距离最近的两个点与其连接，经过N次迭代得到德劳内三角网络。记录共用各点的三角形，求出三角形的外接圆圆心，再按顺时针方向连接圆心即为该点对应的泰森多边形。算法流程如下：

表3记录了原始簇Ⅰ上5320个不重复的点组成的点集P。

①将这5320个点以x坐标为主，以y坐标为辅进行排序。

②构造过程：

ⅰ将5320个点平均或者按最近原则分成两份子点集P_l和P_r；

ⅱ分别构建点集P_l和点集P_r的德劳内三角网络DT(P_l)与DT(P_r)；

ⅲ合并DT(P_l)与DT(P_r)为DT(P)；

③合并过程

ⅰ对于给定的DT(P_l)与DT(P_r)，计算点集P_l和P_r的凸包；

ⅱ得到顶端切线UCT与底端切线BCT，并在最终合并的三角网中两切线是可以看见的；

⑷原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓边缘检测。

所述检测原始簇与测试簇二维映射图的边缘轮廓，具体为：

步骤(1)图像与高斯平滑滤波器卷积：

其中，K为正整数，H_ij表示第i行第j列的像素值，σ标准差；这里选择K＝1；

其中*为卷积体符号，sum表示矩阵中所有元素相加求和；

f′_x(x,y)≈G_x＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)

f′_y(x,y)≈G_y＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)

像素点的梯度值具体如表5所示：

表5像素点的梯度值

至此，原始簇Ⅰ的二维映射图的轮廓边缘提取完成。

⑸基于小波形状描述子计算原始簇Ⅰ与测试簇Ⅰ的二级映射图轮廓边缘特征向量。

步骤(1)原始簇Ⅰ二维映射图半径序列计算：从原始簇Ⅰ二维映射图上任选一点(x_k,y_k),k＝0,1,2,…，作为起点沿逆时针方向以一定的速度移动一周，就可以用边界点的坐标序列对来描述边界；原始簇Ⅰ轮廓边界序列对如表6所示；测试簇Ⅰ轮廓边界序列对如表7所示；

表6原始簇Ⅰ轮廓边界序列对

表7测试簇Ⅰ轮廓边界序列对

利用格林公式对映射图的闭合边界开展积分计算形心：

其中B表示闭区域；

离散化为：

步骤(2)提取原始簇Ⅰ二维映射图边缘轮廓小波形状描述子，形成轮廓边缘的特征向量；在原始簇Ⅰ二维映射图边缘轮廓上均匀设置m＝345个采样点，提取半径序列r_g(k)，选取Biorthogonal小波基，对半径序列对进行3～5层小波分解，

其中，

分别为L²([0,1])上周期尺度函数和小波函数；

称为尺度系数，

称为小波系数，二者作为原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓特征的小波描述子WD1和WD2。原始簇Ⅰ与测试簇Ⅰ二维映射图轮廓边界小波形状描述子如表8所示：

表8原始簇Ⅰ与测试簇Ⅰ二维映射图轮廓边界小波形状描述子

其中cov()表示两个描述子的协方差，σ表示描述子向量的标准差；sim的值大于0.5，小于1，说明聚类算法的稳定性越好。

以上对本发明所提出的一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。