CN114677530A - 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质 - Google Patents

一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质 Download PDF

Info

Publication number
CN114677530A
CN114677530A CN202210247307.6A CN202210247307A CN114677530A CN 114677530 A CN114677530 A CN 114677530A CN 202210247307 A CN202210247307 A CN 202210247307A CN 114677530 A CN114677530 A CN 114677530A
Authority
CN
China
Prior art keywords
cluster
image
point
gradient
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210247307.6A
Other languages
English (en)
Inventor
胡宇
孟臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202210247307.6A priority Critical patent/CN114677530A/zh
Publication of CN114677530A publication Critical patent/CN114677530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质,该方法从聚类簇中随机抽取或加入任意元素,形成原始簇与簇;将原始簇与测试簇分别转化为二维图像;检测原始簇与测试簇二维图像的轮廓边界;计算原始簇与测试簇二维图像的轮廓的小波形状描述子,得到轮廓上每个像素的特征向量;分别计算原始簇与测试簇二维图像的相似性;构建聚类算法有效性评价模型,基于原始簇与测试簇二维图像的相似性即可计算作为聚类算法有效性评价模型的参数,即可评价聚类算法的有效性。该方法适用于所有聚类算法的有效性评价,使用前不需要预了解聚类算法相关信息,速度快、准确性高,实现了聚类算法有效性的盲评估。

Description

一种基于小波形状描述子的聚类算法有效性评价方法、设备 及介质
技术领域
本发明属于人工智能技术领域,特别是涉及一种基于小波形状描述子WD(WaveletDescriptor)的聚类算法有效性评价方法、设备及介质。
背景技术
研究或处理客观世界事物时,经常需要将事物分类。聚类算法是数据挖掘的重要的算法,它将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强,目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类,聚类分析所使用方法的不同,常常会得到不同的结论,不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。现有的聚类算法有二十余种,作为数据挖掘的重要算法,即可直接用于数据分析,又可作为开展其它分析的一个预处理过程,聚类效果的好坏直接决定各个数据分析结构的正确性。因此对聚类算法有效性开展客观科学的评估,是聚类算法使用的重要环节。
目前,聚类算法有效性评估主要是对聚类算法产生的结果的质量进行客观评价。常用的方法主要包括:估计聚类趋势、确定数据集中的簇数、测定聚类质量三类。现有评估方法多是有监督学习,对数据真实值或聚类算法的预知是结果质量评估的前置条件。而在数据真实值或聚类算法盲知,仅有聚类结果的条件下,如何评判聚类结果质量的好坏是聚类算法需要解决的问题。此外,现在聚类结果质量评估方法在数据规模的适应性方法具有一定的局限性,不同的评估方法适用不同的数据规模,因此构建一个突破数据规模限制的聚类算法有效性评估方法也是聚类算法需要解决的问题。通过对上述两个缺陷问题的解决,可以拓展聚类算法有效性评估的使用范围,适用于数据真实性或聚类算法盲知的条件,及各种规模的数据集。
发明内容
本发明为了解决现有技术中的问题,提出了一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质。
本发明是通过以下技术方案实现的,本发明提出一种基于小波形状描述子的聚类算法有效性评价方法,所述方法具体包括:
随机生成多个服从正态分布的数据构成数据集;
在构建的数据集上采用任一聚类算法进行聚类,将聚类结果的任一簇作为原始簇,添加或移除任意个元素作为测试簇;
采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图;
利用高斯滤波器及梯度函数,检测原始簇与测试簇二维映射图的边缘轮廓,利用小波形状描述子分别计算二者的边缘轮廓特征;
采用图像相似度的方法计算原始簇与测试簇的二维映射图的边缘轮廓的形状相似度实现聚类结果的质量评估,即聚类算法的有效性评估。
进一步地,利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。
进一步地,假设数据集被分为N个类,分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N;从中随机挑选一个簇作为实验对象,即原始簇Ⅰ,向其随机添加或移除n个元素,生成测试簇Ⅰ。
进一步地,所述原始簇Ⅰ进行图形化过程,所述图形化过程是以原始簇Ⅰ中任一点作为三角形的顶点,将与它欧氏距离最近的两个点与其连接,经过N次迭代得到德劳内三角网络;记录共用各点的三角形,求出三角形的外接圆圆心,再按顺时针方向连接圆心即为该点对应的泰森多边形。
进一步地,所述采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图,具体为:
设(X,Y)={(x1,y1),(x2,y2),…,(xn,yn)}表示原始簇Ⅰ上N个不重复的点组成的点集P;
①将所述N个点以x坐标为主,以y坐标为辅进行排序;
②构造过程:
ⅰ如果N=2,则直接返回;
ⅱ如果N=3,则连接三个点构成三角网,返回;
ⅲ将N个点平均或者按最近原则分成两份子点集Pl和Pr
ⅳ分别构建点集Pl和点集Pr的德劳内三角网络DT(Pl)与DT(Pr);
ⅴ合并DT(Pl)与DT(Pr)为DT(P);
③合并过程:
ⅰ对于给定的DT(Pl)与DT(Pr),计算点集Pl和Pr的凸包;
ⅱ得到顶端切线UCT与底端切线BCT,两切线在最终合并的三角网中是可见的;
ⅲ从凸包的底端切线开始,利用切线的左端点、右端点以及它们的相邻点进行局部更新以完成DT(Pl)与DT(Pr),直到遇到顶端切线UCT为止。
进一步地,所述检测原始簇与测试簇二维映射图的边缘轮廓,具体为:
步骤(1)图像与高斯平滑滤波器卷积:
采用大小为(2K+1)×(2K+1)高斯滤波器核式对图像进行高斯滤波:
Figure BDA0003545289300000031
其中,K为正整数,Hij表示第i行第j列的像素值,σ标准差;
若映射图像中一个3×3的窗口为A,要滤波的像素点为e,则经过高斯滤波后,像素点e的亮度值e′为:
Figure BDA0003545289300000032
其中*为卷积体符号,sum表示矩阵中所有元素相加求和;
步骤(2)计算滤波后的原始簇Ⅰ二维映射图的水平、垂直和对角边缘,返回水平Gx和垂直方向Gy方向的一阶导数,确定像素点的梯度强度G和方向梯度θ;
已用高斯滤波器平滑的二维映射图记为g(x,y),其梯度使用2×2一阶有限差分近似来计算x和y偏导数的两个阵列fx'(x,y)与fy'(x,y):
f′x(x,y)≈Gx=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)
f′y(x,y)≈Gy=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)
在2×2正方形内求有限差分的均值,以便在图像中的同一点计算x和y的偏导数梯度;梯度强度G和方向梯度θ用直角坐标到极坐标转化公式来计算:
Figure BDA0003545289300000041
步骤(3)对梯度幅值进行非极大值仰制:利用梯度的方向将梯度角离散为圆周的四个方向之一,以便用3×3的窗口作为抑制运算;四个扇区的标号为0~3,对应3*3邻域的四种可能组合;在每一点上,邻域的中心像素G(x,y)与沿着梯度线的两个像素相比,如果G(x,y)的梯度值小于沿梯度线的两个像素梯度值,则令G(x,y)=0;
步骤(4)二维映射图轮廓边缘的检测与连接:对非极大值抑制图像作用两个阈值th1和th2,且th1=0.4th2;把梯度值小于th1的像素的灰度值设为0,得到图像1;把梯度值小于th2的像素的灰度值设为0,得到图像2;图像2以高阈值为基数得到,在去除噪声的同时也造成了有用边缘信息的损失;而图像1以低阈值为基数取得,虽然噪音多,但也保留了多的信息;因此,采用图像1与图像2相结合的方法完成图像轮廓边缘的连接;
所述采用图像1与图像2相结合的方法完成图像轮廓边缘的连接,具体为:
第一步:当在图像2上遇到一个非零灰度的像素p(x,y)时,按照一定方向跟踪以p(x,y)为起点的轮廓线,直到轮廓线的终点q(x,y);第二步:找到图像1中与q(x,y)点位置相对应的点s(x,y)的8邻近区域;第三步:如果在s(x,y)点的8邻近区域中有非零像素存在,则将其包括在图像2中,记作r(x,y)点;第四步:从r(x,y)开始,重复第一步,直到在图像1与图像2中都无法继续为止;
当完成对包含p(x,y)的轮廓线的连续之后,将这条轮廓线标记为已经访问,回到第一步,寻找下一条轮廓线,重复第二步、第三步和第四步,直到图像2中找不到新轮廓线为止;
至此,原始簇Ⅰ的二维映射图的轮廓边缘提取完成。
进一步地,所述利用小波形状描述子分别计算二者的边缘轮廓特征,具体为:
(1)原始簇Ⅰ二维映射图半径序列计算:从原始簇Ⅰ二维映射图上任选一点(xk,yk),k=0,1,2,…,作为起点沿逆时针方向以一定的速度移动一周,就可以用边界点的坐标序列对来描述边界;利用格林公式对映射图的闭合边界开展积分计算形心:
Figure BDA0003545289300000051
其中B表示闭区域;
离散化为:
Figure BDA0003545289300000052
以形心(xc,yc)为圆心,依据边界点的序列对(xk,yk),k=0,1,2,…,m-1计算半径序列,并归一化处理:
Figure BDA0003545289300000053
(2)提取原始簇Ⅰ二维映射图边缘轮廓小波形状描述子,形成轮廓边缘的特征向量;在原始簇Ⅰ二维映射图边缘轮廓上均匀设置m=345个采样点,提取半径序列rg(k),选取Biorthogonal小波基,对半径序列对进行3~5层小波分解,
Figure BDA0003545289300000061
其中,
Figure BDA0003545289300000062
分别为L2([0,1])上周期尺度函数和小波函数;
Figure BDA0003545289300000063
称为尺度系数,
Figure BDA0003545289300000064
称为小波系数,二者作为原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓特征的小波描述子WD1和WD2。
进一步地,构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数,其值作为聚类算法有效性的评估指标:
Figure BDA0003545289300000065
其中cov()表示两个描述子的协方差,σ表示描述子向量的标准差;sim的值越接近1,说明聚类算法的稳定性越好。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种基于小波形状描述子的聚类算法有效性评价方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种基于小波形状描述子的聚类算法有效性评价方法的步骤。
本发明的有益效果为:
本发明提出的基于小波形状描述子的聚类算法有效性评估方法,在分析了聚类结果的类簇分离特性,聚类结果稳定性与类边界形状变化的相关性,提出可以在数据真实值或聚类算法未知的条件下,基于簇边界形状变化程度值的评估聚类算法有效性的指标。所述方法首先通过对聚类簇内的元素数量做随机增减,形成原始簇与测试簇。然后利用德劳内三角函数将原始簇与测试簇分别映射为二维图像。利用利用高斯滤波器及梯度函数提取原始簇与测试簇的轮廓边界及边界像素序列对,采用小波形状描述子计算二者的形状特征描述向量。构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数,其值作为聚类算法有效性的评估指标。本发明方法编制的程序(编译环境R语言)可以在主流配置计算机上运行,实现聚类算法的有效性评价,解决聚类算法有效性无监督评估的问题。
附图说明
图1是本发明方法的流程图;
图2是本发明方法实例中原始簇Ⅰ的三角形网络图;
图3是本发明方法实例中测试簇Ⅰ的三角形网络图;
图4是水平方向梯度计算示意图;
图5是垂直方向梯度计算示意图;
图6是3×3窗口抑制运算示意图;
图7是本发明方法实例中原始簇Ⅰ的轮廓边缘图;
图8是本发明方法实例中测试簇Ⅰ的轮廓边缘图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1-8,本发明提出一种基于小波形状描述子的聚类算法有效性评价方法,通过图像相似度计算的方法评估聚类结果的质量,所述方法具体包括:
随机生成多个服从正态分布的数据构成数据集;
在构建的数据集上采用任一聚类算法进行聚类,将聚类结果的任一簇作为原始簇,添加或移除任意个元素作为测试簇;
采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图;
利用高斯滤波器及梯度函数,检测原始簇与测试簇二维映射图的边缘轮廓,利用小波形状描述子分别计算二者的边缘轮廓特征;
采用图像相似度的方法计算原始簇与测试簇的二维映射图的边缘轮廓的形状相似度实现聚类结果的质量评估,即聚类算法的有效性评估。
利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。
假设数据集被分为N个类,分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N;从中随机挑选一个簇作为实验对象,即原始簇Ⅰ,向其随机添加或移除n个元素,生成测试簇Ⅰ。
所述原始簇Ⅰ进行图形化过程,所述图形化过程是以原始簇Ⅰ中任一点作为三角形的顶点,将与它欧氏距离最近的两个点与其连接,经过N次迭代得到德劳内三角网络;记录共用各点的三角形,求出三角形的外接圆圆心,再按顺时针方向连接圆心即为该点对应的泰森多边形。
所述采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图,具体为:
设(X,Y)={(x1,y1),(x2,y2),…,(xn,yn)}表示原始簇Ⅰ上N个不重复的点组成的点集P;
①将所述N个点以x坐标为主,以y坐标为辅进行排序;
②构造过程:
ⅰ如果N=2,则直接返回;
ⅱ如果N=3,则连接三个点构成三角网,返回;
ⅲ将N个点平均或者按最近原则分成两份子点集Pl和Pr
ⅳ分别构建点集Pl和点集Pr的德劳内三角网络DT(Pl)与DT(Pr);
ⅴ合并DT(Pl)与DT(Pr)为DT(P);
③合并过程:
ⅰ对于给定的DT(Pl)与DT(Pr),计算点集Pl和Pr的凸包;
ⅱ得到顶端切线UCT与底端切线BCT,两切线在最终合并的三角网中是可见的;
ⅲ从凸包的底端切线开始,利用切线的左端点、右端点以及它们的相邻点(左端点按逆时针方向,右端点按顺时针方向)进行局部更新以完成DT(Pl)与DT(Pr),直到遇到顶端切线UCT为止。
原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓边缘检测。以原始簇Ⅰ的轮廓边缘提取过程为例进行描述。
由于原始簇Ⅰ在进行二维图像映射的过程中,会产生噪点等影响二维映射图轮廓边缘提取质量的因素,需要首先完成图像的平滑操作,以减少边缘检测器上明显的噪声影响;
所述检测原始簇与测试簇二维映射图的边缘轮廓,具体为:
步骤(1)图像与高斯平滑滤波器卷积:
采用大小为(2K+1)×(2K+1)高斯滤波器核式对图像进行高斯滤波:
Figure BDA0003545289300000091
其中,K为正整数,Hij表示第i行第j列的像素值,σ标准差;
若映射图像中一个3×3的窗口为A,要滤波的像素点为e,则经过高斯滤波后,像素点e的亮度值e′为:
Figure BDA0003545289300000092
其中*为卷积体符号,sum表示矩阵中所有元素相加求和;
步骤(2)计算滤波后的原始簇Ⅰ二维映射图的水平、垂直和对角边缘,返回水平Gx和垂直方向Gy方向的一阶导数,确定像素点的梯度强度G和方向梯度θ;
已用高斯滤波器平滑的二维映射图记为g(x,y),其梯度使用2×2一阶有限差分近似来计算x和y偏导数的两个阵列f′x(x,y)与f′y(x,y):
f′x(x,y)≈Gx=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)
f′y(x,y)≈Gy=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)
像素点的梯度值具体如表1所示:
表1像素点的梯度值
Figure BDA0003545289300000093
在2×2正方形内求有限差分的均值,以便在图像中的同一点计算x和y的偏导数梯度;梯度强度G和方向梯度θ用直角坐标到极坐标转化公式来计算:
Figure BDA0003545289300000094
步骤(3)对梯度幅值进行非极大值仰制:仅仅得到全局的梯度并不足以确定边缘,必须保留局部梯度最大的点,而抑制非极大值。利用梯度的方向将梯度角离散为圆周的四个方向之一,以便用3×3的窗口作为抑制运算;四个扇区的标号为0~3,对应3*3邻域的四种可能组合;在每一点上,邻域的中心像素G(x,y)与沿着梯度线的两个像素相比,如果G(x,y)的梯度值小于沿梯度线的两个像素梯度值,则令G(x,y)=0;
步骤(4)二维映射图轮廓边缘的检测与连接:对非极大值抑制图像作用两个阈值th1和th2,且th1=0.4th2;把梯度值小于th1的像素的灰度值设为0,得到图像1;把梯度值小于th2的像素的灰度值设为0,得到图像2;图像2以高阈值为基数得到,在去除噪声的同时也造成了有用边缘信息的损失;而图像1以低阈值为基数取得,虽然噪音多,但也保留了多的信息;因此,采用图像1与图像2相结合的方法完成图像轮廓边缘的连接;
所述采用图像1与图像2相结合的方法完成图像轮廓边缘的连接,具体为:
第一步:当在图像2上遇到一个非零灰度的像素p(x,y)时,按照一定方向跟踪以p(x,y)为起点的轮廓线,直到轮廓线的终点q(x,y);第二步:找到图像1中与q(x,y)点位置相对应的点s(x,y)的8邻近区域;第三步:如果在s(x,y)点的8邻近区域中有非零像素存在,则将其包括在图像2中,记作r(x,y)点;第四步:从r(x,y)开始,重复第一步,直到在图像1与图像2中都无法继续为止;
当完成对包含p(x,y)的轮廓线的连续之后,将这条轮廓线标记为已经访问,回到第一步,寻找下一条轮廓线,重复第二步、第三步和第四步,直到图像2中找不到新轮廓线为止;
至此,原始簇Ⅰ的二维映射图的轮廓边缘提取完成。
所述利用小波形状描述子分别计算二者的边缘轮廓特征,具体为:
(1)原始簇Ⅰ二维映射图半径序列计算:从原始簇Ⅰ二维映射图上任选一点(xk,yk),k=0,1,2,…,作为起点沿逆时针方向以一定的速度移动一周,就可以用边界点的坐标序列对来描述边界;利用格林公式对映射图的闭合边界开展积分计算形心:
Figure BDA0003545289300000101
其中B表示闭区域;
离散化为:
Figure BDA0003545289300000111
以形心(xc,yc)为圆心,依据边界点的序列对(xk,yk),k=0,1,2,…,m-1计算半径序列,并归一化处理:
Figure BDA0003545289300000112
(2)提取原始簇Ⅰ二维映射图边缘轮廓小波形状描述子,形成轮廓边缘的特征向量;在原始簇Ⅰ二维映射图边缘轮廓上均匀设置m=345个采样点,提取半径序列rg(k),选取Biorthogonal小波基,对半径序列对进行3~5层小波分解,
Figure BDA0003545289300000113
其中,
Figure BDA0003545289300000114
分别为L2([0,1])上周期尺度函数和小波函数;
Figure BDA0003545289300000115
称为尺度系数,
Figure BDA0003545289300000116
称为小波系数,二者作为原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓特征的小波描述子WD1和WD2。
如果聚类算法的稳定性好,则类中心的凝聚力较强,即向某一类中添加或移除同类数据时,聚类结果的形状变化极小,反之则形状变化较大。因此,将原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓形状的相似性定义为聚类算法有效性的评价标准,以聚类簇中心对簇内其它元素凝聚力与簇边缘轮廓变化程度大小的相关性为核心思想,构建聚类算法有效性评价方法。构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数,其值作为聚类算法有效性的评估指标:
Figure BDA0003545289300000121
其中cov()表示两个描述子的协方差,σ表示描述子向量的标准差;sim的值越接近1,说明聚类算法的稳定性越好。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种基于小波形状描述子的聚类算法有效性评价方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种基于小波形状描述子的聚类算法有效性评价方法的步骤。
实施例
本发明所述方法采用以下实例进行详细说明:
⑴利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。数据集样本点如表2所示:
表2数据集样本点
Figure BDA0003545289300000122
⑵在构建的数据集上采用任一聚类算法进行聚类。假设数据集被分为N个类,分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N。从中随机挑选一个簇作为实验对象,如原始簇Ⅰ。再次随机生个200个服从正态分布的数据,加入原始簇Ⅰ,生成测试簇Ⅰ。原始簇Ⅰ样本数据如表3所示,测试簇Ⅰ样本数据如表4所示;
表3原始簇Ⅰ样本数据
Figure BDA0003545289300000131
表4测试簇Ⅰ样本数据
Figure BDA0003545289300000132
⑶采用德劳内函数将步骤⑵中表3与表4中空间点集映射为三角网络二维映射图。
以表3的数据为例,将表3中任一点作为三角形的顶点,将与它欧氏距离最近的两个点与其连接,经过N次迭代得到德劳内三角网络。记录共用各点的三角形,求出三角形的外接圆圆心,再按顺时针方向连接圆心即为该点对应的泰森多边形。算法流程如下:
表3记录了原始簇Ⅰ上5320个不重复的点组成的点集P。
①将这5320个点以x坐标为主,以y坐标为辅进行排序。
②构造过程:
ⅰ将5320个点平均或者按最近原则分成两份子点集Pl和Pr
ⅱ分别构建点集Pl和点集Pr的德劳内三角网络DT(Pl)与DT(Pr);
ⅲ合并DT(Pl)与DT(Pr)为DT(P);
③合并过程
ⅰ对于给定的DT(Pl)与DT(Pr),计算点集Pl和Pr的凸包;
ⅱ得到顶端切线UCT与底端切线BCT,并在最终合并的三角网中两切线是可以看见的;
ⅲ从凸包的底端切线开始,利用切线的左端点、右端点以及它们的相邻点(左端点按逆时针方向,右端点按顺时针方向)进行局部更新以完成DT(Pl)与DT(Pr),直到遇到顶端切线UCT为止。
⑷原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓边缘检测。
由于原始簇Ⅰ在进行二维图像映射的过程中,会产生噪点等影响二维映射图轮廓边缘提取质量的因素,需要首先完成图像的平滑操作,以减少边缘检测器上明显的噪声影响;
所述检测原始簇与测试簇二维映射图的边缘轮廓,具体为:
步骤(1)图像与高斯平滑滤波器卷积:
采用大小为(2K+1)×(2K+1)高斯滤波器核式对图像进行高斯滤波:
Figure BDA0003545289300000141
其中,K为正整数,Hij表示第i行第j列的像素值,σ标准差;这里选择K=1;
若映射图像中一个3×3的窗口为A,要滤波的像素点为e,则经过高斯滤波后,像素点e的亮度值e′为:
Figure BDA0003545289300000151
其中*为卷积体符号,sum表示矩阵中所有元素相加求和;
步骤(2)计算滤波后的原始簇Ⅰ二维映射图的水平、垂直和对角边缘,返回水平Gx和垂直方向Gy方向的一阶导数,确定像素点的梯度强度G和方向梯度θ;
已用高斯滤波器平滑的二维映射图记为g(x,y),其梯度使用2×2一阶有限差分近似来计算x和y偏导数的两个阵列f′x(x,y)与f′y(x,y):
f′x(x,y)≈Gx=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)
f′y(x,y)≈Gy=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)
像素点的梯度值具体如表5所示:
表5像素点的梯度值
Figure BDA0003545289300000152
在2×2正方形内求有限差分的均值,以便在图像中的同一点计算x和y的偏导数梯度;梯度强度G和方向梯度θ用直角坐标到极坐标转化公式来计算:
Figure BDA0003545289300000153
步骤(3)对梯度幅值进行非极大值仰制:仅仅得到全局的梯度并不足以确定边缘,必须保留局部梯度最大的点,而抑制非极大值。利用梯度的方向将梯度角离散为圆周的四个方向之一,以便用3×3的窗口作为抑制运算;四个扇区的标号为0~3,对应3*3邻域的四种可能组合;在每一点上,邻域的中心像素G(x,y)与沿着梯度线的两个像素相比,如果G(x,y)的梯度值小于沿梯度线的两个像素梯度值,则令G(x,y)=0;
步骤(4)二维映射图轮廓边缘的检测与连接:对非极大值抑制图像作用两个阈值th1和th2,且th1=0.4th2;把梯度值小于th1的像素的灰度值设为0,得到图像1;把梯度值小于th2的像素的灰度值设为0,得到图像2;图像2以高阈值为基数得到,在去除噪声的同时也造成了有用边缘信息的损失;而图像1以低阈值为基数取得,虽然噪音多,但也保留了多的信息;因此,采用图像1与图像2相结合的方法完成图像轮廓边缘的连接;
所述采用图像1与图像2相结合的方法完成图像轮廓边缘的连接,具体为:
第一步:当在图像2上遇到一个非零灰度的像素p(x,y)时,按照一定方向跟踪以p(x,y)为起点的轮廓线,直到轮廓线的终点q(x,y);第二步:找到图像1中与q(x,y)点位置相对应的点s(x,y)的8邻近区域;第三步:如果在s(x,y)点的8邻近区域中有非零像素存在,则将其包括在图像2中,记作r(x,y)点;第四步:从r(x,y)开始,重复第一步,直到在图像1与图像2中都无法继续为止;
当完成对包含p(x,y)的轮廓线的连续之后,将这条轮廓线标记为已经访问,回到第一步,寻找下一条轮廓线,重复第二步、第三步和第四步,直到图像2中找不到新轮廓线为止;
至此,原始簇Ⅰ的二维映射图的轮廓边缘提取完成。
⑸基于小波形状描述子计算原始簇Ⅰ与测试簇Ⅰ的二级映射图轮廓边缘特征向量。
步骤(1)原始簇Ⅰ二维映射图半径序列计算:从原始簇Ⅰ二维映射图上任选一点(xk,yk),k=0,1,2,…,作为起点沿逆时针方向以一定的速度移动一周,就可以用边界点的坐标序列对来描述边界;原始簇Ⅰ轮廓边界序列对如表6所示;测试簇Ⅰ轮廓边界序列对如表7所示;
表6原始簇Ⅰ轮廓边界序列对
Figure BDA0003545289300000161
表7测试簇Ⅰ轮廓边界序列对
Figure BDA0003545289300000171
利用格林公式对映射图的闭合边界开展积分计算形心:
Figure BDA0003545289300000172
其中B表示闭区域;
离散化为:
Figure BDA0003545289300000173
以形心(xc,yc)为圆心,依据边界点的序列对(xk,yk),k=0,1,2,…,m-1计算半径序列,并归一化处理:
Figure BDA0003545289300000181
步骤(2)提取原始簇Ⅰ二维映射图边缘轮廓小波形状描述子,形成轮廓边缘的特征向量;在原始簇Ⅰ二维映射图边缘轮廓上均匀设置m=345个采样点,提取半径序列rg(k),选取Biorthogonal小波基,对半径序列对进行3~5层小波分解,
Figure BDA0003545289300000182
其中,
Figure BDA0003545289300000183
分别为L2([0,1])上周期尺度函数和小波函数;
Figure BDA0003545289300000184
称为尺度系数,
Figure BDA0003545289300000185
称为小波系数,二者作为原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓特征的小波描述子WD1和WD2。原始簇Ⅰ与测试簇Ⅰ二维映射图轮廓边界小波形状描述子如表8所示:
表8原始簇Ⅰ与测试簇Ⅰ二维映射图轮廓边界小波形状描述子
Figure BDA0003545289300000186
如果聚类算法的稳定性好,则类中心的凝聚力较强,即向某一类中添加或移除同类数据时,聚类结果的形状变化极小,反之则形状变化较大。因此,将原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓形状的相似性定义为聚类算法有效性的评价标准,以聚类簇中心对簇内其它元素凝聚力与簇边缘轮廓变化程度大小的相关性为核心思想,构建聚类算法有效性评价方法。构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数,其值作为聚类算法有效性的评估指标:
Figure BDA0003545289300000187
其中cov()表示两个描述子的协方差,σ表示描述子向量的标准差;sim的值大于0.5,小于1,说明聚类算法的稳定性越好。
以上对本发明所提出的一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于小波形状描述子的聚类算法有效性评价方法,其特征在于,所述方法具体包括:
随机生成多个服从正态分布的数据构成数据集;
在构建的数据集上采用任一聚类算法进行聚类,将聚类结果的任一簇作为原始簇,添加或移除任意个元素作为测试簇;
采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图;
利用高斯滤波器及梯度函数,检测原始簇与测试簇二维映射图的边缘轮廓,利用小波形状描述子分别计算二者的边缘轮廓特征;
采用图像相似度的方法计算原始簇与测试簇的二维映射图的边缘轮廓的形状相似度实现聚类结果的质量评估,即聚类算法的有效性评估。
2.根据权利要求1所述的方法,其特征在于,利用R语言的rnorm()函数随机生成10000个服从正态分布的数据构成数据集。
3.根据权利要求2所述的方法,其特征在于,假设数据集被分为N个类,分别记为原始簇Ⅰ、原始簇Ⅱ、……、原始簇N;从中随机挑选一个簇作为实验对象,即原始簇Ⅰ,向其随机添加或移除n个元素,生成测试簇Ⅰ。
4.根据权利要求3所述的方法,其特征在于,所述原始簇Ⅰ进行图形化过程,所述图形化过程是以原始簇Ⅰ中任一点作为三角形的顶点,将与它欧氏距离最近的两个点与其连接,经过N次迭代得到德劳内三角网络;记录共用各点的三角形,求出三角形的外接圆圆心,再按顺时针方向连接圆心即为该点对应的泰森多边形。
5.根据权利要求4所述的方法,其特征在于,所述采用德劳内三角函数将聚类簇中二维空间点映射为二维映射图,具体为:
设(X,Y)={(x1,y1),(x2,y2),…,(xn,yn)}表示原始簇Ⅰ上N个不重复的点组成的点集P;
①将所述N个点以x坐标为主,以y坐标为辅进行排序;
②构造过程:
ⅰ如果N=2,则直接返回;
ⅱ如果N=3,则连接三个点构成三角网,返回;
ⅲ将N个点平均或者按最近原则分成两份子点集Pl和Pr
ⅳ分别构建点集Pl和点集Pr的德劳内三角网络DT(Pl)与DT(Pr);
ⅴ合并DT(Pl)与DT(Pr)为DT(P);
③合并过程:
ⅰ对于给定的DT(Pl)与DT(Pr),计算点集Pl和Pr的凸包;
ⅱ得到顶端切线UCT与底端切线BCT,两切线在最终合并的三角网中是可见的;
ⅲ从凸包的底端切线开始,利用切线的左端点、右端点以及它们的相邻点进行局部更新以完成DT(Pl)与DT(Pr),直到遇到顶端切线UCT为止。
6.根据权利要求5所述的方法,其特征在于,所述检测原始簇与测试簇二维映射图的边缘轮廓,具体为:
步骤(1)图像与高斯平滑滤波器卷积:
采用大小为(2K+1)×(2K+1)高斯滤波器核式对图像进行高斯滤波:
Figure FDA0003545289290000021
其中,K为正整数,Hij表示第i行第j列的像素值,σ标准差;
若映射图像中一个3×3的窗口为A,要滤波的像素点为e,则经过高斯滤波后,像素点e的亮度值e′为:
Figure FDA0003545289290000022
其中*为卷积体符号,sum表示矩阵中所有元素相加求和;
步骤(2)计算滤波后的原始簇Ⅰ二维映射图的水平、垂直和对角边缘,返回水平Gx和垂直方向Gy方向的一阶导数,确定像素点的梯度强度G和方向梯度θ;
已用高斯滤波器平滑的二维映射图记为g(x,y),其梯度使用2×2一阶有限差分近似来计算x和y偏导数的两个阵列fx'(x,y)与fy'(x,y):
f’x(x,y)≈Gx=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (3)
f’y(x,y)≈Gy=[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2 (4)
在2×2正方形内求有限差分的均值,以便在图像中的同一点计算x和y的偏导数梯度;梯度强度G和方向梯度θ用直角坐标到极坐标转化公式来计算:
Figure FDA0003545289290000031
步骤(3)对梯度幅值进行非极大值仰制:利用梯度的方向将梯度角离散为圆周的四个方向之一,以便用3×3的窗口作为抑制运算;四个扇区的标号为0~3,对应3*3邻域的四种可能组合;在每一点上,邻域的中心像素G(x,y)与沿着梯度线的两个像素相比,如果G(x,y)的梯度值小于沿梯度线的两个像素梯度值,则令G(x,y)=0;
步骤(4)二维映射图轮廓边缘的检测与连接:对非极大值抑制图像作用两个阈值th1和th2,且th1=0.4th2;把梯度值小于th1的像素的灰度值设为0,得到图像1;把梯度值小于th2的像素的灰度值设为0,得到图像2;图像2以高阈值为基数得到,在去除噪声的同时也造成了有用边缘信息的损失;而图像1以低阈值为基数取得,虽然噪音多,但也保留了多的信息;因此,采用图像1与图像2相结合的方法完成图像轮廓边缘的连接;
所述采用图像1与图像2相结合的方法完成图像轮廓边缘的连接,具体为:
第一步:当在图像2上遇到一个非零灰度的像素p(x,y)时,按照一定方向跟踪以p(x,y)为起点的轮廓线,直到轮廓线的终点q(x,y);第二步:找到图像1中与q(x,y)点位置相对应的点s(x,y)的8邻近区域;第三步:如果在s(x,y)点的8邻近区域中有非零像素存在,则将其包括在图像2中,记作r(x,y)点;第四步:从r(x,y)开始,重复第一步,直到在图像1与图像2中都无法继续为止;
当完成对包含p(x,y)的轮廓线的连续之后,将这条轮廓线标记为已经访问,回到第一步,寻找下一条轮廓线,重复第二步、第三步和第四步,直到图像2中找不到新轮廓线为止;
至此,原始簇Ⅰ的二维映射图的轮廓边缘提取完成。
7.根据权利要求6所述的方法,其特征在于,所述利用小波形状描述子分别计算二者的边缘轮廓特征,具体为:
(1)原始簇Ⅰ二维映射图半径序列计算:从原始簇Ⅰ二维映射图上任选一点(xk,yk),k=0,1,2,…,作为起点沿逆时针方向以一定的速度移动一周,就可以用边界点的坐标序列对来描述边界;利用格林公式对映射图的闭合边界开展积分计算形心:
Figure FDA0003545289290000041
其中B表示闭区域;
离散化为:
Figure FDA0003545289290000042
以形心(xc,yc)为圆心,依据边界点的序列对(xk,yk),k=0,1,2,…,m-1计算半径序列,并归一化处理:
Figure FDA0003545289290000043
(2)提取原始簇Ⅰ二维映射图边缘轮廓小波形状描述子,形成轮廓边缘的特征向量;在原始簇Ⅰ二维映射图边缘轮廓上均匀设置m=345个采样点,提取半径序列rg(k),选取Biorthogonal小波基,对半径序列对进行3~5层小波分解,
Figure FDA0003545289290000051
其中,
Figure FDA0003545289290000052
分别为L2([0,1])上周期尺度函数和小波函数;
Figure FDA0003545289290000053
称为尺度系数,
Figure FDA0003545289290000054
称为小波系数,二者作为原始簇Ⅰ与测试簇Ⅰ二维映射图的轮廓特征的小波描述子WD1和WD2。
8.根据权利要求7所述的方法,其特征在于,构建基于小波形状描述子的原始簇与测试簇二维映射图结构相似性的计算函数,其值作为聚类算法有效性的评估指标:
Figure FDA0003545289290000055
其中cov()表示两个描述子的协方差,σ表示描述子向量的标准差;sim的值越接近1,说明聚类算法的稳定性越好。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8所述方法的步骤。
10.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-8所述方法的步骤。
CN202210247307.6A 2022-03-14 2022-03-14 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质 Pending CN114677530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210247307.6A CN114677530A (zh) 2022-03-14 2022-03-14 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210247307.6A CN114677530A (zh) 2022-03-14 2022-03-14 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质

Publications (1)

Publication Number Publication Date
CN114677530A true CN114677530A (zh) 2022-06-28

Family

ID=82074495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210247307.6A Pending CN114677530A (zh) 2022-03-14 2022-03-14 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质

Country Status (1)

Country Link
CN (1) CN114677530A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385472A (zh) * 2023-06-07 2023-07-04 深圳市锦红兴科技有限公司 一种五金冲压件去毛刺效果评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385472A (zh) * 2023-06-07 2023-07-04 深圳市锦红兴科技有限公司 一种五金冲压件去毛刺效果评估方法
CN116385472B (zh) * 2023-06-07 2023-08-08 深圳市锦红兴科技有限公司 一种五金冲压件去毛刺效果评估方法

Similar Documents

Publication Publication Date Title
CN109522908B (zh) 基于区域标签融合的图像显著性检测方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及***
CN110287932B (zh) 基于深度学习图像语义分割的道路阻断信息提取方法
CN107133651B (zh) 基于超网络判别子图的功能磁共振影像数据分类方法
CN111950488B (zh) 一种改进的Faster-RCNN遥感图像目标检测方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN110135438B (zh) 一种基于梯度幅值预运算的改进surf算法
CN106485651B (zh) 快速鲁棒性尺度不变的图像匹配方法
CN111950406A (zh) 一种手指静脉识别方法、装置及存储介质
Wu et al. Image segmentation
CN112818920B (zh) 一种双时相高光谱图像空谱联合变化检测方法
CN111259808A (zh) 一种基于改进ssd算法的交通标识的检测识别方法
Costa et al. Estimating the number of clusters in multivariate data by self-organizing maps
CN111739017A (zh) 一种在样本不平衡条件下显微图像的细胞识别方法及***
CN111815640B (zh) 一种基于忆阻器的rbf神经网络医学图像分割算法
CN111091129A (zh) 一种基于多重颜色特征流形排序的图像显著区域提取方法
CN111539910B (zh) 锈蚀区域检测方法及终端设备
CN115690086A (zh) 一种基于对象的高分辨率遥感影像变化检测方法及***
CN105160666B (zh) 基于非平稳分析与条件随机场的sar图像变化检测方法
CN114677530A (zh) 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质
CN113343900A (zh) 基于cnn与超像素结合的组合核遥感影像目标检测方法
CN113096080A (zh) 图像分析方法及***
CN109344837B (zh) 一种基于深度卷积网络和弱监督学习的sar图像语义分割方法
CN111539966A (zh) 一种基于模糊c均值聚类的比色传感器阵列图像分割方法
Karma et al. Image segmentation based on color dissimilarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination