CN108776806A - 基于变分自编码器和密度峰值的混合属性数据聚类方法 - Google Patents

基于变分自编码器和密度峰值的混合属性数据聚类方法 Download PDF

Info

Publication number
CN108776806A
CN108776806A CN201810431968.8A CN201810431968A CN108776806A CN 108776806 A CN108776806 A CN 108776806A CN 201810431968 A CN201810431968 A CN 201810431968A CN 108776806 A CN108776806 A CN 108776806A
Authority
CN
China
Prior art keywords
sample
cluster
union feature
distance
union
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810431968.8A
Other languages
English (en)
Inventor
段宝彬
韩立新
勾智楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201810431968.8A priority Critical patent/CN108776806A/zh
Publication of CN108776806A publication Critical patent/CN108776806A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于变分自编码器和密度峰值的混合属性数据聚类方法,首先对原始混合属性数据进行编码、归一化、降维等预处理,消除冗余特征;接下来用变分自编码器提取潜在的特征,最后利用改进的密度峰值算法进行聚类,有助于提高聚类的效果。本发明方法利用变分自编码器提取预处理后原始混合属性数据的特征,并利用改进的密度峰值算法进行聚类,克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。

Description

基于变分自编码器和密度峰值的混合属性数据聚类方法
技术领域
本发明涉及人工智能与数据挖掘的技术领域,特别是一种基于变分自编码器和密度峰值的混合属性数据聚类方法。
背景技术
聚类分析技术作为一种重要的无监督数据挖掘方法,它根据数据属性将样本划分成若干不同的簇,使得同一个簇内的样本具有较高的相似度,不同簇的样本差异性较大。k-means、DBSCAN、谱聚类等传统的聚类分析算法主要适用于仅含数值型属性的数据,不能直接对含有分类型属性的数据进行有效聚类。针对既有数值型属性又含有分类型属性的混合属性数据的聚类问题,不少学者已经得到了一些有意义的研究成果,其中1997年Huang提出的k-prototype算法应用最为广泛,该算法是对数值型属性数据聚类的k-means算法和分类型属性数据聚类的k-modes算法的综合。虽然算法计算速度快,适合大规模混合属性数据的聚类,但是该算法对初始簇中心和离群点较敏感,并且主要适用于球形分布的数据集。2014年,Rodriguez和Laio提出的密度峰值聚类算法(Density Peak Clustering,DPC),将具有局部密度大、且与局部密度更大的样本距离远的样本作为簇中心,然后按最近邻原则确定非簇中心样本所属的簇标号。该算法新颖直观,可以对任意形状分布的样本聚类,但是该算法需要计算任意两个样本之间的距离,计算复杂度高。2013年,Kingma和Welling将变分推理方法和神经网络结合提出了变分自编码器,Dilokthanakul和Mediano将高斯混合先验分布的变分自编码器应用于聚类分析。2017年,Bai等研究了对原始数据先利用k-means进行快速预聚类,通过分析预聚类的结果,提出两种方法减少密度峰值聚类算法中一些不必要的距离计算,大大提高了算法的运行效率。但上述方法只适合数值型属性数据的聚类,不能直接应用于既有数值型属性又包含分类型属性的混合属性数据的聚类。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于变分自编码器和密度峰值的混合属性数据聚类方法,本发明克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,包括以下步骤:
步骤1、读取原始混合属性数据集;
步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;
步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;
步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;
步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;
所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:
(5-1)给定预聚类的类别数,利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;
(5-2)根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、***簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为***簇;既不是近邻簇也不是***簇的为过渡簇;
(5-3)确定每一个联合特征样本的近邻样本,统计近邻样本的总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;
(5-4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值;
(5-5)计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;
(5-6)根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余联合特征样本按离其最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。
作为本发明所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤2中构造标准化数据矩阵,具体如下:
(2-1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,编码后将每个分类型属性值转换成一个行向量;
(2-2)将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化,并将其和该原始混合属性样本的各分类型属性值编码后的向量串联起来,转置后构成该原始混合属性样本的标准化向量;
(2-3)依次将每一个原始混合属性样本的标准化向量作为矩阵的一列,得到的矩阵即为标准化数据矩阵。
作为本发明所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤3的降维处理具体如下:
(3-1)根据标准化数据矩阵,用高斯分布构建高维空间高维样本之间的联合概率分布P,用来表示它们在高维空间的相似度;
(3-2)用t分布构建低维空间对应低维样本之间的联合概率分布Q,用来表示它们在低维空间的相似度;
(3-3)使用梯度下降法优化P和Q的相对熵,使其达到最小,得到最优困惑度值,从而利用该最优困惑度值计算出每个高维样本的低维表示,进而构造出低维数据矩阵。
作为本发明所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤4中构造联合特征矩阵,包括以下步骤:
(4-1)给定编码层参数的初始值,将低维数据矩阵对应的低维样本输入变分自编码器的编码层,计算低维样本对应特征的均值向量和标准差向量;利用模特卡洛模拟法从服从标准正态分布的总体中抽取一个采样值,从而计算出低维样本对应的初始特征;
(4-2)将编码层得到的低维样本的初始特征输入变分自编码器解码层,得到对应的初始重构低维样本;利用使最大似然原则不断优化网络权值参数,利用最优网络权值参数计算出变分编码器中低维样本的特征;
(4-3)将所有低维样本的特征排成矩阵形式,从而构造出联合特征矩阵。
作为本发明所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,步骤(5-1)中每个簇的半径指簇内联合特征样本到簇中心的最大距离。
作为本发明所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法进一步优化方案,所述步骤(5-3)确定每一个联合特征样本的近邻样本包括以下步骤:
(5-3-1)每个联合特征样本所在簇的近邻簇内的所有联合特征样本均为该联合特征样本的近邻样本;
(5-3-2)每个联合特征样本所在簇的***簇内的所有联合特征样本均不是该联合特征样本的近邻样本;
(5-3-3)每个联合特征样本所在簇的过渡簇内的联合特征样本是否为该联合特征样本的近邻样本按如下方法确定:
若该联合特征样本与过渡簇簇中心的距离小于截断距离与该联合特征样本所在簇簇半径的差,则对应过渡簇内的所有联合特征样本都是该联合特征样本的近邻样本;若该联合特征样本与过渡簇簇中心的距离不小于截断距离与该联合特征样本所在簇簇半径的和,则对应过渡簇内的所有联合特征样本都不是该联合特征样本的近邻样本;若以上条件都不满足,直接计算该联合特征样本和过渡簇内所有联合特征样本之间的距离,小于截断距离的联合特征样本是该联合特征样本的近邻样本;
(5-3-4)每个联合特征样本所在簇的其它联合特征样本是否为该联合特征样本的近邻样本按如下方法确定:
若该联合特征样本与所属簇的簇中心的距离小于截断距离与簇半径的差,则该簇内除该联合特征样本以外的其它所有联合特征样本都是该联合特征样本的近邻样本;若该联合特征样本与簇内的某个联合特征样本距离簇中心的距离之差大于截断距离,则对应联合特征样本不是该联合特征样本的近邻样本;若以上条件都不满足,直接计算该联合特征样本和簇内所有联合特征样本之间的距离,小于截断距离的联合特征样本是该联合特征样本的近邻样本。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明方法利用变分自编码器提取预处理后原始混合属性数据的特征,并利用改进的密度峰值算法进行聚类,克服了传统的混合属性数据聚类方法对离群点和初始簇中心选择的敏感性,使得聚类的结果更为稳定,本方法不仅适用于球形分布数据,对非球形分布数据的聚类也能取得理想的效果。
附图说明
图1是本发明的总流程图。
图2是采用变分自编码器提取特征流程图。
图3是改进密度峰值聚类方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的基本思路:首先对原始混合属性数据进行编码、归一化、降维等预处理,消除冗余特征;接下来用变分自编码器提取潜在的特征,最后利用改进的密度峰值算法进行聚类,有助于提高聚类的效果。
技术方案描述如下:
(1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,编码后将每个分类型属性值转换成一个行向量;将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化,并将其和该原始混合属性样本各分类型属性值编码后的向量串联起来,转置后构成该原始混合属性样本的标准化向量;依次将每一个原始混合属性样本的标准化向量作为矩阵的一列,得到的矩阵即为标准化数据矩阵。
(2)根据标准化数据矩阵,用高斯分布构建高维空间高维样本之间的联合概率分布P,用来表示它们在高维空间的相似度;用t分布构建低维空间对应低维样本之间的联合概率分布Q,用来表示它们在低维空间的相似度;使用梯度下降法优化P和Q的相对熵(KL散度),使其达到最小,得到最优参数值,从而计算各个高维样本的低维表示,进而构造出低维数据矩阵。
(3)给定编码层参数的初始值,将低维数据矩阵对应的低维样本输入变分自编码器编码层,计算每一个低维样本对应特征的均值向量和标准差向量;利用模特卡洛模拟法从服从标准正态分布的总体中抽取一个采样值,从而计算出低维样本对应的初始特征;由编码层得到低维样本的初始特征,输入到变分自编码器解码层,得到初始重构低维样本;利用最大似然原则不断优化网络权值参数,利用最优网络权值参数计算出变分编码器中每个低维样本的潜在特征;将所有低维样本的潜在特征排成矩阵形式,从而构造出联合特征矩阵。
(4)图3是改进密度峰值聚类方法的流程图,根据给定预聚类的类别数,利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径(簇内联合特征样本到簇中心的最大距离);根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、***簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为***簇;既不是近邻簇也不是***簇的为过渡簇;根据每个簇的簇中心、簇半径及其近邻簇、过渡簇、***簇的情况,确定是否是近邻样本,统计每个联合特征样本的近邻样本总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中局部密度最大联合特征样本的相对距离取其余联合特征样本相对距离的最大值;计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余每个联合特征样本按距离它最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,也是与联合特征样本对应的原始混合属性样本的聚类结果。
西安电子科技大学在其申请的专利“基于稳健变分自编码器的雷达目标分类方法”(专利申请号:201710743598.7,公布号:CN107609579A)中公开了一种基于稳健变分自编码器的雷达目标分类方法,该发明与本发明的相同之处是都采用变分编码器提取数据的潜在特征,不同之处是“基于稳健变分自编码器的雷达目标分类方法”适用于有监督的分类问题,本发明用于无监督的聚类问题;温州职业技术学院在其申请的专利“一种基于密度峰值的混合属性数据聚类方法”(专利申请号:201710294126.8,公布号:CN107103336A)中公开了一种基于密度峰值的混合属性数据聚类方法,该发明与本发明的相同之处是均涉及混合属性数据的聚类方法,均用到了密度峰值聚类算法,不同之处是“一种基于密度峰值的混合属性数据聚类方法”需要利用原始数据计算每两个原始混合属性样本之间的混合距离,然后用密度峰值聚类算法进行聚类,算法复杂度高,聚类结果受定义的混合距离影响大,而本发明无需定义混合距离,直接对原始数据编码、归一化、降维处理,利用变分编码器提取数据的潜在特征,并用改进的密度峰值聚类算法进行聚类,减少了距离计算的复杂度,且聚类结果稳定。
如图1所示是本发明的总流程图,包括以下步骤:
1.读取原始混合属性数据集;
2.对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,数值型属性值进行归一化处理
(1)设原始混合属性数据集X={x1,x2,...xN},其中xi=[xr i1,xr i2,…,xr ip,xc i(p+1),xc i(p+2),…,xc im]′表示第i个原始混合属性样本,i=1,2…N,N为原始混合属性样本的个数,[*]′中的′为向量的转置符号,即将行向量转置为列向量,p为原始混合属性样本中数值型属性的个数,m为原始混合属性样本中所有属性的个数,xr iq为原始混合属性数据集中每一个原始混合属性样本的数值型属性值,q=1,2,…,p,上标为r的元素对应数据集的数值型属性值,上标为c的元素对应分类型属性值;对每一个分类型属性xc ih,h=p+1,p+2,…,m,根据原始混合属性样本中该属性取不同属性值的个数确定编码的位数,用one-hot编码,使每个属性值对应编码的一位数字为1,其余位的数字均为0,编码后第i个样本的第h个分类型属性值xc ih用行向量yc ih代替。
(2)对原始混合属性数据集中每一个原始混合属性样本的数值型属性值xr iq进行归一化,设第i个原始混合属性样本归一化后对应的各数值型属性值分别为yr i1,yr i2,…,yr ip,将其和第i个原始混合属性样本各分类型属性值one-hot编码后的向量yc ih(h=p+1,p+2,…,m)串联起来,构成该原始混合属性样本样本的标准化向量yi=[yr i1,yr i2,…,yr ip,yc i(p+1),yc i(p+2),…,yc im]′;
(3)依次将每一个原始混合属性样本的标准化向量yi(i=1,2…N)作为矩阵的一列,得到的矩阵即为标准化数据矩阵Y=[y1,y2,...,yN]。
3.利用t-SNE算法进行降维处理
根据标准化数据矩阵Y=[y1,y2,...,yN],对于其中任意两个高维样本yi和yj,用高斯分布构建它们在高维空间的联合概率分布
用来表示它们在高维空间的相似度,其中表示以yi为中心的高斯分布的方差,表示以yj为中心的高斯分布的方差,yk为标准化数据矩阵Y中的第k个高维样本;用t分布构建与高维样本yi和yj对应的低维空间的低维样本di和dj之间的联合概率分布;
用来表示它们在低维空间的相似度,其中dk和dl分别表示低维空间的第k和第l个低维样本;
根据标准化数据矩阵,用高斯分布构建高维空间高维样本之间的联合概率分布P,用来表示它们在高维空间的相似度;
用t分布构建低维空间对应低维样本之间的联合概率分布Q,用来表示它们在低维空间的相似度;
使用梯度下降法优化P和Q的相对熵C(KL散度),
使其达到最小,得到最优困惑度值,从而利用该最优困惑度值计算各个高维样本对应的低维表示d1,d2,...,dN,进而构造出低维数据矩阵D=[d1,d2,...,dN]。
4.构建并训练变分自编码器,构造联合特征矩阵;图2是采用变分自编码器提取特征流程图;
(1)给定参数初值,将上述低维矩阵D对应的第i个低维样本di输入到变分自编码器编码层,计算该低维样本对应特征的均值向量μi和标准差向量σi;利用模特卡洛模拟法从服从标准正态分布的总体中抽取一个采样值εi,从而计算出低维样本对应的初始特征vi=μii×σi,i=1,2,...,N;
(2)将由编码层得到的第i个低维样本的初始特征vi输入变分自编码器解码层,得到对应的初始重构低维样本在最大似然原则下不断优化网络权值参数,利用最优网络权值参数计算出变分编码器中第i个低维样本的特征zi,i=1,2,…,N;
(3)将所有低维样本的特征zi(i=1,2,…,N)排成矩阵,构造联合特征矩阵Z=[z1,z2,...,zN]′。
5.利用改进的密度峰值聚类算法进行聚类包括以下步骤:
(1)给定预聚类的类别数k1(一般介于最终的聚类数和原始混合属性样本数之间),先利用模糊C-均值聚类算法对联合特征矩阵Z对应的N个联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径rg(簇内联合特征样本到簇中心的最大距离),g=1,2,…,k1
(2)根据给定的截断距离dc,对于任一联合特征样本zi(i=1,2,…,N),假设它的簇标号为g,对应的簇中心为cg,接下来确定zi的近邻样本:
i)近邻簇和***簇内近邻样本的确定:zi所属簇的近邻簇内的所有联合特征样本均为zi的近邻样本,zi所属簇的***簇内的所有联合特征样本均不是zi的近邻样本;
ii)所属簇内近邻样本的确定:
设d(zi,cg)表示zi和cg之间的距离,zt为第g个簇内的另一联合特征样本,d(zt,cg)表示zt和cg之间的距离,则有:
若d(zi,cg)<dc-rg,则第g个簇内除zi外的所有联合特征样本都是zi的近邻样本;
若︱d(zi,cg)-d(zt,cg)︱≥dc,则zt不是zi的近邻样本;
若以上两个条件均不满足,直接计算zi和zt之间的距离,若满足距离小于dc,则zt为zi的近邻样本;
iii)过渡簇内近邻样本的确定:
设zb为联合特征样本zi所在簇的过渡簇内的一个联合特征样本,对应簇标号为s,簇中心为cs,簇半径为rs,d(zi,cs)表示联合特征样本zi和过渡簇的簇中心cs之间的距离,则有:
若d(zi,cs)<dc-rg,则簇s内的所有联合特征样本都是zi的近邻样本;
若d(zi,cs)≥dc+rs或d(zi,cs)≥dc+rg,则簇s内的所有联合特征样本都不是zi的近邻样本;
若以上两个条件都不满足,直接计算zi和zb的距离,若满足距离小于dc,则zb为zi的近邻样本;
(3)统计联合特征样本zi的近邻样本的个数,即得到zi的局部密度ρi,i=1,2,…,N,并将所有联合特征样本的局部密度按从大到小排序;
(4)根据排序后的联合特征样本局部密度,计算联合特征样本zi与比其局部密度高的所有样本之间距离的最小值,即相对距离δi
其中i=1,2,…,N,dij表示第i个联合特征样本zi和第j个联合特征样本zj之间的距离;
(5)引入综合变量γi,表示第i个联合特征样本的局部密度ρi和相对距离δi的乘积,即γi=ρi×δi,i=1,2,…,N;
将联合特征样本的γi值按降序排列,根据给定的聚类数k,选取对应γi值最大的前k个联合特征样本作为簇中心,其余联合特征样本按最近邻簇中心对应的簇号作为该联合特征样本的簇号,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。

Claims (6)

1.一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,包括以下步骤:
步骤1、读取原始混合属性数据集;
步骤2、采用one-hot编码技术对原始混合属性数据集中每一个原始混合属性样本的分类型属性值进行编码,对原始混合属性数据集中每一个原始混合属性样本的数值型属性值进行归一化,构造标准化数据矩阵;
步骤3、采用t-SNE算法对标准化数据矩阵进行降维处理,得到低维数据矩阵;
步骤4、构建并训练变分自编码器,得到每个低维样本的潜在特征,构造联合特征矩阵;
步骤5、基于联合特征矩阵,利用改进的密度峰值聚类算法进行聚类,从而得到联合特征矩阵对应的所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果;
所述步骤5中利用改进的密度峰值聚类算法进行聚类包括以下步骤:
(5-1)给定预聚类的类别数,利用模糊C-均值聚类算法对联合特征矩阵对应的联合特征样本进行预聚类,得到每个联合特征样本隶属于每个簇的隶属度,按最大隶属度原则,确定每个联合特征样本的簇标号,计算每个联合特征样本到各个簇中心的距离,以及每个簇的半径;
(5-2)根据每个簇的簇中心、簇半径及给定的截断距离,确定每个簇的近邻簇、过渡簇、***簇,其中,若两个不同簇内的任意两个联合特征样本之间的距离均小于截断距离,则两个簇互为近邻簇;若两个不同簇内的任意两个联合特征样本之间的距离均大于截断距离,则两个簇互为***簇;既不是近邻簇也不是***簇的为过渡簇;
(5-3)确定每一个联合特征样本的近邻样本,统计近邻样本的总数即得该联合特征样本的局部密度,然后将联合特征样本按局部密度从大到小排序;
(5-4)计算每个联合特征样本到不低于其局部密度的所有联合特征样本之间的距离,取其最小值作为该联合特征样本的相对距离,其中按局部密度从大到小排序在第一位的联合特征样本的相对距离取其余联合特征样本相对距离的最大值;
(5-5)计算每个联合特征样本的局部密度与相对距离的乘积,作为该联合特征样本的综合度量值,将每个联合特征样本按综合度量值从大到小排序;
(5-6)根据给定的聚类数k,选取综合度量值最大的前k个联合特征样本作为簇中心,其余联合特征样本按离其最近的簇中心确定簇号,最近的簇中心对应的簇号作为该联合特征样本的簇号,从而得到所有联合特征样本的聚类结果,该聚类结果也是与联合特征样本对应的原始混合属性样本的聚类结果。
2.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,所述步骤2中构造标准化数据矩阵,具体如下:
(2-1)对原始混合属性数据集中每个原始混合属性样本的分类型属性值进行one-hot编码,编码后将每个分类型属性值转换成一个行向量;
(2-2)将原始混合属性数据集中每个原始混合属性样本的数值型属性值归一化,并将其和该原始混合属性样本的各分类型属性值编码后的向量串联起来,转置后构成该原始混合属性样本的标准化向量;
(2-3)依次将每一个原始混合属性样本的标准化向量作为矩阵的一列,得到的矩阵即为标准化数据矩阵。
3.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,所述步骤3的降维处理具体如下:
(3-1)根据标准化数据矩阵,用高斯分布构建高维空间高维样本之间的联合概率分布P,用来表示它们在高维空间的相似度;
(3-2)用t分布构建低维空间对应低维样本之间的联合概率分布Q,用来表示它们在低维空间的相似度;
(3-3)使用梯度下降法优化P和Q的相对熵,使其达到最小,得到最优困惑度值,从而利用该最优困惑度值计算出每个高维样本的低维表示,进而构造出低维数据矩阵。
4.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,所述步骤4中构造联合特征矩阵,包括以下步骤:
(4-1)给定编码层参数的初始值,将低维数据矩阵对应的低维样本输入变分自编码器的编码层,计算低维样本对应特征的均值向量和标准差向量;利用模特卡洛模拟法从服从标准正态分布的总体中抽取一个采样值,从而计算出低维样本对应的初始特征;
(4-2)将编码层得到的低维样本的初始特征输入变分自编码器解码层,得到对应的初始重构低维样本;利用使最大似然原则不断优化网络权值参数,利用最优网络权值参数计算出变分编码器中低维样本的特征;
(4-3)将所有低维样本的特征排成矩阵形式,从而构造出联合特征矩阵。
5.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,步骤(5-1)中每个簇的半径指簇内联合特征样本到簇中心的最大距离。
6.根据权利要求1所述的一种基于变分自编码器和密度峰值的混合属性数据聚类方法,其特征在于,所述步骤(5-3)确定每一个联合特征样本的近邻样本包括以下步骤:
(5-3-1)每个联合特征样本所在簇的近邻簇内的所有联合特征样本均为该联合特征样本的近邻样本;
(5-3-2)每个联合特征样本所在簇的***簇内的所有联合特征样本均不是该联合特征样本的近邻样本;
(5-3-3)每个联合特征样本所在簇的过渡簇内的联合特征样本是否为该联合特征样本的近邻样本按如下方法确定:
若该联合特征样本与过渡簇簇中心的距离小于截断距离与该联合特征样本所在簇簇半径的差,则对应过渡簇内的所有联合特征样本都是该联合特征样本的近邻样本;若该联合特征样本与过渡簇簇中心的距离不小于截断距离与该联合特征样本所在簇簇半径的和,则对应过渡簇内的所有联合特征样本都不是该联合特征样本的近邻样本;若以上条件都不满足,直接计算该联合特征样本和过渡簇内所有联合特征样本之间的距离,小于截断距离的联合特征样本是该联合特征样本的近邻样本;
(5-3-4)每个联合特征样本所在簇的其它联合特征样本是否为该联合特征样本的近邻样本按如下方法确定:
若该联合特征样本与所属簇的簇中心的距离小于截断距离与簇半径的差,则该簇内除该联合特征样本以外的其它所有联合特征样本都是该联合特征样本的近邻样本;若该联合特征样本与簇内的某个联合特征样本距离簇中心的距离之差大于截断距离,则对应联合特征样本不是该联合特征样本的近邻样本;若以上条件都不满足,直接计算该联合特征样本和簇内所有联合特征样本之间的距离,小于截断距离的联合特征样本是该联合特征样本的近邻样本。
CN201810431968.8A 2018-05-08 2018-05-08 基于变分自编码器和密度峰值的混合属性数据聚类方法 Pending CN108776806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810431968.8A CN108776806A (zh) 2018-05-08 2018-05-08 基于变分自编码器和密度峰值的混合属性数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810431968.8A CN108776806A (zh) 2018-05-08 2018-05-08 基于变分自编码器和密度峰值的混合属性数据聚类方法

Publications (1)

Publication Number Publication Date
CN108776806A true CN108776806A (zh) 2018-11-09

Family

ID=64026957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810431968.8A Pending CN108776806A (zh) 2018-05-08 2018-05-08 基于变分自编码器和密度峰值的混合属性数据聚类方法

Country Status (1)

Country Link
CN (1) CN108776806A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN109978379A (zh) * 2019-03-28 2019-07-05 北京百度网讯科技有限公司 时序数据异常检测方法、装置、计算机设备和存储介质
CN109993208A (zh) * 2019-03-04 2019-07-09 北京工业大学 一种有噪声图像的聚类处理方法
CN110008278A (zh) * 2019-02-25 2019-07-12 国网浙江省电力有限公司电力科学研究院 一种利用接地电流信号的配网电缆故障判别方法和***
CN110276401A (zh) * 2019-06-24 2019-09-24 广州视源电子科技股份有限公司 样本聚类方法、装置、设备及存储介质
CN110348488A (zh) * 2019-06-19 2019-10-18 华中科技大学 一种基于局部密度峰值聚类的模态辨识方法
CN111178196A (zh) * 2019-12-19 2020-05-19 东软集团股份有限公司 一种细胞分类的方法、装置及设备
CN111310852A (zh) * 2020-03-08 2020-06-19 桂林电子科技大学 一种图像分类方法及***
CN111985530A (zh) * 2020-07-08 2020-11-24 上海师范大学 一种分类方法
CN112270107A (zh) * 2020-11-13 2021-01-26 南京航空航天大学 复杂***仿真实验设计方法及***
CN112328796A (zh) * 2020-11-17 2021-02-05 中国平安财产保险股份有限公司 文本聚类方法、装置、设备及计算机可读存储介质
CN112418325A (zh) * 2020-11-25 2021-02-26 武汉大学 一种基于变量加权的软子空间聚类方法
CN113033615A (zh) * 2021-03-01 2021-06-25 电子科技大学 一种基于在线微簇聚类的雷达信号目标实时关联方法
CN113544704A (zh) * 2019-03-26 2021-10-22 日本电信电话株式会社 评价装置、评价方法以及评价程序

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109558873B (zh) * 2018-12-03 2019-11-05 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109829478B (zh) * 2018-12-29 2024-05-07 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109886388B (zh) * 2019-01-09 2024-03-22 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN110008278B (zh) * 2019-02-25 2021-03-02 国网浙江省电力有限公司电力科学研究院 一种利用接地电流信号的配网电缆故障判别方法和***
CN110008278A (zh) * 2019-02-25 2019-07-12 国网浙江省电力有限公司电力科学研究院 一种利用接地电流信号的配网电缆故障判别方法和***
CN109993208B (zh) * 2019-03-04 2020-11-17 北京工业大学 一种有噪声图像的聚类处理方法
CN109993208A (zh) * 2019-03-04 2019-07-09 北京工业大学 一种有噪声图像的聚类处理方法
CN113544704A (zh) * 2019-03-26 2021-10-22 日本电信电话株式会社 评价装置、评价方法以及评价程序
CN109978379A (zh) * 2019-03-28 2019-07-05 北京百度网讯科技有限公司 时序数据异常检测方法、装置、计算机设备和存储介质
CN110348488B (zh) * 2019-06-19 2021-07-27 华中科技大学 一种基于局部密度峰值聚类的模态辨识方法
CN110348488A (zh) * 2019-06-19 2019-10-18 华中科技大学 一种基于局部密度峰值聚类的模态辨识方法
WO2020258772A1 (zh) * 2019-06-24 2020-12-30 广州视源电子科技股份有限公司 样本聚类方法、装置、设备及存储介质
CN110276401A (zh) * 2019-06-24 2019-09-24 广州视源电子科技股份有限公司 样本聚类方法、装置、设备及存储介质
CN111178196B (zh) * 2019-12-19 2024-01-23 东软集团股份有限公司 一种细胞分类的方法、装置及设备
CN111178196A (zh) * 2019-12-19 2020-05-19 东软集团股份有限公司 一种细胞分类的方法、装置及设备
CN111310852A (zh) * 2020-03-08 2020-06-19 桂林电子科技大学 一种图像分类方法及***
CN111985530A (zh) * 2020-07-08 2020-11-24 上海师范大学 一种分类方法
CN111985530B (zh) * 2020-07-08 2023-12-08 上海师范大学 一种分类方法
CN112270107A (zh) * 2020-11-13 2021-01-26 南京航空航天大学 复杂***仿真实验设计方法及***
CN112328796B (zh) * 2020-11-17 2023-06-30 中国平安财产保险股份有限公司 文本聚类方法、装置、设备及计算机可读存储介质
CN112328796A (zh) * 2020-11-17 2021-02-05 中国平安财产保险股份有限公司 文本聚类方法、装置、设备及计算机可读存储介质
CN112418325A (zh) * 2020-11-25 2021-02-26 武汉大学 一种基于变量加权的软子空间聚类方法
CN113033615A (zh) * 2021-03-01 2021-06-25 电子科技大学 一种基于在线微簇聚类的雷达信号目标实时关联方法
CN113033615B (zh) * 2021-03-01 2022-06-07 电子科技大学 一种基于在线微簇聚类的雷达信号目标实时关联方法

Similar Documents

Publication Publication Date Title
CN108776806A (zh) 基于变分自编码器和密度峰值的混合属性数据聚类方法
CN106203354B (zh) 基于混合深度结构的场景识别方法
CN102646200B (zh) 多分类器自适应权值融合的影像分类方法及***
CN109034224B (zh) 基于双分支网络的高光谱分类方法
CN104850890B (zh) 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法
CN110084159A (zh) 基于联合多级空谱信息cnn的高光谱图像分类方法
CN109934354A (zh) 基于主动学习的异常数据检测方法
CN103942564B (zh) 基于非监督特征学习的高分辨率遥感影像场景分类方法
CN109828251A (zh) 基于特征金字塔轻量卷积神经网络的雷达目标识别方法
CN112883839B (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
CN103473786B (zh) 基于多目标模糊聚类的灰度图像分割方法
CN113469236B (zh) 一种自我标签学习的深度聚类图像识别***及方法
CN106156798B (zh) 基于环形空间金字塔和多核学习的场景图像分类方法
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN101004791A (zh) 一种基于二维偏最小二乘法的面部表情识别方法
CN101894270A (zh) 面向遥感影像分类的样本自动选取方法
CN113033714B (zh) 多模态多粒度遥感影像面向对象全自动机器学习方法及***
Fang et al. Confident learning-based domain adaptation for hyperspectral image classification
CN102324038A (zh) 一种基于数字图像的植物种类识别方法
CN103366189A (zh) 一种高光谱遥感图像的智能化分类方法
CN110070116A (zh) 基于深度树状训练策略的分段式选择集成图像分类方法
CN109472453A (zh) 基于全局最优模糊核聚类模型的电力用户信用评价方法
CN113887410A (zh) 一种基于深度学习的多类别食材识别***及方法
CN117746260B (zh) 遥感数据智能解析方法及***
CN109635140A (zh) 一种基于深度学习和密度峰值聚类的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181109

RJ01 Rejection of invention patent application after publication