CN108280472A - 一种基于局部密度和聚类中心优化的密度峰聚类方法 - Google Patents
一种基于局部密度和聚类中心优化的密度峰聚类方法 Download PDFInfo
- Publication number
- CN108280472A CN108280472A CN201810049357.7A CN201810049357A CN108280472A CN 108280472 A CN108280472 A CN 108280472A CN 201810049357 A CN201810049357 A CN 201810049357A CN 108280472 A CN108280472 A CN 108280472A
- Authority
- CN
- China
- Prior art keywords
- sample
- density
- cluster
- cluster centre
- shortest distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种基于局部密度和聚类中心优化的密度峰聚类方法,包括以下步骤:步骤1、密度距离计算阶段:根据共享近邻相似度,计算样本点的局部密度和最短距离;步骤2、聚类中心选择阶段:根据样本点的局部密度和最短距离,自适应的选择聚类中心;步骤3、剩余样本分配阶段:将剩余样本分配到距其最近并拥有高密度的样本所在的类簇中。本发明将共享近邻相似度和欧氏距离进行统一度量样本间的相似度,有效地避免了DPC算法因参数选择导致聚类结果较差的缺陷,可以自适应地进行聚类中心的选择。
Description
技术领域
本发明涉及密度聚类领域,具体涉及一种基于共享近邻相似度的密度峰聚类方法。
背景技术
聚类是数据挖掘技术的一个分支,用来洞察数据的分布和特征。聚类是一个将数据对象划分成若干个类簇的过程,使得簇中的对象相似度高,但每个簇之间的对象相似度低。聚类在模式识别、分类、图像处理、web搜索、商务智能等邻域都有广泛的研究。聚类方法主要分为以下几类:基于层次聚类、基于划分聚类、基于密度聚类以及基于图聚类。K-means算法是基于划分聚类的经典算法,该算法是通过多次迭代找到最佳聚类中心,根据剩余样本到聚类中心点的距离对剩余样本进行划分。由于K-means算法是将样本分配到与其最近的簇中,因此该算法不能发现任意形状的簇。如果初始聚类中心选择不好,结果很容易陷入局部最优,导致聚类结果不稳定。DBSCAN算法是基于密度聚类的域个数minpts来决定样本分布的紧密程度。但是,该算法对参数eps较为敏感,较小的eps值可能会导致过度聚类的情况,较大的eps值可能会使得较小的簇被合并。标准谱聚类算法(Spectral Clustering,SC)是基于图聚类的经典算法,利用矩阵谱分析理论对原始的数据对象进行提取,得到新的数据特征,实现过程较为简单,但聚类结果依赖于相似矩阵。
密度峰聚类(Density Peaks Clustering,DPC)算法简单高效,无需迭代,可针对各种类型的数据集进行聚类。近年来,DPC算法引起了广泛的研究。Du Mingjing等人首先对数据集进行主成分分析处理,再将k近邻引入样本局部密度计算中,对聚类结果进行了优化。Mehmood等人提出基于DPC的模糊聚类算法,自适应地寻找聚类中心的个数,而不需要预先指定类簇个数。Mehmood等人基于热扩散技术提出一种非参数的估计给定数据集的概率分布的DPC改进算法。
发明内容
本发明所要解决的技术问题是实现一种基于局部密度和聚类中心优化的密度峰聚类方法,解决原始DPC算法因dc的选择导致聚类结果较差和根据决策图选择聚类中心需要人工干预的缺陷。
为了实现上述目的,本发明采用的技术方案为:一种基于局部密度和聚类中心优化的密度峰聚类方法,包括以下步骤:
步骤1、密度距离计算阶段:根据共享近邻相似度,计算样本点的局部密度和最短距离;
步骤2、聚类中心选择阶段:根据样本点的局部密度和最短距离,自适应的选择聚类中心;
步骤3、剩余样本分配阶段:将剩余样本分配到距其最近并拥有高密度的样本所在的类簇中。
所述步骤1中,先定义k近邻集、共享近邻相似度,之后依次计算样本的k近邻集,将共享近邻相似度引入样本局部密度的计算中,最后通过将样本与k近邻集中样本之间的共享近邻相似度和欧氏距离进行统一计算样本的局部密度;所述最短距离为该样本到比该样本密度高的样本之间的最短间距,若该样本为最高密度的样本,则最短距离为该样本到其他样本的最长间距。
所述步骤2中,理想的聚类中心为最短距离大并且局部密度相对较大样本,根据步骤1得到的样本的局部密度和最短距离,自适应地进行聚类中心的选择。
所述步骤3中,将样本按照局部密度由大到小排序,若样本未被分配,则将该样本分配到距其最近并拥有较高密度的样本所在的类簇中,否则,对下一个样本进行分配。
所述步骤1包括以下步骤:
步骤1.1、假定数据集XN×M=[x1,x2,...,xN]T,对于任意向量xi=[xi1,xi2,...,xiM]表示样本xi(1≤i≤N)的M个属性,N为样本总个数,利用以下公式,计算样本xi和样本xj(1≤j≤N)的欧氏距离:
步骤1.2、记KNN(xi)为样本xi的k近邻集,定义式如下:KNN(xi)={xj∈X|d(xi,xj)≤dk(xi)},
其中dk(xi)为数据集X中的样本xi到其他样本的欧氏距离升序排列的第k个距离;
步骤1.3、记SNN(xi,xj)为样本xi和样本xj的共享近邻相似度,定义式如下:
SNN(xi,xj)=|KNN(xi)∩KNN(xj)|,
其中,KNN(xi)和KNN(xj)分别为样本xi和样本xj的k近邻集,共享近邻相似度等于两个样本k近邻集的交集中元素的个数;
步骤1.4、记ρi为样本xi的局部密度,定义式如下:
样本xi与其k近邻集中样本的欧氏距离和共享近邻相似度两种准则进行统一度量样本间的相似度来计算局部密度ρi;
步骤1.5、记δi为样本xi的最短距离,通过以下公式:
计算样本xi的最短距离δi,δi为xi到其他较高密度样本之间的最短间距,如果该样本已经是最高密度的样本,最短距离就等于该样本到其他样本的最长间距。
所述步骤2包括以下步骤:
步骤2.1、基于密度距离计算阶段已经得到样本的局部密度ρ和最短距离δ,理想的聚类中心为高δ值和相对较高ρ值的样本,则通过计算γi=ρi×δi,将样本按照γ值降序排列记为并初始化聚类中心队列Q;
步骤2.2、将γ值最大的样本加入队列Q,标记其为已访问并为其分配类标号;
步骤2.3、依次取出样本若满足条件a)和b),则将其加入到队列Q中,标记为已访问,并为其分配类标号,其中条件a)为条件b)为未被访问;
步骤2.4、若队列Q中样本个数小于等于类簇个数,转入步骤2.3;否则,队列Q为选择后的聚类中心。
所述步骤3包括以下步骤:
步骤3.1、由聚类中心选择阶段得到聚类中心Q及其类标号,将样本按照局部密度降序排列记作
步骤3.2、依次取出中的样本
步骤3.3、若样本属于数据集XN×M中而非聚类中心队列Q中的样本,则该样本为没有被分配到任何一个簇的剩余样本,则将其他样本到的欧氏距离按升序排序记作
步骤3.4、依次取出中的样本
步骤3.5、若不满足条件则j+1,转到步骤3.4;若满足条件,则将分配到所在类簇,并标记样本为已访问;若i≠N,则i+1,转到步骤3.2,否则,已对所有剩余样本进行分配,完成聚类过程。
本发明将共享近邻相似度和欧氏距离进行统一度量样本间的相似度,有效地避免了DPC算法因参数选择导致聚类结果较差的缺陷,可以自适应地进行聚类中心的选择。
附图说明
下面对本发明说明书中每幅附图表达的内容作简要说明:
图1为基于局部密度和聚类中心优化的密度峰聚类方法流程图;
图2为密度距离计算阶段流程图;
图3为聚类中心选择阶段流程图;
图4为剩余样本分配阶段流程图。
具体实施方式
如图1所示,基于局部密度和聚类中心优化的密度峰聚类方法包括以下步骤:
步骤1:密度距离计算阶段:在密度距离计算过程中,首先定义k近邻集、共享近邻相似度的概念,依次计算样本的k近邻集,将共享近邻相似度的概念引入样本局部密度的计算中,通过将样本与k近邻集中样本之间的共享近邻相似度和欧氏距离进行统一计算样本的局部密度。最短距离为样本到其他较高密度样本之间的最短距离,如果该样本已经是最高密度的样本,最短距离就等于该样本到其他样本的最长距离;
步骤2:聚类中心选择阶段:在聚类中心选择过程中,根据聚类中心特征,理想的聚类中心为最短距离大并且局部密度相对较大的样本,根据步骤1得到的样本的局部密度和最短距离,自适应地进行聚类中心的选择;
步骤3:剩余样本分配阶段:在剩余样本分配过程中,根据样本的密度和距离将剩余样本进行划分,将样本按照局部密度由大到小排序,若样本未被分配,就将该样本分配到距其最近并拥有较高密度的样本所在的类簇中。否则,对下一个样本进行分配。
如图2所示,密度距离计算阶段包括以下步骤:
步骤1.1、假定数据集XN×M=[x1,x2,...,xN]T,对于任意向量xi=[xi1,xi2,...,xiM]表示样本xi(1≤i≤N)的M个属性,N为样本总个数。利用以下公式,计算样本xi和样本xj(1≤j≤N)的欧氏距离:
步骤1.2、记KNN(xi)为样本xi的k近邻集。定义式如下:
KNN(xi)={xj∈X|d(xi,xj)≤dk(xi)},
其中dk(xi)为数据集X中的样本xi到其他样本的欧氏距离升序排列的第k个距离。
步骤1.3、记SNN(xi,xj)为样本xi和样本xj的共享近邻相似度。定义式如下:
SNN(xi,xj)=|KNN(xi)∩KNN(xj)|,
其中KNN(xi)和KNN(xj)分别为样本xi和样本xj的k近邻集,共享近邻相似度就等于两个样本k近邻集的交集中元素的个数。
步骤1.4、记ρi为样本xi的局部密度。定义式如下:
样本xi与其k近邻集中样本的欧氏距离和共享近邻相似度两种准则进行统一度量样本间的相似度来计算局部密度ρi。
步骤1.5、记δi为样本xi的最短距离。通过以下公式:
计算样本xi的最短距离δi,δi为xi到其他较高密度样本之间的最短距离,如果该样本已经是最高密度的样本,最短距离就等于该样本到其他样本的最长距离。
如图3所示,聚类中心选择阶段包括以下步骤:
步骤2.1、基于密度距离计算阶段,已经得到样本的局部密度ρ和最短距离δ,理想的聚类中心为高δ值和相对较高ρ值的样本,因此通过计算γi=ρi×δi,将样本按照γ值降序排列记为并初始化聚类中心队列Q。
步骤2.2、将γ值最大的样本加入队列Q,标记其为已访问并为其分配类标号。
步骤2.3、依次取出样本若满足条件a)和b):a).b).未被访问,则将其加入到队列Q中,标记为已访问,并为其分配类标号;
步骤2.4、若队列Q中样本个数小于等于类簇个数,转入步骤2.3;否则,队列Q为选择后的聚类中心。
如图4所示,剩余样本分配阶段包括以下步骤:
步骤3.1、由聚类中心选择阶段得到聚类中心Q及其类标号,将样本按照局部密度降序排列记作
步骤3.2、依次取出中的样本
步骤3.3、若样本是在数据集XN×M中不在聚类中心队列Q中的样本,即没有被分配到任何一个簇的剩余样本,则将其他样本到的欧氏距离按升序排序记作
步骤3.4、依次取出中的样本
步骤3.5、若不满足条件则j+1,转到步骤3.4。若满足条件,则将分配到所在类簇,并标记样本为已访问,若i≠N,则i+1,转到步骤3.2。否则,已对所有剩余样本进行分配,完成聚类过程。
为了验证该发明的有效性,实验在UCI数据集和模拟数据集上进行了仿真,并采用准确率(Accuarcy)、标准化互信息(NMI)、F值(F-Measure)三种评价指标对聚类结果进行评价,并将实验结果与DPC算法、DBSCAN算法、K-means算法、SC算法进行比较。
表1数据集基本特征
数据集 | 样本个数 | 属性个数 | 类簇个数T |
Iris | 150 | 4 | 3 |
Wpbc | 198 | 33 | 2 |
Heart | 303 | 13 | 2 |
Balance | 625 | 4 | 3 |
Aggregation | 788 | 2 | 7 |
R15 | 600 | 2 | 15 |
Size5 | 1000 | 2 | 4 |
Forty | 1000 | 2 | 40 |
针对UCI数据集,本发明方法与对比算法的实验结果如表2所示。针对模拟数据集,本发明方法与对比算法的实验结果如表3所示。其中加粗数据表示最优结果
表2聚类算法在UCI数据集上的实验结果
表3聚类算法在模拟数据集上的实验结果
实验结果表明,在UCI数据集上,本发明方法中新的基于共享近邻相似度的局部密度计算方式和聚类中心选择方式在聚类中心选择的正确性以及聚类结果的准确性较原始DPC算法有了一定程度的提高并且优于其他对比聚类算法。在模拟数据集上,本发明方法在评价结果中相较其他算法有明显的优势。对于DPC算法聚类效果不够理想的模拟数据集,通过该发明方法可以改进其聚类效果;对于DPC算法聚类效果已经比较理想的模拟数据集,本发明方法也可以保持其聚类效果。
Claims (7)
1.一种基于局部密度和聚类中心优化的密度峰聚类方法,其特征在于,包括以下步骤:
步骤1、密度距离计算阶段:根据共享近邻相似度,计算样本点的局部密度和最短距离;
步骤2、聚类中心选择阶段:根据样本点的局部密度和最短距离,自适应的选择聚类中心;
步骤3、剩余样本分配阶段:将剩余样本分配到距其最近并拥有高密度的样本所在的类簇中。
2.根据权利要求1所述的密度峰聚类方法,其特征在于:所述步骤1中,先定义k近邻集、共享近邻相似度,之后依次计算样本的k近邻集,将共享近邻相似度引入样本局部密度的计算中,最后通过将样本与k近邻集中样本之间的共享近邻相似度和欧氏距离进行统一计算样本的局部密度;所述最短距离为该样本到比该样本密度高的样本之间的最短间距,若该样本为最高密度的样本,则最短距离为该样本到其他样本的最长间距。
3.根据权利要求1所述的密度峰聚类方法,其特征在于:所述步骤2中,理想的聚类中心为最短距离大并且局部密度相对较大样本,根据步骤1得到的样本的局部密度和最短距离,自适应地进行聚类中心的选择。
4.根据权利要求1所述的密度峰聚类方法,其特征在于:所述步骤3中,将样本按照局部密度由大到小排序,若样本未被分配,则将该样本分配到距其最近并拥有较高密度的样本所在的类簇中,否则,对下一个样本进行分配。
5.根据权利要求1或2所述的密度峰聚类方法,其特征在于:所述步骤1包括以下步骤:
步骤1.1、假定数据集XN×M=[x1,x2,...,xN]T,对于任意向量xi=[xi1,xi2,...,xiM]表示样本xi(1≤i≤N)的M个属性,N为样本总个数,利用以下公式,计算样本xi和样本xj(1≤j≤N)的欧氏距离:
步骤1.2、记KNN(xi)为样本xi的k近邻集,定义式如下:
KNN(xi)={xj∈X|d(xi,xj)≤dk(xi)},
其中dk(xi)为数据集X中的样本xi到其他样本的欧氏距离升序排列的第k个距离;
步骤1.3、记SNN(xi,xj)为样本xi和样本xj的共享近邻相似度,定义式如下:
SNN(xi,xj)=|KNN(xi)∩KNN(xj)|,
其中,KNN(xi)和KNN(xj)分别为样本xi和样本xj的k近邻集,共享近邻相似度等于两个样本k近邻集的交集中元素的个数;
步骤1.4、记ρi为样本xi的局部密度,定义式如下:
样本xi与其k近邻集中样本的欧氏距离和共享近邻相似度两种准则进行统一度量样本间的相似度来计算局部密度ρi;
步骤1.5、记δi为样本xi的最短距离,通过以下公式:
计算样本xi的最短距离δi,δi为xi到其他较高密度样本之间的最短间距,如果该样本已经是最高密度的样本,最短距离就等于该样本到其他样本的最长间距。
6.根据权利要求1或3所述的密度峰聚类方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1、基于密度距离计算阶段已经得到样本的局部密度ρ和最短距离δ,理想的聚类中心为高δ值和相对较高ρ值的样本,则通过计算γi=ρi×δi,将样本按照γ值降序排列记为并初始化聚类中心队列Q;
步骤2.2、将γ值最大的样本加入队列Q,标记其为已访问并为其分配类标号;
步骤2.3、依次取出样本若满足条件a)和b),则将其加入到队列Q中,标记为已访问,并为其分配类标号,其中条件a)为条件b)为未被访问;
步骤2.4、若队列Q中样本个数小于等于类簇个数,转入步骤2.3;否则,队列Q为选择后的聚类中心。
7.根据权利要求1或4所述的密度峰聚类方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1、由聚类中心选择阶段得到聚类中心Q及其类标号,将样本按照局部密度降序排列记作
步骤3.2、依次取出中的样本
步骤3.3、若样本属于数据集XN×M中而非聚类中心队列Q中的样本,则该样本为没有被分配到任何一个簇的剩余样本,则将其他样本到的欧氏距离按升序排序记作
步骤3.4、依次取出中的样本
步骤3.5、若不满足条件则j+1,转到步骤3.4;若满足条件,则将分配到所在类簇,并标记样本为已访问;若i≠N,则i+1,转到步骤3.2,否则,已对所有剩余样本进行分配,完成聚类过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810049357.7A CN108280472A (zh) | 2018-01-18 | 2018-01-18 | 一种基于局部密度和聚类中心优化的密度峰聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810049357.7A CN108280472A (zh) | 2018-01-18 | 2018-01-18 | 一种基于局部密度和聚类中心优化的密度峰聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108280472A true CN108280472A (zh) | 2018-07-13 |
Family
ID=62803987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810049357.7A Pending CN108280472A (zh) | 2018-01-18 | 2018-01-18 | 一种基于局部密度和聚类中心优化的密度峰聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280472A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408562A (zh) * | 2018-11-07 | 2019-03-01 | 广东工业大学 | 一种基于客户特征的分组推荐方法及其装置 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109858269A (zh) * | 2019-02-20 | 2019-06-07 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN110045371A (zh) * | 2019-04-28 | 2019-07-23 | 软通智慧科技有限公司 | 一种鉴定方法、装置、设备及存储介质 |
CN110286094A (zh) * | 2019-07-18 | 2019-09-27 | 山东省科学院海洋仪器仪表研究所 | 一种基于聚类分析的光谱模型转移方法 |
CN110348488A (zh) * | 2019-06-19 | 2019-10-18 | 华中科技大学 | 一种基于局部密度峰值聚类的模态辨识方法 |
CN110889431A (zh) * | 2019-10-28 | 2020-03-17 | 杭州电子科技大学 | 基于K-Means算法改进的高频职业技能生命曲线聚类方法 |
CN111708853A (zh) * | 2020-05-25 | 2020-09-25 | 安徽师范大学 | 特征化密度峰聚类的出租车热点区域提取方法 |
CN111782812A (zh) * | 2020-07-06 | 2020-10-16 | 河北工程大学 | K-Means文本聚类方法、装置及终端设备 |
CN112163623A (zh) * | 2020-09-30 | 2021-01-01 | 广东工业大学 | 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质 |
CN112766299A (zh) * | 2020-12-09 | 2021-05-07 | 江苏师范大学 | 一种人脸图像的迭代式双向连接聚类算法 |
-
2018
- 2018-01-18 CN CN201810049357.7A patent/CN108280472A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446520B (zh) * | 2018-10-17 | 2023-08-15 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109408562A (zh) * | 2018-11-07 | 2019-03-01 | 广东工业大学 | 一种基于客户特征的分组推荐方法及其装置 |
CN109408562B (zh) * | 2018-11-07 | 2021-11-26 | 广东工业大学 | 一种基于客户特征的分组推荐方法及其装置 |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN109886334B (zh) * | 2019-02-20 | 2023-09-22 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN109858269B (zh) * | 2019-02-20 | 2022-11-01 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
CN109858269A (zh) * | 2019-02-20 | 2019-06-07 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
CN110045371A (zh) * | 2019-04-28 | 2019-07-23 | 软通智慧科技有限公司 | 一种鉴定方法、装置、设备及存储介质 |
CN110348488A (zh) * | 2019-06-19 | 2019-10-18 | 华中科技大学 | 一种基于局部密度峰值聚类的模态辨识方法 |
CN110348488B (zh) * | 2019-06-19 | 2021-07-27 | 华中科技大学 | 一种基于局部密度峰值聚类的模态辨识方法 |
CN110286094A (zh) * | 2019-07-18 | 2019-09-27 | 山东省科学院海洋仪器仪表研究所 | 一种基于聚类分析的光谱模型转移方法 |
CN110889431A (zh) * | 2019-10-28 | 2020-03-17 | 杭州电子科技大学 | 基于K-Means算法改进的高频职业技能生命曲线聚类方法 |
CN111708853B (zh) * | 2020-05-25 | 2022-08-30 | 安徽师范大学 | 特征化密度峰聚类的出租车热点区域提取方法 |
CN111708853A (zh) * | 2020-05-25 | 2020-09-25 | 安徽师范大学 | 特征化密度峰聚类的出租车热点区域提取方法 |
CN111782812A (zh) * | 2020-07-06 | 2020-10-16 | 河北工程大学 | K-Means文本聚类方法、装置及终端设备 |
CN112163623B (zh) * | 2020-09-30 | 2022-03-04 | 广东工业大学 | 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质 |
CN112163623A (zh) * | 2020-09-30 | 2021-01-01 | 广东工业大学 | 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质 |
CN112766299A (zh) * | 2020-12-09 | 2021-05-07 | 江苏师范大学 | 一种人脸图像的迭代式双向连接聚类算法 |
CN112766299B (zh) * | 2020-12-09 | 2024-01-09 | 江苏师范大学 | 一种人脸图像的迭代式双向连接聚类算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280472A (zh) | 一种基于局部密度和聚类中心优化的密度峰聚类方法 | |
Wu et al. | Robust latent factor analysis for precise representation of high-dimensional and sparse data | |
CA2929180C (en) | Image object category recognition method and device | |
CN109409400A (zh) | 基于k近邻和多类合并密度峰值聚类方法、图像分割*** | |
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN110232414A (zh) | 基于k近邻与共享近邻的密度峰值聚类算法 | |
CN108897791B (zh) | 一种基于深度卷积特征和语义相似度量的图像检索方法 | |
Gao et al. | A novel hybrid PSO-K-means clustering algorithm using Gaussian estimation of distribution method and Lévy flight | |
CN104217015B (zh) | 基于互为共享最近邻的层次聚类方法 | |
CN104216993A (zh) | 一种标签共现的标签聚类方法 | |
CN110781295A (zh) | 一种多标记数据的特征选择方法及装置 | |
JP2012079187A (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
CN109754023A (zh) | 基于j散度的新型决策树分类方法 | |
CA3033201A1 (en) | Large scale social graph segmentation | |
Yin et al. | A real-time memory updating strategy for unsupervised person re-identification | |
CN109919320B (zh) | 基于语义层次结构的Triplet网络学习方法 | |
Chehreghani | Efficient computation of pairwise minimax distance measures | |
CN109697471A (zh) | 一种基于knn的密度峰值聚类方法 | |
CN111814979B (zh) | 一种基于动态规划的模糊集自动划分方法 | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN116522170A (zh) | 基于自适应聚类中心聚类的网络用户分类方法 | |
CN102254040A (zh) | 一种基于支撑向量机的Web划分方法 | |
CN108268620A (zh) | 一种基于hadoop数据挖掘的文档分类方法 | |
Mishra et al. | Efficient intelligent framework for selection of initial cluster centers | |
CN108090182B (zh) | 一种大规模高维数据的分布式索引方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180713 |