CN101339553A - 面向海量数据近似快速聚类和索引方法 - Google Patents

面向海量数据近似快速聚类和索引方法 Download PDF

Info

Publication number
CN101339553A
CN101339553A CNA2008100591275A CN200810059127A CN101339553A CN 101339553 A CN101339553 A CN 101339553A CN A2008100591275 A CNA2008100591275 A CN A2008100591275A CN 200810059127 A CN200810059127 A CN 200810059127A CN 101339553 A CN101339553 A CN 101339553A
Authority
CN
China
Prior art keywords
cluster
data
clustering
prime
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100591275A
Other languages
English (en)
Inventor
庄越挺
吴飞
夏丁胤
郭同强
张绪青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNA2008100591275A priority Critical patent/CN101339553A/zh
Publication of CN101339553A publication Critical patent/CN101339553A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向海量数据的递归分块信息传递聚类和索引方法。利用该方法可以实现各种海量数据的准确,快速的聚类和适用于查询,更新的索引结构。用户可以将海量的无序数据进行处理,快速的进行聚类并索引,有利于以后的查询,检索,维护和更新。此方法可以应用于面向互联网的海量文本,图像,音频,视频等快速聚类和索引,也可以应用于海量生物基因序列的相似度比较,同源蛋白质检测。本发明还公开了一种近似的快速海量数据的聚类方法,利用该方法可以在保证聚类效果损失不大的情况下,能够呈指数级的加快聚类的速度。并且还能较好有利于训练集以外数据进行聚类,***和更新,因此该方法可以普遍适用于各种复杂的海量数据的快速聚类和索引。

Description

面向海量数据近似快速聚类和索引方法
技术领域
本发明涉及一种面向海量数据的近似快速聚类和索引方法。该方法通过对局部区域数据之间的相似度信息传递,为海量复杂数据的聚类分析提供判断依据,从而实现海量数据的近似快速聚类和索引,属于多媒体信息处理,数据挖掘算法领域。
背景技术
在当今科学技术高度发展的今天,人们往往要面临海量的各种数据需要来进行处理,例如互联网上数以亿记的网页,图片,视频,音频等等,各种生物体测序出来的基因序列,都是包含海量数据信息的浩大工程,并且这些数据还在动态急速增长的过程中。我们面对如此浩大的数据需要处理时,数据挖掘就显得尤为重要了,聚类就是数据挖掘中最重要的方向之一。
传统聚类方法可以分为两种:监督式聚类和非监督式聚类。其中监督式聚类的代表方法是K平均聚类。在这种方法中,聚类的最终结果与用户初始指定的初始聚类中心有关。用户需要指定聚类数目、初始质心和评判某个成员归属某个聚类集合的阈值大小。这种方法本质上不是根据聚类元素的分布进行自适应聚类,且其聚类精度和效率依赖于初始质心选取等预设参数。
非监督聚类中代表性的聚类方法有支持向量聚类(Support VectorClustering),是基于支持向量机的聚类算法。在支持向量聚类中,聚类数据通过高斯核函数从低维空间被映射到高维特征空间,于是可以在这个高维特征空间找到一个最小的超球体将这些数据包围起来(虽然在低维空间无法找到这样的最小超球体将被聚类数据包围起来),这个超球体接着被映射回原始低维数据空间,被看作是包围被聚类数据点的轮廓,这些轮廓就认为是聚类簇的边界,在同一个轮廓中被包围的数据点认为属于同一个聚类集合,从而完成聚类。但是,支持向量聚类也不是基于聚类数据物理分布的,难以反映数据全局分布。
近来,一种叫做AP聚类(Affinity Propagation Clustering)的方法被提出,其基本思想就是通过消息传递,实现数据点的自动聚类。它将数据对象之间的相似度作为输入,而且此相似度可以是非对称的,即数据对象A到数据对象B的相似度可以不等于数据对象B到数据对象A的相似度。实值信息在数据对象之间交换传播直至一组高质量的聚类中心和相应的聚类产生。
假设i和k是任意两个节点,s(i,k)是按照下面式子计算得到的设i和k
之间距离,N是节点形成的聚类集合数目,则AP聚类可以看作使得 E ( c ) = - Σ i = 1 N s ( i , c i ) 值最小的计算结果。在AP聚类中,节点和节点之间相互传递两类信息,分别是r(responsibility)和a(availability)。其中r(i,k)表示k作为节点i的聚类质心的可信度,a(i,k)表示节点i选择k作为其聚类质心的可信度。
AP聚类过程如下所示。
(1)根据以下公式更新节点之间的R:
r ( i , k ) ← s ( i , k ) - max k ′ s . t . k ′ ≠ k { a ( i , k ′ ) + s ( i , k ′ ) } - - - 1
(2)根据以下公式更新节点之间的A:
a ( i , k ) ← min { 0 , r ( k , k ) + Σ i ′ s . t . i ′ ∉ { i , k } max { 0 , r ( i ′ k ) } } - - - 2
a ( k , k ) ← Σ i ′ s . t . i ′ ≠ k max { 0 , r ( i ′ , k ) } - - - 3
(3)将矩阵A和矩阵R组合在一起来监督聚类中心的变化:对于对象i,找出使a(i,k)+r(i,k)最大化的k,如果k=i,那么i是一个候选聚类中心,否则k就是i所在的聚类的候选聚类中心。
(4)不断重复(1)到(3),直至(3)监督到的结果不变,或达到了最大迭代次数。
但是,针对数据点之间形成的距离是稠密矩阵(Dense Matrix),用基于信息传递的聚类方法AP进行聚类时,其运行时间会随着数据量的增大程指数增长。因此我们需要对此信息传递的聚类方法进行改进。
发明内容
本发明的目的是提供一种面向海量数据的近似快速聚类和索引方法。
为实现上述的发明目的,本发明采用如下技术方案:
第一种基于近似计算的海量数据聚类方法包括如下步骤:
输入包括N个数据对象的集合,这些对象之间的相似度矩阵SN×N,其中S[i,j]≤0(i=1ΛN,j=1ΛN),我们对其进行基于分块递归信息传递的聚类:
1)将相似度矩阵SN×N平均分成k部分,接着对每部分再平均分成m部分,...并照此类推下去:
S = S 11 L S 1 m M O M S m 1 L S mm L L S 1 k O M M O M M O S k 1 L L O M L S kk
2)把子矩阵S11,S22,L Smm,L Skk通过基于消息传播的AP聚类方法迭代计算,得到k个消息传播子矩阵A11,A22,L,Amm,L Akk
3)将步骤2)中的消息传播子矩阵A11,A22,L,Amm,L Akk在对角线上合并,将其余部分设为0,得到整个数据集的消息传播矩阵A′:
A ′ = A 11 L A 1 m M O M A m 1 L A mm L 0 M O M 0 L O M L A kk
除A11,A22,L,Amm,L Akk以外,消息传播矩阵A′的其余部分为0;
4)以A′作为递归分块信息传递的聚类方法的起始信息传递矩阵AN×N,作为迭代起点再利用AP聚类方法得到最终聚类结果。
所述的对相似度矩阵SN×N划分成为k部分:其中,k或m必须是大于1,小于
Figure A20081005912700062
C是所期望类的数目的最大值,子矩阵S11,S22,L Smm,L Skk都是方阵,子矩阵S11…Sk-1,k-1的大小都是子矩阵Skk的大小是
Figure A20081005912700064
所述的基于消息传播的AP聚类方法迭代计算方法的步骤如下:
(1)根据以下公式更新节点之间的R:
r ( i , k ) ← s ( i , k ) - max k ′ s . t . k ′ ≠ k { a ( i , k ′ ) + s ( i , k ′ ) } - - - 1
(2)根据以下公式更新节点之间的A:
a ( i , k ) ← min { 0 , r ( k , k ) + Σ i ′ s . t . i ′ ∉ { i , k } max { 0 , r ( i ′ k ) } } - - - 2
a ( k , k ) ← Σ i ′ s . t . i ′ ≠ k max { 0 , r ( i ′ , k ) } - - - 3
(3)不断重复步骤(1)和步骤(2)过程,直到收敛,或达到了最大迭代次数。
第二种基于近似计算的海量数据聚类方法包括如下步骤:
输入包括N个数据对象的集合,这些对象之间的相似度矩阵为SN×N,其中S[i,j]≤0(i=1ΛN,j=1ΛN)。我们对其进行近似的快速信息传递的聚类:
1)给定大规模数据集合X,其中包含p个数据点,根据代表性最大的原则随机挑选q个综合能力强的数据点,q远小于p,对这q个节点之间的形成的距离矩阵应用AP聚类算法,得到其聚类结果;
2)通过步骤1)得到了n个聚类集合,分别为C1,C2,L,Cn,在每个聚类集合中计算节点离聚类质心最小距离min_distance[ci],对于剩下的p-q个节点再进行分类,数据集中其余数据点i划分到某个cj类的规则如下,当该节点离开n个聚类质心的距离小于某个min_distance[ci]时,则将这个节点纳入ci聚类集合;
3)如果还有m个节点通过步骤2)无法纳入任何聚类集合,当m小于设定阈值,则对m个节点直接应用原始的AP聚类算法;当m大于设定阈值,则重复递归调用使用步骤1)和步骤2),分别得到聚类结果;
4)将步骤2)和步骤3)得到的聚类结果进行合并,对每个类中的结果重新计算,从而得到每个类的最佳聚类中心。
所述的数据集中其余数据点i划分到某个cj类的规则如下:
1)distance(i,cj)<max_distance(cj);
2)distance(i,cj)=min(distance(i,c1),distance(i,c2),...,distance(i,cn))。
本发明具有的有益效果:
1)第一种递归分块信息传递的聚类方法先将原始数据集分组,对每个小组再继续分为若干小组,如此类推下去。然后对每个小组进行基于信息传播的原始AP聚类方法,然后在每个层次上将分组聚类的结果按照步骤(3)依次合并,并且最终合并的A矩阵作为初始状态继续基于信息传递的原始AP聚类方法的迭代起点,最后迭代求解。
a)在大部分情况下,步骤(4)中基于消息传播的聚类方法AP的迭代次数要比一开始就使基于消息传播的聚类方法AP在整个数据集上运行的迭代次数要少得多,见图1。
b)同时,由于在步骤(4)中,消息传播过程运行在整个数据集上,所以得到的聚类结果与原始方法相似,甚至更加。
2)当面临海量数据的聚类问题时,步骤(2)的运行时间此时几乎可以忽略不计,这是由于在步骤(2)中,子矩阵Sii只有原始矩阵S的1/k2大,而基于消息传播的聚类方法AP的运行时间会随着数据量的增大程指数增长,见图2。结合(1),分割式基于消息传播的数据聚类方法在处理大数据量集合时,速度要比原始方法AP快得多。
3)第二种方法近似快速信息传递聚类算法,在海量数据集中依据代表性最大的原则选取若干个具有代表意义的数据点,然后首先在代表数据点中信息传递,然后将其他数据点以类似分类的方法划分到步骤(1)的类中,将不属于任何类别的数据点递归调用近似快速信息传递聚类算法,最后将结果合并计算聚类核心的最优解。其意义在于:
a)在聚类结果准确度影响不大的情况下,能指数级的降低算法计算的时间。能够将用原始AP聚类算法无法计算的问题,转化为能在有限时间内计算得到近似解的方法。用户能自由控制近似计算与原始AP聚类算法的相似度。
b)对训练集以外的数据也普遍使用,特别是当需要聚类的数据还在不断增长的过程中时,不需要对整个新、老合并数据集重新迭代计算,只需对新数据进行合并,***运算即可。
附图说明
图1是递归分块信息传递聚类算法与原始AP算法迭代次数的比较图;
图2是递归分块信息传递聚类算法与原始AP算法迭所花费时间的比较图;
图3是递归分块信息传递聚类算法与原始AP算法在流形数据上聚类结果的比较图;
图4是近似快速信息传递聚类算法过程示意图;
图5是近似快速信息传递聚类算法在书法字数据集上的效果展示。
具体实施方式
本发明提出的递归分割信息传递的数据聚类方法实例如图1和图2所示,
具体说明如下:
第一种基于分块递归信息传递的聚类方法包括如下步骤:
输入包括N个数据对象的集合,这些对象之间的相似度矩阵SN×N,其中S[i,j]≤0(i=1ΛN,j=1ΛN),我们对其进行基于分块递归信息传递的聚类:
1)将相似度矩阵SN×N平均分成k部分,接着对每部分再平均分成m部分,...并照此类推下去:
S = S 11 L S 1 m M O M S m 1 L S mm L L S 1 k O M M O M M O S k 1 L L O M L S kk
为实现步骤1),我们设计了相似度计算模块,该模块实现对数据库中数据点两两对象之间的相似度的计算。该模块主要包括复杂数据的特征提取和数据与数据之间相似度计算两个主要算法。具体说明如下:
a)人脸数据的特征提取算法:采用了压缩数据库来进行人脸表情分析(T.Kanade,J.F.Cohn,and Y.Tian,Comprehensive database for facial expressionanalysis,in Proc.IEEE International Conference on Autom atic Face and GestureRecognition(FGR’00),pp.46-53,Grenoble,France,March 2000)一文中提到的人脸轮廓提取算法,从每张人脸上提取59个特征点,包括眼睛、鼻子、嘴唇和下巴的轮廓,并以人中为坐标原点对数据进行归一化。
b)相似度计算算法:通过对任意两个数据点之间的欧氏距离取负求得。
2)把子矩阵S11,S22,L Smm,L Skk通过基于消息传播的AP聚类方法迭代计算,得到k个消息传播子矩阵A11,A22,L,Amm,L Akk
3)将步骤2)中的消息传播子矩阵A11,A22,L,Amm,L Akk在对角线上合并,将其余部分设为0,得到整个数据集的消息传播矩阵A′:
A ′ = A 11 L A 1 m M O M A m 1 L A mm L 0 M O M 0 L O M L A kk
除A11,A22,L,Amm,L Akk以外,消息传播矩阵A′的其余部分为0;
4)以A′作为递归分块信息传递的聚类方法的起始信息传递矩阵AN×N,作为迭代起点再利用AP聚类方法得到最终聚类结果。
所述的对相似度矩阵SN×N划分成为k部分:其中,k或m必须是大于1,小于
Figure A20081005912700092
C是所期望类的数目的最大值,子矩阵S11,S22,L Smm,L Skk都是方阵,子矩阵S11…Sk-1,k-1的大小都是
Figure A20081005912700093
子矩阵Skk的大小是
Figure A20081005912700094
所述的基于消息传播的AP聚类方法迭代计算方法的步骤如下:
(1)根据以下公式更新节点之间的R:
r ( i , k ) ← s ( i , k ) - max k ′ s . t . k ′ ≠ k { a ( i , k ′ ) + s ( i , k ′ ) } - - - 1
(2)根据以下公式更新节点之间的A:
a ( i , k ) ← min { 0 , r ( k , k ) + Σ i ′ s . t . i ′ ∉ { i , k } max { 0 , r ( i ′ k ) } } - - - 2
a ( k , k ) ← Σ i ′ s . t . i ′ ≠ k max { 0 , r ( i ′ , k ) } - - - 3
(3)不断重复步骤(1)和步骤(2)过程,直到收敛,或达到了最大迭代次数。
为实现步骤2)至步骤4),我们设计了递归分块信息传递聚类模块,该模块使用本发明提供的方法对数据进行聚类。测试数据集为CMU大学的Cohn-Kanade AU-Coded Facial Expression Database,实际数据库中有2024张人脸图像,这里k迭代分块方法为2×2×2。在步骤(4)总共迭代次数为原始AP聚类算法的1/8,整个聚类过程耗时约为1/6,得到的聚类数目相差小于3%,图3为部分聚类结果。其中对第一种流形数据(Swiss Roll)甚至有改善的结果。
第二种基于近似计算的海量数据聚类方法包括如下步骤:
输入包括N个数据对象的集合,这些对象之间的相似度矩阵为SN×N,其中S[i,j]≤0(i=1ΛN,j=1ΛN)。为实现上述功能,我们设计了相似度计算模块:该模块实现对数据库中数据点两两对象之间的相似度的计算。该模块主要包括复杂数据的特征提取和数据与数据之间相似度计算两个主要算法。具体说明如下:
a)人脸数据的特征提取算法:采用了压缩数据库来进行人脸表情分析(T.Kanade,J.F.Cohn,and Y.Tian,Comprehensive database for facial expressionanalysis,in Proc.IEEE International Conference on Automatic Face and GestureRecognition(FGR’00),pp.46-53,Grenoble,France,March 2000)一文中提到的人脸轮廓提取算法,从每张人脸上提取59个特征点,包括眼睛、鼻子、嘴唇和下巴的轮廓,并以人中为坐标原点对数据进行归一化。
b)相似度计算算法:通过对任意两个数据点之间的欧氏距离取负求得。
然后,我们对其进行近似的快速信息传递的聚类:
1)给定大规模数据集合X,其中包含p个数据点,根据代表性最大的原则随机挑选q个综合能力强的数据点,q远小于p,对这q个节点之间的形成的距离矩阵应用AP聚类算法,得到其聚类结果;
2)通过步骤1)得到了n个聚类集合,分别为C1,C2,L,Cn,在每个聚类集合中计算节点离聚类质心最小距离min_distance[ci],对于剩下的p-q个节点再进行分类,数据集中其余数据点i划分到某个cj类的规则如下,当该节点离开n个聚类质心的距离小于某个min_distance[ci]时,则将这个节点纳入ci聚类集合;
3)如果还有m个节点通过步骤2)无法纳入任何聚类集合,当m小于设定阈值,则对m个节点直接应用原始的AP聚类算法;当m大于设定阈值,则重复递归调用使用步骤1)和步骤2),分别得到聚类结果;
4)将步骤2)和步骤3)得到的聚类结果进行合并,对每个类中的结果重新计算,从而得到每个类的最佳聚类中心。
所述的数据集中其余数据点i划分到某个cj类的规则如下:
1)distance(i,cj)<max_distance(cj);
2)distance(i,cj)=min(distance(i,c1),distance(i,c2),...,distance(i,cn))。
为实现上述的近似快速信息传递的聚类,我们设计了近似快速计算聚类模块;该模块使用本发明中第二种方法提供的算法对海量数据进行快速的近似聚类。测试数据集为浙江大学CADAL中美百万册数字图书馆项目馆藏的10729个中国各朝各代的书法字图片,其中包括中文常用汉字为1496个。将聚类算法所花费时间呈指数级减少,最后中国书法字的聚类结果效果为图5所示。

Claims (5)

1.一种基于分块递归信息传递的聚类方法,其特征在于包括如下步骤:
输入包括N个数据对象的集合,这些对象之间的相似度矩阵SN×N,其中S[i,j]≤0(i=1ΛN,j=1ΛN),我们对其进行基于分块递归信息传递的聚类:
1)将相似度矩阵SN×N平均分成k部分,接着对每部分再平均分成m部分,...并照此类推下去:
S = S 11 L S 1 m M O M S m 1 L S mm L L S 1 k O M M O M M O S k 1 L L O M L S kk
2)把子矩阵S11,S22,L Smm,L Skk通过基于消息传播的AP聚类方法迭代计算,得到k个消息传播子矩阵A11,A22,L,Amm,L Akk
3)将步骤2)中的消息传播子矩阵A11,A22,L,Amm,L Akk在对角线上合并,将其余部分设为0,得到整个数据集的消息传播矩阵A′:
A ′ = A 11 L A 1 m M O M A m 1 L A mm L 0 M O M 0 L O M L A kk
除A11,A22,L,Amm,L Akk以外,消息传播矩阵A′的其余部分为0;
4)以A′作为递归分块信息传递的聚类方法的起始信息传递矩阵AN×N,作为迭代起点再利用AP聚类方法得到最终聚类结果。
2.根据权利要求1所述的一种基于分块递归信息传递的聚类方法,其特征在于所述的对相似度矩阵SN×N划分成为k部分:其中,k或m必须是大于1,小于
Figure A2008100591270002C3
C是所期望类的数目的最大值,子矩阵S11,S22,L Smm,L Skk都是方阵,子矩阵S11…Sk-1,k-1的大小都是子矩阵Skk的大小是
Figure A2008100591270002C5
3.根据权利要求1所述的一种基于分块递归信息传递的聚类方法,其特征在于所述的基于消息传播的AP聚类方法迭代计算方法的步骤如下:
(1)根据以下公式更新节点之间的R:
r ( i , k ) ← s ( i , k ) - max k ′ s . t . k ′ ≠ k { a ( i , k ′ ) + s ( i , k ′ ) } - - - 1
(2)根据以下公式更新节点之间的A:
a ( i , k ) ← min { 0 , r ( k , k ) + Σ i ′ s . t . i ′ ∉ { i , k } max { 0 , r ( i ′ , k ) } } - - - 2
a ( k , k ) ← Σ i ′ s . t . i ′ ≠ k max { 0 , r ( i ′ , k ) } - - - 3
(3)不断重复步骤(1)和步骤(2)过程,直到收敛,或达到了最大迭代次数。
4.一种基于近似计算的海量数据聚类方法,其特征在于包括如下步骤:
输入包括N个数据对象的集合,这些对象之间的相似度矩阵为SN×N,其中S[i,j]≤0(i=1ΛN,j=1ΛN)。我们对其进行近似的快速信息传递的聚类:
1)给定大规模数据集合X,其中包含p个数据点,根据代表性最大的原则随机挑选q个综合能力强的数据点,q远小于p,对这q个节点之间的形成的距离矩阵应用AP聚类算法,得到其聚类结果;
2)通过步骤1)得到了n个聚类集合,分别为C1,C2,L,Cn,在每个聚类集合中计算节点离聚类质心最小距离min_distance[ci],对于剩下的p-q个节点再进行分类,数据集中其余数据点i划分到某个cj类的规则如下,当该节点离开n个聚类质心的距离小于某个min_distance[ci]时,则将这个节点纳入ci聚类集合;
3)如果还有m个节点通过步骤2)无法纳入任何聚类集合,当m小于设定阈值,则对m个节点直接应用原始的AP聚类算法;当m大于设定阈值,则重复递归调用使用步骤1)和步骤2),分别得到聚类结果;
4)将步骤2)和步骤3)得到的聚类结果进行合并,对每个类中的结果重新计算,从而得到每个类的最佳聚类中心。
5.根据权利要求4所述的一种基于近似计算的海量数据聚类方法,其特征在于,所述的数据集中其余数据点i划分到某个cj类的规则如下:
1)distance(i,cj)<max_distance(cj);
2)distance(i,cj)=min(distance(i,c1),distance(i,c2),...,distance(i,cn))。
CNA2008100591275A 2008-01-14 2008-01-14 面向海量数据近似快速聚类和索引方法 Pending CN101339553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100591275A CN101339553A (zh) 2008-01-14 2008-01-14 面向海量数据近似快速聚类和索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100591275A CN101339553A (zh) 2008-01-14 2008-01-14 面向海量数据近似快速聚类和索引方法

Publications (1)

Publication Number Publication Date
CN101339553A true CN101339553A (zh) 2009-01-07

Family

ID=40213623

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100591275A Pending CN101339553A (zh) 2008-01-14 2008-01-14 面向海量数据近似快速聚类和索引方法

Country Status (1)

Country Link
CN (1) CN101339553A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045357A (zh) * 2010-12-29 2011-05-04 深圳市永达电子股份有限公司 一种基于仿射聚类分析的入侵检测方法
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法
CN101694657B (zh) * 2009-09-18 2011-11-09 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
CN102306202A (zh) * 2011-09-30 2012-01-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法
CN101526960B (zh) * 2009-04-21 2012-02-08 王鹏 支持向量数据描述外壳算法
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103077228A (zh) * 2013-01-02 2013-05-01 北京科技大学 一种基于集合特征向量的快速聚类方法和装置
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN103794234A (zh) * 2012-10-30 2014-05-14 北京航天长峰科技工业集团有限公司 基于海量视频的事件轨迹快速检索平台
CN104281674A (zh) * 2014-09-29 2015-01-14 同济大学 一种基于集聚系数的自适应聚类方法及***
CN104573036A (zh) * 2015-01-16 2015-04-29 深圳大学 一种基于距离的求解二维空间中代表性节点集的算法
CN101996198B (zh) * 2009-08-31 2016-06-29 ***通信集团公司 聚类实现方法及***
CN109981326A (zh) * 2017-12-28 2019-07-05 ***通信集团山东有限公司 家庭宽带感知故障定位的方法及装置
CN110633379A (zh) * 2019-08-29 2019-12-31 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图***及方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526960B (zh) * 2009-04-21 2012-02-08 王鹏 支持向量数据描述外壳算法
CN101996198B (zh) * 2009-08-31 2016-06-29 ***通信集团公司 聚类实现方法及***
CN101694657B (zh) * 2009-09-18 2011-11-09 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
CN102045357A (zh) * 2010-12-29 2011-05-04 深圳市永达电子股份有限公司 一种基于仿射聚类分析的入侵检测方法
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法
CN102306202B (zh) * 2011-09-30 2013-09-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法
CN102306202A (zh) * 2011-09-30 2012-01-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103794234A (zh) * 2012-10-30 2014-05-14 北京航天长峰科技工业集团有限公司 基于海量视频的事件轨迹快速检索平台
CN103794234B (zh) * 2012-10-30 2016-09-21 北京航天长峰科技工业集团有限公司 基于海量视频的事件轨迹快速检索平台
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN102955857B (zh) * 2012-11-09 2015-07-08 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103077228A (zh) * 2013-01-02 2013-05-01 北京科技大学 一种基于集合特征向量的快速聚类方法和装置
CN103077228B (zh) * 2013-01-02 2016-03-02 北京科技大学 一种基于集合特征向量的快速聚类方法和装置
CN103473307B (zh) * 2013-09-10 2016-07-13 浙江大学 跨媒体稀疏哈希索引方法
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN104281674B (zh) * 2014-09-29 2017-07-11 同济大学 一种基于集聚系数的自适应聚类方法及***
CN104281674A (zh) * 2014-09-29 2015-01-14 同济大学 一种基于集聚系数的自适应聚类方法及***
CN104573036A (zh) * 2015-01-16 2015-04-29 深圳大学 一种基于距离的求解二维空间中代表性节点集的算法
CN104573036B (zh) * 2015-01-16 2018-07-27 深圳大学 一种基于距离的求解二维空间中代表性节点集的方法
CN109981326A (zh) * 2017-12-28 2019-07-05 ***通信集团山东有限公司 家庭宽带感知故障定位的方法及装置
CN109981326B (zh) * 2017-12-28 2022-01-25 ***通信集团山东有限公司 家庭宽带感知故障定位的方法及装置
CN110633379A (zh) * 2019-08-29 2019-12-31 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图***及方法
CN110633379B (zh) * 2019-08-29 2023-04-28 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图***及方法

Similar Documents

Publication Publication Date Title
CN101339553A (zh) 面向海量数据近似快速聚类和索引方法
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN103678670B (zh) 一种微博热词与热点话题挖掘***及方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN102737126B (zh) 云计算环境下的分类规则挖掘方法
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN103870474A (zh) 一种新闻话题组织方法及装置
CN105893585B (zh) 一种结合标签数据的二部图模型学术论文推荐方法
CN112182221B (zh) 一种基于改进随机森林的知识检索优化方法
CN101968853A (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN105046720B (zh) 基于人体运动捕捉数据字符串表示的行为分割方法
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN104899607B (zh) 一种传统云纹图案的自动分类方法
CN105139031A (zh) 一种基于子空间聚类的数据处理方法
CN106055661A (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN107944485A (zh) 基于聚类群组发现的推荐***及方法、个性化推荐***
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
CN110889282A (zh) 一种基于深度学习的文本情感分析方法
CN110738053A (zh) 基于语义分析与监督学习模型的新闻主题推荐算法
CN109034953B (zh) 一种电影推荐方法
CN114564573A (zh) 基于异构图神经网络的学术合作关系预测方法
Chen et al. Self-training enhanced: Network embedding and overlapping community detection with adversarial learning
CN103345474A (zh) 一种文档主题的在线追踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090107