CN111080351A - 一种多维数据集的聚类方法及*** - Google Patents

一种多维数据集的聚类方法及*** Download PDF

Info

Publication number
CN111080351A
CN111080351A CN201911237620.6A CN201911237620A CN111080351A CN 111080351 A CN111080351 A CN 111080351A CN 201911237620 A CN201911237620 A CN 201911237620A CN 111080351 A CN111080351 A CN 111080351A
Authority
CN
China
Prior art keywords
clustering
data set
dimensionality
sorting
clustering algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911237620.6A
Other languages
English (en)
Inventor
胡齐波
朱生尊
李斌辉
马啸尘
周勇林
沈智杰
景晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Surfilter Technology Development Co ltd
Surfilter Network Technology Co ltd
Original Assignee
Shenzhen Surfilter Technology Development Co ltd
Surfilter Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Surfilter Technology Development Co ltd, Surfilter Network Technology Co ltd filed Critical Shenzhen Surfilter Technology Development Co ltd
Priority to CN201911237620.6A priority Critical patent/CN111080351A/zh
Publication of CN111080351A publication Critical patent/CN111080351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多维数据集的聚类方法及***,其中通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。

Description

一种多维数据集的聚类方法及***
技术领域
本发明涉及数据挖掘和处理技术领域,尤其涉及一种多维数据集的聚类方法及***。
背景技术
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
但是,直接采用现有的通用聚类算法处理多维度数据集时,存在计算过于复杂,获取聚类结果时间长,消耗计算资源多的问题。
发明内容
本发明针对上述技术问题,公开了一种多维数据集的快速聚类方法及***。
本发明所提出的技术方案如下:
本发明提出了一种多维数据集的聚类方法,包括以下步骤:
步骤S1、获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
步骤S2、对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
本发明上述的聚类方法中,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。
本发明还提出了一种多维数据集的聚类***,包括:
维度分析单元,用于获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
聚类单元,用于对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
本发明上述的聚类***中,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
其中通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通过通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例提供的聚类方法的流程示意图;
图2为本发明实施例提供的聚类***的功能模块示意图。
具体实施方式
为了使本发明的技术目的、技术方案以及技术效果更为清楚,以便于本领域技术人员理解和实施本发明,下面将结合附图及具体实施例对本发明做进一步详细的说明。
如图1所示,图1示出了一种多维数据集的聚类方法,该聚类方法,包括以下步骤:
步骤S1、获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
在本步骤中,有序是指客观事物存在和运动中表现出来的稳定性、规则性、相互的因果关联性。
非有序则是指不稳定性、不规则性、随机性。
独立是指多维数据集的维度之间没有关联性。
步骤S2、对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
步骤S2中所述的聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。
由上述发明提供的技术方案可以看出,通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通过通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
具体而言,本发明实施例提供一种聚类方法中,有一个原始的多维数据集(表示为O),多维数据集中对象的维度数量为m,所有维度分别为x1,x2,…,xm,其中,有序且独立的维度为x1,x2,…,xp,非有序独立的维度为xp+1,xp+2,…,xm。
示例性的,假设p=2,遍历原始数据集(表示为O),通过维度x1顺序排序后,使用维度x1进行聚类,将数据集分成ax1个子数据集,表示为{Ax1}。
遍历{Ax1},对每个子数据集分别通过维度x2顺序排序后,使用维度x2进行聚类,将数据集分成ax2个子数据集,表示为{Ax2},ax2>ax1。
遍历数据集{Ax2},对每个子数据集使用通用聚类算法进行聚类计算,获得聚类结果。
其中聚类算法包括但不限于值漂移聚类,基于密度的聚类方法,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等。
对应于上述本发明实施例提供的聚类方法,如图2所示,本发明实施例提供一种聚类***,包括:
维度分析单元100,用于获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
有序是指客观事物存在和运动中表现出来的稳定性、规则性、相互的因果关联性。
非有序则是指不稳定性、不规则性、随机性。
独立是指多维数据集的维度之间没有关联性。
聚类单元200,用于对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
其上所述的聚类***中,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法等。
由上述发明提供的技术方案可以看出,通过遍历分析数据集对象的各个维度,获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;以有序独立维度对数据集重新排序聚类成新的数据集,再通过通用聚类算法对最后获得数据集进行计算得到结果,提高了此类聚类计算的效率。
具体而言,本发明实施例提供一种聚类***中,维度分析单元获取一个原始的数据集(表示为O),数据集中对象的维度数量为m,所有维度分别为x1,x2,…,xm,其中,有序独立维度为x1,x2,…,xp,非有序独立维度为xp+1,xp+2,…,xm。
示例性的,假设p=2,遍历原始数据集(表示为O),通过维度x1顺序排序后,使用维度x1进行聚类,将数据集分成ax1个子数据集,表示为{Ax1}。
遍历{Ax1},对每个子数据集分别通过维度x2顺序排序后,使用维度x2进行聚类,将数据集分成ax2个子数据集,表示为{Ax2},ax2>ax1。
遍历数据集{Ax2},对每个子数据集使用通用聚类算法进行聚类计算,获得聚类结果。
其中聚类算法包括但不限于值漂移聚类,基于密度的聚类方法,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等。
下面将结合具体应用场景对本发明实施例聚类方法作进一步地详细描述。
有一批人员运动轨迹数据,主要字段为:人员id、出现时间t、出现经度x、出现纬度y。需要从这批数据获取人员聚集出现的情况。假设该数据集为O,数据集大小为n。
最直接的方式是将这批数据通过合适的通用聚类算法(如均值漂移聚类,基于密度的聚类方法,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等直接进行聚类计算。
但是这样做时间复杂度是:数据维度数(3)*数据集大小的平方(n*n),即O(3n2)。
通过对出现时间t、出现经度x、出现纬度y进行遍历,获得有序独立维度出现时间t,和非有序独立维度出现经度x、出现纬度y。
遍历原始数据集(表示为O),通过维度t顺序排序后,使用维度t进行聚类,获得各子数据集的数据集{A}。
遍历数据集{A},对每个子数据集使用通用聚类算法进行聚类计算,获得聚类结果。
其中,时间复杂度是:数据维度数(2)*数据集大小的平方(n*n),即O(2n2)。比直接通用聚类计算时间复杂度O(3n2)低。如有序独立维度越多,则相对于通用聚类计算时间复杂度越低。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (4)

1.一种多维数据集的聚类方法,其特征在于,包括以下步骤:
步骤S1、获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
步骤S2、对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
2.根据权利要求1所述的聚类方法,其特征在于,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
3.一种多维数据集的聚类***,其特征在于,包括:
维度分析单元(100),用于获取多维数据集的维度;并将多维数据集的维度分为有序独立维度和非有序独立维度;
聚类单元(200),用于对多维数据集进行排序和聚类;其中,排序和聚类交替进行;每一次排序根据一个有序独立维度的顺序处理,该次排序之后邻近的一次聚类根据该有序独立维度进行,不同次序的排序根据不同的有序独立维度的顺序处理;每一次聚类将产生若干数据集;每一次聚类将该次聚类前分别邻近的一次排序后的若干数据集分别分成若干子一级的若干数据集;第一次聚类针对第一次排序后的所述多维数据集进行。
4.根据权利要求3所述的聚类***,其特征在于,所述聚类采用通用聚类算法进行;所述通用聚类算法为K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的期望最大化聚类算法、凝聚层次聚类算法或图团体检测法。
CN201911237620.6A 2019-12-05 2019-12-05 一种多维数据集的聚类方法及*** Pending CN111080351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911237620.6A CN111080351A (zh) 2019-12-05 2019-12-05 一种多维数据集的聚类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911237620.6A CN111080351A (zh) 2019-12-05 2019-12-05 一种多维数据集的聚类方法及***

Publications (1)

Publication Number Publication Date
CN111080351A true CN111080351A (zh) 2020-04-28

Family

ID=70313273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911237620.6A Pending CN111080351A (zh) 2019-12-05 2019-12-05 一种多维数据集的聚类方法及***

Country Status (1)

Country Link
CN (1) CN111080351A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913081A (zh) * 2020-07-14 2020-11-10 上海电力大学 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155394A1 (en) * 2004-12-16 2006-07-13 International Business Machines Corporation Method and apparatus for order-preserving clustering of multi-dimensional data
US20110015967A1 (en) * 2009-07-17 2011-01-20 Gm Global Technology Operations, Inc. Methodology to identify emerging issues based on fused severity and sensitivity of temporal trends
JP2013025791A (ja) * 2011-07-19 2013-02-04 Fuji Xerox Co Ltd ジオタグ付き収集写真の分類方法、システムおよびプログラム
CN108122186A (zh) * 2017-12-29 2018-06-05 北京航空航天大学 一种基于卡口数据的职住位置估计方法
CN109344729A (zh) * 2018-09-07 2019-02-15 福建诺恒科技有限公司 一种识别道路中人员运动的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155394A1 (en) * 2004-12-16 2006-07-13 International Business Machines Corporation Method and apparatus for order-preserving clustering of multi-dimensional data
US20110015967A1 (en) * 2009-07-17 2011-01-20 Gm Global Technology Operations, Inc. Methodology to identify emerging issues based on fused severity and sensitivity of temporal trends
JP2013025791A (ja) * 2011-07-19 2013-02-04 Fuji Xerox Co Ltd ジオタグ付き収集写真の分類方法、システムおよびプログラム
CN108122186A (zh) * 2017-12-29 2018-06-05 北京航空航天大学 一种基于卡口数据的职住位置估计方法
CN109344729A (zh) * 2018-09-07 2019-02-15 福建诺恒科技有限公司 一种识别道路中人员运动的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913081A (zh) * 2020-07-14 2020-11-10 上海电力大学 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法

Similar Documents

Publication Publication Date Title
Liu et al. Clustering with outlier removal
Chen et al. A fast clustering algorithm based on pruning unnecessary distance computations in DBSCAN for high-dimensional data
Aggarwal An introduction to cluster analysis
Popat et al. Review and comparative study of clustering techniques
Gao et al. Classifying data streams with skewed class distributions and concept drifts
Bifet et al. New ensemble methods for evolving data streams
Ran et al. Comprehensive survey on hierarchical clustering algorithms and the recent developments
IndiraPriya et al. A survey on different clustering algorithms in data mining technique
Wang et al. Mining multi-label data streams using ensemble-based active learning
Yan et al. A novel streaming data clustering algorithm based on fitness proportionate sharing
Li et al. Local gap density for clustering high-dimensional data with varying densities
Cheng et al. A local cores-based hierarchical clustering algorithm for data sets with complex structures
Benkessirat et al. Fundamentals of feature selection: an overview and comparison
Hahsler et al. Temporal structure learning for clustering massive data streams in real-time
Hu et al. Parallel clustering of big data of spatio-temporal trajectory
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
CN111080351A (zh) 一种多维数据集的聚类方法及***
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
Liao et al. Automatic density clustering with multiple kernels for high-dimension bioinformatics data
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Yu et al. A three-way decision clustering approach for high dimensional data
Qi et al. I-cfsfdp: A robust and high accuracy clustering method based on cfsfdp
Saha et al. Multi-label collective classification using adaptive neighborhoods
Sun et al. Online multi-task clustering for human motion segmentation
Balakrishnan et al. An application of genetic algorithm with iterative chromosomes for image clustering problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428