CN106339416B - 基于网格快速搜寻密度峰值的教育数据聚类方法 - Google Patents

基于网格快速搜寻密度峰值的教育数据聚类方法 Download PDF

Info

Publication number
CN106339416B
CN106339416B CN201610668504.XA CN201610668504A CN106339416B CN 106339416 B CN106339416 B CN 106339416B CN 201610668504 A CN201610668504 A CN 201610668504A CN 106339416 B CN106339416 B CN 106339416B
Authority
CN
China
Prior art keywords
data
density
point
grid
grid cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610668504.XA
Other languages
English (en)
Other versions
CN106339416A (zh
Inventor
张明新
孙昊
郑金龙
戴娇
彭颖
王子清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changshu Institute of Technology
Original Assignee
Changshu Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changshu Institute of Technology filed Critical Changshu Institute of Technology
Priority to CN201610668504.XA priority Critical patent/CN106339416B/zh
Publication of CN106339416A publication Critical patent/CN106339416A/zh
Application granted granted Critical
Publication of CN106339416B publication Critical patent/CN106339416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网格快速搜寻密度峰值的教育数据聚类方法,包括将整个数据集划分成若干个网格单元,分别计算各网格单元的密度,并向大密度的网格单元进行扩展,进而形成较大的网格单元合集,形成数据分区,然后运用基本CFSFDP算法分别对这些分区进行局部聚类,最后将得到的子类进行合并。本发明只关注各个数据点之间的相似性度量且无需指定数据集的中心点,确定类中心点的方案简洁而且精准,保持了CFSFDP算法的快速和高效,同时具有较高聚类质量。

Description

基于网格快速搜寻密度峰值的教育数据聚类方法
技术领域
本发明涉及一种数据聚类方法,尤其是涉及一种基于网格快速搜寻密度峰值的教育数据聚类方法。
背景技术
聚类分析是数据挖掘的一个重要方法,广泛应用于文本处理、Web搜索等多领域。其中比较典型的有k-means和DBSCAN算法,K-means算法将数据点划分到距离最近的中心点进行聚类,该类算法很难将非球形数据集聚类,DBSCAN算法可以对任意形状的数据集进行聚类,但须指定一个密度阈值,从而可以去除噪声点。基于密度峰值的空间聚类算法Clustering by Fast Search and Find of Density Peaks(简称CFSFDP),用于发现被低密度区域分离的高密度区域。与K-means算法相比,CFSFDP可自动获取类的个数,且算法的复杂度相对较低。与DBSCAN算法相比,CFSFDP可在噪声环境下聚类任意形状数据集且实现简单速度快。但同样也存在如下缺点:(1)算法使用全局密度阈值,并没有考虑数据空间的分布特性,所以当数据密度和类间距分布不均匀时,聚类质量不高;(2)当一个类中存在多密度峰值时,CFSFDP算法虽然对数据点按密度值降序进行排序,但聚类效果并不理想。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于网格快速搜寻密度峰值的教育数据聚类方法,解决了原CFSFDP算法中使用全局密度阈值,当数据密度和类间距分布不均匀时,聚类质量不高的问题。
本发明技术方案如下:一种基于网格快速搜寻密度峰值的教育数据聚类方法,依次包括以下步骤,
步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学好、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;
步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;
步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值dc,根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:计算类间相似度,合并两个满足类间相似条件的类;
步骤9:输出聚类结果。
优选的,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。
本发明所提供的技术方案的优点在于:
通过对待聚类数据的划分和扩展形成多个网格单元合集,将该合集作为一个数据分区,采用CFSFDP算法对各个分区进行局部聚类。在局部聚类时,各分区根据其数据分布密集程度选择合适的密度阈值进行聚类,因而由全局密度阈值导致的聚类质量下降的问题得以解决,同时保持了CFSFDP算法的快速和高效。当一个类中存在多密度峰值时,本发明的聚类效果提升。本发明只关注各个数据点之间的相似性度量(距离或其他衡量标准)且无需指定数据集的中心点,比k-means算法更适合没有坐标的数据集,其确定类中心点的方案简洁而且精准。
附图说明
图1为本发明聚类方法流程示意图。
图2为本发明实施例聚类输出结果。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
请结合图1,以教育数据聚类为例,本发明方法的具体实施是这样的,
步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,该数据集有多个属性,属性涵盖了学生在校学习和生活的所有方面,如学生个人信息,学生选课成绩信息,学生的毕业情况信息等等,把这些信息的子属性当作聚类算法的输入属性;
步骤2:教务数据集的属性(如性别,学业成绩,生源地等)都是有界的,设学业成绩上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)就是教务数据集。对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格区间,形成网格单元。对于每一维的网格单元,保证取值区间都是左闭右开的。为了提高计算效率和聚类效果,定义网格的边长side为:
其中a为比例系数,根据经验值进行指定,用来调整控制网格边长大小。本实施例中选取的a值都为1.5。根据网格边长,可计算出区间数目,计算公式如下:
根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元;
步骤3:把每个数据点都映射到所相对应的网格单元当中去,对于某个特定的数据对象来说,它所对应的网格在每个维度上面的所对应的下标为:
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值dc,教务数据集S={x1,x2,…,xn},相应的下标集为IS={1,2,…,n},dij=dist(xi,xj)为数据点xi和xj间的距离,当数据点为离散值时,局部密度ρi为:
其中j与i不相等且都属于IS,函数χ(x)为:
当数据点为连续值时,局部密度ρi为:
其中,参数dc>0为截断距离,ρi表示S中与数据点xi之间距离小于dc的数据点的个数,与密度更高的数据点的距离δi的计算公式为:
根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:当一个类中存在多密度峰值时,CFSFDP算法会将一个类划分成两个或多个类,此时需进行子类合并;在网格划分时,也可能将同一类中的数据点划分到两个相邻的网格当中,此时同样也需进行子类合并。因此当局部聚类完成后,应当对那些所在分区相邻并且关联性比较高的子类进行合并。假设存在两个类A,B,其密度阈值分别为dcA,dcB,边界区域点集分别为EA,EB,设p,q分别为EA,EB中的数据点,Dist{p,q}表示p和q之间的距离,边界区域中的点数为NA,NB,公式如下:
NA=|EA|,NB=|EB|
dc(A,B)的计算公式为:
dc(A,B)=min{dcA,dcB}
若类A和类B满足类间相似度:
则将类A、B进行合并;
步骤9:输出聚类结果。
本实施例的聚类结果如图2所示,其中分类1的特征:大部分是女生,学习综合成绩大部分为良好或中等,团员,江苏苏中,城镇户口居多。分类2的特征:大部分是女生,学习综合成绩大部分为良好,非江苏人居多,考生类别不详。分类3的特征:大部分是女生,学习综合成绩大部分为中等,团员,江苏城镇户口居多。分类4的特征:大部分是男生,学习综合成绩为中等,江苏苏北,农村户口居多。分类5的特征:大部分是男生,学习综合成绩大部分为中等,江苏苏北,城镇户口居多。分类6的特征:大部分是男生,学习综合成绩大部分为中等,江苏苏南,城镇户口居多。分类7的特征:大部分是男生极少女的,本三,学习综合成绩大部分为中等,考生类别未知居多。分类8的特征:大部分是男生,专转本居多,学习综合成绩大部分为中等,江苏苏北,考生类别未知居多。聚类也可以用于离群点的寻找,加入学习行为属性,可以寻找学习行为有问题的学生。

Claims (2)

1.一种基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,依次包括以下步骤,
步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学号 、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;
步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;
步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值=dc ,根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:计算类间相似度,合并两个满足类间相似条件的类;
步骤9:输出聚类结果。
2.根据权利要求1所述的基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。
CN201610668504.XA 2016-08-15 2016-08-15 基于网格快速搜寻密度峰值的教育数据聚类方法 Active CN106339416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610668504.XA CN106339416B (zh) 2016-08-15 2016-08-15 基于网格快速搜寻密度峰值的教育数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610668504.XA CN106339416B (zh) 2016-08-15 2016-08-15 基于网格快速搜寻密度峰值的教育数据聚类方法

Publications (2)

Publication Number Publication Date
CN106339416A CN106339416A (zh) 2017-01-18
CN106339416B true CN106339416B (zh) 2019-11-08

Family

ID=57824248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610668504.XA Active CN106339416B (zh) 2016-08-15 2016-08-15 基于网格快速搜寻密度峰值的教育数据聚类方法

Country Status (1)

Country Link
CN (1) CN106339416B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596648B (zh) * 2018-03-20 2020-07-17 阿里巴巴集团控股有限公司 一种商圈判定方法和装置
CN108710796B (zh) * 2018-05-15 2021-07-06 广东工业大学 入侵操作检测方法、装置、设备及计算机可读存储介质
CN108846435B (zh) * 2018-06-13 2022-01-14 浙江工业大学 自动确定聚类中心的用户影评密度峰值聚类方法
CN111127062B (zh) * 2018-11-01 2023-08-18 ***通信集团广东有限公司 一种基于空间搜索算法的群体欺诈识别方法及装置
CN109711459B (zh) * 2018-12-24 2019-11-15 广东德诚科教有限公司 用户个性化行为评测方法、装置、计算机设备和存储介质
CN109840558B (zh) * 2019-01-25 2022-06-17 南京航空航天大学 基于密度峰值-核心融合的自适应聚类方法
CN109858544B (zh) * 2019-01-28 2021-01-29 重庆邮电大学 基于区间阴影集和密度峰值聚类的钢材质量检测方法
CN110161464B (zh) * 2019-06-14 2023-03-10 成都纳雷科技有限公司 一种雷达多目标聚类方法及装置
CN110488259B (zh) * 2019-08-30 2022-11-04 成都纳雷科技有限公司 一种基于gdbscan的雷达目标分类方法及装置
CN113593262B (zh) * 2019-11-14 2022-09-27 北京百度网讯科技有限公司 交通信号控制方法、装置、计算机设备和存储介质
CN111950632B (zh) * 2020-08-12 2021-11-09 贝壳找房(北京)科技有限公司 用于实现小区信息聚类的方法、装置、介质以及电子设备
CN112395475B (zh) * 2020-11-02 2021-11-26 清华大学 一种基于快速搜索与密度峰值聚类的服务商聚类方法
CN112561470A (zh) * 2020-12-08 2021-03-26 海南省林业科学研究院(海南省红树林研究院) 一种数字林业大数据***的构建方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887645A (zh) * 2010-07-09 2010-11-17 天津职业技术师范大学 室内停车场有线式车辆检测器布线优化方法
CN102419774A (zh) * 2011-12-15 2012-04-18 上海大学 一种面向snp数据的聚类方法
CN102831393A (zh) * 2012-07-19 2012-12-19 安徽工业大学 电力杆塔轮廓的快速图像识别方法
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
CN103714153A (zh) * 2013-12-26 2014-04-09 西安理工大学 基于限定区域数据取样的密度聚类方法
CN104899899A (zh) * 2015-06-12 2015-09-09 天津大学 一种基于密度峰值的颜色量化方法
CN105138966A (zh) * 2015-08-03 2015-12-09 西安电子科技大学 基于快速密度峰值聚类的极化sar图像分类方法
CN105184318A (zh) * 2015-08-31 2015-12-23 浙江工业大学 一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法
CN105513127A (zh) * 2015-12-25 2016-04-20 武汉大学 基于密度峰值聚类的杆状物规则化三维建模方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412429B1 (en) * 2007-11-15 2008-08-12 International Business Machines Corporation Method for data classification by kernel density shape interpolation of clusters

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
CN101887645A (zh) * 2010-07-09 2010-11-17 天津职业技术师范大学 室内停车场有线式车辆检测器布线优化方法
CN102419774A (zh) * 2011-12-15 2012-04-18 上海大学 一种面向snp数据的聚类方法
CN102831393A (zh) * 2012-07-19 2012-12-19 安徽工业大学 电力杆塔轮廓的快速图像识别方法
CN103714153A (zh) * 2013-12-26 2014-04-09 西安理工大学 基于限定区域数据取样的密度聚类方法
CN104899899A (zh) * 2015-06-12 2015-09-09 天津大学 一种基于密度峰值的颜色量化方法
CN105138966A (zh) * 2015-08-03 2015-12-09 西安电子科技大学 基于快速密度峰值聚类的极化sar图像分类方法
CN105184318A (zh) * 2015-08-31 2015-12-23 浙江工业大学 一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法
CN105513127A (zh) * 2015-12-25 2016-04-20 武汉大学 基于密度峰值聚类的杆状物规则化三维建模方法及***

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Clustering by fast search and find of density peaks";Alex Rodriguez 等;《Science》;20140523;第344卷(第6191期);第1492-1496页 *
"Fuzzy clustering by fast search and find of density peaks";Rashid Mehmood 等;《2015 International Conference on Identification, Information, and Knowledge in the Internet of Things》;20151023;第258-261页 *
"Grid Density Based Clustering Algorithm";Amandeep Kaur Mann 等;《International Journal of Adcanced Research in Computer Engineering & Technology(IJARCET)》;20130630;第2卷(第6期);第2143-2147页 *
"基于网格的高效DBSCAN算法";张枫 等;《计算机工程与应用》;20070611;第43卷(第17期);第167-169页 *
"基于网格聚类中边界点的处理";江先伟;《科技视界》;20121205(第34期);第67页 *
网格聚类算法;赵慧等;《计算机技术与发展》;20100910;第20卷(第9期);第83-89页 *

Also Published As

Publication number Publication date
CN106339416A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN106339416B (zh) 基于网格快速搜寻密度峰值的教育数据聚类方法
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
CN105045858B (zh) 基于投票的出租车载客点推荐方法
Pei et al. A new insight into land use classification based on aggregated mobile phone data
Ke et al. A partitioned and asynchronous cellular automata model for urban growth simulation
Lee et al. A survey of algorithms for dense subgraph discovery
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Steane et al. Model-based classification via mixtures of multivariate t-factor analyzers
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN113626499B (zh) 一种基于大数据数仓技术的学生画像挖掘实现方法
CN106815310A (zh) 一种对海量文档集的层次聚类方法及***
CN109002492A (zh) 一种基于LightGBM的绩点预测方法
Teixeira et al. Bayesian space-time partitioning by sampling and pruning spanning trees
CN103778206A (zh) 一种网络服务资源的提供方法
CN110347791A (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
Kang et al. A random forest classifier with cost-sensitive learning to extract urban landmarks from an imbalanced dataset
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
Nguyen et al. DBSTexC: Density-based spatio-textual clustering on twitter
CN111461197A (zh) 一种基于特征提取的空间负荷分布规律研究方法
Ozdikis et al. Spatial statistics of term co-occurrences for location prediction of tweets
CN107943947A (zh) 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN114661393A (zh) 基于流动人口数据特征聚类的城市集聚效应可视分析方法
CN104102718A (zh) 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
Aini et al. Potential halal tourism destinations with applying K-means clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant