CN108108747B - 一种解决大数据聚类的基于视觉原理的聚类方法 - Google Patents

一种解决大数据聚类的基于视觉原理的聚类方法 Download PDF

Info

Publication number
CN108108747B
CN108108747B CN201710861282.8A CN201710861282A CN108108747B CN 108108747 B CN108108747 B CN 108108747B CN 201710861282 A CN201710861282 A CN 201710861282A CN 108108747 B CN108108747 B CN 108108747B
Authority
CN
China
Prior art keywords
scale
clustering
coding
encoding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710861282.8A
Other languages
English (en)
Other versions
CN108108747A (zh
Inventor
徐宗本
张俪文
杨树森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201710861282.8A priority Critical patent/CN108108747B/zh
Publication of CN108108747A publication Critical patent/CN108108747A/zh
Application granted granted Critical
Publication of CN108108747B publication Critical patent/CN108108747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种解决大数据聚类的基于视觉原理的聚类方法,通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。

Description

一种解决大数据聚类的基于视觉原理的聚类方法
技术领域
本发明属于大数据聚类领域,具体涉及一种解决大数据聚类的基于视觉原理的聚类方法。
背景技术
聚类是依据数据的某种相似性(如结构或趋势)将数据划分为不同组别的知识发现方法。衡量数据间的相似度是聚类的基础,通常各个点之间的相似度以矩阵形式存储,对于大规模或是分布式数据此方式将导致数据传输量巨大,计算效率缓慢,甚至由于矩阵巨大无法存储的问题。
导致这些问题产生的原因是由于相似度以稠密矩阵的方式存储,数据量以原数据体量的平方速度增加。
目前已有的大数据聚类算法有以下两种:
以kmeans为代表的给定类个数的划分型聚类方法:该类方法在给定类数的前提下,衡量各个点与各类中心的相似度,判定点的归属,并迭代计算各个类中心。此种方法计算复杂度为线性,适合在大数据情形使用,但需要事先明确总体类数,同时各个类的数据分布需要满足球形分布,而且算法的稳定性与起始点的选取紧密相关。因此,虽然该类算法在大部分大数据平台上已经实现(Spark和petuum),但很难满足大数据聚类的需要。
另一类是DBSCAN基于密度的聚类方法:该方法通过衡量各个点在给定范围的点密度,确定点和给定范围内的点的连接关系,实现相同类内的元素相连接。此种方法适合在图模型中实现,可以实现任意形状的类的识别,但方法需要人为设定合适范围和密度的阈值,才能得到较好的聚类结果。这点在大数据和分布式情形下很难得到满足,因此该方法也很难满足聚类的需要。
聚类问题是人工智能、机器学习的等信息处理方法的基础,已有很多优秀的聚类算法,但在大数据计算环境下很难实现,而已有的大数据聚类方法却难以满足使用需要。
发明内容
本发明的目的在于克服聚类算法中相似度矩阵的生成和存储问题,提供一种解决大数据聚类的基于视觉原理的聚类方法,该方法通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
为了达到上述目的,本发明包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax与最小尺度σ0,同时可以得到编码的长度L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果步外,之后的计算步骤将都在编码上进行;
步骤四,单尺度聚类分析:包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
第五步,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax
所述步骤二中,d维的原始数据集χ中的任意元素χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
Figure GDA0001634823490000021
最小尺度σ0通常为1,编码的位数L=σmax×d。
所述步骤三中,对原始数据中的每个元素进行S/D编码,获得原始编码集
Figure GDA0001634823490000039
x∈χ,Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)…e(L)]
Figure GDA0001634823490000031
其中,[·]2表示数字的二进制形式,
Figure GDA0001634823490000032
表示向下取整操作。
所述步骤四的具体方法如下:
第一步,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
第二步,在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
第三步,之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果;
第四步,再将聚类结果解码,从编码回归到原数据。
所述第二步中,若二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
Figure GDA0001634823490000033
Figure GDA0001634823490000034
编码e近邻编码集合
Figure GDA0001634823490000035
为,
Figure GDA0001634823490000036
Figure GDA0001634823490000037
Figure GDA0001634823490000038
ut∈{et-,et,et+}
其中,∧表示逻辑与操作,·表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合εσ
所述第三步中,图
Figure GDA0001634823490000041
对Gσ进行连通性分析,得到kσ个最大连通子图,即
Figure GDA0001634823490000042
各子图的顶点集合聚类结果
Figure GDA0001634823490000043
与现有技术相比,本发明通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
附图说明
图1为本发明的编码过程举例示意图;其中(a)显示了二维点(1,5)和(5,3)的位置和不同尺度编码示意;(b)显示了二维点以尺度2编码的过程;
图2为本发明相邻编码查找举例示意图;
图3为小规模数据集聚类结果示意图;其中,(a)为行为原始数据集,(b)行为kmeans聚类结果,(c)行为density-peak聚类结果,(d)行为本发明聚类方法聚类结果;
图4为2015年1-6月纽约出租车行车记录示意图;
图5为大规模数据聚类结果示意图;其中,(a)为本发明聚类方法在各个尺度的聚类结果,(b)为本发明对应kmeans聚类的类数选取的对应聚类结果,(c)为kmeans聚类方法在k=10,k=100和k=10000时的聚类结果。
具体实施方式
下面结合附图对本发明做进一步说明。
Step1确定S/D编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
Step2确定S/D编码的位数、最大尺度与最小尺度:d维的原始数据集χ中的任意元素χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
Figure GDA0001634823490000051
最小尺度σ0通常为1,编码的位数L=σmax×d;
Step3对原始数据中的每个元素进行S/D编码,获得原始编码集
Figure GDA0001634823490000052
x∈χ,Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)…e(L)]
Figure GDA0001634823490000053
其中,[·]2表示数字的二进制形式,
Figure GDA0001634823490000054
表示向下取整操作。具体的二维数据点的编码过程如图1所示,其中(a)为二维点位置示意图,(b)为编码详细过程。
Step4单尺度聚类分析:根据视觉观察的原理,对编码集
Figure GDA0001634823490000055
进行多尺度观察,视距调整过程符合韦伯定律,尺度数σ从最小尺度数σ0开始。具体操作步骤包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
Step4.1截断操作会根据当前的尺度σ,对编码集
Figure GDA0001634823490000056
中的各个编码进行截断,
Figure GDA0001634823490000057
得到的该尺度编码组成该尺度下的编码集
Figure GDA0001634823490000058
Step4.2在编码集
Figure GDA0001634823490000059
的基础上,进行同尺度相邻编码查找,已知需要计算的距离编码集ed,该距离编码集由编码的相邻特性、数据维度和当前尺度数决定,如二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
Figure GDA00016348234900000510
Figure GDA0001634823490000061
编码e近邻编码集合
Figure GDA0001634823490000062
为,
Figure GDA0001634823490000063
Figure GDA0001634823490000064
Figure GDA0001634823490000065
ut∈{et-,et,et+}
其中,∧表示逻辑与操作,·表示逻辑非操作,二维2尺度编码的邻接编码计算举例如图2所示,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合εσ
Step4.3图
Figure GDA0001634823490000066
对Gσ进行连通性分析,得到kσ个最大连通子图,即
Figure GDA0001634823490000067
各子图的顶点集合聚类结果
Figure GDA0001634823490000068
Step4.4查找各个编码内包括的原数据,将聚类结果从编码回归到原数据;
Step5增加尺度数,σ=σ+1,重复Step4操作,直到最大尺度σmax
实验结果:
小数据集验证实验:在多个小数据集上进行聚类,使用kmeans、density-peak和本发明方法,实验结果如图3所示。对于第一种直线、第三种圆环和第四种螺旋线的数据,density-peak和本发明方法相比kmeans可以得到较好的结果;而对第二种高斯分布的数据,本发明算法有较好的聚类结果。
大规模数据实验:
大规模数据选取由纽约出租车管理局提供的2015年1-6月收集的8,500万条纽约出租车纪录二维地理坐标数据,数据整体示意图如图4所示。将使用Spark平台提供的kmeans聚类方法与本发明方法进行聚类,获得当地交通区域分块情况。
由图5可以看出,本发明方法的聚类结果基本保留了当地交通繁忙路段的分区情况,在不同尺度分区的精细程度不同,而kmeans算法的聚类结果仅仅根据数据之间的距离划分,并没有各个区域之间交通繁忙程度的关联性。

Claims (4)

1.一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax与最小尺度σ0,同时可以得到编码的位数L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果外,之后的计算步骤将都在编码上进行;
步骤四,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果,具体方法如下:
Figure FDA0002496872630000011
对Gσ进行最大连通子图分析,得到kσ个最大连通子图,即
Figure FDA0002496872630000012
各子图的顶点集合聚类结果为
Figure FDA0002496872630000013
其中,εσ为编码连接关系集合,Gi为第i个连通子图,Ci为Gi中的包括的编码;
再将聚类结果解码,从编码回归到原数据;
步骤五,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax
2.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤二中,d维的原始数据集
Figure FDA0002496872630000015
中的任意元素
Figure FDA0002496872630000014
对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
Figure FDA0002496872630000021
最小尺度σ0通常为1,编码的位数L=σmax×d,
Figure FDA0002496872630000022
为d维实数空间,x为原始数据集
Figure FDA00024968726300000213
中的任意元素,gt为第t维的编码精度。
3.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤三中,对原始数据中的每个元素进行S/D编码,获得原始编码集
Figure FDA0002496872630000023
Figure FDA0002496872630000024
Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)…e(L)]
Figure FDA0002496872630000025
其中,[·]2表示数字的二进制形式,
Figure FDA0002496872630000026
表示向下取整操作,x为原始数据集
Figure FDA00024968726300000214
中的任意元素,
Figure FDA00024968726300000216
为原始数据集,[e(1)e(2)…e(L)]分别表示编码后的二进制序列,at为第t维在原始数据集
Figure FDA00024968726300000215
的下界,x(t)为x的第t维的数据,gt为第t维的编码精度。
4.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据,构造提取同一维度数值的模板编码
Figure FDA0002496872630000027
Figure FDA0002496872630000028
编码e近邻编码集合
Figure FDA0002496872630000029
为,
Figure FDA00024968726300000210
Figure FDA00024968726300000211
Figure FDA00024968726300000212
其中,∧表示逻辑与操作,
Figure FDA0002496872630000031
表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合εσ
CN201710861282.8A 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法 Active CN108108747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710861282.8A CN108108747B (zh) 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710861282.8A CN108108747B (zh) 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法

Publications (2)

Publication Number Publication Date
CN108108747A CN108108747A (zh) 2018-06-01
CN108108747B true CN108108747B (zh) 2020-07-28

Family

ID=62207447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710861282.8A Active CN108108747B (zh) 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法

Country Status (1)

Country Link
CN (1) CN108108747B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314873A (zh) * 2010-06-30 2012-01-11 上海视加信息科技有限公司 一种语音基元的编码与合成***
US8996436B1 (en) * 2012-12-20 2015-03-31 Emc Corporation Decision tree classification for big data
TW201445989A (zh) * 2013-05-30 2014-12-01 Hon Hai Prec Ind Co Ltd 分散式編解碼系統及方法
CN103605734B (zh) * 2013-11-19 2017-02-15 广东电网公司电力科学研究院 基于特征向量的数据传输压缩方法及其***
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
US9509689B1 (en) * 2015-05-12 2016-11-29 Victoria Kien Man Teng Security for cloud systems and virtualization cloud systems, mobile cloud systems and mobile virtualization cloud systems, and computer clusters and mobile device clusters
KR102098896B1 (ko) * 2016-03-02 2020-04-09 한국전자통신연구원 데이터 관리 시스템 및 방법
CN106529968B (zh) * 2016-09-29 2021-05-14 深圳大学 一种基于交易数据的客户分类方法及其***
CN106649516A (zh) * 2016-10-18 2017-05-10 安徽天达网络科技有限公司 一种教育资源大数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于视觉***的聚类:原理与算法;张讲社 等;《工程数学学报》;20000531;第17卷;第14-20页 *
基于视觉***的聚类算法;张讲社 等;《计算机学报》;20010531;第24卷(第5期);第496-501页 *

Also Published As

Publication number Publication date
CN108108747A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN109815993B (zh) 基于gps轨迹的区域特征提取、数据库建立及路口识别方法
Graesser et al. Image based characterization of formal and informal neighborhoods in an urban landscape
CN107644426A (zh) 基于金字塔池化编解码结构的图像语义分割方法
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN103020321B (zh) 近邻搜索方法与***
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及***
CN112050820B (zh) 道路匹配方法、装置、电子设备及可读存储介质
CN104794496A (zh) 一种改进mRMR算法的遥感特征优选算法
CN104881449A (zh) 基于流形学习数据压缩哈希的图像检索方法
Mohan et al. Environment selection and hierarchical place recognition
CN106533742A (zh) 基于时间序列模式表征的加权有向复杂网络建网方法
CN111292356B (zh) 运动轨迹与道路的匹配方法及装置
CN104537353A (zh) 基于三维点云的三维人脸年龄分类装置及方法
CN114357313A (zh) 数据处理方法及设备
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN111639878A (zh) 一种基于知识图谱构建的滑坡风险预测方法及***
CN116740474A (zh) 一种基于锚定条纹注意力机制的遥感图像分类方法
Bai et al. An adaptive threshold fast DBSCAN algorithm with preserved trajectory feature points for vessel trajectory clustering
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN106548195A (zh) 一种基于改进型hog‑ulbp特征算子的目标检测方法
CN108345607B (zh) 搜索方法和装置
CN108108747B (zh) 一种解决大数据聚类的基于视觉原理的聚类方法
CN113536020A (zh) 数据查询的方法、存储介质和计算机程序产品
CN103955676A (zh) 一种人脸识别方法及***
CN105205487A (zh) 一种图片处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant