CN108108747B - 一种解决大数据聚类的基于视觉原理的聚类方法 - Google Patents
一种解决大数据聚类的基于视觉原理的聚类方法 Download PDFInfo
- Publication number
- CN108108747B CN108108747B CN201710861282.8A CN201710861282A CN108108747B CN 108108747 B CN108108747 B CN 108108747B CN 201710861282 A CN201710861282 A CN 201710861282A CN 108108747 B CN108108747 B CN 108108747B
- Authority
- CN
- China
- Prior art keywords
- scale
- clustering
- coding
- encoding
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种解决大数据聚类的基于视觉原理的聚类方法,通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
Description
技术领域
本发明属于大数据聚类领域,具体涉及一种解决大数据聚类的基于视觉原理的聚类方法。
背景技术
聚类是依据数据的某种相似性(如结构或趋势)将数据划分为不同组别的知识发现方法。衡量数据间的相似度是聚类的基础,通常各个点之间的相似度以矩阵形式存储,对于大规模或是分布式数据此方式将导致数据传输量巨大,计算效率缓慢,甚至由于矩阵巨大无法存储的问题。
导致这些问题产生的原因是由于相似度以稠密矩阵的方式存储,数据量以原数据体量的平方速度增加。
目前已有的大数据聚类算法有以下两种:
以kmeans为代表的给定类个数的划分型聚类方法:该类方法在给定类数的前提下,衡量各个点与各类中心的相似度,判定点的归属,并迭代计算各个类中心。此种方法计算复杂度为线性,适合在大数据情形使用,但需要事先明确总体类数,同时各个类的数据分布需要满足球形分布,而且算法的稳定性与起始点的选取紧密相关。因此,虽然该类算法在大部分大数据平台上已经实现(Spark和petuum),但很难满足大数据聚类的需要。
另一类是DBSCAN基于密度的聚类方法:该方法通过衡量各个点在给定范围的点密度,确定点和给定范围内的点的连接关系,实现相同类内的元素相连接。此种方法适合在图模型中实现,可以实现任意形状的类的识别,但方法需要人为设定合适范围和密度的阈值,才能得到较好的聚类结果。这点在大数据和分布式情形下很难得到满足,因此该方法也很难满足聚类的需要。
聚类问题是人工智能、机器学习的等信息处理方法的基础,已有很多优秀的聚类算法,但在大数据计算环境下很难实现,而已有的大数据聚类方法却难以满足使用需要。
发明内容
本发明的目的在于克服聚类算法中相似度矩阵的生成和存储问题,提供一种解决大数据聚类的基于视觉原理的聚类方法,该方法通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
为了达到上述目的,本发明包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax与最小尺度σ0,同时可以得到编码的长度L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果步外,之后的计算步骤将都在编码上进行;
步骤四,单尺度聚类分析:包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
第五步,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax。
所述步骤二中,d维的原始数据集χ中的任意元素χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d。
e=Pε(x),e=[e(1)e(2)…e(L)]
所述步骤四的具体方法如下:
第一步,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
第二步,在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
第三步,之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果;
第四步,再将聚类结果解码,从编码回归到原数据。
其中,∧表示逻辑与操作,·表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合εσ。
与现有技术相比,本发明通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
附图说明
图1为本发明的编码过程举例示意图;其中(a)显示了二维点(1,5)和(5,3)的位置和不同尺度编码示意;(b)显示了二维点以尺度2编码的过程;
图2为本发明相邻编码查找举例示意图;
图3为小规模数据集聚类结果示意图;其中,(a)为行为原始数据集,(b)行为kmeans聚类结果,(c)行为density-peak聚类结果,(d)行为本发明聚类方法聚类结果;
图4为2015年1-6月纽约出租车行车记录示意图;
图5为大规模数据聚类结果示意图;其中,(a)为本发明聚类方法在各个尺度的聚类结果,(b)为本发明对应kmeans聚类的类数选取的对应聚类结果,(c)为kmeans聚类方法在k=10,k=100和k=10000时的聚类结果。
具体实施方式
下面结合附图对本发明做进一步说明。
Step1确定S/D编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
Step2确定S/D编码的位数、最大尺度与最小尺度:d维的原始数据集χ中的任意元素χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d;
e=Pε(x),e=[e(1)e(2)…e(L)]
Step4单尺度聚类分析:根据视觉观察的原理,对编码集进行多尺度观察,视距调整过程符合韦伯定律,尺度数σ从最小尺度数σ0开始。具体操作步骤包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
Step4.2在编码集的基础上,进行同尺度相邻编码查找,已知需要计算的距离编码集ed,该距离编码集由编码的相邻特性、数据维度和当前尺度数决定,如二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
其中,∧表示逻辑与操作,·表示逻辑非操作,二维2尺度编码的邻接编码计算举例如图2所示,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合εσ;
Step4.4查找各个编码内包括的原数据,将聚类结果从编码回归到原数据;
Step5增加尺度数,σ=σ+1,重复Step4操作,直到最大尺度σmax。
实验结果:
小数据集验证实验:在多个小数据集上进行聚类,使用kmeans、density-peak和本发明方法,实验结果如图3所示。对于第一种直线、第三种圆环和第四种螺旋线的数据,density-peak和本发明方法相比kmeans可以得到较好的结果;而对第二种高斯分布的数据,本发明算法有较好的聚类结果。
大规模数据实验:
大规模数据选取由纽约出租车管理局提供的2015年1-6月收集的8,500万条纽约出租车纪录二维地理坐标数据,数据整体示意图如图4所示。将使用Spark平台提供的kmeans聚类方法与本发明方法进行聚类,获得当地交通区域分块情况。
由图5可以看出,本发明方法的聚类结果基本保留了当地交通繁忙路段的分区情况,在不同尺度分区的精细程度不同,而kmeans算法的聚类结果仅仅根据数据之间的距离划分,并没有各个区域之间交通繁忙程度的关联性。
Claims (4)
1.一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax与最小尺度σ0,同时可以得到编码的位数L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果外,之后的计算步骤将都在编码上进行;
步骤四,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果,具体方法如下:
其中,εσ为编码连接关系集合,Gi为第i个连通子图,Ci为Gi中的包括的编码;
再将聚类结果解码,从编码回归到原数据;
步骤五,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710861282.8A CN108108747B (zh) | 2017-09-21 | 2017-09-21 | 一种解决大数据聚类的基于视觉原理的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710861282.8A CN108108747B (zh) | 2017-09-21 | 2017-09-21 | 一种解决大数据聚类的基于视觉原理的聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108747A CN108108747A (zh) | 2018-06-01 |
CN108108747B true CN108108747B (zh) | 2020-07-28 |
Family
ID=62207447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710861282.8A Active CN108108747B (zh) | 2017-09-21 | 2017-09-21 | 一种解决大数据聚类的基于视觉原理的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108747B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314873A (zh) * | 2010-06-30 | 2012-01-11 | 上海视加信息科技有限公司 | 一种语音基元的编码与合成*** |
US8996436B1 (en) * | 2012-12-20 | 2015-03-31 | Emc Corporation | Decision tree classification for big data |
TW201445989A (zh) * | 2013-05-30 | 2014-12-01 | Hon Hai Prec Ind Co Ltd | 分散式編解碼系統及方法 |
CN103605734B (zh) * | 2013-11-19 | 2017-02-15 | 广东电网公司电力科学研究院 | 基于特征向量的数据传输压缩方法及其*** |
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
US9509689B1 (en) * | 2015-05-12 | 2016-11-29 | Victoria Kien Man Teng | Security for cloud systems and virtualization cloud systems, mobile cloud systems and mobile virtualization cloud systems, and computer clusters and mobile device clusters |
KR102098896B1 (ko) * | 2016-03-02 | 2020-04-09 | 한국전자통신연구원 | 데이터 관리 시스템 및 방법 |
CN106529968B (zh) * | 2016-09-29 | 2021-05-14 | 深圳大学 | 一种基于交易数据的客户分类方法及其*** |
CN106649516A (zh) * | 2016-10-18 | 2017-05-10 | 安徽天达网络科技有限公司 | 一种教育资源大数据处理方法 |
-
2017
- 2017-09-21 CN CN201710861282.8A patent/CN108108747B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于视觉***的聚类:原理与算法;张讲社 等;《工程数学学报》;20000531;第17卷;第14-20页 * |
基于视觉***的聚类算法;张讲社 等;《计算机学报》;20010531;第24卷(第5期);第496-501页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108108747A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815993B (zh) | 基于gps轨迹的区域特征提取、数据库建立及路口识别方法 | |
Graesser et al. | Image based characterization of formal and informal neighborhoods in an urban landscape | |
CN107644426A (zh) | 基于金字塔池化编解码结构的图像语义分割方法 | |
CN110889449A (zh) | 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法 | |
CN103020321B (zh) | 近邻搜索方法与*** | |
CN111832615A (zh) | 一种基于前景背景特征融合的样本扩充方法及*** | |
CN112050820B (zh) | 道路匹配方法、装置、电子设备及可读存储介质 | |
CN104794496A (zh) | 一种改进mRMR算法的遥感特征优选算法 | |
CN104881449A (zh) | 基于流形学习数据压缩哈希的图像检索方法 | |
Mohan et al. | Environment selection and hierarchical place recognition | |
CN106533742A (zh) | 基于时间序列模式表征的加权有向复杂网络建网方法 | |
CN111292356B (zh) | 运动轨迹与道路的匹配方法及装置 | |
CN104537353A (zh) | 基于三维点云的三维人脸年龄分类装置及方法 | |
CN114357313A (zh) | 数据处理方法及设备 | |
CN113988147B (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN111639878A (zh) | 一种基于知识图谱构建的滑坡风险预测方法及*** | |
CN116740474A (zh) | 一种基于锚定条纹注意力机制的遥感图像分类方法 | |
Bai et al. | An adaptive threshold fast DBSCAN algorithm with preserved trajectory feature points for vessel trajectory clustering | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN108345607B (zh) | 搜索方法和装置 | |
CN108108747B (zh) | 一种解决大数据聚类的基于视觉原理的聚类方法 | |
CN113536020A (zh) | 数据查询的方法、存储介质和计算机程序产品 | |
CN103955676A (zh) | 一种人脸识别方法及*** | |
CN105205487A (zh) | 一种图片处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |