CN102521386B - 基于集群存储的空间元数据分组方法 - Google Patents
基于集群存储的空间元数据分组方法 Download PDFInfo
- Publication number
- CN102521386B CN102521386B CN 201110436011 CN201110436011A CN102521386B CN 102521386 B CN102521386 B CN 102521386B CN 201110436011 CN201110436011 CN 201110436011 CN 201110436011 A CN201110436011 A CN 201110436011A CN 102521386 B CN102521386 B CN 102521386B
- Authority
- CN
- China
- Prior art keywords
- metadata
- metadata record
- data
- node
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012946 outsourcing Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于集群存储的空间元数据分组方法,包括:S1:从地理数据文件的元数据表中获取具有待划分属性项的元数据记录;S2:将选取的元数据记录按待划分属性项划分为不同的数据集,将各数据集分布在元数据服务器集群节点上,同一个服务器集群节点上的元数据记录的待划分属性项的值相同;S3:对每个服务器集群节点上的元数据记录逐步进行聚类,得到若干组元数据记录组;S4:对每个服务器集群节点上的地理数据文件的元数据记录进行分类,分入不同的元数据记录组,并建立每个节点的元数据目录树;S5:对分组后的数据文件进行排序,将排序后的索引文件存放在相应节点上。本发明对基于集群存储的空间元数据进行分组,提高了检索效率。
Description
技术领域
本发明涉及存储***技术领域,特别涉及一种基于集群存储的空间元数据分组方法。
背景技术
传统的空间数据管理都是基于关系型数据库***,数据的记录存放在数据库的表中,这种方式非常适合于关系查询和事务处理,满足短事务频繁的应用场景。缺点是可索引数据项有限,复杂查询缓慢,索引开销较大,***维护复杂,需要不断进行***优化。而目前WebGIS的应用环境为基于集群存储的分布式文件***,具有海量的大小文件类型,文件之间具有空间和属性等多种程度的相关性。基于网络存储的分布式文件***(简称文件***)的特点是将数据文件和文件检索描述的元数据记录分开存储,通过元数据记录检索定位数据存储块,然后利用连接数据来获取数据文件。文件***的设计带来很多优点,比如可以在线扩展存储设备,这种方式极大地扩展了***的存储能力,满足信息数据日益增长的应用场景,***维护简单。缺点是空间关系查询和一致性维护较为复杂,复杂的事务处理的性能较弱。
中国专利申请CN101038590提出了一种空间数据集群存储***及其数据查询方法,该专利申请基于集群存储***提出了一种新的空间数据查询方法,提供的空间数据集群存储***,包括空间应用客户端、空间对象管理器、空间对象存储设备集群,所述空间对象存储设备集群由多个空间对象存储设备组成,用于TB级或TB级以上海量空间数据的存储,实现具有数据库意识的存储,提供空间数据对象粒度存取访问,提供并行的空间数据传输和并行的查询处理能力。这种 方法有三个问题,第一个问题是集群存储的架构是基于集中式对象存储设备,尽管能管理TB级的数据量,但可索引数据记录的个数有限;第二个问题是存储的数据对象频繁更新,影响了读操作的性能,由于只存储了值数据对象的序列号,在查询数据对象体的时候还需要进行二分查找;第三个问题是没有考虑表数据文件的分区与分布处理,影响了***的并行查询能力和可扩展性。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何对基于集群存储的空间元数据进行分组,以提高检索效率。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于集群存储的空间元数据分组方法,以提高检索效率,该方法包括以下步骤:
S1:从地理数据文件的元数据表中获取具有待划分属性项的元数据记录;
S2:将选取的元数据记录按所述待划分属性项划分为不同的数据集,将各数据集分布在元数据服务器集群节点上,同一个服务器集群节点上的元数据记录的待划分属性项的值相同;
S3:对每个服务器集群节点上的元数据记录逐步进行聚类,得到若干组元数据记录组;
S4:对每个服务器集群节点上的地理数据文件的元数据记录进行分类,分入不同的元数据记录组,并建立每个节点的元数据目录树;
S5:对分组后的数据文件进行排序,将排序后的索引文件存放在相应节点上。
其中,所述步骤S2中还包括根据建立基于元数据记录的待划分属性项的索引。
其中,所述步骤S3具体包括:
对于每一个服务器集群节点,在其中选取预定数量的元数据记录为样本数据;
基于样本数据的属性相似度构建分类树:
其中,d(p,q)表示记录p和q的相似度,Wk表示第k属性项的权重,dk表示p和q之间在第k属性项上的距离:dk=|pk-qk|,pk和qk分别为元数据记录p和q在第k属性项的值;
将相似度达到预定值的元数据记录分为一组,形成若干组元数据记录组。
其中,在计算所述dk时将第k属性项的值转换为二态变量。
其中,所述预定值为0.5。
其中,所述预定数量不少于服务器集群节点上元数据记录总数目的10%。
其中,所述步骤S4中元数据记录的组织结构为PK树模型,建立分层次目录树。
(三)有益效果
与现有技术相比,本发明具有以下优点:
1、本发明所提供的元数据目录分组方法,能够提供基于空间关系和多维属性项的元数据聚类规则,用于指导海量地理文件的并行分组处理;
2、通过本发明在文件***架构上提出的分布式文件存储方式,实现多类地理数据文件的高效访问,满足web服务对地理信息文件的存储与访问需求。
附图说明
图1是本发明所应用的文件***架构示意图;
图2是本发明实施例的一种基于集群存储的空间元数据分组方法
图3是本发明的方法中数据集分割与节点映射层次结构示意图;
图4是本发明的方法中节点内元数据存储结构建立示意图;
图5是本发明的方法中数据块内存储及索引示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
鉴于现有集群存储***的元数据分布算法的缺点,本发明的方法提出了一种层次金字塔多路覆盖的方式,按照元数据的区域属性将相关的元数据记录分布在相应的服务器上,这样可以实现数据的有效查询负载分配。本发明所应用的文件***架构如图1所示,在服务器节点上,本方法提出面向应用的数据近似程度聚类方式,也就是基于层次金字塔数据索引结构的多路覆盖方式,实现服务器节点的数据存储和索引。同时在数据存储的叶子节点,存储了相关度较高的近邻文件记录,数据块内部的索引需要存储在相应的数据节点上。由于对数据进行了范围划分和数据块索引,可以快速地定位到数据块和进行批量数据提取,从而可以减少文件检索的长度并提高***的可扩展性。下面参考图2介绍本发明的方法,本发明的基于集群存储的空间元数据分组方法包括:
步骤S201,从地理数据文件的元数据表中获取具有区域属性项的元数据记录集合。
下表中展示了元数据的属性列表结构(实际情况可能并不只是包含这几个属性)。数据属性项包括文件的名称、所属区域、文件大小、生产日期、文件类型等。并非所有的属性项都影响数据表的分布,所以,首先进行元数据的预处理,选取与分布规则相关的属性项。对于地理文件的属性项,选取包括文件所属区域、文件类型、文件大小、生成日期作为进行数据分组的相关权重因子。同时,选取具有相关属 性项的元数据记录,以备下一步数据聚类分布阈值计算的估计。本实施例中,选取具有区域属性项的元数据记录集合。
步骤S202,将选取的元数据记录按待划分属性项划分为不同的数据集,将各数据集分布在元数据服务器集群节点上,同一个服务器集群节点上的元数据记录的待划分属性项的值相同。
首先根据元数据的所属区域属性项的值进行元数据记录的节点划分,具体方式如图3所示,利用空间数据划分算法将元数据记录映射到空间区域i中,空间区域i对应于网格环境下的一个节点服务器i,为了避免传统的树索引在根节点访问的负载瓶颈,服务器i将其对应的空间区域i中的空间对象组织成平衡二叉空间索引树存入一个本地磁盘中。
步骤S203,对每个服务器集群节点上的元数据记录逐步进行聚类,得到若干组元数据记录组。
根据元数据记录对应的文件的属性项值进行聚类分析,首先基于属性相似度构建分类树规则,
这些文件的对象间属性分布相似性计算公式为:
其中,d(p,q)表示记录p和q的相关度,Wk表示第k属性项的权重,dk表示p和q之间在k维向量上的距离。
dk=|pk-qk|pk,qk分别表示记录p和q在第k个属性项,选取0.5为阈值,即将d(p,q)的值大于等于0.5的元数据记录聚类为一组,这样形成若干不同的元数据记录组。由于地理数据的属性项种类各样,为便于计算属性相似度,需要将归类或区间变量转换为二态变量,采用的计算公式为:
x表示元数据记录对应的文件的属性项,例如:文件类型属性项,y表示元数据记录在x属性项的二态变量值,即上述pi或qi的值,B表示文件的标准种类,标准种类大体上可分为图像、图形、文本、视频、统计图表等,而图像文件按照数据又分为遥感影像、栅格地图、航空影像等,按照存储格式又有Tiff、GIF、BMP、JPG等,预先设定某些属性项值取1,而另一些取0。再如:某些数值型的属性项,可按不同的数值区间取1或0。
步骤S204,对每个服务器集群节点上的地理数据文件的元数据记录进行分类,分入不同的元数据记录组,并建立每个节点的元数据目录树。本实施例中采用PK-树的方式建立目录树。
将新的元数据记录与步骤S203中不同元数据记录组中的其中一个元数据记录进行相似度比较,分到将新的元数据记录相似度最大的元数据记录组中。
在每个节点服务器中,包含由数据节点和路由节点组成的层次金字塔多路覆盖(HPK)索引树,其中数据节点为索引目录的叶子节点,路由节点有多路数据节点或新的路由节点组成。路由节点的外包矩形记录了其所有子节点的最小外包矩形,数据节点的外包矩形记录了其所有数据文件的最小外包矩形,每一个数据节点的空间数据以顺序索引进行组织存储。HPK索引数将聚类结果作为输入文件的初始判断,与PK树结合进行数据的分类和处理,即判断数据节点与新输入文件的相似度,进行数据节点***和添加。PK-树是一种新型的处理高维空间点数据的索引结构,PK-树的建立依赖于对空间的连续迭代分解。在建树时,空间数据被分割成在粒度上由大到小的层层嵌套的多个层次,在每个层次上,所选择的分割坐标轴以及分割比率都可以不一样,所产生的是一组方形的互不重叠的子集,称为包腔。由此,给定数据集S,分割因子r,阶数为K的PK-树是通过如下方法生成的 一棵树。
(1)根节点为第一层的包腔C0。
(2)除了根节点外,其他PK-树的节点都唯一对应一个K-路覆盖包腔。
(3)当添加新数据文件时,计算数据文件与该文件所属区域包腔的数据节点的相似度,若小于给定阈值,直接添加数据文件到该数据节点;若大于给定阈值,进行数据节点***,数据节点转换为路由节点,其叶节点为两个***的数据节点。重复步骤(3),直到为所有文件建立索引。
基于以上三步骤,实现从根节点到叶子节点的生成,图4是对一组二维数据点建立HPK-树索引的构造过程,分别显示了对数据矩形的不同分解层次。
步骤S205,对分组后的数据文件进行排序,将排序后的索引文件存放在相应节点上。排序有多种方式,本实施例中采用如下方式进行排序。
基于海量地理小文件的存储组织,为便于地理信息的存储和检索,采用数据文件分包存储的方式,将相关的地理小文件存储在HPK索引目录树中的一个数据节点内,同时建立数据块内的文件索引,实现的索引结构如图5所示,首先将文件记录按照元数据的相关项进行聚类,聚类的数据文件按照Hilbert编码的方式进行排序和存储。每一类的数据文件的元数据记录存储在新的索引列表文件中,该列表索引文件与节点索引文件一起存储在数据节点上。其中,Hilbert编码的空间元数据命名规范是前4位区域编号、后6位块内位置编号,还有时间编码和目录编码共同确定文件元数据的key。将目录编码与小文件编码组合,实现文件的快速定位,基于空间顺序结构的编码方案可减少元数据服务器的访问,提高访问效率。
根据上述五个步骤的说明,可以基于现有分布式文件***实现地 理文件的分布和存储,通过数据分区与分布支持并行查询的执行,提高查询的处理效率。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (7)
1.一种基于集群存储的空间元数据分组方法,以提高检索效率,其特征在于,包括以下步骤:
S1:从地理数据文件的元数据表中获取具有待划分属性项的元数据记录;
S2:将选取的元数据记录按所述待划分属性项划分为不同的数据集,将各数据集分布在元数据服务器集群节点上,同一个服务器集群节点上的元数据记录的待划分属性项的值相同;
S3:对每个服务器集群节点上的元数据记录逐步进行聚类,得到若干组元数据记录组;
S4:对每个服务器集群节点上的地理数据文件的元数据记录进行分类,分入不同的元数据记录组,并建立每个节点的元数据目录树;
S5:对分组后的数据文件进行排序,将排序后的索引文件存放在相应节点上。
2.如权利要求1所述的基于集群存储的空间元数据分组方法,其特征在于,所述步骤S2中还包括根据建立基于元数据记录的待划分属性项的索引。
3.如权利要求1所述的基于集群存储的空间元数据分组方法,其特征在于,所述步骤S3具体包括:
对于每一个服务器集群节点,在其中选取预定数量的元数据记录为样本数据;
基于样本数据的属性相似度构建分类树:
其中,d(p,q)表示记录p和q的相似度,Wk表示第k属性项的权重,dk表示p和q之间在第k属性项上的距离:dk=|pk-qk|,pk和qk分别为元数据记录p和q在第k属性项的值;
将相似度达到预定值的元数据记录分为一组,形成若干组元数据记录组。
4.如权利要求3所述的基于集群存储的空间元数据分组方法,其特征在于,在计算所述dk时将第k属性项的值转换为二态变量。
5.如权利要求3所述的基于集群存储的空间元数据分组方法,其特征在于,所述预定值为0.5。
6.如权利要求3所述的基于集群存储的空间元数据分组方法,其特征在于,所述预定数量不少于服务器集群节点上元数据记录总数目的10%。
7.如权利要求1所述的基于集群存储的空间元数据分组方法,其特征在于,所述步骤S4中元数据记录的组织结构为PK树模型,建立分层次目录树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110436011 CN102521386B (zh) | 2011-12-22 | 2011-12-22 | 基于集群存储的空间元数据分组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110436011 CN102521386B (zh) | 2011-12-22 | 2011-12-22 | 基于集群存储的空间元数据分组方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102521386A CN102521386A (zh) | 2012-06-27 |
CN102521386B true CN102521386B (zh) | 2013-07-10 |
Family
ID=46292299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110436011 Active CN102521386B (zh) | 2011-12-22 | 2011-12-22 | 基于集群存储的空间元数据分组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521386B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5367112B2 (ja) * | 2012-03-22 | 2013-12-11 | 株式会社東芝 | データ分析支援装置およびデータ分析支援処理プログラム |
CN103366014B (zh) * | 2013-07-30 | 2017-08-04 | 汉柏科技有限公司 | 基于集群的云计算网络数据处理***及方法 |
CN104112025A (zh) * | 2014-08-01 | 2014-10-22 | 中国人民解放军国防科学技术大学 | 处理节点计算能力感知的虚拟资产数据划分方法 |
CN104376079B (zh) * | 2014-11-17 | 2017-11-07 | 四川汇源吉迅数码科技有限公司 | 一种基于位置服务信息的海量数据处理与存储装置及其方法 |
US20160306810A1 (en) * | 2015-04-15 | 2016-10-20 | Futurewei Technologies, Inc. | Big data statistics at data-block level |
CN105160039A (zh) * | 2015-10-13 | 2015-12-16 | 四川携创信息技术服务有限公司 | 一种基于大数据的查询方法 |
CN105912601A (zh) * | 2016-04-05 | 2016-08-31 | 国电南瑞科技股份有限公司 | 能量管理***分布式实时内存数据库的分区存储方法 |
CN106227677B (zh) * | 2016-07-20 | 2018-11-20 | 浪潮电子信息产业股份有限公司 | 一种变长缓存元数据管理的方法 |
CN108241632B (zh) * | 2016-12-23 | 2022-01-14 | 中科星图股份有限公司 | 一种面向数据库数据迁移的数据验证方法 |
CN108256028B (zh) * | 2018-01-11 | 2021-09-28 | 北京服装学院 | 一种云计算环境中用于近似查询的多维动态采样方法 |
CN110347654B (zh) * | 2018-03-23 | 2024-06-18 | 北京京东尚科信息技术有限公司 | 一种上线集群特性的方法和装置 |
CN111752892B (zh) * | 2019-03-27 | 2024-01-12 | 北京京东尚科信息技术有限公司 | 分布式文件***及其实现方法、管理***、设备及介质 |
CN109993234B (zh) * | 2019-04-10 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 一种无人驾驶训练数据分类方法、装置及电子设备 |
CN112181899A (zh) * | 2019-07-05 | 2021-01-05 | 中兴通讯股份有限公司 | 一种元数据的处理方法、装置及计算机可读存储介质 |
CN110795524B (zh) * | 2019-10-31 | 2022-07-05 | 望海康信(北京)科技股份公司 | 主数据映射处理方法、装置、计算机设备及存储介质 |
CN111984691B (zh) * | 2020-09-11 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种分布式存储***中对象元数据检索列举方法及装置 |
CN112100129A (zh) * | 2020-09-14 | 2020-12-18 | 北京金山云网络技术有限公司 | 数据访问方法、数据存储方法、装置和文件存储*** |
CN112036886B (zh) * | 2020-09-17 | 2024-01-19 | 昆明电力交易中心有限责任公司 | 一种基于区块链的电力大数据交换方法及*** |
CN112925859A (zh) * | 2021-03-31 | 2021-06-08 | 中国建设银行股份有限公司 | 数据存储方法和装置 |
CN114443783B (zh) * | 2022-04-11 | 2022-06-24 | 浙江大学 | 一种供应链数据分析和增强处理方法及装置 |
CN114969449B (zh) * | 2022-08-01 | 2022-10-14 | 太极计算机股份有限公司 | 基于构建结构树的元数据管理方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038590A (zh) * | 2007-04-13 | 2007-09-19 | 武汉大学 | 一种空间数据集群存储***及其数据查询方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181450B2 (en) * | 2002-12-18 | 2007-02-20 | International Business Machines Corporation | Method, system, and program for use of metadata to create multidimensional cubes in a relational database |
-
2011
- 2011-12-22 CN CN 201110436011 patent/CN102521386B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038590A (zh) * | 2007-04-13 | 2007-09-19 | 武汉大学 | 一种空间数据集群存储***及其数据查询方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102521386A (zh) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102521386B (zh) | 基于集群存储的空间元数据分组方法 | |
Nishimura et al. | MD-HBase: A scalable multi-dimensional data infrastructure for location aware services | |
Li et al. | A spatiotemporal indexing approach for efficient processing of big array-based climate data with MapReduce | |
Nishimura et al. | -HBase: design and implementation of an elastic data infrastructure for cloud-scale location services | |
Han et al. | Hgrid: A data model for large geospatial data sets in hbase | |
CN104199986A (zh) | 基于hbase和geohash的矢量数据空间索引方法 | |
Wang et al. | A flexible spatio-temporal indexing scheme for large-scale GPS track retrieval | |
JPH09265479A (ja) | 多次元データ処理方法 | |
WO2009108459A2 (en) | Indexing large-scale gps tracks | |
CN102609441A (zh) | 基于分布熵的局部敏感哈希高维索引方法 | |
CN112765405B (zh) | 空间数据搜索结果的聚类和查询的方法及*** | |
CN108009265B (zh) | 一种云计算环境下的空间数据索引方法 | |
Du et al. | Spatio-temporal data index model of moving objects on fixed networks using hbase | |
Mythily et al. | Clustering models for data stream mining | |
CN108319725A (zh) | 一种水文监测数据存储的方法及*** | |
CN112035586A (zh) | 基于可扩展学习索引的空间范围查询方法 | |
CN116775661A (zh) | 基于北斗网格技术的空间大数据存储与管理方法 | |
Buddhika et al. | Living on the edge: Data transmission, storage, and analytics in continuous sensing environments | |
KR101467707B1 (ko) | 지식 베이스의 개체 매칭 방법 및 이를 위한 장치 | |
Salah et al. | A highly scalable parallel algorithm for maximally informative k-itemset mining | |
CN113407542A (zh) | 一种城市路网车辆出行轨迹的检索方法及*** | |
Dam et al. | Efficient top-k recently-frequent term querying over spatio-temporal textual streams | |
Van Le et al. | A scalable spatio-temporal data storage for intelligent transportation systems based on HBase | |
Lin | Using compressed index structures for processing moving objects in large spatio-temporal databases | |
Zhou et al. | Accurate querying of frequent subgraphs in power grid graph data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |