CN102521386B

CN102521386B - 基于集群存储的空间元数据分组方法

Info

Publication number: CN102521386B
Application number: CN 201110436011
Authority: CN
Inventors: 崔纪锋; 张勇; 李超; 邢春晓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2013-07-10
Anticipated expiration: 2031-12-22
Also published as: CN102521386A

Abstract

本发明公开了一种基于集群存储的空间元数据分组方法，包括：S1：从地理数据文件的元数据表中获取具有待划分属性项的元数据记录；S2：将选取的元数据记录按待划分属性项划分为不同的数据集，将各数据集分布在元数据服务器集群节点上，同一个服务器集群节点上的元数据记录的待划分属性项的值相同；S3：对每个服务器集群节点上的元数据记录逐步进行聚类，得到若干组元数据记录组；S4：对每个服务器集群节点上的地理数据文件的元数据记录进行分类，分入不同的元数据记录组，并建立每个节点的元数据目录树；S5：对分组后的数据文件进行排序，将排序后的索引文件存放在相应节点上。本发明对基于集群存储的空间元数据进行分组，提高了检索效率。

Description

基于集群存储的空间元数据分组方法

技术领域

本发明涉及存储***技术领域，特别涉及一种基于集群存储的空间元数据分组方法。

背景技术

传统的空间数据管理都是基于关系型数据库***，数据的记录存放在数据库的表中，这种方式非常适合于关系查询和事务处理，满足短事务频繁的应用场景。缺点是可索引数据项有限，复杂查询缓慢，索引开销较大，***维护复杂，需要不断进行***优化。而目前WebGIS的应用环境为基于集群存储的分布式文件***，具有海量的大小文件类型，文件之间具有空间和属性等多种程度的相关性。基于网络存储的分布式文件***(简称文件***)的特点是将数据文件和文件检索描述的元数据记录分开存储，通过元数据记录检索定位数据存储块，然后利用连接数据来获取数据文件。文件***的设计带来很多优点，比如可以在线扩展存储设备，这种方式极大地扩展了***的存储能力，满足信息数据日益增长的应用场景，***维护简单。缺点是空间关系查询和一致性维护较为复杂，复杂的事务处理的性能较弱。

中国专利申请CN101038590提出了一种空间数据集群存储***及其数据查询方法，该专利申请基于集群存储***提出了一种新的空间数据查询方法，提供的空间数据集群存储***，包括空间应用客户端、空间对象管理器、空间对象存储设备集群，所述空间对象存储设备集群由多个空间对象存储设备组成，用于TB级或TB级以上海量空间数据的存储，实现具有数据库意识的存储，提供空间数据对象粒度存取访问，提供并行的空间数据传输和并行的查询处理能力。这种方法有三个问题，第一个问题是集群存储的架构是基于集中式对象存储设备，尽管能管理TB级的数据量，但可索引数据记录的个数有限；第二个问题是存储的数据对象频繁更新，影响了读操作的性能，由于只存储了值数据对象的序列号，在查询数据对象体的时候还需要进行二分查找；第三个问题是没有考虑表数据文件的分区与分布处理，影响了***的并行查询能力和可扩展性。

发明内容

（一）要解决的技术问题

本发明要解决的技术问题是：如何对基于集群存储的空间元数据进行分组，以提高检索效率。

（二）技术方案

为解决上述技术问题，本发明提供了一种基于集群存储的空间元数据分组方法，以提高检索效率，该方法包括以下步骤：

S1：从地理数据文件的元数据表中获取具有待划分属性项的元数据记录；

S2：将选取的元数据记录按所述待划分属性项划分为不同的数据集，将各数据集分布在元数据服务器集群节点上，同一个服务器集群节点上的元数据记录的待划分属性项的值相同；

S3：对每个服务器集群节点上的元数据记录逐步进行聚类，得到若干组元数据记录组；

S4：对每个服务器集群节点上的地理数据文件的元数据记录进行分类，分入不同的元数据记录组，并建立每个节点的元数据目录树；

S5：对分组后的数据文件进行排序，将排序后的索引文件存放在相应节点上。

其中，所述步骤S2中还包括根据建立基于元数据记录的待划分属性项的索引。

其中，所述步骤S3具体包括：

对于每一个服务器集群节点，在其中选取预定数量的元数据记录为样本数据；

基于样本数据的属性相似度构建分类树：

d (p, q) = \frac{Σ_{k = 1}^{t} W_{k} d_{k}}{Σ_{k = 1}^{t} W_{k}}

其中，d(p,q)表示记录p和q的相似度，W_k表示第k属性项的权重，d_k表示p和q之间在第k属性项上的距离：d_k=|p_k-q_k|，p_k和q_k分别为元数据记录p和q在第k属性项的值；

将相似度达到预定值的元数据记录分为一组，形成若干组元数据记录组。

其中，在计算所述d_k时将第k属性项的值转换为二态变量。

其中，所述预定值为0.5。

其中，所述预定数量不少于服务器集群节点上元数据记录总数目的10%。

其中，所述步骤S4中元数据记录的组织结构为PK树模型，建立分层次目录树。

（三）有益效果

与现有技术相比，本发明具有以下优点：

1、本发明所提供的元数据目录分组方法，能够提供基于空间关系和多维属性项的元数据聚类规则，用于指导海量地理文件的并行分组处理；

2、通过本发明在文件***架构上提出的分布式文件存储方式，实现多类地理数据文件的高效访问，满足web服务对地理信息文件的存储与访问需求。

附图说明

图1是本发明所应用的文件***架构示意图；

图2是本发明实施例的一种基于集群存储的空间元数据分组方法

图3是本发明的方法中数据集分割与节点映射层次结构示意图；

图4是本发明的方法中节点内元数据存储结构建立示意图；

图5是本发明的方法中数据块内存储及索引示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

鉴于现有集群存储***的元数据分布算法的缺点，本发明的方法提出了一种层次金字塔多路覆盖的方式，按照元数据的区域属性将相关的元数据记录分布在相应的服务器上，这样可以实现数据的有效查询负载分配。本发明所应用的文件***架构如图1所示，在服务器节点上，本方法提出面向应用的数据近似程度聚类方式，也就是基于层次金字塔数据索引结构的多路覆盖方式，实现服务器节点的数据存储和索引。同时在数据存储的叶子节点，存储了相关度较高的近邻文件记录，数据块内部的索引需要存储在相应的数据节点上。由于对数据进行了范围划分和数据块索引，可以快速地定位到数据块和进行批量数据提取，从而可以减少文件检索的长度并提高***的可扩展性。下面参考图2介绍本发明的方法，本发明的基于集群存储的空间元数据分组方法包括：

步骤S201，从地理数据文件的元数据表中获取具有区域属性项的元数据记录集合。

下表中展示了元数据的属性列表结构(实际情况可能并不只是包含这几个属性)。数据属性项包括文件的名称、所属区域、文件大小、生产日期、文件类型等。并非所有的属性项都影响数据表的分布，所以，首先进行元数据的预处理，选取与分布规则相关的属性项。对于地理文件的属性项，选取包括文件所属区域、文件类型、文件大小、生成日期作为进行数据分组的相关权重因子。同时，选取具有相关属性项的元数据记录，以备下一步数据聚类分布阈值计算的估计。本实施例中，选取具有区域属性项的元数据记录集合。

步骤S202，将选取的元数据记录按待划分属性项划分为不同的数据集，将各数据集分布在元数据服务器集群节点上，同一个服务器集群节点上的元数据记录的待划分属性项的值相同。

首先根据元数据的所属区域属性项的值进行元数据记录的节点划分，具体方式如图3所示，利用空间数据划分算法将元数据记录映射到空间区域i中，空间区域i对应于网格环境下的一个节点服务器i，为了避免传统的树索引在根节点访问的负载瓶颈，服务器i将其对应的空间区域i中的空间对象组织成平衡二叉空间索引树存入一个本地磁盘中。

步骤S203，对每个服务器集群节点上的元数据记录逐步进行聚类，得到若干组元数据记录组。

根据元数据记录对应的文件的属性项值进行聚类分析，首先基于属性相似度构建分类树规则，

这些文件的对象间属性分布相似性计算公式为：

d (p, q) = \frac{Σ_{k = 1}^{t} W_{k} d_{k}}{Σ_{k = 1}^{t} W_{k}}

其中，d(p，q)表示记录p和q的相关度，W_k表示第k属性项的权重，d_k表示p和q之间在k维向量上的距离。

d_k＝|p_k-q_k|p_k，q_k分别表示记录p和q在第k个属性项，选取0.5为阈值，即将d(p，q)的值大于等于0.5的元数据记录聚类为一组，这样形成若干不同的元数据记录组。由于地理数据的属性项种类各样，为便于计算属性相似度，需要将归类或区间变量转换为二态变量，采用的计算公式为：

y = \{\begin{matrix} 1, x &Element; B \\ 0, x &NotElement; B \end{matrix}

x表示元数据记录对应的文件的属性项，例如：文件类型属性项，y表示元数据记录在x属性项的二态变量值，即上述p_i或q_i的值，B表示文件的标准种类，标准种类大体上可分为图像、图形、文本、视频、统计图表等，而图像文件按照数据又分为遥感影像、栅格地图、航空影像等，按照存储格式又有Tiff、GIF、BMP、JPG等，预先设定某些属性项值取1，而另一些取0。再如：某些数值型的属性项，可按不同的数值区间取1或0。

步骤S204，对每个服务器集群节点上的地理数据文件的元数据记录进行分类，分入不同的元数据记录组，并建立每个节点的元数据目录树。本实施例中采用PK-树的方式建立目录树。

将新的元数据记录与步骤S203中不同元数据记录组中的其中一个元数据记录进行相似度比较，分到将新的元数据记录相似度最大的元数据记录组中。

在每个节点服务器中，包含由数据节点和路由节点组成的层次金字塔多路覆盖(HPK)索引树，其中数据节点为索引目录的叶子节点，路由节点有多路数据节点或新的路由节点组成。路由节点的外包矩形记录了其所有子节点的最小外包矩形，数据节点的外包矩形记录了其所有数据文件的最小外包矩形，每一个数据节点的空间数据以顺序索引进行组织存储。HPK索引数将聚类结果作为输入文件的初始判断，与PK树结合进行数据的分类和处理，即判断数据节点与新输入文件的相似度，进行数据节点***和添加。PK-树是一种新型的处理高维空间点数据的索引结构，PK-树的建立依赖于对空间的连续迭代分解。在建树时，空间数据被分割成在粒度上由大到小的层层嵌套的多个层次，在每个层次上，所选择的分割坐标轴以及分割比率都可以不一样，所产生的是一组方形的互不重叠的子集，称为包腔。由此，给定数据集S，分割因子r，阶数为K的PK-树是通过如下方法生成的一棵树。

(1)根节点为第一层的包腔C0。

(2)除了根节点外，其他PK-树的节点都唯一对应一个K-路覆盖包腔。

(3)当添加新数据文件时，计算数据文件与该文件所属区域包腔的数据节点的相似度，若小于给定阈值，直接添加数据文件到该数据节点；若大于给定阈值，进行数据节点***，数据节点转换为路由节点，其叶节点为两个***的数据节点。重复步骤(3)，直到为所有文件建立索引。

基于以上三步骤，实现从根节点到叶子节点的生成，图4是对一组二维数据点建立HPK-树索引的构造过程，分别显示了对数据矩形的不同分解层次。

步骤S205，对分组后的数据文件进行排序，将排序后的索引文件存放在相应节点上。排序有多种方式，本实施例中采用如下方式进行排序。

基于海量地理小文件的存储组织，为便于地理信息的存储和检索，采用数据文件分包存储的方式，将相关的地理小文件存储在HPK索引目录树中的一个数据节点内，同时建立数据块内的文件索引，实现的索引结构如图5所示，首先将文件记录按照元数据的相关项进行聚类，聚类的数据文件按照Hilbert编码的方式进行排序和存储。每一类的数据文件的元数据记录存储在新的索引列表文件中，该列表索引文件与节点索引文件一起存储在数据节点上。其中，Hilbert编码的空间元数据命名规范是前4位区域编号、后6位块内位置编号，还有时间编码和目录编码共同确定文件元数据的key。将目录编码与小文件编码组合，实现文件的快速定位，基于空间顺序结构的编码方案可减少元数据服务器的访问，提高访问效率。

根据上述五个步骤的说明，可以基于现有分布式文件***实现地理文件的分布和存储，通过数据分区与分布支持并行查询的执行，提高查询的处理效率。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于集群存储的空间元数据分组方法，以提高检索效率，其特征在于，包括以下步骤：

2.如权利要求1所述的基于集群存储的空间元数据分组方法，其特征在于，所述步骤S2中还包括根据建立基于元数据记录的待划分属性项的索引。

3.如权利要求1所述的基于集群存储的空间元数据分组方法，其特征在于，所述步骤S3具体包括：

基于样本数据的属性相似度构建分类树：

d (p, q) = \frac{Σ_{k = 1}^{t} W_{k} d_{k}}{Σ_{k = 1}^{t} W_{k}}

4.如权利要求3所述的基于集群存储的空间元数据分组方法，其特征在于，在计算所述d_k时将第k属性项的值转换为二态变量。

5.如权利要求3所述的基于集群存储的空间元数据分组方法，其特征在于，所述预定值为0.5。

6.如权利要求3所述的基于集群存储的空间元数据分组方法，其特征在于，所述预定数量不少于服务器集群节点上元数据记录总数目的10%。

7.如权利要求1所述的基于集群存储的空间元数据分组方法，其特征在于，所述步骤S4中元数据记录的组织结构为PK树模型，建立分层次目录树。