CN106570113A

CN106570113A - 一种海量矢量切片数据云存储方法及***

Info

Publication number: CN106570113A
Application number: CN201610939884.6A
Authority: CN
Inventors: 马潇; 王景朝; 费香泽; 王宪
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Anhui Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Anhui Electric Power Co Ltd
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2017-04-19
Anticipated expiration: 2036-10-25
Also published as: CN106570113B

Abstract

本发明公开了一种用于海量矢量切片数据的云存储方法，所述方法包括：建立分布式文件***目录树文件；建立与分布式文件***目录树对应的所有元数据节点；将分布式文件***中同一级目录下的海量矢量切片数据进行聚合，生成海量矢量切片数据包；将所述海量矢量切片数据包存储于所述元数据节点中；为所述海量矢量切片数据建立索引，所述海量矢量切片数据通过索引建立关联，形成网状结构的海量矢量切片数据的数据索引表；所述索引表用于记录所述海量矢量切片数据在所述海量矢量切片数据包中的路径；通过所述海量矢量切片数据包索引表提供所述海量矢量切片数据索引服务。

Description

一种海量矢量切片数据云存储方法及***

技术领域

本发明涉及海量数据存储领域，更具体地，涉及一种海量矢量切片数据云存储方法及***。

背景技术

随着科学技术的不断发展，海量数据时代已经到来。因此，如何优化文件***的负载，提升负载的均衡性成为了目前重要的需求。当数据集的大小超过一***立物理计算机的存储能力时，就有必要对它进行分区并存储到若干***立的计算机上。谷歌、亚马逊、IBM和微软等国际大公司在此领域投入了大量的科研力量，提出了多种创新的海量数据管理技术。目前研究工作主要集中在存储层、计算层和接口层这3个层次。现有技术的Hadoop项目实现了Hadoop分布式文件***Hadoop DFS(简称HDFS)，和并行编程框架HadoopMapReduce。分布式文件***构架于网络上，引入了网络编程的复杂性，因此分布式文件***比普通磁盘文件更为复杂。分布式文件***的目标是实现资源共享，使程序像存储和访问类似于访问本地文件的方式对远程文件操作，其典型代表是Google文件***GFS、Hadoop文件***HDFS、dynamo、TFS等。现在的分布式文件***通常保持与本地文件***几乎相同的访问接口和对象模型，这主要是为了向用户提供向后的兼容性。

现有技术主要是针对超大级别(指文件大小为几百MB、GB或TB)数据文件采用基于分布式文件***进行存储和读取。但是针对大量小文件数据进行基于分布式文件***，由于存储速度慢，无法满足大量小文件数据的存储需求。目前没有对于存储大量小文件数据进行基于分布式文件***进行存储和读取的技术方案。

发明内容

为了解决大量小文件数据进行基于分布式文件***进行存储时的速度问题，本发明提供了一种方法，所述方法包括：

建立与分布式文件***目录树对应的所有元数据节点；

将分布式文件***中同一级目录下的海量矢量切片数据进行聚合，生成海量矢量切片数据包；

将所述海量矢量切片数据包存储于所述元数据节点中；

为所述海量矢量切片数据建立索引，所述海量矢量切片数据通过索引建立关联，形成网状结构的海量矢量切片数据的数据索引表；

通过所述海量矢量切片数据包索引表提供所述海量矢量切片数据索引服务。

优选地，根据权利要求1所述的方法，所述方法包括：

所述海量矢量切片数据索引包括所述海量矢量切片数据路径、名称以及在所述海量矢量切片数据包中的偏移量；

所述海量矢量切片数据路径包括元结点位置、海量矢量切片数据行位置以及海量矢量切片数据列位置。

优选地，所述方法包括：

每一层预设一元数据结点，将索引表存入预先设计的每一层的元数据结点；

将所述元数据中存储的所述海量矢量切片数据索引表传输至客户端，建立海量矢量切片数据索引表持久映射表。

优选地，所述海量矢量切片数据包包括文件头及至少一条记录；

所述文件头包括文件类型、版本号、文件关键字、文件名称，每条所述记录对应的位置；

每条所述记录对应一个矢量切片数据，所述每条记录包括矢量切片数据的长度、键长度、键以及值。

优选地，所述海量矢量切片数据包采用数据文件序列化方法进行存储。

优选地，还包括：在所述海量矢量切片数据包的尾部进行追加存储。

优选地，所述方法包括：将所述海量矢量切片数据索引表缓存至客户端，减少访问所述元数据节点次数以提高访问海量矢量切片数据的访问次数。

优选地，还包括：对海量矢量切片数据进行读取的方法：

通过所述海量矢量切片数据索引表确定所述海量矢量切片数据包对应的所述元数据节点最短路径；

通过在确定的元数据节点中数据包文件中的文件头中，确定所述矢量切片数据的位置。

基于本发明的实施方式，本发明提供一种用于海量矢量切片数据的云存储***，所述***包括：

第一生成单元，用于建立分布式文件***目录树文件；

第二生成单元，用于建立与分布式文件***目录树对应的所有元数据节点；

聚合单元，用于将基于分布式文件***同一级目录下的海量矢量切片数据进行聚合，生成海量矢量切片数据包；

存储单元，用于将所述海量矢量切片数据包存储于所述元数据节点中；

第三生成单元，用于生成所述海量矢量切片数据索引表，通过索引表建立所述海量矢量切片数据包的网状结构，用于记录所述海量矢量切片数据在所述海量矢量切片数据包中的路径；

索引单元，用于通过所述海量矢量切片数据索引提供所述海量矢量切片数据索引服务。

本发明的有益效果为：将分布式文件***中同一级目录下的海量矢量切片数据进行聚合，生成海量矢量切片数据包，使得海量矢量切片数据的实现快速存储。同时提出为海量矢量切片数据建立索引，海量矢量切片数据通过索引建立关联，形成网状结构的海量矢量切片数据的数据索引表。通过网络结构的数据索引表，实现通过最短路径找到对应的元数据节点，加快数据的访问速度。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式一种海量矢量切片数据云存储方法***流程图；以及

图2为根据本发明实施方式一种海量矢量切片数据云存储方法***结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式一种海量矢量切片数据云存储方法***流程图。本发明提出一种基于分布式文件***的海量矢量切片数据存储的方法。本发明的方案是以现有分布式文件***目录树结构为基础，将一个目录内的多个海量矢量切片数据打包成海量矢量切片数据包进行存储，打包成的海量矢量切片数据包为大数据文件，文件级别在一百MB以上。同时，本发明的技术方案生海量矢量切片数据建立索引，记录海量矢量切片数据在海量矢量切片数据包中的路径，为客户端访问海量矢量切片数据提供了接口。本发明的方法充分利用于主从分布式文件***的高容错、可扩展性和分布性的优点，在面向文件级别超过一百MB的分布式文件***基础上，实现海量矢量数据的高效存储。本发明提出的方法使用分布式文件***存储海量矢量数据，同时对海量矢量数据建立索引，解决了目前存储海量矢量数据速度慢的问题，并通过建立索引提高了访问速度。

优选地，方法100从步骤101起步：建立分布式文件***目录树文件。构建分布式文件***目录树结构文件，能够充分利用分布式文件***的高容错、可扩展性和分布式的优点。

优选地，步骤102：建立与分布式文件***目录树对应的所有元数据节点。元数据节点用于存储数据。

优选地，步骤103：将分布式文件***中同一级目录下的海量矢量切片数据进行聚合，生成海量矢量切片数据包。设计海量矢量切片数据包的文件结构，海量矢量切片数据包包括文件头及至少一条记录。文件头包括文件类型、版本号、文件关键字、文件名称，每条记录对应的位置。每条记录对应一个矢量切片数据，每条记录包括矢量切片数据的长度、键长度、键以及值。对海量矢量切片数据的追加存储为在海量矢量切片数据包的尾部进行追加存储。海量矢量切片数据包采用数据文件序列化方法进行存储。本发明提出的实施方式，用于海量矢量数据云存储的方法以分布式***构架为基础，由一个元数据节点及元数据节点下多级分层的数据节点组成。本发明的实施方式将同一级目录下的海量矢量切片数据全部保存到该目录下的数据文件中，本发明中为该数据文件海量矢量切片数据包，是分布式文件***中的文件。本发明实施方式中，聚合存储技术的关键在于海量矢量切片数据包文件的设计。海量矢量切片数据包文件使用二进制键/值(Key/Value)持久化数据结构的分布式文件***文件，它由文件头和随后的一条或多条记录组成。海量矢量切片数据包文件头的前三个字节为SEQ的文件类型，紧随其后的一个字节表示文件数据结构的版本号。文件头还包括其他一些字段，包括键和值相应类型的名称等内容。海量矢量切片数据在进行存储时直接在海量矢量切片数据包文件的尾部进行追加。每条记录代表一个矢量切片数据。记录由记录的长度、键长度、键、值四项组成。其中键的值为矢量切片数据的文件名，值为矢量切片数据的内容。

优选地，步骤104：将海量矢量切片数据包存储于元数据节点中。海量矢量切片数据包存储方法是基分布式文件***实现的，其对海量矢量切片数据访问的操作依赖于分布式文件***。对海量矢量切片数据的追加存储为在海量矢量切片数据包的尾部进行追加存储。海量矢量切片数据包采用数据文件序列化方法进行存储。当有一个客户端将矢量切片数据写到某个目录下时，该客户端会对该目录的数据文件进行写操作，分布式文件***记录了该数据文件的占用权限Lease可以看作文件的写锁。此时如果另一客户端也需要将自己的矢量切片数据存储在相同的目录下，同样它也会去申请对该目录下的海量矢量切片数据包文件进行写操作。由于海量矢量切片数据包文件已经存在一个写锁，并且分布式文件***没有实现事务请求队列的维护，直接向客户端返回操作失败的结果。从用户的角度看，在同一个目录下创建不同的海量矢量切片数据包文件是不会出现冲突的，但在后端其实是对同一个海量矢量切片数据包文件进行的操作，由于这样的锁机制就会出现多个用户在同一目录下对不同矢量切片数据写冲突的问题。海量矢量切片数据包文件的实现主要采用数据文件的序列和反序列化方法。所谓序列化，是指将结构化对象转化为字节流，以便在网络上传输或写到磁盘上进行永久存储。反序列化是指将字节流转化会结构化对象的逆过程。

优选地，步骤105：为海量矢量切片数据建立索引，海量矢量切片数据通过索引建立关联，形成网状结构的海量矢量切片数据的数据索引表；索引表用于记录海量矢量切片数据在海量矢量切片数据包中的路径。海量矢量切片数据索引包括海量矢量切片数据路径、名称以及在海量矢量切片数据包中的偏移量，海量矢量切片数据路径包括元结点位置、海量矢量切片数据行位置以及海量矢量切片数据列位置。例如，一条海量矢量切片数据路径包括<18，0506>,其中18为元数据结点位置，05为海量矢量切片数据行位置，06为海量矢量切片数据列位置。当对此海量矢量切片数据进行查找时，通过定位元数据结点位置18，再继续查找对应的行05，再进行查找对应的列06。所有海量矢量切片数据根据索引表中路径的元数据结点位置、海量矢量切片数据行位置以及海量矢量切片数据列位置构成空间网状索引结构。本发明的实施方式可以实现海量矢量切片数据查找的最短路径。

每一层元数据结点预设一个用于存储数据索引表的元数据结点，将海量矢量切片数据索引表存储于对应的元数据节点。将元数据中记录的海量矢量切片数据索引表传输至目录文件，并在客户端建立海量矢量切片数据索引持久映射表。

矢量切片数据的索引记录着矢量切片数据在具体海量矢量切片数据包文件中的位置以及矢量切片数据的其他属性，它是客户端在存储完海量矢量切片数据的数据后必须要为其创建的。索引记录中包含海量矢量切片数据的名称、海量矢量切片数据所在的海量矢量切片数据包文件路径以及在海量矢量切片数据包文件中的偏移量。海量矢量切片数据包文件名所占的位数决定了一个目录下数据文件的数量，偏移量所占的位数决定了数据文件的大小，因此说明一个目录下存储数据的容量是有限的。

优选地，海量矢量切片数据索引分布到各个数据节点来管理。海量矢量切片数据的索引数据虽然很庞大，但是分布到元数据节点上后，单一元数据节点上的索引数据就相对很小，并且集群存储海量矢量切片数据的能力取决于集群的规模。集群规模的大小不仅能够决定存储容量的大小，更能体现存储海量矢量切片数据数量的大小。元数据节点维护矢量切片数据的索引，并向客户端提供索引服务。矢量切片数据的索引位置描述维护矢量切片数据索引的元数据节点。

优选地，海量矢量切片数据的索引按照其所在的父目录进行分类，其目的是将同一目录下的海量矢量切片数据索引由同一级的元数据节点进行管理。鉴于该特点，本发明实施方式创建索引位置映射表来记录目录与元数据节点的映射关系。索引位置映射表由元数据节点进行管理。客户端在查询海量矢量切片数据索引时，首先需要知道维护该海矢量切片数据索引的元数据节点位置。它通过将海量矢量切片数据的路径传给元数据节点，然后元数据节点根据海矢量切片数据路径的父目录查询索引位置映射表找到元数据节点位置。本发明在元数据节点设计索引位置维护模块，专门用于为目录分配数据节点，维护索引位置映射表。

优选地，索引位置维护模块根据元数据节点维护的全部数据节点从中选择分配给目录。索引位置映射表持久化到本地磁盘上，当它的数据发生变化时，其磁盘上的内容也要重新进行更新。如果索引位置维护模块在给目录分布元数据节点时找不到足够的元数据节点，该模块会将未分配的目录***到目录等待分配队列中，同时该队列的内容也要持久化到磁盘上，队列一旦有新的目录添加或删除都需要重新更新到磁盘上。元数据节点启动时需要将磁盘上队列数据读取到内存中。该队列的目的是等待分布式文件***有新的数据节点注册加入时，索引位置维护模块对队列中的目录进行重新分配。同样队列每次更新也需进行持久化。

本发明实施方式通过在数据节点上设计矢量切片数据索引模块来维护管理矢量切片数据的索引，向客户端提供索引服务。模块维护内存中的索引记录和索引文件以及与索引文件对应的日志文件。元数据节点对索引记录用B-tree进行排序以加速索引的查找访问。索引记录的更新会先对内存数据结构进行修改，暂时不同步对应到索引文件。而是将更新的内容记录到该索引文件对应的Log文件中，当数据节点启动后根据需要将索引文件排序读入内存，根据Log对索引数据结构进行更新，并将此时内存中索引记录重新存储到数据节点上替换旧的索引文件，清空Log。这样做的目的是为了避免数据节点突然断电导致内存中的索引数据丢失。

优选地，将海量矢量切片数据索引表缓存至客户端，减少访问所述元数据节点次数以提高访问海量矢量切片数据的访问次数。本发明的实施方式，通过在客户端缓存用户常用到的海量矢量切片数据索引，可以减少客户端对元数据节点的访问次数，提高对海量矢量切片数据访问的效率。

优选地，步骤106：通过海量矢量切片数据包索引表提供海量矢量切片数据索引服务。通过海量矢量切片数据索引表确定海量矢量切片数据包对应的元数据节点最短路径。通过在确定的元数据节点中数据包文件中的文件头中，确定矢量切片数据的位置。

图2为根据本发明实施方式一种海量矢量切片数据云存储方法***结构图。***200包括：

第一生成单元201，用于建立分布式文件***目录树文件；

第二生成单元202，用于建立与分布式文件***目录树对应的所有元数据节点；

聚合单元203，用于将基于分布式文件***同一级目录下的海量矢量切片数据进行聚合，生成海量矢量切片数据包；

存储单元204，用于将海量矢量切片数据包存储于元数据节点中；

第三生成单元205，用于生成海量矢量切片数据索引表，通过索引表建立海量矢量切片数据包的网状结构，用于记录海量矢量切片数据在海量矢量切片数据包中的路径；

索引单元206，用于通过海量矢量切片数据索引提供海量矢量切片数据索引服务。

根据本发明的实施方式一种海量矢量切片数据云存储方法***200与本发明另一实施方式的一种海量矢量切片数据云存储方法***100相对应，在此不再进行赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

另外，本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种用于海量矢量切片数据的云存储方法，所述方法包括：

建立与分布式文件***目录树对应的所有元数据节点；

将所述海量矢量切片数据包存储于所述元数据节点中；

2.根据权利要求1所述的方法，所述方法包括：

3.根据权利要求1所述的方法，所述方法包括：

4.根据权利要求1所述的方法，所述海量矢量切片数据包包括文件头及至少一条记录；

5.根据权利要求1所述的方法，所述海量矢量切片数据包采用数据文件序列化方法进行存储。

6.根据权利要求1所述的方法，还包括：在所述海量矢量切片数据包的尾部进行追加存储。

7.根据权利要求1所述的方法，所述方法包括：将所述海量矢量切片数据索引表缓存至客户端。

8.根据权利要求4所述的方法，还包括：对海量矢量切片数据进行读取的方法：

9.一种用于海量矢量切片数据的云存储***，所述***包括：

第一生成单元，用于建立分布式文件***目录树文件；