CN109471837A

CN109471837A - 电力基础设施数据的分布式存储方法

Info

Publication number: CN109471837A
Application number: CN201811167120.5A
Authority: CN
Inventors: 袁兆祥; 韩文军; 张济勇; 刘海波; 孙小虎; 陈颖; 李晓军; 张苏; 张亚平; 于高; 蒲洁; 赵雨; 戴艳; 穆伟光; 姚春静
Original assignee: Wuhan University WHU; State Grid Hubei Electric Power Co Ltd; State Grid Economic and Technological Research Institute
Current assignee: Wuhan University WHU; State Grid Hubei Electric Power Co Ltd; State Grid Economic and Technological Research Institute
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-03-15

Abstract

本发明给出一种电力基础设施数据的分布式存储方法，利用非关系数据库存储文件基本信息，用分布式文件***实现电力基础设施数据文件的分布式存储。本发明在实现数据库的分布式存储基础上结合HDFS实现了文件的分布式存储，文件不再需要被转为二进制文件存入数据库中，取出时再由二进制文件转换成源文件，提高了数据的吞吐量，实现了对电力基础设施数据的分布式存储的同时可以按查询条件快速查询出所需的数据。

Description

电力基础设施数据的分布式存储方法

技术领域

本发明涉及电技术领域，尤其涉及一种电力基础设施数据的分布式存储方法。

背景技术

为满足国民经济和社会发展的需要，国家加大了电力建设的力度。在过去十年的发展中，我国电力建设快速发展，成绩斐然，发电装机容量高速增长，电网建设速度突飞猛进。在这一过程中，智能电网成为电网发展的关键词。

与现有电网相比，智能电网体现出电力流、信息流和业务流高度融合的显著特点，其优势主要体现在：(1)具有坚强的电网基础体系和技术支撑体系，能够抵御各类外部干扰和攻击，能够适应大规模清洁能源和可再生能源的接入，电网的坚强性得到巩固和提升；(2)信息技术、传感器技术、自动控制技术与电网基础设施有机融合，可获取电网的全景信息，及时发现、预见可能发生的故障。故障发生时，电网可以快速隔离故障，实现自我恢复，从而避免大面积停电的发生；(3)柔***/直流输电、网厂协调、智能调度、电力储能、配电自动化等技术的广泛应用，使电网运行控制更加灵活、经济，并能适应大量分布式电源、微电网及电动汽车充放电设施的接入；(4)通信、信息和现代管理技术的综合运用，将大大提高电力设备使用效率，降低电能损耗，使电网运行更加经济和高效；(5)实现实时和非实时信息的高度集成、共享与利用，为运行管理展示全面、完整和精细的电网运营状态图，同时能够提供相应的辅助决策支持、控制实施方案和应对预案；(6)建立双向互动的服务模式，用户可以实时了解供电能力、电能质量、电价状况和停电信息，合理安排电器使用；电力企业可以获取用户的详细用电信息，为其提供更多的增值服务。实现智能电网高效处理及分析的基础在于电力设施数据库的设计。

MongoDB是一种基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB介于关系数据库和非关系数据库之间，是非关系数据库当中功能最丰富，与关系数据库最相似的，它支持丰富的查询表达式，查询指令使用JSON形式的标记，可轻易查询文档中内嵌的对象及数组。

Hadoop分布式文件***(HDFS)被设计成适合运行在通用硬件 (commodityhardware)上的分布式文件***，在存在故障的情况下也能可靠地存储数据。它和现有的分布式文件***有很多共同点。但同时，它和其他的分布式文件***的区别也是很明显的。HDFS是一个高度容错性的***，适合部署在廉价的机器上。

利用MongoDB内置功能中的GridFS存储大于16M的文件，该方法不是将单个文件直接存储为一个文档，而是将文件分成多个块，然后将每个块作为一个单独的文档存储，然后将这些块有序保存。默认情况下， GridFS的每个块大小是256KB。GridFS使用2个集合来存储这些文件，一个集合存储文件的块，即实际文件数据，另一个则存储文件的元信息。块中存储的是由原始数据转换成的二进制类型数据。考虑到电力基础设施数据主要是以遥感图像、专题图片为主，并且数据量大，此方式进行存取会比较耗时。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，但是又无法通过属性信息对数据进行检索，因此本发明将 MongoDB于HDFS相结合，解决了对电力基础设施数据的分布式存储的同时可以从中快速查询出所需的数据。

发明内容

本发明针对现有技术的不足，主要基于电力基础设施数据，考虑到数据的基本特性以及存取需求，发明了一种电力基础设施数据的分布式存储方法。

本发明提供的一种电力基础设施数据的分布式存储方法，利用非关系数据库存储文件基本信息，用分布式文件***实现电力基础设施数据文件的分布式存储，具体包括：

步骤一、建立Hadoop分布式文件***(HDFS)环境，先在高性能服务器虚拟化出4个节点，包含一个master节点和三个slave节点，然后进行搭建HDFS环境的搭建；

步骤二、安装分布式文件存储的数据库MongoDB，新建一用于存储文件基本信息的数据库；

步骤三、将电力基础设施数据的基本信息存入步骤二中的数据库中，电力基础设施数据存入HDFS；

步骤四、对电力基础设施数据进行查询及下载。

优选的，上述步骤一具体包括：

步骤1.1、设置每个虚拟节点的IP地址，然后配置host文件，host文件主要用于确定每个节点的IP地址，方便后续master节点能快速查到并访问各个节点，每个虚拟节点均需要配置host文件；

步骤1.2、为Hadoop集群专门设置一个用户组及用户并且配置SSH 免密码连入，让master节点能通过SSH免密码顺利安全地访问三个slave 节点；

步骤1.3、下载并解压Hadoop安装包对其进行配置直至可用jps检验各后台程序都成功启动，或可通过网站查看到集群的情况就完成了对 Hadoop分布式文件***环境的搭建。

优选的，上述步骤二中的文件的基本信息包括时间、数据所属地、数据类型等一切希望被当作查询条件的信息。

优选的，上述步骤三首先利用获取到的文件基本信息在MongoDB数据库中进行查询，如果已经存在此条数据则终止并提示“数据库中已经存在这条记录”的信息；如果数据库中没有找到域完全一致的文档则将此数据先存入HDFS中，然后将基本信息和该数据所在HDFS的位置作为一个文档***MongoDB数据库中。

优选的，上述步骤四根据查询条件在MongoDB数据库中查询出符合条件的文档。如需下载所选数据则通过域中记录的文件在HDFS中的路径将数据下载至本地。

优选的，上述Hadoop分布式文件***部署在一台高性能服务器所虚拟出的四个节点上，包含一个master节点和3个slave节点，所使用的操作***均为Centos6.8，网络连接方式均是NAT，其中master节点的内存为16G，硬盘容量200G，slave1、slave2、slave3节点的内存均为16G，硬盘容量均400G。

本发明在实现数据库的分布式存储基础上结合HDFS实现了文件的分布式存储，文件不再需要被转为二进制文件存入数据库中，取出时再由二进制文件转换成源文件，提高了数据的吞吐量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的电力基础设施数据的分布式存储方法的流程示意图；

图2为本发明实施例的HDFS集群图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本实施例提供一种电力基础设施数据的分布式存储方法，包括以下步骤：

步骤一、Hadoop分布式文件***环境的搭建，本实施例中的HDFS集群如图1所示，先在高性能服务器虚拟化出4个节点，包含了一个master 节点和三个slave节点，然后进行搭建HDFS环境的搭建。

所使用的操作***均为Centos6.8，网络连接方式均是NAT，其中 master节点的内存为16G，硬盘容量200G，slave1、slave2、slave3节点的内存均为16G，硬盘容量均400G。

实施例具体的实施过程说明如下：

首先设置每个虚拟节点的IP地址，然后配置host文件，host文件主要用于确定每个节点的IP地址，方便后续master节点能快速查到并访问各个节点，每个虚拟节点均需要配置host文件。为Hadoop集群专门设置一个用户组及用户并且配置SSH免密码连入，让master节点能通过SSH免密码顺利安全地访问三个slave节点。下载并解压Hadoop安装包对其进行配置直至可用jps检验各后台程序都成功启动，或可通过网站查看到集群的情况就完成了对Hadoop分布式文件***环境的搭建。

步骤二、安装MongoDB并创建用于存储电力基础设施数据的 MongoDB数据库。本发明实施例用于存储数据基本信息的数据库名为 MultiSourceData，数据基本信息都被存储在MultiSourceData的dataInfo集合中。

步骤三、电力基础设施数据的基本信息存入MongoDB，电力基础设施数据存入HDFS。本发明实施例中用python语言进行实现。实施例具体的实施过程说明如下：

首先利用获取到的文件基本信息在MongoDB数据库中进行查询，如果已经存在此条数据则终止并提示“数据库中已经存在这条记录”的信息；如果数据库中没有找到域完全一致的文档则将此数据先存入HDFS中，然后将基本信息和该数据所在HDFS的位置作为一个文档***MongoDB数据库中。

引入需要用到的python包，包括pymongo、hdfs、os。首先，输入电力基础设施数据的基本信息包括数据的文件名，数据时间、数据所属区域，数据类型、数据在HDFS中的存储路径，通过这些基本信息在数据库 MultiSourceData的集合dataInfo中查询是否有完全匹配的文档，如果有就返回消息提示“数据库中已经存在这条记录”，表明数据库中已经有了这条数据不需要再次存入，如果没有完全匹配的文档就将数据存入HDFS中，并获取文件在HDFS中的路径，将路径和数据的基本信息一并存入 MultiSourceData数据库的dataInfo集合中。

步骤四、电力基础设施数据的查询及下载，本发明实施例中用python 语言进行实现。实施例具体的实施过程说明如下：

输入需要的电力基础设施数据的基本信息，根据基本信息搜索数据库中符合条件的数据记录，获取数据的HDFS路径。通过HDFS路径从 Hadoop分布式文件***中将数据下载至本地。

与现有技术相比，本发明在实现数据库的分布式存储基础上结合 HDFS实现了文件的分布式存储，文件不再需要被转为二进制文件存入数据库中，取出时再由二进制文件转换成源文件，提高了数据的吞吐量。电力基础设施数据包括文本数据，遥感数据以及各类电力专题数据。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种电力基础设施数据的分布式存储方法，其特征在于，所述方法利用非关系数据库存储文件基本信息，用分布式文件***实现电力基础设施数据文件的分布式存储，具体包括：

步骤四、对电力基础设施数据进行查询及下载。

2.根据权利要求1所述的电力基础设施数据的分布式存储方法，其特征在于，所述步骤一具体包括：

步骤1.2、为Hadoop集群专门设置一个用户组及用户并且配置SSH免密码连入，让master节点能通过SSH免密码顺利安全地访问三个slave节点；

步骤1.3、下载并解压Hadoop安装包对其进行配置直至可用jps检验各后台程序都成功启动，或可通过网站查看到集群的情况就完成了对Hadoop分布式文件***环境的搭建。

3.根据权利要求1所述的电力基础设施数据的分布式存储方法，其特征在于，所述步骤二中的文件的基本信息包括时间、数据所属地、数据类型等一切希望被当作查询条件的信息。

4.根据权利要求1所述的电力基础设施数据的分布式存储方法，其特征在于，所述步骤三首先利用获取到的文件基本信息在MongoDB数据库中进行查询，如果已经存在此条数据则终止并提示“数据库中已经存在这条记录”的信息；如果数据库中没有找到域完全一致的文档则将此数据先存入HDFS中，然后将基本信息和该数据所在HDFS的位置作为一个文档***MongoDB数据库中。

5.根据权利要求1或4所述的电力基础设施数据的分布式存储方法，其特征在于，所述步骤四根据查询条件在MongoDB数据库中查询出符合条件的文档。如需下载所选数据则通过域中记录的文件在HDFS中的路径将数据下载至本地。

6.根据权利要求1-5之一所述的电力基础设施数据的分布式存储方法，其特征在于，所述Hadoop分布式文件***部署在一台高性能服务器所虚拟出的四个节点上，包含一个master节点和3个slave节点，所使用的操作***均为Centos6.8，网络连接方式均是NAT，其中master节点的内存为16G，硬盘容量200G，slave1、slave2、slave3节点的内存均为16G，硬盘容量均400G。