CN109471837A - 电力基础设施数据的分布式存储方法 - Google Patents

电力基础设施数据的分布式存储方法 Download PDF

Info

Publication number
CN109471837A
CN109471837A CN201811167120.5A CN201811167120A CN109471837A CN 109471837 A CN109471837 A CN 109471837A CN 201811167120 A CN201811167120 A CN 201811167120A CN 109471837 A CN109471837 A CN 109471837A
Authority
CN
China
Prior art keywords
data
file
database
distributed storage
power infrastructures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811167120.5A
Other languages
English (en)
Inventor
袁兆祥
韩文军
张济勇
刘海波
孙小虎
陈颖
李晓军
张苏
张亚平
于高
蒲洁
赵雨
戴艳
穆伟光
姚春静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
State Grid Hubei Electric Power Co Ltd
State Grid Economic and Technological Research Institute
Original Assignee
Wuhan University WHU
State Grid Hubei Electric Power Co Ltd
State Grid Economic and Technological Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, State Grid Hubei Electric Power Co Ltd, State Grid Economic and Technological Research Institute filed Critical Wuhan University WHU
Priority to CN201811167120.5A priority Critical patent/CN109471837A/zh
Publication of CN109471837A publication Critical patent/CN109471837A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明给出一种电力基础设施数据的分布式存储方法,利用非关系数据库存储文件基本信息,用分布式文件***实现电力基础设施数据文件的分布式存储。本发明在实现数据库的分布式存储基础上结合HDFS实现了文件的分布式存储,文件不再需要被转为二进制文件存入数据库中,取出时再由二进制文件转换成源文件,提高了数据的吞吐量,实现了对电力基础设施数据的分布式存储的同时可以按查询条件快速查询出所需的数据。

Description

电力基础设施数据的分布式存储方法
技术领域
本发明涉及电技术领域,尤其涉及一种电力基础设施数据的分布式存储方法。
背景技术
为满足国民经济和社会发展的需要,国家加大了电力建设的力度。在过去十年的发展中,我国电力建设快速发展,成绩斐然,发电装机容量高速增长,电网建设速度突飞猛进。在这一过程中,智能电网成为电网发展的关键词。
与现有电网相比,智能电网体现出电力流、信息流和业务流高度融合的显著特点,其优势主要体现在:(1)具有坚强的电网基础体系和技术支撑体系,能够抵御各类外部干扰和攻击,能够适应大规模清洁能源和可再生能源的接入,电网的坚强性得到巩固和提升;(2)信息技术、传感器技术、自动控制技术与电网基础设施有机融合,可获取电网的全景信息,及时发现、预见可能发生的故障。故障发生时,电网可以快速隔离故障,实现自我恢复,从而避免大面积停电的发生;(3)柔***/直流输电、网厂协调、智能调度、电力储能、配电自动化等技术的广泛应用,使电网运行控制更加灵活、经济,并能适应大量分布式电源、微电网及电动汽车充放电设施的接入;(4)通信、信息和现代管理技术的综合运用,将大大提高电力设备使用效率,降低电能损耗,使电网运行更加经济和高效;(5)实现实时和非实时信息的高度集成、共享与利用,为运行管理展示全面、完整和精细的电网运营状态图,同时能够提供相应的辅助决策支持、控制实施方案和应对预案;(6)建立双向互动的服务模式,用户可以实时了解供电能力、电能质量、电价状况和停电信息,合理安排电器使用;电力企业可以获取用户的详细用电信息,为其提供更多的增值服务。实现智能电网高效处理及分析的基础在于电力设施数据库的设计。
MongoDB是一种基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,与关系数据库最相似的,它支持丰富的查询表达式,查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。
Hadoop分布式文件***(HDFS)被设计成适合运行在通用硬件 (commodityhardware)上的分布式文件***,在存在故障的情况下也能可靠地存储数据。它和现有的分布式文件***有很多共同点。但同时,它和其他的分布式文件***的区别也是很明显的。HDFS是一个高度容错性的***,适合部署在廉价的机器上。
利用MongoDB内置功能中的GridFS存储大于16M的文件,该方法不是将单个文件直接存储为一个文档,而是将文件分成多个块,然后将每个块作为一个单独的文档存储,然后将这些块有序保存。默认情况下, GridFS的每个块大小是256KB。GridFS使用2个集合来存储这些文件,一个集合存储文件的块,即实际文件数据,另一个则存储文件的元信息。块中存储的是由原始数据转换成的二进制类型数据。考虑到电力基础设施数据主要是以遥感图像、专题图片为主,并且数据量大,此方式进行存取会比较耗时。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,但是又无法通过属性信息对数据进行检索,因此本发明将 MongoDB于HDFS相结合,解决了对电力基础设施数据的分布式存储的同时可以从中快速查询出所需的数据。
发明内容
本发明针对现有技术的不足,主要基于电力基础设施数据,考虑到数据的基本特性以及存取需求,发明了一种电力基础设施数据的分布式存储方法。
本发明提供的一种电力基础设施数据的分布式存储方法,利用非关系数据库存储文件基本信息,用分布式文件***实现电力基础设施数据文件的分布式存储,具体包括:
步骤一、建立Hadoop分布式文件***(HDFS)环境,先在高性能服务器虚拟化出4个节点,包含一个master节点和三个slave节点,然后进行搭建HDFS环境的搭建;
步骤二、安装分布式文件存储的数据库MongoDB,新建一用于存储文件基本信息的数据库;
步骤三、将电力基础设施数据的基本信息存入步骤二中的数据库中,电力基础设施数据存入HDFS;
步骤四、对电力基础设施数据进行查询及下载。
优选的,上述步骤一具体包括:
步骤1.1、设置每个虚拟节点的IP地址,然后配置host文件,host文件主要用于确定每个节点的IP地址,方便后续master节点能快速查到并访问各个节点,每个虚拟节点均需要配置host文件;
步骤1.2、为Hadoop集群专门设置一个用户组及用户并且配置SSH 免密码连入,让master节点能通过SSH免密码顺利安全地访问三个slave 节点;
步骤1.3、下载并解压Hadoop安装包对其进行配置直至可用jps检验各后台程序都成功启动,或可通过网站查看到集群的情况就完成了对 Hadoop分布式文件***环境的搭建。
优选的,上述步骤二中的文件的基本信息包括时间、数据所属地、数据类型等一切希望被当作查询条件的信息。
优选的,上述步骤三首先利用获取到的文件基本信息在MongoDB数据库中进行查询,如果已经存在此条数据则终止并提示“数据库中已经存在这条记录”的信息;如果数据库中没有找到域完全一致的文档则将此数据先存入HDFS中,然后将基本信息和该数据所在HDFS的位置作为一个文档***MongoDB数据库中。
优选的,上述步骤四根据查询条件在MongoDB数据库中查询出符合条件的文档。如需下载所选数据则通过域中记录的文件在HDFS中的路径将数据下载至本地。
优选的,上述Hadoop分布式文件***部署在一台高性能服务器所虚拟出的四个节点上,包含一个master节点和3个slave节点,所使用的操作***均为Centos6.8,网络连接方式均是NAT,其中master节点的内存为16G,硬盘容量200G,slave1、slave2、slave3节点的内存均为16G,硬盘容量均400G。
本发明在实现数据库的分布式存储基础上结合HDFS实现了文件的分布式存储,文件不再需要被转为二进制文件存入数据库中,取出时再由二进制文件转换成源文件,提高了数据的吞吐量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的电力基础设施数据的分布式存储方法的流程示意图;
图2为本发明实施例的HDFS集群图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本实施例提供一种电力基础设施数据的分布式存储方法,包括以下步骤:
步骤一、Hadoop分布式文件***环境的搭建,本实施例中的HDFS集群如图1所示,先在高性能服务器虚拟化出4个节点,包含了一个master 节点和三个slave节点,然后进行搭建HDFS环境的搭建。
所使用的操作***均为Centos6.8,网络连接方式均是NAT,其中 master节点的内存为16G,硬盘容量200G,slave1、slave2、slave3节点的内存均为16G,硬盘容量均400G。
实施例具体的实施过程说明如下:
首先设置每个虚拟节点的IP地址,然后配置host文件,host文件主要用于确定每个节点的IP地址,方便后续master节点能快速查到并访问各个节点,每个虚拟节点均需要配置host文件。为Hadoop集群专门设置一个用户组及用户并且配置SSH免密码连入,让master节点能通过SSH免密码顺利安全地访问三个slave节点。下载并解压Hadoop安装包对其进行配置直至可用jps检验各后台程序都成功启动,或可通过网站查看到集群的情况就完成了对Hadoop分布式文件***环境的搭建。
步骤二、安装MongoDB并创建用于存储电力基础设施数据的 MongoDB数据库。本发明实施例用于存储数据基本信息的数据库名为 MultiSourceData,数据基本信息都被存储在MultiSourceData的dataInfo集合中。
步骤三、电力基础设施数据的基本信息存入MongoDB,电力基础设施数据存入HDFS。本发明实施例中用python语言进行实现。实施例具体的实施过程说明如下:
首先利用获取到的文件基本信息在MongoDB数据库中进行查询,如果已经存在此条数据则终止并提示“数据库中已经存在这条记录”的信息;如果数据库中没有找到域完全一致的文档则将此数据先存入HDFS中,然后将基本信息和该数据所在HDFS的位置作为一个文档***MongoDB数据库中。
引入需要用到的python包,包括pymongo、hdfs、os。首先,输入电力基础设施数据的基本信息包括数据的文件名,数据时间、数据所属区域,数据类型、数据在HDFS中的存储路径,通过这些基本信息在数据库 MultiSourceData的集合dataInfo中查询是否有完全匹配的文档,如果有就返回消息提示“数据库中已经存在这条记录”,表明数据库中已经有了这条数据不需要再次存入,如果没有完全匹配的文档就将数据存入HDFS中,并获取文件在HDFS中的路径,将路径和数据的基本信息一并存入 MultiSourceData数据库的dataInfo集合中。
步骤四、电力基础设施数据的查询及下载,本发明实施例中用python 语言进行实现。实施例具体的实施过程说明如下:
输入需要的电力基础设施数据的基本信息,根据基本信息搜索数据库中符合条件的数据记录,获取数据的HDFS路径。通过HDFS路径从 Hadoop分布式文件***中将数据下载至本地。
与现有技术相比,本发明在实现数据库的分布式存储基础上结合 HDFS实现了文件的分布式存储,文件不再需要被转为二进制文件存入数据库中,取出时再由二进制文件转换成源文件,提高了数据的吞吐量。电力基础设施数据包括文本数据,遥感数据以及各类电力专题数据。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种电力基础设施数据的分布式存储方法,其特征在于,所述方法利用非关系数据库存储文件基本信息,用分布式文件***实现电力基础设施数据文件的分布式存储,具体包括:
步骤一、建立Hadoop分布式文件***(HDFS)环境,先在高性能服务器虚拟化出4个节点,包含一个master节点和三个slave节点,然后进行搭建HDFS环境的搭建;
步骤二、安装分布式文件存储的数据库MongoDB,新建一用于存储文件基本信息的数据库;
步骤三、将电力基础设施数据的基本信息存入步骤二中的数据库中,电力基础设施数据存入HDFS;
步骤四、对电力基础设施数据进行查询及下载。
2.根据权利要求1所述的电力基础设施数据的分布式存储方法,其特征在于,所述步骤一具体包括:
步骤1.1、设置每个虚拟节点的IP地址,然后配置host文件,host文件主要用于确定每个节点的IP地址,方便后续master节点能快速查到并访问各个节点,每个虚拟节点均需要配置host文件;
步骤1.2、为Hadoop集群专门设置一个用户组及用户并且配置SSH免密码连入,让master节点能通过SSH免密码顺利安全地访问三个slave节点;
步骤1.3、下载并解压Hadoop安装包对其进行配置直至可用jps检验各后台程序都成功启动,或可通过网站查看到集群的情况就完成了对Hadoop分布式文件***环境的搭建。
3.根据权利要求1所述的电力基础设施数据的分布式存储方法,其特征在于,所述步骤二中的文件的基本信息包括时间、数据所属地、数据类型等一切希望被当作查询条件的信息。
4.根据权利要求1所述的电力基础设施数据的分布式存储方法,其特征在于,所述步骤三首先利用获取到的文件基本信息在MongoDB数据库中进行查询,如果已经存在此条数据则终止并提示“数据库中已经存在这条记录”的信息;如果数据库中没有找到域完全一致的文档则将此数据先存入HDFS中,然后将基本信息和该数据所在HDFS的位置作为一个文档***MongoDB数据库中。
5.根据权利要求1或4所述的电力基础设施数据的分布式存储方法,其特征在于,所述步骤四根据查询条件在MongoDB数据库中查询出符合条件的文档。如需下载所选数据则通过域中记录的文件在HDFS中的路径将数据下载至本地。
6.根据权利要求1-5之一所述的电力基础设施数据的分布式存储方法,其特征在于,所述Hadoop分布式文件***部署在一台高性能服务器所虚拟出的四个节点上,包含一个master节点和3个slave节点,所使用的操作***均为Centos6.8,网络连接方式均是NAT,其中master节点的内存为16G,硬盘容量200G,slave1、slave2、slave3节点的内存均为16G,硬盘容量均400G。
CN201811167120.5A 2018-10-08 2018-10-08 电力基础设施数据的分布式存储方法 Pending CN109471837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811167120.5A CN109471837A (zh) 2018-10-08 2018-10-08 电力基础设施数据的分布式存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811167120.5A CN109471837A (zh) 2018-10-08 2018-10-08 电力基础设施数据的分布式存储方法

Publications (1)

Publication Number Publication Date
CN109471837A true CN109471837A (zh) 2019-03-15

Family

ID=65664733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811167120.5A Pending CN109471837A (zh) 2018-10-08 2018-10-08 电力基础设施数据的分布式存储方法

Country Status (1)

Country Link
CN (1) CN109471837A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413571A (zh) * 2019-07-01 2019-11-05 中国科学院遥感与数字地球研究所 基于MongoDB大规模遥感影像数据分布式存储方法
CN111026706A (zh) * 2019-10-21 2020-04-17 武汉神库小匠科技有限公司 电力***数据的入库方法、装置、设备及介质
CN117909693A (zh) * 2024-03-18 2024-04-19 江苏高昕建筑***有限公司 一种电数字数据分析处理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317899A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据分析与处理***及访问方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105354250A (zh) * 2015-10-16 2016-02-24 浪潮(北京)电子信息产业有限公司 一种面向云存储的数据存储方法及装置
CN105763667A (zh) * 2016-01-13 2016-07-13 杭州华三通信技术有限公司 一种实现Hadoop主机自动发现的方法及装置
KR20180056038A (ko) * 2016-11-18 2018-05-28 조선대학교산학협력단 2차원 원소를 갖는 군으로부터 생성된 상대 차집합을 활용한 데이터 분산 저장 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317899A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据分析与处理***及访问方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105354250A (zh) * 2015-10-16 2016-02-24 浪潮(北京)电子信息产业有限公司 一种面向云存储的数据存储方法及装置
CN105763667A (zh) * 2016-01-13 2016-07-13 杭州华三通信技术有限公司 一种实现Hadoop主机自动发现的方法及装置
KR20180056038A (ko) * 2016-11-18 2018-05-28 조선대학교산학협력단 2차원 원소를 갖는 군으로부터 생성된 상대 차집합을 활용한 데이터 분산 저장 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413571A (zh) * 2019-07-01 2019-11-05 中国科学院遥感与数字地球研究所 基于MongoDB大规模遥感影像数据分布式存储方法
CN111026706A (zh) * 2019-10-21 2020-04-17 武汉神库小匠科技有限公司 电力***数据的入库方法、装置、设备及介质
CN111026706B (zh) * 2019-10-21 2023-10-13 武汉神库小匠科技有限公司 电力***数据的入库方法、装置、设备及介质
CN117909693A (zh) * 2024-03-18 2024-04-19 江苏高昕建筑***有限公司 一种电数字数据分析处理装置

Similar Documents

Publication Publication Date Title
CN104486445B (zh) 一种基于云平台的分布式可扩展资源监控***
CN101505550B (zh) 设备管理的方法和终端、装置、***
CN109471837A (zh) 电力基础设施数据的分布式存储方法
CN102202087B (zh) 一种标识存储设备的方法及***
CN107888666A (zh) 一种跨地域数据存储***以及数据同步方法和装置
CN103034540A (zh) 分布式消息***及其设备和协调方法
CN103546572A (zh) 一种云存储装置以及多云存储联网***和方法
CN103034541A (zh) 一种分布式消息***及其中的设备和方法
CN108848132A (zh) 一种基于云的配电调度主站***
CN109683910A (zh) 大数据平台部署方法及装置
CN109215326A (zh) 一种并行抄表方法和装置
CN113127526A (zh) 一种基于Kubernetes的分布式数据存储和检索***
CN102624932A (zh) 基于索引的异地云数据同步方法
CN109710263A (zh) 代码的编译方法、装置、存储介质及电子设备
Smidt et al. Smart application development for IoT asset management using graph database modeling and high-availability web services
Chen et al. An efficient data storage method of NoSQL database for HEM mobile applications in IoT
CN105847364A (zh) 基于统一域名的公有云对象存储方法及***
CN102571418A (zh) 设备管理的方法和终端、装置、***
CN102970375A (zh) 集群配置方法和装置
Benhaddou et al. Big data processing for smart grids
Dethlefs et al. An architecture for a distributed smart grid registry system
CN114866416A (zh) 一种多集群统一管理***及部署方法
CN104572649B (zh) 分布式存储***的数据的处理方法、装置及***
Alzboon et al. Towards self-resource discovery and selection models in grid computing
CN106844058B (zh) 一种虚拟化资源的管理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315

RJ01 Rejection of invention patent application after publication