CN107766541B - 配用电全局全量数据传输及存储方法、装置、电子设备 - Google Patents

配用电全局全量数据传输及存储方法、装置、电子设备 Download PDF

Info

Publication number
CN107766541B
CN107766541B CN201711041209.2A CN201711041209A CN107766541B CN 107766541 B CN107766541 B CN 107766541B CN 201711041209 A CN201711041209 A CN 201711041209A CN 107766541 B CN107766541 B CN 107766541B
Authority
CN
China
Prior art keywords
data
txt
warehouse
file
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711041209.2A
Other languages
English (en)
Other versions
CN107766541A (zh
Inventor
吴新玲
谢伟
张书翰
田传波
乔克
闫爱梅
佘家驹
郭乃网
苏运
黄芙蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Shanghai Electric Power Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Beijing Zhongdian Feihua Communication Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Shanghai Electric Power Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Beijing Zhongdian Feihua Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Shanghai Electric Power Co Ltd, Beijing Guodiantong Network Technology Co Ltd, Beijing Zhongdian Feihua Communication Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711041209.2A priority Critical patent/CN107766541B/zh
Publication of CN107766541A publication Critical patent/CN107766541A/zh
Application granted granted Critical
Publication of CN107766541B publication Critical patent/CN107766541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种配用电全局全量数据传输及存储方法、装置、电子设备;所述方法包括:将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库;使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。本发明在保证数据的完整性和准确性的情况下,尽可能地将数据进行压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现整型数据压缩率与检索速度的协调兼顾。

Description

配用电全局全量数据传输及存储方法、装置、电子设备
技术领域
本发明涉及数据处理技术领域,特别是指一种配用电全局全量数据传输及存储方法、装置、电子设备。
背景技术
基于配用电全局全量数据的采集、传输、存储与高级分析应用研究,在现有的电网数据处理应用领域中已经有一定的应用,其目的是对于各电力相关业务***所积累的数据,通过大数据手段进行采集、集成、处理、分析与应用来实现小电流接地故障选线,综合故障分析,电网量测数据评价等具体的应用场景。这些应用场景的展示对于数据的检索速度和数据质量有着很高的要求,只有高效的将数据检索并抽取出来,才能实现应用场景的展示。现有的配用电全局全量数据传输及存储技术无法达到上述使用要求。
发明内容
有鉴于此,本发明的目的在于提出一种配用电全局全量数据传输及存储方法、装置、电子设备,在保证数据的完整性和准确性的情况下,尽可能地将数据进行压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现整型数据压缩率与检索速度的协调兼顾。
基于上述目的本发明提供的一种配用电全局全量数据传输及存储方法,应用于电力***配电网,包括:
将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库;
使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
在一些实施方式中,所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件。
在一些实施方式中,对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。
在一些实施方式中,对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
在一些实施方式中,对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
在一些实施方式中,所述数据处理和数据清洗包括:合并操作、关联操作、去重操作、行列转置操作。
另一方面,本发明还提供了一种配用电全局全量数据传输及存储装置,应用于电力***配电网,包括:
第一执行模块,用于将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库;
第二执行模块,用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
第三执行模块,用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
再一方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。
从上面所述可以看出,本发明提供的配用电全局全量数据传输及存储方法、装置、电子设备,能够使得配用电大数据进行有条理的传输及存储。在本发明的技术方案下,能够在保证数据的完整性和准确性的情况下通过在三个库之间的流转将数据进行最大程度的压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现数据的高线检索,满足实际应用场景的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的配用电全局全量数据传输及存储方法流程图;
图2为本发明实施例的配用电全局全量数据传输及存储装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明实施例提供了一种配用电全局全量数据传输及存储方法,在本发明的技术方案中,需要确认数据的流转方式,即数据在采集库、原始库、中间库和结果库之间的处理流程。就数据在采集库到原始库之间需要确定数据的迁移方式。在原始库到中间库之间需要确定数据的处理方式(包括数据的清洗、插值、合并、关联、移植等)。在中间库与结果库之间通过脚本将数据迁移来实现增加检索速度。
具体的,参考图1,所述配用电全局全量数据传输及存储方法,包括以下步骤:
步骤101、将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库。
本步骤为数据从采集库到原始库的过程。具体的,采集库中原始数据的数据存储格式大体可分为orcale数据库存储、txt/excel文件格式和cim/svg文件三种格式。
对于orcale数据库数据,是通过编写sqoop脚本将数据库数据倒进到大数据平台的HDFS文件。数据被迁移到大数据平台后还需要创建Inceptor的orc线性表将生成的HDFS文件写入数据仓库。其中,Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递,可以将一个关系型数据库(例如MySQL,Oracle等)中的数据导进到Hadoop(Hadoop分布式文件***,Hadoop的框架最核心的设计包括:HDFS和MapReduce;HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。)的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
对于格式固定的txt文件数据需要先将文件ftp到大数据平台的指定目录下,同时在创建inceptor表的时候指定与该文本文件一样的列分隔符,这样就可以直接把指定路径下的文本文件数据load到inceptor表;但是对于格式不统一的文本文件(如SCADA***的10kV出线电流数据,文件中的每行数据列数均不确定),则是通过写java程序的方式逐条处理,最后再加载到inceptor数据库。
对于cim/svg等类xml格式的数据,也是通过写java程序的方式完成数据迁移的。
下面,通过表1给出一个从采集库到原始库的实例参考。
表1采集库到原始库实例
Figure BDA0001450439410000041
Figure BDA0001450439410000051
Figure BDA0001450439410000061
步骤102、使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据。
本步骤为数据从为原始库到中间库的过程。具体的,该过程利用大数据平台强大的分布式处理能力,对原始数据进行关联,合并,去重、行列转置等操作,形成更利于数据分析和前台展示的新数据。
在数据清洗过程中,清洗算法需要的初始数据格式更加多变,对于不便于用InceptorSQL处理的数据需要编写java程序实现。一般先生成一个格式化的文本文件再通过FTP将文件加载到大数据平台,清理之后的数据仍为格式化的文本文件,用同样的方式将文本文件加载到大数据平台。
所有处理完的数据会完整保存到中间库,用于各场景的数据分析。
下面,通过表2给出一个从原始库到中间库的实例参考。
表2原始库到中间库实例
Figure BDA0001450439410000062
Figure BDA0001450439410000071
Figure BDA0001450439410000081
步骤103、将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
本步骤为数据从中间库到结果库的过程。具体的,在数据清洗过程中,之所以将数据放在Inceptor中处理,一是因为该数据库支持事务,能实现分布式数据的增删查改,另一方面可以用SQL的方式操作数据,用更简单的方式执行MapReduce(MapReduce一种编程模型,用于大规模数据集的并行运算)操作,降低现场开发人员的学习成本。但是当面对海量数据且需要频繁与前台实时交互时,Inceptor的查询效率(特别是模糊查询和范围查询)就无法满足我们的需求。
为此我们将中间库所有需要与前台交互的Inceptor表全部迁移到Hyperbase数据库,并为常用的作为查询条件的列创建全文索引,这样便大大加快了检索速度。
下面,通过表3给出一个从中间库到结果库的实例参考。
表3中间库到结果库实例
Figure BDA0001450439410000082
Figure BDA0001450439410000091
由上述实施例可见,本发明的配用电全局全量数据传输及存储方法、装置、电子设备,能够使得配用电大数据进行有条理的处理。在本发明处理方式下,能够在保证数据的完整性和准确性的情况下通过在三个库之间的流转将数据进行最大程度的压缩,减少数据冗余和空间浪费,节省存储空间,同时保证数据的解码和查找速度,实现数据的高线检索,满足实际应用场景的需求。
基于同一发明构思,本发明实施例还提供了一种配用电全局全量数据传输及存储装置。所述装置应用于电力***配电网,参考图2,其包括:
第一执行模块201,用于将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库;
第二执行模块202,用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
第三执行模块203,用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据。
进一步的,所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件。对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库。对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
进一步的,所述数据处理和数据清洗包括:合并操作、关联操作、去重操作、行列转置操作。
基于同一发明构思,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述实施例的配用电全局全量数据传输及存储方法。
上述实施例的装置和电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种配用电全局全量数据传输及存储方法,应用于电力***配电网,其特征在于,包括:
将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库;
使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据;
其中,处理完的数据会完整保存到中间库,中间库所有需要与前台交互的Inceptor表全部迁移到Hyperbase数据库;
所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件;
对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库;
对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库;
对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库。
2.根据权利要求1所述的配用电全局全量数据传输及存储方法,其特征在于,所述数据处理和数据清洗包括:合并操作、关联操作、去重操作、行列转置操作。
3.一种配用电全局全量数据传输及存储装置,应用于电力***配电网,其特征在于,包括:
第一执行模块,用于将电力***配电网中各业务***的第一原始数据迁移到大数据平台的数据仓库;
第二执行模块,用于使用所述大数据平台对所述第一原始数据进行数据处理和数据清洗,将数据处理和数据清洗后的数据按预设的表结构存储到Inceptor数据仓库,获得用于被应用场景作为分析数据的第二原始数据;
第三执行模块,用于将被应用场景作进行数据分析后的所述第二原始数据从Inceptor数据仓库迁移到Hyperbase数据库,生成用于检索索引的结果数据;
所述第一原始数据包括:orcale数据库数据、txt/excel文件和cim/svg文件;对于所述orcale数据库数据,其迁移到所述大数据平台的数据仓库后,还需要创建基于Inceptor数据仓库的orc线性表将生成的HDFS文件写入所述大数据平台的数据仓库;对于所述txt/excel文件;当所述txt/excel文件的格式固定时,将所述txt/excel文件通过ftp方式传输到所述大数据平台的指定目录下,同时在创建inceptor表的时候指定与所述txt/excel文件通过一样的列分隔符;当所述txt/excel文件的格式不固定时,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库;对于所述cim/svg文件,通过写java程序的方式逐条处理,再加载到所述inceptor数据仓库;
其中,处理完的数据会完整保存到中间库,中间库所有需要与前台交互的Inceptor表全部迁移到Hyperbase数据库。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任意一项所述的方法。
CN201711041209.2A 2017-10-30 2017-10-30 配用电全局全量数据传输及存储方法、装置、电子设备 Active CN107766541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711041209.2A CN107766541B (zh) 2017-10-30 2017-10-30 配用电全局全量数据传输及存储方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711041209.2A CN107766541B (zh) 2017-10-30 2017-10-30 配用电全局全量数据传输及存储方法、装置、电子设备

Publications (2)

Publication Number Publication Date
CN107766541A CN107766541A (zh) 2018-03-06
CN107766541B true CN107766541B (zh) 2021-10-29

Family

ID=61271034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711041209.2A Active CN107766541B (zh) 2017-10-30 2017-10-30 配用电全局全量数据传输及存储方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN107766541B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563770B (zh) * 2018-04-20 2022-05-17 南京邮电大学 一种基于场景的kpi及多维度网络数据清洗方法
CN110597891B (zh) * 2018-06-12 2022-06-21 武汉斗鱼网络科技有限公司 MySQL聚合为PostgreSQL数据库的设备、***、方法、存储介质
CN109213752A (zh) * 2018-08-06 2019-01-15 国网福建省电力有限公司信息通信分公司 一种基于cim的数据清洗转换方法
CN111339221B (zh) * 2018-12-18 2024-04-26 中兴通讯股份有限公司 数据处理方法、***及存储介质
CN113127449A (zh) * 2021-04-25 2021-07-16 东北大学 一种铝/铜板带材生产全流程数据仓库构建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642652B2 (en) * 2016-01-29 2020-05-05 Peter P. Nghiem Best trade-off point on an elbow curve for optimal resource provisioning and performance efficiency

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
探索大数据技术在商业银行信用风险监控领域的应用;胡敏等;《中国金融电脑》;20170707;第32-36页 *
电力行业敏捷BI大数据应用;星环科技;《https://jz.docin.com/p-1297485356.html》;20150922;第1-6页 *

Also Published As

Publication number Publication date
CN107766541A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766541B (zh) 配用电全局全量数据传输及存储方法、装置、电子设备
CN109684352B (zh) 数据分析***、方法、存储介质及电子设备
US11093466B2 (en) Incremental out-of-place updates for index structures
CN106611046B (zh) 一种基于大数据技术的空间数据存储处理中间件***
US9256665B2 (en) Creation of inverted index system, and data processing method and apparatus
DE202011110890U1 (de) System für die Bereitstellung eines Datenspeicherungs- und Datenverarbeitungsservices
CN103440288A (zh) 一种大数据存储方法及装置
CN109753502B (zh) 一种基于NiFi的数据采集方法
CN107491515B (zh) 基于大数据平台的智能配用电数据转换方法
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN104239377A (zh) 跨平台的数据检索方法及装置
CN114417408B (zh) 数据处理方法、装置、设备以及存储介质
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及***
Lydia et al. Big data analysis using hadoop components like flume, mapreduce, pig and hive
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN111881326A (zh) 一种图数据存储方法、装置、设备及可读存储介质
CN112948492A (zh) 一种数据处理***、方法、装置、电子设备及存储介质
Rathee Big data and Hadoop with components like Flume, Pig, Hive and Jaql
CN104516985A (zh) 一种基于HBase数据库的海量数据快速导入方法
Guo et al. Research on improved A Priori algorithm based on coding and MapReduce
CN114860780A (zh) 一种数据仓库、数据处理***及计算机装置
Barbuzzi et al. Parallel bulk Insertion for large-scale analytics applications
Sinthong et al. AFrame: Extending DataFrames for large-scale modern data analysis (Extended Version)
Jiadi et al. Research on Data Center Operation and Maintenance Management Based on Big Data
CN109947702A (zh) 索引构建方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant