CN104462314B - 电网数据处理方法及装置 - Google Patents
电网数据处理方法及装置 Download PDFInfo
- Publication number
- CN104462314B CN104462314B CN201410715269.8A CN201410715269A CN104462314B CN 104462314 B CN104462314 B CN 104462314B CN 201410715269 A CN201410715269 A CN 201410715269A CN 104462314 B CN104462314 B CN 104462314B
- Authority
- CN
- China
- Prior art keywords
- data
- area
- electrical network
- preprocessed
- network business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000003860 storage Methods 0.000 claims abstract description 30
- 238000007418 data mining Methods 0.000 claims abstract description 26
- 238000012423 maintenance Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 39
- 238000009826 distribution Methods 0.000 claims description 18
- 238000007405 data analysis Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012098 association analyses Methods 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000005611 electricity Effects 0.000 abstract description 26
- 238000013500 data storage Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005065 mining Methods 0.000 description 7
- 238000009412 basement excavation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 231100000749 chronicity Toxicity 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电网数据处理方法及装置。其中,该方法包括:采集电网业务***中的电网业务数据,其中,电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据;对电网业务数据进行预处理,得到预处理数据;根据预处理数据的类型,对预处理数据以不同的存储方式进行存储;对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数。本发明解决了现有技术仅对用电采集数据进行采集,导致的无法与其他子业务***中的数据进行关联从而无法对电网运行情况进行分析的问题。
Description
技术领域
本发明涉及智能电网领域,具体而言,涉及一种电网数据处理方法及装置。
背景技术
随着国家电网公司智能电网建设进程不断推进,用电信息采集***的快速发展,采集数据***的式增长,积累了海量的数据。
目前只有用电采集***实现了用电采集数据的应用,没有实现对其他子业务***中的电网业务数据的应用。在业务方面,用电采集***对采集数据的应用重点集中在电量数据的使用上,对电流、电压数据只提供了简单的数据查询功能。
在技术上,基于用电采集数据规模大,处理时效性要求高,数据价值的挖掘等要求,用电采集***使用的传统的Oracle数据库已经不能满足需要,在海量的采集数据面前,oracle效率低。并且,在现有的功能中,只提供对数据的简单查询功能,对采集到的数据没有进行进一步的分析和运算,没有体现出采集数据的价值。更没有与电网地理信息***(GIS***)、生产管理等数据进行有效的关联,无法为运维检修工作提供支持。
因此,数据处理的性能提升、数据价值的挖掘、将数据转变为资产等工作亟待开展。
针对现有技术中仅对用电采集数据进行采集,导致的无法与其他子业务***中的数据进行关联从而无法对电网运行情况进行分析的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种电网数据处理的方法及装置,以解决现有技术中仅对用电采集数据进行采集,导致的无法与其他子业务***中的数据进行关联从而无法对电网运行情况进行分析的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种电网数据处理方法。该方法包括:采集电网业务***中的电网业务数据,其中,电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据;对电网业务数据进行预处理,得到预处理数据;根据预处理数据的类型,对预处理数据以不同的存储方式进行存储;对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种电网数据处理装置,该装置包括采集模块,用于采集电网业务***中的电网业务数据,其中,电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据;第一处理模块,用于对电网业务数据进行预处理,得到预处理数据;存储模块,用于根据预处理数据的类型,对预处理数据以不同的存储方式进行存储;分析模块,用于对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数。
根据发明实施例,通过采集电网业务***中的电网业务数据,其中,电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据;对电网业务数据进行预处理,得到预处理数据;根据预处理数据的类型,对预处理数据以不同的存储方式进行存储;对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数,解决了现有技术仅对用电采集数据进行采集,导致的无法与其他子业务***中的数据进行关联从而无法对电网运行情况进行分析的问题。实现了依据用电采集数据与其他子业务数据对电网运行情况进行分析的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例一的电网数据处理方法的流程图;
图2是根据本发明实施例的配电网状态监测与分析***架构图;
图3是根据本发明实施例的预处理过程的流程图;
图4是根据本发明实施例一的优选的电网数据处理方法的流程图;
图5是根据本发明实施例二的电网数据处理装置的结构示意图;以及
图6是根据本发明实施例二的优选的电网数据处理***的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本发明实施例提供了电网数据处理方法。
图1是根据本发明实施例的电网数据处理方法的流程图。如图1所示,该方法包括步骤如下:
步骤S11,采集电网业务***中的电网业务数据,其中,电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据。
具体的,通过上述步骤S11,对电网业务***中的电网业务数据进行采集,这些电网业务数据包括很多类型的数据,并且,这些数据需要从不同子业务***中进行采集。
步骤S13,对电网业务数据进行预处理,得到预处理数据。
具体的,因为电网业务数据从各个子业务***中采集而来,各个子***的数据类型不同,并且有重叠的数据内容。通过上述步骤S13对电网数据进行预处理,生成相同数据类型,去重之后的数据。
步骤S15,根据预处理数据的类型,对预处理数据以不同的存储方式进行存储。
具体的,上述步骤S15,根据预处理数据来源或者数据内容,选择不同的存储方式对预处理数据进行存储,以供数据挖掘时进行调用。
步骤S17,对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数。
具体的,通过上述步骤S17,读取存储以不同存储方式的预处理数据,寻找经过预处理之后的电网业务数据中的数据规律,并对这些有规律的数据进行展示,其中,包括找出与每个台区对应的全年各个时间的台区负载参数。
具体的,上述步骤S11至步骤S17,通过对不同子业务***中的数据进行采集,将采集到的电网业务数据进行预处理,并根据数据来源或数据内容以不同的方式进行储存。最后通过对以不同方式存储的预处理数据进行数据挖掘,得到电网数据间的规律。
图2是配电网状态监测与分析***架构图,在实际应用当中,如图2所示,***从逻辑上分为数据源层、数据预处理层、数据存储与计算层、数据分析挖掘层以及业务应用层。数据资源层融合了与配电网状态相关的用电信息采集数据、电网网架数据、电网运行数据等。数据存储计算层构建于数据资源层基础之上,针对本项目数据量大、数据维度多的特点选用分布式文件***框架(Hadoop)作为基础,与本业务相关的数据通过一系列预处理后存储到分布式文件***(HDFS)上,并使用大规模数据计算模型(MapReduce)提供分布式计算功能。数据计算层构建于数据存储层之上的是一系列针对海量数据的分布式计算框架,例如:分析组件(Mahout)、数据仓库工具(Hive)等。数据预处理层在数据资源层与数据存储计算层之间,主要负责在数据资源层中的数据在导入数据存储层之前对数据进行必要的清洗工作。数据分析与挖掘构建于数据存储与计算之上,提供对本项目相关业务数据的深层次分析与挖掘。数据应用层基于数据管理与数据分析挖掘功能,提供诸如台区基本情况分析、台区特性分析及预测、配电网特性分析等服务。
综上可知,本发明解决了现有技术中仅对用电采集数据进行采集,导致的无法与其他子业务***中的数据进行关联从而无法对电网运行情况进行分析的问题,实现了依据用电采集数据与其他子业务***的数据对电网运行情况进行分析的效果。
优选的,本申请上述实施例中,步骤S13对电网业务数据进行预处理,得到预处理数据中的预处理方式至少包括:空值处理、数据正确性验证、字段完整性处理和规范化数据格式。其中,空值处理用于对电网业务数据中的空值进行捕获,并且加载或者替换为其他含义数据;数据正确性验证用于验证电网业务数据的数据正确性;字段完整性处理用于查询与丢失数据字段相关的字段信息,并以相关的字段信息为依据,计算得出丢失数据字段内容,保证字段完整性;规范化数据格式至少用于对从各个电网业务数据中采集到的时间、数值、字符等数据进行转换,分别转换为统一的数据格式。
具体的,通过控制处理,数据正确性验证、字段完整性和规范化数据格式的方法,对采集到的电网业务数据进行处理,分别达到去除电网业务数据中数据异常的数据,统一数据格式的目的。
在实际应用当中,可以通过台区的电网网架数据,对从各个子业务***中采集到的电网业务数据进行比对分析,将数值为空的、数据差异较大和重复的数据进行筛选、合并,得到完整、唯一的数据。
因为,各个子业务***在开发时,并没有考虑到数据合并的问题,所以采用的数据库类型、数据表结构以及数据类型都没有统一规划。所以,在预处理过程中,需要对各个子业务***中的电网业务数据的数据类型进行转换,转换为统一的数据类型。
图3是预处理过程的流程图,电网业务数据的主要来源为:用电信息采集***、电网网架***、电网运行***。上述电网业务数据多以关系型数据表的形式存储在各自的关系型数据库中,通过数据仓库技术(ETL)从各个子业务***中抽取电网业务数据,并对电网业务数据进行预处理,预存储到关系型数据库中;而后,通过数据相转移工具Sqoop从关系型数据库中抽取数据,存储到分布式文件***HDFS中。
通过数据的抽取与预处理、数据的存储与计算、数据的分析与挖掘以及数据的可视化展现,实现对数据量庞大、数据维度众多数据进行预处理的过程。
优选的,本申请上述实施例中,在存储方式至少包括:关系型数据库、分布式文件***时,步骤S15根据预处理数据的类型,对预处理数据以不同的存储方式进行存储的方法包括:
步骤S151,将电网业务数据中的用电信息数据、电网网架数据、***运维数据存储于关系型数据库中。
步骤S153,将电网业务数据中的电网运行数据存储于分布式文件***中。
具体的,通过上述步骤S151和步骤S153,将电网业务数据根据数据内容、数据量大小,将电信息数据、电网网架数据、***运维数据存储于关系型数据库中,将电网运行数据存储于分布式文件***当中。因为电网运行数据记录的是对各个台区的用电数据,所以数据量庞大。传统关系型数据库处理如此庞大的数据量的运行效率无法满足应用的需求,所以将电网运行数据存储于分布式文件***当中,加快调用速度,提高处理效率。
在实际应用当中,本项目的数据存储主要分为两大部分:传统的关系型数据库与运用分布式文件***框架(Hadoop)的分布式文件***(HDFS)。传统数据库主要存储***运维数据、数据分析挖掘的结果数据以及相关方案与治理措施;而分布式文件***(HDFS)主要存储海量用电数据及用户报修数据。
对海量的用电数据的计算与分析主要依托于分析组件(Mahout)来完成。
海量数据经分布式计算框架(Hadoop)计算后,得出结果,并将结果直接写入关系型数据库以供业务调用分析。
优选的,本申请上述实施例中,在上述步骤S17对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数中,步骤包括:
步骤S171,读取每个台区的电网运行数据。
步骤S173,确定台区出现重载的时间和次数。
步骤S175,根据台区的时间和次数,对预处理数据进行数据挖掘分析,其中,数据挖掘分析中至少包括:聚类分析和关联分析。
步骤S177,根据所对预处理数据的分析结果,得到台区的负载参数。
步骤S179,根据台区的负载参数,确定台区重载类型。
具体的,通过上述步骤S171和步骤S179,读取每个台区的电网运行数据,对电网运行数据和已经经过预处理的电网业务数据进行聚类分析和关联分析,找出电网业务数据和电网运行数据之间的关系,通过关系确定台区的负载参数。进而,可以得到与每个台区对应的台区重载类型。
在实际应用当中,根据台区的重载情况出现的时间与频率等特性对重载情况通过分析组件(Mahout)中的聚类算法(K-means)进行聚类分析。最终将台区分组为长期性重载、季节性重载以及短期性重载三类。
优选的,如图4所示,本申请上述实施例中,在步骤步17对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数之后,方法还包括:
步骤S18,根据台区的负载参数,划分台区的负载级别。
步骤S19,根据负载级别,对台区进行可视化展现。
具体的,通过步骤S18和步骤S19,对数据挖掘得到的台区负载参数进行再处理,根据台区的负载参数对台区划分负载级别。***可以根据所划分的负载级别,对台区进行可视化展示。
在实际应用当中,可以结合地理信息***(GIS***)、图形、传统表格等丰富的展示形式,通过PC、大屏等载体对重载基本情况、特性分析结果、预测多方面进行直观的、友好的展示。
优选的,本申请上述实施例中,在上述步骤S19根据负载级别,对台区进行可视化展现中,步骤包括:
S191,读取台区的负载级别和预先设置的与台区负载级别对应的展示颜色。
S193,获取台区的电网网架数据,其中,电网网架数据至少包括:台区坐标信息、台区覆盖面积信息。
S195,根据台区的负载级别和与负载级别对应的展示颜色,确定与台区的负载级别对应的展示颜色。
S197,根据台区的电网网架数据和台区的负载级别对应的展示颜色,在地图上进行展示。
具体的,通过步骤S191至步骤S197,将台区按照负载级别以颜色进行区分,并读取各个台区所在的坐标信息和台区覆盖面积额,从而确定各个台区在地理信息***(GIS***)中所处的位置和覆盖面积。根据读取到的台区坐标、台区覆盖面积和与台区负载级别对应的展示颜色,在地理信息***中进行展示。
在实际应用当中,可视化展示的方式有很多种,例如:
(1)使用色斑图展示台区负载率分布:
将台区按照负载率正常、重载、过载进行划,使用色斑图技术展示台区负载率的分布情况,直观、友好的展示。其中,在使用方面负载率分布图还提供了很多种操作方式:在地理信息***中选择显示部分台区的分布;在绘制面,对展示绘制区域里的内容进行筛选,显示满足条件的台区。
(2)台区负载率分布图和温度分布图对比展示:
温度的变化可能会引起台区负载率的变化,台区负载率分布图和温度分布图对比播放,直观的展示温度变化与负载率变化之间的关系。
(3)台区时段特性展示:
展示通过大数据平台数据挖掘算法分析出台区时段特性,对长期重载台区,全年的负载率分布以散点图展示。
基于大数据的台区监控与分析利用分布式文件***框架(Hadoop),对采集数据进行深入的数据挖掘。数据量越大,越能体现出本发明方法的优势,比传统基于关系型数据库计算,速度快,处理数量大。
本发明通过多种可视化技术的应用,展示方式优越,能够直观的、多维度的对电网运行情况表现。
实施例2
本发明实施例还提供了一种电网数据处理装置,如图5所示,该装置可以包括:采集模块20、第一处理模块22、存储模块24和分析模块26。
其中,采集模块20,用于采集电网业务***中的电网业务数据,其中,电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据。
具体的,通过上述采集模块20,对电网业务***中的电网业务数据进行采集,这些电网业务数据包括很多类型的数据,并且,这些数据需要从不同子业务***中进行采集。
第一处理模块22,用于对电网业务数据进行预处理,得到预处理数据。
具体的,因为电网业务数据从各个子业务***中采集而来,各个子***的数据类型不同,并且有重叠的数据内容。通过上述第一处理模块22,对电网数据进行预处理,生成相同数据类型,去重之后的数据。
存储模块24,用于根据预处理数据的类型,对预处理数据以不同的存储方式进行存储。
具体的,上述存储模块24,根据预处理数据来源或者数据内容,选择不同的存储方式对预处理数据进行存储,以供数据挖掘时进行调用。
分析模块26,用于对预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数。
具体的,通过上述分析模块26,读取存储以不同存储方式的预处理数据,寻找经过预处理之后的电网业务数据中的数据规律,并对这些有规律的数据进行展示,其中,包括找出与每个台区对应的全年各个时间的台区负载参数。
具体的,上述采集模块20、第一处理模块22、存储模块24和分析模块26,通过对不同子业务***中的数据进行采集,将采集到的电网业务数据进行预处理,并根据数据来源或数据内容以不同的方式进行储存。最后通过对以不同方式存储的预处理数据进行数据挖掘,得到电网数据间的规律。
图2是配电网状态监测与分析***架构图,在实际应用当中,如图2所示,***从逻辑上分为数据源层、数据预处理层、数据存储与计算层、数据分析挖掘层以及业务应用层。数据资源层融合了与配电网状态相关的用电信息采集数据、电网网架数据、电网运行数据等。数据存储计算层构建于数据资源层基础之上,针对本项目数据量大、数据维度多的特点选用分布式文件***框架(Hadoop)作为基础,与本业务相关的数据通过一系列预处理后存储到分布式文件***(HDFS)上,并使用大规模数据计算模型(MapReduce)提供分布式计算功能。数据计算层构建于数据存储层之上的是一系列针对海量数据的分布式计算框架,例如:分析组件(Mahout)、数据仓库工具(Hive)等。数据预处理层在数据资源层与数据存储计算层之间,主要负责在数据资源层中的数据在导入数据存储层之前对数据进行必要的清洗工作。数据分析与挖掘构建于数据存储与计算之上,提供对本项目相关业务数据的深层次分析与挖掘。数据应用层基于数据管理与数据分析挖掘功能,提供诸如台区基本情况分析、台区特性分析及预测、配电网特性分析等服务。
综上可知,本发明解决了现有技术中仅对用电采集数据进行采集,导致的无法与其他子业务***中的数据进行关联从而无法对电网运行情况进行分析的问题,实现了依据用电采集数据与其他子业务***的数据对电网运行情况进行分析的效果。
进一步的,第一处理模块22对电网业务数据进行预处理,得到预处理数据中的预处理方式至少包括:空值处理、数据正确性验证、字段完整性处理和规范化数据格式。其中,空值处理用于对电网业务数据中的空值进行捕获,并且加载或者替换为其他含义数据;数据正确性验证用于验证电网业务数据的数据正确性;字段完整性处理用于查询与丢失数据字段相关的字段信息,并以相关的字段信息为依据,计算得出丢失数据字段内容,保证字段完整性;规范化数据格式至少用于对从各个电网业务数据中采集到的时间、数值、字符等数据进行转换,分别转换为统一的数据格式。
具体的,通过控制处理,数据正确性验证、字段完整性和规范化数据格式的方法,对采集到的电网业务数据进行处理,分别达到去除电网业务数据中数据异常的数据,统一数据格式的目的。
在实际应用当中,可以通过台区的电网网架数据,对从各个子业务***中采集到的电网业务数据进行比对分析,将数值为空的、数据差异较大和重复的数据进行筛选、合并,得到完整、唯一的数据。
因为,各个子业务***在开发时,并没有考虑到数据合并的问题,所以采用的数据库类型、数据表结构以及数据类型都没有统一规划。所以,在预处理过程中,需要对各个子业务***中的电网业务数据的数据类型进行转换,转换为统一的数据类型。
图3是预处理过程的流程图,电网业务数据的主要来源为:用电信息采集***、电网网架***、电网运行***。上述电网业务数据多以关系型数据表的形式存储在各自的关系型数据库中,通过数据仓库技术(ETL)从各个子业务***中抽取电网业务数据,并对电网业务数据进行预处理,预存储到关系型数据库中;而后,通过数据相转移工具Sqoop从关系型数据库中抽取数据,存储到分布式文件***HDFS中。
通过数据的抽取与预处理、数据的存储与计算、数据的分析与挖掘以及数据的可视化展现,实现对数据量庞大、数据维度众多数据进行预处理的过程。
优选的,本申请上述实施例中,存储方式至少包括:关系型数据库、分布式文件***,存储模块24包括:第一子存储模块和第二子存储模块。
其中,第一子存储模块,用于将电网业务数据中的用电信息数据、电网网架数据、***运维数据存储于关系型数据库中。
第二子存储模块,用于将电网业务数据中的电网运行数据存储于分布式文件***中。
具体的,通过上述第一子存储模块和第二子存储模块,将电网业务数据根据数据内容、数据量大小,将电信息数据、电网网架数据、***运维数据存储于关系型数据库中,将电网运行数据存储于分布式文件***当中。因为电网运行数据记录的是对各个台区的用电数据,所以数据量庞大。传统关系型数据库处理如此庞大的数据量的运行效率无法满足应用的需求,所以将电网运行数据存储于分布式文件***当中,加快调用速度,提高处理效率。
在实际应用当中,本项目的数据存储主要分为两大部分:传统的关系型数据库与运用分布式文件***框架(Hadoop)的分布式文件***(HDFS)。传统数据库主要存储***运维数据、数据分析挖掘的结果数据以及相关方案与治理措施;而分布式文件***(HDFS)主要存储海量用电数据及用户报修数据。
对海量的用电数据的计算与分析主要依托于分析组件(Mahout)来完成。
海量数据经分布式计算框架(Hadoop)计算后,得出结果,并将结果直接写入关系型数据库以供业务调用分析。
优选的,本申请上述实施例中,分析模块26包括:第一子读取模块、第一子确定模块、子分析模块、子处理模块和第二子确定模块。
其中,第一子读取模块,用于读取每个台区的电网运行数据;
第一子确定模块,用于确定台区出现重载的时间和次数;
子分析模块,用于根据台区的时间和次数,对预处理数据进行数据挖掘分析,其中,数据挖掘分析中至少包括:聚类分析和关联分析;
子处理模块,用于根据所对预处理数据的分析结果,得到台区的负载参数;
第二子确定模块,用于根据台区的负载参数,确定台区重载类型。
具体的,通过上述第一子读取模块、第一子确定模块、子分析模块、子处理模块和第二子确定模块,读取每个台区的电网运行数据,对电网运行数据和已经经过预处理的电网业务数据进行聚类分析和关联分析,找出电网业务数据和电网运行数据之间的关系,通过关系确定台区的负载参数。进而,可以得到与每个台区对应的台区重载类型。
在实际应用当中,根据台区的重载情况出现的时间与频率等特性对重载情况通过分析组件(Mahout)中的聚类算法(K-means)进行聚类分析。最终将台区分组为长期性重载、季节性重载以及短期性重载三类。
优选的,如图6所示,本申请上述实施例中,上述装置还包括:第二处理模块28和展示模块30。
其中,第二处理模块28,用于根据台区的负载参数,划分台区的负载级别。
展示模块30,用于根据负载级别,对台区进行可视化展现。
具体的,通过上述第二处理模块28和展示模块30,对数据挖掘得到的台区负载参数进行再处理,根据台区的负载参数对台区划分负载级别。***可以根据所划分的负载级别,对台区进行可视化展示。
在实际应用当中,可以结合地理信息***(GIS***)、图形、传统表格等丰富的展示形式,通过PC、大屏等载体对重载基本情况、特性分析结果、预测多方面进行直观的、友好的展示。
优选的,本申请上述实施例中,上述展示模块30包括:第二子读取模块、子获取模块、第三子确定模块和子展示模块。
其中,第二子读取模块,用于读取台区的负载级别和预先设置的与台区负载级别对应的展示颜色;
子获取模块,用于获取台区的电网网架数据,其中,电网网架数据至少包括:台区坐标信息、台区覆盖面积信息;
第三子确定模块,用于根据台区的负载级别和与负载级别对应的展示颜色,确定与台区的负载级别对应的展示颜色;
子展示模块,用于根据台区的电网网架数据和台区的负载级别对应的展示颜色,在地图上进行展示。
具体的,通过第二子读取模块、子获取模块、第三子确定模块和子展示模块,将台区按照负载级别以颜色进行区分,并读取各个台区所在的坐标信息和台区覆盖面积额,从而确定各个台区在地理信息***(GIS***)中所处的位置和覆盖面积。根据读取到的台区坐标、台区覆盖面积和与台区负载级别对应的展示颜色,在地理信息***中进行展示。
在实际应用当中,可视化展示的方式有很多种,例如:
(1)使用色斑图展示台区负载率分布:
将台区按照负载率正常、重载、过载进行划,使用色斑图技术展示台区负载率的分布情况,直观、友好的展示。其中,在使用方面负载率分布图还提供了很多种操作方式:在地理信息***中选择显示部分台区的分布;在绘制面,对展示绘制区域里的内容进行筛选,显示满足条件的台区。
(2)台区负载率分布图和温度分布图对比展示:
温度的变化可能会引起台区负载率的变化,台区负载率分布图和温度分布图对比播放,直观的展示温度变化与负载率变化之间的关系。
(3)台区时段特性展示:
展示通过大数据平台数据挖掘算法分析出台区时段特性,对长期重载台区,全年的负载率分布以散点图展示。
基于大数据的台区监控与分析利用分布式文件***框架(Hadoop),对采集数据进行深入的数据挖掘。数据量越大,越能体现出本发明方法的优势,比传统基于关系型数据库计算,速度快,处理数量大。
本发明通过多种可视化技术的应用,展示方式优越,能够直观的、多维度的对电网运行情况表现。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种电网数据处理方法,其特征在于,包括:
采集电网业务***中的电网业务数据,其中,所述电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据;
对所述电网业务数据进行预处理,得到预处理数据;
根据所述预处理数据的类型,对所述预处理数据以不同的存储方式进行存储;
对所述预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数;
其中,所述预处理方式至少包括:空值处理、数据正确性验证、字段完整性处理和规范化数据格式,
其中,所述空值处理用于对所述电网业务数据中的空值进行捕获,并且加载或者替换为其他含义数据;
所述数据正确性验证用于验证所述电网业务数据的数据正确性;
所述字段完整性处理用于查询与丢失数据字段相关的字段信息,并以所述相关的字段信息为依据,计算得出所述丢失数据字段内容,保证字段完整性;
所述规范化数据格式至少用于对从各个电网业务数据中采集到的时间、数值、字符数据进行转换,分别转换为统一的数据格式;
所述存储方式至少包括:关系型数据库、分布式文件***,根据所述预处理数据的类型,对所述预处理数据以不同的存储方式进行存储的步骤包括:
将所述电网业务数据中的所述用电信息数据、所述电网网架数据、***运维数据存储于所述关系型数据库中;
将所述电网业务数据中的所述电网运行数据存储于所述分布式文件***中;
对所述预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数的步骤包括:
读取所述每个台区的所述电网运行数据;
确定所述台区出现重载的时间和次数;
根据所述台区的时间和次数,对所述预处理数据进行数据挖掘分析,其中,所述数据挖掘分析中至少包括:聚类分析和关联分析;
根据所对所述预处理数据的分析结果,得到所述台区的负载参数;
根据所述台区的负载参数,确定台区重载类型。
2.根据权利要求1中所述的方法,其特征在于,在对所述预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数之后,所述方法还包括:
根据所述台区的负载参数,划分所述台区的负载级别;
根据所述负载级别,对所述台区进行可视化展现。
3.根据权利要求2所述的方法,其特征在于,所述根据所述负载级别,对所述台区进行可视化展现的步骤包括:
读取所述台区的负载级别和预先设置的与所述台区负载级别对应的展示颜色;
获取所述台区的电网网架数据,其中,所述电网网架数据至少包括:台区坐标信息、台区覆盖面积信息;
根据所述台区的负载级别和与所述负载级别对应的所述展示颜色,确定与所述台区的负载级别对应的展示颜色;
根据所述台区的电网网架数据和所述台区的负载级别对应的展示颜色,在地图上进行展示。
4.一种电网数据处理装置,其特征在于,包括:
采集模块,用于采集电网业务***中的电网业务数据,其中,所述电网业务数据至少包括:用电信息数据、电网网架数据、***运维数据和电网运行数据;
第一处理模块,用于对所述电网业务数据进行预处理,得到预处理数据;
存储模块,用于根据所述预处理数据的类型,对所述预处理数据以不同的存储方式进行存储;
分析模块,用于对所述预处理数据进行数据挖掘分析,得到与每个台区对应的全年各个时间段的台区负载参数;
其中,所述存储方式至少包括:关系型数据库、分布式文件***,所述存储模块包括:
第一子存储模块,用于将所述电网业务数据中的所述用电信息数据、所述电网网架数据、***运维数据存储于所述关系型数据库中;
第二子存储模块,用于将所述电网业务数据中的所述电网运行数据存储于所述分布式文件***中;
所述分析模块包括:
第一子读取模块,用于读取所述每个台区的所述电网运行数据;
第一子确定模块,用于确定所述台区出现重载的时间和次数;
子分析模块,用于根据所述台区的时间和次数,对所述预处理数据进行数据挖掘分析,其中,所述数据挖掘分析中至少包括:聚类分析和关联分析;
子处理模块,用于根据所对所述预处理数据的分析结果,得到所述台区的负载参数;
第二子确定模块,用于根据所述台区的负载参数,确定台区重载类型。
5.根据权利要求4中所述的装置,其特征在于,所述装置还包括:
第二处理模块,用于根据所述台区的负载参数,划分所述台区的负载级别;
展示模块,用于根据所述负载级别,对所述台区进行可视化展现。
6.根据权利要求5所述的装置,其特征在于,所述展示模块包括:
第二子读取模块,用于读取所述台区的负载级别和预先设置的与所述台区负载级别对应的展示颜色;
子获取模块,用于获取所述台区的电网网架数据,其中,所述电网网架数据至少包括:台区坐标信息、台区覆盖面积信息;
第三子确定模块,用于根据所述台区的负载级别和与所述负载级别对应的所述展示颜色,确定与所述台区的负载级别对应的展示颜色;
子展示模块,用于根据所述台区的电网网架数据和所述台区的负载级别对应的展示颜色,在地图上进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410715269.8A CN104462314B (zh) | 2014-11-28 | 2014-11-28 | 电网数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410715269.8A CN104462314B (zh) | 2014-11-28 | 2014-11-28 | 电网数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462314A CN104462314A (zh) | 2015-03-25 |
CN104462314B true CN104462314B (zh) | 2019-05-24 |
Family
ID=52908349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410715269.8A Active CN104462314B (zh) | 2014-11-28 | 2014-11-28 | 电网数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462314B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786864A (zh) * | 2014-12-24 | 2016-07-20 | 国家电网公司 | 一种实现海量数据离线分析的方法 |
CN106156936A (zh) * | 2015-04-23 | 2016-11-23 | 上海积成电子***有限公司 | 一种电力***数据分析方法及*** |
CN105184455A (zh) * | 2015-08-20 | 2015-12-23 | 国家电网公司 | 一种面向城市电力数据分析的高维可视化分析方法 |
CN105303292A (zh) * | 2015-09-17 | 2016-02-03 | 国网北京市电力公司 | 配电数据存储方法和装置 |
CN105139296A (zh) * | 2015-10-12 | 2015-12-09 | 国家电网公司 | 一种电网业务数据全生命周期质量管理*** |
CN105786996A (zh) * | 2016-02-18 | 2016-07-20 | 国网智能电网研究院 | 一种用电信息数据质量分析*** |
CN106055592A (zh) * | 2016-05-20 | 2016-10-26 | 浙江大学 | 一种地图中电力***电压或负荷的监控方法 |
CN106446131A (zh) * | 2016-09-19 | 2017-02-22 | 中国南方电网有限责任公司电网技术研究中心 | 配用电多源异构数据的混合存储方法和*** |
CN106339512A (zh) * | 2016-11-21 | 2017-01-18 | 北京恒华伟业科技股份有限公司 | 一种基于电网地理信息***的信息分析方法 |
CN106777022B (zh) * | 2016-12-08 | 2018-08-14 | 浪潮电子信息产业股份有限公司 | 一种基于对比模式实现服务器硬件资源智能化分配的方法 |
CN107273524A (zh) * | 2017-06-23 | 2017-10-20 | 国网上海市电力公司 | 一种智能配电大数据应用*** |
CN107590749A (zh) * | 2017-09-07 | 2018-01-16 | 北京国电通网络技术有限公司 | 一种配用电数据的处理方法及*** |
CN107656995A (zh) * | 2017-09-20 | 2018-02-02 | 温州市鹿城区中津先进科技研究院 | 面向大数据的数据管理*** |
CN109325839A (zh) * | 2018-09-20 | 2019-02-12 | 电子科技大学 | 一种基于大数据中心的增值税***应用分析*** |
CN109934459B (zh) * | 2019-01-31 | 2023-08-22 | 国网浙江省电力有限公司 | 基于可视化网格的低压台区电能表运行误差异常派工方法 |
CN109933693A (zh) * | 2019-03-13 | 2019-06-25 | 重庆尚唯信息技术有限公司 | 一种基于大数据技术的全球智库数据开发与组织方法 |
CN110555010B (zh) * | 2019-09-11 | 2022-04-05 | 中国南方电网有限责任公司 | 一种电网实时运行数据存储*** |
CN112269822A (zh) * | 2020-10-30 | 2021-01-26 | 内蒙古电力(集团)有限责任公司乌海超高压供电局 | 一种高压电力设备管理*** |
CN113887926A (zh) * | 2021-09-28 | 2022-01-04 | 国家电网有限公司华东分部 | 电网审计***及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496881A (zh) * | 2011-12-09 | 2012-06-13 | 北京科东电力控制***有限责任公司 | 一种面向配电网运行负载状态监控的可视化实现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101795018B (zh) * | 2009-12-31 | 2012-07-25 | 华北电力大学 | 基于可视化的电网智能调度技术支持*** |
CN102722764B (zh) * | 2012-05-22 | 2015-12-02 | 国网安徽省电力公司 | 一体化电网优化辅助决策分析*** |
-
2014
- 2014-11-28 CN CN201410715269.8A patent/CN104462314B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496881A (zh) * | 2011-12-09 | 2012-06-13 | 北京科东电力控制***有限责任公司 | 一种面向配电网运行负载状态监控的可视化实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104462314A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462314B (zh) | 电网数据处理方法及装置 | |
CN108446293A (zh) | 一种基于城市多源异构数据构建城市画像的方法 | |
Claes et al. | Merging event logs for process mining: A rule based merging method and rule suggestion algorithm | |
CN106156350A (zh) | 一种可视化大数据分析方法及*** | |
CN110019568A (zh) | 基于空间聚类的选址方法、装置、计算机设备及存储介质 | |
CN104462121A (zh) | 数据处理方法、装置及*** | |
CN107291539B (zh) | 基于资源重要程度的集群程序调度方法 | |
CN112182077B (zh) | 一种基于数据中台技术的智能运维*** | |
CN108038216A (zh) | 信息处理方法、装置及服务器集群 | |
CN102855332A (zh) | 一种基于图形数据库的图形配置管理数据库 | |
CN103365971A (zh) | 基于云计算的海量数据访问处理*** | |
CN113157947A (zh) | 知识图谱的构建方法、工具、装置和服务器 | |
CN107491495B (zh) | 空间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 | |
WO2017076297A1 (zh) | 设备存放位置的查找方法及装置 | |
CN109522923A (zh) | 客户地址聚合方法、装置及计算机可读存储介质 | |
CN105956018A (zh) | 基于云计算平台的海量关联数据分析及可视化实现方法 | |
CN114021156A (zh) | 漏洞自动化聚合的整理方法、装置、设备以及存储介质 | |
CN106649380A (zh) | 一种基于标签的热点推荐方法及*** | |
CN109583712B (zh) | 一种数据指标分析方法及装置、存储介质 | |
Yu et al. | A study on concepts and utilization of Geo-Spatial Big Data in South Korea | |
CN110266555A (zh) | 用于分析网站服务请求的方法 | |
CN106503271A (zh) | 移动互联网和云计算环境下子空间Skyline查询的智能商店选址*** | |
CN106067158A (zh) | 一种基于gpu的特征比对方法及装置 | |
CN109359205A (zh) | 一种基于地理格网的遥感影像切分方法及设备 | |
CN105678616A (zh) | 一种纳税人精细化分析方法、***及税务数据管理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |