CN110503570A - 一种异常用电数据检测方法、***、设备、存储介质 - Google Patents
一种异常用电数据检测方法、***、设备、存储介质 Download PDFInfo
- Publication number
- CN110503570A CN110503570A CN201910641996.7A CN201910641996A CN110503570A CN 110503570 A CN110503570 A CN 110503570A CN 201910641996 A CN201910641996 A CN 201910641996A CN 110503570 A CN110503570 A CN 110503570A
- Authority
- CN
- China
- Prior art keywords
- data
- electricity consumption
- consumption data
- load
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000002159 abnormal effect Effects 0.000 claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000007418 data mining Methods 0.000 claims abstract description 9
- 238000007726 management method Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013523 data management Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000004080 punching Methods 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 abstract description 6
- 238000011160 research Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 240000002853 Nelumbo nucifera Species 0.000 description 3
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 3
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010008190 Cerebrovascular accident Diseases 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 208000006011 Stroke Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 235000014161 Caesalpinia gilliesii Nutrition 0.000 description 1
- 244000003240 Caesalpinia gilliesii Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种异常用电数据检测方法,包括步骤:获取数据,数据清洗,数据降维,模型建立,筛选异常用户。本发明还涉及一种异常用电数据检测***、电子设备和存储介质。本发明有效的解决了线损管理中存在的问题,能够针对台区用电***的线损异常进行数据挖掘研究和分析,使线损管理更加透明、高效,能够发挥其综合管理应用,最终实现节能降损、规范化管理的目标。
Description
技术领域
本发明涉及用电信息采集技术领域,尤其涉及一种异常用电数据检测方 法。
背景技术
随着信息化时代的迅速发展,率先展开大数据相关研究的是互联网、信 息通信行业。对电力行业而言,大数据也同样具有深远的研究意义和光明的 应用前景。随着下一代电力***逐步演进,基于数据驱动的电力供应链将逐 步取代传统的电力供应链。其中用电信息采集***的推广,为我国电力行业 开展基于电力数据分析的管理运营决策和供电服务优化提供了必要的数据基 础。同时随着电能数据、工况数据、事件信息等用电数据呈指数增长,大数 据特征越来越显著,用电大数据的应用需求日益迫切。海量的用电数据主要来源于各类计量装置及***,由于多种设备故障、通信故障、电网波动和管 理等原因,出现了大量异常的用电数据。面对这种海量用电数据的增加,多 数电力部门仅使用传统的统计方法进行异常数据分析,并且大多需要依赖现 场检验来实现。由于受到人力、物力、财力的限制,异常数据背后隐藏的深 层次原因无法有效得以提炼,却带来了“数据灾难”和“数据荒废”。因此, 用传统分析手段己难以满足要求,我们需要通过数据挖掘来发现用电数据异常更深层次的规律,排除数据的偶然性,提炼数据的必然性。
由于低压客户群体数量庞大,且变化频繁,目前台区线损管理中普遍存 在户变关系不清、抄表质量不佳、窃电、计量故障等管理原因导致的线损异 常。近几年,国内许多供电企业不同程度的面临一个共同的窘境,即在治理 台区线损上“投资大、回报小”,其根源是近十年以来,影响台区线损的主要 因素已经转变为管理上的损耗,而改造投资方向不变。
发明内容
为了克服现有技术的不足,本发明提供一种异常用电数据检测方法。本 发明通过基于实时数据库与云计算、云实时存储平台技术相融合的应用一体 化,使用高效的并行计算技术实现大数据批处理任务的高吞吐率。采用稳定 性好,抗噪性能强的孤立森林算法有效挖掘数据异常用户,分析线损原因, 加强台区线损管理。
本发明提供一种异常用电数据检测方法,包括如下步骤:
获取数据,通过用电信息采集方式获取用电数据;
数据清洗,将采集到的用电数据进行清洗,并检测用电数据中脏数据的 类型,得到有效用电数据;所述脏数据的类型包括:缺失值、重复值、极大 极小值、负荷毛刺、冲击负值;
数据降维,利用日负荷特性指标对所述有效用电数据进行特征降维,所 述日负荷特征指标包括负荷率、峰谷差率、最高利用小时率、峰期负载率、 平期负载率、谷期负载率;
模型建立,若干个孤立树构建成孤立森林,利用孤立森林算法建立第一 分析模型,利用评估曲线进行模型评估;
筛选异常用户,利用所述第一分析模型对目标数据进行筛选,并对筛选 过的数据进行数据挖掘,筛选出用电异常用户。
优选地,所述用电信息采集方式包括云存储,所述云存储用于将所述用 电数据分散存储在多***立的存储服务器上,所述存储服务器的类型包括元 数据管理服务、卷管理服务和块数据管理服务。
优选地,在步骤数据清洗中还包括:根据用电负荷的波动周期特性填充 空缺失值的计算公式如下:
其中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为 1-24,a1和a2为前后两天对应时刻和当前时刻前后两个时间点负荷的加权 系数。
优选地,在步骤获取数据之前还包括步骤:
建立管理方案,建立台区线损管理指标,所述台区线损管理指标的状态 标识包括覆盖类、户变类、可采类、数据类、线损类;对采集的多台区的用 电数据进行状态标识,并针对不同的状态采取相对应的管控措施,形成台区 线损管理方案。
优选地,在步骤模型建立中还包括,利用受试者工作特征ROC曲线、曲 线下面积AUC、累积查全率曲线和P-R曲线,以查准率为纵坐标,查全率为 横坐标进行模型评估。
优选地,所述孤立森林算法包括第一阶段算法与第二阶段算法,所述第 一阶段算法包括构建多个孤立树组成孤立森林;所述第二阶段算法包括利用 生成的孤立森林来评估测试数据,对被检测数据计算异常分值。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置 成由处理器执行,所述程序包括一种异常用电数据检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被 处理器执行包括一种异常用电数据检测方法。
一种异常用电数据检测***,包括获取数据模块、数据清洗模块、数据 降维模块、模型建立模块、筛选异常用户模块;其中,
所述获取数据模块用于通过用电信息采集方式获取用电数据;
所述数据清洗模块用于将采集到的用电数据进行清洗,并检测用电数据 中脏数据的类型,得到有效用电数据;所述脏数据的类型包括:缺失值、重 复值、极大极小值、负荷毛刺、冲击负值;
所述数据降维模块用于利用日负荷特性指标对所述有效用电数据进行特 征降维,所述日负荷特征指标包括负荷率、峰谷差率、最高利用小时率、峰 期负载率、平期负载率、谷期负载率;
所述模型建立模块用于若干个孤立树构建成孤立森林,利用孤立森林算 法建立第一分析模型,利用评估曲线进行模型评估;
所述筛选异常用户模块用于利用所述第一分析模型对目标数据进行筛 选,并对筛选过的数据进行数据挖掘,筛选出用电异常用户。
优选地,还包括建立管理方案模块,所述建立管理方案模块用于建立台 区线损管理指标,所述台区线损管理指标的状态标识包括覆盖类、户变类、 可采类、数据类、线损类;对采集的多台区的用电数据进行状态标识,并针 对不同的状态采取相对应的管控措施,形成台区线损管理方案;
所述获取数据模块包括云存储单元,所述云存储单元用于将所述用电数 据分散存储在多***立的存储服务器上,所述存储服务器的类型包括元数据 管理服务、卷管理服务和块数据管理服务;
所述数据清洗模块包括缺失值填充单元,所述缺失值填充单元用于根据 用电负荷的波动周期特性填充空缺失值的计算公式如下:
其中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为 1-24,a1和a2为前后两天对应时刻和当前时刻前后两个时间点负荷的加权 系数。
相比现有技术,本发明的有益效果在于:
1)、一种异常用电数据检测方法,作为一种新的适应智能电网发展需求 的台线损管理方法,有效的解决了当前台区管理中存在的问题,使台区线损 管理更加透明、高效,发挥其在营销管理中的综合管理作用,最终实现节能 降损、规范管理的目标。
2)、建立的台区线损管理指标体系共有五种状态:覆盖类、户变类、可 采类、数据类、线损类五种状态标识及其层级关系。对于不同状态的台区, 按照不同的管控重点,制定不同的管控方法、管控周期和责任部门,最终推 动台区实现良态递进。
3)、本发明有效的解决了线损管理中存在的问题,能够针对台区用电系 统的线损异常进行数据挖掘研究和分析,使线损管理更加透明、高效,能够 发挥其综合管理应用,最终实现节能降损、规范化管理的目标;
4)、云计算技术可以通过利用分布式的软硬件资源和信息,提供按需分 配的高质量服务,并在搜索引擎、社交网络、通信等众多领域中得到了成功 的应用。在智能电网信息化建设领域,云计算所独具的大规模数据高效存取 和并行计算能力,使之能够为包括用电信息采集***在内的信息***提供高 质量的数据处理服务,为智能电网时代的信息化体系提供坚实的技术支撑。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配 合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给 出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部 分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的 不当限定。在附图中:
图1为本发明的一种异常用电数据检测方法的整体流程图;
图2为本发明的一种异常用电数据检测方法的台区线损管理指标状态递 进示意图;
图3为本发明的一种异常用电数据检测方法的构建孤立树的示意图;
图4为本发明的一种异常用电数据检测方法的数据降维处理示意图;
图5为本发明的一种异常用电数据检测方法的筛选异常用户示意图;
图6为本发明的一种异常用电数据检测***的面向服务的架构体系的整 体结构示意图;
图7为本发明的一种异常用电数据检测***的整体结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明 的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可 以任意组合形成新的实施例。
一种异常用电数据检测方法,如图1所示,包括如下步骤:
S0、建立管理方案,建立台区线损管理指标,所述台区线损管理指标的 状态标识包括覆盖类、户变类、可采类、数据类、线损类;对采集的多台区 的用电数据进行状态标识,并针对不同的状态采取相对应的管控措施,形成 台区线损管理方案。在一个实施例中,如图2所示,1.1-初始台区:数据准 备,纳入层次递进管理;1.2-安装类台区:合理安排设备的安装,覆盖率达 到100%;1.3-户变类台区:核查台区户变关系,准确率达到100%;1.4-可采 类台区:多次采集,分析故障,可采率达到95%;1.5-数据类台区:多次采 集,分析误差,可采率达到95%;1.6-线损类台区:分析线损率异常原因, 制定降损措施;1.7-达标台区:采取固优措施,保持达标台状态。
具体地,建立的台区线损管理指标包括覆盖类、户变类、可采类、数据类、 线损类五种状态标识及其层级关系;根据采集到的用电负荷数据对多台区进 行以下状态标识,针对不同类型台区的管控重点制定相应的管控措施,从而 形成基于用电信息采集***的台区线损管理方法,具体措施如下:
覆盖类:台区内采集设备安装率未达到100%,应合理安排釆集设备安装 计划;
户变类:采集覆盖率已达到100%的台区,但户变关系尚不准确,应通过 内查资料外查现场结合的方式,核准户变关系;
可采类:釆集覆盖率己达到100%,但可采率尚未达到95%,应统计可采率, 分析漏采、误采的原因;
数据类:覆盖率达到100%、可采率达到95%且户变关系正确,但采集的数 据与人工抄表数据误差大于均值,制定合理的抄表计划;
线损类:覆盖率、可采率、准确率均已达到100%且户变关系正确,但线 损率异常,应及时分析线损率异常原因,制定降损措施。
S1、获取数据,通过用电信息采集方式获取用电数据。在一个实施例中, 针对线损类台区,采用云存储技术实现多个线损类台区用电信息数据采集、 分类、处理。采用云存储的分布式文件存储机制,将用电信息数据分散存储 在多***立的存储服务器上,它包括卷管理、元数据管理、块数据管理服务;
元数据是指文件的名称、属性、数据块位置信息,因元数据访问频繁,故 ***将元数据加载缓存至内存中管理,提高访问效率。
块数据是指文件数据被按照一定大小分割而成的多个数据块,分布存储到 不同的存储节点服务器上,由一对元数据服务器及其管理的存储服务器节点 所提供的存储空间称为一个卷空间;
卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云实时 存储平台空间。
S2、数据清洗,将采集到的用电数据进行清洗,并检测用电数据中脏数据 的类型,得到有效用电数据;所述脏数据的类型包括:缺失值、重复值、极 大极小值、负荷毛刺、冲击负值。在一个实施例中,分析总结脏数据的类型, 再根据其表现形式采取针对性的手段,删除数据集中的冗余数据,保持数据 集的完整性。常见脏数据类型有:1)、缺失值:表格中为空值;2)、重复值: 用户某一时刻用电负荷数据重复;3)、极大极小值:用电负荷数据过大或过 小;4)、负荷毛刺:相邻时段数据间突然增大或减小;5)、冲击负值:连续 某时间段内读数数据下降。
根据用电负荷的波动周期特性,对于缺失严重的数据根据用电负荷的波 动周期特性,计算前后相邻两日相同时间点的负荷以及当前时刻的前后两个 时间点的负荷的均值,和后一日相对前一日的负荷变化率法,以均值加上负 荷变化量填充空缺值,计算方法如下:
公式中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为1-24, α1和α2表前后两天对应时刻和当前时刻前后两个时间点负荷的加权系数,对 于异常的噪声点数据,利用矩形法对当天各采集时刻的负荷数据进行积分计 算电量的修复值,其计算公式如下所示:
式中,Xi为电量修复值,F为一天内的负荷数据采集次数,Pi为i时刻的负荷 数据,ΔT为负荷数据采集时间间隔。
S3、数据降维,利用日负荷特性指标对所述有效用电数据进行特征降维, 所述日负荷特征指标包括负荷率、峰谷差率、最高利用小时率、峰期负载率、 平期负载率、谷期负载率。在一个实施例中,如图4所示,对于作为时间序 列的负荷曲线来说,用电负荷数据易受气温、收入、电价政策等多种因素影 响,这些影响结果作为时序数据的内在特征,无法通过距离得到充分反映, 不能完全保证时间序列的形态或轮廓的相似性。并且,对于日负荷曲线这类 有明显负荷形状的曲线,在高维情况下会表现出不理想的等距性。为充分反 映负荷间的相似性,兼顾运算效率,本实施例选取了六种常用的日负荷特性 指标:负荷率、峰谷差率、最高利用小时率、峰期负载率、平期负载率、谷 期负载率,从全天、峰期、平期、谷期四个角度,较为全面地反映了各类用 户的用电特性。利用六个日负荷特性指标对有效负荷曲线矩阵进行特征降维。
S4、模型建立,模型建立,若干个孤立树构建成孤立森林,利用孤立森 林算法建立第一分析模型,利用评估曲线进行模型评估;
在一个实施例中,如图3所示,构造孤立树iTree,过程如下:1、在六 个日负荷特性指标中随机选择一个特征;2、随机选择该特征的一个值k;3、 根据特征对每条记录进行分类,把特征中小于k的记录放在左分支,把大于 等于k的记录放在右分支;4、然后递归构造左分支和右分支,直到满足以下 条件:a、传入的数据集只有一条记录或者多条一样的记录;b、树的高度达 到了限定高度。
具体地,构建t个iTree组成的孤立森林,其步骤如下:
1、从训练数据中随机选择ψ个点样本点作为子样本集,放入树的根节点;
2、随机指定一个维度,在当前节点数据中随机产生一个切割点P;
3、以此切割点生成一个超平面,将当前节点数据空间划分为2个子空间, 把指定维度里小于P的数据放在当前节点的左边,把大于等于p的数据放在 当前节点的右边。
4、在子节点中递归步骤1和2,不断构造新的子节点,直到数据本身不 可再分或树的深度达到log2ψ。
S5、筛选异常用户,利用步骤模型建立中的第一分析模型对目标数据进 行筛选,并对筛选过的数据进行数据挖掘,筛选出用电异常用户。在一个实 施例中,如图5所示,由数棵具有差异性的iTree构成iForest,并运用ROC 曲线与AUC及累积查全率曲线与P-R曲线进行模型评估,iForest每次只能 对单个用户进行评价,每次评价过程中需要遍历所有iTree。统计查询对象 落在的叶子节点的位置,通过其平均路径长度计算异常分值。最后根据异常 分值的大小对用户进行评价,判断待测用户是否为异常用户。
具体地,对于受试者工作特征ROC曲线,当测试集中的正负样本的分布变 化时,ROC曲线能够保持不变。对于二元分类模型输出的连续数值,将大于 阈值的样本划为正类,小于阈值的样本则划为负类。减小阀值能识别出更多 的正类,提高了查全率的同时也会将更多的负样本划为正类,如此提高了误 报率。ROC曲线形象化这一变化过程,在ROC空间坐标中,点(0,1)表示理 想分类器,ROC曲线越接近点(0,1)表示分类效果越好。AUC的数值就是ROC 曲线下方部分面积的大小,AUC=1对应理想分类器,AUC=0.5代表跟随机猜 测一样,模型没有预测价值,在0.5到1之间代表优于随机猜测。
对于P-R曲线,以查准率为纵轴、查全率为横轴作图,就得到查准率与查 全率的曲线,简称为“P-R曲线”随着分类阈值从大到小变化,查准率减小, 查全率增加,评价分类器时,P-R曲线越靠近点(1,1)表示分类效果越好。
具体地,用生成的iForest来评估测试数据,对被检测样本计算异常分 值。对于任一数据x令其遍历每一棵iTree,得出x在iTree所处的深度及 在每棵iTree所处的平均深度h(x),从而计算样本的异常分值。被检测样本x 的异常分值定义如下式所示:
其中:h(x)是被检测样本x在iTree中检索到的节点的深度;E(h(x))是对所有 t个iTree取均值;c(ψ)是ψ个点构建的二分搜索树的平均路径长度;
H(k)=ln(k)+ζ,ζ为欧拉常数。
观察异常分值的定义式,可知:当E(h(x))→0,s→1;当E(h(x))→ψ-1,s→0;当 E(h(x))→c(ψ),s→0.5。即s(x)越接近1表示异常数据的可能性高,越接近0表 示是正常点的可能性比较高。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置 成由处理器执行,所述程序包括一种异常用电数据检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被 处理器执行包括一种异常用电数据检测方法。
一种异常用电数据检测***,如图7所示,包括获取数据模块、数据清 洗模块、数据降维模块、模型建立模块、筛选异常用户模块;其中,
所述获取数据模块用于通过用电信息采集方式获取用电数据;
所述数据清洗模块用于将采集到的用电数据进行清洗,并检测用电数据 中脏数据的类型,得到有效用电数据;所述脏数据的类型包括:缺失值、重 复值、极大极小值、负荷毛刺、冲击负值;
所述数据降维模块用于利用日负荷特性指标对所述有效用电数据进行特 征降维,所述日负荷特征指标包括负荷率、峰谷差率、最高利用小时率、峰 期负载率、平期负载率、谷期负载率;
所述模型建立模块用于若干个孤立树构建成孤立森林,利用孤立森林算 法建立第一分析模型,利用评估曲线进行模型评估;
所述筛选异常用户模块用于利用所述第一分析模型对目标数据进行筛 选,并对筛选过的数据进行数据挖掘,筛选出用电异常用户。
进一步地,还包括建立管理方案模块,所述建立管理方案模块用于建立 台区线损管理指标,所述台区线损管理指标的状态标识包括覆盖类、户变类、 可采类、数据类、线损类;对采集的多台区的用电数据进行状态标识,并针 对不同的状态采取相对应的管控措施,形成台区线损管理方案;
所述获取数据模块包括云存储单元,所述云存储单元用于将所述用电数 据分散存储在多***立的存储服务器上,所述存储服务器的类型包括元数据 管理服务、卷管理服务和块数据管理服务;
所述数据清洗模块包括缺失值填充单元,所述缺失值填充单元用于根据 用电负荷的波动周期特性填充空缺失值的计算公式如下:
其中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为 1-24,a1和a2为前后两天对应时刻和当前时刻前后两个时间点负荷的加权 系数。
在一个具体实施例中,该***的开发设计中用面向服务的架构体系作为 总体设计思想架构,获取数据模块采用05版规约的专变终端,可以每隔15 分钟采集用户电能表即24小时共96点的电压电流和电量数据,即数据集S 为n条日负荷曲线构成的n*24阶初始负荷曲线矩阵。该模块将采集到的海量 数据通过云存储技术实现分布式存储。数据经处理后得到:2018年9月至2019 年3月某县电力公司共有台区701个,台区总容量34.9万KVA,平均单台容 量497.8KVA,累计损失电量4.6万Kwh,平均台区线损率2.69%。
进一步地,如图6所示,采集集群周期性地从用户终端中采集信息,并 通过调用存储接口将数据存储到云存储与查询环境中;数据存储与查询环境 负责对采集到的信息进行高并发的存储,并向上提供用电数据索引和高效查 询功能。并行ETL(Extraction-Transformation-Loading)环境负责原有关 系型数据库中档案信息与云计算环境的数据交换;利用ETL管理工具建立数 据表映射关系以及任务的执行策略,***通过并行ETL工具对关联***中的 数据进行实时跟踪、获取和一致性校验。并行分析与计算环境负责运行孤立 森林算法挖掘异常数据。前端接口包括类SQL(Structured Query Language) 接口、Web服务、客户端包等,面向外部***提供查询和分析计算的服务。 映射工具采用了基于查询重写的SQL到Map/Reduce的优化技术,将原有 SQL转化为查询图,并利用重写规则演变为多种形式,实现原有存储过程形 式的应用程序向云计算环境的辅助迁移、正确性验证和性能优化,能够大幅 度降低关系型数据库应用到云计算的迁移成本,提高开发效率,提升并行计 算的总体性能。
云存储单元采用并行ETL环境,把原先计算密集型复杂任务,进行原子 性分解,分配到不同的任务处理节点上,进行并发同步处理,提高数据处理 效率和数据处理容量,保证数据处理性能。
该***还包括降损辅助决策模块主要包括降损决策支持功能以及降损方 案库管理两个部分,该模块针对用电数据异常用户进行检查,重点关注以下 内容:a、台区内是否存在窃电行为;b、台区负荷运行变化,有无切改;c、 台区变压器是否轻载或重载;d、无功补偿设备运行情况;e、三相负荷是否 平衡;f、电压质量;g、变压器、线路、计量设备是否合理、正常;引起电 能计量装置异常的原因主要有表计故障、互感器故障、接线盒故障以及终端故障等等;h、低压供电半径是否过长;i、其他原因造成线损异常。
表1为2019年3月异常用电数据检测***的线损类台区分析统计表:
由表1可知,目前线损率达标的台区为694台,约占管理范围台区总数 的99%,釆集设备覆盖率低,是影响台区管控总体进程的主要原因。通过进 一步的台区明细分析,台采集覆盖率低的主要原因是大部分台区的非居民采 集设备安装率低。原因查清后,应调整采集设备安装方案。此外台区户变关 系不准的问题在影响台区管控效果中位列第二,在456个采集覆盖率100%的 台区中户变关系准确的有312个,准确率为68%,通过对144个户变关系不 准的台区进行调查发现,主要原因一是部分老台区,资料遗失;二是台区运 行中负荷发生较大变化但资料变更不及时。应在合理安排采集设备安装的同 时,关注台区户变关系的核查,还可利用台区客户双向识别仪辅助进行现场 户变关系核查。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限 制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本 发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用 以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本 发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何 等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之 内。
Claims (10)
1.一种异常用电数据检测方法,其特征在于,包括如下步骤:
获取数据,通过用电信息采集方式获取用电数据;
数据清洗,将采集到的用电数据进行清洗,并检测用电数据中脏数据的类型,得到有效用电数据;所述脏数据的类型包括:缺失值、重复值、极大极小值、负荷毛刺、冲击负值;
数据降维,利用日负荷特性指标对所述有效用电数据进行特征降维,所述日负荷特征指标包括负荷率、峰谷差率、最高利用小时率、峰期负载率、平期负载率、谷期负载率;
模型建立,若干个孤立树构建成孤立森林,利用孤立森林算法建立第一分析模型,利用评估曲线进行模型评估;
筛选异常用户,利用所述第一分析模型对目标数据进行筛选,并对筛选过的数据进行数据挖掘,筛选出用电异常用户。
2.如权利要求1所述的一种异常用电数据检测方法,其特征在于,所述用电信息采集方式包括云存储,所述云存储用于将所述用电数据分散存储在多***立的存储服务器上,所述存储服务器的类型包括元数据管理服务、卷管理服务和块数据管理服务。
3.如权利要求1或2所述的一种异常用电数据检测方法,其特征在于,在步骤数据清洗中还包括:根据用电负荷的波动周期特性填充空缺失值的计算公式如下:
其中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为1-24,a1和a2为前后两天对应时刻和当前时刻前后两个时间点负荷的加权系数。
4.如权利要求3所述的一种异常用电数据检测方法,其特征在于,在步骤获取数据之前还包括步骤:
建立管理方案,建立台区线损管理指标,所述台区线损管理指标的状态标识包括覆盖类、户变类、可采类、数据类、线损类;对采集的多台区的用电数据进行状态标识,并针对不同的状态采取相对应的管控措施,形成台区线损管理方案。
5.如权利要求1所述的一种异常用电数据检测方法,其特征在于,在步骤模型建立中还包括,利用受试者工作特征ROC曲线、曲线下面积AUC、累积查全率曲线和P-R曲线,以查准率为纵坐标,查全率为横坐标进行模型评估。
6.如权利要求1或5所述的一种异常用电数据检测方法,其特征在于,所述孤立森林算法包括第一阶段算法与第二阶段算法,所述第一阶段算法包括构建多个孤立树组成孤立森林;所述第二阶段算法包括利用生成的孤立森林来评估测试数据,对被检测数据计算异常分值。
7.一种电子设备,其特征在于,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行如权利要求1所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1所述的方法。
9.一种异常用电数据检测***,其特征在于,包括获取数据模块、数据清洗模块、数据降维模块、模型建立模块、筛选异常用户模块;其中,
所述获取数据模块用于通过用电信息采集方式获取用电数据;
所述数据清洗模块用于将采集到的用电数据进行清洗,并检测用电数据中脏数据的类型,得到有效用电数据;所述脏数据的类型包括:缺失值、重复值、极大极小值、负荷毛刺、冲击负值;
所述数据降维模块用于利用日负荷特性指标对所述有效用电数据进行特征降维,所述日负荷特征指标包括负荷率、峰谷差率、最高利用小时率、峰期负载率、平期负载率、谷期负载率;
所述模型建立模块用于若干个孤立树构建成孤立森林,利用孤立森林算法建立第一分析模型,利用评估曲线进行模型评估;
所述筛选异常用户模块用于利用所述第一分析模型对目标数据进行筛选,并对筛选过的数据进行数据挖掘,筛选出用电异常用户。
10.如权利要求1所述的一种异常用电数据检测***,其特征在于,还包括建立管理方案模块,所述建立管理方案模块用于建立台区线损管理指标,所述台区线损管理指标的状态标识包括覆盖类、户变类、可采类、数据类、线损类;对采集的多台区的用电数据进行状态标识,并针对不同的状态采取相对应的管控措施,形成台区线损管理方案;
所述获取数据模块包括云存储单元,所述云存储单元用于将所述用电数据分散存储在多***立的存储服务器上,所述存储服务器的类型包括元数据管理服务、卷管理服务和块数据管理服务;
所述数据清洗模块包括缺失值填充单元,所述缺失值填充单元用于根据用电负荷的波动周期特性填充空缺失值的计算公式如下:
其中,Xi表示当前时刻的用电负荷,i为负荷数据缺失的时刻,取值为1-24,a1和a2为前后两天对应时刻和当前时刻前后两个时间点负荷的加权系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910641996.7A CN110503570A (zh) | 2019-07-16 | 2019-07-16 | 一种异常用电数据检测方法、***、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910641996.7A CN110503570A (zh) | 2019-07-16 | 2019-07-16 | 一种异常用电数据检测方法、***、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110503570A true CN110503570A (zh) | 2019-11-26 |
Family
ID=68586132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910641996.7A Pending CN110503570A (zh) | 2019-07-16 | 2019-07-16 | 一种异常用电数据检测方法、***、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503570A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177138A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市恒泰能源科技有限公司 | 电力需求侧的大数据分析方法、装置、设备及存储介质 |
CN111522864A (zh) * | 2020-04-21 | 2020-08-11 | 国网四川省电力公司电力科学研究院 | 基于用电数据的企业生产模式识别及转移生产预警方法 |
CN111611255A (zh) * | 2020-04-30 | 2020-09-01 | 广东良实机电工程有限公司 | 设备能耗节能管理方法、装置、终端设备及存储介质 |
CN111669368A (zh) * | 2020-05-07 | 2020-09-15 | 宜通世纪科技股份有限公司 | 端到端网络感知异常检测及分析方法、***、装置和介质 |
CN111666276A (zh) * | 2020-06-11 | 2020-09-15 | 上海积成能源科技有限公司 | 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法 |
CN111694822A (zh) * | 2020-04-30 | 2020-09-22 | 云南电网有限责任公司信息中心 | 一种低压配网运行状态数据采集***及其采集方法 |
CN112362292A (zh) * | 2020-10-30 | 2021-02-12 | 北京交通大学 | 对风洞试验数据进行异常检测的方法 |
CN113033897A (zh) * | 2021-03-26 | 2021-06-25 | 国网上海市电力公司 | 基于用户分支的电量相关性识别台区户变关系的方法 |
CN113657872A (zh) * | 2021-09-02 | 2021-11-16 | 南方电网数字电网研究院有限公司 | 电力用户的档案信息异常分析方法、装置和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN108011782A (zh) * | 2017-12-06 | 2018-05-08 | 北京百度网讯科技有限公司 | 用于推送告警信息的方法和装置 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
-
2019
- 2019-07-16 CN CN201910641996.7A patent/CN110503570A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN108011782A (zh) * | 2017-12-06 | 2018-05-08 | 北京百度网讯科技有限公司 | 用于推送告警信息的方法和装置 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177138A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市恒泰能源科技有限公司 | 电力需求侧的大数据分析方法、装置、设备及存储介质 |
CN111522864A (zh) * | 2020-04-21 | 2020-08-11 | 国网四川省电力公司电力科学研究院 | 基于用电数据的企业生产模式识别及转移生产预警方法 |
CN111522864B (zh) * | 2020-04-21 | 2020-11-10 | 国网四川省电力公司电力科学研究院 | 基于用电数据的企业生产模式识别及转移生产预警方法 |
CN111611255A (zh) * | 2020-04-30 | 2020-09-01 | 广东良实机电工程有限公司 | 设备能耗节能管理方法、装置、终端设备及存储介质 |
CN111694822A (zh) * | 2020-04-30 | 2020-09-22 | 云南电网有限责任公司信息中心 | 一种低压配网运行状态数据采集***及其采集方法 |
CN111611255B (zh) * | 2020-04-30 | 2023-12-12 | 广东良实机电工程有限公司 | 设备能耗节能管理方法、装置、终端设备及存储介质 |
CN111669368A (zh) * | 2020-05-07 | 2020-09-15 | 宜通世纪科技股份有限公司 | 端到端网络感知异常检测及分析方法、***、装置和介质 |
CN111669368B (zh) * | 2020-05-07 | 2022-12-06 | 宜通世纪科技股份有限公司 | 端到端网络感知异常检测及分析方法、***、装置和介质 |
CN111666276A (zh) * | 2020-06-11 | 2020-09-15 | 上海积成能源科技有限公司 | 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法 |
CN112362292A (zh) * | 2020-10-30 | 2021-02-12 | 北京交通大学 | 对风洞试验数据进行异常检测的方法 |
CN113033897A (zh) * | 2021-03-26 | 2021-06-25 | 国网上海市电力公司 | 基于用户分支的电量相关性识别台区户变关系的方法 |
CN113657872A (zh) * | 2021-09-02 | 2021-11-16 | 南方电网数字电网研究院有限公司 | 电力用户的档案信息异常分析方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189232A (zh) | 基于孤立森林算法的用电信息采集数据异常分析方法 | |
CN110503570A (zh) | 一种异常用电数据检测方法、***、设备、存储介质 | |
CN109359389B (zh) | 基于典型负荷动态博弈的城市电动汽车充电决策方法 | |
CN106570581B (zh) | 能源互联网环境下基于属性关联的负荷预测***及其方法 | |
CN107133652A (zh) | 基于K‑means聚类算法的用电客户价值评估方法及*** | |
CN104504508B (zh) | 基于层次分析与小波回归的台区闭环数据分析方法 | |
CN110428168A (zh) | 一种计及储能的多能源配电***协调调度综合评价方法 | |
CN108376262A (zh) | 一种风电出力典型特性的分析模型构建方法 | |
CN111191966B (zh) | 一种基于时空特性的配电网电压不合格时段识别方法 | |
CN107330540B (zh) | 一种考虑电压质量的配电网台区缺供电量预测方法 | |
CN110109971A (zh) | 一种低压台区用户用电负荷特性分析方法 | |
CN108846555A (zh) | 一种电力负荷大数据缺失值的高效精确填补法 | |
CN114519514B (zh) | 一种低压台区合理线损值测算方法、***及计算机设备 | |
CN114662563A (zh) | 一种基于梯度提升算法的工业用电非侵入负荷分解方法 | |
CN107862459B (zh) | 一种基于大数据的计量设备状态评估方法及*** | |
CN114662909A (zh) | 农村土地经营权流转交易价格指数计算*** | |
CN112988717B (zh) | 一种居民智慧用能服务标本库设计与构建方法 | |
CN112529475B (zh) | 一种城乡协同发展分析的方法、装置及存储介质 | |
Wang et al. | Stull: Unbiased online sampling for visual exploration of large spatiotemporal data | |
CN112116176B (zh) | 基于气象因素的地区绝缘子群污闪风险评估方法和*** | |
CN112488360B (zh) | 基于人工智能的配变异常分析预警方法 | |
Zhao et al. | Spatio-temporal load forecasting considering aggregation features of electricity cells and uncertainties in input variables | |
Li et al. | Distribution transformer mid-term heavy load and overload pre-warning based on logistic regression | |
CN113988685A (zh) | 一种基于电力大数据的数字产业发展指数测算方法 | |
CN110175705B (zh) | 一种负荷预测方法及包含该方法的存储器、*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191126 |