CN113112188B - 一种基于预筛选动态集成的电力调度监控数据异常检测方法 - Google Patents

一种基于预筛选动态集成的电力调度监控数据异常检测方法 Download PDF

Info

Publication number
CN113112188B
CN113112188B CN202110529491.9A CN202110529491A CN113112188B CN 113112188 B CN113112188 B CN 113112188B CN 202110529491 A CN202110529491 A CN 202110529491A CN 113112188 B CN113112188 B CN 113112188B
Authority
CN
China
Prior art keywords
data
detectors
base
detector
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110529491.9A
Other languages
English (en)
Other versions
CN113112188A (zh
Inventor
傅世元
高欣
薛冰
贾欣
任昺
李康生
黄子健
黄旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110529491.9A priority Critical patent/CN113112188B/zh
Publication of CN113112188A publication Critical patent/CN113112188A/zh
Application granted granted Critical
Publication of CN113112188B publication Critical patent/CN113112188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例提出了一种基于预筛选动态集成的电力调度监控数据异常检测方法,包括:使用电力调度监控历史数据训练一定数量的基检测器;使用孤立森林方法对全部基检测器进行预筛选,筛选掉性能较差的基检测器;使用集成式KNN算法从历史数据中选择与待检测数据欧式距离较小的历史数据作为验证子集;使用最大值法根据筛选后剩余的基检测器在验证子集上的输出生成验证子集的假真值,计算基检测器在验证子集上的输出与假真值的皮尔逊相关系数;使用基于直方图的基检测器选择方法根据皮尔逊相关系数选择基检测器,平均所选基检测器的输出作为待检测数据的检测结果。本发明实施例提供的技术方案,能够提升电力调度监控数据异常检测的准确率。

Description

一种基于预筛选动态集成的电力调度监控数据异常检测方法
【技术领域】
本发明涉及电力调度监控数据异常检测方法,尤其涉及一种基于预筛选动态集成的电力调度监控数据异常检测方法。
【背景技术】
统一坚强智能电网是以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,其包含发电、输电、变电、配电、用电和调度环节。在电力***实际工作中,调度承担指挥、监督和管理电力生产运行的职能,是电力***安全运行的重要保障。随着电网规模日益扩大,对电网安全稳定运行的要求也越来越高,电网调度监控数据的异常检测也愈显重要。由于监控***在电网运行时会在短时间内产生大量监控数据,通过咨询专家等方式人工为这些数据全部标定正、异常标签几乎是不可能的。因此,这些存储的历史电网调度监控数据往往缺少准确的标签信息。所以,不需要使用训练数据标签信息的无监督异常检测方法能够较好地应对这种存储的历史数据缺少准确标签的情况。当前已有的基于动态集成的无监督异常检测方法中结合全部初始训练的基检测器生成的假真值会受到性能较差的基检测器的影响产生偏差,导致使用假真值为基准计算的基检测器得分不够准确,损害动态集成方法的整体性能。因此,提出一种通过预先剔除部分性能较差的基检测器来生成更加准确的假真值的动态集成异常检测方法,能够提高基于动态集成的电力调度监控数据异常检测方法的准确率,对于加强电网状态监测、保障电网安全有重要意义。
【发明内容】
有鉴于此,本发明提出了一种基于预筛选动态集成的电力调度监控数据异常检测方法,以提高电力调度监控数据异常检测的准确率。
本发明提出一种基于预筛选动态集成的电力调度监控数据异常检测方法,包括如下步骤:
(1)使用电力调度监控历史数据训练一定数量的基检测器,具体为:
将全部电力监控历史数据作为训练集Strain,基于训练集使用不同的无监督异常检测算法训练m个基检测器,一般取m≥50,记全部基检测器组成的基检测器池为Detectorall。每个基检测器的输出为异常分数,异常分数越大输入数据的异常程度越大。将Detectorall中每个基检测器输出的异常分数进行Z分数标准化转换为Z分数。
每个基检测器的输入为电力调度监控***采集到的与电力调度***业务相关的进程实时资源占用数据,包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数。第i个基检测器输出的Z分数为[mini,maxi]范围内的数值,其中mini和maxi的数值受基检测器本身影响不固定,输入数据为正常类的数值范围为
Figure BDA0003066757730000021
输入数据为异常类的数值范围为
Figure BDA0003066757730000022
将第i个基检测器在全部训练数据Strain上输出的Z分数从大到小排序,第i个基检测器的分类阈值
Figure BDA0003066757730000023
为排序之后前con%个Z分数中的最小值;con%为设定的异常数据比例,一般取10%。
(2)使用孤立森林方法对全部基检测器进行预筛选,筛选掉性能较差的基检测器,具体为:
使用Detectorall中全部m个基检测器在训练集Strain中全部n条历史数据上输出的Z分数组成的Outputm×n训练一个由n_estimators个孤立树组成的孤立森林,n_estimators一般取100。构建一个孤立树时,从Outputm×n中均匀无放回抽样出ψ条数据,一般取
Figure BDA0003066757730000031
将全部ψ条n维数据Outputψ×n作为这个孤立树的训练样本。在每个孤立树样本中,随机选一个维度,并从样本在这个维度上的最大值与最小值之间随机选一个值,对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个***条件和左、右两边的数据集。分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据集本身只包括一个样本,或全部样本相同;
2)树的高度达到log2(ψ)。
将全部训练的孤立树组成孤立森林IForest,孤立森林IForest的输出为连续值,输出越小输入数据的异常程度越大。
将Outputm×n中的第r条数据Outputr作为孤立森林IForest的输入,r=1,2,...,m,孤立森林对应的输出为
Figure BDA0003066757730000032
将孤立森林IForest在Outputm×n上的m个输出从小到大排序,将排序之后前drop_rate%个输出对应的输入数据对应的基检测器标记为异常基检测器,drop_rate%一般取10%,从Detectorall中剔除被标记为异常的基检测器,记筛选后剩余的m'个基检测器组成的基检测器池为Detectorfilter
(3)使用集成式KNN算法从历史数据中选择与待检测数据欧式距离较小的历史数据作为验证子集,具体为:
记训练集Strain中历史数据的维度为d,在第j次循环中随机选取dj个维度生成训练集的子集Sj,j=1,2,...,t,t为循环的总次数,dj
Figure BDA0003066757730000033
范围内的随机数,记待检测数据xtest在dj个维度上对应的数值为xj。计算xj到训练集子集Sj中第q条数据
Figure BDA0003066757730000034
的欧氏距离
Figure BDA0003066757730000035
q=1,2,...,Qj,Qj为训练集子集Sj中数据的数量。
将训练集子集Sj中的全部数据根据其到xj的欧式距离
Figure BDA0003066757730000036
从小到大排序,选择排在前面的K条数据对应的K条原始历史数据作为本次循环生成的验证数据集
Figure BDA0003066757730000041
一般取10≤K≤30。
选择在全部t个验证数据集中重复出现
Figure BDA0003066757730000042
次以上的历史数据作为待检测数据xtest的验证子集Sxtest,一般取10≤t≤30。
(4)使用最大值法根据筛选后剩余的基检测器在验证子集上的输出生成验证子集的假真值,计算基检测器在验证子集上的输出与假真值的皮尔逊相关系数,具体为:
对于验证子集
Figure BDA0003066757730000043
中的第p条历史数据xp,p=1,2,...,T,T为验证子集
Figure BDA0003066757730000044
中历史数据的数量,Detectorfilter中全部基检测器在历史数据xp上输出的Z分数为
Figure BDA0003066757730000045
Figure BDA0003066757730000046
中的最大值为历史数据xp的假真值
Figure BDA0003066757730000047
记验证子集
Figure BDA0003066757730000048
中全部历史数据的假真值为
Figure BDA0003066757730000049
记Detectorfilter中第i个基检测器在验证子集
Figure BDA00030667577300000410
中的全部历史数据上输出的Z分数为
Figure BDA00030667577300000411
计算
Figure BDA00030667577300000412
Figure BDA00030667577300000413
的皮尔逊相关系数Pi作为第i个基检测器的性能得分,Pi越高说明第i个基检测器性能越好。
(5)根据步骤(4)中各基检测器的性能得分选择基检测器,平均所选基检测器的输出作为待检测数据的检测结果,实现电力调度监控数据异常检测。
上述方法步骤(5)中,根据步骤(4)中各基检测器的性能得分选择基检测器,平均所选基检测器的输出作为待检测数据的检测结果,实现电力调度监控数据异常检测,具体为:
将Detectorfilter中的全部基检测器根据其性能得分和设定的组数b分为间隔相同的b个组,b一般取10,将拥有基检测器最多的组中的全部基检测器构成基检测器池Detectorselect。计算Detectorselect中全部基检测器在待检测数据xtest上输出的Z分数的平均值作为待检测数据xtest的检测结果。计算Detectorselect中全部基检测器的分类阈值的平均值作为本次检测的检测阈值,检测结果大于或等于检测阈值的待检测数据xtest被判断为异常数据,实现电力调度监控数据异常检测。
所述电力调度监控数据异常检测方法使得电力调度监控数据的异常检测准确率有所提升。
由以上技术方案可以看出,本发明具有以下有益效果:
本发明实施的技术方案中,通过在动态集成方法前使用孤立森林预先剔除掉部分在全部训练数据上性能较差的基检测器,可以降低生成的假真值的偏差,更准确地评价基检测器的性能,从而提高基于动态集成方法的电力调度监控数据异常检测的准确率。
【附图说明】
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明所提出的基于预筛选动态集成的电力调度监控数据异常检测方法框架流程示意图;
图2是基检测器预筛选方法流程示意图;
图3是集成式KNN算法流程示意图;
图4是本发明所提出的基于预筛选动态集成的电力调度监控数据异常检测方法示意图;
图5是本发明使用的基检测器的输入数据和输出结果示意图;
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明给出一种基于预筛选动态集成的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测,使用孤立森林筛选基检测器,根据待检测数据附近的历史数据评价基检测器的性能并选择性能较好的基检测器来检测待检测数据。
图1是本发明所提出的基于预筛选动态集成的电力调度监控数据异常检测方法框架流程示意图,该方法包括以下步骤:
步骤101,使用电力调度监控历史数据训练一定数量的基检测器。
具体的,将全部电力监控历史数据作为训练集Strain,基于训练集使用不同的无监督异常检测算法训练m个基检测器,一般取m≥50,记全部基检测器组成的基检测器池为Detectorall。每个基检测器的输出为异常分数,异常分数越大输入数据的异常程度越大。将Detectorall中每个基检测器输出的异常分数进行Z分数标准化转换为Z分数。
每个基检测器的输入为电力调度监控***采集到的与电力调度***业务相关的进程实时资源占用数据,包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数。第i个基检测器输出的Z分数为[mini,maxi]范围内的数值,其中mini和maxi的数值受基检测器本身影响不固定,输入数据为正常类的数值范围为
Figure BDA0003066757730000061
输入数据为异常类的数值范围为
Figure BDA0003066757730000062
将第i个基检测器在全部训练数据Strain上输出的Z分数从大到小排序,第i个基检测器的分类阈值
Figure BDA0003066757730000063
为排序之后前con%个Z分数中的最小值。con%为设定的异常数据比例,一般取10%。
步骤102,使用孤立森林方法对全部基检测器进行预筛选,筛选掉性能较差的基检测器。
使用Detectorall中全部m个基检测器在训练集Strain中全部n条历史数据上输出的Z分数组成的Outputm×n训练一个由n_estimators个孤立树组成的孤立森林,n_estimators一般取100。构建一个孤立树时,从Outputm×n中均匀无放回抽样出ψ条数据,一般取
Figure BDA0003066757730000071
将全部ψ条n维数据Outputψ×n作为这个孤立树的训练样本。在每个孤立树样本中,随机选一个维度,并从样本在这个维度上的最大值与最小值之间随机选一个值,对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个***条件和左、右两边的数据集。分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据集本身只包括一个样本,或全部样本相同;
2)树的高度达到log2(ψ)。
将全部训练的孤立树组成孤立森林IForest,孤立森林IForest的输出为连续值,输出越小输入数据的异常程度越大。
将Outputm×n中的第r条数据Outputr作为孤立森林IForest的输入,r=1,2,...,m,孤立森林对应的输出为
Figure BDA0003066757730000072
将孤立森林IForest在Outputm×n上的m个输出从小到大排序,将排序之后前drop_rate%个输出对应的输入数据对应的基检测器标记为异常基检测器,drop_rate%一般取10%,从Detectorall中剔除被标记为异常的基检测器,记筛选后剩余的m'个基检测器组成的基检测器池为Detectorfilter
算法1为预筛选方法的伪代码:
Figure BDA0003066757730000073
Figure BDA0003066757730000081
步骤103,使用集成式KNN算法从历史数据中选择与待检测数据欧式距离较小的历史数据作为验证子集。
具体的,记训练集Strain中历史数据的维度为d,在第j次循环中随机选取dj个维度生成训练集的子集Sj,j=1,2,...,t,t为循环的总次数,dj
Figure BDA0003066757730000082
范围内的随机数,记待检测数据xtest在dj个维度上对应的数值为xj。计算xj到训练集子集Sj中第q条数据
Figure BDA0003066757730000083
的欧氏距离
Figure BDA0003066757730000084
q=1,2,...,Qj,Qj为训练集子集Sj中数据的数量。
将训练集子集Sj中的全部数据根据其到xj的欧式距离
Figure BDA0003066757730000085
从小到大排序,选择排在前面的K条数据对应的K条原始历史数据作为本次循环生成的验证数据集
Figure BDA0003066757730000086
一般取10≤K≤30。
选择在全部t个验证数据集中重复出现
Figure BDA0003066757730000087
次以上的历史数据作为待检测数据xtest的验证子集
Figure BDA0003066757730000088
一般取10≤t≤30。
算法2为集成式KNN算法的伪代码:
伪代码3-6:集成式KNN算法
Figure BDA0003066757730000091
步骤104,使用最大值法根据筛选后剩余的基检测器在验证子集上的输出生成验证子集的假真值,计算基检测器在验证子集上的输出与假真值的皮尔逊相关系数。
对于验证子集
Figure BDA0003066757730000092
中的第p条历史数据xp,p=1,2,...,T,T为验证子集
Figure BDA0003066757730000093
中历史数据的数量,Detectorfilter中全部基检测器在历史数据xp上输出的Z分数为
Figure BDA0003066757730000094
Figure BDA0003066757730000095
中的最大值为历史数据xp的假真值
Figure BDA0003066757730000096
记验证子集
Figure BDA0003066757730000097
中全部历史数据的假真值为
Figure BDA0003066757730000098
记Detectorfilter中第i个基检测器在验证子集
Figure BDA0003066757730000099
中的全部历史数据上输出的Z分数为
Figure BDA00030667577300000910
计算
Figure BDA00030667577300000911
Figure BDA00030667577300000912
的皮尔逊相关系数Pi作为第i个基检测器的性能得分,Pi越高说明第i个基检测器性能越好。
步骤105,使用基于直方图的基检测器选择方法根据皮尔逊相关系数选择基检测器,平均所选基检测器的输出作为待检测数据的检测结果。
具体的,将Detectorfilter中的全部基检测器根据其性能得分和设定的组数b分为间隔相同的b个组,b一般取10,将拥有基检测器最多的组中的全部基检测器构成基检测器池Detectorselect。计算Detectorselect中全部基检测器在待检测数据xtest上输出的Z分数的平均值作为待检测数据xtest的检测结果。计算Detectorselect中全部基检测器的分类阈值的平均值作为本次检测的检测阈值,检测结果大于或等于检测阈值的待检测数据xtest被判断为异常数据,实现电力调度监控数据异常检测。
图2所示为基检测器预筛选方法流程示意图,该方法使用全部基检测器在全部历史数据上输出的Z分数训练孤立森林,并将孤立森林在全部Z分数上的输出从小到大排序,将排序后的异常分数中前drop_rate%个异常分数对应的Z分数对应的基检测器标记为异常基检测器,从全部基检测器中剔除被标记为异常的基检测器。
图3是集成式KNN算法流程示意图,该方法随机选取dj个维度生成训练集的子集,记待检测数据xtest在dj个维度上的数值为xj。计算xj到训练集子集中的历史数据的欧氏距离。将欧式距离从小到大排序,选择排序后的训练集子集中前K个数据对应的原始历史数据作为本次循环生成的验证数据集。上述循环一共进行t次,选择t个验证数据集中重复出现
Figure BDA0003066757730000101
次以上的历史数据作为待检测数据xtest的验证子集。
图4是本发明所提出的基于预筛选动态集成的电力调度监控数据异常检测方法示意图,提出的方法主要包括5个阶段:训练基检测器阶段、预筛选阶段、选择验证子集阶段、生成假真值并计算皮尔逊相关系数阶段、选择基检测器并得到检测结果阶段。在训练基检测器阶段,使用电力调度监控历史数据训练一定数量的基检测器;在预筛选阶段,使用全部基检测器在全部历史数据上输出的Z分数训练孤立森林,剔除掉孤立森林在全部Z分数上较小的输出对应的基检测器;在选择验证子集阶段,使用集成式KNN算法,多次在随机选择特征的训练集子集上选择与待检测数据欧氏距离较小的数据所对应的原始历史数据,将多次被选择的历史数据作为待检测数据的验证子集;在生成假真值并计算皮尔逊相关系数阶段,将全部基检测器在验证子集中历史数据上输出的Z分数的最大值作为验证子集的假真值,计算基检测器在验证子集中全部历史数据上输出的Z分数与假真值的皮尔逊相关系数作为基检测器的得分;在选择基检测器并得到检测结果阶段,使用基于直方图的基检测器选择方法根据皮尔逊相关系数选择基检测器,计算所选基检测器在输入为待检测数据时输出的Z分数的平均值作为检测结果,计算所选基检测器的分类阈值的平均值作为本次的检测阈值,检测结果大于或等于检测阈值的待检测数据被判断为异常数据,实现电力调度监控数据异常检测。。
图5是本发明使用的基检测器的输入数据和输出结果示意图,每个基检测器的输入为电力调度监控***采集到的与电力调度***业务相关的进程实时资源占用数据,包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数。第i个基检测器输出的Z分数为[mini,maxi]范围内的数值,其中mini和maxi的数值受基检测器本身影响不固定,输入数据为正常类的数值范围为
Figure BDA0003066757730000111
输入数据为异常类的数值范围为
Figure BDA0003066757730000112
将第i个基检测器在全部训练数据Strain上输出的Z分数从大到小排序,第i个基检测器的分类阈值
Figure BDA0003066757730000113
为排序之后前con%个Z分数中的最小值。con%为设定的异常数据比例,一般取10%。
用于具体实施例中,使用智能电网调度控制***(简称D5000***)中的三种异常情况:数据跳变、应用断网和遥测表不刷新发生时的***监控数据。数据跳变异常是对于一个遥测点,定周期采集D5000***的进程数据,若相邻采样点的数值差值大于人为设定的阈值,则认为出现数据跳变异常。在发生数据跳变异常时,电力调度处在给下属的电网公司分配发电量时会出现偏差,影响电网的调度计划,同时也会导致电量的报表出现偏差,影响电量收费。应用断网异常是运行D5000***应用的服务器网络连接中断或者网卡出现故障,导致D5000***关键进程运行缓慢甚至停止运行,该应用下的业务无法正常执行任务,影响电网调度。遥测表不刷新异常指电网自动化***未能及时更新遥测数据。能够收到实时、准确的遥测数据,调度人员才能及时、准确地调整电网的工作状况。在电网的状态发生变化时,对应的遥测数据应立即被反映到调度中心,若遥测表长时间没有更新数据,会影响调度人员对于电网运行状况的整体把控。
三种异常对应的***监控数据的具体信息如表1所示:
表1出现三种异常时***监控数据的具体信息
Figure BDA0003066757730000121
表2为本发明实施例中使用的基检测器算法及参数:
表2具体实施例中使用的基检测器算法及参数
Figure BDA0003066757730000122
为验证所提算法的有效性,本发明实施例中对不使用预筛选的动态集成方法和使用预筛选的动态集成方法进行对比,算法一为不使用预筛选的动态集成方法,算法二为使用预筛选的动态集成方法。
本发明实施例使用AUC值进行评定。通常ROC曲线下的面积(Area Under Curve,AUC)被用来评估异常检测算法的性能,ROC Area越接近于1,即AUC值越大,表示异常检测算法的性能越好。
本发明实施例中参数t设置为20,参数K设置为30,参数n_estimators设置为100,参数drop_rate%设置为10%,参数b设置为10,参数con%设置为10%。
本发明实施例和对比方法在D5000监控数据集上的AUC结果如表3所示。可以看到本发明基于预筛选动态集成的电力调度监控数据异常检测方法在全部三种异常上均获得了更高的AUC,说明本发明中提出的预筛选方法有效提高了动态集成方法在力调度监控数据异常检测上的准确率。
表3在三种异常上的AUC结果
异常名称 算法一 算法二
数据跳变 0.9305 0.9595
应用断网 0.9857 0.9870
遥测表不刷新 0.9986 0.9987
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,基于原始电力调度监控历史数据使用不同无监督异常检测算法训练一定数量的基检测器;通过预筛选方法,使用孤立森林剔除掉全部基检测器中性能较差的基检测器;在检测阶段根据待检测数据使用集成式KNN算法从全部历史数据中选择验证子集;通过最大值法使用筛选后剩余的基检测器生成验证子集的假真值,并计算基检测器输出的Z分数与假真值的皮尔逊相关系数作为基检测器的性能分数;使用基于直方图的基检测器选择方法选择基检测器,并计算所选基检测器在输入为待检测数据时输出的Z分数的平均值作为待检测数据的检测结果,计算所选基检测器的分类阈值的平均值作为本次检测的检测阈值,检测结果大于或等于检测阈值的待检测数据被判断为异常数据,实现电力调度监控数据异常检测。根据本发明实施例提供的技术方案,当面对电力调度监控数据的异常检测问题时,与不使用预筛选的动态集成方法相比,本方法可获得更高的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (2)

1.一种基于预筛选动态集成的电力调度监控数据异常检测方法,其特征在于,包括如下步骤:
(1)使用电力调度监控历史数据训练一定数量的基检测器,具体为:
将全部电力监控历史数据作为训练集Strain,基于训练集使用不同的无监督异常检测算法训练m个基检测器,取m≥50,记全部基检测器组成的基检测器池为Detectorall;每个基检测器的输出为异常分数,异常分数越大输入数据的异常程度越大;将Detectorall中每个基检测器输出的异常分数进行Z分数标准化转换为Z分数;
每个基检测器的输入为电力调度监控***采集到的与电力调度***业务相关的进程实时资源占用数据,包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;第i个基检测器输出的Z分数为[mini,maxi]范围内的数值,其中mini和maxi的数值受基检测器本身影响不固定,输入数据为正常类的数值范围为
Figure FDA0003586061010000011
输入数据为异常类的数值范围为
Figure FDA0003586061010000012
将第i个基检测器在全部训练数据Strain上输出的Z分数从大到小排序,第i个基检测器的分类阈值
Figure FDA0003586061010000013
为排序之后前con%个Z分数中的最小值;con%为设定的异常数据比例,取10%;
(2)使用孤立森林方法对全部基检测器进行预筛选,筛选掉性能较差的基检测器,具体为:
使用Detectorrall中全部m个基检测器在训练集Strain中全部n条历史数据上输出的Z分数组成的Outputm×n训练一个由n_estimators个孤立树组成的孤立森林,n_estimators取100;构建一个孤立树时,从Outputm×n中均匀无放回抽样出ψ条数据,取
Figure FDA0003586061010000021
将全部ψ条n维数据Outputψ×n作为这个孤立树的训练样本;在每个孤立树样本中,随机选一个维度,并从样本在这个维度上的最大值与最小值之间随机选一个值,对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个***条件和左、右两边的数据集;分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据集本身只包括一个样本,或全部样本相同;
2)树的高度达到log2(ψ);
将全部训练的孤立树组成孤立森林IForest,孤立森林IForest的输出为连续值,输出越小输入数据的异常程度越大;
将Outputm×n中的第r条数据Outputr作为孤立森林IForest的输入,r=1,2,...,m,孤立森林对应的输出为
Figure FDA0003586061010000022
将孤立森林IForest在Outputm×n上的m个输出从小到大排序,将排序之后前drop_rate%个输出对应的输入数据对应的基检测器标记为异常基检测器,drop_rate%取10%,从Detectorall中剔除被标记为异常的基检测器,记筛选后剩余的m′个基检测器组成的基检测器池为Detectorfilter
(3)使用集成式KNN算法从历史数据中选择与待检测数据欧式距离较小的历史数据作为验证子集,具体为:
记训练集Strain中历史数据的维度为d,在第j次循环中随机选取dj个维度生成训练集的子集Sj,j=1,2,...,t,t为循环的总次数,dj
Figure FDA0003586061010000031
范围内的随机数,记待检测数据xtest在dj个维度上对应的数值为xj;计算xj到训练集子集Sj中第q条数据
Figure FDA0003586061010000032
的欧氏距离
Figure FDA0003586061010000033
Qj为训练集子集Sj中数据的数量;
将训练集子集Sj中的全部数据根据其到xj的欧式距离
Figure FDA0003586061010000034
从小到大排序,选择排在前面的K条数据对应的K条原始历史数据作为本次循环生成的验证数据集
Figure FDA0003586061010000035
取10≤K≤30;
选择在全部t个验证数据集中重复出现
Figure FDA0003586061010000036
次以上的历史数据作为待检测数据xtest的验证子集
Figure FDA0003586061010000037
取10≤t≤30;
(4)使用最大值法根据筛选后剩余的基检测器在验证子集上的输出生成验证子集的假真值,计算基检测器在验证子集上的输出与假真值的皮尔逊相关系数,具体为:
对于验证子集
Figure FDA0003586061010000038
中的第p条历史数据xp,p=1,2,...,T,T为验证子集
Figure FDA0003586061010000039
中历史数据的数量,Detectorfilter中全部基检测器在历史数据xp上输出的Z分数为
Figure FDA00035860610100000310
Figure FDA00035860610100000311
中的最大值为历史数据xp的假真值
Figure FDA00035860610100000312
记验证子集
Figure FDA00035860610100000313
中全部历史数据的假真值为
Figure FDA00035860610100000314
记Detectorfilter中第i个基检测器在验证子集
Figure FDA00035860610100000315
中的全部历史数据上输出的Z分数为
Figure FDA0003586061010000041
计算
Figure FDA0003586061010000042
Figure FDA0003586061010000043
的皮尔逊相关系数Pi作为第i个基检测器的性能得分,Pi越高说明第i个基检测器性能越好;
(5)根据步骤(4)中各基检测器的性能得分选择基检测器,平均所选基检测器的输出作为待检测数据的检测结果,实现电力调度监控数据异常检测。
2.根据权利要求1所述的一种基于预筛选动态集成的电力调度监控数据异常检测方法,其特征在于,所述步骤(5)中,根据步骤(4)中各基检测器的性能得分选择基检测器,平均所选基检测器的输出作为待检测数据的检测结果,实现电力调度监控数据异常检测,具体为:
将Detectorfilter中的全部基检测器根据其所述性能得分和设定的组数b分为间隔相同的b个组,b取10,将拥有基检测器最多的组中的全部基检测器构成基检测器池Detectorselect;计算Detectorselect中全部基检测器在待检测数据xtest上输出的Z分数的平均值作为待检测数据xtest的检测结果;计算Detectorselect中全部基检测器的分类阈值的平均值作为本次检测的检测阈值,检测结果大于或等于检测阈值的待检测数据xtest被判断为异常数据,实现电力调度监控数据异常检测。
CN202110529491.9A 2021-05-14 2021-05-14 一种基于预筛选动态集成的电力调度监控数据异常检测方法 Active CN113112188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110529491.9A CN113112188B (zh) 2021-05-14 2021-05-14 一种基于预筛选动态集成的电力调度监控数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110529491.9A CN113112188B (zh) 2021-05-14 2021-05-14 一种基于预筛选动态集成的电力调度监控数据异常检测方法

Publications (2)

Publication Number Publication Date
CN113112188A CN113112188A (zh) 2021-07-13
CN113112188B true CN113112188B (zh) 2022-05-17

Family

ID=76722231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110529491.9A Active CN113112188B (zh) 2021-05-14 2021-05-14 一种基于预筛选动态集成的电力调度监控数据异常检测方法

Country Status (1)

Country Link
CN (1) CN113112188B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591400B (zh) * 2021-08-23 2023-06-27 北京邮电大学 一种基于特征相关性分区回归的电力调度监控数据异常检测方法
CN113822379B (zh) * 2021-11-22 2022-02-22 成都数联云算科技有限公司 工艺制程异常分析方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN109543765A (zh) * 2018-08-23 2019-03-29 江苏海平面数据科技有限公司 一种基于改进IForest的工业数据去噪方法
WO2020244893A1 (en) * 2019-06-04 2020-12-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for detecting anomalies in network data traffic
CN112181706A (zh) * 2020-10-23 2021-01-05 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN109543765A (zh) * 2018-08-23 2019-03-29 江苏海平面数据科技有限公司 一种基于改进IForest的工业数据去噪方法
WO2020244893A1 (en) * 2019-06-04 2020-12-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for detecting anomalies in network data traffic
CN112181706A (zh) * 2020-10-23 2021-01-05 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于孤立森林算法的电力调度流";李新鹏;《电网技术》;20190430;第43卷(第4期);全文 *

Also Published As

Publication number Publication date
CN113112188A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN107657288B (zh) 一种基于孤立森林算法的电力调度流数据异常检测方法
Zheng et al. Raw wind data preprocessing: a data-mining approach
CN113112188B (zh) 一种基于预筛选动态集成的电力调度监控数据异常检测方法
CN114358152A (zh) 一种智能电力数据异常检测方法及***
CN113298297B (zh) 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN112181706B (zh) 一种基于对数区间隔离的电力调度数据异常检测方法
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及***
CN110297469B (zh) 基于重采样的集成特征选择算法的生产线故障判断方法
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
CN109409444B (zh) 一种基于先验概率的多元电网故障类型的判别方法
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及***
CN112257784A (zh) 一种基于梯度提升决策树的窃电检测方法
CN113408659A (zh) 一种基于数据挖掘的建筑能耗集成分析方法
CN115617784A (zh) 一种信息化配电的数据处理***及其处理方法
CN114202243A (zh) 一种基于随机森林的工程项目管理风险预警方法及***
CN113988398A (zh) 一种风电机组功率预测方法、装置、电子设备和存储介质
CN113569462A (zh) 一种计及天气因素的配电网故障等级预测方法及***
CN113608968A (zh) 一种基于密度距离综合决策的电力调度监控数据异常检测方法
CN114399407A (zh) 一种基于动静态选择集成的电力调度监控数据异常检测方法
CN116365519A (zh) 一种电力负荷预测方法、***、存储介质及设备
CN114676931B (zh) 一种基于数据中台技术的电量预测***
CN114167837B (zh) 一种铁路信号***的智能故障诊断方法及***
CN116170200A (zh) 电力监控***时间序列异常检测方法、***、设备及存储介质
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN115392710A (zh) 一种基于数据过滤的风电机组运行决策方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant