CN114021425B - 电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 - Google Patents
电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114021425B CN114021425B CN202111180509.5A CN202111180509A CN114021425B CN 114021425 B CN114021425 B CN 114021425B CN 202111180509 A CN202111180509 A CN 202111180509A CN 114021425 B CN114021425 B CN 114021425B
- Authority
- CN
- China
- Prior art keywords
- power system
- feature
- simulation
- data
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000004088 simulation Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000007619 statistical method Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000001052 transient effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请属于电力***运行和控制技术领域,具体而言涉及一种电力***运行数据建模与特征选择方法、装置、电子设备和存储介质。对历史运行数据预处理过程和原始***物理仿真建模;对建模后***的并行仿真和批量数据结果标注过程;基于统计方法和特征关联度的过滤法第一阶段特征选择初筛过程;基于旋转森林的第二阶段特征选择精细筛选过程,最终获得特征数量少、特征冗余度低以及特征关键信息密度高的电力***运行数据特征子集。本申请能够提取电力***运行数据框架下的关键特征,能够充分满足电力***安全稳定分析的精度与速度要求。本方法有效提高电力***运行数据的标准处理能力和分析利用效率,而且易于实施。
Description
技术领域
本申请属于电力***运行和控制技术领域,具体而言涉及一种电力***运行数据建模与特征选择方法、装置、电子设备和存储介质。
背景技术
我国特高压交直流混联电网规模不断扩大,新能源的广泛接入以及柔性负荷与电网双向互动程度的加大,使得源荷双侧的不确定性加大,电网特性的日益复杂,对调度运行人员监视和调控电网的安全稳定运行提出了巨大的挑战。因此,研究电网潜在的安全稳定问题,提高电力***的可观性和可控性,实现大电网暂态稳定高效、快速评估,对维持电力***安全稳定运行具有重要意义。随着广域量测技术的成熟和大数据理论的发展,基于人工智能方法进行在线TSA为大电网的智能控制提供了新的思路。
由于实际大规模交直流混联***所含变量众多,其数据规模大,维数高,只有少数的特征量会影响***的稳定水平,且大部分特征都是冗余的,如果作为暂态评估模型的输入,势必会影响计算效率、分类效果及在线应用的要求,因此需要对电力***中的初始输入特征进行完整精确的建模和二次特征筛选,找到在所研究的安全稳定问题中起关键作用的特征,处理电力大数据问题。
集成学习是开发精确分类***的有效方法,能够提升弱分类器性能,做出准确的预测。提升方法(Boosting)和自主聚合法(Bootstrap aggregation,bagging)是主要的集成学习方法。多样性被认为是分类器组合的一个非常重要的特征,它可以有效地用于减少方差误差而不增加集成方法的偏差误差。为了鼓励bagging的多样性,1995年,贝尔实验室的 Tin Kam Ho提出了随机森林(Random Forests,以下简称RFs)算法。
发明内容
本发明旨在解决电力***中调度运行人员监视和调控电网的安全稳定运行起关键作用的特征处理中存在的技术问题,基于本发明人对以下事实和问题的发现和认识,RFs是树预测器的组合,其中决策树使用有放回的采样训练样本技术构建;它们随机采样属性,并在这些变量中选择最佳分割,而不是在所有属性中选择最佳分割。RFs具有在大型数据库上高效运行、无需删除变量即可处理数千个输入变量、时间成本低等重要优点。旋转森林作为随机森林的优化算法,在运行效率和表达效果上尤其适合电力***运行数据的特点,对安全稳定分析具有良好的适用性。
有鉴于此,本公开提出了电力***运行数据建模与特征选择方法、装置、电子设备和存储介质,以解决相关技术中的技术问题。
根据本公开的第一方面,提出电力***运行数据建模与特征选择方法,包括:
根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本;
对原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
可选地,所述根据历史运行数据对电力***建模,得到仿真软件模型工程文件,包括:
(1)对电力***的历史运行数据进行数据清洗、缺失值填充和特征的标准化处理;
(2)根据步骤(1)的数据,得到以电力***电压、电流、功角和潮流所确定的电力***的基本运行状态;
(3)根据步骤(2)的电力***的基本运行状态,设定电力***的发电机、负荷和线路参数,以综合稳定仿真软件格式构建一个仿真电力***;
(4)将步骤(3)的仿真电力***的运行点设置为与步骤(2)的电力***相接近的运行状态,得到仿真软件模型工程文件。
可选地,所述对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本,包括:
(1)采用Python编程语言编写外部调用仿真软件的方法,对所述仿真软件模型工程文件中仿真电力***进行单次仿真运行和仿真结果输出,将Python编程语言编写的可运行的程序文件保存;
(2)利用Python编程语言的多线程模块,对步骤(1)的可运行的程序文件进行多线程调用,在与仿真电力***运行点相接近的运行状态按照实际电力***的运行方式波动随机取值,得到仿真运行数据;并将仿真运行数据保存在数据文件夹中;
(3)对步骤(2)的仿真运行数据进行缺失值和异常值处理,以功角标准为评价指标,若处理后的仿真运行数据在暂态扰动下保持电力***安全稳定,则对仿真运行数据打上标签1,表示为稳定样本,若处理后的仿真运行数据在暂态扰动下不能保持电力***安全稳定,则对仿真运行数据打上标签0,表示为不稳定样本;
(4)将步骤(3)打上标签的数据样本中的仿真运行数据记为原始特征集合S。
可选地,所述对原始特征集合S进行第一阶段的筛选,得到包含有效特征子集S1的数据样本,包括:
(1)对所述原始特征集合S的数据样本进行Min-Max归一化处理;
(2)对归一化处理后的原始特征集合S进行方差和标准差计算,按照标准差排序,将标准差较低的10%的特征删除,得到特征集合S’;
(3)利用下式,计算所述特征集合S’中任一特征X与Y的相关系数r:
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
将特征集合S’中相关系数r的绝对值小于0.1的特征X进行剔除,得到特征集合S”;
(4)利用下式,计算所述特征集合S”中任一特征X与Y的业务理解能力IV值
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,X和Y的概率分布分别记为P(X)和Q(Y);
将特征集合S”中IV值排序,将IV值较低的10%的特征删除,得到基于统计方法和特征关联度的过滤法第一阶段特征选择初筛特征子集S1。
可选地,所述采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2,包括:
(1)设定a=[a1,a2…,an]表示初筛特征子集S1中的n个样本,用N×n的矩阵A 表示一个有N条数据记录的训练样本集;b=[b1,b2,…,bn]表示与训练样本集A对应的仿真运行状态是否稳定的标签,标签取值为0/1;用D1,D2…,DL表示L个基分类器;
(2)构建一个旋转森林模型,对所述训练样本集A进行集成学习,步骤如下:
(2-1)对训练样本集A进行75%的有放回bagging重采样,产生一个训练样本集A的样本子集Ai,样本子集Ai中包含k个观测样本;
(2-2)利用下式,求初始矩阵Ai的k×k阶相关系数矩阵Ri:
其中,Ri[m,n]为相关系数矩阵Ri第m行第n列的元素,Ai[m]为样本子集Ai矩阵的第m个样本,Ai[n]为样本子集Ai矩阵的第n个样本,Cov(Ai[m],Ai[n])样本子集Ai矩阵的第m个样本和第n个样本的协方差,Var(Ai[m])样本子集Ai矩阵的第m个样本的方差,Var(Ai[n])样本子集Ai矩阵的第n个样本的方差;
(2-3)计算相关系数矩阵Ri的k个特征值λ,按照特征值λ的大小对特征值进行排序,得到λ1≥λ2≥…≥λk,将与各特征值相对应的一组长度为1且相互正交的特征向量,记为α1,α2,…,αk;
(2-4)设定一个累计贡献率μ,利用下式,得到排序后的特征值λ1≥λ2≥…≥λk中满足下式的q个特征值:
其中,q取最小正整数,累计贡献率μ表示原始特征集合S对原有文件信息量的解释能力,将符合上式累计贡献率μ的特征值记为主成分,得到样本子集Ai的q个主成分,并得到与q个特征值λ1,λ2…λq相对应的特征向量α1,α2,…,αq;
(2-5)利用下式,分别计算与所述q个主成分相对应的主成分矩阵Z中的各元素Z1:
Z1,Z2....,Zq分别表示Z矩阵的第1,2…q行,得到样本子集Ai的主成分矩阵Z;
(2-6)以所述主成分矩阵Z作为所述基分类器Di的输入,以与训练样本子集Ai相对应的仿真运行状态是否稳定的标签作为基分类器Di的输出,对基分类器Di进行训练,得到基分类器Di;
(3)重复步骤(2)L次,得到L个基分类器,将L个基分类器整体记为旋转森林分类器模型D;
(4)利用旋转森林分类器模型D,得到有效特征子集S1每个特征的特征重要程度,按特征重要程度从大到小的顺序对初筛特征子集S1中的全部特征进行排列,选择特征值较大的前50%的特征作为第二阶段特征选择精细筛选过程的最终特征子集结果S2。
可选地,所述基分类器为以信息增益为基础的决策树。
根据本公开的第二方面,提出电力***运行数据建模与特征选择装置,包括:
建模模块,用于根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
仿真计算模块,用于对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本;
筛选模块,用于对原始特征S集合进行第一阶段筛选,得到包含有效特征子集S1的数据样本;
计算模块,用于采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
根据本公开的第三方面,提出提出电子设备,包括:
存储器,用于存储计算机可执行的指令;
处理器,所述处理器被配置执行:
根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本;
对原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
根据本公开的第四方面,提出计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行:
根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本;
对原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
本公开的实施例,主要包括基于统计学习和数据挖掘理论的数据建模过程和基于旋转森林的两阶段特征选择方法,通过对电网运行数据标准化建模,并在此基础上进行充分有效的特征提取与选择,筛选能够提供补充信息的特征,以尽量少的特征提供尽可能多的关键信息,方便对于电力***的安全稳定分析。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显然,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一个实施例示出的电力***运行数据建模与特征选择方法的示意流程图。
图2是根据本公开一个实施例示出的电力***运行数据建模与特征选择装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是根据本公开实施例示出的电力***运行数据建模与特征选择方法,包括以下步骤:
在步骤1中,从电力***控制中心获取历史运行数据,并进行预处理,根据预处理后的历史运行数据对电力***建模,得到仿真软件模型工程文件。
在一个实施例中,所述根据预处理后的历史运行数据对电力***建模,得到仿真软件模型工程文件,可以包括以下步骤:
(1)对电力***的历史运行数据进行数据清洗、缺失值填充和特征的标准化处理;
(2)根据步骤(1)的数据,得到以电力***电压、电流、功角和潮流所确定的电力***的基本运行状态;
(3)根据步骤(2)的电力***的基本运行状态,对电力***进行工程软件建模,设定电力***的发电机、负荷和线路参数,以综合稳定仿真软件(简称PSASP)格式构建一个仿真电力***;
(4)将步骤(3)的仿真电力***的运行点设置为与步骤(2)的电力***相接近的运行状态,由于物理建模和仿真软件的方程求解存在一定的精度缺失,不需要数值基准结果完全相同。该部分最终得到对于原始电力***运行的仿真***模型。得到仿真软件模型工程文件。
在步骤2中,利用所述仿真软件模型工程文件,对建模后的电力***进行批量并行仿真,得到建模后电力***的原始数据文件,对原始数据文件进行清洗和标注,得到包含建模后电力***的原始特征S的数据样本。
在一个实施例中,所述对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本,可以包括以下步骤:
(1)采用Python编程语言编写外部调用仿真软件的方法,对所述仿真软件模型工程文件中仿真电力***进行单次仿真运行和仿真结果输出,将Python编程语言编写的可运行的程序文件保存;
(2)利用Python编程语言的多线程模块,对步骤(1)的可运行的程序文件进行多线程调用,实现大规模并行仿真计算,在与仿真电力***运行点相接近的运行状态按照实际电力***的运行方式波动随机取值,得到仿真运行数据来模拟真实场景;并将仿真运行数据保存在数据文件夹中。
本步骤中,利用python模块multiprocessing,对py文件进行多线程调用,实现大规模并行仿真计算,在***运行点附近按照实际电力***的运行方式波动随机取值,生成不同的仿真运行数据结果,模拟真实场景;同时将数据输出结果保存在统一的数据文件夹中。初始特征集合主要是指电力***中故障前稳态运行数据信息,包括元件特征数据和***特征数据。元件特征主要包含故障前***中每台发电机组的有功功率和无功功率、故障前***中各节点负荷的有功功率和无功功率、输电线路的有功功率和无功功率、故障前***中各母线的电压和相角。***特征主要包括故障前***中发电机的总有功出力和无功出力、故障前***中全部有功负荷和无功负荷、故障前***中机械输入功率总和、故障前***中总无功储备容量、故障前电网网络拓扑指标。
(3)对步骤(2)的仿真运行数据进行缺失值和异常值处理,以功角标准为评价指标,若处理后的仿真运行数据在暂态扰动下保持电力***安全稳定,则对仿真运行数据打上标签1,表示为稳定样本,若处理后的仿真运行数据在暂态扰动下不能保持电力***安全稳定,则对仿真运行数据打上标签0,表示为不稳定样本;
(4)将步骤(3)打上标签的数据样本中的仿真运行数据记为原始特征集合S。该部分最终得到包含该原始特征集合S的大量数据样本。
本步骤中,初始特征集合主要是指电力***中故障前稳态运行数据信息,包括元件特征数据和***特征数据。元件特征主要包含故障前***中每台发电机组的有功功率和无功功率、故障前***中各节点负荷的有功功率和无功功率、输电线路的有功功率和无功功率、故障前***中各母线的电压和相角。***特征主要包括故障前***中发电机的总有功出力和无功出力、故障前***中全部有功负荷和无功负荷、故障前***中机械输入功率总和、故障前***中总无功储备容量、故障前电网网络拓扑指标。
在步骤3中,采用统计方法和特征关联度方法,对所述数据样本中的原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本。
在一个实施例中,所述采用统计方法和特征关联度方法,对所述数据样本中的原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本,可以包括以下步骤:
(1)对所述原始特征集合S的数据样本进行Min-Max归一化处理;方便后续的统计分析和AI方法训练。
(2)对归一化处理后的原始特征集合S进行方差和标准差计算,按照标准差排序,将标准差较低的10%的特征删除,对应特征的影响呈现为不显著,得到特征集合S’;
(3)利用下式,计算所述特征集合S’中任一特征X与Y的相关系数r:
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
将特征集合S’中相关系数r的绝对值小于0.1的特征X进行剔除,因为其作用于电力***安全稳定分析的关联度较低,特征的利用价值较差。剔除完毕,得到特征集合S”;
(4)利用下式,计算所述特征集合S”中任一特征X与Y的业务理解能力IV值:
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,X和Y的概率分布分别记为P(X)和Q(Y);
将特征集合S”中IV值排序,将IV值较低的10%的特征删除,对应的特征对于理解电力***运行分析的作用较差。得到基于统计方法和特征关联度的过滤法第一阶段特征选择初筛特征子集S1。
在步骤4中,采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得特征数量少、特征冗余度低以及特征关键信息密度高的建模后电力***运行数据的特征子集S2。
在一个实施例中,所述采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2,可以包括以下步骤:
(1)设定a=[a1,a2…,an]表示初筛特征子集S1中的n个样本,用N×n的矩阵A 表示一个有N条数据记录的训练样本集;b=[b1,b2,…,bn]表示与训练样本集A对应的仿真运行状态是否稳定的标签,标签取值为0/1;用D1,D2…,DL表示L个基分类器;
(2)构建一个旋转森林模型,对所述训练样本集A进行集成学习,步骤如下:
(2-1)对训练样本集A进行75%的有放回bagging重采样,产生一个训练样本集A的样本子集Ai,样本子集Ai中包含k个观测样本;
(2-2)利用下式,求初始矩阵Ai的k×k阶相关系数矩阵Ri:
其中,Ri[m,n]为相关系数矩阵Ri第m行第n列的元素,Ai[m]为样本子集Ai矩阵的第m个样本,Ai[n]为样本子集Ai矩阵的第n个样本,Cov(Ai[m],Ai[n])样本子集Ai矩阵的第m个样本和第n个样本的协方差,Var(Ai[m])样本子集Ai矩阵的第m个样本的方差,Var(Ai[n])样本子集Ai矩阵的第n个样本的方差;
(2-3)计算相关系数矩阵Ri的k个特征值λ,按照特征值λ的大小对特征值进行排序,得到λ1≥λ2≥…≥λk,将与各特征值相对应的一组长度为1且相互正交的特征向量,记为α1,α2,…,αk;
(2-4)设定一个累计贡献率μ,在本公开的一个实施例中,μ的取值为0.85,利用下式,得到排序后的特征值λ1≥λ2≥…≥λk中满足下式的最小正整数q个特征值:
其中,累计贡献率μ表示原始特征集合S对原有文件信息量的解释能力,将符合上式累计贡献率μ的特征值记为主成分,得到样本子集Ai的q个主成分,并得到与q个特征值λ1,λ2…λq相对应的特征向量α1,α2,…,αq;
(2-5)利用下式,分别计算与所述q个主成分相对应的主成分矩阵Z中的各元素Z1:
Z1,Z2....,Zq分别表示Z矩阵的第1,2…q行,得到样本子集Ai的主成分矩阵Z;
(2-6)以所述主成分矩阵Z作为所述基分类器Di的输入,以与训练样本子集Ai相对应的仿真运行状态是否稳定的标签作为基分类器Di的输出,对基分类器Di进行训练,得到基分类器Di;将基分类器Di保存。
(3)重复步骤(2)L次,得到L个基分类器,将L个基分类器整体记为旋转森林分类器模型D;旋转森林分类器模型D作为最终集成学习的分类模型。
(4)利用旋转森林分类器模型D,得到有效特征子集S1每个特征的特征重要程度,按特征重要程度从大到小的顺序对初筛特征子集S1中的全部特征进行排列,选择特征值较大的前50%的特征作为第二阶段特征选择精细筛选过程的最终特征子集结果S2。
该最终特征子集结果S2即为本方法所得到的最终最优特征子集结果。
根据本发明的一个实施例,电力***运行数据建模与特征选择方法中涉及的所述基分类器是以信息增益为基础的决策树。
本公开实施例提出的电力***运行数据建模与特征选择方法,首先对原始***进行物理建模和参数分析,收集原始运行数据,建立尽可能完备的仿真模型;然后对仿真模拟得到的大数据样本进行统计处理,通过最大最小值归一化、方差剔除等方法优先处理对原始数据进行标准化建模,然后通过旋转森林方法充分挖掘多源数据之间的非线性关系,避免了由于特征提取不充分导致的影响模型输出精度降低问题,在此基础上进行两阶段特征选择方法,提取电力***运行数据框架下的关键特征,能够充分满足电力***安全稳定分析的精度与速度要求。
本公开实施例提出的电力***运行数据建模与特征选择方法,通过引入人工智能领域的集成学习方法,在第一阶段的数据统计处理和标准化建模的基础上,对关键步骤的特征选择方法进行了改进,基于决策树模型和集成学习的bagging方法随机森林在特征提取、分类识别过程和表达方面都具有更好的效果,有效提高电力***运行数据的标准处理能力和分析利用效率,因此本方法易于实施。
与上述电力***运行数据建模与特征选择方法相对应地,本公开还提出电力***运行数据建模与特征选择装置。
图2所示为根据本公开的一个实施例示出的电力***运行数据建模与特征选择装置的结构框图,包括:
建模模块,用于从电力***控制中心获取历史运行数据,并进行预处理,根据预处理后的历史运行数据对电力***建模,得到仿真软件模型工程文件;
仿真计算模块,用于利用所述仿真软件模型工程文件,对建模后的电力***进行批量并行仿真,得到建模后电力***的原始数据文件,对原始数据文件进行清洗和标注,得到包含建模后电力***的原始特征S的数据样本;
筛选模块,用于采用统计方法和特征关联度方法,对所述数据样本中的原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
计算模块,用于采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得特征数量少、特征冗余度低以及特征关键信息密度高的建模后电力***运行数据的特征子集S2。
本公开的实施例还提出了一种电子设备,包括:
存储器,用于存储计算机可执行的指令;
处理器,所述处理器被配置执行:
根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本;
原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
本公开还提出了计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行:
根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征S的数据样本;
原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
需要说明的是,本公开的实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述汽车配件图片数据集制作设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Sma rt Med ia Ca rd,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。风电***运行稳定域的构建装置的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本公开的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种电力***运行数据建模与特征选择方法,其特征在于,包括:
根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征集合S的数据样本;
对原始特征集合S进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2;
所述对原始特征集合S进行第一阶段的筛选,得到包含有效特征子集S1的数据样本,包括:
(1)对所述原始特征集合S的数据样本进行Min-Max归一化处理;
(2)对归一化处理后的原始特征集合S进行方差和标准差计算,按照标准差排序,将标准差较低的10%的特征删除,得到特征集合S’;
(3)利用下式,计算所述特征集合S’中任一特征X与Y的相关系数r:
其中,Y为表示仿真运行状态是否稳定的标签,取值为标签0/1,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
将特征集合S’中相关系数r的绝对值小于0.1的特征X进行剔除,得到特征集合S”;
(4)利用下式,计算所述特征集合S”中任一特征X与Y的业务理解能力IV值
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,X和Y的概率分布分别记为P(X)和Q(Y);
将特征集合S”中IV值排序,将IV值较低的10%的特征删除,得到基于统计方法和特征关联度的过滤法第一阶段特征选择有效特征子集S1;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2,包括:
(1)设定a=[a1,a2…,an]表示有效特征子集S1中的n个样本,用N×n的矩阵A表示一个有N条数据记录的训练样本集;b=[b1,b2,…,bn]表示与训练样本集A对应的仿真运行状态是否稳定的标签,标签取值为0/1;用D1,D2…,DL表示L个基分类器;
(2)构建一个旋转森林模型,对所述训练样本集A进行集成学习,步骤如下:
(2-1)对训练样本集A进行75%的有放回bagging重采样,产生一个训练样本集A的样本子集Ai,样本子集Ai中包含k个观测样本;
(2-2)利用下式,求初始矩阵Ai的k×k阶相关系数矩阵Ri:
其中,Ri[m,n]为相关系数矩阵Ri第m行第n列的元素,Ai[m]为样本子集Ai矩阵的第m个样本,Ai[n]为样本子集Ai矩阵的第n个样本,Cov(Ai[m],Ai[n])样本子集Ai矩阵的第m个样本和第n个样本的协方差,Var(Ai[m])样本子集Ai矩阵的第m个样本的方差,Var(Ai[n])样本子集Ai矩阵的第n个样本的方差;
(2-3)计算相关系数矩阵Ri的k个特征值λ,按照特征值λ的大小对特征值进行排序,得到λ1≥λ2≥…≥λk,将与各特征值相对应的一组长度为1且相互正交的特征向量,记为α1,α2,…,αk;
(2-4)设定一个累计贡献率μ,利用下式,得到排序后的特征值λ1≥λ2≥…≥λk中满足下式的q个特征值:
其中,q取最小正整数,累计贡献率μ表示原始特征集合S对原有文件信息量的解释能力,将符合上式累计贡献率μ的特征值记为主成分,得到样本子集Ai的q个主成分,并得到与q个特征值λ1,λ2…λq相对应的特征向量α1,α2,…,αq;
(2-5)利用下式,分别计算与所述q个主成分相对应的主成分矩阵Z中的各元素Z1:
Z1,Z2....,Zq分别表示Z矩阵的第1,2…q行,得到样本子集Ai的主成分矩阵Z;
(2-6)以所述主成分矩阵Z作为所述基分类器Di的输入,以与训练样本子集Ai相对应的仿真运行状态是否稳定的标签作为基分类器Di的输出,对基分类器Di进行训练,得到基分类器Di;
(3)重复步骤(2)L次,得到L个基分类器,将L个基分类器整体记为旋转森林分类器模型D;
(4)利用旋转森林分类器模型D,得到有效特征子集S1每个特征的特征重要程度,按特征重要程度从大到小的顺序对有效特征子集S1中的全部特征进行排列,选择特征值较大的前50%的特征作为第二阶段特征选择精细筛选过程的最终特征子集结果S2。
2.根据权利要求1所述的电力***运行数据建模与特征选择方法,其特征在于,所述根据历史运行数据对电力***建模,得到仿真软件模型工程文件,包括:
(1)对电力***的历史运行数据进行数据清洗、缺失值填充和特征的标准化处理;
(2)根据步骤(1)的数据,得到以电力***电压、电流、功角和潮流所确定的电力***的基本运行状态;
(3)根据步骤(2)的电力***的基本运行状态,设定电力***的发电机、负荷和线路参数,以综合稳定仿真软件格式构建一个仿真电力***;
(4)将步骤(3)的仿真电力***的运行点设置为与步骤(2)的电力***相接近的运行状态,得到仿真软件模型工程文件。
3.根据权利要求1所述的电力***运行数据建模与特征选择方法,其特征在于,所述对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征集合S的数据样本,包括:
(1)采用Python编程语言编写外部调用仿真软件的方法,对所述仿真软件模型工程文件中仿真电力***进行单次仿真运行和仿真结果输出,将Python编程语言编写的可运行的程序文件保存;
(2)利用Python编程语言的多线程模块,对步骤(1)的可运行的程序文件进行多线程调用,在与仿真电力***运行点相接近的运行状态按照实际电力***的运行方式波动随机取值,得到仿真运行数据;并将仿真运行数据保存在数据文件夹中;
(3)对步骤(2)的仿真运行数据进行缺失值和异常值处理,以功角标准为评价指标,若处理后的仿真运行数据在暂态扰动下保持电力***安全稳定,则对仿真运行数据打上标签1,表示为稳定样本,若处理后的仿真运行数据在暂态扰动下不能保持电力***安全稳定,则对仿真运行数据打上标签0,表示为不稳定样本;
(4)将步骤(3)打上标签的数据样本中的仿真运行数据记为原始特征集合S。
4.根据权利要求1所述的电力***运行数据建模与特征选择方法,其特征在于,所述基分类器为以信息增益为基础的决策树。
5.一种用于权利要求1所述电力***运行数据建模与特征选择方法的电力***运行数据建模与特征选择装置,其特征在于,包括:
建模模块,用于根据历史运行数据对电力***建模,得到仿真软件模型工程文件;
仿真计算模块,用于对建模后的电力***进行批量并行仿真,得到包含建模后电力***的原始特征集合S的数据样本;
筛选模块,用于对原始特征集合S进行第一阶段筛选,得到包含有效特征子集S1的数据样本;
计算模块,用于采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力***运行数据的特征子集S2。
6.一种电子设备,其特征在于,包括:
存储器,用于存储计算机可执行的指令;
处理器,所述处理器被配置执行权利要求1-4中任意一项所述的电力***运行数据建模与特征选择方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序用于使所述计算机执行权利要求1-4中任意一项所述的电力***运行数据建模与特征选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111180509.5A CN114021425B (zh) | 2021-10-11 | 2021-10-11 | 电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111180509.5A CN114021425B (zh) | 2021-10-11 | 2021-10-11 | 电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114021425A CN114021425A (zh) | 2022-02-08 |
CN114021425B true CN114021425B (zh) | 2024-04-12 |
Family
ID=80055762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111180509.5A Active CN114021425B (zh) | 2021-10-11 | 2021-10-11 | 电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021425B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618265A (zh) * | 2022-11-04 | 2023-01-17 | 广州魔番网络科技有限公司 | 基于大数据和边缘计算的数据整合方法及*** |
CN116663338B (zh) * | 2023-08-02 | 2023-10-20 | 中国电子信息产业集团有限公司第六研究所 | 一种基于相似算例的仿真分析方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334721A (zh) * | 2018-04-24 | 2018-07-27 | 清华大学 | 基于mMIFS-U的两阶段电力***关键特征选择方法及装置 |
CN109636248A (zh) * | 2019-01-15 | 2019-04-16 | 清华大学 | 适用于电力***暂态稳定评估的特征选择方法及装置 |
CN110889255A (zh) * | 2019-10-31 | 2020-03-17 | 国网湖北省电力有限公司 | 一种基于级联深度森林的电力***暂态稳定评估方法 |
CN111401749A (zh) * | 2020-03-17 | 2020-07-10 | 三峡大学 | 一种基于随机森林与极限学习回归的动态安全评估方法 |
WO2020147349A1 (zh) * | 2019-01-14 | 2020-07-23 | 中国电力科学研究院有限公司 | 配电网运行辅助决策分析***及方法 |
CN112396113A (zh) * | 2020-11-23 | 2021-02-23 | 国家电网公司东北分部 | 一种电力***运行方式数据特征两阶段选择方法 |
CN112926640A (zh) * | 2021-02-22 | 2021-06-08 | 齐鲁工业大学 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
-
2021
- 2021-10-11 CN CN202111180509.5A patent/CN114021425B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334721A (zh) * | 2018-04-24 | 2018-07-27 | 清华大学 | 基于mMIFS-U的两阶段电力***关键特征选择方法及装置 |
WO2020147349A1 (zh) * | 2019-01-14 | 2020-07-23 | 中国电力科学研究院有限公司 | 配电网运行辅助决策分析***及方法 |
CN109636248A (zh) * | 2019-01-15 | 2019-04-16 | 清华大学 | 适用于电力***暂态稳定评估的特征选择方法及装置 |
CN110889255A (zh) * | 2019-10-31 | 2020-03-17 | 国网湖北省电力有限公司 | 一种基于级联深度森林的电力***暂态稳定评估方法 |
CN111401749A (zh) * | 2020-03-17 | 2020-07-10 | 三峡大学 | 一种基于随机森林与极限学习回归的动态安全评估方法 |
CN112396113A (zh) * | 2020-11-23 | 2021-02-23 | 国家电网公司东北分部 | 一种电力***运行方式数据特征两阶段选择方法 |
CN112926640A (zh) * | 2021-02-22 | 2021-06-08 | 齐鲁工业大学 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114021425A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114021425B (zh) | 电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN101464964A (zh) | 一种设备故障诊断的支持向量机模式识别方法 | |
CN108694470A (zh) | 一种基于人工智能的数据预测方法及装置 | |
CN109409444B (zh) | 一种基于先验概率的多元电网故障类型的判别方法 | |
CN113283602A (zh) | 基于离线知识学习和在线动态修正电网***故障诊断方法 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN113177357A (zh) | 一种电力***暂态稳定评估方法 | |
CN112801315A (zh) | 电力二次设备的状态诊断方法、装置及终端 | |
CN113743650B (zh) | 电力负荷预测方法、装置、设备与存储介质 | |
CN116992274B (zh) | 基于改进主成分回归模型的短期风速预测方法及*** | |
CN115035966B (zh) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 | |
CN117669874A (zh) | 一种基于qpso的电网规划数据失真智能识别方法及*** | |
CN115470854A (zh) | 信息***故障分类方法及分类*** | |
CN114971053A (zh) | 低压台区网络线损率在线预测模型的训练方法及装置 | |
Dabou et al. | Supervised learning of overcomplete dictionaries for rapid response-based dynamic stability prediction | |
CN108108909A (zh) | 面向电力事故、误操作事故与违章操作事故的数据分析方法 | |
Zhu et al. | Fast grid splitting detection for n-1 contingency analysis by graph computing | |
CN113283638A (zh) | 一种基于融合模型的负荷极值曲线预测方法及*** | |
CN111553040A (zh) | 一种基于gpu加速的电网拓扑分析高性能计算方法及装置 | |
CN117745423B (zh) | 一种异常账户的识别方法 | |
CN114298413B (zh) | 一种水电机组振摆趋势预测方法 | |
Cao et al. | CLAD: A Deep Learning Framework for Continually Learning in Anomaly Detection | |
Li et al. | FAITH: Frequency-domain Attention In Two Horizons for Time Series Forecasting | |
Feng et al. | A Multi-dimensional Division Decision Model of Power Grid Management Based on Fuzzy Matching | |
Hamid et al. | Satisfiable integer programming algorithm on distributed inter process communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |