CN112364928A - 一种变电站故障数据诊断中的随机森林分类方法 - Google Patents

一种变电站故障数据诊断中的随机森林分类方法 Download PDF

Info

Publication number
CN112364928A
CN112364928A CN202011292591.6A CN202011292591A CN112364928A CN 112364928 A CN112364928 A CN 112364928A CN 202011292591 A CN202011292591 A CN 202011292591A CN 112364928 A CN112364928 A CN 112364928A
Authority
CN
China
Prior art keywords
random forest
data
sample set
original
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011292591.6A
Other languages
English (en)
Inventor
蒋一波
冯缘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011292591.6A priority Critical patent/CN112364928A/zh
Publication of CN112364928A publication Critical patent/CN112364928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

一种变电站故障数据诊断中的随机森林分类方法,从变电站故障诊断***中提取数据,对数据进行预处理,得到原始样本集,包括以下步骤:(1)建立随机森林模型;(2)对原始随机森林模型进行重要性分析;(3)对原始样本集进行处理,保留结果与所选出的特征,生成新的样本集,同时对测试集进行相同处理;(4)使用新样本集,重复步骤(1)得到最终随机森林模型;(5)利用测试集对随机森林模型进行测试,评估模型性能;(6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。本发明减少了大量的实时数据处理量,加快***分类速度,保证决策***实时性;分类性能好;避免过拟合。

Description

一种变电站故障数据诊断中的随机森林分类方法
技术领域
本发明涉及一种变电站故障数据诊断中的随机森林分类方法。
背景技术
现有技术中,当电网发生故障时,监控设备会及时产生报警信息并上传,例如开关跳闸、自动保护装置动作、欠电压、过电流、设备过负荷等这些信息。特别是当一些结构、规模巨大的电力***出现故障时,一时间***会产生大量的报警信息,而这些信息中包括大量的由保护或断路器误动、拒动,信道传输干扰错误,保护动作时间偏差等因素造成的不确定性的知识和数据。目前国内外提出了许多变电站故障数据诊断的技术和方法主要有专家***、人工神经网络、优化算法技术、petri网络、模糊集理论、粗糙集理论等。以上智能技术在应用于故障诊断时各有不同优点,但同时也暴露出许多的问题。例如专家***的维护难度高,容错性差;人工神经网络缺乏对自身行为的解释能力,同时需要大量训练样本等。目前已有的变电站故障数据诊断分类方法存在问题,无法同时保证准确率与效率,而在现实变电站故障诊断***的使用中,对诊断速度与准确率的要求都较高。
发明内容
为了克服现有技术的不足,本发明提供一种变电站故障数据诊断项目中的随机森林分类方法,在决策树的基础上采用集成学习的思想,通过随机选择样本和随机选择特征进行训练生成随机森林,并通过随机森林对数据分类。
本发明解决其技术问题所采用的技术方案是:
一种变电站故障诊断项目中的随机森林分类方法,从变电站故障诊断***中提取数据,对数据进行预处理,得到原始样本集,所述方法包括以下步骤:
(1)建立随机森林模型,过程如下:
(1.1)设T为原始样本集,其中总共有n个样例,则每轮从原始样本集T 中通过Bootstraping(有放回抽样)的方式抽取n个样例,得到一个大小为n的训练集Ti,在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例,共进行k轮的抽取,则每轮抽取的训练集分别为T1,T2,…,Tk,未被包含的数据被称为袋外数据;
(1.2)建立决策树;
(1.3)重复步骤(1.1)和(1.2),直到所有CART树都经过训练,组合所有决策树,构建成原始随机森林模型;
(2)对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前L 个特征;
(3)对原始样本集T进行处理,保留结果与所选出的特征,生成新的样本集Y,同时对测试集进行相同处理;
(4)使用新样本集Y,重复步骤(1),得到最终随机森林模型H;
(5)利用测试集对随机森林模型H进行测试,评估模型性能;
(6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。
进一步,所述(1.2)的过程为:
(1.2.1)设每个样本有M个特征,指定一个数m=|log2M|,满足条件m<<M,在每个内部节点,从M个特征中随机选取出m个特征组成新的特征集Di,从特征集Di中选择一个最优属性对节点进行***;
(1.2.2)每个节点都按照(1.2.1)来***,直到不能够再***为止,利用CART 方法使每棵树最大限度地生长,不进行剪枝。
再进一步,所述变电站故障诊断***为SCADA或EMS***。
本发明的工作原理是:本发明提出了一种变电站故障诊断中的随机森林分类方法。从电网公司中获取数据,在建立决策树过程中,用基尼指数最小化准则,进行特征选择,生成二叉树;使用原始样本集建立原始随机森林模型,对其进行特征重要性分析,筛选出关键特征并处理原始样本集。使用新样本集建立最终随机森林模型,从而大量减少数据处理量;最终随机森林分类模型通过投票规则得出分类结果。
本发明的有益效果主要表现在:1、减少了大量的实时数据处理量,加快***分类速度,保证决策***实时性。2、分类性能好。3、避免过拟合。
附图说明
图1是变电站故障诊断项目中的随机森林分类方法的流程图。
图2是变电站故障数据的二层随机森林分类***。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种变电站故障诊断项目中的随机森林分类方法,包括以下步骤:
第一步:从SCADA、EMS等***中提取原始数据。
第二步:对原始数据进行数据预处理得到原始样本集T,预处理包括:
2.1)将非数值类型的数据转换为数值类型
2.2)若样本中含缺失值,删除该样本
2.3)若存在两个或多个样本,属性值与类别均完全相同,只存留一个,删除其余重复样本
2.4)若存在两个或多个样本,属性值完全相同但类别不同,删除这些无效样本
第三步:T为原始样本集,其中总共有n个样例,则每轮从原始样本集T中通过有放回抽样的方式抽取n个样例,得到一个大小为n的训练集Ti。在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例。共进行k轮的抽取,则每轮抽取的训练集分别为T1,T2,…,Tk,未被包含的数据被称为袋外数据,袋外数据作为此随机模型的测试集。
第四步:依照训练集T1,T2,…,Tk建立k个决策树
每个样本有M个特征,指定一个数m=|log2M|,满足条件m<<M,在每个内部节点,从M个特征中随机选取出m个特征组成新的特征集Di。从特征集Di中选择一个最优属性对节点进行***。
每个节点都按照以上步骤来***,直到不能够再***为止。利用CART算法使每棵树最大限度地生长,不进行剪枝。
第五步:将k个决策树组合起来,每一颗决策树权重相同,构建成原始随机森林模型。
第六步:对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前 L个特征。
第七步:对原始样本集T进行处理,保留结果与选出特征,生成新的样本集 Y,将未被包含的数据(袋外数据)作为测试数据。
第八步:使用新样本集Y,重复以上建立随机森林模型的步骤(即第三步至第五步),得到最终随机森林模型H。
第九步:利用测试集对随机森林模型H进行测试,分类结果按树分类器的投票多少而定,将所得分类结果与测试集结果对比,验证模型的可靠性。
第十步:用随机森林分类器对新的数据进行分类,并将分类结果储存到数据库中。
参照图2,应用本方法实现的变电站故障数据识别项目中的二层随机森林分类***,主要包括:分类模块、用户交互模块。所述分类模块根据模型进行分类,计算分类正确率;所述用户交互模块,实现数据可视化展示,Web界面配置,应用程序配置。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (3)

1.一种变电站故障数据诊断中的随机森林分类方法,其特征在于,从变电站故障诊断***中提取数据,对数据进行预处理,得到原始样本集,所述方法包括以下步骤:
(1)建立随机森林模型,过程如下:
(1.1)设T为原始样本集,其中总共有n个样例,则每轮从原始样本集T中通过Bootstrapin的方式抽取n个样例,得到一个大小为n的训练集Ti,在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例。共进行k轮的抽取,则每轮抽取的训练集分别为T1,T2,…,Tk,未被包含的数据被称为袋外数据;
(1.2)建立决策树;
(1.3)重复步骤(1.1)和(1.2),直到所有CART树都经过训练,组合所有决策树,构建成原始随机森林模型;
(2)对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前L个特征;
(3)对原始样本集T进行处理,保留结果与所选出的特征,生成新的样本集Y,同时对测试集进行相同处理;
(4)使用新样本集Y,重复步骤(1),得到最终随机森林模型H;
(5)利用测试集对随机森林模型H进行测试,评估模型性能;
(6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。
2.如权利要求1所述的一种变电站数据故障诊断中的随机森林分类方法,其特征在于,所述(1.2)的过程为:
(1.2.1)设每个样本有M个特征,指定一个数m=|log2M|,满足条件m<<M,在每个内部节点,从M个特征中随机选取出m个特征组成新的特征集Di,从特征集Di中选择一个最优属性对节点进行***;
(1.2.2)每个节点都按照(1.2.1)来***,直到不能够再***为止,利用CART方法使每棵树最大限度地生长,不进行剪枝。
3.如权利要求1或2所述的一种变电站数据故障诊断中的随机森林分类方法,其特征在于,所述变电站故障诊断***为SCADA或EMS***。
CN202011292591.6A 2020-11-18 2020-11-18 一种变电站故障数据诊断中的随机森林分类方法 Pending CN112364928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011292591.6A CN112364928A (zh) 2020-11-18 2020-11-18 一种变电站故障数据诊断中的随机森林分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011292591.6A CN112364928A (zh) 2020-11-18 2020-11-18 一种变电站故障数据诊断中的随机森林分类方法

Publications (1)

Publication Number Publication Date
CN112364928A true CN112364928A (zh) 2021-02-12

Family

ID=74532720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011292591.6A Pending CN112364928A (zh) 2020-11-18 2020-11-18 一种变电站故障数据诊断中的随机森林分类方法

Country Status (1)

Country Link
CN (1) CN112364928A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949714A (zh) * 2021-03-02 2021-06-11 北京城建设计发展集团股份有限公司 一种基于随机森林的故障可能性预估方法
CN113095511A (zh) * 2021-04-16 2021-07-09 广东电网有限责任公司 一种在自动化主站实现操作到位的判断方法及装置
CN113362118A (zh) * 2021-07-08 2021-09-07 广东电网有限责任公司 一种基于随机森林的用户用电行为分析方法及***
CN113408068A (zh) * 2021-06-18 2021-09-17 浙江大学 一种随机森林分类的机泵故障诊断方法及装置
CN114154561A (zh) * 2021-11-15 2022-03-08 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108680348A (zh) * 2018-05-14 2018-10-19 国网山东省电力公司莱芜供电公司 一种基于随机森林的断路器机械故障诊断方法及***
CN109685051A (zh) * 2018-11-14 2019-04-26 国网上海市电力公司 一种基于电网***的红外图像故障诊断***
CN111461214A (zh) * 2020-03-31 2020-07-28 国网上海市电力公司 一种基于随机森林算法的绝缘管母故障自动诊断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108680348A (zh) * 2018-05-14 2018-10-19 国网山东省电力公司莱芜供电公司 一种基于随机森林的断路器机械故障诊断方法及***
CN109685051A (zh) * 2018-11-14 2019-04-26 国网上海市电力公司 一种基于电网***的红外图像故障诊断***
CN111461214A (zh) * 2020-03-31 2020-07-28 国网上海市电力公司 一种基于随机森林算法的绝缘管母故障自动诊断方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949714A (zh) * 2021-03-02 2021-06-11 北京城建设计发展集团股份有限公司 一种基于随机森林的故障可能性预估方法
CN113095511A (zh) * 2021-04-16 2021-07-09 广东电网有限责任公司 一种在自动化主站实现操作到位的判断方法及装置
CN113408068A (zh) * 2021-06-18 2021-09-17 浙江大学 一种随机森林分类的机泵故障诊断方法及装置
CN113362118A (zh) * 2021-07-08 2021-09-07 广东电网有限责任公司 一种基于随机森林的用户用电行为分析方法及***
CN114154561A (zh) * 2021-11-15 2022-03-08 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法
CN114154561B (zh) * 2021-11-15 2024-02-27 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法

Similar Documents

Publication Publication Date Title
CN112364928A (zh) 一种变电站故障数据诊断中的随机森林分类方法
CN110943857B (zh) 基于卷积神经网络的电力通信网故障分析及定位方法
CN110705873B (zh) 一种配电网运行状态画像分析方法
CN107274105B (zh) 基于线性判别分析的多属性决策树电网稳定裕度评估方法
CN109507535B (zh) 变电站接地网运行阶段及运行寿命预测方法及装置
CN103902816A (zh) 基于数据挖掘技术的带电检测数据处理方法
CN109753499A (zh) 一种运维监控数据治理方法
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN108880706A (zh) 一种卫星信道链路故障的快速诊断方法
CN112966385A (zh) 配电网网架拓扑薄弱点辨识方法与***
CN113191585A (zh) 一种输电线路的台风致灾风险评估方法
CN115293383A (zh) 融合博弈论的变压器风险致因分析方法
CN117614141B (zh) 一种用于配电网的多电压层级协调管理方法
CN104978837B (zh) 一种面向用户端变电所的报警***及其实现方法
CN112149731A (zh) 基于id3算法的电力***故障分类方法及***
CN112364929A (zh) 一种发电厂故障数据诊断项目中的随机森林分类方法
CN115542070A (zh) 一种配网线路故障定位方法及存储介质
Lin et al. A method of satellite network fault synthetic diagnosis based on C4. 5 algorithm and expert knowledge database
CN114399407A (zh) 一种基于动静态选择集成的电力调度监控数据异常检测方法
CN115809761B (zh) 一种基于低压台区的电压质量分析方法及***
Ying et al. Evaluation model of distribution station area based on multi-source heterogeneous data fusion
Bai et al. Knowledge representation and acquisition approach based on decision tree
CN117289078B (zh) 一种基于数字孪生的电网故障分析方法及***
CN117319290A (zh) 基于时空大数据实时地理通信方法
CN113886469B (zh) 基于多源数据的配电网工程成效异常自动挖掘方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination