CN111310785A - 一种国家电网机械外破预测方法 - Google Patents

一种国家电网机械外破预测方法 Download PDF

Info

Publication number
CN111310785A
CN111310785A CN202010041704.9A CN202010041704A CN111310785A CN 111310785 A CN111310785 A CN 111310785A CN 202010041704 A CN202010041704 A CN 202010041704A CN 111310785 A CN111310785 A CN 111310785A
Authority
CN
China
Prior art keywords
information
sub
historical
sample
power transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010041704.9A
Other languages
English (en)
Inventor
吴和俊
熊志刚
王敏康
陆宇宁
程田宝
胡驰远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huawang Information Technology Co ltd
Original Assignee
Hangzhou Huawang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huawang Information Technology Co ltd filed Critical Hangzhou Huawang Information Technology Co ltd
Priority to CN202010041704.9A priority Critical patent/CN111310785A/zh
Publication of CN111310785A publication Critical patent/CN111310785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种国家电网机械外破预测方法,涉及机器学习领域,用于对国家电网的电力塔杆、电力传输线路和电力传输通道进行机械外破风险预测,包括如下步骤:采集历史信息,形成完整的历史数据,对完整的历史数据进行重采样,训练Catboost模型,采集当前信息,形成完整的当前数据,利用训练好的Catboost模型进行机械外破风险预测。本发明所提供的方法可以预测电力塔杆、电力传输线路以及电力传输通道发生机械外破风险的概率和风险等级,提前部署应对措施。

Description

一种国家电网机械外破预测方法
【技术领域】
本发明涉及机器学习领域,具体涉及一种国家电网机械外破预测方法。
【背景技术】
随着经济的发展,各地区基础设施建设都在如火如荼地开展。在工程建设中,各种大型工程机械,如吊车、挖掘机等在工地来回穿梭,给附近的电力塔杆以及电力传输线路带来了不小的风险。这种工程机械对电力塔杆以及电力传输线路造成损毁的风险即称之为机械外破风险。由于少数施工人员的安全知识和安全意识存在问题,使得大型工程机械与高压线路之间的安全距离难以得到有效控制,极易发生放电、碰线事故,导致大面积停电。这不仅给肇事者带来人身伤害、给电力企业造成损失,也对工地周边的工厂和居民的用电造成影响。但是,目前对于国家电网的电力塔杆、电力传输线路出现机械外破的主要应对措施还处于加强防护和对于出现问题以后的应急,并没有对国家电网的电力塔杆、电力传输线路和电力传输通道出现机械外破风险的可能性提前做出预警。
【发明内容】
为解决前述问题,本发明提供了一种国家电网机械外破预测方法,以预测电力塔杆、电力传输线路以及电力传输通道发生机械外破风险的概率和风险等级。
为了达到上述目的,本发明采用如下技术方案:
一种国家电网机械外破预测方法,所述国家电网机械外破预测方法用于对国家电网的电力塔杆、电力传输线路以及电力传输通道进行机械外破风险预测,包括如下步骤:
采集历史信息,对历史信息进行整理,形成完整的历史数据,完整的历史数据具有若干维度,所述维度即为数据特征;
采用SMOTE+Tomek Links算法对完整的历史数据进行重采样,形成训练数据集;
利用训练数据集训练Catboost模型;
采集当前信息,对当前信息进行整理,形成完整的当前数据;
基于完整的当前数据,利用训练好的Catboost模型进行机械外破风险预测。
可选的,采集历史信息包括现场维修部门部署历史信息、塔杆及线路台账历史信息和气象历史信息;
现场维修部门部署历史信息包括线路缺陷子信息、隐患子信息、故障子信息;
气象历史信息包括天气状况子信息、气温子信息、湿度子信息、风速子信息、风向子信息。
可选的,对历史信息进行整理,形成完整的历史数据具体包括:
基于国家电网的电力传输线路,将与同一条电力传输线路相关的历史信息及其子信息作为一条完整的历史数据,一条完整的历史数据下,不同的历史信息及其子信息作为该完整的历史数据下不同的维度;
对历史信息进行整理,确定各个历史信息下的数值子信息和/或非数值子信息;
对各个历史信息下缺失的数值子信息补充完整;
对各个历史信息下的非数值子信息进行独热编码;
独热编码后,对气象历史信息构建气象子信息,构建的气象子信息包括每日温度、每日湿度、每日风速以及每日气压的平均统计、最大值统计、最小值统计,还包括月平均降雨频数统计、月平均降雨频率统计、月平均降雪频数统计、月平均降雪频率统计。
可选的,对各个历史信息下缺失的数值子信息补充完整时,如果某一历史信息下的数值子信息缺失量超过一半,则删除该历史信息及其数值子信息;如果该历史信息下的数值子信息缺失量未超过一半,则使用该历史信息下数值子信息的平均数、中位数或行/列众数对该历史信息补充完整。
可选的,对非数值子信息进行独热编码时,将同一历史信息下的各个非数值子信息分别作为状态值,所述状态值的位数与该历史信息下的各个非数值子信息的个数相等,每个状态值中只有一位为1,其余位为0。
可选的,采用SMOTE+Tomek Links算法对完整的历史数据进行重采样具体包括:
从完整的历史数据中筛选出正类样本,所述正类样本为完整的历史数据中与机械外破相关的样本;
对于第i个正类样本xi使用K近邻算法,求出距离第i个正类样本xi最近的k个正类样本,所述距离为正类样本之间n维特征空间的欧氏距离,然后从距离第i个正类样本xi最近的k个正类样本中随机选取一个,生成新数据:
Figure BDA0002367989310000021
其中,xnew为新样本,
Figure BDA0002367989310000022
为距离第i个正类样本xi最近的k个正类样本,δ∈[0,1]随机数;
采用SOMTE算法生成了新的正类样本后得到扩充后的数据集,找出扩充后的数据集中构成Tomek Link对样本,构成Tomek Link对的数据满足下述条件:在所述样本集中,样本xj和样本xk的类别不同,样本xj和样本xk的距离为d(xj,xk),若不存在样本xl,使得d(xl,xj)<d(xj,xk)或者d(xl,xk)<d(xj,xk)成立,则样本xj和样本xk构成Tomek Link对;
删除构成Tomek Link对的所有样本。
可选的,所述Catboost模型被训练的参数包括学习率learning_rate、树最大深度max_depth、最大决策树数目iterations、L2正则化系数l2_leaf_reg、损失函数loss_function、数值特征分割数border_count、类别特征分割数ctr_border_count。
可选的,所述Catboost模型输出的AUC值作为Catboost模型的适应度值。
可选的,利用训练好的Catboost模型进行机械外破风险预测,包括对电力塔杆预测、对电力传输线路预测以及对电力传输通道预测;
对待预测区域的国家电网的电力传输线路划分第一区间,在任一第一区间内,任一电力塔杆的预测结果为有机械外破风险,则该第一区间电力塔杆的机械外破风险发生状态为有风险;且机械外破风险发生概率为该第一区间内所有电力塔杆预测结果为有风险的概率最大值;
在任一第一区间内,所有电力塔杆的预测结果均为无机械外破风险,则该第一区间电力塔杆的机械外破风险发生状态为无风险;
对电力传输线路的预测为待预测区域内所有第一区间电力塔杆的机械外破风险发生状态中出现次数最多的风险发生状态,电力传输线路风险发生概率为:取待预测区域内所有第一区间的电力塔杆的机械外破风险发生概率的最大值;
对待预测区域的国家电网的电力传输通道划分第二区间,对电力传输通道的预测为待预测区域内所有第二区间电力塔杆的机械外破风险发生状态中出现次数最多的风险发生状态,电力传输通道风险发生概率为:取待预测区域内所有第二区间的电力塔杆的机械外破风险发生概率的最大值。
可选的,采集的当前信息与采集的历史信息的类目相同;对当前信息进行整理,形成完整的当前数据,与对历史信息进行整理,形成完整的历史数据的步骤相同。
本发明具有如下有益效果:
1、由于国家电网机械外破数据来源不同,脏数据比较多,并且类别不平衡,因此,对采集的数据进行处理,对缺失的数据补全,对非数值型的数据进行编码,采用SMOTE+Tomek Links算法对数据进行筛选,避免了正负样本不平衡对算法效果造成负面影响,保证数据的准确以及预测结果的准确;
2、采用Catboost模型,避免了对于训练数据集中数据的过拟合,减少从低频类别获得的噪声,同时具有卓越的性能和鲁棒性,易于使用,进一步保证预测结果的准确性和稳定性,以便及时发现风险并避免风险,根据风险等级辅助确定治理措施,减少人力物力的损失,提高员工工作效率。
本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现,但并非是对本发明技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。
【附图说明】
下面结合附图对本发明作进一步说明:
图1为本发明实施例的流程图。
【具体实施方式】
下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。
实施例:
如图1所示,本实施例提供一种国家电网机械外破预测方法,用于对国家电网的电力传输线路、电力塔杆进行机械外破风险预测,包括如下步骤:
采集历史信息,包括现场维修部门部署历史信息、塔杆及线路台账历史信息和气象历史信息,其中,现场维修部门部署历史信息包括线路缺陷子信息、隐患子信息、故障子信息;气象历史信息包括天气状况子信息、气温子信息、湿度子信息、风速子信息、风向子信息。
对采集的上述历史信息进行整理,形成完整的历史数据,完整的历史数据具有若干维度,维度即为数据特征。由于国家电网机械外破数据来源不同,脏数据比较多,因此,需要对采集的历史信息进行处理,对缺失的数据补全,以避免脏数据、缺失数据对后续算法效果造成负面影响,还需要对非数值型的数据进行编码,以便于计算机读取、识别。对历史信息进行整理,形成完整的历史数据具体包括如下子步骤:
基于国家电网的电力传输线路,将与同一条电力传输线路相关的历史信息及其子信息作为一条完整的历史数据。一条完整的历史数据下,不同的历史信息及其子信息作为该完整的历史数据下不同的维度;
对历史信息进行整理,确定各个历史信息下的数值子信息和/或非数值子信息,
对各个历史信息下缺失的数值子信息补充完整:如果某一历史信息下的数值子信息缺失量超过一半,则删除该历史信息及其数值子信息;如果该历史信息下的数值子信息缺失量未超过一半,则采用相近的数值子信息合理地对缺失数值子信息的历史信息进行填补,具体可使用该历史信息下数值子信息的平均数、中位数或行/列众数对该历史信息补充完整,本实施例优选采用中位数对缺失数值子信息的历史信息补充完整。
对各个历史信息下的非数值子信息进行独热编码:将同一历史信息下的各个非数值子信息分别作为状态值,状态值的位数与该历史信息下的各个非数值子信息的个数相等,每个状态值中只有一位为1,其余位为0。进行独热编码后,各个历史信息下的非数值子信息可由计算机读取、识别并计算。
独热编码后,对气象历史信息构建气象子信息,构建的气象子信息包括每日温度、每日湿度、每日风速以及每日气压的平均统计、最大值统计、最小值统计,还包括月平均降雨频数统计、月平均降雨频率统计、月平均降雪频数统计、月平均降雪频率统计。
完成了对历史信息的整理和补全,形成完整的历史数据以后,由于机械外破风险在现实环境中较少,因此机械外破风险的完整的历史数据是不平衡数据。为了避免不平衡数据对后续算法效果的影响,保证数据的准确以及预测结果的准确,本实施例采用SMOTE+Tomek Links算法对完整的历史数据进行重采样,形成训练数据集,具体包括如下子步骤:
从完整的历史数据中筛选出正类样本,正类样本为完整的历史样本中与机械外破相关的样本;
对于第i个正类样本xi使用K近邻算法,求出距离第i个正类样本xi最近的k个正类样本,距离为正类样本之间n维特征空间的欧氏距离,然后从距离第i个正类样本xi最近的k个正类样本中随机选取一个,生成新样本:
Figure BDA0002367989310000051
其中,xnew为新样本,
Figure BDA0002367989310000052
为距离第i个正类样本xi最近的k个正类样本,δ∈[0,1]随机数;
SMOTE算法的主要思想是通过在一些位置相近的正类样本中生成新样本,以达到平衡类别的目的。由于SMOTE算法不是简单的复制正类样本,因此可以在一定程度上避免正类样本的过拟合。
从新样本以及筛选出的正类样本构成的样本集中,找出构成Tomek Link对的两个样本,构成Tomek Link对的样本满足下述条件:在样本集中,样本xj和样本xk的类别不同,样本xj和样本xk的距离为d(xj,xk),若不存在样本xl,使得d(xl,xj)<d(xj,xk)或者d(xl,xk)<d(xj,xk)成立,则样本xj和样本xk构成Tomek Link对;
删除构成Tomek Link对的所有样本。
Tomek Links算法主要是用于对完整的历史数据的重采样以及清洗。
SMOTE+Tomek Links算法就是将SMOTE上采样方法与Tomek Link下采样方法相结合。首先利用SMOTE方法生成新的正类样本,得到扩充的样本集以后,再删除Tomek Link对。普通SMOTE方法生成的少数类样本是通过线性差值得到的,在平衡类别分布的同时也扩张了正类样本的样本空间,产生的问题是可能原本属于不是正类样本的空间被正类样本“入侵”,容易造成模型的过拟合。Tomek links则是寻找噪声点或者边界点,以便于解决正类样本“入侵”原本属于不是正类样本的空间。
至此,已经完成了从历史信息到训练数据集的转换,利用得到的训练数据集训练Catboost模型。Catboost模型被训练的参数包括学习率learning_rate、树最大深度max_depth、最大决策树数目iterations、L2正则化系数l2_leaf_reg、损失函数loss_function、数值特征分割数border_count、类别特征分割数ctr_border_count;Catboost模型输出的AUC值作为Catboost模型的适应度值。
Catboost模型是一个新的开源的梯度提升框架,其优点如下:
自动处理类别特征:传统式的集成学习算法对于类别特征处理都是直接转换为数值型特征,如one-hot编码,但是类别特征并没有大小之分。另一种类别特征的处理方式是采用标签计算一些统计量,但是容易过度拟合。而Catboost模型为了避免过拟合,使用了更有效的策略,对于输入的集合进行随机排列,生成多个随机排列,添加先验值有助于减少从低频类别获得的噪声。
特征组合:Catboost模型中采用的是对称完成二叉树,每次划分两条路径,划分的顺序是随机的,特征划分后维度数并没有减少,但是用来划分的特征会与另一个类别特征相结合以形成新特征,即从所有可能的组合中选择出最最优解。
克服梯度偏差:Catboost模型和所有标准梯度提升算法一样,都是通过构建新树来拟合当前模型的梯度。然而,所有经典的提升算法都存在由有偏的点态梯度估计引起的过拟合问题。许多利用GBDT技术的算法(例如,XGBoost、LightGBM),构建一棵树分为两个阶段:选择树结构和在树结构固定后计算叶子节点的值。为了选择最佳的树结构,算法通过枚举不同的分割,用这些分割构建树,对得到的叶子节点中计算值,然后对得到的树计算评分,最后选择最佳的分割。两个阶段叶子节点的值都是被当做梯度或牛顿步长的近似值来计算。本实施例中,CatBoost第一阶段采用梯度步长的无偏估计,第二阶段使用传统的GBDT方案执行。
Catboost模型具有卓越的性能和鲁棒性,易于使用,进一步保证预测结果的准确性和稳定性,以便及时发现风险并避免风险,根据风险等级辅助确定治理措施,减少人力物力的损失,提高员工工作效率。
采集当前信息,对当前信息进行整理,形成完整的当前数据,采集的当前信息与采集的历史信息的类目相同;对当前信息进行整理,形成完整的当前数据,与对历史信息进行整理,形成完整的历史数据的步骤相同,在此不再赘述。
基于完整的当前数据,利用训练好的Catboost模型进行机械外破风险预测,包括对电力塔杆预测、对电力传输线路预测以及电力传输通道预测。由于建模对象是电力塔杆,而业务评估的最终对象包括电力传输线路和电力传输通道,因此本实施例中,采用分而治之的思想对电力传输线路和电力传输通道的风险状态作评估预测,即对待预测区域的国家电网进行区间划分,把电力传输线路和电力传输通道视作由若干个区间构成,再把每个区间作为由若干根连续的电力塔杆构成。因此,可以通过对电力塔杆的风险状态预测,进而评估整条电力传输线路和电力传输通道的风险状态。但是,由于国家标准对于电力传输通道作出了标准性的规定,因此,对于电力传输通道的区间划分,应在国家标准对于电力传输通道所做规定的基础上进行,其划分的方式亦在国家标准中有相关规定,因而依照国家标准规定执行;而对于电力传输线路的区间划分,则可根据实际预测需求灵活进行,本实施例中采用3km*3km的网格进行划分。电力传输线路和电力传输通道不同的划分依据导致了对于电力传输线路的区间划分和对于电力传输通道的区间划分不可通用,本实施例中,对于电力传输线路的区间划分记作第一区间,对电力传输通道的区间划分记作第二区间,以示区别:
在任一第一区间内,任一电力塔杆的预测结果为有机械外破风险,则该第一区间电力塔杆的机械外破风险发生状态为有风险;训练好的Catboost模型可以直接计算出任一电力塔杆预测结果为有风险的概率,在本实施例中,某一第一区间机械外破风险发生概率为该第一区间内所有电力塔杆预测结果为有风险的概率的最大值;
在任一第一区间内,所有电力塔杆的预测结果均为无机械外破风险,则该第一区间电力塔杆的机械外破风险发生状态为无风险;
对电力传输线路的预测为待预测区域内所有第一区间电力塔杆的机械外破风险发生状态中出现次数最多的风险发生状态,电力传输线路风险发生概率为:取待预测区域内所有第一区间的电力塔杆的机械外破风险发生概率的最大值;
对电力传输通道的预测为待预测区域内所有第二区间电力塔杆的机械外破风险发生状态中出现次数最多的风险发生状态,电力传输通道风险发生概率为:取待预测区域内所有第二区间的电力塔杆的机械外破风险发生概率的最大值。
预测结果总体如下表所示:
Figure BDA0002367989310000071
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims (10)

1.一种国家电网机械外破预测方法,其特征在于,所述国家电网机械外破预测方法用于对国家电网的电力塔杆、电力传输线路和电力传输通道进行机械外破风险预测,包括如下步骤:
采集历史信息,对历史信息进行整理,形成完整的历史数据,完整的历史数据具有若干维度,所述维度即为数据特征;
采用SMOTE+Tomek Links算法对完整的历史数据进行重采样,形成训练数据集;
利用训练数据集训练Catboost模型;
采集当前信息,对当前信息进行整理,形成完整的当前数据;
基于完整的当前数据,利用训练好的Catboost模型进行机械外破风险预测。
2.根据权利要求1所述的国家电网机械外破预测方法,其特征在于,采集历史信息包括现场维修部门部署历史信息、塔杆及线路台账历史信息和气象历史信息;
现场维修部门部署历史信息包括线路缺陷子信息、隐患子信息、故障子信息;
气象历史信息包括天气状况子信息、气温子信息、湿度子信息、风速子信息、风向子信息。
3.根据权利要求2所述的国家电网机械外破预测方法,其特征在于,对历史信息进行整理,形成完整的历史数据具体包括:
基于国家电网的电力传输线路,将与同一条电力传输线路相关的历史信息及其子信息作为一条完整的历史数据,一条完整的历史数据下,不同的历史信息及其子信息作为该完整的历史数据下不同的维度;
对历史信息进行整理,确定各个历史信息下的数值子信息和/或非数值子信息;
对各个历史信息下缺失的数值子信息补充完整;
对各个历史信息下的非数值子信息进行独热编码;
独热编码后,对气象历史信息构建气象子信息,构建的气象子信息包括每日温度、每日湿度、每日风速以及每日气压的平均统计、最大值统计、最小值统计,还包括月平均降雨频数统计、月平均降雨频率统计、月平均降雪频数统计、月平均降雪频率统计。
4.根据权利要求3所述的国家电网机械外破预测方法,其特征在于,对各个历史信息下缺失的数值子信息补充完整时,如果某一历史信息下的数值子信息缺失量超过一半,则删除该历史信息及其数值子信息;如果该历史信息下的数值子信息缺失量未超过一半,则使用该历史信息下数值子信息的平均数、中位数或行/列众数对该历史信息补充完整。
5.根据权利要求3所述的国家电网机械外破预测方法,其特征在于,对非数值子信息进行独热编码时,将同一历史信息下的各个非数值子信息分别作为状态值,所述状态值的位数与该历史信息下的各个非数值子信息的个数相等,每个状态值中只有一位为1,其余位为0。
6.根据权利要求1所述的国家电网机械外破预测方法,其特征在于,采用SMOTE+TomekLinks算法对完整的历史数据进行重采样具体包括:
从完整的历史数据中筛选出正类样本,所述正类样本为完整的历史数据中与机械外破相关的数据;
对于第i个正类样本xi使用K近邻算法,求出距离第i个正类样本xi最近的k个正类样本,所述距离为正类样本之间n维特征空间的欧氏距离,然后从距离第i个正类样本xi最近的k个正类样本中随机选取一个,生成新样本:
Figure FDA0002367989300000021
其中,xnew为新样本,
Figure FDA0002367989300000022
为距离第i个正类样本xi最近的k个正类样本,δ∈[0,1]随机数;
采用SOMTE算法生成了新的正类样本后得到扩充后的数据集,找出扩充后的数据集中构成Tomek Link对的样本,构成Tomek Link对的样本满足下述条件:在所述样本集中,样本xj和样本xk的类别不同,样本xj和样本xk的距离为d(xj,xk),若不存在样本xl,使得d(xl,xj)<d(xj,xk)或者d(xl,xk)<d(xj,xk)成立,则样本xj和样本xk构成Tomek Link对;
删除构成Tomek Link对的所有样本。
7.根据权利要求1所述的国家电网机械外破预测方法,其特征在于,所述Catboost模型被训练的参数包括学习率learning_rate、树最大深度max_depth、最大决策树数目iterations、L2正则化系数l2_leaf_reg、损失函数loss_function、数值特征分割数border_count、类别特征分割数ctr_border_count。
8.根据权利要求1所述的国家电网机械外破预测方法,其特征在于,所述Catboost模型输出的AUC值作为Catboost模型的适应度值。
9.根据权利要求1所述的国家电网机械外破预测方法,其特征在于,利用训练好的Catboost模型进行机械外破风险预测,包括对电力塔杆预测、对电力传输线路预测以及对电力传输通道预测;
对待预测区域的国家电网的电力传输线路划分第一区间,在任一第一区间内,任一电力塔杆的预测结果为有机械外破风险,则该第一区间电力塔杆的机械外破风险发生状态为有风险;且机械外破风险发生概率为该第一区间内所有电力塔杆预测结果为有风险的概率最大值;
在任一第一区间内,所有电力塔杆的预测结果均为无机械外破风险,则该第一区间电力塔杆的机械外破风险发生状态为无风险;
对电力传输线路的预测为待预测区域内所有第一区间电力塔杆的机械外破风险发生状态中出现次数最多的风险发生状态,电力传输线路风险发生概率为:取待预测区域内所有第一区间的电力塔杆的机械外破风险发生概率的最大值;
对待预测区域的国家电网的电力传输通道划分第二区间,对电力传输通道的预测为待预测区域内所有第二区间电力塔杆的机械外破风险发生状态中出现次数最多的风险发生状态,电力传输通道风险发生概率为:取待预测区域内所有第二区间的电力塔杆的机械外破风险发生概率的最大值。
10.根据权利要求1至9之一所述的国家电网机械外破预测方法,其特征在于,采集的当前信息与采集的历史信息的类目相同;对当前信息进行整理,形成完整的当前数据,与对历史信息进行整理,形成完整的历史数据的步骤相同。
CN202010041704.9A 2020-01-15 2020-01-15 一种国家电网机械外破预测方法 Pending CN111310785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010041704.9A CN111310785A (zh) 2020-01-15 2020-01-15 一种国家电网机械外破预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010041704.9A CN111310785A (zh) 2020-01-15 2020-01-15 一种国家电网机械外破预测方法

Publications (1)

Publication Number Publication Date
CN111310785A true CN111310785A (zh) 2020-06-19

Family

ID=71148745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010041704.9A Pending CN111310785A (zh) 2020-01-15 2020-01-15 一种国家电网机械外破预测方法

Country Status (1)

Country Link
CN (1) CN111310785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391256A (zh) * 2021-05-28 2021-09-14 国网河北省电力有限公司营销服务中心 一种现场作业终端的电能表计量故障分析方法及***

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845731A (zh) * 2017-02-20 2017-06-13 重庆邮电大学 一种基于多模型融合的潜在换机用户发现方法
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN107807309A (zh) * 2017-10-27 2018-03-16 广东电网有限责任公司中山供电局 一种基于大数据的输电线路故障预警方法及***
CN108375715A (zh) * 2018-03-08 2018-08-07 中国电力科学研究院有限公司 一种配电网线路故障风险日预测方法及***
CN108764544A (zh) * 2018-05-17 2018-11-06 广东电网有限责任公司 线路隐患预测方法及装置
CN108898247A (zh) * 2018-06-22 2018-11-27 国网湖南省电力有限公司 一种电网暴雨灾害风险预测方法、***及存储介质
CN109038813A (zh) * 2018-07-26 2018-12-18 安徽南瑞继远电网技术有限公司 输电线路智能管控***
CN109255506A (zh) * 2018-11-22 2019-01-22 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109359896A (zh) * 2018-12-10 2019-02-19 国网福建省电力有限公司 一种基于svm的电网线路故障风险预警方法
CN109785289A (zh) * 2018-12-18 2019-05-21 中国科学院深圳先进技术研究院 一种输电线路缺陷检测方法、***及电子设备
CN109978039A (zh) * 2019-03-19 2019-07-05 南京邮电大学 一种基于不平衡数据集情况的下风机叶片结冰预测方法
CN110210686A (zh) * 2019-06-13 2019-09-06 郑州轻工业学院 一种电力大数据的电费风险模型构建方法
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及***
CN110675243A (zh) * 2019-08-30 2020-01-10 北京银联金卡科技有限公司 一种融合机器学习的信贷预测逾期方法及***

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN106845731A (zh) * 2017-02-20 2017-06-13 重庆邮电大学 一种基于多模型融合的潜在换机用户发现方法
CN107807309A (zh) * 2017-10-27 2018-03-16 广东电网有限责任公司中山供电局 一种基于大数据的输电线路故障预警方法及***
CN108375715A (zh) * 2018-03-08 2018-08-07 中国电力科学研究院有限公司 一种配电网线路故障风险日预测方法及***
CN108764544A (zh) * 2018-05-17 2018-11-06 广东电网有限责任公司 线路隐患预测方法及装置
CN108898247A (zh) * 2018-06-22 2018-11-27 国网湖南省电力有限公司 一种电网暴雨灾害风险预测方法、***及存储介质
CN109038813A (zh) * 2018-07-26 2018-12-18 安徽南瑞继远电网技术有限公司 输电线路智能管控***
CN109255506A (zh) * 2018-11-22 2019-01-22 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109359896A (zh) * 2018-12-10 2019-02-19 国网福建省电力有限公司 一种基于svm的电网线路故障风险预警方法
CN109785289A (zh) * 2018-12-18 2019-05-21 中国科学院深圳先进技术研究院 一种输电线路缺陷检测方法、***及电子设备
CN109978039A (zh) * 2019-03-19 2019-07-05 南京邮电大学 一种基于不平衡数据集情况的下风机叶片结冰预测方法
CN110210686A (zh) * 2019-06-13 2019-09-06 郑州轻工业学院 一种电力大数据的电费风险模型构建方法
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及***
CN110675243A (zh) * 2019-08-30 2020-01-10 北京银联金卡科技有限公司 一种融合机器学习的信贷预测逾期方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUI YANG等: "The Use of Data Mining Methods for the Prediction of Dementia: Evidence From the English Longitudinal Study of Aging", 《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》 *
邵亚洁: "基于复合CatBoost模型的P2P网贷违约分类预测", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391256A (zh) * 2021-05-28 2021-09-14 国网河北省电力有限公司营销服务中心 一种现场作业终端的电能表计量故障分析方法及***
CN113391256B (zh) * 2021-05-28 2022-07-22 国网河北省电力有限公司营销服务中心 一种现场作业终端的电能表计量故障分析方法及***

Similar Documents

Publication Publication Date Title
CN107331132B (zh) 一种城市火灾隐患动态预测监控的方法及***
CN110738355B (zh) 一种基于神经网络的城市内涝预测方法
CN112749904A (zh) 基于深度学习的配电网故障风险预警方法及***
CN111275193A (zh) 一种国家电网雷击预测方法
CN112598883B (zh) 基于贝叶斯网络的输电线路落雷概率预警方法及预警***
CN111222709B (zh) 一种国家电网树线放电预测方法
Liu et al. A comprehensive risk analysis of transportation networks affected by rainfall‐induced multihazards
CN112232591A (zh) 基于气象因素的覆冰厚度智能预警方法
CN116452850A (zh) 一种基于数据挖掘和深度学习的道路积水区域识别方法
CN111310785A (zh) 一种国家电网机械外破预测方法
CN117332291B (zh) 一种面向分布式光伏的区域资源监测布局方法及***
CN111210086B (zh) 一种国家电网覆冰灾害预测方法
CN111291027B (zh) 一种数据预处理方法
CN117575873A (zh) 综合气象水文敏感性的洪水警戒方法与***
CN116307287B (zh) 一种光伏发电有效时段的预测方法、***及预测终端
Alsumaiei Short-term forecasting of monthly water consumption in hyper-arid climate using recurrent neural networks
CN111966758A (zh) 一种基于画像数据分析技术的电力隐患排查方法
CN116663393A (zh) 一种基于随机森林的配电网持续高温下故障风险等级预测方法
CN115511280A (zh) 一种基于多模态数据融合的城市洪水韧性评价方法
CN114564889A (zh) 一种基于pca模型的配电网大风灾害预警方法
CN111696330A (zh) 一种用于输电线路风灾的分类方法和***
CN111275298B (zh) 一种基于电网的地质灾害风险预警方法
CN117633456B (zh) 基于自适应焦点损失的海上风电天气事件辨识方法和装置
CN118037048B (zh) 一种基于贝叶斯网络的城市暴雨内涝灾害链风险评估***
CN114418194B (zh) 基于数据驱动和模型驱动的杆塔损毁预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200619

RJ01 Rejection of invention patent application after publication