CN110824586B - 基于改进决策树算法的降水预测方法 - Google Patents

基于改进决策树算法的降水预测方法 Download PDF

Info

Publication number
CN110824586B
CN110824586B CN201911012069.5A CN201911012069A CN110824586B CN 110824586 B CN110824586 B CN 110824586B CN 201911012069 A CN201911012069 A CN 201911012069A CN 110824586 B CN110824586 B CN 110824586B
Authority
CN
China
Prior art keywords
training
decision tree
data
network
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911012069.5A
Other languages
English (en)
Other versions
CN110824586A (zh
Inventor
常敏
陈果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Assets Management Co ltd
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201911012069.5A priority Critical patent/CN110824586B/zh
Publication of CN110824586A publication Critical patent/CN110824586A/zh
Application granted granted Critical
Publication of CN110824586B publication Critical patent/CN110824586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Environmental Sciences (AREA)
  • Ecology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Atmospheric Sciences (AREA)

Abstract

本发明涉及一种基于改进决策树算法的降水预测方法,收集数年各地的气象数据,以及相应的降水等级数据;对所得到的气象数据进行归一化处理,得到相应的归一化数据集,对归一化数据集按比例进行划分为训练集与测试集;将训练集带入到改进后的决策树网络中进行训练,将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级;以决策树为核心,采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,选择影响程度最大的属性进行分枝,通过改进决策树算法进行训练,使得海量数据进行了充分的利用,提高了预测的准确率,减少误判和漏判问题的发生。

Description

基于改进决策树算法的降水预测方法
技术领域
本发明涉及一种数据挖掘技术,特别涉及一种基于改进决策树算法的降水预测方法。
背景技术
随着社会经济发展以及人类本身对气象服务要求不断提升,气象领域的气象数据采集渠道日益丰富,数据规模不断增加,且其具有的空间属性、高维性、不稳定性,为研究传统气象预报模式增加巨大难度,尤其在研究各气象要素之间内部联系时,尤为乏力,从而导致获取到的大量气象资料并未有效利用,对于推动气象模式预报发展并未有实质性作用。天气***的内部相互影响条件错综复杂,对于大量的采集数据进行分析处理时,传统的气象研究模式无法发现其隐含的价值,而数据挖掘技术为研究大量气象数据提供了新途径,为气象领域中发现各属性联系发挥着重要作用,分类挖掘技术通过有监督的学习探索历史气象数据中潜在的规律,可以提高气象预报模式的准确率。
发明内容
本发明是针对由于数据规模不断增加,随之而来的高维性与不稳定性的问题,提出了一种基于改进决策树算法的降水预测方法,通过改进决策树算法进行训练,使得海量数据进行了充分的利用,提高了预测的准确率,减少误判和漏判问题的发生。
本发明的技术方案为:一种基于改进决策树算法的降水预测方法,具体包括如下步骤:
1)收集数年各地的气象数据,以及相应的降水等级数据;
2)对所得到的气象数据进行归一化处理,得到相应的归一化数据集,对归一化数据集按比例进行划分为训练集与测试集;
3)将训练集带入到改进后的决策树网络中进行训练,将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级;
所述改进后的决策树网络是将原决策树算法中采用信息熵来进行属性的选择,选择最大属性进行分枝,修改为采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,选择影响程度最大的属性进行分枝,改进步骤如下:
3.1)首先,将归一化后的所有训练集M带入到BP网络中进行训练,在BP网络训练终止后,将训练集M中每一自变量特征在其原值的基础上分别增加10%和减少10%构成两个新的训练样本M1和M2
3.2)然后,将M1和M2分别作为仿真样本利用已建成的BP网络进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值;
3.3)最后将影响变化值按观测例数平均得出该自变量对于BP网络输出的结果值,将其记为MIV值;
3.4)按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对BP网络输出影响相对重要性的位次表,从而判断出输入特征对于BP网络结果的影响程度,然后选择影响程度最大的属性进行分枝。
本发明的有益效果在于:本发明基于改进决策树算法的降水预测方法,方法以决策树为核心,通过改进决策树算法进行训练,提高了预测的准确率,减少误判和漏判问题的发生。
附图说明
图1为本发明基于改进决策树算法的降水预测方法流程图;
图2为本发明改进决策树算法的流程图。
具体实施方式
基于改进决策树算法的降水预测方法,如图1所示,包括步骤:
1、收集从2001-2011年各地的气象数据,以及相应的降水等级数据,将其进行整理从而得到包含各地的气象数据及相应的降水等级的数据集。
所收集的数据应包含有最大风速、极大风速、平均气压、日最高气压、日最低气压、平均相对湿度、最小相对湿度、蒸发量、平均气温、日最高气温、日最低气温、日照时数以及降水等级等属性特征。
2、对所得到的原始数据进行归一化处理,得到相应的归一化数据集。对归一化数据集按17:3比例进行划分为训练集与测试集。
归一化过程,采用[0,1]归一化,即将原始数据映射到[0,1]区间中。
3、将训练集带入到改进后的决策树网络中进行训练。将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级。
3.1、对决策树算法进行改进:
在ID3算法(ID3算法是一种贪心算法,用来构造决策树)中采用信息熵来进行属性的选择,其公式为:
Figure BDA0002244501380000031
在上式中,c表示数据样本所具有的属性个数,Pi表示在c个属性中第i个属性样本数所占的比例,在选择时选择E(s)最大的属性i来进行分枝。
3.2、现对其进行改进,为了改变原有的属性选择方式,用来改善原有的信息熵选择方式会导致在选择属性时偏向选择取值多的属性这一不足。在此我们采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,如图2所示,其步骤如下:
3.2.1、首先将归一化后的所有训练样本M带入到BP网络中进行训练,在BP网络训练终止后。将训练样本M中每一自变量特征在其原值的基础上分别增加10%和减少10%构成两个新的训练样本M1和M2
3.2.2、将M1和M2分别作为仿真样本利用已建成的BP网络进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值,最后将影响变化值按观测例数平均得出该自变量对于BP网络输出的结果值,我们将其记为MIV值。
3.2.3、按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对BP网络输出影响相对重要性的位次表,从而判断出输入特征对于BP网络结果的影响程度,然后选择影响程度最大的属性进行分枝。

Claims (1)

1.一种基于改进决策树算法的降水预测方法,其特征在于,具体包括如下步骤:
1)收集数年各地的气象数据,以及相应的降水等级数据;
2)对所得到的气象数据进行归一化处理,得到相应的归一化数据集,对归一化数据集按比例进行划分为训练集与测试集;归一化过程,采用[0,1]归一化,即将原始数据映射到[0,1]区间中;
3)将训练集带入到改进后的决策树网络中进行训练,将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级;
所述改进后的决策树网络是将原决策树算法中采用信息熵来进行属性的选择,选择最大属性进行分支,修改为采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,选择影响程度最大的属性进行分支,改进步骤如下:
3.1)首先,将归一化后的所有训练集M带入到BP网络中进行训练,在BP网络训练终止后,将训练集M中每一自变量特征在其原值的基础上分别增加10%和减少10%构成两个新的训练样本M1和M2
3.2)然后,将M1和M2分别作为仿真样本,利用BP网络进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值;
3.3)最后将影响变化值按观测例数平均得出该自变量对于BP网络输出的结果值,将其记为MIV值;
3.4)按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对BP网络输出影响相对重要性的位次表,从而判断出输入特征对于BP网络结果的影响程度,然后选择影响程度最大的属性进行分支。
CN201911012069.5A 2019-10-23 2019-10-23 基于改进决策树算法的降水预测方法 Active CN110824586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911012069.5A CN110824586B (zh) 2019-10-23 2019-10-23 基于改进决策树算法的降水预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911012069.5A CN110824586B (zh) 2019-10-23 2019-10-23 基于改进决策树算法的降水预测方法

Publications (2)

Publication Number Publication Date
CN110824586A CN110824586A (zh) 2020-02-21
CN110824586B true CN110824586B (zh) 2021-11-19

Family

ID=69550243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911012069.5A Active CN110824586B (zh) 2019-10-23 2019-10-23 基于改进决策树算法的降水预测方法

Country Status (1)

Country Link
CN (1) CN110824586B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111624681A (zh) * 2020-05-26 2020-09-04 杨祺铭 一种基于数据挖掘的飓风强度变化预测方法
CN111832828B (zh) * 2020-07-17 2023-12-19 国家卫星气象中心(国家空间天气监测预警中心) 基于风云四号气象卫星的智能降水预测方法
CN112926664B (zh) * 2021-03-01 2023-11-24 南京信息工程大学 基于进化算法的特征选择与cart森林的短时强降水预报方法
CN114397814A (zh) * 2021-12-06 2022-04-26 中国电建集团贵州电力设计研究院有限公司 一种基于bp神经网络的火电机组最佳运行参数寻找方法
CN114545528B (zh) * 2022-03-09 2024-02-06 北京墨迹风云科技股份有限公司 一种基于机器学习的气象数值模式要素预报后订正方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609986B (zh) * 2008-06-20 2012-11-21 上海申瑞电力科技股份有限公司 基于决策树的多级联合协调自动电压控制方法
CN101752866A (zh) * 2008-12-10 2010-06-23 上海申瑞电力科技股份有限公司 基于决策树的重载设备自动预警实现方法
US9188453B2 (en) * 2013-03-07 2015-11-17 Sas Institute Inc. Constrained service restoration with heuristics
CN109447325A (zh) * 2018-09-30 2019-03-08 广州地理研究所 基于随机森林算法的降水数据检测方法、装置及电子设备
CN110059713A (zh) * 2019-03-07 2019-07-26 中国人民解放军国防科技大学 一种基于降水粒子多特征参量的降水类型识别方法
CN109978263B (zh) * 2019-03-27 2023-06-09 上海市园林设计研究总院有限公司 一种园林水系水位预警方法

Also Published As

Publication number Publication date
CN110824586A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110824586B (zh) 基于改进决策树算法的降水预测方法
CN112101480B (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN111722046B (zh) 一种基于深度森林模型的变压器故障诊断方法
CN113435707B (zh) 基于深度学习和计权型多因子评价的测土配方施肥方法
CN106600037B (zh) 一种基于主成分分析的多参量辅助负荷预测方法
CN112270129B (zh) 一种基于大数据分析的植物长势预测方法
CN111369057A (zh) 一种基于深度学习的空气质量预测优化方法及***
CN110990784B (zh) 一种基于梯度提升回归树的烟支通风率预测方法
CN106874950A (zh) 一种暂态电能质量录波数据的识别分类方法
CN113076920B (zh) 一种基于非对称域对抗自适应模型的智能故障诊断方法
CN111126511A (zh) 一种基于植被指数融合的lai定量模型建立的方法
CN116699096B (zh) 一种基于深度学习的水质检测方法和***
CN109214591B (zh) 一种木本植物地上生物量预测方法及***
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN115718746A (zh) 基于机器学习的稻田甲烷排放量预测方法
CN114662790A (zh) 一种基于多维数据的海参养殖水温预测方法
CN114217025B (zh) 评估空气质量浓度预测中气象数据对其影响的分析方法
CN109409644A (zh) 一种基于改进的c4.5算法的学生成绩分析方法
CN116796403A (zh) 一种基于商业建筑综合能耗预测的建筑节能方法
CN114862035A (zh) 一种基于迁移学习的组合式海湾水温预测方法
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN107808245A (zh) 基于改进决策树方法的管网调度***
CN115358636B (zh) 基于工业大数据的汽化炉运行状态评价方法和***
CN116401962A (zh) 水质模型最优特征方案的推求方法
CN116488151A (zh) 一种基于条件生成对抗网络的短期风电功率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231228

Address after: Room 109, office building 2, No. 516, Jungong Road, Yangpu District, Shanghai 200093

Patentee after: Shanghai science and technology assets management Co.,Ltd.

Address before: 200093 No. 516, military road, Shanghai, Yangpu District

Patentee before: University of Shanghai for Science and Technology