CN110046756B - 基于小波去噪与Catboost的短时天气预报方法 - Google Patents
基于小波去噪与Catboost的短时天气预报方法 Download PDFInfo
- Publication number
- CN110046756B CN110046756B CN201910274476.7A CN201910274476A CN110046756B CN 110046756 B CN110046756 B CN 110046756B CN 201910274476 A CN201910274476 A CN 201910274476A CN 110046756 B CN110046756 B CN 110046756B
- Authority
- CN
- China
- Prior art keywords
- time
- wavelet
- predicted
- meters
- ground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/148—Wavelet transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Mathematical Analysis (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于小波去噪与Catboost的短时天气预报方法,包括以下步骤:S1:输入t时刻的历史气候特征数据,对由时刻t、O1‑On和M1‑Mm组成的输入数据进行数据清洗;S2:对O1‑On和M1‑Mm进行排序,剔除分值低于Q分的特征数据;S3:对待预测气候特征序列的P个站点进行one‑hot编码;对待预测气候特征序列的时间信息进行时钟投影以得到时间特征;S4:对待预测气候特征序列中的距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速进行小波去噪;S5:训练Catboost模型,将测试集输入到训练后的Catboost模型中,输出距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速的预测结果。本发明能够减少收敛时间,提高预测效率。
Description
技术领域
本发明涉及天气预报领域,特别是涉及一种基于小波去噪与Catboost的短时天气预报方法。
背景技术
气象因素的变化(如风速、温度、湿度、降水等)都深刻地影响着人类的生活。准确预报未来气象要素,可广泛服务于人们日常生活(如穿衣着装),交通运输(如航班起降),农林畜牧业(如水产养殖),致灾天气避险(如台风预警)等领域。随着地球观测卫星数量增长与气候模型日益增强,气象研究者们面临着更大规模的数据。机器学习可以在数据量增长时提升预测性能。一个高分辨率的气候模型的一次运行即可以产生千万亿字节的数据。近年发展迅速的深度学习模型也适用于天气预报中的时空序列预测问题。
目前,数值预报与基于人工智能的预报是天气预报的主要方法。对于数值天气预报方法而言,短期预报需要复杂的物理大气模型仿真。近年来,机器学习与深度学习已开始被应用于天气预报。比如,深层卷积神经网络被应用于检测气候数据集中的极端天气。多层长短期记忆(LSTM)模型也被广泛应用于时间序列问题。机器学习中基于决策树的模型,能有效地解决大数据问题,同时训练时间也较短。但是,现有技术中的利用机器学习和深度学习进行天气预报的方案部分存在模型训练收敛时间较长、影响实际预测效率的问题。
发明内容
发明目的:本发明的目的是提供一种基于小波去噪与Catboost的短时天气预报方法,能够解决现有技术中存在的“模型训练收敛时间长、影响实际预测效率”的技术问题。
技术方案:为达到此目的,本发明采用以下技术方案:
本发明所述的基于小波去噪与Catboost的短时天气预报方法,包括以下步骤:
S1:输入t时刻的历史气候特征数据,包含t时刻模式预测的特征数据M1,…,Mm和t时刻实际观测的特征数据O1,…,On,其中,m表示t时刻模式预测的特征数据的总数,n表示t时刻实际观测的特征数据的总数;对由时刻t、O1-On和M1-Mm组成的输入数据进行数据清洗;
S2:对O1-On和M1-Mm进行排序,按照重要性由高到低依次赋予以下分值:m+n分,m+n-1分,...,1分,然后剔除分值低于Q分的特征数据,Q的值预先设定;
S3:对待预测气候特征序列的P个站点进行one-hot编码,完成空间特征添加;对待预测气候特征序列的时间信息进行时钟投影以得到时间特征;
S4:对待预测气候特征序列中的距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速进行小波去噪;
S5:将模式预测的特征数据M1,…,Mm、待预测气候特征序列、步骤S4得到的小波去噪后的待预测气候特征序列、待预测气候特征序列的真实标签值输入Catboost模型,调整树的深度、树的最大数量与迭代次数,得到训练后的Catboost模型,然后将测试集输入到训练后的Catboost模型中,从而输出距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速的预测结果。
进一步,所述步骤S1中的数据清洗包括缺省值填充和异常值删除这两个步骤。
进一步,所述缺省值填充步骤为:将t时刻实际观测的特征数据用t+1时刻实际观测的特征数据与t-1时刻实际观测的特征数据的均值或者t时刻模式预测的特征数据进行填充,将t时刻模式预测的特征数据用t+1时刻模式预测的特征数据与t-1时刻模式预测的特征数据的均值或者t时刻实际观测的特征数据进行填充。
进一步,所述步骤S3中,时间特征中的月份特征Month_new根据式(1)得到:
式(1)中,Month表示步骤S1中时刻t所对应的月份。
进一步,所述步骤S5中,Catboost模型中的损失函数选择交叉熵损失函数。
进一步,所述步骤S4中,去噪所使用的滤波器包括小波滤波器和尺度滤波器;对待预测气候特征序列中的距地面2米高度处的温度进行小波去噪的过程包括以下步骤:
其中,t1表示时间,Lj=(2j-1)(L1-1)+1,Lj表示第j级小波滤波器的长度,L1表示第一级小波滤波器的长度,尺度滤波器和小波滤波器的长度相等,hj,l表示第j级小波滤波器的滤波器函数中的第l个函数值,gj,l表示第j级尺度滤波器的滤波器函数中的第l个函数值,表示历史序列中t1-lmodN时刻的元素,N为历史序列中的时刻总数;
式(4)中,λj为第j级小波变换的阈值。
有益效果:本发明公开了一种基于小波去噪与Catboost的短时天气预报方法,相比现有技术,能够提高预测的精确度,减少模型训练的收敛时间,提高预测效率。
附图说明
图1为本发明具体实施方式中步骤S3的示意图;
图2为本发明具体实施方式中步骤S4的示意图;
图3为本发明具体实施方式中方法的流程图;
图4为本发明具体实施方式中实施例1的方法与现有技术中方法的预测结果对比图;
图4(a)为距地面2米高度处的温度的预测结果对比图;
图4(b)为距地面2米高度处的相对湿度的预测结果对比图;
图4(c)为距地面10米高度处的风速的预测结果对比图。
具体实施方式
下面结合具体实施方式和附图对本发明的技术方案作进一步的介绍。
本具体实施方式公开了一种基于小波去噪与Catboost的短时天气预报方法,如图3所示,包括以下步骤:
S1:输入t时刻的历史气候特征数据,包含t时刻模式预测的特征数据M1,…,Mm和t时刻实际观测的特征数据O1,…,On,其中,m表示t时刻模式预测的特征数据的总数,n表示t时刻实际观测的特征数据的总数;对由时刻t、O1-On和M1-Mm组成的输入数据进行数据清洗;
S2:采用递归特性消除、相关特性分析或者基于树模型的特征重要性排序对O1-On和M1-Mm进行排序,按照重要性由高到低依次赋予以下分值:m+n分,m+n-1分,...,1分,然后剔除分值低于Q分的特征数据,Q的值预先设定;
S3:对待预测气候特征序列的P个站点进行one-hot编码,完成空间特征添加;对待预测气候特征序列的时间信息进行时钟投影以得到时间特征;如图1所示;
S4:对待预测气候特征序列中的距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速进行小波去噪;如图2所示;
S5:将模式预测的特征数据M1,…,Mm、待预测气候特征序列、步骤S4得到的小波去噪后的待预测气候特征序列、待预测气候特征序列的真实标签值输入Catboost模型,调整树的深度、树的最大数量与迭代次数,得到训练后的Catboost模型,然后将测试集输入到训练后的Catboost模型中,从而输出距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速的预测结果。
步骤S1中的数据清洗包括缺省值填充和异常值删除这两个步骤。缺省值填充步骤为:将t时刻实际观测的特征数据用t+1时刻实际观测的特征数据与t-1时刻实际观测的特征数据的均值或者t时刻模式预测的特征数据进行填充,将t时刻模式预测的特征数据用t+1时刻模式预测的特征数据与t-1时刻模式预测的特征数据的均值或者t时刻实际观测的特征数据进行填充。
步骤S3中,时间特征中的月份特征Month_new根据式(1)得到:
式(1)中,Month表示步骤S1中时刻t所对应的月份。
步骤S5中,Catboost模型中的损失函数选择交叉熵损失函数。
步骤S4中,去噪所使用的滤波器包括小波滤波器和尺度滤波器;对待预测气候特征序列中的距地面2米高度处的温度进行小波去噪的过程包括以下步骤:
其中,t1表示时间,Lj=(2j-1)(L1-1)+1,Lj表示第j级小波滤波器的长度,L1表示第一级小波滤波器的长度,尺度滤波器和小波滤波器的长度相等,hj,l表示第j级小波滤波器的滤波器函数中的第l个函数值,gj,l表示第j级尺度滤波器的滤波器函数中的第l个函数值,表示历史序列中t1-lmodN时刻的元素,N为历史序列中的时刻总数;
式(4)中,λj为第j级小波变换的阈值。
下面以一个实施例为例,对本具体实施方式进行进一步的阐述。
实施例1:
本方法验证数据集为2018AI全球挑战赛提供的气候特征数据集。“观测”和“睿图”数据集,均包含北京市10个气象观测站点,约3年多的数据,连续性较好,缺失样本较少。“观测”集逐时记录当前气象观测站点的9个地面气象要素,通过气象仪器实时监测得到;“睿图”集包含地面和特征气压层共计29个气象要素,由数值预报模式在超级计算机上运算产生,其在每天03:00(北京时11:00)启动区域数值模式,预报至第二天15:00(北京时23:00),共计37个时次(00–36)。
其中训练集的日期为2015年3月1日3时至2018年5月31日3时,验证集的日期为2018年6月1日3时至2018年8月28日3时,测试集为2018年8月29日3时至2018年11月3日3时。预测精度采用均方根误差RMSE和偏差BIAS作为评价指标,评测样本为北京10个观测站整个评测期内每小时产生的数据样本。
其中n为评测样本总数,为第i个样本的实际观测值,为第i个样本的模型预测值,RMSE(M)表示数值天气预报模式数据与真实数据的均方根误差,RMSE(model)表示模型预测数据与真实数据的均方根误差,总得分会先计算三个预测指标的得分后求平均值。上述评价标准中,以RMSE为首选标准,在相同RMSE得分的前提下,进一步参考BIAS评测预报结果的优势。
本方法步骤S1中,输入数据为3年历史气候数据,2015年3月1日3时至2018年5月31日3时,包含29种模式预测的特征数据M1,…,M29,9种实际观测的特征数据O1,…,O9。步骤S2中,对O1-O9和M1-M29进行排序,按照重要性由高到低依次赋予以下分值:38分,37分,……,1分,然后剔除对所需预测的特征影响最小的特征数据。步骤S3中,对待预测气候特征序列的10个站点进行one-hot编码,完成空间特征添加;对待预测气候特征序列的时间信息进行时钟投影以得到时间特征。步骤S5中,树深度设为10,树的最大数量设为1000,迭代次数设为3000次。
图4(a)-图4(c)为本实施例的模型预测结果与其他方法对比图,图中显示时间为UTC世界标准时间,其中Catboost这条曲线表示本实施例方法的预测结果。表1也显示出本实施例方法与现有技术中其他方法预测结果的对比。
表1本实施例预测分数与其他方法对比结果
Claims (7)
1.基于小波去噪与Catboost的短时天气预报方法,其特征在于:包括以下步骤:
S1:输入t时刻的历史气候特征数据,包含t时刻模式预测的特征数据M1,…,Mm和t时刻实际观测的特征数据O1,…,On,其中,m表示t时刻模式预测的特征数据的总数,n表示t时刻实际观测的特征数据的总数;对由时刻t、O1-On和M1-Mm组成的输入数据进行数据清洗;
S2:对O1-On和M1-Mm进行排序,按照重要性由高到低依次赋予以下分值:m+n分,m+n-1分,...,1分,然后剔除分值低于Q分的特征数据,Q的值预先设定;
S3:对待预测气候特征序列的P个站点进行one-hot编码,完成空间特征添加;对待预测气候特征序列的时间信息进行时钟投影以得到时间特征;
S4:对待预测气候特征序列中的距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速进行小波去噪;
S5:将模式预测的特征数据M1,…,Mm、待预测气候特征序列、步骤S4得到的小波去噪后的待预测气候特征序列、待预测气候特征序列的真实标签值输入Catboost模型,调整树的深度、树的最大数量与迭代次数,得到训练后的Catboost模型,然后将测试集输入到训练后的Catboost模型中,从而输出距地面2米高度处的温度、距地面2米高度处的相对湿度以及距地面10米高度处的风速的预测结果。
2.根据权利要求1所述的基于小波去噪与Catboost的短时天气预报方法,其特征在于:所述步骤S1中的数据清洗包括缺省值填充和异常值删除这两个步骤。
3.根据权利要求2所述的基于小波去噪与Catboost的短时天气预报方法,其特征在于:所述缺省值填充步骤为:将t时刻实际观测的特征数据用t+1时刻实际观测的特征数据与t-1时刻实际观测的特征数据的均值或者t时刻模式预测的特征数据进行填充,将t时刻模式预测的特征数据用t+1时刻模式预测的特征数据与t-1时刻模式预测的特征数据的均值或者t时刻实际观测的特征数据进行填充。
5.根据权利要求1所述的基于小波去噪与Catboost的短时天气预报方法,其特征在于:所述步骤S5中,Catboost模型中的损失函数选择交叉熵损失函数。
6.根据权利要求1所述的基于小波去噪与Catboost的短时天气预报方法,其特征在于:所述步骤S4中,去噪所使用的滤波器包括小波滤波器和尺度滤波器;对待预测气候特征序列中的距地面2米高度处的温度进行小波去噪的过程包括以下步骤:
其中,t1表示时间,Lj=(2j-1)(L1-1)+1,Lj表示第j级小波滤波器的长度,L1表示第一级小波滤波器的长度,尺度滤波器和小波滤波器的长度相等,hj,l表示第j级小波滤波器的滤波器函数中的第l个函数值,gj,l表示第j级尺度滤波器的滤波器函数中的第l个函数值,表示历史序列中t1-lmodN时刻的元素,N为历史序列中的时刻总数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910274476.7A CN110046756B (zh) | 2019-04-08 | 2019-04-08 | 基于小波去噪与Catboost的短时天气预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910274476.7A CN110046756B (zh) | 2019-04-08 | 2019-04-08 | 基于小波去噪与Catboost的短时天气预报方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046756A CN110046756A (zh) | 2019-07-23 |
CN110046756B true CN110046756B (zh) | 2021-05-07 |
Family
ID=67276352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910274476.7A Active CN110046756B (zh) | 2019-04-08 | 2019-04-08 | 基于小波去噪与Catboost的短时天气预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046756B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527860B (zh) * | 2020-12-05 | 2022-11-18 | 东南大学 | 一种提高台风轨迹预测的方法 |
CN116187501A (zh) * | 2022-11-29 | 2023-05-30 | 伊金霍洛旗那仁太能源有限公司 | 基于CatBoost模型的低温预测 |
CN116245268A (zh) * | 2023-04-12 | 2023-06-09 | 中国水产科学研究院南海水产研究所 | 一种渔业渔船捕捞路线规划方法、***及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5592171A (en) * | 1995-08-17 | 1997-01-07 | The United States Of America As Represented By The Secretary Of Commerce | Wind profiling radar |
CN102478584B (zh) * | 2010-11-26 | 2014-10-15 | 香港理工大学 | 基于小波分析的风电场风速预测方法及*** |
CN106933778A (zh) * | 2017-01-22 | 2017-07-07 | 中国农业大学 | 一种基于爬坡事件特征识别的风电功率组合预测方法 |
CN107316101A (zh) * | 2017-06-02 | 2017-11-03 | 西南交通大学 | 一种基于小波分解和分量超前选择的风速预测方法 |
CN109299430A (zh) * | 2018-09-30 | 2019-02-01 | 淮阴工学院 | 基于两阶段分解与极限学习机的短期风速预测方法 |
-
2019
- 2019-04-08 CN CN201910274476.7A patent/CN110046756B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110046756A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363327B (zh) | 基于ConvLSTM和3D-CNN的短临降水预测方法 | |
CN109214592B (zh) | 一种多模型融合的深度学习的空气质量预测方法 | |
CN110046756B (zh) | 基于小波去噪与Catboost的短时天气预报方法 | |
CN110232483B (zh) | 深度学习负荷预测方法、装置及终端设备 | |
CN110555561A (zh) | 一种中长期径流集合预报方法 | |
CN110751094A (zh) | 一种基于gee综合遥感影像和深度学习方法的作物估产技术 | |
CN109165693B (zh) | 一种适用于露、霜和结冰的天气现象的自动判识方法 | |
CN109472283B (zh) | 一种基于多重增量回归树模型的危险天气预测方法和装置 | |
CN111191193A (zh) | 一种基于自回归滑动平均模型的长期土壤温湿度高精度预测方法 | |
CN116128141B (zh) | 风暴潮预测方法、装置、存储介质及电子设备 | |
CN111784023A (zh) | 一种短时邻近雾能见度预测方法 | |
CN116415730A (zh) | 一种预测水位的融合自注意力机制时空深度学习模型 | |
Zaw et al. | Empirical statistical modeling of rainfall prediction over Myanmar | |
CN113779113B (zh) | 基于雨洪时空过程相似性挖掘的洪水动态预估方法及*** | |
CN114692981A (zh) | 基于Seq2Seq模型的中长期径流预报方法和*** | |
CN114357737A (zh) | 针对大尺度水文模型时变参数的代理优化率定方法 | |
CN113537645A (zh) | 基于机器学习融合卫星与天气数据的大豆产量预测方法 | |
CN117233869A (zh) | 一种基于GRU-BiTCN的站点短期风速预测方法 | |
CN113344290B (zh) | 基于U-Net网络的次季节降水气象预报订正方法 | |
Jagannathan et al. | Time Series Analyzation and Prediction of Climate using Enhanced Multivariate Prophet | |
CN116449460B (zh) | 基于卷积UNet和迁移学习的区域月降水预测方法及*** | |
Shi et al. | Multivariate multi-step agrometeorological forecast model for rapid spray | |
CN116842351B (zh) | 滨海湿地碳汇评估模型构建方法、评估方法和电子设备 | |
CN117290684B (zh) | 基于Transformer的高温干旱天气预警方法、电子设备 | |
Li et al. | DK-STN: A Domain Knowledge Embedded Spatio-Temporal Network Model for MJO Forecast |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |