CN108375808A

CN108375808A - Nriet基于机器学习的大雾预报方法

Info

Publication number: CN108375808A
Application number: CN201810199821.0A
Authority: CN
Inventors: 吴雪
Original assignee: Nanjing Enruite Industrial Co Ltd
Current assignee: Nanjing Enruite Industrial Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2018-08-07

Abstract

本发明公开了一种NRIET基于机器学习的大雾预报方法，包括：收集预报区域及周边可用于模型训练和业务预报的历史实况和预报资料；对收集到的数据进行分析，并处理为机器学习模型训练可用的样本集；针对本发明涉及的问题，选用基于决策树的xgboost模型算法，筛选机场大雾生成的重要影响因子，建立大雾和影响因子之间的关系模型；在训练集和验证集上进行训练；依照调参顺序，反复对模型参数进行调整，直至得到性能最优预报模型；使用集成学习方法，对模型进行交叉验证和迭代训练，以进一步提升模型预报性能；将实时观测数据带入预报模型，得到大雾预报结果。

Description

NRIET基于机器学习的大雾预报方法

技术领域

本发明涉及一种NRIET基于机器学习的大雾预报方法,属于大雾客观预报***领域。

背景技术

大雾是引起低能见度的主要天气现象，提高雾的预报技术水平是确保交通安全的重要措施。然而在各种天气现象的预报中，雾的预报难度依旧很大，仍属于世界性难题。尤其对于民航、交通等非气象专业的行业用户，大雾预报的准确率和业务化水平亟待提高。

目前大雾预报方法主要包括天气学释用法、数值预报和统计预报方法。

天气学释用法是根据前期天气形势或数值模式提供的形势场预报结果，运用天气学基本原理和天气学分析方法，考虑天气***与大雾发生之间的联系，根据预报员的经验对大雾进行预报。目前我国大多数气象台站对大雾的预报还主要采用天气学释用法，比较依赖于预报员的主观经验，预报的准确率和可靠性较低。

雾的数值预报方法可模拟雾的形成和消散中的各种微物理过程、热力及动力过程复杂相互作用，包括一维雾模式、三维雾模式、耦合模式及集合数值预报，但对不同时间和空间尺度上雾过程的不完全理解仍制约雾的数值预报准确性。特别是由于大雾预报的复杂性和有限的计算能力，数值预报方法在大雾的业务预报中进展仍然缓慢，雾还不是数值预报的直接预报产品，业务上常用的还是数值模式产品的天气学释用。

雾的统计预报以统计学方法为基础，利用现有数据，基于统计分析研究大雾生消和变化规律，建立大雾与其他气象参数之间的统计关系模型，从而预测雾的生消和变化过程。随着现代计算机技术和人工智能算法的发展，大雾的统计预报方法从传统的数据拟合方法，到一些处理不确定性问题的大数据分析方法，为大雾预报提供了新的思路，并在一定程度上提高了雾的预报准确率。但由于统计方法本身缺乏对物理过程的描述，因此更依赖于历史数据质量和算法的选择。

发明的内容

针对大雾预报准确率低，不能满足机场、公路等交通行业用户需求的现状，本发明提供了一种基于机器学习的大雾预报方法，使用大数据分析方法对历史数据进行分析和预处理，筛选大雾生成的重要影响因子，建立大雾和影响因子之间的关系模型，从而对大雾的生消和变化过程进行短时临近预报，为行业用户提供及时有效的大雾客观预报服务，以及时预防和处理飞机延误、交通事故等事件，确保道路交通安全。

针对目前业务预报中主要使用的天气学释用法过分依赖于预报员的主观经验，预报的准确率和可靠性较低的问题，本方法提供了一种基于机器学习的先进客观预报技术，不依赖主观预报经验，可业务化实时提供精准定位的大雾预报，30分钟大雾等级预报准确率达到98％以上。

针对数值预报方法不能完全理解和描述大雾物理过程复杂性、且需要消耗大量计算资源的问题，本方法从数据统计和概率的角度，基于一种先进机器学习方法，更强调实际应用效果而淡化理论分析，让计算机自动“学习”，从数据中自动分析获得规律，并利用规律对未知数据进行预测。同时该方法还有占用的内存少，训练速度较快的优点。

针对统计预报依赖历史数据质量和预报影响因子的选择的问题，本方法先对历史数据进行大数据分析，结合特征重要性分析，筛选对大雾预报影响较大的预报因子，在此基础上对数据进行预处理，形成用于机器学习的样本数据集。

本发明提供了一种基于机器学习的大雾客观预报技术，建立能见度等级和关键气象特征量之间的关系模型，以关键气象特征预测能见度等级，以达到对大雾进行预报的目的。本发明技术方案主要包括：收集当地及周边区域历史能见度和气象数据；在数据分析的基础上对数据进行预处理，生成用于机器学习的样本集；使用处理后的数据进行初步试验，对比多种不同机器学习方法，选取最优技术路线；调整所选机器学习算法模型参数，提升模型预报性能；并在此基础上进行交叉验证模型迭代，对多种模型进行集成学习，进一步提升模型预报性能

为了解决以上问题，本发明采用了如下技术方案：一种NRIET基于机器学习的大雾预报***，其特征在于，包括以下内容：

1)数据收集

收集预报区域及周边可用于模型训练和业务预报的历史实况和预报资料；

2)数据分析和预处理

对收集到的数据进行分析，并处理为机器学习模型训练可用的样本集；

3)机器学习算法选取

针对本发明涉及的问题，选用基于决策树的模型xgboost，筛选机场大雾生成的重要影响因子，建立大雾和影响因子之间的关系模型，从而对大雾的生消和变化过程进行短时临近预报。

4)模型训练

使用最佳机器学习算法，在训练集和验证集上进行训练；

5)模型调参

依照调参顺序，反复对模型参数进行调整，直至得到性能最优预报模型；

6)预报评估

在测试集上对预报模型进行评估，如果性能未达到最优反复进行5)；

7)集成学习

使用集成学习方法，对模型进行交叉验证和迭代训练，以进一步提升模型预报性能；

8)预报评估

在测试集上对预报模型进行评估，如果性能未达到最优反复进行8)；

9)业务预报

将实时观测数据带入预报模型，得到大雾预报结果。

所述的数据收集包括以下内容：

收集预报区域及周边地区的历史实况和预报资料；历史实况资料包括气象站点历史观测资料、自建观测站点历史观测资料、历史卫星观测资料等，要求同类型观测资料在业务运行过程中可以实时获取；历史预报资料包括历史数值预报资料，要求数值预报模式具有一定连贯性，并且在业务运行中可实时获取；历史资料需要至少三年稳定连续的数据，包括预报区域当地及周边地区的风速风向、气温、气压、湿度、降水量、能见度等要素。

所述的数据分析和数据预处理包括以下内容：

数据分析和预处理分析原始历史数据总样本量、数据包含的变量、不同数据时空分辨率、数据中的异常值、数据连续性和缺测情况、预报量和其他变量的数据分布情况、预报量和其他变量的关系等；并在数据分析的基础上将数据进行规整、统一时空分辨率、处理异常值、处理数据连续性、处理数据频次、提取预报等级、增加和提取关键特征量、数据归一化处理、整合时间序列并划分样本集，以形成共机器学习的数据样本集；

分析数据总样本量，查看所有数据样本的起止时间和间隔频次，确定可用于机器学习的总样本量；

分析数据变量，查看数据中包括的所有变量，并初步分析可用于大雾预报的预报因子，将所有可用数据按时间进行规整；

分析数据时空分辨率，查看不同数据的时空分辨率，在此基础上将格点数据进行点位提取，并将所有数据处理为统一的时间和空间分辨率；

分析数据异常值，根据数据实际分布范围查看数据异常值，在此基础上根据变量规则去除异常值；

分析数据连续性和缺测情况，查看数据的完整性和连续性，在此基础上选取比较连续的数据集，使用插值算法将缺测数据和异常数据补全，形成连续可用的数据集；

处理数据频次，将处理好的连续数据集根据业务需要处理为合适时间频次间隔；

分析数据分布情况，查看预报量和预报因子的数据分布情况，并根据数据分布类型选取合适的归一化方法，将数据进行归一化处理，将所有数据归一化到[-1,1]的区间或标准正态分布中，以便机器学习方法处理数据。；

提取预报等级，根据大雾预报业务需求划分能见度等级作为预报量，并查看等级分布情况；

分析预报量和其他变量的关系，即其他变量在不同能见度等级下的分布情况，为关键特征选取提供参考；

增加和提取关键特征量，删除对能见度预报没有意义的变量，并增加其他相关的诊断量，在此基础上通过机器学习方法计算每个变量的fcore，取对预报影响最大的一部分变量作为特征量，参加模型训练；

整合时间序列，由于预报量不仅和当前特征量有关，还和前序时间的预报量相关，为了体现气象要素的日变化特征，故选取前一日各时次的变量也作为特征量，整合为一个样本；

划分样本集，将整合好的样本集划分为训练集、验证集和测试集，训练集用于模型训练，验证集用于训练过程中模型调参，测试集用于最终预报模型性能测试。

所述的机器学习算法选取包括以下内容：

本发明涉及的问题，是对于有明确物理含义的观测量的统计推断，没有明确的连结拓扑结构，经过各种方法的比较，选择一类基于决策树的模型对此数据集进行分类，并测试其在最初步的实验上的表现。根据初步测试结果选择xgboost算法。

Xgboost算法是基于决策树的模型，构造了一种前向分布的加法模型，每棵决策树拟合的不是特征与目标之间的关系，而是它之前的所有树的预测结果之和与目标之间的残差。

用表示由N个样本构成的数据集，Xgboost由M棵树组成，第m棵树的参数用θ_m表示，它的输出为T(x；θ_m),m＝1,2,…,M，前m棵树的输出之和表示为f_m(x)。Xgboost的计算采用前向分布算法，即

f₀(x)＝0

f_m(x)＝f_m-1(x)+T(x；θ_m),m＝1,2,…,M

在训练第m棵树，已知前m-1棵树的输出，则它的训练目标为

其中，L()表示损失函数，Ω(f_m)表示树的复杂度。通过泰勒展开和求导运算，可以得到决策树每个节点***方式的表达式。

Xgboost不仅在原理上对决策树做出了提升，而且在算法实现上做出了优化，在相对传统方法更短的时间内可以得到性能更佳的模型，使得它成为了在大数据问题上最常用的机器学习方法之一。

初步实验结果：使用Xgboost分类器的默认参数，由100棵最高3层的树组成分类模型。历时1.49秒后得到分类准确率为78.59％的分类器。

综合对比各方法的模型性能，选择xgboost作为大雾预报的机器学习模型，并进行更为深入的研究。

所述的模型训练包括以下内容：

使用上一步选取的xgboost算法作为大雾预报的机器学习模型；

将经过数据预处理的样本集转换为xgboost需要的数据格式；

初步设置模型参数，包括分类数、训练轮数、提前终止轮数、损失函数、有效数据评价方法、分类权重、学习步长、最大深度、最小子节点权重、节点***所需的最小损失函数下降值、每棵树随机采样比例、每棵树随机采样特征量比例、权重的L1正则化项等(L1正则化是指权值向量中各个元素的绝对值之和，在一定程度上可以防止模型过拟合，同时产生稀疏权值矩阵，可用于特征选择)。

使用训练集和验证集数据，采用xgboost算法训练大雾预测模型；

用测试集对预测模型的预报性能进行验证，分析预测正确率、各等级预测准确率和召回率、各等级PR曲线和AP等性能评价指标，其中PR曲线的含义为准确率-召回率曲线，AP的含义为平均准确率；准确率表示在预测为正的样本中确实为正的比例，召回率表示在真实为正的样本中预测为正的比例；当分类阈值变化时，准确率和召回率也会相应地变化，且两个指标会反方向变化；因此，将分类的预测结果取不同阈值，作PR曲线，并计算曲线与坐标轴间区域的面积，是为AP，这个指标越高，说明分类效果越好。

所述的模型调参包括以下内容：

为了使Xgboost模型表现最好，首先使用Xgboost中的sklearn(python的机器学习通用算法库，可使用同样的接口来实现所有不同的算法调用。)接口对模型参数进行调整；在选择参数的过程中，均在验证集上对模型进行检验；Xgboost中可以调整的部分参数如下表所示，需要分步进行调整：

第一步：固定learning_rate，选取最优的n_estimator；

第二步：固定learning_rate，n_estimator，选取最优的max_depth和min_child_weight；

第三步：固定learning_rate，n_estimator，max_depth，min_child_weight，选取最优的gamma；

第四步：固定learning_rate，n_estimator，max_depth，min_child_weight，gamma，选取最优的subsample和colsample_bytree；

第五步：固定learning_rate，n_estimator，max_depth，min_child_weight，gamma，subsample，colsample_bytree，选取最优的reg_alpha；

第六步：固定learning_rate，n_estimator，max_depth，min_child_weight，gamma，subsample，colsample_bytree，reg_alpha，降低learning_rate并增加n_estimator。

经过调参得到最优参数，使用测试集对预测结果进行验证，分析预测正确率、各等级预测准确率和召回率、各等级PR曲线和AP等性能评价指标。

所述的集成学习包括以下内容：

集成学***均或投票，得到最终结果；集成学***均或投票；

集成学习流程主要包括：

定义用于交叉验证的数据集，将训练数据分成5份，用于使用交叉验证进行模型迭代；

使用交叉验证数据集迭代训练模型，每轮迭代用多种模型在其中的4份数据上训练，对剩下的1份训练数据和所有测试数据进行预测，并将预测的概率保存下来，5轮过后，测试数据上的预测结果取平均，则得到了多种模型在所有训练和测试数据上预测的概率，这个预测值作为第二层的数据；

训练集成学习模型，即在第一层的预测概率的基础上预测分类，对比分析进行集成学习前后的模型在测试集上的预测性能；

调整集成学习模型参数，进一步优化集成学习模型预测性能。

本发明相对于最接近的现有技术而言，有以下有益效果：

针对大雾预报准确率低，不能满足机场、公路等交通行业用户需求的现状，本发明提供的方法，使用大数据分析方法对历史数据进行分析和预处理，筛选大雾生成的重要影响因子，建立大雾和影响因子之间的关系模型，从而对大雾的生消和变化过程进行短时临近预报，为行业用户提供及时有效的大雾预报服务，以及时预防和处理飞机延误、交通事故等事件，确保道路交通安全。

客观化:本发明使用机器学习方法，依靠智能化的客观算法筛选对大雾预报影响最大的影响因子作为特征量，使用xgboost算法，建立大雾预报模型，在业务预报中，自动将观测数据带入模型得到预测结果。本发明不依赖预报员的主观经验，是一种智能化的客观预报方法，可广泛应用于主观气象预报技巧和经验不足的民航、交通等受大雾天气影响严重的行业用户。

运算速度快:本发明使用机器学习方法，使用300万条历史数据建立大雾预报模型仅耗时约10分钟，建模速度快。业务预报中将实时观测数据带入预报模型即可得到预报结果，可实现准实时预报，提高预报时效。

资源占用少:本发明使用机器学习方法，无需投入过多计算资源，单机也可快速完成预报计算，相对于数值预报方法大大节省计算资源投入。

准确率:本发明使用机器学习方法建立大雾预报模型，在测试集上的预报准确率高达98％以上，可大大提高目前行业用户的业务预报准确率。

附图说明

图1为本发明NRIET基于机器学习的大雾预报方法的流程图。

具体实施方式

下面结合附图对本发明作具体说明。

本发明提供的NRIET基于机器学习的大雾预报方法应用于长水机场大雾预报，具体实施方式包括：收集长水机场自观测的历史能见度和气象数据；在数据分析的基础上对数据进行预处理，生成用于机器学习的样本集；使用处理后的数据进行初步试验，对比多种不同机器学习方法，选取xgboost算法为最优技术路线；调整xgboost算法模型参数，提升模型预报性能；在此基础上进行交叉验证模型迭代，对多种模型进行集成学习，进一步提升模型预报性能；将实时的关键气象特征带入预测模型来预测能见度等级，得到满足业务化需求的大雾预报产品。

如图1所示：

1.数据收集

收集长水机场及周边区域历史实况和预报资料。长水机场目前连续可用的数据为机场跑道的自观数据，观测点位为长水机场两条跑道的端点和中点共6个点位，数据集时间为2012年6月1日至2017年3月25日逐分钟观测数据，变量包括温压、风场、视程、温湿和降水五大类共58个变量，如下表所示：

2.数据分析和数据预处理

数据分析和预处理分析原始历史数据总样本量、数据包含的变量、不同数据时空分辨率、数据中的异常值、数据连续性和缺测情况、预报量和其他变量的数据分布情况、预报量和其他变量的关系等；并在数据分析的基础上将数据进行规整、统一时空分辨率、处理异常值、处理数据连续性、处理数据频次、提取预报等级、增加和提取关键特征量、数据归一化处理、整合时间序列并划分样本集，以形成共机器学习的数据样本集。

分析数据总样本量，该数据集为2012年6月1日至2017年3月25日逐分钟数据，共2761157条数据，数据质量较高，可全部用于机器学习。

分析数据变量，该数据集中包括的温压、风场、视程、温湿和降水五大类共58个变量，将各类变量数据按时间合并规整，为考虑能见度的年变化和日变化特征，从样本记录时间中提取月和小时两个变量增加为特征量；由于温度与露点温度的差可以一定程度表征湿度，所以添加特征温度露点差；由于考虑大雾从雾源地输送过程需要提取风向，原始风向数据为0-360°的风向角数据，由于风向不是有序变量，根据气象业务规则将风向角划分为16风向类别，并将无序的类别变量转变为16个布尔变量，增加为影响能见度预测的特征量；由于风向不是有序变量，其最大、最小、平均等统计量无实际物理意义，故删除风向统计量。

分析数据连续性和缺测情况，数据时间间隔为1秒至14分钟间隔不等，其中1分钟间隔数据占总数据量85％，各变量异常值均不足1％，样本完全有效条数占比98.65％，数据质量较高，剔除异常值后，使用插值算法，将数据集处理为全部为1分钟间隔数据集，共2530020条数据。

分析数据分布情况，大雾天气对应样本占总样本量不到3％，因此从数据上来看，这是一个正负样本数量严重不均衡的学习问题。数据分布形态主要包括近似为正太分布、固定闭合区间分布、稀疏数据，布尔型变量等几大类。

根据数据分布形态选择不同的归一化方法，接近正太分布的变量，使用标准正态分布标准化；不按正态分布且取值范围是一个固定的集合或闭区间(不以零为中心且不是稀疏数据)的变量，使用最小最大值归一化；稀疏数据，使用绝对值最大归一化，包括降水相关变量；布尔变量无需标准化。

根据根据民航气象台业务需求，根据起飞标准和落地标准(低能见度预报时预报员特别注意体现350米(二类起飞)，600米(二类落地)，800(一类运行)米，1500米等能见度等级的时间点，具有相当重要的提示作用)，将能见度分为VIS1A≤350、350＜VIS1A≤600、600＜VIS1A≤800、800＜VIS1A≤1500和VIS1A＞1500五个等级，分别记为0级、1级、2级、3级和4级，作为预报量。

查看其他变量在不同能见度等级上的分布情况，其中一些变量和能见度等级呈正相关关系；在次基础上通过机器学习方法计算每个变量的fcore，取对预报影响最大的前50个变量作为特征量，参加模型训练。

整合时间序列，由于预报量不仅和当前特征量有关，还和前序时间的预报量相关，为体现大雾日变化特征，在起报时间及其前24小时选择特征量，为避免逐分钟选取特征量过多，同时体现时间远近影响程度不同，故间隔选取：起报时间前一小时，间隔5分钟取一个；前2～6小时，间隔半小时取一个；前7～24小时，间隔1小时取一个。将起报时间所有变量和前24小时选中时间的除月、日外全部特征量整合为2708维的样本特征。

以20150701为界划分样本集，20150701前的数据用于模型训练，共1618530个样本，占总样本量的64.3％，再进一步将这一部分数据划分为训练集和验证集(2:1)；20150701后的数据用于训练测试，共911490个样本，占总样本量的35.7％。

3.机器学习算法选取

本发明涉及的问题，是对于有明确物理含义的观测量的统计推断，没有明确的连结拓扑结构，经过各种方法的比较，选择一类基于决策树的模型进行分类，包括支持向量机、决策树、随机森林和Xgboost，并测试其在最初步的实验上的表现：

支持向量机初步实验结果：SVM模型的测试分类准确率为70.78％，耗时526.77s；

决策树初步实验结果：限制决策树的最大节点数为100个，决策树的测试分类准确率为72.03％，耗时0.32s；

随机森林初步实验结果：取随机森林由30棵决策树组成，每棵树的最大节点数为100，可以训练得一个准确率75.70％的随机森林模型，用时6.92秒；

Xgboost初步实验结果：使用Xgboost分类器的默认参数，由100棵最高3层的树组成分类模型。历时1.49秒后得到分类准确率为78.59％的分类器。

综合对比各方法的模型性能，选择xgboost作为大雾预报的机器学习模型。

4.模型训练

使用上一步选取的xgboost算法作为大雾预报的机器学习模型。

将经过数据预处理的样本集转换为xgboost需要的数据格式；

初步设置模型参数，包括分类数num_classes＝5、训练轮数epochs＝100、提前终止轮数early_stopping_rounds＝10、损失函数objective＝multi:softmax、有效数据评价方法eval_metric＝merror、分类权重scale_pos_weight＝1、学习步长eta＝0.1、最大深度max_depth＝10、最小子节点权重min_child_weight＝5、节点***所需的最小损失函数下降值gamma＝0.9、每棵树随机采样比例subsample＝1、每棵树随机采样特征量比例colsample_bytree＝1、权重的L1正则化项alpha＝0；

使用训练集和验证集数据，采用xgboost算法训练大雾预测模型，再用测试集对预测模型的预报性能进行验证，预测正确率98.13％；

5.模型调参

为了使Xgboost模型表现最好，首先使用Xgboost中的sklearn接口对模型参数进行一些调整。在选择参数的过程中，均在验证集上对模型进行检验。Xgboost中可以调整的部分参数如下表所示，需要分步进行调整。

第一步：固定learning_rate，选取最优的n_estimator；

经过调参后得到最优参数组合：n_estimators＝100，learning_rate＝0.1,max_depth＝10,min_child_weight＝5,gamma＝0.9,subsample＝1,colsample_bytree＝1,reg_alpha＝0,

使用调参得到的最优参数组合训练模型，使用测试集对预测结果进行验证，预测正确率98.14％。

6.集成学习

训练集成学习模型，即在第一层的预测概率的基础上预测分类，对比分析进行集成学习前后的模型在测试集上的预测性能，预测正确率98.16％

调整集成学习模型参数，得到最优参数组合:n_estimators＝60，learning_rate＝0.5,max_depth＝12,min_child_weight＝3,gamma＝0.4,subsample＝0.9,colsample_bytree＝0.8,reg_alpha＝0.01

使用调参得到的最优参数组合训练集成学习模型，使用测试集对预测结果进行验证，预测正确率98.16％

7.业务预报

模型训练完成后将模型保存，业务预报中只需要实时将观测数据带入模型，即可得到大雾等级预报结果。

以上所述仅为本发明的优选实施例而已，并不限制于本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种NRIET基于机器学习的大雾预报方法，其特征在于，包括以下内容：

1)数据收集

2)数据分析和预处理

3)机器学习算法选取

选用基于决策树的模型xgboost，筛选机场大雾生成的重要影响因子，建立大雾和影响因子之间的关系模型，从而对大雾的生消和变化过程进行短时临近预报；

3)模型训练

使用最佳机器学习算法，在训练集和验证集上进行训练；

4)模型调参

5)预报评估

6)集成学习

7)预报评估

8)业务预报

将实时观测数据带入预报模型，得到大雾预报结果。

2.根据权利要求1所述的NRIET基于机器学习的大雾预报方法，其特征在于，所述的数据收集包括以下内容：

收集预报区域及周边地区的历史实况和预报资料；历史实况资料包括气象站点历史观测资料、自建观测站点历史观测资料、历史卫星观测资料，要求同类型观测资料在业务运行过程中可以实时获取；历史预报资料包括历史数值预报资料，要求数值预报模式具有一定连贯性，并且在业务运行中可实时获取；历史资料需要至少三年稳定连续的数据，包括预报区域当地及周边地区的风速风向、气温、气压、湿度、降水量、能见度。

3.根据权利要求1所述的NRIET基于机器学习的大雾预报方法，其特征在于，所述的数据分析和数据预处理包括以下内容：

数据分析和预处理分析原始历史数据总样本量、数据包含的变量、不同数据时空分辨率、数据中的异常值、数据连续性和缺测情况、预报量和其他变量的数据分布情况、预报量和其他变量的关系；并在数据分析的基础上将数据进行规整、统一时空分辨率、处理异常值、处理数据连续性、处理数据频次、提取预报等级、增加和提取关键特征量、数据归一化处理、整合时间序列并划分样本集，以形成共机器学习的数据样本集；

分析数据分布情况，查看预报量和预报因子的数据分布情况，并根据数据分布类型选取归一化方法，将数据进行归一化处理，将所有数据归一化到[-1,1]的区间或标准正态分布中；

4.根据权利要求1所述的NRIET基于机器学习的大雾预报方法，其特征在于，所述的机器学习算法选取包括以下内容：

Xgboost是基于决策树的模型，构造了一种前向分布的加法模型，每棵决策树拟合的不是特征与目标之间的关系，而是它之前的所有树的预测结果之和与目标之间的残差；

用表示由N个样本构成的数据集，Xgboost由M棵树组成，第m棵树的参数用θ_m表示，它的输出为T(x；θ_m),m＝1,2,…,M，前m棵树的输出之和表示为f_m(x)；Xgboost的计算采用前向分布算法，即

f₀(x)＝0

f_m(x)＝f_m-1(x)+T(x；θ_m),m＝1,2,…,M

在训练第m棵树，已知前m-1棵树的输出，则它的训练目标为

5.根据权利要求1所述的NRIET基于机器学习的大雾预报方法，其特征在于，所述的模型训练包括以下内容：

使用上一步选取的xgboost算法作为大雾预报的机器学习模型；

将经过数据预处理的样本集转换为xgboost需要的数据格式；

初步设置模型参数，包括分类数、训练轮数、提前终止轮数、损失函数、有效数据评价方法、分类权重、学习步长、最大深度、最小子节点权重、节点***所需的最小损失函数下降值、每棵树随机采样比例、每棵树随机采样特征量比例、权重的L1正则化项；

6.根据权利要求1所述的NRIET基于机器学习的大雾预报方法，其特征在于，所述的模型调参包括以下内容：

为了使Xgboost模型表现最好，首先使用Xgboost中的sklearn接口对模型参数进行调整；在选择参数的过程中，均在验证集上对模型进行检验；Xgboost中可以调整的部分参数如下所示，需要分步进行调整：

learning_rate，含义及作用：学习步长，梯度下降中的学习步长，决定模型的学习速率；影响：调参过程中逐步下降，使模型更鲁棒；

n_estimator，含义及作用：模型中含提升树的个数；影响：树的个数越多，模型拟合结果越准确，但过多的树会导致过拟合；

max_depth，含义及作用：单个树的最大深度；影响：树越深，模型拟合结果越准确，但过深的树会导致过拟合；

min_child_weight，含义及作用：一个树节点包含的样本权重之和的最小值，若权重之和小于此值，节点不再***；影响：用于控制过拟合，较高的数值会避免过拟合，但过高的数值也会导致欠拟合；

gamma，含义及作用：树节点***需导致***后损失函数下降，此参数控制损失函数下降的最小值；影响：此参数越大，模型越保守；

subsample，含义及作用：每棵树只使用部分随机数据训练，此部分占全体数据的比例；影响：稍低的取值会让模型更鲁棒，过低的取值会导致欠拟合；

colsample_bytree，含义及作用：在树节点***时，只随机考虑部分特征，此考虑范围占全体特征的比例；影响：稍低的取值会让模型更鲁棒，过低的取值会导致欠拟合；

reg_alpha，含义及作用：损失函数中，权重的L1正则项的系数；影响：当特征的维数很高时，采用此参数来提高算法运行速度；

第一步：固定learning_rate，选取最优的n_estimator；

7.根据权利要求1所述的NRIET基于机器学习的大雾预报方法，其特征在于，所述的集成学习包括以下内容：

集成学***均或投票，得到最终结果；集成学***均或投票；

集成学习流程主要包括：