CN114004137A

CN114004137A - 一种多源气象数据融合与预处理方法

Info

Publication number: CN114004137A
Application number: CN202111104941.6A
Authority: CN
Inventors: 杨立波; 马斌; 王亚军; 孔祥玉; 徐俊杰; 周超; 袁健; 王硕
Original assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; NARI Nanjing Control System Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; NARI Nanjing Control System Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-02-01

Abstract

本发明涉及一种多源气象数据融合与预处理方法，基于三层次融合结构，具体包括数据层、特征层和决策层，逐层提取特定的有用的信息，具体步骤为：(1)对不良数据进行检测，找出含有可疑数据的量测点，辨识出全部不良数据；(2)气象数据清洗与还原，删除重复信息，纠正错误信息；(3)气象数据还原，采用修复算法；(4)对气象数据的修复精度进行验证计算。本方法基于现有气象监测站群网***，提出规范化数据库建模方案；在此基础上，形成新能源场站气象数据规范，构建新能源场站气象监测数据特征库通过ETL技术，将多源气象数据统一提取到数据库中，以实现多源数据融合，并通过有效的数据清洗以提高数据质量，使新能源功率预测结果更加精确。

Description

一种多源气象数据融合与预处理方法

技术领域

本发明属于气象研究技术领域，尤其是一种多源气象数据融合与预处理方法。

背景技术

气象监测数据特征库的形成为构建全面高效、准确可靠的计量数字与真型混合仿真***，实现对各种场景的真实还原奠定了数据基础，还需要研究采用合适的数据提取方法。目前国内外有一些关于数据融合及预处理的方法，例如主成分分析法、线性判别分析法等，但关于计量方面的数据提取方法还较少，如何针对具体气象数据，采用合适的方法手段对计量特征进行提取，还需要进一步研究。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种多源气象数据融合与预处理方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种多源气象数据融合与预处理方法，其特征在于：基于三层次融合结构，具体包括数据层、特征层和决策层，逐层提取特定的有用的信息，具体步骤为：

(1)对不良数据进行检测，找出含有可疑数据的量测点，辨识出全部不良数据；

(2)气象数据清洗与还原，删除重复信息，纠正错误信息，并还原数据一致性；

(3)气象数据还原，采用修复算法；

(4)对气象数据的修复精度进行验证计算。

进一步，数据层的数据融合方法采用聚类分析法，特征层的数据融合方法采用卡尔曼滤波法，决策层的数据融合方法采用贝叶斯估计法。

进一步，所述步骤(3)采用的修复算法，具体包括：

①气象要素数据相似性修复；

②气象要素数据的空间修复和时间修复

③气象要素数据混合修复。

进一步，所述①气象要素数据相似性修复，是通过构建气象相似性网络时计算节点的气象要素时间序列之间的相似性得到的节点之间的相似性来修复缺失数据，用下面的公式表示：

其中，X_S(i,j)为气象观测站点i在时间序列上第j个时间缺失值的估值，这里使用的估值方法为相似性修复；S_i,p为气象观测站点i与站点p的之间的相似性；X_S(p,j)为气象观测站点p在时间序列上第j个时间的实际值；Ω为给定的气象观测站点范围，选择除了站点i以外的全部站点，或只选择与站点i相似性比较高的部分站点。

进一步，所述②气象要素数据的空间修复和时间修复，是整合空间修复和时间修复的时空修复约减法把时间作为一个单独的维，不考虑空间上的其它气象站点，对每个气象要素时间序列进行时间修复，得到缺失数据的第一次修复值，这样得到用时间修复值修复完整的所有气象站点的气象要素时间序列，再对每个缺失数据考虑空间上其它站点同一时间的气象要素观测值，使用包含第一次修复值的空间修复方法进行二次修复，这样在第二次修复时，每个缺失值都可以使用所有空间距离近的站点观测值参与修复，而不用剔除空间距离近却同样缺失的站点，减小误差；根据目前的站点数量和分布的实际情况，对气象要素观测时间序列修复时，先使用空间修复方法对缺失数据进行修复，得到第一次修复值，再对每个缺失数据考虑时间修复，使用包含第一次修复值的时间修复方法对缺失数据进行二次修复。

进一步，所述③气象要素数据混合修复，是综合考虑时间修复、空间修复和相似性修复以提高缺失数据修复的精确度，用混合修复拟合方程计算，公式表示：

X(i,j)＝aX_D(i,j)+bX_T(i,j)+cX_S(i,j)+d (39)

其中，X(i,j)为气象观测站点i在时间j的估值；X_D(i,j)为气象观测站点i在时间j的空间估值，空间修复方法使用反距离加权法X_T(i,j)为气象观测站点i在时间j的时间估值；X_S(i,j)为气象观测站点i在时间j的相似性估值；a、b和c分别为空间、时间和相似性估值系数；d为常数项。

进一步，气象要素数据混合修复需要确定混合修复拟合方程的系数，用气象观测站点的实际值、空间修复估值、相似性修复估值和时间修复估值进行多元线性回归分析，使用最小二乘法求解方程的最佳拟合系数。

进一步，所述步骤(4)数据的修复精度进行验证计算的方法是，从数据源中选取一个完整的数据集，或者将数据源中包含的缺失数据的行和列都删除，人为的得到完整的数据集，然后采用Holdout验证的方法来验证修复方法的修复精确度，

Holdout验证方法把数据集分为两个子集，先选择一些子集做分析，其余的子集用来对已选择子集的分析结果进行验证，用来做分析的子集为训练集，用来验证的子集为验证集，

把一组气象观测站点的某个气象要素时间序列组成一个数据集，选定一个缺失率，对数据集中的数据随机标记缺失，然后使用未缺失的数据来修复缺失的数据，最后通过计算缺失气象站点气象要素的实际测量值与估算值的误差来评估修复方法的精确度，采用平均绝对误差和均方根误差来衡量修复方法的精确度，平均绝对误差和均方根误差的表达式分别为公式：

其中，X_oi为第i个观测站点的实际测量值，X_ei为第i个站点的修复估算值，n为用于参与验证的观测站点的数量；

这两个值越接近0，修复的精确度就越高，平均误差反映总体估计误差的大小；平均绝对误差反映样本数据估值的总体误差，能够评估估算值可能的误差范围：均方根误差能够反映利用观测数据的估算灵敏度和极值效应。

本发明的优点和积极效果是：

本方法基于现有气象监测站群网***，并依托河北在运行调度***接口规范，按照相关气象数据监测、数据采集、传输技术标准和规范，对气象部门和新能源场站上传的各类气象观测数据种类、粒度、格式进行定义，提出规范化数据库建模方案；在此基础上，形成新能源场站气象数据规范，构建新能源场站气象监测数据特征库通过ETL技术，将多源气象数据统一提取到数据库中，以实现多源数据融合，并通过有效的数据清洗以提高数据质量，使新能源功率预测结果更加精确。

附图说明

图1为数据清洗内容示意图；

图2为数据清洗方法分类；

图3为数据清洗流程；

图4气温和相对湿度在不同评估指数下的逐月变化分析；

图5为气象要素两次修复模型；

图6为气象要素数据混合修复流程。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

一种多源气象数据融合与预处理方法，具体步骤如下：

信息融合***可以按照层次划分，对于层次划分问题存在着较多的看法。目前较为普遍接受的是3层次融合结构，即数据层、特征层和决策层。

(1)数据层融合

数据层融合也称为像素层融合，它对同质数据进行分析提取。能保留尽可能多的现场数据，比其他两个层的信息细微。一般采用集中式融合体系。数据量大，处理时间长。该层本身是低层次融合，传感器传来的原始信息存在不稳定性，该层不具有很高的纠错能力；数据通信量大；因为没有任何办法对原始数据所包含的特性进行一致性检验，所以数据层上的融合具有很大的盲目性，因而一般不会直接在数据层进行融合过程。

(2)特征层融合

特征层融合属于中间层次的融合，是对非同质数据进行特征分析，融合判定。该层融合中，多个信息源的特征矢量信息融合为组合特征矢量，在有大量多源等同数据时，特征层融合比较有效。同质的数据提取的特征矢量，与其他性质的数据的特征矢量进行关联判断后，常能达到比较好的效果。特征层融合首先对原始信息进行特征提取，然后进行综合分析处理。优点是数据压缩程度高，便于实时处理。一般采用分布式或集中式融合体系。

特征层融合可分为两大类：一类是目标状态融合；另一类是目标特性融合。目标特性融合就是特征层的联合识别，它实质上是模式识别问题。多传感器***为识别提供了比单传感器更多的有关目标的特征信息，增大了特征空间维数。具体的融合方法仍是模式识别的相应技术，只是在融合前必须先对特征进行关联处理，把然后特征矢量分类成有意义的组合。

(3)决策层融合

决策融合的操作过程是将不同类型的多子源***在本地完成处理并建立对所观察同一目标的判决结果进行关联处理，输出一个关于目标属性的联合判决结果。另外，关于信息融合的层次，可以数据的输入输出作为分类的标准，进一步将该3层次结构扩展为5层次结构，即数据入一数据出融合、数据入一特征出融合、特征入一特征出融合、特征入一决策出融合、决策入一决策出融合，并以此得出了相应的一般融合层次结构，这五个过程分别完成：数据校准，特征提取，特征校准，决策提取，决策校准的五个功能。

信息融合的主要方法

虽然对于数据融合有多种分层方法，但是其目的都是一样的，那就是逐层提取特定的有用的信息。因此，可按照数据层，特征层，决策层这三个层面来介绍数据融合的方法。

(1)数据层数据融合方法

聚类分析法根据事先给定的相似标准，对观测值分类，用于真假目标分类、目标属性判别等；加权平均法是一种最简单最直观的数据层融合方法，即将多个传感器提供的冗余信息，进行加权平均后作为融合值。该方法能实时处理动态的原始传感器读数，但调整和设定权系数的工作量很大并带有一定的主观性。此外，还有最近邻法则、最大似然法、最优差别法、统计关联法等。

(2)特征层的数据融合方法

卡尔曼滤波法，用于实时融合动态的低层冗余传感器数据，用模型的统计特性递推决定统计意义下最优的融合数据估计。它的递归本质保证了在滤波过程中不需要大量存储空间，可以实时处理，它适用于数值稳定的线性***，若不符合此条件，则采用扩展卡尔曼滤波器，这是抽取数据特征常用的一种方法。此外，还有最小二乘法、最大似然法、时间序列分析、频率分析、小波分析等方法都可以用于抽取数据特征。对目标进行的特征融合识别，就是基于关联后的联合特征矢量进行模式识别。具体实现技术包括参数模板法、特征压缩和聚类算法、K阶最近邻、人工神经网络、模糊积分等。除此之外，也常采用基于知识的推理技术进行特征融合识别，但由于难以抽取环境和目标特征的先验知识，这方面为研究仍处于起步阶段，至今尚未看到***化的结果。

(3)决策层的数据融合方法

贝叶斯估计法是融合静态环境中多传感器低层数据的一种常用方法，融合时必须确保测量数据代表同一实体，其信息不确定性描述为概率分布，需要给出各传感器对目标类别的先验概率，具有一定的局限性。多贝叶斯估计法：将环境表示为不确定几何物体的集合，对***的每个传感器作一种贝叶斯估计，将各单独物体的关联概率分布组合成一个联合后验概率分布函数，通过队列的一致性观察来描述环境。

统计决策理论将信息不确定性表示为可加噪声，先对多传感器数据进行鲁棒假设测试，以验证其一致性；再利用一组鲁棒最小最大决策规则对通过测试的数据进行融合。

D-S证据理论：证据理论是对概率论的扩展，依据信任函数运算，解决了一般的不确定问题。它能融合不同层次上的属性信息，能区分不确定性信息与未知性信息，还能较好地解决报告冲突，容错能力强，但是证据理论也存在着不足，即证据冲突的情况下，D-S证据组合将无法进行或组合结果与实际不相符合。

专家***模拟专家的经验知识、决策及推理过程，采用知识库技术，产生一系列规则，从而完成目标识别分类、态势评估等。

神经网络算法是在现代神经生物学和认知科学对人类信息处理研究成果的基础上提出的，它具有良好的容错性、层次性、可塑性、自适应性、联想记忆和并行处理能力。

数据审核与订正

不良数据检测及辨识方法概述

一般认为，在量测***经过准确校验后，测量误差标准差大于±3σ的概率仅为0.27％，这在统计学中几乎是不可能出现。在理论上可以认为，在量测***的测量值大于±3σ时就出现了不良数据，在实际中这个界限还要被增大，一般要在±6σ以上。

传统的检测与辨识方法是基于电力***状态估计理论，从状态估计的基本方程出发，能推导出残差方程，残差方程是传统不良数据辨识方法的基础。

对于经过良好校验的测量***，量测方程给定如下：

z＝h(x)+v (1)

式中，z为***的量测量向量，维数为m；x为***状态量，维数为n；h(x)为x的非线性矢量函数，v为量测误差向量，维数为m。

用最小二乘法获得***状态量的估计值

则量测量估计值

为状态量估计值的矢量函数：

式中，

的维数为m。在电网中，量测估计值

通常直接用于显示，作为调度人员对电网状态安全监察之用。

将式2-21在状态量真值x附近，用泰勒展开式进行线性化：

于是，量测估计误差可以求出为：

式中，h(x)为m维量测量真值矢量；

为n维状态估计误差矢量；H为m×n阶雅可比矩阵。

定义量测残差矢量：

式中，r的维数为m，它是量测矢量与量测估计矢量之间的差值向量。将量测方程2-20和量测估计矢量方程2-23代入2-24可得

式中，R＝E(vv^T)，W＝[I-H(H^TR^-1H)^-1H^TR^-1]；W为m×m阶残差灵敏度矩阵，I为单位矩阵。

如果量测方程是线性方程，则残差灵敏度矩阵W为常数阵，在电力***中，量测方程是一般是非线性的，但是负荷如果在正常运行情况下发生变化，对于测量节点的状态量的变化影响并不大。在网络拓扑结构不发生改变的前提下，雅可比矩阵H可认为是一个常数阵，这样，残差灵敏度矩阵W也可以认为是常数阵。大量实验表明，即使存在量测数据中含有少数不良数据，W依然能够很好的保持常数性，因此，W通常被看成常数阵。

所谓不良数据检测，就是要从量测误差矢量v中，检测出一些数值远远超过正常数值范围的量测误差矢量分量。从(6)式可以看出，当W→I时，不良数据的辨识就变得十分容易，或者即使W矩阵不是单位矩阵，但其逆矩阵W^-1存在，异常数据的辨识也不困难。然而，一般情况下，W具有等幂性，即W＝W²，W既非单位矩阵，也非可逆矩阵，甚至某些对角元素都不具备对角占优势的条件，这会导致不良数据检测与辨识并不十分容易。总的来说，传统的不良数据检测与辨识方法，都是基于残差方程。

不良数据检测方法

目前，不良数据检测方法主要有目标函数极值

检测法、加权残差r_w或标准化残差r_N检测法、量测量突变检测法、伪量测量检测法等四种检测方法。本节将对上述4种不良数据检测方法进行简要分析。

1.目标函数极值检测法

引入量测目标函数极值函数

由于：

因而可以得到目标极值函数的残差形式：

式中，R为量测误差向量的协方差矩阵R＝E(vv^T)，为对角阵。

为便于简化计算和分析，引入残差方程的加权形式，加权形式以带下标“w”表示，加权系数为

定义加权残差r_w为：

相应地，加权量测误差为：

于是残差方程可以改写为：

r_w＝W_wv_w (12)

式中，

目标极值函数的加权形式为：

一般认为量测误差矢量v，服从均值为0的正态分布，这样目标极值函数的均值和方差为：

式(14)和式(15)说明，量测***若具有m个量测量，且每个量测量含有n个状态变量，则目标极值函数的期望值为m-n＝K，方差为2(m-n)＝2K。在统计学中，目标极值函数

就服从K阶自由度的卡方分布，记作：

自由度K的值越大，则χ²(K)越接近于正态分布，当K的值足够大时，可以用相应的正态分布来替代χ²(K)。

当量测数据中含有不良数据时，这时分析目标极值函数的变化。量测误差矢量v会由于量测数据中含有不良数据会发生比较大的变化，设变化后的量测误差向量为v_α，则：

v_α＝v+α (17)

式中，v_α为含有不良数据的量测误差矢量，v为正常的量测误差矢量，α为量测数据中含有不良数据时量测误差的偏离向量。

此时，加权目标极值函数

的期望和方差分别为：

K取值足够大时，依然成正态分布。式中α_wi为偏离矢量的第i个分量，w_w,ii为加权残差灵敏度矩阵第i个对角元素。

从上述分析中，可以得出结论，当量测数据中含有不良数据时，目标极值函数会出现一个比较大的偏移量，这为利用

进行不良数据检测提供了依据。利用目标极值函数

根据一定的置信水平，设置一个门槛值检测不良数据，具体可以参照以下假设检验方法进行：

式中，γ_J对应于某一

成为门槛值。

目标极值函数检测法是一种总体性不良数据检测法，只能检测量测数据中是否存在不良数据，是存在性检验，并不能辨识出不良数据的具***置。

2.加权残差r_w检测法和标准化残差r_N检测法

加权残差r_w检测法，顾名思义，是对量测残差矢量r的m个分量逐一进行假设检验的一种方法：

式中，γ_w,i为第i个加权残差的门槛值，根据假设检验的置信水平设定。

γ_w,i的取值方法为:在量测数据中不含不良数据是，加权残差r_w服从均值为0的正态分布，在误检率为0.5％的条件下，正常的加权残差取值范围为：

标准化残差r_N检测法是对量测残差标准化后衍生出的一种不良数据检测方法，与加权残差r_w检测法原理相似。

定义标准化残差为：

式中，D为对角阵，D＝diag[∑_r]＝diag[WR]。

相应地，可以计算出标准化残差灵敏度矩阵：

与加权残差检测法r_w相似，标准化残差检测法r_N可以按下述检验方式进行：

式中，γ_N,i为第i个标准化残差的门槛值，根据假设检验的置信水平设定。

标准化残差检测法和加权残差检测法一样，都不属于整体型检测法，电力***规模的大小并不影响检测的灵敏度，检测的灵敏度仅受标准化残差灵敏度矩阵W_w和加权残差灵敏度矩阵W_N的影响，虽然这两种检测方法均只能完成不良数据的检测，但能找出含有可疑数据的量测点，为进一步数据辨识提供参考依据。

3.量测量突变检测法

在具体介绍量测量突变检测法之前，必须要讨论在使用基于r_w和r_N的不良数据辨识方法时经常出现的两个现象：残差污染和残差淹没。

所谓“残差污染”，是指在单个不良数据的检测情况下，基于加权残差法和标准化残差法检测出来的不良数据不止一个，一些正常数据也可能被误检成为不良数据，这就是残差污染，它能使真正的不良数据点被模糊，造成辨识困难。在量测数据中包含多个不良数据的情况下，这种情况会更加严重，这时残差污染会演变成残差淹没。残差淹没，就是量测数据中的多个不良数据点之间相互作用，导致部分或者全部的不良数据点的残差接近于正常残差，不良数据点无法呈现所具有残差特征，导致不良数据的漏检。

为克服残差污染和残差淹没，量测量突变检测法被提出，这种方法充分利用前一采样时刻的量测信息。

先进行两个基本假设：

(1)在相邻的两个采样间隔间，电力***的网络拓扑结构未发生改变；

(2)待检数据前一量测时刻的数据是正常数据。

则量测量突变检测法就是利用前一采样时刻的量测量与本采样时刻的量测量作对比，如有突变，被判为可疑数据被检测出。从数学角度分析，t_k时刻的量测量与基于t_k-1时刻的量测量做出的预测值之间超出某一门槛值，即当

时，超过门槛值的量测数据被检测出来，认为是不良数据。

式中，z_k,i为t_k时刻的第i个实际量测值；z_k|k-1,i为基于t_k-1时刻的第i个量测值对t_k时刻的量测值所作出的预测；ε_i为第i个量测量的检测门槛值；Δz_k,i为第i个量测增量。

电力***的状态向量和量测模型按下式给定：

x_k＝x_k-1+Δ_k-1 (25)

z_k＝h(x_k)+v_k (26)

式中，x_k和x_k-1分别为t_k和t_k-1时刻的状态向量；z_k和h(x_k)分别为t_k时刻的量测向量及非线性量测函数；Δ_k-1为相邻采样间隔的随机干扰矢量；v_k为服从正态分布的量测误差矢量。

运用泰勒展开求出z_k,i和z_k|k-1,i后，进一步求出量测增量的标准化变量：

按照假设检验方法对量测数据中的各个分量逐个进行不良数据进行检测：

上式说明，当量测突变量超过给定门槛值后，不良数据可以被检测出来。量测量突变检测法能比较好的克服残差污染和残差淹没现象，但前提是要满足电力***网络结构不变的前提条件。

4.伪量测检测法

伪量测检测法同量测量突变检测法一样，均为基于前一采样时刻量测信息的方法，增加伪量测量相当于增加量测***的冗余度K，增大了残差灵敏度矩阵的对角元素，同时减小非对角线元素，这样就削弱了残差污染和残差淹没的现象。本质上还是基于加权残差r_w和标准化残差r_N的检测方法。

4.2.3不良数据辨识方法

传统的不良数据辨识方法主要有残差搜索法(r_w或r_N法)、非二次准则法、估计辨识法等方法，本节将对这3种不良数据辨识方法逐一分析。

1.残差搜索法(r_w或r_N法)

在用不良数据检测方法检测出量测数据中含有不良数据后，如何设法找出不良数据的具***置，一个最具常识性的方法就是：去掉一个量测量，用剩下的量测量作状态估计计算

用假设检验判断是否存在不良数据，如果存在，则证明去掉的数据中不含不良数据，然后在剩下的量测量中再去掉一个数据，对剩下的数据进行状态估计，如此重复，可以辨识出不良数据，这种试探搜索法虽然最终会获得成功，但是效率低下，并不实用，量测数据中含有的不良数据越多，则效率越低。

尽管如此，由于辨识困难，早期提出的不良数据的辨识方法均是基于搜索法的思想，只是尝试如何能减少最低的试探次数。残差搜索法的思想就是用某种方法，通过放大不良数据点的残差以尽量减少试探次数。

残差搜索辨识法主要基于加权残差r_w和基于标准化残差r_N的搜索法。将加权残差r_w或标准化残差r_N按绝对值的大小进行排列，由大到小或由小到大依次剔除相应量测数据，每剔除一个量测数据就重新估计一次，重新计算目标极值函数和残差，再进行假设检验，如果假设检验结果表明，量测数据中已经不存在不良数据，则剔除的数据是不良数据，否则剔除的是正常数据。

显然，无论是加权残差搜索法还是标准化残差搜索法，都必须要进行多次状态评估计算，比较适用于单个不良数据辨识，或是向量距离较大的铜梁量测数据，对于量测数据庞大，含有多个不良数据的情况实用性不强。

2.非二次准则法

非二次准则法与残差搜索法区别较大，但基本思路还是从量测残差入手：对于残差绝对值较大的量测数据，不直接将其从状态估计中剔除，赋予该量测数据一定的权值，然后减小其在迭代过程中的权值，降低其在状态估计中的影响，最终能获得精确的状态估计，同样达到辨识不良数据的目的，在整个过程中不良数据点的残差会随权值的降低而凸显出来，可以辨识出与其对应的不良数据。

非二次准则辨识法是不良数据辨识法中性能较好的一种方法，并且具有比较大的改进余地。非二次准则法可能在应过程中，变权重的量测量过多，最终导致算法无法收敛，或多不良数据引起残差淹没导致辨识失败，或特殊情况下，单个不良数据产生“异解”等，针对这些问题，提出了改进，比较好的是零残差辨识法，这里不作赘述。

3.估计辨识法

估计辨识法是对不良数据直接进行处理的一种辨识方法，在使用时，首先对可能的不良数据作一个估计，然后用估计的不良数据值替换原来的值对状态估计进行修正，如果修正后的状态估计正好是排除不良数据后的最优估计，则不需要重新进行状态估计，这种辨识方法实时性能较好。

根据前面所术，量测残差方程的向量形式为：

r＝Wv (29)

将其改写成下面的形式：

r-W_sv_s＝W_tv_t (30)

式中，W_s，W_t分别对应于灵敏度矩阵W中可疑量测误差的m×s维子阵和正常量测误差的m×t维子阵(t+s＝m)；v_s为s维可疑量测数据的误差矢量，v_t为t维正常量测数据误差矢量。

根据式(30)建立如下目标函数：

J(v_s)＝[r-W_sv_s]^TG^-1[r-W_sv_s] (31)

式中，G^-1为m阶正定加权矩阵，G＝{g_ii}＝diag[Var(W_tv_t)]。

对可疑量测误差矢量v_s的加权最小二乘估计通过对目标函数求导，使导数等于0获得：

由上式可得：

根据上式求得的估计量

的大小来判断，可以辨识出哪些为正常数据哪些为不良数据。估计辨识法独立使用不能辨识多不良数据的情况，与量测量突变检测原理或残差搜索法配合使用，则能完成多点不良数据辨识。

数据清洗与还原

数据清洗技术

数据清洗目的在于删除重复信息、纠正存在的错误，并提供数据一致性，数据清洗的主要内容如图1所示，依据数据源种类不同，解决数据属性、完整性和惟一性等方面的问题。

从数据清洗方法上进行分类，结果如图2所示。数据清洗原理通常是指利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。

以目前被普遍采用的Bohn数据清洗模型为例，首先对源数据进行数据检查，通过统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值，利用常识性规则和业务特定规则等简单规则库检查数据值，并使用不同属性间的约束、外部的数据来检测和清理数据。通过聚类分析方法分析数据词法，明确各个字段内不同要素的连贯性，同时确保所有数据字段与已知清单匹配。最后判断记录间的属性值是否相等来检测记录是否相等，相等的记录合并或清除为一条记录。

数据质控技术

气象领域对数据质量控制方法有其特殊的规范和要求，主要是要求数据符合天气学、气候学原理，以气象要素的时间、空间变化规律和各要素间相互联系的规律为线索，分析气象资料是否合理，常用的处理方法如下。

1)台站气候极值检查。极值是指某个固定测站历史记录中某要素曾出现过的最大值(最小值)，气象资料要素值是否超出极值的检查为极值检查。判断资料的基础是进一步核实超出对应观测站点要素极值的观测资料。

2)时间一致性检查。利用气象要素随时间变化的规律，对气象资料变化进行时间一致性的检查，各要素资料不能超出一定时间内的变化范围，超出的资料为可疑资料。

3)空间一致性检查。根据气象参数具有一定的空间分布特点而进行的检查。通常采用空间回归检验法进行空间一致性检查，其有效性取决于观测站网的密度和被检参数与空间的相关程度。

将逐日的观测站要素数据与被检站周边站点相关系数进行显著性检验，找出相关性最好的5个站，被检测观测要素与5个相关站逐一建立一元线性回归方程。

式中，y_ij为第个初步参考站第旧要素实测值，

为被检站第旧要素估计值。

最后，计算被检站全月要素观测值与各回归方程估计值间的均方根偏差

式中，x_i为被检站第旧的实测值；m为全月日数。

分别计算被检站被检要素第旧加权估计值x；及要素估计值的加权标准差(s')。

式中，j为第j个最终参考站；n为最终参考站的总数，在这里n＝5。

当|x_i-x'_i|＞f'_s时，表示被检站第的实测值x未通过空间一致性检查。f'_s为控制系数，取值范围为3.0～5.0。

4.3.1.3基于Bohn的数据清洗模型

对于大多数气象观测数据来说，数据格式较为固定，常规数据或者特定数据都是进行专门的定义，比如气温为连续数字，日照可以用0、1表示，但对于挖掘或者提取到的数据来说，字段的类型格式、长度及语义都可能存在差异，这就需要对数据清洗重新设定规范格式。

基于Bohn模型建立的数据清洗流程如图3所示。按照数据清洗需求建立农业气象数据标准，采用关联规则方法中效率较高的FP-树频集算法辨识数据属性质量。基于空缺值清洗方法和噪声数据清洗方法，将判断出的异常属性数据进行筛除分离；通过递归字段匹配算法，在适当的位置使用间隙，允许不匹配字符的缺失，识别字符串缩写的情形，检测出标识同一个数据实体的重复记录。最后利用多趟近邻排序法，将数据库中的记录排序，比较邻近记录，来判识排除重复记录。

4.3.1.4气象数据质控模型评估

为评估上述数据清洗和质控方法的效果，引入查准率、精确度和查重率3项指标分别检测数据样本。选取10个新能源场站气象监测点点，分别以使用率较高的气温和相对湿度要素为例，利用2019年全年逐小时的观测数据作为整体样本评估数据。

以订正站数据为标准，将样本数据划分为真实正确样本(TP)、真实错误样本(FP)、清洗正确样本(TN)

清洗错误样本(FN)4种情形，令TP，FP，TN、FN分别表示其对应的样本数，则本次被清洗数据总数＝TP+FN，识别样本总数＝TP+FP+TN+FN。

查准率P＝TP/(TP+FP)表示为正确数据占清洗后真实总样本的比率。精确度A＝(TP+TN)/(TP+FN+FP+T N)则是清洗质控后正确的样本数占样本总数的比例。查全率R＝TP/(TP+FN)是正确识别样本和被清洗数据总数的百分比。

选取气温和相对湿度两类气象要素，分别计算其评估指数的逐月变化情况，结果如图4所示，其中图a、c、e分别为气温的查全率(TR)、查准率(Tp)、精确度(TA)；图b、d，分别为相对湿度的查全率(RhR)、查准率(Rh p)、精确度(Rh A)。

从清洗质控后的结果来看，不同月份的数据质量存在一定差异，其中两类要素的查全率和查准率都在80％左右，其中相对湿度的查全识别效果较好，而温度的逐月查准率均优于相对湿度；气温和相对湿度的最低精确度分别是71.0％和72.6％。经过数据清洗和质控模型后数据准确率和重复性均有明显改善，气象数据清洗质控方法可以有效提升观测数据质量。

4.3.2不良数据修复与还原

4.3.2.1气象数据修复算法

已有的气象要素数据修复方法大多是空间修复方面的研究。空间修复研究就是使用站点地理位置距离上的远近来表示气象观测站点之间的相似性，然后使用“相似”(距离更近)的已有观测值站点的观测数据来对有缺失数据的站点进行数据修复。然而，还可以直接计算气象站点气象要素时间序列之间的相似性，然后使用与含缺失数据站点相似的气象站点的气象要素观测数据来进行数据修复。这里可以直接使用第三章构建的基于相似性的气象网络中计算出来的气象观测站点之间的相似性邻接矩阵，使用相似性矩阵中与含缺失数据站点相似站点的气象要素观测数据进行修复。

气象要素数据相似性修复

在欧氏空间中有明确定义，但在地理空间中却是更复杂的量。复杂多样的地面地形、山川、江河湖泊、建筑和人为活动都会对气象数据观测产生影响，进而使得距离很近的气象站点观测数据也可能会产生很大的差异。

因为地理学第一定律对距离定义的不明确及其它原因，空间距离越近的气象观测站点不一定它们的气象观测要素数据就越相似。因此，基于气象要素时间序列相似性网络，提出了气象数据的相似性修复方法。即使用已有的气象站点观测数据，计算气象站点的观测数据之间的相似性，不依靠距离度量找与目标站点“相似”的站点。

气象要素数据的相似性修复，通过构建气象相似性网络时计算节点的气象要素时间序列之间的相似性得到的节点之间的相似性来修复缺失数据。可以用下面的公式表示：

其中，X_S(i,j)为气象观测站点i在时间序列上第j个时间缺失值的估值，这里使用的估值方法为相似性修复；S_i,p为气象观测站点i与站点p的之间的相似性；X_S(p,j)为气象观测站点p在时间序列上第j个时间的实际值；Ω为给定的气象观测站点范围，这里可以选择除了站点i以外的全部站点，也可以只选择与站点i相似性比较高的部分站点。通过上面的公式可以看出，相似性修复还是一种类似空间修复的方法，只是选择参与修复的站点不再以空间距离为标准。

气象要素数据两次修复

站点的气象要素时间修复，使用缺失值站点上与缺失值时间序列上时间最邻近的若干个观测值来计算缺失值的时间估值。如果待修复时间邻近的时间序列上为观测值也缺失，就只能使用次邻近的时间上的观测值。而次邻近时间的观测值很可能已有较大变化，对数据修复的精确度造成影响。

站点的气象要素空间修复，使用缺失值同一时间与缺失值空间上最邻近的若干个站点的观测值来计算缺失值的空间估值。如果在缺失值时间与待修复空间邻近的站点观测值也缺失，就只能使用次邻近站点上的气象要素观测值。而次邻近站点因为距离更远，气象要素观测值与缺失值差异变大，对数据修复的精确度造成影响。

站点的气象要素相似性修复与空间修复类似，只是选择参与修复站点的方法有所不同。相似性修复使用缺失值同一时间，与缺失值时间序列最相似的若干个观测值来计算缺失值的空间估值。如果在缺失值同一时间与待修复时间序列相似的站点观测值也缺失，就同样只能使用次相似站点的观测值，对数据修复的精确度造成影响。

以上方法都只从一个维度考虑气象要素数据的修复。整合空间修复和时间修复的扩展法存在空间距离和时间距离单位的匹配问题。实际修复研究中难以应用。

整合空间修复和时间修复的时空修复约减法把时间作为一个单独的维，先不考虑空间上的其它气象站点。对每个气象要素时间序列进行时间修复，得到缺失数据的第一次修复值。这样得到用时间修复值修复完整的所有气象站点的气象要素时间序列。再对每个缺失数据考虑空间上其它站点同一时间的气象要素观测值，使用包含第一次修复值的空间修复方法进行二次修复。这样在第二次修复时，每个缺失值都可以使用所有空间距离近的站点观测值参与修复，而不用剔除空间距离近却同样缺失的站点，减小了误差。

这种先进行时间修复，再进行空间修复的方法适合气象要素空间观测值差异较大(气象观测站点数量少，位置分布稀疏)且气象要素时间序列变化平稳的数据修复研究。对于气象要素空间观测值差异较小(气象观测站点数量多，站点分布比较密集)且气象要素时间序列变化较大的数据修复研究，先使用时间修复的第一次修复值就带有较大误差。再用这个含较大误差的数据进行空间修复影响了修复的精确度。

目前气象观测站点数量已经达到一定规模，站点位置分布较均匀。距离较近的气象观测站点气象要素观测值之间的差异较小。而气象要素观测数据(一般1小时1次)测量精度较高，观测数据随时间变化较大。

因此，根据目前的站点数量和分布等实际情况，对气象要素观测时间序列修复时可以对时空修复约减法更改计算方式。先使用空间修复方法对缺失数据进行修复，得到第一次修复值。再对每个缺失数据考虑时间修复，使用包含第一次修复值的时间修复方法对缺失数据进行二次修复。

除了先进行时间修复后进行空间修复(时空修复约减法)、先进行空间修复后进行时间修复，我们还可以引入相似性修复的方法加入两次修复方法。使用先进行时间修复后进行相似性修复和先进行相似性修复后进行时间修复的方法。因为空间修复和相似性修复类似，不考虑先进行空间修复后进行相似性修复和先进行相似性修复后进行空间修复。本文把这种先后两次修复的方法统一称之为两次修复法。如图5所示为气象要素两次修复模型：

第一次修复的时候，因为数据集是包含多个缺失值的，修复中过程中可能最适合参与修复的数据同样缺失而只能使用误差更大的数据修复；第二次修复，因为缺失数据已经有了首次修复值，对缺失数据二次修复减小第一次修复的误差。

气象要素数据混合修复

时间修复没有考虑空间上邻近气象观测站点在观测值缺失时刻的影响，而空间修复没有考虑气象观测站点观测数据的时间序列特性。现有的时空修复在使用上又有诸多限制：时空修复约减法对待修复站点在时间t的估值从其它站点在时间t的数据通过空间修复计算，而其它站点在时间1的数据又是由它们在时间t前后的观测值估算得到，容易产生较大误差；对于扩展法，时间维度和空间维度的单位匹配难以确定。本文综合考虑气象要素数据的时间特性、空间特性和气象要素时间序列之间的相似性关系，提出了一种混合修复模型。该模型综合考虑时间修复、空间修复和相似性修复以提高缺失数据修复的精确度。本文称这三种修复方法的综合为混合修复，可以用以下公式表示：

X(i,j)＝aX_D(i,j)+bX_T(i,j)+cX_S(i,j)+d (39)

其中，X(i,j)为气象观测站点i在时间j的估值；X_D(i,j)为气象观测站点i在时间j的空间估值，空间修复方法可以使用反距离加权法X_T(i,j)为气象观测站点i在时间j的时间估值；X_S(i,j)为气象观测站点i在时间j的相似性估值；a、b和c分别为空间、时间和相似性估值系数；d为常数项。

气象要素数据混合修复流程如图6：

气象要素混合修复的下一步重要工作是确定混合修复拟合方程的系数，用气象观测站点的实际值、空间修复估值、相似性修复估值和时间修复估值进行多元线性回归分析，使用最小二乘法求解方程的最佳拟合系数。

修复精确度评价指标

评价修复方法的修复精确度是比较困难的。从数据源中获取得到的数据本身可能包含缺失值或错误值，如果直接用作为实验数据，则无法对实验的结果进行精确度评价。因此需要从数据源中选取一个完整的数据集或者将数据源中包含的缺失数据的行和列都删除，人为的得到完整的数据集。然后采用Holdout验证的方法来验证修复方法的修复精确度。

Holdout验证方法把数据集分为两个子集，先在一些子集上做分析，而剩下的子集用来对分析的结果进行验证和确认。用来做分析的子集被称为训练集，而剩下的子集称之为验证集。

把一组气象观测站点的某个气象要素时间序列组成一个数据集，选定一个缺失率，对数据集中的数据随机标记缺失，然后用不同的修复方法使用未缺失的数据来修复缺失的数据。最后通过计算缺失气象站点气象要素的实际测量值与估算值的误差来评估修复方法的精确度。一般情况下采用平均绝对误差(Mean Absolute Error，MAE)和均方根误差(Root-Mean-Square Error，RMSE)来衡量修复方法的精确度，平均绝对误差和均方根误差的表达式分别为公式：

其中，X_oi为第i个观测站点的实际测量值，X_ei为第i个站点的修复估算值，n为用于参与验证的观测站点的数量。

这两个值越接近0，修复的精确度就越高。平均误差反映总体估计误差的大小；平均绝对误差反映样本数据估值的总体误差，可以评估估算值可能的误差范围：均方根误差可以反映利用观测数据的估算灵敏度和极值效应。

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种多源气象数据融合与预处理方法，其特征在于：基于三层次融合结构，具体包括数据层、特征层和决策层，逐层提取特定的有用的信息，具体步骤为：

(3)气象数据还原，采用修复算法；

(4)对气象数据的修复精度进行验证计算。

2.根据权利要求1所述的多源气象数据融合与预处理方法，其特征在于：数据层的数据融合方法采用聚类分析法，特征层的数据融合方法采用卡尔曼滤波法，决策层的数据融合方法采用贝叶斯估计法。

3.根据权利要求1所述的多源气象数据融合与预处理方法，其特征在于：所述步骤(3)采用的修复算法，具体包括：

①气象要素数据相似性修复；

②气象要素数据的空间修复和时间修复

③气象要素数据混合修复。

4.根据权利要求3所述的多源气象数据融合与预处理方法，其特征在于：所述①气象要素数据相似性修复，是通过构建气象相似性网络时计算节点的气象要素时间序列之间的相似性得到的节点之间的相似性来修复缺失数据，用下面的公式表示：

5.根据权利要求3所述的多源气象数据融合与预处理方法，其特征在于：所述②气象要素数据的空间修复和时间修复，是整合空间修复和时间修复的时空修复约减法把时间作为一个单独的维，不考虑空间上的其它气象站点，对每个气象要素时间序列进行时间修复，得到缺失数据的第一次修复值，这样得到用时间修复值修复完整的所有气象站点的气象要素时间序列，再对每个缺失数据考虑空间上其它站点同一时间的气象要素观测值，使用包含第一次修复值的空间修复方法进行二次修复，这样在第二次修复时，每个缺失值都可以使用所有空间距离近的站点观测值参与修复，而不用剔除空间距离近却同样缺失的站点，减小误差；根据目前的站点数量和分布的实际情况，对气象要素观测时间序列修复时，先使用空间修复方法对缺失数据进行修复，得到第一次修复值，再对每个缺失数据考虑时间修复，使用包含第一次修复值的时间修复方法对缺失数据进行二次修复。

6.根据权利要求3所述的多源气象数据融合与预处理方法，其特征在于：所述③气象要素数据混合修复，是综合考虑时间修复、空间修复和相似性修复以提高缺失数据修复的精确度，用混合修复拟合方程计算，公式表示：

X(i,j)＝aX_D(i,j)+bX_T(i,j)+cX_S(i,j)+d (39)

7.根据权利要求6所述的多源气象数据融合与预处理方法，其特征在于：气象要素数据混合修复需要确定混合修复拟合方程的系数，用气象观测站点的实际值、空间修复估值、相似性修复估值和时间修复估值进行多元线性回归分析，使用最小二乘法求解方程的最佳拟合系数。

8.根据权利要求1所述的多源气象数据融合与预处理方法，其特征在于：所述步骤(4)数据的修复精度进行验证计算的方法是，从数据源中选取一个完整的数据集，或者将数据源中包含的缺失数据的行和列都删除，人为的得到完整的数据集，然后采用Holdout验证的方法来验证修复方法的修复精确度，