CN110502526B - 一种适用于结冰现象的资料序列插补的方法 - Google Patents

一种适用于结冰现象的资料序列插补的方法 Download PDF

Info

Publication number
CN110502526B
CN110502526B CN201910789977.9A CN201910789977A CN110502526B CN 110502526 B CN110502526 B CN 110502526B CN 201910789977 A CN201910789977 A CN 201910789977A CN 110502526 B CN110502526 B CN 110502526B
Authority
CN
China
Prior art keywords
icing
sequence
data
station
daily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910789977.9A
Other languages
English (en)
Other versions
CN110502526A (zh
Inventor
温华洋
朱华亮
盛绍学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Meteorological Information Center
Original Assignee
Anhui Meteorological Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Meteorological Information Center filed Critical Anhui Meteorological Information Center
Priority to CN201910789977.9A priority Critical patent/CN110502526B/zh
Publication of CN110502526A publication Critical patent/CN110502526A/zh
Application granted granted Critical
Publication of CN110502526B publication Critical patent/CN110502526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种适用于结冰现象的资料序列插补的方法,充分考虑了结冰现象的形成机理,应用地面气象站观测的气温和地表温度数据,对全国2400余个气象站观测的结冰日数进行质量控制,利用贝叶斯判别等多种分类方法,基于日最低气温和日最低地表温度构建一套具有较高判识准确率的结冰现象的判识模型,对异常年份数据进行订正,形成结冰现象重建数据集。本发明能够检测出绝大部分漏测和错测数据,解决了现有资料质量控制滞后不全面的问题,保证了数据质量的可靠性。

Description

一种适用于结冰现象的资料序列插补的方法
技术领域
本发明涉及一种资料序列插补的方法,更具体的涉及一种适用于结冰现象的资料序列插补的方法。
背景技术
结冰(又称冻结)指露天水面冻结成冰,包括器皿中的水冻结成冰,是日常生活中比较常见的自然现象,但其通常与低温冷害相伴随,对人类的生产生活、动植物的生长有较大的影响。如冬季的雨雪天气,高速公路、机场跑道结冰与社会安全生产、民众平安出行等息息相关,由此引发的交通事故、交通延误等,已成为社会各界广泛关注的热点问题。因此,气象部门对结冰现象的监测和预报非常重视,长序列、连续的结冰资料有利于气候变化的分析、农业气象和道路交通的预报与服务,也是开展有效的灾害预防、应急救援等活动的科学依据。
我国各气象站从建站起就开始记录结冰现象,形成了较长序列的结冰观测资料。这些观测资料在农业、交通等领域的气象服务发挥着重要作用,但同样存在较多的问题。首先,由于结冰现象一直采用人工目测的方式进行观测,而人工观测存在主观性强、观测频率低等弊端,从而导致了结冰观测存在不同程度的漏测、错测等现象,同时由于数据质量控制端缺少相应的手段方法,导致对绝大部分漏测和部分错测数据无法检测。其次,我国气象站经历多次变革,部分气象站观测任务多次调整,如2013年取消了一般气象站夜间值守班,导致部分气象站结冰的观测记录明显减少或未记录,又如2018年开展的地面观测自动化试点业务又取消部分省部分台站的结冰观测。此外,历史资料在数字化过程中尚存在不少错漏,出现了空白记录或者缺测记录需要进一步确认处理。目前,我国对结冰资料的质量控制方法较为简单,尚未进行更为深入的数据质量控制;对缺测或异常数据年份较多的气象站进行数据订正的手段较为单一,采用的线性回归法仅能完成对年(或月)结冰日数的插补,较难认定某天是否发生结冰现象。
发明内容
针对上述问题,本发明提供了一种适用于结冰现象的资料序列插补的方法,能够对结冰数据进行更为深入的质量控制,完成年(或月)结冰日数的插补,形成均一的结冰序列重建数据集。
本发明采用如下的技术方案:一种适用于结冰现象的资料序列插补的方法,按如下步骤进行:
S1、针对人工观测的结冰现象历史资料序列,结合要素观测值对其进行数据质量控制,对质量控制后的序列,标记出未记录结冰现象和结冰日数异常的年份。
S2、针对步骤S1处理后的资料序列,开展连续性检验,根据检验结果,对气象站点进行分类;
资料序列连续性较好,无缺测和异常年份的气象站点记为A类;资料序列连续性较好,缺测或异常年份占序列长度小于等于50%的台站记为B类;缺测或异常年份占序列长度大于50%,或资料序列连续性较差的台站记为C类
S3、建立各站的结冰判识模型,并完成判识模型的评估,形成最优序列订正模型,方法为:针对B类站点,剔除数据异常年份,再将A类站点和B类站点数据,以随机选取的方式选取80%作为训练数据集,20%作为检验数据集,分别采用贝叶斯判别分类训练法、二分类逻辑回归训练法和决策树分类法进行结冰判识模型训练,并采用检验数据集对训练所得模型进行效果评估,模型判识结果与人工观测一致认为正确,保留判识准确率达到85%的判识模型;
对训练所得的判识模型采用投票法或基于判识准确率的加权法进行融合,得到最优序列订正模型。
S4、利用最优序列订正模型,对B类站点和C类站点异常年份数据进行订正,得到订正后的资料序列,再对订正后的资料序列的连续性进行检验,未通过连续性检验的序列进行均一性订正,最终得到结冰现象的重建序列数据集。
本发明技术方案的进一步限定为,步骤S1中质量控制的方法为缺测检查、界限值检查、内部一致性检查、要素一致性检查和空间一致性检查。
进一步地,所述要素一致性检查利用日最低气温和日最低地表温度开展检查,如果日最低气温或日最低地表温度缺测,则在该日定时气温或地表温度中取最小值作为替代。
进一步地,所述内部一致性检查的具体方法为:利用序列计算年结冰日数的均值μ和标准差σ,若某年结冰日数小于μ-3σ,或大于μ+3σ,则认为该年结冰日数异常,进行标记。
进一步地,所述年结冰日数的计算方法为:
首先,对逐日结冰现象进行检查,若某日出现结冰现象,且该日最低气温和最低地表温度均大于10℃,则判定该日的结冰现象错误;
其次,计算各站年结冰日数序列与日最低气温小于0℃年日数间的相关系数r,并对相关系数r进行t检验,如果通过显著性水平为0.05的相关系数检验,则求取两者的线性拟合公式,并计算估算值与真实值之间的平均绝对偏差;
利用线性拟合公式估算检查年的结冰现象日数,若真实值大于等于10日,且真实值比估算值偏低50%,或真实值小于10日,且真实值与估算值差值绝对值大于或等于5日,则认为检查年份异常,进行标记,其中相关系数
Figure BDA0002179259940000041
X1,X2,…,Xn为年结冰日数序列,Y1,Y2,…,Yn为日最低气温小于0℃年日数序列。t检验统计量为
Figure BDA0002179259940000042
n为序列长度。
进一步地,所述空间一致性检查的方法为:即判定检测站某年结冰日数比邻近站该年平均结冰日数是否偏高或偏低50%,若偏差超过20%,则认为该年结冰日数记录异常,进行标记;
其中,邻近站的选取步骤为:(1)与检测站的海拔高度差不超过200米;(2)年平均气温序列的相关系数大于0.7且通过显著性水平为0.05的相关系数检验;(3)距离检测站最近的5个气象站,若不足5个以实际数量计算,若为0则不进行空间一致性检查。
进一步地,步骤S2中所述连续性检验的采用PMFT算法。
进一步地,步骤S4中对C类站点异常年份数据进行订正的方法为:采用参考站最优模型进行订正,参考站选取标准按如下步骤开展为:(1)与订正站的海拔高度差不超过500米;(2)两者年平均气温序列的相关系数大于0.7且通过显著性水平为0.05的相关系数检验;(3)距离订正站最近的气象站。
本发明的有益之处在于:本发明提供一种适用于结冰现象的资料序列插补的方法,能够检测出绝大部分漏测和错测数据,解决了现有资料质量控制滞后不全面的问题,保证了数据质量的可靠性;本发明充分利用了现有的观测数据,结合多种判识方法,建立基于日最低气温和日最低地表温度的结冰判识模型,实现了某日结冰现象是否出现的判定,能完成日、月、年结冰资料的插补订正;本发明对插补后的结冰资料序列进行均一性检验和订正,形成了长序列、均一的结冰气候资料序列重建数据集,为气候变化研究、道路结冰预测、农业气象服务等方面提供了基础数据源。
附图说明
图1为本发明提供的一种适用于结冰现象的资料序列插补的方法的流程图;
图2为本发明提供的资料序列插补的方法中对资料序列进行质量控制的流程图;
图3为本发明提供的资料序列插补的方法中模型建立的流程图;
图4为本发明提供的资料序列插补的方法中序列订正及评估的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
实施例1:本实施例提供一种适用于结冰现象的资料序列插补的方法,充分考虑了结冰现象的形成机理,应用地面气象站观测的气温和地表温度数据,对全国2400余个气象站观测的结冰日数进行质量控制,利用贝叶斯判别等多种分类方法,基于日最低气温和日最低地表温度构建一套具有较高判识准确率的结冰现象的判识模型,对异常年份数据进行订正,形成结冰现象重建数据集。如图1所示,具体实施步骤如下:
S1、针对人工观测的结冰现象历史资料序列,结合要素观测值对其进行数据质量控制,对质量控制后的序列,标记出未记录结冰现象和结冰日数异常的年份。
如图2所示,采用缺测检查、界限值检查、内部一致性检查、要素一致性检查和空间一致性检查等方法对全国2400余个气象站点的人工观测结冰资料序列进行数据质量控制,标记出未记录结冰现象和结冰日数异常的年份。具体实施步骤如下:
(1)缺测检查:针对全国2400余个气象站,检查各气象站正常观测年是否存在未观测结冰现象,若某年未观测结冰现象,认为该年数据异常,进行标记。
(2)界限值检查:检查各气象站年结冰日数是否小于或等于366日,且大于或等于0日,若出现某年结冰日数不在[0,366]范围内,认为该年数据异常,进行标记。
(3)要素一致性检查:利用日最低气温和日最低地表温度开展检查。如果日最低气温(或日最低地表温度)缺测,则在该日定时气温(或地表温度)中取最小值作为替代。
首先,对逐日结冰现象进行检查,若某日出现结冰现象,且该日最低气温和最低地表温度均大于10℃,则判定该日记录的结冰现象错误,订正为无结冰现象。
其次,计算各站年结冰日数序列与日最低气温小于0℃年日数间的相关系数:
Figure BDA0002179259940000061
其中X1,X2,…,Xn为日最低气温小于0℃年日数序列,Y1,Y2,…,Yn为年结冰日数序列。若相关系数r≥0.6,且通过显著性水平为0.05的t检验,(检验统计量
Figure BDA0002179259940000062
n为序列长度),则求取两者的线性拟合公式:
Figure BDA0002179259940000063
其中,X表示日最低气温小于0℃年日数,
Figure BDA0002179259940000064
表示年结冰日数估算值,
Figure BDA0002179259940000065
表示日最低气温小于0℃年日数均值,
Figure BDA0002179259940000067
表示年结冰日数均值。利用线性公式计算的估算值
Figure BDA0002179259940000066
与真实值Yi之间的平均绝对偏差
Figure BDA0002179259940000071
利用B≤6天的线性拟合公式估算某年的结冰日数,若真实值比估算值偏低50%,则认为检查年份异常,进行标记。
(4)内部一致性检查:利用序列计算年结冰日数的均值μ和标准差σ,若某年结冰日数<μ-3σ,或>μ+3σ,则认为该年结冰日数异常,进行标记;
(5)空间一致性检查:采用如下标准和步骤选取参考站:
a.与检测站的海拔高度差不超过200米;
b.两站年平均气温序列的相关系数大于0.7且通过显著性水平为0.05的相关系数检验;
c.距离检测站最近的5个气象站(若不足5个以实际数量计算,若为0则不进行空间一致性检查)。
计算参考站平均年结冰日数
Figure BDA0002179259940000072
其中Y1,…Y5为参考站年结冰日数,若检测站某年结冰日数Y与参考站平均年结冰日数的相对偏差
Figure BDA0002179259940000073
超过20%,则认为该年结冰日数记录异常,进行标记。
S2、针对步骤S1处理后的资料序列,开展连续性检验,根据检验结果,对气象站点进行分类。
针对质量控制后的资料序列,采用PMFT(penalized maximal F-test,最大惩罚F检验)等方法对序列进行均一性检验,检验统计量为:
Figure BDA0002179259940000074
若检验统计量大于某一阈值,认为该站资料序列存在变点,均一性较差,进行标记。如合肥气象站1960-2010年的年结冰日数序列中,PMFT检验统计量在2000年达到最大值,且该最大值超过11.06,即合肥气象站1960-2010年的年结冰日数序列在2000年存在变点,序列均一性较差。
针对均一性检验后的资料序列,对2400余个气象站点进行分类。资料序列均一性较好,无缺测和异常年份的台站记为A类;资料序列均一性较好,缺测或异常年份占序列长度不足(含)50%的台站记为B类;缺测或异常年份占序列长度超过50%,或资料序列均一性较差的台站记为C类。如合肥气象站1960-2010年的年结冰日数序列非均一,则合肥气象站为C类气象站。
S3、建立各站的结冰判识模型,并完成判识模型的评估,形成最优序列订正模型,方法为:针对B类站点,剔除数据异常年份,再将A类站点和B类站点数据,以随机选取的方式选取80%作为训练数据集,20%作为检验数据集,分别采用贝叶斯判别分类训练法、二分类逻辑回归训练法和决策树分类法进行结冰判识模型训练,并采用检验数据集对训练所得模型进行效果评估,模型判识结果与人工观测一致认为正确,保留判识准确率达到85%的判识模型。
对训练所得的判识模型采用投票法或基于判识准确率的加权法进行融合,得到最优序列订正模型。
(1)模型建立
如图3所示,针对B类站点,剔除数据异常年份,再将A类站点和B类站点数据,以随机选取的方式选取80%作为训练数据集,20%作为检验数据集,分别采用贝叶斯判别分类训练法、二分类逻辑回归训练法和决策树分类法进行结冰判识模型训练。
其中贝叶斯判别分类训练法分为以下几步:
a.计算训练数据集中结冰发生的频率作为相应的先验概率p(yi)(i=0,1),i=0表示无结冰,i=1表示有结冰;
b.计算各类别下日最低气温和日最低地表温度的条件概率p(z1/yj)(j=0,1)、p(z2/yj)(j=0,1);
c.根据贝叶斯定理,对每个类别计算p(Z/yi)p(yi),计算公式如下:
p(Z/yi)p(yi)=p(z1/yi)p(z2/yi)。
d.根据p(Z/yi)p(yi)的最大项作为有无结冰的分类。若p(Z/y1)p(y1)>p(Z/y0)p(y0),则认为有结冰现象,否则认为无结冰现象。
二分类逻辑回归训练法,通过Sigmoid函数(S型生长曲线)将结果映射到0-1空间,设定阈值为0.5,其训练过程如下:
a.利用训练样本采用随机梯度上升法求得如下公式的最佳回归系数:
x=w0+w1z1+w2z2
b.将上式的计算的值作为Sigmoid函数的输入值,公式如下:
Figure BDA0002179259940000091
c.根据与阈值0.5的大小进行分类,大于0.5的数据被分为1类(即结冰现象出现),小于0.5的被归为0类(即结冰现象不出现)。
决策树训练法,采用CART(classification and regression tree,分类和回归树)算法生成决策树,训练步骤如下:
a.对于给定的训练样本集合D,其基尼指数为:
Gini(D)=1-(|C0|/|D|)2-(|C1|/|D|)2
其中,|C0|表示无结冰集数,|C1|表示有结冰集数,|D|表示训练样本数。如果样本集合D根据特征A(如日最低气温)是否取某一可能值a(如0℃)被分割成D1,D2两部分,即:
D1={(x,y)∈D|A(x)=a},D2=D-D1
则在特征A的条件下,集合D的基尼指数为:
Figure BDA0002179259940000092
b.在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点,从现节点生成两个子节点,将训练数据集依特征分配到两个子节点中去;
c.对两个子节点递归地调用(1)和(2),直到没有更多特征为止;
d.生成CART决策树,采用损失函数Cα(Tt)=C(Tt)+α|Tt|进行CART树剪枝,得到最优决策树。其中,α为正则化参数,C(Tt)为训练数据的预测误差,|Tt|是子树T的叶子节点的数量。
(2)模型评估
针对(1)中所建立的结冰判识模型,采用检验数据集对其进行效果评估,模型判识结果与人工观测一致认为正确,保留判识准确率达到85%的判识模型。若某站建立的多个判识模型准确率均不足85%,则该站判识模型建立不成功。
(3)模型融合
针对(1)中得到的多个判识模型{D1,D2,D3,…}进行封装,其中D1,D2,D3分别指贝叶斯判别法、逻辑回归和决策树等方法训练得到的模型,向模型中输入每日观测的日最低气温和日最低地表温度值,得到各模型对结冰现象的判识结果,将每个模型的判识结果进行融合,作为最终的判识结果。采用基于判识准确率的加权法进行判识结果的融合,其计算步骤如下:
a.将有结冰现象和无结冰现的两个类的权重初始化为0;
b.计算模型D1,D2,D3的权重值,公式如下:
Figure BDA0002179259940000101
其中,error(Di)表示模型Di的错误率(i=1,2,3),即准确率越高,权重越大。
c.根据输入的观测数据x,计算第i个模型Di对结冰现象的判识结果Y=Di(x)(i=1,2,3);
d.将模型Di的权重值wi加到类Y的权重,最终根据有结冰类和无结冰类中权重值最大的类作为最终判识结果。如有结冰的权重值之和大于结冰水的权重值之和,则最终判定为有露水现象。
S4、利用最优序列订正模型,对B类站点和C类站点异常年份数据进行订正,得到订正后的资料序列,再对订正后的资料序列的连续性进行检验,未通过连续性检验的序列进行均一性订正,最终得到结冰现象的重建序列数据集。
(1)参考站选取
针对B类模型建立不成功的站点和C类站点,采用如下标准和步骤选取参考站:
a.参考站与订正站的海拔高度差不超过500米;
b.参考站与订正站的年平均气温序列的相关系数大于0.7且通过显著性水平为0.05的相关系数检验;
c.距离订正站最近且模型建立成功的站点。
(2)序列订正
针对B类站点异常年份数据和C类站点数据进行订正。其中B类站点采用本站最优订正模型进行订正,若本站模型建立不成功,则选用参考站最优模型进行订正;C类站点采用参考站最优模型进行订正。
(3)均一性检验
采用SNHT(standard normal homogeneity test,标准正态均一性检验)、PMT(penalized maximal t-test,最大惩罚T检验)、PMFT(penalized maximal F-test,最大惩罚F检验)等方法,对订正序列的连续性进行检验。对未通过连续性检验的序列,采用差值订正法和综合订正法进行订正,得到结冰序列重建数据集。其中差值订正法的订正公式为:
Figure BDA0002179259940000111
综合订正法的订正公式为:
Figure BDA0002179259940000121
上两式中的yα,xα
Figure BDA0002179259940000122
σy,σx分别为样本容量为N的订正序列与基本序列的原始值、平均值和均方差。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1.一种适用于结冰现象的资料序列插补的方法,其特征在于,按如下步骤进行:
S1、针对人工观测的结冰现象历史资料序列,结合要素观测值对其进行数据质量控制,质量控制的方法为缺测检查、界限值检查、内部一致性检查、要素一致性检查和空间一致性检查;
要素一致性检查利用日最低气温和日最低地表温度开展检查,如果日最低气温或日最低地表温度缺测,则在该日定时气温或地表温度中取最小值作为替代;
内部一致性检查的具体方法为:利用序列计算年结冰日数的均值μ和标准差σ,若某年结冰日数小于μ-3σ,或大于μ+3σ,则认为该年结冰日数异常,进行标记;
空间一致性检查的方法为:即判定检测站某年结冰日数比邻近站该年平均结冰日数是否偏高或偏低50%,若偏差超过20%,则认为该年结冰日数记录异常,进行标记;
对质量控制后的序列,标记出未记录结冰现象和结冰日数异常的年份;
S2、针对步骤S1处理后的资料序列,开展连续性检验,根据检验结果,对气象站点进行分类;
资料序列连续性较好,无缺测和异常年份的气象站点记为A类;资料序列连续性较好,缺测或异常年份占序列长度小于等于50%的台站记为B类;缺测或异常年份占序列长度大于50%,或资料序列连续性较差的台站记为C类;
S3、建立各站的结冰判识模型,并完成判识模型的评估,形成最优序列订正模型,方法为:针对B类站点,剔除数据异常年份,再将A类站点和B类站点数据,以随机选取的方式选取80%作为训练数据集,20%作为检验数据集,分别采用贝叶斯判别分类训练法、二分类逻辑回归训练法和决策树分类法进行结冰判识模型训练,并采用检验数据集对训练所得模型进行效果评估,模型判识结果与人工观测一致认为正确,保留判识准确率达到85%的判识模型;
对训练所得的判识模型采用投票法或基于判识准确率的加权法进行融合,得到最优序列订正模型;
S4、利用最优序列订正模型,对B类站点和C类站点异常年份数据进行订正,得到订正后的资料序列,再对订正后的资料序列的连续性进行检验,未通过连续性检验的序列进行均一性订正,最终得到结冰现象的重建序列数据集。
2.根据权利要求1所述的一种适用于结冰现象的资料序列插补的方法,其特征在于,所述年结冰日数的计算方法为:
首先,对逐日结冰现象进行检查,若某日出现结冰现象,且该日最低气温和最低地表温度均大于10℃,则判定该日的结冰现象错误;
其次,计算各站年结冰日数序列与日最低气温小于0℃年日数间的相关系数r,并对相关系数r进行t检验,如果通过显著性水平为0.05的相关系数检验,则求取两者的线性拟合公式,并计算估算值与真实值之间的平均绝对偏差;
利用线性拟合公式估算检查年的结冰现象日数,若真实值大于等于10日,且真实值比估算值偏低50%,或真实值小于10日,且真实值与估算值差值绝对值大于或等于5日,则认为检查年份异常,进行标记,其中相关系数
Figure FDA0003826068210000021
X1,X2,…,Xn为年结冰日数序列,Y1,Y2,…,Yn为日最低气温小于0℃年日数序列,t检验统计量为
Figure FDA0003826068210000022
n为序列长度。
3.根据权利要求1所述的一种适用于结冰现象的资料序列插补的方法,其特征在于,邻近站的选取步骤为:(1)与检测站的海拔高度差不超过200米;(2)年平均气温序列的相关系数大于0.7且通过显著性水平为0.05的相关系数检验;(3)距离检测站最近的5个气象站,若不足5个以实际数量计算,若为0则不进行空间一致性检查。
4.根据权利要求1所述的一种适用于结冰现象的资料序列插补的方法,其特征在于,步骤S2中所述连续性检验采用PMFT算法。
5.根据权利要求1所述的一种适用于结冰现象的资料序列插补的方法,其特征在于,步骤S4中对C类站点异常年份数据进行订正的方法为:采用参考站最优模型进行订正,参考站选取标准按如下步骤开展为:(1)与订正站的海拔高度差不超过500米;(2)两者年平均气温序列的相关系数大于0.7且通过显著性水平为0.05的相关系数检验;(3)距离订正站最近的气象站。
CN201910789977.9A 2019-08-26 2019-08-26 一种适用于结冰现象的资料序列插补的方法 Active CN110502526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910789977.9A CN110502526B (zh) 2019-08-26 2019-08-26 一种适用于结冰现象的资料序列插补的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910789977.9A CN110502526B (zh) 2019-08-26 2019-08-26 一种适用于结冰现象的资料序列插补的方法

Publications (2)

Publication Number Publication Date
CN110502526A CN110502526A (zh) 2019-11-26
CN110502526B true CN110502526B (zh) 2023-05-09

Family

ID=68589558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910789977.9A Active CN110502526B (zh) 2019-08-26 2019-08-26 一种适用于结冰现象的资料序列插补的方法

Country Status (1)

Country Link
CN (1) CN110502526B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286924A (zh) * 2020-11-20 2021-01-29 中国水利水电科学研究院 一种数据异常动态识别与多模式自匹配的数据清洗技术
CN113192007B (zh) * 2021-04-07 2022-01-21 青岛地质工程勘察院(青岛地质勘查开发局) 一种多尺度信息融合的地热异常区提取方法
CN118069895A (zh) * 2024-04-19 2024-05-24 临沂大学 一种青少年体质大数据优化存储方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034252A (zh) * 2018-08-01 2018-12-18 中国科学院大气物理研究所 空气质量站点监测数据异常的自动化识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228234B2 (en) * 2005-01-26 2007-06-05 Siemens Building Technologies, Inc. Weather data quality control and ranking method
CN104635281B (zh) * 2015-02-17 2016-08-24 南京信息工程大学 基于强天气过程校正的自动气象站数据质量控制方法
CN106503458B (zh) * 2016-10-26 2019-04-16 南京信息工程大学 一种地面气温数据质量控制方法
CN106909722B (zh) * 2017-02-10 2019-07-26 广西壮族自治区气象减灾研究所 一种近地面气温的大面积精准反演方法
CN109958588B (zh) * 2017-12-14 2020-08-07 北京金风科创风电设备有限公司 结冰预测方法、装置、存储介质、模型生成方法及装置
CN109165693B (zh) * 2018-09-11 2022-12-06 安徽省气象信息中心 一种适用于露、霜和结冰的天气现象的自动判识方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034252A (zh) * 2018-08-01 2018-12-18 中国科学院大气物理研究所 空气质量站点监测数据异常的自动化识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Wind power prediction with missing data using Gaussian process regression and multiple imputation;T. Liu et al.;《Applied Soft Computing》;第905-916页 *
中国结冰现象序列的建立及气候变化分析;余予等;《高原气象》(第02期);第252-258页 *
基于邻域特征的温度缺失值的填补方法;唐云辉等;《中国农业气象》(第04期);第76-79页 *

Also Published As

Publication number Publication date
CN110502526A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN110502526B (zh) 一种适用于结冰现象的资料序列插补的方法
Tsakiris et al. Regional drought assessment based on the Reconnaissance Drought Index (RDI)
CN108304668B (zh) 一种结合水文过程数据和历史先验数据的洪水预测方法
CN109165693B (zh) 一种适用于露、霜和结冰的天气现象的自动判识方法
CN113919231B (zh) 基于时空图神经网络的pm2.5浓度时空变化预测方法及***
CN111260111B (zh) 基于气象大数据的径流预报改进方法
Sakamoto et al. Detecting spatiotemporal changes of corn developmental stages in the US corn belt using MODIS WDRVI data
CN111665575B (zh) 一种基于统计动力的中长期降雨分级耦合预报方法及***
CN113033957B (zh) 一种多模式降水预报及实时动态检验评估***
CN114298162A (zh) 融合卫星雷达多源数据的降水质量控制与评估方法及应用
CN114936201A (zh) 基于自适应分块神经网络模型的卫星降水数据校正方法
CN114648705A (zh) 一种基于卫星遥感的碳汇监测***及方法
CN112069673A (zh) 基于梯度提升决策树地表pm2.5浓度估算的方法
CN115691049A (zh) 一种基于深度学习的对流初生预警方法
CN109543911B (zh) 一种日照辐射预测方法及***
CN108830444B (zh) 一种探空观测数据的评估和修正方法及装置
CN113742929A (zh) 一种针对格点气象实况的数据质量评价方法
CN113821895B (zh) 输电线路覆冰厚度预测模型的构建方法、装置及存储介质
CN115420688A (zh) 一种基于物联网的农业灾害信息遥感提取损失评估方法
Ou et al. Sensitivity of calibrated week-2 probabilistic forecast skill to reforecast sampling of the NCEP Global Ensemble Forecast System
Stauffer et al. Hourly probabilistic snow forecasts over complex terrain: A hybrid ensemble postprocessing approach
Imfeld et al. 250 years of daily weather: Temperature and precipitation fields for Switzerland since 1763
CN112380778A (zh) 一种基于海温的气象干旱预报方法
CN117933476B (zh) 一种青藏高原多年冻土区植被性状空间分布估算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant