CN112286924A - 一种数据异常动态识别与多模式自匹配的数据清洗技术 - Google Patents

一种数据异常动态识别与多模式自匹配的数据清洗技术 Download PDF

Info

Publication number
CN112286924A
CN112286924A CN202011341697.0A CN202011341697A CN112286924A CN 112286924 A CN112286924 A CN 112286924A CN 202011341697 A CN202011341697 A CN 202011341697A CN 112286924 A CN112286924 A CN 112286924A
Authority
CN
China
Prior art keywords
data
time
water level
value
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011341697.0A
Other languages
English (en)
Inventor
蔡思宇
刘庆涛
孙龙
雷晓辉
王超
廖卫红
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute of Water Resources and Hydropower Research
Original Assignee
China Institute of Water Resources and Hydropower Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute of Water Resources and Hydropower Research filed Critical China Institute of Water Resources and Hydropower Research
Priority to CN202011341697.0A priority Critical patent/CN112286924A/zh
Publication of CN112286924A publication Critical patent/CN112286924A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

本发明专利公开了一种数据异常动态识别与多模式自匹配的数据清洗技术。包括以下步骤:S1、定时获取全国水文监测站前一天0时至24时的水位、流量全时段数据集;S2、识别并处理全时段的异常数据;S3、插补全时段空缺数据;S4、日数据整编;S5、根据缺失天数动态更新缺失时段日数据;S6、整体数据质量评估;S7、水位流量关系曲线拟合。本发明能够识别包括设备、环境及人为等原因造成的缺失及多种离群样点类型,并根据日数据缺失天数实时匹配不同的插补方法,自动完成短期、中期和长期时段的数据插补,提高了数据清洗整编的时效性。

Description

一种数据异常动态识别与多模式自匹配的数据清洗技术
技术领域
本发明专利属于水文水资源数据处理及整编领域,尤其涉及一种数据异常动态识别与多模式自匹配的数据清洗技术。
背景技术
水文资料是国民经济建设和生态文明建设的一项重要基础资料和信息资源,事关水利事业和经济社会发展大局,关系到防洪安全、供水安全、生态安全、涉水工程安全。近年来,随着水文站网和基础设施的快速建设与发展,全国水文部门共有各类水文测站12万余处,90%以上站点实现了自动监测,信息总量达10亿余条/年。但是,这些水文监测数据在采集、传输及存储过程中,由于设备、环境及人为等原因会导致数据中存在缺失、离群等多种异常数据,这些异常数据会降低决策的准确率,严重影响数据的服务质量。此外,在整编时效性上虽然提出了“日清月结”的要求,但由于人工集中审查的工作模式,需要到次年1月才能全面完成上年度水文资料整编工作。因此,水文数据的实时动态清洗与整编必不可少。
当前,水文数据清洗整编针对的异常数据主要分为两类:离群点及缺失点。对于离群点的判定大多采用阈值判定法,这种方法对于明显离群点(位数错误、单位错误、数据超出范围)判断较为准确,对于不明显离群点存在遗漏;缺失点插补方面,已有的方法在处理短期缺失时(5天以下)较为有效,但是无法处理中期(5-15天)和长期(15天以上)的数据缺失插补。
因此,针对异常值识别和缺失值插补等问题,采用数据异常动态识别与多模式自匹配的数据清洗技术,通过对原始监测数据的定时同步,自动调用清洗整编算法,每日自动计算生成整编成果,并对插补数据进行动态更新。实现水文监测数据的实时动态清洗与整编,切实提高水文数据整编的时效性。
发明内容
本发明专利的目的就是针对上述现有技术存在的问题,提出了一种数据异常动态识别与多模式自匹配的数据清洗技术。本发明专利的技术方案是这样实现的:一种数据异常动态识别与多模式自匹配的数据清洗技术,包括以下步骤:
S1、定时获取全国水文监测站前一天0时至24时的水位、流量全时段数据集;
S2、识别并处理异常数据:首先识别出全时段数据集中所有空缺值,对空缺值作空缺值标记;其次采用“阈值判定+拉依达准则/箱型图法”作为离群点判断方法对其余异常数据进行识别,建立水位离群样点集,并将其对应的流量数据纳入流量离群样点集,同时对离群点数据作离群样点标记;在全时段数据集中删除离群样点标记和空缺值标记对应数据;若删除离群样点标记和空缺值标记对应数据后,全时段数据集为空集,则执行步骤S4;所述空缺值标记、离群样点标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
S3、插补全时段空缺值数据:对于一对流量和水位数据中单一缺少任一数据的情况,则利用最近一年合格的水位流量关系曲线插补得到对应的流量或者水位数据,并附加插补值标记回补入全时段数据集中;所述水位流量关系曲线的合格标准为相关性系数达到90%以上;所述插补值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
S4、日数据整编:若全时段数据集非空,则采用梯形面积法将步骤S3补齐后的监测数据整编为日数据并录入日数据集,所述日数据为日平均水位和日平均流量;若全时段数据集为空集,则判定为日数据缺失,并暂时以前一日数据附加缺失值标记作为当天临时日数据录入日数据集,所述缺失值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
S5、动态更新缺失时段日数据:若当天录入日数据集的数据不带有缺失值标记,则不进行步骤S5;若当天录入日数据集的数据带有缺失值标记,则在日数据集中,以当前录入的日数据为起点按照时间顺序溯源检索缺失值标记,以检索到首个不含缺失值标记的数据为止,计算缺失时长,并将缺失时长分为短期、中期和长期三类,针对不同缺失时长分别采用短时插补法、中时插补法和长时插补法对缺失数据进行插补计算并替换S4步骤中产生的临时数据;所述短期为1<d≤5天;所述中期为5<d≤15天;所述长期15<d天,其中,d为缺失时长;
S6、数据质量评估:若当天录入日数据集的数据不是所在月份的最后一日数据,则不进行步骤S6;若当天录入日数据集的数据是所在月份的最后一日数据,则以全年的全时段数据集为对象,对每个水文站当月以及累计到当前月的监测频次、异常数据个数、缺失时长等进行统计评价;
S7、水位流量关系曲线拟合:若当天录入日数据集的数据不是所在年份的最后一日数据,则不进行步骤S7;若当天录入日数据集的数据是所在年份的最后一日数据,则以全年的全时段数据集为处理对象,删除具有空缺值标记和离群样点标记的数据后,采用最小二乘法对水位流量关系曲线进行函数拟合,将相关性系数最大的一种拟合函数作为最优拟合,若最优拟合的相关性系数小于90%,则标记作为异常年份。
进一步,步骤S2中的“阈值判定+拉依达准则/箱型图法”评判方法包含如下三步:
①通过水位阈值法判定异常值:统计分析不同地区不同时期的水位变化分布特点,确定水位分期分区阈值S,若按照时间顺序排列的全时段水位数据集{S1,S2,S3.....Sn}中存在水位数据Si满足以下条件:
|Si-Si-1|≥S and |Si-Si+1|≥S
则判定i时刻对应的水位数据Si为异常值并收录于异常值数据集1中;
②通过拉依达准则判定异常值:假设全时段数据集符合正态分布,计算全时段数据集的均值μ和标准差σ,若全时段数据集{A1,A2,A3.....An}中存在数据Ai处于(μ-3σ,μ+3σ)区间之外,则判定i时刻对应的水位数据Ai为异常值并收录于异常值数据集2中;
③通过箱型图法判定异常值:若全时段数据集{A1,A2,A3.....An}中存在数据Ai处于[Inside Limit,Outer Limit]区间之外,则判定i时刻对应的水位数据Ai为异常值并收录于异常值数据集3中;所述Inside Limit=Q1-3*IQR,Outer Limit=Q3+3*IQR,其中,Q1=[(N+1)/4]为下四分位数,Q3=[3(N+1)/4]为上四分位数,四分位间距IQR=Q3-Q1,N为全时段数据集样本数;
④将异常值数据集1、异常值数据集2和异常值数据集3求并集得到水位离群样点集。
进一步,步骤S5中针对短期缺失时长数据采用短时插补法,所述短时插补法是在精度分析的基础上,在样条插值法、Stineman内插法、加权滑动平均值法中通过精度分析对短时期缺失数据进行择优插补;
所述样条插值法属于非线性插值方法,其样条函数为:
Figure BSA0000225835330000041
式中:P0(x)、Pj(x)是一系列三次多项式;τ1<τ2<…<τr是样条空间节点的实数序列;
所述Stineman内插法:记xj和yj为曲线上第j个点的直角坐标,
Figure BSA0000225835330000042
是第j个点处的曲线斜率(j=1,2,…,n),并且xj<xj+1(j=1,2,…,n-1),若斜率
Figure BSA0000225835330000045
的值已知,则通过如下算法计算插值y:①对于满足xj≤x≤xj+1的x,通过sj=(yj+1-yj)/(xj+1-xj)计算连接两点的线段斜率;②通过y0=yj+sj(x-xj)计算x对应的纵坐标;③计算从点(x,y0)到通过(xj,yj)斜率为
Figure BSA0000225835330000043
的直线的垂直距离;④通过下式计算插值:
Figure BSA0000225835330000044
其中若斜率
Figure BSA0000225835330000051
的值未知,则通过以下算法计算
Figure BSA0000225835330000052
对于内部点,通过下式计算斜率:
Figure BSA0000225835330000053
其中,I、J和K为任意3个满足条件:
Figure BSA0000225835330000054
或者
Figure BSA0000225835330000055
的连续点,其中
Figure BSA0000225835330000056
表示I、J所在内曲线段的斜率;
对于端点,则通过
Figure BSA0000225835330000057
计算端点m的斜率,其中s是连接点j和端点的线段的斜率;
所述加权滑动平均值法:令{Yt|t=1,2,…,T}为目标时间序列,其中T为时间序列中的时间变量,那么滑动加权平均定义为:
Figure BSA0000225835330000058
式中:ω-k、ω-k+1、…、ωk为权重;k为缺失值两边观察值的个数;
所述精度分析是通过平均相对误差(MARE)对模型精度进行评估,MARE值越接近0,表示模型预报精度越高,计算公式如下所示:
Figure BSA0000225835330000059
式中,n为径流序列长度;yi和yi′分别为径流实测值和预报值;
Figure BSA00002258353300000510
为实测值的平均值。
进一步,步骤S5中针对中期缺失时长数据采用中时插补法,所述中时插补法为决策树算法,首先利用自助重采样技术从原始训练样本集中有放回地随机抽取多个样本生成新的训练样本集;然后根据自助样本集构建多棵决策树形成随机森林;最后根据输入的待分类/回归样本,随机森林对每棵决策树的输出结果采用简单多数投票或单棵树输出结果简单平均决定最后的预测结果。
进一步,步骤S5中针对长期缺失时长数据采用长时插补法,所述长时插补法为基于基准流量的随机模拟方法:①选取插补年待插补数据的前一日流量作为流量基准值Q0;②选取完整时段:选取该水文站点待插补时段同期历史年份数据中完整的水文数据,总数记为n组;③计算流量变化率:计算同期历史年中同一年份内不同日期流量对于基准流量的相对变化率:
Figure BSA0000225835330000061
其中,Qi为同一历史年内的第i个日流量数据;④构建变化率分布:将不同年份相同日期的相对变化率组成变化率分布,并利用参数拟合方法求解分布参数用于描述变化率分布;⑤随机模拟:采用随机抽样的方法从变化率分布中抽取流量相对变化率Δ,并计算其发生概率,通过阈值判定是否接受该流量相对变化率,经过m次抽样后,求流量相对变化率的均值
Figure BSA0000225835330000062
并完成插补流量的计算。
本发明具有以下优点:
①异常数据检测对象范围广泛,包含由于设备、环境及人为等原因造成的缺失及多种离群样点类型的识别;②针对缺失时段的长度采用不同的插补方法,自动完成短期、中期和长期时段的数据插补;③实时动态清洗提高了数据整编的时效性。
附图说明
图1是一种数据异常动态识别与多模式自匹配的数据清洗技术流程示意图。
具体实施方式
下面结合附图对本发明专利实施方案进行详细描述。定时获得全国水文监测站发来的前一日0-24时水位、流量全时段数据集A;对数据集A进行空缺值检索,并对空缺值作空缺值标记,所述空缺值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;。随后通过“阈值判定+拉依达准则/箱型图法”挖掘离群样点集:第一步:统计分析不同地区不同时期的水位变化分布特点,确定水位分期分区阈值S,若按照时间顺序排列的全时段水位数据集{S1,S2,S3.....Sn}中存在水位数据Si满足以下条件:
|Si-Si-1|≥S and |Si-Si+1|≥S
则判定i时刻对应的水位数据Si为异常值并收录于异常值数据集1中;第二步:通过拉依达准则判断异常值:假设全时段数据集符合正态分布,计算全时段数据集的均值μ和标准差σ,若全时段数据集{A1,A2,A3.....An}中存在数据Ai处于(μ-3σ,μ+3σ)区间之外,则判定i时刻对应的水位数据Ai为异常值并收录于异常值数据集2中;第三步:通过箱型图法判断异常值:若全时段数据集{A1,A2,A3.....An}中存在数据Ai处于[Inside Limit,OuterLimit]区间之外,则判定i时刻对应的水位数据Ai为异常值并收录于异常值数据集3中;所述Inside Limit=Q1-3*IQR,Outer Limit=Q3+3*IQR,其中,Q1=[(N+1)/4]为下四分位数,Q3=[3(N+1)/4]为上四分位数,四分位间距IQR=Q3-Q1,N为全时段数据集样本数;第四步:将异常值数据集1、异常值数据集2和异常值数据集3求并集得到水位离群样点集,并将其对应的流量数据纳入流量离群样点集,同时对离群点数据作离群样点标记,所述离群样点标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;在全时段数据集中删除离群样点标记和空缺值标记对应数据。
若删除离群样点标记和空缺值标记对应数据后,全时段数据集非空,则进行插补空缺值数据的相应工作。插补空缺值数据时,对于一对流量和水位数据中单一缺少任一数据的情况,则利用最近一年合格的水位流量关系曲线插补得到对应的流量或者水位数据,并附加插补值标记回补入全时段数据集中;所述水位流量关系曲线的合格标准为相关性系数达到90%以上;所述插补值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度。
若删除离群样点标记和空缺值标记对应数据后,全时段数据集为空集,则执行日数据整编的相应工作。日数据整编时,若全时段数据集非空,则采用梯形面积法将补齐后的监测数据整编为日数据并录入日数据集,所述日数据为日平均水位和日平均流量;若全时段数据集为空集,则判定为日数据缺失,并暂时以前一日数据附加缺失值标记作为当天临时日数据录入日数据集,所述缺失值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
若当天录入日数据集的数据不带有缺失值标记,则不进行动态更新缺失时段日数据。若当天录入日数据集的数据带有缺失值标记,则在日数据集中,以当前录入的日数据为起点按照时间顺序溯源检索缺失值标记,以检索到首个不含缺失值标记的数据为止,计算缺失时长,针对不同缺失时长分别采用短时插补法、中时插补法和长时插补法对缺失数据进行插补计算并替换S4步骤中产生的临时数据。若缺失时长d为1<d≤5天则判定缺失时长为短期,在精度分析的基础上,通过样条插值法、Stineman内插法、加权滑动平均值法对短期缺失数据进行插补,并通过平均相对误差(MARE)进行精度评估,选择MARE值更接近0的方法所对应的值作为插补值。若计算的缺失时长d为5<d≤15天则判定缺失时长为中期,采用决策树算法进行插补,首先利用自助重采样技术从原始训练样本集中有放回地随机抽取多个样本生成新的训练样本集;然后根据自助样本集构建多棵决策树形成随机森林;最后根据输入的待分类/回归样本,随机森林对每棵决策树的输出结果采用简单多数投票或单棵树输出结果简单平均决定最后的预测结果。若计算的缺失时长d为15<d天则判定缺失时长为长期,采用基于基准流量的随机模拟方法:①选取插补年待插补数据的前一日流量作为流量基准值Q0;②选取完整时段:选取该水文站点待插补时段同期历史年份数据中完整的水文数据,总数记为n组;③计算流量变化率:计算同期历史年中同一年份内不同日期流量对于基准流量的相对变化率:
Figure BSA0000225835330000091
其中,Qi为同一历史年内的第i个日流量数据;④构建变化率分布:将不同年份相同日期的相对变化值组成变化率分布,并利用参数拟合方法求解分布参数用于描述变化率分布;⑤随机模拟:采用随机抽样的方法从变化率分布中抽取流量相对变化值Δ,并计算其发生概率,通过阈值判定是否接受该流量相对变化值,经过m次抽样后,求流量相对变化值的均值
Figure BSA0000225835330000092
并完成插补流量的计算。
动态更新缺失时段日数据工作完成后,若当天录入日数据集的数据不是所在月份的最后一日数据,则不进行数据质量评估工作,若当天录入日数据集的数据是所在月份的最后一日数据,则以全年的全时段数据集为对象,对每个水文站当月以及累计到当前月的监测频次、异常数据个数、缺失时长等进行统计评价;若当天录入日数据集的数据不是所在年份的最后一日数据,则不进行水位流量关系曲线拟合;若当天录入日数据集的数据是所在年份的最后一日数据,则以全年的全时段数据集为处理对象,删除具有空缺值标记和离群样点标记的数据后,采用最小二乘法对水位流量关系曲线进行函数拟合,将相关性系数最大的一种拟合函数作为最优拟合,若最优拟合的相关性系数小于90%,则标记作为异常年份,供决策者参考。

Claims (5)

1.一种数据异常动态识别与多模式自匹配的数据清洗技术,其特征在于:包括以下步骤:
S1、定时获取全国水文监测站前一天0时至24时的水位、流量全时段数据集;
S2、识别并处理异常数据:首先识别出全时段数据集中所有空缺值,对空缺值作空缺值标记;其次采用“阈值判定+拉依达准则/箱型图法”作为离群点判断方法对其余异常数据进行识别,建立水位离群样点集,并将其对应的流量数据纳入流量离群样点集,同时对离群点数据作离群样点标记;在全时段数据集中删除离群样点标记和空缺值标记对应数据;若删除离群样点标记和空缺值标记对应数据后,全时段数据集为空集,则执行步骤S4;所述空缺值标记、离群样点标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
S3、插补全时段空缺值数据:对于一对流量和水位数据中单一缺少任一数据的情况,则利用最近一年合格的水位流量关系曲线插补得到对应的流量或者水位数据,并附加插补值标记回补入全时段数据集中;所述水位流量关系曲线的合格标准为相关性系数达到90%以上;所述插补值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
S4、日数据整编:若全时段数据集非空,则采用梯形面积法将步骤S3补齐后的监测数据整编为日数据并录入日数据集,所述日数据为日平均水位和日平均流量;若全时段数据集为空集,则判定为日数据缺失,并暂时以前一日数据附加缺失值标记作为当天临时日数据录入日数据集,所述缺失值标记为以不同颜色、字体、字号、索引及标注所体现出该数据与其余数据具有相对区别度;
S5、动态更新缺失时段日数据:若当天录入日数据集的数据不带有缺失值标记,则不进行步骤S5;若当天录入日数据集的数据带有缺失值标记,则在日数据集中,以当前录入的日数据为起点按照时间顺序溯源检索缺失值标记,以检索到首个不含缺失值标记的数据为止,计算缺失时长,并将缺失时长分为短期、中期和长期三类,针对不同缺失时长分别采用短时插补法、中时插补法和长时插补法对缺失数据进行插补计算并替换S4步骤中产生的临时数据;所述短期为1<d≤5天;所述中期为5<d≤15天;所述长期15<d天,其中,d为缺失时长;
S6、数据质量评估:若当天录入日数据集的数据不是所在月份的最后一日数据,则不进行步骤S6;若当天录入日数据集的数据是所在月份的最后一日数据,则以全年的全时段数据集为对象,对每个水文站当月以及累计到当前月的监测频次、异常数据个数、缺失时长等进行统计评价;
S7、水位流量关系曲线拟合:若当天录入日数据集的数据不是所在年份的最后一日数据,则不进行步骤S7;若当天录入日数据集的数据是所在年份的最后一日数据,则以全年的全时段数据集为处理对象,删除具有空缺值标记和离群样点标记的数据后,采用最小二乘法对水位流量关系曲线进行函数拟合,将相关性系数最大的一种拟合函数作为最优拟合,若最优拟合的相关性系数小于90%,则标记作为异常年份。
2.根据权利要求1所述的一种数据异常动态识别与多模式自匹配的数据清洗技术,其特征在于:步骤S2中的“阈值判定+拉依达准则/箱型图法”评判方法包含如下三步:
①通过水位阈值法判定异常值:统计分析不同地区不同时期的水位变化分布特点,确定水位分期分区阈值S,若按照时间顺序排列的全时段水位数据集{S1,S2,S3.....Sn}中存在水位数据Si满足以下条件:
|Si-Si-1|≥S and |Si-Si+1|≥S
则判定i时刻对应的水位数据Si为异常值并收录于异常值数据集1中;
②通过拉依达准则判定异常值:假设全时段数据集符合正态分布,计算全时段数据集的均值μ和标准差σ,若全时段数据集{A1,A2,A3.....An}中存在数据Ai处于(μ-3σ,μ+3σ)区间之外,则判定i时刻对应的水位数据Ai为异常值并收录于异常值数据集2中;
③通过箱型图法判定异常值:若全时段数据集{A1,A2,A3.....An}中存在数据Ai处于[Inside Limit,Outer Limit]区间之外,则判定i时刻对应的水位数据Ai为异常值并收录于异常值数据集3中;所述Inside Limit=Q1-3*IQR,Outer Limit=Q3+3*IQR,其中,Q1=[(N+1)/4]为下四分位数,Q3=[3(N+1)/4]为上四分位数,四分位间距IQR=Q3-Q1,N为全时段数据集样本数;
④将异常值数据集1、异常值数据集2和异常值数据集3求并集得到水位离群样点集。
3.根据权利要求1所述的一种数据异常动态识别与多模式自匹配的数据清洗技术,其特征在于:步骤S5中针对短期缺失时长数据采用短时插补法,所述短时插补法是在精度分析的基础上,在样条插值法、Stineman内插法、加权滑动平均值法中通过精度分析对短期缺失数据进行择优插补;
所述样条插值法属于非线性插值方法,其样条函数为:
Figure FSA0000225835320000031
式中:P0(x)、Pj(x)是一系列三次多项式;τ1<τ2<…<τr是样条空间节点的实数序列;
所述Stineman内插法:记xj和yj为曲线上第j个点的直角坐标,
Figure FSA0000225835320000033
是第j个点处的曲线斜率(j=1,2,…,n),并且xj<xj+1(j=1,2,…,n-1),若斜率
Figure FSA0000225835320000034
的值已知,则通过如下算法计算插值y:①对于满足xj≤x≤xj+1的x,通过sj=(yj+1-yj)/(xj+1-xj)计算连接两点的线段斜率;②通过y0=yj+sj(x-xj)计算x对应的纵坐标;③计算从点(x,y0)到通过(xj,yj)斜率为
Figure FSA0000225835320000032
的直线的垂直距离;④通过下式计算插值:
Figure FSA0000225835320000041
其中若斜率
Figure FSA0000225835320000042
的值未知,则通过以下算法计算
Figure FSA0000225835320000043
对于内部点,通过下式计算斜率:
Figure FSA0000225835320000044
其中,I、J和K为任意3个满足条件:
Figure FSA0000225835320000045
或者
Figure FSA0000225835320000046
的连续点,其中
Figure FSA0000225835320000047
表示I、J所在内曲线段的斜率;
对于端点,则通过
Figure FSA0000225835320000048
计算端点m的斜率,其中s是连接点j和端点的线段的斜率;
所述加权滑动平均值法:令{Yt|t=1,2,…,T}为目标时间序列,其中T为时间序列中的时间变量,那么滑动加权平均定义为:
Figure FSA0000225835320000049
式中:ω-k、ω-k+1、…、ωk为权重;k为缺失值两边观察值的个数;
所述精度分析是通过平均相对误差(MARE)对模型精度进行评估,MARE值越接近0,表示模型预报精度越高,计算公式如下所示:
Figure FSA00002258353200000410
式中,n为径流序列长度;yi和yi′分别为径流实测值和预报值;
Figure FSA00002258353200000411
为实测值的平均值。
4.根据权利要求1所述的一种数据异常动态识别与多模式自匹配的数据清洗技术,其特征在于:步骤S5中针对中期缺失时长数据采用中时插补法,所述中时插补法为决策树算法,首先利用自助重采样技术从原始训练样本集中有放回地随机抽取多个样本生成新的训练样本集;然后根据自助样本集构建多棵决策树形成随机森林;最后根据输入的待分类/回归样本,随机森林对每棵决策树的输出结果采用简单多数投票或单棵树输出结果简单平均决定最后的预测结果。
5.根据权利要求1所述的一种数据异常动态识别与多模式自匹配的数据清洗技术,其特征在于:步骤S5中针对长期缺失时长数据采用长时插补法,所述长时插补法为基于基准流量的随机模拟方法:①选取插补年待插补数据的前一日流量作为流量基准值Q0;②选取完整时段:选取该水文站点待插补时段同期历史年份数据中完整的水文数据,总数记为n组;③计算流量变化率:计算同期历史年中同一年份内不同日期流量对于基准流量的相对变化率:
Figure FSA0000225835320000051
其中,Qi为同一历史年内的第i个日流量数据;④构建变化率分布:将不同年份相同日期的相对变化率组成变化率分布,并利用参数拟合方法求解分布参数用于描述变化率分布;⑤随机模拟:采用随机抽样的方法从变化率分布中抽取流量相对变化率Δ,并计算其发生概率,通过阈值判定是否接受该流量相对变化率,经过m次抽样后,求流量相对变化率的均值
Figure FSA0000225835320000052
并完成插补流量的计算。
CN202011341697.0A 2020-11-20 2020-11-20 一种数据异常动态识别与多模式自匹配的数据清洗技术 Pending CN112286924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011341697.0A CN112286924A (zh) 2020-11-20 2020-11-20 一种数据异常动态识别与多模式自匹配的数据清洗技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011341697.0A CN112286924A (zh) 2020-11-20 2020-11-20 一种数据异常动态识别与多模式自匹配的数据清洗技术

Publications (1)

Publication Number Publication Date
CN112286924A true CN112286924A (zh) 2021-01-29

Family

ID=74426368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011341697.0A Pending CN112286924A (zh) 2020-11-20 2020-11-20 一种数据异常动态识别与多模式自匹配的数据清洗技术

Country Status (1)

Country Link
CN (1) CN112286924A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111056A (zh) * 2021-05-08 2021-07-13 中国水利水电科学研究院 一种城市洪涝积水监测数据清洗方法
CN113377750A (zh) * 2021-05-19 2021-09-10 山东大学 水文数据清洗方法及***
CN113806347A (zh) * 2021-09-18 2021-12-17 浙江知水信息技术有限公司 一种多种计算方法的水文资料数据插补整编方法与终端
CN113962320A (zh) * 2021-10-29 2022-01-21 中国地质环境监测院(自然资源部地质灾害技术指导中心) 地下水监测数据处理方法及装置
CN113986905A (zh) * 2021-11-24 2022-01-28 中国科学院地理科学与资源研究所 一种遥感反演土壤湿度缺失数据重建的方法
CN114280352A (zh) * 2021-12-27 2022-04-05 杭州电子科技大学 一种基于电流的大仪工时计算方法
CN114565065A (zh) * 2022-04-29 2022-05-31 长江水利委员会水文局 一种水文序列数据异常值检测方法
CN114722972A (zh) * 2022-06-01 2022-07-08 新华三人工智能科技有限公司 一种异常检测的方法及装置
CN114757589A (zh) * 2022-06-14 2022-07-15 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质
CN115545112A (zh) * 2022-10-17 2022-12-30 水利部信息中心 一种大量地下水实时自动监测数据自动识别和处理的方法
CN115876257A (zh) * 2023-02-10 2023-03-31 南京城建隧桥智慧管理有限公司 一种隧道结构健康监测传感器预警值的动态确定方法
CN116432871A (zh) * 2023-06-13 2023-07-14 北京化工大学 一种基于AdaBoost算法的公交调度优化方法
CN116757534A (zh) * 2023-06-15 2023-09-15 中国标准化研究院 一种基于神经训练网络的智能冰箱可靠性分析方法
EP4318278A1 (en) * 2022-08-02 2024-02-07 China Three Gorges Co., Ltd. Method and apparatus for processing runoff abnormal abrupt-change data
CN117851757A (zh) * 2024-01-11 2024-04-09 广东工业大学 基于机器学习的河流流量插补方法及装置、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016165378A1 (zh) * 2015-04-16 2016-10-20 国网新源张家口风光储示范电站有限公司 一种储能电站海量数据清洗方法及***
CN110046152A (zh) * 2019-04-19 2019-07-23 国网河南省电力公司经济技术研究院 一种处理用电数据缺失值的方法
CN110502526A (zh) * 2019-08-26 2019-11-26 安徽省气象信息中心 一种适用于结冰现象的资料序列插补的方法
CN111178456A (zh) * 2020-01-15 2020-05-19 腾讯科技(深圳)有限公司 异常指标检测方法、装置、计算机设备和存储介质
US20200210393A1 (en) * 2018-09-14 2020-07-02 Verint Americas Inc. Framework and method for the automated determination of classes and anomaly detection methods for time series
CN111881420A (zh) * 2020-08-05 2020-11-03 华北电力大学 一种风电机组运行数据插补方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016165378A1 (zh) * 2015-04-16 2016-10-20 国网新源张家口风光储示范电站有限公司 一种储能电站海量数据清洗方法及***
US20200210393A1 (en) * 2018-09-14 2020-07-02 Verint Americas Inc. Framework and method for the automated determination of classes and anomaly detection methods for time series
CN110046152A (zh) * 2019-04-19 2019-07-23 国网河南省电力公司经济技术研究院 一种处理用电数据缺失值的方法
CN110502526A (zh) * 2019-08-26 2019-11-26 安徽省气象信息中心 一种适用于结冰现象的资料序列插补的方法
CN111178456A (zh) * 2020-01-15 2020-05-19 腾讯科技(深圳)有限公司 异常指标检测方法、装置、计算机设备和存储介质
CN111881420A (zh) * 2020-08-05 2020-11-03 华北电力大学 一种风电机组运行数据插补方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王志良;黄珊;陈海涛;: "黄河流域水文数据插补方法比较及应用", 人民黄河, no. 07, pages 20 - 24 *
罗俐雅等: "实测潮位异常值判别方法比较", 江苏水利, no. 04, pages 37 - 41 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111056B (zh) * 2021-05-08 2021-10-22 中国水利水电科学研究院 一种城市洪涝积水监测数据清洗方法
CN113111056A (zh) * 2021-05-08 2021-07-13 中国水利水电科学研究院 一种城市洪涝积水监测数据清洗方法
CN113377750A (zh) * 2021-05-19 2021-09-10 山东大学 水文数据清洗方法及***
CN113377750B (zh) * 2021-05-19 2022-03-29 山东大学 水文数据清洗方法及***
CN113806347A (zh) * 2021-09-18 2021-12-17 浙江知水信息技术有限公司 一种多种计算方法的水文资料数据插补整编方法与终端
CN113962320A (zh) * 2021-10-29 2022-01-21 中国地质环境监测院(自然资源部地质灾害技术指导中心) 地下水监测数据处理方法及装置
CN113986905A (zh) * 2021-11-24 2022-01-28 中国科学院地理科学与资源研究所 一种遥感反演土壤湿度缺失数据重建的方法
CN114280352B (zh) * 2021-12-27 2024-02-13 杭州电子科技大学 一种基于电流的大仪工时计算方法
CN114280352A (zh) * 2021-12-27 2022-04-05 杭州电子科技大学 一种基于电流的大仪工时计算方法
CN114565065A (zh) * 2022-04-29 2022-05-31 长江水利委员会水文局 一种水文序列数据异常值检测方法
CN114565065B (zh) * 2022-04-29 2022-08-12 长江水利委员会水文局 一种水文序列数据异常值检测方法
CN114722972A (zh) * 2022-06-01 2022-07-08 新华三人工智能科技有限公司 一种异常检测的方法及装置
CN114757589A (zh) * 2022-06-14 2022-07-15 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质
CN114757589B (zh) * 2022-06-14 2022-10-11 深圳市拓安信计控仪表有限公司 数据处理方法、服务器及存储介质
EP4318278A1 (en) * 2022-08-02 2024-02-07 China Three Gorges Co., Ltd. Method and apparatus for processing runoff abnormal abrupt-change data
CN115545112A (zh) * 2022-10-17 2022-12-30 水利部信息中心 一种大量地下水实时自动监测数据自动识别和处理的方法
CN115545112B (zh) * 2022-10-17 2023-05-30 水利部信息中心 一种大量地下水实时自动监测数据自动识别和处理的方法
CN115876257A (zh) * 2023-02-10 2023-03-31 南京城建隧桥智慧管理有限公司 一种隧道结构健康监测传感器预警值的动态确定方法
CN116432871A (zh) * 2023-06-13 2023-07-14 北京化工大学 一种基于AdaBoost算法的公交调度优化方法
CN116757534A (zh) * 2023-06-15 2023-09-15 中国标准化研究院 一种基于神经训练网络的智能冰箱可靠性分析方法
CN116757534B (zh) * 2023-06-15 2024-03-15 中国标准化研究院 一种基于神经训练网络的智能冰箱可靠性分析方法
CN117851757A (zh) * 2024-01-11 2024-04-09 广东工业大学 基于机器学习的河流流量插补方法及装置、电子设备

Similar Documents

Publication Publication Date Title
CN112286924A (zh) 一种数据异常动态识别与多模式自匹配的数据清洗技术
CN110263866B (zh) 一种基于深度学习的电力用户负荷区间预测方法
CN111950854B (zh) 一种基于多层神经网络的焦炭质量指标预测方法
Huang Short-term load forecasting using threshold autoregressive models
CN110991690B (zh) 一种基于深度卷积神经网络的多时次风速预测方法
CN112712209B (zh) 水库入库流量预测方法、装置、计算机设备及存储介质
CN108053082B (zh) 基于温度区间分解的电网中长期负荷预测方法
CN107341134A (zh) 一种对数值预报格点温度预报数据精细化处理的方法
CN112116149B (zh) 一种考虑预报不确定性关联演化特征的多站中长期径流滚动概率预测方法
CN113935562A (zh) 一种电力设备健康状况智能评级与自动预警方法
CN112149902B (zh) 一种基于客流特征分析的地铁短时进站客流预测方法
CN108415884B (zh) 一种结构模态参数实时追踪方法
CN109359770B (zh) 一种基于机器学习预测中暑发生的模型及方法
CN109472075B (zh) 一种基站性能分析方法及***
CN106600037B (zh) 一种基于主成分分析的多参量辅助负荷预测方法
CN111027193A (zh) 一种基于回归模型的短期水位预测方法
CN105469219A (zh) 一种基于决策树的电力负荷数据处理方法
CN104699991B (zh) 基于灰色***理论的城镇供热***年供热量预测方法
CN112712203A (zh) 一种配电网日最高负荷预测方法和***
CN111784023A (zh) 一种短时邻近雾能见度预测方法
CN111861206A (zh) 一种基于企业电力大数据的工业行业景气指数获取方法
CN104239722A (zh) 一种基于因素间相关关系识别的预测方法
CN108461150A (zh) 一种职业卫生预测研究方法
CN116756825A (zh) 一种中小跨径桥梁的群结构性能预测***
CN114548494A (zh) 一种可视化造价数据预测智能分析***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210129

WD01 Invention patent application deemed withdrawn after publication