CN107193782A - 一种基于多项式拟和的野值剔除方法 - Google Patents

一种基于多项式拟和的野值剔除方法 Download PDF

Info

Publication number
CN107193782A
CN107193782A CN201710253952.8A CN201710253952A CN107193782A CN 107193782 A CN107193782 A CN 107193782A CN 201710253952 A CN201710253952 A CN 201710253952A CN 107193782 A CN107193782 A CN 107193782A
Authority
CN
China
Prior art keywords
mrow
mtd
mtr
munderover
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710253952.8A
Other languages
English (en)
Inventor
郭嵩
李斌
万涛
张伟
何晋秋
李霖
潘慧
佘莹莹
徐侃
王磊
李金�
余良甫
管阳
赵寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
719th Research Institute of CSIC
Original Assignee
719th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 719th Research Institute of CSIC filed Critical 719th Research Institute of CSIC
Priority to CN201710253952.8A priority Critical patent/CN107193782A/zh
Publication of CN107193782A publication Critical patent/CN107193782A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多项式拟和的野值剔除方法,包括步骤:对原测量数据进行n阶多项式拟和,得出系数矩阵和拟和多项式,由已知的观测数据i画出粗略的散点图,选取合适的次数n进行最小二乘多项式拟和,对给定的测量数据(xi,yi)构造一个函数p(x)作为给定数据(xi,yi)的近似表达式,使误差ri=p(xi)‑yi的平方和最小,即其中i为0到m的整数。该方法以多项式拟和为基础,发明计算机自动去除测量数据中的野值的方法,通过拟合估计值与观测值的残差序列识别及剔除观测数据序列中的野值,对实际工程应用的重要的应用价值。

Description

一种基于多项式拟和的野值剔除方法
技术领域
本发明涉及一种基于多项式拟和的野值剔除方法,适用于通信、 导航等测控***领域。
背景技术
在通信、导航等测量数据中往往包含了大量的严重偏离被测量真 值的数据点,这些异常数据就称为野值。尽管野值数量较少,但对数 据的处理和分析会产生较大的影响,降低了数据的可靠性。虽然有些 滤波平滑方法能够在一定程度上剔除野值,但是当参数选择不好的 话,很可能使数据处理结果因为失真太严重而没有说服力,或者达不 到平滑的效果。因此,在数据的平滑处理之前,应先将测量数据中的 野值点进行有效的辨识和剔除。对试验数据中野值的识别剔除,有人 工和计算机自动两种方式。人工方式对有明显错误的异常值的判断比 较成功,但是这种方式效率很低,标准难以掌握,特别是对数据量较 大时候,这种缺点尤为明显。
发明内容
为了克服上述现有技术的不足之处,本发明提供一种基于多项式 拟和的野值剔除方法,以多项式拟和为基础,发明计算机自动去除测 量数据中的野值的方法,通过拟合估计值与观测值的残差序列识别及 剔除观测数据序列中的野值,对实际工程应用的重要的应用价值。
为实现上述目的,本发明采用如下技术方案:一种基于多项式拟 和的野值剔除方法,包括步骤:
1、对原测量数据进行n阶多项式拟和,得出系数矩阵和拟和多 项式,由已知的观测数据i画出粗略的散点图,选取合适的次数n进 行最小二乘多项式拟和,对给定的测量数据(xi,yi)构造一个函数p(x) 作为给定数据(xi,yi)的近似表达式,使误差ri=p(xi)-yi的平方和最小, 即其中i为0到m的整数,
从几何意义上寻求与给定点(xi,yi)的距离平方和为最小的曲线 y=p(x),函数p(x)为拟合函数或最小二乘解,求拟合函数p(x)的方法 为曲线拟合的最小二乘法,当拟合函数为多项式时,即当 (n≦m)时,为最小二乘拟合多项式,
为a0,a1,...,an的多元函数,对I=I(a0,a1,...,an) 求极值,由多元函数求极值的必要条件, 即是关于a0,a1,...,an的线性方 程,用矩阵表示为
该式为对原测量数据进行n阶多项式拟和,得出系数矩阵 a0,a1,...,an,可得到拟和多项式求出对应的拟合值序列 和对应的残差序列;
2、计算出相应的拟合值序列为{pi:i=1,2,...,m}:生成拟合残差序 列为{Δyi=pi-yi,i=1,2,...m};
3、计算拟合残差序列的均方误差σ,按如下公式进行计算:
4、利用工程上常用的3σ准则判断并剔除野值,剔除野值后的 数据为yi':i=1,2,...,m
根据该公式进行判定,若残差值小于门限值,则该点为正常值, 此值不变;若残差值大于或等于门限值时,则判断该点为野值,用该 点前六个点的均值代替该值;
5、判断是否对所有数据都进行了处理,若没有处理完毕,则 对没处理的数据重新进行野值点判断;
6、对全部数据进行野值判断后,输出剔除野值后的数据。
在上述技术方案中,所述门限值3σ可根据实验具体情况作 出适当的修改。
本发明的有益效果是:本发明以多项式拟和为基础,通过拟合估 计值与观测值的残差序列识别及剔除观测数据序列中的野值,对实际 工程应用的重要的应用价值;与现有方法相比,不依赖设计经验,因 此更方便;门限值3σ可根据实验具体情况做出适当的更改,因此设 计出的参数更准确,应用范围更广;野值剔除后补值的方式保持了数 据的连续性,满足数据处理选点的要求,实现了对数据源的初级滤波。
附图说明
图1为本发明的步骤流程图。
图2为源测量数据的分布图。
图3为图2进行n阶多项式后的拟和曲线图。
图4为残差数列图。
图5为剔除野值后的数据图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如图1所示一种基于多项式拟和的野值剔除方法,包括步骤:
步骤一:对原测量数据据进行n阶多项式拟合,得出系数矩阵和 拟和多项式;
由已知的观测数据(i=0,1,…,m)画出粗略的图形——散点 图,选取合适的次数n进行最小二乘多项式拟合;
对给定的测量数据(xi,yi)(i=0,1,…,m),构造一个函数p(x)作 为给定数据(xi,yi)的近似表达式,使误差ri=p(xi)-yi(i=0,1,…,m)的 平方和最小,即
从几何意义上寻求与给定点(xi,yi)(i=0,1,…,m)的距离平方和为最 小的曲线y=p(x)。函数p(x)称为拟合函数或最小二乘解,求拟合函数 p(x)的方法称为曲线拟合的最小二乘法。当拟合函数为多项式时,即 当时,称为最小二乘拟合多项式。显然
为a0,a1,...,an的多元函数,因此上述问题即为求I=I(a0,a1,...,an)的极值问题。由多元函数求极值的必要条件,得
式(4)是关于a0,a1,...,an的线性方程组,用矩阵表示为
公式(5)为对原测量数据据进行n阶多项式拟合,得出系数矩阵。 求出系数矩阵a0,a1,...,an,得到拟合多项式:
步骤二、求出对应的拟合值序列和对应的残差序列;
计算出相应的拟合值序列为{pi:i=1,2,...,m}:生成拟合残差序列 为{Δyi=pi-yi,i=1,2,...m};
步骤三、计算均方误差
计算拟合残差序列的均方误差σ按如下公式进行计算:
步骤四、对野值点进行判断
利用工程上常用的3σ准则判断并剔除野值,剔除野值后的数据 为{yi':i=1,2,...,m}
根据公式(8)进行判定,若残差值小于门限值,为正常值,此值 不变;若大于或等于门限值,则判断为野值。若该点是野值,则该点 用前6个点的均值代替,若该点不是野值,则该点的值不变。
步骤五:判断是否对所有数据都进行了处理,若没有处理完毕,则对 没处理的数据重新进行野值点判断;
步骤六:若已经对所有数据都进行了野值判断,则输出剔除野值 后的数据。整个流程结束。
在上述技术方案中,所述门限值3σ可根据实验具体情况作出适 当的修改。
在第步骤一中,对原测量数据据进行n阶多项式拟合,得出系数 矩阵和拟和多项式;步骤二中求出对应的拟合值序列和对应的残差序 列;步骤三中计算均方误差;步骤四中采用3σ准则判断并剔除野值; 步骤五中对测试数据进行判断,判断是否对所有数据都进行了处理, 若没有处理完毕,则对没处理的数据重新进行野值点判断;步骤六中 输出剔除野值后的数据,流程结束。该方法流程可以用于计算机自动 判别。
以实际测量的海流速度大小数据为例,从中选取800个连续的数 据点进行剔除野值处理。原测量数据如图2所示,进行n阶多项式拟 和后拟和曲线如图3所示,残差序列如图4所示,输出剔除野值后的 数据如图5所示。
本发明以多项式拟和为基础,通过拟合估计值与观测值的残差序 列识别及剔除观测数据序列中的野值,对实际工程应用的重要的应用 价值;与现有方法相比,不依赖设计经验,因此更方便;门限值3σ 可根据实验具体情况做出适当的更改,因此设计出的参数更准确,应 用范围更广;野值剔除后补值的方式保持了数据的连续性,满足数据 处理选点的要求,实现了对数据源的初级滤波。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范 围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技 术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围 之内。

Claims (2)

1.一种基于多项式拟和的野值剔除方法,其特征是:包括步骤:
1、对原测量数据进行n阶多项式拟和,得出系数矩阵和拟和多项式,由已知的观测数据i画出粗略的散点图,选取合适的次数n进行最小二乘多项式拟和,对给定的测量数据(xi,yi)构造一个函数p(x)作为给定数据(xi,yi)的近似表达式,使误差ri=p(xi)-yi的平方和最小,即其中i为0到m的整数,
从几何意义上寻求与给定点(xi,yi)的距离平方和为最小的曲线y=p(x),函数p(x)为拟合函数或最小二乘解,求拟合函数p(x)的方法为曲线拟合的最小二乘法,当拟合函数为多项式时,即当(n≦m)时,为最小二乘拟合多项式,
为a0,a1,...,an的多元函数,对I=I(a0,a1,...,an)求极值,由多元函数求极值的必要条件,即是关于a0,a1,...,an的线性方程,用矩阵表示为
<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </mtd> <mtd> <mi>&amp;Lambda;</mi> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </mtd> <mtd> <mi>&amp;Lambda;</mi> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>M</mi> </mtd> <mtd> <mi>M</mi> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> </mrow> </mtd> <mtd> <mi>&amp;Lambda;</mi> </mtd> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mn>2</mn> <mi>n</mi> </mrow> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>a</mi> <mn>0</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mi>n</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
该式为对原测量数据进行n阶多项式拟和,得出系数矩阵a0,a1,...,an,可得到拟和多项式求出对应的拟合值序列和对应的残差序列;
2、计算出相应的拟合值序列为{pi:i=1,2,...,m}:生成拟合残差序列为{Δyi=pi-yi,i=1,2,...m};
3、计算拟合残差序列的均方误差σ,按如下公式进行计算:
4、利用工程上常用的3σ准则判断并剔除野值,剔除野值后的数据为yi':i=1,2,...,m
根据该公式进行判定,若残差值小于门限值,则该点为正常值,此值不变;若残差值大于或等于门限值时,则判断该点为野值,用该点前六个点的均值代替该值;
5、判断是否对所有数据都进行了处理,若没有处理完毕,则对没处理的数据重新进行野值点判断;
6、对全部数据进行野值判断后,输出剔除野值后的数据。
2.根据权利要求1所述的基于多项式拟和的野值剔除方法,其特征是:所述门限值3σ可根据实验具体情况作出适当的修改。
CN201710253952.8A 2017-04-18 2017-04-18 一种基于多项式拟和的野值剔除方法 Pending CN107193782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710253952.8A CN107193782A (zh) 2017-04-18 2017-04-18 一种基于多项式拟和的野值剔除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710253952.8A CN107193782A (zh) 2017-04-18 2017-04-18 一种基于多项式拟和的野值剔除方法

Publications (1)

Publication Number Publication Date
CN107193782A true CN107193782A (zh) 2017-09-22

Family

ID=59871423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710253952.8A Pending CN107193782A (zh) 2017-04-18 2017-04-18 一种基于多项式拟和的野值剔除方法

Country Status (1)

Country Link
CN (1) CN107193782A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110967661A (zh) * 2019-12-20 2020-04-07 宁夏凯晨电气集团有限公司 一种基于曲线拟合的电气数据校准方法
CN111143777A (zh) * 2019-12-27 2020-05-12 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111736626A (zh) * 2020-06-22 2020-10-02 中国人民解放军国防科技大学 一种平稳弹道数据处理方法
CN113111573A (zh) * 2021-03-24 2021-07-13 桂林电子科技大学 基于gru的滑坡位移预测方法
CN113114161A (zh) * 2021-03-26 2021-07-13 哈尔滨工业大学 一种利用最小中值法剔除野值的机电***信号滤波方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110967661A (zh) * 2019-12-20 2020-04-07 宁夏凯晨电气集团有限公司 一种基于曲线拟合的电气数据校准方法
CN111143777A (zh) * 2019-12-27 2020-05-12 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111736626A (zh) * 2020-06-22 2020-10-02 中国人民解放军国防科技大学 一种平稳弹道数据处理方法
CN113111573A (zh) * 2021-03-24 2021-07-13 桂林电子科技大学 基于gru的滑坡位移预测方法
CN113111573B (zh) * 2021-03-24 2022-09-23 桂林电子科技大学 基于gru的滑坡位移预测方法
CN113114161A (zh) * 2021-03-26 2021-07-13 哈尔滨工业大学 一种利用最小中值法剔除野值的机电***信号滤波方法
CN113114161B (zh) * 2021-03-26 2023-03-24 哈尔滨工业大学 一种利用最小中值法剔除野值的机电***信号滤波方法

Similar Documents

Publication Publication Date Title
CN107193782A (zh) 一种基于多项式拟和的野值剔除方法
CN109784383B (zh) 一种基于图域特征和ds证据理论融合的钢轨裂纹识别方法
CN111709465B (zh) 大坝安全监测数据粗差智能识别方法
CN109727446A (zh) 一种用电数据异常值的识别与处理方法
CN108829878B (zh) 一种工业实验数据异常点检测方法及装置
CN107688554A (zh) 基于自适应傅里叶分解的频域辨识方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN114970396B (zh) 一种考虑随机和认知不确定性的cfd模型修正方法
CN111639882B (zh) 一种基于深度学习的用电风险的判定方法
CN103885867B (zh) 一种模拟电路性能的在线评价方法
CN103902798B (zh) 数据预处理方法
CN110308658A (zh) 一种pid参数整定方法、装置、***及可读存储介质
CN102945222A (zh) 一种基于灰色理论的乏信息测量数据粗大误差判别方法
CN114861120A (zh) 浮选泡沫品位计算方法、装置、电子设备及介质
CN109753634B (zh) 基于历史数据稳态值的动态***增益估计方法
CN104715160A (zh) 基于kmdb的软测量建模数据异常点检测方法
CN115455833B (zh) 一种考虑分类的气动不确定性表征方法
CN116992773A (zh) 基于积分lstm与先验信息的皮带机煤流预测方法
CN107562778A (zh) 一种基于偏离特征的离群点挖掘方法
CN110196797A (zh) 适于信用评分卡***的自动优化方法和***
CN116050249A (zh) 一种回流焊焊点形貌预测方法
CN114218782A (zh) 基于二项分布的截尾序贯试验数据评估方法
CN112765219B (zh) 一种跳过平稳区域的流数据异常检测方法
CN109933579B (zh) 一种局部k近邻缺失值插补***与方法
US20130191071A1 (en) System and method for automatic modal parameter extraction in structural dynamics analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922