CN107193782A

CN107193782A - 一种基于多项式拟和的野值剔除方法

Info

Publication number: CN107193782A
Application number: CN201710253952.8A
Authority: CN
Inventors: 郭嵩; 李斌; 万涛; 张伟; 何晋秋; 李霖; 潘慧; 佘莹莹; 徐侃; 王磊; 李金�; 余良甫; 管阳; 赵寅
Original assignee: 719th Research Institute of CSIC
Current assignee: 719th Research Institute of CSIC
Priority date: 2017-04-18
Filing date: 2017-04-18
Publication date: 2017-09-22

Abstract

本发明公开了一种基于多项式拟和的野值剔除方法，包括步骤：对原测量数据进行n阶多项式拟和，得出系数矩阵和拟和多项式，由已知的观测数据i画出粗略的散点图，选取合适的次数n进行最小二乘多项式拟和，对给定的测量数据(x_i,y_i)构造一个函数p(x)作为给定数据(x_i,y_i)的近似表达式,使误差r_i＝p(x_i)‑y_i的平方和最小，即其中i为0到m的整数。该方法以多项式拟和为基础，发明计算机自动去除测量数据中的野值的方法，通过拟合估计值与观测值的残差序列识别及剔除观测数据序列中的野值，对实际工程应用的重要的应用价值。

Description

一种基于多项式拟和的野值剔除方法

技术领域

本发明涉及一种基于多项式拟和的野值剔除方法，适用于通信、导航等测控***领域。

背景技术

在通信、导航等测量数据中往往包含了大量的严重偏离被测量真值的数据点,这些异常数据就称为野值。尽管野值数量较少,但对数据的处理和分析会产生较大的影响，降低了数据的可靠性。虽然有些滤波平滑方法能够在一定程度上剔除野值，但是当参数选择不好的话，很可能使数据处理结果因为失真太严重而没有说服力，或者达不到平滑的效果。因此,在数据的平滑处理之前，应先将测量数据中的野值点进行有效的辨识和剔除。对试验数据中野值的识别剔除，有人工和计算机自动两种方式。人工方式对有明显错误的异常值的判断比较成功，但是这种方式效率很低，标准难以掌握，特别是对数据量较大时候，这种缺点尤为明显。

发明内容

为了克服上述现有技术的不足之处，本发明提供一种基于多项式拟和的野值剔除方法，以多项式拟和为基础，发明计算机自动去除测量数据中的野值的方法，通过拟合估计值与观测值的残差序列识别及剔除观测数据序列中的野值，对实际工程应用的重要的应用价值。

为实现上述目的，本发明采用如下技术方案：一种基于多项式拟和的野值剔除方法，包括步骤：

1、对原测量数据进行n阶多项式拟和，得出系数矩阵和拟和多项式，由已知的观测数据i画出粗略的散点图，选取合适的次数n进行最小二乘多项式拟和，对给定的测量数据(x_i,y_i)构造一个函数p(x) 作为给定数据(x_i,y_i)的近似表达式,使误差r_i＝p(x_i)-y_i的平方和最小，即其中i为0到m的整数，

从几何意义上寻求与给定点(x_i,y_i)的距离平方和为最小的曲线 y＝p(x)，函数p(x)为拟合函数或最小二乘解，求拟合函数p(x)的方法为曲线拟合的最小二乘法，当拟合函数为多项式时，即当 (n≦m)时，为最小二乘拟合多项式，

为a₀,a₁,...,a_n的多元函数，对I＝I(a₀,a₁,...,a_n) 求极值，由多元函数求极值的必要条件，即即是关于a₀,a₁,...,a_n的线性方程，用矩阵表示为

该式为对原测量数据进行n阶多项式拟和，得出系数矩阵 a₀,a₁,...,a_n，可得到拟和多项式求出对应的拟合值序列和对应的残差序列；

2、计算出相应的拟合值序列为{p_i:i＝1,2,...,m}：生成拟合残差序列为{Δy_i＝p_i-y_i,i＝1,2,...m}；

3、计算拟合残差序列的均方误差σ，按如下公式进行计算：

4、利用工程上常用的3σ准则判断并剔除野值,剔除野值后的数据为y_i':i＝1,2,...,m

根据该公式进行判定，若残差值小于门限值，则该点为正常值，此值不变；若残差值大于或等于门限值时，则判断该点为野值，用该点前六个点的均值代替该值；

5、判断是否对所有数据都进行了处理，若没有处理完毕，则对没处理的数据重新进行野值点判断；

6、对全部数据进行野值判断后，输出剔除野值后的数据。

在上述技术方案中，所述门限值3σ可根据实验具体情况作出适当的修改。

本发明的有益效果是：本发明以多项式拟和为基础，通过拟合估计值与观测值的残差序列识别及剔除观测数据序列中的野值，对实际工程应用的重要的应用价值；与现有方法相比，不依赖设计经验，因此更方便；门限值3σ可根据实验具体情况做出适当的更改，因此设计出的参数更准确，应用范围更广；野值剔除后补值的方式保持了数据的连续性，满足数据处理选点的要求，实现了对数据源的初级滤波。

附图说明

图1为本发明的步骤流程图。

图2为源测量数据的分布图。

图3为图2进行n阶多项式后的拟和曲线图。

图4为残差数列图。

图5为剔除野值后的数据图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

如图1所示一种基于多项式拟和的野值剔除方法，包括步骤：

步骤一：对原测量数据据进行n阶多项式拟合,得出系数矩阵和拟和多项式；

由已知的观测数据(i＝0,1,…，m)画出粗略的图形——散点图，选取合适的次数n进行最小二乘多项式拟合；

对给定的测量数据(x_i,y_i)(i＝0,1,…，m)，构造一个函数p(x)作为给定数据(x_i,y_i)的近似表达式,使误差r_i＝p(x_i)-y_i(i＝0,1,…,m)的平方和最小，即

从几何意义上寻求与给定点(x_i,y_i)(i＝0,1,…,m)的距离平方和为最小的曲线y＝p(x)。函数p(x)称为拟合函数或最小二乘解，求拟合函数 p(x)的方法称为曲线拟合的最小二乘法。当拟合函数为多项式时，即当时，称为最小二乘拟合多项式。显然

为a₀,a₁,...,a_n的多元函数，因此上述问题即为求I＝I(a₀,a₁,...,a_n)的极值问题。由多元函数求极值的必要条件，得

即

式(4)是关于a₀,a₁,...,a_n的线性方程组，用矩阵表示为

公式(5)为对原测量数据据进行n阶多项式拟合,得出系数矩阵。求出系数矩阵a₀,a₁,...,a_n，得到拟合多项式：

步骤二、求出对应的拟合值序列和对应的残差序列；

计算出相应的拟合值序列为{p_i:i＝1,2,...,m}：生成拟合残差序列为{Δy_i＝p_i-y_i,i＝1,2,...m}；

步骤三、计算均方误差

计算拟合残差序列的均方误差σ按如下公式进行计算：

步骤四、对野值点进行判断

利用工程上常用的3σ准则判断并剔除野值,剔除野值后的数据为{y_i':i＝1,2,...,m}

根据公式(8)进行判定，若残差值小于门限值，为正常值，此值不变；若大于或等于门限值，则判断为野值。若该点是野值，则该点用前6个点的均值代替，若该点不是野值，则该点的值不变。

步骤五：判断是否对所有数据都进行了处理，若没有处理完毕，则对没处理的数据重新进行野值点判断；

步骤六：若已经对所有数据都进行了野值判断，则输出剔除野值后的数据。整个流程结束。

在第步骤一中，对原测量数据据进行n阶多项式拟合,得出系数矩阵和拟和多项式；步骤二中求出对应的拟合值序列和对应的残差序列；步骤三中计算均方误差；步骤四中采用3σ准则判断并剔除野值；步骤五中对测试数据进行判断，判断是否对所有数据都进行了处理，若没有处理完毕，则对没处理的数据重新进行野值点判断；步骤六中输出剔除野值后的数据，流程结束。该方法流程可以用于计算机自动判别。

以实际测量的海流速度大小数据为例，从中选取800个连续的数据点进行剔除野值处理。原测量数据如图2所示，进行n阶多项式拟和后拟和曲线如图3所示，残差序列如图4所示，输出剔除野值后的数据如图5所示。

本发明以多项式拟和为基础，通过拟合估计值与观测值的残差序列识别及剔除观测数据序列中的野值，对实际工程应用的重要的应用价值；与现有方法相比，不依赖设计经验，因此更方便；门限值3σ 可根据实验具体情况做出适当的更改，因此设计出的参数更准确，应用范围更广；野值剔除后补值的方式保持了数据的连续性，满足数据处理选点的要求，实现了对数据源的初级滤波。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多项式拟和的野值剔除方法，其特征是：包括步骤：

1、对原测量数据进行n阶多项式拟和，得出系数矩阵和拟和多项式，由已知的观测数据i画出粗略的散点图，选取合适的次数n进行最小二乘多项式拟和，对给定的测量数据(x_i,y_i)构造一个函数p(x)作为给定数据(x_i,y_i)的近似表达式,使误差r_i＝p(x_i)-y_i的平方和最小，即其中i为0到m的整数，

从几何意义上寻求与给定点(x_i,y_i)的距离平方和为最小的曲线y＝p(x)，函数p(x)为拟合函数或最小二乘解，求拟合函数p(x)的方法为曲线拟合的最小二乘法，当拟合函数为多项式时，即当(n≦m)时，为最小二乘拟合多项式，

为a₀,a₁,...,a_n的多元函数，对I＝I(a₀,a₁,...,a_n)求极值，由多元函数求极值的必要条件，即即是关于a₀,a₁,...,a_n的线性方程，用矩阵表示为

<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </mtd> <mtd> <mi>&Lambda;</mi> </mtd> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </mtd> <mtd> <mi>&Lambda;</mi> </mtd> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>M</mi> </mtd> <mtd> <mi>M</mi> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> </mrow> </mtd> <mtd> <mi>&Lambda;</mi> </mtd> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mn>2</mn> <mi>n</mi> </mrow> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>a</mi> <mn>0</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mi>n</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>x</mi> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

该式为对原测量数据进行n阶多项式拟和，得出系数矩阵a₀,a₁,...,a_n，可得到拟和多项式求出对应的拟合值序列和对应的残差序列；

3、计算拟合残差序列的均方误差σ，按如下公式进行计算：

6、对全部数据进行野值判断后，输出剔除野值后的数据。

2.根据权利要求1所述的基于多项式拟和的野值剔除方法，其特征是：所述门限值3σ可根据实验具体情况作出适当的修改。