JP2009276967A - 外れ値検出方法、外れ値検出装置およびプログラム - Google Patents

外れ値検出方法、外れ値検出装置およびプログラム Download PDF

Info

Publication number
JP2009276967A
JP2009276967A JP2008126897A JP2008126897A JP2009276967A JP 2009276967 A JP2009276967 A JP 2009276967A JP 2008126897 A JP2008126897 A JP 2008126897A JP 2008126897 A JP2008126897 A JP 2008126897A JP 2009276967 A JP2009276967 A JP 2009276967A
Authority
JP
Japan
Prior art keywords
outlier
upper limit
data
sum
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008126897A
Other languages
English (en)
Other versions
JP5186278B2 (ja
Inventor
Junya Nishiguchi
純也 西口
Osao Kaseda
長生 綛田
Hirotaka Nakayama
弘隆 中山
Masao Arakawa
雅生 荒川
Yeboon Yun
禮分 尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2008126897A priority Critical patent/JP5186278B2/ja
Publication of JP2009276967A publication Critical patent/JP2009276967A/ja
Application granted granted Critical
Publication of JP5186278B2 publication Critical patent/JP5186278B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】少ない計算量で確実に外れ値を検出する。
【解決手段】外れ値検出装置は、学習データを記憶する記憶部1と、μ−ε−SVRにより学習データから各データのラグランジュ乗数を求めるSVR計算部2と、ラグランジュ乗数が最大となるデータを外れ値の候補とする外れ値候補選択部3と、ラグランジュ乗数の総和が上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定部4と、ラグランジュ乗数の総和が上限値と等しい場合に、外れ値候補選択部3で選択されたデータを外れ値として学習データから除去する外れ値除去部5と、ラグランジュ乗数の総和が上限値より小さくなるまで、外れ値を除去した後の学習データについて処理を繰り返し実行させる処理制御部6とを有する。
【選択図】 図1

Description

本発明は、複数の学習データの中から他のデータの傾向と離れた外れ値を検出する外れ値検出方法、外れ値検出装置およびプログラムに関するものである。
ソフトセンサとは、オンライン計測が困難な物理量を代替センサの組み合わせにより推定する手法で、プロセス産業の分野などで広く使用されている。通常、ソフトセンサでは、オフラインで計測された学習データをもとに特性式を構築する。しかし、計測データには、機器の測定誤差による計測ノイズと測定ミスによる外れ値(異常値)とが含まれるため、計測ノイズや外れ値に対応する手法を採用していないと、適切な推定モデルを作成することが困難になり、高精度の推定が不可能になる。
計測ノイズの影響を抑える手法としてはロバスト推定手法が有効であるが、他のデータの傾向からかけ離れた外れ値についてはあらかじめ検出して除去しておく必要がある。外れ値の検出については、ロバストな推定モデルであるサポートベクトル回帰(Support Vector Regression、以下SVRとする)を用いた手法が知られている(例えば非特許文献1参照)。
以下、非特許文献1に開示された従来のε−SVRを用いた外れ値検出方法について説明する。図7は従来の外れ値検出方法を説明するフローチャートである。
ε−SVRの主問題は、学習データを(xi,yi)(i=1,・・・・,l)とすると、次式のように表すことができる。なお、xiはベクトル量である。
Figure 2009276967
ここで、φ(xi)は特徴空間への写像関数、wは特徴空間上の超平面重みベクトル、bは特徴空間上のバイアス、Cはトレードオフパラメータ、εは学習データの特性を表すモデルとして推定される関数に対するデータの許容誤差、ξi,ξ’iはスラック変数である。また、「s.t.」以降の式は制約式を示している。
ε−SVRの主問題は、式(1)に示す目的関数で平均誤差を最小化するというものである。ε−SVRでは、図8に示すように最適な関数(超平面)81に平行で等距離にある2つの超平面82と83の間になるべく全てのデータ80が収まるような関数81を求める。スラック変数ξi,ξ’iは2つの超平面82と83の間に収まりきらなかったデータの、2つの超平面82,83からのはみ出しの度合い、すなわち回帰誤差を表すものである。式(1)に対する双対問題は、次式のように表すことができる。
Figure 2009276967
式(2)において、αi,α’iは対応する制約式の目的関数に対するデータごとの感度を表すラグランジュ乗数である。αi=0であれば、データiの誤差は許容誤差εよりも小さく、0<αi<Cであれば、データiの誤差は許容誤差εと等しく、αi=Cであれば、データiの誤差は許容誤差εよりも大きい。また、K(xi,xj)はカーネル関数である。上記と同様に、xi,xjはベクトル量である。双対問題では、個々のラグランジュ乗数αi,α’iに上限制約Cが規定される。
従来の外れ値検出方法では、まず許容誤差εの最大値を決定する(図7ステップS200)。続いて、式(1)、式(2)を用いて学習データ(xi,yi)からラグランジュ乗数αi,α’iを求める(ステップS201)。次に、許容誤差εを変化量Δεだけ小さくなるように変化させ(ステップS202)、変化後の許容誤差εが0より小さいかどうかを判定する(ステップS203)。変化後の許容誤差εが0以上の場合はステップS201に戻り、変化後の許容誤差εが0より小さい場合はステップS204に進む。こうして、許容誤差εが0より小さくなるまで、ステップS201〜S203の処理が複数回繰り返される。ここでは、ステップS201〜S203の処理がm回繰り返されるものとする。
許容誤差εが0より小さくなった場合、αi=C/lまたはα’i=C/lが成立しかつξi>0.5σまたはξ’i>0.5σが成立する回数をデータごとに集計する(ステップS204)。なお、σは誤差標準偏差である。次に、ステップS204で集計した回数のうち最大回数が一定回数kより大きくかつm回の誤差標準偏差が0.01以下であるかどうかを判定する(ステップS205)。
最大回数が一定回数kより大きいという条件かm回の誤差標準偏差が0.01以下という条件のうち少なくとも一方が成立しない場合、ステップS204で集計した回数のうち最大回数のデータを学習データの中から除去し(ステップS206)、ステップS200に戻る。こうして、ステップS205において判定Yesとなるまで、ステップS200〜S206の処理が繰り返される。そして、ステップS205において最大回数が一定回数kより大きくかつm回の誤差標準偏差が0.01以下となった場合、外れ値検出を終える。
このように、ε−SVRを用いた外れ値検出方法では、許容誤差εの幅を段階的に変化させて複数回計算する(すなわち、モデル複雑さを変える)。そして、ラグランジュ乗数αi,α’iが上限値C/lに達しているデータは外れ値である可能性が高いことを利用して、外れ値の候補を求める。この外れ値候補から真の外れ値を推定するために、異なる許容誤差εで複数回の計算を行い、上限となる確率が高いデータを外れ値として除去している。この外れ値の除去を、全体の誤差が変化しなくなるまで(すなわち、RMS誤差の複数回計算でのばらつきが小さくなるまで)繰り返す。
また、別の外れ値検出方法として、推定誤差が大きいデータを外れ値として除去する方法がある。この外れ値検出方法を図9を用いて説明する。図9において、90は学習データx、91は学習データxに含まれる外れ値、92は学習データxから推定される関数f(x)を表す。この外れ値検出方法では、学習データxから推定される関数f(x)との誤差が大きいデータを外れ値として除去する。
E.M.Jordaan et al.,"Robust Outlier Detection using SVM Regression",Neural Network,2004 Proceeding.2004 IEEE International Joint Conference
ε−SVRを用いた外れ値検出方法では、ラグランジュ乗数αiまたはα’iが上限値C/lに達している外れ値候補が多数存在するので、外れ値を絞り込むために許容誤差εを変えて複数回の集計をとる必要がある。したがって、1回の外れ値検出に複数回SVRの計算を行うことになり、1回の外れ値検出にm回の計算回数が必要だとすれば、n個の外れ値を検出するためにn×m回の計算回数が必要となる。このように、ε−SVRを用いた外れ値検出方法では、繰り返しの計算回数が多くなり、時間がかかるので、多次元で大量のデータを扱う場合に適していないという問題点があった。
また、推定誤差が大きいデータを外れ値として除去する外れ値検出方法では、計算量は少ないものの、非線形モデルの場合、推定関数自体が外れ値の影響を受け、その影響を検出できないので、誤った外れ値を検出してしまうという問題点があった。例えば図10の例では、推定関数が外れ値91の影響を受けているために、推定関数が正常なデータ90から離れてしまっている状態が生じている。
本発明は、上記課題を解決するためになされたもので、少ない計算量で確実に外れ値を検出することができる外れ値検出方法、外れ値検出装置およびプログラムを提供することを目的とする。
本発明の外れ値検出方法は、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを備えることを特徴とするものである。
また、本発明の外れ値検出方法の1構成例において、前記学習データを(xi,yi)(i=1,・・・・,l)、特徴空間への写像関数をφ(xi)、特徴空間上の超平面重みベクトルをw、特徴空間上のバイアスをb、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ,ξ’、ラグランジュ乗数をαi,α’iとしたとき、前記μ−ε−SVRの主問題は、
Figure 2009276967
で表され、主問題に対する双対問題は、
Figure 2009276967
で表される。
また、本発明の外れ値検出装置は、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手段と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手段と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手段と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手段で選択されたデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手段と、前記ラグランジュ乗数総和上限判定手段の判定において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手段と外れ値候補選択手段とラグランジュ乗数総和上限判定手段と外れ値除去手段とに処理を繰り返し実行させる制御手段とを備えることを特徴とするものである。
また、本発明の外れ値検出プログラムは、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを、コンピュータに実行させることを特徴とするものである。
本発明によれば、ラグランジュ乗数によって外れ値を検出するε−SVRの特徴を備えているために、推定関数自体が外れ値の影響を受けていることを定量化できるので、確実に外れ値を検出・除去できるとともに、個々のデータのラグランジュ乗数に上限を規定しないμ−ε−SVRを用いるので、少ない計算量で外れ値を検出・除去することができる。
以下、本発明の実施の形態について図面を参照して説明する。図1は本発明の実施の形態に係る外れ値検出装置の構成を示すブロック図である。
外れ値検出装置は、あらかじめ用意された複数の学習データを記憶する記憶部1と、μ−ε−SVRにより学習データから各データのラグランジュ乗数を求めるSVR計算部2と、各学習データのうちラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択部3と、各学習データのラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定部4と、ラグランジュ乗数の総和が上限値以上の場合に、外れ値候補選択部3で選択されたデータを外れ値として確定し、このデータを学習データの中から除去する外れ値除去部5と、ラグランジュ乗数総和上限判定部4の判定においてラグランジュ乗数の総和が上限値より小さくなるまで、外れ値を除去した後の学習データについてSVR計算部2と外れ値候補選択部3とラグランジュ乗数総和上限判定部4と外れ値除去部5とに処理を繰り返し実行させる処理制御部6とを有する。
μ−ε−SVRでは、ε−SVRのように目的関数で平均誤差を最小化する代わりに、目的関数で最大誤差を最小化することを特徴としている。μ−ε−SVRの主問題は、学習データを(xi,yi)(i=1,・・・・,l)とすると、次式のように表すことができる。なお、入力xiはベクトル量であり、yiは入力xiに対する出力である。
Figure 2009276967
式(3)において、φ(xi)は特徴空間への写像関数、wは特徴空間上の超平面重みベクトル、bは特徴空間上のバイアス、μはトレードオフパラメータ、εは学習データの特性を表すモデルとして推定される関数に対するデータの許容誤差、ξ,ξ’はスラック変数である。wTはベクトルwの転置行列を示している。また、「s.t.」以降の式は制約式を示している。
μ−ε−SVRでは、図2に示すように各学習データ20の誤差のうち最大誤差が最小になるような関数(超平面)21を求める。また、μ−ε−SVRでは、スラック変数ξ,ξ’はデータごとの値ではなく、許容誤差εからのはみ出しの度合いが最も大きいデータの回帰誤差を表す。ここで、スラック変数ξは図2において関数21よりも下側にあるデータのはみ出しの度合いを表し、スラック変数ξ’は関数21よりも上側にあるデータのはみ出しの度合いを表す。式(3)に対する双対問題は、次式のように表すことができる。
Figure 2009276967
式(4)において、αi,α’iは対応する制約式の目的関数に対するデータごとの感度を表すラグランジュ乗数である。図2においてデータが関数21よりも下側にあるかどうかを判定する制約式が式(3)のwTφ(xi)+b−yi≦ε+ξ,ξ≧0,i=1,・・・,lとなる。この制約式の感度に対応するラグランジュ乗数がαiである。同様に、図2においてデータが関数21よりも上側にあるかどうかを判定する制約式が式(3)のyi−wTφ(xi)−b≦ε+ξ’,ξ’≧0,i=1,・・・,lとなる。この制約式の感度に対応するラグランジュ乗数がα’iである。αi=0であれば、データiの誤差は推定される関数に対する各データの誤差のうちの最大誤差よりも小さく、αi>0であれば、データiの誤差は最大誤差と等しく、Σαi=Cであれば、データiの誤差は許容誤差εより大きい。また、K(xi,xj)はカーネル関数である。上記と同様に、xi,xjはベクトル量である。μ−ε−SVRでは、トレードオフパラメータμと許容誤差εをあらかじめ設定する。なお、これらのパラメータは作成するソフトセンサなどの要求仕様に基づいて適宜設計する。
従来のε−SVRとμ−ε−SVRとの違いは、ε−SVRの主問題が正則化項と誤差総和とを足した式で表されるのに対し、μ−ε−SVRの主問題が正則化項と最大誤差とを足した式で表される点と、ε−SVRの双対問題の制約式が各ラグランジュ乗数の上限を制限しているのに対し、μ−ε−SVRの双対問題の制約式がラグランジュ乗数の総和の上限を制限している点である。
このように、式(3)に対する双対問題では、ラグランジュ乗数の総和に対して上限制約が課せられるため、複数のグランジュ乗数が上限で等しくなることはない。前述のとおり、ラグランジュ乗数は、対応する制約式の目的関数に対する感度を表す。したがって、データの中に外れ値が存在する場合、ラグランジュ乗数が最大値をとるデータが、他のデータから最も大きく離れた外れ値であると推定できる。これによりμ−ε−SVRでは、ε−SVRに比べ計算量を削減することができる。この理由について、詳しくは後述する。
更に式(3)についてのクーン・タッカーの条件より式(5)を導くことができ、データの中に外れ値が存在する場合はラグランジュ乗数の総和が上限値μをとると言える。
Figure 2009276967
本実施の形態では、以上のようなμ−ε−SVRの特徴を利用し、以下の手順で外れ値検出を行う。図3は本実施の形態の外れ値検出装置の動作を示すフローチャートである。
まず、SVR計算部2は、式(3)、式(4)を用いて、記憶部1に記憶されている学習データ(xi,yi)(i=1,・・・・,l)から各データのラグランジュ乗数αi,α’iを求める(ステップS100)。
続いて、外れ値候補選択部3は、各学習データのうちラグランジュ乗数αiまたはα’iのどちらか一方が最大となるデータを外れ値の候補として選択する(ステップS101)。なお、データiに関するラグランジュ乗数αiとα’iのうち、どちらか一方は必ず0になる。
次に、ラグランジュ乗数総和上限判定部4は、SVR計算部2の計算結果から、式(6)に示すように各学習データのラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μより小さいかどうかを判定する(ステップS102)。
Figure 2009276967
処理制御部6は、ラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μより小さいと判定された場合(ステップS102においてYES)、SVR計算部2と外れ値候補選択部3とラグランジュ乗数総和上限判定部4と外れ値除去部5に終了指示信号を出力して図3の処理を終了させる。
外れ値除去部5は、ラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μと等しいと判定された場合(ステップS102においてNO)、外れ値候補選択部3が外れ値の候補として選択したデータを外れ値として確定し、このデータを記憶部1に記憶されている学習データの中から除去する(ステップS103)。
ラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μと等しいと判定された場合、処理制御部6は、外れ値の除去後に、SVR計算部2と外れ値候補選択部3とラグランジュ乗数総和上限判定部4と外れ値除去部5に対して再実行指示信号を出力する。この再実行指示信号の出力により、ステップS100に戻って、SVR計算部2は、外れ値が除去された後の学習データについて各データのラグランジュ乗数αi,α’iを再び計算する。
こうして、ステップS102においてラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μより小さくなるまで、ステップS100〜S103の処理が繰り返し実行される。本実施の形態では、1回の計算で1点ずつ確実に外れ値を検出・除去することができ、全ての外れ値を除去した時点で図3の処理が終了する。
本実施の形態の有効性を人工的に作成した学習データで検証した。人工データを作成するため、入力xiを[0,1]の一様分布から100点サンプリングし、計測ノイズηiを正規分布N(0,0.05)で生成し、外れ値3点に付加する値θiを±0.5とし、出力yiをyi=(sin2πxi2+ηi+θiで定義した。
このように人工的に作成したデータを学習データとして、本実施の形態の外れ値検出装置によって外れ値を検出した結果を図4(A)〜図4(D)に示す。図4(A)〜図4(D)において、40は学習データ、41は学習データから推定した関数によって入力xiから出力yiを計算した推定結果、42〜44は外れ値を表している。
図4(A)は初期の学習データとこの学習データを基にした推定結果と図3のステップS100〜S103の処理を1回行って外れ値42を検出した結果を示している。図4(B)は外れ値42を除去した後の学習データとこの学習データを基にした推定結果と2回目の処理を行って外れ値43を検出した結果を示している。図4(C)は外れ値42,43を除去した後の学習データとこの学習データを基にした推定結果と3回目の処理を行って外れ値44を検出した結果を示している。図4(D)は外れ値42〜44を除去した後の学習データとこの学習データを基にした推定結果を示している。図4(A)〜図4(D)によれば、3点の外れ値42〜44が適切に除去された後、最終的に推定精度が向上していることが分かる。3回目の外れ値除去後、ラグランジュ乗数の総和は2.98となり、外れ値検出装置の処理は終了した。
次に、多くの先行研究で外れ値が特定されているStacklossデータにより検証を行った。Stacklossデータについては、文献「K.A.Brownlee,“Statistical Theory and Methodology in Science and Engineering”,New York,Wiley,p.491-500,1960」に開示されている。Stacklossデータを図5に示す。図5において、51は外れ値を表している。
Stacklossデータは、硝酸製造プラントでの運転条件とアンモニア損失量との関係を取得したデータセットである。図5において、Yは吸収塔で吸収されなかったアンモニア損失量(プラント処理効率の逆の指標で、%の10倍)、X1は冷却空気の流量、X2は吸収塔の冷却水温度、X3は硝酸濃度([per 1000,minus 500])である。図5はアンモニアから硝酸を製造する硝酸製造プラントにおける21日分の運転履歴を示している。副産物の酸化窒素は吸収塔で吸収する。21日分のデータのうち、先行研究で指摘されている外れ値は1,3,4,21番目の4つのデータである。図5から、可視化だけでは外れ値を見つけることが難しいことが分かる。
このようなStacklossデータを学習データとして、本実施の形態の外れ値検出装置によって外れ値を検出した結果を図6(A)〜図6(D)に示す。図6(A)〜図6(D)において、60〜63は外れ値を表している。図6(A)は図3のステップS100〜S103の処理を1回行って21番目のデータを外れ値60として検出したことを示している。図6(B)は2回目の処理を行って4番目のデータを外れ値61として検出したことを示している。図6(C)は3回目の処理を行って3番目のデータを外れ値62として検出したことを示している。図6(D)は4回目の処理を行って1番目のデータを外れ値63として検出したことを示している。
Stacklossデータに対して本実施の形態を適用した結果、図6(A)〜図6(D)に示した各回のラグランジュ乗数の値により、各回でラグランジュ乗数が最大のデータを外れ値として検出できていることが分かる。ラグランジュ乗数の総和は4回目の除去後0.03となり、上限値2μと比べると極めて小さい値であることから、これ以上外れ値が存在しないと判断できる。
従来のε−SVRを用いた外れ値検出方法では、ラグランジュ乗数に上限があって、定性的な判断材料に留まる。このため、定量的な外れ値検出を行うには許容誤差εを変化させながら、複数回のフィッティングを行う必要がある。これに対して、本実施の形態では、ラグランジュ乗数を個々に定量化しており、ラグランジュ乗数の値に差ができるため、1回のフィッティングで定量的な外れ値検出を行うことができる。本実施の形態では、n個の外れ値を検出するためにn回の計算をすればよいことになり、n×m回の計算回数が必要であった従来のε−SVRを用いた外れ値検出方法よりも計算量を削減することができる。
また、推定誤差が大きいデータを外れ値として除去する従来の外れ値検出方法では、誤差だけで判断するため、推定曲面が歪んでいる場合、外れ値に有利な定量化となってしまう。これに対して、本実施の形態では、誤差を定量的な判断材料として加えることにより、外れ値検出の精度を向上させることができる。
なお、本実施の形態の外れ値検出装置は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の外れ値検出方法を実現させるための外れ値検出プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。CPUは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って本実施の形態で説明したような処理を実行する。
本発明は、例えばプロセス産業の分野において計測データから外れ値を検出して除去する技術に適用することができる。
本発明の実施の形態に係る外れ値検出装置の構成を示すブロック図である。 本発明の実施の形態のμ−ε−SVRで推定される関数を説明する図である。 図1の外れ値検出装置の動作を示すフローチャートである。 人工的に作成したデータを学習データとして図1の外れ値検出装置によって外れ値を検出した結果を示す図である。 学習データの1例であるStacklossデータを示す図である。 Stacklossデータを学習データとして図1の外れ値検出装置によって外れ値を検出した結果を示す図である。 従来の外れ値検出方法を説明するフローチャートである。 従来のε−SVRで推定される関数を説明する図である。 従来の別の外れ値検出方法を説明する図である。 図9の外れ値検出方法の問題点を説明する図である。
符号の説明
1…記憶部、2…SVR計算部、3…外れ値候補選択部、4…ラグランジュ乗数総和上限判定部、5…外れ値除去部、6…処理制御部。

Claims (5)

  1. 個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、
    各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、
    各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、
    前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、
    前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを備えることを特徴とする外れ値検出方法。
  2. 請求項1記載の外れ値検出方法において、
    前記学習データを(xi,yi)(i=1,・・・・,l)、特徴空間への写像関数をφ(xi)、特徴空間上の超平面重みベクトルをw、特徴空間上のバイアスをb、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ,ξ’、ラグランジュ乗数をαi,α’iとしたとき、前記μ−ε−SVRの主問題は、
    Figure 2009276967
    で表され、主問題に対する双対問題は、
    Figure 2009276967
    で表されることを特徴とする外れ値検出方法。
  3. 個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手段と、
    各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手段と、
    各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手段と、
    前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手段で選択されたデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手段と、
    前記ラグランジュ乗数総和上限判定手段の判定において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手段と外れ値候補選択手段とラグランジュ乗数総和上限判定手段と外れ値除去手段とに処理を繰り返し実行させる制御手段とを備えることを特徴とする外れ値検出装置。
  4. 請求項3記載の外れ値検出装置において、
    前記学習データを(xi,yi)(i=1,・・・・,l)、特徴空間への写像関数をφ(xi)、特徴空間上の超平面重みベクトルをw、特徴空間上のバイアスをb、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ,ξ’、ラグランジュ乗数をαi,α’iとしたとき、前記μ−ε−SVRの主問題は、
    Figure 2009276967
    で表され、主問題に対する双対問題は、
    Figure 2009276967
    で表されることを特徴とする外れ値検出装置。
  5. 個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、
    各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、
    各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、
    前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、
    前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを、コンピュータに実行させることを特徴とする外れ値検出プログラム。
JP2008126897A 2008-05-14 2008-05-14 外れ値検出方法、外れ値検出装置およびプログラム Active JP5186278B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008126897A JP5186278B2 (ja) 2008-05-14 2008-05-14 外れ値検出方法、外れ値検出装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008126897A JP5186278B2 (ja) 2008-05-14 2008-05-14 外れ値検出方法、外れ値検出装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009276967A true JP2009276967A (ja) 2009-11-26
JP5186278B2 JP5186278B2 (ja) 2013-04-17

Family

ID=41442349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008126897A Active JP5186278B2 (ja) 2008-05-14 2008-05-14 外れ値検出方法、外れ値検出装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5186278B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164029A (ja) * 2011-02-03 2012-08-30 Fujitsu Ltd 入力パラメータ算出方法、装置及びプログラム
CN104713730A (zh) * 2015-01-29 2015-06-17 西北工业大学 一种根据振动信号确定飞机发动机退化率的方法
JP2016537702A (ja) * 2013-09-27 2016-12-01 ドイッチェ テレコム アーゲー システムから取得される測定値を評価する方法及びシステム
JP2017083188A (ja) * 2015-10-23 2017-05-18 アズビル株式会社 特性モデル同定方法、特性モデル同定装置、およびインテリジェントセンサ
JP2019191817A (ja) * 2018-04-23 2019-10-31 一般財団法人電力中央研究所 電力需要予測装置、電力需要予測方法及び電力需要予測プログラム
CN111127459A (zh) * 2019-12-30 2020-05-08 武汉理工大学 路面车辙检测的图像实时处理***
CN112102890A (zh) * 2020-07-28 2020-12-18 浙江中控技术股份有限公司 一种基于机器学习模型的mcs合成装置反应温度预测方法
JP2022025095A (ja) * 2014-12-10 2022-02-09 コーニンクレッカ フィリップス エヌ ヴェ 機械学習を用いた医用イメージングの変換のためのシステムおよび方法
JP2023087998A (ja) * 2021-12-14 2023-06-26 株式会社日立製作所 機械学習システムおよび機械学習方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200700813005; 尹 禮分 他2名: '計算知能を用いた逐次近似多目的最適化手法' 計測自動制御学会論文集 第43巻, 第8号, 20070831, p.672-678., 社団法人計測自動制御学会 *
JPN6012067596; 尹 禮分 他2名: '計算知能を用いた逐次近似多目的最適化手法' 計測自動制御学会論文集 第43巻, 第8号, 20070831, p.672-678., 社団法人計測自動制御学会 *
JPN7012005307; E.M.Jordaan et al.: 'Robust outlier detection using SVM regression' 2004 IEEE International Joint Conference on Neural Networks Vol.3, 200407, p.2017-2022. *
JPN7012005308; Hirotaka Nakayama, Yeboon Yun: 'Support Vector Regression Based on Goal Programming and Multi-objective Programming' 2006 International Joint Conference on Neural Networks(IJCNN '06) , 20060716, p.1156-1161. *
JPN7012005309; Johan COLLIEZ et al.: 'Robust Regression and Outlier Detection withSVR: Application to Optic Flow Estimation' British Machine Vision Conference 2006 , 2006 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164029A (ja) * 2011-02-03 2012-08-30 Fujitsu Ltd 入力パラメータ算出方法、装置及びプログラム
JP2016537702A (ja) * 2013-09-27 2016-12-01 ドイッチェ テレコム アーゲー システムから取得される測定値を評価する方法及びシステム
JP2022025095A (ja) * 2014-12-10 2022-02-09 コーニンクレッカ フィリップス エヌ ヴェ 機械学習を用いた医用イメージングの変換のためのシステムおよび方法
CN104713730A (zh) * 2015-01-29 2015-06-17 西北工业大学 一种根据振动信号确定飞机发动机退化率的方法
JP2017083188A (ja) * 2015-10-23 2017-05-18 アズビル株式会社 特性モデル同定方法、特性モデル同定装置、およびインテリジェントセンサ
JP2019191817A (ja) * 2018-04-23 2019-10-31 一般財団法人電力中央研究所 電力需要予測装置、電力需要予測方法及び電力需要予測プログラム
JP7098400B2 (ja) 2018-04-23 2022-07-11 一般財団法人電力中央研究所 電力需要予測装置、電力需要予測方法及び電力需要予測プログラム
CN111127459A (zh) * 2019-12-30 2020-05-08 武汉理工大学 路面车辙检测的图像实时处理***
CN112102890A (zh) * 2020-07-28 2020-12-18 浙江中控技术股份有限公司 一种基于机器学习模型的mcs合成装置反应温度预测方法
CN112102890B (zh) * 2020-07-28 2023-12-15 浙江中控技术股份有限公司 一种基于机器学习模型的mcs合成装置反应温度预测方法
JP2023087998A (ja) * 2021-12-14 2023-06-26 株式会社日立製作所 機械学習システムおよび機械学習方法
JP7359829B2 (ja) 2021-12-14 2023-10-11 株式会社日立製作所 機械学習システムおよび機械学習方法

Also Published As

Publication number Publication date
JP5186278B2 (ja) 2013-04-17

Similar Documents

Publication Publication Date Title
JP5186278B2 (ja) 外れ値検出方法、外れ値検出装置およびプログラム
Zhang et al. Applications and comparisons of four time series models in epidemiological surveillance data
EP3380948B1 (en) Environmental monitoring systems, methods and media
JP6458403B2 (ja) 予測モデル生成装置、予測モデル生成方法及びプログラム
JP2017194341A (ja) 異常診断方法、異常診断装置、及び異常診断プログラム
Jin et al. Sequential measurement strategy for wafer geometric profile estimation
Shittu et al. A systematic review of structural reliability methods for deformation and fatigue analysis of offshore jacket structures
JP5261740B2 (ja) コンクリート構造物の中性化深さ予測装置および中性化深さをコンピュータに計算させるためのプログラム
CN107436983A (zh) 一种基于多元样本差异的o型橡胶密封圈寿命预测方法
Ballesteros et al. Bayesian hierarchical models for uncertainty quantification in structural dynamics
Yuan et al. Calibration of stochastic computer models using stochastic approximation methods
Omitaomu et al. Online support vector regression with varying parameters for time-dependent data
Binning et al. Sigma point filters for dynamic nonlinear regime switching models
Dasgupta et al. Characterizing the stability of nisq devices
Döppel et al. Efficient neural network models of chemical kinetics using a latent asinh rate transformation
JP2013061768A (ja) 最適モデル推定装置、方法、及びプログラム
Khakifirooz et al. Neural ordinary differential equation for sequential optimal design of fatigue test under accelerated life test analysis
Farid et al. Data-driven sensor placement optimization for accurate and early prediction of stochastic complex systems
Li et al. Nonlinear model identification from multiple data sets using an orthogonal forward search algorithm
Yang et al. Bayesian geoadditive modelling of climate extremes with nonparametric spatially varying temporal effects
JP5738778B2 (ja) 最適モデル推定装置、方法、及びプログラム
EP3895014A1 (en) Identifying faults in system data
CN112884151B (zh) 一种基于因果推理对玻璃熔炉环境控制的方法及***
US20130159373A1 (en) Matrix storage for system identification
CN114692529A (zh) 一种cfd高维响应的不确定度量化方法、装置、计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130121

R150 Certificate of patent or registration of utility model

Ref document number: 5186278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3