JP2009276967A

JP2009276967A - 外れ値検出方法、外れ値検出装置およびプログラム

Info

Publication number: JP2009276967A
Application number: JP2008126897A
Authority: JP
Inventors: Junya Nishiguchi; 純也西口; Osao Kaseda; 長生綛田; Hirotaka Nakayama; 弘隆中山; Masao Arakawa; 雅生荒川; Yeboon Yun; 禮分尹
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2008-05-14
Filing date: 2008-05-14
Publication date: 2009-11-26
Anticipated expiration: 2028-05-14
Also published as: JP5186278B2

Abstract

【課題】少ない計算量で確実に外れ値を検出する。
【解決手段】外れ値検出装置は、学習データを記憶する記憶部１と、μ−ε−ＳＶＲにより学習データから各データのラグランジュ乗数を求めるＳＶＲ計算部２と、ラグランジュ乗数が最大となるデータを外れ値の候補とする外れ値候補選択部３と、ラグランジュ乗数の総和が上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定部４と、ラグランジュ乗数の総和が上限値と等しい場合に、外れ値候補選択部３で選択されたデータを外れ値として学習データから除去する外れ値除去部５と、ラグランジュ乗数の総和が上限値より小さくなるまで、外れ値を除去した後の学習データについて処理を繰り返し実行させる処理制御部６とを有する。
【選択図】図１

Description

本発明は、複数の学習データの中から他のデータの傾向と離れた外れ値を検出する外れ値検出方法、外れ値検出装置およびプログラムに関するものである。

ソフトセンサとは、オンライン計測が困難な物理量を代替センサの組み合わせにより推定する手法で、プロセス産業の分野などで広く使用されている。通常、ソフトセンサでは、オフラインで計測された学習データをもとに特性式を構築する。しかし、計測データには、機器の測定誤差による計測ノイズと測定ミスによる外れ値（異常値）とが含まれるため、計測ノイズや外れ値に対応する手法を採用していないと、適切な推定モデルを作成することが困難になり、高精度の推定が不可能になる。

計測ノイズの影響を抑える手法としてはロバスト推定手法が有効であるが、他のデータの傾向からかけ離れた外れ値についてはあらかじめ検出して除去しておく必要がある。外れ値の検出については、ロバストな推定モデルであるサポートベクトル回帰（Support Vector Regression、以下ＳＶＲとする）を用いた手法が知られている（例えば非特許文献１参照）。

以下、非特許文献１に開示された従来のε−ＳＶＲを用いた外れ値検出方法について説明する。図７は従来の外れ値検出方法を説明するフローチャートである。
ε−ＳＶＲの主問題は、学習データを（ｘ_i，ｙ_i）（ｉ＝１，・・・・，ｌ）とすると、次式のように表すことができる。なお、ｘ_iはベクトル量である。

ここで、φ（ｘ_i）は特徴空間への写像関数、ｗは特徴空間上の超平面重みベクトル、ｂは特徴空間上のバイアス、Ｃはトレードオフパラメータ、εは学習データの特性を表すモデルとして推定される関数に対するデータの許容誤差、ξ_i，ξ’_iはスラック変数である。また、「s.t.」以降の式は制約式を示している。

ε−ＳＶＲの主問題は、式（１）に示す目的関数で平均誤差を最小化するというものである。ε−ＳＶＲでは、図８に示すように最適な関数（超平面）８１に平行で等距離にある２つの超平面８２と８３の間になるべく全てのデータ８０が収まるような関数８１を求める。スラック変数ξ_i，ξ’_iは２つの超平面８２と８３の間に収まりきらなかったデータの、２つの超平面８２，８３からのはみ出しの度合い、すなわち回帰誤差を表すものである。式（１）に対する双対問題は、次式のように表すことができる。

式（２）において、α_i，α’_iは対応する制約式の目的関数に対するデータごとの感度を表すラグランジュ乗数である。α_i＝０であれば、データｉの誤差は許容誤差εよりも小さく、０＜αｉ＜Ｃであれば、データｉの誤差は許容誤差εと等しく、α_i＝Ｃであれば、データｉの誤差は許容誤差εよりも大きい。また、Ｋ（ｘ_i，ｘ_j）はカーネル関数である。上記と同様に、ｘ_i，ｘ_jはベクトル量である。双対問題では、個々のラグランジュ乗数α_i，α’_iに上限制約Ｃが規定される。

従来の外れ値検出方法では、まず許容誤差εの最大値を決定する（図７ステップＳ２００）。続いて、式（１）、式（２）を用いて学習データ（ｘ_i，ｙ_i）からラグランジュ乗数α_i，α’_iを求める（ステップＳ２０１）。次に、許容誤差εを変化量Δεだけ小さくなるように変化させ（ステップＳ２０２）、変化後の許容誤差εが０より小さいかどうかを判定する（ステップＳ２０３）。変化後の許容誤差εが０以上の場合はステップＳ２０１に戻り、変化後の許容誤差εが０より小さい場合はステップＳ２０４に進む。こうして、許容誤差εが０より小さくなるまで、ステップＳ２０１〜Ｓ２０３の処理が複数回繰り返される。ここでは、ステップＳ２０１〜Ｓ２０３の処理がｍ回繰り返されるものとする。

許容誤差εが０より小さくなった場合、α_i＝Ｃ／ｌまたはα’_i＝Ｃ／ｌが成立しかつξ_i＞０．５σまたはξ’_i＞０．５σが成立する回数をデータごとに集計する（ステップＳ２０４）。なお、σは誤差標準偏差である。次に、ステップＳ２０４で集計した回数のうち最大回数が一定回数ｋより大きくかつｍ回の誤差標準偏差が０．０１以下であるかどうかを判定する（ステップＳ２０５）。

最大回数が一定回数ｋより大きいという条件かｍ回の誤差標準偏差が０．０１以下という条件のうち少なくとも一方が成立しない場合、ステップＳ２０４で集計した回数のうち最大回数のデータを学習データの中から除去し（ステップＳ２０６）、ステップＳ２００に戻る。こうして、ステップＳ２０５において判定Ｙｅｓとなるまで、ステップＳ２００〜Ｓ２０６の処理が繰り返される。そして、ステップＳ２０５において最大回数が一定回数ｋより大きくかつｍ回の誤差標準偏差が０．０１以下となった場合、外れ値検出を終える。

このように、ε−ＳＶＲを用いた外れ値検出方法では、許容誤差εの幅を段階的に変化させて複数回計算する（すなわち、モデル複雑さを変える）。そして、ラグランジュ乗数α_i，α’_iが上限値Ｃ／ｌに達しているデータは外れ値である可能性が高いことを利用して、外れ値の候補を求める。この外れ値候補から真の外れ値を推定するために、異なる許容誤差εで複数回の計算を行い、上限となる確率が高いデータを外れ値として除去している。この外れ値の除去を、全体の誤差が変化しなくなるまで（すなわち、ＲＭＳ誤差の複数回計算でのばらつきが小さくなるまで）繰り返す。

また、別の外れ値検出方法として、推定誤差が大きいデータを外れ値として除去する方法がある。この外れ値検出方法を図９を用いて説明する。図９において、９０は学習データｘ、９１は学習データｘに含まれる外れ値、９２は学習データｘから推定される関数ｆ（ｘ）を表す。この外れ値検出方法では、学習データｘから推定される関数ｆ（ｘ）との誤差が大きいデータを外れ値として除去する。

E.M.Jordaan et al.,"Robust Outlier Detection using SVM Regression",Neural Network,2004 Proceeding.2004 IEEE International Joint Conference

ε−ＳＶＲを用いた外れ値検出方法では、ラグランジュ乗数α_iまたはα’_iが上限値Ｃ／ｌに達している外れ値候補が多数存在するので、外れ値を絞り込むために許容誤差εを変えて複数回の集計をとる必要がある。したがって、１回の外れ値検出に複数回ＳＶＲの計算を行うことになり、１回の外れ値検出にｍ回の計算回数が必要だとすれば、ｎ個の外れ値を検出するためにｎ×ｍ回の計算回数が必要となる。このように、ε−ＳＶＲを用いた外れ値検出方法では、繰り返しの計算回数が多くなり、時間がかかるので、多次元で大量のデータを扱う場合に適していないという問題点があった。

また、推定誤差が大きいデータを外れ値として除去する外れ値検出方法では、計算量は少ないものの、非線形モデルの場合、推定関数自体が外れ値の影響を受け、その影響を検出できないので、誤った外れ値を検出してしまうという問題点があった。例えば図１０の例では、推定関数が外れ値９１の影響を受けているために、推定関数が正常なデータ９０から離れてしまっている状態が生じている。

本発明は、上記課題を解決するためになされたもので、少ない計算量で確実に外れ値を検出することができる外れ値検出方法、外れ値検出装置およびプログラムを提供することを目的とする。

本発明の外れ値検出方法は、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−ＳＶＲ（サポートベクトル回帰）により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを備えることを特徴とするものである。

また、本発明の外れ値検出方法の１構成例において、前記学習データを（ｘ_i，ｙ_i）（ｉ＝１，・・・・，ｌ）、特徴空間への写像関数をφ（ｘ_i）、特徴空間上の超平面重みベクトルをｗ、特徴空間上のバイアスをｂ、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ，ξ’、ラグランジュ乗数をα_i，α’_iとしたとき、前記μ−ε−ＳＶＲの主問題は、

で表され、主問題に対する双対問題は、

で表される。

また、本発明の外れ値検出装置は、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−ＳＶＲ（サポートベクトル回帰）により、複数の学習データから各データのラグランジュ乗数を求める計算手段と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手段と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手段と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手段で選択されたデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手段と、前記ラグランジュ乗数総和上限判定手段の判定において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手段と外れ値候補選択手段とラグランジュ乗数総和上限判定手段と外れ値除去手段とに処理を繰り返し実行させる制御手段とを備えることを特徴とするものである。

また、本発明の外れ値検出プログラムは、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−ＳＶＲ（サポートベクトル回帰）により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを、コンピュータに実行させることを特徴とするものである。

本発明によれば、ラグランジュ乗数によって外れ値を検出するε−ＳＶＲの特徴を備えているために、推定関数自体が外れ値の影響を受けていることを定量化できるので、確実に外れ値を検出・除去できるとともに、個々のデータのラグランジュ乗数に上限を規定しないμ−ε−ＳＶＲを用いるので、少ない計算量で外れ値を検出・除去することができる。

以下、本発明の実施の形態について図面を参照して説明する。図１は本発明の実施の形態に係る外れ値検出装置の構成を示すブロック図である。
外れ値検出装置は、あらかじめ用意された複数の学習データを記憶する記憶部１と、μ−ε−ＳＶＲにより学習データから各データのラグランジュ乗数を求めるＳＶＲ計算部２と、各学習データのうちラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択部３と、各学習データのラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定部４と、ラグランジュ乗数の総和が上限値以上の場合に、外れ値候補選択部３で選択されたデータを外れ値として確定し、このデータを学習データの中から除去する外れ値除去部５と、ラグランジュ乗数総和上限判定部４の判定においてラグランジュ乗数の総和が上限値より小さくなるまで、外れ値を除去した後の学習データについてＳＶＲ計算部２と外れ値候補選択部３とラグランジュ乗数総和上限判定部４と外れ値除去部５とに処理を繰り返し実行させる処理制御部６とを有する。

μ−ε−ＳＶＲでは、ε−ＳＶＲのように目的関数で平均誤差を最小化する代わりに、目的関数で最大誤差を最小化することを特徴としている。μ−ε−ＳＶＲの主問題は、学習データを（ｘ_i，ｙ_i）（ｉ＝１，・・・・，ｌ）とすると、次式のように表すことができる。なお、入力ｘ_iはベクトル量であり、ｙ_iは入力ｘ_iに対する出力である。

式（３）において、φ（ｘ_i）は特徴空間への写像関数、ｗは特徴空間上の超平面重みベクトル、ｂは特徴空間上のバイアス、μはトレードオフパラメータ、εは学習データの特性を表すモデルとして推定される関数に対するデータの許容誤差、ξ，ξ’はスラック変数である。ｗ^Tはベクトルｗの転置行列を示している。また、「s.t.」以降の式は制約式を示している。

μ−ε−ＳＶＲでは、図２に示すように各学習データ２０の誤差のうち最大誤差が最小になるような関数（超平面）２１を求める。また、μ−ε−ＳＶＲでは、スラック変数ξ，ξ’はデータごとの値ではなく、許容誤差εからのはみ出しの度合いが最も大きいデータの回帰誤差を表す。ここで、スラック変数ξは図２において関数２１よりも下側にあるデータのはみ出しの度合いを表し、スラック変数ξ’は関数２１よりも上側にあるデータのはみ出しの度合いを表す。式（３）に対する双対問題は、次式のように表すことができる。

式（４）において、α_i，α’_iは対応する制約式の目的関数に対するデータごとの感度を表すラグランジュ乗数である。図２においてデータが関数２１よりも下側にあるかどうかを判定する制約式が式（３）のｗ^Tφ（ｘ_i）＋ｂ−ｙ_i≦ε＋ξ，ξ≧０，ｉ＝１，・・・，ｌとなる。この制約式の感度に対応するラグランジュ乗数がα_iである。同様に、図２においてデータが関数２１よりも上側にあるかどうかを判定する制約式が式（３）のｙ_i−ｗ^Tφ（ｘ_i）−ｂ≦ε＋ξ’，ξ’≧０，ｉ＝１，・・・，ｌとなる。この制約式の感度に対応するラグランジュ乗数がα’_iである。α_i＝０であれば、データｉの誤差は推定される関数に対する各データの誤差のうちの最大誤差よりも小さく、α_i＞０であれば、データｉの誤差は最大誤差と等しく、Σα_i＝Ｃであれば、データｉの誤差は許容誤差εより大きい。また、Ｋ（ｘ_i，ｘ_j）はカーネル関数である。上記と同様に、ｘ_i，ｘ_jはベクトル量である。μ−ε−ＳＶＲでは、トレードオフパラメータμと許容誤差εをあらかじめ設定する。なお、これらのパラメータは作成するソフトセンサなどの要求仕様に基づいて適宜設計する。

従来のε−ＳＶＲとμ−ε−ＳＶＲとの違いは、ε−ＳＶＲの主問題が正則化項と誤差総和とを足した式で表されるのに対し、μ−ε−ＳＶＲの主問題が正則化項と最大誤差とを足した式で表される点と、ε−ＳＶＲの双対問題の制約式が各ラグランジュ乗数の上限を制限しているのに対し、μ−ε−ＳＶＲの双対問題の制約式がラグランジュ乗数の総和の上限を制限している点である。

このように、式（３）に対する双対問題では、ラグランジュ乗数の総和に対して上限制約が課せられるため、複数のグランジュ乗数が上限で等しくなることはない。前述のとおり、ラグランジュ乗数は、対応する制約式の目的関数に対する感度を表す。したがって、データの中に外れ値が存在する場合、ラグランジュ乗数が最大値をとるデータが、他のデータから最も大きく離れた外れ値であると推定できる。これによりμ−ε−ＳＶＲでは、ε−ＳＶＲに比べ計算量を削減することができる。この理由について、詳しくは後述する。

更に式（３）についてのクーン・タッカーの条件より式（５）を導くことができ、データの中に外れ値が存在する場合はラグランジュ乗数の総和が上限値μをとると言える。

本実施の形態では、以上のようなμ−ε−ＳＶＲの特徴を利用し、以下の手順で外れ値検出を行う。図３は本実施の形態の外れ値検出装置の動作を示すフローチャートである。
まず、ＳＶＲ計算部２は、式（３）、式（４）を用いて、記憶部１に記憶されている学習データ（ｘ_i，ｙ_i）（ｉ＝１，・・・・，ｌ）から各データのラグランジュ乗数α_i，α’_iを求める（ステップＳ１００）。

続いて、外れ値候補選択部３は、各学習データのうちラグランジュ乗数α_iまたはα’_iのどちらか一方が最大となるデータを外れ値の候補として選択する（ステップＳ１０１）。なお、データｉに関するラグランジュ乗数α_iとα’_iのうち、どちらか一方は必ず０になる。
次に、ラグランジュ乗数総和上限判定部４は、ＳＶＲ計算部２の計算結果から、式（６）に示すように各学習データのラグランジュ乗数α_i，α’_iの総和Σ（α_i＋α’_i）が上限値２μより小さいかどうかを判定する（ステップＳ１０２）。

処理制御部６は、ラグランジュ乗数α_i，α’_iの総和Σ（α_i＋α’_i）が上限値２μより小さいと判定された場合（ステップＳ１０２においてＹＥＳ）、ＳＶＲ計算部２と外れ値候補選択部３とラグランジュ乗数総和上限判定部４と外れ値除去部５に終了指示信号を出力して図３の処理を終了させる。

外れ値除去部５は、ラグランジュ乗数α_i，α’_iの総和Σ（α_i＋α’_i）が上限値２μと等しいと判定された場合（ステップＳ１０２においてＮＯ）、外れ値候補選択部３が外れ値の候補として選択したデータを外れ値として確定し、このデータを記憶部１に記憶されている学習データの中から除去する（ステップＳ１０３）。

ラグランジュ乗数α_i，α’_iの総和Σ（α_i＋α’_i）が上限値２μと等しいと判定された場合、処理制御部６は、外れ値の除去後に、ＳＶＲ計算部２と外れ値候補選択部３とラグランジュ乗数総和上限判定部４と外れ値除去部５に対して再実行指示信号を出力する。この再実行指示信号の出力により、ステップＳ１００に戻って、ＳＶＲ計算部２は、外れ値が除去された後の学習データについて各データのラグランジュ乗数α_i，α’_iを再び計算する。

こうして、ステップＳ１０２においてラグランジュ乗数α_i，α’_iの総和Σ（α_i＋α’_i）が上限値２μより小さくなるまで、ステップＳ１００〜Ｓ１０３の処理が繰り返し実行される。本実施の形態では、１回の計算で１点ずつ確実に外れ値を検出・除去することができ、全ての外れ値を除去した時点で図３の処理が終了する。

本実施の形態の有効性を人工的に作成した学習データで検証した。人工データを作成するため、入力ｘ_iを［０，１］の一様分布から１００点サンプリングし、計測ノイズη_iを正規分布Ｎ（０，０．０５）で生成し、外れ値３点に付加する値θ_iを±０．５とし、出力ｙ_iをｙ_i＝（ｓｉｎ２πｘ_i）²＋η_i＋θ_iで定義した。
このように人工的に作成したデータを学習データとして、本実施の形態の外れ値検出装置によって外れ値を検出した結果を図４（Ａ）〜図４（Ｄ）に示す。図４（Ａ）〜図４（Ｄ）において、４０は学習データ、４１は学習データから推定した関数によって入力ｘ_iから出力ｙ_iを計算した推定結果、４２〜４４は外れ値を表している。

図４（Ａ）は初期の学習データとこの学習データを基にした推定結果と図３のステップＳ１００〜Ｓ１０３の処理を１回行って外れ値４２を検出した結果を示している。図４（Ｂ）は外れ値４２を除去した後の学習データとこの学習データを基にした推定結果と２回目の処理を行って外れ値４３を検出した結果を示している。図４（Ｃ）は外れ値４２，４３を除去した後の学習データとこの学習データを基にした推定結果と３回目の処理を行って外れ値４４を検出した結果を示している。図４（Ｄ）は外れ値４２〜４４を除去した後の学習データとこの学習データを基にした推定結果を示している。図４（Ａ）〜図４（Ｄ）によれば、３点の外れ値４２〜４４が適切に除去された後、最終的に推定精度が向上していることが分かる。３回目の外れ値除去後、ラグランジュ乗数の総和は２．９８となり、外れ値検出装置の処理は終了した。

次に、多くの先行研究で外れ値が特定されているＳｔａｃｋｌｏｓｓデータにより検証を行った。Ｓｔａｃｋｌｏｓｓデータについては、文献「K.A.Brownlee,“Statistical Theory and Methodology in Science and Engineering”,New York,Wiley,p.491-500,1960」に開示されている。Ｓｔａｃｋｌｏｓｓデータを図５に示す。図５において、５１は外れ値を表している。

Ｓｔａｃｋｌｏｓｓデータは、硝酸製造プラントでの運転条件とアンモニア損失量との関係を取得したデータセットである。図５において、Ｙは吸収塔で吸収されなかったアンモニア損失量（プラント処理効率の逆の指標で、％の１０倍）、Ｘ１は冷却空気の流量、Ｘ２は吸収塔の冷却水温度、Ｘ３は硝酸濃度（［ｐｅｒ１０００，ｍｉｎｕｓ５００］）である。図５はアンモニアから硝酸を製造する硝酸製造プラントにおける２１日分の運転履歴を示している。副産物の酸化窒素は吸収塔で吸収する。２１日分のデータのうち、先行研究で指摘されている外れ値は１，３，４，２１番目の４つのデータである。図５から、可視化だけでは外れ値を見つけることが難しいことが分かる。

このようなＳｔａｃｋｌｏｓｓデータを学習データとして、本実施の形態の外れ値検出装置によって外れ値を検出した結果を図６（Ａ）〜図６（Ｄ）に示す。図６（Ａ）〜図６（Ｄ）において、６０〜６３は外れ値を表している。図６（Ａ）は図３のステップＳ１００〜Ｓ１０３の処理を１回行って２１番目のデータを外れ値６０として検出したことを示している。図６（Ｂ）は２回目の処理を行って４番目のデータを外れ値６１として検出したことを示している。図６（Ｃ）は３回目の処理を行って３番目のデータを外れ値６２として検出したことを示している。図６（Ｄ）は４回目の処理を行って１番目のデータを外れ値６３として検出したことを示している。

Ｓｔａｃｋｌｏｓｓデータに対して本実施の形態を適用した結果、図６（Ａ）〜図６（Ｄ）に示した各回のラグランジュ乗数の値により、各回でラグランジュ乗数が最大のデータを外れ値として検出できていることが分かる。ラグランジュ乗数の総和は４回目の除去後０．０３となり、上限値２μと比べると極めて小さい値であることから、これ以上外れ値が存在しないと判断できる。

従来のε−ＳＶＲを用いた外れ値検出方法では、ラグランジュ乗数に上限があって、定性的な判断材料に留まる。このため、定量的な外れ値検出を行うには許容誤差εを変化させながら、複数回のフィッティングを行う必要がある。これに対して、本実施の形態では、ラグランジュ乗数を個々に定量化しており、ラグランジュ乗数の値に差ができるため、１回のフィッティングで定量的な外れ値検出を行うことができる。本実施の形態では、ｎ個の外れ値を検出するためにｎ回の計算をすればよいことになり、ｎ×ｍ回の計算回数が必要であった従来のε−ＳＶＲを用いた外れ値検出方法よりも計算量を削減することができる。

また、推定誤差が大きいデータを外れ値として除去する従来の外れ値検出方法では、誤差だけで判断するため、推定曲面が歪んでいる場合、外れ値に有利な定量化となってしまう。これに対して、本実施の形態では、誤差を定量的な判断材料として加えることにより、外れ値検出の精度を向上させることができる。

なお、本実施の形態の外れ値検出装置は、ＣＰＵ、記憶装置および外部とのインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の外れ値検出方法を実現させるための外れ値検出プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカードなどの記録媒体に記録された状態で提供される。ＣＰＵは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って本実施の形態で説明したような処理を実行する。

本発明は、例えばプロセス産業の分野において計測データから外れ値を検出して除去する技術に適用することができる。

本発明の実施の形態に係る外れ値検出装置の構成を示すブロック図である。本発明の実施の形態のμ−ε−ＳＶＲで推定される関数を説明する図である。図１の外れ値検出装置の動作を示すフローチャートである。人工的に作成したデータを学習データとして図１の外れ値検出装置によって外れ値を検出した結果を示す図である。学習データの１例であるＳｔａｃｋｌｏｓｓデータを示す図である。Ｓｔａｃｋｌｏｓｓデータを学習データとして図１の外れ値検出装置によって外れ値を検出した結果を示す図である。従来の外れ値検出方法を説明するフローチャートである。従来のε−ＳＶＲで推定される関数を説明する図である。従来の別の外れ値検出方法を説明する図である。図９の外れ値検出方法の問題点を説明する図である。

符号の説明

１…記憶部、２…ＳＶＲ計算部、３…外れ値候補選択部、４…ラグランジュ乗数総和上限判定部、５…外れ値除去部、６…処理制御部。

Claims

個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−ＳＶＲ（サポートベクトル回帰）により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、
各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、
各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、
前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、
前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを備えることを特徴とする外れ値検出方法。
請求項１記載の外れ値検出方法において、
前記学習データを（ｘ_i，ｙ_i）（ｉ＝１，・・・・，ｌ）、特徴空間への写像関数をφ（ｘ_i）、特徴空間上の超平面重みベクトルをｗ、特徴空間上のバイアスをｂ、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ，ξ’、ラグランジュ乗数をα_i，α’_iとしたとき、前記μ−ε−ＳＶＲの主問題は、

で表され、主問題に対する双対問題は、

で表されることを特徴とする外れ値検出方法。
個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−ＳＶＲ（サポートベクトル回帰）により、複数の学習データから各データのラグランジュ乗数を求める計算手段と、
各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手段と、
各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手段と、
前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手段で選択されたデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手段と、
前記ラグランジュ乗数総和上限判定手段の判定において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手段と外れ値候補選択手段とラグランジュ乗数総和上限判定手段と外れ値除去手段とに処理を繰り返し実行させる制御手段とを備えることを特徴とする外れ値検出装置。
請求項３記載の外れ値検出装置において、
前記学習データを（ｘ_i，ｙ_i）（ｉ＝１，・・・・，ｌ）、特徴空間への写像関数をφ（ｘ_i）、特徴空間上の超平面重みベクトルをｗ、特徴空間上のバイアスをｂ、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ，ξ’、ラグランジュ乗数をα_i，α’_iとしたとき、前記μ−ε−ＳＶＲの主問題は、

で表され、主問題に対する双対問題は、

で表されることを特徴とする外れ値検出装置。
個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−ＳＶＲ（サポートベクトル回帰）により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、
各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、
各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、
前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、
前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを、コンピュータに実行させることを特徴とする外れ値検出プログラム。