JPH07219929A

JPH07219929A - 外れ値検出方法及びデータ処理装置

Info

Publication number: JPH07219929A
Application number: JP6008871A
Authority: JP
Inventors: Taichiro Ueda; 太一郎上田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-01-28
Filing date: 1994-01-28
Publication date: 1995-08-18

Abstract

(57)【要約】【目的】得られたデータ（収量、反応量）の外れ値を
求める。【構成】入力工程でデータを入力し、大小判定工程で
昇順に並べる。次に、算出工程で一番小さい値を除いた
検出統計量を計算する。一番大きい値を除いた検出統計
量を計算する。一番小さい値と一番大きい値を除いた検
出統計量を計算する。以下同様にして考えられる組み合
せのデータから検出統計量を計算する。またデータを除
かないときの検出統計量も計算する。外れ値検出工程
で、以上の検出統計量が最小となるデータの組み合せを
見つけ、その除いた値を外れ値とする。データを除かな
いときの検出統計量が最小となったとすれば外れ値は存
在しない。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は生産工程、品質管理、
研究開発、品質改良などにおけるデータの外れ値を検出
する方法及びその方法を利用した装置に関するものであ
る。

【０００２】

【従来の技術】例えば、製品の性能バラ付きを測定する
場合、あるいは、電力メータや水道メータ等の検針を行
う場合、更には実験データを測定する場合に、得られた
データの中に規格外れの性能を示すデータや、異常な測
定値を示すデータが存在する。このように、規格外れの
データや、異常値は測定環境や測定装置自身から生ずる
不適切なデータであることが多い。このような不適切な
データを、ここでは以下外れ値と呼ぶことにする。外れ
値は、本来測定されるべき値ではないため、前述したよ
うな各種データから外れ値を検出し、取り除く手法が従
来から考えられてきている。データから外れ値を検出す
る方法は、従来から統計手法に基ずくものがある。外れ
値とは極端に大きなあるいは小さい値をとるデータのこ
とである。例えば、５．７１、６．５７、７．２９、
８．０６、１０．００、１５．００を考える。プロット
すると図１２のようになる。図１２を見ると１５．００
は外れ値のようである。統計手法では外れ値が１個とし
て、１個の時の外れ値を検定する計算式を用いる。２個
の時は２個用の計算式を用いる。統計的検定であるから
予め危険率（有意水準）を決めておく必要がある。危険
率としては伝統的に５％あるいは１％を用いている。危
険率５％とは、統計的検定により外れ値と判断を下す時
誤る確率が５％であることを示す。計算式に対応した５
％あるいは１％の数表があり、実データで計算した値と
数表とを比較して大ならば外れ値とする。ただし危険率
としては、５％ある。または１％あるということにな
る。

【０００３】このように従来の統計手法では外れ値の個
数が１個の時、２個の時、３個の時によって計算法が異
なったり、危険率（有意水準とも呼ばれる）の違い（５
％、１％等）により結論が異なる（５％の時外れ値と結
論しても１％の時は外れ値とはいえない等）問題点があ
る。また大きな値の外れ値、小さな値の外れ値により計
算法が異なる。統計手法であるから５％、１％の数表も
必要である。

【０００４】具体的には、図１３及び図１４を用いて説
明する。図１３で１は情報処理装置、２はコンピュータ
（ＦＤＤ付）、３はディスプレイ・ユニット、４はプリ
ンタ、５はキーボード、６はフロッピーディスクであ
る。プログラム・ルーチンが記憶されたフロッピーディ
スク６をコンピュータ（ＦＤＤ付）２に挿入し、オペレ
ーション・ソフトを駆動して、情報処理装置１をスター
トさせる。フロッピーディスク６からプログラム・ルー
チンがロードされ入力待状態となる。

【０００５】図１４は従来例の説明のためのフローチャ
ートである。ステップ１は、キーボード５からデータを
連続的に入力する段階である。ステップ２では、外れ値
の個数を入力し、１ならば、ステップ３、ステップ４
で、小さい値又は大きい値を外れ値とした統計量をそれ
ぞれ求める。なぜ別々に求めるかと言えば、小さい値と
大きい値では計算方式が異なるからである。また、外れ
値の個数が２個の場合は、ステップ５からステップ７
で、小さい値を２個外れ値とした場合、小さい値と大き
い値を１個ずつ外れ値とした場合、大きい値を２個外れ
値とした場合にそれぞれ別の計算方式で統計量を求め
る。

【０００６】ステップ８では、数表を見て上記ステップ
で求めた計算値と数表にある有意点の大小比較をする。
ステップ９では、有意点より計算値の方が大きい場合外
れ値と認識する。ステップ１０は、計算値の方が小さい
場合外れ値としない。ステップ１１では、結果の表示等
をする。図１４は危険率（有意水準）が５％の場合であ
るが、１％の場合なら１％の数表が必要となる。

【０００７】従来の統計手法で外れ値を検出する例を示
す。データとして、５．７１、６．５７、７．２９、８．０６、１０．０
０、１５．００とする。Ｇｒｕｂｂｓ検定量の式、数１を用いる。

【０００８】

【数１】

【０００９】１５．００が外れ値と考えられるので、Ｔ
ｉの最大値ｍａｘＴｉ（ｉ＝１、２、・・・、ｎ）を求
めて数表に載っている値と比較する。ｍａｘＴｉ＝１．８４１となった。Ｇｒｕｂｂｓの数表、表１を見るとサンプル
数ｎ＝６の時、かつ、危険率５％の時１．８２、サンプ
ル数ｎ＝６、かつ、危険率１％の時１．９４である。よ
って、ｍａｘＴｉ＞１．８２、ｍａｘＴｉ＜１．９４である。従って、１５．００は危険率５％で外れ値とい
える。危険率１％では外れ値といえない。このように危
険率の違いにより結論が異なってくる。

【００１０】

【表１】

【００１１】（ＶｉｃＢａｒｎｅｔｔ，ＴｏｂｙＬ
ｅｗｉｓ（１９７８）：「ＯｕｔｌｉｅｒｓｉｎＳ
ｔａｔｉｓｔｉｃａｌＤａｔａ」，ＪｏｈｎＷｉｌ
ｅｙ＆Ｓｏｎｓ．ｐ．２９８から一部引用）

【００１２】次に、マスク効果の例をあげる。データと
して５．７１、６．５７、７．２９、８．０６、１４．
８０、１５．００とする。このデータではｍａｘＴｉ＝
１．２９となる。ｍａｘＴｉ＜１．８２である。従って
外れ値はないことになる。これはマスク効果といって、
上のように外れ値の候補が１４．８０と１５．００の２
つある場合、従来方式では外れ値を１つとして検定する
と必ずしも外れ値を検出しない例である。

【００１３】

【発明が解決しようとする課題】以上説明したように、
従来のものでは外れ値の個数により計算方式が異なる。
また、外れ値の性格（大きい方の外れ値か小さい方の外
れ値か）により計算方式が異なる（ＶｉｃＢａｒｎｅ
ｔｔ，ＴｏｂｙＬｅｗｉｓ（１９７８）：「Ｏｕｔｌ
ｉｅｒｓｉｎＳｔａｔｉｓｔｉｃａｌＤａｔ
ａ」，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓには４０種
以上の計算式が載っている）という問題点があった。ま
た、計算値と数表の大小比較が必要である。また、危険
率の違い（５％、１％等）により結論が異なるという問
題点があった。また、マスク効果といって例えば外れ値
の候補が２つある場合、従来方式では外れ値を１つとし
て検定すると必ずしも外れ値を検出しないという問題点
があった。

【００１４】この発明は、以上のような問題点を解決す
るためになされたものであり、従来のような数表を用い
ることなく、また、外れ値の個数や外れ値の性格により
計算方式を変える必要がない外れ値検出方法を得ること
を目的とする。また、マスク効果を回避することができ
る外れ値検出方法を得ることを目的とする。また、外れ
値を検出する場合にできるだけ計算過程が簡単で、且
つ、計算量も少なくて済む外れ値検出方法を得ることを
目的とする。更には、これらの外れ値検出方法を利用し
たデータ処理装置を提供することを目的とする。

【００１５】

【課題を解決するための手段】この発明に係る外れ値検
出方法は、以下の工程を有する。（ａ）Ｎ個（Ｎ≧３）の値を入力する入力工程、（ｂ）
上記入力工程により入力したＮ個の値の大小関係を判定
する大小判定工程、（ｃ）上記大小判定工程により判定
された大小関係に基づき、Ｎ個の値の組み合せ及び外れ
値の候補を除いたＮ個未満の値の組み合せを求め、求め
た組み合せに対して所定の計算式を用いて検出統計量を
算出する算出工程、（ｄ）上記算出工程により算出され
た検出等計量に基づいて、外れ値を検出する外れ検出工
程。

【００１６】上記算出工程は、ｓ個以内の外れ値を検出
する場合、大小判定工程により判定された大小関係上連
続するｎ個（ｎ＝Ｎ−ｓ）以上の値の組み合せを複数作
成し、これらの組み合せを用いて検出統計量を算出する
ことを特徴とする。

【００１７】上記外れ値検出工程は、Ｎ個未満の値の組
み合せから求めた検出統計量の中で最小のものを選択す
る最小値選択工程と、選択された最小値がＮ個の値の組
み合せから求めた検出統計量よりも小さい場合に、その
選択された最小値を算出した組み合せに含まれていなか
った値を外れ値とする外れ値判定工程を備えたことを特
徴とする。

【００１８】上記計算式は、外れ値の候補が除かれると
小さくなる傾向にある第１の項目と、外れ値の候補が除
かれると大きくなる第２の項目とを有し、上記算出工程
は、第１と第２の項目の値を算出し両者の和により検出
統計量を求めることを特徴とする。

【００１９】上記計算式は、更に、第１と第２の項目以
外に、第１と第２の項目を補正する補正項を有し、上記
算出工程は、第１と第２と第３の項目の値を算出し、３
者の和により検出統計量を求めることを特徴とする。

【００２０】上記第１の項目は、検出統計量を求めるＮ
個未満の値の分散を用いていることを特徴とする。

【００２１】上記第２の項目は、検出統計量を求める場
合の外れ値の候補の個数を用いていることを特徴とす
る。

【００２２】上記第２の項目は、外れ値の候補の個数に
対して所定の係数を乗算したものを用いることを特徴と
する。

【００２３】上記計算式は、検出統計量を求めるＮ個未
満の値の分散と分散に対する係数を有しており、上記算
出工程は、分散と係数の乗算により検出統計量を求める
ことを特徴とする。

【００２４】上記計算式は、回帰分析の変数選択基準を
基礎にして作成されることを特徴とする。

【００２５】上記外れ値検出方法は、更に、入力工程と
大小判定工程の間に、入力した値を加工する加工工程を
備えたことを特徴とする。

【００２６】上記加工工程は、入力工程により入力され
た時間に依存する値を時間に依存しない値に加工するこ
とを特徴とする。

【００２７】上記加工工程は、入力工程により入力され
た値からテコ比を計算することを特徴とする。

【００２８】上記加工工程は、入力工程により入力され
た値から回帰分析モデルのデータを計算することを特徴
とする。

【００２９】上記加工工程は、入力工程により入力され
た値から正準相関分析モデルのデータを計算することを
特徴とする。

【００３０】上記加工工程は、入力工程により入力され
た値が複数のグループに分類されていて複数の要因によ
り判別分析を行う場合に、各グループの判別関数値を計
算すことを特徴とする。

【００３１】また、この発明に係るデータ処理装置は、
外れ値検出方法を実行して外れ値を検出する外れ値検出
手段と、Ｎ個の値を計測して外れ地検出手段に入力する
計測手段と、外れ値検出手段により検出された外れ値を
知らせる出力手段を備える。

【００３２】上記データ処理装置は、更に、外れ値検出
手段により検出された外れ値を除いた残りの値を用いて
所定の処理を実行するデータ処理手段を備えたことを特
徴とする。

【００３３】

【作用】第１の発明においては、入力工程により、Ｎ個
の値が入力されると、大小判定工程により値の大小関係
を判定し、大きい方の値又は小さい方の値のいくつかを
外れ値の候補とする。算出工程は、まずＮ個の値の組み
合せ及び外れ値の候補を除いたＮ個未満の値の組み合せ
を求め、次に求めた組み合せそれぞれに対して所定の計
算式を用いて検出統計量を算出する。外れ値検出工程
は、算出された検出統計量に基づいて外れ値を検出す
る。

【００３４】第２の発明における算出工程は、大小判定
工程により判定された値の大小に基づき、ｎ個（ｎ＝Ｎ
−ｓ）以上の連続する値の組み合せを用いて、所定の計
算式により検出統計量を計算する。例えば、入力工程に
より５個（Ｎ＝５）が入力され、最大２個（ｓ＝２）の
外れ値を検出しようとする場合、大きい方から３個の入
力値を用いて１つの組み合せを作成する。また、大きい
方から４個の入力値を用いて別な組み合せを作成する。
また、最大値と最小値を除いた中間の値３個を用いて１
つの組み合せを作成する。また、小さい方の入力値３個
及び小さい方の入力値４個を用いてそれぞれ組み合せを
作成する。

【００３５】第３の発明における外れ値検出工程は、ま
ず、算出工程により算出されたＮ個未満の値の組み合せ
の検出統計量の中で最小のものを選択する。次に、Ｎ個
の値の組み合せから求めた検出統計量と、選択された最
小値を比較し最小値の方が小さい場合、その選択された
最小値を算出した組み合せに含まれていなかった値を外
れ値とする。また、最小値の方が大きい場合、外れ値は
無しと判定する。

【００３６】第４の発明における計算式は、外れ値の候
補が除かれると小さくなる傾向にある第１の項目と、外
れ値の候補が除かれる時に大きくなる第２の項目を有
し、両者の和により検出統計量を求める。この計算式に
より、外れ値がある場合最も外れた値が除かれると検出
統計量が最小となる。

【００３７】第５の発明における計算式は、上記第１と
第２の項目に加えて、第３の項目を持つ。この第３の項
目は、上記第１と第２の項目を補正する補正項目であ
る。第１項目、第２項目、第３項目を加算して検出統計
量を求める。

【００３８】第６の発明における計算式は、第１項目に
検出統計量を求めるＮ個未満の値の分散を含んでいる。
従って、最も外れた値が除かれると分散の値が小さくな
り、第１の項目の値が小さくなる。

【００３９】第７の発明における計算式は、第２項目に
検出統計量を求める場合の外れ値の候補の個数を含んで
いる。従って、外れ値の数を多く検出しようとすると、
第２の項目の値が大きくなる。

【００４０】第８の発明における計算式は、第２の項目
に外れ値の候補の個数に対して所定の係数を乗算したも
のを用いる。

【００４１】第９の発明における計算式は、検出統計量
を求めるＮ個未満の値の分散に係数を乗算して検出統計
量を求める。

【００４２】第１０の発明における計算式は、回帰分析
の変数選択基準を基礎にして検出統計量を求める計算式
を作成する。

【００４３】第１１の発明においては、加工工程によ
り、入力工程により入力された値を、検出統計量を求め
ることができるデータに変換することができるため、様
々な種類のデータを入力することができる。

【００４４】第１２の発明においては、入力工程により
入力された値から例えば時間に比例して増加、あるい
は、減少する傾向を補正して時間に依存しない値に加工
する。そして、補正された値から検出統計量を算出し、
外れ値を求めることができる。

【００４５】第１３の発明においては、１つのサンプル
に複数の特性値がある場合に、テコ比の対角要素を計算
し、計算された値を基に検出統計量を求め外れ値を求め
る。

【００４６】第１４の発明においては、入力された値が
回帰分析の手法を適用できる場合、回帰分析の残差を計
算し、計算された値を基に検出統計量を求め外れ値を求
める。

【００４７】第１５の発明においては、入力された値が
正準相関分析モデルのデータの場合、正準相関分析を行
い合成変量関数を２個求め、これより合成変量関数値を
求め、合成変量関数値からテコ比を計算しテコ比の計算
された値を基に検出統計量を求め外れ値を求める。

【００４８】第１６の発明においては、入力された値が
複数のグループに分類されていて、複数の要因により判
別分析を行う場合に、判別関数値を計算し計算された値
を基に検出統計量を求め外れ値を求める。

【００４９】第１７の発明におけるデータ処理装置は、
計測手段によりＮ個の値を計測し、この計測された値か
ら、上記外れ値検出方法を実行する外れ値検出手段によ
り、外れ値を検出し、出力手段により外れ値を知らせ
る。

【００５０】第１８の発明におけるデータ処理装置は、
計測手段によりＮ個の値を計測し、この計測された値か
ら、上記外れ値検出方法を実行する外れ値検出手段によ
り、外れ値を検出し、データ処理手段により検出された
外れ値を除いた残りの値を用いて所定の処理を実行す
る。

【００５１】

【実施例】

実施例１．従来例で説明した図１３を再びこの実施例の
装置を説明するための図として説明する。図１３で、１
は情報処理装置、２はコンピュータ（ＦＤＤ付）、３は
ディスプレイ・ユニット、４はプリンタ、５はキーボー
ド、６はフロッピーディスクである。この発明のハード
ウェア構成は従来例と変わらず、プログラム・ルーチン
が記憶されたフロッピーディスク６をコンピュータ（Ｆ
ＤＤ付）２に挿入し、オペレーション・ソフトを駆動し
て、情報処理装置１をスタートさせる。プログラム・ル
ーチンがロードされ、入力待状態となる。キーボード５
からデータをキー入力すれば、プログラム・ルーチンが
動作し、ディスプレイ３に処理結果を表示し、また、プ
リンタ４に処理結果をプリントすることになる。

【００５２】この実施例では、検出統計量を算出するた
めに数２を使う。

【００５３】

【数２】

【００５４】この統計量の値が最小になるサンプルの組
み合せを見つければよい。図１は本発明の説明のための
フローチャートである。ステップ２０は、キーボード５
からのデータを連続的に入力する入力工程である。例え
ば、ｘ₁、ｘ₂、ｘ₃、ｘ₄、ｘ₅の５つのデータを入
力する。この場合は、入力するデータの個数をＮとする
と、Ｎ＝５となる。ステップ２１は、入力されたデータ
の大小を比較し、例えば昇順にｘ₁＜ｘ₂＜ｘ₃＜ｘ₄
＜ｘ₅のように並べる。この工程は大小判定工程であ
る。

【００５５】このようにデータを昇順に並べかえること
によって、外れ値の候補を見つけることが容易となる。
外れ値の候補の個数をｓ（ｓ≧１）とすると、外れ値の
候補は、その性質からいって一番大きい値からｓ個、一
番小さい値からｓ個、または大きい値と小さい値の両方
あわせてｓ個と考えられる。

【００５６】ステップ２２はこれらのデータ群から、本
実施例での計算式により検出統計量Ｕｔを計算する算出
工程である。外れ値の候補の個数ｓ＝１の場合は、ま
ず、（ｘ₁、ｘ₂、ｘ₃、ｘ₄、ｘ₅）からｘ₁を除い
た時の検出統計量を計算する。これを検出統計量Ｕｔ
_(-1)とする。以下同様にｘ₅を除いた時をＵｔ_(-5)とす
る。外れ値の候補の個数ｓ＝２の場合は、ｘ₁とｘ₂を
除いた時をＵｔ_(-1,-2)とし、ｘ₄とｘ₅を除いた時を
Ｕｔ_(-4,-5)とし、ｘ₁とｘ₅を除いた時をＵｔ_(-
_1,-5)とし、小さい値または大きい値から順にサンプル
を除いて検出統計量を計算する。このように考えられる
組み合せの検出統計量をそれぞれ計算する。ここで外れ
値の候補の個数ｓは、予めシステムにより定められてい
るものとする。あるいは、外れ値の候補の個数ｓは、オ
ペレータ、あるいは、プログラムにより指定されるもの
とする。あるいは、外れ値の候補の個数は計算の度に自
由に設定することが可能なものであるとする。

【００５７】尚、ここで与えられる外れ値の候補の個数
は、外れ値として必ず見つけなければいけない個数では
ない。ここで言う外れ値の候補の個数とは、外れ値とし
て検出する最大の個数を言う。例えば、外れ値の候補の
個数ｓ＝２の場合は、外れ値を最大２個見つける場合を
言い、外れ値の個数を必ず２個見つけるという意味では
ない。従って、外れ値の候補の個数ｓ＝２の場合は、外
れ値が０個の場合、外れ値が１個の場合、あるいは、外
れ値２個の場合というような結果が考えられる。以下同
様に外れ値の候補の個数ｓという場合は、外れ値として
検出できる数の最大値を示すものとする。このように、
この実施例及び後述する実施例においては、外れ値の数
を特定の数に設定する必要はなく、外れ値の数の最大値
を指定しておけばよい。

【００５８】ステップ２３は、検出統計量Ｕｔの最小値
（Ｕｔｍｉｎ）を見つける段階である。ステップ２４
は、外れ値の候補を除かない時の検出統計量Ｕｔ₍₀₎と
Ｕｔｍｉｎを比較する段階である。ステップ２５は、Ｕ
ｔｍｉｎの方が小さい場合、Ｕｔｍｉｎを求めた時のデ
ータの組み合せに含まれていなかった値を外れ値とす
る。ステップ２６は、Ｕｔ₍₀₎が最小となる場合で、こ
の時、外れ値は「ない」とする。ステップ２３からステ
ップ２６までが外れ値検出工程である。ステップ２７
は、表示等をする。

【００５９】次に、データを使ってこのフローチャート
の流れを説明する。ステップ２０で次の５つのデータを
入力する。５．７１、６．５７、７．２９、８．０６、１３．３２ステップ２１で入力されたデータを昇順に並べかえる。
ステップ２２で数２を使い、Ｕｔの値を計算する。例え
ば、一番小さな値５．７１を除いた時は、サンプル数ｎ
＝４、外れ値の候補の個数ｓ＝１であるので、検出統計
量をＵｔ_(-1)と表すと、Ｕｔ_(-1)＝５．９０８となる。
一番大きな値１３．３２を除いた時の検出統計量は、サ
ンプル数ｎ＝４、外れ値の候補の個数ｓ＝１であるの
で、Ｕｔ_(-5)と表すと、Ｕｔ_(-5)＝１．４４０となる。
５．７１と１３．３２をともに除いた時は、サンプル数
ｎ＝３、外れ値の候補の個数ｓ＝２であるので、Ｕｔ
_(-1,-5)と表すと、Ｕｔ_(-1,-5)＝２．５０９となる。
また、Ｕｔ_(-1,-2)、Ｕｔ_(-4,-5)、Ｕｔ_(-1,-2,-5)、
Ｕｔ_(-1,-4,-5)を計算すると（即ち、外れ値の候補の個
数ｓ＝３の検出統計量Ｕｔ₍₀₎を計算すると）表２のよ
うになる。

【００６０】

【表２】

【００６１】ステップ２３で以上で求めたＵｔの最小値
Ｕｔｍｉｎを求めると、Ｕｔｍｉｎ＝Ｕｔ_(-5)＝１．４
４０である。ステップ２４で外れ値の候補を除かない時
の検出統計量Ｕｔ₍₀₎＝４．９３０を計算し、Ｕｔｍｉ
ｎとＵｔ₍₀₎を比較する。すると、Ｕｔ_(-5)＞Ｕｔ₍₀₎
は成立しないので、ステップ２５へ行き、Ｕｔ_(-5)の時
のデータの組み合せを外れ値とする。即ち、１３．３２
が外れ値とわかる。ステップ２７で、外れ値１３．３２
の表示等出力を行う。

【００６２】このように外れ値の候補の個数が３の場合
であっても、検出された外れ値の個数は１つであり、外
れ値の候補の個数以内の範囲で外れ値を検出することが
できる。

【００６３】この例で示した５．７１、６．５７、７．
２９、８．０６、１３．３２のデータの場合、１３．３
２を外れ値とするのは、竹内啓（１９８０）「現象と
行動の中の統計数理」新曜社でも同様の結果となってい
る。

【００６４】この実施例の数２に示した検出統計量の式Ｕｔ＝ｎｌｏｇσ＋２ｓは、ＡＩＣ（ＡＫＡＩＫＥ’Ｓｉｎｆｏｒｍａｔｉｏ
ｎｃｒｉｔｅｒｉｏｎ）のアナロジーから考えられ
た。ｎはサンプル数、ｓは外れ値の候補の個数、σ²は
分散、σは標準偏差である。この式の第１項は、外れ値
の候補であるサンプルが除かれると小さくなる傾向があ
る。というのは、分散σ²は外れ値を除くと小さくなる
からである。また、サンプル数ｎも外れ値の候補として
除く数が増えると、ｎ＝（データ数Ｎ）−（外れ値の候
補の個数ｓ）であるから、例えば、ｎは５から４、５か
ら３というように小さな値になるからである。第２項
は、サンプル数が多くなると増加する。従って、外れ値
を除いた時、第１項と第２項の和Ｕｔは最小になると考
えることができる。

【００６５】次に、この関係をＧｒｕｂｂｓのデータ１
を使って述べる。Ｇｒｕｂｂｓのデータ１を次に示す。２．０２、２．２２、３．０４、３．２３、３．５９、
３．７３、３．９４、４．０５、４．１１、４．１３総データ数は１０個である。このデータからｌｏｇσを
計算した値を表３に、ｎｌｏｇσを計算した値を表４に
示し、Ｕｔ＝ｎｌｏｇσ＋２ｓを計算した値を表５に示
す。

【００６６】

【表３】

【００６７】

【表４】

【００６８】

【表５】

【００６９】これらをグラフにしたものが図２である。
図２のｘ軸は、外れ値の候補の個数ｓであり、ｙ軸はＵ
ｔの値である。ｓに対応するＵｔの値が複数ある場合
は、その中の最小のものをプロットした。例えば、表３
において外れ値の候補の個数ｓ＝１の場合、Ｕｔは−
０．３１８と−０．５１４となるが、−０．５１４を用
いてプロットした。図２の一点鎖線で示したグラフ
（１）は、Ｕｔ＝ｌｏｇσとした場合を示している。点
線で示したグラフ（２）は、Ｕｔ＝ｎｌｏｇσとした場
合を示している。実線で示したグラフ（３）は、Ｕｔ＝
２ｓとした場合である。太線で表したグラフ（４）は、
ｎｌｏｇσと２ｓを加算したＵｔ＝ｎｌｏｇσ＋２ｓの
値である。

【００７０】前述したように外れ値の候補の個数ｓが増
加するに従って、第１項のｎｌｏｇσは減少することが
グラフ（２）よりわかる。そして、第２項の２ｓは増加
することが、グラフ（３）よりわかる。グラフ（４）に
示すｎｌｏｇσ＋２ｓの値は、ｓ＝２で最小値を取った
後増加している。Ｕｔ＝ｎｌｏｇσ＋２ｓの場合、最小
値は１ヶである。表５からわかるように、グラフ（４）
が最小となるのは、外れ値の候補の個数ｓ＝２であっ
て、その外れ値として２．０２と２．２２を仮定した場
合である。これは、Ｋｉｔａｇａｗａの方法でも同じ結
果を得ている（ＧｅｎｓｈｉｒｏＫｉｔａｇａｗａ（１
９７９）：“ＯｎｔｈｅＵｓｅｏｆＡｉｃｆ
ｏｒｔｈｅＤｅｔｅｃｔｉｏｎｏｆＯｕｔｌｉ
ｅｒｓ”，Ｔｅｃｈｎｏｍｅｔｒｉｃｓ，Ｖｏｌ．２
１，Ｎｏ．２）。

【００７１】次に、Ｕｔ＝ｎｌｏｇσ＋２ｓとｓの関係
をもう１つ別の例で述べる。データとして、 −１．４０、−０．４４、−０．３０、−０．２４、−
０．２２、−０．１５、−０．１３、０．０６、０．１
０、０．１８、０．２０、０．４８、０．６３、１．０
１とする。これにより得られたＵｔ＝ｎｌｏｇσ＋２ｓの
値を表６に示す。

【００７２】

【表６】

【００７３】表６を基に、グラフを書くと図３のように
なる。図３のｘ軸は外れ値の候補の個数ｓ、ｙ軸はＵｔ
＝ｎｌｏｇσ＋２ｓの値である。図３からわかるよう
に、この場合もＵｔの値が最小になった後、ｓが大きく
なるにつれ、Ｕｔの値も大きくなっている。また、外れ
値の性格より、外れ値の数は総データ数に比して小さな
数であると考えられる。よって、以後検出統計量の計算
結果を表に示す場合、最小の前後のデータのみを示すこ
とにする。この外れ値の性格を用いることにより、外れ
値の候補の数を予め指定することなく、外れ値を検出す
ることも可能である。前述したように、外れ値の数が大
きくなるにつれて検出統計量の値も大きくなる。従っ
て、外れ値の候補の数を指定しない場合には、外れ値の
候補の数が少ない順に検出統計量を算出し、順に外れ値
の候補の数を増やして検出統計量を算出し、その計算し
た検出統計量が次第に大きくなる場合には、その計算を
終了させる。このようにして、外れ値の候補の数が予め
指定されていない場合であっても、外れ値を検出するこ
とが可能になる。従って、前述したように外れ値の候補
の数を予め指定する場合以外に、外れ値の候補の数をシ
ステムやプログラムにより指定せずに、検出統計量の計
算結果を比較していくことにより、その計算結果が次第
に大きくなることが判明した時点で検出統計量の計算を
停止させることにより、外れ値を検出することが可能に
なる。次に、検出統計量Ｕｔが有効であるかどうか検証
するために、従来の計算方法による結果と比較したもの
を実施例２から実施例６で述べる。

【００７４】実施例２．この実施例では、Ｇｒｕｂｂｓ
のデータ２を用い、検出統計量の式としてＵｔを用いた
場合の外れ値について述べる。Ｇｒｕｂｂｓのデータ
は、全て次の文献より引用している。 “Ｐｒｏｃｅｄｕｒｅｓｆｏｒｄｅｔｅｄｔｉｎｇ
ｏｕｔｙｉｎｇＯｂｓｅｒｖａｔｉｏｎｓｉｎ
ｓａｍｐｌｅｓ”，Ｔｅｃｈｎｏｍｅｔｒｉｃｓ，
Ｖｏｌ．１１，１−２１Ｇｒｕｂｂｓのデータ２は次の値である（データ数は１
２）。０．７４５、１．８３２、１．８５６、１．８８４、
１．９１４、１．９１６、１．９４７、１．９４９、
２．０１３、２．０２３、２．０４５、２．３２７原典では、３回の観測値とその平均値が載っているが、
ここでは平均値のみを昇順に載せる。検出統計量の計算
結果を表７に示す。

【００７５】

【表７】

【００７６】表７よりＵｔが最小値をとるのは、０．７
４５と２．３２７を外れ値とした場合である。前述した
Ｋｉｔａｇａｗａの方法も同じ結果となっている。

【００７７】実施例３．この実施例は、Ｇｒｕｂｂｓの
データ３を用いた場合について述べる。Ｇｒｕｂｂｓの
データ３は次の値である（データ数は１０）。５６８、５７０、５７０、５７０、５７２、５７２、５
７２、５７８、５８４、５９６検出統計量の計算結果を表８に示す。

【００７８】

【表８】

【００７９】表８よりＵｔが最小値をとるのは、５８
４、５９６を外れ値とした場合である。Ｇｒｕｂｂｓに
よると５９６を外れ値としている。ＤａｌｌａｓＥ．
Ｊｏｈｎｓｏｎ他は、５８４、５９６を外れ値とし
た。これは、数２で求めた場合と同じである。なお、以
後ＤａｌｌａｓＥ．Ｊｏｈｎｓｏｎ他という場合は、
次の資料に基づくものとする。ＤａｌｌａｓＥ．Ｊｏｈｎｓｏｎ，Ｓｔｅｐｈｅ
ｎＡ．ＭｃＧｕｉｒｅ，ａｎｄＧｅｒｏｇｅ
Ａ．Ｍｉｌｌｉｋｅｎ（１９７８）：“Ｅｓｔｉｍａ
ｔｉｎｇ σ² ｉｎｔｈｅＰｒｅｓｅｎｃｅｏ
ｆＯｕｔｏｌｉｅｒｓ”，Ｔｅｃｈｎｏｍｅｔｒｉ
ｃｓ，Ｖｏｌ．２０，Ｎｏ．４

【００８０】実施例４．更に、実施例３のデータで、同
じデータを重複させてサイズを２倍にしたものを用いた
場合を次に示す。データ４は次の値である（データ数は
２０）。５６８、５６８、５７０、５７０、５７０、５７０、５
７０、５７０、５７２、５７２、５７２、５７２、５７
２、５７２、５７８、５７８、５８４、５８４、５９
６、５９６

【００８１】この実施例では、データのサイズを２倍に
したので、外れ値の候補の個数を４（ｓ＝４）とする場
合について説明する。外れ値の候補の個数が４の場合
は、以下のような組み合せに対して検出統計量を算出す
ることになる。即ち、外れ値の候補の個数が１（ｓ＝
１）の場合の統計検出量と、外れ値の候補の個数が２
（ｓ＝２）の場合の検出統計量と、外れ値の候補の個数
３（ｓ＝３）の場合の検出統計量と、外れ値の候補の個
数が４（ｓ＝４）の場合の検出統計量を求める必要があ
る。外れ値の候補の個数ｓに対応する検出統計量は、以
下に示すとおりである。ｓ＝１Ｕｔ_(-1) Ｕｔ_(-20) ｓ＝２Ｕｔ_(-1,-2) Ｕｔ_(-1,-20) Ｕｔ_(-19,-20) ｓ＝３Ｕｔ_(-1,-2,-3) Ｕｔ_(-1,-2,-20) Ｕｔ_(-1,-19,-20) Ｕｔ_{(-18,-19,-20)} ｓ＝４Ｕｔ_{(-1,-2,-3,-4)} Ｕｔ_{(-1,-2,-3,-20)} Ｕｔ_{(-1,-2,-19,-20)} Ｕｔ_{(-1,-18,-19,-20)} Ｕｔ_{(-17,-18,-19,-20)}

【００８２】外れ値の候補の個数が４の場合においても
図１に示したフローチャート同様の順に外れ値を検出す
ることが可能である。異なる点は、図１におけるステッ
プ２２において前述したようなｓ＝１からｓ＝４までの
それぞれの検出統計量を算出する点である。このように
して、算出された検出統計量Ｕｔの計算結果を表９に示
す。

【００８３】

【表９】

【００８４】表９より外れ値は、５８４、５８４、５９
６、５９６である。ＤａｌｌａｓＥ．Ｊｏｈｎｓｏｎ
他も同様の結論となっている。

【００８５】尚、外れ値の候補の個数は、入力されたデ
ータの数に基づいて常識的な範囲で任意に設定できるも
のである。例えば、入力されたデータの数が５（Ｎ＝
５）である場合に、外れ値の候補の個数は１又は２（ｓ
＝１又は２）とするのが常識的な範囲である。また、入
力されたデータの数が多くなれば外れ値の候補の個数も
多くする分には差し支えない。このように外れ値の候補
の個数は、入力されたデータの数、あるいは、そのシス
テムにおいて、どの位の精度を要求しているかというシ
ステムの要求に応じて判断されるべきものである。前述
した実施例、あるいは、後述する実施例においては、外
れ値の数を何個と推定するかという判断は、予めシステ
ムにより定められているか、あるいは、オペレータやプ
ログラムにより任意に指定できるものとする。

【００８６】実施例５．次に、Ｒｏｓｎｅｒのデータを
用いた例について述べる。この例は、サイズが５４と比
較的大きく、外れ値も多く存在すると考えられるケース
である。次に、データを示す。 −０．２５、０．６８、０．９４、１．１５、１．２
０、１．２６、１．２６、１．３４、１．３８、１．４
３、１．４９、１．４９、１．５５、１．５６、１．５
８、１．６５、１．６９、１．７０、１．７６、１．７
７、１．８１、１．９１、１．９４、１．９６、１．９
９、２．０６、２．０９、２．１０、２．１４、２．１
５、２．２３、２．２４、２．２６、２．３５、２．３
７、２．４０、２．４７、２．５４、２．６２、２．６
４、２．９０、２．９２、２．９２、２．９３、３．２
１、３．２６、３．３０、３．５９、３．６８、４．３
０、４．６４、５．３４、５．４２、６．０１この、Ｒｏｓｎｅｒのデータは次の文献からとった。ＢｅｒｎａｒｄＲｏｓｎｅｒ（１９７７）：“Ｐｅｒ
ｃｅｎｔａｇｅＰｏｉｎｔｆｏｒａＧｅｎｅｒ
ａｌｉｚｅｄＥＳＤＭａｎｙ−ＯｕｔｌｉｅｒＰ
ｒｏｃｅｄｕｒｅ”，Ｔｅｃｈｎｏｍｅｔｒｉｃｓ，
Ｖｏｌ．２５，Ｎｏ．２次に、Ｕｔの計算結果を表１０に示す。

【００８７】

【表１０】

【００８８】Ｒｏｓｎｅｒは、外れ値が最大１０あると
仮定して検定した。危険率５％で、５．３４、５．４
２、６．０１を外れ値とした。表１０は、この実施例に
よる検出統計量の計算結果を示す表である。前述したよ
うに検出統計量の計算結果を表に示す場合には、最小の
値の前後のデータのみを示してある。この表１０からわ
かるように、計算式Ｕｔを用いた場合、外れ値は４．３
０、４．６５、５．３４、５．４２、６．０１である。
この場合には、外れ値として５つの外れ値が検出されて
いるが、Ｒｏｓｎｅｒが仮定したように外れ値が最大１
０個あると仮定した場合であっても、あるいは、外れ値
の候補の数を指定せずに外れ値の候補の数を増やす毎に
計算された検出統計量を比較することにより自動的に外
れ値を検出した場合のいずれの場合においても、結果は
この５つの外れ値を検出する。この実施例においては、
５つの外れ値を検出したが、もしこの方法で外れ値が３
個までとすると、Ｒｏｓｎｅｒと一致している。

【００８９】実施例６．正規乱数、指数乱数、一様乱数
をサンプルデータとした場合について述べる。正規乱
数、指数乱数は、外れ値が現れる可能性があるが、一様
乱数からは外れ値は出て欲しくない。正規乱数データは
（ｎ＝１０、〜Ｎ（０、１））より、 −２．６６６、−１．２７２、−０．０４２、０．１４
０、０．２７３、０．４１５、０．４６７、１．１６
０、１．６７２、１．６７３である。Ｕｔの計算結果を表１１に示す。

【００９０】

【表１１】

【００９１】表１１より外れ値は−２．６６６、−１．
２７２である。

【００９２】次に、指数乱数を用いた場合について示
す。データは、竹内「現象と行動の中の統計数理」（新
曜社）からとった。０．００３、０．０２１、０．１６１、０．１７８、
０．１８０、０．２１０、０．２４９、０．４１３、
０．４９４、０．５６２、０．６１３、０．８７９、
０．９８１、１．０５９、１．１３１、１．２６４、
２．３６７、３．６６９、３．８２６、４．１９３総データ数は２０である。Ｕｔの計算結果を表１２に示
す。

【００９３】

【表１２】

【００９４】表１２より外れ値は、４．１９３、３．８
２６、３．６６９、２．３６７である。

【００９５】次に、［０、１］の一様乱数を用いた場合
について述べる。データ数１０でデータは次の通りであ
る。０．２８３、０．４７０、０．６４３、０．６８８、
０．９１６、０．９３０、０．９４５、０．９５３、
０．９７３、０．９９５Ｕｔの計算結果を表１３に示す。

【００９６】

【表１３】

【００９７】表１３より外れ値の候補がない場合が最小
となっているので、一様乱数の場合、外れ値の候補はな
い。一様乱数については、更に１ケース試みたが同様に
外れ値の候補はなかった。一様乱数という性格上、外れ
値の候補なしということは望ましい結果である。

【００９８】実施例７．従来の技術に出ているデータに
ついて、Ｕｔを用いて検出統計量を求める。データは、５．７１、６．５７、７．２９、８．０６、１０．０
０、１５．００である。結果は表１４のようになる。

【００９９】

【表１４】

【０１００】表１４よりＵｔは１５．００を除いた時、
最小値となることがわかり、１５．００を外れ値とす
る。

【０１０１】実施例８．従来技術で述べたマスク効果の
データについて、数２に示した計算式を用いて検出統計
量を求める。データは、５．７１、６．５７、７．２９、８．０６、１４．８
０、１５．００である。結果は表１５のようになる。

【０１０２】

【表１５】

【０１０３】表１５よりＵｔ_(-6,-5)の時、最小値とな
ることがわかり、１５．００、１４．８０を外れ値とす
る。このように数２に示した計算式を用いれば、マスク
効果を回避することができる。

【０１０４】実施例９．図４は、この実施例を説明する
ための図である。この実施例のデータ処理装置は、セン
サー等の計測手段を有し、これより得られた測定値か
ら、外れ値を検出する外れ値検出手段を有す。次に、外
れ値がある場合は、これを除いたデータで平均値を求め
るデータ処理手段を有す。次に、実際の適用例について
述べる。センサーから得られる測定値を、一定時間間隔
ごとに５個測定し外れ値を検出し、これを除いた平均値
を測定値とすることを考える。ｘ₁、ｘ₂、ｘ₃、
ｘ₄、ｘ₅が、測定データとして得られる。検出統計量
Ｕｔを計算し、外れ値を求める。外れ値があれば外れ値
を除き偏りのない平均値を求めることができる。データ
は時刻ｔ１、ｔ２、ｔ３、ｔ４について表１６に示す。

【０１０５】

【表１６】

【０１０６】時刻ｔ１のデータについて検出統計量Ｕｔ
を求める。除かない時、Ｕｔ₍₀₎＝−０．７１１とな
る。１．０２を除いた時、Ｕｔ_(-1)＝０．９５２、３．
２３を除いた時、Ｕｔ_(-5)＝０．７０９となる。１．０
２、３．２３ともに除いた時、Ｕｔ_(-1,-5)＝２．７６
０となる。これを表１７にまとめると次のようになる。
Ｕｔ_(-1,-2)、Ｕｔ_(-4,-5)も考えられるがこの実施例
では影響がないので表に示すのを省略する。以下の表で
も同様に影響がないものは表示しないことにする。

【０１０７】

【表１７】

【０１０８】外れ値がない時のＵｔが−０．７１１と最
小である。従って外れ値はない。時刻ｔ２のデータにつ
いてＵｔを求め、表１８に示す。

【０１０９】

【表１８】

【０１１０】０．７４を除いた時のＵｔが−３．５２４
と最小である。従って０．７４を外れ値とする。時刻ｔ
３のデータについてＵｔを求め、表１９に示す。

【０１１１】

【表１９】

【０１１２】従って、０．０８を外れ値とする。次項ｔ
４のデータについてＵｔを求め、表２０に示す。

【０１１３】

【表２０】

【０１１４】従って、３．３６を外れ値とする。更新さ
れたデータ及び平均値は、表２１のようになる。

【０１１５】

【表２１】

【０１１６】実施例１０．この実施例は、外れ値検出手
段を有し、外れ値を知らせる出力手段を有するデータ処
理装置について述べる。入力工程から表２２のようなデ
ータが得られ、このデータからＵｔを計算することによ
り外れ値を検出する。表２２のデータを図示すると図５
のようになる。

【０１１７】

【表２２】

【０１１８】このデータについて検出統計量Ｕｔを求め
ると表２３のようになる。

【０１１９】

【表２３】

【０１２０】表２３より４、−３を外れ値とする。従来
は、入力工程から得られたデータをディスプレー等に図
５に示すようなグラフを表示し、人が目視によって外れ
値と思われる値をピック・アップしてから計算し、確か
めていた。本発明による装置により外れ値を自動的に検
出し、工程環境・条件に異常があったかどうかの確認を
行うことができる。

【０１２１】実施例１１．図６はこの実施例を説明する
ための図である。図６で示した外れ値検出方法は、図１
の入力工程と大小判定工程の間に、入力したデータを加
工する加工工程が追加されたものである。この実施例で
は、時間とともに増加する傾向がある特性値を出力する
装置からデータをうけとり、加工工程により時間ととも
に増加する傾向を除いたデータから、外れ値を検出する
装置について述べる。データを表２４に示す。これを図
示すると図７の様になり、データは時間とともに増加す
る傾向があることが分かる。

【０１２２】

【表２４】

【０１２３】そこで、最小２乗法により傾向直線を求め
ると次のようになる。ｙ＝１．９３＋０．７０ｔデータから傾向直線の値を引くことにより、下のような
データとなる。 −０．６３、０．６７、−１．０３、１．２７、０．５
７、−１．１３、−０．８３、３．４７、−２．２３、
０．０７これを図示すると、図８のようになる。この補正された
データから、Ｕｔを計算すると表２５のようになる。

【０１２４】

【表２５】

【０１２５】従って、補正されたデータ３．４７に対応
するｔ＝８のｙ＝１１を外れ値とする。この様に、時間
とともに増加する傾向のあるデータから、増加する傾向
を補正することにより、実施例１の外れ値検出方法を適
用することができる。

【０１２６】実施例１２．この実施例は、一つのサンプ
ルに複数の特性値がある場合に、加工工程においてテコ
比（Ｘ（Ｘ^TＸ）^-1Ｘ^T）の対角要素を計算し、これを
もとに外れ値を検出する装置について説明する。データ
および計算されたテコ比を表２６に示す。

【０１２７】

【表２６】

【０１２８】テコ比を用いて検出統計量Ｕｔを求めると
表２７のようになる。

【０１２９】

【表２７】

【０１３０】−２２．９９が最小値である。従って０．
９９つまりサンプルｎｏ．１４を外れ値とする。テコ比
が大きいデータは、全体に与える影響が大きいので、外
れ値か否か容易に判定できる外れ値検出装置があること
は有効である。

【０１３１】実施例１３．この実施例は、入力されたデ
ータが回帰分析のモデルの場合、加工工程において回帰
分析の残差を求め、これをもとに外れ値を検出する装置
について説明する。データおよび回帰式により求めた残
差は表２８のようになる。

【０１３２】

【表２８】

【０１３３】残差を用いて検出統計量Ｕｔを求めると表
２９のようになる。

【０１３４】

【表２９】

【０１３５】Ｕｔ７．７２３が最小である。従って残差
３．９４８つまりサンプルｎｏ．６が外れ値となる。

【０１３６】実施例１４．この実施例は、入力されたデ
ータの特性値が複数あり正準相関分析モデルを適応でき
る場合、加工工程において次に示すようにデータを加工
し、これを用いて外れ値を検出する装置について説明す
る。表３０のようなデータについて考える。

【０１３７】

【表３０】

【０１３８】このデータに正準相関分析を行い、ｙ１，
ｙ２の合成変量関数が２個求まる。この合成変量関数を
用いて合成変量関数値が求まる。合成変量関数値をもと
にテコ比を計算する。テコ比は次のようになる。０．２７、０．３１、０．１８、０．１２、０．１０、
０．２０、０．１９、０．３０、０．１２、０．３０、
０．６３、０．１３、０．１６このテコ比について検出統計量Ｕｔを計算すると表３１
のようになる。

【０１３９】

【表３１】

【０１４０】従ってテコ比０．６３を外れ値とする。こ
れはｎｏ．１１のサンプルである。

【０１４１】実施例１５．この実施例は、入力されたデ
ータが２グループに特性値が分類されていて、加工工程
において複数の要因により判別分析を行い、この加工さ
れたデータをもとに各グループでの外れ値を検出する装
置について述べる。データは表３２に示す。

【０１４２】

【表３２】

【０１４３】データをプロットすると図９のようにな
る。図よりグループ１では、サンプルｎｏ．１が、グル
ープ２ではサンプルｎｏ．１２が外れ値のようである。
データについて判別分析を実施し、判別関数を求める
と、ｙ＝−０．６３４＊ｘ１−０．２８１＊ｘ２となる。この判別関数を用いて判別関数値を計算すると
例えば、ｎｏ．１の場合、判別関数値＝−０．６３４＊６−０．２８１＊０＝−
３．８０となる。判別関数値を表３２の右欄に載せた。グループ
１の判別関数値についてＵｔを求めると表３３のように
なる。

【０１４４】

【表３３】

【０１４５】従って判別関数値−３．８０、サンプルｎ
ｏ．１を外れ値とする。グループ２の判別関数値につい
てＵｔを求めると表３４のようになる。

【０１４６】

【表３４】

【０１４７】従って判別関数値−１．１２、サンプルｎ
ｏ．１２を外れ値とする。

【０１４８】実施例１６．この実施例は、入力されたデ
ータが３グループに特性値が分類されていて、加工工程
において複数の要因により判別分析を行い、このデータ
にもとづいて各グループでの外れ値を検出する装置につ
いて述べる。データを表３５に示す。

【０１４９】

【表３５】

【０１５０】データについて判別分析を実施し判別関数
値を求めると、表３５の右側、判別関数値の欄のように
なる。３グループあるので判別関数値は２組得られる。
一般に判別関数値は（グループ数−１）組得られる。こ
の２組の判別関数値から次の式に基づいてユークリッド
距離が求められ、これを表３５のユークリッド距離の欄
に示す。判別関数値のユークリッド距離ｄ（＝（ｆ₁ ²＋ｆ₂ ²）
^1/2）判別関数値のユークリッド距離について各グループごと
にＵｔを求めると、Ｕｔは次のようになる。グループ１
のＵｔを表３６に示す。

【０１５１】

【表３６】

【０１５２】Ｕｔは、外れ値の候補がない場合が最小で
ある。従って外れ値はない。グループ２のＵｔを表３７
に示す。

【０１５３】

【表３７】

【０１５４】Ｕｔは、外れ値の候補がない場合が最小で
ある。従って外れ値はない。グループ３のＵｔを表３８
に示す。

【０１５５】

【表３８】

【０１５６】従ってユークリッド距離が２．４４、サン
プルｎｏ．１８を外れ値とする。なお、この実施例では
特性値が３グループの場合について述べたが、３グルー
プ以上についても同様に行える。

【０１５７】実施例１７．この実施例では、上記実施例
で示した数２とは異なる計算式で検出統計量を求める場
合について述べる。検出統計量Ｕｔａの計算式は数３を
用いる。

【０１５８】

【数３】

【０１５９】データとして（総データ数１５）、 −１．４０、−０．４４、−０．３０、−０．２４、−
０．２２、−０．１３、−０．１５、０．０６、０．１
０、０．１８、０．２０、０．３９、０．４８、０．６
３、１．０１を用いる。計算結果は表３９のようになる。

【０１６０】

【表３９】

【０１６１】従って、表より１．０１、−１．４０を外
れ値とする。表３９の参考の欄を見るとわかるように、
Ｕｔ＝ｎｌｏｇσ＋２ｓを用いると−１．４０を外れ値
としているので、Ｕｔａでは１個多く外れ値を指定して
いる。ところが、他の多くのデータでは、数２の計算式
を用いた場合と同様の結果を得ている。このことより、
数３の計算式は、場合によっては１個多く外れ値を検出
するという特徴がある。尚、数３の第２項のｂ₂／２
は、「竹内」の正規分布のあてはまりのよさの補正の指
標を参考とした。竹内（竹内啓（１９７６）：“情報統計量の分布とモ
デルの適切さの基準”、「数理科学」、ＮＯ．１５３サ
イエンス社、１２−１８）によれば正規分布モデルの適
切さを表す統計量（以下竹内の統計量）Ｔ_s は、ｚ_i（
_i＝１、・・・、ｎ）をサンプル数ｎのデータ、ｚをｚ
_iの平均として次のようになる。Ｔ_s ＝−ｌｏｇσ−ｂ₂／２ｎここで、 σ²＝｛Σ（ｚ_i−ｚ）²｝／ｎｂ₂＝｛Σ（ｚ_i−ｚ）⁴｝／ｎσ⁴ この竹内の統計量の値が大きいほど適切な正規分布モデ
ルに近い。

【０１６２】正規分布モデルａと正規分モデルｂの２つ
があり、正規分布モデルａの分散は正規分布モデルｂの
分散よりも小さな値を示す場合、正規分布モデルａの方
が正規分布モデルｂよりもデータｚ_iが平均＝０に近い
値を多く示す。上記竹内の統計量を求める式の第２項に
あるｂ₂／２ｎは、補正項と呼ばれているものであり、
第１項にあるｌｏｇσの値を補正する意味を持っている
ものである。従って、竹内の統計量は第１項にあるｌｏ
ｇσの値が大きく影響するものである。従って、分散σ
の値によってこの竹内の統計量の特徴付けがなされる。
従って、分散が小さいほど竹内の統計量の値が大きくな
り、この竹内の統計量の値が大きいほど正規分布モデル
ｂよりも正規分布モデルａに近いパターン（即ち、分散
の小さいパターン）を示すことになる。

【０１６３】実施例１８．以下、この実施例１８から実
施例４６までは、検出統計量を求めるための計算式を図
１０に示す回帰分析説明変数選択基準を基礎にして作成
している。前述した数２及び数３はＡＩＣを基礎にして
考えたものである。ＡＩＣは、回帰分析説明変数選択基
準の一例である。従って、以下の実施例１８から実施例
４６までは、ＡＩＣよる回帰分析説明変数選択基準以外
の回帰分析説明変数選択基準を基礎にして、検出統計量
を求める場合においても前述した実施例と同様な効果を
奏することができる点をについて説明する。実施例１８
から実施例４６までに示す検出統計量の計算式数４から
数３２は、図１０に示す回帰分析説明変数選択基準を基
礎にして考えられたものであり、これらの計算式は、大
きく分けて２つのタイプに分類できる。第１のグループ
は、前述した実施例までと同じ形式で、ｎｌｏｇσ＋第２項（＋第３項）である。第２のグループは、乗算タイプで、調整因子×σ である。また、データとして、 −１．４０、−０．４４、−０．３０、−０．２４、−
０．２２、−０．１５、−０．１３、０．０６、０．１
０、０．１８、０．２０、０．３９、０．４８、０．６
３、１．０１を、この実施例以後の全ての実施例で用いる。これを図
示すると図１１のようになる。同じデータに対して、計
算式の違いにより求まる外れ値の数が異なっている。よ
って、外れ値を多く出さなくてもよい適用業務と、外れ
値を多く出したい業務により、計算式を選んで使うこと
ができる。

【０１６４】検出統計量Ｓｔの計算式を、数４に示す。

【０１６５】

【数４】

【０１６６】Ｓｔを計算すると表４０のようになる。

【０１６７】

【表４０】

【０１６８】従って、−１．４０と１．０１を外れ値と
する。

【０１６９】実施例１９．検出統計量Ｆｔの計算式を、
数５に示す。

【０１７０】

【数５】

【０１７１】Ｆｔを計算すると表４１のようになる。

【０１７２】

【表４１】

【０１７３】従って、−１．４０と１．０１を外れ値と
する。

【０１７４】実施例２０．検出統計量Ｔｔの計算式を、
数６に示す。

【０１７５】

【数６】

【０１７６】Ｔｔを計算すると表４２のようになる。

【０１７７】

【表４２】

【０１７８】従って、−１．４０を外れ値とする。

【０１７９】実施例２１．検出統計量ＴＩｔの計算式
を、数７に示す。

【０１８０】

【数７】

【０１８１】ＴＩｔを計算すると表４３のようになる。

【０１８２】

【表４３】

【０１８３】従って、−１．４０を外れ値とする。

【０１８４】実施例２２．検出統計量Ｗｔの計算式を、
数８示す。

【０１８５】

【数８】

【０１８６】Ｗｔを計算すると表４４のようになる。

【０１８７】

【表４４】

【０１８８】従って、−１．４０を外れ値とする。

【０１８９】実施例２３．検出統計量Ｐｔの計算式を、
数９示す。

【０１９０】

【数９】

【０１９１】Ｐｔを計算すると表４５のようになる。

【０１９２】

【表４５】

【０１９３】従って、−１．４０を外れ値とする。

【０１９４】実施例２４．検出統計量Ｈｔ計算式を、数
１０示す。

【０１９５】

【数１０】

【０１９６】Ｈｔを計算すると表４６のようになる。

【０１９７】

【表４６】

【０１９８】従って、−１．４０、１．０１、０．６３
を外れ値とする。

【０１９９】実施例２５．検出統計量Ｕ．１ｔの計算式
を、数１１示す。

【０２００】

【数１１】

【０２０１】Ｕ．１ｔを計算すると表４７のようにな
る。

【０２０２】

【表４７】

【０２０３】従って、−１．４０を外れ値とする。

【０２０４】実施例２６．検出統計量Ｕ．９ｔの計算式
を、数１２示す。

【０２０５】

【数１２】

【０２０６】Ｕ．９ｔを計算すると表４８のようにな
る。

【０２０７】

【表４８】

【０２０８】従って、−１．４０と１．０１を外れ値と
する。

【０２０９】実施例２７．検出統計量Ｕｕｔの計算式
を、数１３示す。

【０２１０】

【数１３】

【０２１１】Ｕｕｔを計算すると表４９のようになる。

【０２１２】

【表４９】

【０２１３】従って、−１．４０、１．０１、０．６３
を外れ値とする。

【０２１４】実施例２８．検出統計量Ｂｔの計算式を、
数１４示す。

【０２１５】

【数１４】

【０２１６】Ｂｔを計算すると表５０のようになる。

【０２１７】

【表５０】

【０２１８】従って、−１．４０と１．０１を外れ値と
する。

【０２１９】実施例２９．検出統計量Ｄｔの計算式を、
数１５示す。

【０２２０】

【数１５】

【０２２１】Ｄｔを計算すると表５１のようになる。

【０２２２】

【表５１】

【０２２３】従って、−１．４０、１．０１、０．６３
を外れ値とする。

【０２２４】実施例３０．検出統計量Ｇｔの計算式を、
数１６示す。

【０２２５】

【数１６】

【０２２６】Ｇｔを計算すると表５２のようになる。

【０２２７】

【表５２】

【０２２８】従って、−１．４０と１．０１を外れ値と
する。

【０２２９】実施例３１．検出統計量Ｑｔの計算式を、
数１７示す。

【０２３０】

【数１７】

【０２３１】Ｑｔを計算すると表５３のようになる。

【０２３２】

【表５３】

【０２３３】従って、−１．４０を外れ値とする。

【０２３４】実施例３２．検出統計量Ｉｔの計算式を、
数１８示す。

【０２３５】

【数１８】

【０２３６】Ｉｔを計算すると表５４のようになる。

【０２３７】

【表５４】

【０２３８】従って、−１．４０を外れ値とする。

【０２３９】実施例３３．検出統計量Ｖｔの計算式を、
数１９示す。

【０２４０】

【数１９】

【０２４１】Ｖｔを計算すると表５５のようになる。

【０２４２】

【表５５】

【０２４３】従って、−１．４０を外れ値とする。

【０２４４】実施例３４．検出統計量Ｅｔの計算式を、
数２０示す。

【０２４５】

【数２０】

【０２４６】Ｅｔを計算すると表５６のようになる。

【０２４７】

【表５６】

【０２４８】従って、−１．４０を外れ値とする。

【０２４９】実施例３５．検出統計量Ｊｔの計算式を、
数２１示す。

【０２５０】

【数２１】

【０２５１】Ｊｔを計算すると表５７のようになる。

【０２５２】

【表５７】

【０２５３】従って、−１．４０を外れ値とする。

【０２５４】実施例３６．検出統計量Ｖｔｄの計算式
を、数２２示す。

【０２５５】

【数２２】

【０２５６】Ｖｔｄを計算すると表５８のようになる。

【０２５７】

【表５８】

【０２５８】従って、−１．４０を外れ値とする。

【０２５９】実施例３７．検出統計量ＢＢｔの計算式
を、数２３示す。

【０２６０】

【数２３】

【０２６１】ＢＢｔを計算すると表５９のようになる。

【０２６２】

【表５９】

【０２６３】従って、−１．４０を外れ値とする。

【０２６４】実施例３８．検出統計量ＣＣｔの計算式
を、数２４示す。

【０２６５】

【数２４】

【０２６６】ＣＣｔを計算すると表６０のようになる。

【０２６７】

【表６０】

【０２６８】従って、−１．４０と１．０１を外れ値と
する。

【０２６９】実施例３９．検出統計量ＤＤｔの計算式
を、数２５示す。

【０２７０】

【数２５】

【０２７１】ＤＤｔを計算すると表６１のようになる。

【０２７２】

【表６１】

【０２７３】従って、−１．４０を外れ値とする。

【０２７４】実施例４０．検出統計量ＧＧｔの計算式
を、数２６示す。

【０２７５】

【数２６】

【０２７６】ＧＧｔを計算すると表６２のようになる。

【０２７７】

【表６２】

【０２７８】従って、−１．４０を外れ値とする。

【０２７９】実施例４１．検出統計量Ｕｐｔの計算式
を、数２７示す。

【０２８０】

【数２７】

【０２８１】Ｕｐｔを計算すると表６３のようになる。

【０２８２】

【表６３】

【０２８３】従って、−１．４０と１．０１を外れ値と
する。

【０２８４】実施例４２．検出統計量Ｚｔの計算式を、
数２８示す。

【０２８５】

【数２８】

【０２８６】Ｚｔを計算すると表６４のようになる。

【０２８７】

【表６４】

【０２８８】従って、−１．４０、１．０１、０．６３
を外れ値とする。Ｚｔは外れ値を多めに検出する。

【０２８９】実施例４３．検出統計量Ｋｔの計算式を、
数２９示す。

【０２９０】

【数２９】

【０２９１】Ｋｔを計算すると表６５のようになる。

【０２９２】

【表６５】

【０２９３】従って、−１．４０と１．０１を外れ値と
する。

【０２９４】実施例４４．検出統計量Ｘｔの計算式を、
数３０示す。

【０２９５】

【数３０】

【０２９６】Ｘｔを計算すると表６６のようになる。

【０２９７】

【表６６】

【０２９８】従って、−１．４０と１．０１を外れ値と
する。

【０２９９】実施例４５．検出統計量ＨＱｔの計算式
を、数３１示す。

【０３００】

【数３１】

【０３０１】ＨＱｔを計算すると表６７のようになる。

【０３０２】

【表６７】

【０３０３】従って、−１．４０を外れ値とする。

【０３０４】実施例４６．検出統計量ＡＩＣｔの計算式
を、数３２示す。

【０３０５】

【数３２】

【０３０６】ＡＩＣｔを計算すると表６８のようにな
る。

【０３０７】

【表６８】

【０３０８】従って、−１．４０と１．０１を外れ値と
する。

【０３０９】

【発明の効果】第１の発明によれば、値を入力すれば算
出された検出統計量に基づき外れ値が検出されるので、
従来のように計算値と数表の大小比較をする必要がな
い。また、外れ値の個数を予め設定する必要がない。あ
るいは、外れ値として検出したい数の最大値を指定して
おけばよい。また、外れ値の個数により、又は大きい方
の外れ値か、小さい方の外れ値かにより計算方式を変え
る必要もないので、計算過程が簡単でかつ計算量も少な
くてすむ。また、従来方式では、マスク効果により外れ
値を検出できないことがあったが、これを回避すること
ができるので、より正確な結果が得られる。また、外れ
値が存在しない時は、存在しないと判定する。

【０３１０】第２の発明によれば、外れ値を算出するた
めの値の選択が簡単に行える。

【０３１１】第３の発明によれば、検出統計量の単純な
比較だけで外れ値を求めるので、処理が簡単になる。

【０３１２】第４の発明における計算式によれば、外れ
値がある場合、最も外れた値が除かれると検出統計量は
最小となるので、これを利用して外れ値を求めることが
できる。

【０３１３】第５の発明における計算式によれば、補正
項があるため、より的確に外れ値を求めることができ
る。

【０３１４】第６の発明における計算式によれば、第１
の項目に分散を含んでいるため、最も外れている値を除
くと分散が小さくなるという性質を利用できる。

【０３１５】第７の発明における計算式によれば、第２
の項目に外れ値の候補の個数を含んでいるため、外れ値
の個数を増やしていったことによる第１の項目の減少傾
向を相殺できる。

【０３１６】第８の発明における計算式によれば、第２
の項目に係数を乗算していることにより、第２の項目の
増加量を調節することができる。

【０３１７】第９の発明における計算式によれば、分散
の減少傾向を係数により、調節できる。

【０３１８】第１０の発明における計算式によれば、回
帰分析の式を応用して外れ値の検出を行うことができ
る。

【０３１９】第１１の発明によれば、加工工程があるこ
とによりさまざまなタイプのデータの外れ値を検出する
ことができる。

【０３２０】第１２の発明によれば、時間に依存する値
からも時間に依存しない値に加工することにより、外れ
値を検出することができる。

【０３２１】第１３の発明によれば、１つのサンプルに
複数の特性値が存在する場合であっても、テコ比を計算
することにより外れ値を求めることができる。

【０３２２】第１４の発明によれば、回帰分析の手法を
適用できる値であれば、回帰分析の残差を求めることに
よりこの残差の外れ値を求めることができる。

【０３２３】第１５の発明によれば、正準相関分析モデ
ルを適用できる場合でも、外れ値を求めることができ
る。

【０３２４】第１６の発明によれば、複数のグループに
特性値が分類され、判別分析を行うことができる場合、
外れ値を求めることができる。

【０３２５】第１７の発明によれば、上記のような外れ
値検出方法を利用することにより、外れ値を容易に検出
することができるデータ処理装置を得ることができる。
この外れ値が得られた時の環境条件を検討することによ
り、新たな知見・情報が得られることにもなる。

【０３２６】第１８の発明によれば、上記のような外れ
値検出方法を利用することにより、外れ値を容易に検出
し、除くことができるデータ処理装置を得ることができ
る。このデータ処理装置により得られた結果は、外れ値
を除いてあるので信頼性が向上している。

【図面の簡単な説明】

【図１】本発明の外れ値検出方法を説明するためのフロ
ーチャート図である。

【図２】Ｇｒｕｂｂｓのデータ１を用いた場合の外れ値
の候補の個数ｓと検出統計量Ｕｔの関係を示す図であ
る。

【図３】別のデータを用いた場合の外れ値の候補の個数
ｓと検出統計量Ｕｔの関係を示す図である。

【図４】本発明のデータ処理装置の構成図である。

【図５】本発明の一実施例の入力データをプロットした
図である。

【図６】本発明の外れ値検出のための工程を説明する図
である。

【図７】本発明の一実施例の時間とともに増加する傾向
を持つデータをプロットした図である。

【図８】本発明の一実施例の時間とともに増加する傾向
を除いたデータをプロットした図である。

【図９】本発明の一実施例の入力データをプロットした
図である。

【図１０】回帰分析説明変数選択基準の数式を示す図で
ある。

【図１１】本発明の実施例の中で使われるデータをプロ
ットした図である。

【図１２】従来の技術及び本発明の実施例の中で使われ
るデータをプロットした図である。

【図１３】従来の技術及び本発明の実施例で使われる装
置の構成図である。

【図１４】従来の外れ値検出方式を説明するためのフロ
ーチャート図である。

【符号の説明】

１情報処理装置２コンピュータ（ＦＤＤ付き）３ディスプレイ・ユニット４プリンタ５キーボード６フロッピーディスク

Claims

【特許請求の範囲】

【請求項１】以下の工程を有する外れ値検出方法（ａ）Ｎ個（Ｎ≧３）の値を入力する入力工程、（ｂ）
上記入力工程により入力したＮ個の値の大小関係を判定
する大小判定工程、（ｃ）上記大小判定工程により判定
された大小関係に基づき、Ｎ個の値の組み合せ及び外れ
値の候補を除いたＮ個未満の値の組み合せを求め、求め
た組み合せに対して所定の計算式を用いて検出統計量を
算出する算出工程、（ｄ）上記算出工程により算出され
た検出統計量に基づいて、外れ値を検出する外れ検出工
程。
【請求項２】上記算出工程は、ｓ個以内の外れ値を検
出する場合、大小判定工程により判定された大小関係上
連続するｎ個（ｎ＝Ｎ−ｓ）以上の値の複数の組み合せ
を用いて検出統計量を算出することを特徴とする請求項
１記載の外れ値検出方法。
【請求項３】上記外れ値検出工程は、Ｎ個未満の値の
組み合せから求めた検出統計量の中で最小のものを選択
する最小値選択工程と、選択された最小値がＮ個の値の
組み合せから求めた検出統計量よりも小さい場合に、そ
の選択された最小値を算出した組み合せに含まれていな
かった値を外れ値とする外れ値判定工程を備えたことを
特徴とする請求項１又は２記載の外れ値検出方法。
【請求項４】上記計算式は、外れ値の候補が除かれる
と小さくなる傾向にある第１の項目と、外れ値の候補が
除かれると大きくなる第２の項目とを有し、上記算出工
程は、第１と第２の項目の値を算出し両者の和により検
出統計量を求めることを特徴とする請求項１、２又は３
記載の外れ値検出方法。
【請求項５】上記計算式は、更に、第１と第２の項目
以外に、第１と第２の項目を補正する補正項を有し、上
記算出工程は、第１と第２と第３の項目の値を算出し、
３者の和により検出統計量を求めることを特徴とする請
求項４記載の外れ値検出方法。
【請求項６】上記第１の項目は、検出統計量を求める
Ｎ個未満の値の分散を用いていることを特徴とする請求
項４又は５記載の外れ値検出方法。
【請求項７】上記第２の項目は、検出統計量を求める
場合の外れ値の候補の個数を用いていることを特徴とす
る請求項４又は５記載の外れ値検出方法。
【請求項８】上記第２の項目は、外れ値の候補の個数
に対して所定の係数を乗算したものを用いることを特徴
とする請求項７記載の外れ値検出方法。
【請求項９】上記計算式は、検出統計量を求めるＮ個
未満の値の分散と分散に対する係数を有しており、上記
算出工程は、分散と係数の乗算により検出統計量を求め
ることを特徴とする１、２又は３記載の外れ値検出方
法。
【請求項１０】上記計算式は、回帰分析の変数選択基
準を基礎にして作成されることを特徴とする請求項１〜
８又は９記載の外れ値検出方法。
【請求項１１】上記外れ値検出方法は、更に、入力工
程と大小判定工程の間に、入力した値を加工する加工工
程を備えたことを特徴とする請求項１記載の外れ値検出
方法。
【請求項１２】上記加工工程は、入力工程により入力
された時間に依存する値を時間に依存しない値に加工す
ることを特徴とする請求項１１記載の外れ値検出方法。
【請求項１３】上記加工工程は、入力工程により入力
された値からテコ比を計算することを特徴とする請求項
１１記載の外れ値検出方法。
【請求項１４】上記加工工程は、入力工程により入力
された値から回帰分析モデルのデータを計算することを
特徴とする請求項１１記載の外れ値検出方法。
【請求項１５】上記加工工程は、入力工程により入力
された値から正準相関分析モデルのデータを計算するこ
とを特徴とする請求項１１記載の外れ値検出方法。
【請求項１６】上記加工工程は、入力工程により入力
された値が複数のグループに分類されていて複数の要因
により判別分析を行う場合に、各グループの判別関数値
を計算することを特徴とする請求項１１記載の外れ値検
出方法。
【請求項１７】上記請求項１〜１５又は１６記載の外
れ値検出方法を実行して外れ値を検出する外れ値検出手
段と、Ｎ個の値を計測して外れ地検出手段に入力する計
測手段と、外れ値検出手段により検出された外れ値を知
らせる出力手段を備えたデータ処理装置。
【請求項１８】上記データ処理装置は、更に、外れ値
検出手段により検出された外れ値を除いた残りの値を用
いて所定の処理を実行するデータ処理手段を備えたこと
を特徴とする請求項１７記載のデータ処理装置。