JPH07219929A - 外れ値検出方法及びデータ処理装置 - Google Patents

外れ値検出方法及びデータ処理装置

Info

Publication number
JPH07219929A
JPH07219929A JP6008871A JP887194A JPH07219929A JP H07219929 A JPH07219929 A JP H07219929A JP 6008871 A JP6008871 A JP 6008871A JP 887194 A JP887194 A JP 887194A JP H07219929 A JPH07219929 A JP H07219929A
Authority
JP
Japan
Prior art keywords
outlier
value
data
values
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6008871A
Other languages
English (en)
Inventor
Taichiro Ueda
太一郎 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP6008871A priority Critical patent/JPH07219929A/ja
Publication of JPH07219929A publication Critical patent/JPH07219929A/ja
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Complex Calculations (AREA)
  • Control By Computers (AREA)

Abstract

(57)【要約】 【目的】 得られたデータ(収量、反応量)の外れ値を
求める。 【構成】 入力工程でデータを入力し、大小判定工程で
昇順に並べる。次に、算出工程で一番小さい値を除いた
検出統計量を計算する。一番大きい値を除いた検出統計
量を計算する。一番小さい値と一番大きい値を除いた検
出統計量を計算する。以下同様にして考えられる組み合
せのデータから検出統計量を計算する。またデータを除
かないときの検出統計量も計算する。外れ値検出工程
で、以上の検出統計量が最小となるデータの組み合せを
見つけ、その除いた値を外れ値とする。データを除かな
いときの検出統計量が最小となったとすれば外れ値は存
在しない。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は生産工程、品質管理、
研究開発、品質改良などにおけるデータの外れ値を検出
する方法及びその方法を利用した装置に関するものであ
る。
【0002】
【従来の技術】例えば、製品の性能バラ付きを測定する
場合、あるいは、電力メータや水道メータ等の検針を行
う場合、更には実験データを測定する場合に、得られた
データの中に規格外れの性能を示すデータや、異常な測
定値を示すデータが存在する。このように、規格外れの
データや、異常値は測定環境や測定装置自身から生ずる
不適切なデータであることが多い。このような不適切な
データを、ここでは以下外れ値と呼ぶことにする。外れ
値は、本来測定されるべき値ではないため、前述したよ
うな各種データから外れ値を検出し、取り除く手法が従
来から考えられてきている。データから外れ値を検出す
る方法は、従来から統計手法に基ずくものがある。外れ
値とは極端に大きなあるいは小さい値をとるデータのこ
とである。例えば、5.71、6.57、7.29、
8.06、10.00、15.00を考える。プロット
すると図12のようになる。図12を見ると15.00
は外れ値のようである。統計手法では外れ値が1個とし
て、1個の時の外れ値を検定する計算式を用いる。2個
の時は2個用の計算式を用いる。統計的検定であるから
予め危険率(有意水準)を決めておく必要がある。危険
率としては伝統的に5%あるいは1%を用いている。危
険率5%とは、統計的検定により外れ値と判断を下す時
誤る確率が5%であることを示す。計算式に対応した5
%あるいは1%の数表があり、実データで計算した値と
数表とを比較して大ならば外れ値とする。ただし危険率
としては、5%ある。または1%あるということにな
る。
【0003】このように従来の統計手法では外れ値の個
数が1個の時、2個の時、3個の時によって計算法が異
なったり、危険率(有意水準とも呼ばれる)の違い(5
%、1%等)により結論が異なる(5%の時外れ値と結
論しても1%の時は外れ値とはいえない等)問題点があ
る。また大きな値の外れ値、小さな値の外れ値により計
算法が異なる。統計手法であるから5%、1%の数表も
必要である。
【0004】具体的には、図13及び図14を用いて説
明する。図13で1は情報処理装置、2はコンピュータ
(FDD付)、3はディスプレイ・ユニット、4はプリ
ンタ、5はキーボード、6はフロッピーディスクであ
る。プログラム・ルーチンが記憶されたフロッピーディ
スク6をコンピュータ(FDD付)2に挿入し、オペレ
ーション・ソフトを駆動して、情報処理装置1をスター
トさせる。フロッピーディスク6からプログラム・ルー
チンがロードされ入力待状態となる。
【0005】図14は従来例の説明のためのフローチャ
ートである。ステップ1は、キーボード5からデータを
連続的に入力する段階である。ステップ2では、外れ値
の個数を入力し、1ならば、ステップ3、ステップ4
で、小さい値又は大きい値を外れ値とした統計量をそれ
ぞれ求める。なぜ別々に求めるかと言えば、小さい値と
大きい値では計算方式が異なるからである。また、外れ
値の個数が2個の場合は、ステップ5からステップ7
で、小さい値を2個外れ値とした場合、小さい値と大き
い値を1個ずつ外れ値とした場合、大きい値を2個外れ
値とした場合にそれぞれ別の計算方式で統計量を求め
る。
【0006】ステップ8では、数表を見て上記ステップ
で求めた計算値と数表にある有意点の大小比較をする。
ステップ9では、有意点より計算値の方が大きい場合外
れ値と認識する。ステップ10は、計算値の方が小さい
場合外れ値としない。ステップ11では、結果の表示等
をする。図14は危険率(有意水準)が5%の場合であ
るが、1%の場合なら1%の数表が必要となる。
【0007】従来の統計手法で外れ値を検出する例を示
す。データとして、 5.71、6.57、7.29、8.06、10.0
0、15.00 とする。Grubbs検定量の式、数1を用いる。
【0008】
【数1】
【0009】15.00が外れ値と考えられるので、T
iの最大値maxTi(i=1、2、・・・、n)を求
めて数表に載っている値と比較する。 maxTi=1.841 となった。Grubbsの数表、表1を見るとサンプル
数n=6の時、かつ、危険率5%の時1.82、サンプ
ル数n=6、かつ、危険率1%の時1.94である。よ
って、 maxTi>1.82、maxTi<1.94 である。従って、15.00は危険率5%で外れ値とい
える。危険率1%では外れ値といえない。このように危
険率の違いにより結論が異なってくる。
【0010】
【表1】
【0011】(Vic Barnett,Toby L
ewis(1978):「Outliers in S
tatistical Data」,John Wil
ey& Sons.p.298から一部引用)
【0012】次に、マスク効果の例をあげる。データと
して5.71、6.57、7.29、8.06、14.
80、15.00とする。このデータではmaxTi=
1.29となる。maxTi<1.82である。従って
外れ値はないことになる。これはマスク効果といって、
上のように外れ値の候補が14.80と15.00の2
つある場合、従来方式では外れ値を1つとして検定する
と必ずしも外れ値を検出しない例である。
【0013】
【発明が解決しようとする課題】以上説明したように、
従来のものでは外れ値の個数により計算方式が異なる。
また、外れ値の性格(大きい方の外れ値か小さい方の外
れ値か)により計算方式が異なる(Vic Barne
tt,Toby Lewis(1978):「Outl
iers in Statistical Dat
a」,John Wiley & Sonsには40種
以上の計算式が載っている)という問題点があった。ま
た、計算値と数表の大小比較が必要である。また、危険
率の違い(5%、1%等)により結論が異なるという問
題点があった。また、マスク効果といって例えば外れ値
の候補が2つある場合、従来方式では外れ値を1つとし
て検定すると必ずしも外れ値を検出しないという問題点
があった。
【0014】この発明は、以上のような問題点を解決す
るためになされたものであり、従来のような数表を用い
ることなく、また、外れ値の個数や外れ値の性格により
計算方式を変える必要がない外れ値検出方法を得ること
を目的とする。また、マスク効果を回避することができ
る外れ値検出方法を得ることを目的とする。また、外れ
値を検出する場合にできるだけ計算過程が簡単で、且
つ、計算量も少なくて済む外れ値検出方法を得ることを
目的とする。更には、これらの外れ値検出方法を利用し
たデータ処理装置を提供することを目的とする。
【0015】
【課題を解決するための手段】この発明に係る外れ値検
出方法は、以下の工程を有する。 (a)N個(N≧3)の値を入力する入力工程、(b)
上記入力工程により入力したN個の値の大小関係を判定
する大小判定工程、(c)上記大小判定工程により判定
された大小関係に基づき、N個の値の組み合せ及び外れ
値の候補を除いたN個未満の値の組み合せを求め、求め
た組み合せに対して所定の計算式を用いて検出統計量を
算出する算出工程、(d)上記算出工程により算出され
た検出等計量に基づいて、外れ値を検出する外れ検出工
程。
【0016】上記算出工程は、s個以内の外れ値を検出
する場合、大小判定工程により判定された大小関係上連
続するn個(n=N−s)以上の値の組み合せを複数作
成し、これらの組み合せを用いて検出統計量を算出する
ことを特徴とする。
【0017】上記外れ値検出工程は、N個未満の値の組
み合せから求めた検出統計量の中で最小のものを選択す
る最小値選択工程と、選択された最小値がN個の値の組
み合せから求めた検出統計量よりも小さい場合に、その
選択された最小値を算出した組み合せに含まれていなか
った値を外れ値とする外れ値判定工程を備えたことを特
徴とする。
【0018】上記計算式は、外れ値の候補が除かれると
小さくなる傾向にある第1の項目と、外れ値の候補が除
かれると大きくなる第2の項目とを有し、上記算出工程
は、第1と第2の項目の値を算出し両者の和により検出
統計量を求めることを特徴とする。
【0019】上記計算式は、更に、第1と第2の項目以
外に、第1と第2の項目を補正する補正項を有し、上記
算出工程は、第1と第2と第3の項目の値を算出し、3
者の和により検出統計量を求めることを特徴とする。
【0020】上記第1の項目は、検出統計量を求めるN
個未満の値の分散を用いていることを特徴とする。
【0021】上記第2の項目は、検出統計量を求める場
合の外れ値の候補の個数を用いていることを特徴とす
る。
【0022】上記第2の項目は、外れ値の候補の個数に
対して所定の係数を乗算したものを用いることを特徴と
する。
【0023】上記計算式は、検出統計量を求めるN個未
満の値の分散と分散に対する係数を有しており、上記算
出工程は、分散と係数の乗算により検出統計量を求める
ことを特徴とする。
【0024】上記計算式は、回帰分析の変数選択基準を
基礎にして作成されることを特徴とする。
【0025】上記外れ値検出方法は、更に、入力工程と
大小判定工程の間に、入力した値を加工する加工工程を
備えたことを特徴とする。
【0026】上記加工工程は、入力工程により入力され
た時間に依存する値を時間に依存しない値に加工するこ
とを特徴とする。
【0027】上記加工工程は、入力工程により入力され
た値からテコ比を計算することを特徴とする。
【0028】上記加工工程は、入力工程により入力され
た値から回帰分析モデルのデータを計算することを特徴
とする。
【0029】上記加工工程は、入力工程により入力され
た値から正準相関分析モデルのデータを計算することを
特徴とする。
【0030】上記加工工程は、入力工程により入力され
た値が複数のグループに分類されていて複数の要因によ
り判別分析を行う場合に、各グループの判別関数値を計
算すことを特徴とする。
【0031】また、この発明に係るデータ処理装置は、
外れ値検出方法を実行して外れ値を検出する外れ値検出
手段と、N個の値を計測して外れ地検出手段に入力する
計測手段と、外れ値検出手段により検出された外れ値を
知らせる出力手段を備える。
【0032】上記データ処理装置は、更に、外れ値検出
手段により検出された外れ値を除いた残りの値を用いて
所定の処理を実行するデータ処理手段を備えたことを特
徴とする。
【0033】
【作用】第1の発明においては、入力工程により、N個
の値が入力されると、大小判定工程により値の大小関係
を判定し、大きい方の値又は小さい方の値のいくつかを
外れ値の候補とする。算出工程は、まずN個の値の組み
合せ及び外れ値の候補を除いたN個未満の値の組み合せ
を求め、次に求めた組み合せそれぞれに対して所定の計
算式を用いて検出統計量を算出する。外れ値検出工程
は、算出された検出統計量に基づいて外れ値を検出す
る。
【0034】第2の発明における算出工程は、大小判定
工程により判定された値の大小に基づき、n個(n=N
−s)以上の連続する値の組み合せを用いて、所定の計
算式により検出統計量を計算する。例えば、入力工程に
より5個(N=5)が入力され、最大2個(s=2)の
外れ値を検出しようとする場合、大きい方から3個の入
力値を用いて1つの組み合せを作成する。また、大きい
方から4個の入力値を用いて別な組み合せを作成する。
また、最大値と最小値を除いた中間の値3個を用いて1
つの組み合せを作成する。また、小さい方の入力値3個
及び小さい方の入力値4個を用いてそれぞれ組み合せを
作成する。
【0035】第3の発明における外れ値検出工程は、ま
ず、算出工程により算出されたN個未満の値の組み合せ
の検出統計量の中で最小のものを選択する。次に、N個
の値の組み合せから求めた検出統計量と、選択された最
小値を比較し最小値の方が小さい場合、その選択された
最小値を算出した組み合せに含まれていなかった値を外
れ値とする。また、最小値の方が大きい場合、外れ値は
無しと判定する。
【0036】第4の発明における計算式は、外れ値の候
補が除かれると小さくなる傾向にある第1の項目と、外
れ値の候補が除かれる時に大きくなる第2の項目を有
し、両者の和により検出統計量を求める。この計算式に
より、外れ値がある場合最も外れた値が除かれると検出
統計量が最小となる。
【0037】第5の発明における計算式は、上記第1と
第2の項目に加えて、第3の項目を持つ。この第3の項
目は、上記第1と第2の項目を補正する補正項目であ
る。第1項目、第2項目、第3項目を加算して検出統計
量を求める。
【0038】第6の発明における計算式は、第1項目に
検出統計量を求めるN個未満の値の分散を含んでいる。
従って、最も外れた値が除かれると分散の値が小さくな
り、第1の項目の値が小さくなる。
【0039】第7の発明における計算式は、第2項目に
検出統計量を求める場合の外れ値の候補の個数を含んで
いる。従って、外れ値の数を多く検出しようとすると、
第2の項目の値が大きくなる。
【0040】第8の発明における計算式は、第2の項目
に外れ値の候補の個数に対して所定の係数を乗算したも
のを用いる。
【0041】第9の発明における計算式は、検出統計量
を求めるN個未満の値の分散に係数を乗算して検出統計
量を求める。
【0042】第10の発明における計算式は、回帰分析
の変数選択基準を基礎にして検出統計量を求める計算式
を作成する。
【0043】第11の発明においては、加工工程によ
り、入力工程により入力された値を、検出統計量を求め
ることができるデータに変換することができるため、様
々な種類のデータを入力することができる。
【0044】第12の発明においては、入力工程により
入力された値から例えば時間に比例して増加、あるい
は、減少する傾向を補正して時間に依存しない値に加工
する。そして、補正された値から検出統計量を算出し、
外れ値を求めることができる。
【0045】第13の発明においては、1つのサンプル
に複数の特性値がある場合に、テコ比の対角要素を計算
し、計算された値を基に検出統計量を求め外れ値を求め
る。
【0046】第14の発明においては、入力された値が
回帰分析の手法を適用できる場合、回帰分析の残差を計
算し、計算された値を基に検出統計量を求め外れ値を求
める。
【0047】第15の発明においては、入力された値が
正準相関分析モデルのデータの場合、正準相関分析を行
い合成変量関数を2個求め、これより合成変量関数値を
求め、合成変量関数値からテコ比を計算しテコ比の計算
された値を基に検出統計量を求め外れ値を求める。
【0048】第16の発明においては、入力された値が
複数のグループに分類されていて、複数の要因により判
別分析を行う場合に、判別関数値を計算し計算された値
を基に検出統計量を求め外れ値を求める。
【0049】第17の発明におけるデータ処理装置は、
計測手段によりN個の値を計測し、この計測された値か
ら、上記外れ値検出方法を実行する外れ値検出手段によ
り、外れ値を検出し、出力手段により外れ値を知らせ
る。
【0050】第18の発明におけるデータ処理装置は、
計測手段によりN個の値を計測し、この計測された値か
ら、上記外れ値検出方法を実行する外れ値検出手段によ
り、外れ値を検出し、データ処理手段により検出された
外れ値を除いた残りの値を用いて所定の処理を実行す
る。
【0051】
【実施例】
実施例1.従来例で説明した図13を再びこの実施例の
装置を説明するための図として説明する。図13で、1
は情報処理装置、2はコンピュータ(FDD付)、3は
ディスプレイ・ユニット、4はプリンタ、5はキーボー
ド、6はフロッピーディスクである。この発明のハード
ウェア構成は従来例と変わらず、プログラム・ルーチン
が記憶されたフロッピーディスク6をコンピュータ(F
DD付)2に挿入し、オペレーション・ソフトを駆動し
て、情報処理装置1をスタートさせる。プログラム・ル
ーチンがロードされ、入力待状態となる。キーボード5
からデータをキー入力すれば、プログラム・ルーチンが
動作し、ディスプレイ3に処理結果を表示し、また、プ
リンタ4に処理結果をプリントすることになる。
【0052】この実施例では、検出統計量を算出するた
めに数2を使う。
【0053】
【数2】
【0054】この統計量の値が最小になるサンプルの組
み合せを見つければよい。図1は本発明の説明のための
フローチャートである。ステップ20は、キーボード5
からのデータを連続的に入力する入力工程である。例え
ば、x1 、x2 、x3 、x4 、x5 の5つのデータを入
力する。この場合は、入力するデータの個数をNとする
と、N=5となる。ステップ21は、入力されたデータ
の大小を比較し、例えば昇順にx1 <x2 <x3 <x4
<x5 のように並べる。この工程は大小判定工程であ
る。
【0055】このようにデータを昇順に並べかえること
によって、外れ値の候補を見つけることが容易となる。
外れ値の候補の個数をs(s≧1)とすると、外れ値の
候補は、その性質からいって一番大きい値からs個、一
番小さい値からs個、または大きい値と小さい値の両方
あわせてs個と考えられる。
【0056】ステップ22はこれらのデータ群から、本
実施例での計算式により検出統計量Utを計算する算出
工程である。外れ値の候補の個数s=1の場合は、ま
ず、(x1 、x2 、x3 、x4 、x5 )からx1 を除い
た時の検出統計量を計算する。これを検出統計量Ut
(-1)とする。以下同様にx5 を除いた時をUt(-5)とす
る。外れ値の候補の個数s=2の場合は、x1 とx2
除いた時をUt(-1,-2) とし、x4 とx5 を除いた時を
Ut(-4,-5) とし、x1 とx5 を除いた時をUt(-
1,-5) とし、小さい値または大きい値から順にサンプル
を除いて検出統計量を計算する。このように考えられる
組み合せの検出統計量をそれぞれ計算する。ここで外れ
値の候補の個数sは、予めシステムにより定められてい
るものとする。あるいは、外れ値の候補の個数sは、オ
ペレータ、あるいは、プログラムにより指定されるもの
とする。あるいは、外れ値の候補の個数は計算の度に自
由に設定することが可能なものであるとする。
【0057】尚、ここで与えられる外れ値の候補の個数
は、外れ値として必ず見つけなければいけない個数では
ない。ここで言う外れ値の候補の個数とは、外れ値とし
て検出する最大の個数を言う。例えば、外れ値の候補の
個数s=2の場合は、外れ値を最大2個見つける場合を
言い、外れ値の個数を必ず2個見つけるという意味では
ない。従って、外れ値の候補の個数s=2の場合は、外
れ値が0個の場合、外れ値が1個の場合、あるいは、外
れ値2個の場合というような結果が考えられる。以下同
様に外れ値の候補の個数sという場合は、外れ値として
検出できる数の最大値を示すものとする。このように、
この実施例及び後述する実施例においては、外れ値の数
を特定の数に設定する必要はなく、外れ値の数の最大値
を指定しておけばよい。
【0058】ステップ23は、検出統計量Utの最小値
(Utmin)を見つける段階である。ステップ24
は、外れ値の候補を除かない時の検出統計量Ut(0)
Utminを比較する段階である。ステップ25は、U
tminの方が小さい場合、Utminを求めた時のデ
ータの組み合せに含まれていなかった値を外れ値とす
る。ステップ26は、Ut(0) が最小となる場合で、こ
の時、外れ値は「ない」とする。ステップ23からステ
ップ26までが外れ値検出工程である。ステップ27
は、表示等をする。
【0059】次に、データを使ってこのフローチャート
の流れを説明する。ステップ20で次の5つのデータを
入力する。 5.71、6.57、7.29、8.06、13.32 ステップ21で入力されたデータを昇順に並べかえる。
ステップ22で数2を使い、Utの値を計算する。例え
ば、一番小さな値5.71を除いた時は、サンプル数n
=4、外れ値の候補の個数s=1であるので、検出統計
量をUt(-1)と表すと、Ut(-1)=5.908となる。
一番大きな値13.32を除いた時の検出統計量は、サ
ンプル数n=4、外れ値の候補の個数s=1であるの
で、Ut(-5)と表すと、Ut(-5)=1.440となる。
5.71と13.32をともに除いた時は、サンプル数
n=3、外れ値の候補の個数s=2であるので、Ut
(-1,-5) と表すと、Ut(-1,-5)=2.509となる。
また、Ut(-1,-2) 、Ut(-4,-5) 、Ut(-1,-2,-5)
Ut(-1,-4,-5)を計算すると(即ち、外れ値の候補の個
数s=3の検出統計量Ut(0) を計算すると)表2のよ
うになる。
【0060】
【表2】
【0061】ステップ23で以上で求めたUtの最小値
Utminを求めると、Utmin=Ut(-5)=1.4
40である。ステップ24で外れ値の候補を除かない時
の検出統計量Ut(0) =4.930を計算し、Utmi
nとUt(0) を比較する。すると、Ut(-5)>Ut(0)
は成立しないので、ステップ25へ行き、Ut(-5)の時
のデータの組み合せを外れ値とする。即ち、13.32
が外れ値とわかる。ステップ27で、外れ値13.32
の表示等出力を行う。
【0062】このように外れ値の候補の個数が3の場合
であっても、検出された外れ値の個数は1つであり、外
れ値の候補の個数以内の範囲で外れ値を検出することが
できる。
【0063】この例で示した5.71、6.57、7.
29、8.06、13.32のデータの場合、13.3
2を外れ値とするのは、竹内 啓(1980)「現象と
行動の中の統計数理」新曜社でも同様の結果となってい
る。
【0064】この実施例の数2に示した検出統計量の式 Ut=nlogσ+2s は、AIC(AKAIKE’S informatio
n criterion)のアナロジーから考えられ
た。nはサンプル数、sは外れ値の候補の個数、σ2
分散、σは標準偏差である。この式の第1項は、外れ値
の候補であるサンプルが除かれると小さくなる傾向があ
る。というのは、分散σ2 は外れ値を除くと小さくなる
からである。また、サンプル数nも外れ値の候補として
除く数が増えると、n=(データ数N)−(外れ値の候
補の個数s)であるから、例えば、nは5から4、5か
ら3というように小さな値になるからである。第2項
は、サンプル数が多くなると増加する。従って、外れ値
を除いた時、第1項と第2項の和Utは最小になると考
えることができる。
【0065】次に、この関係をGrubbsのデータ1
を使って述べる。Grubbsのデータ1を次に示す。 2.02、2.22、3.04、3.23、3.59、
3.73、3.94、4.05、4.11、4.13 総データ数は10個である。このデータからlogσを
計算した値を表3に、nlogσを計算した値を表4に
示し、Ut=nlogσ+2sを計算した値を表5に示
す。
【0066】
【表3】
【0067】
【表4】
【0068】
【表5】
【0069】これらをグラフにしたものが図2である。
図2のx軸は、外れ値の候補の個数sであり、y軸はU
tの値である。sに対応するUtの値が複数ある場合
は、その中の最小のものをプロットした。例えば、表3
において外れ値の候補の個数s=1の場合、Utは−
0.318と−0.514となるが、−0.514を用
いてプロットした。図2の一点鎖線で示したグラフ
(1)は、Ut=logσとした場合を示している。点
線で示したグラフ(2)は、Ut=nlogσとした場
合を示している。実線で示したグラフ(3)は、Ut=
2sとした場合である。太線で表したグラフ(4)は、
nlogσと2sを加算したUt=nlogσ+2sの
値である。
【0070】前述したように外れ値の候補の個数sが増
加するに従って、第1項のnlogσは減少することが
グラフ(2)よりわかる。そして、第2項の2sは増加
することが、グラフ(3)よりわかる。グラフ(4)に
示すnlogσ+2sの値は、s=2で最小値を取った
後増加している。Ut=nlogσ+2sの場合、最小
値は1ヶである。表5からわかるように、グラフ(4)
が最小となるのは、外れ値の候補の個数s=2であっ
て、その外れ値として2.02と2.22を仮定した場
合である。これは、Kitagawaの方法でも同じ結
果を得ている(GenshiroKitagawa(1
979):“On the Use of Aic f
or the Detection of Outli
ers”,Technometrics,Vol.2
1,No.2)。
【0071】次に、Ut=nlogσ+2sとsの関係
をもう1つ別の例で述べる。データとして、 −1.40、−0.44、−0.30、−0.24、−
0.22、−0.15、−0.13、0.06、0.1
0、0.18、0.20、0.48、0.63、1.0
1 とする。これにより得られたUt=nlogσ+2sの
値を表6に示す。
【0072】
【表6】
【0073】表6を基に、グラフを書くと図3のように
なる。図3のx軸は外れ値の候補の個数s、y軸はUt
=nlogσ+2sの値である。図3からわかるよう
に、この場合もUtの値が最小になった後、sが大きく
なるにつれ、Utの値も大きくなっている。また、外れ
値の性格より、外れ値の数は総データ数に比して小さな
数であると考えられる。よって、以後検出統計量の計算
結果を表に示す場合、最小の前後のデータのみを示すこ
とにする。この外れ値の性格を用いることにより、外れ
値の候補の数を予め指定することなく、外れ値を検出す
ることも可能である。前述したように、外れ値の数が大
きくなるにつれて検出統計量の値も大きくなる。従っ
て、外れ値の候補の数を指定しない場合には、外れ値の
候補の数が少ない順に検出統計量を算出し、順に外れ値
の候補の数を増やして検出統計量を算出し、その計算し
た検出統計量が次第に大きくなる場合には、その計算を
終了させる。このようにして、外れ値の候補の数が予め
指定されていない場合であっても、外れ値を検出するこ
とが可能になる。従って、前述したように外れ値の候補
の数を予め指定する場合以外に、外れ値の候補の数をシ
ステムやプログラムにより指定せずに、検出統計量の計
算結果を比較していくことにより、その計算結果が次第
に大きくなることが判明した時点で検出統計量の計算を
停止させることにより、外れ値を検出することが可能に
なる。次に、検出統計量Utが有効であるかどうか検証
するために、従来の計算方法による結果と比較したもの
を実施例2から実施例6で述べる。
【0074】実施例2.この実施例では、Grubbs
のデータ2を用い、検出統計量の式としてUtを用いた
場合の外れ値について述べる。Grubbsのデータ
は、全て次の文献より引用している。 “Procedures for detedting
outying Observations in
samples”, Technometrics,
Vol.11,1−21 Grubbsのデータ2は次の値である(データ数は1
2)。 0.745、1.832、1.856、1.884、
1.914、1.916、1.947、1.949、
2.013、2.023、2.045、2.327 原典では、3回の観測値とその平均値が載っているが、
ここでは平均値のみを昇順に載せる。検出統計量の計算
結果を表7に示す。
【0075】
【表7】
【0076】表7よりUtが最小値をとるのは、0.7
45と2.327を外れ値とした場合である。前述した
Kitagawaの方法も同じ結果となっている。
【0077】実施例3.この実施例は、Grubbsの
データ3を用いた場合について述べる。Grubbsの
データ3は次の値である(データ数は10)。 568、570、570、570、572、572、5
72、578、584、596 検出統計量の計算結果を表8に示す。
【0078】
【表8】
【0079】表8よりUtが最小値をとるのは、58
4、596を外れ値とした場合である。Grubbsに
よると596を外れ値としている。Dallas E.
Johnson他は、584、596を外れ値とし
た。これは、数2で求めた場合と同じである。なお、以
後Dallas E.Johnson他という場合は、
次の資料に基づくものとする。 Dallas E. Johnson, Stephe
n A. McGuire, and Geroge
A. Milliken(1978):“Estima
ting σ2 in the Presence o
f Outoliers”, Technometri
cs, Vol.20,No.4
【0080】実施例4.更に、実施例3のデータで、同
じデータを重複させてサイズを2倍にしたものを用いた
場合を次に示す。データ4は次の値である(データ数は
20)。 568、568、570、570、570、570、5
70、570、572、572、572、572、57
2、572、578、578、584、584、59
6、596
【0081】この実施例では、データのサイズを2倍に
したので、外れ値の候補の個数を4(s=4)とする場
合について説明する。外れ値の候補の個数が4の場合
は、以下のような組み合せに対して検出統計量を算出す
ることになる。即ち、外れ値の候補の個数が1(s=
1)の場合の統計検出量と、外れ値の候補の個数が2
(s=2)の場合の検出統計量と、外れ値の候補の個数
3(s=3)の場合の検出統計量と、外れ値の候補の個
数が4(s=4)の場合の検出統計量を求める必要があ
る。外れ値の候補の個数sに対応する検出統計量は、以
下に示すとおりである。 s=1 Ut(-1) Ut(-20) s=2 Ut(-1,-2) Ut(-1,-20) Ut(-19,-20) s=3 Ut(-1,-2,-3) Ut(-1,-2,-20) Ut(-1,-19,-20) Ut(-18,-19,-20) s=4 Ut(-1,-2,-3,-4) Ut(-1,-2,-3,-20) Ut(-1,-2,-19,-20) Ut(-1,-18,-19,-20) Ut(-17,-18,-19,-20)
【0082】外れ値の候補の個数が4の場合においても
図1に示したフローチャート同様の順に外れ値を検出す
ることが可能である。異なる点は、図1におけるステッ
プ22において前述したようなs=1からs=4までの
それぞれの検出統計量を算出する点である。このように
して、算出された検出統計量Utの計算結果を表9に示
す。
【0083】
【表9】
【0084】表9より外れ値は、584、584、59
6、596である。DallasE. Johnson
他も同様の結論となっている。
【0085】尚、外れ値の候補の個数は、入力されたデ
ータの数に基づいて常識的な範囲で任意に設定できるも
のである。例えば、入力されたデータの数が5(N=
5)である場合に、外れ値の候補の個数は1又は2(s
=1又は2)とするのが常識的な範囲である。また、入
力されたデータの数が多くなれば外れ値の候補の個数も
多くする分には差し支えない。このように外れ値の候補
の個数は、入力されたデータの数、あるいは、そのシス
テムにおいて、どの位の精度を要求しているかというシ
ステムの要求に応じて判断されるべきものである。前述
した実施例、あるいは、後述する実施例においては、外
れ値の数を何個と推定するかという判断は、予めシステ
ムにより定められているか、あるいは、オペレータやプ
ログラムにより任意に指定できるものとする。
【0086】実施例5.次に、Rosnerのデータを
用いた例について述べる。この例は、サイズが54と比
較的大きく、外れ値も多く存在すると考えられるケース
である。次に、データを示す。 −0.25、0.68、0.94、1.15、1.2
0、1.26、1.26、1.34、1.38、1.4
3、1.49、1.49、1.55、1.56、1.5
8、1.65、1.69、1.70、1.76、1.7
7、1.81、1.91、1.94、1.96、1.9
9、2.06、2.09、2.10、2.14、2.1
5、2.23、2.24、2.26、2.35、2.3
7、2.40、2.47、2.54、2.62、2.6
4、2.90、2.92、2.92、2.93、3.2
1、3.26、3.30、3.59、3.68、4.3
0、4.64、5.34、5.42、6.01 この、Rosnerのデータは次の文献からとった。 Bernard Rosner(1977):“Per
centage Point for a Gener
alized ESD Many−Outlier P
rocedure”, Technometrics,
Vol.25,No.2 次に、Utの計算結果を表10に示す。
【0087】
【表10】
【0088】Rosnerは、外れ値が最大10あると
仮定して検定した。危険率5%で、5.34、5.4
2、6.01を外れ値とした。表10は、この実施例に
よる検出統計量の計算結果を示す表である。前述したよ
うに検出統計量の計算結果を表に示す場合には、最小の
値の前後のデータのみを示してある。この表10からわ
かるように、計算式Utを用いた場合、外れ値は4.3
0、4.65、5.34、5.42、6.01である。
この場合には、外れ値として5つの外れ値が検出されて
いるが、Rosnerが仮定したように外れ値が最大1
0個あると仮定した場合であっても、あるいは、外れ値
の候補の数を指定せずに外れ値の候補の数を増やす毎に
計算された検出統計量を比較することにより自動的に外
れ値を検出した場合のいずれの場合においても、結果は
この5つの外れ値を検出する。この実施例においては、
5つの外れ値を検出したが、もしこの方法で外れ値が3
個までとすると、Rosnerと一致している。
【0089】実施例6.正規乱数、指数乱数、一様乱数
をサンプルデータとした場合について述べる。正規乱
数、指数乱数は、外れ値が現れる可能性があるが、一様
乱数からは外れ値は出て欲しくない。正規乱数データは
(n=10、〜N(0、1))より、 −2.666、−1.272、−0.042、0.14
0、0.273、0.415、0.467、1.16
0、1.672、1.673 である。Utの計算結果を表11に示す。
【0090】
【表11】
【0091】表11より外れ値は−2.666、−1.
272である。
【0092】次に、指数乱数を用いた場合について示
す。データは、竹内「現象と行動の中の統計数理」(新
曜社)からとった。 0.003、0.021、0.161、0.178、
0.180、0.210、0.249、0.413、
0.494、0.562、0.613、0.879、
0.981、1.059、1.131、1.264、
2.367、3.669、3.826、4.193 総データ数は20である。Utの計算結果を表12に示
す。
【0093】
【表12】
【0094】表12より外れ値は、4.193、3.8
26、3.669、2.367である。
【0095】次に、[0、1]の一様乱数を用いた場合
について述べる。データ数10でデータは次の通りであ
る。 0.283、0.470、0.643、0.688、
0.916、0.930、0.945、0.953、
0.973、0.995 Utの計算結果を表13に示す。
【0096】
【表13】
【0097】表13より外れ値の候補がない場合が最小
となっているので、一様乱数の場合、外れ値の候補はな
い。一様乱数については、更に1ケース試みたが同様に
外れ値の候補はなかった。一様乱数という性格上、外れ
値の候補なしということは望ましい結果である。
【0098】実施例7.従来の技術に出ているデータに
ついて、Utを用いて検出統計量を求める。データは、 5.71、6.57、7.29、8.06、10.0
0、15.00 である。結果は表14のようになる。
【0099】
【表14】
【0100】表14よりUtは15.00を除いた時、
最小値となることがわかり、15.00を外れ値とす
る。
【0101】実施例8.従来技術で述べたマスク効果の
データについて、数2に示した計算式を用いて検出統計
量を求める。データは、 5.71、6.57、7.29、8.06、14.8
0、15.00 である。結果は表15のようになる。
【0102】
【表15】
【0103】表15よりUt(-6,-5) の時、最小値とな
ることがわかり、15.00、14.80を外れ値とす
る。このように数2に示した計算式を用いれば、マスク
効果を回避することができる。
【0104】実施例9.図4は、この実施例を説明する
ための図である。この実施例のデータ処理装置は、セン
サー等の計測手段を有し、これより得られた測定値か
ら、外れ値を検出する外れ値検出手段を有す。次に、外
れ値がある場合は、これを除いたデータで平均値を求め
るデータ処理手段を有す。次に、実際の適用例について
述べる。センサーから得られる測定値を、一定時間間隔
ごとに5個測定し外れ値を検出し、これを除いた平均値
を測定値とすることを考える。x1 、x2 、x3
4、x5 が、測定データとして得られる。検出統計量
Utを計算し、外れ値を求める。外れ値があれば外れ値
を除き偏りのない平均値を求めることができる。データ
は時刻t1、t2、t3、t4について表16に示す。
【0105】
【表16】
【0106】時刻t1のデータについて検出統計量Ut
を求める。除かない時、Ut(0) =−0.711とな
る。1.02を除いた時、Ut(-1)=0.952、3.
23を除いた時、Ut(-5)=0.709となる。1.0
2、3.23ともに除いた時、Ut(-1,-5) =2.76
0となる。これを表17にまとめると次のようになる。
Ut(-1,-2) 、Ut(-4,-5) も考えられるがこの実施例
では影響がないので表に示すのを省略する。以下の表で
も同様に影響がないものは表示しないことにする。
【0107】
【表17】
【0108】外れ値がない時のUtが−0.711と最
小である。従って外れ値はない。時刻t2のデータにつ
いてUtを求め、表18に示す。
【0109】
【表18】
【0110】0.74を除いた時のUtが−3.524
と最小である。従って0.74を外れ値とする。時刻t
3のデータについてUtを求め、表19に示す。
【0111】
【表19】
【0112】従って、0.08を外れ値とする。次項t
4のデータについてUtを求め、表20に示す。
【0113】
【表20】
【0114】従って、3.36を外れ値とする。更新さ
れたデータ及び平均値は、表21のようになる。
【0115】
【表21】
【0116】実施例10.この実施例は、外れ値検出手
段を有し、外れ値を知らせる出力手段を有するデータ処
理装置について述べる。入力工程から表22のようなデ
ータが得られ、このデータからUtを計算することによ
り外れ値を検出する。表22のデータを図示すると図5
のようになる。
【0117】
【表22】
【0118】このデータについて検出統計量Utを求め
ると表23のようになる。
【0119】
【表23】
【0120】表23より4、−3を外れ値とする。従来
は、入力工程から得られたデータをディスプレー等に図
5に示すようなグラフを表示し、人が目視によって外れ
値と思われる値をピック・アップしてから計算し、確か
めていた。本発明による装置により外れ値を自動的に検
出し、工程環境・条件に異常があったかどうかの確認を
行うことができる。
【0121】実施例11.図6はこの実施例を説明する
ための図である。図6で示した外れ値検出方法は、図1
の入力工程と大小判定工程の間に、入力したデータを加
工する加工工程が追加されたものである。この実施例で
は、時間とともに増加する傾向がある特性値を出力する
装置からデータをうけとり、加工工程により時間ととも
に増加する傾向を除いたデータから、外れ値を検出する
装置について述べる。データを表24に示す。これを図
示すると図7の様になり、データは時間とともに増加す
る傾向があることが分かる。
【0122】
【表24】
【0123】そこで、最小2乗法により傾向直線を求め
ると次のようになる。 y=1.93+0.70t データから傾向直線の値を引くことにより、下のような
データとなる。 −0.63、0.67、−1.03、1.27、0.5
7、−1.13、−0.83、3.47、−2.23、
0.07 これを図示すると、図8のようになる。この補正された
データから、Utを計算すると表25のようになる。
【0124】
【表25】
【0125】従って、補正されたデータ3.47に対応
するt=8のy=11を外れ値とする。この様に、時間
とともに増加する傾向のあるデータから、増加する傾向
を補正することにより、実施例1の外れ値検出方法を適
用することができる。
【0126】実施例12.この実施例は、一つのサンプ
ルに複数の特性値がある場合に、加工工程においてテコ
比(X(XT X)-1T )の対角要素を計算し、これを
もとに外れ値を検出する装置について説明する。データ
および計算されたテコ比を表26に示す。
【0127】
【表26】
【0128】テコ比を用いて検出統計量Utを求めると
表27のようになる。
【0129】
【表27】
【0130】−22.99が最小値である。従って0.
99つまりサンプルno.14を外れ値とする。テコ比
が大きいデータは、全体に与える影響が大きいので、外
れ値か否か容易に判定できる外れ値検出装置があること
は有効である。
【0131】実施例13.この実施例は、入力されたデ
ータが回帰分析のモデルの場合、加工工程において回帰
分析の残差を求め、これをもとに外れ値を検出する装置
について説明する。データおよび回帰式により求めた残
差は表28のようになる。
【0132】
【表28】
【0133】残差を用いて検出統計量Utを求めると表
29のようになる。
【0134】
【表29】
【0135】Ut7.723が最小である。従って残差
3.948つまりサンプルno.6が外れ値となる。
【0136】実施例14.この実施例は、入力されたデ
ータの特性値が複数あり正準相関分析モデルを適応でき
る場合、加工工程において次に示すようにデータを加工
し、これを用いて外れ値を検出する装置について説明す
る。表30のようなデータについて考える。
【0137】
【表30】
【0138】このデータに正準相関分析を行い、y1,
y2の合成変量関数が2個求まる。この合成変量関数を
用いて合成変量関数値が求まる。合成変量関数値をもと
にテコ比を計算する。テコ比は次のようになる。 0.27、0.31、0.18、0.12、0.10、
0.20、0.19、0.30、0.12、0.30、
0.63、0.13、0.16 このテコ比について検出統計量Utを計算すると表31
のようになる。
【0139】
【表31】
【0140】従ってテコ比0.63を外れ値とする。こ
れはno.11のサンプルである。
【0141】実施例15.この実施例は、入力されたデ
ータが2グループに特性値が分類されていて、加工工程
において複数の要因により判別分析を行い、この加工さ
れたデータをもとに各グループでの外れ値を検出する装
置について述べる。データは表32に示す。
【0142】
【表32】
【0143】データをプロットすると図9のようにな
る。図よりグループ1では、サンプルno.1が、グル
ープ2ではサンプルno.12が外れ値のようである。
データについて判別分析を実施し、判別関数を求める
と、 y=−0.634*x1−0.281*x2 となる。この判別関数を用いて判別関数値を計算すると
例えば、no.1の場合、 判別関数値=−0.634*6−0.281*0=−
3.80 となる。判別関数値を表32の右欄に載せた。グループ
1の判別関数値についてUtを求めると表33のように
なる。
【0144】
【表33】
【0145】従って判別関数値−3.80、サンプルn
o.1を外れ値とする。グループ2の判別関数値につい
てUtを求めると表34のようになる。
【0146】
【表34】
【0147】従って判別関数値−1.12、サンプルn
o.12を外れ値とする。
【0148】実施例16.この実施例は、入力されたデ
ータが3グループに特性値が分類されていて、加工工程
において複数の要因により判別分析を行い、このデータ
にもとづいて各グループでの外れ値を検出する装置につ
いて述べる。データを表35に示す。
【0149】
【表35】
【0150】データについて判別分析を実施し判別関数
値を求めると、表35の右側、判別関数値の欄のように
なる。3グループあるので判別関数値は2組得られる。
一般に判別関数値は(グループ数−1)組得られる。こ
の2組の判別関数値から次の式に基づいてユークリッド
距離が求められ、これを表35のユークリッド距離の欄
に示す。 判別関数値のユークリッド距離d(=(f1 2+f2 2
1/2 ) 判別関数値のユークリッド距離について各グループごと
にUtを求めると、Utは次のようになる。グループ1
のUtを表36に示す。
【0151】
【表36】
【0152】Utは、外れ値の候補がない場合が最小で
ある。従って外れ値はない。グループ2のUtを表37
に示す。
【0153】
【表37】
【0154】Utは、外れ値の候補がない場合が最小で
ある。従って外れ値はない。グループ3のUtを表38
に示す。
【0155】
【表38】
【0156】従ってユークリッド距離が2.44、サン
プルno.18を外れ値とする。なお、この実施例では
特性値が3グループの場合について述べたが、3グルー
プ以上についても同様に行える。
【0157】実施例17.この実施例では、上記実施例
で示した数2とは異なる計算式で検出統計量を求める場
合について述べる。検出統計量Utaの計算式は数3を
用いる。
【0158】
【数3】
【0159】データとして(総データ数15)、 −1.40、−0.44、−0.30、−0.24、−
0.22、−0.13、−0.15、0.06、0.1
0、0.18、0.20、0.39、0.48、0.6
3、1.01 を用いる。計算結果は表39のようになる。
【0160】
【表39】
【0161】従って、表より1.01、−1.40を外
れ値とする。表39の参考の欄を見るとわかるように、
Ut=nlogσ+2sを用いると−1.40を外れ値
としているので、Utaでは1個多く外れ値を指定して
いる。ところが、他の多くのデータでは、数2の計算式
を用いた場合と同様の結果を得ている。このことより、
数3の計算式は、場合によっては1個多く外れ値を検出
するという特徴がある。尚、数3の第2項のb2 /2
は、「竹内」の正規分布のあてはまりのよさの補正の指
標を参考とした。 竹内(竹内 啓(1976):“情報統計量の分布とモ
デルの適切さの基準”、「数理科学」、NO.153サ
イエンス社、12−18)によれば正規分布モデルの適
切さを表す統計量(以下竹内の統計量)Ts は、zi
i =1、・・・、n)をサンプル数nのデータ、zをz
i の平均として次のようになる。 Ts =−logσ−b2 /2n ここで、 σ2 ={Σ(zi −z)2 }/n b2 ={Σ(zi −z)4 }/nσ4 この竹内の統計量の値が大きいほど適切な正規分布モデ
ルに近い。
【0162】正規分布モデルaと正規分モデルbの2つ
があり、正規分布モデルaの分散は正規分布モデルbの
分散よりも小さな値を示す場合、正規分布モデルaの方
が正規分布モデルbよりもデータzi が平均=0に近い
値を多く示す。上記竹内の統計量を求める式の第2項に
あるb2 /2nは、補正項と呼ばれているものであり、
第1項にあるlogσの値を補正する意味を持っている
ものである。従って、竹内の統計量は第1項にあるlo
gσの値が大きく影響するものである。従って、分散σ
の値によってこの竹内の統計量の特徴付けがなされる。
従って、分散が小さいほど竹内の統計量の値が大きくな
り、この竹内の統計量の値が大きいほど正規分布モデル
bよりも正規分布モデルaに近いパターン(即ち、分散
の小さいパターン)を示すことになる。
【0163】実施例18.以下、この実施例18から実
施例46までは、検出統計量を求めるための計算式を図
10に示す回帰分析説明変数選択基準を基礎にして作成
している。前述した数2及び数3はAICを基礎にして
考えたものである。AICは、回帰分析説明変数選択基
準の一例である。従って、以下の実施例18から実施例
46までは、AICよる回帰分析説明変数選択基準以外
の回帰分析説明変数選択基準を基礎にして、検出統計量
を求める場合においても前述した実施例と同様な効果を
奏することができる点をについて説明する。実施例18
から実施例46までに示す検出統計量の計算式数4から
数32は、図10に示す回帰分析説明変数選択基準を基
礎にして考えられたものであり、これらの計算式は、大
きく分けて2つのタイプに分類できる。第1のグループ
は、前述した実施例までと同じ形式で、 nlogσ+第2項(+第3項) である。第2のグループは、乗算タイプで、 調整因子×σ である。また、データとして、 −1.40、−0.44、−0.30、−0.24、−
0.22、−0.15、−0.13、0.06、0.1
0、0.18、0.20、0.39、0.48、0.6
3、1.01 を、この実施例以後の全ての実施例で用いる。これを図
示すると図11のようになる。同じデータに対して、計
算式の違いにより求まる外れ値の数が異なっている。よ
って、外れ値を多く出さなくてもよい適用業務と、外れ
値を多く出したい業務により、計算式を選んで使うこと
ができる。
【0164】検出統計量Stの計算式を、数4に示す。
【0165】
【数4】
【0166】Stを計算すると表40のようになる。
【0167】
【表40】
【0168】従って、−1.40と1.01を外れ値と
する。
【0169】実施例19.検出統計量Ftの計算式を、
数5に示す。
【0170】
【数5】
【0171】Ftを計算すると表41のようになる。
【0172】
【表41】
【0173】従って、−1.40と1.01を外れ値と
する。
【0174】実施例20.検出統計量Ttの計算式を、
数6に示す。
【0175】
【数6】
【0176】Ttを計算すると表42のようになる。
【0177】
【表42】
【0178】従って、−1.40を外れ値とする。
【0179】実施例21.検出統計量TItの計算式
を、数7に示す。
【0180】
【数7】
【0181】TItを計算すると表43のようになる。
【0182】
【表43】
【0183】従って、−1.40を外れ値とする。
【0184】実施例22.検出統計量Wtの計算式を、
数8示す。
【0185】
【数8】
【0186】Wtを計算すると表44のようになる。
【0187】
【表44】
【0188】従って、−1.40を外れ値とする。
【0189】実施例23.検出統計量Ptの計算式を、
数9示す。
【0190】
【数9】
【0191】Ptを計算すると表45のようになる。
【0192】
【表45】
【0193】従って、−1.40を外れ値とする。
【0194】実施例24.検出統計量Ht計算式を、数
10示す。
【0195】
【数10】
【0196】Htを計算すると表46のようになる。
【0197】
【表46】
【0198】従って、−1.40、1.01、0.63
を外れ値とする。
【0199】実施例25.検出統計量U.1tの計算式
を、数11示す。
【0200】
【数11】
【0201】U.1tを計算すると表47のようにな
る。
【0202】
【表47】
【0203】従って、−1.40を外れ値とする。
【0204】実施例26.検出統計量U.9tの計算式
を、数12示す。
【0205】
【数12】
【0206】U.9tを計算すると表48のようにな
る。
【0207】
【表48】
【0208】従って、−1.40と1.01を外れ値と
する。
【0209】実施例27.検出統計量Uutの計算式
を、数13示す。
【0210】
【数13】
【0211】Uutを計算すると表49のようになる。
【0212】
【表49】
【0213】従って、−1.40、1.01、0.63
を外れ値とする。
【0214】実施例28.検出統計量Btの計算式を、
数14示す。
【0215】
【数14】
【0216】Btを計算すると表50のようになる。
【0217】
【表50】
【0218】従って、−1.40と1.01を外れ値と
する。
【0219】実施例29.検出統計量Dtの計算式を、
数15示す。
【0220】
【数15】
【0221】Dtを計算すると表51のようになる。
【0222】
【表51】
【0223】従って、−1.40、1.01、0.63
を外れ値とする。
【0224】実施例30.検出統計量Gtの計算式を、
数16示す。
【0225】
【数16】
【0226】Gtを計算すると表52のようになる。
【0227】
【表52】
【0228】従って、−1.40と1.01を外れ値と
する。
【0229】実施例31.検出統計量Qtの計算式を、
数17示す。
【0230】
【数17】
【0231】Qtを計算すると表53のようになる。
【0232】
【表53】
【0233】従って、−1.40を外れ値とする。
【0234】実施例32.検出統計量Itの計算式を、
数18示す。
【0235】
【数18】
【0236】Itを計算すると表54のようになる。
【0237】
【表54】
【0238】従って、−1.40を外れ値とする。
【0239】実施例33.検出統計量Vtの計算式を、
数19示す。
【0240】
【数19】
【0241】Vtを計算すると表55のようになる。
【0242】
【表55】
【0243】従って、−1.40を外れ値とする。
【0244】実施例34.検出統計量Etの計算式を、
数20示す。
【0245】
【数20】
【0246】Etを計算すると表56のようになる。
【0247】
【表56】
【0248】従って、−1.40を外れ値とする。
【0249】実施例35.検出統計量Jtの計算式を、
数21示す。
【0250】
【数21】
【0251】Jtを計算すると表57のようになる。
【0252】
【表57】
【0253】従って、−1.40を外れ値とする。
【0254】実施例36.検出統計量Vtdの計算式
を、数22示す。
【0255】
【数22】
【0256】Vtdを計算すると表58のようになる。
【0257】
【表58】
【0258】従って、−1.40を外れ値とする。
【0259】実施例37.検出統計量BBtの計算式
を、数23示す。
【0260】
【数23】
【0261】BBtを計算すると表59のようになる。
【0262】
【表59】
【0263】従って、−1.40を外れ値とする。
【0264】実施例38.検出統計量CCtの計算式
を、数24示す。
【0265】
【数24】
【0266】CCtを計算すると表60のようになる。
【0267】
【表60】
【0268】従って、−1.40と1.01を外れ値と
する。
【0269】実施例39.検出統計量DDtの計算式
を、数25示す。
【0270】
【数25】
【0271】DDtを計算すると表61のようになる。
【0272】
【表61】
【0273】従って、−1.40を外れ値とする。
【0274】実施例40.検出統計量GGtの計算式
を、数26示す。
【0275】
【数26】
【0276】GGtを計算すると表62のようになる。
【0277】
【表62】
【0278】従って、−1.40を外れ値とする。
【0279】実施例41.検出統計量Uptの計算式
を、数27示す。
【0280】
【数27】
【0281】Uptを計算すると表63のようになる。
【0282】
【表63】
【0283】従って、−1.40と1.01を外れ値と
する。
【0284】実施例42.検出統計量Ztの計算式を、
数28示す。
【0285】
【数28】
【0286】Ztを計算すると表64のようになる。
【0287】
【表64】
【0288】従って、−1.40、1.01、0.63
を外れ値とする。Ztは外れ値を多めに検出する。
【0289】実施例43.検出統計量Ktの計算式を、
数29示す。
【0290】
【数29】
【0291】Ktを計算すると表65のようになる。
【0292】
【表65】
【0293】従って、−1.40と1.01を外れ値と
する。
【0294】実施例44.検出統計量Xtの計算式を、
数30示す。
【0295】
【数30】
【0296】Xtを計算すると表66のようになる。
【0297】
【表66】
【0298】従って、−1.40と1.01を外れ値と
する。
【0299】実施例45.検出統計量HQtの計算式
を、数31示す。
【0300】
【数31】
【0301】HQtを計算すると表67のようになる。
【0302】
【表67】
【0303】従って、−1.40を外れ値とする。
【0304】実施例46.検出統計量AICtの計算式
を、数32示す。
【0305】
【数32】
【0306】AICtを計算すると表68のようにな
る。
【0307】
【表68】
【0308】従って、−1.40と1.01を外れ値と
する。
【0309】
【発明の効果】第1の発明によれば、値を入力すれば算
出された検出統計量に基づき外れ値が検出されるので、
従来のように計算値と数表の大小比較をする必要がな
い。また、外れ値の個数を予め設定する必要がない。あ
るいは、外れ値として検出したい数の最大値を指定して
おけばよい。また、外れ値の個数により、又は大きい方
の外れ値か、小さい方の外れ値かにより計算方式を変え
る必要もないので、計算過程が簡単でかつ計算量も少な
くてすむ。また、従来方式では、マスク効果により外れ
値を検出できないことがあったが、これを回避すること
ができるので、より正確な結果が得られる。また、外れ
値が存在しない時は、存在しないと判定する。
【0310】第2の発明によれば、外れ値を算出するた
めの値の選択が簡単に行える。
【0311】第3の発明によれば、検出統計量の単純な
比較だけで外れ値を求めるので、処理が簡単になる。
【0312】第4の発明における計算式によれば、外れ
値がある場合、最も外れた値が除かれると検出統計量は
最小となるので、これを利用して外れ値を求めることが
できる。
【0313】第5の発明における計算式によれば、補正
項があるため、より的確に外れ値を求めることができ
る。
【0314】第6の発明における計算式によれば、第1
の項目に分散を含んでいるため、最も外れている値を除
くと分散が小さくなるという性質を利用できる。
【0315】第7の発明における計算式によれば、第2
の項目に外れ値の候補の個数を含んでいるため、外れ値
の個数を増やしていったことによる第1の項目の減少傾
向を相殺できる。
【0316】第8の発明における計算式によれば、第2
の項目に係数を乗算していることにより、第2の項目の
増加量を調節することができる。
【0317】第9の発明における計算式によれば、分散
の減少傾向を係数により、調節できる。
【0318】第10の発明における計算式によれば、回
帰分析の式を応用して外れ値の検出を行うことができ
る。
【0319】第11の発明によれば、加工工程があるこ
とによりさまざまなタイプのデータの外れ値を検出する
ことができる。
【0320】第12の発明によれば、時間に依存する値
からも時間に依存しない値に加工することにより、外れ
値を検出することができる。
【0321】第13の発明によれば、1つのサンプルに
複数の特性値が存在する場合であっても、テコ比を計算
することにより外れ値を求めることができる。
【0322】第14の発明によれば、回帰分析の手法を
適用できる値であれば、回帰分析の残差を求めることに
よりこの残差の外れ値を求めることができる。
【0323】第15の発明によれば、正準相関分析モデ
ルを適用できる場合でも、外れ値を求めることができ
る。
【0324】第16の発明によれば、複数のグループに
特性値が分類され、判別分析を行うことができる場合、
外れ値を求めることができる。
【0325】第17の発明によれば、上記のような外れ
値検出方法を利用することにより、外れ値を容易に検出
することができるデータ処理装置を得ることができる。
この外れ値が得られた時の環境条件を検討することによ
り、新たな知見・情報が得られることにもなる。
【0326】第18の発明によれば、上記のような外れ
値検出方法を利用することにより、外れ値を容易に検出
し、除くことができるデータ処理装置を得ることができ
る。このデータ処理装置により得られた結果は、外れ値
を除いてあるので信頼性が向上している。
【図面の簡単な説明】
【図1】本発明の外れ値検出方法を説明するためのフロ
ーチャート図である。
【図2】Grubbsのデータ1を用いた場合の外れ値
の候補の個数sと検出統計量Utの関係を示す図であ
る。
【図3】別のデータを用いた場合の外れ値の候補の個数
sと検出統計量Utの関係を示す図である。
【図4】本発明のデータ処理装置の構成図である。
【図5】本発明の一実施例の入力データをプロットした
図である。
【図6】本発明の外れ値検出のための工程を説明する図
である。
【図7】本発明の一実施例の時間とともに増加する傾向
を持つデータをプロットした図である。
【図8】本発明の一実施例の時間とともに増加する傾向
を除いたデータをプロットした図である。
【図9】本発明の一実施例の入力データをプロットした
図である。
【図10】回帰分析説明変数選択基準の数式を示す図で
ある。
【図11】本発明の実施例の中で使われるデータをプロ
ットした図である。
【図12】従来の技術及び本発明の実施例の中で使われ
るデータをプロットした図である。
【図13】従来の技術及び本発明の実施例で使われる装
置の構成図である。
【図14】従来の外れ値検出方式を説明するためのフロ
ーチャート図である。
【符号の説明】
1 情報処理装置 2 コンピュータ(FDD付き) 3 ディスプレイ・ユニット 4 プリンタ 5 キーボード 6 フロッピーディスク

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 以下の工程を有する外れ値検出方法 (a)N個(N≧3)の値を入力する入力工程、(b)
    上記入力工程により入力したN個の値の大小関係を判定
    する大小判定工程、(c)上記大小判定工程により判定
    された大小関係に基づき、N個の値の組み合せ及び外れ
    値の候補を除いたN個未満の値の組み合せを求め、求め
    た組み合せに対して所定の計算式を用いて検出統計量を
    算出する算出工程、(d)上記算出工程により算出され
    た検出統計量に基づいて、外れ値を検出する外れ検出工
    程。
  2. 【請求項2】 上記算出工程は、s個以内の外れ値を検
    出する場合、大小判定工程により判定された大小関係上
    連続するn個(n=N−s)以上の値の複数の組み合せ
    を用いて検出統計量を算出することを特徴とする請求項
    1記載の外れ値検出方法。
  3. 【請求項3】 上記外れ値検出工程は、N個未満の値の
    組み合せから求めた検出統計量の中で最小のものを選択
    する最小値選択工程と、選択された最小値がN個の値の
    組み合せから求めた検出統計量よりも小さい場合に、そ
    の選択された最小値を算出した組み合せに含まれていな
    かった値を外れ値とする外れ値判定工程を備えたことを
    特徴とする請求項1又は2記載の外れ値検出方法。
  4. 【請求項4】 上記計算式は、外れ値の候補が除かれる
    と小さくなる傾向にある第1の項目と、外れ値の候補が
    除かれると大きくなる第2の項目とを有し、上記算出工
    程は、第1と第2の項目の値を算出し両者の和により検
    出統計量を求めることを特徴とする請求項1、2又は3
    記載の外れ値検出方法。
  5. 【請求項5】 上記計算式は、更に、第1と第2の項目
    以外に、第1と第2の項目を補正する補正項を有し、上
    記算出工程は、第1と第2と第3の項目の値を算出し、
    3者の和により検出統計量を求めることを特徴とする請
    求項4記載の外れ値検出方法。
  6. 【請求項6】 上記第1の項目は、検出統計量を求める
    N個未満の値の分散を用いていることを特徴とする請求
    項4又は5記載の外れ値検出方法。
  7. 【請求項7】 上記第2の項目は、検出統計量を求める
    場合の外れ値の候補の個数を用いていることを特徴とす
    る請求項4又は5記載の外れ値検出方法。
  8. 【請求項8】 上記第2の項目は、外れ値の候補の個数
    に対して所定の係数を乗算したものを用いることを特徴
    とする請求項7記載の外れ値検出方法。
  9. 【請求項9】 上記計算式は、検出統計量を求めるN個
    未満の値の分散と分散に対する係数を有しており、上記
    算出工程は、分散と係数の乗算により検出統計量を求め
    ることを特徴とする1、2又は3記載の外れ値検出方
    法。
  10. 【請求項10】 上記計算式は、回帰分析の変数選択基
    準を基礎にして作成されることを特徴とする請求項1〜
    8又は9記載の外れ値検出方法。
  11. 【請求項11】 上記外れ値検出方法は、更に、入力工
    程と大小判定工程の間に、入力した値を加工する加工工
    程を備えたことを特徴とする請求項1記載の外れ値検出
    方法。
  12. 【請求項12】 上記加工工程は、入力工程により入力
    された時間に依存する値を時間に依存しない値に加工す
    ることを特徴とする請求項11記載の外れ値検出方法。
  13. 【請求項13】 上記加工工程は、入力工程により入力
    された値からテコ比を計算することを特徴とする請求項
    11記載の外れ値検出方法。
  14. 【請求項14】 上記加工工程は、入力工程により入力
    された値から回帰分析モデルのデータを計算することを
    特徴とする請求項11記載の外れ値検出方法。
  15. 【請求項15】 上記加工工程は、入力工程により入力
    された値から正準相関分析モデルのデータを計算するこ
    とを特徴とする請求項11記載の外れ値検出方法。
  16. 【請求項16】 上記加工工程は、入力工程により入力
    された値が複数のグループに分類されていて複数の要因
    により判別分析を行う場合に、各グループの判別関数値
    を計算することを特徴とする請求項11記載の外れ値検
    出方法。
  17. 【請求項17】 上記請求項1〜15又は16記載の外
    れ値検出方法を実行して外れ値を検出する外れ値検出手
    段と、N個の値を計測して外れ地検出手段に入力する計
    測手段と、外れ値検出手段により検出された外れ値を知
    らせる出力手段を備えたデータ処理装置。
  18. 【請求項18】 上記データ処理装置は、更に、外れ値
    検出手段により検出された外れ値を除いた残りの値を用
    いて所定の処理を実行するデータ処理手段を備えたこと
    を特徴とする請求項17記載のデータ処理装置。
JP6008871A 1994-01-28 1994-01-28 外れ値検出方法及びデータ処理装置 Pending JPH07219929A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6008871A JPH07219929A (ja) 1994-01-28 1994-01-28 外れ値検出方法及びデータ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6008871A JPH07219929A (ja) 1994-01-28 1994-01-28 外れ値検出方法及びデータ処理装置

Publications (1)

Publication Number Publication Date
JPH07219929A true JPH07219929A (ja) 1995-08-18

Family

ID=11704756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6008871A Pending JPH07219929A (ja) 1994-01-28 1994-01-28 外れ値検出方法及びデータ処理装置

Country Status (1)

Country Link
JP (1) JPH07219929A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295478B1 (en) 1997-08-29 2001-09-25 Nec Corporation Manufacturing process change control apparatus and manufacturing process change control method
JP2007064819A (ja) * 2005-08-31 2007-03-15 Ho Jinyama 信号検査方法および信号検査モジュール
US7486818B2 (en) 2002-11-25 2009-02-03 Fuji Xerox Co., Ltd. Color data accuracy calculating method, color data accuracy calculating apparatus, color processing method, color processing apparatus, color data accuracy calculating program, color processing program, and storage medium
JP2017157033A (ja) * 2016-03-02 2017-09-07 株式会社Nttドコモ 情報処理装置
CN110264031A (zh) * 2019-05-05 2019-09-20 贵州中烟工业有限责任公司 一种标准出片率的表征方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295478B1 (en) 1997-08-29 2001-09-25 Nec Corporation Manufacturing process change control apparatus and manufacturing process change control method
US7486818B2 (en) 2002-11-25 2009-02-03 Fuji Xerox Co., Ltd. Color data accuracy calculating method, color data accuracy calculating apparatus, color processing method, color processing apparatus, color data accuracy calculating program, color processing program, and storage medium
JP2007064819A (ja) * 2005-08-31 2007-03-15 Ho Jinyama 信号検査方法および信号検査モジュール
JP2017157033A (ja) * 2016-03-02 2017-09-07 株式会社Nttドコモ 情報処理装置
CN110264031A (zh) * 2019-05-05 2019-09-20 贵州中烟工业有限责任公司 一种标准出片率的表征方法
CN110264031B (zh) * 2019-05-05 2024-03-01 贵州中烟工业有限责任公司 一种标准出片率的表征方法

Similar Documents

Publication Publication Date Title
TW463113B (en) Method and apparatus for analyzing measurements
Moffat Describing the uncertainties in experimental results
Capizzi Recent advances in process monitoring: Nonparametric and variable-selection methods for phase I and phase II
US8494798B2 (en) Automated model building and batch model building for a manufacturing process, process monitoring, and fault detection
US5740429A (en) E10 reporting tool
US20070165381A1 (en) System and method for analyzing an mtbf of an electronic product
US7957821B2 (en) Systems and methods for statistical process control
KR20070064259A (ko) 프로세스 이상 분석 장치 및 프로그램
CN101438249A (zh) 用于错误诊断的多种错误特征
JP7413159B2 (ja) 情報処理装置、プログラム及び監視方法
US8036922B2 (en) Apparatus and computer-readable program for estimating man-hours for software tests
JP2023052477A (ja) データ処理方法およびデータ処理プログラム
Gaunt et al. Stein’s method for the single server queue in heavy traffic
Kleijnen Design and analysis of simulations: Practical statistical techniques
JPH07219929A (ja) 外れ値検出方法及びデータ処理装置
JP6012860B2 (ja) 作業時間推定装置
CN110928265A (zh) 数据处理方法、装置与***、以及计算器可读取记录介质
US8306997B2 (en) Method and computer program product for using data mining tools to automatically compare an investigated unit and a benchmark unit
JP6757846B2 (ja) 工程/装備の計測データの微細変動検知方法及びシステム
JP7396213B2 (ja) データ解析システム、データ解析方法及びデータ解析プログラム
Simpson et al. Sensitivity study of the CUSUM control chart with an economic model
JP6616889B2 (ja) ウインドウ評価方法および分析装置
US10755187B2 (en) Mood score calculation system
JP2800714B2 (ja) 部品コスト見積り方法および部品コスト見積り装置
US10268562B1 (en) Advanced manufacturing insight system for semiconductor application

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010703