[第1の実施の形態]
本発明の第1の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図1乃至図9を用いて説明する。まず図1及び図2を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図1は、本実施の形態においてデータ解析の対象となるデータファイル1を示す表である。図1に示すように、データファイル1は、3月1日から3月25日までの1日毎の温度T1(℃)のデータを有している。データファイル1は25個のレコードRi(i=1、2、・・、25)で構成されている。各レコードRiは、時刻Dと温度T1(℃)とのデータをそれぞれ有している。各レコードRiのレコード番号は、時刻D順に与えられている。
温度T1は、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度T1が目的変数であり、時刻Dが説明変数である。一般に、データ解析において、変動原因や変動パターンを探ることを目的とする変数を目的変数といい、目的変数の変動を説明するために用いられる変数を説明変数という。
図2は、温度T1のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T1(℃)を表している。図2に示すように、温度T1のトレンドグラフは中央付近の前半部分に温度T1が高い区間(山)があり、当該区間を最大区間として漸増、漸減の傾向があり、また先頭区間及び最終区間で温度T1がやや低い値となっている。
次に、本実施の形態によるデータ解析方法について説明する。以下に説明するデータ解析方法は、温度T1(目的変数)の値が他の区間と際立って異なる区間を抽出することを目的とする。以下に説明するデータ解析方法は、例えば当該データ解析方法をコンピュータに実行させるプログラムを用いて、コンピュータで実行する。まず、図1に示すように、25個のレコードRiを説明変数の値の順、すなわち時刻D順に並べ替える。
次に、図1に示すように、時刻D順に並べ替えた25個のレコードRiを5個の小集合Gj(j=1、2、・・、5)に分割する。小集合Gjのそれぞれは、時刻D順に並べ替えた順番が連続しているレコードRiで構成される。また、小集合Gjのそれぞれは、同数の5個のレコードRiで構成される。全てのレコードRiは小集合Gjのいずれかに属し、各レコードRiには属性としてグループid(Gj)が追加される。各小集合Gjは、グループid、小集合Gjを構成するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)並びに各レコードRiの目的変数(温度T1)を属性とする情報で構成される。5つの小集合Gjを時刻D順に挙げると、G1、G2、G3、G4、G5となる。
図1に示すように、小集合G1は、レコードR1〜R5(3月1日〜5日)で構成される。小集合G2は、レコードR6〜R10(3月6日〜10日)で構成される。小集合G3は、レコードR11〜R15(3月11日〜15日)で構成される。小集合G4は、レコードR16〜R20(3月16日〜20日)で構成される。小集合G5は、レコードR21〜R25(3月21日〜25日)で構成される。
ここで、各小集合Gjの温度T1の分布を図3に示す。図3は、小集合Gj毎に温度T1の分布を示す箱ひげ図(Box and whiskers plot)である。図3において、横軸は小集合Gj、縦軸は温度T1(℃)を表している。各小集合G1〜G5の箱ひげ図BG1〜BG5の上部には、各小集合G1〜G5それぞれに属するレコード数(データ件数)を示している。小集合G1の箱ひげ図BG1を参照して箱ひげ図の見方について説明する。箱ひげ図BG1において、上側の「*」Maxは小集合G1の温度T1の最大値を表し、中央の「*」Aveはその平均値を表し、下側の「*」Minはその最小値を表している。
また、箱の下辺Q1は第1四分位数(25%点)を表し、箱の中の辺Q2は第2四分位数(中央値)を表し、箱の上辺Q3は第3四分位数(75%点)を表している。小集合G1は5つのレコードRiで構成されているので、第1四分位数Q1は小集合G1で値が4番目に大きい温度T1であり、第2四分位数Q2は値が3番目に大きい温度T1であり、第3四分位数Q3は値が2番目に大きい温度T1である。
箱の縦の長さL=Q3−Q1を四分位範囲(四分位偏差)という。下側の辺Aminは、第1四分位数Q1から四分位範囲Lの1.5倍の範囲A(Q1−1.5L≦A≦Q1)内にある温度T1の内の最小値を表している。上側の辺Bmaxは、第3四分位数Q3から四分位範囲Lの1.5倍の範囲B(Q3≦B≦Q3+1.5L)内にある温度T1の内の最大値を表している。当該範囲内に温度T1のデータがない場合には、辺Amin、Bmaxは描かれない。小集合G2〜G5の箱ひげ図BG2〜BG5及び図3以降に示す箱ひげ図についても、箱ひげ図の見方は同様である。
本実施の形態によるデータ解析方法について再び説明する。5個の小集合Gjへの分割の次に、小集合Gj毎に小集合Gjに属するレコードRiの温度T1の平均値Ave(T1)を求める。図3に示すように、小集合Gjを温度T1の平均値Ave(T1)の大きい順に挙げると、小集合G2(平均値=21.7)、G3(19.52)、G4(12.32)、G1(9.12)、G5(6.82)となる。次に、5個の小集合Gjを平均値Ave(T1)の降順に並べ替える。並び替えた順番は、G2、G3、G4、G1、G5である。
次に、平均値順に並べ替えた5個の小集合Gjを、平均値が大きい方からk個(kは自然数、k=1、2、・・、4(=5−1))の小集合Gjで構成される大集合G’1kと残りの(5−k)個の小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する4(=5−1)通りの組み合わせAkを求める。4通りの組み合わせAkを表1に示す。
表1は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gjを示している。例えば、組み合わせA1では、大集合G’11は平均値が最も大きい一つの小集合G2で構成され、大集合G’21は平均値がG2より小さい4つの小集合G3、G4、G1、G5で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目大きい2つの小集合G2、G3で構成され、大集合G’22は平均値がG2、G3より小さい3つの小集合G4、G1、G5で構成される。
次に、4通りの組み合わせAkのそれぞれについて次の(1)式で表されるまとまり度を求める。
まとまり度=[{S0−(S1+S2)}/S0]×100 ・・・(1)
ただし、S0はm個(本実施の形態ではm=25)のレコードRiの目的変数(本実施の形態では温度T1)の偏差平方和、S1は大集合G’1kに属するレコードRiの温度T1の偏差平方和、S2は大集合G’2kに属するレコードRiの温度T1の偏差平方和である。偏差平方和S0を求める際に用いられる平均値は25個のレコードRiの温度T1の平均値(13.896)である。偏差平方和S1を求める際に用いられる平均値は大集合G’1kに属するレコードRiの温度T1の平均値である。偏差平方和S2を求める際に用いられる平均値は大集合G’2kに属するレコードRiの温度T2の平均値である。まとまり度は、0%以上100%以下の範囲の値をとる。
まとまり度は数学的に以下の意味を持つ。まとまり度は、n個(本実施の形態ではn=5)の小集合Gjを2つの大集合G’1k、G’2kに分割したことにより、それぞれの大集合G’1k、G’2kに属するレコードRiの温度T1の値のまとまりがどれだけ良くなったかを表す指標である。まとまり度の値が大きいほど、2つの大集合G’1k、G’2kに分割することにより、大集合G’1k、G’2kそれぞれに属するレコードRiの温度T1の値のばらつきが小さくなる。逆に、まとまり度の値が小さいほど、分割しても大集合G’1k、G’2kそれぞれに属するレコードRiの温度T1の値のばらつきは変わらない。
次に、同じデータ(すなわち(1)式のS0が同じ。本願では全てこれに該当する)に対して得られたまとまり度について記す。まとまり度の値が大きいことは、前述のように2つの大集合G’1k、G’2k内での温度T1のばらつきが小さいことを意味する。このことを同じ2つの大集合G’1k、G’2k間について見ると、それぞれの集合に属するレコードRiの温度T1の統計的有意差が大きいことを意味する。まとまり度が小さいことは、統計的有意差が小さいことを意味する。
まとまり度は標準化された指標であり、目的変数及び目的変数の物理単位によらない指標である。まとまり度は標準化された指標であるので、温度T1以外のデータ(第2乃至第4の実施の形態においてデータ解析の対象となる温度T2、T3、T4等)での解析結果についても共通的な指標として扱うことができる。4通りの組み合わせAk毎にまとまり度を求めた結果を表2に示す。
表2は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gj及び組み合わせAkのまとまり度を示している。表2に示すように、まとまり度は組み合わせA2、A3、A1、A4の順に大きい。
次に、4通りの組み合わせAkをまとまり度の値の降順(組み合わせA2、A3、A1、A4の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。出力結果をコンピュータの表示画面等に表示する際、これらの他に、大集合G’1k、G’2k毎の目的変数(温度T1)の記述統計量(データ個数、最大値、最小値、平均値及び標準偏差等)も出力することにより、確認をより容易に行うことができる。本実施の形態によるデータ解析方法では、m個(本実施の形態ではm=25)のレコードRiを時刻D順にn個(本実施の形態ではn=5)の小集合Gjにグループ化しているので、目的変数(温度T1)に差が生じている区間の組み合わせAkが順に抽出されることになる。
図4は、本実施の形態によるデータ解析方法による出力結果例を示している。図4は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合Gj及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合Gj及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの区間(大集合G’1k区間)、大集合G’2kの区間(大集合G’2k区間)を示している。
図4に示す大集合G’1k、G’2kの区間をコンピュータの表示画面等に表示する場合、小集合Gjが連続しているものを自動的に認識して連続区間として表示する。例えば、図4に示すように、組み合わせA2の大集合G’12は日付が連続している小集合G2(3月6日−3月10日)、G3(3月11日−15日)で構成されているので、大集合G’1kの区間を「3/6−3/15」とまとめて表示する。
図4に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA2である。組み合わせA2では、大集合G’12が小集合G2、G3(3/6−3/15)で構成され、大集合G’22が小集合G1、G4、G5(3/1−3/5、3/16−3/25)で構成される。組み合わせA2のまとまり度は81.19であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA3である。組み合わせA3では、大集合G’13が小集合G2、G3、G4(3/6−3/20)で構成され、大集合G’23が小集合G1、G5(3/1−3/5、3/21−3/25)で構成される。組み合わせA3のまとまり度は63.25である。次にまとまり度が大きい組み合わせAk(ランク3)は組み合わせA1である。組み合わせA1のまとまり度は41.13である。最もまとまり度が小さい組み合わせAkは組み合わせA4である。組み合わせA4のまとまり度は、33.82である。
図5は、組み合わせA2の大集合G’12、G’22の温度T1の分布を示す箱ひげ図である。同様に、図6乃至図8は、組み合わせA3、A1、A4それぞれの大集合G’1k、G’2kの温度T1の分布を示す箱ひげ図である。図5乃至図8において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T1(℃)を表している。図5に示すように、まとまり度が81.19と最も大きい組み合わせA2では、大集合G’12、G’22の温度T1の統計的有意差が最大となる。図5乃至図8に示すように、まとまり度が小さくなるに従って大集合G’1k、G’2kの温度T1の統計的有意差が小さくなっていく。
本実施の形態によるデータ解析方法によれば、n個(本実施の形態ではn=5)の小集合Gjを2つの大集合G’1、G’2に分ける分け方において、2つの大集合G’1、G’2の温度T1の値の統計的有意差が最大になる分け方が定量的な指標であるまとまり度を用いて自動的に抽出される。まとまり度は統計的有意差を示す指標である。従って、技術者等は組み合わせA2、A3、A1、A4の順に統計的有意差が小さくなっていくことをまとまり度を見ることによって定量的に把握することができる。
仮に、技術者等が図2に示すトレンドグラフを見て温度T1(目的変数)の値が他の区間と際立って異なる区間を抽出することを試みる場合、技術者等は個々の技術者等のそれまでのノウハウ、経験、あるいは技術などに基づいて判断しなければならない。図2を見ると3/6−3/10の区間の温度T1が相対的に高いので、一見すると3/6−3/10の区間に注目すべきように見える。そして、この区間だけ特殊事情があるとして解析を進めたくなる。
一方、本実施の形態によるデータ解析方法によれば、5個の小集合Gjを3/6−3/15の区間(小集合G2、G3)と3/1−3/5、3/16−3/25の区間(小集合G1、G4、G5)とに分割した場合(組み合わせA2)に温度T1の値の統計的有意差が最も大きくなることが自動的に抽出される。そして、技術者等は両区間に差異をもたらしている原因が何かを見つける解析を行うことがより効率的に不良要因等を見つけるのに有効であることを判断できる。
また、5個の小集合Gjを3/6−3/20の区間(小集合G2、G3、G4)と3/1−3/5、3/21−3/25の区間(小集合G1、G5)とに分ける区間分け(組み合わせA3)が次にまとまり度が大きい。この区間分けが次に注目すべき区間分けであることがまとまり度を見ることによって判断される。
本実施の形態によるデータ解析方法は以下の効果を有する。
本実施の形態によれば、どのような区間分割を行えば2つの区間の目的変数(温度T1)の値に最も統計的有意差が存在するかが自動的に抽出される。よって、本実施の形態によれば、従来のデータ解析方法と異なり、技術者等が1つずつトレンドグラフを見てデータ解析を行う必要がなく、技術者等はトレンドグラフを見る以前に最も統計的有意差が存在する区間分割を知ることができる。従って、本実施の形態によるデータ解析方法は、効率的なデータ解析を実現でき、データ解析に要する時間が短縮される。また、本実施の形態によれば、まとまり度という定量的な指標を用いてデータ解析を行うので、個々の技術者等のノウハウや経験や技術などに依存する割合を少なくすることができる。従って、本実施の形態によるデータ解析方法は、信頼性の高いデータ解析を実現できる。
本実施の形態によるデータ解析方法は、m個(本実施の形態ではm=25)のレコードRiをn個(本実施の形態ではn=5)の小集合Gjに分割する。そして、n個の小集合Gjを2つの大集合G’1、G’2に分ける分け方において、2つの大集合G’1、G’2の目的変数(本実施の形態では温度T1)の値の統計的有意差が最大になる分け方を抽出する。本実施の形態によるデータ解析方法は、当該統計的有意差を抽出する方法に回帰木分析の考え方を応用している。
回帰木分析について図9を用いて簡単に説明する。図9は、回帰木分析においてデータ解析の対象となるデータファイル2を示している。図9に示すように、回帰木分析は、v種類の説明変数xu(u=1、2、・・、v((vは自然数))でそれぞれ構成された説明変数群Xi(i=1、2、・・、m(mは自然数、m≧2))と説明変数群Xiに影響を受ける目的変数yiとをそれぞれ有するm個のレコードRiをデータ解析の対象とし、目的変数yiに最も影響を与える説明変数xu及びその条件(説明変数xuの値)を抽出する。目的変数yiは、量的変数である。
回帰木分析の処理は、各説明変数xuの値に基づいて集合の2分割を繰り返していくことで実現される。回帰木分析では、初めにm個のレコードRiを2つの大集合G’1、G’2に分割する。当該集合分割の際、次の(2)式で表されるΔSが最大となる説明変数xuの種類及び当該説明変数xuの値を求め、当該説明変数xu及びその値に基づいて複数のレコードRiを2つの大集合G’1、G’2に分割する。
ΔS=S0−(S1+S2) ・・・(2)
ただし、S0は分割前のm個のレコードRiの目的変数yiの偏差平方和であり、S1、S2はそれぞれ分割後の2つの大集合G’1、G’2の目的変数yiの偏差平方和である。ここで、ΔSが最大となる集合分割が2つの大集合G’1、G’2の目的変数yiの値に最も統計的有意差が生じているものとなる。
回帰木分析では、m個のレコードRiを2つの大集合G’1、G’2に分割する2(m−1)−1通りの組み合わせの全てについてΔSが計算され、最も目的変数yiに統計的有意差が生じる組み合わせが抽出される。説明変数xuの水準値毎の組み合わせによる目的変数yiの値が課題だからである。
一方、本実施の形態によるデータ解析方法は回帰木分析と以下の点で異なる。本実施の形態によるデータ解析方法では、目的変数yi(温度T1)に影響を与えるとされた説明変数は時刻区間を示す小集合Gjの1種類である。また、本実施の形態によるデータ解析方法では、n個の小集合Gjを目的変数yiの平均値の大きさ順に2分割する(n−1)通りの組み合わせについてのみ、目的変数yiの統計的有意差を求めればよい。本実施の形態によるデータ解析方法は、n水準存在する小集合Gjの水準値の組み合わせによりn個の小集合Gjを2分割した場合に目的変数yiに生じる統計的有意差を求めることを課題とするからである。
[第2の実施の形態]
本発明の第2の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図10乃至図17を用いて説明する。まず図10及び図11を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図10は、本実施の形態においてデータ解析の対象となるデータファイル101を示す表である。図10に示すように、データファイル101は、3月1日から3月25日までの1日毎の温度T2(℃)のデータを有している。データファイル101は25個のレコードRi(i=1、2、・・、25)で構成されている。各レコードRiは、時刻Dと温度T2(℃)とのデータをそれぞれ有している。各レコードRiのレコード番号は、時刻D順に与えられている。
温度T2は、温度T1と同様に、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度T2が目的変数であり、時刻Dが説明変数である。
図11は、温度T2のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T2(℃)を表している。図11を見ると、温度T2の時刻変動は図2に示す温度T1の時刻変動と大きく異なっているように見える。しかしながら、図1及び図10に示すように、温度T2の時刻変動は、温度T1の時刻変動に対して、3/11−3/15(第1の実施の形態における小集合G3の区間)の温度と3/21−3/25(第1の実施の形態における小集合G5の区間)の温度とが入れ替わった点のみが異なっている。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル101に対して、第1の実施の形態によるデータ解析方法と同様のデータ解析を行う。まず、図10に示すように、25個のレコードRiを説明変数の値の順、すなわち時刻D順に並べ替える。
次に、図10に示すように、時刻D順に並べ替えた25個のレコードRiを5個の小集合Gj(j=1、2、・・、5)に分割する。小集合Gjのそれぞれは、時刻D順に並べ替えた順番が連続しているレコードRiで構成される。また、小集合Gjのそれぞれは、同数の5個のレコードRiで構成される。各小集合Gjの区間は、第1の実施の形態での小集合Gjの区間と同一である。全てのレコードRiは小集合Gjのいずれかに属し、各レコードRiには属性としてグループid(Gj)が追加される。各小集合Gjは、グループid、小集合Gjを構成するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)並びに各レコードRiの目的変数(温度T2)を属性とする情報で構成される。5つの小集合Gjを時刻D順に挙げると、G1、G2、G3、G4、G5となる。
図10に示すように、小集合G1は、レコードR1〜R5(3月1日〜5日)で構成される。小集合G2は、レコードR6〜R10(3月6日〜10日)で構成される。小集合G3は、レコードR11〜R15(3月11日〜15日)で構成される。小集合G4は、レコードR16〜R20(3月16日〜20日)で構成される。小集合G5は、レコードR21〜R25(3月21日〜25日)で構成される。
ここで、各小集合Gjの温度T2の分布を図12に示す。図12は、小集合Gj毎に温度T2の分布を示す箱ひげ図(Box and whiskers plot)である。図12において、横軸は小集合Gj、縦軸は温度T2(℃)を表している。温度T2の時刻変動は、温度T1の時刻変動に対して、小集合G3の区間(3月11日〜15日)の温度と小集合G5の区間(3月21日〜25日)の温度とが入れ替わった点のみが異なっている。従って、図12に示すように、各小集合Gjの温度T2の分布は、図3に示す各小集合Gjの温度T1の分布に対して、小集合G3の温度分布と小集合G5の温度分布とが入れ替わっている点のみが異なっている。
5個の小集合Gjへの分割の次に、小集合Gj毎に小集合Gjに属するレコードRiの温度T2の平均値Ave(T2)を求める。図12に示すように、小集合Gjを温度T2の平均値Ave(T2)の大きい順に挙げると、小集合G2、G5、G4、G1、G3となる。次に、5個の小集合Gjを平均値Ave(T2)の降順に並べ替える。並び替えた順番は、G2、G5、G4、G1、G3である。5個の小集合Gjを温度T2の平均値Ave(T2)の降順に並び替えた順番は、温度T1の平均値Ave(T1)の降順に並び替えた順番に対して、G3とG5との順番が入れ替わっている点のみが異なっている。
次に、平均値順に並べ替えた5個の小集合Gjを、平均値が大きい方からk個(kは自然数、k=1、2、・・、4(=5−1))の小集合Gjで構成される大集合G’1kと残りの(5−k)個の小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する4(=5−1)通りの組み合わせAkを求める。4通りの組み合わせAkを表3に示す。
表3は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gjを示している。例えば、組み合わせA1では、大集合G’11は平均値が最も大きい一つの小集合G2で構成され、大集合G’21は平均値がG2より小さい4つの小集合G5、G4、G1、G3で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目大きい2つの小集合G2、G5で構成され、大集合G’22は平均値がG2、G3より小さい3つの小集合G4、G1、G3で構成される。
次に、4通りの組み合わせAkのそれぞれについてまとまり度を求める。4通りの組み合わせAk毎にまとまり度を求めた結果を表4に示す。
表4は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gj及び組み合わせAkのまとまり度を示している。表4に示すように、まとまり度は組み合わせA2、A3、A1、A4の順に大きい。各小集合Gjの温度T2の分布は、各小集合Gjの温度T1の分布に対して、小集合G3の温度分布と小集合G5の温度分布とが入れ替わっている点のみが異なっている。よって、各組み合わせAkの大集合G’1k、G’2kそれぞれの温度T2の分布は、第1の実施の形態での大集合G’1k、G’2kそれぞれの温度T1の分布と同じである。従って、各組み合わせAkのまとまり度は、第1の実施の形態での各組み合わせAkのまとまり度と同じである。
次に、4通りの組み合わせAkをまとまり度の値の降順(組み合わせA2、A3、A1、A4の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図13は、本実施の形態によるデータ解析方法による出力結果例を示している。図13は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合Gj及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合Gj及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの区間(大集合G’1k区間)、大集合G’2kの区間(大集合G’2k区間)を示している。
図13に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA2である。組み合わせA2では、大集合G’12が小集合G2、G5(3/6−3/10、3/21−3/25)で構成され、大集合G’22が小集合G1、G3、G4(3/1−3/5、3/11−3/20)で構成される。組み合わせA2のまとまり度は81.19であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA3である。組み合わせA3では、大集合G’13が小集合G2、G4、G5(3/6−3/10、3/16−3/25)で構成され、大集合G’23が小集合G1、G3(3/1−3/5、3/11−3/15)で構成される。組み合わせA3のまとまり度は63.25である。次にまとまり度が大きい組み合わせAk(ランク3)は組み合わせA1である。組み合わせA1のまとまり度は41.13である。最もまとまり度が小さい組み合わせAkは組み合わせA4である。組み合わせA4のまとまり度は、33.82である。
図14は、組み合わせA2の大集合G’12、G’22の温度T2の分布を示す箱ひげ図である。同様に、図15乃至図17は、組み合わせA3、A1、A4それぞれの大集合G’1k、G’2kの温度T2の分布を示す箱ひげ図である。図14乃至図17において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T2(℃)を表している。各組み合わせAkの大集合G’1k、G’2kそれぞれの温度T2の分布は、第1の実施の形態での大集合G’1k、G’2kそれぞれの温度T1の分布と同じである。従って、図14乃至図17に示す大集合G’1k、G’2kの温度T2の分布を示す箱ひげ図は、図5乃至図8に示す大集合G’1k、G’2kの温度T1の分布を示す箱ひげ図と同じである。図14に示すように、まとまり度が81.19と最も大きい組み合わせA2では、大集合G’12、G’22の温度T2の統計的有意差が最大となる。図14乃至図17に示すように、まとまり度が小さくなるに従って大集合G’1k、G’2kの温度T2の統計的有意差が小さくなっていく。
図2及び図11を見ると、温度T2の時刻変動は温度T1の時刻変動と大きく異なっているように見える。しかしながら、本実施の形態によるデータ解析方法によれば、図4及び図13に示すように、各組み合わせAkのまとまり度が第1の実施の形態での各組み合わせAkのまとまり度と同じであるという結果が得られる。よって、技術者等は、図4及び図13を見ることによって、温度T2の時刻変動と温度T1の時刻変動とに多くの共通点があることを知ることができる。そして、技術者等は例えば図1及び図10に示すデータファイル1、101や図3及び図12に示す箱ひげ図を見ることによって、温度T1の時刻変動と温度T2の時刻変動とでは小集合G3の区間(3月11日〜15日)の温度と小集合G5の区間(3月21日〜25日)の温度とが入れ替わった点のみが異なっていることを知ることができる。従って、本実施の形態によるデータ解析方法によれば、技術者等は、図3に示す小集合G2、G3の区間(3月6日〜15日)と図12に示す小集合G2、G5の区間(3月6日〜10日、21日〜25日)とでは同じ現象が生じている可能性が有り、同じような不良要因が有る可能性があることを推定することができる。
しかしながら、仮に、技術者等が図11に示すトレンドグラフを見て温度T2(目的変数)の値が他の区間と際立って異なる区間を抽出することを試みる場合、温度T1の時刻変動と温度T2の時刻変動との当該共通点及び差異を発見することは困難である。従って、図3に示す小集合G2、G3の区間(3月6日〜15日)と図12に示す小集合G2、G5の区間(3月6日〜10日、21日〜25日)とでは同じ現象が生じている可能性が有り、同じような不良要因が有る可能性があることを技術者等が推定することも困難である。
また、本実施の形態によるデータ解析方法によれば、第1の実施の形態によるデータ解析方法と同様の効果が得られる。
[第3の実施の形態]
本発明の第3の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図18乃至図25を用いて説明する。まず図18及び図19を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図18は、本実施の形態においてデータ解析の対象となるデータファイル201を示す表である。図18に示すように、データファイル201は、3月1日から3月25日までの1日毎の温度T3(℃)のデータを有している。データファイル201は25個のレコードRi(i=1、2、・・、25)で構成されている。各レコードRiは、時刻Dと温度T3(℃)とのデータをそれぞれ有している。各レコードRiのレコード番号は、時刻D順に与えられている。
温度T3は、温度T1と同様に、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度T3が目的変数であり、時刻Dが説明変数である。
図19は、温度T3のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T3(℃)を表している。図19に示すように、温度T3は3/6−3/10の区間で他の区間に比べて際立って大きな値となっている。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル201に対して、第1の実施の形態によるデータ解析方法と同様のデータ解析を行う。まず、図18に示すように、25個のレコードRiを説明変数の値の順、すなわち時刻D順に並べ替える。
次に、図18に示すように、時刻D順に並べ替えた25個のレコードRiを5個の小集合Gj(j=1、2、・・、5)に分割する。小集合Gjのそれぞれは、時刻D順に並べ替えた順番が連続しているレコードRiで構成される。また、小集合Gjのそれぞれは、同数の5個のレコードRiで構成される。各小集合Gjの区間は、第1の実施の形態での小集合Gjの区間と同一である。全てのレコードRiは小集合Gjのいずれかに属し、各レコードRiには属性としてグループid(Gj)が追加される。各小集合Gjは、グループid、小集合Gjを構成するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)並びに各レコードRiの目的変数(温度T3)を属性とする情報で構成される。5つの小集合Gjを時刻D順に挙げると、G1、G2、G3、G4、G5となる。
図18に示すように、小集合G1は、レコードR1〜R5(3月1日〜5日)で構成される。小集合G2は、レコードR6〜R10(3月6日〜10日)で構成される。小集合G3は、レコードR11〜R15(3月11日〜15日)で構成される。小集合G4は、レコードR16〜R20(3月16日〜20日)で構成される。小集合G5は、レコードR21〜R25(3月21日〜25日)で構成される。
ここで、各小集合Gjの温度T3の分布を図20に示す。図20は、小集合Gj毎に温度T3の分布を示す箱ひげ図(Box and whiskers plot)である。図20において、横軸は小集合Gj、縦軸は温度T3(℃)を表している。
5個の小集合Gjへの分割の次に、小集合Gj毎に小集合Gjに属するレコードRiの温度T3の平均値Ave(T3)を求める。図20に示すように、小集合Gjを温度T3の平均値Ave(T3)の大きい順に挙げると、小集合G2、G5、G1、G4、G3となる。次に、5個の小集合Gjを平均値Ave(T3)の降順に並べ替える。並び替えた順番は、G2、G5、G1、G4、G3である。
次に、平均値順に並べ替えた5個の小集合Gjを、平均値が大きい方からk個(kは自然数、k=1、2、・・、4(=5−1))の小集合Gjで構成される大集合G’1kと残りの(5−k)個の小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する4(=5−1)通りの組み合わせAkを求める。4通りの組み合わせAkを表5に示す。
表5は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gjを示している。例えば、組み合わせA1では、大集合G’11は平均値が最も大きい一つの小集合G2で構成され、大集合G’21は平均値がG2より小さい4つの小集合G5、G1、G4、G3で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目大きい2つの小集合G2、G5で構成され、大集合G’22は平均値がG2、G3より小さい3つの小集合G1、G4、G3で構成される。
次に、4通りの組み合わせAkのそれぞれについてまとまり度を求める。4通りの組み合わせAk毎にまとまり度を求めた結果を表6に示す。
表6は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gj及び組み合わせAkのまとまり度を示している。表6に示すように、まとまり度は組み合わせA1、A2、A3、A4の順に大きい。
次に、4通りの組み合わせAkをまとまり度の値の降順(組み合わせA1、A2、A3、A4の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図21は、本実施の形態によるデータ解析方法による出力結果例を示している。図21は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合Gj及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合Gj及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの区間(大集合G’1k区間)、大集合G’2kの区間(大集合G’2k区間)を示している。
図21に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA1である。組み合わせA1では、大集合G’11が小集合G2(3/6−3/10)で構成され、大集合G’21が小集合G1、G3、G4、G5(3/1−3/5、3/11−3/25)で構成される。組み合わせA1のまとまり度は86.78であり、他の組み合わせAkに比べて際立って大きな値となっている。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA2である。組み合わせA2では、大集合G’12が小集合G2、G5(3/6−3/10、3/21−3/25)で構成され、大集合G’22が小集合G1、G3、G4(3/1−3/5、3/11−3/20)で構成される。組み合わせA2のまとまり度は44.47である。次にまとまり度が大きい組み合わせAk(ランク3)は組み合わせA3である。組み合わせA3のまとまり度は29.72である。最もまとまり度が小さい組み合わせAkは組み合わせA4である。組み合わせA4のまとまり度は、12.02である。
図22は、組み合わせA1の大集合G’11、G’21の温度T3の分布を示す箱ひげ図である。同様に、図23乃至図25は、組み合わせA2、A3、A4それぞれの大集合G’1k、G’2kの温度T3の分布を示す箱ひげ図である。図22乃至図25において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T3(℃)を表している。図22に示すように、まとまり度が86.78と際立って大きい組み合わせA1では、大集合G’11、G’21の温度T3の統計的有意差が際だって大きい。図22乃至図25に示すように、まとまり度が小さくなるに従って大集合G’1k、G’2kの温度T3の統計的有意差が小さくなっていく。
本実施の形態によるデータ解析方法によれば、5個の小集合Gjを3/6−3/10の区間(小集合G2)と3/1−3/5、3/11−3/25の区間(小集合G1、G3、G4、G5)とに分割した場合(組み合わせA1)に、まとまり度が他の区間分け(組み合わせAk)に比べて際立って大きくなるという結果が得られる。まとまり度は、大集合G’1kに属するレコードRiの温度T1の値と大集合G’2kに属するレコードRiの温度T1の値との統計的有意差の有無を表す指標となる。従って、技術者等は、3/6−3/10の区間と3/1−3/5、3/11−3/25の区間に分割する区間分けが統計的有意差が際立って大きくなることを、定量的な指標であるまとまり度を用いて把握することができる。そして、技術者等は、両区間の温度T3の差異に何らかの要因があり解析するに値する可能性が高いことを知ることができる。
本実施の形態によるデータ解析のように、1つの区間分け(組み合わせAk)が他の区間分けに比べてまとまり度が際立って大きくなるという結果が得られる場合、当該区間分けは他の区間分けに比べて2つの区間(大集合G’1k、G’2k)の統計的有意差が際立って大きく、当該区間分けは特に解析するに値すると言える。本実施の形態によれば、技術者等は、図19に示すトレンドグラフを見ずに、まとまり度を見ることによって、当該区間分けが特に解析するに値することを定量的に把握することができる。
また、本実施の形態によるデータ解析方法によれば、第1の実施の形態によるデータ解析方法と同様の効果が得られる。
[第4の実施の形態]
本発明の第4の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図26乃至図33を用いて説明する。まず図26及び図27を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図26は、本実施の形態においてデータ解析の対象となるデータファイル301を示す表である。図26に示すように、データファイル301は、3月1日から3月25日までの1日毎の温度T4(℃)のデータを有している。データファイル301は25個のレコードRi(i=1、2、・・、25)で構成されている。各レコードRiは、時刻Dと温度T4(℃)とのデータをそれぞれ有している。各レコードRiのレコード番号は、時刻D順に与えられている。
温度T4は、温度T1と同様に、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度T4が目的変数であり、時刻Dが説明変数である。
図27は、温度T4のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T4(℃)を表している。図19に示す温度T3の時刻変動とは異なり、図27に示す温度T4の時刻変動には、他の区間に比べて特徴的な値を有する区間があるとは見えない。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル301に対して、第1の実施の形態によるデータ解析方法と同様のデータ解析を行う。まず、図26に示すように、25個のレコードRiを説明変数の値の順、すなわち時刻D順に並べ替える。
次に、図26に示すように、時刻D順に並べ替えた25個のレコードRiを5個の小集合Gj(j=1、2、・・、5)に分割する。小集合Gjのそれぞれは、時刻D順に並べ替えた順番が連続しているレコードRiで構成される。また、小集合Gjのそれぞれは、同数の5個のレコードRiで構成される。各小集合Gjの区間は、第1の実施の形態での小集合Gjの区間と同一である。全てのレコードRiは小集合Gjのいずれかに属し、各レコードRiには属性としてグループid(Gj)が追加される。各小集合Gjは、グループid、小集合Gjを構成するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)並びに各レコードRiの目的変数(温度T4)を属性とする情報で構成される。5つの小集合Gjを時刻D順に挙げると、G1、G2、G3、G4、G5となる。
図26に示すように、小集合G1は、レコードR1〜R5(3月1日〜5日)で構成される。小集合G2は、レコードR6〜R10(3月6日〜10日)で構成される。小集合G3は、レコードR11〜R15(3月11日〜15日)で構成される。小集合G4は、レコードR16〜R20(3月16日〜20日)で構成される。小集合G5は、レコードR21〜R25(3月21日〜25日)で構成される。
ここで、各小集合Gjの温度T4の分布を図28に示す。図28は、小集合Gj毎に温度T4の分布を示す箱ひげ図(Box and whiskers plot)である。図28において、横軸は小集合Gj、縦軸は温度T4(℃)を表している。
5個の小集合Gjへの分割の次に、小集合Gj毎に小集合Gjに属するレコードRiの温度T4の平均値Ave(T4)を求める。図28に示すように、小集合Gjを温度T4の平均値Ave(T4)の大きい順に挙げると、小集合G2、G1、G3、G4、G5となる。次に、5個の小集合Gjを平均値Ave(T4)の降順に並べ替える。並び替えた順番は、G2、G1、G3、G4、G5である。
次に、平均値順に並べ替えた5個の小集合Gjを、平均値が大きい方からk個(kは自然数、k=1、2、・・、4(=5−1))の小集合Gjで構成される大集合G’1kと残りの(5−k)個の小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する4(=5−1)通りの組み合わせAkを求める。4通りの組み合わせAkを表7に示す。
表7は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gjを示している。例えば、組み合わせA1では、大集合G’11は平均値が最も大きい一つの小集合G2で構成され、大集合G’21は平均値がG2より小さい4つの小集合G1、G3、G4、G5で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目大きい2つの小集合G2、G1で構成され、大集合G’22は平均値がG2、G1より小さい3つの小集合G3、G4、G5で構成される。
次に、4通りの組み合わせAkのそれぞれについてまとまり度を求める。4通りの組み合わせAk毎にまとまり度を求めた結果を表8に示す。
表8は、4通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合Gj及び組み合わせAkのまとまり度を示している。表8に示すように、まとまり度は組み合わせA1、A4、A2、A3の順に大きい。
次に、4通りの組み合わせAkをまとまり度の値の降順(組み合わせA1、A4、A2、A3の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図29は、本実施の形態によるデータ解析方法による出力結果例を示している。図29は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合Gj及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合Gj及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの区間(大集合G’1k区間)、大集合G’2kの区間(大集合G’2k区間)を示している。
図29に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA1である。組み合わせA1では、大集合G’11が小集合G2(3/6−3/10)で構成され、大集合G’21が小集合G1、G3、G4、G5(3/1−3/5、3/11−3/25)で構成される。組み合わせA1のまとまり度は14.47である。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA4である。組み合わせA4では、大集合G’14が小集合G1、G2、G3、G4(3/1−3/20)で構成され、大集合G’24が小集合G5(3/21−3/25)で構成される。組み合わせA4のまとまり度は11.22である。次にまとまり度が大きい組み合わせAk(ランク3)は組み合わせA2である。組み合わせA2のまとまり度は10.95である。最もまとまり度が小さい組み合わせAkは組み合わせA3である。組み合わせA3のまとまり度は、9.18である。本実施の形態では最大のまとまり度は14.47であり、第1乃至第3の実施の形態での各組み合わせAkのまとまり度に比べて極端に小さくなっている。また、本実施の形態では、各組み合わせAkのまとまり度にさほど差がない。
図30は、組み合わせA1の大集合G’11、G’21の温度T4の分布を示す箱ひげ図である。同様に、図31乃至図33は、組み合わせA4、A2、A3それぞれの大集合G’1k、G’2kの温度T4の分布を示す箱ひげ図である。図30乃至図33において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T4(℃)を表している。
本実施の形態によるデータ解析のように、各組み合わせAkのまとまり度の値が相対的に極端に小さく、各組み合わせAkのまとまり度にさほど差がないという結果が得られる場合、目的変数(本実施の形態では温度T4)の値が他の区間と際立って異なる区間(特徴的な区間)がないと言える。従って、解析するに値する区間分けがないと言える。本実施の形態によれば、技術者等は、図27に示すトレンドグラフを見ずに、まとまり度を見ることによって、当該特徴的な区間がないことを定量的に把握することができる。
また、本実施の形態によるデータ解析方法によれば、第1の実施の形態によるデータ解析方法と同様の効果が得られる。
[第5の実施の形態]
本発明の第5の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図34乃至図39を用いて説明する。図34は、本実施の形態においてデータ解析の対象となるデータファイル401を示す表である。図34に示すように、データファイル401は、第1の実施の形態においてデータ解析の対象となるデータファイル1と同じである。本実施の形態によるデータ解析において、温度T1が目的変数であり、時刻Dが説明変数である。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態によるデータ解析方法は、第1の実施の形態によるデータ解析方法に対して、小集合の区間の区切り方を変える点に特徴を有している。まず、図34に示すように、25個のレコードRiを説明変数の値の順、すなわち時刻D順に並べ替える。
次に、図34に示すように、時刻D順に並べ替えた25個のレコードRiを4個の小集合G2j(j=1、2、・・、4)に分割する。小集合G2jのそれぞれは、時刻D順に並べ替えた順番が連続しているレコードRiで構成される。また、小集合G2jのそれぞれは、同数の5個のレコードRiで構成される。図34に示すように、本実施の形態によるデータ解析方法では、各小集合G2jのレコードRiの開始位置が、第1の実施の形態による小集合Gjのレコードの開始位置に対して、それぞれ2レコード(2日)後ろにずれている。先頭2レコード(レコードR1、R2)及び最終3レコード(レコードR23、R24、R25)はいずれの小集合G2jにも属さず、データ解析の対象外となる。
レコードR1、R2、R23、R24、R25以外のレコードRiには属性としてグループid(G2j)が追加される。各小集合G2jは、グループid、小集合G2jを構成するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)並びに各レコードRiの目的変数(温度T1)を属性とする情報で構成される。4つの小集合G2jを時刻D順に挙げると、G21、G22、G23、G24となる。
図34に示すように、小集合G21は、レコードR3〜R7(3月3日〜7日)で構成される。小集合G22は、レコードR8〜R12(3月8日〜12日)で構成される。小集合G23は、レコードR13〜R17(3月13日〜17日)で構成される。小集合G24は、レコードR18〜R22(3月18日〜22日)で構成される。
ここで、各小集合G2jの温度T1の分布を図35に示す。図35は、小集合G2j毎に温度T1の分布を示す箱ひげ図(Box and whiskers plot)である。図35において、横軸は小集合G2j、縦軸は温度T1(℃)を表している。
4個の小集合G2jへの分割の次に、小集合G2j毎に小集合G2jに属するレコードRiの温度T1の平均値Ave(T1)を求める。図35に示すように、小集合G2jを温度T1の平均値Ave(T1)の大きい順に挙げると、小集合G22、G23、G21、G24となる。次に、4個の小集合G2jを平均値Ave(T1)の降順に並べ替える。並び替えた順番は、G22、G23、G21、G24である。
次に、平均値順に並べ替えた4個の小集合G2jを、平均値が大きい方からk個(kは自然数、k=1、2、3(=4−1))の小集合G2jで構成される大集合G’1kと残りの(4−k)個の小集合G2jで構成される大集合G’2kとの2つの大集合にそれぞれ分割する3(=4−1)通りの組み合わせAkを求める。3通りの組み合わせAkを表9に示す。
表9は、3通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合G2jを示している。例えば、組み合わせA1では、大集合G’11は平均値が最も大きい一つの小集合G22で構成され、大集合G’21は平均値がG22より小さい3つの小集合G23、G21、G24で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目大きい2つの小集合G22、G23で構成され、大集合G’22は平均値がG22、G23より小さい2つの小集合G21、G24で構成される。
次に、3通りの組み合わせAkのそれぞれについてまとまり度を求める。3通りの組み合わせAk毎にまとまり度を求めた結果を表10に示す。
表10は、3通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合G2j及び組み合わせAkのまとまり度を示している。表10に示すように、まとまり度は組み合わせA1、A2、A3の順に大きい。
次に、3通りの組み合わせAkをまとまり度の値の降順(組み合わせA1、A2、A3の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図36は、本実施の形態によるデータ解析方法による出力結果例を示している。図36は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合G2j及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合G2j及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの区間(大集合G’1k区間)、大集合G’2kの区間(大集合G’2k区間)を示している。
図36に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA1である。組み合わせA1では、大集合G’11が小集合G22(3/8−3/12)で構成され、大集合G’21が小集合G23、G21、G24(3/3−3/7、3/13−3/22)で構成される。組み合わせA1のまとまり度は45.62である。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA2である。組み合わせA2では、大集合G’12が小集合G22、G23(3/8−3/17)で構成され、大集合G’22が小集合G21、G24(3/3−3/7、3/18−3/22)で構成される。組み合わせA2のまとまり度は44.07である。最もまとまり度が小さい組み合わせAk(ランク3)は組み合わせA3である。組み合わせA3のまとまり度は、28.02である。
図37は、組み合わせA1の大集合G’11、G’21の温度T1の分布を示す箱ひげ図である。同様に、図38及び図39は、組み合わせA2、A3それぞれの大集合G’1k、G’2kの温度T1の分布を示す箱ひげ図である。図37乃至図39において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T1(℃)を表している。図37に示すように、まとまり度が45.62と最も大きい組み合わせA1では、大集合G’11、G’21の温度T1の統計的有意差が最大となる。図37乃至図39に示すように、まとまり度が小さくなるに従って大集合G’1k、G’2kの温度T1の統計的有意差が小さくなっていく。
本実施の形態によるデータ解析では、第1の実施の形態によるデータ解析に対して、小集合の区間の区切り方を変えている。その結果、第1の実施の形態によるデータ解析とデータ解析の対象となるデータファイルが同じであるにも関わらず、最大のまとまり度(45.62)が、第1の実施の形態によるデータ解析での最大のまとまり度(81.19)に対して低くなっている。つまり、本実施の形態による区間の区切り方では、本来存在する温度T1の統計的有意差が抽出されていない。
上記第1乃至第5の実施の形態によるデータ解析方法は、本来は時刻Dが連続しているレコードRiを離散的な区間(小集合)に分割する。従って、小集合への分割パターンによっては、上記第5の実施の形態によるデータ解析の結果のように、本来存在する統計的有意差が抽出できない場合があり得る。
上記第1乃至第5の実施の形態によるデータ解析方法は、区間の区切り方又は小集合のレコードRi数がそれぞれ異なるいろいろな分割パターンを作り、各分割パターンそれぞれでまとまり度を求めることによって、目的変数(第1及び第5の実施の形態では温度T1)の統計的有意差を抽出することができる。このことは、他の目的変数(温度T2、T3、T4)に関しても同様である。
上記実施の形態によるデータ解析方法によれば、各実施の形態で挙げた効果以外にも以下の効果が得られる。まとまり度は標準化された指標であり、目的変数及び目的変数の物理単位によらない指標である。従って、複数の目的変数(上記実施の形態では温度T1、T2、T3、T4)に対して、共通の指標であるまとまり度を用いてデータ解析を行うことができる。上記実施の形態によるデータ解析方法によれば、異なる目的変数についてのデータ解析結果の比較もできる。
上記第1乃至第5の実施の形態によるデータ解析方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現することができる。また、プログラムは、例えばハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、当該記録媒体を介して、また、伝送媒体としてネットワークを介して配布することができる。
図40は、上記第1乃至第5実施の形態によるデータ解析方法を実施するデータ解析装置を示している。図41は、本データ解析装置でのデータ解析手順を示すフローチャートである。
図40は、データ解析装置の一例としてパーソナルコンピュータ11を示すブロック図である。図40に示すように、パーソナルコンピュータ11は、表示装置15と、キーボードやマウス等の入力装置17と、中央演算装置(CPU)21と、主記憶装置(メインメモリ)23と、ハードディスクドライブ等の補助記憶装置25とを有している。中央演算装置21には、表示装置15と、入力装置17と、主記憶装置23と補助記憶装置25とが接続されている。補助記憶装置25には、上記実施の形態によるプログラムやデータファイル1、101、201、301、401等が記憶されている。プログラムは必要に応じて主記憶装置23に読み込まれて、当該プログラムに書いてある手順が中央演算装置21によって実行される。
上記第1乃至第5の実施の形態において、説明変数xi(時刻D)と量的変数である目的変数yi(温度T1、T2、T3、T4)とをそれぞれ有するm個のレコードRi(i=1、2、・・、m(mは自然数、m≧2))を備えたデータファイル1、101、201、301、401は、補助記憶装置(記憶部)25に記憶されている。中央演算装置(演算部)21は、上記実施の形態によるデータ解析方法を実行する。
図41に示すように、中央演算装置21は、データ解析処理を開始すると、補助記憶装置25からm個のレコードRiを読み出して、主記憶装置23に格納する(ステップS1)。次いで、中央演算装置21は、読み出したm個のレコードRiをn個の小集合Gj(j=1、2、・・、n(nは自然数、2≦n≦m))に分割する(ステップS2)。
次に、中央演算装置21は、分割した小集合Gj毎に目的変数yiの平均値を求め(ステップS3)、n個の小集合Gjを当該平均値の昇順又は降順に並べ替える(ステップS4)。次に、中央演算装置21は、並べ替えたn個の小集合Gjを、当該平均値が大きい方からk個(kは自然数、k=1、2、・・、n−1)の小集合Gjで構成される大集合G’1kと残りの(n−k)個の小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する(n−1)通りの組み合わせAkを求める(ステップS5)。次いで、中央演算装置21は、(n−1)通りの組み合わせAkのそれぞれについて上述のまとまり度を求め(ステップS6)、まとまり度に基づいて所定のデータ解析を行う(ステップS7)。
これにより、データ解析装置はデータの分布情報等を効率的に抽出することができる。
データ解析装置によるデータ解析により作成された所定のファイルは補助記憶装置25に記憶されると共に、表示装置15や不図示の印刷装置により出力される。例えば、図3、図5乃至図8等の箱ひげ図、及び図4等の出力結果が表示装置15に表示される。
[第6の実施の形態]
本発明の第6の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図40、及び図42乃至図53を用いて説明する。
本実施の形態は、広く産業界で取り扱われるデータ間の関連を把握し、産業上優位な結果をもたらすための有意性のある結果を抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに関する。特に、計算機システムに蓄積されているデータ内に含まれているが、一見するだけでは容易に検出できず、埋もれてしまうデータ間の相関関係を効率的に抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに関する。
半導体製造工程(半導体プロセス)をはじめとして、多くのサイトで多種大量のデータが計算機システムに蓄積されている。これらのデータはただ蓄積されるだけでは、収益をもたらさない。これらの多種大量のデータに潜む規則性、特徴を効率的に見出すデータ解析技術の一つがデータマイニングである。データマイニングは産業界でよく活用されている。データマイニングは、金融、流通等の分野では従来からよく活用され成果をあげてきたが、近年では半導体をはじめとするプロセスデータ解析の分野でも適用されるようになってきている。
数値データの解析において、データの分布(特に値の大小)がランダムである場合は少なく、データの分布が何らかの特徴を有している場合が多い。データの分布から何らかの特徴を効率的に抽出できれば、産業上優位な情報を得ることができる。実際に収集されたデータのほとんどは時間的変動を有する。特に、製造プロセスデータでは時間的変動が重要である。データ解析において、データの時間的変動がランダムなものであるか何らかの特徴的なものであるかを判断することは重要である。データの時間的変動が特徴的なものであるならば、その特徴に関する情報を効率的に抽出することが望まれる。半導体製造工程等において解析の対象となるデータとして、数値データである歩留り、性能やそれに影響を与えるであろう各種変数が挙げられる。
各種変数の時刻変動は、一般に縦軸にデータ解析の対象となる変数、横軸に時刻をとったトレンドグラフを描画し、それを見ることにより把握される。トレンドグラフでは、変数の変動パターンや変数の値が他の区間と際立って異なる区間が注目される。例えば半導体製造工程等における歩留まりのトレンドグラフを作成した場合、歩留まりの変動パターン等の情報は、例えば製造工程の改善にとって重要な手がかりとなる。
図42乃至図44はトレンドグラフの一例を示している。図42乃至図44において、横軸は時刻Dを表し、縦軸は半導体製造工程等における歩留りや測定値等の所定の数値データを表している。時刻Dの単位は、例えば日である。
トレンドグラフにおいて数値データが他の区間よりも小さい又は大きい特徴的な区間があったとする。例えば、図42に示すトレンドグラフでは、16≦時刻D≦20の区間が、数値データの値が他の区間と比較して大きい。すなわち、16≦時刻D≦20の区間が特徴的な区間である。当該特徴的な区間では何らかの要因により数値データの値が通常の区間(他の区間)の値と異なっていることが推測される。当該区間と他の区間との差異を抽出することで、半導体製造工程等における不良要因の探索が行われる。従って、歩留りや測定値等の各種変数が特異な値となっている特徴的な区間を効率的に精度良く抽出することは重要である。
しかしながら、トレンドを確認すべき項目(変数)は多い。従って、トレンドグラフを見ることによるデータ解析では、技術者等のデータ解析者は、多くのトレンドグラフを見なければならない。技術者等が変数ごとにトレンドグラフを1つずつ表示して確認していくには多くの工数を要する。また、トレンドグラフを見ることによるデータ解析では、トレンドグラフが図42に示すトレンドグラフのように単純なものであっても、データ解析者は表示画面をスクロールする必要がある。また、特徴的な区間は、1つではなく図43に示すように複数区間にまたがっている場合も多い。図43に示すトレンドグラフでは、数値データの値が他の区間と比較して大きい特徴的な区間は、1≦時刻D≦5の区間と、16≦時刻D≦20の区間との2つの区間にまたがっている。また、図44に示すように、データ解析の対象とする変数(目的変数)の値が区間ごとに変動している場合は、値が大きい区間と小さい区間とをどのように分けると2つの区間の統計的有意差が最大となるかを効率的に抽出することも重要である。
しかしながら、トレンドグラフを見ることによるデータ解析では、トレンドグラフによる数値データの分布を見てどこで値の大きな区間と小さな区間とを分けるのが適切かを判断することは容易ではない。すなわち、どの区間の分け方が2つの区間の統計的有意差が最大になるのかを判断することは容易ではない。何らかの定量的な評価基準に則った効率的な手法が望まれる。
第1乃至第5の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、まとまり度という定量的な指標を用いてデータ解析を行い、どのような区間分割を行えば2つの区間の目的変数の値に最も統計的有意差が存在するかを自動的に抽出する。しかしながら、第1乃至第5の実施の形態では、レコードRiをレコード番号順に一定数毎にn個の小集合Gjにグループ化して、グループ化した区間での目的変数の値の大小を評価している。小集合Gjへのグループ化は目的変数の値に依らずに行われる。従って、小集合Gjへの分割パターンによっては、例えば、図42および図43に示す数値データの値の大きな区間と小さな区間とが同一の小集合Gjにグループ化されることもあり得る。小集合Gjが2つの区間への区間分割の最小単位となるため、このような場合には、本来存在する統計的有意差が抽出できない場合があり得る。すなわち、第1乃至第5の実施の形態では統計的有意差を抽出する精度が低下しやすい。
また、第1乃至第5の実施の形態では、区間の区切り方又は小集合のレコードRi数がそれぞれ異なるいろいろな分割パターンを作り、各分割パターンそれぞれでまとまり度を求めることによって、目的変数の統計的有意差を抽出する。従って、第1乃至第5の実施の形態では、統計的有意差を抽出する速度が低下しやすい。
このように、第1乃至第5の実施の形態では、統計的有意差を抽出するための効率の低下が、精度の面でも速度の面でも生じやすい。本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、この課題に対するものである。
本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、第1乃至第5の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに対して、レコードRiを小集合Gjにグループ化する方法に特徴を有している。m個のレコードRiをn個の小集合Gjにグループ化するに際して、第1乃至第5の実施の形態ではレコードRiをその順番に一定数毎に小集合Gjにしている。一方、本実施の形態では回帰木分析により統計的有意差が大きな区間を自動的に抽出する。
本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムでは、m個のレコードRiをn個の小集合Gjに分割するに際し、m個のレコードRiに対して回帰木分析を実行し、回帰木分析の結果得られたリーフノードをn個の小集合Gjとする。また、回帰木分析の説明変数として、1つの説明変数のみが用いられる。
以下、本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて説明する。
まず図45および図46を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図45は、本実施の形態においてデータ解析の対象となるデータファイル501を示す表である。図1及び図45に示すように、データファイル1では時刻Dのデータが3月1日、3月2日・・3月25日と日付のデータであるのに対して、データファイル501では時刻Dのデータが1、2、・・25と通算日付、すなわち数値データである点でデータファイル501はデータファイル1と異なっている。また、本実施の形態では第1の実施の形態とレコードRiをn個の小集合Gjにグループ化する方法が異なるので、データファイル501では変数Gjは不要である。データファイル501はこれらの点を除いてデータファイル1と同一である。本実施の形態によるデータ解析において、温度T1が目的変数である。説明変数は時刻Dのみである。
図46は、温度T1のトレンドグラフを示している。横軸は時刻Dを表し、縦軸は温度T1(℃)を表している。図46に示すトレンドグラフは、時刻Dの単位が異なる点を除いて図2に示すトレンドグラフと同一である。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態によるデータ解析方法は、任意のどの区間が他の区間に比べて温度T1の統計的有意差が大きいかを自動的にかつ定量的な評価値までを含めて抽出する。
まず、目的変数を温度T1とし、説明変数を時刻Dのみとして、25個のレコードRiに対して回帰木分析を実行する。回帰木分析は、25個のレコードRiで構成される集合をルートノードとして集合の2分割を繰り返すことにより実行される。
回帰木分析は、以下(1)−(5)の処理を行うことにより実行される。(1)分割前の集合D0が所定の分割停止条件を満たすかを判断する。(2)集合D0が所定の分割停止条件を満たす場合には集合の分割を停止する。よって、その集合の下層のノードは作成されない。本実施の形態では、所定の分割停止条件は、(a)集合D0に属するレコードRi数(要素数)が1つである、(b)集合D0に属するレコードRiの説明変数の値(属性値)が全て同一である、(c)集合D0に属するレコードRiの目的変数の標準偏差が所定の値以下であるの3つであり、集合D0が(a)、(b)、(c)のいずれかに該当する場合にはその集合を2分割しない。以下、(c)の所定の値を分割停止値と呼ぶ。本実施の形態では、分割停止値を全レコードRiの目的変数の標準偏差の0.7倍に設定している。ただし、分割停止値の設定値は目的変数の標準偏差の0.7倍に限られず、例えば目的変数の標準偏差のk倍(0<k<1)に設定してもよい。
(3)集合D0が所定の分割停止条件を満たさない場合には、次の(3)式で表されるΔS’が最大となるように、集合D0を2つの集合D1、D2に分割する説明変数の属性とその属性値とを求める。
ΔS’=S’0−(S’1+S’2) ・・・(3)
ただし、S’0は分割前の集合D0に属するレコードRiの目的変数(本実施の形態では温度T1)の偏差平方和、S’1は分割後の一方の集合D1に属するレコードRiの目的変数の偏差平方和、S’2は分割後の他方の集合D2に属するレコードRiの目的変数の偏差平方和である。ΔS’が最大となる集合分割が、分割後の2つの集合D1、D2の目的変数に最も統計的有意差が生じている集合分割となる。説明変数である各数値データの全ての値をしきい値として集合の二分割を行い、それぞれについてΔS’を計算する。
(4)ΔS’が最大となる説明変数とそのしきい値で、集合D0を2つの集合D1、D2に分割する。これにより、集合D0のノードの下層に2つの集合D1、D2のノードが作成される。本回帰木分析では説明変数は時刻D一つであるので、集合D0を2つの集合D1、D2に分割する説明変数の属性は必ず時刻Dとなる。2つの集合D1、D2は、説明変数の順序が連続している、すなわち時刻Dが連続しているレコードRiでそれぞれ構成される。(1)から(4)の処理を行うことにより集合の2分割が実行される。
(5)分割により作成された集合D1、D2に対しても上記(1)から(4)の処理を行うことにより、集合の二分割が繰り返される。処理(5)では、分割により作成された集合D1、D2が処理(1)−(4)において新たに集合D0となる。(1)−(5)の処理の結果、回帰木図が作成され、目的変数の大小が説明変数の大小により特徴づけられる。
ここで、本実施の形態での回帰木分析と一般的な回帰木分析との差異について説明する。図47は一般的な回帰木分析について説明するための図であり、回帰木図の一例を示している。図47に示す回帰木図は、目的変数を歩留まりとし、説明変数を温度、電圧、ガス流量および電流とした回帰木分析により作成された。
回帰木分析では、集合を2分割する毎に全ての説明変数としきい値についてΔS’の計算が行われる。従って、図47に示すように、一般的な回帰木分析では回帰木図の各階層の分岐は一般に異なった説明変数によるものとなる(同じ説明変数となる場合もある)。このことは、目的変数の大小に対してどの説明変数がどの範囲にあるときに(組み合わせも含む)最も効果があるかを抽出するという回帰木分析の機能からして当然である。
これに対して、本実施の形態では説明変数を時刻D一つにして回帰木分析を実行する。すると、回帰木図の各階層構造をなす分岐は全て同一の変数である時刻Dで行われるので、各ノードの条件は時刻Dの範囲で示される。得られる回帰木図におけるノードの分岐は同一の変数である時刻Dのみで行われるので、時刻Dの区間(始点と終点とがある、複数区間あってもよい)で温度T1の大小がどのような特徴があるかが自動的に把握できる。回帰木図を構成する各ノードの分岐条件は時刻Dの各しきい値の大小となるので、各ノードに属するデータの目的変数の平均値等と説明変数である時刻Dの範囲とが決まる。
図48は、回帰木分析の結果を示す回帰木図である。ここで、図48を用いて回帰木図から読み取れる情報について説明する。図48において、項目「Title」は、データ解析の対象である目的変数の名称を表している。本実施の形態では「Title」は温度T1となるが、「Title」は状況に応じて書き換えることができる。
図中長方形の枠状に図示された節点(ノード)のそれぞれが、集合を表している。以下、集合自体をノードと呼ぶこともある。ノード内部に書かれているNo.X(X=0、1・・6)は、それぞれのノードのノード番号を表している。図中最上部に配置されたノードNo.0が、ルートノードである。ルートノードとは回帰木図の木構造において階層が最も高いノードを言う。本実施の形態ではルートノードのノード番号をNo.0としてノード番号をノードそれぞれに付与しているが、ノード番号の付与の方法は任意である。分割ノードの最終端であるノードをリーフノードと呼ぶ。ノードNo.1、No.4、No.5、No.6がリーフノードである。
ノード番号の右側の[ ]の中の値は、その集合に属するレコードRiの目的変数(本実施の形態では温度T1)の平均値を表している。ノード内部の項目「n」は、その集合に属するレコードRi数を表している。項目「time」は、その集合に属するレコードRiの時刻Dの範囲を示している。ノード内部の項目「StdDev」は、その集合に属するレコードRiの目的変数の標準偏差(Standard Deviation)を表している。データ解析者は、ノード内部の項目を見ることにより、集合のおおまかな情報を得ることができる。
図中左上に配置された項目「All StdDev」は、全レコードRiの目的変数の標準偏差を表している。本実施の形態では、全レコードRiの温度T1の標準偏差は、6.209367である。項目「Stop StdDev」は、分割停止値を表している。分割停止値は全レコードRiの温度T1の標準偏差の0.7倍になっており、本実施の形態では4.346557である。従って、リーフノードであるノードNo.1、No.4、No.5、No.6の目的変数の標準偏差は4.346557以下となっている。図48以降に示す回帰木図についても、回帰木図の見方は同様である。
回帰木分析の結果について図48を用いて説明する。全レコードRiで構成される集合D0(ルートノードNo.0)は、上記分割停止条件(a)−(c)のいずれにも該当しないので、2つの集合に分割される。集合D0を2分割するために、時刻Dがt(t=1、2・・24)より大きい(25−t)個のレコードRiで構成される集合D1と、t以下のt個のレコードRiで構成される集合D2とに25個のレコードRiを分割する24(=25−1)通りの組み合わせそれぞれについて上記(3)式で表されるΔS’を計算する。計算の結果、ΔS’が最大となる説明変数の属性は時刻Dであり、説明変数のしきい値はt=20であることが求まる。
その結果、ルートノードNo.0は、時刻Dが20<time≦25の5個のレコードRiで構成されるノードNo.1と、時刻Dがtime≦20の20個のレコードRiで構成されるノードNo.2とに分割される。ノードNo.1に属するレコードRiの温度T1の標準偏差が2.53318であり全レコードRiの温度T1の標準偏差の0.7倍以下であるので、ノードNo.1は分割されない。ノードNo.2は、時刻Dが5<time≦20の15個のレコードRiで構成されるノードNo.3と、時刻Dがtime≦5の5個のレコードRiで構成されるノードNo.6とに分割される。ノードNo.3は、時刻Dが15<time≦20の5個のレコードRiで構成されるノードNo.4と、時刻Dが5<time≦15の10個のレコードRiで構成されるノードNo.5とに分割される。ノードNo.4、No.5、No.6に属するレコードRiの温度T1の標準偏差はそれぞれ全レコードRiの温度T1の標準偏差の0.7倍以下であるので、ノードNo.4、No.5、No.6は分割されない。
回帰木分析は分析の対象とするレコードRiで構成される集合を目的変数の値により二分割することを繰り返すことにより行われるので、全レコードRiはリーフノードのいずれかに属する。本実施の形態では、全レコードRiはリーフノードNo.1、No.4、No.5、No.6のいずれかに属する。25個のレコードRiそれぞれが属するリーフノードの番号を図46に示す。図46に示すように、回帰木分析の結果、時刻Dが連続したレコードRiでそれぞれ構成される4つのリーフノードNo.1、No.4、No.5、No.6に25個のレコードRiがグループ化される。
回帰木分析の次に、同一のリーフノードに属するレコードRiを1つの小集合とし、レコードRiの属性としてグループidをレコードRiそれぞれに付加する。この結果、各レコードRiにはいずれかの小集合名が付与され、各レコードRiはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「LNO」として定義する。図45に示すように、変数LNOがレコードRiそれぞれに付加される。
表11は、小集合のノード番号、レコードRi数、時刻Dの範囲及び温度T1の平均値(℃)を4つの小集合毎に示している。データ解析者は、各小集合に属するレコードRi数、時刻Dの範囲、温度T1の平均値は表11に示すものであることを図48から読み取れる。
回帰木分析の結果、m個(本実施の形態ではm=25)のレコードRiは、それぞれ時刻Dの区間が連続し、他の区間(小集合)とは温度T1の統計的有意差が大きく、同一の小集合内では温度T1の値が比較的近いn個(本実施の形態ではn=4)の小集合にグループ化される。以下、本実施の形態によるデータ解析方法は、回帰木分析の結果得られたリーフノードを小集合とし、当該小集合を第1乃至第5の実施の形態での小集合Gj、G2jの代わりに用いて、第1乃至第5の実施の形態によるデータ解析方法と同様のデータ解析を行う。
ここで、各小集合の温度T1の分布を図49に示す。図49は、小集合毎に温度T1の分布を示す箱ひげ図(Box and whiskers plot)である。図49において、横軸は小集合、縦軸は温度T1(℃)を表している。各小集合No.1、No.4、No.5、No.6の箱ひげ図の上部には、各小集合それぞれに属するレコード数(データ件数)を示している。
表11及び図49に示すように、小集合を温度T1の平均値の大きい順に挙げると、No.5(平均値=20.61)、No.4(12.32)、No.6(9.12)、No.1(6.82)となる。そこで、これらの小集合を2つの大集合G’1k、G’2kにまとめた場合、どのようなまとめ方をした場合に2つの大集合G’1k、G’2kの温度T1の統計的有意差が最大となるかを抽出する。すなわち、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度T1の値に顕著な差があるかを抽出する。
レコードRiへの小集合名の付加の次に、4個の小集合を温度T1の平均値の降順に並べ替える。並び替えた順番は、No.5、No.4、No.6、No.1である。次に、平均値順に並べ替えた4個の小集合を、平均値が大きい方からk個(kは自然数、k=1、2、3(=4−1))の小集合で構成される大集合G’1kと残りの(4−k)個の小集合で構成される大集合G’2kとの2つの大集合にそれぞれ分割する3(=4−1)通りの組み合わせAkを求める。3通りの組み合わせAkを表12に示す。
表12は、3通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合を示している。組み合わせA1では、大集合G’11は平均値が1番目に大きい一つの小集合No.5で構成され、大集合G’21は平均値が小集合No.5より小さい3つの小集合No.4、No.6、No.1で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目に大きい2つの小集合No.5、No.4で構成され、大集合G’22は平均値が小集合No.5、No.4より小さい2つの小集合No.6、No.1で構成される。組み合わせA3では、大集合G’13は平均値が1番目乃至3番目に大きい3つの小集合No.5、No.4、No.6で構成され、大集合G’23は平均値が最も小さい一つの小集合No.1で構成される。
次に、3通りの組み合わせAkのそれぞれについて次の(1)式で表されるまとまり度を求める。
まとまり度=[{S0−(S1+S2)}/S0]×100 ・・・(1)
ただし、S0はm個(本実施の形態ではm=25)のレコードRiの目的変数(本実施の形態では温度T1)の偏差平方和、S1は大集合G’1kに属するレコードRiの温度T1の偏差平方和、S2は大集合G’2kに属するレコードRiの温度T1の偏差平方和である。偏差平方和S0を求める際に用いられる平均値は25個のレコードRiの温度T1の平均値(13.896)である。偏差平方和S1を求める際に用いられる平均値は大集合G’1kに属するレコードRiの温度T1の平均値である。偏差平方和S2を求める際に用いられる平均値は大集合G’2kに属するレコードRiの温度T2の平均値である。まとまり度は、0%以上100%以下の範囲の値をとる。
まとまり度は数学的に以下の意味を持つ。まとまり度は、n個(本実施の形態ではn=4)の小集合を2つの大集合G’1k、G’2kに分割したことにより、それぞれの大集合G’1k、G’2kに属するレコードRiの温度T1の値のまとまりがどれだけ良くなったかを表す指標である。まとまり度の値が大きいほど、2つの大集合G’1k、G’2kに分割することにより、大集合G’1k、G’2kそれぞれに属するレコードRiの温度T1の値のばらつきが小さくなる。逆に、まとまり度の値が小さいほど、分割しても大集合G’1k、G’2kそれぞれに属するレコードRiの温度T1の値のばらつきは変わらない。
次に、同じデータ(すなわち(1)式のS0が同じ)に対して得られたまとまり度について記す。まとまり度は、2つの大集合G’1k、G’2kの目的変数の統計的有意差を示す指標である。まとまり度の値が大きいことは、前述のように2つの大集合G’1k、G’2k内での温度T1のばらつきが小さいことを意味する。このことを同じ2つの大集合G’1k、G’2k間について見ると、それぞれの集合に属するレコードRiの温度T1の統計的有意差が大きいことを意味する。まとまり度が小さいことは、統計的有意差が小さいことを意味する。
まとまり度は標準化された指標であり、目的変数及び目的変数の物理単位によらない指標である。まとまり度は標準化された指標であるので、温度T1以外のデータ(第7乃至第9の実施の形態においてデータ解析の対象となる温度T2、T3、T4等)での解析結果についても共通的な指標として扱うことができる。3通りの組み合わせAk毎にまとまり度を求めた結果を表13に示す。
表13は、3通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合及び組み合わせAkのまとまり度を示している。表13に示すように、まとまり度は組み合わせA1、A2、A3の順に大きい。
次に、3通りの組み合わせAkをまとまり度の値の降順(組み合わせA1、A2、A3の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。出力結果をコンピュータの表示画面等に表示する際、これらの他に、大集合G’1k、G’2k毎の目的変数(温度T1)の記述統計量(データ個数、最大値、最小値、平均値及び標準偏差等)も出力することにより、確認をより容易に行うことができる。
図50は、本実施の形態によるデータ解析方法による出力結果例を示している。図50は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの時刻Dの区間(大集合G’1k区間)、大集合G’2kの時刻Dの区間(大集合G’2k区間)を示している。
図50に示す大集合G’1k、G’2kの区間をコンピュータの表示画面等に表示する場合、小集合が連続しているものを自動的に認識して連続区間として表示する。例えば、図50に示すように、組み合わせA2の大集合G’12は時刻Dが連続している小集合No.5(時刻Dの範囲は6〜15)、No.4(16〜20)で構成されているので、大集合G’1kの区間を「6〜20」とまとめて表示する。
図50に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA1である。組み合わせA1では、大集合G’11が小集合No.5(時刻Dの範囲は6〜15)で構成され、大集合G’21が小集合No.4、No.6、No.1(1〜5、16〜25)で構成される。組み合わせA1のまとまり度は81.19であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA2である。組み合わせA2では、大集合G’12が小集合No.5、No.4(6〜20)で構成され、大集合G’22が小集合No.6、No.1(1〜5、21〜25)で構成される。組み合わせA2のまとまり度は63.25である。最もまとまり度が小さい組み合わせAkは組み合わせA3である。組み合わせA3のまとまり度は、33.81である。
図50に示すように、ランク1、2、3の順にまとまり度の値が81.19、63.25、33.81と小さくなる。ランク1、2、3の順に大集合G’1kと大集合G’2kとの温度T1の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。
図51は、組み合わせA1の大集合G’11、G’21の温度T1の分布を示す箱ひげ図である。同様に、図52及び図53は、組み合わせA2、A3それぞれの大集合G’1k、G’2kの温度T1の分布を示す箱ひげ図である。図51乃至図53において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T1(℃)を表している。図51に示すように、まとまり度が81.19と最も大きい組み合わせA1では、大集合G’11、G’21の温度T1の統計的有意差が最大となる。図51乃至図53に示すように、まとまり度が小さくなるに従って大集合G’1k、G’2kの温度T1の統計的有意差が小さくなっていく。
本実施の形態によるデータ解析の結果は、6≦時刻D≦15の区間において温度T1の統計的有意差が他の区間に比べて特に顕著な値になっているので、6≦時刻D≦15の区間において何かが他の区間と比較して特異な条件となっていないかをまず優先的に調査することが効果的であることを示唆している。
次に調査することが効果的であるのは、ランク2、ランク3の区間分けによるものであるが、統計的にどれだけ有意差があるかは、まとまり度で定量的に評価することができる。図53に示すように、ランク3の区間分けによると温度T1の分布の差はかなり小さくなる。ランク3の区間分けでは、まとまり度が33.81と小さな値になり、大集合G’11の区間の温度T1と大集合G’21の区間の温度T1との統計的有意差は小さい。よって、実際に調査しても温度T1の大小の要因を抽出できる可能性は低いと推測される。
本実施の形態によるデータ解析方法は、n個(本実施の形態ではn=4)の小集合を2つの大集合G’1、G’2に分ける分け方において、2つの大集合G’1、G’2の目的変数(本実施の形態では温度T1)の値の統計的有意差が最大になる分け方を抽出する。本実施の形態によるデータ解析方法は、当該統計的有意差を抽出する方法に回帰木分析の考え方を応用している。
回帰木分析では、m個のレコードRiを2つの大集合G’1、G’2に分割する2(m−1)−1通りの組み合わせの全てについてΔSが計算される。一方、本実施の形態によるデータ解析方法では、n個の小集合を目的変数(温度T1)の平均値の大きさ順に2分割する(n−1)通りの組み合わせについてのみ、目的変数の統計的有意差を求めればよい。また、本実施の形態によるデータ解析方法では、目的変数に影響を与えるとされた説明変数は時刻区間を示す小集合の1種類である。
本実施の形態及び後述する第7乃至第9の実施の形態によるデータ解析方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現することができる。また、プログラムは、例えばハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、当該記録媒体を介して、また、伝送媒体としてネットワークを介して配布することができる。
再び図40を参照して、本実施の形態及び後述する第7乃至第9の実施の形態によるデータ解析方法を実施するデータ解析装置について説明する。図40は、データ解析装置の一例としてパーソナルコンピュータ11を示すブロック図である。図40に示すように、パーソナルコンピュータ11は、表示装置15と、キーボードやマウス等の入力装置17と、中央演算装置(CPU)21と、主記憶装置(メインメモリ)23と、ハードディスクドライブ等の補助記憶装置25とを有している。中央演算装置21には、表示装置15と、入力装置17と、主記憶装置23と補助記憶装置25とが接続されている。補助記憶装置25には、本実施の形態によるプログラムやデータファイル501等が記憶されている。プログラムは必要に応じて主記憶装置23に読み込まれて、当該プログラムに書いてある手順が中央演算装置21によって実行される。
本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは以下の効果を有する。
本実施の形態によれば、m個のレコードRiをn個の小集合Gjにグループ化するに際して、m個のレコードRiに対して回帰木分析を実行し、回帰木分析の結果得られたリーフノードをn個の小集合とする。また、当該回帰木分析の説明変数として、1つの説明変数(本実施の形態では時刻D)のみが用いられる。よって、回帰木分析の結果、m個のレコードRiは、それぞれ時刻Dの区間が連続し、他の区間とは目的変数の統計的有意差が大きく、同一の小集合内では目的変数の値が比較的近いn個の小集合にグループ化される。よって、本実施の形態では第1乃至第5の実施の形態と異なり、目的変数の値の大きな区間と小さな区間とが同一の小集合にグループ化される可能性が低くなる。また、本実施の形態では第1乃至第5の実施の形態と異なり、区間の区切り方又は小集合のレコードRi数がそれぞれ異なるいろいろな分割パターンを作る必要がない。従って、本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、第1乃至第5の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと比較して、統計的有意差を抽出するための効率を精度の面でも速度の面でも向上でき、データの分布情報等をより効率的に抽出できる。
また、本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムによれば、第1の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと同様の効果が得られる。
[第7の実施の形態]
本発明の第7の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図54乃至図61を用いて説明する。まず図54及び図55を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図54は、本実施の形態においてデータ解析の対象となるデータファイル601を示す表である。図10及び図54に示すように、データファイル101では時刻Dのデータが3月1日、3月2日・・3月25日と日付のデータであるのに対して、データファイル601では時刻Dのデータが1、2、・・25と通算日付、すなわち数値データである点でデータファイル601はデータファイル101と異なっている。また、本実施の形態では第2の実施の形態とレコードRiをn個の小集合Gjにグループ化する方法が異なるので、データファイル601では変数Gjは不要である。データファイル601はこれらの点を除いてデータファイル101と同一である。本実施の形態によるデータ解析において、温度T2が目的変数である。説明変数は時刻Dのみである。
図55は、温度T2のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T2(℃)を表している。図55に示すトレンドグラフは、時刻Dの単位が異なる点を除いて図11に示すトレンドグラフと同一である。図55を見ると、温度T2の時刻変動は図46に示す温度T1の時刻変動と大きく異なっているように見える。しかしながら、図45及び図54に示すように、温度T2の時刻変動は、温度T1の時刻変動に対して、11≦時刻D≦15の温度と21≦時刻D≦25の温度とが入れ替わった点のみが異なっている。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル601に対して、第6の実施の形態によるデータ解析方法と同様のデータ解析を行う。
まず、目的変数を温度T2とし、説明変数を時刻Dのみとして、25個のレコードRiに対して回帰木分析を実行する。図56は、回帰木分析の結果を示す回帰木図である。図56に示すように、本実施の形態では、全レコードRiの温度T2の標準偏差は、6.209367である。分割停止値は全レコードRiの温度T2の標準偏差の0.7倍になっており、本実施の形態では4.346557である。
回帰木分析の結果について図56を用いて説明する。全レコードRiで構成される集合D0(ルートノードNo.0)は、上記分割停止条件(a)−(c)のいずれにも該当しないので、2つの集合に分割される。ルートノードNo.0は、時刻Dが20<time≦25の5個のレコードRiで構成されるノードNo.1と、時刻Dがtime≦20の20個のレコードRiで構成されるノードNo.2とに分割される。ノードNo.1に属するレコードRiの温度T2の標準偏差が1.551451であり全レコードRiの温度T2の標準偏差の0.7倍以下であるので、ノードNo.1は分割されない。
ノードNo.2は、時刻Dが10<time≦20の10個のレコードRiで構成されるノードNo.3と、時刻Dがtime≦10の10個のレコードRiで構成されるノードNo.4とに分割される。ノードNo.3に属するレコードRiの温度T2の標準偏差が3.467644であり全レコードRiの温度T2の標準偏差の0.7倍以下であるので、ノードNo.3は分割されない。ノードNo.4は、時刻Dが5<time≦10の5個のレコードRiで構成されるノードNo.5と、時刻Dがtime≦5の5個のレコードRiで構成されるノードNo.6とに分割される。ノードNo.5、No.6に属するレコードRiの温度T2の標準偏差はそれぞれ全レコードRiの温度T2の標準偏差の0.7倍以下であるので、ノードNo.5、No.6は分割されない。
回帰木分析の結果、リーフノードNo.1、No.3、No.5、No.6が得られる。全レコードRiはリーフノードNo.1、No.3、No.5、No.6のいずれかに属する。回帰木分析の結果、時刻Dが連続したレコードRiでそれぞれ構成される4つのリーフノードNo.1、No.3、No.5、No.6に25個のレコードRiがグループ化される。
回帰木分析の次に、同一のリーフノードに属するレコードRiを1つの小集合とし、レコードRiの属性としてグループidをレコードRiそれぞれに付加する。この結果、各レコードRiにはいずれかの小集合名が付与され、各レコードRiはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「LNO」として定義する。図54に示すように、変数LNOがレコードRiそれぞれに付加される。
表14は、小集合のノード番号、レコードRi数、時刻Dの範囲及び温度T2の平均値(℃)を4つの小集合毎に示している。データ解析者は、各小集合に属するレコードRi数、時刻Dの範囲、温度T2の平均値は表14に示すものであることを図56から読み取れる。
ここで、各小集合の温度T2の分布を図57に示す。図57は、小集合毎に温度T2の分布を示す箱ひげ図である。図57において、横軸は小集合、縦軸は温度T2(℃)を表している。各小集合No.1、No.3、No.5、No.6の箱ひげ図の上部には、各小集合それぞれに属するレコード数(データ件数)を示している。
表14及び図57に示すように、小集合を温度T2の平均値の大きい順に挙げると、No.5(平均値=21.7)、No.1(19.52)、No.3(9.57)、No.6(9.12)となる。第6の実施の形態によるデータ解析方法と同様に、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度T2の値に顕著な差があるかを抽出する。
レコードRiへの小集合名の付加の次に、4個の小集合を温度T2の平均値の降順に並べ替える。並び替えた順番は、No.5、No.1、No.3、No.6である。次に、平均値順に並べ替えた4個の小集合を、平均値が大きい方からk個(kは自然数、k=1、2、3(=4−1))の小集合で構成される大集合G’1kと残りの(4−k)個の小集合で構成される大集合G’2kとの2つの大集合にそれぞれ分割する3(=4−1)通りの組み合わせAkを求める。3通りの組み合わせAkを表15に示す。
表15は、3通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合を示している。組み合わせA1では、大集合G’11は平均値が1番目に大きい一つの小集合No.5で構成され、大集合G’21は平均値が小集合No.5より小さい3つの小集合No.1、No.3、No.6で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目に大きい2つの小集合No.5、No.1で構成され、大集合G’22は平均値が小集合No.5、No.1より小さい2つの小集合No.3、No.6で構成される。組み合わせA3では、大集合G’13は平均値が1番目乃至3番目に大きい3つの小集合No.5、No.1、No.3で構成され、大集合G’23は平均値が最も小さい一つの小集合No.6で構成される。
次に、3通りの組み合わせAkのそれぞれについてまとまり度を求める。3通りの組み合わせAk毎にまとまり度を求めた結果を表16に示す。
表16は、3通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合及び組み合わせAkのまとまり度を示している。表16に示すように、まとまり度は組み合わせA2、A1、A3の順に大きい。
次に、3通りの組み合わせAkをまとまり度の値の降順(組み合わせA2、A1、A3の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図58は、本実施の形態によるデータ解析方法による出力結果例を示している。図58は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの時刻Dの区間(大集合G’1k区間)、大集合G’2kの時刻Dの区間(大集合G’2k区間)を示している。
図58に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA2である。組み合わせA2では、大集合G’11が小集合No.5、No.1(時刻Dの範囲は6〜10、21〜25)で構成され、大集合G’21が小集合No.3、No.6(1〜5、11〜20)で構成される。組み合わせA2のまとまり度は81.19であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせAk(ランク2)は、組み合わせA1である。組み合わせA1では、大集合G’12が小集合No.5(6〜10)で構成され、大集合G’22が小集合No.3、No.6、No.1(1〜5、11〜25)で構成される。組み合わせA1のまとまり度は41.13である。最もまとまり度が小さい組み合わせAkは組み合わせA3である。組み合わせA3のまとまり度は、15.41である。
図58に示すように、ランク1、2、3の順にまとまり度の値が81.19、41.13、15.41と小さくなる。ランク1、2、3の順に大集合G’1kと大集合G’2kとの温度T2の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。
図59は、組み合わせA2の大集合G’12、G’22の温度T2の分布を示す箱ひげ図である。同様に、図60及び図61は、組み合わせA1、A3それぞれの大集合G’1k、G’2kの温度T2の分布を示す箱ひげ図である。図59乃至図61において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T2(℃)を表している。
本実施の形態によるデータ解析の結果は、6≦時刻D≦10及び21≦時刻D≦25の区間において温度T2の統計的有意差が他の区間に比べて特に顕著な値になっているので、6≦時刻D≦10及び21≦時刻D≦25の区間において何かが他の区間と比較して特異な条件となっていないかをまず優先的に調査することが効果的であることを示唆している。次に調査することが効果的であるのは、ランク2、ランク3の区間分けによるものであるが、統計的にどれだけ有意差があるかは、まとまり度で定量的に評価することができる。
上述したように、温度T2の時刻変動は、温度T1の時刻変動に対して、11≦時刻D≦15の温度と21≦時刻D≦25の温度とが入れ替わった点のみが異なっている。図46及び図55を見ると、温度T2のトレンドは温度T1のトレンドと大きく異なっているように見える。しかしながら、本実施の形態によるデータ解析方法によれば、図50及び図58に示すように、ランク1となる組み合わせA2のまとまり度が第6の実施の形態でのランク1となる組み合わせA1のまとまり度と同じであり、さらに11≦時刻D≦15の区間及び21≦時刻D≦25の区間それぞれが属する大集合が両組み合わせで入れ替わっている点のみが異なるという結果が得られる。よって、本実施の形態によるデータ解析の結果、温度T1の分布と温度T2の分布とは区間の目的変数の大小といった観点からみると同じような分布であることがまとまり度を用いて定量的に評価された。
本実施の形態によるデータ解析の結果、データ解析者は、図46に示す11≦時刻D≦15の区間と図55に示す21≦時刻D≦25の区間とでは背後に同じ現象、条件等が隠されている可能性があると推測できる。また、第6の実施の形態でのランク2のまとまり度と本実施の形態でのランク2のまとまり度とを比較すると、それぞれのまとまり度が63.25と41.13であり、第6の実施の形態でのランク2のまとまり度が本実施の形態でのランク2のまとまり度よりも大きい。従って、データ解析者等はまとまり度の値が大きい温度T1におけるランク2の区間分けを優先的に調査すべきである。
本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムによれば、第6の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと同様の効果が得られる。
[第8の実施の形態]
本発明の第8の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図62乃至図68を用いて説明する。まず図62及び図63を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図62は、本実施の形態においてデータ解析の対象となるデータファイル701を示す表である。図18及び図62に示すように、データファイル201では時刻Dのデータが3月1日、3月2日・・3月25日と日付のデータであるのに対して、データファイル701では時刻Dのデータが1、2、・・25と通算日付、すなわち数値データである点でデータファイル701はデータファイル201と異なっている。また、本実施の形態では第3の実施の形態とレコードRiをn個の小集合Gjにグループ化する方法が異なるので、データファイル701では変数Gjは不要である。データファイル701はこれらの点を除いてデータファイル201と同一である。本実施の形態によるデータ解析において、温度T3が目的変数である。説明変数は時刻Dのみである。
図63は、温度T3のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T3(℃)を表している。図63に示すトレンドグラフは、時刻Dの単位が異なる点を除いて図19に示すトレンドグラフと同一である。図63に示すように、温度T3は6≦時刻D≦10の区間で他の区間に比べて際立って大きな値となっている。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル701に対して、第6の実施の形態によるデータ解析方法と同様のデータ解析を行う。
まず、目的変数を温度T3とし、説明変数を時刻Dのみとして、25個のレコードRiに対して回帰木分析を実行する。図64は、回帰木分析の結果を示す回帰木図である。図64に示すように、本実施の形態では、全レコードRiの温度T3の標準偏差は、5.940334である。分割停止値は全レコードRiの温度T3の標準偏差の0.7倍になっており、本実施の形態では4.158234である。
回帰木分析の結果について図64を用いて説明する。全レコードRiで構成される集合D0(ルートノードNo.0)は、上記分割停止条件(a)−(c)のいずれにも該当しないので、2つの集合に分割される。ルートノードNo.0は、時刻Dが10<time≦25の15個のレコードRiで構成されるノードNo.1と、時刻Dがtime≦10の10個のレコードRiで構成されるノードNo.2とに分割される。ノードNo.1に属するレコードRiの温度T3の標準偏差が2.103806であり全レコードRiの温度T3の標準偏差の0.7倍以下であるので、ノードNo.1は分割されない。
ノードNo.2は、時刻Dが5<time≦10の5個のレコードRiで構成されるノードNo.3と、時刻Dがtime≦5の5個のレコードRiで構成されるノードNo.4とに分割される。ノードNo.3、No.4に属するレコードRiの温度T3の標準偏差はそれぞれ全レコードRiの温度T3の標準偏差の0.7倍以下であるので、ノードNo.3、No.4は分割されない。
回帰木分析の結果、リーフノードNo.1、No.3、No.4が得られる。全レコードRiはリーフノードNo.1、No.3、No.4のいずれかに属する。回帰木分析の結果、時刻Dが連続したレコードRiでそれぞれ構成される3つのリーフノードNo.1、No.3、No.4に25個のレコードRiがグループ化される。
回帰木分析の次に、同一のリーフノードに属するレコードRiを1つの小集合とし、レコードRiの属性としてグループidをレコードRiそれぞれに付加する。この結果、各レコードRiにはいずれかの小集合名が付与され、各レコードRiはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「LNO」として定義する。図62に示すように、変数LNOがレコードRiそれぞれに付加される。
表17は、小集合のノード番号、レコードRi数、時刻Dの範囲及び温度T3の平均値(℃)を3つの小集合毎に示している。データ解析者は、各小集合に属するレコードRi数、時刻Dの範囲、温度T3の平均値は表17に示すものであることを図64から読み取れる。
ここで、各小集合の温度T3の分布を図65に示す。図65は、小集合毎に温度T3の分布を示す箱ひげ図である。図65において、横軸は小集合、縦軸は温度T3(℃)を表している。各小集合No.1、No.3、No.4の箱ひげ図の上部には、各小集合それぞれに属するレコード数(データ件数)を示している。
表17及び図65に示すように、小集合を温度T3の平均値の大きい順に挙げると、No.3(平均値=21.7)、No.4(9.12)、No.1(7.82)となる。そこで、これらの小集合を2つの大集合G’1k、G’2kにまとめた場合、どのようなまとめ方をした場合に2つの大集合G’1k、G’2kの温度T3の統計的有意差が最大となるかを抽出する。すなわち、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度T3の値に顕著な差があるかを抽出する。
レコードRiへの小集合名の付加の次に、3個の小集合を温度T3の平均値の降順に並べ替える。並び替えた順番は、No.3、No.4、No.1である。次に、平均値順に並べ替えた3個の小集合を、平均値が大きい方からk個(kは自然数、k=1、2(=3−1))の小集合で構成される大集合G’1kと残りの(3−k)個の小集合で構成される大集合G’2kとの2つの大集合にそれぞれ分割する2(=3−1)通りの組み合わせAkを求める。2通りの組み合わせAkを表18に示す。
表18は、2通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合を示している。組み合わせA1では、大集合G’11は平均値が1番目に大きい一つの小集合No.3で構成され、大集合G’21は平均値が小集合No.3より小さい2つの小集合No.4、No.1で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目に大きい2つの小集合No.3、No.4で構成され、大集合G’22は平均値が小集合No.3、No.4より小さい一つの小集合No.1で構成される。
次に、2通りの組み合わせAkのそれぞれについてまとまり度を求める。2通りの組み合わせAk毎にまとまり度を求めた結果を表19に示す。
表19は、2通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合及び組み合わせAkのまとまり度を示している。表19に示すように、まとまり度は組み合わせA1、A2の順に大きい。
次に、2通りの組み合わせAkをまとまり度の値の降順(組み合わせA1、A2の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図66は、本実施の形態によるデータ解析方法による出力結果例を示している。図66は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの時刻Dの区間(大集合G’1k区間)、大集合G’2kの時刻Dの区間(大集合G’2k区間)を示している。
図66に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA1である。組み合わせA1では、大集合G’11が小集合No.3(時刻Dの範囲は6〜10)で構成され、大集合G’21が小集合No.4、No.1(1〜5、11〜25)で構成される。組み合わせA1のまとまり度は86.78であり、相対的に大きな値となっている。最もまとまり度が小さい組み合わせAkは組み合わせA2である。組み合わせA2のまとまり度は、40.81である。
図66に示すように、ランク1、2の順にまとまり度の値が86.78、40.81と小さくなる。ランク1、2の順に大集合G’1kと大集合G’2kとの温度T3の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。
図67及び図68は、組み合わせA1、A2それぞれの大集合G’1k、G’2kの温度T3の分布を示す箱ひげ図である。図67及び図68において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T3(℃)を表している。
本実施の形態によるデータ解析の結果は、6≦時刻D≦10の区間において温度T3の統計的有意差が他の区間に比べて特に顕著な値になっているので、6≦時刻D≦10の区間において何かが他の区間と比較して特異な条件となっていないかをまず優先的に調査することが効果的であることを示唆している。
本実施の形態では、ランク1となる組み合わせA1の区間分け(6≦時刻D≦10と、1≦時刻D≦5、11≦時刻D≦25とへの区間分け)でのまとまり度が86.78となっており、第6及び第7の実施の形態、本実施の形態並びに後述する第9の実施の形態でのデータ解析の結果得られたまとまり度の中で最も大きな値となっている。すなわち、温度T1、T2、T3、T4の中で、温度T3における組み合わせA1の区間分けにした場合に、大集合G’1kと大集合G’2kとの目的変数(温度T3)の統計的有意差が最も大きくなることがまとまり度を用いて定量的に評価された。このデータ解析結果から、温度T1、T2、T3、T4のうち温度T3の6≦時刻D≦10の区間について他の区間との差異がないかをまず調査することが効率的であると推測される。
次に調査することが効果的であるのは、ランク2の区間分けによるものである。しかしながら、ランク2ではまとまり度が40.81とランク1と比較して大幅に小さな値となり、ランク2の区間分けはランク1の区間分けと比較してさほど大きな統計的有意差はないことが示される。言い換えれば、まとまり度が86.78から40.81と大きく変化することは、ランク1とランク2のまとまり度に非常に大きな差があることを示しており、6≦時刻D≦10の区間の温度T3の値のみが、他の区間の温度T3の値との統計的有意差が大きくなっていることを示している。6≦時刻D≦10の区間は、温度T3の値が非常に大きくなっていることの何らかの要因があるとして解析するに値する。
[第9の実施の形態]
本発明の第9の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図69乃至図81を用いて説明する。まず図69及び図70を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図69は、本実施の形態においてデータ解析の対象となるデータファイル801を示す表である。図26及び図69に示すように、データファイル301では時刻Dのデータが3月1日、3月2日・・3月25日と日付のデータであるのに対して、データファイル801では時刻Dのデータが1、2、・・25と通算日付、すなわち数値データである点でデータファイル801はデータファイル301と異なっている。また、本実施の形態では第4の実施の形態とレコードRiをn個の小集合Gjにグループ化する方法が異なるので、データファイル801では変数Gjは不要である。データファイル801はこれらの点を除いてデータファイル301と同一である。本実施の形態によるデータ解析において、温度T4が目的変数である。説明変数は時刻Dのみである。
図70は、温度T4のトレンドグラフを示している。横軸は時刻D(日付)を表し、縦軸は温度T4(℃)を表している。図70に示すトレンドグラフは、時刻Dの単位が異なる点を除いて図27に示すトレンドグラフと同一である。図63に示す温度T3の時刻変動とは異なり、図70に示す温度T4の時刻変動には、他の区間に比べて特徴的な値を有する区間があるとは見えない。
次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル801に対して、第6の実施の形態によるデータ解析方法と同様のデータ解析を行う。
まず、目的変数を温度T4とし、説明変数を時刻Dのみとして、25個のレコードRiに対して回帰木分析を実行する。図71は、回帰木分析の結果を示す回帰木図である。図71に示すように、本実施の形態では、全レコードRiの温度T4の標準偏差は、5.022456である。分割停止値は全レコードRiの温度T4の標準偏差の0.7倍になっており、本実施の形態では3.515719である。
回帰木分析の結果について図71を用いて説明する。全レコードRiで構成される集合D0(ルートノードNo.0)は、上記分割停止条件(a)−(c)のいずれにも該当しないので、2つの集合に分割される。ルートノードNo.0は、時刻Dが12<time≦25の13個のレコードRiで構成されるノードNo.1と、時刻Dがtime≦12の12個のレコードRiで構成されるノードNo.8とに分割される。
ノードNo.1は、時刻Dが20<time≦25の5個のレコードRiで構成されるノードNo.2と、時刻Dが12<time≦20の8個のレコードRiで構成されるノードNo.7とに分割される。ノードNo.2は、時刻Dが23<time≦25の2個のレコードRiで構成されるノードNo.3と、時刻Dが20<time≦23の3個のレコードRiで構成されるノードNo.6とに分割される。ノードNo.3は、時刻Dが24<time≦25の1個のレコードRiで構成されるノードNo.4と、時刻Dが23<time≦24の1個のレコードRiで構成されるノードNo.5とに分割される。
ノードNo.8は、時刻Dが3<time≦12の9個のレコードRiで構成されるノードNo.9と、時刻Dがtime≦3の3個のレコードRiで構成されるノードNo.12とに分割される。ノードNo.9は、時刻Dが11<time≦12の1個のレコードRiで構成されるノードNo.10と、時刻Dがtime≦11の11個のレコードRiで構成されるノードNo.11とに分割される。
ノードNo.12は、時刻Dが1<time≦3の2個のレコードRiで構成されるノードNo.13と、時刻Dがtime≦1の1個のレコードRiで構成されるノードNo.16とに分割される。ノードNo.13は、時刻Dが2<time≦3の1個のレコードRiで構成されるノードNo.14と、時刻Dが1<time≦2の1個のレコードRiで構成されるノードNo.15とに分割される。
ノードNo.4、No.5、No.10、No.14、No.15、No.16は、ノードに属するレコードRi数が1つであるので分割されない。図71において、ノードNo.4、No.5、No.10、No.14、No.15、No.16の標準偏差が#DIV/0!となっているのは、ノードに属するレコードRi数が一つしかないことによる。ノードNo.6、No.7、No.11に属するレコードRiの温度T4の標準偏差はそれぞれ全レコードRiの温度T4の標準偏差の0.7倍以下であるので、ノードNo.6、No.7、No.11は分割されない。
回帰木分析の結果、リーフノードNo.4、No.5、No.6、No.7、No.10、No.11、No.14、No.15、No.16が得られる。全レコードRiはリーフノードNo.4、No.5、No.6、No.7、No.10、No.11、No.14、No.15、No.16のいずれかに属する。回帰木分析の結果、時刻Dが連続したレコードRiでそれぞれ構成される9つのリーフノードNo.4、No.5、No.6、No.7、No.10、No.11、No.14、No.15、No.16に25個のレコードRiがグループ化される。
回帰木分析の次に、同一のリーフノードに属するレコードRiを1つの小集合とし、レコードRiの属性としてグループidをレコードRiそれぞれに付加する。この結果、各レコードRiにはいずれかの小集合名が付与され、各レコードRiはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「LNO」として定義する。図69に示すように、変数LNOがレコードRiそれぞれに付加される。
表20は、小集合のノード番号、レコードRi数、時刻Dの範囲及び温度T4の平均値(℃)を9つの小集合毎に示している。データ解析者は、各小集合に属するレコードRi数、時刻Dの範囲、温度T4の平均値は表20に示すものであることを図71から読み取れる。
ここで、各小集合の温度T4の分布を図72に示す。図72は、小集合毎に温度T4の分布を示す箱ひげ図である。図72において、横軸は小集合、縦軸は温度T4(℃)を表している。各小集合No.4、No.5、No.6、No.7、No.10、No.11、No.14、No.15、No.16の箱ひげ図の上部には、各小集合それぞれに属するレコード数(データ件数)を示している。
表20及び図72に示すように、小集合を温度T4の平均値の大きい順に挙げると、No.10(平均値=19)、No.15(14)、No.5(13.9)、No.11(12.64)、No.7(7.89)、No.4(4)、No.6(3.97)、No.14=No.16(2.2)となる。そこで、これらの小集合を2つの大集合G’1k、G’2kにまとめた場合、どのようなまとめ方をした場合に2つの大集合G’1k、G’2kの温度T4の統計的有意差が最大となるかを抽出する。すなわち、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度T4の値に顕著な差があるかを抽出する。
レコードRiへの小集合名の付加の次に、9個の小集合を温度T4の平均値の降順に並べ替える。並び替えた順番は、No.10、No.15、No.5、No.11、No.7、No.4、No.6、No.16、No.14である。ノードNo.16とノードNo.14とは平均値が等しいので、順番を入れ替えてもよい。次に、平均値順に並べ替えた9個の小集合を、平均値が大きい方からk個(kは自然数、k=1、2、・・、8(=9−1))の小集合で構成される大集合G’1kと残りの(9−k)個の小集合で構成される大集合G’2kとの2つの大集合にそれぞれ分割する8(=9−1)通りの組み合わせAkを求める。2通りの組み合わせAkを表18に示す。
表21は、8通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合を示している。例えば、組み合わせA1では、大集合G’11は平均値が1番目に大きい一つの小集合No.10で構成され、大集合G’21は平均値が小集合No.10より小さい8つの小集合No.15、No.5、No.11、No.7、No.4、No.6、No.14、No.16で構成される。組み合わせA2では、大集合G’12は平均値が1番目及び2番目に大きい2つの小集合No.10、No.15で構成され、大集合G’22は平均値が小集合No.10、No.15より小さい7つの小集合No.5、No.11、No.7、No.4、No.6、No.14、No.16で構成される。
次に、8通りの組み合わせAkのそれぞれについてまとまり度を求める。8通りの組み合わせAk毎にまとまり度を求めた結果を表22に示す。
表22は、8通りの組み合わせAk毎に、大集合G’1k、G’2kのそれぞれに属する小集合及び組み合わせAkのまとまり度を示している。表22に示すように、まとまり度は組み合わせA4、A5、A6、A3、A2、A7、A1、A8の順に大きい。
次に、8通りの組み合わせAkをまとまり度の値の降順(組み合わせA4、A5、A6、A3、A2、A7、A1、A8の順)に並べ替える。次に、まとまり度の大きな組み合わせAk順に、まとまり度の値及び順位、大集合G’1k、G’2kのそれぞれに属するレコードRiの開始レコード番号及び終了レコード番号(又は、開始時刻及び終了時刻)を出力する。
図73は、本実施の形態によるデータ解析方法による出力結果例を示している。図73は、まとまり度が大きい組み合わせAk順(ランク)に、組み合わせAk、まとまり度、大集合G’1kに属する小集合及びレコードRi数(大集合G’1k(レコード数))、大集合G’2kに属する小集合及びレコードRi数(大集合G’2k(レコード数))、大集合G’1kの時刻Dの区間(大集合G’1k区間)、大集合G’2kの時刻Dの区間(大集合G’2k区間)を示している。
図73に示すように、まとまり度が最も大きい組み合わせAk(ランク1)は、組み合わせA4である。組み合わせA4では、大集合G’11が小集合No.10、No.15、No.5、No.11(時刻Dの範囲は2、4〜12、24)で構成され、大集合G’21が小集合No.4、No.6、No.16、No.14、No.7(1、3、13〜23、25)で構成される。組み合わせA4のまとまり度は57.2である。本実施の形態では、ランク1のまとまり度が第6乃至第8の実施の形態でのランク1のまとまり度と比較して相対的に小さな値となっている。
図73に示すように、ランク1、2・・8の順にまとまり度の値が57.2、44.37・・8.57と小さくなる。ランク1、2・・8の順に大集合G’1kと大集合G’2kとの温度T4の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。
図74乃至図81は、組み合わせA4、A5、A6、A3、A2、A7、A1、A8それぞれの大集合G’1k、G’2kの温度T4の分布を示す箱ひげ図である。図74乃至図81において、横軸は大集合G’1k、G’2kを表し、縦軸は温度T4(℃)を表している。
本実施の形態では、算出されたまとまり度はいずれも相対的に小さな値であり、且つ同じような値が並んでいる。すなわち、どのような区間分け(集合分割)でも同じような小さな統計的有意差である。このことは、実際には温度T4に顕著な差はないことを意味している。従って、温度T4についての調査は有益な結果を得ることをあまり期待できないであろうと推察される。
本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、連続した区間の目的変数が他の区間に比べて異なっているものを自動的に抽出するものである。しかしながら、図73に示す大集合G’1kの時刻Dの区間及び大集合G’2kの時刻Dの区間は飛び飛びになっているものもあり、連続した区間となっていない。その意味でも、本実施の形態によるデータ解析の結果は温度T4の時間変動がランダムなものであることを示すといえる。
本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムによれば、第6の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと同様の効果が得られる。
上記実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、回帰木分析結果である小集合を大集合G’1k、G’2kにまとめるパターン等はデータ解析の対象によってそれぞれ異なるが、大集合G’1k、G’2kに二分割した場合の統計的有意差をまとまり度という共通的なパラメータで評価できる。このため、温度T1、T2、T3、T4の値がとる範囲がそれぞれ大きく異なっても、統計的有意差をまとまり度一つで評価することができる。
本発明は、上記実施の形態に限らず種々の変形が可能である。
例えば、上記第1乃至第5の実施の形態では、小集合Gj又は小集合G2jのそれぞれは同数の5個のレコードRiで構成されているが、小集合を構成するレコードRi数は5個に限られない。例えば、図34に示すように、複数のレコードRiをそれぞれが6個のレコードRiで構成される小集合G3jに分割してもよい。図34に示すように、小集合G31は、レコードR1〜R6(3月1日〜6日)で構成される。小集合G32は、レコードR7〜R12(3月7日〜12日)で構成される。小集合G33は、レコードR13〜R18(3月13日〜18日)で構成される。小集合G34は、レコードR19〜R24(3月19日〜24日)で構成される。各小集合を構成するレコードRi数は4個以下でもよい。しかしながら、上記実施の形態によるデータ解析方法は、目的変数の値が他の区間と際立って異なる区間を抽出することを目的とする。当該目的を達成するためには、各小集合を構成するレコードRi数はある程度多い(5個以上である)ことが好ましい。
また、上記第1乃至第5の実施の形態では、各小集合Gj(又はG2j)は同数のレコードRiで構成されているが、本発明はこれに限られず、各小集合のレコードRi数をそれぞれ異ならせてもよい。ただ、各小集合のレコードRi数を同じにすることが、データ解析の精度の点で好ましいと考えられる。
また、上記実施の形態では説明変数として時刻Dを用いたが、本発明はこれに限られず、説明変数として他の変数を用いてもよい。例えば、説明変数として半導体製造工程等における同時搬送単位であるロットの番号(ロット番号)を用いてもよい。説明変数としてロット番号を用いる場合には、複数のレコードRiをロット番号順に並べ替えてもよい。
また、説明変数としてロット内のウェーハ番号、処理工程順等を用いてもよい。
また、上記実施の形態では25個のレコードRiを説明変数の値の昇順、すなわち時刻D順に並べ替えたが、本発明はこれに限られず、時刻Dの降順に並べ替えてもよい。同様に、説明変数が時刻D以外の場合も、当該説明変数の昇順に並べ替えても降順に並べ替えてもよい。
また、上記実施の形態では目的変数として温度T1、T2、T3、T4を用いたが、本発明はこれに限られない。量的変数であれば、本発明のデータ解析方法の目的変数とすることができる。例えば、目的変数として半導体製造工程等における歩留まりを用いてもよい。
また、目的変数として半導体製造工程等の製造プロセスにおける性能をはじめとする諸々の条件、例えば電圧、電流やガス流量等を用いてもよい。
また、上記実施の形態ではレコードRi数は25個だったが、レコードRi数は25個に限られない。レコードRi数は2個以上であればよい。
また、上記第1乃至第5の実施の形態では小集合Gj(又は小集合G2j)を目的変数の平均値の降順に並べ替えたが、昇順に並び替えてもよい。
以上説明した実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、以下のようにまとめられる。
(付記1)
記憶部が説明変数xiと量的変数である目的変数yiとをそれぞれ有するm個のレコードRi(i=1、2、・・、m(mは自然数、m≧2))を記憶するステップと、
演算部が前記記憶部から前記m個のレコードRiを読み出し、
前記m個のレコードRiをn個の小集合Gj(j=1、2、・・、n(nは自然数、2≦n≦m))に分割し、
前記小集合Gj毎に前記目的変数yiの平均値を求め、
前記n個の小集合Gjを前記平均値の昇順又は降順に並べ替え、
前記並べ替えたn個の小集合Gjを、前記平均値が大きい方からk個(kは自然数、k=1、2、・・、n−1)の前記小集合Gjで構成される大集合G’1kと残りの(n−k)個の前記小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する(n−1)通りの組み合わせAkを求め、
前記(n−1)通りの組み合わせAkのそれぞれについて次の式で表されるまとまり度を求め、
前記まとまり度に基づいて所定のデータ解析を行うステップ
からなるデータ解析方法。
まとまり度=[{S0−(S1+S2)}/S0]×100
ただし、S0は前記m個の前記レコードRiの前記目的変数yiの偏差平方和、
S1は前記大集合G’1kに属する前記レコードRiの前記目的変数yiの偏差平方和、
S2は前記大集合G’2kに属する前記レコードRiの前記目的変数yiの偏差平方和である。
(付記2)
付記1記載のデータ解析方法において、
前記n個の小集合Gjのそれぞれは、同数の前記レコードRiで構成されること
を特徴とするデータ解析方法。
(付記3)
付記1又は2に記載のデータ解析方法において、
前記レコードRiを前記説明変数xiの値に基づいて並べ替え、
前記小集合Gjのそれぞれを前記説明変数xiの値に基づいて並べ替えた順番が連続している前記レコードRiで構成すること
を特徴とするデータ解析方法。
(付記4)
付記3記載のデータ解析方法において、
前記レコードRiを前記説明変数xiの値の昇順又は降順に並べ替えること
を特徴とするデータ解析方法。
(付記5)
付記1記載のデータ解析方法において、
前記m個のレコードRiを前記n個の小集合Gjに分割するに際し、
前記m個のレコードRiに対して回帰木分析を実行し、
前記回帰木分析の結果得られたリーフノードを前記n個の小集合Gjとすること
を特徴とするデータ解析方法。
(付記6)
付記5記載のデータ解析方法において、
前記回帰木分析の説明変数として、前記説明変数xiのみを用いること
を特徴とするデータ解析方法。
(付記7)
付記5又は6に記載のデータ解析方法において、
前記回帰木分析は、前記m個のレコードRiで構成される集合をルートノードとして集合の2分割を繰り返すことにより実行され、
前記集合の2分割は、
分割前の集合D0が所定の分割停止条件を満たすかを判断し、
前記集合D0が前記所定の分割停止条件を満たす場合には集合の分割を停止し、
前記集合D0が所定の分割停止条件を満たさない場合には、次の式で表されるΔS’が最大となる2つの集合D1、D2に前記集合D0を分割することにより実行されること
を特徴とするデータ解析方法。
ΔS’=S’0−(S’1+S’2)
ただし、S’0は分割前の前記集合D0に属する前記レコードRiの前記目的変数yiの偏差平方和、
S’1は分割後の一方の前記集合D1に属する前記レコードRiの前記目的変数yiの偏差平方和、
S’2は分割後の他方の前記集合D2に属する前記レコードRiの前記目的変数yiの偏差平方和である。
(付記8)
付記7記載のデータ解析方法において、
前記2つの集合D1、D2は、前記説明変数xiの順序が連続している前記レコードRiでそれぞれ構成されること
を特徴とするデータ解析方法。
(付記9)
付記7又は8に記載のデータ解析方法において、
前記所定の分割停止条件は、前記集合D0に属する前記レコードRi数が1つであること
を特徴とするデータ解析方法。
(付記10)
付記7又は8に記載のデータ解析方法において、
前記集合D0に属する前記レコードRiの前記説明変数xiの値が全て同一であること
を特徴とするデータ解析方法。
(付記11)
付記7又は8に記載のデータ解析方法において、
前記集合D0に属する前記レコードRiの前記目的変数yiの標準偏差が所定の値以下であること
を特徴とするデータ解析方法。
(付記12)
付記1乃至11のいずれか1項に記載のデータ解析方法において、
前記説明変数xiは、時刻であること
を特徴とするデータ解析方法。
(付記13)
付記1乃至4のいずれか1項に記載のデータ解析方法において、
前記m個のレコードRiを前記n個の小集合Gjとは異なるq個の小集合Gp(p=1、2、・・、q(qは自然数、2≦q≦m))に分割し、
前記q個の小集合Gpについて前記n個の小集合Gjと同様の方法によって前記まとまり度を求めること
を特徴とするデータ解析方法。
(付記14)
付記1乃至13のいずれか1項に記載のデータ解析方法をコンピュータに実行させるデータ解析プログラム。
(付記15)
説明変数xiと量的変数である目的変数yiとをそれぞれ有するm個のレコードRi(i=1、2、・・、m(mは自然数、m≧2))を記憶する記憶部と、
前記記憶部から前記m個のレコードRiを読み出し、
前記m個のレコードRiをn個の小集合Gj(j=1、2、・・、n(nは自然数、2≦n≦m))に分割し、
前記小集合Gj毎に前記目的変数yiの平均値を求め、
前記n個の小集合Gjを前記平均値の昇順又は降順に並べ替え、
前記並べ替えたn個の小集合Gjを、前記平均値が大きい方からk個(kは自然数、k=1、2、・・、n−1)の前記小集合Gjで構成される大集合G’1kと残りの(n−k)個の前記小集合Gjで構成される大集合G’2kとの2つの大集合にそれぞれ分割する(n−1)通りの組み合わせAkを求め、
前記(n−1)通りの組み合わせAkのそれぞれについて次の式で表されるまとまり度を求め、
前記まとまり度に基づいて所定のデータ解析を行う演算部と
を有することを特徴とするデータ解析装置。
まとまり度=[{S0−(S1+S2)}/S0]×100
ただし、S0は前記m個の前記レコードRiの前記目的変数yiの偏差平方和、
S1は前記大集合G’1kに属する前記レコードRiの前記目的変数yiの偏差平方和、
S2は前記大集合G’2kに属する前記レコードRiの前記目的変数yiの偏差平方和である。