JP4863864B2

JP4863864B2 - データ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラム

Info

Publication number: JP4863864B2
Application number: JP2006352936A
Authority: JP
Inventors: 英隆津田
Original assignee: Fujitsu Semiconductor Ltd
Current assignee: Fujitsu Semiconductor Ltd
Priority date: 2006-06-07
Filing date: 2006-12-27
Publication date: 2012-01-25
Anticipated expiration: 2026-12-27
Also published as: US7613697B2; US20080005110A1; JP2008016008A

Description

本発明は、広く産業界で取り扱われるデータ間の関連を把握し、産業上優位な結果をもたらすための有意性のある結果を抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに関する。

数値データの解析において、データの分布（特に値の大小）がランダムである場合は少なく、データの分布が何らかの特徴を有している場合が多い。データの分布から何らかの特徴を効率的に抽出できれば、産業上優位な情報を得ることができる。実際に収集されたデータのほとんどは時間的変動を有する。特に、製造プロセスデータでは時間的変動が重要である。データ解析において、データの時間的変動がランダムなものであるか何らかの特徴的なものであるかを判断することは重要である。データの時間的変動が特徴的なものであるならば、その特徴に関する情報を効率的に抽出することが望まれる。特に半導体製造工程等においては、歩留りのような連続値をとる試験結果や各種測定結果の時刻変動とその変動要因とを効率的に把握し対策を施すことがビジネスに優位性をもたらす。半導体製造工程等において解析の対象となるデータとして、数値データである歩留り、性能やそれに影響を与えるであろう各種変数が挙げられる。

各種変数の時刻変動は、一般に縦軸にデータ解析の対象となる変数、横軸に時刻をとったトレンドグラフを描画することにより把握される。トレンドグラフでは、変数の変動パターンや変数の値が他の区間と際立って異なる区間が注目される。例えば半導体製造工程等における歩留まりのトレンドグラフを作成した場合、歩留まりの変動パターン等の情報は、例えば製造工程の改善にとって重要な手がかりとなる。従って、連続値をとる変数の時刻変動について、変数の変動パターン及び変数の値が他の区間に比べて大きく異なる区間（極値になっている区間）をはじめとするその特徴を効率的に抽出することは、産業上大きな優位性をもたらす。

ところで、時刻変動の情報として特に有効であり活用されているものとして、ある区間の変数の値が他の区間の変数の値に比べてどの程度統計的有意差が存在するかの情報がある。例えば半導体製造工程等において、生産物の歩留りが低かった区間があれば、当該統計的有意差に関する情報によって装置が異常であった区間や異常装置を使用していた区間があることを抽出できる。従って、これらの情報は重要である。

特開２００４−１８６３７４号公報特開２００１−３０６９９９号公報

従来の技術では以下のような問題点がある。
まず、トレンドグラフによるデータ解析では注目すべき変数は多くある。また、より多くの情報を抽出するためには、同じ変数の時刻変動であっても別装置又は別条件で処理されたものは別のトレンドグラフで見るべきである。変数、装置及び条件の組み合わせは膨大なものとなる。従って、値が他の区間と際立って異なる区間が存在する変数及び当該区間（時間帯）を抽出するためには、技術者等のデータ解析者は多くのトレンドグラフを見なければならない。技術者等が変数ごとにトレンドグラフを１つずつ表示して確認していくには多くの工数を要する。

また、トレンドグラフによるデータ解析では定量的な指標がない。従って、技術者は多くの変数について個々にトレンドグラフを確認していくのにあたり、どの変数に注目すべきか、またどの変数で値が他の区間と際立って異なる区間が顕著に存在するかの判断がつきにくい。すなわち、データ解析の精度が落ちる場合が生じる。

特許文献１には、トレンドグラフに依らずに連続値をとる変数の時刻変動に関する情報を効率的に抽出する製造データ解析方法及びそれをコンピュータに実行させるプログラムが開示されている。特許文献１に開示された製造データ解析方法では、変数の時刻変動がランダムなものか、特徴的なパターンを有するものかの指標（推移特徴度：ＤＴＦ）が与えられる。特に後者である場合は、当該変数の時刻変動に注目してデータ解析を進めることが有効である場合が多い。

しかしながら、特許文献１に開示された製造データ解析方法は、時刻変動がランダム性のものであるか否かの指標を与えるが、他の時刻区間に比べて統計的有意差の大きな区間が存在するか否か及びその区間を効率的に抽出しない。特許文献１に開示された製造データ解析方法では、他の時刻区間に比べて統計的有意差の大きな区間を抽出するためには、推移特徴度：ＤＴＦの値が大きくともトレンドグラフを見て確認する必要がある。特に、長い期間にわたる確認が必要となると、表示画面をスクロールしたうえに不連続な区間についてトレンドグラフを確認していく必要があるのでかなりの工数を要するとともに、その精度は落ちる。

また、トレンドグラフによるデータ解析では、トレンドグラフによる数値データの分布を見てどこで値の大きな区間と小さな区間とを分けるのが適切かを判断することは容易ではない。すなわち、どの区間の分け方が２つの区間の統計的有意差が最大になるのかを判断することは容易ではない。何らかの定量的な評価基準に則った効率的な手法が望まれる。また、変数毎のトレンドグラフを見る以前に、値が他の区間と際立って異なる区間が存在する変数及び当該区間の情報を抽出することが望まれる。本発明は、これらの課題を解決する。

本発明は、データの分布情報等を効率的に抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムを提供することを目的とする。

上記目的は、記憶部が説明変数ｘｉと量的変数である目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を記憶するステップと、演算部が前記記憶部から前記ｍ個のレコードＲｉを読み出し、前記ｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割し、前記小集合Ｇｊ毎に前記目的変数ｙｉの平均値を求め、前記ｎ個の小集合Ｇｊを前記平均値の昇順又は降順に並べ替え、前記並べ替えたｎ個の小集合Ｇｊを、前記平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の前記小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の前記小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求め、前記（ｎ−１）通りの組み合わせＡｋのそれぞれについて次の式で表されるまとまり度を求め、前記まとまり度に基づいて所定のデータ解析を行うステップからなるデータ解析方法によって達成される。
まとまり度＝［｛Ｓ０−（Ｓ１＋Ｓ２）｝／Ｓ０］×１００
ただし、Ｓ０は前記ｍ個の前記レコードＲｉの前記目的変数ｙｉの偏差平方和、Ｓ１は前記大集合Ｇ’１ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、Ｓ２は前記大集合Ｇ’２ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。

また、上記目的は、上記本発明のデータ解析方法をコンピュータに実行させるデータ解析プログラムによって達成される。

また、上記目的は、説明変数ｘｉと量的変数である目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を記憶する記憶部と、前記記憶部から前記ｍ個のレコードＲｉを読み出し、前記ｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割し、前記小集合Ｇｊ毎に前記目的変数ｙｉの平均値を求め、前記ｎ個の小集合Ｇｊを前記平均値の昇順又は降順に並べ替え、前記並べ替えたｎ個の小集合Ｇｊを、前記平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の前記小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の前記小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求め、前記（ｎ−１）通りの組み合わせＡｋのそれぞれについて次の式で表されるまとまり度を求め、前記まとまり度に基づいて所定のデータ解析を行う演算部とを有することを特徴とするデータ解析装置によって達成される。
まとまり度＝［{Ｓ０−（Ｓ１＋Ｓ２）}／Ｓ０］×１００
ただし、Ｓ０は前記ｍ個の前記レコードＲｉの前記目的変数ｙｉの偏差平方和、Ｓ１は前記大集合Ｇ’１ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、Ｓ２は前記大集合Ｇ’２ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。

本発明によれば、データの分布情報等を効率的に抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムを実現できる。

［第１の実施の形態］
本発明の第１の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図１乃至図９を用いて説明する。まず図１及び図２を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図１は、本実施の形態においてデータ解析の対象となるデータファイル１を示す表である。図１に示すように、データファイル１は、３月１日から３月２５日までの１日毎の温度Ｔ１（℃）のデータを有している。データファイル１は２５個のレコードＲｉ（ｉ＝１、２、・・、２５）で構成されている。各レコードＲｉは、時刻Ｄと温度Ｔ１（℃）とのデータをそれぞれ有している。各レコードＲｉのレコード番号は、時刻Ｄ順に与えられている。

温度Ｔ１は、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度Ｔ１が目的変数であり、時刻Ｄが説明変数である。一般に、データ解析において、変動原因や変動パターンを探ることを目的とする変数を目的変数といい、目的変数の変動を説明するために用いられる変数を説明変数という。

図２は、温度Ｔ１のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ１（℃）を表している。図２に示すように、温度Ｔ１のトレンドグラフは中央付近の前半部分に温度Ｔ１が高い区間（山）があり、当該区間を最大区間として漸増、漸減の傾向があり、また先頭区間及び最終区間で温度Ｔ１がやや低い値となっている。

次に、本実施の形態によるデータ解析方法について説明する。以下に説明するデータ解析方法は、温度Ｔ１（目的変数）の値が他の区間と際立って異なる区間を抽出することを目的とする。以下に説明するデータ解析方法は、例えば当該データ解析方法をコンピュータに実行させるプログラムを用いて、コンピュータで実行する。まず、図１に示すように、２５個のレコードＲｉを説明変数の値の順、すなわち時刻Ｄ順に並べ替える。

次に、図１に示すように、時刻Ｄ順に並べ替えた２５個のレコードＲｉを５個の小集合Ｇｊ（ｊ＝１、２、・・、５）に分割する。小集合Ｇｊのそれぞれは、時刻Ｄ順に並べ替えた順番が連続しているレコードＲｉで構成される。また、小集合Ｇｊのそれぞれは、同数の５個のレコードＲｉで構成される。全てのレコードＲｉは小集合Ｇｊのいずれかに属し、各レコードＲｉには属性としてグループｉｄ（Ｇｊ）が追加される。各小集合Ｇｊは、グループｉｄ、小集合Ｇｊを構成するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）並びに各レコードＲｉの目的変数（温度Ｔ１）を属性とする情報で構成される。５つの小集合Ｇｊを時刻Ｄ順に挙げると、Ｇ１、Ｇ２、Ｇ３、Ｇ４、Ｇ５となる。

図１に示すように、小集合Ｇ１は、レコードＲ１〜Ｒ５（３月１日〜５日）で構成される。小集合Ｇ２は、レコードＲ６〜Ｒ１０（３月６日〜１０日）で構成される。小集合Ｇ３は、レコードＲ１１〜Ｒ１５（３月１１日〜１５日）で構成される。小集合Ｇ４は、レコードＲ１６〜Ｒ２０（３月１６日〜２０日）で構成される。小集合Ｇ５は、レコードＲ２１〜Ｒ２５（３月２１日〜２５日）で構成される。

ここで、各小集合Ｇｊの温度Ｔ１の分布を図３に示す。図３は、小集合Ｇｊ毎に温度Ｔ１の分布を示す箱ひげ図（Ｂｏｘａｎｄｗｈｉｓｋｅｒｓｐｌｏｔ）である。図３において、横軸は小集合Ｇｊ、縦軸は温度Ｔ１（℃）を表している。各小集合Ｇ１〜Ｇ５の箱ひげ図ＢＧ１〜ＢＧ５の上部には、各小集合Ｇ１〜Ｇ５それぞれに属するレコード数（データ件数）を示している。小集合Ｇ１の箱ひげ図ＢＧ１を参照して箱ひげ図の見方について説明する。箱ひげ図ＢＧ１において、上側の「＊」Ｍａｘは小集合Ｇ１の温度Ｔ１の最大値を表し、中央の「＊」Ａｖｅはその平均値を表し、下側の「＊」Ｍｉｎはその最小値を表している。

また、箱の下辺Ｑ１は第１四分位数（２５％点）を表し、箱の中の辺Ｑ２は第２四分位数（中央値）を表し、箱の上辺Ｑ３は第３四分位数（７５％点）を表している。小集合Ｇ１は５つのレコードＲｉで構成されているので、第１四分位数Ｑ１は小集合Ｇ１で値が４番目に大きい温度Ｔ１であり、第２四分位数Ｑ２は値が３番目に大きい温度Ｔ１であり、第３四分位数Ｑ３は値が２番目に大きい温度Ｔ１である。

箱の縦の長さＬ＝Ｑ３−Ｑ１を四分位範囲（四分位偏差）という。下側の辺Ａｍｉｎは、第１四分位数Ｑ１から四分位範囲Ｌの１．５倍の範囲Ａ（Ｑ１−１．５Ｌ≦Ａ≦Ｑ１）内にある温度Ｔ１の内の最小値を表している。上側の辺Ｂｍａｘは、第３四分位数Ｑ３から四分位範囲Ｌの１．５倍の範囲Ｂ（Ｑ３≦Ｂ≦Ｑ３＋１．５Ｌ）内にある温度Ｔ１の内の最大値を表している。当該範囲内に温度Ｔ１のデータがない場合には、辺Ａｍｉｎ、Ｂｍａｘは描かれない。小集合Ｇ２〜Ｇ５の箱ひげ図ＢＧ２〜ＢＧ５及び図３以降に示す箱ひげ図についても、箱ひげ図の見方は同様である。

本実施の形態によるデータ解析方法について再び説明する。５個の小集合Ｇｊへの分割の次に、小集合Ｇｊ毎に小集合Ｇｊに属するレコードＲｉの温度Ｔ１の平均値Ａｖｅ（Ｔ１）を求める。図３に示すように、小集合Ｇｊを温度Ｔ１の平均値Ａｖｅ（Ｔ１）の大きい順に挙げると、小集合Ｇ２（平均値＝２１．７）、Ｇ３（１９．５２）、Ｇ４（１２．３２）、Ｇ１（９．１２）、Ｇ５（６．８２）となる。次に、５個の小集合Ｇｊを平均値Ａｖｅ（Ｔ１）の降順に並べ替える。並び替えた順番は、Ｇ２、Ｇ３、Ｇ４、Ｇ１、Ｇ５である。

次に、平均値順に並べ替えた５個の小集合Ｇｊを、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、４（＝５−１））の小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（５−ｋ）個の小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する４（＝５−１）通りの組み合わせＡｋを求める。４通りの組み合わせＡｋを表１に示す。

表１は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊを示している。例えば、組み合わせＡ１では、大集合Ｇ’１１は平均値が最も大きい一つの小集合Ｇ２で構成され、大集合Ｇ’２１は平均値がＧ２より小さい４つの小集合Ｇ３、Ｇ４、Ｇ１、Ｇ５で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目大きい２つの小集合Ｇ２、Ｇ３で構成され、大集合Ｇ’２２は平均値がＧ２、Ｇ３より小さい３つの小集合Ｇ４、Ｇ１、Ｇ５で構成される。

次に、４通りの組み合わせＡｋのそれぞれについて次の（１）式で表されるまとまり度を求める。

まとまり度＝［｛Ｓ０−（Ｓ１＋Ｓ２）｝／Ｓ０］×１００・・・（１）

ただし、Ｓ０はｍ個（本実施の形態ではｍ＝２５）のレコードＲｉの目的変数（本実施の形態では温度Ｔ１）の偏差平方和、Ｓ１は大集合Ｇ’１ｋに属するレコードＲｉの温度Ｔ１の偏差平方和、Ｓ２は大集合Ｇ’２ｋに属するレコードＲｉの温度Ｔ１の偏差平方和である。偏差平方和Ｓ０を求める際に用いられる平均値は２５個のレコードＲｉの温度Ｔ１の平均値（１３．８９６）である。偏差平方和Ｓ１を求める際に用いられる平均値は大集合Ｇ’１ｋに属するレコードＲｉの温度Ｔ１の平均値である。偏差平方和Ｓ２を求める際に用いられる平均値は大集合Ｇ’２ｋに属するレコードＲｉの温度Ｔ２の平均値である。まとまり度は、０％以上１００％以下の範囲の値をとる。

まとまり度は数学的に以下の意味を持つ。まとまり度は、ｎ個（本実施の形態ではｎ＝５）の小集合Ｇｊを２つの大集合Ｇ’１ｋ、Ｇ’２ｋに分割したことにより、それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋに属するレコードＲｉの温度Ｔ１の値のまとまりがどれだけ良くなったかを表す指標である。まとまり度の値が大きいほど、２つの大集合Ｇ’１ｋ、Ｇ’２ｋに分割することにより、大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれに属するレコードＲｉの温度Ｔ１の値のばらつきが小さくなる。逆に、まとまり度の値が小さいほど、分割しても大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれに属するレコードＲｉの温度Ｔ１の値のばらつきは変わらない。

次に、同じデータ（すなわち（１）式のＳ０が同じ。本願では全てこれに該当する）に対して得られたまとまり度について記す。まとまり度の値が大きいことは、前述のように２つの大集合Ｇ’１ｋ、Ｇ’２ｋ内での温度Ｔ１のばらつきが小さいことを意味する。このことを同じ２つの大集合Ｇ’１ｋ、Ｇ’２ｋ間について見ると、それぞれの集合に属するレコードＲｉの温度Ｔ１の統計的有意差が大きいことを意味する。まとまり度が小さいことは、統計的有意差が小さいことを意味する。

まとまり度は標準化された指標であり、目的変数及び目的変数の物理単位によらない指標である。まとまり度は標準化された指標であるので、温度Ｔ１以外のデータ（第２乃至第４の実施の形態においてデータ解析の対象となる温度Ｔ２、Ｔ３、Ｔ４等）での解析結果についても共通的な指標として扱うことができる。４通りの組み合わせＡｋ毎にまとまり度を求めた結果を表２に示す。

表２は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊ及び組み合わせＡｋのまとまり度を示している。表２に示すように、まとまり度は組み合わせＡ２、Ａ３、Ａ１、Ａ４の順に大きい。

次に、４通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ２、Ａ３、Ａ１、Ａ４の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。出力結果をコンピュータの表示画面等に表示する際、これらの他に、大集合Ｇ’１ｋ、Ｇ’２ｋ毎の目的変数（温度Ｔ１）の記述統計量（データ個数、最大値、最小値、平均値及び標準偏差等）も出力することにより、確認をより容易に行うことができる。本実施の形態によるデータ解析方法では、ｍ個（本実施の形態ではｍ＝２５）のレコードＲｉを時刻Ｄ順にｎ個（本実施の形態ではｎ＝５）の小集合Ｇｊにグループ化しているので、目的変数（温度Ｔ１）に差が生じている区間の組み合わせＡｋが順に抽出されることになる。

図４は、本実施の形態によるデータ解析方法による出力結果例を示している。図４は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの区間（大集合Ｇ’２ｋ区間）を示している。

図４に示す大集合Ｇ’１ｋ、Ｇ’２ｋの区間をコンピュータの表示画面等に表示する場合、小集合Ｇｊが連続しているものを自動的に認識して連続区間として表示する。例えば、図４に示すように、組み合わせＡ２の大集合Ｇ’１２は日付が連続している小集合Ｇ２（３月６日−３月１０日）、Ｇ３（３月１１日−１５日）で構成されているので、大集合Ｇ’１ｋの区間を「３／６−３／１５」とまとめて表示する。

図４に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ２である。組み合わせＡ２では、大集合Ｇ’１２が小集合Ｇ２、Ｇ３（３／６−３／１５）で構成され、大集合Ｇ’２２が小集合Ｇ１、Ｇ４、Ｇ５（３／１−３／５、３／１６−３／２５）で構成される。組み合わせＡ２のまとまり度は８１．１９であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ３である。組み合わせＡ３では、大集合Ｇ’１３が小集合Ｇ２、Ｇ３、Ｇ４（３／６−３／２０）で構成され、大集合Ｇ’２３が小集合Ｇ１、Ｇ５（３／１−３／５、３／２１−３／２５）で構成される。組み合わせＡ３のまとまり度は６３．２５である。次にまとまり度が大きい組み合わせＡｋ（ランク３）は組み合わせＡ１である。組み合わせＡ１のまとまり度は４１．１３である。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ４である。組み合わせＡ４のまとまり度は、３３．８２である。

図５は、組み合わせＡ２の大集合Ｇ’１２、Ｇ’２２の温度Ｔ１の分布を示す箱ひげ図である。同様に、図６乃至図８は、組み合わせＡ３、Ａ１、Ａ４それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の分布を示す箱ひげ図である。図５乃至図８において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ１（℃）を表している。図５に示すように、まとまり度が８１．１９と最も大きい組み合わせＡ２では、大集合Ｇ’１２、Ｇ’２２の温度Ｔ１の統計的有意差が最大となる。図５乃至図８に示すように、まとまり度が小さくなるに従って大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の統計的有意差が小さくなっていく。

本実施の形態によるデータ解析方法によれば、ｎ個（本実施の形態ではｎ＝５）の小集合Ｇｊを２つの大集合Ｇ’１、Ｇ’２に分ける分け方において、２つの大集合Ｇ’１、Ｇ’２の温度Ｔ１の値の統計的有意差が最大になる分け方が定量的な指標であるまとまり度を用いて自動的に抽出される。まとまり度は統計的有意差を示す指標である。従って、技術者等は組み合わせＡ２、Ａ３、Ａ１、Ａ４の順に統計的有意差が小さくなっていくことをまとまり度を見ることによって定量的に把握することができる。

仮に、技術者等が図２に示すトレンドグラフを見て温度Ｔ１（目的変数）の値が他の区間と際立って異なる区間を抽出することを試みる場合、技術者等は個々の技術者等のそれまでのノウハウ、経験、あるいは技術などに基づいて判断しなければならない。図２を見ると３／６−３／１０の区間の温度Ｔ１が相対的に高いので、一見すると３／６−３／１０の区間に注目すべきように見える。そして、この区間だけ特殊事情があるとして解析を進めたくなる。

一方、本実施の形態によるデータ解析方法によれば、５個の小集合Ｇｊを３／６−３／１５の区間（小集合Ｇ２、Ｇ３）と３／１−３／５、３／１６−３／２５の区間（小集合Ｇ１、Ｇ４、Ｇ５）とに分割した場合（組み合わせＡ２）に温度Ｔ１の値の統計的有意差が最も大きくなることが自動的に抽出される。そして、技術者等は両区間に差異をもたらしている原因が何かを見つける解析を行うことがより効率的に不良要因等を見つけるのに有効であることを判断できる。

また、５個の小集合Ｇｊを３／６−３／２０の区間（小集合Ｇ２、Ｇ３、Ｇ４）と３／１−３／５、３／２１−３／２５の区間（小集合Ｇ１、Ｇ５）とに分ける区間分け（組み合わせＡ３）が次にまとまり度が大きい。この区間分けが次に注目すべき区間分けであることがまとまり度を見ることによって判断される。

本実施の形態によるデータ解析方法は以下の効果を有する。
本実施の形態によれば、どのような区間分割を行えば２つの区間の目的変数（温度Ｔ１）の値に最も統計的有意差が存在するかが自動的に抽出される。よって、本実施の形態によれば、従来のデータ解析方法と異なり、技術者等が１つずつトレンドグラフを見てデータ解析を行う必要がなく、技術者等はトレンドグラフを見る以前に最も統計的有意差が存在する区間分割を知ることができる。従って、本実施の形態によるデータ解析方法は、効率的なデータ解析を実現でき、データ解析に要する時間が短縮される。また、本実施の形態によれば、まとまり度という定量的な指標を用いてデータ解析を行うので、個々の技術者等のノウハウや経験や技術などに依存する割合を少なくすることができる。従って、本実施の形態によるデータ解析方法は、信頼性の高いデータ解析を実現できる。

本実施の形態によるデータ解析方法は、ｍ個（本実施の形態ではｍ＝２５）のレコードＲｉをｎ個（本実施の形態ではｎ＝５）の小集合Ｇｊに分割する。そして、ｎ個の小集合Ｇｊを２つの大集合Ｇ’１、Ｇ’２に分ける分け方において、２つの大集合Ｇ’１、Ｇ’２の目的変数（本実施の形態では温度Ｔ１）の値の統計的有意差が最大になる分け方を抽出する。本実施の形態によるデータ解析方法は、当該統計的有意差を抽出する方法に回帰木分析の考え方を応用している。

回帰木分析について図９を用いて簡単に説明する。図９は、回帰木分析においてデータ解析の対象となるデータファイル２を示している。図９に示すように、回帰木分析は、ｖ種類の説明変数ｘｕ（ｕ＝１、２、・・、ｖ（（ｖは自然数））でそれぞれ構成された説明変数群Ｘｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））と説明変数群Ｘｉに影響を受ける目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉをデータ解析の対象とし、目的変数ｙｉに最も影響を与える説明変数ｘｕ及びその条件（説明変数ｘｕの値）を抽出する。目的変数ｙｉは、量的変数である。

回帰木分析の処理は、各説明変数ｘｕの値に基づいて集合の２分割を繰り返していくことで実現される。回帰木分析では、初めにｍ個のレコードＲｉを２つの大集合Ｇ’１、Ｇ’２に分割する。当該集合分割の際、次の（２）式で表されるΔＳが最大となる説明変数ｘｕの種類及び当該説明変数ｘｕの値を求め、当該説明変数ｘｕ及びその値に基づいて複数のレコードＲｉを２つの大集合Ｇ’１、Ｇ’２に分割する。

ΔＳ＝Ｓ０−（Ｓ１＋Ｓ２）・・・（２）

ただし、Ｓ０は分割前のｍ個のレコードＲｉの目的変数ｙｉの偏差平方和であり、Ｓ１、Ｓ２はそれぞれ分割後の２つの大集合Ｇ’１、Ｇ’２の目的変数ｙｉの偏差平方和である。ここで、ΔＳが最大となる集合分割が２つの大集合Ｇ’１、Ｇ’２の目的変数ｙｉの値に最も統計的有意差が生じているものとなる。

回帰木分析では、ｍ個のレコードＲｉを２つの大集合Ｇ’１、Ｇ’２に分割する２^{（ｍ−１）}−１通りの組み合わせの全てについてΔＳが計算され、最も目的変数ｙｉに統計的有意差が生じる組み合わせが抽出される。説明変数ｘｕの水準値毎の組み合わせによる目的変数ｙｉの値が課題だからである。

一方、本実施の形態によるデータ解析方法は回帰木分析と以下の点で異なる。本実施の形態によるデータ解析方法では、目的変数ｙｉ（温度Ｔ１）に影響を与えるとされた説明変数は時刻区間を示す小集合Ｇｊの１種類である。また、本実施の形態によるデータ解析方法では、ｎ個の小集合Ｇｊを目的変数ｙｉの平均値の大きさ順に２分割する（ｎ−１）通りの組み合わせについてのみ、目的変数ｙｉの統計的有意差を求めればよい。本実施の形態によるデータ解析方法は、ｎ水準存在する小集合Ｇｊの水準値の組み合わせによりｎ個の小集合Ｇｊを２分割した場合に目的変数ｙｉに生じる統計的有意差を求めることを課題とするからである。

［第２の実施の形態］
本発明の第２の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図１０乃至図１７を用いて説明する。まず図１０及び図１１を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図１０は、本実施の形態においてデータ解析の対象となるデータファイル１０１を示す表である。図１０に示すように、データファイル１０１は、３月１日から３月２５日までの１日毎の温度Ｔ２（℃）のデータを有している。データファイル１０１は２５個のレコードＲｉ（ｉ＝１、２、・・、２５）で構成されている。各レコードＲｉは、時刻Ｄと温度Ｔ２（℃）とのデータをそれぞれ有している。各レコードＲｉのレコード番号は、時刻Ｄ順に与えられている。

温度Ｔ２は、温度Ｔ１と同様に、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度Ｔ２が目的変数であり、時刻Ｄが説明変数である。

図１１は、温度Ｔ２のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ２（℃）を表している。図１１を見ると、温度Ｔ２の時刻変動は図２に示す温度Ｔ１の時刻変動と大きく異なっているように見える。しかしながら、図１及び図１０に示すように、温度Ｔ２の時刻変動は、温度Ｔ１の時刻変動に対して、３／１１−３／１５（第１の実施の形態における小集合Ｇ３の区間）の温度と３／２１−３／２５（第１の実施の形態における小集合Ｇ５の区間）の温度とが入れ替わった点のみが異なっている。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル１０１に対して、第１の実施の形態によるデータ解析方法と同様のデータ解析を行う。まず、図１０に示すように、２５個のレコードＲｉを説明変数の値の順、すなわち時刻Ｄ順に並べ替える。

次に、図１０に示すように、時刻Ｄ順に並べ替えた２５個のレコードＲｉを５個の小集合Ｇｊ（ｊ＝１、２、・・、５）に分割する。小集合Ｇｊのそれぞれは、時刻Ｄ順に並べ替えた順番が連続しているレコードＲｉで構成される。また、小集合Ｇｊのそれぞれは、同数の５個のレコードＲｉで構成される。各小集合Ｇｊの区間は、第１の実施の形態での小集合Ｇｊの区間と同一である。全てのレコードＲｉは小集合Ｇｊのいずれかに属し、各レコードＲｉには属性としてグループｉｄ（Ｇｊ）が追加される。各小集合Ｇｊは、グループｉｄ、小集合Ｇｊを構成するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）並びに各レコードＲｉの目的変数（温度Ｔ２）を属性とする情報で構成される。５つの小集合Ｇｊを時刻Ｄ順に挙げると、Ｇ１、Ｇ２、Ｇ３、Ｇ４、Ｇ５となる。

図１０に示すように、小集合Ｇ１は、レコードＲ１〜Ｒ５（３月１日〜５日）で構成される。小集合Ｇ２は、レコードＲ６〜Ｒ１０（３月６日〜１０日）で構成される。小集合Ｇ３は、レコードＲ１１〜Ｒ１５（３月１１日〜１５日）で構成される。小集合Ｇ４は、レコードＲ１６〜Ｒ２０（３月１６日〜２０日）で構成される。小集合Ｇ５は、レコードＲ２１〜Ｒ２５（３月２１日〜２５日）で構成される。

ここで、各小集合Ｇｊの温度Ｔ２の分布を図１２に示す。図１２は、小集合Ｇｊ毎に温度Ｔ２の分布を示す箱ひげ図（Ｂｏｘａｎｄｗｈｉｓｋｅｒｓｐｌｏｔ）である。図１２において、横軸は小集合Ｇｊ、縦軸は温度Ｔ２（℃）を表している。温度Ｔ２の時刻変動は、温度Ｔ１の時刻変動に対して、小集合Ｇ３の区間（３月１１日〜１５日）の温度と小集合Ｇ５の区間（３月２１日〜２５日）の温度とが入れ替わった点のみが異なっている。従って、図１２に示すように、各小集合Ｇｊの温度Ｔ２の分布は、図３に示す各小集合Ｇｊの温度Ｔ１の分布に対して、小集合Ｇ３の温度分布と小集合Ｇ５の温度分布とが入れ替わっている点のみが異なっている。

５個の小集合Ｇｊへの分割の次に、小集合Ｇｊ毎に小集合Ｇｊに属するレコードＲｉの温度Ｔ２の平均値Ａｖｅ（Ｔ２）を求める。図１２に示すように、小集合Ｇｊを温度Ｔ２の平均値Ａｖｅ（Ｔ２）の大きい順に挙げると、小集合Ｇ２、Ｇ５、Ｇ４、Ｇ１、Ｇ３となる。次に、５個の小集合Ｇｊを平均値Ａｖｅ（Ｔ２）の降順に並べ替える。並び替えた順番は、Ｇ２、Ｇ５、Ｇ４、Ｇ１、Ｇ３である。５個の小集合Ｇｊを温度Ｔ２の平均値Ａｖｅ（Ｔ２）の降順に並び替えた順番は、温度Ｔ１の平均値Ａｖｅ（Ｔ１）の降順に並び替えた順番に対して、Ｇ３とＧ５との順番が入れ替わっている点のみが異なっている。

次に、平均値順に並べ替えた５個の小集合Ｇｊを、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、４（＝５−１））の小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（５−ｋ）個の小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する４（＝５−１）通りの組み合わせＡｋを求める。４通りの組み合わせＡｋを表３に示す。

表３は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊを示している。例えば、組み合わせＡ１では、大集合Ｇ’１１は平均値が最も大きい一つの小集合Ｇ２で構成され、大集合Ｇ’２１は平均値がＧ２より小さい４つの小集合Ｇ５、Ｇ４、Ｇ１、Ｇ３で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目大きい２つの小集合Ｇ２、Ｇ５で構成され、大集合Ｇ’２２は平均値がＧ２、Ｇ３より小さい３つの小集合Ｇ４、Ｇ１、Ｇ３で構成される。

次に、４通りの組み合わせＡｋのそれぞれについてまとまり度を求める。４通りの組み合わせＡｋ毎にまとまり度を求めた結果を表４に示す。

表４は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊ及び組み合わせＡｋのまとまり度を示している。表４に示すように、まとまり度は組み合わせＡ２、Ａ３、Ａ１、Ａ４の順に大きい。各小集合Ｇｊの温度Ｔ２の分布は、各小集合Ｇｊの温度Ｔ１の分布に対して、小集合Ｇ３の温度分布と小集合Ｇ５の温度分布とが入れ替わっている点のみが異なっている。よって、各組み合わせＡｋの大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれの温度Ｔ２の分布は、第１の実施の形態での大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれの温度Ｔ１の分布と同じである。従って、各組み合わせＡｋのまとまり度は、第１の実施の形態での各組み合わせＡｋのまとまり度と同じである。

次に、４通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ２、Ａ３、Ａ１、Ａ４の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図１３は、本実施の形態によるデータ解析方法による出力結果例を示している。図１３は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの区間（大集合Ｇ’２ｋ区間）を示している。

図１３に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ２である。組み合わせＡ２では、大集合Ｇ’１２が小集合Ｇ２、Ｇ５（３／６−３／１０、３／２１−３／２５）で構成され、大集合Ｇ’２２が小集合Ｇ１、Ｇ３、Ｇ４（３／１−３／５、３／１１−３／２０）で構成される。組み合わせＡ２のまとまり度は８１．１９であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ３である。組み合わせＡ３では、大集合Ｇ’１３が小集合Ｇ２、Ｇ４、Ｇ５（３／６−３／１０、３／１６−３／２５）で構成され、大集合Ｇ’２３が小集合Ｇ１、Ｇ３（３／１−３／５、３／１１−３／１５）で構成される。組み合わせＡ３のまとまり度は６３．２５である。次にまとまり度が大きい組み合わせＡｋ（ランク３）は組み合わせＡ１である。組み合わせＡ１のまとまり度は４１．１３である。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ４である。組み合わせＡ４のまとまり度は、３３．８２である。

図１４は、組み合わせＡ２の大集合Ｇ’１２、Ｇ’２２の温度Ｔ２の分布を示す箱ひげ図である。同様に、図１５乃至図１７は、組み合わせＡ３、Ａ１、Ａ４それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ２の分布を示す箱ひげ図である。図１４乃至図１７において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ２（℃）を表している。各組み合わせＡｋの大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれの温度Ｔ２の分布は、第１の実施の形態での大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれの温度Ｔ１の分布と同じである。従って、図１４乃至図１７に示す大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ２の分布を示す箱ひげ図は、図５乃至図８に示す大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の分布を示す箱ひげ図と同じである。図１４に示すように、まとまり度が８１．１９と最も大きい組み合わせＡ２では、大集合Ｇ’１２、Ｇ’２２の温度Ｔ２の統計的有意差が最大となる。図１４乃至図１７に示すように、まとまり度が小さくなるに従って大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ２の統計的有意差が小さくなっていく。

図２及び図１１を見ると、温度Ｔ２の時刻変動は温度Ｔ１の時刻変動と大きく異なっているように見える。しかしながら、本実施の形態によるデータ解析方法によれば、図４及び図１３に示すように、各組み合わせＡｋのまとまり度が第１の実施の形態での各組み合わせＡｋのまとまり度と同じであるという結果が得られる。よって、技術者等は、図４及び図１３を見ることによって、温度Ｔ２の時刻変動と温度Ｔ１の時刻変動とに多くの共通点があることを知ることができる。そして、技術者等は例えば図１及び図１０に示すデータファイル１、１０１や図３及び図１２に示す箱ひげ図を見ることによって、温度Ｔ１の時刻変動と温度Ｔ２の時刻変動とでは小集合Ｇ３の区間（３月１１日〜１５日）の温度と小集合Ｇ５の区間（３月２１日〜２５日）の温度とが入れ替わった点のみが異なっていることを知ることができる。従って、本実施の形態によるデータ解析方法によれば、技術者等は、図３に示す小集合Ｇ２、Ｇ３の区間（３月６日〜１５日）と図１２に示す小集合Ｇ２、Ｇ５の区間（３月６日〜１０日、２１日〜２５日）とでは同じ現象が生じている可能性が有り、同じような不良要因が有る可能性があることを推定することができる。

しかしながら、仮に、技術者等が図１１に示すトレンドグラフを見て温度Ｔ２（目的変数）の値が他の区間と際立って異なる区間を抽出することを試みる場合、温度Ｔ１の時刻変動と温度Ｔ２の時刻変動との当該共通点及び差異を発見することは困難である。従って、図３に示す小集合Ｇ２、Ｇ３の区間（３月６日〜１５日）と図１２に示す小集合Ｇ２、Ｇ５の区間（３月６日〜１０日、２１日〜２５日）とでは同じ現象が生じている可能性が有り、同じような不良要因が有る可能性があることを技術者等が推定することも困難である。

また、本実施の形態によるデータ解析方法によれば、第１の実施の形態によるデータ解析方法と同様の効果が得られる。

［第３の実施の形態］
本発明の第３の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図１８乃至図２５を用いて説明する。まず図１８及び図１９を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図１８は、本実施の形態においてデータ解析の対象となるデータファイル２０１を示す表である。図１８に示すように、データファイル２０１は、３月１日から３月２５日までの１日毎の温度Ｔ３（℃）のデータを有している。データファイル２０１は２５個のレコードＲｉ（ｉ＝１、２、・・、２５）で構成されている。各レコードＲｉは、時刻Ｄと温度Ｔ３（℃）とのデータをそれぞれ有している。各レコードＲｉのレコード番号は、時刻Ｄ順に与えられている。

温度Ｔ３は、温度Ｔ１と同様に、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度Ｔ３が目的変数であり、時刻Ｄが説明変数である。

図１９は、温度Ｔ３のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ３（℃）を表している。図１９に示すように、温度Ｔ３は３／６−３／１０の区間で他の区間に比べて際立って大きな値となっている。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル２０１に対して、第１の実施の形態によるデータ解析方法と同様のデータ解析を行う。まず、図１８に示すように、２５個のレコードＲｉを説明変数の値の順、すなわち時刻Ｄ順に並べ替える。

次に、図１８に示すように、時刻Ｄ順に並べ替えた２５個のレコードＲｉを５個の小集合Ｇｊ（ｊ＝１、２、・・、５）に分割する。小集合Ｇｊのそれぞれは、時刻Ｄ順に並べ替えた順番が連続しているレコードＲｉで構成される。また、小集合Ｇｊのそれぞれは、同数の５個のレコードＲｉで構成される。各小集合Ｇｊの区間は、第１の実施の形態での小集合Ｇｊの区間と同一である。全てのレコードＲｉは小集合Ｇｊのいずれかに属し、各レコードＲｉには属性としてグループｉｄ（Ｇｊ）が追加される。各小集合Ｇｊは、グループｉｄ、小集合Ｇｊを構成するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）並びに各レコードＲｉの目的変数（温度Ｔ３）を属性とする情報で構成される。５つの小集合Ｇｊを時刻Ｄ順に挙げると、Ｇ１、Ｇ２、Ｇ３、Ｇ４、Ｇ５となる。

図１８に示すように、小集合Ｇ１は、レコードＲ１〜Ｒ５（３月１日〜５日）で構成される。小集合Ｇ２は、レコードＲ６〜Ｒ１０（３月６日〜１０日）で構成される。小集合Ｇ３は、レコードＲ１１〜Ｒ１５（３月１１日〜１５日）で構成される。小集合Ｇ４は、レコードＲ１６〜Ｒ２０（３月１６日〜２０日）で構成される。小集合Ｇ５は、レコードＲ２１〜Ｒ２５（３月２１日〜２５日）で構成される。

ここで、各小集合Ｇｊの温度Ｔ３の分布を図２０に示す。図２０は、小集合Ｇｊ毎に温度Ｔ３の分布を示す箱ひげ図（Ｂｏｘａｎｄｗｈｉｓｋｅｒｓｐｌｏｔ）である。図２０において、横軸は小集合Ｇｊ、縦軸は温度Ｔ３（℃）を表している。

５個の小集合Ｇｊへの分割の次に、小集合Ｇｊ毎に小集合Ｇｊに属するレコードＲｉの温度Ｔ３の平均値Ａｖｅ（Ｔ３）を求める。図２０に示すように、小集合Ｇｊを温度Ｔ３の平均値Ａｖｅ（Ｔ３）の大きい順に挙げると、小集合Ｇ２、Ｇ５、Ｇ１、Ｇ４、Ｇ３となる。次に、５個の小集合Ｇｊを平均値Ａｖｅ（Ｔ３）の降順に並べ替える。並び替えた順番は、Ｇ２、Ｇ５、Ｇ１、Ｇ４、Ｇ３である。

次に、平均値順に並べ替えた５個の小集合Ｇｊを、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、４（＝５−１））の小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（５−ｋ）個の小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する４（＝５−１）通りの組み合わせＡｋを求める。４通りの組み合わせＡｋを表５に示す。

表５は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊを示している。例えば、組み合わせＡ１では、大集合Ｇ’１１は平均値が最も大きい一つの小集合Ｇ２で構成され、大集合Ｇ’２１は平均値がＧ２より小さい４つの小集合Ｇ５、Ｇ１、Ｇ４、Ｇ３で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目大きい２つの小集合Ｇ２、Ｇ５で構成され、大集合Ｇ’２２は平均値がＧ２、Ｇ３より小さい３つの小集合Ｇ１、Ｇ４、Ｇ３で構成される。

次に、４通りの組み合わせＡｋのそれぞれについてまとまり度を求める。４通りの組み合わせＡｋ毎にまとまり度を求めた結果を表６に示す。

表６は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊ及び組み合わせＡｋのまとまり度を示している。表６に示すように、まとまり度は組み合わせＡ１、Ａ２、Ａ３、Ａ４の順に大きい。

次に、４通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ１、Ａ２、Ａ３、Ａ４の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図２１は、本実施の形態によるデータ解析方法による出力結果例を示している。図２１は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの区間（大集合Ｇ’２ｋ区間）を示している。

図２１に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ１である。組み合わせＡ１では、大集合Ｇ’１１が小集合Ｇ２（３／６−３／１０）で構成され、大集合Ｇ’２１が小集合Ｇ１、Ｇ３、Ｇ４、Ｇ５（３／１−３／５、３／１１−３／２５）で構成される。組み合わせＡ１のまとまり度は８６．７８であり、他の組み合わせＡｋに比べて際立って大きな値となっている。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ２である。組み合わせＡ２では、大集合Ｇ’１２が小集合Ｇ２、Ｇ５（３／６−３／１０、３／２１−３／２５）で構成され、大集合Ｇ’２２が小集合Ｇ１、Ｇ３、Ｇ４（３／１−３／５、３／１１−３／２０）で構成される。組み合わせＡ２のまとまり度は４４．４７である。次にまとまり度が大きい組み合わせＡｋ（ランク３）は組み合わせＡ３である。組み合わせＡ３のまとまり度は２９．７２である。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ４である。組み合わせＡ４のまとまり度は、１２．０２である。

図２２は、組み合わせＡ１の大集合Ｇ’１１、Ｇ’２１の温度Ｔ３の分布を示す箱ひげ図である。同様に、図２３乃至図２５は、組み合わせＡ２、Ａ３、Ａ４それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ３の分布を示す箱ひげ図である。図２２乃至図２５において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ３（℃）を表している。図２２に示すように、まとまり度が８６．７８と際立って大きい組み合わせＡ１では、大集合Ｇ’１１、Ｇ’２１の温度Ｔ３の統計的有意差が際だって大きい。図２２乃至図２５に示すように、まとまり度が小さくなるに従って大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ３の統計的有意差が小さくなっていく。

本実施の形態によるデータ解析方法によれば、５個の小集合Ｇｊを３／６−３／１０の区間（小集合Ｇ２）と３／１−３／５、３／１１−３／２５の区間（小集合Ｇ１、Ｇ３、Ｇ４、Ｇ５）とに分割した場合（組み合わせＡ１）に、まとまり度が他の区間分け（組み合わせＡｋ）に比べて際立って大きくなるという結果が得られる。まとまり度は、大集合Ｇ’１ｋに属するレコードＲｉの温度Ｔ１の値と大集合Ｇ’２ｋに属するレコードＲｉの温度Ｔ１の値との統計的有意差の有無を表す指標となる。従って、技術者等は、３／６−３／１０の区間と３／１−３／５、３／１１−３／２５の区間に分割する区間分けが統計的有意差が際立って大きくなることを、定量的な指標であるまとまり度を用いて把握することができる。そして、技術者等は、両区間の温度Ｔ３の差異に何らかの要因があり解析するに値する可能性が高いことを知ることができる。

本実施の形態によるデータ解析のように、１つの区間分け（組み合わせＡｋ）が他の区間分けに比べてまとまり度が際立って大きくなるという結果が得られる場合、当該区間分けは他の区間分けに比べて２つの区間（大集合Ｇ’１ｋ、Ｇ’２ｋ）の統計的有意差が際立って大きく、当該区間分けは特に解析するに値すると言える。本実施の形態によれば、技術者等は、図１９に示すトレンドグラフを見ずに、まとまり度を見ることによって、当該区間分けが特に解析するに値することを定量的に把握することができる。

［第４の実施の形態］
本発明の第４の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図２６乃至図３３を用いて説明する。まず図２６及び図２７を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図２６は、本実施の形態においてデータ解析の対象となるデータファイル３０１を示す表である。図２６に示すように、データファイル３０１は、３月１日から３月２５日までの１日毎の温度Ｔ４（℃）のデータを有している。データファイル３０１は２５個のレコードＲｉ（ｉ＝１、２、・・、２５）で構成されている。各レコードＲｉは、時刻Ｄと温度Ｔ４（℃）とのデータをそれぞれ有している。各レコードＲｉのレコード番号は、時刻Ｄ順に与えられている。

温度Ｔ４は、温度Ｔ１と同様に、例えば半導体製造工程等における大気温度や諸々のプロセス加工処理を施すステージの温度等であり、製品の歩留りや性能に影響を及ぼす要因であるとする。本実施の形態によるデータ解析において、温度Ｔ４が目的変数であり、時刻Ｄが説明変数である。

図２７は、温度Ｔ４のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ４（℃）を表している。図１９に示す温度Ｔ３の時刻変動とは異なり、図２７に示す温度Ｔ４の時刻変動には、他の区間に比べて特徴的な値を有する区間があるとは見えない。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル３０１に対して、第１の実施の形態によるデータ解析方法と同様のデータ解析を行う。まず、図２６に示すように、２５個のレコードＲｉを説明変数の値の順、すなわち時刻Ｄ順に並べ替える。

次に、図２６に示すように、時刻Ｄ順に並べ替えた２５個のレコードＲｉを５個の小集合Ｇｊ（ｊ＝１、２、・・、５）に分割する。小集合Ｇｊのそれぞれは、時刻Ｄ順に並べ替えた順番が連続しているレコードＲｉで構成される。また、小集合Ｇｊのそれぞれは、同数の５個のレコードＲｉで構成される。各小集合Ｇｊの区間は、第１の実施の形態での小集合Ｇｊの区間と同一である。全てのレコードＲｉは小集合Ｇｊのいずれかに属し、各レコードＲｉには属性としてグループｉｄ（Ｇｊ）が追加される。各小集合Ｇｊは、グループｉｄ、小集合Ｇｊを構成するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）並びに各レコードＲｉの目的変数（温度Ｔ４）を属性とする情報で構成される。５つの小集合Ｇｊを時刻Ｄ順に挙げると、Ｇ１、Ｇ２、Ｇ３、Ｇ４、Ｇ５となる。

図２６に示すように、小集合Ｇ１は、レコードＲ１〜Ｒ５（３月１日〜５日）で構成される。小集合Ｇ２は、レコードＲ６〜Ｒ１０（３月６日〜１０日）で構成される。小集合Ｇ３は、レコードＲ１１〜Ｒ１５（３月１１日〜１５日）で構成される。小集合Ｇ４は、レコードＲ１６〜Ｒ２０（３月１６日〜２０日）で構成される。小集合Ｇ５は、レコードＲ２１〜Ｒ２５（３月２１日〜２５日）で構成される。

ここで、各小集合Ｇｊの温度Ｔ４の分布を図２８に示す。図２８は、小集合Ｇｊ毎に温度Ｔ４の分布を示す箱ひげ図（Ｂｏｘａｎｄｗｈｉｓｋｅｒｓｐｌｏｔ）である。図２８において、横軸は小集合Ｇｊ、縦軸は温度Ｔ４（℃）を表している。

５個の小集合Ｇｊへの分割の次に、小集合Ｇｊ毎に小集合Ｇｊに属するレコードＲｉの温度Ｔ４の平均値Ａｖｅ（Ｔ４）を求める。図２８に示すように、小集合Ｇｊを温度Ｔ４の平均値Ａｖｅ（Ｔ４）の大きい順に挙げると、小集合Ｇ２、Ｇ１、Ｇ３、Ｇ４、Ｇ５となる。次に、５個の小集合Ｇｊを平均値Ａｖｅ（Ｔ４）の降順に並べ替える。並び替えた順番は、Ｇ２、Ｇ１、Ｇ３、Ｇ４、Ｇ５である。

次に、平均値順に並べ替えた５個の小集合Ｇｊを、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、４（＝５−１））の小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（５−ｋ）個の小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する４（＝５−１）通りの組み合わせＡｋを求める。４通りの組み合わせＡｋを表７に示す。

表７は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊを示している。例えば、組み合わせＡ１では、大集合Ｇ’１１は平均値が最も大きい一つの小集合Ｇ２で構成され、大集合Ｇ’２１は平均値がＧ２より小さい４つの小集合Ｇ１、Ｇ３、Ｇ４、Ｇ５で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目大きい２つの小集合Ｇ２、Ｇ１で構成され、大集合Ｇ’２２は平均値がＧ２、Ｇ１より小さい３つの小集合Ｇ３、Ｇ４、Ｇ５で構成される。

次に、４通りの組み合わせＡｋのそれぞれについてまとまり度を求める。４通りの組み合わせＡｋ毎にまとまり度を求めた結果を表８に示す。

表８は、４通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇｊ及び組み合わせＡｋのまとまり度を示している。表８に示すように、まとまり度は組み合わせＡ１、Ａ４、Ａ２、Ａ３の順に大きい。

次に、４通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ１、Ａ４、Ａ２、Ａ３の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図２９は、本実施の形態によるデータ解析方法による出力結果例を示している。図２９は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合Ｇｊ及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの区間（大集合Ｇ’２ｋ区間）を示している。

図２９に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ１である。組み合わせＡ１では、大集合Ｇ’１１が小集合Ｇ２（３／６−３／１０）で構成され、大集合Ｇ’２１が小集合Ｇ１、Ｇ３、Ｇ４、Ｇ５（３／１−３／５、３／１１−３／２５）で構成される。組み合わせＡ１のまとまり度は１４．４７である。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ４である。組み合わせＡ４では、大集合Ｇ’１４が小集合Ｇ１、Ｇ２、Ｇ３、Ｇ４（３／１−３／２０）で構成され、大集合Ｇ’２４が小集合Ｇ５（３／２１−３／２５）で構成される。組み合わせＡ４のまとまり度は１１．２２である。次にまとまり度が大きい組み合わせＡｋ（ランク３）は組み合わせＡ２である。組み合わせＡ２のまとまり度は１０．９５である。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ３である。組み合わせＡ３のまとまり度は、９．１８である。本実施の形態では最大のまとまり度は１４．４７であり、第１乃至第３の実施の形態での各組み合わせＡｋのまとまり度に比べて極端に小さくなっている。また、本実施の形態では、各組み合わせＡｋのまとまり度にさほど差がない。

図３０は、組み合わせＡ１の大集合Ｇ’１１、Ｇ’２１の温度Ｔ４の分布を示す箱ひげ図である。同様に、図３１乃至図３３は、組み合わせＡ４、Ａ２、Ａ３それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ４の分布を示す箱ひげ図である。図３０乃至図３３において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ４（℃）を表している。

本実施の形態によるデータ解析のように、各組み合わせＡｋのまとまり度の値が相対的に極端に小さく、各組み合わせＡｋのまとまり度にさほど差がないという結果が得られる場合、目的変数（本実施の形態では温度Ｔ４）の値が他の区間と際立って異なる区間（特徴的な区間）がないと言える。従って、解析するに値する区間分けがないと言える。本実施の形態によれば、技術者等は、図２７に示すトレンドグラフを見ずに、まとまり度を見ることによって、当該特徴的な区間がないことを定量的に把握することができる。

［第５の実施の形態］
本発明の第５の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図３４乃至図３９を用いて説明する。図３４は、本実施の形態においてデータ解析の対象となるデータファイル４０１を示す表である。図３４に示すように、データファイル４０１は、第１の実施の形態においてデータ解析の対象となるデータファイル１と同じである。本実施の形態によるデータ解析において、温度Ｔ１が目的変数であり、時刻Ｄが説明変数である。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態によるデータ解析方法は、第１の実施の形態によるデータ解析方法に対して、小集合の区間の区切り方を変える点に特徴を有している。まず、図３４に示すように、２５個のレコードＲｉを説明変数の値の順、すなわち時刻Ｄ順に並べ替える。

次に、図３４に示すように、時刻Ｄ順に並べ替えた２５個のレコードＲｉを４個の小集合Ｇ２ｊ（ｊ＝１、２、・・、４）に分割する。小集合Ｇ２ｊのそれぞれは、時刻Ｄ順に並べ替えた順番が連続しているレコードＲｉで構成される。また、小集合Ｇ２ｊのそれぞれは、同数の５個のレコードＲｉで構成される。図３４に示すように、本実施の形態によるデータ解析方法では、各小集合Ｇ２ｊのレコードＲｉの開始位置が、第１の実施の形態による小集合Ｇｊのレコードの開始位置に対して、それぞれ２レコード（２日）後ろにずれている。先頭２レコード（レコードＲ１、Ｒ２）及び最終３レコード（レコードＲ２３、Ｒ２４、Ｒ２５）はいずれの小集合Ｇ２ｊにも属さず、データ解析の対象外となる。

レコードＲ１、Ｒ２、Ｒ２３、Ｒ２４、Ｒ２５以外のレコードＲｉには属性としてグループｉｄ（Ｇ２ｊ）が追加される。各小集合Ｇ２ｊは、グループｉｄ、小集合Ｇ２ｊを構成するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）並びに各レコードＲｉの目的変数（温度Ｔ１）を属性とする情報で構成される。４つの小集合Ｇ２ｊを時刻Ｄ順に挙げると、Ｇ２１、Ｇ２２、Ｇ２３、Ｇ２４となる。

図３４に示すように、小集合Ｇ２１は、レコードＲ３〜Ｒ７（３月３日〜７日）で構成される。小集合Ｇ２２は、レコードＲ８〜Ｒ１２（３月８日〜１２日）で構成される。小集合Ｇ２３は、レコードＲ１３〜Ｒ１７（３月１３日〜１７日）で構成される。小集合Ｇ２４は、レコードＲ１８〜Ｒ２２（３月１８日〜２２日）で構成される。

ここで、各小集合Ｇ２ｊの温度Ｔ１の分布を図３５に示す。図３５は、小集合Ｇ２ｊ毎に温度Ｔ１の分布を示す箱ひげ図（Ｂｏｘａｎｄｗｈｉｓｋｅｒｓｐｌｏｔ）である。図３５において、横軸は小集合Ｇ２ｊ、縦軸は温度Ｔ１（℃）を表している。

４個の小集合Ｇ２ｊへの分割の次に、小集合Ｇ２ｊ毎に小集合Ｇ２ｊに属するレコードＲｉの温度Ｔ１の平均値Ａｖｅ（Ｔ１）を求める。図３５に示すように、小集合Ｇ２ｊを温度Ｔ１の平均値Ａｖｅ（Ｔ１）の大きい順に挙げると、小集合Ｇ２２、Ｇ２３、Ｇ２１、Ｇ２４となる。次に、４個の小集合Ｇ２ｊを平均値Ａｖｅ（Ｔ１）の降順に並べ替える。並び替えた順番は、Ｇ２２、Ｇ２３、Ｇ２１、Ｇ２４である。

次に、平均値順に並べ替えた４個の小集合Ｇ２ｊを、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、３（＝４−１））の小集合Ｇ２ｊで構成される大集合Ｇ’１ｋと残りの（４−ｋ）個の小集合Ｇ２ｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する３（＝４−１）通りの組み合わせＡｋを求める。３通りの組み合わせＡｋを表９に示す。

表９は、３通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇ２ｊを示している。例えば、組み合わせＡ１では、大集合Ｇ’１１は平均値が最も大きい一つの小集合Ｇ２２で構成され、大集合Ｇ’２１は平均値がＧ２２より小さい３つの小集合Ｇ２３、Ｇ２１、Ｇ２４で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目大きい２つの小集合Ｇ２２、Ｇ２３で構成され、大集合Ｇ’２２は平均値がＧ２２、Ｇ２３より小さい２つの小集合Ｇ２１、Ｇ２４で構成される。

次に、３通りの組み合わせＡｋのそれぞれについてまとまり度を求める。３通りの組み合わせＡｋ毎にまとまり度を求めた結果を表１０に示す。

表１０は、３通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合Ｇ２ｊ及び組み合わせＡｋのまとまり度を示している。表１０に示すように、まとまり度は組み合わせＡ１、Ａ２、Ａ３の順に大きい。

次に、３通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ１、Ａ２、Ａ３の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図３６は、本実施の形態によるデータ解析方法による出力結果例を示している。図３６は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合Ｇ２ｊ及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合Ｇ２ｊ及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの区間（大集合Ｇ’２ｋ区間）を示している。

図３６に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ１である。組み合わせＡ１では、大集合Ｇ’１１が小集合Ｇ２２（３／８−３／１２）で構成され、大集合Ｇ’２１が小集合Ｇ２３、Ｇ２１、Ｇ２４（３／３−３／７、３／１３−３／２２）で構成される。組み合わせＡ１のまとまり度は４５．６２である。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ２である。組み合わせＡ２では、大集合Ｇ’１２が小集合Ｇ２２、Ｇ２３（３／８−３／１７）で構成され、大集合Ｇ’２２が小集合Ｇ２１、Ｇ２４（３／３−３／７、３／１８−３／２２）で構成される。組み合わせＡ２のまとまり度は４４．０７である。最もまとまり度が小さい組み合わせＡｋ（ランク３）は組み合わせＡ３である。組み合わせＡ３のまとまり度は、２８．０２である。

図３７は、組み合わせＡ１の大集合Ｇ’１１、Ｇ’２１の温度Ｔ１の分布を示す箱ひげ図である。同様に、図３８及び図３９は、組み合わせＡ２、Ａ３それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の分布を示す箱ひげ図である。図３７乃至図３９において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ１（℃）を表している。図３７に示すように、まとまり度が４５．６２と最も大きい組み合わせＡ１では、大集合Ｇ’１１、Ｇ’２１の温度Ｔ１の統計的有意差が最大となる。図３７乃至図３９に示すように、まとまり度が小さくなるに従って大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の統計的有意差が小さくなっていく。

本実施の形態によるデータ解析では、第１の実施の形態によるデータ解析に対して、小集合の区間の区切り方を変えている。その結果、第１の実施の形態によるデータ解析とデータ解析の対象となるデータファイルが同じであるにも関わらず、最大のまとまり度（４５．６２）が、第１の実施の形態によるデータ解析での最大のまとまり度（８１．１９）に対して低くなっている。つまり、本実施の形態による区間の区切り方では、本来存在する温度Ｔ１の統計的有意差が抽出されていない。

上記第１乃至第５の実施の形態によるデータ解析方法は、本来は時刻Ｄが連続しているレコードＲｉを離散的な区間（小集合）に分割する。従って、小集合への分割パターンによっては、上記第５の実施の形態によるデータ解析の結果のように、本来存在する統計的有意差が抽出できない場合があり得る。

上記第１乃至第５の実施の形態によるデータ解析方法は、区間の区切り方又は小集合のレコードＲｉ数がそれぞれ異なるいろいろな分割パターンを作り、各分割パターンそれぞれでまとまり度を求めることによって、目的変数（第１及び第５の実施の形態では温度Ｔ１）の統計的有意差を抽出することができる。このことは、他の目的変数（温度Ｔ２、Ｔ３、Ｔ４）に関しても同様である。

上記実施の形態によるデータ解析方法によれば、各実施の形態で挙げた効果以外にも以下の効果が得られる。まとまり度は標準化された指標であり、目的変数及び目的変数の物理単位によらない指標である。従って、複数の目的変数（上記実施の形態では温度Ｔ１、Ｔ２、Ｔ３、Ｔ４）に対して、共通の指標であるまとまり度を用いてデータ解析を行うことができる。上記実施の形態によるデータ解析方法によれば、異なる目的変数についてのデータ解析結果の比較もできる。

上記第１乃至第５の実施の形態によるデータ解析方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現することができる。また、プログラムは、例えばハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、当該記録媒体を介して、また、伝送媒体としてネットワークを介して配布することができる。

図４０は、上記第１乃至第５実施の形態によるデータ解析方法を実施するデータ解析装置を示している。図４１は、本データ解析装置でのデータ解析手順を示すフローチャートである。

図４０は、データ解析装置の一例としてパーソナルコンピュータ１１を示すブロック図である。図４０に示すように、パーソナルコンピュータ１１は、表示装置１５と、キーボードやマウス等の入力装置１７と、中央演算装置（ＣＰＵ）２１と、主記憶装置（メインメモリ）２３と、ハードディスクドライブ等の補助記憶装置２５とを有している。中央演算装置２１には、表示装置１５と、入力装置１７と、主記憶装置２３と補助記憶装置２５とが接続されている。補助記憶装置２５には、上記実施の形態によるプログラムやデータファイル１、１０１、２０１、３０１、４０１等が記憶されている。プログラムは必要に応じて主記憶装置２３に読み込まれて、当該プログラムに書いてある手順が中央演算装置２１によって実行される。

上記第１乃至第５の実施の形態において、説明変数ｘｉ（時刻Ｄ）と量的変数である目的変数ｙｉ（温度Ｔ１、Ｔ２、Ｔ３、Ｔ４）とをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を備えたデータファイル１、１０１、２０１、３０１、４０１は、補助記憶装置（記憶部）２５に記憶されている。中央演算装置（演算部）２１は、上記実施の形態によるデータ解析方法を実行する。

図４１に示すように、中央演算装置２１は、データ解析処理を開始すると、補助記憶装置２５からｍ個のレコードＲｉを読み出して、主記憶装置２３に格納する（ステップＳ１）。次いで、中央演算装置２１は、読み出したｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割する（ステップＳ２）。

次に、中央演算装置２１は、分割した小集合Ｇｊ毎に目的変数ｙｉの平均値を求め（ステップＳ３）、ｎ個の小集合Ｇｊを当該平均値の昇順又は降順に並べ替える（ステップＳ４）。次に、中央演算装置２１は、並べ替えたｎ個の小集合Ｇｊを、当該平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求める（ステップＳ５）。次いで、中央演算装置２１は、（ｎ−１）通りの組み合わせＡｋのそれぞれについて上述のまとまり度を求め（ステップＳ６）、まとまり度に基づいて所定のデータ解析を行う（ステップＳ７）。

これにより、データ解析装置はデータの分布情報等を効率的に抽出することができる。

データ解析装置によるデータ解析により作成された所定のファイルは補助記憶装置２５に記憶されると共に、表示装置１５や不図示の印刷装置により出力される。例えば、図３、図５乃至図８等の箱ひげ図、及び図４等の出力結果が表示装置１５に表示される。

［第６の実施の形態］
本発明の第６の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図４０、及び図４２乃至図５３を用いて説明する。

本実施の形態は、広く産業界で取り扱われるデータ間の関連を把握し、産業上優位な結果をもたらすための有意性のある結果を抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに関する。特に、計算機システムに蓄積されているデータ内に含まれているが、一見するだけでは容易に検出できず、埋もれてしまうデータ間の相関関係を効率的に抽出するデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに関する。

半導体製造工程（半導体プロセス）をはじめとして、多くのサイトで多種大量のデータが計算機システムに蓄積されている。これらのデータはただ蓄積されるだけでは、収益をもたらさない。これらの多種大量のデータに潜む規則性、特徴を効率的に見出すデータ解析技術の一つがデータマイニングである。データマイニングは産業界でよく活用されている。データマイニングは、金融、流通等の分野では従来からよく活用され成果をあげてきたが、近年では半導体をはじめとするプロセスデータ解析の分野でも適用されるようになってきている。

数値データの解析において、データの分布（特に値の大小）がランダムである場合は少なく、データの分布が何らかの特徴を有している場合が多い。データの分布から何らかの特徴を効率的に抽出できれば、産業上優位な情報を得ることができる。実際に収集されたデータのほとんどは時間的変動を有する。特に、製造プロセスデータでは時間的変動が重要である。データ解析において、データの時間的変動がランダムなものであるか何らかの特徴的なものであるかを判断することは重要である。データの時間的変動が特徴的なものであるならば、その特徴に関する情報を効率的に抽出することが望まれる。半導体製造工程等において解析の対象となるデータとして、数値データである歩留り、性能やそれに影響を与えるであろう各種変数が挙げられる。

各種変数の時刻変動は、一般に縦軸にデータ解析の対象となる変数、横軸に時刻をとったトレンドグラフを描画し、それを見ることにより把握される。トレンドグラフでは、変数の変動パターンや変数の値が他の区間と際立って異なる区間が注目される。例えば半導体製造工程等における歩留まりのトレンドグラフを作成した場合、歩留まりの変動パターン等の情報は、例えば製造工程の改善にとって重要な手がかりとなる。

図４２乃至図４４はトレンドグラフの一例を示している。図４２乃至図４４において、横軸は時刻Ｄを表し、縦軸は半導体製造工程等における歩留りや測定値等の所定の数値データを表している。時刻Ｄの単位は、例えば日である。

トレンドグラフにおいて数値データが他の区間よりも小さい又は大きい特徴的な区間があったとする。例えば、図４２に示すトレンドグラフでは、１６≦時刻Ｄ≦２０の区間が、数値データの値が他の区間と比較して大きい。すなわち、１６≦時刻Ｄ≦２０の区間が特徴的な区間である。当該特徴的な区間では何らかの要因により数値データの値が通常の区間（他の区間）の値と異なっていることが推測される。当該区間と他の区間との差異を抽出することで、半導体製造工程等における不良要因の探索が行われる。従って、歩留りや測定値等の各種変数が特異な値となっている特徴的な区間を効率的に精度良く抽出することは重要である。

しかしながら、トレンドを確認すべき項目（変数）は多い。従って、トレンドグラフを見ることによるデータ解析では、技術者等のデータ解析者は、多くのトレンドグラフを見なければならない。技術者等が変数ごとにトレンドグラフを１つずつ表示して確認していくには多くの工数を要する。また、トレンドグラフを見ることによるデータ解析では、トレンドグラフが図４２に示すトレンドグラフのように単純なものであっても、データ解析者は表示画面をスクロールする必要がある。また、特徴的な区間は、１つではなく図４３に示すように複数区間にまたがっている場合も多い。図４３に示すトレンドグラフでは、数値データの値が他の区間と比較して大きい特徴的な区間は、１≦時刻Ｄ≦５の区間と、１６≦時刻Ｄ≦２０の区間との２つの区間にまたがっている。また、図４４に示すように、データ解析の対象とする変数（目的変数）の値が区間ごとに変動している場合は、値が大きい区間と小さい区間とをどのように分けると２つの区間の統計的有意差が最大となるかを効率的に抽出することも重要である。

しかしながら、トレンドグラフを見ることによるデータ解析では、トレンドグラフによる数値データの分布を見てどこで値の大きな区間と小さな区間とを分けるのが適切かを判断することは容易ではない。すなわち、どの区間の分け方が２つの区間の統計的有意差が最大になるのかを判断することは容易ではない。何らかの定量的な評価基準に則った効率的な手法が望まれる。

第１乃至第５の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、まとまり度という定量的な指標を用いてデータ解析を行い、どのような区間分割を行えば２つの区間の目的変数の値に最も統計的有意差が存在するかを自動的に抽出する。しかしながら、第１乃至第５の実施の形態では、レコードＲｉをレコード番号順に一定数毎にｎ個の小集合Ｇｊにグループ化して、グループ化した区間での目的変数の値の大小を評価している。小集合Ｇｊへのグループ化は目的変数の値に依らずに行われる。従って、小集合Ｇｊへの分割パターンによっては、例えば、図４２および図４３に示す数値データの値の大きな区間と小さな区間とが同一の小集合Ｇｊにグループ化されることもあり得る。小集合Ｇｊが２つの区間への区間分割の最小単位となるため、このような場合には、本来存在する統計的有意差が抽出できない場合があり得る。すなわち、第１乃至第５の実施の形態では統計的有意差を抽出する精度が低下しやすい。

また、第１乃至第５の実施の形態では、区間の区切り方又は小集合のレコードＲｉ数がそれぞれ異なるいろいろな分割パターンを作り、各分割パターンそれぞれでまとまり度を求めることによって、目的変数の統計的有意差を抽出する。従って、第１乃至第５の実施の形態では、統計的有意差を抽出する速度が低下しやすい。

このように、第１乃至第５の実施の形態では、統計的有意差を抽出するための効率の低下が、精度の面でも速度の面でも生じやすい。本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、この課題に対するものである。

本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、第１乃至第５の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムに対して、レコードＲｉを小集合Ｇｊにグループ化する方法に特徴を有している。ｍ個のレコードＲｉをｎ個の小集合Ｇｊにグループ化するに際して、第１乃至第５の実施の形態ではレコードＲｉをその順番に一定数毎に小集合Ｇｊにしている。一方、本実施の形態では回帰木分析により統計的有意差が大きな区間を自動的に抽出する。

本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムでは、ｍ個のレコードＲｉをｎ個の小集合Ｇｊに分割するに際し、ｍ個のレコードＲｉに対して回帰木分析を実行し、回帰木分析の結果得られたリーフノードをｎ個の小集合Ｇｊとする。また、回帰木分析の説明変数として、１つの説明変数のみが用いられる。

以下、本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて説明する。

まず図４５および図４６を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図４５は、本実施の形態においてデータ解析の対象となるデータファイル５０１を示す表である。図１及び図４５に示すように、データファイル１では時刻Ｄのデータが３月１日、３月２日・・３月２５日と日付のデータであるのに対して、データファイル５０１では時刻Ｄのデータが１、２、・・２５と通算日付、すなわち数値データである点でデータファイル５０１はデータファイル１と異なっている。また、本実施の形態では第１の実施の形態とレコードＲｉをｎ個の小集合Ｇｊにグループ化する方法が異なるので、データファイル５０１では変数Ｇｊは不要である。データファイル５０１はこれらの点を除いてデータファイル１と同一である。本実施の形態によるデータ解析において、温度Ｔ１が目的変数である。説明変数は時刻Ｄのみである。

図４６は、温度Ｔ１のトレンドグラフを示している。横軸は時刻Ｄを表し、縦軸は温度Ｔ１（℃）を表している。図４６に示すトレンドグラフは、時刻Ｄの単位が異なる点を除いて図２に示すトレンドグラフと同一である。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態によるデータ解析方法は、任意のどの区間が他の区間に比べて温度Ｔ１の統計的有意差が大きいかを自動的にかつ定量的な評価値までを含めて抽出する。

まず、目的変数を温度Ｔ１とし、説明変数を時刻Ｄのみとして、２５個のレコードＲｉに対して回帰木分析を実行する。回帰木分析は、２５個のレコードＲｉで構成される集合をルートノードとして集合の２分割を繰り返すことにより実行される。

回帰木分析は、以下（１）−（５）の処理を行うことにより実行される。（１）分割前の集合Ｄ０が所定の分割停止条件を満たすかを判断する。（２）集合Ｄ０が所定の分割停止条件を満たす場合には集合の分割を停止する。よって、その集合の下層のノードは作成されない。本実施の形態では、所定の分割停止条件は、（ａ）集合Ｄ０に属するレコードＲｉ数（要素数）が１つである、（ｂ）集合Ｄ０に属するレコードＲｉの説明変数の値（属性値）が全て同一である、（ｃ）集合Ｄ０に属するレコードＲｉの目的変数の標準偏差が所定の値以下であるの３つであり、集合Ｄ０が（ａ）、（ｂ）、（ｃ）のいずれかに該当する場合にはその集合を２分割しない。以下、（ｃ）の所定の値を分割停止値と呼ぶ。本実施の形態では、分割停止値を全レコードＲｉの目的変数の標準偏差の０．７倍に設定している。ただし、分割停止値の設定値は目的変数の標準偏差の０．７倍に限られず、例えば目的変数の標準偏差のｋ倍（０＜ｋ＜１）に設定してもよい。

（３）集合Ｄ０が所定の分割停止条件を満たさない場合には、次の（３）式で表されるΔＳ’が最大となるように、集合Ｄ０を２つの集合Ｄ１、Ｄ２に分割する説明変数の属性とその属性値とを求める。

ΔＳ’＝Ｓ’０−（Ｓ’１＋Ｓ’２）・・・（３）

ただし、Ｓ’０は分割前の集合Ｄ０に属するレコードＲｉの目的変数（本実施の形態では温度Ｔ１）の偏差平方和、Ｓ’１は分割後の一方の集合Ｄ１に属するレコードＲｉの目的変数の偏差平方和、Ｓ’２は分割後の他方の集合Ｄ２に属するレコードＲｉの目的変数の偏差平方和である。ΔＳ’が最大となる集合分割が、分割後の２つの集合Ｄ１、Ｄ２の目的変数に最も統計的有意差が生じている集合分割となる。説明変数である各数値データの全ての値をしきい値として集合の二分割を行い、それぞれについてΔＳ’を計算する。

（４）ΔＳ’が最大となる説明変数とそのしきい値で、集合Ｄ０を２つの集合Ｄ１、Ｄ２に分割する。これにより、集合Ｄ０のノードの下層に２つの集合Ｄ１、Ｄ２のノードが作成される。本回帰木分析では説明変数は時刻Ｄ一つであるので、集合Ｄ０を２つの集合Ｄ１、Ｄ２に分割する説明変数の属性は必ず時刻Ｄとなる。２つの集合Ｄ１、Ｄ２は、説明変数の順序が連続している、すなわち時刻Ｄが連続しているレコードＲｉでそれぞれ構成される。（１）から（４）の処理を行うことにより集合の２分割が実行される。

（５）分割により作成された集合Ｄ１、Ｄ２に対しても上記（１）から（４）の処理を行うことにより、集合の二分割が繰り返される。処理（５）では、分割により作成された集合Ｄ１、Ｄ２が処理（１）−（４）において新たに集合Ｄ０となる。（１）−（５）の処理の結果、回帰木図が作成され、目的変数の大小が説明変数の大小により特徴づけられる。

ここで、本実施の形態での回帰木分析と一般的な回帰木分析との差異について説明する。図４７は一般的な回帰木分析について説明するための図であり、回帰木図の一例を示している。図４７に示す回帰木図は、目的変数を歩留まりとし、説明変数を温度、電圧、ガス流量および電流とした回帰木分析により作成された。

回帰木分析では、集合を２分割する毎に全ての説明変数としきい値についてΔＳ’の計算が行われる。従って、図４７に示すように、一般的な回帰木分析では回帰木図の各階層の分岐は一般に異なった説明変数によるものとなる（同じ説明変数となる場合もある）。このことは、目的変数の大小に対してどの説明変数がどの範囲にあるときに（組み合わせも含む）最も効果があるかを抽出するという回帰木分析の機能からして当然である。

これに対して、本実施の形態では説明変数を時刻Ｄ一つにして回帰木分析を実行する。すると、回帰木図の各階層構造をなす分岐は全て同一の変数である時刻Ｄで行われるので、各ノードの条件は時刻Ｄの範囲で示される。得られる回帰木図におけるノードの分岐は同一の変数である時刻Ｄのみで行われるので、時刻Ｄの区間（始点と終点とがある、複数区間あってもよい）で温度Ｔ１の大小がどのような特徴があるかが自動的に把握できる。回帰木図を構成する各ノードの分岐条件は時刻Ｄの各しきい値の大小となるので、各ノードに属するデータの目的変数の平均値等と説明変数である時刻Ｄの範囲とが決まる。

図４８は、回帰木分析の結果を示す回帰木図である。ここで、図４８を用いて回帰木図から読み取れる情報について説明する。図４８において、項目「Ｔｉｔｌｅ」は、データ解析の対象である目的変数の名称を表している。本実施の形態では「Ｔｉｔｌｅ」は温度Ｔ１となるが、「Ｔｉｔｌｅ」は状況に応じて書き換えることができる。

図中長方形の枠状に図示された節点（ノード）のそれぞれが、集合を表している。以下、集合自体をノードと呼ぶこともある。ノード内部に書かれているＮｏ．Ｘ（Ｘ＝０、１・・６）は、それぞれのノードのノード番号を表している。図中最上部に配置されたノードＮｏ．０が、ルートノードである。ルートノードとは回帰木図の木構造において階層が最も高いノードを言う。本実施の形態ではルートノードのノード番号をＮｏ．０としてノード番号をノードそれぞれに付与しているが、ノード番号の付与の方法は任意である。分割ノードの最終端であるノードをリーフノードと呼ぶ。ノードＮｏ．１、Ｎｏ．４、Ｎｏ．５、Ｎｏ．６がリーフノードである。

ノード番号の右側の［］の中の値は、その集合に属するレコードＲｉの目的変数（本実施の形態では温度Ｔ１）の平均値を表している。ノード内部の項目「ｎ」は、その集合に属するレコードＲｉ数を表している。項目「ｔｉｍｅ」は、その集合に属するレコードＲｉの時刻Ｄの範囲を示している。ノード内部の項目「ＳｔｄＤｅｖ」は、その集合に属するレコードＲｉの目的変数の標準偏差（ＳｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ）を表している。データ解析者は、ノード内部の項目を見ることにより、集合のおおまかな情報を得ることができる。

図中左上に配置された項目「ＡｌｌＳｔｄＤｅｖ」は、全レコードＲｉの目的変数の標準偏差を表している。本実施の形態では、全レコードＲｉの温度Ｔ１の標準偏差は、６．２０９３６７である。項目「ＳｔｏｐＳｔｄＤｅｖ」は、分割停止値を表している。分割停止値は全レコードＲｉの温度Ｔ１の標準偏差の０．７倍になっており、本実施の形態では４．３４６５５７である。従って、リーフノードであるノードＮｏ．１、Ｎｏ．４、Ｎｏ．５、Ｎｏ．６の目的変数の標準偏差は４．３４６５５７以下となっている。図４８以降に示す回帰木図についても、回帰木図の見方は同様である。

回帰木分析の結果について図４８を用いて説明する。全レコードＲｉで構成される集合Ｄ０（ルートノードＮｏ．０）は、上記分割停止条件（ａ）−（ｃ）のいずれにも該当しないので、２つの集合に分割される。集合Ｄ０を２分割するために、時刻Ｄがｔ（ｔ＝１、２・・２４）より大きい（２５−ｔ）個のレコードＲｉで構成される集合Ｄ１と、ｔ以下のｔ個のレコードＲｉで構成される集合Ｄ２とに２５個のレコードＲｉを分割する２４（＝２５−１）通りの組み合わせそれぞれについて上記（３）式で表されるΔＳ’を計算する。計算の結果、ΔＳ’が最大となる説明変数の属性は時刻Ｄであり、説明変数のしきい値はｔ＝２０であることが求まる。

その結果、ルートノードＮｏ．０は、時刻Ｄが２０＜ｔｉｍｅ≦２５の５個のレコードＲｉで構成されるノードＮｏ．１と、時刻Ｄがｔｉｍｅ≦２０の２０個のレコードＲｉで構成されるノードＮｏ．２とに分割される。ノードＮｏ．１に属するレコードＲｉの温度Ｔ１の標準偏差が２．５３３１８であり全レコードＲｉの温度Ｔ１の標準偏差の０．７倍以下であるので、ノードＮｏ．１は分割されない。ノードＮｏ．２は、時刻Ｄが５＜ｔｉｍｅ≦２０の１５個のレコードＲｉで構成されるノードＮｏ．３と、時刻Ｄがｔｉｍｅ≦５の５個のレコードＲｉで構成されるノードＮｏ．６とに分割される。ノードＮｏ．３は、時刻Ｄが１５＜ｔｉｍｅ≦２０の５個のレコードＲｉで構成されるノードＮｏ．４と、時刻Ｄが５＜ｔｉｍｅ≦１５の１０個のレコードＲｉで構成されるノードＮｏ．５とに分割される。ノードＮｏ．４、Ｎｏ．５、Ｎｏ．６に属するレコードＲｉの温度Ｔ１の標準偏差はそれぞれ全レコードＲｉの温度Ｔ１の標準偏差の０．７倍以下であるので、ノードＮｏ．４、Ｎｏ．５、Ｎｏ．６は分割されない。

回帰木分析は分析の対象とするレコードＲｉで構成される集合を目的変数の値により二分割することを繰り返すことにより行われるので、全レコードＲｉはリーフノードのいずれかに属する。本実施の形態では、全レコードＲｉはリーフノードＮｏ．１、Ｎｏ．４、Ｎｏ．５、Ｎｏ．６のいずれかに属する。２５個のレコードＲｉそれぞれが属するリーフノードの番号を図４６に示す。図４６に示すように、回帰木分析の結果、時刻Ｄが連続したレコードＲｉでそれぞれ構成される４つのリーフノードＮｏ．１、Ｎｏ．４、Ｎｏ．５、Ｎｏ．６に２５個のレコードＲｉがグループ化される。

回帰木分析の次に、同一のリーフノードに属するレコードＲｉを１つの小集合とし、レコードＲｉの属性としてグループｉｄをレコードＲｉそれぞれに付加する。この結果、各レコードＲｉにはいずれかの小集合名が付与され、各レコードＲｉはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「ＬＮＯ」として定義する。図４５に示すように、変数ＬＮＯがレコードＲｉそれぞれに付加される。

表１１は、小集合のノード番号、レコードＲｉ数、時刻Ｄの範囲及び温度Ｔ１の平均値（℃）を４つの小集合毎に示している。データ解析者は、各小集合に属するレコードＲｉ数、時刻Ｄの範囲、温度Ｔ１の平均値は表１１に示すものであることを図４８から読み取れる。

回帰木分析の結果、ｍ個（本実施の形態ではｍ＝２５）のレコードＲｉは、それぞれ時刻Ｄの区間が連続し、他の区間（小集合）とは温度Ｔ１の統計的有意差が大きく、同一の小集合内では温度Ｔ１の値が比較的近いｎ個（本実施の形態ではｎ＝４）の小集合にグループ化される。以下、本実施の形態によるデータ解析方法は、回帰木分析の結果得られたリーフノードを小集合とし、当該小集合を第１乃至第５の実施の形態での小集合Ｇｊ、Ｇ２ｊの代わりに用いて、第１乃至第５の実施の形態によるデータ解析方法と同様のデータ解析を行う。

ここで、各小集合の温度Ｔ１の分布を図４９に示す。図４９は、小集合毎に温度Ｔ１の分布を示す箱ひげ図（Ｂｏｘａｎｄｗｈｉｓｋｅｒｓｐｌｏｔ）である。図４９において、横軸は小集合、縦軸は温度Ｔ１（℃）を表している。各小集合Ｎｏ．１、Ｎｏ．４、Ｎｏ．５、Ｎｏ．６の箱ひげ図の上部には、各小集合それぞれに属するレコード数（データ件数）を示している。

表１１及び図４９に示すように、小集合を温度Ｔ１の平均値の大きい順に挙げると、Ｎｏ．５（平均値＝２０．６１）、Ｎｏ．４（１２．３２）、Ｎｏ．６（９．１２）、Ｎｏ．１（６．８２）となる。そこで、これらの小集合を２つの大集合Ｇ’１ｋ、Ｇ’２ｋにまとめた場合、どのようなまとめ方をした場合に２つの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の統計的有意差が最大となるかを抽出する。すなわち、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度Ｔ１の値に顕著な差があるかを抽出する。

レコードＲｉへの小集合名の付加の次に、４個の小集合を温度Ｔ１の平均値の降順に並べ替える。並び替えた順番は、Ｎｏ．５、Ｎｏ．４、Ｎｏ．６、Ｎｏ．１である。次に、平均値順に並べ替えた４個の小集合を、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、３（＝４−１））の小集合で構成される大集合Ｇ’１ｋと残りの（４−ｋ）個の小集合で構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する３（＝４−１）通りの組み合わせＡｋを求める。３通りの組み合わせＡｋを表１２に示す。

表１２は、３通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合を示している。組み合わせＡ１では、大集合Ｇ’１１は平均値が１番目に大きい一つの小集合Ｎｏ．５で構成され、大集合Ｇ’２１は平均値が小集合Ｎｏ．５より小さい３つの小集合Ｎｏ．４、Ｎｏ．６、Ｎｏ．１で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目に大きい２つの小集合Ｎｏ．５、Ｎｏ．４で構成され、大集合Ｇ’２２は平均値が小集合Ｎｏ．５、Ｎｏ．４より小さい２つの小集合Ｎｏ．６、Ｎｏ．１で構成される。組み合わせＡ３では、大集合Ｇ’１３は平均値が１番目乃至３番目に大きい３つの小集合Ｎｏ．５、Ｎｏ．４、Ｎｏ．６で構成され、大集合Ｇ’２３は平均値が最も小さい一つの小集合Ｎｏ．１で構成される。

次に、３通りの組み合わせＡｋのそれぞれについて次の（１）式で表されるまとまり度を求める。

まとまり度は数学的に以下の意味を持つ。まとまり度は、ｎ個（本実施の形態ではｎ＝４）の小集合を２つの大集合Ｇ’１ｋ、Ｇ’２ｋに分割したことにより、それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋに属するレコードＲｉの温度Ｔ１の値のまとまりがどれだけ良くなったかを表す指標である。まとまり度の値が大きいほど、２つの大集合Ｇ’１ｋ、Ｇ’２ｋに分割することにより、大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれに属するレコードＲｉの温度Ｔ１の値のばらつきが小さくなる。逆に、まとまり度の値が小さいほど、分割しても大集合Ｇ’１ｋ、Ｇ’２ｋそれぞれに属するレコードＲｉの温度Ｔ１の値のばらつきは変わらない。

次に、同じデータ（すなわち（１）式のＳ０が同じ）に対して得られたまとまり度について記す。まとまり度は、２つの大集合Ｇ’１ｋ、Ｇ’２ｋの目的変数の統計的有意差を示す指標である。まとまり度の値が大きいことは、前述のように２つの大集合Ｇ’１ｋ、Ｇ’２ｋ内での温度Ｔ１のばらつきが小さいことを意味する。このことを同じ２つの大集合Ｇ’１ｋ、Ｇ’２ｋ間について見ると、それぞれの集合に属するレコードＲｉの温度Ｔ１の統計的有意差が大きいことを意味する。まとまり度が小さいことは、統計的有意差が小さいことを意味する。

まとまり度は標準化された指標であり、目的変数及び目的変数の物理単位によらない指標である。まとまり度は標準化された指標であるので、温度Ｔ１以外のデータ（第７乃至第９の実施の形態においてデータ解析の対象となる温度Ｔ２、Ｔ３、Ｔ４等）での解析結果についても共通的な指標として扱うことができる。３通りの組み合わせＡｋ毎にまとまり度を求めた結果を表１３に示す。

表１３は、３通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合及び組み合わせＡｋのまとまり度を示している。表１３に示すように、まとまり度は組み合わせＡ１、Ａ２、Ａ３の順に大きい。

次に、３通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ１、Ａ２、Ａ３の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。出力結果をコンピュータの表示画面等に表示する際、これらの他に、大集合Ｇ’１ｋ、Ｇ’２ｋ毎の目的変数（温度Ｔ１）の記述統計量（データ個数、最大値、最小値、平均値及び標準偏差等）も出力することにより、確認をより容易に行うことができる。

図５０は、本実施の形態によるデータ解析方法による出力結果例を示している。図５０は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの時刻Ｄの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの時刻Ｄの区間（大集合Ｇ’２ｋ区間）を示している。

図５０に示す大集合Ｇ’１ｋ、Ｇ’２ｋの区間をコンピュータの表示画面等に表示する場合、小集合が連続しているものを自動的に認識して連続区間として表示する。例えば、図５０に示すように、組み合わせＡ２の大集合Ｇ’１２は時刻Ｄが連続している小集合Ｎｏ．５（時刻Ｄの範囲は６〜１５）、Ｎｏ．４（１６〜２０）で構成されているので、大集合Ｇ’１ｋの区間を「６〜２０」とまとめて表示する。

図５０に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ１である。組み合わせＡ１では、大集合Ｇ’１１が小集合Ｎｏ．５（時刻Ｄの範囲は６〜１５）で構成され、大集合Ｇ’２１が小集合Ｎｏ．４、Ｎｏ．６、Ｎｏ．１（１〜５、１６〜２５）で構成される。組み合わせＡ１のまとまり度は８１．１９であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ２である。組み合わせＡ２では、大集合Ｇ’１２が小集合Ｎｏ．５、Ｎｏ．４（６〜２０）で構成され、大集合Ｇ’２２が小集合Ｎｏ．６、Ｎｏ．１（１〜５、２１〜２５）で構成される。組み合わせＡ２のまとまり度は６３．２５である。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ３である。組み合わせＡ３のまとまり度は、３３．８１である。

図５０に示すように、ランク１、２、３の順にまとまり度の値が８１．１９、６３．２５、３３．８１と小さくなる。ランク１、２、３の順に大集合Ｇ’１ｋと大集合Ｇ’２ｋとの温度Ｔ１の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。

図５１は、組み合わせＡ１の大集合Ｇ’１１、Ｇ’２１の温度Ｔ１の分布を示す箱ひげ図である。同様に、図５２及び図５３は、組み合わせＡ２、Ａ３それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の分布を示す箱ひげ図である。図５１乃至図５３において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ１（℃）を表している。図５１に示すように、まとまり度が８１．１９と最も大きい組み合わせＡ１では、大集合Ｇ’１１、Ｇ’２１の温度Ｔ１の統計的有意差が最大となる。図５１乃至図５３に示すように、まとまり度が小さくなるに従って大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ１の統計的有意差が小さくなっていく。

本実施の形態によるデータ解析の結果は、６≦時刻Ｄ≦１５の区間において温度Ｔ１の統計的有意差が他の区間に比べて特に顕著な値になっているので、６≦時刻Ｄ≦１５の区間において何かが他の区間と比較して特異な条件となっていないかをまず優先的に調査することが効果的であることを示唆している。

次に調査することが効果的であるのは、ランク２、ランク３の区間分けによるものであるが、統計的にどれだけ有意差があるかは、まとまり度で定量的に評価することができる。図５３に示すように、ランク３の区間分けによると温度Ｔ１の分布の差はかなり小さくなる。ランク３の区間分けでは、まとまり度が３３．８１と小さな値になり、大集合Ｇ’１１の区間の温度Ｔ１と大集合Ｇ’２１の区間の温度Ｔ１との統計的有意差は小さい。よって、実際に調査しても温度Ｔ１の大小の要因を抽出できる可能性は低いと推測される。

本実施の形態によるデータ解析方法は、ｎ個（本実施の形態ではｎ＝４）の小集合を２つの大集合Ｇ’１、Ｇ’２に分ける分け方において、２つの大集合Ｇ’１、Ｇ’２の目的変数（本実施の形態では温度Ｔ１）の値の統計的有意差が最大になる分け方を抽出する。本実施の形態によるデータ解析方法は、当該統計的有意差を抽出する方法に回帰木分析の考え方を応用している。

回帰木分析では、ｍ個のレコードＲｉを２つの大集合Ｇ’１、Ｇ’２に分割する２^{（ｍ−１）}−１通りの組み合わせの全てについてΔＳが計算される。一方、本実施の形態によるデータ解析方法では、ｎ個の小集合を目的変数（温度Ｔ１）の平均値の大きさ順に２分割する（ｎ−１）通りの組み合わせについてのみ、目的変数の統計的有意差を求めればよい。また、本実施の形態によるデータ解析方法では、目的変数に影響を与えるとされた説明変数は時刻区間を示す小集合の１種類である。

本実施の形態及び後述する第７乃至第９の実施の形態によるデータ解析方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現することができる。また、プログラムは、例えばハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、当該記録媒体を介して、また、伝送媒体としてネットワークを介して配布することができる。

再び図４０を参照して、本実施の形態及び後述する第７乃至第９の実施の形態によるデータ解析方法を実施するデータ解析装置について説明する。図４０は、データ解析装置の一例としてパーソナルコンピュータ１１を示すブロック図である。図４０に示すように、パーソナルコンピュータ１１は、表示装置１５と、キーボードやマウス等の入力装置１７と、中央演算装置（ＣＰＵ）２１と、主記憶装置（メインメモリ）２３と、ハードディスクドライブ等の補助記憶装置２５とを有している。中央演算装置２１には、表示装置１５と、入力装置１７と、主記憶装置２３と補助記憶装置２５とが接続されている。補助記憶装置２５には、本実施の形態によるプログラムやデータファイル５０１等が記憶されている。プログラムは必要に応じて主記憶装置２３に読み込まれて、当該プログラムに書いてある手順が中央演算装置２１によって実行される。

本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは以下の効果を有する。
本実施の形態によれば、ｍ個のレコードＲｉをｎ個の小集合Ｇｊにグループ化するに際して、ｍ個のレコードＲｉに対して回帰木分析を実行し、回帰木分析の結果得られたリーフノードをｎ個の小集合とする。また、当該回帰木分析の説明変数として、１つの説明変数（本実施の形態では時刻Ｄ）のみが用いられる。よって、回帰木分析の結果、ｍ個のレコードＲｉは、それぞれ時刻Ｄの区間が連続し、他の区間とは目的変数の統計的有意差が大きく、同一の小集合内では目的変数の値が比較的近いｎ個の小集合にグループ化される。よって、本実施の形態では第１乃至第５の実施の形態と異なり、目的変数の値の大きな区間と小さな区間とが同一の小集合にグループ化される可能性が低くなる。また、本実施の形態では第１乃至第５の実施の形態と異なり、区間の区切り方又は小集合のレコードＲｉ数がそれぞれ異なるいろいろな分割パターンを作る必要がない。従って、本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、第１乃至第５の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと比較して、統計的有意差を抽出するための効率を精度の面でも速度の面でも向上でき、データの分布情報等をより効率的に抽出できる。

また、本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムによれば、第１の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと同様の効果が得られる。

［第７の実施の形態］
本発明の第７の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図５４乃至図６１を用いて説明する。まず図５４及び図５５を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図５４は、本実施の形態においてデータ解析の対象となるデータファイル６０１を示す表である。図１０及び図５４に示すように、データファイル１０１では時刻Ｄのデータが３月１日、３月２日・・３月２５日と日付のデータであるのに対して、データファイル６０１では時刻Ｄのデータが１、２、・・２５と通算日付、すなわち数値データである点でデータファイル６０１はデータファイル１０１と異なっている。また、本実施の形態では第２の実施の形態とレコードＲｉをｎ個の小集合Ｇｊにグループ化する方法が異なるので、データファイル６０１では変数Ｇｊは不要である。データファイル６０１はこれらの点を除いてデータファイル１０１と同一である。本実施の形態によるデータ解析において、温度Ｔ２が目的変数である。説明変数は時刻Ｄのみである。

図５５は、温度Ｔ２のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ２（℃）を表している。図５５に示すトレンドグラフは、時刻Ｄの単位が異なる点を除いて図１１に示すトレンドグラフと同一である。図５５を見ると、温度Ｔ２の時刻変動は図４６に示す温度Ｔ１の時刻変動と大きく異なっているように見える。しかしながら、図４５及び図５４に示すように、温度Ｔ２の時刻変動は、温度Ｔ１の時刻変動に対して、１１≦時刻Ｄ≦１５の温度と２１≦時刻Ｄ≦２５の温度とが入れ替わった点のみが異なっている。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル６０１に対して、第６の実施の形態によるデータ解析方法と同様のデータ解析を行う。

まず、目的変数を温度Ｔ２とし、説明変数を時刻Ｄのみとして、２５個のレコードＲｉに対して回帰木分析を実行する。図５６は、回帰木分析の結果を示す回帰木図である。図５６に示すように、本実施の形態では、全レコードＲｉの温度Ｔ２の標準偏差は、６．２０９３６７である。分割停止値は全レコードＲｉの温度Ｔ２の標準偏差の０．７倍になっており、本実施の形態では４．３４６５５７である。

回帰木分析の結果について図５６を用いて説明する。全レコードＲｉで構成される集合Ｄ０（ルートノードＮｏ．０）は、上記分割停止条件（ａ）−（ｃ）のいずれにも該当しないので、２つの集合に分割される。ルートノードＮｏ．０は、時刻Ｄが２０＜ｔｉｍｅ≦２５の５個のレコードＲｉで構成されるノードＮｏ．１と、時刻Ｄがｔｉｍｅ≦２０の２０個のレコードＲｉで構成されるノードＮｏ．２とに分割される。ノードＮｏ．１に属するレコードＲｉの温度Ｔ２の標準偏差が１．５５１４５１であり全レコードＲｉの温度Ｔ２の標準偏差の０．７倍以下であるので、ノードＮｏ．１は分割されない。

ノードＮｏ．２は、時刻Ｄが１０＜ｔｉｍｅ≦２０の１０個のレコードＲｉで構成されるノードＮｏ．３と、時刻Ｄがｔｉｍｅ≦１０の１０個のレコードＲｉで構成されるノードＮｏ．４とに分割される。ノードＮｏ．３に属するレコードＲｉの温度Ｔ２の標準偏差が３．４６７６４４であり全レコードＲｉの温度Ｔ２の標準偏差の０．７倍以下であるので、ノードＮｏ．３は分割されない。ノードＮｏ．４は、時刻Ｄが５＜ｔｉｍｅ≦１０の５個のレコードＲｉで構成されるノードＮｏ．５と、時刻Ｄがｔｉｍｅ≦５の５個のレコードＲｉで構成されるノードＮｏ．６とに分割される。ノードＮｏ．５、Ｎｏ．６に属するレコードＲｉの温度Ｔ２の標準偏差はそれぞれ全レコードＲｉの温度Ｔ２の標準偏差の０．７倍以下であるので、ノードＮｏ．５、Ｎｏ．６は分割されない。

回帰木分析の結果、リーフノードＮｏ．１、Ｎｏ．３、Ｎｏ．５、Ｎｏ．６が得られる。全レコードＲｉはリーフノードＮｏ．１、Ｎｏ．３、Ｎｏ．５、Ｎｏ．６のいずれかに属する。回帰木分析の結果、時刻Ｄが連続したレコードＲｉでそれぞれ構成される４つのリーフノードＮｏ．１、Ｎｏ．３、Ｎｏ．５、Ｎｏ．６に２５個のレコードＲｉがグループ化される。

回帰木分析の次に、同一のリーフノードに属するレコードＲｉを１つの小集合とし、レコードＲｉの属性としてグループｉｄをレコードＲｉそれぞれに付加する。この結果、各レコードＲｉにはいずれかの小集合名が付与され、各レコードＲｉはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「ＬＮＯ」として定義する。図５４に示すように、変数ＬＮＯがレコードＲｉそれぞれに付加される。

表１４は、小集合のノード番号、レコードＲｉ数、時刻Ｄの範囲及び温度Ｔ２の平均値（℃）を４つの小集合毎に示している。データ解析者は、各小集合に属するレコードＲｉ数、時刻Ｄの範囲、温度Ｔ２の平均値は表１４に示すものであることを図５６から読み取れる。

ここで、各小集合の温度Ｔ２の分布を図５７に示す。図５７は、小集合毎に温度Ｔ２の分布を示す箱ひげ図である。図５７において、横軸は小集合、縦軸は温度Ｔ２（℃）を表している。各小集合Ｎｏ．１、Ｎｏ．３、Ｎｏ．５、Ｎｏ．６の箱ひげ図の上部には、各小集合それぞれに属するレコード数（データ件数）を示している。

表１４及び図５７に示すように、小集合を温度Ｔ２の平均値の大きい順に挙げると、Ｎｏ．５（平均値＝２１．７）、Ｎｏ．１（１９．５２）、Ｎｏ．３（９．５７）、Ｎｏ．６（９．１２）となる。第６の実施の形態によるデータ解析方法と同様に、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度Ｔ２の値に顕著な差があるかを抽出する。

レコードＲｉへの小集合名の付加の次に、４個の小集合を温度Ｔ２の平均値の降順に並べ替える。並び替えた順番は、Ｎｏ．５、Ｎｏ．１、Ｎｏ．３、Ｎｏ．６である。次に、平均値順に並べ替えた４個の小集合を、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、３（＝４−１））の小集合で構成される大集合Ｇ’１ｋと残りの（４−ｋ）個の小集合で構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する３（＝４−１）通りの組み合わせＡｋを求める。３通りの組み合わせＡｋを表１５に示す。

表１５は、３通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合を示している。組み合わせＡ１では、大集合Ｇ’１１は平均値が１番目に大きい一つの小集合Ｎｏ．５で構成され、大集合Ｇ’２１は平均値が小集合Ｎｏ．５より小さい３つの小集合Ｎｏ．１、Ｎｏ．３、Ｎｏ．６で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目に大きい２つの小集合Ｎｏ．５、Ｎｏ．１で構成され、大集合Ｇ’２２は平均値が小集合Ｎｏ．５、Ｎｏ．１より小さい２つの小集合Ｎｏ．３、Ｎｏ．６で構成される。組み合わせＡ３では、大集合Ｇ’１３は平均値が１番目乃至３番目に大きい３つの小集合Ｎｏ．５、Ｎｏ．１、Ｎｏ．３で構成され、大集合Ｇ’２３は平均値が最も小さい一つの小集合Ｎｏ．６で構成される。

次に、３通りの組み合わせＡｋのそれぞれについてまとまり度を求める。３通りの組み合わせＡｋ毎にまとまり度を求めた結果を表１６に示す。

表１６は、３通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合及び組み合わせＡｋのまとまり度を示している。表１６に示すように、まとまり度は組み合わせＡ２、Ａ１、Ａ３の順に大きい。

次に、３通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ２、Ａ１、Ａ３の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図５８は、本実施の形態によるデータ解析方法による出力結果例を示している。図５８は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの時刻Ｄの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの時刻Ｄの区間（大集合Ｇ’２ｋ区間）を示している。

図５８に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ２である。組み合わせＡ２では、大集合Ｇ’１１が小集合Ｎｏ．５、Ｎｏ．１（時刻Ｄの範囲は６〜１０、２１〜２５）で構成され、大集合Ｇ’２１が小集合Ｎｏ．３、Ｎｏ．６（１〜５、１１〜２０）で構成される。組み合わせＡ２のまとまり度は８１．１９であり、相対的に大きな値となっている。次にまとまり度が大きい組み合わせＡｋ（ランク２）は、組み合わせＡ１である。組み合わせＡ１では、大集合Ｇ’１２が小集合Ｎｏ．５（６〜１０）で構成され、大集合Ｇ’２２が小集合Ｎｏ．３、Ｎｏ．６、Ｎｏ．１（１〜５、１１〜２５）で構成される。組み合わせＡ１のまとまり度は４１．１３である。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ３である。組み合わせＡ３のまとまり度は、１５．４１である。

図５８に示すように、ランク１、２、３の順にまとまり度の値が８１．１９、４１．１３、１５．４１と小さくなる。ランク１、２、３の順に大集合Ｇ’１ｋと大集合Ｇ’２ｋとの温度Ｔ２の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。

図５９は、組み合わせＡ２の大集合Ｇ’１２、Ｇ’２２の温度Ｔ２の分布を示す箱ひげ図である。同様に、図６０及び図６１は、組み合わせＡ１、Ａ３それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ２の分布を示す箱ひげ図である。図５９乃至図６１において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ２（℃）を表している。

本実施の形態によるデータ解析の結果は、６≦時刻Ｄ≦１０及び２１≦時刻Ｄ≦２５の区間において温度Ｔ２の統計的有意差が他の区間に比べて特に顕著な値になっているので、６≦時刻Ｄ≦１０及び２１≦時刻Ｄ≦２５の区間において何かが他の区間と比較して特異な条件となっていないかをまず優先的に調査することが効果的であることを示唆している。次に調査することが効果的であるのは、ランク２、ランク３の区間分けによるものであるが、統計的にどれだけ有意差があるかは、まとまり度で定量的に評価することができる。

上述したように、温度Ｔ２の時刻変動は、温度Ｔ１の時刻変動に対して、１１≦時刻Ｄ≦１５の温度と２１≦時刻Ｄ≦２５の温度とが入れ替わった点のみが異なっている。図４６及び図５５を見ると、温度Ｔ２のトレンドは温度Ｔ１のトレンドと大きく異なっているように見える。しかしながら、本実施の形態によるデータ解析方法によれば、図５０及び図５８に示すように、ランク１となる組み合わせＡ２のまとまり度が第６の実施の形態でのランク１となる組み合わせＡ１のまとまり度と同じであり、さらに１１≦時刻Ｄ≦１５の区間及び２１≦時刻Ｄ≦２５の区間それぞれが属する大集合が両組み合わせで入れ替わっている点のみが異なるという結果が得られる。よって、本実施の形態によるデータ解析の結果、温度Ｔ１の分布と温度Ｔ２の分布とは区間の目的変数の大小といった観点からみると同じような分布であることがまとまり度を用いて定量的に評価された。

本実施の形態によるデータ解析の結果、データ解析者は、図４６に示す１１≦時刻Ｄ≦１５の区間と図５５に示す２１≦時刻Ｄ≦２５の区間とでは背後に同じ現象、条件等が隠されている可能性があると推測できる。また、第６の実施の形態でのランク２のまとまり度と本実施の形態でのランク２のまとまり度とを比較すると、それぞれのまとまり度が６３．２５と４１．１３であり、第６の実施の形態でのランク２のまとまり度が本実施の形態でのランク２のまとまり度よりも大きい。従って、データ解析者等はまとまり度の値が大きい温度Ｔ１におけるランク２の区間分けを優先的に調査すべきである。

本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムによれば、第６の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムと同様の効果が得られる。

［第８の実施の形態］
本発明の第８の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図６２乃至図６８を用いて説明する。まず図６２及び図６３を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図６２は、本実施の形態においてデータ解析の対象となるデータファイル７０１を示す表である。図１８及び図６２に示すように、データファイル２０１では時刻Ｄのデータが３月１日、３月２日・・３月２５日と日付のデータであるのに対して、データファイル７０１では時刻Ｄのデータが１、２、・・２５と通算日付、すなわち数値データである点でデータファイル７０１はデータファイル２０１と異なっている。また、本実施の形態では第３の実施の形態とレコードＲｉをｎ個の小集合Ｇｊにグループ化する方法が異なるので、データファイル７０１では変数Ｇｊは不要である。データファイル７０１はこれらの点を除いてデータファイル２０１と同一である。本実施の形態によるデータ解析において、温度Ｔ３が目的変数である。説明変数は時刻Ｄのみである。

図６３は、温度Ｔ３のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ３（℃）を表している。図６３に示すトレンドグラフは、時刻Ｄの単位が異なる点を除いて図１９に示すトレンドグラフと同一である。図６３に示すように、温度Ｔ３は６≦時刻Ｄ≦１０の区間で他の区間に比べて際立って大きな値となっている。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル７０１に対して、第６の実施の形態によるデータ解析方法と同様のデータ解析を行う。

まず、目的変数を温度Ｔ３とし、説明変数を時刻Ｄのみとして、２５個のレコードＲｉに対して回帰木分析を実行する。図６４は、回帰木分析の結果を示す回帰木図である。図６４に示すように、本実施の形態では、全レコードＲｉの温度Ｔ３の標準偏差は、５．９４０３３４である。分割停止値は全レコードＲｉの温度Ｔ３の標準偏差の０．７倍になっており、本実施の形態では４．１５８２３４である。

回帰木分析の結果について図６４を用いて説明する。全レコードＲｉで構成される集合Ｄ０（ルートノードＮｏ．０）は、上記分割停止条件（ａ）−（ｃ）のいずれにも該当しないので、２つの集合に分割される。ルートノードＮｏ．０は、時刻Ｄが１０＜ｔｉｍｅ≦２５の１５個のレコードＲｉで構成されるノードＮｏ．１と、時刻Ｄがｔｉｍｅ≦１０の１０個のレコードＲｉで構成されるノードＮｏ．２とに分割される。ノードＮｏ．１に属するレコードＲｉの温度Ｔ３の標準偏差が２．１０３８０６であり全レコードＲｉの温度Ｔ３の標準偏差の０．７倍以下であるので、ノードＮｏ．１は分割されない。

ノードＮｏ．２は、時刻Ｄが５＜ｔｉｍｅ≦１０の５個のレコードＲｉで構成されるノードＮｏ．３と、時刻Ｄがｔｉｍｅ≦５の５個のレコードＲｉで構成されるノードＮｏ．４とに分割される。ノードＮｏ．３、Ｎｏ．４に属するレコードＲｉの温度Ｔ３の標準偏差はそれぞれ全レコードＲｉの温度Ｔ３の標準偏差の０．７倍以下であるので、ノードＮｏ．３、Ｎｏ．４は分割されない。

回帰木分析の結果、リーフノードＮｏ．１、Ｎｏ．３、Ｎｏ．４が得られる。全レコードＲｉはリーフノードＮｏ．１、Ｎｏ．３、Ｎｏ．４のいずれかに属する。回帰木分析の結果、時刻Ｄが連続したレコードＲｉでそれぞれ構成される３つのリーフノードＮｏ．１、Ｎｏ．３、Ｎｏ．４に２５個のレコードＲｉがグループ化される。

回帰木分析の次に、同一のリーフノードに属するレコードＲｉを１つの小集合とし、レコードＲｉの属性としてグループｉｄをレコードＲｉそれぞれに付加する。この結果、各レコードＲｉにはいずれかの小集合名が付与され、各レコードＲｉはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「ＬＮＯ」として定義する。図６２に示すように、変数ＬＮＯがレコードＲｉそれぞれに付加される。

表１７は、小集合のノード番号、レコードＲｉ数、時刻Ｄの範囲及び温度Ｔ３の平均値（℃）を３つの小集合毎に示している。データ解析者は、各小集合に属するレコードＲｉ数、時刻Ｄの範囲、温度Ｔ３の平均値は表１７に示すものであることを図６４から読み取れる。

ここで、各小集合の温度Ｔ３の分布を図６５に示す。図６５は、小集合毎に温度Ｔ３の分布を示す箱ひげ図である。図６５において、横軸は小集合、縦軸は温度Ｔ３（℃）を表している。各小集合Ｎｏ．１、Ｎｏ．３、Ｎｏ．４の箱ひげ図の上部には、各小集合それぞれに属するレコード数（データ件数）を示している。

表１７及び図６５に示すように、小集合を温度Ｔ３の平均値の大きい順に挙げると、Ｎｏ．３（平均値＝２１．７）、Ｎｏ．４（９．１２）、Ｎｏ．１（７．８２）となる。そこで、これらの小集合を２つの大集合Ｇ’１ｋ、Ｇ’２ｋにまとめた場合、どのようなまとめ方をした場合に２つの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ３の統計的有意差が最大となるかを抽出する。すなわち、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度Ｔ３の値に顕著な差があるかを抽出する。

レコードＲｉへの小集合名の付加の次に、３個の小集合を温度Ｔ３の平均値の降順に並べ替える。並び替えた順番は、Ｎｏ．３、Ｎｏ．４、Ｎｏ．１である。次に、平均値順に並べ替えた３個の小集合を、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２（＝３−１））の小集合で構成される大集合Ｇ’１ｋと残りの（３−ｋ）個の小集合で構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する２（＝３−１）通りの組み合わせＡｋを求める。２通りの組み合わせＡｋを表１８に示す。

表１８は、２通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合を示している。組み合わせＡ１では、大集合Ｇ’１１は平均値が１番目に大きい一つの小集合Ｎｏ．３で構成され、大集合Ｇ’２１は平均値が小集合Ｎｏ．３より小さい２つの小集合Ｎｏ．４、Ｎｏ．１で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目に大きい２つの小集合Ｎｏ．３、Ｎｏ．４で構成され、大集合Ｇ’２２は平均値が小集合Ｎｏ．３、Ｎｏ．４より小さい一つの小集合Ｎｏ．１で構成される。

次に、２通りの組み合わせＡｋのそれぞれについてまとまり度を求める。２通りの組み合わせＡｋ毎にまとまり度を求めた結果を表１９に示す。

表１９は、２通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合及び組み合わせＡｋのまとまり度を示している。表１９に示すように、まとまり度は組み合わせＡ１、Ａ２の順に大きい。

次に、２通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ１、Ａ２の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図６６は、本実施の形態によるデータ解析方法による出力結果例を示している。図６６は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの時刻Ｄの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの時刻Ｄの区間（大集合Ｇ’２ｋ区間）を示している。

図６６に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ１である。組み合わせＡ１では、大集合Ｇ’１１が小集合Ｎｏ．３（時刻Ｄの範囲は６〜１０）で構成され、大集合Ｇ’２１が小集合Ｎｏ．４、Ｎｏ．１（１〜５、１１〜２５）で構成される。組み合わせＡ１のまとまり度は８６．７８であり、相対的に大きな値となっている。最もまとまり度が小さい組み合わせＡｋは組み合わせＡ２である。組み合わせＡ２のまとまり度は、４０．８１である。

図６６に示すように、ランク１、２の順にまとまり度の値が８６．７８、４０．８１と小さくなる。ランク１、２の順に大集合Ｇ’１ｋと大集合Ｇ’２ｋとの温度Ｔ３の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。

図６７及び図６８は、組み合わせＡ１、Ａ２それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ３の分布を示す箱ひげ図である。図６７及び図６８において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ３（℃）を表している。

本実施の形態によるデータ解析の結果は、６≦時刻Ｄ≦１０の区間において温度Ｔ３の統計的有意差が他の区間に比べて特に顕著な値になっているので、６≦時刻Ｄ≦１０の区間において何かが他の区間と比較して特異な条件となっていないかをまず優先的に調査することが効果的であることを示唆している。

本実施の形態では、ランク１となる組み合わせＡ１の区間分け（６≦時刻Ｄ≦１０と、１≦時刻Ｄ≦５、１１≦時刻Ｄ≦２５とへの区間分け）でのまとまり度が８６．７８となっており、第６及び第７の実施の形態、本実施の形態並びに後述する第９の実施の形態でのデータ解析の結果得られたまとまり度の中で最も大きな値となっている。すなわち、温度Ｔ１、Ｔ２、Ｔ３、Ｔ４の中で、温度Ｔ３における組み合わせＡ１の区間分けにした場合に、大集合Ｇ’１ｋと大集合Ｇ’２ｋとの目的変数（温度Ｔ３）の統計的有意差が最も大きくなることがまとまり度を用いて定量的に評価された。このデータ解析結果から、温度Ｔ１、Ｔ２、Ｔ３、Ｔ４のうち温度Ｔ３の６≦時刻Ｄ≦１０の区間について他の区間との差異がないかをまず調査することが効率的であると推測される。

次に調査することが効果的であるのは、ランク２の区間分けによるものである。しかしながら、ランク２ではまとまり度が４０．８１とランク１と比較して大幅に小さな値となり、ランク２の区間分けはランク１の区間分けと比較してさほど大きな統計的有意差はないことが示される。言い換えれば、まとまり度が８６．７８から４０．８１と大きく変化することは、ランク１とランク２のまとまり度に非常に大きな差があることを示しており、６≦時刻Ｄ≦１０の区間の温度Ｔ３の値のみが、他の区間の温度Ｔ３の値との統計的有意差が大きくなっていることを示している。６≦時刻Ｄ≦１０の区間は、温度Ｔ３の値が非常に大きくなっていることの何らかの要因があるとして解析するに値する。

［第９の実施の形態］
本発明の第９の実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムについて図６９乃至図８１を用いて説明する。まず図６９及び図７０を用いて本実施の形態においてデータ解析の対象となるデータについて説明する。図６９は、本実施の形態においてデータ解析の対象となるデータファイル８０１を示す表である。図２６及び図６９に示すように、データファイル３０１では時刻Ｄのデータが３月１日、３月２日・・３月２５日と日付のデータであるのに対して、データファイル８０１では時刻Ｄのデータが１、２、・・２５と通算日付、すなわち数値データである点でデータファイル８０１はデータファイル３０１と異なっている。また、本実施の形態では第４の実施の形態とレコードＲｉをｎ個の小集合Ｇｊにグループ化する方法が異なるので、データファイル８０１では変数Ｇｊは不要である。データファイル８０１はこれらの点を除いてデータファイル３０１と同一である。本実施の形態によるデータ解析において、温度Ｔ４が目的変数である。説明変数は時刻Ｄのみである。

図７０は、温度Ｔ４のトレンドグラフを示している。横軸は時刻Ｄ（日付）を表し、縦軸は温度Ｔ４（℃）を表している。図７０に示すトレンドグラフは、時刻Ｄの単位が異なる点を除いて図２７に示すトレンドグラフと同一である。図６３に示す温度Ｔ３の時刻変動とは異なり、図７０に示す温度Ｔ４の時刻変動には、他の区間に比べて特徴的な値を有する区間があるとは見えない。

次に、本実施の形態によるデータ解析方法について説明する。本実施の形態では、データファイル８０１に対して、第６の実施の形態によるデータ解析方法と同様のデータ解析を行う。

まず、目的変数を温度Ｔ４とし、説明変数を時刻Ｄのみとして、２５個のレコードＲｉに対して回帰木分析を実行する。図７１は、回帰木分析の結果を示す回帰木図である。図７１に示すように、本実施の形態では、全レコードＲｉの温度Ｔ４の標準偏差は、５．０２２４５６である。分割停止値は全レコードＲｉの温度Ｔ４の標準偏差の０．７倍になっており、本実施の形態では３．５１５７１９である。

回帰木分析の結果について図７１を用いて説明する。全レコードＲｉで構成される集合Ｄ０（ルートノードＮｏ．０）は、上記分割停止条件（ａ）−（ｃ）のいずれにも該当しないので、２つの集合に分割される。ルートノードＮｏ．０は、時刻Ｄが１２＜ｔｉｍｅ≦２５の１３個のレコードＲｉで構成されるノードＮｏ．１と、時刻Ｄがｔｉｍｅ≦１２の１２個のレコードＲｉで構成されるノードＮｏ．８とに分割される。

ノードＮｏ．１は、時刻Ｄが２０＜ｔｉｍｅ≦２５の５個のレコードＲｉで構成されるノードＮｏ．２と、時刻Ｄが１２＜ｔｉｍｅ≦２０の８個のレコードＲｉで構成されるノードＮｏ．７とに分割される。ノードＮｏ．２は、時刻Ｄが２３＜ｔｉｍｅ≦２５の２個のレコードＲｉで構成されるノードＮｏ．３と、時刻Ｄが２０＜ｔｉｍｅ≦２３の３個のレコードＲｉで構成されるノードＮｏ．６とに分割される。ノードＮｏ．３は、時刻Ｄが２４＜ｔｉｍｅ≦２５の１個のレコードＲｉで構成されるノードＮｏ．４と、時刻Ｄが２３＜ｔｉｍｅ≦２４の１個のレコードＲｉで構成されるノードＮｏ．５とに分割される。

ノードＮｏ．８は、時刻Ｄが３＜ｔｉｍｅ≦１２の９個のレコードＲｉで構成されるノードＮｏ．９と、時刻Ｄがｔｉｍｅ≦３の３個のレコードＲｉで構成されるノードＮｏ．１２とに分割される。ノードＮｏ．９は、時刻Ｄが１１＜ｔｉｍｅ≦１２の１個のレコードＲｉで構成されるノードＮｏ．１０と、時刻Ｄがｔｉｍｅ≦１１の１１個のレコードＲｉで構成されるノードＮｏ．１１とに分割される。

ノードＮｏ．１２は、時刻Ｄが１＜ｔｉｍｅ≦３の２個のレコードＲｉで構成されるノードＮｏ．１３と、時刻Ｄがｔｉｍｅ≦１の１個のレコードＲｉで構成されるノードＮｏ．１６とに分割される。ノードＮｏ．１３は、時刻Ｄが２＜ｔｉｍｅ≦３の１個のレコードＲｉで構成されるノードＮｏ．１４と、時刻Ｄが１＜ｔｉｍｅ≦２の１個のレコードＲｉで構成されるノードＮｏ．１５とに分割される。

ノードＮｏ．４、Ｎｏ．５、Ｎｏ．１０、Ｎｏ．１４、Ｎｏ．１５、Ｎｏ．１６は、ノードに属するレコードＲｉ数が１つであるので分割されない。図７１において、ノードＮｏ．４、Ｎｏ．５、Ｎｏ．１０、Ｎｏ．１４、Ｎｏ．１５、Ｎｏ．１６の標準偏差が＃ＤＩＶ／０！となっているのは、ノードに属するレコードＲｉ数が一つしかないことによる。ノードＮｏ．６、Ｎｏ．７、Ｎｏ．１１に属するレコードＲｉの温度Ｔ４の標準偏差はそれぞれ全レコードＲｉの温度Ｔ４の標準偏差の０．７倍以下であるので、ノードＮｏ．６、Ｎｏ．７、Ｎｏ．１１は分割されない。

回帰木分析の結果、リーフノードＮｏ．４、Ｎｏ．５、Ｎｏ．６、Ｎｏ．７、Ｎｏ．１０、Ｎｏ．１１、Ｎｏ．１４、Ｎｏ．１５、Ｎｏ．１６が得られる。全レコードＲｉはリーフノードＮｏ．４、Ｎｏ．５、Ｎｏ．６、Ｎｏ．７、Ｎｏ．１０、Ｎｏ．１１、Ｎｏ．１４、Ｎｏ．１５、Ｎｏ．１６のいずれかに属する。回帰木分析の結果、時刻Ｄが連続したレコードＲｉでそれぞれ構成される９つのリーフノードＮｏ．４、Ｎｏ．５、Ｎｏ．６、Ｎｏ．７、Ｎｏ．１０、Ｎｏ．１１、Ｎｏ．１４、Ｎｏ．１５、Ｎｏ．１６に２５個のレコードＲｉがグループ化される。

回帰木分析の次に、同一のリーフノードに属するレコードＲｉを１つの小集合とし、レコードＲｉの属性としてグループｉｄをレコードＲｉそれぞれに付加する。この結果、各レコードＲｉにはいずれかの小集合名が付与され、各レコードＲｉはいずれかの小集合に属する。ここでは、各リーフノードのノード番号を新たな変数「ＬＮＯ」として定義する。図６９に示すように、変数ＬＮＯがレコードＲｉそれぞれに付加される。

表２０は、小集合のノード番号、レコードＲｉ数、時刻Ｄの範囲及び温度Ｔ４の平均値（℃）を９つの小集合毎に示している。データ解析者は、各小集合に属するレコードＲｉ数、時刻Ｄの範囲、温度Ｔ４の平均値は表２０に示すものであることを図７１から読み取れる。

ここで、各小集合の温度Ｔ４の分布を図７２に示す。図７２は、小集合毎に温度Ｔ４の分布を示す箱ひげ図である。図７２において、横軸は小集合、縦軸は温度Ｔ４（℃）を表している。各小集合Ｎｏ．４、Ｎｏ．５、Ｎｏ．６、Ｎｏ．７、Ｎｏ．１０、Ｎｏ．１１、Ｎｏ．１４、Ｎｏ．１５、Ｎｏ．１６の箱ひげ図の上部には、各小集合それぞれに属するレコード数（データ件数）を示している。

表２０及び図７２に示すように、小集合を温度Ｔ４の平均値の大きい順に挙げると、Ｎｏ．１０（平均値＝１９）、Ｎｏ．１５（１４）、Ｎｏ．５（１３．９）、Ｎｏ．１１（１２．６４）、Ｎｏ．７（７．８９）、Ｎｏ．４（４）、Ｎｏ．６（３．９７）、Ｎｏ．１４＝Ｎｏ．１６（２．２）となる。そこで、これらの小集合を２つの大集合Ｇ’１ｋ、Ｇ’２ｋにまとめた場合、どのようなまとめ方をした場合に２つの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ４の統計的有意差が最大となるかを抽出する。すなわち、上述の小集合を単位とした区間ごとにどの区間が他の区間に比べて温度Ｔ４の値に顕著な差があるかを抽出する。

レコードＲｉへの小集合名の付加の次に、９個の小集合を温度Ｔ４の平均値の降順に並べ替える。並び替えた順番は、Ｎｏ．１０、Ｎｏ．１５、Ｎｏ．５、Ｎｏ．１１、Ｎｏ．７、Ｎｏ．４、Ｎｏ．６、Ｎｏ．１６、Ｎｏ．１４である。ノードＮｏ．１６とノードＮｏ．１４とは平均値が等しいので、順番を入れ替えてもよい。次に、平均値順に並べ替えた９個の小集合を、平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、８（＝９−１））の小集合で構成される大集合Ｇ’１ｋと残りの（９−ｋ）個の小集合で構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する８（＝９−１）通りの組み合わせＡｋを求める。２通りの組み合わせＡｋを表１８に示す。

表２１は、８通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合を示している。例えば、組み合わせＡ１では、大集合Ｇ’１１は平均値が１番目に大きい一つの小集合Ｎｏ．１０で構成され、大集合Ｇ’２１は平均値が小集合Ｎｏ．１０より小さい８つの小集合Ｎｏ．１５、Ｎｏ．５、Ｎｏ．１１、Ｎｏ．７、Ｎｏ．４、Ｎｏ．６、Ｎｏ．１４、Ｎｏ．１６で構成される。組み合わせＡ２では、大集合Ｇ’１２は平均値が１番目及び２番目に大きい２つの小集合Ｎｏ．１０、Ｎｏ．１５で構成され、大集合Ｇ’２２は平均値が小集合Ｎｏ．１０、Ｎｏ．１５より小さい７つの小集合Ｎｏ．５、Ｎｏ．１１、Ｎｏ．７、Ｎｏ．４、Ｎｏ．６、Ｎｏ．１４、Ｎｏ．１６で構成される。

次に、８通りの組み合わせＡｋのそれぞれについてまとまり度を求める。８通りの組み合わせＡｋ毎にまとまり度を求めた結果を表２２に示す。

表２２は、８通りの組み合わせＡｋ毎に、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属する小集合及び組み合わせＡｋのまとまり度を示している。表２２に示すように、まとまり度は組み合わせＡ４、Ａ５、Ａ６、Ａ３、Ａ２、Ａ７、Ａ１、Ａ８の順に大きい。

次に、８通りの組み合わせＡｋをまとまり度の値の降順（組み合わせＡ４、Ａ５、Ａ６、Ａ３、Ａ２、Ａ７、Ａ１、Ａ８の順）に並べ替える。次に、まとまり度の大きな組み合わせＡｋ順に、まとまり度の値及び順位、大集合Ｇ’１ｋ、Ｇ’２ｋのそれぞれに属するレコードＲｉの開始レコード番号及び終了レコード番号（又は、開始時刻及び終了時刻）を出力する。

図７３は、本実施の形態によるデータ解析方法による出力結果例を示している。図７３は、まとまり度が大きい組み合わせＡｋ順（ランク）に、組み合わせＡｋ、まとまり度、大集合Ｇ’１ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’１ｋ（レコード数））、大集合Ｇ’２ｋに属する小集合及びレコードＲｉ数（大集合Ｇ’２ｋ（レコード数））、大集合Ｇ’１ｋの時刻Ｄの区間（大集合Ｇ’１ｋ区間）、大集合Ｇ’２ｋの時刻Ｄの区間（大集合Ｇ’２ｋ区間）を示している。

図７３に示すように、まとまり度が最も大きい組み合わせＡｋ（ランク１）は、組み合わせＡ４である。組み合わせＡ４では、大集合Ｇ’１１が小集合Ｎｏ．１０、Ｎｏ．１５、Ｎｏ．５、Ｎｏ．１１（時刻Ｄの範囲は２、４〜１２、２４）で構成され、大集合Ｇ’２１が小集合Ｎｏ．４、Ｎｏ．６、Ｎｏ．１６、Ｎｏ．１４、Ｎｏ．７（１、３、１３〜２３、２５）で構成される。組み合わせＡ４のまとまり度は５７．２である。本実施の形態では、ランク１のまとまり度が第６乃至第８の実施の形態でのランク１のまとまり度と比較して相対的に小さな値となっている。

図７３に示すように、ランク１、２・・８の順にまとまり度の値が５７．２、４４．３７・・８．５７と小さくなる。ランク１、２・・８の順に大集合Ｇ’１ｋと大集合Ｇ’２ｋとの温度Ｔ４の統計的有意差が小さくなっていくことがまとまり度の値で定量的に示されている。

図７４乃至図８１は、組み合わせＡ４、Ａ５、Ａ６、Ａ３、Ａ２、Ａ７、Ａ１、Ａ８それぞれの大集合Ｇ’１ｋ、Ｇ’２ｋの温度Ｔ４の分布を示す箱ひげ図である。図７４乃至図８１において、横軸は大集合Ｇ’１ｋ、Ｇ’２ｋを表し、縦軸は温度Ｔ４（℃）を表している。

本実施の形態では、算出されたまとまり度はいずれも相対的に小さな値であり、且つ同じような値が並んでいる。すなわち、どのような区間分け（集合分割）でも同じような小さな統計的有意差である。このことは、実際には温度Ｔ４に顕著な差はないことを意味している。従って、温度Ｔ４についての調査は有益な結果を得ることをあまり期待できないであろうと推察される。

本実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、連続した区間の目的変数が他の区間に比べて異なっているものを自動的に抽出するものである。しかしながら、図７３に示す大集合Ｇ’１ｋの時刻Ｄの区間及び大集合Ｇ’２ｋの時刻Ｄの区間は飛び飛びになっているものもあり、連続した区間となっていない。その意味でも、本実施の形態によるデータ解析の結果は温度Ｔ４の時間変動がランダムなものであることを示すといえる。

上記実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、回帰木分析結果である小集合を大集合Ｇ’１ｋ、Ｇ’２ｋにまとめるパターン等はデータ解析の対象によってそれぞれ異なるが、大集合Ｇ’１ｋ、Ｇ’２ｋに二分割した場合の統計的有意差をまとまり度という共通的なパラメータで評価できる。このため、温度Ｔ１、Ｔ２、Ｔ３、Ｔ４の値がとる範囲がそれぞれ大きく異なっても、統計的有意差をまとまり度一つで評価することができる。

本発明は、上記実施の形態に限らず種々の変形が可能である。
例えば、上記第１乃至第５の実施の形態では、小集合Ｇｊ又は小集合Ｇ２ｊのそれぞれは同数の５個のレコードＲｉで構成されているが、小集合を構成するレコードＲｉ数は５個に限られない。例えば、図３４に示すように、複数のレコードＲｉをそれぞれが６個のレコードＲｉで構成される小集合Ｇ３ｊに分割してもよい。図３４に示すように、小集合Ｇ３１は、レコードＲ１〜Ｒ６（３月１日〜６日）で構成される。小集合Ｇ３２は、レコードＲ７〜Ｒ１２（３月７日〜１２日）で構成される。小集合Ｇ３３は、レコードＲ１３〜Ｒ１８（３月１３日〜１８日）で構成される。小集合Ｇ３４は、レコードＲ１９〜Ｒ２４（３月１９日〜２４日）で構成される。各小集合を構成するレコードＲｉ数は４個以下でもよい。しかしながら、上記実施の形態によるデータ解析方法は、目的変数の値が他の区間と際立って異なる区間を抽出することを目的とする。当該目的を達成するためには、各小集合を構成するレコードＲｉ数はある程度多い（５個以上である）ことが好ましい。

また、上記第１乃至第５の実施の形態では、各小集合Ｇｊ（又はＧ２ｊ）は同数のレコードＲｉで構成されているが、本発明はこれに限られず、各小集合のレコードＲｉ数をそれぞれ異ならせてもよい。ただ、各小集合のレコードＲｉ数を同じにすることが、データ解析の精度の点で好ましいと考えられる。

また、上記実施の形態では説明変数として時刻Ｄを用いたが、本発明はこれに限られず、説明変数として他の変数を用いてもよい。例えば、説明変数として半導体製造工程等における同時搬送単位であるロットの番号（ロット番号）を用いてもよい。説明変数としてロット番号を用いる場合には、複数のレコードＲｉをロット番号順に並べ替えてもよい。

また、説明変数としてロット内のウェーハ番号、処理工程順等を用いてもよい。

また、上記実施の形態では２５個のレコードＲｉを説明変数の値の昇順、すなわち時刻Ｄ順に並べ替えたが、本発明はこれに限られず、時刻Ｄの降順に並べ替えてもよい。同様に、説明変数が時刻Ｄ以外の場合も、当該説明変数の昇順に並べ替えても降順に並べ替えてもよい。

また、上記実施の形態では目的変数として温度Ｔ１、Ｔ２、Ｔ３、Ｔ４を用いたが、本発明はこれに限られない。量的変数であれば、本発明のデータ解析方法の目的変数とすることができる。例えば、目的変数として半導体製造工程等における歩留まりを用いてもよい。

また、目的変数として半導体製造工程等の製造プロセスにおける性能をはじめとする諸々の条件、例えば電圧、電流やガス流量等を用いてもよい。

また、上記実施の形態ではレコードＲｉ数は２５個だったが、レコードＲｉ数は２５個に限られない。レコードＲｉ数は２個以上であればよい。

また、上記第１乃至第５の実施の形態では小集合Ｇｊ（又は小集合Ｇ２ｊ）を目的変数の平均値の降順に並べ替えたが、昇順に並び替えてもよい。

以上説明した実施の形態によるデータ解析方法及び装置、及びデータ解析方法をコンピュータに実行させるプログラムは、以下のようにまとめられる。
（付記１）
記憶部が説明変数ｘｉと量的変数である目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を記憶するステップと、
演算部が前記記憶部から前記ｍ個のレコードＲｉを読み出し、
前記ｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割し、
前記小集合Ｇｊ毎に前記目的変数ｙｉの平均値を求め、
前記ｎ個の小集合Ｇｊを前記平均値の昇順又は降順に並べ替え、
前記並べ替えたｎ個の小集合Ｇｊを、前記平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の前記小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の前記小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求め、
前記（ｎ−１）通りの組み合わせＡｋのそれぞれについて次の式で表されるまとまり度を求め、
前記まとまり度に基づいて所定のデータ解析を行うステップ
からなるデータ解析方法。
まとまり度＝［{Ｓ０−（Ｓ１＋Ｓ２）}／Ｓ０］×１００
ただし、Ｓ０は前記ｍ個の前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ１は前記大集合Ｇ’１ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ２は前記大集合Ｇ’２ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。
（付記２）
付記１記載のデータ解析方法において、
前記ｎ個の小集合Ｇｊのそれぞれは、同数の前記レコードＲｉで構成されること
を特徴とするデータ解析方法。
（付記３）
付記１又は２に記載のデータ解析方法において、
前記レコードＲｉを前記説明変数ｘｉの値に基づいて並べ替え、
前記小集合Ｇｊのそれぞれを前記説明変数ｘｉの値に基づいて並べ替えた順番が連続している前記レコードＲｉで構成すること
を特徴とするデータ解析方法。
（付記４）
付記３記載のデータ解析方法において、
前記レコードＲｉを前記説明変数ｘｉの値の昇順又は降順に並べ替えること
を特徴とするデータ解析方法。
（付記５）
付記１記載のデータ解析方法において、
前記ｍ個のレコードＲｉを前記ｎ個の小集合Ｇｊに分割するに際し、
前記ｍ個のレコードＲｉに対して回帰木分析を実行し、
前記回帰木分析の結果得られたリーフノードを前記ｎ個の小集合Ｇｊとすること
を特徴とするデータ解析方法。
（付記６）
付記５記載のデータ解析方法において、
前記回帰木分析の説明変数として、前記説明変数ｘｉのみを用いること
を特徴とするデータ解析方法。
（付記７）
付記５又は６に記載のデータ解析方法において、
前記回帰木分析は、前記ｍ個のレコードＲｉで構成される集合をルートノードとして集合の２分割を繰り返すことにより実行され、
前記集合の２分割は、
分割前の集合Ｄ０が所定の分割停止条件を満たすかを判断し、
前記集合Ｄ０が前記所定の分割停止条件を満たす場合には集合の分割を停止し、
前記集合Ｄ０が所定の分割停止条件を満たさない場合には、次の式で表されるΔＳ’が最大となる２つの集合Ｄ１、Ｄ２に前記集合Ｄ０を分割することにより実行されること
を特徴とするデータ解析方法。
ΔＳ’＝Ｓ’０−（Ｓ’１＋Ｓ’２）
ただし、Ｓ’０は分割前の前記集合Ｄ０に属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ’１は分割後の一方の前記集合Ｄ１に属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ’２は分割後の他方の前記集合Ｄ２に属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。
（付記８）
付記７記載のデータ解析方法において、
前記２つの集合Ｄ１、Ｄ２は、前記説明変数ｘｉの順序が連続している前記レコードＲｉでそれぞれ構成されること
を特徴とするデータ解析方法。
（付記９）
付記７又は８に記載のデータ解析方法において、
前記所定の分割停止条件は、前記集合Ｄ０に属する前記レコードＲｉ数が１つであること
を特徴とするデータ解析方法。
（付記１０）
付記７又は８に記載のデータ解析方法において、
前記集合Ｄ０に属する前記レコードＲｉの前記説明変数ｘｉの値が全て同一であること
を特徴とするデータ解析方法。
（付記１１）
付記７又は８に記載のデータ解析方法において、
前記集合Ｄ０に属する前記レコードＲｉの前記目的変数ｙｉの標準偏差が所定の値以下であること
を特徴とするデータ解析方法。
（付記１２）
付記１乃至１１のいずれか１項に記載のデータ解析方法において、
前記説明変数ｘｉは、時刻であること
を特徴とするデータ解析方法。
（付記１３）
付記１乃至４のいずれか１項に記載のデータ解析方法において、
前記ｍ個のレコードＲｉを前記ｎ個の小集合Ｇｊとは異なるｑ個の小集合Ｇｐ（ｐ＝１、２、・・、ｑ（ｑは自然数、２≦ｑ≦ｍ））に分割し、
前記ｑ個の小集合Ｇｐについて前記ｎ個の小集合Ｇｊと同様の方法によって前記まとまり度を求めること
を特徴とするデータ解析方法。
（付記１４）
付記１乃至１３のいずれか１項に記載のデータ解析方法をコンピュータに実行させるデータ解析プログラム。
（付記１５）
説明変数ｘｉと量的変数である目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を記憶する記憶部と、
前記記憶部から前記ｍ個のレコードＲｉを読み出し、
前記ｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割し、
前記小集合Ｇｊ毎に前記目的変数ｙｉの平均値を求め、
前記ｎ個の小集合Ｇｊを前記平均値の昇順又は降順に並べ替え、
前記並べ替えたｎ個の小集合Ｇｊを、前記平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の前記小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の前記小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求め、
前記（ｎ−１）通りの組み合わせＡｋのそれぞれについて次の式で表されるまとまり度を求め、
前記まとまり度に基づいて所定のデータ解析を行う演算部と
を有することを特徴とするデータ解析装置。
まとまり度＝［{Ｓ０−（Ｓ１＋Ｓ２）}／Ｓ０］×１００
ただし、Ｓ０は前記ｍ個の前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ１は前記大集合Ｇ’１ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ２は前記大集合Ｇ’２ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。

本発明の第１の実施の形態においてデータ解析の対象となるデータファイル１を示す表である。温度Ｔ１のトレンドグラフである。小集合Ｇｊ毎に温度Ｔ１の分布を示す箱ひげ図である。本発明の第１の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ４のＧ’１４、Ｇ’２４の温度Ｔ１の分布を示す箱ひげ図である。回帰木分析においてデータ解析の対象となるデータファイル２を示す図である。本発明の第２の実施の形態においてデータ解析の対象となるデータファイル１０１を示す表である。温度Ｔ２のトレンドグラフである。小集合Ｇｊ毎に温度Ｔ２の分布を示す箱ひげ図である。本発明の第２の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ２の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ２の分布を示す箱ひげ図である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ２の分布を示す箱ひげ図である。組み合わせＡ４のＧ’１４、Ｇ’２４の温度Ｔ２の分布を示す箱ひげ図である。本発明の第３の実施の形態においてデータ解析の対象となるデータファイル２０１を示す表である。温度Ｔ３のトレンドグラフである。小集合Ｇｊ毎に温度Ｔ３の分布を示す箱ひげ図である。本発明の第３の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ３の分布を示す箱ひげ図である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ３の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ３の分布を示す箱ひげ図である。組み合わせＡ４のＧ’１４、Ｇ’２４の温度Ｔ３の分布を示す箱ひげ図である。本発明の第４の実施の形態においてデータ解析の対象となるデータファイル３０１を示す表である。温度Ｔ４のトレンドグラフである。小集合Ｇｊ毎に温度Ｔ４の分布を示す箱ひげ図である。本発明の第４の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ４のＧ’１４、Ｇ’２４の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ４の分布を示す箱ひげ図である。本発明の第５の実施の形態においてデータ解析の対象となるデータファイル４０１を示す表である。小集合Ｇ２ｊ毎に温度Ｔ１の分布を示す箱ひげ図である。本発明の第５の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ１の分布を示す箱ひげ図である。パーソナルコンピュータ１１を示すブロック図である。本発明の第１乃至第５の実施の形態によるデータ解析装置でのデータ解析動作を示すフローチャートである。トレンドグラフの一例（その１）である。トレンドグラフの一例（その２）である。トレンドグラフの一例（その３）である。本発明の第６の実施の形態においてデータ解析の対象となるデータファイル５０１を示す表である。温度Ｔ１のトレンドグラフである。回帰木図の一例を示す図である。本発明の第６の実施の形態において回帰木分析の結果を示す回帰木図である。小集合毎に温度Ｔ１の分布を示す箱ひげ図である。本発明の第６の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ１の大集合Ｇ’１１、Ｇ’２１の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ２の大集合Ｇ’１２、Ｇ’２２の温度Ｔ１の分布を示す箱ひげ図である。組み合わせＡ３の大集合Ｇ’１３、Ｇ’２３の温度Ｔ１の分布を示す箱ひげ図である。本発明の第７の実施の形態においてデータ解析の対象となるデータファイル６０１を示す表である。温度Ｔ２のトレンドグラフである。本発明の第７の実施の形態において回帰木分析の結果を示す回帰木図である。小集合毎に温度Ｔ２の分布を示す箱ひげ図である。本発明の第７の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ２の分布を示す箱ひげ図である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ２の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ２の分布を示す箱ひげ図である。本発明の第８の実施の形態においてデータ解析の対象となるデータファイル７０１を示す表である。温度Ｔ３のトレンドグラフである。本発明の第８の実施の形態において回帰木分析の結果を示す回帰木図である。小集合毎に温度Ｔ３の分布を示す箱ひげ図である。本発明の第８の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ３の分布を示す箱ひげ図である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ３の分布を示す箱ひげ図である。本発明の第９の実施の形態においてデータ解析の対象となるデータファイル８０１を示す表である。温度Ｔ４のトレンドグラフである。本発明の第９の実施の形態において回帰木分析の結果を示す回帰木図である。小集合毎に温度Ｔ４の分布を示す箱ひげ図である。本発明の第９の実施の形態によるデータ解析方法による出力結果例を示す表である。組み合わせＡ４のＧ’１４、Ｇ’２４の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ５のＧ’１５、Ｇ’２５の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ６のＧ’１６、Ｇ’２６の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ３のＧ’１３、Ｇ’２３の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ２のＧ’１２、Ｇ’２２の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ７のＧ’１７、Ｇ’２７の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ１のＧ’１１、Ｇ’２１の温度Ｔ４の分布を示す箱ひげ図である。組み合わせＡ８のＧ’１８、Ｇ’２８の温度Ｔ４の分布を示す箱ひげ図である。

符号の説明

１、２、１０１、２０１、３０１、４０１、５０１、６０１、７０１、８０１データファイル
１１パーソナルコンピュータ
１５表示装置
１７入力装置
２１中央演算装置
２３主記憶装置
２５補助記憶装置
Ａｖｅ平均値
ＢＧ１、ＢＧ２、ＢＧ３、ＢＧ４、ＢＧ５箱ひげ図
Ｌ四分位範囲
Ｑ１第１四分位数（２５％点）
Ｑ２第２四分位数（中央値）
Ｑ３第３四分位数（７５％点）
Ｍａｘ最大値
Ｍｉｎ最小値
Ｒ１、Ｒ２、Ｒｍレコード
Ｘ１、Ｘ２、Ｘｍ説明変数群
ｘ１、ｘ２、ｘｖ説明変数
ｙ１、ｙ２、ｙｍ目的変数

Claims

記憶部が説明変数ｘｉと量的変数である目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を記憶するステップと、
演算部が前記記憶部から前記ｍ個のレコードＲｉを読み出し、
前記ｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割し、
前記小集合Ｇｊ毎に前記目的変数ｙｉの平均値を求め、
前記ｎ個の小集合Ｇｊを前記平均値の昇順又は降順に並べ替え、
前記並べ替えたｎ個の小集合Ｇｊを、前記平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の前記小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の前記小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求め、
前記（ｎ−１）通りの組み合わせＡｋのそれぞれについて次の式で表されるまとまり度を求め、
前記まとまり度に基づいて所定のデータ解析を行うステップ
からなるデータ解析方法。
まとまり度＝［{Ｓ０−（Ｓ１＋Ｓ２）}／Ｓ０］×１００
ただし、Ｓ０は前記ｍ個の前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ１は前記大集合Ｇ’１ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ２は前記大集合Ｇ’２ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。
請求項１記載のデータ解析方法において、
前記ｎ個の小集合Ｇｊのそれぞれは、同数の前記レコードＲｉで構成されること
を特徴とするデータ解析方法。
請求項１又は２に記載のデータ解析方法において、
前記レコードＲｉを前記説明変数ｘｉの値に基づいて並べ替え、
前記小集合Ｇｊのそれぞれを前記説明変数ｘｉの値に基づいて並べ替えた順番が連続している前記レコードＲｉで構成すること
を特徴とするデータ解析方法。
請求項１記載のデータ解析方法において、
前記ｍ個のレコードＲｉを前記ｎ個の小集合Ｇｊに分割するに際し、
前記ｍ個のレコードＲｉに対して回帰木分析を実行し、
前記回帰木分析の結果得られたリーフノードを前記ｎ個の小集合Ｇｊとすること
を特徴とするデータ解析方法。
請求項４記載のデータ解析方法において、
前記回帰木分析の説明変数として、前記説明変数ｘｉのみを用いること
を特徴とするデータ解析方法。
請求項４又は５に記載のデータ解析方法において、
前記回帰木分析は、前記ｍ個のレコードＲｉで構成される集合をルートノードとして集合の２分割を繰り返すことにより実行され、
前記集合の２分割は、
分割前の集合Ｄ０が所定の分割停止条件を満たすかを判断し、
前記集合Ｄ０が前記所定の分割停止条件を満たす場合には集合の分割を停止し、
前記集合Ｄ０が所定の分割停止条件を満たさない場合には、次の式で表されるΔＳ’が最大となる２つの集合Ｄ１、Ｄ２に前記集合Ｄ０を分割することにより実行されること
を特徴とするデータ解析方法。
ΔＳ’＝Ｓ’０−（Ｓ’１＋Ｓ’２）
ただし、Ｓ’０は分割前の前記集合Ｄ０に属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ’１は分割後の一方の前記集合Ｄ１に属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ’２は分割後の他方の前記集合Ｄ２に属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。
請求項１乃至６のいずれか１項に記載のデータ解析方法において、
前記説明変数ｘｉは、時刻であること
を特徴とするデータ解析方法。
請求項１乃至７のいずれか１項に記載のデータ解析方法をコンピュータに実行させるデータ解析プログラム。
説明変数ｘｉと量的変数である目的変数ｙｉとをそれぞれ有するｍ個のレコードＲｉ（ｉ＝１、２、・・、ｍ（ｍは自然数、ｍ≧２））を記憶する記憶部と、
前記記憶部から前記ｍ個のレコードＲｉを読み出し、
前記ｍ個のレコードＲｉをｎ個の小集合Ｇｊ（ｊ＝１、２、・・、ｎ（ｎは自然数、２≦ｎ≦ｍ））に分割し、
前記小集合Ｇｊ毎に前記目的変数ｙｉの平均値を求め、
前記ｎ個の小集合Ｇｊを前記平均値の昇順又は降順に並べ替え、
前記並べ替えたｎ個の小集合Ｇｊを、前記平均値が大きい方からｋ個（ｋは自然数、ｋ＝１、２、・・、ｎ−１）の前記小集合Ｇｊで構成される大集合Ｇ’１ｋと残りの（ｎ−ｋ）個の前記小集合Ｇｊで構成される大集合Ｇ’２ｋとの２つの大集合にそれぞれ分割する（ｎ−１）通りの組み合わせＡｋを求め、
前記（ｎ−１）通りの組み合わせＡｋのそれぞれについて次の式で表されるまとまり度を求め、
前記まとまり度に基づいて所定のデータ解析を行う演算部と
を有することを特徴とするデータ解析装置。
まとまり度＝［{Ｓ０−（Ｓ１＋Ｓ２）}／Ｓ０］×１００
ただし、Ｓ０は前記ｍ個の前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ１は前記大集合Ｇ’１ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和、
Ｓ２は前記大集合Ｇ’２ｋに属する前記レコードＲｉの前記目的変数ｙｉの偏差平方和である。