JP4255779B2 - データ分析装置およびデータ分析方法並びにデータ分析プログラム - Google Patents

データ分析装置およびデータ分析方法並びにデータ分析プログラム Download PDF

Info

Publication number
JP4255779B2
JP4255779B2 JP2003272648A JP2003272648A JP4255779B2 JP 4255779 B2 JP4255779 B2 JP 4255779B2 JP 2003272648 A JP2003272648 A JP 2003272648A JP 2003272648 A JP2003272648 A JP 2003272648A JP 4255779 B2 JP4255779 B2 JP 4255779B2
Authority
JP
Japan
Prior art keywords
data
attribute
input
frequency
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003272648A
Other languages
English (en)
Other versions
JP2005032117A (ja
Inventor
博明 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003272648A priority Critical patent/JP4255779B2/ja
Publication of JP2005032117A publication Critical patent/JP2005032117A/ja
Application granted granted Critical
Publication of JP4255779B2 publication Critical patent/JP4255779B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造され
る製品の特性等と、出力属性に影響を与える属性である入力属性(説明属性)、
例えば製造プロセス条件等との因果関係を分析するデータ分析装置およびデータ
分析方法並びにデータ分析プログラムに関する。
出力属性と入力属性との因果関係を分析する有効な手法としては、決定木手法
が知られている(特許文献1参照)。この手法では、各入力属性の値で順次切り
分けた葉の部分で、出力属性の値がうまくまとまるような木構造を作成する。
図10は、特許文献1の従来技術の項(特許文献1の段落[0002]〜[0
005]および図22参照)に記載されている決定木の1例であり、表1のデー
タ群を分析対象としている。表1のデータ群は、x1,x2,x3,x4の4つ
の入力属性の値と、これら入力属性に対する出力属性yの値とを組とするデータ
を12個集めた集合である。この手法で作成される決定木(以下、「従来の決定
木−1」と呼ぶ事にする)では、図10に示すように、出力属性yの値X,Y,
Zが入力属性x1,x2,x3の各値によって、うまく切り分けられている。
しかし、図10の従来の決定木−1の作成においては、データを分類する際に
、入力属性がとる値の数(属性値の種類数)だけのデータ集合に分類される。例
えば、入力属性x2は4種類の値(a,b,c,d)をとるので、入力属性x2
による分類により4つの集合に分類される。そのため、入力属性がとる値の数が
増えると、決定木が煩雑になる可能性がある。
この課題の解決策として、特許文献1では、各属性において、まとめられる属
性値を1つのラベルで表現し、ラベルによりデータ分類する決定木を提案してい
る。
図11は、特許文献1の実施例(特許文献1の段落[0010]〜[0028
]および図13参照)に記載のラベル階層である。この実施例では、例えば、4
種の属性値(1,2,3,4)からなるx3属性について、x3属性値「1」「
2」に「2.5以下」というラベルをつけおよび、x3属性値「3」「4」に「
2.5以上」というラベルをつけて階層構造を表現している。このラベル階層構
造を用いて作成される決定木(以下、この決定木を従来の決定木−2と呼ぶ事に
する)は、図12(特許文献1の段落[0010]〜[0028]および図14
参照)に示す如くであり、図10に示す従来の決定木−1に比べて、非常に簡潔
である。
特開平8−314725号公報(公開日:平成8年(1996)11月29日)
上記従来の決定木生成手法をデバイス等の製品の製造工程における製品特性不
良の要因分析に応用する場合を題材にして、従来技術の課題を説明する。
いま、表1の入力属性x1,x2,x3,x4が製品製造工程における各種の
プロセスデータやインライン検査データ、出力属性yが製造された製品の特性デ
ータであり、出力属性y=Yが製品特性不良に相当するものとする。そして、プ
ロセス技術者が、製品特性不良y=Yに対し、特許文献1の従来技術に記載され
た手法で生成された決定木−1(図10)、または特許文献1に記載された手法
で生成された従来の決定木−2(図12)を用いて、製品特性不良の要因を調査
するものとする。
このとき、特許文献1の従来技術に記載された手法で生成された決定木−1で
は、注目すべきy=Yが樹形の中の複数箇所(図10の例では4箇所)に分散し
ているため煩雑であり、「どの入力属性がどの値の範囲にあるから製品特性が悪
いのか?」という製品特性不良の要因をプロセス技術者が判断しにくい。図10
の例では、入力属性が4属性だけでかつ各属性値の種類も4つだけであるため、
何とか、プロセス技術者が製品特性不良の要因を判断することも可能である。し
かしながら、実際のデバイス(特に半導体デバイス)のような製品の製造現場で
は、1工程につき10〜100属性程度のプロセスデータやインライン検査デー
タがあり、しかも、その値は多値で非常に広い範囲で分布している。さらに、外
乱(入力属性として検出できていない属性)の影響により、各入力属性の値が同
じであっても、出力属性の値がばらつく事も多い。これらのような場合に特許文
献1の従来技術に記載された手法を用いると、厳密な分析を目指すがあまり、無
限数のデータ集合に分類されてしまい、もはや、プロセス技術者が、適正に製品
特性不良の要因を特定する事ができなくなる。
一方、特許文献1に開示された手法により生成される決定木−2(図12)で
は、ラベル階層による分類がなされているので、決定木が簡潔である。そのため
、プロセス技術者が、y=Yなる製品特性不良の要因を特定しやすい。
しかし、この図12に示す簡潔な決定木−2を作成するには、図11に示すラ
ベル階層構造を予め定義しておく必要がある。そのため、特許文献1の決定木生
成手法は、まとめられる属性値の見当がつかない場合には適用できない。上述し
たように、実際のデバイスのような製品の製造現場では、1工程につき10〜1
00属性程度の、プロセスデータやインライン検査データがあり、しかも、その
値は多値で非常に広い範囲で分布している。さらに、外乱(入力属性として検出
できていない属性)の影響により、各入力属性の値が同じであっても、出力属性
の値がばらつく事も多い。これらのような状況下で、各入力属性に対し、一つの
ラベルとしてまとめられる属性値を見出す事は、経験豊富なプロセス技術者であ
っても、非常に困難である。
本発明は、上記従来の問題点を鑑みてなされたものであり、その目的は、ラベ
ル階層構造を予め定義する事なく、簡潔な形で、出力属性と入力属性との因果関
係を導き出せるデータ分析装置およびデータ分析方法並びにデータ分析プログラ
ムを提供する事にある。
本発明に係るデータ分析装置は、上記の課題を解決するために、分析対象データ格納部に格納された、複数の入力属性 (1≦j≦N、Nは入力属性の個数)と、1つの出力属性とで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置であって、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類手段と、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含むことを特徴としている。
本発明に係るデータ分析方法は、上記の課題を解決するために、前記のデータ分析装置を用いて、分析対象データ格納部に格納された、複数の入力属性 (1≦j≦N、Nは入力属性の個数)と、1つの出力属性とで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析方法であって、上記文字―数値データ変換手段により、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換ステップと、上記分類手段により、数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類ステップと、上記第1の評価手段により、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価ステップと、上記閾値決定手段により、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定ステップと、上記第2の評価手段により、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価ステップと、上記要因抽出手段により、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出ステップとを含むことを特徴としている。
本発明に係るデータ分析プログラムは、上記の課題を解決するために、分析対象データ格納部に格納された、複数の入力属性x (1≦j≦N、Nは入力属性の個数)と、1つの出力属性yとで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置が備えるコンピュータを機能させるためのデータ分析プログラムであって、上記データ分析装置は、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類手段と、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含み、コンピュータを上記の各手段として機能させるためのデータ分析プログラムであることを特徴としている。
本発明に係るコンピュータ読み取り可能な記録媒体は、上記の課題を解決する
ために、上記のデータ分析プログラムを記録したものであることを特徴としてい
る。
上記装置、方法、プログラム、あるいは記録媒体によれば、ラベル階層構造を
予め定義する事なく、簡潔な形で、第2データ群に対応する出力属性条件(結果
)の要因を抽出できる。それゆえ、例えば第2データ群が悪い結果(例えば不良
品の発生)に対応するデータ群であれば、その悪い結果の要因をユーザが容易に
把握できる。逆に、第2データ群が良い結果(例えば優れた特性を持つ製品の発
生)に対応するデータ群であれば、その良い結果の要因をユーザが容易に把握で
きる。
本発明に係るデータ分析方法は、上記要因抽出手段で抽出された入力属性条件に基づいて、数値型基本データ群DA0を、上記入力属性条件を満たす要因データ群と上記入力属性条件を満たさない他データ群とに分割し、分類されたデータ群のうちの少なくとも一方を新たな数値型基本データ群DA0として分類手段に送る分割手段をさらに含み、分類手段による処理、第1の評価手段による処理、閾値決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることがより好ましい。
上記構成によれば、複数の要因を節点として木構造を作成できる。それゆえ、
単独の相関ルールでは表現し難い複数の要因の絡み合った分析対象であっても、
十分高い精度で要因を究明できる。
本発明に係るデータ分析装置は、終了条件を満たしているかを判定する終了条
件判定手段をさらに含み、上記終了条件判定手段において終了条件を満たしてい
ると判定されると、上記一連の処理の実行を終了するようになっていることがよ
り好ましい。これにより、必要以上の無駄な処理が行われることを回避できる。
上記第1の評価手段は、各入力属性の全ての数値について、第1データ群中に
おける入力属性がその数値以下であるデータの割合を第1の頻度として演算する
と共に、第2データ群中における入力属性がその数値以下であるデータの割合を
第2の頻度として演算する頻度演算手段と、各入力属性の全ての数値について、
第1の頻度と第2の頻度との差分を演算する差分演算手段とを含むことがより好
ましい。これにより、閾値評価指標を容易に演算することができる。
上記第2の評価手段は、第1のルール評価値として、第1データ群中における
入力属性が閾値以下であるデータの割合に対する、第2データ群中における入力
属性が閾値以下であるデータの割合の比率を第1の比率として演算すると共に、
第2のルール評価値として、第1データ群中における入力属性が閾値を超えるデ
ータの割合に対する、第2データ群中における入力属性が閾値を超えるデータの
割合の比率を第2の比率として演算し、双方の比率のうち大きい方の比率を抽出
するものであり、上記要因抽出手段は、上記第2の評価手段で抽出された、各入
力属性の比率のうちで、その値が最大となる、入力属性、該入力属性の閾値、お
よび抽出された比率の種別を上記入力属性条件を示すデータとして抽出するもの
であることがより好ましい。これにより、第1および第2のルール評価値を容易
に演算することができる。
本発明の装置、方法、プログラム、記録媒体によれば、以上のように、ラベル
階層構造を予め定義する事なく、「入力属性が閾値以下」あるいは「入力属性が
閾値を超える」といった非常に簡潔な形で、問題事象である特定の出力属性条件
(問題事象)が発生する要因を導き出すことが可能となる。また、複数の要因を
導き出せば、それぞれの要因(入力属性)における「入力属性が閾値以下」ある
いは「入力属性が閾値を超える」といった条件の組み合わせによる非常に簡潔な
形の決定木として、問題事象に関わる因果関係を導き出せる。
本発明の一実施形態を以下に説明する。
まず、本実施形態のデータ分析装置を図1に基づいて説明する。
図1に示すように、データ分析装置は、文字−数値データ変換部1、分析対象
データ格納部2、閾値設定部(閾値設定手段)3、データ分類部(分類手段)4
、データ列抽出部5、頻度演算部(第1の評価手段、頻度演算手段)6、頻度累
積差演算部(第1の評価手段、差分演算手段)7、入力属性閾値決定部(閾値決
定手段)8、頻度累積比率演算部(第2の評価手段)16、要因抽出部(要因抽
出手段)9、要因未発見データ抽出部(分割手段)10、終了条件判定部(終了
条件判定手段)11、入力属性閾値テーブル作成部12、寄与率演算部13、分
析結果データ格納部14、および出力部15を備えている。
次に、次の表1のデータ群DAを分析対象とする場合を例にとって、本実施形
態のデータ分析方法を図2に基づいて説明する。表1のデータ群DAは、ハード
ディスク等の格納部2に格納されている。
Figure 0004255779
表1のデータ群DAは、1〜12のid(識別子)を持つ12個のデータから
構成されている。表1において、x1,x2,x3,x4は入力属性である。入
力属性x1は4つの文字A,B,C,Dのいずれかをとる文字属性である。入力
属性x2は4つの文字a,b,c,dのいずれかをとる文字属性である。入力属
性x3は4つの離散値1,2,3,4のいずれかをとる離散属性である。入力属
性x4は4つの離散値10,20,30,40のいずれかをとる離散属性である
。なお、入力属性は、連続した数値をとる連続属性でもよい。
また、表1において、yは出力属性である。出力属性は、文字属性であっても
よく、離散属性でもよく、また連続属性でもよいが、ここでは、3つの文字X,
Y,Zのいずれかをとる文字属性である。
本実施形態のデータ分析方法では、y=Yなる場合を問題事象として、出力属
性yがYとなる要因を分析する。
なお、分析対象データの例としては、例えば、入力属性が、製品の製造工程に
おける製造プロセス条件および/またはインライン検査結果(製造ライン途中で
の検査結果)、出力属性が製品の品質判定結果、y=Yなる問題事象が品質判定
結果の不良であるデータが挙げられる。この場合、本実施形態のデータ分析方法
により入力属性と出力属性との因果関係を分析し、y=Yなる問題事象の要因を
導き出すことで、デバイス特性不良等の不良品の発生を解消する対策を容易に図
ることが可能となる。したがって、歩留まりの向上等のような製造プロセスの改
善を容易に図ることが可能となる。
分析対象データのより具体的な例としては、例えば、入力属性x1、x2、x
3、x4が、プラズマCVDプロセスの、ガス流量、ガス圧力、投入電力、成膜
時間などのプロセスデータで、出力属性yが、プラズマCVDプロセスで形成さ
れる薄膜の膜厚であるようなデータが挙げられる。また、これら入力属性および
出力属性の値は、連続属性でも離散属性でも文字属性でもよい。文字属性の場合
には、例えば、出力属性が膜厚の例で、‘大’、‘中’、‘小’といった具合に
表現される。
[ステップ0]
まず、文字−数値データ変換部1が、ハードディスク等の分析対象データ格納
部2に格納された表1のデータ群DAにおける文字属性を下記の変換ルールに従
って数値属性(数値データ)に変換する(S0)。これにより、各データは、数
値データに変換される。そして、文字−数値データ変換部1は、変換されたデー
タ群をデータ分類部4に送る。
(x1)A→1、B→2、C→3、D→4
(x2)a→1、b→2、c→3、d→4
(x3)変換せず
(x4)変換せず
(y)X→1、Y→2、Z→3
この変換ルールは、可能な限り、変換後の入力属性の数値が大きいほど出力属
性の数値が大きくなるようにあるいはその逆順となるように設定されることが好
ましい。なお、変換ルールは、一義性さえあればよく、上記の例に限られない。
上記変換ルールにて数値データに変換されたデータ群DA0は、表2に示す通
りである。
Figure 0004255779
この変換により、得られたデータ群DA0は、離散値をとる複数の入力属性(
説明属性)と出力属性(目的属性)とで構成されるデータの集合となる。以下、
データ群DA0を基本データ群と呼ぶ事にする。
[ステップ1]
閾値設定部3は、予め定められた設定情報に従って、あるいは使用者が図示し
ないキーボードやマウス等の入力部から問題事象の属性値y=Yを入力したこと
に応答して、データ群DAのy=Yなる問題事象に対応する基本データ群DA0
の出力属性yの閾値(出力属性閾値)ythを設定し、データ分類部4に出力する
(S1)。この例においては、データ群DAのy=Yなる問題事象に対応する基
本データ群DA0の出力属性yの閾値は、yth=2である。
[ステップ2]
次に、データ分類部4が、基本データ群DA0の出力属性yの値と、閾値設定
部3から出力された出力属性閾値ythとの比較論理(1)(2)に基づいて、基
本データ群DA0を、第1データ群DA1と第2データ群DA2とに2分化(分
類)する(S2)。
(1)y>ythまたはy<yth→DA1
(2)y=yth→DA2
言い換えると、データ分類部4は、基本データ群DA0を、出力属性が出力属性
閾値ythと一致しない(すなわち1または3である)第1データ群DA1と、出
力属性が出力属性閾値yth(=2)と一致する第2データ群DA2とに分類する
。第2データ群DA2は問題事象(例えば、デバイス特性不良など)のデータ群
である。すなわち、第2データ群DA2は出力属性yが問題事象を表す属性値(
2)であるデータ群であり、第1データ群DA1は出力属性yが問題事象を表し
ていない属性値(1または3)であるデータ群である。
第1データ群DA1を表3に、第2データ群DA2を表4に示す。
Figure 0004255779
Figure 0004255779
なお、以下では、適宜、第1データ群DA1を良品(OK品)データ群、第2
データ群DA2を不良品(NG品)データ群と呼ぶ事にする。
[ステップ3]
次に、データ列抽出部5が、良品データ群DA1(表3)から、入力属性xj
(1≦j≦4)の各々のデータ列を抽出する(S3)。このデータ列を1−xj
データ群と呼ぶ事にする。
同様に、データ列抽出部5は、不良品データ群DA2(表4)からも、入力属
性xj(1≦j≦4)の各々のデータ列を抽出する(S3)。このデータ列を2
−xjデータ群と呼ぶ事にする。
1−xjデータ群を表5〜8に、2−xjデータ群を表9〜12に示す。
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
[ステップ4]
頻度演算部6は、ステップ3で良品データ群DA1から抽出された1−xjデ
ータ群の各々、およびステップ3で不良品データ群DA2から抽出された2−x
jデータ群の各々を、入力属性xjの値で昇順に並べ替える。そして、入力属性
xjの個々の数値について、第1データ群におけるその数値以下のデータ個数の
割合を表す1−xj頻度累積%と、第2データ群におけるその数値以下のデータ
個数の割合を表す2−xj頻度累積%とを計算する(S4)。
ここでは、表5〜8を入力属性xjの値で昇順に並べ替えた表13〜16を用
い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデ
ータ個数の、第1データ群の全データ数(=8)に対する割合を1−xj頻度累
積%として計算している。同様に、表9〜12を入力属性xjの値で昇順に並べ
替えた表17〜20を用い、各行(id)のデータについて表中でそのデータの
位置以上の位置にあるデータ個数の、第2データ群の全データ数(=4)に対す
る割合を2−xj頻度累積%として計算している
ここで計算した1−xj頻度累積%および2−xj頻度累積%の値を表13〜
20に示す。
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
なお、上述したステップ3・4では、データ列を抽出し、並び替えを行った後
に、1−xj頻度累積%および2−xj頻度累積%を計算していたが、データ列
の抽出や並び替えを行うことなく直接的に1−xj頻度累積%および2−xj頻
度累積%を計算してもかまわない。
さらに、頻度演算部6は、1−xj頻度累積%が計算された良品データ群であ
る1−xjデータ群のテーブルと、2−xj頻度累積%が計算された不良品デー
タ群である2−xjデータ群のテーブルとを結合する。具体的には、入力属性x
1について、表13と表17とを結合して表21のx1頻度累積テーブルを、入
力属性x2について、表14と表18とを結合して表22のx2頻度累積テーブ
ルを、入力属性x3について、表15と表19とを結合して表23のx3頻度累
積テーブルを、入力属性x4について、表16と表20とを結合して表24のx
4頻度累積テーブルを、それぞれ作成する。
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
さらに、頻度演算部6は、表21〜24の各々の頻度累積テーブルを、入力属
性xjの値で昇順に並べ替える。このとき、1−xj頻度累積%および2−xj
頻度累積%の空欄には、その直前の値を代入する。また、入力属性xjにおいて
同じ値が続いている場合には、上記並べ替えられた最終のデータのみを採用する
。こうして、頻度演算部6にて、入力属性xjの各値に対して、良品データ群で
ある第1データ群におけるその数値以下のデータ個数の割合を表す1−xj頻度
累積%(A;第1の頻度)と、不良品データ群である第2データ群におけるその
数値以下のデータ個数の割合を表す2−xj頻度累積%(B;第2の頻度)との
双方が算出される(S4)。
[ステップ5]
次に、頻度累積差演算部7が、入力属性xjの各値に対して、良品の1−xj
頻度累積(A)と、不良品の2−xj頻度累積(B)の差分(=|A−B|)を
計算する(S5)。この差分値を、xj頻度累積差(=|A−B|)と呼ぶ。x
j頻度累積差の計算結果を表25〜表28に示す。
Figure 0004255779
Figure 0004255779
Figure 0004255779
Figure 0004255779
入力属性xjと、良品の1−xj頻度累積(A)、不良品の2−xj頻度累積
(B)、xj頻度累積差|A−B|との関係を図3〜図6に示す。
各数値に対するxj頻度累積差|A−B|は、入力属性xjがその数値以下の
範囲と、入力属性xjがその数値を超える範囲との2分化によって、良品の第1
データ群DA1と不良品の第2データ群DA2とがうまく切り分けられているか
を表す指標である。言い換えると、xj頻度累積差|A−B|は、入力属性がそ
の数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っ
ている度合いを表す閾値評価指標である。
なお、ここでは、閾値評価指標としてxj頻度累積差|A−B|を演算してい
るが、各数値に対する閾値評価指標として、データの偏りの度合いを評価する指
標、例えば、情報利得(ゲイン)、情報利得比、Giniインデックス、平均自
乗誤差等を用いてもよい。
[ステップ6]
入力属性閾値決定部8が、各入力属性xjについて、xjの個々の値の中で、
xj頻度累積差|A−B|の値が最大となるときの入力属性xjの値を抽出する
(S6)。この値を、入力属性閾値xj−thと呼ぶ事にする。
入力属性閾値xj−thは、図3〜図6を参照して分かるように、xj≦xj
−thの範囲と、xj>xj−thの範囲との2分化によって、良品の第1デー
タ群DA1と、不良品の第2データ群DA2との切分けが最も容易となる入力属
性xjの値を示している。
なお、ここでは、複数の入力属性について第3ステップ〜第6ステップの処理
を一括して行っているが、jの値を1からNまで順次増加させて第3ステップ〜
該第6ステップの処理を繰り返してもよい。
[ステップ7]
次に、頻度累積比率演算部16が、xj=xj−thにおいて、良品の1−x
j頻度累積(A)に対する、不良品の2−xj頻度累積(B)の比率を計算する
。この比率を、2−xjth下比率(=B/A)と呼ぶ事にする。また、100
から良品の1−xj頻度累積(A)を引いた値(=100−A)に対する、10
0から不良品の2−xj頻度累積(B)を引いた値(=100−B)の比率を計
算する。この比率を、2−xjth上比率(=(100−B)/(100−A)
)と呼ぶ事にする。そして、双方の比率のうちの大きい方の値を表す、2−xj
th比率を抽出する。
ここで、2−xjth下比率は、「xj≦xj−th」という入力属性条件に
より、良品の第1データ群と分離して不良品の第2データ群を検出できる割合を
表している。また、2−xjth上比率は、「xj>xj−th」という入力属
性条件により、良品の第1データ群と分離して不良品の第2データ群を検出でき
る割合を表している。
言い換えると、2−xjth下比率は、「入力属性xjが入力属性閾値xj−
th以下であれば第2データ群に含まれるデータである」という第1の相関ルー
ルの確からしさを表す評価値(第1のルール評価値)を表している。また、2−
xjth上比率は、「入力属性xjが入力属性閾値xj−thを超えていれば第
2データ群に含まれるデータである」という第2の相関ルールの確からしさを表
す評価値(第2のルール評価値)を表している。
各入力属性xjに対して抽出された入力属性閾値xj−th、xj=xj−t
hにおける、良品の1−xj頻度累積(A)、不良品の2−xj頻度累積(B)
、xj頻度累積差|A−B|、2−xjth下比率B/A、2−xjth上比率
(100−B)/(100−A)、2−xjth比率の各値を表29に示す。
Figure 0004255779
[ステップ8]
要因抽出部9が、x1〜x4の入力属性のうち、上記ステップ7の2−xjt
h比率が最大となる入力属性を抽出する。これにより、2−xjth比率が最大
となる入力属性と、その閾値、採用した比率の種別(上、下)が第2データ群に
対応する出力属性条件の要因(入力属性条件)を示すデータとして抽出されるこ
とになる。これは、全ての入力属性に関する前記相関ルールのうちで最も高い2
−xjth下比率または2−xjth上比率を持つ相関ルールの入力属性条件を
示すデータを抽出することに相当する。
なお、ここでは、最大のルール評価値を持つ相関ルールの入力属性を抽出する
ための指標として2−xjth比率を演算しているが、最大のルール評価値を持
つ相関ルールの入力属性を抽出するための指標として、他の評価指標、例えば、
支持率(サポート)、確信度(コンフィデンス)、情報利得(ゲイン)、情報利
得比、Giniインデックス、平均自乗誤差等を用いてもよい。
表29を参照して、入力属性x2=x2−th=2のとき、2−x2th比率
=2−x2th上比率=∞となっている。これは、入力属性条件「x2>2」に
て、良品の第1データ群DA1と完全に分離して、不良品の第2データ群DA2
を検出できる事を示しており、この事は、図4を参照すると、より理解しやすい
上記抽出された、入力属性(=x2)、該入力属性の値を表す入力属性閾値(
=2)、および採用した比率の種別(=上)のデータを分析結果データ格納部1
4に保存する。
以上のようにして、問題事象(不良品の第2データ群DA2)の一要因として
、「x2>2」という入力属性条件が抽出された。
[ステップ9]
上記ステップ8にて、問題事象(不良品の第2データ群DA2)の一要因とし
て、「x2>2」という入力属性条件が抽出されたので、次に、別の要因を調査
する。このため、要因未発見データ抽出部10が、基本データ群DA0(表2)
を入力属性条件「x2>2」を満たすデータ群(要因データ群)と、基本データ
群DA0(表2)の中で問題事象の要因をまだ発見できていないデータ群(他デ
ータ群)、すなわち入力属性条件「x2≦2」を満たす(入力属性条件「x2>
2」を満たさない)データ群とに分割し、問題事象の要因をまだ発見できていな
いデータ群を抽出する(表30)。
Figure 0004255779
要因未発見データ抽出部10は、抽出されたデータ群を次の(新しい)基本デ
ータ群DA0としてデータ分類部4に送る。
[ステップ10]
そして、ステップ9で抽出されたデータ群を次の基本データ群DA0として、
終了条件判定部11で終了条件を満たしていると判定されるまで、上記のステッ
プ2〜ステップ9の処理が繰り返される。本実施形態の終了条件判定部11は、
繰返し処理中の上記ステップ2において不良品の第2データ群DA2のデータ個
数が0となった場合を終了条件と判定するようになっている。このように不良品
の第2データ群DA2のデータ個数が0となるまで繰り返し処理を実行すること
により、詳細な要因分析結果が得られる。
なお、終了条件は、第2データ群DA2のデータ個数に基づく他の終了条件、
例えば、(1)繰返し処理中の上記ステップ2において第2データ群DA2のデ
ータ個数が所定数以下となった場合、(2)繰返し処理中の上記ステップ2にお
いて第1データ群DA1のデータ個数に対する第2データ群DA2のデータ個数
の割合が所定割合以下となった場合、(3)繰返し処理中の上記ステップ8にお
いて抽出された入力属性条件のルール評価値が所定の値を下回った場合等として
もよい。これらのような終了条件を用いた場合、より簡潔で十分な要因分析結果
を得ることができる。さらに、簡潔な要因分析結果を得ることを優先する場合に
は、終了条件を単に繰返し処理を所定回数行った場合としたり、終了条件判定部
11を省いて、可能な限り繰り返し処理を行うようにしてもよい。
今回の例では、2回目の繰り返し処理中のステップ9で抽出した、要因未発見
の、x1≦2のデータ群に不良品のデータ(第2データ群DA2;y=2)が含
まれていなかったため、繰り返し処理は2回目で(2回目の要因抽出を行った時
点で)終了した。
[ステップ11]
入力属性閾値テーブル作成部12が、ステップ10の繰り返し処理毎に抽出さ
れた入力属性xjと、入力属性閾値xj−thと、採用された比率の種別とを格
納した入力属性閾値テーブルを作成する(表31)。
Figure 0004255779
入力属性閾値テーブル作成部12では、必要に応じて、入力属性閾値テーブル
における入力属性閾値xj−thの数値を文字データに変換する。文字データへ
の変換ルールは、ステップ0の変換の逆変換となるルールであり、下記の通りで
ある。
(x1)1→A、2→B、3→C、4→D
(x2)1→a、2→b、3→c、4→d
(x3)変換せず
(x4)変換せず
表31の入力属性閾値テーブルにおける入力属性閾値xj−thを文字データ
に変換した入力属性閾値テーブルを表32に示す。
Figure 0004255779
この入力属性閾値テーブルは、特許文献1に記載の従来の決定木−2(図12
)において、出力属性y=Y(y=2)の切分けに着目した場合の決定木の分類
条件に対応する。
[ステップ12]
次に、寄与率演算部13が、表31の入力属性閾値テーブルから、抽出された
入力属性の、問題事象(y=2:不良品データ群である、元の第2データ群DA
2)に対する寄与率(相関ルールの評価指標であるサポートに相当する)を求め
る。
表33は、問題事象(不良品)である元の第2データ群DA2(表4)におい
て、その要因として1回目に抽出された「x2>2」なる入力属性条件、または
、2回目に抽出された「x1>2」なる入力属性条件、に該当するデータに「*
」を付したものである。
Figure 0004255779
表33から、問題事象(元の第2データ群DA2)に対する入力属性条件「x
1>2」、「x2>2」の寄与率が表34に示すように求められる。
Figure 0004255779
表34において、「x1>2」と「x1>2」との交差部に示す寄与率、及び
「x2>2」と「x2>2」との交差部に示す寄与率は、それぞれ「x1>2」
単独要因の寄与率、及び「x2>2」単独要因の寄与率を、それぞれ表している
。また、「x1>2」と「x2>2」との交差部に示す寄与率は何れも、「x1
>2」要因と「x2>2」要因との複合要因の寄与率を表している。なお、表3
4は、図7のようにも表現できる。
表34または図7から、問題事象(y=2)に対し、優先順位(順位1:x1
,順位2:x2)を付けて対策を施す事ができる。
[ステップ13]
以上でデータ分析を終了し、入力属性閾値テーブル作成部12で作成された入
力属性閾値テーブルや、寄与率のデータが、分析結果データとしてハードディス
ク等の分析結果データ格納部14に格納される。この分析結果データは、適宜、
分析結果データ格納部14から表示装置や印刷装置等の出力部15に送られ、表
示装置にて決定木やテーブルとして表示したり、印刷装置にて決定木やテーブル
として印刷したりすることができる。
本実施形態によれば、特許文献1に記載の、従来の決定木−2(図12)のよ
うに、ラベル階層構造(図11)を予め定義しなくても、表32(または表31
)の入力属性閾値テーブルに示したような非常に簡潔な形で、問題事象の要因を
導き出せる。そして、これを用いて、問題事象に対する各要因(入力属性)の寄
与率を求める事ができる。
ここで、表32(または表31)に示される本実施形態の入力属性閾値テーブ
ルを、決定木の形式で表現すると、図8のように表される。また、従来の決定木
−2(図12)を用いて、図7と同じ形式で、問題事象y=Y(=2)に対する
各要因の寄与率を表現すると、図9のようになる。
本実施形態から導かれる決定木(図8)と、従来の決定木−2(図12)とを
比較すると、本実施形態の場合には、入力属性x3の寄与が表現されていない。
これは、図7と図9とを比較して分かるように、問題事象y=Y(y=2)が、
入力属性x1およびx3の、それぞれの単独要因では発生していないからであり
、上記の2回目の繰り返し操作中のステップ9において、x1>2のデータ群に
対してステップ10を実行しなかった事に因る。
詳細に要因を追求する場合には、入力属性x3の寄与も抽出する必要があるが
、問題事象y=Y(y=2)を除去する(改善する)事を目的すれば、入力属性
x1のみの抽出であってもこの目的を十分に達成できる。本実施形態では、この
点に着目し、問題事象に対して対策すべき主要因を抽出しているため、入力属性
x3を抽出していない。詳細な分析を必要とする場合には、上記ステップ9で2
分化されたデータ群の双方に対して、ステップ10を実行すればよい。
なお、上述した実施形態では、複数の要因を導き出し決定木を生成していたが
、単に一つの要因だけを抽出したい場合であれば、ステップ8で終了してもよい
以上で説明したデータ分析方法は、コンピュータが図2のS0〜S12(ステ
ップ0〜13)に対応するプロセスを含むデータ分析プログラムを実行すること
によって実現できる。したがって、図1のデータ分析装置は、データ分析プログ
ラムが、コンピュータを文字−数値データ変換部1、分析対象データ格納部2、
閾値設定部3、データ分類部4、データ列抽出部5、頻度演算部6、頻度累積差
演算部7、入力属性閾値決定部8、頻度累積比率演算部16、要因抽出部9、要
因未発見データ抽出部10、終了条件判定部11、入力属性閾値テーブル作成部
12、および寄与率演算部13として機能させることにより実現することが可能
である。
上記プログラムは、コンピュータで読み取り可能な記録媒体に格納してユーザ
に提供することができる。この記録媒体は、コンピュータ本体に内蔵された内蔵
メディアであってもよいし、コンピュータ本体に対して分離可能に構成されたリ
ムーバブル・メディアであってもよい。上記内蔵メディアとしては、ROM;フ
ラッシュメモリ等の書き換え可能な不揮発性メモリ;ハードディスク等が挙げら
れる。また、上記リムーバブル・メディアとしては、CD−ROM、DVD等の
光記録媒体;MO等の光磁気記録媒体;フロッピー(登録商標)ディスク、カセ
ットテープ、リムーバブル・ハードディスク等の磁気記録媒体;メモリカード等
のような書き換え可能な不揮発性メモリを内蔵したメディア;ROMカセット等
のようなROMを内蔵したメディア等が挙げられる。
上記プログラムは、CPUのアクセスにより実行される構成であってもよいし
、記録媒体に格納されているプログラムを読み出し、読み出したプログラムを内
蔵メディアのプログラム記憶領域に転送した後、内蔵メディア上のプログラムが
CPUのアクセスにより実行される構成であってもよい。また、上記プログラム
は、コンピュータで読み取り可能な記録媒体に格納された状態で販売されるもの
に限定されるものではなく、インターネット等の通信ネットワークを介してユー
ザのコンピュータに転送する形式で販売されるものであってもよい。
なお、本実施形態では、データ分類部4において出力属性と出力属性閾値との
比較により分類を行っていたが、出力属性が文字属性である場合、文字−数値デ
ータ変換部1で出力属性を数値属性に変換せず、データ分類部4において出力属
性と要因分析対象となる出力属性(文字;Y)との比較により分類を行うように
してもよい。
本実施形態に係るデータ分析方法は、以上のように、N個(Nは2以上の整数
)の属性からなるN列の入力属性のデータと、1個の属性からなる1列の出力属
性のデータとで構成される基本データ群を分析対象とし、該出力属性と該入力属
性との因果関係を分析するデータ分析方法であって、出力属性閾値を設定する第
1ステップと、該出力属性の値と該出力属性閾値との比較に基づいて、該基本デ
ータ群を、第1データ群と第2データ群とに2分化する第2ステップと、該第1
データ群および該第2データ群の各々から、第J入力属性(Jは、1≦J≦Nな
る関係にある整数)のデータ列を表す1−Jデータ列および2−Jデータ列を、
それぞれ抽出する第3ステップと、該1−Jデータ列の該第J入力属性の個々の
値に対して、その値以下のデータ個数の割合を表す1−J頻度累積(%)を計算
し、該2−Jデータ列の該第J入力属性の個々の値に対して、その値以下のデー
タ個数の割合を表す2−J頻度累積(%)を計算する第4ステップと、該1−J
データ列および該2−Jデータ列の双方を含めた、該第J入力属性の全ての値の
個々に対して、該1−J頻度累積(%)と該2−J頻度累積(%)との差の絶対
値を表す、第J頻度累積差を計算する第5ステップと、第J頻度累積差の値が最
大となるときの第J入力属性の値を第J入力属性閾値として抽出する第6ステッ
プと、第J入力属性が第J入力属性閾値であるときにおいて、該1−J頻度累積
(%)に対する該2−J頻度累積(%)の比率を表す2−J下比率、および、1
00から該1−J頻度累積(%)を引いた値に対する、100から該2−J頻度
累積(%)を引いた値の比率を表す2−J上比率を計算し、双方の比率のうちの
大きい方の値を示す、2−J比率を抽出する第7ステップと、Jの値を1からN
まで順次増加させて、該第3ステップ〜該第7ステップの操作を繰り返し、繰り
返し操作中の該第7ステップで抽出された、第1から第Nまでの入力属性の該2
−J比率のうち、その値が最大となる入力属性、該入力属性の値を表す入力属性
閾値、および採用した比率の種別を抽出し、保存する第8ステップと、該第8ス
テップで抽出された入力属性に基づいて、該基本データ群を2分化する第9ステ
ップと、該第9ステップで2分化されたデータ群のうちの少なくとも一方を、新
たな基本データ群として、所定の終了条件を満たすまで、該第2ステップ〜該第
9ステップの操作を繰返す第10ステップとを含む。
上記方法によれば、ラベル階層構造を予め定義しなくても、非常に簡潔な形で問題事象の要因を複数導き出せる。そして、これを用いて、因果関係を表す決定木を作成したり、問題事象(出力属性)に対する各要因(入力属性)の寄与率を求めたりする事ができる。
なお、本発明に係るデータ分析装置は、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を分析対象とし、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析装置であって、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類手段と、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価手段と、第1の評価手段で演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各入力属性の閾値として決定する閾値決定手段と、閾値決定手段で決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価手段と、全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する要因抽出手段とを含むようにしてもよい。
また、本発明に係るデータ分析方法は、上記の課題を解決するために、前記のデータ分析装置を用いて、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を分析対象とし、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析方法であって、上記分類手段により、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類ステップと、上記第1の評価手段により、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価ステップと、上記閾値決定手段により、第1の評価ステップで演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各入力属性の閾値として決定する閾値決定ステップと、上記第2の評価手段により、閾値決定ステップで決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価ステップと、上記要因抽出手段により、全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する要因抽出ステップとを含むようにしてもよい。
また、本発明に係るデータ分析プログラムは、上記の課題を解決するために、コンピュータを、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類手段、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価手段、第1の評価手段で演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各
入力属性の閾値として決定する閾値決定手段、閾値決定手段で決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価手段、および全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する要因抽出手段として機能させるためのデータ分析プログラムであってもよい。
また、本発明に係るデータ分析装置は、上記要因抽出手段で抽出された入力属性条件に基づいて、基本データ群を、上記入力属性条件を満たす要因データ群と上記入力属性条件を満たさない他データ群とに分割し、分類されたデータ群のうちの少なくとも一方を新たな基本データ群として分類手段に送る分割手段をさらに含み、分類手段による処理、第1の評価手段による処理、閾値決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていてもよい。
本発明の一実施形態に係るデータ分析装置の構成を示すブロック図である。 本発明の一実施形態に係るデータ分析方法を示すフローチャートである。 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x1と、良品の1−x1頻度累積(A)、不良品の2−x1頻度累積(B)、x1頻度累積差|A−B|との関係を示す。 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x2と、良品の1−x2頻度累積(A)、不良品の2−x2頻度累積(B)、x2頻度累積差|A−B|との関係を示す。 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x3と、良品の1−x3頻度累積(A)、不良品の2−x3頻度累積(B)、x3頻度累積差|A−B|との関係を示す。 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x4と、良品の1−x4頻度累積(A)、不良品の2−x4頻度累積(B)、x4頻度累積差|A−B|との関係を示す。 本発明の一実施形態に係るデータ分析装置における寄与率演算部13(ステップ12)で出力されるデータの一例であり、問題事象である出力属性条件y=2(=Y)に対する入力属性条件「x1>2」および入力属性条件「x2>2」の寄与率を示す。 本発明の実施形態の入力属性閾値テーブルを、決定木の形式で表現した図である。 従来の決定木−2を、図7と同じ形式で表現した図である。 従来の決定木−1を表す図である。 従来の決定木−2のラベル階層構造を表す図であり、(a)はx1属性、(b)はx2属性、(c)はx3属性、(d)はx4属性を示す。 従来の決定木−2を表す図である。
符号の説明
3 閾値設定部(閾値設定手段)
4 データ分類部(分類手段)
6 頻度演算部(第1の評価手段、頻度演算手段)
7 頻度累積差演算部(第1の評価手段、差分演算手段)
8 入力属性閾値決定部(閾値決定手段)
9 要因抽出部(要因抽出手段)
10 要因未発見データ抽出部(分割手段)
11 終了条件判定部(終了条件判定手段)
16 頻度累積比率演算部(第2の評価手段)

Claims (10)

  1. 分析対象データ格納部に格納された、複数の入力属性 (1≦j≦N、Nは入力属性の個数)と、1つの出力属性とで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置であって、
    基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、
    数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類手段と、
    上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、
    上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、
    上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、
    上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含むことを特徴とするデータ分析装置。
  2. 上記要因抽出手段で抽出された入力属性条件に基づいて、数値型基本データ群DA0を、上記入力属性条件を満たす要因データ群と上記入力属性条件を満たさない他データ群とに分割し、分類されたデータ群のうちの少なくとも一方を新たな数値型基本データ群DA0として分類手段に送る分割手段をさらに含み、
    分類手段による処理、第1の評価手段による処理、閾値決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることを特徴とする請求項1記載のデータ分析装置。
  3. 上記分割手段は、分類されたデータ群のうち他データ群のみを選択して新たな数値型基本データ群DA0として分類手段に送るものであることを特徴とする請求項2に記載のデータ分析装置。
  4. 終了条件を満たしているかを判定する終了条件判定手段をさらに含み、上記終了条件判定手段において終了条件を満たしていると判定されると、上記一連の処理の実行を終了するようになっていることを特徴とする請求項2記載のデータ分析装置。
  5. 上記終了条件判定手段は、分類手段で分類された第2データ群のデータ数が0であるかを終了条件として判定を行なうことを特徴とする請求項4記載のデータ分析装置。
  6. 予め定められた設定情報に従って、または、使用者からの入力に応じて、出力属性の上記所定閾値を設定する閾値設定手段をさらに含むことを特徴とする請求項1または2に記載のデータ分析装置。
  7. 上記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、
    上記出力属性は、製品の品質判定結果であり、
    上記第2データ群は、品質判定結果が不良のデータ群であることを特徴とする請求項1または2に記載のデータ分析装置。
  8. 請求項1に記載のデータ分析装置を用いて、分析対象データ格納部に格納された、複数の入力属性x (1≦j≦N、Nは入力属性の個数)と、1つの出力属性yとで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析方法であって、
    上記文字―数値データ変換手段により、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換ステップと、
    上記分類手段により、数値型基本データ群DA0を、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1と、第2データ群DA2とに分類する分類ステップと、
    上記第1の評価手段により、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価ステップと、
    上記閾値決定手段により、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性x の閾値x j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定ステップと、
    上記第2の評価手段により、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価ステップと、
    上記要因抽出手段により、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、(補正前請求項7、段落0082)入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出ステップとを含むことを特徴とするデータ分析方法。
  9. 分析対象データ格納部に格納された、複数の入力属性x (1≦j≦N、Nは入力属性の個数)と、1つの出力属性yとで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置が備えるコンピュータを機能させるためのデータ分析プログラムであって、
    上記データ分析装置は、
    基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、
    数値型基本データ群DA0を、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1と、第2データ群DA2とに分類する分類手段と、
    上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、
    上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性x の閾値x j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、
    上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、
    上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含み、
    コンピュータを上記の各手段として機能させるためのデータ分析プログラム。
  10. 請求項9に記載のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003272648A 2003-07-10 2003-07-10 データ分析装置およびデータ分析方法並びにデータ分析プログラム Expired - Fee Related JP4255779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003272648A JP4255779B2 (ja) 2003-07-10 2003-07-10 データ分析装置およびデータ分析方法並びにデータ分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003272648A JP4255779B2 (ja) 2003-07-10 2003-07-10 データ分析装置およびデータ分析方法並びにデータ分析プログラム

Publications (2)

Publication Number Publication Date
JP2005032117A JP2005032117A (ja) 2005-02-03
JP4255779B2 true JP4255779B2 (ja) 2009-04-15

Family

ID=34210137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003272648A Expired - Fee Related JP4255779B2 (ja) 2003-07-10 2003-07-10 データ分析装置およびデータ分析方法並びにデータ分析プログラム

Country Status (1)

Country Link
JP (1) JP4255779B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104822788A (zh) * 2012-11-26 2015-08-05 日东电工株式会社 水分散型粘合剂组合物、粘合剂层、粘合片、及包含该粘合剂层或粘合片的层叠体
US9481815B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US9481816B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US9790409B2 (en) 2013-05-30 2017-10-17 Henkel Ag & Co. Kgaa Hot melt adhesive
US9828535B2 (en) 2012-09-27 2017-11-28 Henkel Ag & Co. Kgaa Hot melt pressure-sensitive adhesive for labeling

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7454814B2 (ja) 2020-06-22 2024-03-25 国立大学法人山口大学 情報処理装置と情報処理プログラムと情報処理システムと情報処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9481815B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US9481816B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US10035935B2 (en) 2012-04-26 2018-07-31 Henkel Ag & Co. Kgaa Hot melt adhesive
US9828535B2 (en) 2012-09-27 2017-11-28 Henkel Ag & Co. Kgaa Hot melt pressure-sensitive adhesive for labeling
CN104822788A (zh) * 2012-11-26 2015-08-05 日东电工株式会社 水分散型粘合剂组合物、粘合剂层、粘合片、及包含该粘合剂层或粘合片的层叠体
CN104822788B (zh) * 2012-11-26 2016-09-14 日东电工株式会社 水分散型粘合剂组合物、粘合剂层、粘合片、及包含该粘合剂层或粘合片的层叠体
US9790409B2 (en) 2013-05-30 2017-10-17 Henkel Ag & Co. Kgaa Hot melt adhesive

Also Published As

Publication number Publication date
JP2005032117A (ja) 2005-02-03

Similar Documents

Publication Publication Date Title
US7684965B2 (en) Method and apparatus for processing data, and computer product
US7777743B2 (en) Viewing multi-dimensional data through hierarchical visualization
US8131087B2 (en) Program and apparatus for forms processing
KR100414032B1 (ko) 반도체검사장치, 반도체결함해석장치, 반도체설계데이터수정장치, 반도체검사방법, 반도체결함해석방법, 반도체설계데이터수정방법 및 컴퓨터판독가능한 기록매체
US8019761B2 (en) Recording medium storing a design support program, design support method, and design support apparatus
US20180082215A1 (en) Information processing apparatus and information processing method
US20080046426A1 (en) Computerized method, system and program product for generating a data mining model
US20110137841A1 (en) Sample class prediction method, prediction program, and prediction apparatus
US20080270088A1 (en) Method and system for causal modeling and outlier detection
US20200265111A1 (en) Methods and systems to predict parameters in a database of information technology equipment
JPH0877010A (ja) データ分析方法および装置
US8892494B2 (en) Device for classifying defects and method for adjusting classification
JP4255779B2 (ja) データ分析装置およびデータ分析方法並びにデータ分析プログラム
US20070244658A1 (en) Data analysis method
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
JP4343140B2 (ja) 評価装置及びそのコンピュータプログラム
JP4298531B2 (ja) 入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラム、データ分析装置、データ分析方法、および、データ分析プログラム
CN113792141B (zh) 基于协方差度量因子的特征选择方法
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及***
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
US11126948B2 (en) Analysis method and computer
JP2022072149A (ja) 機械学習プログラム、装置、及び方法
Liu et al. RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction
JP2017207878A (ja) 欠落データ推定方法、欠落データ推定装置および欠落データ推定プログラム
CN114815494B (zh) 光学邻近矫正方法及***、掩模版、设备与存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20071205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees