JP7396213B2 - データ解析システム、データ解析方法及びデータ解析プログラム - Google Patents

データ解析システム、データ解析方法及びデータ解析プログラム Download PDF

Info

Publication number
JP7396213B2
JP7396213B2 JP2020106939A JP2020106939A JP7396213B2 JP 7396213 B2 JP7396213 B2 JP 7396213B2 JP 2020106939 A JP2020106939 A JP 2020106939A JP 2020106939 A JP2020106939 A JP 2020106939A JP 7396213 B2 JP7396213 B2 JP 7396213B2
Authority
JP
Japan
Prior art keywords
data
variable
explanatory
hypothesis testing
testing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020106939A
Other languages
English (en)
Other versions
JP2022002029A (ja
Inventor
俊宏 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TDK Corp
Original Assignee
TDK Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TDK Corp filed Critical TDK Corp
Priority to JP2020106939A priority Critical patent/JP7396213B2/ja
Publication of JP2022002029A publication Critical patent/JP2022002029A/ja
Application granted granted Critical
Publication of JP7396213B2 publication Critical patent/JP7396213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データ解析システム、データ解析方法及びデータ解析プログラムに関する。
データ解析方法として、解析対象のデータセットに基づいて目的変数と説明変数との間の関係を表す予測モデルを作成し、作成された予測モデルに基づいて解析を行う方法が知られている(例えば特許文献1参照)。
特開2020-24544号公報
上述したようなデータ解析方法では、例えば機械学習を用いることで、説明変数から目的変数を高精度に予測するモデルを生成し得る。しかしながら、得られたモデルの解釈が容易でないためにデータ解析が困難となる場合がある。また、例えば、解析対象に数値データだけではなく文字データが含まれていると適切に解析を行うことができない場合があり、解析対象の自由度が低いといった課題もある。
本発明は、データ解析を容易化することができると共に、解析対象の自由度を向上することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することを目的とする。
本発明のデータ解析システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、複数の項目のうちの一の項目からなる目的変数、及び複数の項目のうちの他の二以上の項目からなる複数の説明変数について、データセットに基づいて、仮説検定における算出方法により、目的変数と複数の説明変数の各々との間の有意確率を算出し、複数の説明変数を、有意確率が小さい順に並ぶように、表示部に表示させる。
このデータ解析システムでは、仮説検定における算出方法により目的変数と複数の説明変数の各々との間の有意確率が算出され、複数の説明変数が、有意確率が小さい順に並ぶように表示部に表示される。これにより、ユーザは、有意確率が小さい説明変数、すなわち目的変数との関連が強いことが期待される説明変数を容易に把握することができる。また、このデータ解析システムでは、ユーザは、有意確率を基準として複数の説明変数を比較することができる。異なる仮説検定手法の算出方法を用いた場合でも有意確率は共通に算出されることから、有意確率を基準とすることにより、異なる仮説検定手法の算出方法を用いたとしても、同一の基準で複数の説明変数を比較することが可能となる。その結果、例えば、解析対象に数値データ及び文字データの両方が含まれている場合でも、複数の説明変数を好適に比較することが可能となる。よって、このデータ解析システムによれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。なお、このデータ解析システムでは仮説検定における算出方法を用いて有意確率を算出するが、仮説検定自体は行われなくてもよい。仮説検定は、帰無仮説を棄却し対立仮説を支持するか、又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続きである。
少なくとも1つのプロセッサにより用いられる算出方法は、ノンパラメトリックな検定手法における算出方法を含んでいてもよい。この場合、ノンパラメトリックな検定手法における算出方法では解析対象のデータに外れ値などの異常値が含まれていたとしても精度が低下し難く、母集団の分布などの前提を必要としないため、解析対象の自由度を一層向上することができる。
少なくとも1つのプロセッサにより用いられる算出方法は、第1仮説検定手法における算出方法と、第1仮説検定手法とは異なる第2仮説検定手法における算出方法と、を含み、少なくとも1つのプロセッサは、目的変数及び説明変数の両方が数値データにより構成されている場合、第1仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の少なくとも一方が文字データにより構成されている場合、第2仮説検定手法における算出方法を用いて有意確率を算出してもよい。この場合、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を好適に算出することができる。
第2仮説検定手法は、第3仮説検定手法と、第3仮説検定手法とは異なる第4仮説検定手法と、を含み、少なくとも1つのプロセッサは、目的変数及び説明変数の一方が数値データにより構成されていると共に、目的変数及び説明変数の他方が文字データにより構成されている場合、第3仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の両方が文字データにより構成されている場合、第4仮説検定手法における算出方法を用いて有意確率を算出してもよい。この場合、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を一層好適に算出することができる。
少なくとも1つのプロセッサは、互いに異なる複数の仮説検定手法における算出方法を用いて目的変数と説明変数との間の有意確率を複数算出し、複数の有意確率のうち最も小さい有意確率を目的変数と説明変数との間の有意確率としてもよい。この場合、有意確率を一層精度良く算出することができる。
複数の説明変数は、第1説明変数及び第2説明変数を含み、少なくとも1つのプロセッサは、第1仮説検定手法における算出方法を用いて目的変数と第1説明変数との間の有意確率を算出し、第1仮説検定手法とは異なる第2仮説検定手法における算出方法を用いて、目的変数と第2説明変数との間の有意確率を算出してもよい。この場合、第1仮説検定手法及び第2仮説検定手法における算出方法を用いて有意確率を算出することができ、解析対象の自由度を一層向上することができる。
少なくとも1つのプロセッサは、表示部に表示された複数の説明変数の中から選択された一の説明変数と目的変数との間の関係を示すグラフを、表示部に表示させてもよい。この場合、ユーザは、選択された説明変数と目的変数との間の関係を容易に把握することができる。
本発明のデータ解析方法は、少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、複数の項目のうちの一の項目からなる目的変数、及び複数の項目のうちの他の二以上の項目からなる複数の説明変数について、データセットに基づいて、仮説検定における算出方法により、目的変数と複数の説明変数の各々との間の有意確率を算出するステップと、複数の説明変数を、有意確率が小さい順に並ぶように、表示部に表示させるステップと、を含む。このデータ解析方法によれば、上述した理由により、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。
本発明のデータ解析プログラムは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、複数の項目のうちの一の項目からなる目的変数、及び複数の項目のうちの他の二以上の項目からなる複数の説明変数について、データセットに基づいて、仮説検定における算出方法により、目的変数と複数の説明変数の各々との間の有意確率を算出するステップと、複数の説明変数を、有意確率が小さい順に並ぶように、表示部に表示させるステップと、をコンピュータに実行させる。このデータ解析プログラムによれば、上述した理由により、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。
本発明によれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することが可能となる。
実施形態に係るデータ解析システムの機能構成の例を示す図である。 データ解析システムを構成するコンピュータのハードウェアの構成例を示す図である。 データ解析システムの動作例を示すフローチャートである。 データセットの例を示す図である。 文字データの数値データへの変換方法の例を示す図である。 表示部の表示例を示す図である。 グラフの例を示す図である。 グラフの例を示す図である。 グラフの例を示す図である。 (a)~(c)は、グラフの例を示す図である。
以下、本発明の一実施形態について、図面を参照しつつ詳細に説明する。以下の説明において、同一又は相当要素には同一符号を用い、重複する説明を省略する。
[システムの構成]
図1に示されるように、実施形態に係るデータ解析システム1は、機能要素として、受付部11と、算出部12と、表示制御部13と、を備えている。受付部11は、データセット30を受け付ける。算出部12は、データセット30に基づいて、目的変数と複数の説明変数の各々との間の有意確率を算出する。表示制御部13は、複数の説明変数を、有意確率が小さい順に並ぶように、後述の表示部26に表示させる。
データ解析システム1は、例えばコンピュータ20により構成されている。図2に示されるように、コンピュータ20は、プロセッサ21と、主記憶部22と、補助記憶部23と、通信制御部24と、入力部25と、表示部26と、を備えている。プロセッサ21は、例えばCPUであり、オペレーティングシステム、アプリケーションプログラム等を実行する。主記憶部22は、例えばROM、RAM等により構成される。補助記憶部23は、例えばハードディスク、フラッシュメモリ等により構成され、主記憶部22よりも大量のデータを記憶する。通信制御部24は、例えばネットワークカード、無線通信モジュール等により構成される。入力部25は、例えばキーボード、マウス、タッチパネル等により構成される。表示部26は、例えばモニタ、タッチパネルディスプレイ等により構成される。
データ解析システム1の各機能要素は、補助記憶部23内に予め記憶されているデータ解析プログラム27を実行させることにより実現される。具体的には、プロセッサ21又は主記憶部22の上にデータ解析プログラム27を読み込ませてプロセッサ21にデータ解析プログラム27を実行させることにより、受付部11、算出部12及び表示制御部13の各機能が実現される。プロセッサ21は、データ解析プログラム27に従って、通信制御部24、入力部25及び表示部26を動作させ、主記憶部22及び補助記憶部23におけるデータの読み出し及び書き込みを行う。処理に必要なデータ又はデータベースは、主記憶部22又は補助記憶部23内に格納される。
データ解析プログラム27は、例えば、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。すなわち、データ解析プログラム27は、コンピュータ読み取り可能な記録媒体に記録された上で提供されてもよい。或いは、データ解析プログラム27は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
データ解析システム1は、1台のコンピュータ20により構成されてもよいし、複数台のコンピュータ20により構成されてもよい。複数台のコンピュータ20を用いる場合には、これらのコンピュータ20がインターネット又はイントラネット等の通信ネットワークを介して互いに接続されることで、論理的に一つのデータ解析システム1が構築されてもよい。
[システムの動作]
図3を参照しつつ、データ解析システム1により実行されるデータ解析方法の一例を説明する。まず、受付部11は、データセット30を受け付ける(ステップS1)。受付部11へのデータセット30の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。例えば、ユーザが補助記憶部23に記憶されたデータセット30を指定すると、指定されたデータセット30が読み込まれて受付部11に受け付けられる。
データセット30は、解析対象であり、複数の項目のデータの集合であるデータユニット31を複数含んでいる。データユニット31が有する項目は、任意に設定されてよい。項目は、例えば、材料、化合物等の特性、組成等であってもよいし、装置、デバイス等の特性、寸法、材料等であってもよい。各項目のデータは、数値データ又は文字データである。文字データとは、数値データ以外のデータであって、文字又は記号により表されるデータである。後述するように、文字データは数値データに変換して用いられる。
データセット30は、例えば、工場での製造工程において取得されたデータの集合であってもよい。IOT(Internet of Things)の促進により、製造工程において大量のデータを取得可能となることが期待される。項目は、製造された製品の品質、特性、製造条件等を含み得る。製品の品質又は特性の例としては、不良率、破壊電圧、ショート率等が挙げられる。製造条件の例としては、製造設備に割り当てられた固有番号/記号、材料の厚さの平均値又は分散、工程実施時間/回数等が挙げられる。データセット30は、時系列データであってもよい。この場合、一の項目は、データユニット31が取得された時刻又は順番を表す数値データにより構成されてもよい。
データセット30には、欠損値を含むデータユニット31が含まれていてもよい。欠損値とは、データが欠落していることを意味する。データセット30には、異常値(外れ値)を含むデータユニット31が含まれていてもよい。異常値とは、当該項目における他のデータと比べて極端に逸脱した値であり、測定又は記録の誤り等に起因して生じ得る。欠損値及び異常値の処理については後述する。データユニット31の数は限定されないが、例えば数百個以上であってもよい。項目の数は限定されないが、例えば数千個以上であってもよい。
図4は、データセット30の例を示す図である。この例では、データセット30は、表形式で表されている。各行がデータユニット31に相当し、各列が項目に相当する。各データユニット31は、項目として、項目A、項目B、項目C、項目D、項目E、項目F、項目G及び項目Hを含んでいる。例えば、項目A~Dは、数値データにより構成されており、項目E~Hは、文字データにより構成されている。
ステップS1に続いて、受付部11は、解析条件を受け付ける(ステップS2)。受付部11への解析条件の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。解析条件は、目的変数及び説明変数の指定を含んでいる。ユーザは、データセット30における複数の項目の中から一の項目を目的変数として選択すると共に、残りの項目の中から複数の項目を説明変数として選択する。例えば、表示部26には目的変数を選択するための選択ボックスが表示され、当該選択ボックスにおいて項目を選択することで、ユーザは目的変数を選択する。これに伴い、目的変数として選択された項目以外の項目が、説明変数として選択される。なお、目的変数として選択された項目以外の項目の中から、説明変数として設定する項目を選択可能となっていてもよい。
また、解析条件は、目的変数及び各説明変数についての数値範囲の指定を含んでいてもよい。また、解析条件は、何れのデータユニット31を解析対象とするかの指定を含んでいてもよい。
ステップS2に続いて、算出部12は、データセット30に基づいて、仮説検定において用いられる算出方法により、目的変数と各説明変数との間の有意確率(P値)を算出する(ステップS3)。有意確率は、統計的仮説検定において、帰無仮説の下で統計検定量が実現する確率である。有意確率が小さいことは、帰無仮説が成り立つ可能性が低いことを表す。この場合の帰無仮説は、仮説検定手法により異なるが、例えば、目的変数と説明変数との間に関連が無いとの仮説である。算出部12は、複数の説明変数の各々について、目的変数との間の有意確率を算出する。算出部12により有意確率の算出に用いられる算出方法は、互いに異なる複数の仮説検定手法における算出方法を含んでいる。算出部12は、以下のとおり、目的変数と説明変数との組み合わせごとに、いずれの仮説検定手法における算出方法を用いるかを判断する。
算出部12は、目的変数及び説明変数の両方が数値データにより構成されている場合、第1仮説検定手法における算出方法を用いて有意確率を算出する。一方、算出部12は、目的変数及び説明変数の少なくとも一方が文字データにより構成されている場合、第2仮説検定手法における算出方法を用いて有意確率を算出する。
より具体的には、算出部12は、目的変数及び説明変数の一方が数値データにより構成されていると共に、目的変数及び説明変数の他方が文字データにより構成されている場合、第3仮説検定手法における算出方法を用いて有意確率を算出する。算出部12は、目的変数及び説明変数の両方が文字データにより構成されている場合、第4仮説検定手法における算出方法を用いて有意確率を算出する。すなわち、算出部12により用いられる算出方法は、第1仮説検定手法及び第2仮説検定手法における算出方法を含んでおり、第2仮説検定手法は、第3仮説検定手法及び第4仮説検定手法を含んでいる。第1仮説検定手法、第3仮説検定手法及び第4仮説検定手法は、互いに異なる仮説検定手法である。いずれの仮説検定手法における算出方法を用いた場合でも、有意確率は共通に算出される。
第1仮説検定手法は、検定対象の変数の両方が数値データである場合に適用可能な手法である。第1仮説検定手法では、変数間の相関について検定が行われる。第1仮説検定手法の例としては、スピアマン(Spearman)の順位相関係数の検定、ケンドール(Kendall)の順位相関係数の検定が挙げられる。スピアマンの順位相関係数の検定及びケンドールの順位相関係数の検定は、ノンパラメトリックな検定手法である。ノンパラメトリックな検定手法とは、母集団の分布として正規分布等の特定の分布を仮定することなく統計的検定を行う手法である。ノンパラメトリックな検定手法では、解析対象のデータに外れ値などの異常値が含まれている場合でも、精度が低下し難い。
第3仮説検定手法は、検定対象の変数の一方が数値データであり他方が文字データである場合に適用可能な手法である。第3仮説検定手法では、水準間(文字データ間)の代表値(数値データ)の差について検定が行われる。第3仮説検定手法の例としては、クラスカル・ウォリス(Kruskal-Wallis)の検定、フリグナー・キリーン(Flinger-Killen)の検定が挙げられる。クラスカル・ウォリスの検定及びフリグナー・キリーンの検定は、ノンパラメトリックな検定手法である。
第4仮説検定手法は、検定対象の変数の両方が文字データである場合に適用可能な手法である。第4仮説検定手法では、各変数から作成された分割表の独立性について検定が行われる。第4仮説検定手法の例としては、独立性のカイ二乗検定、フィッシャー(Fisher)の正確確率検定が挙げられる。独立性のカイ二乗検定及びフィッシャーの正確確率検定は、ノンパラメトリックな検定手法である。
第1仮説検定手法、第3仮説検定手法及び第4仮説検定手法の少なくとも1つとして、互いに異なる複数の仮説検定手法が設定されていてもよい。この場合、算出部12は、設定された複数の仮説検定手法における算出方法を用いて、目的変数と説明変数との間の有意確率を複数算出する。そして、算出部12は、算出された複数の有意確率のうち最も小さい有意確率を目的変数と説明変数との間の有意確率とする。例えば、第3仮説検定手法としてクラスカル・ウォリスの検定及びフリグナー・キリーンの検定の2つの手法が設定されている場合、算出部12は、目的変数及び説明変数の一方が数値データにより構成され、他方が文字データにより構成されている場合、クラスカル・ウォリスの検定及びフリグナー・キリーンの検定の各々における算出方法を用いて、目的変数と説明変数との間の水準間の代表値の差の有意確率を算出する。そして、算出部12は、算出された2つの有意確率のうち小さい方の有意確率を、当該目的変数と説明変数との間の水準間の代表値の差の有意確率とする。
また、算出部12は、有意確率の算出時に、次の欠損値処理を行う。算出部12は、数値データにより構成された目的変数又は設計変数に欠損値が含まれている場合、欠損値を含むデータユニット31を解析対象から除外し、残りのデータユニット31を用いて有意確率を算出する。算出部12は、文字データにより構成された目的変数又は設計変数に欠損値が含まれている場合、欠損値を所定の単語(例えば「NA」)に置換して、有意確率を算出する。
また、算出部12は、文字データを数値データに変換した後に、有意確率の算出を行ってもよい。文字データの数値データへの変換方法としては、任意の手法が用いられてよい。例えば、図5の例では、項目「装置」が、「A」、「B」、「C」の3種類の文字からなる列データを含んでおり、当該列データが、数値「0」及び「1」からなる3列の行列データに変換されている。このような変換により、文字データを数値データに変換することができる。また、算出部12は、文字データを数値データに変換することなく、有意確率の算出を行ってもよい。例えば、クラスカル・ウォリスの検定における算出方法では、文字データを数値データに変換することなく、有意確率が算出される。
ステップS3に続いて、表示制御部13は、複数の説明変数を、有意確率が小さい順に並ぶように、表示部26に表示させる(ステップS4)。
図6は、表示部26の表示例を示す図である。この例では、計算結果を示す表40が表示部26に表示されている。表40では、目的変数が項目Aであり、説明変数が項目B~Hである例が示されている。説明変数である項目B~Hは、有意確率の最小値が小さい順に上から順に並んでいる。すなわち、この例では、項目Hの有意確率の最小値が最も小さく、項目Fの有意確率の最小値が最も大きい。項目名の右隣には、説明変数(項目)を構成するデータが数値データであるか、又は文字データであるかの情報(すなわち、説明変数のデータタイプ)が文字により表示されている。データタイプの右隣には、説明変数(項目)のデータ数が数値により表示されている。
データ数の右側には、仮説検定手法A、仮説検定手法B、仮説検定手法C及び仮説検定手法Dの各々における算出方法を用いて算出された有意確率が数値により表示されている。仮説検定手法A及び仮説検定手法Bは、上述した第1仮説検定手法である。すなわち、この例では、第1仮説検定手法として互いに異なる2つの仮説検定手法が設定されている。仮説検定手法Cは、上述した第3仮説検定手法(第2仮説検定手法)である。仮説検定手法Dは、上述した第4仮説検定手法(第2仮説検定手法)である。
この例では、目的変数である項目A、及び説明変数である項目B~Dは数値データにより構成されており、項目E~Hは文字データにより構成されている。そのため、項目Aと項目B~Dとの間の有意確率は、第1仮説検定手法である仮説検定手法A及び仮説検定手法Bの各々における算出方法を用いて算出されている。算出された有意確率は、それぞれ、「有意確率(手法A)」、「有意確率(手法B)」の列に数値により表示されている。
項目Aと項目E~Hとの間の有意確率は、第3仮説検定手法である仮説検定手法Cにおける算出方法を用いて算出されている。算出された有意確率は、「有意確率(手法C)」の列に数値により表示されている。この例では、目的変数である項目Aが数値データであるため、仮説検定手法Dにおける算出方法は用いられていない。そのため、「有意確率(手法D)」の列は空欄となっている。仮説検定手法Dにおける算出方法を用いて有意確率が算出された場合には、算出された有意確率は「有意確率(手法D)」の欄に数値により表示される。なお、「有意確率(手法A)」、「有意確率(手法B)」、「有意確率(手法C)」の列においても、対応する項目の欄以外は空欄となっている。
最も右側の列には、有意確率の最小値が数値により表示されている。この例では、項目B~Dについては、有意確率の最小値は、仮説検定手法Aにおける算出方法を用いて算出された有意確率、及び仮説検定手法Bにおける算出方法を用いて算出された有意確率のうち小さい方である。項目E~Hについては、有意確率の最小値は、仮説検定手法Cにおける算出方法を用いて算出された有意確率である。すなわち、複数の仮説検定手法における算出方法を用いて目的変数と説明変数との間の有意確率が複数算出されている場合、複数の有意確率のうち最も小さい有意確率が、目的変数と説明変数との間の有意確率とされる。
ステップS4の後に、ユーザは、表示部26に表示された複数の説明変数(項目)の中から、後述するグラフ50を表示するための一の説明変数を選択することができる。例えば、表示部26には、選択ボックスが表示されており、ユーザが選択ボックスを押下すると、選択ボックスが展開される。展開されている状態においては、選択ボックスには、複数の説明変数を示すラベルが、有意確率が小さい順に上から並ぶように、文字により表示される。ユーザは、選択ボックスにおいて説明変数を示すラベルを選択することで、一の説明変数を選択する。この選択を受け付けると、表示制御部13は、選択された説明変数と目的変数との間の関係を示すグラフ50を表示部26に表示する。グラフ50及び選択ボックスは、例えば表40とは異なる画面(タブ)に表示されるが、表40と同一の画面上に表40と共に表示されてもよい。選択ボックスにおいては複数の説明変数が有意確率が小さい順に並んで表示されるため、ユーザは、例えば上から順に説明変数を選択してグラフ50を確認することで、効率的に解析を進めることができる。
図7~図10は、グラフ50の例を示す図である。図7~図10では、説明変数が項目Xであり、目的変数が項目Yである場合のグラフ50が示されている。図7の例では、項目Xと項目Yとの関係が散布図により示されている。有意確率(P)及びデータ数(n)が左上に表示されると共に、平滑線51が表示されている。有意確率、データ数及び平滑線51の表示の有無は、チェックボックスにより選択可能となっていてもよい。図8の例では、項目Xと項目Yとの関係が箱ひげ図により示されている。項目Xは、「H1」、「H2」、「H3」、「H4」、「H5」…の文字データを含んでいる。
図9の例では、項目Xと項目Yとの関係が、時系列情報として折れ線グラフにより表示されている。横軸は、データユニット31が取得された時刻又は順番を示す数値を表しており、縦軸は、項目X及び項目Yの数値を表している。このように、項目Xと項目Yとの関係は、時系列情報として表示されてもよい。横軸は、データユニット31が取得された時刻又は順番を表す数値データからなる項目がある場合、当該項目のデータであってもよい。或いは、横軸は、データユニット31の行番号であってもよい。
項目Xと項目Yとの関係は、図10(a)に示されるように散布図により表示されてもよいし、図10(b)に示されるように箱ひげ図により表示されてもよいし、図10(c)に示されるようにバイオリンプロットにより表示されてもよい。図10(a)~図10(c)の例では、項目Xは、「a」、「b」の2種類の文字データにより構成されている。なお、0よりも大きい数値データは対数変換して表示されてもよい。項目X及び項目Yの両方が文字データにより構成されている場合、モザイクプロットが用いられてもよい。表示部26には、複数のグラフ50が表示されてもよい。この場合、複数のグラフ50は、対応する説明変数についての有意確率が小さい順に並ぶように表示されてもよい。データ解析システム1は、表示40及びグラフ50を含む解析結果を所定の形式でファイルに出力可能に構成されていてもよい。
[作用及び効果]
データ解析システム1では、仮説検定における算出方法により目的変数と複数の説明変数の各々との間の有意確率が算出され、複数の説明変数が、有意確率が小さい順に並ぶように表示部26に表示される。これにより、ユーザは、有意確率が小さい説明変数、すなわち目的変数との関連が強いことが期待される説明変数を容易に把握することができる。また、データ解析システム1では、ユーザは、有意確率を基準として複数の説明変数を比較することができる。異なる仮説検定手法における算出方法を用いた場合でも有意確率は共通に算出されることから、有意確率を基準とすることにより、異なる仮説検定手法における算出方法を用いたとしても、同一の基準で複数の説明変数を比較することが可能となる。その結果、例えば、解析対象に数値データ及び文字データの両方が含まれている場合でも、複数の説明変数を好適に比較することが可能となる。よって、データ解析システム1によれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。
上述したとおり、製造工程においては日々大量のデータが取得され得る。しかし、データ量は膨大であるため、製品の品質と関連するデータを見出すことは容易ではない。また、機械学習を用いることで、説明変数から目的変数を高精度に予測することができる場合があるが、得られたモデルの解釈は容易ではない。製造工程データの解析にあたっては、不良率を高精度に予測すること自体に意味はなく、不良率を低減させることが目的とされる。この点、製造工程において製品の品質に異常が生じた場合、複数の原因が絡み合うのではなく、単一の原因であることが多い。例えば、特定の設備により製造した場合又は特定の原料を使用した場合に不良が増加する事象が生じ得る。また、市販のソフトウェアでも相関係数を算出することができるが、欠損値が存在すると算出することができない、異常値が存在すると精度が大きく低下する、といった課題がある。また、数値間の関係が線形でないと正確に算出することができない、数値と文字との間、又は文字と文字との間の相関係数を算出することができない、といった課題もある。これに対し、上述したとおり、データ解析システム1では、ユーザは、有意確率が小さい説明変数、すなわち目的変数との関連が強いことが期待される説明変数を容易に把握することができる。その結果、例えば、製造工程において製品の品質に異常が生じた場合でも、その原因を容易に特定することが可能となる。また、データ解析システム1は、解析対象に数値データ及び文字データの両方が含まれている場合にも適用可能であるし、欠損値又は異常値が存在する場合にも適用可能である。したがって、データ解析システム1によれば、データ解析を容易化することができると共に、解析対象の自由度を向上することができる。
プロセッサ21により用いられる算出方法手法が、ノンパラメトリックな検定手法における算出方法のみを含んでいる。これにより、ノンパラメトリックな検定手法における算出方法では解析対象のデータに外れ値などの異常値が含まれていたとしても精度が低下し難く、母集団の分布などの前提を必要としないため、解析対象の自由度を一層向上することができる。
プロセッサ21により用いられる算出方法が、第1仮説検定手法における算出方法と、第1仮説検定手法とは異なる第2仮説検定手法における算出方法と、を含んでいる。そして、プロセッサ21が、目的変数及び説明変数の両方が数値データにより構成されている場合、第1仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の少なくとも一方が文字データにより構成されている場合、第2仮説検定手法における算出方法を用いて有意確率を算出する。これにより、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を好適に算出することができる。
第2仮説検定手法が、第3仮説検定手法と、第3仮説検定手法とは異なる第4仮説検定手法と、を含んでいる。そして、プロセッサ21が、目的変数及び説明変数の一方が数値データにより構成されていると共に、目的変数及び説明変数の他方が文字データにより構成されている場合、第3仮説検定手法における算出方法を用いて有意確率を算出し、目的変数及び説明変数の両方が文字データにより構成されている場合、第4仮説検定手法における算出方法を用いて有意確率を算出する。これにより、解析対象に数値データ及び文字データの両方が含まれている場合でも、有意確率を一層好適に算出することができる。
プロセッサ21が、互いに異なる複数の仮説検定手法における算出方法を用いて目的変数と説明変数との間の有意確率を複数算出し、複数の有意確率のうち最も小さい有意確率を目的変数と説明変数との間の有意確率とする。これにより、有意確率を一層精度良く算出することができる。
プロセッサ21が、表示部26に表示された複数の説明変数の中から選択された一の説明変数と目的変数との間の関係を示すグラフ50を、表示部26に表示させる。これにより、ユーザは、選択された説明変数と目的変数との間の関係を容易に把握することができる。
上記実施形態では、複数の説明変数のうち、一の説明変数についての有意確率の算出に用いられる算出方法と、他の説明変数についての有意確率の算出に用いられる算出方法とが異なる。すなわち、複数の説明変数が、第1説明変数及び第2説明変数を含み、プロセッサ21が、第1仮説検定手法における算出方法を用いて目的変数と第1説明変数との間の有意確率を算出し、第1仮説検定手法とは異なる第2仮説検定手法における算出方法を用いて、目的変数と第2説明変数との間の有意確率を算出する。これにより、第1仮説検定手法及び第2仮説検定手法における算出方法を用いて有意確率を算出することができ、解析対象の自由度を一層向上することができる。
本発明は、上記実施形態に限られない。例えば、上記実施形態では、プロセッサ21により用いられる算出方法がノンパラメトリックな検定手法における算出方法のみであったが、パラメトリックな検定手法における算出方法を更に含んでいてもよいし、或いは、パラメトリックな検定手法における算出方法のみであってもよい。検定対象の変数の両方が数値データである場合に適用可能で且つパラメトリックな第1仮説検定手法の例としては、ピアソン(Pearson)の相関係数の検定が挙げられる。検定対象の変数の一方が数値データであり他方が文字データである場合に適用可能で且つパラメトリックな第3仮説検定手法の例としては、分散分析が挙げられる。
1…データ解析システム、20…コンピュータ、21…プロセッサ、26…表示部、27…データ解析プログラム、30…データセット、31…データユニット、50…グラフ。

Claims (9)

  1. 少なくとも1つのプロセッサを備え、
    前記少なくとも1つのプロセッサは、
    複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
    前記複数の項目のうちの一の項目からなる目的変数、及び前記複数の項目のうちの他の二以上の項目からなる複数の説明変数について、前記データセットに基づいて、前記目的変数と前記説明変数との間に関連が無いとの仮説を帰無仮説とする仮説検定における算出方法により、前記目的変数と前記複数の説明変数の各々との間の有意確率を算出し、
    前記複数の説明変数を、前記有意確率が小さい順に並ぶように、表示部に表示させる、データ解析システム。
  2. 前記少なくとも1つのプロセッサにより用いられる前記算出方法は、ノンパラメトリックな検定手法における算出方法を含む、請求項1に記載のデータ解析システム。
  3. 前記少なくとも1つのプロセッサにより用いられる前記算出方法は、第1仮説検定手法における算出方法と、前記第1仮説検定手法とは異なる第2仮説検定手法における算出方法と、を含み、
    前記少なくとも1つのプロセッサは、
    前記目的変数及び前記説明変数の両方が数値データにより構成されている場合、前記第1仮説検定手法における算出方法を用いて前記有意確率を算出し、
    前記目的変数及び前記説明変数の少なくとも一方が文字データにより構成されている場合、前記第2仮説検定手法における算出方法を用いて前記有意確率を算出する、請求項1又は2に記載のデータ解析システム。
  4. 前記第2仮説検定手法は、第3仮説検定手法と、前記第3仮説検定手法とは異なる第4仮説検定手法と、を含み、
    前記少なくとも1つのプロセッサは、
    前記目的変数及び前記説明変数の一方が数値データにより構成されていると共に、前記目的変数及び前記説明変数の他方が文字データにより構成されている場合、前記第3仮説検定手法における算出方法を用いて前記有意確率を算出し、
    前記目的変数及び前記説明変数の両方が文字データにより構成されている場合、前記第4仮説検定手法における算出方法を用いて前記有意確率を算出する、請求項3に記載のデータ解析システム。
  5. 前記少なくとも1つのプロセッサは、
    互いに異なる複数の仮説検定手法における算出方法を用いて前記目的変数と前記説明変数との間の前記有意確率を複数算出し、
    前記複数の有意確率のうち最も小さい前記有意確率を前記目的変数と前記説明変数との間の前記有意確率とする、請求項1~4のいずれか一項に記載のデータ解析システム。
  6. 前記複数の説明変数は、第1説明変数及び第2説明変数を含み、
    前記少なくとも1つのプロセッサは、
    第1仮説検定手法における算出方法を用いて前記目的変数と前記第1説明変数との間の有意確率を算出し、
    前記第1仮説検定手法とは異なる第2仮説検定手法における算出方法を用いて、前記目的変数と前記第2説明変数との間の有意確率を算出する、請求項1又は2に記載のデータ解析システム。
  7. 前記少なくとも1つのプロセッサは、
    前記表示部に表示された前記複数の説明変数の中から選択された一の説明変数と前記目的変数との間の関係を示すグラフを、前記表示部に表示させる、請求項1~6のいずれか一項に記載のデータ解析システム。
  8. 少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
    複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
    前記複数の項目のうちの一の項目からなる目的変数、及び前記複数の項目のうちの他の二以上の項目からなる複数の説明変数について、前記データセットに基づいて、前記目的変数と前記説明変数との間に関連が無いとの仮説を帰無仮説とする仮説検定における算出方法により、前記目的変数と前記複数の説明変数の各々との間の有意確率を算出するステップと、
    前記複数の説明変数を、前記有意確率が小さい順に並ぶように、表示部に表示させるステップと、を含む、データ解析方法。
  9. 複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
    前記複数の項目のうちの一の項目からなる目的変数、及び前記複数の項目のうちの他の二以上の項目からなる複数の説明変数について、前記データセットに基づいて、前記目的変数と前記説明変数との間に関連が無いとの仮説を帰無仮説とする仮説検定における算出方法により、前記目的変数と前記複数の説明変数の各々との間の有意確率を算出するステップと、
    前記複数の説明変数を、前記有意確率が小さい順に並ぶように、表示部に表示させるステップと、をコンピュータに実行させる、データ解析プログラム。
JP2020106939A 2020-06-22 2020-06-22 データ解析システム、データ解析方法及びデータ解析プログラム Active JP7396213B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020106939A JP7396213B2 (ja) 2020-06-22 2020-06-22 データ解析システム、データ解析方法及びデータ解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020106939A JP7396213B2 (ja) 2020-06-22 2020-06-22 データ解析システム、データ解析方法及びデータ解析プログラム

Publications (2)

Publication Number Publication Date
JP2022002029A JP2022002029A (ja) 2022-01-06
JP7396213B2 true JP7396213B2 (ja) 2023-12-12

Family

ID=79244473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020106939A Active JP7396213B2 (ja) 2020-06-22 2020-06-22 データ解析システム、データ解析方法及びデータ解析プログラム

Country Status (1)

Country Link
JP (1) JP7396213B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7413616B1 (ja) * 2022-02-25 2024-01-15 株式会社アルバック 表示装置、表示方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004525A (ja) 2014-06-19 2016-01-12 株式会社日立製作所 データ分析システム及びデータ分析方法
JP2017142732A (ja) 2016-02-12 2017-08-17 株式会社日立製作所 薬効評価補助システム、及び薬効評価補助情報提示方法
JP2018515493A (ja) 2015-05-07 2018-06-14 ノビミューン エスアー Cxcl9および他のバイオマーカーのレベルが上昇した患者における障害の診断および治療のための方法および組成物
JP2018538587A (ja) 2016-02-01 2018-12-27 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 リスク評価方法およびシステム
JP2020027319A (ja) 2018-08-09 2020-02-20 株式会社豊田中央研究所 評価装置、評価方法、および、コンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004525A (ja) 2014-06-19 2016-01-12 株式会社日立製作所 データ分析システム及びデータ分析方法
JP2018515493A (ja) 2015-05-07 2018-06-14 ノビミューン エスアー Cxcl9および他のバイオマーカーのレベルが上昇した患者における障害の診断および治療のための方法および組成物
JP2018538587A (ja) 2016-02-01 2018-12-27 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 リスク評価方法およびシステム
JP2017142732A (ja) 2016-02-12 2017-08-17 株式会社日立製作所 薬効評価補助システム、及び薬効評価補助情報提示方法
JP2020027319A (ja) 2018-08-09 2020-02-20 株式会社豊田中央研究所 評価装置、評価方法、および、コンピュータプログラム

Also Published As

Publication number Publication date
JP2022002029A (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
JP4394728B2 (ja) 影響要因特定装置
US8594826B2 (en) Method and system for evaluating a machine tool operating characteristics
US20110154117A1 (en) Methods and apparatus to perform log file analyses
Genta et al. Product complexity and design of inspection strategies for assembly manufacturing processes
US20080256392A1 (en) Techniques for prioritizing test dependencies
CN102884486B (zh) 故障分析装置、故障分析方法
JP5338492B2 (ja) 入力変数選択支援装置
US11170332B2 (en) Data analysis system and apparatus for analyzing manufacturing defects based on key performance indicators
Shadman et al. A change point method for Phase II monitoring of generalized linear profiles
Liu et al. Objective-oriented optimal sensor allocation strategy for process monitoring and diagnosis by multivariate analysis in a Bayesian network
Gitzel Data Quality in Time Series Data: An Experience Report.
JP7396213B2 (ja) データ解析システム、データ解析方法及びデータ解析プログラム
JP7019339B2 (ja) 不良原因抽出システム及びその方法
CN116348829A (zh) 异常诊断模型的构建方法、异常诊断方法、异常诊断模型的构建装置以及异常诊断装置
JP2019219848A (ja) ソースコード解析方法およびソースコード解析装置
US20210374771A1 (en) Data analysis support apparatus and data analysis support method
US20220292053A1 (en) Method for generating a coherent representation for at least two log files
JP7326872B2 (ja) 推定装置、推定方法及びプログラム
EP3163463A1 (en) A correlation estimating device and the related method
GB2611967A (en) Automated data linkages across datasets
US20240094092A1 (en) Manufacturing data analysis device and method
WO2009081696A1 (ja) データ解析装置、データ解析方法、およびプログラム
Singh et al. Decision Support System for Ranking of Software Reliability Growth Models
US11645359B1 (en) Piecewise linearization of multivariable data
JP2012038012A (ja) 不良要因抽出装置、不良要因抽出方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231113

R150 Certificate of patent or registration of utility model

Ref document number: 7396213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150