JP6719612B1 - Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program - Google Patents

Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program Download PDF

Info

Publication number
JP6719612B1
JP6719612B1 JP2019053875A JP2019053875A JP6719612B1 JP 6719612 B1 JP6719612 B1 JP 6719612B1 JP 2019053875 A JP2019053875 A JP 2019053875A JP 2019053875 A JP2019053875 A JP 2019053875A JP 6719612 B1 JP6719612 B1 JP 6719612B1
Authority
JP
Japan
Prior art keywords
data
column
outlier
processing target
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019053875A
Other languages
Japanese (ja)
Other versions
JP2020154891A (en
Inventor
知弘 米田
知弘 米田
健吉 加藤
健吉 加藤
翔太 山根
翔太 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industry and Control Solutions Co Ltd
Original Assignee
Hitachi Industry and Control Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Industry and Control Solutions Co Ltd filed Critical Hitachi Industry and Control Solutions Co Ltd
Priority to JP2019053875A priority Critical patent/JP6719612B1/en
Application granted granted Critical
Publication of JP6719612B1 publication Critical patent/JP6719612B1/en
Publication of JP2020154891A publication Critical patent/JP2020154891A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】外れ値の要因を容易に推測することを課題とする。【解決手段】過去における外れ値が生じた要因と、その要因が生じた際の基礎統計量、距離が、対応付けられて格納されている過去統計データ122、計測値等が格納されている計測データ121を保持され、計測データ121を構成するデータは、一方は同種のデータで構成される変数に対応付けられ、他方ではレコードに対応付けられており、所定の外れ値を指定する入力装置132と、計測データ121において、指定された外れ値と同一のレコードに属すデータについてマハラノビス距離を算出する距離算出処理部111と、マハラノビス距離に基づいて、変数のランキングを算出し、変数における基礎統計量と、過去統計データ122に格納されている基礎統計量とを比較することで、要因を推定し、変数のランキングと、要因とを表示するランキング表示処理部112と、を有することを特徴とする。【選択図】図1An object of the present invention is to easily estimate a factor of an outlier. SOLUTION: The past statistical data 122 in which a factor causing an outlier in the past, the basic statistic amount and the distance when the factor occur, are stored in association with each other, and the measurement in which a measured value or the like is stored. The data 121 that holds the data 121 and that is included in the measurement data 121 is associated with a variable that is composed of data of the same type on the one hand and is associated with a record on the other hand, and an input device 132 that specifies a predetermined outlier. In the measurement data 121, the distance calculation processing unit 111 that calculates the Mahalanobis distance for the data that belongs to the same record as the specified outlier, and the ranking of the variable is calculated based on the Mahalanobis distance, and the basic statistic of the variable is calculated. And a basic statistic stored in the past statistical data 122 are compared with each other to estimate a factor, and to have a ranking display processing unit 112 that displays the ranking of the variable and the factor. .. [Selection diagram] Figure 1

Description

本発明は、外れ値要因推定支援装置、外れ値要因推定支援方法及び外れ値要因推定支援プログラムの技術に関する。 The present invention relates to a technique of an outlier factor estimation support device, an outlier factor estimation support method, and an outlier factor estimation support program.

データ分析の相関算出作業において、予測モデルを生成する場合に予測したモデルから大きく外れる値が存在する。そこで、データ分析の分野では、グラフによる可視化により外れ値の要因を、データの特徴に基づきBIツール等を用いてユーザが特定していく作業が行われている。この際、ユーザは、過去の経験則や統計的手法等で、外れ値の要因を特定する。
しかし、データが多種多様となると、要因を見つけるまでに時間がかかる上、外れ値毎に要因を探っていったのでは、工数が増大してしまうという課題がある。そこで、これらの作業を自動化することで分析の精度向上と作業の効率向上を図ることが行われている。
In the correlation calculation work of data analysis, there are values that greatly deviate from the model predicted when the prediction model is generated. Therefore, in the field of data analysis, a user is working to identify the cause of an outlier by visualization using a graph, using a BI tool or the like, based on the characteristics of the data. At this time, the user specifies the factor of the outlier by using past empirical rules or statistical methods.
However, if the data becomes diverse, it takes time to find the factor, and if the factor is searched for each outlier, the man-hour will increase. Therefore, it has been attempted to improve the accuracy of analysis and the efficiency of work by automating these works.

このような課題を解決するため、例えば、特許文献1〜3が開示されている。
特許文献1には、「熱処理プレートによる処理温度の測定によって得られた温度データに基づいて、所定の現象が起きたか否かを判定する現象判定過程(ステップS401、S403、S411、S421、S431、S432)と、現象が起きたと現象判定過程が判定した場合には、起きたと判定された現象の原因、および、その原因を解消するための対策の少なくともいずれかを推定する推定過程(ステップS402、404、412、422、433)と、を備えている」分析方法、分析装置および基板処理装置が開示されている(要約参照)。
In order to solve such a problem, for example, Patent Documents 1 to 3 are disclosed.
Japanese Patent Application Laid-Open No. 2004-242242 describes "a phenomenon determination process (steps S401, S403, S411, S421, S431, based on temperature data obtained by measuring a processing temperature by a heat treatment plate, for determining whether a predetermined phenomenon has occurred). S432), and if the phenomenon determination process determines that a phenomenon has occurred, an estimation process of estimating the cause of the phenomenon determined to have occurred and/or at least one of the measures for eliminating the cause (step S402, 404, 412, 422, 433).” Analytical method, analytical apparatus and substrate processing apparatus are disclosed (see summary).

特許文献2には、「異常原因特定システム10は、複数種の警報を発する装置の異常原因を特定する。この異常原因特定システム10は、警報に対応する異常原因の発生確率に関する統計モデルが予め格納されたモデル記憶部11と、入力された警報情報、及び統計モデルに基づき異常原因を推論する異常原因推論部14と、異常原因推論部14により推論された異常原因に関する情報を表示する表示部16と、を備えている。異常原因推論部14は、一定時間において、区切られた所定時間幅それぞれで警報情報及び統計モデルに基づき異常原因候補を求めると共に、当該異常原因候補の種別ごとに度数を算出し、少なくとも度数が最も高い種別の異常原因候補を異常原因として推論する」異常原因特定システムが開示されている(要約参照)。 In Patent Document 2, "The abnormality cause identification system 10 identifies an abnormality cause of a device that issues a plurality of types of alarms. This abnormality cause identification system 10 has a statistical model in advance regarding the occurrence probability of the abnormality cause corresponding to the alarm. A stored model storage unit 11, an abnormality cause inference unit 14 that infers an abnormality cause based on the input alarm information and a statistical model, and a display unit that displays information about the abnormality cause inferred by the abnormality cause inference unit 14 The abnormality cause inference unit 14 obtains an abnormality cause candidate based on the alarm information and the statistical model in each of the divided predetermined time widths in a fixed time period, and the frequency for each type of the abnormality cause candidate. Is calculated and at least the type of abnormal cause candidate having the highest frequency is inferred as the abnormal cause.” An abnormal cause identifying system is disclosed (see abstract).

特許文献3には、「外れ値検出対象であるデータ集合における各データを識別するためのデータ識別子を設定し、データ集合をプロットにより可視化した後、可視化されたデータ集合における各データに対応させてデータ識別子を表示部102に表示させる制御部103と、可視化されたデータ集合において外れ値のデータに対応するデータ識別子をオペレータに指定させるための入力部101とを備えている」外れ値検出支援プログラム、外れ値検出支援方法および外れ値検出支援装置が開示されている(要約参照)。 In Patent Document 3, “A data identifier for identifying each data in a data set that is an outlier detection target is set, and after visualizing the data set by plotting, the data identifier is made to correspond to each data in the visualized data set. It includes a control unit 103 for displaying a data identifier on the display unit 102, and an input unit 101 for allowing an operator to designate a data identifier corresponding to outlier data in a visualized data set. An outlier detection support method and an outlier detection support device are disclosed (see summary).

特開2014−236084号公報JP, 2014-236084, A 特開2014−092799号公報JP, 2014-092799, A 特開2004−246622号公報JP, 2004-246622, A

特許文献1に記載の発明では特定の箇所へのセンサの取り付け、及び、温度の測定がされている。そして、そのセンサの取り付け位置の意味や、温度等のデータの意味が、予め理解されていることが前提となっている。
特許文献2では、ベイジアンネットワークモデルが用いられている。ここで、ベイジアンネットワークモデルは異常(閾値を超える場合)事象において共通条件を抽出している。そのため、ある一定以上の異常の数が必要である。
特許文献3に記載の発明では、高次元のデータを散布図にプロットし、データを可視化することが困難であるため、高次元のデータを低次元(2次元)のデータに圧縮している。このようにすることで、二次元のデータを散布図にプロットし、データの可視化が可能となっている。しかし、高次元のデータを低次元に圧縮する際に、データの正確性が失われるおそれがある。
In the invention described in Patent Document 1, a sensor is attached to a specific location and temperature is measured. It is premised that the meaning of the mounting position of the sensor and the meaning of data such as temperature are understood in advance.
In Patent Document 2, a Bayesian network model is used. Here, the Bayesian network model extracts common conditions in abnormal (when exceeding a threshold) event. Therefore, the number of abnormalities above a certain level is required.
In the invention described in Patent Document 3, since it is difficult to plot high-dimensional data on a scatter diagram and visualize the data, high-dimensional data is compressed into low-dimensional (two-dimensional) data. By doing so, two-dimensional data can be plotted on a scatter plot and the data can be visualized. However, when compressing high-dimensional data into low-dimensional data, the accuracy of the data may be lost.

このような背景に鑑みて本発明がなされたのであり、本発明は、外れ値の要因を容易に推測することを課題とする。 The present invention has been made in view of such a background, and an object of the present invention is to easily estimate a factor of an outlier.

前記した課題を解決するため、本発明は、過去における外れ値である第1外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量である第1基礎統計量と、前記第1外れ値が、前記第1外れ値以外のデータからどれほど離れていたかを示す指標である第1指標とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータである処理対象データを保持している記憶部を有し、個々の前記処理対象データは、複数のカラム及び複数のレコードによって構成されるテーブルの各フィールドに格納されており、前記テーブルに格納されている前記処理対象データのうち、特定のカラム及び特定のレコードに対応する前記処理対象データが表示部に表示されている状態で、前記表示部に表示されている前記処理対象データの外れ値である第2外れ値を指定する指定部と、前記テーブルにおいて、指定された前記第2外れ値が格納されている前記レコードにおける前記処理対象データのそれぞれが、それぞれの前記カラムに格納されている他の前記処理対象データから、どれほど離れているかの指標である第2指標、及び、前記カラムに格納されている前記処理対象データの基礎統計量である第2基礎統計量を、前記表示部に表示されている前記特定のカラム以外のすべての前記カラムについて算出する算出部と、前記要因データに格納されている前記第1基礎統計量及び前記第1指標と、前記算出部によって算出された、それぞれの前記第2基礎統計量及び前記第2指標とを比較することで、指定された前記第2外れ値が生じた要因を推定する要因推定部と、前記推定された要因を前記表示部に表示する表示処理部と、を有し、前記第1基礎統計量及び前記第1指標は、それぞれ過去に前記第2基礎統計量及び前記第2指標として算出されたデータであることを特徴とする。
その他の解決手段は実施形態において適宜記載する。
In order to solve the above-mentioned problems, the present invention provides a factor causing a first outlier that is an outlier in the past, a first basic statistic that is a basic statistic of data when the factor occurs, and Factor data stored in association with a first index, which is an index indicating how far the first outlier is from the data other than the first outlier, and data to be factor estimated. Each of the processing target data is stored in each field of a table composed of a plurality of columns and a plurality of records, and is stored in the table. Out of the processing target data, the processing target data corresponding to a specific column and a specific record is displayed on the display unit, and is an outlier of the processing target data displayed on the display unit. A designation unit that designates a certain second outlier, and each of the processing target data in the record that stores the designated second outlier in the table is stored in each of the columns. A second index, which is an index of how far from the data to be processed, and a second basic statistic, which is a basic statistic of the data to be processed, stored in the column, are displayed on the display unit. a calculation unit that calculates for all the columns wherein the non-specific column has been, with the first basic statistics and the first index is stored in the source data, calculated by the calculation unit, respectively by the comparison between the second basic statistics and the second indicator, display a factor estimating unit that estimates a factor second outliers designated the has occurred, the estimated factors on the display unit a display processing unit, a possess that, the first basic statistics and the first indicator is characterized by each of which is data calculated as the second basic statistics and the second indicator in the past.
Other solving means will be described as appropriate in the embodiment.

本発明によれば、外れ値の要因を容易に推測することができる。 According to the present invention, the factor of the outlier can be easily estimated.

本実施形態に係る要因推定装置の構成例を示す機能ブロック図である。It is a functional block diagram which shows the structural example of the factor estimation apparatus which concerns on this embodiment. 本実施形態で使用される計測データの一例を示す図である。It is a figure which shows an example of the measurement data used by this embodiment. 表示装置に表示される散布図の一例を示す図である。It is a figure which shows an example of the scatter diagram displayed on a display device. 本実施形態における要因推定装置の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the factor estimation apparatus in this embodiment. 単独のカラム毎についてのマハラノビス距離算出処理の手順を示すフローチャートである。It is a flow chart which shows the procedure of Mahalanobis distance calculation processing for every single column. 質的データによるマハラノビス距離のイメージを示す図である。It is a figure which shows the image of Mahalanobis distance by qualitative data. 量的データにおけるマハラノビス距離のイメージを示す図である。It is a figure which shows the image of the Mahalanobis distance in quantitative data. 質的データと、質的データとの組み合わせによるマハラノビス距離算出処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of Mahalanobis distance calculation processing by the combination of qualitative data and qualitative data. 質的データと、質的データとの組み合わせによるマハラノビス距離算出手法を説明する図である。It is a figure explaining the Mahalanobis distance calculation method by the combination of qualitative data and qualitative data. 質的データと、質的データとの組み合わせによるマハラノビス距離算出のイメージを示す図(その1)である。It is a figure (the 1) which shows the image of Mahalanobis distance calculation by the combination of qualitative data and qualitative data. 質的データと、質的データとの組み合わせによるマハラノビス距離算出のイメージを示す図(その2)である。It is a figure (the 2) which shows the image of Mahalanobis distance calculation by the combination of qualitative data and qualitative data. 質的データと、量的データとの組み合わせによるマハラノビス距離算出処理の手順を示すフローチャートである。It is a flow chart which shows the procedure of Mahalanobis distance calculation processing by the combination of qualitative data and quantitative data. 質的データと、量的データとの組み合わせによるマハラノビス距離算出手法を説明する図である。It is a figure explaining the Mahalanobis distance calculation method by the combination of qualitative data and quantitative data. 質的データと、量的データとの組み合わせによるマハラノビス距離算出のイメージを示す図(その1)である。It is a figure (the 1) which shows the image of Mahalanobis distance calculation by the combination of qualitative data and quantitative data. 質的データと、量的データとの組み合わせによるマハラノビス距離算出のイメージを示す図(その2)である。It is a figure (the 2) which shows the image of Mahalanobis distance calculation by the combination of qualitative data and quantitative data. ランキング表示処理の手順を示すフローチャートである。It is a flow chart which shows the procedure of ranking display processing. 本実施形態で使用される過去統計データ122の例を示す図である。It is a figure which shows the example of the past statistical data 122 used by this embodiment. 本実施形態で表示されるランキング表示画面の一例を示す図である。It is a figure which shows an example of the ranking display screen displayed in this embodiment.

次に、本発明を実施するための形態(「実施形態」という)について、適宜図面を参照しながら詳細に説明する。各図面において、同一の要素については同一の符号を付して、説明を適宜省略する。 Next, modes for carrying out the present invention (referred to as “embodiments”) will be described in detail with reference to the drawings as appropriate. In each drawing, the same elements are denoted by the same reference numerals, and description thereof will be omitted as appropriate.

<装置構成>
図1は、本実施形態に係る要因推定装置1の構成例を示す機能ブロック図である。
要因推定装置1は、PC(Personal Computer)等である。そして、図1に示すように、要因推定装置1は、メモリ100、CPU(central Processing Unit)131、HD(Hard Disk)等の記憶装置120、キーボードや、マウス等の入力装置132、ディスプレイ等の表示装置133を有する。
また、記憶装置120に格納されているプログラムがメモリ100にロードされ、CPU131によって実行される。これによって、処理部110、処理部110を構成する距離算出処理部111、ランキング表示処理部112、登録処理部113が具現化する。
<Device configuration>
FIG. 1 is a functional block diagram showing a configuration example of a factor estimation device 1 according to this embodiment.
The factor estimation device 1 is a PC (Personal Computer) or the like. As shown in FIG. 1, the factor estimation device 1 includes a memory 100, a CPU (central processing unit) 131, a storage device 120 such as an HD (Hard Disk), an input device 132 such as a keyboard and a mouse, and a display. It has a display device 133.
Further, the program stored in the storage device 120 is loaded into the memory 100 and executed by the CPU 131. As a result, the processing unit 110, the distance calculation processing unit 111 constituting the processing unit 110, the ranking display processing unit 112, and the registration processing unit 113 are embodied.

記憶装置120には、図示しない各計測器から取得した計測データ121(テーブル)と、過去統計データ122とが格納されている。 The storage device 120 stores measurement data 121 (table) acquired from each measuring device (not shown ) and past statistical data 122.

(計測データ121)
ここで、図2を参照して記憶装置120に格納されている計測データ121について説明する。
図2は、本実施形態で使用される計測データ121の一例を示す図である。
図2の例では、計測データ121は、レコードR1〜R10を有し、カラムC1〜C8を有している。それぞれのカラムC1〜C8は、「交換回数」、「機械使用時間」、「変数A」、「変数B」、・・・、「変数F」に対応している。なお、「交換回数」とは「部品の交換回数」である。本実施形態では、「交換回数」、「機械使用時間」、「変数A」、「変数B」、・・・を、変数と称する。
計測データ121の各フィールドに入力されているデータ(処理対象データ)は、図示しない所定の計測器から取得したり、ユーザが手動で入力したものである。
(Measurement data 121)
Here, the measurement data 121 stored in the storage device 120 will be described with reference to FIG.
FIG. 2 is a diagram showing an example of the measurement data 121 used in this embodiment.
In the example of FIG. 2, the measurement data 121 has a record R 1~R10, has a column C 1~C8. Each of the columns C1 to C8 corresponds to “replacement number”, “machine usage time”, “variable A”, “variable B”,..., “Variable F”. The “number of times of replacement” is the “number of times of parts replacement”. In the present embodiment, the “replacement number”, “machine usage time”, “variable A”, “variable B”,... Are referred to as variables.
The data (processing target data) input in each field of the measurement data 121 is acquired from a predetermined measuring device (not shown ) or manually input by the user.

図2に示すように、計測データ121のデータには、「A1」、「B1」等の質的データと、「10」、「30」等の量的データとが含まれている。質的データとしては、部品番号や、行った作業の種類、作業の有無等がある。量的データとしては、温度や、計測値等がある。 As shown in FIG. 2, the measurement data 121 includes qualitative data such as “A1” and “B1” and quantitative data such as “10” and “30”. The qualitative data includes the part number, the type of work performed, the presence or absence of work, and the like. The quantitative data includes temperature, measured value, and the like.

ここで、図2と、図3とを参照して、本実施形態で行われる内容について説明する。
図3は、図2の計測データ121の内、「交換回数」と、「機械使用時間」とが、それぞれを軸とする散布図として表示装置133に表示されたものである。図3では、散布図に回帰直線が加わっている。なお、「変数A」、「変数B」、・・・、「変数F」は、散布図には示されていない。
Here, the contents performed in the present embodiment will be described with reference to FIGS. 2 and 3.
FIG. 3 shows the “replacement frequency” and the “machine usage time” of the measurement data 121 of FIG. 2 displayed on the display device 133 as a scatter diagram with each axis as an axis. In FIG. 3, a regression line is added to the scatter plot. "Variable A", "variable B",..., "Variable F" are not shown in the scatter diagram.

ここで、符号201に示すデータは、他のデータと比べて、短い機械使用時間にもかかわらず、部品の交換回数が多い外れ値(第2外れ値)となっている。
この外れ値は、図2の網掛けで示されているレコードR2に対応しているものとする。本実施形態では、図3の符号201のような外れ値が生じた理由(要因)を、散布図に示されていない「変数A」、「変数B」、・・・、「変数F」から探ることを目的とする。
Here, the data indicated by reference numeral 201 is an outlier (second outlier) in which the number of times of component replacement is large, despite the short machine use time, as compared with other data.
It is assumed that this outlier corresponds to the record R2 shown by hatching in FIG. In the present embodiment, the reason (factor) that an outlier such as reference numeral 201 in FIG. 3 has occurred is based on “variable A”, “variable B”,..., “Variable F” not shown in the scatter diagram. The purpose is to explore.

図1の説明に戻る。
過去統計データ122は、過去において外れ値(第1外れ値)が生じた要因と、その外れ値が生じた際のデータの基礎統計量(過去基礎統計量)(第1基礎統計量)が対応付けられて格納されている。なお、過去統計データ122については後記する。
Returning to the description of FIG.
The past statistical data 122 corresponds to the factors causing the outliers (first outliers) in the past and the basic statistics (past basic statistics) of the data when the outliers occur (first basic statistics). It is attached and stored. The past statistical data 122 will be described later.

距離算出処理部111は、計測データ121に基づいて、外れ値が生じているデータに対応付けられている各データが、どれくらい平均から離れているかを示す指標を算出する。なお、本実施形態では、この指標としてマハラノビス距離が用いられる。前記した図2及び図3の例を参照すると、距離算出処理部111は、図2のレコードR2において各変数に対応付けられているデータが、どれくらい平均から離れているかを示すマハラノビス距離を算出する。 The distance calculation processing unit 111 calculates, based on the measurement data 121, an index indicating how far each data associated with the data having the outlier is from the average. In this embodiment, the Mahalanobis distance is used as this index. Referring to the examples of FIGS. 2 and 3 described above, the distance calculation processing unit 111 calculates the Mahalanobis distance indicating how far the data associated with each variable in the record R2 of FIG. 2 is from the average. ..

ランキング表示処理部112は、距離算出処理部111が算出したマハラノビス距離に基づいて変数のランキングを行う。さらに、ランキング表示処理部112は、記憶装置120に格納されている過去統計データ122を基に、各変数のデータが、平均から離れている要因を推定する。そして、ランキング表示処理部112は、ランキング結果と、推定した要因とを表示装置133に表示する。 The ranking display processing unit 112 ranks the variables based on the Mahalanobis distance calculated by the distance calculation processing unit 111. Further, the ranking display processing unit 112 estimates the factor that the data of each variable is different from the average based on the past statistical data 122 stored in the storage device 120. Then, the ranking display processing unit 112 displays the ranking result and the estimated factor on the display device 133.

登録処理部113は、推定した要因が正しい場合、その変数と、要因に関する基礎統計量及びマハラノビス距離を過去統計データ122に追加格納する。 If the estimated factor is correct, the registration processing unit 113 additionally stores the variable, basic statistic and Mahalanobis distance regarding the factor in the past statistical data 122.

<フローチャート>
(全体処理)
図4は、本実施形態における要因推定装置1の処理手順を示すフローチャートである。
まず、処理部110によって図3に示すような散布図が表示される(S1)。
そして、マウス等の入力装置132によって、散布図による外れ値が指定される(S2)。
つまり、表示装置133に表示されている図3に示す散布図において、外れ値となっている符号201のデータが、マウス等の入力装置132によって、手動で指定される。前記したように、外れ値として指定された符号201のデータは、図2のレコードR2に格納されているものである。
このようにすることで、容易に外れ値を指定することができる。
なお、外れ値は、処理部110が指定することも可能である。この場合、処理部110は、散布図における互いのプロット点の距離を算出し、その距離が所定の値以上、あるいは、他の距離と比べて所定のパーセンテージ以上(150%以上等)である場合、処理部110は、そのプロット点を外れ値と判定する。
<Flowchart>
(Overall processing)
FIG. 4 is a flowchart showing a processing procedure of the factor estimation device 1 in this embodiment.
First, the processing unit 110 displays a scatter diagram as shown in FIG. 3 (S1).
Then, the outlier according to the scatter diagram is designated by the input device 132 such as a mouse (S2).
That is, in the scatter diagram shown in FIG. 3 displayed on the display device 133, the data of reference numeral 201, which is an outlier, is manually designated by the input device 132 such as a mouse. As described above, the data with the code 201 designated as the outlier is stored in the record R2 in FIG.
By doing so, the outlier can be easily specified.
Note that the outlier can be designated by the processing unit 110. In this case, the processing unit 110 calculates the distance between the plot points in the scatter diagram, and the distance is a predetermined value or more or a predetermined percentage or more (150% or more) compared with other distances. The processing unit 110 determines that the plotted point is an outlier.

次に、距離算出処理部111が、単独のカラム毎についてのマハラノビス距離(第2指標)を算出する(S3)。ステップS3の処理については後記する。
そして、距離算出処理部111が、質的データのカラムと、別の質的データのカラムの組み合わせのすべてにおけるマハラノビス距離(第2指標)を算出する(S4)。ステップS4の処理については後記する。
続いて、距離算出処理部111が、質的データのカラムと、別の量的データのカラムとの組み合わせのすべてにおけるマハラノビス距離(第2指標)を算出する(S5)。ステップS5の処理については後記する。
さらに、距離算出処理部111が、量的データのカラム(第5カラム)と、別の量的データのカラム(第6カラム)との組み合わせのすべてにおけるマハラノビス距離を算出する(S6)。ステップS6では、一般的な2変数のマハラノビス距離を用いればよいので、ここでの詳細な説明を省略する。
Next, the distance calculation processing unit 111 calculates the Mahalanobis distance (second index) for each single column (S3). The process of step S3 will be described later.
Then, the distance calculation processing unit 111 calculates the Mahalanobis distance (second index) for all combinations of the qualitative data column and another qualitative data column (S4). The process of step S4 will be described later.
Subsequently, the distance calculation processing unit 111 calculates the Mahalanobis distance (second index) for all combinations of the qualitative data column and another quantitative data column (S5). The process of step S5 will be described later.
Further, the distance calculation processing unit 111 calculates Mahalanobis distances for all combinations of the quantitative data column (fifth column) and another quantitative data column (sixth column) (S6). In step S6, since a general two-variable Mahalanobis distance may be used, detailed description thereof will be omitted here.

次に、ランキング表示処理部112が、外れ値の要因を推定し、要因をランキング形式で表示する(ランキング表示処理;S7)。ステップS7の処理については後記する。 Next, the ranking display processing unit 112 estimates the factors of the outliers and displays the factors in the ranking format (ranking display process; S7). The process of step S7 will be described later.

(単独のカラム毎についてのマハラノビス距離算出)
図5は、単独のカラム毎についてのマハラノビス距離算出処理の手順を示すフローチャートである。
図5は、図4のステップS3で行われる処理である。
距離算出処理部111は、計測データ121のうち、計算対象とするカラムを決定する(S301)。ここでは、例えば、図2のカラムC3(「変数A」)が決定される。
次に、距離算出処理部111は、決定されたカラムのデータが質的データであるか否かを判定する(S302)。
質的データである場合(S302→Yes)、距離算出処理部111は、決定されたカラムにおける各データをダミー変数に変換する(S311)。
その後、距離算出処理部111は、変換したダミー変数を用いて対象となるデータの平均値μ1、及び、標準偏差σ1を算出する(S312)。
続いて、距離算出処理部111は、算出された平均μ1、標準偏差σ1を用いて、質的データによるマハラノビス距離D1を算出する(S313)。
ステップS311〜S313の処理について図2を参照して説明する。
(Mahalanobis distance calculation for each individual column)
FIG. 5 is a flowchart showing the procedure of Mahalanobis distance calculation processing for each individual column.
FIG. 5 is a process performed in step S3 of FIG.
The distance calculation processing unit 111 determines the column to be calculated in the measurement data 121 (S301). Here, for example, the column C3 (“variable A”) in FIG. 2 is determined.
Next, the distance calculation processing unit 111 determines whether the data of the determined column is qualitative data (S302).
When the data is qualitative data (S302→Yes), the distance calculation processing unit 111 converts each data in the determined column into a dummy variable (S311).
After that, the distance calculation processing unit 111 calculates the average value μ1 of the target data and the standard deviation σ1 using the converted dummy variables (S312).
Subsequently, the distance calculation processing unit 111 calculates the Mahalanobis distance D1 based on the qualitative data using the calculated average μ1 and standard deviation σ1 (S313).
The processing of steps S311 to S313 will be described with reference to FIG.

図2を参照して、質的データによるマハラノビス距離D1の算出手法を説明する。
ここでは、図2のカラムC3(「変数A」)(第2指標の算出対象となっているカラム)について説明する。
まず、距離算出処理部111は、カラムC3(「変数A」)のうち、図4のステップS2で選択指定された外れ値に対応するデータと同じデータと、それ以外のデータとに分ける。以降では、図4のステップS2で選択指定された外れ値を、単に外れ値と称する。そして、距離算出処理部111は、外れ値に対応するデータを「1」(第1数字)、それ以外のデータを「0」(第2数字)とする。
図2の例では、外れ値に対応するレコードはレコードR2(第1レコード)であり、レコードR2における「変数A」のデータは「B2」である。よって、外れ値に対応するデータは「B2」、それ以外のデータは「A1」、「A2」、「A3」、「B1」となる。
そこで、距離算出処理部111は、カラムC3に格納されているすべてのデータについて、「B2」を「1」とし、「B2」以外(「A1」、「A2」、「A3」、「B1」)を「0」とする。ここでの「1」、「0」をダミー変数と称する。この処理は、図5のステップS311に相当する処理である。
図2の例では、「B2」を有するレコードは、レコードR2,R6,R9,R10の4つである。従って、図2の例では、「1」が4つ、「0」が6つ検出される。
A method for calculating the Mahalanobis distance D1 based on qualitative data will be described with reference to FIG.
Here, the column C3 (“variable A”) (column for which the second index is calculated ) in FIG. 2 will be described.
First, the distance calculation processing unit 111 divides the column C3 (“variable A”) into the same data as the data corresponding to the outlier selected and designated in step S2 of FIG. 4 and the other data. Hereinafter, the outlier selected and designated in step S2 of FIG. 4 is simply referred to as an outlier. Then, the distance calculation processing section 111, the data corresponding to outliers "1" (first number), the other data is "0" (second number).
In the example of FIG. 2, the record corresponding to the outlier is record R2 (first record) , and the data of “variable A” in record R2 is “B2”. Therefore, the data corresponding to the outlier is “B2”, and the other data is “A1”, “A2”, “A3”, and “B1”.
Therefore, the distance calculation processing section 111, with all of the data stored in the column C3, the "B2" and "1", other than "B2" ( "A1", "A2", "A3", " B1”) is set to “0”. Here, "1" and "0" are called dummy variables. This process is a process corresponding to step S311 in FIG.
In the example of FIG. 2, the records having “B2” are four records R2, R6, R9, and R10. Therefore, in the example of FIG. 2, four "1"s and six "0"s are detected.

次に、距離算出処理部111は、以下の式(1)を用いてマハラノビス距離D1を算出する。この処理は、図5のステップS312,S313の処理に相当する。 Next, the distance calculation processing unit 111 calculates the Mahalanobis distance D1 using the following formula (1). This process corresponds to the process of steps S312 and S313 of FIG.

D1=|(X1−μ1)|/σ1 ・・・ (1) D1=|(X1−μ1)|/σ1 (1)

ここで、X1は、指定されたレコードに属するダミー変数である。ここでは、図2のレコードR2が指定されているので、X1=「1」(「B2」)である。
μ1は、処理対象となっているカラムにおけるダミー変数の集合の平均である。σ1は、処理対象となっているカラムにおけるダミー変数の集合の標準偏差である。
ここで、図2のカラムC3(「変数A」)の各データは、レコードR1から順に、それぞれ「0,1,0,0,0,1,0,0,1,1」とダミー変数に変換される。この「0,1,0,0,0,1,0,0,1,1」が、処理対象となっているカラムにおけるダミー変数の集合である。
Here, X1 is a dummy variable belonging to the designated record. Here, since the record R2 of FIG. 2 is designated, X1=“1” (“B2”).
μ1 is the average of the set of dummy variables in the column to be processed. σ1 is the standard deviation of the set of dummy variables in the column to be processed.
Here, each data in the column C3 (“variable A”) of FIG. 2 is converted into a dummy variable “0, 1, 0, 0, 0, 1, 0, 0, 1, 1” in order from the record R1. To be converted. This "0,1,0,0,0,1,0,0,1,1" is a set of dummy variables in the column to be processed.

図6は、質的データによるマハラノビス距離D1のイメージを示す図である。
図6に示すように、外れ値に対応しているデータ以外のデータ(「0」)のヒストグラムと、外れ値に対応しているデータ(「1」)のヒストグラムとから、平均μ1、標準偏差σ1が算出される。そして、対象となるデータが平均μ1から、どれくらい離れているかが、標準偏差σ1で正規化された形でマハラノビス距離D1として算出される。
このような手法でマハラノビス距離D1を算出することで、対象となるデータが平均μ1から、どれくらい離れているかを顕著に表すことができる。
FIG. 6 is a diagram showing an image of the Mahalanobis distance D1 based on qualitative data.
As shown in FIG. 6, from the histogram of the data other than the data corresponding to the outliers (“0”) and the histogram of the data corresponding to the outliers (“1”), the average μ1 and the standard deviation are obtained. σ1 is calculated. Then, how far the target data is from the average μ1 is calculated as the Mahalanobis distance D1 in a form normalized by the standard deviation σ1.
By calculating the Mahalanobis distance D1 by such a method, it is possible to clearly show how far the target data is from the average μ1.

ちなみに、特許文献2におけるベイジアンネットワークモデルでは、例えば、「B2」が異常性を有するとすると、「変数A」のデータの種類(「A1」、「A2」、・・・)が多いと、「B2」の異常性が埋もれてしまう可能性がある。本実施形態に示す手法であれば、「B2」が異常性を有するとすると、「B2」の異常性を顕著に表わすことができる。 By the way, in the Bayesian network model in Patent Document 2, for example, assuming that “B2” has anomaly, there are many types of data of “variable A” (“A1”, “A2”,... ). There is a possibility that the anomaly of "B2" will be buried. With the method shown in the present embodiment, assuming that "B2" has anomalous properties, the anomaly of "B2" can be remarkably expressed.

図5の処理に戻る。
ステップS302で、量的データである場合(S302→No)、距離算出処理部111は、対象となるデータの平均値μ2、及び、標準偏差σ2を算出する(S321)。
続いて、距離算出処理部111は、算出された平均μ2、標準偏差σ2を用いて量的データに対するマハラノビス距離D2を算出する(S322)。
Returning to the processing of FIG.
In step S302, when the data is quantitative data (S302→No), the distance calculation processing unit 111 calculates the average value μ2 of the target data and the standard deviation σ2 (S321).
Subsequently, the distance calculation processing unit 111 calculates the Mahalanobis distance D2 for the quantitative data using the calculated average μ2 and standard deviation σ2 (S322).

図2を参照して、量的データによるマハラノビス距離D2の算出手法を説明する。
ここでは、カラムC4(「変数B」)について説明する。
つまり、距離算出処理部111は、カラムC4(「変数B」)におけるデータ(10,30,12,・・・)の平均μ2、標準偏差σ2を算出する。この処理は、図5のステップS321に相当する処理である。
A method of calculating the Mahalanobis distance D2 based on quantitative data will be described with reference to FIG.
Here, the column C4 (“variable B”) will be described.
That is, the distance calculation processing unit 111 calculates the average μ2 and the standard deviation σ2 of the data (10, 30, 12,...) In the column C4 (“variable B”). This process is a process corresponding to step S321 in FIG.

次に、距離算出処理部111は、以下の式(2)を用いてマハラノビス距離D2を算出する。 Next, the distance calculation processing unit 111 calculates the Mahalanobis distance D2 using the following equation (2).

D2=|(X2−μ2)|/σ2 ・・・ (2) D2=|(X2-μ2)|/σ2 (2)

ここで、X2は、カラムC4(「変数B」)において、外れ値に対応するデータである。図2の例では、レコードR2の「変数B」の値「30」である。この処理は、図5のステップS322に相当する処理である。 Here, X2 is data corresponding to an outlier in the column C4 (“variable B”). In the example of FIG. 2, the value of the “variable B” of the record R2 is “30”. This process is a process corresponding to step S322 in FIG.

図7は、量的データにおけるマハラノビス距離D2のイメージを示す図である。
図7に示すように、量的データにおけるマハラノビス距離D2は、全体の平均μ2から外れ値に対応するデータ301までの距離に相当する。図7において、符号301は、図2の例におけるレコードR2の「変数B」の値「30」に相当する。
FIG. 7 is a diagram showing an image of the Mahalanobis distance D2 in the quantitative data.
As shown in FIG. 7, the Mahalanobis distance D2 in the quantitative data corresponds to the distance from the overall average μ2 to the data 301 corresponding to the outlier. In FIG. 7, reference numeral 301 corresponds to the value “30” of the “variable B” of the record R2 in the example of FIG.

図5の処理の説明に戻る。
ステップS313及びステップS322の処理の後、距離算出処理部111は、すべてのカラムについて処理を終了したか否かを判定する(S331)。
すべてのカラムについて処理を終了していない場合(S331→No)、距離算出処理部111は、次のカラムを処理対象として決定し(S332)、ステップS302へ処理を戻す。
すべてのカラムについて処理を終了している場合(S331→Yes)、距離算出処理部111は、図4のステップS4へ処理をリターンする。
Returning to the description of the processing in FIG.
After the processing of steps S313 and S322, the distance calculation processing unit 111 determines whether the processing has been completed for all columns (S331).
If the processing has not been completed for all columns (S331→No), the distance calculation processing unit 111 determines the next column as the processing target (S332), and returns the processing to step S302.
If the processing has been completed for all columns (S331→Yes), the distance calculation processing unit 111 returns the processing to step S4 in FIG.

(質的データと、質的データとの組み合わせによるマハラノビス距離算出)
図8は、質的データと、質的データとの組み合わせによるマハラノビス距離算出処理の手順を示すフローチャートである。
図8は、図4のステップS4で行われる処理である。
まず、距離算出処理部111はカラムの組み合わせを決定する(S401)。ここで、組み合わされるカラムは、両方とも質的データを有するカラムである。図2の例では、以下の組み合わせが図8の処理の対象となる。
・カラムC3(「変数A」)とカラムC6(「変数D」)との組み合わせ。
・カラムC3(「変数A」)とカラムC7(「変数E」)との組み合わせ。
・カラムC6(「変数D」)とカラムC7(「変数E」)との組み合わせ。
(Calculating Mahalanobis distance by combining qualitative data and qualitative data)
FIG. 8 is a flowchart showing a procedure of Mahalanobis distance calculation processing by combining qualitative data with qualitative data.
FIG. 8 is a process performed in step S4 of FIG.
First, the distance calculation processing unit 111 determines a combination of columns (S401). Here, the combined columns are both columns having qualitative data. In the example of FIG. 2, the following combinations are the targets of the processing of FIG.
A combination of column C3 (“variable A”) and column C6 (“variable D”).
A combination of column C3 (“variable A”) and column C7 (“variable E”).
A combination of column C6 (“variable D”) and column C7 (“variable E”).

次に、距離算出処理部111は、所定のカラムの組み合わせについて一方の質的データによる絞り込みを行う(S402)。
その後、距離算出処理部111は、絞り込まれた結果におけるダミー変数への変換を行う(S403)。
そして、距離算出処理部111は、絞り込みの結果を用いて対象となるデータの平均値μ3、及び、標準偏差σ3を算出する(S404)。
続いて、距離算出処理部111は、算出された平均μ3、標準偏差σ3を用いてマハラノビス距離D3を算出する(S405)。
ステップS402〜S405の処理について図9を参照して説明する。
Next, the distance calculation processing unit 111 narrows down a combination of predetermined columns by one qualitative data (S402).
After that, the distance calculation processing unit 111 converts the narrowed result into a dummy variable (S403).
Then, the distance calculation processing unit 111 calculates the average value μ3 of the target data and the standard deviation σ3 by using the result of the narrowing down (S404).
Subsequently, the distance calculation processing unit 111 calculates the Mahalanobis distance D3 using the calculated average μ3 and standard deviation σ3 (S405).
The processing of steps S402 to S405 will be described with reference to FIG.

図9は、質的データと、質的データとの組み合わせによるマハラノビス距離D3の算出手法を説明する図である。
図9に示すデータは、図2に示すデータと同じものである。
ここでは、カラムC3(「変数A」)(第1カラム)と、カラムC6(「変数D」)(第2カラム)との組み合わせについてマハラノビス距離を算出する。
レコードR2は、図2と同様、外れ値が含まれるレコードである(第2レコード)。そして、レコードR2における「変数A」のデータは「B2」である。
ここで、距離算出処理部111は、カラムC3(「変数A」)について「B2」を有するレコードを絞り込む。図9の例では、レコードR2,R6,R9、R10が絞り込まれる(網掛け)(第3レコード)。この処理は、図8のステップS402に相当する処理である。
FIG. 9 is a diagram illustrating a method of calculating the Mahalanobis distance D3 by combining qualitative data with qualitative data.
The data shown in FIG. 9 is the same as the data shown in FIG.
Here, the Mahalanobis distance is calculated for the combination of the column C3 (“variable A”) ( first column ) and the column C6 (“variable D”) ( second column ).
The record R2 is a record including an outlier as in FIG. 2 (second record) . The data of "variable A" in the record R2 is "B2 " .
Here, the distance calculation processing unit 111 narrows down the records having “B2” for the column C3 (“variable A”). In the example of FIG. 9, records R2, R6, R9, and R10 are narrowed down (shaded) ( third record ). This process is a process corresponding to step S402 in FIG.

次に、距離算出処理部111は、「変数D」において絞り込まれたレコードを対象として、外れ値に対応するデータを「1」、それ以外のデータを「0」とする。この処理は、図8のステップS403に相当する処理である。 Then, the distance calculation processing section 111, and the records as a target narrowed in "Variable D", "1" data corresponding to outliers, "0" and other data. This process is a process corresponding to step S403 in FIG.

「変数D」において、外れ値に対応するレコードR2では、「B」の値を有している。従って、カラムC6(「変数D」)で、絞り込まれたレコード(レコードR2,R6,R9、R10)において、「B」を「1」(第3数字)、「A」、「F」を「0」(第4数字)としてダミー変数に変換する。図9の例では、「1」が2つ、「0」が2つとなる。 In the "variable D", the record R2 corresponding to the outlier has the value of "B " . Therefore, in the narrowed-down records (records R2, R6, R9, and R10) in column C6 (“variable D”), “B” is “1” (third number), and “A” and “F” are “ It is converted into a dummy variable as "0" (fourth number). In the example of FIG. 9, there are two "1"s and two "0"s.

そして、距離算出処理部111は、以下の式(3)によってマハラノビス距離D3を算出する。この処理は、図8のステップS404,S405に相当する処理である。 Then, the distance calculation processing unit 111 calculates the Mahalanobis distance D3 by the following formula (3). This process is a process corresponding to steps S404 and S405 in FIG.

D3=|(X3−μ3)|/σ3 ・・・ (3) D3=|(X3-μ3)|/σ3 (3)

ここで、X3は、絞り込まれたレコードにおいて、外れ値に対応する「変数D」のデータが変換されたダミー変数(ここでは「1」)である。μ3は、絞り込まれたレコード(レコードR2,R6,R9、R10)における「変数D」のダミー変数の平均である。また、σ3は、絞り込まれたレコード(レコードR2,R6,R9、R10)における「変数D」のダミー変数の標準偏差である。 Here, X3 is a dummy variable (here, “1”) obtained by converting the data of “variable D” corresponding to the outlier in the narrowed down record. μ3 is the average of the dummy variables of “variable D” in the narrowed down records (records R2, R6, R9, R10). Further, σ3 is the standard deviation of the dummy variable of “variable D” in the narrowed down records (records R2, R6, R9, R10).

図10A及び図10Bは、質的データと、質的データとの組み合わせによるマハラノビス距離D3の算出のイメージを示す図である。
まず、図10Aに示すように、距離算出処理部111は、まず、一方のカラムについて、外れ値に対応するデータと、それ以外のデータとで分け、外れ値に対応するデータと同じデータを有するレコードで他方のカラムを絞り込む(破線で囲まれた部分)。
そして、図10Bに示すように、距離算出処理部111は、絞り込まれたレコードについて、外れ値に対応するデータと、それ以外のデータとで分け、この結果を用いてマハラノビス距離D3を算出する。
このような手法でマハラノビス距離D3を算出することで、対象となるデータが平均μ3から、どれくらい離れているかを顕著に表すことができる。
10A and 10B are diagrams showing an image of the calculation of the Mahalanobis distance D3 by combining qualitative data with qualitative data.
First, as shown in FIG. 10A, the distance calculation processing unit 111 first divides one column into data corresponding to outliers and other data, and has the same data as data corresponding to outliers. Narrow down the other column in the record (the part surrounded by the broken line).
Then, as shown in FIG. 10B, the distance calculation processing unit 111 divides the narrowed-down records into data corresponding to outliers and other data, and uses this result to calculate the Mahalanobis distance D3.
By calculating the Mahalanobis distance D3 by such a method, it is possible to clearly show how far the target data is from the average μ3.

図8の説明に戻る。
そして、ステップS405の後、距離算出処理部111は、すべての質的データ同士のカラムの組み合わせについて処理を終了したか否かを判定する(S411)。
すべての質的データ同士のカラムの組み合わせについて処理を終了していない場合(S411→No)、距離算出処理部111は、次のカラムの組み合わせを決定し(S412)、ステップS402へ処理をリターンする。
すべての質的データ同士のカラムの組み合わせについて処理を終了している場合(S411→Yes)、距離算出処理部111は、図4のステップS5へ処理をリターンする。
Returning to the description of FIG.
Then, after step S405, the distance calculation processing unit 111 determines whether or not the processing has been completed for all combinations of columns of qualitative data (S411).
If the processing has not been completed for all column combinations of qualitative data (S411→No), the distance calculation processing unit 111 determines the next column combination (S412) and returns the processing to step S402. ..
When the processing has been completed for all combinations of columns of qualitative data (S411→Yes), the distance calculation processing unit 111 returns the processing to step S5 in FIG.

(質的データと、量的データとの組み合わせによるマハラノビス距離算出)
図11は、質的データと、量的データとの組み合わせによるマハラノビス距離D4の算出処理の手順を示すフローチャートである。
図11に示す処理は、図4のステップS5で行われる処理である。
まず、距離算出処理部111はカラムの組み合わせを決定する(S501)。ここで、組み合わされるカラムは、一方が質的データを有し、他方が量的データを有するカラムである。図2の例では、以下の組み合わせが図11の処理の対象となる。
・カラムC3(「変数A」)とカラムC4(「変数B」)との組み合わせ。
・カラムC3(「変数A」)とカラムC5(「変数C」)との組み合わせ。
・カラムC3(「変数A」)とカラムC8(「変数F」)との組み合わせ。
・カラムC6(「変数D」)とカラムC4(「変数B」)との組み合わせ。
・カラムC6(「変数D」)とカラムC5(「変数C」)との組み合わせ。
・カラムC6(「変数D」)とカラムC8(「変数F」)との組み合わせ。
・カラムC7(「変数E」)とカラムC4(「変数B」)との組み合わせ。
・カラムC7(「変数E」)とカラムC5(「変数C」)との組み合わせ。
・カラムC7(「変数E」)とカラムC8(「変数F」)との組み合わせ。
(Calculating Mahalanobis distance by combining qualitative and quantitative data)
FIG. 11 is a flowchart showing the procedure of the calculation process of the Mahalanobis distance D4 by combining the qualitative data and the quantitative data.
The process shown in FIG. 11 is the process performed in step S5 of FIG.
First, the distance calculation processing unit 111 determines a combination of columns (S501). Here, the columns to be combined are columns in which one has qualitative data and the other has quantitative data. In the example of FIG. 2, the following combinations are subject to the processing of FIG.
A combination of column C3 (“variable A”) and column C4 (“variable B”).
A combination of column C3 (“variable A”) and column C5 (“variable C”).
A combination of column C3 (“variable A”) and column C8 (“variable F”).
A combination of column C6 (“variable D”) and column C4 (“variable B”).
A combination of column C6 (“variable D”) and column C5 (“variable C”).
A combination of column C6 (“variable D”) and column C8 (“variable F”).
A combination of column C7 (“variable E”) and column C4 (“variable B”).
A combination of column C7 (“variable E”) and column C5 (“variable C”).
A combination of column C7 (“variable E”) and column C8 (“variable F”).

次に、距離算出処理部111は、所定のカラムの組み合わせについて、質的データによる絞り込みを行う(S502)。
そして、距離算出処理部111は、絞り込みの結果を用いて量的データの平均μ4、標準偏差σ4を算出する(S503).
続いて、距離算出処理部111は、算出された量的データの平均μ4、標準偏差σ4を用いてマハラノビス距離D4を算出する(S504)。
ステップS502〜S504の処理について図12を用いて説明する。
Next, the distance calculation processing unit 111 narrows down a predetermined combination of columns based on qualitative data (S502).
Then, the distance calculation processing unit 111 calculates the average μ4 and the standard deviation σ4 of the quantitative data using the result of the narrowing down (S503).
Subsequently, the distance calculation processing unit 111 calculates the Mahalanobis distance D4 using the calculated average μ4 of the quantitative data and the standard deviation σ4 (S504).
The processing of steps S502 to S504 will be described with reference to FIG.

図12は、質的データと、量的データとの組み合わせによるマハラノビス距離D4の算出手法を説明する図である。
図12に示すデータは、図2に示すデータと同じものである。
ここでは、カラムC3(「変数A」)(第3カラム)と、カラムC4(「変数B」)(第4カラム)との組み合わせについてマハラノビス距離D4を算出する。
FIG. 12 is a diagram illustrating a method of calculating the Mahalanobis distance D4 by combining qualitative data and quantitative data.
The data shown in FIG. 12 is the same as the data shown in FIG.
Here, the Mahalanobis distance D4 is calculated for the combination of the column C3 (“variable A”) ( third column ) and the column C4 (“variable B”) ( fourth column ).

レコードR2は、図2と同様、外れ値を含むレコードである(第4レコード)。そして、レコードR2における「変数A」のデータは「B2」である。
まず、距離算出処理部111は、カラムC3(「変数A」)について「B2」を有するレコードを絞り込む。図12の例では、レコードR2,R6,R9、R10(第5レコード)が絞り込まれる(網掛け)。この処理は、図11のステップS502に相当する処理である。
The record R2 is a record including an outlier as in FIG. 2 (fourth record) . The data of "variable A" in the record R2 is "B2 " .
First, the distance calculation processing unit 111 narrows down records having “B2” for the column C3 (“variable A”). In the example of FIG. 12, records R2, R6, R9, and R10 ( fifth record ) are narrowed down (shaded). This process is a process corresponding to step S502 in FIG.

次に、距離算出処理部111は、「変数B」について絞り込まれたレコードR2,R6,R9、R10が有するデータの平均μ4、標準偏差σ4を算出する。この処理は、図11のステップS503に相当する処理である。図12の例では、カラムC4(「変数B」)のデータのうち、レコードR2,R6,R9、R10に該当する「30」、「21」、「10」、「9」について平均μ4、標準偏差σ4が算出される。 Then, the distance calculation processing section 111 calculates the record narrowed for "Variable B" R2, R6, R9, R1 mean of the data μ4 0 has a standard deviation? 4. This process is a process corresponding to step S503 in FIG. In the example of FIG. 12, among the data in the column C4 (“variable B”), the average μ4, standard for “30”, “21”, “10”, and “9” corresponding to the records R2, R6, R9, and R10. The deviation σ4 is calculated.

そして、距離算出処理部111は、以下の式(4)を用いてマハラノビス距離D4を算出する。 Then, the distance calculation processing unit 111 calculates the Mahalanobis distance D4 using the following equation (4).

D4=|(X4−μ4)|/σ4 ・・・ (4) D4=|(X4-μ4)|/σ4 (4)

ここで、X4は、絞り込まれたレコードにおいて、外れ値に対応する「変数B」のデータである。図12の例では、レコードR2の「変数B」の値「30」である。この処理は、図11のステップS504に相当する処理である。 Here, X4 is the data of "variable B" corresponding to the outlier in the narrowed down record. In the example of FIG. 12, the value of the “variable B” of the record R2 is “30 . This process is a process corresponding to step S504 in FIG.

図13A及び図13Bは、質的データと、量的データとの組み合わせによるマハラノビス距離D4の算出のイメージを示す図である。
まず、図13Aに示すように、距離算出処理部111は、まず、質的データのカラムについて、外れ値に対応するデータと、それ以外のデータとで分け、外れ値に対応するデータと同じデータを有するレコードで、量的データを絞り込む(破線で囲まれた部分)。
そして、図13Bに示すように、距離算出処理部111は、絞り込まれた量的データのレコードを対象に全体の平均μ4から指定された外れ値に対応するデータ302までの距離に相当するマハラノビス距離D4を算出する。図13Bにおいて、符号302は、図12の例におけるレコードR2の「変数B」の値「30」に相当する。
このような手法でマハラノビス距離D4を算出することで、対象となるデータが平均μ4から、どれくらい離れているかを顕著に表すことができる。
13A and 13B are diagrams showing an image of the calculation of the Mahalanobis distance D4 by combining qualitative data and quantitative data.
First, as shown in FIG. 13A, the distance calculation processing unit 111 first divides a column of qualitative data into data corresponding to outliers and other data, and the same data as data corresponding to outliers. Narrow the quantitative data with the record having (a part surrounded by a broken line).
Then, as illustrated in FIG. 13B, the distance calculation processing unit 111 targets the narrowed quantitative data records, and the Mahalanobis distance corresponding to the distance from the overall average μ4 to the data 302 corresponding to the specified outlier. Calculate D4. In FIG. 13B, reference numeral 302 corresponds to the value “30” of the “variable B” of the record R2 in the example of FIG.
By calculating the Mahalanobis distance D4 by such a method, it is possible to clearly show how far the target data is from the average μ4.

図11の説明に戻る。
そして、ステップS504の後、距離算出処理部111は、質的データと、量的データのカラムのすべての組み合わせについて処理を終了したか否かを判定する(S511)。
質的データと、量的データのカラムのすべての組み合わせについて処理を終了していない場合(S511→No)、距離算出処理部111は、次のカラムの組み合わせを決定し(S512)、ステップS502へ処理をリターンする。
質的データと、量的データのカラムのすべての組み合わせについて処理を終了している場合(S511→Yes)、距離算出処理部111は、図5のステップS6へ処理をリターンする。
Returning to the explanation of FIG.
Then, after step S504, the distance calculation processing unit 111 determines whether the processing has been completed for all combinations of columns of qualitative data and quantitative data (S511).
If the processing has not been completed for all combinations of columns of qualitative data and quantitative data (S511→No), the distance calculation processing unit 111 determines the next combination of columns (S512), and proceeds to step S502. Return processing.
When the processing has been completed for all combinations of columns of qualitative data and quantitative data (S511→Yes), the distance calculation processing unit 111 returns the processing to step S6 of FIG.

(ランキング表示処理)
図14は、ランキング表示処理の手順を示すフローチャートである。
図14の処理は、図4のステップS7で行われる処理である。
まず、ランキング表示処理部112は、図4のステップS3〜S6で算出されたマハラノビス距離が大きい順に変数及び変数の組み合わせをランキング化する(S701)。
例えば、図2の例では、「変数C」、(「変数B」,「変数C」)、(「変数C」,「変数F」)、・・・の順にマハラノビス距離が大きい。なお、(「変数B」,「変数C」)は、「変数B」と「変数C」との組み合わせを意味する。
(Ranking display process)
FIG. 14 is a flowchart showing the procedure of the ranking display process.
The process of FIG. 14 is the process performed in step S7 of FIG.
First, the ranking display processing unit 112 ranks variables and combinations of variables in descending order of Mahalanobis distance calculated in steps S3 to S6 of FIG. 4 (S701).
For example, in the example of FIG. 2, the Mahalanobis distance is large in the order of “variable C”, (“variable B”, “variable C”), (“variable C”, “variable F”). Note that (“variable B”, “variable C”) means a combination of “variable B” and “variable C”.

次に、ランキング表示処理部112は、各変数及び各変数の組み合わせについて外れ値を含めた全体の基礎統計量(第2基礎統計量)を算出する(S702)。図2を例として参照すると、ランキング表示処理部112は、「変数A」におけるデータの基礎統計量を算出する。なお、基礎統計量の算出には、外れ値に対応するデータ(図2のレコードR2のデータ)も含むすべてのデータについて行われる。また、「変数A」のような質的データについては、任意の数字によるダミー変数でデータを変換した上で、基礎統計量が算出されるとよい。次に、ランキング表示処理部112は、「変数B」、「変数C」、・・・、「変数F」について、基礎統計量を算出する。 Next, the ranking display processing unit 112 calculates the overall basic statistic including the outliers (second basic statistic) for each variable and each variable combination (S702). Referring to FIG. 2 as an example, the ranking display processing unit 112 calculates a basic statistic of data in “variable A”. The calculation of the basic statistic is performed for all the data including the data corresponding to the outlier (the data of the record R2 in FIG. 2). For qualitative data such as “variable A”, the basic statistics may be calculated after converting the data using dummy variables of arbitrary numbers. Next, the ranking display processing unit 112 calculates basic statistics for “variable B”, “variable C”,..., “Variable F”.

続いて、ランキング表示処理部112は、(「変数A」,「変数B」)におけるデータの基礎統計量を算出する。なお、基礎統計量の算出には、外れ値に対応するデータ(図2のレコードR2のデータ)も含むすべてのデータについて行われる。また、「変数A」のような質的データについては、任意の数字によるダミー変数でデータを変換した上で、基礎統計量が算出されるとよい。ちなみに、(「変数A」,「変数B」)のような2つの変数の組み合わせでは、一般的に各基礎統計量が2つずつ算出される。このように、各基礎統計量が2つずつ存在することを2次元統計量と称することとする。そして、ランキング表示処理部112は、(「変数A」,「変数B」)、(「変数A」,「変数C」)、・・・、(「変数E」、「変数F」)の各組み合わせについて基礎統計量を算出する。
なお、ここで、算出される基礎統計量は、標準偏差、歪度、尖度、中央値、最頻値である。
Subsequently, the ranking display processing unit 112 calculates the basic statistic of the data in (“variable A”, “variable B”). The calculation of the basic statistic is performed for all the data including the data corresponding to the outlier (the data of the record R2 in FIG. 2). For qualitative data such as “variable A”, the basic statistics may be calculated after converting the data using dummy variables of arbitrary numbers. Incidentally, in the case of a combination of two variables such as (“variable A”, “variable B”), each basic statistic is generally calculated two by two. The existence of two basic statistics each is called a two-dimensional statistic. Then, the ranking display processing unit 112 determines each of ("variable A", "variable B"), ("variable A", "variable C"), ..., ("variable E", "variable F"). Calculate basic statistics for the combinations.
The basic statistics calculated here are standard deviation, skewness, kurtosis, median, and mode.

次に、過去統計データ122における基礎統計量と、ステップS702で算出された基礎統計量とをマッチングする(S703)ことで、要因を推定する。
ここで、図15に示すように、記憶装置120には、過去における外れ値が生じた際におけるデータの基礎統計量と、マハラノビス距離(第1指標)とが過去統計データ122として格納されている。基礎統計量は、図15に示すように標準偏差、歪度、尖度、中央値、最頻値等が含まれる。各基礎統計量と、マハラノビス距離とは、図15に示すように、外れ値が生じた要因に対応付けられて格納されている。
Next, the factors are estimated by matching the basic statistics in the past statistical data 122 with the basic statistics calculated in step S702 (S703).
Here, as shown in FIG. 15, the storage device 120 stores, as past statistical data 122, a basic statistic of data when an outlier occurs in the past and a Mahalanobis distance (first index) . .. The basic statistics include standard deviation, skewness, kurtosis, median, mode, etc., as shown in FIG. As shown in FIG. 15, each basic statistic and Mahalanobis distance are stored in association with a factor causing an outlier.

ちなみに、図15の例では、要因として(A)誤記、(B)計測値のエラー、(C)別の種類が混在、(D)(A)〜(D)以外の4種類が格納されている。
(A)の誤記は、小数点の入力ミスや、質的データにおけるデータの打ち間違い等を指す。小数点の入力ミスであれば、本来の値より10倍や、100倍大きくなる等といった現象が生じる。一般に、このような場合、マハラノビス距離は大きくなる傾向がある。
By the way, in the example of FIG. 15, (A) erroneous writing, (B) measurement value error, (C) different types are mixed, and four types other than (D) (A) to (D) are stored as factors. There is.
The erroneous description of (A) indicates a mistake in inputting a decimal point, a mistake in data input in qualitative data, or the like. If the decimal point is mistakenly input, a phenomenon such as 10 times or 100 times larger than the original value occurs. Generally, in such a case, the Mahalanobis distance tends to be large.

(B)の計測値のエラーは、0.9999等、機械が出力し得る値で生じることが多く、量的データに生じることが多い要因である。このような場合、マハラノビス距離が大きくなる傾向がある。 The error in the measured value in (B) often occurs at a value that can be output by the machine, such as 0.9999, and is a factor that often occurs in quantitative data. In such a case, the Mahalanobis distance tends to increase.

(C)の別の種類が混入は、例えば、ネジに関するデータ中にナットに関するデータが混入している場合等というように、異なる計測対象のデータが混入している場合である。
(D)の(A)〜(D)以外として、例えば、(C)とは異なり、同じ計測対象のデータではあるが、温度等の計測時の環境条件が異なる場合等である。
Another type of (C) is a case where different measurement target data is mixed, such as a case where nut data is mixed in the screw data.
Other than (A) to (D) in (D), for example, unlike (C), the data is the same measurement target, but the environmental conditions at the time of measurement such as temperature are different.

ランキング表示処理部112は、過去統計データ122において、各要因に対応付けられている基礎統計量及びマハラノビス距離と、ステップS702で算出された基礎統計量とをマッチングする。 The ranking display processing unit 112 matches the basic statistic and the Mahalanobis distance associated with each factor in the past statistical data 122 with the basic statistic calculated in step S702.

例えば、ランキング表示処理部112は、「変数C」における基礎統計量及びマハラノビス距離と、図15に示す「(A)誤記」の基礎統計量及びマハラノビス距離とをマッチングする。次に、ランキング表示処理部112は、「変数C」における基礎統計量及びマハラノビス距離と、図15に示す「(B)計測値のエラー」の基礎統計量及びマハラノビス距離とをマッチングする。さらに、ランキング表示処理部112は、「変数C」における基礎統計量及びマハラノビス距離と、図15に示す「(C)別の種類が混在」の基礎統計量及びマハラノビス距離とをマッチングする。続いて、ランキング表示処理部112は、「変数C」における基礎統計量及びマハラノビス距離と、図15に示す「(D)(A)〜(C)以外」の基礎統計量及びマハラノビス距離とをマッチングする。このようにして、ランキング表示処理部112は、ランキングの上位から、順にマッチングを行っていく。 For example, the ranking display processing unit 112 matches the basic statistic and Mahalanobis distance in “variable C” with the basic statistic and Mahalanobis distance of “(A) erroneous writing” illustrated in FIG. 15. Next, the ranking display processing unit 112 matches the basic statistic and Mahalanobis distance in "variable C" with the basic statistic and Mahalanobis distance of "(B) measurement value error" shown in FIG. Furthermore, the ranking display processing unit 112 matches the basic statistic and Mahalanobis distance in “variable C” with the basic statistic and Mahalanobis distance of “(C) different types are mixed” illustrated in FIG. 15. Subsequently, the ranking display processing unit 112 matches the basic statistic and Mahalanobis distance in “variable C” with the basic statistic and Mahalanobis distance of “other than (D)(A) to (C)” shown in FIG. 15. To do. In this way, the ranking display processing unit 112 sequentially performs matching from the highest ranking.

基礎統計量及びマハラノビス距離のマッチングは、以下の式(11)によって行われる。 The matching of the basic statistic and the Mahalanobis distance is performed by the following equation (11).

I={(STD1−STD2)+(SK1−SK2)+(K1−K2)+(ME1−ME2)+(MO1−MO2)+(MD1−MD2)1/2
・・・ (11)
I = {(STD1-STD2) 2 + (SK1-SK2) 2 + (K1-K2) 2 + (ME1-ME2) 2 + (MO1-MO2) 2 + (MD1-MD2) 2} 1/2
... (11)

ここで、Iは一致度を示す。また、STD1は、今回データにおける標準偏差を示し、STD2は過去統計データ122における標準偏差を示す。今回データとは、前記した例では、「変数C」であり、過去統計データ122における標準偏差は、例えば、「(A)誤記」の標準偏差に相当する。同様に、SK1は、今回データにおける歪度を示し、SK2は、過去統計データ122における歪度を示す。また、K1は、今回データにおける尖度を示し、K2は、過去統計データ122における尖度を示す。そして、ME1は、今回データにおける中央値を示し、ME2は、過去統計データ122における中央値を示す。MO1は、今回データにおける最頻値を示し、MO2は過去統計データ122における最頻値を示す。そして、MD1は、今回データにおけるマハラノビス距離を示し、MD2は、過去統計データ122におけるマハラノビス距離を示す。 Here, I indicates the degree of coincidence. Further, STD1 indicates the standard deviation in the current data, and STD2 indicates the standard deviation in the past statistical data 122. The current data is “variable C” in the above-mentioned example, and the standard deviation in the past statistical data 122 corresponds to the standard deviation of “(A) erroneous writing”, for example. Similarly, SK1 indicates the skewness in the current data, and SK2 indicates the skewness in the past statistical data 122. Further, K1 indicates the kurtosis in the current data, and K2 indicates the kurtosis in the past statistical data 122. And ME1 shows the median in this data, ME2 shows the median in the past statistical data 122. MO1 indicates the mode value in the current data, and MO2 indicates the mode value in the past statistical data 122. MD1 indicates the Mahalanobis distance in the current data, and MD2 indicates the Mahalanobis distance in the past statistical data 122.

そして、ランキング表示処理部112は、一致度Iが最も小さい過去統計データ122の要因を、外れ値が生じた要因(外れ値の要因)とする。例えば、「(A)誤記」における基礎統計量と一致度Iが最も小さければ、ランキング表示処理部112は、外れ値が生じた要因として「(A)誤記」を推定する。 Then, the ranking display processing unit 112 regards the factor of the past statistical data 122 having the smallest degree of coincidence I as the factor causing the outlier (outlier factor). For example, if the basic statistic and the degree of coincidence I in “(A) typographical error” are the smallest, the ranking display processing unit 112 estimates “(A) typographical error” as the cause of the outlier.

なお、2つの変数の組み合わせ(例えば、「変数A」と「変数B」との組み合わせ)の場合、マハラノビス距離以外は2次元統計量となる。図15には示していないが、過去統計データ122には、2次元統計量となる場合も含まれており、それぞれの「(A)誤記」等の要因が対応付けられている。 In the case of a combination of two variables (for example, a combination of “variable A” and “variable B”), a two-dimensional statistic is obtained except for Mahalanobis distance. Although not shown in FIG. 15, the past statistical data 122 also includes a case of a two-dimensional statistical amount, and each factor such as “(A) erroneous writing” is associated with each other.

また、今回データが2次元統計量を有する場合の一致度Iは、例えば以下のように算出される。
(1)2次元統計量における、それぞれの基礎統計量について、今回データの基礎統計量と、過去統計データ122の基礎統計量との差の2乗を足し合わせて、ルートをとったものが一致度Iとなる。例えば、一方の変数が、標準偏差STD11、歪度SK11、・・・の基礎統計量を有し、他方の変数が、標準偏差STD12、歪度SK12、・・・の基礎統計量を有しているものとする。また、過去統計データ122が、これらの基礎統計量に対応するように、標準偏差STD21,STD22、歪度SK21,SK22、・・・の基礎統計量を有しているものとする。このとき、一致度Iは、以下の式(12)によって算出される。
Further, the degree of coincidence I when the current data has a two-dimensional statistic is calculated as follows, for example.
(1) For each basic statistic in the two-dimensional statistic, the square of the difference between the basic statistic of the current data and the basic statistic of the past statistical data 122 is added, and the route is taken. It will be degree I. For example, one variable has the basic statistics of standard deviation STD11, skewness SK11,... And the other variable has the basic statistics of standard deviation STD12, skewness SK12,. Be present. Further, it is assumed that the past statistical data 122 has basic statistics of standard deviations STD21, STD22, skewness SK21, SK22,... Corresponding to these basic statistics. At this time, the degree of coincidence I is calculated by the following equation (12).

I={(STD11−STD21)+(STD12−STD22)+(SK11−SK21)+(SK12−SK22)+・・・+(MD1−MD2)1/2
・・・ (12)
I = {(STD11-STD21) 2 + (STD12-STD22) 2 + (SK11-SK21) 2 + (SK12-SK22) 2 + ··· + (MD1-MD2) 2} 1/2
(12)

(2)2次元統計量における、それぞれの基礎統計量の平均を算出し、この平均を基に一致度が算出される。例えば、一方の変数が、標準偏差STD11、歪度SK11、・・・の基礎統計量を有し、他方の変数が、標準偏差STD12、歪度SK12、・・・の基礎統計量を有しているものとする。そこで、これら2つの標準偏差STD11,STD12の平均STDM1、歪度SK11,SK12の平均SKM1、・・・が算出される。そして、過去統計データ122には、これらの平均に対応する基礎統計量(標準偏差STDM2、歪度SKM2、・・・)が格納されている。このとき、一致度Iは、以下の式(13)によって算出される。 (2) The average of each basic statistic in the two-dimensional statistic is calculated, and the degree of coincidence is calculated based on this average. For example, one variable has the basic statistics of standard deviation STD11, skewness SK11,... And the other variable has the basic statistics of standard deviation STD12, skewness SK12,. Be present. Then, the average STDM1 of these two standard deviations STD11 and STD12, the average SKM1 of the skewnesses SK11 and SK12,... Are calculated. Then, in the past statistical data 122, basic statistics (standard deviation STDM2, skewness SKM2,...) Corresponding to these averages are stored. At this time, the degree of coincidence I is calculated by the following equation (13).

I={(STDM1−STDM2)+(SKM1−SKM2)+・・・+(MD1−MD2)1/2
・・・ (13)
I={(STDM1-STDM2) 2 +(SKM1-SKM2) 2 +...+(MD1-MD2) 2 } 1/2
(13)

変数の組み合わせにより、2次元統計量を算出する場合に、式(12)の手法を用いるか、式(13)の手法を用いるかはユーザによって選択される。 When calculating the two-dimensional statistic based on the combination of variables, the method of Expression (12) or the method of Expression (13) is selected by the user.

図14の説明に戻る。
ステップS703の後、ランキング表示処理部112は、ランキングの結果と、推定された要因とを対応付けたランキング表示画面を表示装置133に表示する(S704)。
Returning to the explanation of FIG.
After step S703, the ranking display processing unit 112 displays a ranking display screen in which the result of ranking and the estimated factor are associated with each other on the display device 133 (S704).

図16は、本実施形態で表示されるランキング表示画面の一例を示す図である。
ランキング表示画面は、「変数名1」、「データ1」、「変数名2」、「データ2」、「影響度」、「判定種別」、「判定種別正解登録」の各カラムを有する。
「変数名1」、「変数名2」では、マハラノビス距離が大きいと判定された変数の組み合わせが格納される。「データ1」、「データ2」には、外れ値に対応する「変数名1」、「変数名2」のデータが表示される。
例えば、図16の例では、「変数C」で算出されたマハラノビス距離が最も大きいと判定されている(レコードR11)。従って、この場合、「変数C」が、先頭に表示されている。そして、「データ1」には、外れ値に対応する図2のレコードR2における「変数C」の値「90」が表示されている。また、レコードR11は、単独の変数であるので「変数名2」、「データ2」は空欄となっている。
FIG. 16 is a diagram showing an example of the ranking display screen displayed in this embodiment.
The ranking display screen has columns of "variable name 1", "data 1", "variable name 2", "data 2", "impact degree", "judgment type", and "judgment type correct answer registration".
In “variable name 1” and “variable name 2”, combinations of variables determined to have a large Mahalanobis distance are stored. The data of "variable name 1" and "variable name 2" corresponding to the outliers are displayed in "data 1" and "data 2".
For example, in the example of FIG. 16, it is determined that the Mahalanobis distance calculated by “variable C” is the largest (record R11). Therefore, in this case, "variable C" is displayed at the top. Then, in the "data 1", the value "90" of the "variable C" in the record R2 of FIG. 2 corresponding to the outlier is displayed. Since the record R11 is a single variable, “variable name 2” and “data 2” are blank.

次に、マハラノビス距離が大きいのは、「変数B」、「変数C」の組み合わせであるので、「変数名1」には「変数B」が表示され、「データ1」には、外れ値に対応する「変数B」のデータ「30」が表示されている。また、「変数名2」には「変数C」が表示され、「データ2」には、外れ値に対応する「変数C」のデータ「90」が表示されている。 Next, it is the combination of "variable B" and "variable C" that has a large Mahalanobis distance, so "variable B" is displayed in "variable name 1" and an outlier in "data 1". The corresponding data "30" of "variable B" is displayed. Further, "variable name 2" shows "variable C", and "data 2" shows data "90" of "variable C" corresponding to the outlier.

「影響度」は、算出されたマハラノビス距離である。つまり、レコードR11における「影響度」は、「変数C」で算出されたマハラノビス距離である。
「判定種別」は、図14のステップS703におけるマッチングの結果、推定された要因が表示される。ここでは、ランキングが最も上位の「変数C」の要因として「(A)〜(C)以外」が表示されている。また、次のランキングの「変数B」、「変数C」の要因として「(A)〜(C)以外」が表示されている。
「判定種別正解登録」では、ユーザによる確認の結果、表示されている要因が正しければ、登録ボタン401が入力装置132を介して選択入力される。すると、登録処理部113が、該当する変数のデータを過去統計データ122に追加格納する。例えば、レコードR11の登録ボタン401が選択入力されると、過去統計データ122の「(D)(A)〜(C)以外」のデータとして、ステップS702で算出された「変数C」の基礎統計量と、ステップS3で算出されたマハラノビス距離が追加登録される(図14のS711)。
The “degree of influence” is the calculated Mahalanobis distance. That is, the “degree of influence” in the record R11 is the Mahalanobis distance calculated by the “variable C”.
As the “determination type”, the factor estimated as a result of the matching in step S703 of FIG. 14 is displayed. Here, "other than (A) to (C)" is displayed as a factor of "variable C" having the highest ranking. Further, "other than (A) to (C)" are displayed as the factors of "variable B" and "variable C" in the next ranking.
In the “determination type correct answer registration”, if the displayed factor is correct as a result of confirmation by the user, the registration button 401 is selectively input via the input device 132. Then, the registration processing unit 113 additionally stores the data of the corresponding variable in the past statistical data 122. For example, when the registration button 401 of the record R11 is selected and input, the basic statistics of the “variable C” calculated in step S702 as the data of “other than (D)(A) to (C)” of the past statistical data 122. The amount and the Mahalanobis distance calculated in step S3 are additionally registered (S711 in FIG. 14).

本実施形態の例では、過去統計データ122の「(D)(A)〜(C)以外」において「変数C」の基礎統計量と、マハラノビス距離とが追加される。なお、過去に、「変数C」において「(D)(A)〜(C)以外」が要因として推定されている場合、過去に算出された基礎統計量と、マハラノビス距離とはそのままで、今回新たに算出された基礎統計量と、マハラノビス距離とが追加登録される。つまり、この場合、「変数C」における過去に算出された基礎統計量及びマハラノビス距離と、今回算出された基礎統計量及びマハラノビス距離とが過去統計データ122で並列に格納される。このように、ある変数のある要因について、複数の基礎統計量及びマハラノビス距離が算出された場合、それぞれの基礎統計量及びマハラノビス距離が過去統計データ122に格納される。 In the example of the present embodiment, the basic statistic of “variable C” and the Mahalanobis distance are added in “other than (D)(A) to (C)” of the past statistical data 122. If "variable C" is estimated to be "(D)(A) to (C) other than" in the past, the basic statistic calculated in the past and the Mahalanobis distance remain the same. The newly calculated basic statistic and Mahalanobis distance are additionally registered. That is, in this case, the basic statistic and Mahalanobis distance calculated in the past in “variable C” and the basic statistic and Mahalanobis distance calculated this time are stored in parallel in the past statistical data 122. In this way, when a plurality of basic statistics and Mahalanobis distances are calculated for a certain factor of a certain variable, the respective basic statistics and Mahalanobis distances are stored in the past statistical data 122.

また、このようにある変数のある要因について、複数の基礎統計量及びマハラノビス距離が過去統計データ122に格納されている場合、ステップS703では、それぞれの基礎統計量及びマハラノビス距離に対してマッチングが行われる。 If a plurality of basic statistics and Mahalanobis distances are stored in the past statistical data 122 for a factor with a certain variable as described above, matching is performed for each basic statistics and Mahalanobis distance in step S703. Be seen.

本実施形態の例において、レコードR11の「変数C」が温度であれば、「データ1」での温度周辺で、機械使用時間が短くても部品交換回数が多くなる事象が生じていることが分かる。レコードR12や、レコードR13のような組み合わせの条件でも、ユーザは影響度(マハラノビス距離)を確認することができ、所定の環境化では、部品の消耗が激しいという知見も抽出できる。 In the example of the present embodiment, if the “variable C” of the record R11 is temperature, there may occur a phenomenon that the number of times of parts replacement is large around the temperature of “data 1” even if the machine usage time is short. I understand. The user can also confirm the degree of influence (Mahalanobis distance) even under the condition of combination such as the record R12 and the record R13, and it is possible to extract the knowledge that the consumption of parts is severe under a predetermined environment.

また、図16の例では、上位3つのすべてに「変数C」がランキングされているので、「変数C」が、外れ値が生じる最大の要因となっている可能性があることを、ユーザが認識できる。 In addition, in the example of FIG. 16, since “variable C” is ranked in all of the top three, the user is aware that “variable C” may be the largest factor causing an outlier. Can be recognized.

本実施形態では、ユーザがデータの意味を理解していなくても、外れ値の要因を推定することが可能である。
また、本実施形態では、外れ値が、この外れ値に対応している他のカラム(データ)においても外れている点に着目して抽出している。そのため、指定される外れ値のデータは1つでも推定可能である。
さらに、本実施形態では、高次元のデータを低次元(2次元)のデータに圧縮せずに、要因の推定を行っている。従って、本実施形態によれば、データの正確性を維持することができる。
さらに、本実施形態では、外れ値をユーザが選択指定することで、要因の推定処理が開始される。このようにすることで、容易に外れ値の要因の推定を行うことができる。
In this embodiment, it is possible to estimate the factor of the outlier even if the user does not understand the meaning of the data.
Further, in the present embodiment, the outliers are extracted by focusing on the fact that they are also outliers in other columns (data) corresponding to the outliers. Therefore, even one outlier data can be estimated.
Further, in this embodiment, the factors are estimated without compressing the high-dimensional data into the low-dimensional (two-dimensional) data. Therefore, according to this embodiment, the accuracy of the data can be maintained.
Further, in the present embodiment, the factor estimation process is started by the user selecting and designating an outlier. By doing so, it is possible to easily estimate the factor of the outlier.

本実施形態では、単独の質的データについてマハラノビス距離を算出する際、外れ値に対応するデータと同じデータを「1」とし、異なるデータを「0」としている。外れ値に対応するデータと同じデータとは、図2の例の「B2」であり、異なるデータは図2の例の「B2」以外である。しかし、外れ値に対応するデータと同じデータを「0」とし、異なるデータを「1」としてもよい。また、「0」、「1」に限らず、外れ値に対応するデータと同じデータと、外れ値に対応するデータと同じデータとは異なるデータを異なる数字とすれば、どのような数字が用いられてもよい。 In the present embodiment, when calculating the Mahalanobis distance for a single qualitative data, the same data as the data corresponding to the outlier is set to "1" and different data is set to "0". The same data as the data corresponding to the outlier is "B2" in the example of FIG. 2, and the different data is other than "B2" in the example of FIG. However, the same data as the data corresponding to the outlier may be set to “0” and different data may be set to “1”. Further, not only "0" and "1", but if the same data as the data corresponding to the outlier and different data from the same data corresponding to the outlier are different numbers, what number is used? You may be asked.

また、質的データについてマハラノビス距離を算出する際、外れ値に対応するデータと同じデータを「1」とし、異なるデータを「0」としている。しかし、例えば、数量化2類によるダミー変数への変換等が用いられてもよい。 Further, when calculating the Mahalanobis distance for qualitative data, the same data as the data corresponding to the outliers is set to "1" and different data is set to "0". However, for example, conversion into a dummy variable by quantification 2 or the like may be used.

そして、本実施形態では、外れ値に対応するデータが、同じカラムに格納されているデータ群の平均から、どれほど離れているかの指標としてマハラノビス距離が用いられている。しかし、これに限らず、ユークリッド距離等といった、マハラノビス距離以外の距離が用いられてもよい。 Then, in the present embodiment, the Mahalanobis distance is used as an index of how far the data corresponding to the outliers are from the average of the data groups stored in the same column. However, the distance is not limited to this, and a distance other than the Mahalanobis distance such as Euclidean distance may be used.

さらに、本実施形態では、図3に示す散布図の軸として表示装置133に表示されている交換回数や、機械使用時間について図4〜図16で示す解析が行われていない。しかし、表示装置133に表示されている交換回数や、機械使用時間について、図4〜図16で示す解析が行われてもよい。 Furthermore, in the present embodiment, the analysis shown in FIGS. 4 to 16 is not performed on the number of exchanges and the machine usage time displayed on the display device 133 as the axis of the scatter diagram shown in FIG. However, the number of exchanges displayed on the display device 133 and the machine usage time may be analyzed as shown in FIGS. 4 to 16.

また、本実施形態では、図14のステップS703におけるマッチングについて、各基礎統計量を用いたユークリッド距離を用いて、対象となるカラムのデータ群の分布が、どの要因に基づく分布に近いかが測られている。しかし、これに限らず、例えば、N次元のk近傍法等によって対象となるカラムのデータ群の分布が、どの要因に基づく分布に近いかが測られてもよい。 Further, in the present embodiment, for the matching in step S703 of FIG. 14, it is possible to measure which factor the distribution of the data group of the target column is close to, based on the Euclidean distance using each basic statistic. ing. However, the present invention is not limited to this, and it may be measured by which factor the distribution of the data group in the target column is closer to the distribution based on, for example, the N-dimensional k-nearest neighbor method.

さらに、本実施形態では、図3に示すような散布図が表示装置133に表示され、マウス等の入力装置132によって外れ値201が選択指定されている。しかし、これに限らず、例えば、図2に示すような表が表示装置133に表示され、その表においてマウス等の入力装置132によって外れ値201が選択指定されてもよい。 Further, in the present embodiment, the scatter diagram as shown in FIG. 3 is displayed on the display device 133, and the outlier 201 is selected and designated by the input device 132 such as a mouse. However, not limited to this, for example, a table as shown in FIG. 2 may be displayed on the display device 133, and the outlier 201 may be selected and designated by the input device 132 such as a mouse in the table.

また、本実施形態では、単独の変数(カラム)、2つの変数(カラム)の組み合わせについて解析を行っているが、3つ以上の変数(カラム)の組み合わせについて解析が行われてもよい。 Further, in the present embodiment, the analysis is performed for a single variable (column) and a combination of two variables (columns), but the analysis may be performed for a combination of three or more variables (columns).

さらに、図14のステップS703のマッチングにおいて、ランキング表示処理部112は、変数、及び、2つの変数の組み合わせについて基礎統計量を算出し、過去統計データ122における過去基礎統計量とのマッチングを行っている。しかし、これに限らず、ランキングの上位(例えば、上位3つ)の変数、及び、2つの変数の組み合わせについて基礎統計量を算出し、過去基礎統計量とのマッチングを行ってもよい。このようにすることで、処理量を軽減することができる。 Furthermore, in the matching in step S703 of FIG. 14, the ranking display processing unit 112 calculates basic statistics for variables and a combination of two variables, and performs matching with the past basic statistics in the past statistical data 122. There is. However, the present invention is not limited to this, and a basic statistic may be calculated for a variable in the top of the ranking (for example, the top three) and a combination of two variables, and matching with the past basic statistic may be performed. By doing so, the processing amount can be reduced.

本発明は前記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を有するものに限定されるものではない。 The present invention is not limited to the above-described embodiment, but includes various modifications. For example, the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the configurations described.

また、前記した各構成、機能、各部110〜113、記憶装置120等は、それらの一部又はすべてを、例えば集積回路で設計すること等によりハードウェアで実現してもよい。また、図1に示すように、前記した各構成、機能等は、CPU131等のプロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、HDに格納すること以外に、メモリ100や、SSD(Solid State Drive)等の記録装置、または、IC(Integrated Circuit)カードや、SD(Secure Digital)カード、DVD(Digital Versatile Disc)等の記録媒体に格納することができる。
また、各実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。
Further, the above-described respective configurations and functions, the respective units 110 to 113, the storage device 120 and the like may be realized by hardware by designing a part or all of them, for example, with an integrated circuit. Further, as shown in FIG. 1, each of the above-described configurations, functions, and the like may be realized by software by a processor such as the CPU 131 interpreting and executing a program that realizes each function. Information such as a program, a table, and a file for realizing each function is stored in the HD as well as the memory 100, a recording device such as an SSD (Solid State Drive), an IC (Integrated Circuit) card, or an SD ( It can be stored in a recording medium such as a Secure Digital) card or a DVD (Digital Versatile Disc).
In addition, in each embodiment, the control lines and the information lines are shown to be necessary for the description, and not all the control lines and the information lines on the product are necessarily shown. In reality, almost all configurations can be considered as interconnected.

1 要因推定装置(外れ値要因推定支援装置)
110 処理部
111 距離算出処理部(算出部)
112 ランキング表示処理部(要因推定部、ランキング処理部、表示処理部)
113 登録処理部
120 記憶装置(記憶部)
121 計測データ(テーブル、フィールド、処理対象データ
122 過去統計データ(要因データ、第1指標及び第1基礎統計量を格納
132 入力装置(指定部)
133 表示装置(表示部)
201 外れ値(第2外れ値)
C1〜C8 カラム(第2指標の算出対象となっているカラム、第1カラム〜第4カラム)
R1〜R10 レコード(第1レコード〜第5レコード)
S2 外れ値の指定(指定ステップ)
S3〜S6 マハラノビス距離算出(算出ステップ)
S703 マッチング(要因推定ステップ)
S704 表示(表示ステップ)
1 Factor estimation device (outlier factor estimation support device)
110 processor 111 a distance calculation processing unit (calculation out portion)
112 Ranking display processing unit (factor estimation unit, ranking processing unit, display processing unit)
113 registration processing unit 120 storage device (storage unit)
121 Measurement data ( tables, fields, data to be processed )
122 Past statistical data (stores factor data , first index and first basic statistic )
132 Input device (designating part)
133 Display device (display unit)
201 Outlier (second outlier)
C1 to C8 columns (columns for which the second index is calculated, first to fourth columns)
R1 to R10 records (1st to 5th records)
S2 Outlier designation (designation step)
S3~S6 Mahalanobis distance calculation (calculated out step)
S703 Matching (factor estimation step)
S704 display (display step)

Claims (12)

過去における外れ値である第1外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量である第1基礎統計量と、前記第1外れ値が、前記第1外れ値以外のデータからどれほど離れていたかを示す指標である第1指標とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータである処理対象データを保持している記憶部を有し、
個々の前記処理対象データは、複数のカラム及び複数のレコードによって構成されるテーブルの各フィールドに格納されており、
前記テーブルに格納されている前記処理対象データのうち、特定のカラム及び特定のレコードに対応する前記処理対象データが表示部に表示されている状態で、前記表示部に表示されている前記処理対象データの外れ値である第2外れ値を指定する指定部と、
前記テーブルにおいて、指定された前記第2外れ値が格納されている前記レコードにおける前記処理対象データのそれぞれが、それぞれの前記カラムに格納されている他の前記処理対象データから、どれほど離れているかの指標である第2指標、及び、前記カラムに格納されている前記処理対象データの基礎統計量である第2基礎統計量を、前記表示部に表示されている前記特定のカラム以外のすべての前記カラムについて算出する算出部と、
前記要因データに格納されている前記第1基礎統計量及び前記第1指標と、前記算出部によって算出された、それぞれの前記第2基礎統計量及び前記第2指標とを比較することで、指定された前記第2外れ値が生じた要因を推定する要因推定部と、
前記推定された要因を前記表示部に表示する表示処理部と、
を有し、
前記第1基礎統計量及び前記第1指標は、それぞれ過去に前記第2基礎統計量及び前記第2指標として算出されたデータである
とを特徴とする外れ値要因推定支援装置。
A factor that causes a first outlier that is an outlier in the past, a first basic statistic that is a basic statistic of data when the factor occurs, and the first outlier is other than the first outlier. Storage unit that holds the factor data stored in association with the first index, which is an index indicating how far away the data is, and the processing target data that is the data for which the factor is estimated. Have
Each of the data to be processed is stored in each field of a table composed of a plurality of columns and a plurality of records,
Of the processing target data stored in the table, the processing target displayed on the display unit in a state where the processing target data corresponding to a specific column and a specific record is displayed on the display unit. A designation part for designating a second outlier that is an outlier of the data,
In the table, how far each of the processing target data in the record in which the designated second outlier is stored is separated from the other processing target data stored in each of the columns. The second index, which is an index, and the second basic statistic, which is the basic statistic of the processing target data stored in the column, are stored in all the columns other than the specific column displayed in the display unit. A calculation unit that calculates for the column,
Said first basic statistics and the first index is stored in the source data, calculated by the calculation unit, by comparing each of the said second basic statistics and the second indicator, designated A factor estimation unit that estimates a factor that has caused the generated second outlier,
A display processing unit for displaying the estimated factors on the display unit,
Have a,
The first basic statistic and the first index are data calculated as the second basic statistic and the second index in the past, respectively.
Outlier factor estimating support device which is characterized a call.
前記第1指標及び前記第2指標は、マハラノビス距離である
ことを特徴とする請求項1に記載の外れ値要因推定支援装置。
The outlier factor estimation support device according to claim 1, wherein the first index and the second index are Mahalanobis distances.
前記第2指標の算出対象となっている前記カラムに格納されている前記処理対象データが、数値ではないデータである質的データで構成されている場合、
前記算出部は、
前記第2外れ値に該当する前記処理対象データが格納されているレコードを第1レコードとし、
前記第2指標の算出対象となっている前記カラムに格納されている前記処理対象データのうち、前記第1レコードと、前記第2指標の算出対象となっている前記カラムと、が交差するフィールドに格納されている前記処理対象データと同じ値の前記処理対象データを所定の数字である第1数字で変換し、前記第1レコードにおける前記処理対象データとは異なる値を有する前記処理対象データを、前記第1数字とは異なる第2数字で変換し、式(1)に基づく前記マハラノビス距離を算出することで、前記第2指標を算出する
ことを特徴とする請求項2に記載の外れ値要因推定支援装置。
D1=|(X1−μ1)|/σ1 ・・・ (1)
ここで、D1は前記マハラノビス距離であり、X1は、前記第1数字であり、μ1は、処理対象となっている前記カラムにおける前記第1数字及び前記第2数字の平均値であり、σ1は、処理対象となっている前記カラムにおける前記第1数字及び前記第2数字の標準偏差である。
When the processing target data stored in the column that is the calculation target of the second index is composed of qualitative data that is data that is not a numerical value,
The calculation unit,
A record in which the processing target data corresponding to the second outlier is stored is a first record,
Of the processing target data stored in the column that is the calculation target of the second index, the field in which the first record and the column that is the calculation target of the second index intersect The processing target data having the same value as the processing target data stored in is converted by the first numeral which is a predetermined numeral, and the processing target data having a value different from the processing target data in the first record is converted into the processing target data. The outlier according to claim 2, wherein the second index is calculated by converting the second index different from the first number and calculating the Mahalanobis distance based on Expression (1). Factor estimation support device.
D1=|(X1−μ1)|/σ1 (1)
Here, D1 is the Mahalanobis distance, X1 is the first digit, .mu.1 is the average value of the first digit and the second digit in the column to be processed, .sigma.1 is , The standard deviation of the first number and the second number in the column to be processed.
前記第2指標の算出対象となっている前記カラムは、第1カラム、及び、前記第1カラムと異なる第2カラムの2つであり、前記第1カラム及び前記第2カラムにおける前記処理対象データは、数値ではないデータである質的データで構成されており、
前記算出部は、
前記テーブルにおいて、前記第2外れ値に該当する前記処理対象データが格納されているレコードを第2レコードとし、前記第1カラムに格納されている前記処理対象データのうち、前記第1カラムと、前記第2レコードと、が交差するフィールドに格納されている前記処理対象データと同じ値の前記処理対象データを有する、すべてのレコードを第3レコードとし、
前記第2カラムと、前記第3レコードと、が交差するフィールドに格納されている前記処理対象データのうち、前記第2カラムと、前記第2レコードと、が交差するフィールドに格納されている前記処理対象データと同じ値を有するものを所定の数字である第3数字で変換し、
前記第2カラムと、前記第3レコードと、が交差するフィールドに格納されている前記処理対象データのうち、前記第2カラムと、前記第2レコードと、が交差するフィールドに格納されている前記処理対象データと異なる値を有するものを前記第3数字とは異なる第4数字で変換し、式(2)に基づく前記マハラノビス距離を算出することで、前記第2指標を算出する
ことを特徴とする請求項2に記載の外れ値要因推定支援装置。
D3=|(X3−μ3)|/σ3 ・・・ (2)
ここで、D3は、前記マハラノビス距離であり、X3は、前記第3数字であり、μ3は、前記第2カラムと、前記第3レコードと、が交差するフィールドにおける前記第3数字及び前記第4数字の平均値であり、σ3は、前記第2カラムと、前記第3レコードと、が交差するフィールドにおける前記第3数字及び前記第4数字の標準偏差である。
The columns for which the second index is calculated are two columns, a first column and a second column different from the first column, and the processing target data in the first column and the second column Is made up of qualitative data that is not numerical,
The calculation unit,
In the table, a record in which the processing target data corresponding to the second outlier is stored is a second record, and the first column among the processing target data stored in the first column, All records having the processing target data having the same value as the processing target data stored in the field where the second record intersects are set as the third record,
Of the processing target data stored in the field where the second column and the third record intersect, the data stored in the field where the second column and the second record intersect Convert the data that has the same value as the data to be processed with the third number, which is a predetermined number,
Of the processing target data stored in the field where the second column and the third record intersect, the data stored in the field where the second column and the second record intersect The second index is calculated by converting a data having a different value from the data to be processed with a fourth numeral different from the third numeral and calculating the Mahalanobis distance based on the equation (2). The outlier factor estimation support device according to claim 2.
D3=|(X3-μ3)|/σ3 (2)
Here, D3 is the Mahalanobis distance, X3 is the third digit, .mu.3, the second column, the third record and the third digit and the fourth in the field of cross Σ3 is the average value of the numbers, and σ3 is the standard deviation of the third number and the fourth number in the field where the second column and the third record intersect.
前記第2指標の算出対象となっている前記カラムは、第3カラム、及び、前記第3カラムと異なる第4カラムの2つであり、前記第3カラムにおける前記処理対象データは、数値ではないデータである質的データで構成されており、前記第4カラムにおける前記処理対象データは、数値のデータである量的データで構成されており、
前記算出部は、
前記テーブルにおいて、前記第2外れ値に該当する前記処理対象データが格納されているレコードを第4レコードとし、前記第3カラムに格納されている前記処理対象データのうち、前記第3カラムと、前記第4レコードと、が交差するフィールドに格納されている前記処理対象データと同じ値の前記処理対象データを有する、すべてのレコードを第5レコードとし、
前記第4カラムと、前記第5レコードと、が交差するフィールドに格納されている前記処理対象データについて、式(3)に基づく前記マハラノビス距離を算出することで、前記第2指標を算出する
ことを特徴とする請求項2に記載の外れ値要因推定支援装置。
D4=|(X4−μ4)|/σ4 ・・・ (3)
ここで、D4は、前記マハラノビス距離であり、X4は、前記第4カラムと、前記第4レコードと、が交差するフィールドに格納されている前記処理対象データの値であり、μ4は、前記第4カラムと、前記第5レコードと、が交差するフィールドに格納されている前記処理対象データの値の平均値であり、σ4は、前記第4カラムと、前記第5レコードと、が交差するフィールドに格納されている前記処理対象データの値の標準偏差である。
The columns subject to calculation of the second index are a third column and a fourth column different from the third column, and the processing target data in the third column is not a numerical value. The data to be processed in the fourth column is made up of quantitative data that is numerical data,
The calculation unit,
In the table, the record in which the processing target data corresponding to the second outlier is stored is a fourth record, and among the processing target data stored in the third column, the third column, All records having the processing target data having the same value as the processing target data stored in the field where the fourth record intersects are set to the fifth record,
Calculating the second index by calculating the Mahalanobis distance based on Expression (3) for the processing target data stored in the field where the fourth column and the fifth record intersect. The outlier factor estimation support device according to claim 2.
D4=|(X4-μ4)|/σ4 (3)
Here, D4, the a Mahalanobis distance, X4 is a fourth column, and the fourth record, is a value of the processing target data stored in the field intersecting, .mu.4, the first 4 column is the average value of the values of the processing target data stored in the field where the fifth record intersects, and σ4 is a field where the fourth column intersects with the fifth record Is the standard deviation of the values of the processing target data stored in.
前記第2指標の算出対象となっている前記カラムに格納されている前記処理対象データが、数値のデータである量的データで構成されている場合、
前記算出部は、
当該量的データに対する前記マハラノビス距離を算出することで、前記第2指標を算出する
ことを特徴とする請求項2に記載の外れ値要因推定支援装置。
When the processing target data stored in the column that is the calculation target of the second index is composed of numerical data that is numerical data,
The calculation unit,
By calculating the Mahalanobis distance for the quantitative data, outliers factor estimating support device according to claim 2, characterized in that to calculate the second index.
前記第2指標の算出対象となっている前記カラムは、第5カラム、及び、前記第5カラムと異なる第6カラムの2つであり、前記第5カラム及び前記第6カラムにおける前記処理対象データは、数値のデータである量的データで構成されており、
前記算出部は、
前記第5カラム及び前記第6カラムにおけるデータに対し、前記第5カラムを一方の変数とし、前記第6カラムを他方の変数とする2変数のマハラノビス距離を算出する
ことを特徴とする請求項2に記載の外れ値要因推定支援装置。
The columns for which the second index is calculated are a fifth column and a sixth column different from the fifth column, and the processing target data in the fifth column and the sixth column Is composed of numerical data that is numerical data,
The calculation unit,
The Mahalanobis distance of two variables is calculated for the data in the fifth column and the sixth column, with the fifth column as one variable and the sixth column as the other variable. The outlier factor estimation support device described in.
前記第2指標に基づいて、前記カラムのランキングを算出するランキング処理部
を有することを特徴とする請求項1に記載の外れ値要因推定支援装置。
The outlier factor estimation support device according to claim 1, further comprising a ranking processing unit that calculates a ranking of the column based on the second index.
前記表示処理部は、
前記ランキング処理部によって算出された前記カラムのランキングを、前記推定した要因とともに前記表示部に表示する
ことを特徴とする請求項8に記載の外れ値要因推定支援装置。
The display processing unit,
The outlier factor estimation support device according to claim 8, wherein the ranking of the column calculated by the ranking processing unit is displayed on the display unit together with the estimated factor.
前記表示部に表示されている要因に関する前記第2基礎統計量及び前記第2指標を、前記要因データに追加格納する登録処理部
を有することを特徴とする請求項1に記載の外れ値要因推定支援装置。
The outlier factor estimation according to claim 1, further comprising: a registration processing unit that additionally stores the second basic statistic and the second index regarding the factor displayed on the display unit in the factor data. Support device.
過去における外れ値である第1外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量である第1基礎統計量と、前記第1外れ値が、前記第1外れ値以外のデータからどれほど離れていたかを示す指標である第1指標とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータである処理対象データを保持している記憶部を有する外れ値推定支援装置の外れ値要因推定支援方法であって、
個々の前記処理対象データは、複数のカラム及び複数のレコードによって構成されるテーブルの各フィールドに格納されており、
外れ値要因推定支援装置は、
前記テーブルに格納されている前記処理対象データのうち、特定のカラム及び特定のレコードに対応する前記処理対象データが表示部に表示されている状態で、前記表示部に表示されている前記処理対象データの外れ値である第2外れ値を指定する指定ステップと、
前記テーブルにおいて、指定された前記第2外れ値が格納されている前記レコードにおける前記処理対象データのそれぞれが、それぞれの前記カラムに格納されている他の前記処理対象データから、どれほど離れているかの指標である第2指標、及び、前記カラムに格納されている前記処理対象データの基礎統計量である第2基礎統計量を、前記表示部に表示されている前記特定のカラム以外のすべての前記カラムについて算出する算出ステップと、
前記要因データに格納されている前記第1基礎統計量及び前記第1指標と、前記算出ステップよって算出された、それぞれの前記第2基礎統計量及び前記第2指標とを比較することで、指定された前記第2外れ値が生じた要因を推定する要因推定ステップと、
前記推定された要因を前記表示部に表示する表示ステップと、
を実行し、
前記第1基礎統計量及び前記第1指標は、それぞれ過去に前記第2基礎統計量及び前記第2指標として算出されたデータである
とを特徴とする外れ値要因推定支援方法。
A factor causing a first outlier that is an outlier in the past, a first basic statistic that is a basic statistic of data when the factor occurs, and the first outlier is other than the first outlier. Storage unit that holds the factor data stored in association with the first index, which is an index indicating how far away the data is, and the processing target data that is the data for which the factor is estimated. An outlier factor estimation support method for an outlier estimation support device having:
Each of the data to be processed is stored in each field of a table composed of a plurality of columns and a plurality of records,
The outlier factor estimation support device is
Of the processing target data stored in the table, the processing target displayed on the display unit in a state where the processing target data corresponding to a specific column and a specific record is displayed on the display unit. A step of designating a second outlier that is an outlier of the data,
In the table, how far each of the processing target data in the record in which the designated second outlier is stored is separated from the other processing target data stored in each of the columns. The second index, which is an index, and the second basic statistic, which is the basic statistic of the processing target data stored in the column, are stored in all the columns other than the specific column displayed in the display unit. A calculation step for calculating the column,
Said first basic statistics and the first index is stored in the source data, calculated by said calculation step, by comparing each of the said second basic statistics and the second indicator, designated A factor estimating step of estimating a factor causing the generated second outlier,
A display step of displaying the estimated factors on the display unit,
The execution,
The first basic statistic and the first index are data calculated as the second basic statistic and the second index in the past, respectively.
Outlier factor estimating support wherein a call.
過去における外れ値である第1外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量である第1基礎統計量と、前記第1外れ値が、前記第1外れ値以外のデータからどれほど離れていたかを示す指標である第1指標とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータである処理対象データを保持している記憶部を有する外れ値推定支援装置で実行される外れ値要因推定支援プログラムであって、
個々の前記処理対象データは、複数のカラム及び複数のレコードによって構成されるテーブルの各フィールドに格納されており、
コンピュータに、
前記テーブルに格納されている前記処理対象データのうち、特定のカラム及び特定のレコードに対応する前記処理対象データが表示部に表示されている状態で、前記表示部に表示されている前記処理対象データの外れ値である第2外れ値を指定する指定ステップと、
前記テーブルにおいて、指定された前記第2外れ値が格納されている前記レコードにおける前記処理対象データのそれぞれが、それぞれの前記カラムに格納されている他の前記処理対象データから、どれほど離れているかの指標である第2指標、及び、前記カラムに格納されている前記処理対象データの基礎統計量である第2基礎統計量を、前記表示部に表示されている前記特定のカラム以外のすべての前記カラムについて算出する算出ステップと、
前記要因データに格納されている前記第1基礎統計量及び前記第1指標と、前記算出ステップよって算出された、それぞれの前記第2基礎統計量及び前記第2指標とを比較することで、指定された前記第2外れ値が生じた要因を推定する要因推定ステップと、
前記推定された要因を前記表示部に表示する表示ステップと、
を実行し、
前記第1基礎統計量及び前記第1指標は、それぞれ過去に前記第2基礎統計量及び前記第2指標として算出されたデータである
とを特徴とする外れ値要因推定支援プログラム。
A factor that causes a first outlier that is an outlier in the past, a first basic statistic that is a basic statistic of data when the factor occurs, and the first outlier is other than the first outlier. Storage unit that holds the factor data stored in association with the first index, which is an index indicating how far away the data is, and the processing target data that is the data for which the factor is estimated. An outlier factor estimation support program executed by an outlier estimation support device having
Each of the data to be processed is stored in each field of a table composed of a plurality of columns and a plurality of records,
On the computer,
Of the processing target data stored in the table, the processing target displayed on the display unit in a state where the processing target data corresponding to a specific column and a specific record is displayed on the display unit. A step of designating a second outlier that is an outlier of the data,
In the table, how far each of the processing target data in the record in which the designated second outlier is stored is separated from the other processing target data stored in each of the columns. The second index, which is an index, and the second basic statistic, which is the basic statistic of the processing target data stored in the column, are stored in all the columns other than the specific column displayed in the display unit. A calculation step for calculating the column,
Said first basic statistics and the first index is stored in the source data, calculated by said calculation step, by comparing each of the said second basic statistics and the second indicator, designated A factor estimating step of estimating a factor causing the generated second outlier,
A display step of displaying the estimated factors on the display unit,
The execution,
The first basic statistic and the first index are data calculated as the second basic statistic and the second index in the past, respectively.
Outlier factor estimating support program which is characterized a call.
JP2019053875A 2019-03-20 2019-03-20 Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program Active JP6719612B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019053875A JP6719612B1 (en) 2019-03-20 2019-03-20 Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019053875A JP6719612B1 (en) 2019-03-20 2019-03-20 Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program

Publications (2)

Publication Number Publication Date
JP6719612B1 true JP6719612B1 (en) 2020-07-08
JP2020154891A JP2020154891A (en) 2020-09-24

Family

ID=71402452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019053875A Active JP6719612B1 (en) 2019-03-20 2019-03-20 Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program

Country Status (1)

Country Link
JP (1) JP6719612B1 (en)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038256A (en) * 2003-07-16 2005-02-10 Jgs:Kk Effective factor information selection device, effective factor information selection method, program, and recording medium
JP4394728B2 (en) * 2008-04-15 2010-01-06 シャープ株式会社 Influence factor identification device
JP5541790B2 (en) * 2010-06-04 2014-07-09 メタウォーター株式会社 Plant operation monitoring device, system and program
JP6095066B2 (en) * 2013-10-01 2017-03-15 株式会社日立製作所 Data display system
JPWO2017109903A1 (en) * 2015-12-24 2018-03-22 株式会社東芝 Abnormal cause estimation apparatus and abnormality cause estimation method
JP6895816B2 (en) * 2017-06-15 2021-06-30 株式会社 日立産業制御ソリューションズ Abnormality diagnosis device, abnormality diagnosis method and abnormality diagnosis program
JP2019016209A (en) * 2017-07-07 2019-01-31 株式会社東芝 Diagnosis device, diagnosis method, and computer program

Also Published As

Publication number Publication date
JP2020154891A (en) 2020-09-24

Similar Documents

Publication Publication Date Title
US10572512B2 (en) Detection method and information processing device
US9753801B2 (en) Detection method and information processing device
JP5740459B2 (en) Equipment status monitoring method
JP7221644B2 (en) Equipment failure diagnosis support system and equipment failure diagnosis support method
US8212817B2 (en) Spatial temporal visual analysis of thermal data
JP4046309B2 (en) Plant monitoring device
US11170332B2 (en) Data analysis system and apparatus for analyzing manufacturing defects based on key performance indicators
CN112071432B (en) Medical data analysis method, system, medium and device
JP6886870B2 (en) Plant operation monitoring system and plant operation monitoring method
JP2007034700A (en) Prediction program and prediction device
JP2009054843A (en) Device, method and program for process abnormality detection
JP2014235654A (en) Risk evaluation device
Höhle et al. Aberration detection in R illustrated by Danish mortality monitoring
JP6517991B1 (en) Abnormality sign diagnosis system, management device, and abnormality sign diagnosis method
JP4318221B2 (en) Medical information analysis apparatus, method and program
JP6719612B1 (en) Outlier factor estimation support device, outlier factor estimation support method, and outlier factor estimation support program
WO2019073512A1 (en) System analysis method, system analysis device, and program
KR20140141534A (en) Method and system for predicting sepsis risk
JP7396213B2 (en) Data analysis system, data analysis method, and data analysis program
JP7458903B2 (en) PERFORMANCE ANALYSIS APPARATUS AND PERFORMANCE ANALYSIS METHOD
US20210182762A1 (en) Work instruction system and work instruction method
CN111596619B (en) Computer system and facility monitoring method
JP2017207878A (en) Missing data estimation method, missing data estimation device, and missing data estimation program
CN114095345A (en) Method, device, equipment and storage medium for evaluating health condition of host network
WO2016163008A1 (en) Fault diagnostic device and fault diagnostic method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190320

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190320

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200616

R150 Certificate of patent or registration of utility model

Ref document number: 6719612

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150