JP2006252259A - Data analysis apparatus and method - Google Patents

Data analysis apparatus and method Download PDF

Info

Publication number
JP2006252259A
JP2006252259A JP2005068885A JP2005068885A JP2006252259A JP 2006252259 A JP2006252259 A JP 2006252259A JP 2005068885 A JP2005068885 A JP 2005068885A JP 2005068885 A JP2005068885 A JP 2005068885A JP 2006252259 A JP2006252259 A JP 2006252259A
Authority
JP
Japan
Prior art keywords
data
samples
coordinate value
similarity
partial space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005068885A
Other languages
Japanese (ja)
Other versions
JP2006252259A5 (en
JP4394020B2 (en
Inventor
修平 ▲桑▼田
Shuhei Kuwata
Masatoshi Nishimura
正寿 西村
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2005068885A priority Critical patent/JP4394020B2/en
Publication of JP2006252259A publication Critical patent/JP2006252259A/en
Publication of JP2006252259A5 publication Critical patent/JP2006252259A5/ja
Application granted granted Critical
Publication of JP4394020B2 publication Critical patent/JP4394020B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a data analysis apparatus which can grasp data obtained as a result of window dressing settlement of accounts etc. as abnormal value by comparing financial data of a plurality of companies. <P>SOLUTION: This apparatus is provided with a first partial space making part 31 which makes the first partial space using each data of a plurality of past samples in a certain period, a second partial space making part 32 which makes the second partial space using each data of a plurality of samples at the present time, a similarity level calculating part 4 which obtains similarity level of each partial space, a coordinate value calculating part 7 which obtains each of two-dimensional coordinate values in the fixed period and the present time corresponding to each sample based on the similarity levels of the first and second partial spaces among each sample, and a result output part 8 which outputs each obtained coordinate value. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、サンプルを表すデータ中に含まれる異常値を検知する際に用いて好適なデータ分析装置及び方法に関する。   The present invention relates to a data analysis apparatus and method suitable for use in detecting an abnormal value included in data representing a sample.

例えば、クレジットカードの利用によって発生するトランザクションデータや、ネットワークトラヒックのログデータ等は、時々刻々と変化する大量の時系列データとなる。正常に処理が行われている間は、これらの時系列データにおいて、過去の傾向と現在の傾向を比較しても大きな違いは見られない。
しかし、クレジットカードの不正利用や、ネットワーク侵入が行われた場合には、時系列データに過去とは異なる傾向が発生することが知られている。つまり、時系列データを解析し、そのような異なる傾向を検出することで、不正利用や侵入などによって発生する異常状態を動的に検出することが可能となる。時系列データに発生する異なる傾向とは、図11(a)に示すように正常な傾向からかけ離れた値となる場合や、図11(b)に示すように過去の傾向とは異なる別の傾向に変化する場合があり、前者が発生する箇所は、当該時系列データにおける「異常値」と呼ばれており、後者が発生する箇所は、当該時系列データにおける「変化点」と呼ばれている。
For example, transaction data generated by use of a credit card, log data of network traffic, and the like become a large amount of time-series data that changes from moment to moment. During normal processing, there is no significant difference in these time-series data even if past trends and current trends are compared.
However, it is known that when a credit card is illegally used or a network is intruded, the time-series data tends to differ from the past. That is, by analyzing time-series data and detecting such different tendencies, it is possible to dynamically detect an abnormal state caused by unauthorized use or intrusion. Different trends that occur in time-series data are different from normal trends as shown in FIG. 11A, or different trends that differ from past trends as shown in FIG. 11B. The part where the former occurs is called an “abnormal value” in the time series data, and the place where the latter occurs is called a “change point” in the time series data. .

しかしながら、このような大量のデータから異なる傾向を抽出することは容易ではなく、これまでに様々な検出手法が提案されている。例えば、「異常値検出」を行う手法としては以下の4つが提案されている。
(1)全系列の中で2つの系列の組の相関関係によって検出する手法(特許文献1、非特許文献1参照)。
(2)全系列を発生させる確率モデルを仮定し、過去と現在における確率モデルの違いによって検出する手法(非特許文献2参照)。
(3)主成分分析を用い、主成分の違いによって検出する手法(非特許文献3参照)
(4)過去の系列から学習した予測式に基づいて検出する手法(特許文献2)
However, it is not easy to extract different tendencies from such a large amount of data, and various detection methods have been proposed so far. For example, the following four methods have been proposed for performing “abnormal value detection”.
(1) A method of detecting by correlation between a set of two sequences in all sequences (see Patent Document 1 and Non-Patent Document 1).
(2) A method of detecting a difference model between the past and the present, assuming a probability model that generates all sequences (see Non-Patent Document 2).
(3) Using principal component analysis, a detection method based on differences in principal components (see Non-Patent Document 3)
(4) Method of detection based on prediction formula learned from past series (Patent Document 2)

また、変化点の検出手法としては上記手法(2)を利用する方法が提案されている(非特許文献2参照)。
以下、この4つの手法について説明する。
As a method for detecting a change point, a method using the above method (2) has been proposed (see Non-Patent Document 2).
Hereinafter, these four methods will be described.

[手法(1)]
最初に、手法(1)は、図12に示すように、例えば4つのデータ系列が入力された場合に、4つの系列の中から2つの系列を選択し、選択した2つの系列間における相関関係があるか否かを全ての組み合わせについて調べる。そして、相関のある2組の系列をルールとして記憶しておき、新たに入力されたデータと記憶しているルールとが乖離している場合に異常値として検出する手法である。
[Method (1)]
First, as shown in FIG. 12, in the method (1), for example, when four data series are input, two series are selected from the four series, and the correlation between the two selected series is selected. Check for all combinations to see if there is any. In this method, two sets of correlated series are stored as rules, and detected as abnormal values when the newly input data and the stored rules are different.

[手法(2)]
次に、手法(2)は、図13に示すように、例えば4つのデータ系列が入力された場合に、入力された4つの系列を生成することができる確率モデルを過去の全系列から構成し、構成した確率モデルと、新たに入力されたデータを含めた全系列に基づいて構成した確率モデルとの差分が大きい場合を異常値として検出する手法である。また、手法(2)を利用して、変化点検出を行う場合には、過去の全系列から構成した確率モデルと、新たに入力されたデータを含めて構成した確率モデルとの差分が、過去のデータから得られた平均値に比べて大きく変化した場合を変化点として検出を行う。
なお、手法(2)において異常値の検出は、上述した通り確率モデルの変化によって判定するが、用いる確率モデルとしては、例えば、離散値の場合に適用されるヒストグラム法の確率密度関数や、連続値の場合に適用される混合正規分布がある。
[Method (2)]
Next, as shown in FIG. 13, in the method (2), for example, when four data series are input, a probability model that can generate the four input series is configured from all the past series. This is a method for detecting a case where a difference between a configured probability model and a probability model configured based on the entire series including newly input data is large as an abnormal value. In addition, when the change point is detected using the method (2), the difference between the probability model configured from all the past series and the probability model configured including newly input data is the past. Detection is performed with the change point as a change point compared to the average value obtained from the above data.
In the method (2), the detection of the abnormal value is determined by the change of the probability model as described above. As the probability model to be used, for example, the probability density function of the histogram method applied in the case of discrete values, or the continuous There is a mixed normal distribution applied in the case of values.

以下に、手法(2)の具体的な異常値及び変化点の検出方法について説明する。最初に異常値の検出はxを系列ベクトル、p(t)(x)をt時点までの全系列から推定した確率モデルとした場合に次の式(1)によって求められるt時点までに得られた全系列に関する平均値が過去に求められた平均値よりも大きいか否かを判定することによって行う。 Hereinafter, a specific abnormal value and change point detection method of the method (2) will be described. First, detection of abnormal values is obtained by time t obtained by the following equation (1) when x is a sequence vector and p (t) (x) is a probability model estimated from all sequences up to time t. This is done by determining whether the average value for all the series is larger than the average value obtained in the past.

Figure 2006252259
Figure 2006252259

式(1)において、p(t)(x)は、t時点までの全系列から推定した確率モデルであり、p(t−1)(x)は、t−1時点までの全系列から推定した確率モデルである。 In Equation (1), p (t) (x) is a probability model estimated from all sequences up to time t, and p (t−1) (x) is estimated from all sequences up to time t−1. The probability model.

また、手法(2)において変化点の検出は、確率モデルの平均的な変化、即ち次の式(2)のT’期間における確率モデルqが有するShannon情報量の平均値が過去の平均値よりも大きいか否かを判定することによって行う。ここで、qはytから推定される確率モデルである。 Further, in the method (2), the change point is detected by the average change of the probability model, that is, the average value of the Shannon information amount of the probability model q in the T ′ period of the following equation (2) is compared with the past average value. It is performed by determining whether or not is larger. Here, q is the probability model is estimated from y t.

Figure 2006252259
Figure 2006252259

式(2)において、yは、上記の系列xの確率モデルpが有するShannonの情報量のT期間における平均値であり、次の式(3)によって求めることができる。 In equation (2), y i is the average value of Shannon's information amount in the probability model p of the sequence x in the T period, and can be obtained by the following equation (3).

Figure 2006252259
Figure 2006252259

[手法(3)]
次に、手法(3)は、図14に示すように全系列に対して主成分分析を行うことによって求められる第1主成分ベクトルと、新たに入力されたベクトルを構成するデータとの投影距離が過去の投影距離と比べて大きくなったか否かによって異常値を検出する手法である。
[Method (3)]
Next, in the method (3), as shown in FIG. 14, the projection distance between the first principal component vector obtained by performing the principal component analysis on the entire series and the data constituting the newly input vector. This is a method for detecting an abnormal value depending on whether or not is larger than the past projection distance.

[手法(4)]
最後に、手法(4)は、図15に示すように過去と現在の系列データの一部の値から系列データをクラスに分類し、当該クラスに予め対応付けられている予測式から予測値を求め、実際の値との誤差の大きさに基づいて異常値を検出する手法である。
具体的には、最初に、図15の(1)に示すように、系列データのうち破線で囲まれたデータに基づいて該当するクラスに分類する。クラス分類の方法は予め過去のデータに基づいて学習されており、同図のデータはクラス2に分類されている。
次に、図15の(2)に示すようにクラス2の予測式に基づいて時刻4の画素4に対応する予測値を算出する。各クラスに対応付けられている予測式は過去のデータに基づいて求められ、予め設定されている。そして、算出した予測値と実際の画素4、時刻4の値「23」との誤差を算出し、予め設定されている閾値1と閾値2に基づいて、誤差が閾値1を超える回数が閾値2を超えた場合に異常値として判定することができる。
特開平5−256741号公報 特開平7−87481号公報 山西健司、“データ・テキストマイニングの最新動向”、応用数理、2002年 矢入健久 他、“時系列相関ルールマイニングに基づく人工衛星テレメトリデータからの異常検出法”、人工知能学会全国大会、2001年 和泉勇次 他、“異常検知のためのネットワーク特徴量抽出法に関する一考察”、電子情報通信学会総合大会、2004年
[Method (4)]
Finally, as shown in FIG. 15, the method (4) classifies the series data into a class from a part of the values of the past and current series data, and calculates the predicted value from the prediction formula previously associated with the class. This is a technique for detecting an abnormal value based on the magnitude of an error from an actual value.
Specifically, as shown in (1) of FIG. 15, first, classification is made into a corresponding class based on data surrounded by a broken line in the series data. The class classification method is learned in advance based on past data, and the data shown in FIG.
Next, as shown in (2) of FIG. 15, a predicted value corresponding to the pixel 4 at time 4 is calculated based on the prediction formula of class 2. The prediction formula associated with each class is obtained based on past data and set in advance. Then, an error between the calculated predicted value and the actual pixel 4 and the value “23” at time 4 is calculated, and the number of times the error exceeds the threshold 1 is determined based on the threshold 1 and the threshold 2 set in advance. Can be determined as an abnormal value.
Japanese Patent Laid-Open No. 5-256671 Japanese Patent Laid-Open No. 7-87481 Kenji Yamanishi, “Latest Trends in Data / Text Mining”, Applied Mathematics, 2002 Takehisa Yairi et al., “Abnormality Detection Method from Satellite Telemetry Data Based on Time Series Correlation Rule Mining”, National Conference of the Japanese Society for Artificial Intelligence, 2001 Yuji Izumi et al., “A Study on Network Feature Extraction Method for Anomaly Detection”, IEICE General Conference, 2004

しかしながら、上記の手法(1)から(4)では、入力された系列データの系列全体ではなく部分的な系列間の関係にのみ基づいて検出を行っているか、もしくは対象とする系列データに対してある仮定を立て当該仮定に基づいて検出を行っているという問題がある。例えば、手法(1)では、3つ以上の系列の相関関係を一度に対象とできないため、2つの系列の相関関係で挙動を捉えきれない場合には、異常値及び変化点の検出ができないという問題がある。また、手法(2)及び(4)では、確率モデルや予測式を仮定しているため、実際の系列データとの乖離が大きい場合には検出結果が保証されないという問題がある。また、さらに、手法(4)では、主成分分析によって全系列の相関関係を対象とすることができるが、第1主成分のみを対象としているため、入力された系列データの第1主成分の寄与率が小さい場合などには、系列データの相関関係を捉えきれず、異常値及び変化点の検出ができないという問題がある。   However, in the above methods (1) to (4), detection is performed based only on the relationship between partial sequences rather than the entire sequence of input sequence data, or for target sequence data There is a problem that a certain assumption is made and detection is performed based on the assumption. For example, in the method (1), since the correlation of three or more series cannot be targeted at once, if the behavior cannot be grasped by the correlation of two series, the abnormal value and the change point cannot be detected. There's a problem. Further, methods (2) and (4) assume a probability model and a prediction formula, and therefore there is a problem that the detection result is not guaranteed if the deviation from the actual series data is large. Furthermore, in the method (4), the correlation of all series can be targeted by principal component analysis, but since only the first principal component is targeted, the first principal component of the input series data is considered. When the contribution rate is small, there is a problem that the correlation between the series data cannot be grasped and the abnormal value and the change point cannot be detected.

ところで、異常値の検出対象となるものとしては、上述したようなクレジットカードの不正利用や、ネットワーク侵入に関するもののほか、例えば、企業の財務データに含まれる粉飾データが考えられる。ここで本願では粉飾データとは、例えば会社が正規の会計処理基準によらず、財務諸表の内容をゆがめたりすることで、利益や損失を過大あるいは過小となるようにするための処理によって得られたデータを意味することとする。粉飾データは、つまり、データの処理を意図的に変更した結果として得られるものである。例えば、正当に処理した場合には異常値となるようなデータが、異常値とならないように処理されることも粉飾処理の一形態となる。このような場合、データの時系列の関係だけでは検知することが困難であると考えられる。これに対しては、例えば分析対象の企業と同一の業界の他の複数の企業のデータを分析することで、異常値の分析がより適切に行えるのではないかということが考えられる。   By the way, as the detection target of the abnormal value, in addition to the unauthorized use of the credit card as described above and the network intrusion, for example, the decoration data included in the financial data of the company can be considered. Here, in the present application, the powdered data is obtained, for example, by a process for making a profit or loss excessive or small by distorting the contents of the financial statements, regardless of a regular accounting standard. Data. In other words, the powder decoration data is obtained as a result of intentionally changing the data processing. For example, it is also a form of the flourishing process that data that becomes an abnormal value when properly processed is processed so as not to become an abnormal value. In such a case, it is considered difficult to detect only by the time series relationship of data. For this, for example, it may be possible to analyze the abnormal value more appropriately by analyzing data of a plurality of other companies in the same industry as the analysis target company.

しかしながら、上述したように、従来の技術においては、例えば一つの企業のデータを分析する場合でも相関関係の挙動の分析が不適切となる場合が考えられる。これを複数の企業のデータの分析に利用するには、より適切な処理や、適切な分析結果の把握または出力もしくは表示方法が提供されることが望ましいことになる。   However, as described above, in the conventional technology, for example, even when analyzing data of one company, there is a case where the analysis of the behavior of the correlation becomes inappropriate. In order to use this for analysis of data of a plurality of companies, it is desirable to provide a more appropriate process and a method for grasping, outputting or displaying an appropriate analysis result.

本発明は、上記の事情を考慮してなされたものであり、例えば、複数の企業の財務データを比較することで、粉飾処理(粉飾決算)等の結果として得られるデータを異常値として把握することができるようにするためのより適切な構成を有するデータ分析装置及び方法を提供することを目的とする。   The present invention has been made in consideration of the above circumstances. For example, by comparing the financial data of a plurality of companies, the data obtained as a result of the dressing process (flooring settlement) is grasped as an abnormal value. It is an object of the present invention to provide a data analysis apparatus and method having a more appropriate configuration for enabling the above.

上記課題を解決するため請求項1記載の発明は、一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成手段と、前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成手段と、第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出手段と、求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出手段と、座標値算出手段が求めた各座標値を出力する出力手段とを備えることを特徴とする。   In order to solve the above-mentioned problem, the invention according to claim 1 is characterized in that a first partial space creating means for creating a first partial space using each data of a plurality of samples in a certain period, and a predetermined part after the certain period. A second subspace creating means for creating a second subspace using each data of a plurality of samples at a time point, and a similarity between the samples is obtained using the first subspace and the second subspace. Coordinates for calculating each two-dimensional coordinate value corresponding to each of the plurality of samples in the predetermined period and each two-dimensional coordinate value corresponding to each of the plurality of samples at the predetermined time point using the similarity calculation means and the calculated similarity It comprises a value calculation means and an output means for outputting each coordinate value obtained by the coordinate value calculation means.

請求項2記載の発明は、前記座標値算出手段が、類似度を表す配列に対して多次元尺度法を適用して座標値を表す配列を算出するものであることを特徴とする。   The invention according to claim 2 is characterized in that the coordinate value calculation means calculates an array representing coordinate values by applying a multidimensional scaling method to the array representing similarity.

請求項3記載の発明は、前記出力手段が、前記座標値算出手段が求めた各座標値に対応してサンプルを示す識別子を2次元座標上に配置して表示するものであることを特徴とする。   The invention according to claim 3 is characterized in that the output means displays an identifier indicating a sample corresponding to each coordinate value obtained by the coordinate value calculating means on a two-dimensional coordinate. To do.

請求項4記載の発明は、前記出力手段が、前記座標値算出手段が求めた前記一定期間における各座標値から前記所定の時点における各座標値に向けて配置された矢印を表示するものであることを特徴とする。   According to a fourth aspect of the present invention, the output means displays an arrow arranged from each coordinate value in the certain period obtained by the coordinate value calculating means toward each coordinate value at the predetermined time point. It is characterized by that.

請求項5記載の発明は、一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成過程と、前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成過程と、第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出過程と、求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出過程と、座標値算出過程程で求めた各座標値を出力する出力過程とを含んでいることを特徴とする。   According to a fifth aspect of the present invention, there is provided a first subspace creation process for creating a first subspace using each data of a plurality of samples in a certain period, and a plurality of samples at a predetermined time after the certain period. A second subspace creation process for creating a second subspace using each data; a similarity calculation process for obtaining a similarity between samples using the first subspace and the second subspace; A coordinate value calculation process for obtaining each two-dimensional coordinate value corresponding to each of a plurality of samples in the predetermined period and each two-dimensional coordinate value corresponding to each of the plurality of samples at the predetermined time using the obtained similarity; And an output process for outputting each coordinate value obtained in the value calculation process.

本発明によれば、サンプル間の類似度をサンプル毎の部分空間に基づいて求めているので既存の手法のように、計算式をあらかじめ作成(更新)する必要がない。また、同一のサンプルに対して、過去の一定期間(過去1または複数年)のデータとその後の所定時点(例えば今年)のデータを別のものとして扱い、同時に多次元尺度法等を適用することで、過去のデータと今回のデータの相対関係の変化の把握が容易になった。また、過去のサンプルから、対応する所定時点のサンプルへ向けて矢印を書くことで、相対関係の変化の把握が容易になった。   According to the present invention, since the similarity between samples is obtained based on the partial space for each sample, it is not necessary to create (update) a calculation formula in advance as in the existing method. Also, for the same sample, treat data for a certain period in the past (past one or more years) and data at a predetermined time point (for example, this year) as different, and apply multidimensional scaling etc. at the same time. This makes it easier to understand changes in the relative relationship between past data and current data. In addition, by drawing an arrow from a past sample to a corresponding sample at a predetermined time, it becomes easy to grasp the change in the relative relationship.

以下、本発明の一実施形態によるデータ分析装置及び方法を図面を参照して説明する。図1は、本実施形態による分析装置10を示す概略ブロック図である。分析装置10において、データ入力部1は、異常値、変化点等を検出する対象となる複数のサンプルの時系列データを入力する。   Hereinafter, a data analysis apparatus and method according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a schematic block diagram showing an analyzer 10 according to the present embodiment. In the analyzer 10, the data input unit 1 inputs time-series data of a plurality of samples that are targets for detecting abnormal values, change points, and the like.

入力データとしては、種々のトランザクションデータ、ログデータ等が考えられるが、この説明では図2に示すような複数年度の複数企業における財務データを一例として取り上げることとする。図2に示すデータは、複数年度に渡る、サンプル毎の指標1〜5からなる財務データによって構成されている。分析対象となるサンプルは、A社、B社、C社、D社、…といったN社(N個)の企業であり、ここでは各社は同一の業種に属しているものとする。財務データを構成する各指標1〜5は、例えば貸借対照表や損益決算書等における予め設定した所定の項目の数値に対応している。   As input data, various transaction data, log data, and the like can be considered. In this description, financial data of a plurality of companies in a plurality of years as shown in FIG. 2 is taken as an example. The data shown in FIG. 2 is composed of financial data composed of indices 1 to 5 for each sample over a plurality of years. Samples to be analyzed are N companies (N) such as A company, B company, C company, D company,..., And here, each company belongs to the same industry. Each index 1-5 which comprises financial data respond | corresponds to the numerical value of the predetermined item preset, for example in a balance sheet, an income statement, etc., for example.

図1のデータ記憶部2は、データ入力部1によって入力されたデータを逐次記憶する。部分空間作成部3は、データ記憶部2から最新のデータ及び過去一定期間のデータを読み出し、読み出したデータに基づいて構成される部分空間、即ち検出のためのモデルを抽出し、抽出した部分空間の情報をモデル記憶部5に記録する。図2に示す例では、最新のデータは今年のデータすなわち2004年度分のデータである。そして、過去の一定期間のデータは、2003年度以前の例えば3年間前までのデータである。部分空間作成部3は、過去の一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成部31と、一定期間以後の所定の時点における(最新の)複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成部32とから構成されている。   The data storage unit 2 in FIG. 1 sequentially stores the data input by the data input unit 1. The partial space creation unit 3 reads the latest data and data for a certain period in the past from the data storage unit 2, extracts a partial space configured based on the read data, that is, a model for detection, and extracts the extracted partial space Is recorded in the model storage unit 5. In the example shown in FIG. 2, the latest data is data for this year, that is, data for the fiscal year 2004. The data for a certain period in the past is data up to, for example, three years before the fiscal year 2003. The partial space creation unit 3 includes a first partial space creation unit 31 that creates a first partial space using each data of a plurality of samples in a past fixed period, and a predetermined time after the predetermined period (latest 2) A second partial space creating unit 32 that creates a second partial space using data of a plurality of samples.

図3は、部分空間作成部3によって構成される部分空間、即ちモデルを説明するための図である。部分空間は、複数時系列点(この例では複数年度)分のデータの特徴を表し、基底ベクトルによって表現される。ここで、部分空間の次元数はデータの特徴によって変わる。図3の例では、入力データが、4個のサンプルA1〜A4であり、各サンプルのデータが5つの指標で表されているものとしている。部分空間の作成の際には、入力データを、5つの指標に対応する5次元の空間(原空間)に配置し、配置された各サンプルの特徴を表すように部分空間を作成する。部分空間は、各サンプルの特徴に応じて3次元の部分空間として作成されたり、全サンプルが1つの平面上に載る場合には2次元の平面として作成されたりする。ただし、本願においては平面であっても部分空間と称することとしている。   FIG. 3 is a diagram for explaining a partial space formed by the partial space creation unit 3, that is, a model. The partial space represents data characteristics for a plurality of time series points (in this example, a plurality of years), and is represented by a basis vector. Here, the number of dimensions of the subspace varies depending on the characteristics of the data. In the example of FIG. 3, the input data is four samples A1 to A4, and the data of each sample is represented by five indices. When creating a partial space, input data is arranged in a five-dimensional space (original space) corresponding to five indices, and the partial space is created so as to represent the characteristics of the arranged samples. The partial space is created as a three-dimensional partial space according to the characteristics of each sample, or is created as a two-dimensional plane when all the samples are placed on one plane. However, in the present application, even a flat surface is referred to as a partial space.

図2の例で、第1の部分空間作成部31によって2003〜2001年度の3年分のデータから部分空間を作成するとした場合、各サンプルのデータは5次元空間に配置され、各サンプルごとに部分空間が算出されることになる。ただし、第2の部分空間作成部32によって2004年度の1年分のデータから部分空間を作成した場合には、部分空間はベクトルデータとして表されることになる。   In the example of FIG. 2, when the first partial space creation unit 31 creates a partial space from data for three years from 2003 to 2001, the data of each sample is arranged in a five-dimensional space, and for each sample. The subspace is calculated. However, when a partial space is created from the data for one year of fiscal 2004 by the second partial space creation unit 32, the partial space is represented as vector data.

次に、図1の類似度算出部4は、作成された第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を算出して、類似度記憶部6に記憶する。サンプル間の類似度は、サンプル毎の部分空間どうしがなす角度(正準角)によって求めることができる。図4は、類似度算出の手法を説明するための図である。類似度は、部分空間算出部3によって抽出されたベクトルまたは部分空間とに基づいて算出されるが、当該ベクトルと部分空間の要素の違い従って、以下の3つの算出パターンが存在する。   Next, the similarity calculation unit 4 in FIG. 1 calculates the similarity between the samples using the created first partial space and second partial space, and stores them in the similarity storage unit 6. The similarity between samples can be obtained by an angle (canonical angle) formed by subspaces for each sample. FIG. 4 is a diagram for explaining a technique for calculating similarity. The similarity is calculated based on the vector or the subspace extracted by the subspace calculation unit 3, and there are the following three calculation patterns according to the difference between the vector and the subspace element.

(パターン1)
最初に、図4(a)に示すように、部分空間作成部3によって抽出されたベクトルがベクトル「x」として表され、部分空間がベクトル「y」として表される場合について説明する。ここで、x及びyは、d次元ベクトルの転置によって表される。即ち、x={x11,x12,…,x1d、y={y11,y12,…,y1dとして表現される。なお、Tは転置を意味する。
パターン1の場合に、第1類似度はベクトルとベクトルの内積をベクトルの大きさで規格化した値、即ちベクトル同士のなす角度の余弦として算出され、第1類似度をSとした場合に以下の式(4)によって求められる。
(Pattern 1)
First, as shown in FIG. 4A, a case where the vector extracted by the subspace creating unit 3 is represented as a vector “x 1 ” and the subspace is represented as a vector “y 1 ” will be described. Here, x 1 and y 1 are represented by transposition of d-dimensional vectors. That is, x 1 = {x 11 , x 12 ,..., X 1d } T , y 1 = {y 11 , y 12 ,..., Y 1d } T T means transposition.
In the case of pattern 1, the first similarity is calculated as a value obtained by normalizing the inner product of the vectors with the vector size, that is, as the cosine of the angle formed by the vectors. (4).

Figure 2006252259
Figure 2006252259

(パターン2)
次に、図4(b)に示すように、部分空間作成部3によって抽出されたベクトルがベクトル「x」として表され、部分空間が複数のベクトルによって構成される空間「y,y,y」として表される場合について説明する。ここで、x及びy,y,yはそれぞれd次元ベクトルの転置として表される。即ち、x={x11,x12,…,x1d、y={y11,y12,…,y1d、y={y21,y22,…,y2d、y={y31,y32,…,y3dとして表現される。なお、Tは転置を意味する。
パターン2の場合に、第1類似度Sは、以下の式(5)によって求められる。
(Pattern 2)
Next, as illustrated in FIG. 4B, the vector extracted by the subspace creation unit 3 is represented as a vector “x 1 ”, and the space “y 1 , y 2 , where the subspace is configured by a plurality of vectors. , Y 3 ”will be described. Here, x 1 and y 1 , y 2 , y 3 are each represented as a transpose of a d-dimensional vector. That, x 1 = {x 11, x 12, ..., x 1d} T, y 1 = {y 11, y 12, ..., y 1d} T, y 2 = {y 21, y 22, ..., y 2d } T , y 3 = {y 31 , y 32 ,..., Y 3d } T. T means transposition.
In the case of pattern 2, the first similarity S is obtained by the following equation (5).

Figure 2006252259
Figure 2006252259

なお、部分空間がベクトルである場合には、式(5)の値は、式(4)と同じ値となる。   When the subspace is a vector, the value of Expression (5) is the same value as Expression (4).

(パターン3)
次に、図4(c)に示すように、部分空間作成部3によって抽出されたベクトルが空間「x,x」として表され、部分空間が空間「y,y,y」として表される場合について説明する。ここで、x,x及びy,y,yは図4(b)と同じくd次元ベクトルの転置として表される。即ち、x={x11,x12,…,x1d、x={x21,x22,…,x2d、y={y11,y12,…,y1d、y={y21,y22,…,y2d、y={y31,y32,…,y3dとして表現される。なお、Tは転置を意味する。
パターン3の場合に、第1類似度Sは、X=[x,x]、Y=[y,y,y]としたときに、以下の式(6)の最大固有値μmaxとして算出される。
(Pattern 3)
Next, as shown in FIG. 4C, the vector extracted by the subspace creation unit 3 is represented as a space “x 1 , x 2 ”, and the subspace is a space “y 1 , y 2 , y 3 ”. Will be described. Here, x 1 , x 2 and y 1 , y 2 , y 3 are represented as transpositions of d-dimensional vectors as in FIG. That, x 1 = {x 11, x 12, ..., x 1d} T, x 2 = {x 21, x 22, ..., x 2d} T, y 1 = {y 11, y 12, ..., y 1d } T , y 2 = {y 21 , y 22 ,..., Y 2d } T , y 3 = {y 31 , y 32 ,..., Y 3d } T T means transposition.
In the case of pattern 3, when the first similarity S is X = [x 1 , x 2 ] and Y = [y 1 , y 2 , y 3 ], the maximum eigenvalue μ of the following equation (6) Calculated as max .

Figure 2006252259
Figure 2006252259

なお、式(6)の最大固有値μmaxは、Xがベクトルであり、かつYがベクトルの場合には、式(4)によって算出される値と同じ値になり、Xがベクトルであり、かつYが空間の場合には、式(5)によって算出される値と同じ値になる。 Note that the maximum eigenvalue μ max of Equation (6) is the same value as that calculated by Equation (4) when X is a vector and Y is a vector, X is a vector, and When Y is a space, the value is the same as the value calculated by equation (5).

ここで、図5を参照して、上述した図1の部分空間作成部3及び類似度算出部4における処理の流れについて説明する。図5に示す例では、X年度の入力を最新のデータとした場合に、第1の部分空間作成部31によってその3年前までの過去のデータ(X−1〜X−3年度のデータ)から部分空間が作成されることとしている。例えばX=2004とした場合、第1の部分空間作成部31は、2003年度〜2001年度までのデータをデータ記憶部2から取り出す処理を行う(ステップS11)。次に第2の部分空間作成部32が、2004年度のデータをデータ記憶部2から取り出す処理を行う(ステップS12)。   Here, with reference to FIG. 5, the flow of processing in the partial space creation unit 3 and the similarity calculation unit 4 of FIG. 1 described above will be described. In the example shown in FIG. 5, when the input for year X is the latest data, the first partial space creation unit 31 causes past data up to three years ago (data for years X-1 to X-3). A subspace is to be created from. For example, when X = 2004, the first partial space creation unit 31 performs a process of retrieving data from the fiscal year 2003 to the fiscal year 2001 from the data storage unit 2 (step S11). Next, the second partial space creation unit 32 performs a process of retrieving data for fiscal 2004 from the data storage unit 2 (step S12).

次に第1の部分空間作成部31が過去のデータとして第1の部分空間を表すデータを作成し、モデル記憶部5に記憶する(ステップS13)。また第2の部分空間作成部32が今年のデータとして第2の部分空間を表すデータを作成し、モデル記憶部5に記憶する(ステップS14)。この場合、第1の部分空間は、X−1年度、X−2年度、及びX−3年度の各指標のデータに基づいて算出された部分空間となり、第2の部分空間は、X年度の各指標のデータに対応するベクトルとなる。   Next, the first partial space creation unit 31 creates data representing the first partial space as past data, and stores the data in the model storage unit 5 (step S13). In addition, the second partial space creation unit 32 creates data representing the second partial space as the data for the current year and stores it in the model storage unit 5 (step S14). In this case, the first subspace is a subspace calculated based on the data of each index of the year X-1, the year X-2, and the year X-3, and the second subspace is the year X. A vector corresponding to the data of each index.

部分空間作成部3によって部分空間が作成されると、次に類似度算出部4がモデル記憶部5に記憶されている部分空間データに基づいて上述したようにして部分空間どうしの類似度を算出する。そして、類似度算出部4によって全部で2N個の部分空間の比較が行われ類似度が算出される(ステップS15)。類似度算出部4によって算出された類似度は、2N×2Nの類似度行列として類似度記憶部6に記憶される。このとき2N×2Nの類似度行列は、最初のN個の行はX年度のサンプルに対する項目として、残りのN個の行はX−1〜X−3年度のサンプルに対する項目として並べられ、列も同様に、最初のN個の列はX年度のサンプルに対する項目として、残りのN個の列はX−1〜X−3年度のサンプルに対する項目として並べられる。   When the partial space is created by the partial space creation unit 3, the similarity calculation unit 4 calculates the similarity between the partial spaces based on the partial space data stored in the model storage unit 5 as described above. To do. Then, the similarity calculation unit 4 compares 2N subspaces in total and calculates the similarity (step S15). The similarity calculated by the similarity calculation unit 4 is stored in the similarity storage unit 6 as a 2N × 2N similarity matrix. At this time, in the 2N × 2N similarity matrix, the first N rows are arranged as items for the sample of the year X, and the remaining N rows are arranged as items for the sample of the years X-1 to X-3. Similarly, the first N columns are arranged as items for the year X sample, and the remaining N columns are arranged as items for the samples X-1 to X-3.

次に、図1の座標値算出部7及び結果出力部8の構成及び処理内容について説明する。図1に示す構成例では、座標値算出部7は、類似度記憶部6に記憶されている各サンプル間の第1及び第2の部分空間の類似度に基づいて一定期間及び所定時点における各サンプルに対応する各二次元座標値を算出する。そして、算出された各座標値が結果出力部8によって、所定の表示出力装置あるいは他の記憶あるいは印刷媒体に対して出力される。   Next, the configuration and processing contents of the coordinate value calculation unit 7 and the result output unit 8 of FIG. 1 will be described. In the configuration example shown in FIG. 1, the coordinate value calculation unit 7 is configured so that each of the samples in a predetermined period and a predetermined time point is based on the similarity between the first and second subspaces between the samples stored in the similarity storage unit 6. Each two-dimensional coordinate value corresponding to the sample is calculated. The calculated coordinate values are output by the result output unit 8 to a predetermined display output device or other storage or print medium.

ここで図6を参照して座標値算出部7及び結果出力部8の処理内容について説明する。座標値算出部7は、サンプル間の類似度行列を入力としてMDS(Multi Dimensional Searching;多次元尺度法)によって各サンプル間の相対構造を表す各サンプルに対応する各二次元座標値を算出する(ステップS21)。ここでMDSは、対象間の類似性あるいは非類似性の測度を手がかりに、その背後にある相対構造を“分かりやすい形”で表現する方法である。“分かりやすい形”とは、具体的には、図7に示すように、行列形式で複数のサンプル間の類似度が示されていた場合に、各サンプルを2次元平面上にマッピングして示すことである(図8、図9参照)。   Here, processing contents of the coordinate value calculation unit 7 and the result output unit 8 will be described with reference to FIG. The coordinate value calculation unit 7 receives each similarity matrix between samples and calculates each two-dimensional coordinate value corresponding to each sample representing a relative structure between the samples by MDS (Multi Dimensional Searching) (multidimensional scaling). Step S21). Here, MDS is a method of expressing the relative structure behind the object in an “intelligible form” using a measure of similarity or dissimilarity between objects. Specifically, the “intelligible form” is shown by mapping each sample on a two-dimensional plane when the similarity between a plurality of samples is shown in a matrix format as shown in FIG. (See FIGS. 8 and 9).

図7は、類似度行列が3個のサンプルA〜C間の類似度(あるいは非類似度)を表す3×3の行列の場合を示した例である。類似度は0〜1の値を取り、1に近いほど類似していることを示す。例えばサンプルAとサンプルBの類似度(類似性)は0.2であり、サンプルAとサンプルCの間の類似性は0.6である。このような行列形式では、さらにサンプル数が増加した場合、サンプル間の相対構造(相対関係)を把握することが困難になると考えられる。そこでまず、類似度行列を各サンプルの座標に置き換え(図8)、その座標値に従って各サンプルを示す識別子を座標表示しているのである(図9)。   FIG. 7 is an example showing a case where the similarity matrix is a 3 × 3 matrix representing the similarity (or dissimilarity) between the three samples A to C. The degree of similarity takes a value of 0 to 1, and the closer to 1, the more similar. For example, the similarity (similarity) between sample A and sample B is 0.2, and the similarity between sample A and sample C is 0.6. In such a matrix format, it is considered that it is difficult to grasp the relative structure (relative relationship) between samples when the number of samples further increases. Therefore, first, the similarity matrix is replaced with the coordinates of each sample (FIG. 8), and identifiers indicating the samples are displayed in coordinates according to the coordinate values (FIG. 9).

類似度行列を座標データへの変換は例えば次のようにして行うことができる。ここで、入力された類似度行列は、図7に示すもの、すなわち式(7)に示すものであるとする。   The conversion of the similarity matrix into coordinate data can be performed as follows, for example. Here, it is assumed that the input similarity matrix is the one shown in FIG. 7, that is, the equation (7).

Figure 2006252259
Figure 2006252259

まずこれを非類似度行列にするために全ての要素が1の行列からの減算処理を行う。これが各データ間の非類似度(類似度)を表す行列Dとなる(式(8)〜(9))。   First, in order to make this a dissimilarity matrix, subtraction processing is performed from a matrix in which all elements are 1. This is the matrix D representing the dissimilarity (similarity) between the data (formulas (8) to (9)).

Figure 2006252259
Figure 2006252259

Figure 2006252259
Figure 2006252259

次に各要素(距離)の二乗を要素とする行列D(2)(式(10))を求める。 Next, a matrix D (2) (formula (10)) having the square of each element (distance) as an element is obtained.

Figure 2006252259
Figure 2006252259

次にD(2)の各要素d2 jiに対して下式(11)の変換を行い、変換して得られるpijを要素とする行列Pを生成する。式(11)において、添え字i*が付いているものは第i行の平均、同じく*jは第j行の平均、そして**は全平均を示している。 Next, the transformation of the following expression (11) is performed on each element d 2 ji of D (2) , and a matrix P having p ij obtained by the transformation as an element is generated. In the formula (11), those with the suffix i * indicate the average of the i-th row, similarly * j indicates the average of the j-th row, and ** indicates the total average.

Figure 2006252259
Figure 2006252259

そして、行列Pから固有値ベクトルλとゼロでない固有値に対する固有ベクトルStを算出する。そしてゼロでない固有値を対角要素とする対角行列をDλt l/2とすると、Xt*=StDλt l/2を満たすXt*を求めると下式(12)の結果が得られる。 Then, the eigenvector St for the eigenvalue vector λ and the nonzero eigenvalue is calculated from the matrix P. When the diagonal matrix of the eigenvalues nonzero diagonal elements and D λt l / 2, X t * = StD λt l / 2 satisfy X t * the obtaining the following formula (12) results.

Figure 2006252259
Figure 2006252259

以上のような処理によって図7の行列を図8の2次元座標値を配列に変換することができる。なお、各年度のサンプルがN個の場合に算出される2N×2N類似度行列にMDSを行うと、2N個の第1座標と第2座標が算出され、2Nの最初のN個はX年度に対する第1座標と第2座標となり、後のN個はX−1〜X−3年度に対応する第1座標と第2座標となって算出される。   Through the processing as described above, the matrix of FIG. 7 can be converted into the array of the two-dimensional coordinate values of FIG. When MDS is performed on the 2N × 2N similarity matrix calculated when there are N samples for each year, 2N first and second coordinates are calculated, and the first N of 2N is the X year. The first and second coordinates are calculated, and the subsequent N are calculated as the first and second coordinates corresponding to the years X-1 to X-3.

次に、図6では、ステップS22で、求めた座標を元に2次元座標平面上に各座標がプロットされる。その際、各座標値に対応してサンプルを示す識別子(座標点を示す○や□の記号と「サンプルA(例えば会社名)」といった文字)が2次元座標上に配置される。図6の例では、過去3年間(X−1〜X−3年度)に対応するデータと今年のデータ(X年度)とが異なる記号(や色)で区別して表示されている。   Next, in FIG. 6, in step S22, each coordinate is plotted on the two-dimensional coordinate plane based on the obtained coordinate. At this time, an identifier indicating a sample (a symbol such as ◯ or □ indicating a coordinate point and a character such as “sample A (for example, company name)) corresponding to each coordinate value is arranged on the two-dimensional coordinates. In the example of FIG. 6, data corresponding to the past three years (years X-1 to X-3) and this year's data (year X) are displayed separately with different symbols (or colors).

次にステップS23で同じサンプルに古い年度から新しい年度に向けて矢印が表示される。すなわち図1の座標値算出部7が求めた過去3年間の各座標値から今年のデータの各座標値に向けて矢印がサンプル毎に配置され、表示される。そして、矢印のつけられたマップが出力される。   In step S23, an arrow is displayed on the same sample from the old year to the new year. That is, an arrow is arranged and displayed for each sample from each coordinate value of the past three years obtained by the coordinate value calculation unit 7 of FIG. 1 to each coordinate value of this year's data. A map with an arrow is output.

図10に、図1の結果出力部8による出力例を示した。この例は、ある業界におけるA、B、C、D、及びE社の過去数年間と、今年の財務データから得られた座標値を同一座標平面上に表示し、さらに矢印で変化の方向と大きさを示すものである。また、各年度毎に各サンプルのデータの平均値を求めたものを平均的な企業として(1つのサンプルとして)データを追加して、その座標値の変化(「業界平均」と表記)も示している。この例では、A社とE社が同一業界の他社との関係において大きな変化が生じていることが分かる。この場合、財務データの変化が業界全体の傾向からはずれていることが示されたことになる。   FIG. 10 shows an output example by the result output unit 8 of FIG. In this example, A, B, C, D, and E companies in a certain industry display the coordinate values obtained from the financial data of this year and this year on the same coordinate plane, and the direction of the change is indicated by an arrow. It shows the size. Also, the average value of the data of each sample for each fiscal year is added as an average company (as one sample), and the change in the coordinate value (indicated as “industry average”) is also shown. ing. In this example, it can be seen that Company A and Company E have undergone significant changes in the relationship with other companies in the same industry. In this case, it has been shown that changes in financial data deviate from industry-wide trends.

本実施の形態の処理手順をまとめると次のようになる。なお、サンプル数はNであるとする。   The processing procedure of this embodiment is summarized as follows. It is assumed that the number of samples is N.

1.過去(複数年)のデータを用いて部分空間を求め、各サンプルの特徴とする。(N個) 1. Subspaces are obtained using past (multiple years) data and are used as features of each sample. (N)

2.今年のデータを用いて部分空間を求め、各サンプルの特徴とする。(N個) 2. Using this year's data, subspaces are obtained and used as features of each sample. (N)

3.過去のデータのサンプル間、今年のデータのサンプル間、過去のデータと今年のデータのサンプル間の類似度を求める。ただし、類似度はサンプルの特徴を表す部分空間どうしのなす角度(正準角)で表現する。(類似度行列は、2N×2N行列となる。) 3. The similarity between the past data samples, the current year data samples, and the past data and current year data samples is obtained. However, the similarity is expressed as an angle (canonical angle) between subspaces representing the characteristics of the sample. (The similarity matrix is a 2N × 2N matrix.)

4.類似度行列を元に、MDSを用いて、サンプルの座標値(過去のサンプルN個、今年のサンプルN個)を求める。 4). Based on the similarity matrix, the coordinate values of the samples (N past samples and N samples this year) are obtained using MDS.

5.座標値を元に、全サンプル(2N個)を2次元上に配置する。 5. All samples (2N) are arranged two-dimensionally based on the coordinate values.

6.理解を容易にするため、過去のサンプルから対応する今年のサンプルへ向けて、矢印を書く。 6). For ease of understanding, draw an arrow from the past sample to the corresponding sample for this year.

そして、本実施の形態は次のような特徴を有している。すなわち、同一のサンプルに対して、過去のサンプルと今年のサンプルを別のサンプルとして扱い、同時にMDSを適用することで、過去のデータと今年のデータの相対関係の変化の把握が容易になった。また、過去のサンプルから、対応する今年のサンプルへ向けて矢印を書くことで、相対関係の変化の把握が容易になった。さらに、既存の手法のように、計算式をあらかじめ作成(更新)する必要がない。   The present embodiment has the following characteristics. In other words, for the same sample, the past sample and this year's sample are treated as different samples, and MDS is applied at the same time, making it easier to grasp the change in the relative relationship between the past data and this year's data. . In addition, by drawing an arrow from the past sample to the corresponding sample for this year, it became easier to grasp the change in the relative relationship. Further, unlike the existing method, it is not necessary to create (update) a calculation formula in advance.

特に、複数の企業を一度に比較することで、特異なサンプルを発見するために用いることが有効である。その際、特異なサンプルを発見するだけでなく、一度に複数のサンプルを比較するため、全体的な傾向も把握可能となり、業界の動向把握など幅広いサービスの提供が可能となる。また、年度をまたいだサンプル間の類似性が把握可能となり、新たな知識発見につながる。さらに分析対象のデータに関する事前の知識を必要とせずに、特異なサンプルの発見が可能となり、作業の効率化が期待できる。   In particular, it is effective to use for finding a unique sample by comparing a plurality of companies at once. At that time, not only a unique sample is found, but also a plurality of samples are compared at a time, so it is possible to grasp the overall trend, and it is possible to provide a wide range of services such as grasping industry trends. In addition, the similarity between samples across fiscal years can be grasped, leading to new knowledge discovery. Furthermore, it is possible to find a specific sample without requiring prior knowledge about the data to be analyzed, and work efficiency can be expected.

なお、上記の構成は一例であり、例えば過去のデータを3年に限られず、変更可能である。また、本実施形態の分析装置10は、例えば同様のシステムが複数存在するなど複数のサンプルを比較対象とできる場合には、例えば、ネットワークのトラヒックのログデータからのネットワーク侵入検出や、各センサから取得される人工衛星テレメトリックデータに基づく人工衛星などの宇宙システムの異常検知に利用可能である。また、カード決済時のトランザクションデータに基づくクレジットカード不正利用検出や、携帯電話のなりすまし利用行為の検出や、保険金請求データやレセプトからの例外事象や不審データの検出などにも利用することが可能である。   In addition, said structure is an example, For example, the past data is not restricted to 3 years, It can change. In addition, when the analysis apparatus 10 according to the present embodiment can compare a plurality of samples, for example, when there are a plurality of similar systems, for example, network intrusion detection from network traffic log data, or from each sensor It can be used to detect anomalies in space systems such as artificial satellites based on acquired satellite telemetric data. It can also be used to detect fraudulent use of credit cards based on transaction data at the time of card settlement, to detect fraudulent use of mobile phones, to detect insurance claims data, exceptions from suspicious data, and suspicious data. It is.

上述の分析装置10は内部に、コンピュータシステムを有している。そして、上述した異常値検出及び変化点検出や分析処理は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。   The analysis apparatus 10 described above has a computer system inside. The above-described abnormal value detection, change point detection, and analysis processing are stored in a computer-readable recording medium in the form of a program, and the above-described processing is performed by the computer reading and executing this program. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

本実施形態による分析装置の内部構成を示したブロック図である。It is the block diagram which showed the internal structure of the analyzer by this embodiment. 同実施形態にデータ入力部1へ入力されるデータの構成を示した図である。It is the figure which showed the structure of the data input into the data input part 1 in the same embodiment. 同実施形態における部分空間作成部によって作成される部分空間を説明するための図である。It is a figure for demonstrating the partial space created by the partial space creation part in the embodiment. 同実施形態における類似度算出の手法を説明するための図である。It is a figure for demonstrating the method of similarity calculation in the embodiment. 同実施形態における部分空間の作成及び類似度算出の処理を示したフローチャートである。It is the flowchart which showed the process of creation of the partial space and similarity calculation in the embodiment. 同実施形態における座標値算出の処理を示したフローチャートである。It is the flowchart which showed the process of the coordinate value calculation in the same embodiment. 同実施形態における座標値算出の処理を説明するための入力データを示した図である。It is the figure which showed the input data for demonstrating the process of coordinate value calculation in the embodiment. 同実施形態における座標値算出の処理を説明するための算出結果を示した図である。It is the figure which showed the calculation result for demonstrating the process of coordinate value calculation in the embodiment. 同実施形態における座標値算出の処理を説明するための算出結果の図示例を示した図である。It is the figure which showed the example of illustration of the calculation result for demonstrating the process of coordinate value calculation in the embodiment. 同実施形態における出力結果の一例を示した図である。It is the figure which showed an example of the output result in the same embodiment. 従来の技術を説明するための図である。It is a figure for demonstrating the prior art. 従来の技術における手法(1)を説明するための図(その1)である。It is FIG. (1) for demonstrating the method (1) in a prior art. 従来の技術における手法(2)を説明するための図である。It is a figure for demonstrating the method (2) in a prior art. 従来の技術における手法(3)を説明するための図である。It is a figure for demonstrating the method (3) in a prior art. 従来の技術における手法(4)を説明するための図である。It is a figure for demonstrating the method (4) in a prior art.

符号の説明Explanation of symbols

1 データ入力部
2 データ記憶部
3 部分空間作成部
31 第1の部分空間作成部
32 第2の部分空間作成部
4 類似度算出部
5 モデル記憶部
6 類似度記憶部
7 座標値算出部
10 分析装置
DESCRIPTION OF SYMBOLS 1 Data input part 2 Data storage part 3 Subspace creation part 31 1st partial space creation part 32 2nd partial space creation part 4 Similarity calculation part 5 Model storage part 6 Similarity degree storage part 7 Coordinate value calculation part 10 Analysis apparatus

Claims (5)

一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成手段と、
前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成手段と、
第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出手段と、
求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出手段と、
座標値算出手段が求めた各座標値を出力する出力手段と
を備えることを特徴とするデータ分析装置。
First partial space creating means for creating a first partial space using each data of a plurality of samples in a certain period;
Second partial space creating means for creating a second partial space using each data of a plurality of samples at a predetermined time after the predetermined period;
Similarity calculation means for calculating the similarity between the samples using the first partial space and the second partial space;
Coordinate value calculating means for obtaining each two-dimensional coordinate value corresponding to each of a plurality of samples in the predetermined period and each two-dimensional coordinate value corresponding to each of the plurality of samples at the predetermined time point using the obtained similarity,
An output unit that outputs each coordinate value obtained by the coordinate value calculation unit.
前記座標値算出手段が、類似度を表す配列に対して多次元尺度法を適用して座標値を表す配列を算出するものであることを特徴とする請求項1記載のデータ分析装置。   The data analysis apparatus according to claim 1, wherein the coordinate value calculation means calculates an array representing coordinate values by applying a multidimensional scaling method to the array representing similarity. 前記出力手段が、前記座標値算出手段が求めた各座標値に対応してサンプルを示す識別子を2次元座標上に配置して表示するものであることを特徴とする請求項1又は2に記載のデータ分析装置。   The said output means arrange | positions and displays the identifier which shows a sample corresponding to each coordinate value which the said coordinate value calculation means calculated | required on a two-dimensional coordinate, The display of Claim 1 or 2 characterized by the above-mentioned. Data analysis equipment. 前記出力手段が、前記座標値算出手段が求めた前記一定期間における各座標値から前記所定の時点における各座標値に向けて配置された矢印を表示するものであることを特徴とする請求項1〜3のいずれか1項に記載のデータ分析装置。   2. The output means displays arrows arranged from the respective coordinate values obtained by the coordinate value calculating means in the predetermined period toward the respective coordinate values at the predetermined time point. The data analyzer of any one of -3. 一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成過程と、
前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成過程と、
第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出過程と、
求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出過程と、
座標値算出過程で求めた各座標値を出力する出力過程と
を含んでいることを特徴とするデータ分析方法。
A first subspace creation process for creating a first subspace using each data of a plurality of samples in a certain period;
A second subspace creation step of creating a second subspace using each data of a plurality of samples at a predetermined time after the predetermined period;
A similarity calculation process for obtaining a similarity between samples using the first subspace and the second subspace;
A coordinate value calculation process for obtaining each two-dimensional coordinate value corresponding to each of a plurality of samples in the predetermined period and each two-dimensional coordinate value corresponding to each of the plurality of samples at the predetermined time point using the obtained similarity;
An output process for outputting each coordinate value obtained in the coordinate value calculation process.
JP2005068885A 2005-03-11 2005-03-11 Data analysis apparatus and method Active JP4394020B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005068885A JP4394020B2 (en) 2005-03-11 2005-03-11 Data analysis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005068885A JP4394020B2 (en) 2005-03-11 2005-03-11 Data analysis apparatus and method

Publications (3)

Publication Number Publication Date
JP2006252259A true JP2006252259A (en) 2006-09-21
JP2006252259A5 JP2006252259A5 (en) 2009-10-22
JP4394020B2 JP4394020B2 (en) 2010-01-06

Family

ID=37092682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005068885A Active JP4394020B2 (en) 2005-03-11 2005-03-11 Data analysis apparatus and method

Country Status (1)

Country Link
JP (1) JP4394020B2 (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287424A (en) * 2007-05-16 2008-11-27 Ntt Data Corp Index extraction device, index extraction method, and computer program for it
JP2008287328A (en) * 2007-05-15 2008-11-27 Ntt Data Corp Evaluation device, method, and computer program
JP2009026241A (en) * 2007-07-23 2009-02-05 Ntt Data Corp Evaluation device, method, and computer program therefor
WO2010041355A1 (en) * 2008-10-09 2010-04-15 株式会社日立製作所 Error detection method and system
JP2010231779A (en) * 2009-03-05 2010-10-14 Csk Holdings Corp Benchmark evaluation system and program
JP2011247696A (en) * 2010-05-25 2011-12-08 Jfe Steel Corp Automatic pattern extraction method and automatic pattern extraction system
WO2012037246A2 (en) * 2010-09-14 2012-03-22 Visa U.S.A. Inc. Systems and methods to segment customers
JP2012230703A (en) * 2012-07-19 2012-11-22 Hitachi Ltd Abnormality detection method and system
JP6345856B1 (en) * 2017-09-29 2018-06-20 新日本有限責任監査法人 Financial analysis apparatus, financial analysis method, and financial analysis program
CN110472660A (en) * 2019-07-09 2019-11-19 深圳壹账通智能科技有限公司 Abnormal deviation data examination method, device, computer equipment and storage medium
JP7146218B1 (en) 2021-12-24 2022-10-04 国立大学法人一橋大学 Information processing device, information processing method and program
JP7360118B1 (en) 2023-07-04 2023-10-12 ゼネリックソリューション株式会社 Examination support device, examination support method, and examination support program
JP7386465B1 (en) 2023-07-04 2023-11-27 ゼネリックソリューション株式会社 Examination support device, examination support method, and examination support program
JP7462253B1 (en) 2023-07-25 2024-04-05 ゼネリックソリューション株式会社 Examination work support device, examination work support method, and examination work support program

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287328A (en) * 2007-05-15 2008-11-27 Ntt Data Corp Evaluation device, method, and computer program
JP4519880B2 (en) * 2007-05-16 2010-08-04 株式会社エヌ・ティ・ティ・データ Index extracting apparatus, index extracting method and computer program therefor
JP2008287424A (en) * 2007-05-16 2008-11-27 Ntt Data Corp Index extraction device, index extraction method, and computer program for it
JP2009026241A (en) * 2007-07-23 2009-02-05 Ntt Data Corp Evaluation device, method, and computer program therefor
KR101316486B1 (en) * 2008-10-09 2013-10-08 가부시키가이샤 히타치세이사쿠쇼 Error detection method and system
WO2010041355A1 (en) * 2008-10-09 2010-04-15 株式会社日立製作所 Error detection method and system
CN102112933A (en) * 2008-10-09 2011-06-29 株式会社日立制作所 Error detection method and system
CN102112933B (en) * 2008-10-09 2014-06-18 株式会社日立制作所 Error detection method and system
US8630962B2 (en) 2008-10-09 2014-01-14 Hitachi, Ltd. Error detection method and its system for early detection of errors in a planar or facilities
JP2010231779A (en) * 2009-03-05 2010-10-14 Csk Holdings Corp Benchmark evaluation system and program
JP4623605B2 (en) * 2009-03-05 2011-02-02 株式会社Csk Benchmark evaluation system and program
JP2011247696A (en) * 2010-05-25 2011-12-08 Jfe Steel Corp Automatic pattern extraction method and automatic pattern extraction system
WO2012037246A3 (en) * 2010-09-14 2012-06-14 Visa U.S.A. Inc. Systems and methods to segment customers
WO2012037246A2 (en) * 2010-09-14 2012-03-22 Visa U.S.A. Inc. Systems and methods to segment customers
JP2012230703A (en) * 2012-07-19 2012-11-22 Hitachi Ltd Abnormality detection method and system
JP6345856B1 (en) * 2017-09-29 2018-06-20 新日本有限責任監査法人 Financial analysis apparatus, financial analysis method, and financial analysis program
JP2019067086A (en) * 2017-09-29 2019-04-25 新日本有限責任監査法人 Financial analysis device, financial analysis method, and financial analysis program
CN110472660A (en) * 2019-07-09 2019-11-19 深圳壹账通智能科技有限公司 Abnormal deviation data examination method, device, computer equipment and storage medium
JP7146218B1 (en) 2021-12-24 2022-10-04 国立大学法人一橋大学 Information processing device, information processing method and program
JP2023095063A (en) * 2021-12-24 2023-07-06 国立大学法人一橋大学 Information processing device, information processing method and program
JP7360118B1 (en) 2023-07-04 2023-10-12 ゼネリックソリューション株式会社 Examination support device, examination support method, and examination support program
JP7386465B1 (en) 2023-07-04 2023-11-27 ゼネリックソリューション株式会社 Examination support device, examination support method, and examination support program
JP7462253B1 (en) 2023-07-25 2024-04-05 ゼネリックソリューション株式会社 Examination work support device, examination work support method, and examination work support program

Also Published As

Publication number Publication date
JP4394020B2 (en) 2010-01-06

Similar Documents

Publication Publication Date Title
JP4394020B2 (en) Data analysis apparatus and method
CN109302410B (en) Method and system for detecting abnormal behavior of internal user and computer storage medium
Hosny et al. Copy-move forgery detection of duplicated objects using accurate PCET moments and morphological operators
Al-Qershi et al. Evaluation of copy-move forgery detection: datasets and evaluation metrics
CN108682007B (en) JPEG image resampling automatic detection method based on depth random forest
Shojae Chaeikar et al. PSW statistical LSB image steganalysis
Zhu et al. Blind image splicing detection via noise level function
CN110618854B (en) Virtual machine behavior analysis system based on deep learning and memory mirror image analysis
CN108875727B (en) The detection method and device of graph-text identification, storage medium, processor
CN112632609B (en) Abnormality detection method, abnormality detection device, electronic device, and storage medium
CN111369003A (en) Method and device for determining fidelity of quantum bit reading signal
Srinivasa Rao et al. Image authentication using Local Binary Pattern on the Low frequency components
Park et al. Rotation and scale invariant upsampled log-polar fourier descriptor for copy-move forgery detection
Zhang et al. Exposing unseen GAN-generated image using unsupervised domain adaptation
CN116366313A (en) Small sample abnormal flow detection method and system
Qin et al. HTD-VIT: Spectral-spatial joint hyperspectral target detection with vision transformer
CN104899551B (en) A kind of form image sorting technique
Das et al. Image splicing detection with principal component analysis generated low-dimensional homogeneous feature set based on local binary pattern and support vector machine
Nandanwar et al. Forged text detection in video, scene, and document images
CN111291712B (en) Forest fire recognition method and device based on interpolation CN and capsule network
Newell et al. Automated texture recognition of quartz sand grains for forensic applications
Tian et al. A method to compute the n-dimensional solid spectral angle between vectors and its use for band selection in hyperspectral data
Sharma et al. Towards secured image steganography based on content-adaptive adversarial perturbation
CN115567224A (en) Method for detecting abnormal transaction of block chain and related product
Hashim et al. Identify the Presence of Hidden Information Based on Lower Coefficients Value of 2DHWT Sub-bands

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091014

R150 Certificate of patent or registration of utility model

Ref document number: 4394020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350