JP2006252259A - データ分析装置及び方法 - Google Patents

データ分析装置及び方法 Download PDF

Info

Publication number
JP2006252259A
JP2006252259A JP2005068885A JP2005068885A JP2006252259A JP 2006252259 A JP2006252259 A JP 2006252259A JP 2005068885 A JP2005068885 A JP 2005068885A JP 2005068885 A JP2005068885 A JP 2005068885A JP 2006252259 A JP2006252259 A JP 2006252259A
Authority
JP
Japan
Prior art keywords
data
samples
coordinate value
similarity
partial space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005068885A
Other languages
English (en)
Other versions
JP2006252259A5 (ja
JP4394020B2 (ja
Inventor
修平 ▲桑▼田
Shuhei Kuwata
Masatoshi Nishimura
正寿 西村
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2005068885A priority Critical patent/JP4394020B2/ja
Publication of JP2006252259A publication Critical patent/JP2006252259A/ja
Publication of JP2006252259A5 publication Critical patent/JP2006252259A5/ja
Application granted granted Critical
Publication of JP4394020B2 publication Critical patent/JP4394020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】複数の企業の財務データを比較することで、粉飾決算等の結果として得られるデータを異常値として把握することができるようにするためデータ分析装置を提供する。
【解決手段】一定期間の過去の複数サンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成部31と、現時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成部32と、各部分空間の類似度を求める類似度算出部4と、各サンプル間の第1及び第2の部分空間の類似度に基づいて各サンプルに対応する一定期間及び現時点における各二次元座標値を求める座標値算出部7と、求めた各座標値を出力する結果出力部8とを備えている。
【選択図】 図1

Description

本発明は、サンプルを表すデータ中に含まれる異常値を検知する際に用いて好適なデータ分析装置及び方法に関する。
例えば、クレジットカードの利用によって発生するトランザクションデータや、ネットワークトラヒックのログデータ等は、時々刻々と変化する大量の時系列データとなる。正常に処理が行われている間は、これらの時系列データにおいて、過去の傾向と現在の傾向を比較しても大きな違いは見られない。
しかし、クレジットカードの不正利用や、ネットワーク侵入が行われた場合には、時系列データに過去とは異なる傾向が発生することが知られている。つまり、時系列データを解析し、そのような異なる傾向を検出することで、不正利用や侵入などによって発生する異常状態を動的に検出することが可能となる。時系列データに発生する異なる傾向とは、図11(a)に示すように正常な傾向からかけ離れた値となる場合や、図11(b)に示すように過去の傾向とは異なる別の傾向に変化する場合があり、前者が発生する箇所は、当該時系列データにおける「異常値」と呼ばれており、後者が発生する箇所は、当該時系列データにおける「変化点」と呼ばれている。
しかしながら、このような大量のデータから異なる傾向を抽出することは容易ではなく、これまでに様々な検出手法が提案されている。例えば、「異常値検出」を行う手法としては以下の4つが提案されている。
(1)全系列の中で2つの系列の組の相関関係によって検出する手法(特許文献1、非特許文献1参照)。
(2)全系列を発生させる確率モデルを仮定し、過去と現在における確率モデルの違いによって検出する手法(非特許文献2参照)。
(3)主成分分析を用い、主成分の違いによって検出する手法(非特許文献3参照)
(4)過去の系列から学習した予測式に基づいて検出する手法(特許文献2)
また、変化点の検出手法としては上記手法(2)を利用する方法が提案されている(非特許文献2参照)。
以下、この4つの手法について説明する。
[手法(1)]
最初に、手法(1)は、図12に示すように、例えば4つのデータ系列が入力された場合に、4つの系列の中から2つの系列を選択し、選択した2つの系列間における相関関係があるか否かを全ての組み合わせについて調べる。そして、相関のある2組の系列をルールとして記憶しておき、新たに入力されたデータと記憶しているルールとが乖離している場合に異常値として検出する手法である。
[手法(2)]
次に、手法(2)は、図13に示すように、例えば4つのデータ系列が入力された場合に、入力された4つの系列を生成することができる確率モデルを過去の全系列から構成し、構成した確率モデルと、新たに入力されたデータを含めた全系列に基づいて構成した確率モデルとの差分が大きい場合を異常値として検出する手法である。また、手法(2)を利用して、変化点検出を行う場合には、過去の全系列から構成した確率モデルと、新たに入力されたデータを含めて構成した確率モデルとの差分が、過去のデータから得られた平均値に比べて大きく変化した場合を変化点として検出を行う。
なお、手法(2)において異常値の検出は、上述した通り確率モデルの変化によって判定するが、用いる確率モデルとしては、例えば、離散値の場合に適用されるヒストグラム法の確率密度関数や、連続値の場合に適用される混合正規分布がある。
以下に、手法(2)の具体的な異常値及び変化点の検出方法について説明する。最初に異常値の検出はxを系列ベクトル、p(t)(x)をt時点までの全系列から推定した確率モデルとした場合に次の式(1)によって求められるt時点までに得られた全系列に関する平均値が過去に求められた平均値よりも大きいか否かを判定することによって行う。
Figure 2006252259
式(1)において、p(t)(x)は、t時点までの全系列から推定した確率モデルであり、p(t−1)(x)は、t−1時点までの全系列から推定した確率モデルである。
また、手法(2)において変化点の検出は、確率モデルの平均的な変化、即ち次の式(2)のT’期間における確率モデルqが有するShannon情報量の平均値が過去の平均値よりも大きいか否かを判定することによって行う。ここで、qはytから推定される確率モデルである。
Figure 2006252259
式(2)において、yは、上記の系列xの確率モデルpが有するShannonの情報量のT期間における平均値であり、次の式(3)によって求めることができる。
Figure 2006252259
[手法(3)]
次に、手法(3)は、図14に示すように全系列に対して主成分分析を行うことによって求められる第1主成分ベクトルと、新たに入力されたベクトルを構成するデータとの投影距離が過去の投影距離と比べて大きくなったか否かによって異常値を検出する手法である。
[手法(4)]
最後に、手法(4)は、図15に示すように過去と現在の系列データの一部の値から系列データをクラスに分類し、当該クラスに予め対応付けられている予測式から予測値を求め、実際の値との誤差の大きさに基づいて異常値を検出する手法である。
具体的には、最初に、図15の(1)に示すように、系列データのうち破線で囲まれたデータに基づいて該当するクラスに分類する。クラス分類の方法は予め過去のデータに基づいて学習されており、同図のデータはクラス2に分類されている。
次に、図15の(2)に示すようにクラス2の予測式に基づいて時刻4の画素4に対応する予測値を算出する。各クラスに対応付けられている予測式は過去のデータに基づいて求められ、予め設定されている。そして、算出した予測値と実際の画素4、時刻4の値「23」との誤差を算出し、予め設定されている閾値1と閾値2に基づいて、誤差が閾値1を超える回数が閾値2を超えた場合に異常値として判定することができる。
特開平5−256741号公報 特開平7−87481号公報 山西健司、"データ・テキストマイニングの最新動向"、応用数理、2002年 矢入健久 他、"時系列相関ルールマイニングに基づく人工衛星テレメトリデータからの異常検出法"、人工知能学会全国大会、2001年 和泉勇次 他、"異常検知のためのネットワーク特徴量抽出法に関する一考察"、電子情報通信学会総合大会、2004年
しかしながら、上記の手法(1)から(4)では、入力された系列データの系列全体ではなく部分的な系列間の関係にのみ基づいて検出を行っているか、もしくは対象とする系列データに対してある仮定を立て当該仮定に基づいて検出を行っているという問題がある。例えば、手法(1)では、3つ以上の系列の相関関係を一度に対象とできないため、2つの系列の相関関係で挙動を捉えきれない場合には、異常値及び変化点の検出ができないという問題がある。また、手法(2)及び(4)では、確率モデルや予測式を仮定しているため、実際の系列データとの乖離が大きい場合には検出結果が保証されないという問題がある。また、さらに、手法(4)では、主成分分析によって全系列の相関関係を対象とすることができるが、第1主成分のみを対象としているため、入力された系列データの第1主成分の寄与率が小さい場合などには、系列データの相関関係を捉えきれず、異常値及び変化点の検出ができないという問題がある。
ところで、異常値の検出対象となるものとしては、上述したようなクレジットカードの不正利用や、ネットワーク侵入に関するもののほか、例えば、企業の財務データに含まれる粉飾データが考えられる。ここで本願では粉飾データとは、例えば会社が正規の会計処理基準によらず、財務諸表の内容をゆがめたりすることで、利益や損失を過大あるいは過小となるようにするための処理によって得られたデータを意味することとする。粉飾データは、つまり、データの処理を意図的に変更した結果として得られるものである。例えば、正当に処理した場合には異常値となるようなデータが、異常値とならないように処理されることも粉飾処理の一形態となる。このような場合、データの時系列の関係だけでは検知することが困難であると考えられる。これに対しては、例えば分析対象の企業と同一の業界の他の複数の企業のデータを分析することで、異常値の分析がより適切に行えるのではないかということが考えられる。
しかしながら、上述したように、従来の技術においては、例えば一つの企業のデータを分析する場合でも相関関係の挙動の分析が不適切となる場合が考えられる。これを複数の企業のデータの分析に利用するには、より適切な処理や、適切な分析結果の把握または出力もしくは表示方法が提供されることが望ましいことになる。
本発明は、上記の事情を考慮してなされたものであり、例えば、複数の企業の財務データを比較することで、粉飾処理(粉飾決算)等の結果として得られるデータを異常値として把握することができるようにするためのより適切な構成を有するデータ分析装置及び方法を提供することを目的とする。
上記課題を解決するため請求項1記載の発明は、一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成手段と、前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成手段と、第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出手段と、求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出手段と、座標値算出手段が求めた各座標値を出力する出力手段とを備えることを特徴とする。
請求項2記載の発明は、前記座標値算出手段が、類似度を表す配列に対して多次元尺度法を適用して座標値を表す配列を算出するものであることを特徴とする。
請求項3記載の発明は、前記出力手段が、前記座標値算出手段が求めた各座標値に対応してサンプルを示す識別子を2次元座標上に配置して表示するものであることを特徴とする。
請求項4記載の発明は、前記出力手段が、前記座標値算出手段が求めた前記一定期間における各座標値から前記所定の時点における各座標値に向けて配置された矢印を表示するものであることを特徴とする。
請求項5記載の発明は、一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成過程と、前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成過程と、第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出過程と、求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出過程と、座標値算出過程程で求めた各座標値を出力する出力過程とを含んでいることを特徴とする。
本発明によれば、サンプル間の類似度をサンプル毎の部分空間に基づいて求めているので既存の手法のように、計算式をあらかじめ作成(更新)する必要がない。また、同一のサンプルに対して、過去の一定期間(過去1または複数年)のデータとその後の所定時点(例えば今年)のデータを別のものとして扱い、同時に多次元尺度法等を適用することで、過去のデータと今回のデータの相対関係の変化の把握が容易になった。また、過去のサンプルから、対応する所定時点のサンプルへ向けて矢印を書くことで、相対関係の変化の把握が容易になった。
以下、本発明の一実施形態によるデータ分析装置及び方法を図面を参照して説明する。図1は、本実施形態による分析装置10を示す概略ブロック図である。分析装置10において、データ入力部1は、異常値、変化点等を検出する対象となる複数のサンプルの時系列データを入力する。
入力データとしては、種々のトランザクションデータ、ログデータ等が考えられるが、この説明では図2に示すような複数年度の複数企業における財務データを一例として取り上げることとする。図2に示すデータは、複数年度に渡る、サンプル毎の指標1〜5からなる財務データによって構成されている。分析対象となるサンプルは、A社、B社、C社、D社、…といったN社(N個)の企業であり、ここでは各社は同一の業種に属しているものとする。財務データを構成する各指標1〜5は、例えば貸借対照表や損益決算書等における予め設定した所定の項目の数値に対応している。
図1のデータ記憶部2は、データ入力部1によって入力されたデータを逐次記憶する。部分空間作成部3は、データ記憶部2から最新のデータ及び過去一定期間のデータを読み出し、読み出したデータに基づいて構成される部分空間、即ち検出のためのモデルを抽出し、抽出した部分空間の情報をモデル記憶部5に記録する。図2に示す例では、最新のデータは今年のデータすなわち2004年度分のデータである。そして、過去の一定期間のデータは、2003年度以前の例えば3年間前までのデータである。部分空間作成部3は、過去の一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成部31と、一定期間以後の所定の時点における(最新の)複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成部32とから構成されている。
図3は、部分空間作成部3によって構成される部分空間、即ちモデルを説明するための図である。部分空間は、複数時系列点(この例では複数年度)分のデータの特徴を表し、基底ベクトルによって表現される。ここで、部分空間の次元数はデータの特徴によって変わる。図3の例では、入力データが、4個のサンプルA1〜A4であり、各サンプルのデータが5つの指標で表されているものとしている。部分空間の作成の際には、入力データを、5つの指標に対応する5次元の空間(原空間)に配置し、配置された各サンプルの特徴を表すように部分空間を作成する。部分空間は、各サンプルの特徴に応じて3次元の部分空間として作成されたり、全サンプルが1つの平面上に載る場合には2次元の平面として作成されたりする。ただし、本願においては平面であっても部分空間と称することとしている。
図2の例で、第1の部分空間作成部31によって2003〜2001年度の3年分のデータから部分空間を作成するとした場合、各サンプルのデータは5次元空間に配置され、各サンプルごとに部分空間が算出されることになる。ただし、第2の部分空間作成部32によって2004年度の1年分のデータから部分空間を作成した場合には、部分空間はベクトルデータとして表されることになる。
次に、図1の類似度算出部4は、作成された第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を算出して、類似度記憶部6に記憶する。サンプル間の類似度は、サンプル毎の部分空間どうしがなす角度(正準角)によって求めることができる。図4は、類似度算出の手法を説明するための図である。類似度は、部分空間算出部3によって抽出されたベクトルまたは部分空間とに基づいて算出されるが、当該ベクトルと部分空間の要素の違い従って、以下の3つの算出パターンが存在する。
(パターン1)
最初に、図4(a)に示すように、部分空間作成部3によって抽出されたベクトルがベクトル「x」として表され、部分空間がベクトル「y」として表される場合について説明する。ここで、x及びyは、d次元ベクトルの転置によって表される。即ち、x={x11,x12,…,x1d、y={y11,y12,…,y1dとして表現される。なお、Tは転置を意味する。
パターン1の場合に、第1類似度はベクトルとベクトルの内積をベクトルの大きさで規格化した値、即ちベクトル同士のなす角度の余弦として算出され、第1類似度をSとした場合に以下の式(4)によって求められる。
Figure 2006252259
(パターン2)
次に、図4(b)に示すように、部分空間作成部3によって抽出されたベクトルがベクトル「x」として表され、部分空間が複数のベクトルによって構成される空間「y,y,y」として表される場合について説明する。ここで、x及びy,y,yはそれぞれd次元ベクトルの転置として表される。即ち、x={x11,x12,…,x1d、y={y11,y12,…,y1d、y={y21,y22,…,y2d、y={y31,y32,…,y3dとして表現される。なお、Tは転置を意味する。
パターン2の場合に、第1類似度Sは、以下の式(5)によって求められる。
Figure 2006252259
なお、部分空間がベクトルである場合には、式(5)の値は、式(4)と同じ値となる。
(パターン3)
次に、図4(c)に示すように、部分空間作成部3によって抽出されたベクトルが空間「x,x」として表され、部分空間が空間「y,y,y」として表される場合について説明する。ここで、x,x及びy,y,yは図4(b)と同じくd次元ベクトルの転置として表される。即ち、x={x11,x12,…,x1d、x={x21,x22,…,x2d、y={y11,y12,…,y1d、y={y21,y22,…,y2d、y={y31,y32,…,y3dとして表現される。なお、Tは転置を意味する。
パターン3の場合に、第1類似度Sは、X=[x,x]、Y=[y,y,y]としたときに、以下の式(6)の最大固有値μmaxとして算出される。
Figure 2006252259
なお、式(6)の最大固有値μmaxは、Xがベクトルであり、かつYがベクトルの場合には、式(4)によって算出される値と同じ値になり、Xがベクトルであり、かつYが空間の場合には、式(5)によって算出される値と同じ値になる。
ここで、図5を参照して、上述した図1の部分空間作成部3及び類似度算出部4における処理の流れについて説明する。図5に示す例では、X年度の入力を最新のデータとした場合に、第1の部分空間作成部31によってその3年前までの過去のデータ(X−1〜X−3年度のデータ)から部分空間が作成されることとしている。例えばX=2004とした場合、第1の部分空間作成部31は、2003年度〜2001年度までのデータをデータ記憶部2から取り出す処理を行う(ステップS11)。次に第2の部分空間作成部32が、2004年度のデータをデータ記憶部2から取り出す処理を行う(ステップS12)。
次に第1の部分空間作成部31が過去のデータとして第1の部分空間を表すデータを作成し、モデル記憶部5に記憶する(ステップS13)。また第2の部分空間作成部32が今年のデータとして第2の部分空間を表すデータを作成し、モデル記憶部5に記憶する(ステップS14)。この場合、第1の部分空間は、X−1年度、X−2年度、及びX−3年度の各指標のデータに基づいて算出された部分空間となり、第2の部分空間は、X年度の各指標のデータに対応するベクトルとなる。
部分空間作成部3によって部分空間が作成されると、次に類似度算出部4がモデル記憶部5に記憶されている部分空間データに基づいて上述したようにして部分空間どうしの類似度を算出する。そして、類似度算出部4によって全部で2N個の部分空間の比較が行われ類似度が算出される(ステップS15)。類似度算出部4によって算出された類似度は、2N×2Nの類似度行列として類似度記憶部6に記憶される。このとき2N×2Nの類似度行列は、最初のN個の行はX年度のサンプルに対する項目として、残りのN個の行はX−1〜X−3年度のサンプルに対する項目として並べられ、列も同様に、最初のN個の列はX年度のサンプルに対する項目として、残りのN個の列はX−1〜X−3年度のサンプルに対する項目として並べられる。
次に、図1の座標値算出部7及び結果出力部8の構成及び処理内容について説明する。図1に示す構成例では、座標値算出部7は、類似度記憶部6に記憶されている各サンプル間の第1及び第2の部分空間の類似度に基づいて一定期間及び所定時点における各サンプルに対応する各二次元座標値を算出する。そして、算出された各座標値が結果出力部8によって、所定の表示出力装置あるいは他の記憶あるいは印刷媒体に対して出力される。
ここで図6を参照して座標値算出部7及び結果出力部8の処理内容について説明する。座標値算出部7は、サンプル間の類似度行列を入力としてMDS(Multi Dimensional Searching;多次元尺度法)によって各サンプル間の相対構造を表す各サンプルに対応する各二次元座標値を算出する(ステップS21)。ここでMDSは、対象間の類似性あるいは非類似性の測度を手がかりに、その背後にある相対構造を“分かりやすい形”で表現する方法である。“分かりやすい形”とは、具体的には、図7に示すように、行列形式で複数のサンプル間の類似度が示されていた場合に、各サンプルを2次元平面上にマッピングして示すことである(図8、図9参照)。
図7は、類似度行列が3個のサンプルA〜C間の類似度(あるいは非類似度)を表す3×3の行列の場合を示した例である。類似度は0〜1の値を取り、1に近いほど類似していることを示す。例えばサンプルAとサンプルBの類似度(類似性)は0.2であり、サンプルAとサンプルCの間の類似性は0.6である。このような行列形式では、さらにサンプル数が増加した場合、サンプル間の相対構造(相対関係)を把握することが困難になると考えられる。そこでまず、類似度行列を各サンプルの座標に置き換え(図8)、その座標値に従って各サンプルを示す識別子を座標表示しているのである(図9)。
類似度行列を座標データへの変換は例えば次のようにして行うことができる。ここで、入力された類似度行列は、図7に示すもの、すなわち式(7)に示すものであるとする。
Figure 2006252259
まずこれを非類似度行列にするために全ての要素が1の行列からの減算処理を行う。これが各データ間の非類似度(類似度)を表す行列Dとなる(式(8)〜(9))。
Figure 2006252259
Figure 2006252259
次に各要素(距離)の二乗を要素とする行列D(2)(式(10))を求める。
Figure 2006252259
次にD(2)の各要素d2 jiに対して下式(11)の変換を行い、変換して得られるpijを要素とする行列Pを生成する。式(11)において、添え字i*が付いているものは第i行の平均、同じく*jは第j行の平均、そして**は全平均を示している。
Figure 2006252259
そして、行列Pから固有値ベクトルλとゼロでない固有値に対する固有ベクトルStを算出する。そしてゼロでない固有値を対角要素とする対角行列をDλt l/2とすると、Xt*=StDλt l/2を満たすXt*を求めると下式(12)の結果が得られる。
Figure 2006252259
以上のような処理によって図7の行列を図8の2次元座標値を配列に変換することができる。なお、各年度のサンプルがN個の場合に算出される2N×2N類似度行列にMDSを行うと、2N個の第1座標と第2座標が算出され、2Nの最初のN個はX年度に対する第1座標と第2座標となり、後のN個はX−1〜X−3年度に対応する第1座標と第2座標となって算出される。
次に、図6では、ステップS22で、求めた座標を元に2次元座標平面上に各座標がプロットされる。その際、各座標値に対応してサンプルを示す識別子(座標点を示す○や□の記号と「サンプルA(例えば会社名)」といった文字)が2次元座標上に配置される。図6の例では、過去3年間(X−1〜X−3年度)に対応するデータと今年のデータ(X年度)とが異なる記号(や色)で区別して表示されている。
次にステップS23で同じサンプルに古い年度から新しい年度に向けて矢印が表示される。すなわち図1の座標値算出部7が求めた過去3年間の各座標値から今年のデータの各座標値に向けて矢印がサンプル毎に配置され、表示される。そして、矢印のつけられたマップが出力される。
図10に、図1の結果出力部8による出力例を示した。この例は、ある業界におけるA、B、C、D、及びE社の過去数年間と、今年の財務データから得られた座標値を同一座標平面上に表示し、さらに矢印で変化の方向と大きさを示すものである。また、各年度毎に各サンプルのデータの平均値を求めたものを平均的な企業として(1つのサンプルとして)データを追加して、その座標値の変化(「業界平均」と表記)も示している。この例では、A社とE社が同一業界の他社との関係において大きな変化が生じていることが分かる。この場合、財務データの変化が業界全体の傾向からはずれていることが示されたことになる。
本実施の形態の処理手順をまとめると次のようになる。なお、サンプル数はNであるとする。
1.過去(複数年)のデータを用いて部分空間を求め、各サンプルの特徴とする。(N個)
2.今年のデータを用いて部分空間を求め、各サンプルの特徴とする。(N個)
3.過去のデータのサンプル間、今年のデータのサンプル間、過去のデータと今年のデータのサンプル間の類似度を求める。ただし、類似度はサンプルの特徴を表す部分空間どうしのなす角度(正準角)で表現する。(類似度行列は、2N×2N行列となる。)
4.類似度行列を元に、MDSを用いて、サンプルの座標値(過去のサンプルN個、今年のサンプルN個)を求める。
5.座標値を元に、全サンプル(2N個)を2次元上に配置する。
6.理解を容易にするため、過去のサンプルから対応する今年のサンプルへ向けて、矢印を書く。
そして、本実施の形態は次のような特徴を有している。すなわち、同一のサンプルに対して、過去のサンプルと今年のサンプルを別のサンプルとして扱い、同時にMDSを適用することで、過去のデータと今年のデータの相対関係の変化の把握が容易になった。また、過去のサンプルから、対応する今年のサンプルへ向けて矢印を書くことで、相対関係の変化の把握が容易になった。さらに、既存の手法のように、計算式をあらかじめ作成(更新)する必要がない。
特に、複数の企業を一度に比較することで、特異なサンプルを発見するために用いることが有効である。その際、特異なサンプルを発見するだけでなく、一度に複数のサンプルを比較するため、全体的な傾向も把握可能となり、業界の動向把握など幅広いサービスの提供が可能となる。また、年度をまたいだサンプル間の類似性が把握可能となり、新たな知識発見につながる。さらに分析対象のデータに関する事前の知識を必要とせずに、特異なサンプルの発見が可能となり、作業の効率化が期待できる。
なお、上記の構成は一例であり、例えば過去のデータを3年に限られず、変更可能である。また、本実施形態の分析装置10は、例えば同様のシステムが複数存在するなど複数のサンプルを比較対象とできる場合には、例えば、ネットワークのトラヒックのログデータからのネットワーク侵入検出や、各センサから取得される人工衛星テレメトリックデータに基づく人工衛星などの宇宙システムの異常検知に利用可能である。また、カード決済時のトランザクションデータに基づくクレジットカード不正利用検出や、携帯電話のなりすまし利用行為の検出や、保険金請求データやレセプトからの例外事象や不審データの検出などにも利用することが可能である。
上述の分析装置10は内部に、コンピュータシステムを有している。そして、上述した異常値検出及び変化点検出や分析処理は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
本実施形態による分析装置の内部構成を示したブロック図である。 同実施形態にデータ入力部1へ入力されるデータの構成を示した図である。 同実施形態における部分空間作成部によって作成される部分空間を説明するための図である。 同実施形態における類似度算出の手法を説明するための図である。 同実施形態における部分空間の作成及び類似度算出の処理を示したフローチャートである。 同実施形態における座標値算出の処理を示したフローチャートである。 同実施形態における座標値算出の処理を説明するための入力データを示した図である。 同実施形態における座標値算出の処理を説明するための算出結果を示した図である。 同実施形態における座標値算出の処理を説明するための算出結果の図示例を示した図である。 同実施形態における出力結果の一例を示した図である。 従来の技術を説明するための図である。 従来の技術における手法(1)を説明するための図(その1)である。 従来の技術における手法(2)を説明するための図である。 従来の技術における手法(3)を説明するための図である。 従来の技術における手法(4)を説明するための図である。
符号の説明
1 データ入力部
2 データ記憶部
3 部分空間作成部
31 第1の部分空間作成部
32 第2の部分空間作成部
4 類似度算出部
5 モデル記憶部
6 類似度記憶部
7 座標値算出部
10 分析装置

Claims (5)

  1. 一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成手段と、
    前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成手段と、
    第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出手段と、
    求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出手段と、
    座標値算出手段が求めた各座標値を出力する出力手段と
    を備えることを特徴とするデータ分析装置。
  2. 前記座標値算出手段が、類似度を表す配列に対して多次元尺度法を適用して座標値を表す配列を算出するものであることを特徴とする請求項1記載のデータ分析装置。
  3. 前記出力手段が、前記座標値算出手段が求めた各座標値に対応してサンプルを示す識別子を2次元座標上に配置して表示するものであることを特徴とする請求項1又は2に記載のデータ分析装置。
  4. 前記出力手段が、前記座標値算出手段が求めた前記一定期間における各座標値から前記所定の時点における各座標値に向けて配置された矢印を表示するものであることを特徴とする請求項1〜3のいずれか1項に記載のデータ分析装置。
  5. 一定期間における複数のサンプルの各データを用いて第1の部分空間を作成する第1の部分空間作成過程と、
    前記一定期間以後の所定の時点における複数のサンプルの各データを用いて第2の部分空間を作成する第2の部分空間作成過程と、
    第1の部分空間及び第2の部分空間を用いて各サンプル間の類似度を求める類似度算出過程と、
    求めた類似度を用いて前記一定期間における複数の各サンプルに対応する各二次元座標値と前記所定の時点における複数の各サンプルに対応する各二次元座標値を求める座標値算出過程と、
    座標値算出過程で求めた各座標値を出力する出力過程と
    を含んでいることを特徴とするデータ分析方法。
JP2005068885A 2005-03-11 2005-03-11 データ分析装置及び方法 Active JP4394020B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005068885A JP4394020B2 (ja) 2005-03-11 2005-03-11 データ分析装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005068885A JP4394020B2 (ja) 2005-03-11 2005-03-11 データ分析装置及び方法

Publications (3)

Publication Number Publication Date
JP2006252259A true JP2006252259A (ja) 2006-09-21
JP2006252259A5 JP2006252259A5 (ja) 2009-10-22
JP4394020B2 JP4394020B2 (ja) 2010-01-06

Family

ID=37092682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005068885A Active JP4394020B2 (ja) 2005-03-11 2005-03-11 データ分析装置及び方法

Country Status (1)

Country Link
JP (1) JP4394020B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287424A (ja) * 2007-05-16 2008-11-27 Ntt Data Corp 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
JP2008287328A (ja) * 2007-05-15 2008-11-27 Ntt Data Corp 評価装置及び方法ならびにコンピュータプログラム
JP2009026241A (ja) * 2007-07-23 2009-02-05 Ntt Data Corp 評価装置及び方法ならびにそのコンピュータプログラム
WO2010041355A1 (ja) * 2008-10-09 2010-04-15 株式会社日立製作所 異常検知方法及びシステム
JP2010231779A (ja) * 2009-03-05 2010-10-14 Csk Holdings Corp ベンチマーク評価システム及びプログラム
JP2011247696A (ja) * 2010-05-25 2011-12-08 Jfe Steel Corp パターン自動抽出方法およびパターン自動抽出システム
WO2012037246A2 (en) * 2010-09-14 2012-03-22 Visa U.S.A. Inc. Systems and methods to segment customers
JP2012230703A (ja) * 2012-07-19 2012-11-22 Hitachi Ltd 異常検知方法及びシステム
JP6345856B1 (ja) * 2017-09-29 2018-06-20 新日本有限責任監査法人 財務分析装置、財務分析方法及び財務分析プログラム
CN110472660A (zh) * 2019-07-09 2019-11-19 深圳壹账通智能科技有限公司 异常数据检测方法、装置、计算机设备和存储介质
JP7146218B1 (ja) 2021-12-24 2022-10-04 国立大学法人一橋大学 情報処理装置、情報処理方法及びプログラム
JP7360118B1 (ja) 2023-07-04 2023-10-12 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム
JP7386465B1 (ja) 2023-07-04 2023-11-27 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム
JP7462253B1 (ja) 2023-07-25 2024-04-05 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287328A (ja) * 2007-05-15 2008-11-27 Ntt Data Corp 評価装置及び方法ならびにコンピュータプログラム
JP4519880B2 (ja) * 2007-05-16 2010-08-04 株式会社エヌ・ティ・ティ・データ 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
JP2008287424A (ja) * 2007-05-16 2008-11-27 Ntt Data Corp 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
JP2009026241A (ja) * 2007-07-23 2009-02-05 Ntt Data Corp 評価装置及び方法ならびにそのコンピュータプログラム
KR101316486B1 (ko) * 2008-10-09 2013-10-08 가부시키가이샤 히타치세이사쿠쇼 이상 검지 방법 및 시스템
WO2010041355A1 (ja) * 2008-10-09 2010-04-15 株式会社日立製作所 異常検知方法及びシステム
CN102112933A (zh) * 2008-10-09 2011-06-29 株式会社日立制作所 异常检测方法及***
CN102112933B (zh) * 2008-10-09 2014-06-18 株式会社日立制作所 异常检测方法及***
US8630962B2 (en) 2008-10-09 2014-01-14 Hitachi, Ltd. Error detection method and its system for early detection of errors in a planar or facilities
JP2010231779A (ja) * 2009-03-05 2010-10-14 Csk Holdings Corp ベンチマーク評価システム及びプログラム
JP4623605B2 (ja) * 2009-03-05 2011-02-02 株式会社Csk ベンチマーク評価システム及びプログラム
JP2011247696A (ja) * 2010-05-25 2011-12-08 Jfe Steel Corp パターン自動抽出方法およびパターン自動抽出システム
WO2012037246A3 (en) * 2010-09-14 2012-06-14 Visa U.S.A. Inc. Systems and methods to segment customers
WO2012037246A2 (en) * 2010-09-14 2012-03-22 Visa U.S.A. Inc. Systems and methods to segment customers
JP2012230703A (ja) * 2012-07-19 2012-11-22 Hitachi Ltd 異常検知方法及びシステム
JP6345856B1 (ja) * 2017-09-29 2018-06-20 新日本有限責任監査法人 財務分析装置、財務分析方法及び財務分析プログラム
JP2019067086A (ja) * 2017-09-29 2019-04-25 新日本有限責任監査法人 財務分析装置、財務分析方法及び財務分析プログラム
CN110472660A (zh) * 2019-07-09 2019-11-19 深圳壹账通智能科技有限公司 异常数据检测方法、装置、计算机设备和存储介质
JP7146218B1 (ja) 2021-12-24 2022-10-04 国立大学法人一橋大学 情報処理装置、情報処理方法及びプログラム
JP2023095063A (ja) * 2021-12-24 2023-07-06 国立大学法人一橋大学 情報処理装置、情報処理方法及びプログラム
JP7360118B1 (ja) 2023-07-04 2023-10-12 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム
JP7386465B1 (ja) 2023-07-04 2023-11-27 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム
JP7462253B1 (ja) 2023-07-25 2024-04-05 ゼネリックソリューション株式会社 審査業務支援装置、審査業務支援方法及び審査業務支援プログラム

Also Published As

Publication number Publication date
JP4394020B2 (ja) 2010-01-06

Similar Documents

Publication Publication Date Title
JP4394020B2 (ja) データ分析装置及び方法
CN109302410B (zh) 一种内部用户异常行为检测方法、***及计算机存储介质
Hosny et al. Copy-move forgery detection of duplicated objects using accurate PCET moments and morphological operators
Al-Qershi et al. Evaluation of copy-move forgery detection: datasets and evaluation metrics
CN108682007B (zh) 基于深度随机森林的jpeg图像重采样自动检测方法
Shojae Chaeikar et al. PSW statistical LSB image steganalysis
Zhu et al. Blind image splicing detection via noise level function
CN110618854B (zh) 基于深度学习与内存镜像分析的虚机行为分析***
CN108875727B (zh) 图文标识的检测方法及装置、存储介质、处理器
CN112632609B (zh) 异常检测方法、装置、电子设备及存储介质
CN111369003A (zh) 一种量子比特读取信号保真度的确定方法、装置
Srinivasa Rao et al. Image authentication using Local Binary Pattern on the Low frequency components
Park et al. Rotation and scale invariant upsampled log-polar fourier descriptor for copy-move forgery detection
Zhang et al. Exposing unseen GAN-generated image using unsupervised domain adaptation
CN116366313A (zh) 一种小样本异常流量检测方法和***
Qin et al. HTD-VIT: Spectral-spatial joint hyperspectral target detection with vision transformer
CN104899551B (zh) 一种表单图像分类方法
Das et al. Image splicing detection with principal component analysis generated low-dimensional homogeneous feature set based on local binary pattern and support vector machine
Nandanwar et al. Forged text detection in video, scene, and document images
CN111291712B (zh) 基于插值的cn和胶囊网络的森林火灾识别方法及装置
Newell et al. Automated texture recognition of quartz sand grains for forensic applications
Tian et al. A method to compute the n-dimensional solid spectral angle between vectors and its use for band selection in hyperspectral data
Sharma et al. Towards secured image steganography based on content-adaptive adversarial perturbation
CN115567224A (zh) 一种用于检测区块链交易异常的方法及相关产品
Hashim et al. Identify the Presence of Hidden Information Based on Lower Coefficients Value of 2DHWT Sub-bands

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091014

R150 Certificate of patent or registration of utility model

Ref document number: 4394020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350