JP6609050B2 - 時間的因果グラフにおける異常フュージョン - Google Patents

時間的因果グラフにおける異常フュージョン Download PDF

Info

Publication number
JP6609050B2
JP6609050B2 JP2018525694A JP2018525694A JP6609050B2 JP 6609050 B2 JP6609050 B2 JP 6609050B2 JP 2018525694 A JP2018525694 A JP 2018525694A JP 2018525694 A JP2018525694 A JP 2018525694A JP 6609050 B2 JP6609050 B2 JP 6609050B2
Authority
JP
Japan
Prior art keywords
event
temporal
graph
causal graph
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018525694A
Other languages
English (en)
Other versions
JP2019502195A (ja
Inventor
カイ ジャン、
ホイ ジャン、
ジアンウ ジュ、
グオフェイ ジアン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2019502195A publication Critical patent/JP2019502195A/ja
Application granted granted Critical
Publication of JP6609050B2 publication Critical patent/JP6609050B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/83Indexing scheme relating to error detection, to error correction, and to monitoring the solution involving signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

この出願は、2016年11月18日に出願された米国特許仮出願第62/256752号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
デジタルネットワーキングシステム(DNS)やクラウド等の大規模ネットワークシステムのスケール及び機能の進歩と共にシステムの複雑さも大幅に増大しており、システムの異常または障害を事前に(proactive)かつ高い信頼度で検出することが益々重要になってきている。このことは、大きな経済的損失を伴うことが多い、システムサービスが中断するリスクを大幅に低減できる。グローバルなシステム状態の監視を維持するため、通常、重要なローカル構成要素/モジュール/サブシステムの稼働ステータスを記録する監視システムが配備される。障害または異常の検出を実行する1つの方法は、時系列における変数間の依存関係を捉えるスパースな時間的イベント回帰(temporal event regression)法を用いることで、ノイズが多い多変量時系列データにおける異常を検出する。異常は、時間的イベント回帰によって生じるグラフ上でランダムウォークトラバーサルを実行することで見出される。もう一つの方法は、故障検出器をアプリケーションでサービスとして利用できるようにする。このシステムは、分散環境内で稼働するいくつかの障害検出エージェントで構成され、各エージェントはプロセスのサブセットの監視及びアプリケーションの更新を担当する。代わりに適応プロトコルを異常検出に用いることができる。これらのプロトコルは、それらの環境に動的に適応し、特に変化するネットワークの状態にそれらの動作を適応させる。これらのアプローチは、通常、分散システムの専門知識だけでなく、システムの多少の干渉(システムが正常に稼働しているか否かを調べるための特定のテスト信号に対する応答など)を必要とする。
関連するアルゴリズムのファミリは、特にスパースなグレンジャー因果法(granger causality method)に基づく因果推論(causal inference)である。このアルゴリズムファミリの典型的な手法は、複数の時系列間の関係を計算するために自己回帰(VAR)モデルを用いることである。コネクションをスパース化するため、因果関係のうちのわずかなサブセットだけを有意な関係として特定するようにL1ノルム正則化が追加される。因果構造が単に統計的テストから決定される他の方法も使用される。但し、これらの方法は、システム全体で経時的な因果関係を識別することのみに着目し、システム内の異常をさらに識別するという課題は考慮していない。
システム内の1つまたは複数の異常を検出する典型的な方法は、正常期間におけるローカル構成要素間の機能的関係を記述する時間的因果グラフを構築することと、因果グラフをプロパゲーションテンプレート(propagation template)として適用し、現在のシステムイベントシグネチャを繰り返し適用することでシステムステータスを予測することと、正常なシステム動作を特定するテンプレート因果グラフ上で関連するパターンを調べることで、システムの1つまたは複数の異常を検出することとを含む。このシステムは、異常スコアを決定するために、因果グラフ上でイベントパターンをアラインしてもよい。
実施において、物のインターネット(IoT)、デジタルネットワーキングシステムまたはクラウドの一部としてセンサを用いることが可能であり、本システムはセンサデータから異常を検出できる。本システムは、正常なシステム動作を特定するテンプレート因果グラフ上で関連するパターンを調べることでシステムの潜在的な異常を検出できる。本システムは、この予測されたシステムイベントを用いて異常スコアを決定できる。本システムは、時間的因果グラフ上でシグネチャを処理し、該時間的因果グラフから、このシグネチャにおけるパターン同士がどのように異なるかを調べることができる。
本システムの利点は、以下のうちの1つまたは複数を含む。本システムは、デジタルネットワーキングシステムまたはクラウド等の大規模ネットワーキングシステムにおいて、異常及び障害の検出を実現する。本システムは、大規模ネットワーキングシステムにおける異常、不審な動作または深刻な障害を検出できる。これにより、正常なシステム稼働ステータスの潜在的な障害が発生するときに、プロアクティブなデバッギング及び調整を進めることができるように、システムのオペレータに、システムをより効果的に維持させる。これにより、予期しないシステムのシャットダウンまたはサービスの中断が起きる場合と比べて経済的損失を大幅に減少させることができるため、DNSまたはクラウドシステムまたはIoTシステム等の大規模分散型コンピュータネットワーキングシステムにおいて有益である。
図1は、大規模ネットワーキングシステムにおいて、異常、不審な動作または深刻な障害を検出するための1つの典型的な方法のアーキテクチャを示す図である。 図2は、システム中の1つまたは複数の異常を検出する典型的な方法を示す図である。 図3は、入力される複数のイベントシーケンスの例を示す図である。 図4は、イベントシーケンスを回帰データに変換する1つの手法を示す図である。 図5は、異なるイベントの間の時間的因果関係を要約する典型的な有向グラフを示す図である。 図6は、異なるイベントの間の時間的因果関係を要約する典型的な有向グラフを示す図である。 図7は、異常を検出する典型的なコンピューティングシステムを示す図である。
図1は、大規模ネットワーキングシステムにおいて、異常、不審な動作または深刻な障害を検出するための1つの典型的な方法のアーキテクチャを示す図である。3つの主要な構成要素がある。すなわち、(1)非負値LASSO回帰手法を適用して、正常稼働期間における原因及び結果のイベントパターンを要約する時間的因果グラフを構築する因果推論ステップ100、(2)現在のタイムスタンプから特定された時間間隔ステップ後の予想イベントシグネチャを予測するイベントプロパゲーションステップ200、並びに(3)イベントシグネチャベクトルを時間的因果グラフ上で比較し、履歴観測に基づいて異常のレベルを測定することで、そのイベントシグネチャベクトルによって表される各時点における異常スコアを計算する異常スコア定量化ステップ300である。
図2は、正常期間におけるローカル構成要素間の機能的な関係を記述する時間的因果グラフを構築することと、現在のシステムイベントシグネチャを繰り返し適用することでシステムステータスを予測するために因果グラフをプロパゲーションテンプレートとして適用することと、正常なシステム動作を特定するテンプレート因果グラフ上で関連するパターンを調べることでシステムの1つまたは複数の異常を検出することとによって、システムにおける1つまたは複数の異常を検出する典型的な方法を示す図である。このシステムは、異常スコアを決定するために因果グラフ上でイベントパターンをアライン(align)できる。このシステムは、将来のステータスを予測するために時間的因果グラフ上でイベントプロパゲーションを実行できる。
因果グラフを構築し、その後、該グラフ上で複数のパターンを比較することで異常を定量化する我々の手順は、一般的なユークリッドベクトル空間において異常検出を考える従来の方法と異なっている。本発明のシステムでは、グラフを用いて正常なシステム動作を記述し、テンプレートとしてこの因果グラフに基づいて異常を検出する。特に、因果関係を推定する従来の方法が、解明が容易ではない負の係数をもたらす標準的なLASSO法に基づくのが一般的であるのに対して、本グラフは非負値LASSO(Least Absolute Shrinkage and Selection Operator)を用いて計算される。因果推論において、従来の方法では連続的な時系列を考慮するのが一般的であるが、本発明のシステムでは離散的なイベントシーケンスを解析する。
統計学及び機械学習において、LASSOは、それが生成する統計モデルの予測精度及び解明性を向上させるために変数選択及び正則化の両方を実行する回帰解析法である。LASSOは、基底追跡ノイズ除去(basis pursuit denoising)と密接な関係がある。LASSOは、当初は最小二乗モデル用に定式化されており、この単純なケースでは、リッジ回帰及び最良部分集合選択(best subset selection)との関係、並びにLASSO係数推定値と、いわゆる軟閾値処理(soft thresholding)とのコネクションを含む、推定器の動作についてはかなりのことを明らかにしている。また、(標準的な線形回帰と同様に)共分散が同一線上にある場合は係数推定値が一意である必要がないことも明らかにしている。当初は最小二乗用に定義されていたが、LASSO正則化には、一般化線形モデル、一般化推定方程式、比例ハザードモデル及びM推定器等の幅広い様々な統計モデルを適用できる。サブセット選択を実行するLASSOの能力は、制約の種類に依存し、幾何学、ベイズ統計学及び凸解析等では様々な解釈を有する。
システム障害を判別するために因果推論と異常検出の組み合わせが用いられる。この改善された因果推論は、調整可能なタイムラグを有する離散的なイベントシーケンスを扱うことができる。
図3は、入力される複数のイベントシーケンスの一例を示す図である。D個のシーケンスで、それぞれ特定のタイプの異常イベントが時間と共に発生することを示している。図3は、そのようなデータフォーマットを示している。一例において、各シーケンス(または各タイプのイベント)は、企業ネットワークシステム内の1つのサーバにおける異常ログのバーストと関連付けられる。i番目のシーケンスは、以下のように表される。
ここで、t(i)_jは、j番目に発生したイベントのタイムスタンプである。すなわち、e(i)_jは発生の対応強度であり、niはi番目のイベントで記録された発生数である。e(i)_jが大きくなるほど、監視ログ解析に基づいてi番目のサーバが何らかの異常ステータスである可能性が高い。
以下、大規模にネットワーク化されたシステムにおける異常検出及び早期警告に関する本発明のシステムを詳述する。本発明のシステムは、2つの動作を提供する。第1に、正常期間における多数のローカル構成要素間の有意な機能的関係を記述する時間的因果グラフを構築する。第2に、この因果グラフをプロパゲーションテンプレートとして使用し、現在のシステムイベントシグネチャをそれに繰り返し適用することでシステムステータスを予測する。最後に、この予測されたシステムイベントシグネチャを用いて異常スコアを計算する。
非負値スパース回帰による因果関係の発見
異なるイベント間の時間的因果関係を特定するために、どのようにして複数のイベントシーケンスを一連の回帰問題の入力に変換するかを説明する。この概念は、1つのイベントの発生を、それ以前に起きた他のイベントを用いて予測(または再構築)するものである。さらに詳細には、1<j<Dであり、jがiと等しくないとしたとき、i番目のイベントの発生を他の全てのj個のイベントを用いて予測することを考える。そのとき、ni個のペア(X(i)_j、Y(i)_j)を生成できる。ここで、X(i)_jは、D−1次元ベクトルであり、Y(i)_jは、スカラーである。
図4は、イベントシーケンスを回帰データに変換する1つの手法を示している。イベントチャネル毎にいくつかのタイムスタンプを互いに結合するために、時間ベースの再重み付け方式を用いて各チャネルのイベントカウントの重み平均を計算する。続いて、以下の回帰問題を定義し、その関係を明らかにする。
各イベントシーケンスを残りの全てのシーケンスで回帰し、これを全てのシーケンスについて繰り返すことで、それぞれD−1個の回帰係数を含むD個のモデル係数を得ることができる。これらの係数は全て非負値であるため、グラフに変換できる。具体的には、行列Wは、D×D行列である。
因果グラフ上のイベントプロパゲーション
時間的因果グラフWはD個のイベント全ての間の関係を要約するものである。このグラフの枝重みはタイムスタンプt−Δtからタイムスタンプtへのシステムイベントシグネチャの移行を正確に記述する。したがって、将来の任意の時点tにおけるシステムイベントシグネチャが与えられると、次のタイムスタンプのシステムシグネチャを以下のように予測できる。
同様に、数ステップ先を予測したい場合は、上記の数式を繰り返し適用すればよい。無限のステップまで広げる場合、収束するシグネチャは以下のようになる。
異常検出
互いにシステムの動作の解明に役立つ複数の要素で通常構成されるシステムのステータスを特定するために時間的因果グラフを用いることができる。正常期間における履歴イベントシーケンスを用いて因果グラフWを構築するものとする。実時間テスト段階において、イベントシグネチャv(t)は与えられた任意の時間tに関してD−1次元ベクトルであるものとする。その結果、Wにおけるv(t)で共起パターン(co-occurrence patterns)が見出せるか否かを調べることでイベントシグネチャvtの異常スコアを計算できる。Wにおいて全ての共起パターンが見出せる場合、イベントシグネチャv(t)は正常であると考えられる。一方、Wにおけるv(t)で共起パターンがほとんど見出せない場合、v(t)は異常パターンを含んでいると考えられる。以下では、異常スコアを計算するための2つの方法を提案する。
図5は、異なるイベント間の時間的因果関係を要約する典型的な有向グラフを示す図である。各ノードはイベントであり、Wij>0である場合、重みWijでi番目のノードとj番目のノードとの間に辺が存在する。
観測されていない共起パターンによる異常スコア
さらに詳細には、v(t)に関する異常スコアは以下のように計算できる。
ここで、g()は、ガウスカーネル関数またはステップ関数等の減衰関数として定義される。直観的には、スコアは、v(t)における観測されていない共起パターンと、グラフWにおけるパターンに一致するそれらとの間の比を測定したものである。スコアが大きいほど異常なv(t)が多い。
グラフ上の経路距離による異常スコア
第2の方法は、Wによって定義される有向グラフ上でv(t)における非ゼロイベントのペアワイズ距離(pairwise distances)を計算することである。イベントのペア(すなわち1つの共起パターン)がグラフ上で(最短経路距離において)互いに離れている場合、このパターンは高い異常であり、異常なレベルの一因となるはずである。さらに詳細には、以下を定義できる。
アラームの閾値
アラームをトリガできるように異常スコアの閾値を定義するには、t=1、2、…、Tに関して履歴シグネチャイベントベクトルv(t)’の分布を調べればよい。異常スコアがガウス分布に従うと仮定すると、例えば5%の分位数に対応するスコアの閾値を容易に算出できる。
図6は、異なるイベントの間の時間的因果関係を要約する典型的な有向グラフを示す図である。各ノードはイベントであり、Wij>0である場合、重みWijでi番目のノードとj番目のノードとの間に辺が存在する。
同じ数字が同一または同様の要素を表す図面として、まず図7を詳細に参照すると、図7には、本発明の実施形態による、本発明の原理を適用してもよい典型的な処理システム100を記載するブロック図が示されている。
処理システム100は、システムバス102を介して他の構成要素と動作可能に接続された、少なくとも1つのプロセッサ(CPU)104を含む。システムバス102には、キャッシュ106、リードオンリメモリ(ROM)108、ランダムアクセスメモリ(RAM)110、入力/出力(I/O)アダプタ120、サウンドアダプタ130、ネットワークアダプタ140、ユーザインターフェースアダプタ150及びディスプレイアダプタ160が動作可能に接続されている。
第1の記憶デバイス122及び第2の記憶デバイス124は、I/Oアダプタ120によってシステムバス102と動作可能に接続されている。記憶デバイス122及び124は、ディスク記憶デバイス(例えば磁気または光ディスク記憶デバイス)、固体磁気デバイス等のうちのいずれであってもよい。記憶デバイス122及び124は、同じタイプの記憶デバイスであってもよく、異なるタイプの記憶デバイスであってもよい。
スピーカ132は、サウンドアダプタ130によってシステムバス102と動作可能に接続されている。トランシーバ142は、ネットワークアダプタ140によってシステムバス102と動作可能に接続されている。表示デバイス162は、ディスプレイアダプタ160によってシステムバス102と動作可能に接続されている。
第1のユーザ入力デバイス152、第2のユーザ入力デバイス154及び第3のユーザ入力デバイス156は、ユーザインタフェースアダプタ150によってシステムバス102と動作可能に接続されている。ユーザ入力デバイス152、154及び156は、キーボード、マウス、キーパッド、イメージキャプチャデバイス、モーション感知デバイス、マイクロホン、あるいはこれらの装置のうちの少なくとも2つのデバイスの機能を組み込んだデバイス等のいずれであってもよい。本発明の原理の趣旨を維持する限りにおいて、他のタイプの入力デバイスを使用することも可能である。ユーザ入力デバイス152、154及び156は、同じタイプのユーザ入力デバイスであってもよく、異なるタイプのユーザ入力デバイスであってもよい。ユーザ入力デバイス152、154及び156は、システム100に情報を入力し、システム100から情報を出力するために使用される。
処理システム100は、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システム100には、その詳細な実装に応じて他の様々な入力デバイス及び/または出力デバイスを含むことができる。例えば、無線及び/または有線による種々の入力デバイス及び/または出力デバイスを使用できる。さらに、当業者であれば容易に理解できるが、追加のプロセッサ、コントローラ、メモリ等の様々な構成を使用することも可能である。処理システム100の上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
本明細書に記載された実施形態は、ハードウェアで実現してもよく、ソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。
実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもよい。コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを記憶、通信、伝搬または転送する任意の機器を含んでもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体、または半導体システム(または機器もしくは装置)、あるいは伝搬媒体であってよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでもよい。
プログラムコードを記憶及び/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも1つのハードウェアプロセッサを備えていてもよい。メモリ要素には、処理の実行中にバルク記憶装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルク記憶装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはI/Oデバイス(限定されるものではないが、キーボード、ディスプレイ、ポインティングデバイス等を含む)は、直接またはI/Oコントローラを介してシステムに接続されていてもよい。
図7のシステムは、標準的なインターネットプロトコルスーツ(例えば伝送制御プロトコル(TCP)及びインターネットプロトコル(IP)等)を用いて互いに通信する相互接続されたコンピュータ及びコンピュータネットワークのグローバルシステムであるインターネットに接続できる。物のインターネット(IoT)は、コンピュータ及びコンピュータネットワークだけでなく、様々な対象物をIoT通信ネットワーク(例えばアドホックシステムまたはインターネット)を介して読取り可能、認識可能、位置決定可能、アドレッシング可能及び制御可能にする。本システムは、IoTの様々なアプリケーションで用いることができる。例えば、スマートグリッド及びエネルギー管理の分野において、公益事業会社は家庭及び企業に対するエネルギーの配送を最適化することができ、顧客はエネルギーの使用をより良好に管理することができる。ホームオートメーション及びビルオートメーションの分野において、スマートホーム及びスマートビルは、様々な機器から電気自動車(PEV)セキュリティシステムまで、家庭またはオフィスにおける実質的にいかなるデバイスまたはシステムも集中制御できる。アセットトラッキングの分野において、企業、病院、工場及びその他の大規模組織は、高価な機器、患者、車両等の位置を正確に追跡できる。健康及びウェルネスの分野において、医師は患者の健康状態を遠隔からモニタリング可能であり、人々はフィットネスルーチンの進捗を追跡できる。これらのIoTまたは産業システムに関して、IoTシステムにおける1つまたは複数の異常の検出は、正常期間におけるローカル構成要素間の機能的関係を記述する時間的因果グラフを構築することと、この因果グラフをプロパゲーションテンプレートとして適用し、現在のシステムイベントシグネチャを繰り返し適用することでシステムステータスを予測することと、正常なシステム動作を特定するテンプレート因果グラフ上で関連するパターンを調べることでシステムの1つまたは複数の異常を検出することとを含む。このシステムは、因果グラフ上でイベントパターンをアラインメントして異常スコアを決定できる。
上記は、あらゆる観点において例示的(illustrative)かつ典型的(exemplary)であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、当業者であれば、本発明の範囲及び主旨から逸脱することなく、様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。

Claims (19)

  1. システム内の1つまたは複数の異常を検出する方法であって、
    正常期間におけるローカル構成要素間の機能的関係を記述する時間的因果グラフを構築することと、
    前記時間的因果グラフをプロパゲーションテンプレートとして適用し、現在のシステムイベントシグネチャを繰り返し適用することでシステムステータスを予測することと、
    正常なシステム動作を特定する前記時間的因果グラフ上で関連するパターンを調べることで、前記システムの前記1つまたは複数の異常を検出することとを含む、方法。
  2. 物のインターネット(IoT)、デジタルネットワーキングシステムまたはクラウドの一部であるセンサを含む、請求項1に記載の方法。
  3. 予測されたシステムイベントを用いて異常スコアを決定することを含む、請求項1に記載の方法。
  4. 前記時間的因果グラフの構築が、非負値スパース回帰を実行することを含む、請求項1に記載の方法。
  5. 各シーケンスまたは各タイプのイベントが、企業ネットワークシステムにおける1つのサーバの異常ログのバーストと関連付けられる、請求項1に記載の方法。
  6. 前記時間的因果グラフを用いて正常なシステム動作を記述することと、テンプレートとしてこの時間的因果グラフに基づいて異常を検出することとを含む、請求項1に記載の方法。
  7. 前記時間的因果グラフが、非負値LASSO(Least Absolute Shrinkage and Selection Operator)を用いて決定される、請求項1に記載の方法。
  8. 因果推論と異常検出の組合せを用いてシステム障害を特定する、請求項1に記載の方法。
  9. 改善された因果推論が、調整可能な時間ラグを有する離散的なイベントシーケンスを扱うことができる、請求項1に記載の方法。
  10. 離散的なイベントシーケンスを解析することを含む、請求項1に記載の方法。
  11. 非負値スパース回帰によって因果関係を決定することを含む、請求項1に記載の方法。
  12. 複数のイベントシーケンスを一連の回帰問題の入力に変換して、異なるイベント間の時間的因果関係を特定することを含む、請求項1に記載の方法。
  13. 1つのイベントの発生を、それ以前のイベントを用いて予測または再構築することを含む、請求項1に記載の方法。
  14. 1<j<Dであり、jがiと等しくないとしたとき、他のj個のイベントを用いてi番目のイベントの発生を予測することと、
    X(i)_jがD−1次元ベクトルであり、Y(i)_jがスカラーとしたとき、
    によってn_i個のペア(X(i)_j、Y(i)_j)を生成することとを含む、請求項1に記載の方法。
  15. イベントチャネル毎にいくつかのタイムスタンプを互いに結合することと、時間ベースの再重み付け方式を適用して各チャネルのイベントカウントの重み平均を決定することと、
    回帰を適用して、関係
    を決定することとを含む、請求項1に記載の方法。
  16. g()が減衰関数であるとき、v(t)に関する異常スコアを、
    で決定することを含む、請求項1に記載の方法。
  17. v(t)に関する異常スコアを、有向グラフ上のv(t)中の非ゼロイベントのペアワイズ距離として決定することを含む、請求項1に記載の方法。
  18. 前記時間的因果グラフ上でイベントパターンをアラインメントして異常スコアを決定することを含む、請求項1に記載の方法。
  19. 前記時間的因果グラフ上でイベントプロパゲーションを実行して将来のステータスを予測することを含む、請求項1に記載の方法。
JP2018525694A 2015-11-18 2016-11-16 時間的因果グラフにおける異常フュージョン Active JP6609050B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562256752P 2015-11-18 2015-11-18
US62/256,752 2015-11-18
US15/351,449 2016-11-15
US15/351,449 US10235231B2 (en) 2015-11-18 2016-11-15 Anomaly fusion on temporal casualty graphs
PCT/US2016/062140 WO2017087440A1 (en) 2015-11-18 2016-11-16 Anomaly fusion on temporal casuality graphs

Publications (2)

Publication Number Publication Date
JP2019502195A JP2019502195A (ja) 2019-01-24
JP6609050B2 true JP6609050B2 (ja) 2019-11-20

Family

ID=58717735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018525694A Active JP6609050B2 (ja) 2015-11-18 2016-11-16 時間的因果グラフにおける異常フュージョン

Country Status (4)

Country Link
US (1) US10235231B2 (ja)
JP (1) JP6609050B2 (ja)
DE (1) DE112016005290T5 (ja)
WO (1) WO2017087440A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620553B2 (en) * 2016-04-21 2023-04-04 Utopus Insights, Inc. System and method for forecasting leaks in a fluid-delivery pipeline network
JP6730340B2 (ja) * 2018-02-19 2020-07-29 日本電信電話株式会社 因果推定装置、因果推定方法、及びプログラム
US11153144B2 (en) 2018-12-06 2021-10-19 Infosys Limited System and method of automated fault correction in a network environment
JP7120043B2 (ja) * 2019-01-23 2022-08-17 日本電信電話株式会社 グラフ要約装置、グラフ要約方法及びプログラム
US10976068B2 (en) 2019-09-03 2021-04-13 Resolute Building Intelligence, LLC System and method for configuring analytic rules to equipment based upon building data
US20210117998A1 (en) * 2019-10-21 2021-04-22 Oracle International Corporation Artificial Intelligence Based Room Personalized Demand Model
US20220405640A1 (en) * 2019-10-29 2022-12-22 Nippon Telegraph And Telephone Corporation Learning apparatus, classification apparatus, learning method, classification method and program
US11157347B2 (en) * 2019-12-02 2021-10-26 EMC IP Holding Company LLC Detection of resource bottlenecks in user devices using artificial intelligence and causal graphs
US11188403B2 (en) * 2020-04-29 2021-11-30 Capital One Services, Llc Computer-based systems involving an engine and tools for incident prediction using machine learning and methods of use thereof
EP3905044B1 (fr) 2020-04-30 2023-05-10 Bull SAS Procédé d'analyse automatique des journaux de transactions d'un système informatique distribué
CN114691447A (zh) * 2020-12-30 2022-07-01 超聚变数字技术有限公司 一种设备的状态分析方法和分析装置
US20220253733A1 (en) * 2021-02-05 2022-08-11 Mingming Zuo Abnormality detection based on causal graphs representing causal relationships of abnormalities
WO2022249369A1 (ja) * 2021-05-26 2022-12-01 日本電信電話株式会社 プロセス情報解析装置、プロセス情報解析方法およびプログラム
US20220382614A1 (en) * 2021-05-26 2022-12-01 Nec Laboratories America, Inc. Hierarchical neural network-based root cause analysis for distributed computing systems
US11816080B2 (en) * 2021-06-29 2023-11-14 International Business Machines Corporation Severity computation of anomalies in information technology operations
US20230236922A1 (en) * 2022-01-24 2023-07-27 International Business Machines Corporation Failure Prediction Using Informational Logs and Golden Signals
CN115118580B (zh) * 2022-05-20 2023-10-31 阿里巴巴(中国)有限公司 告警分析方法以及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7530105B2 (en) * 2006-03-21 2009-05-05 21St Century Technologies, Inc. Tactical and strategic attack detection and prediction
US8370609B1 (en) * 2006-09-27 2013-02-05 Oracle America, Inc. Data cache rollbacks for failed speculative traces with memory operations
US8359577B2 (en) * 2008-12-23 2013-01-22 Honeywell International Inc. Software health management testbed
US8255346B2 (en) * 2009-11-11 2012-08-28 International Business Machines Corporation Methods and systems for variable group selection and temporal causal modeling
US20140108324A1 (en) * 2012-10-12 2014-04-17 Nec Laboratories America, Inc. Data analytic engine towards the self-management of complex physical systems
US9185124B2 (en) 2013-02-27 2015-11-10 Sayan Chakraborty Cyber defense systems and methods
US9195943B2 (en) * 2013-03-12 2015-11-24 Bmc Software, Inc. Behavioral rules discovery for intelligent computing environment administration
EP3044718A4 (en) * 2013-09-10 2017-05-17 Symantec Corporation Systems and methods for using event-correlation graphs to detect attacks on computing systems
US9367809B2 (en) * 2013-10-11 2016-06-14 Accenture Global Services Limited Contextual graph matching based anomaly detection
US9159032B1 (en) 2014-03-19 2015-10-13 Xerox Corporation Predicting arrival times of vehicles based upon observed schedule adherence

Also Published As

Publication number Publication date
DE112016005290T5 (de) 2018-09-13
WO2017087440A1 (en) 2017-05-26
US10235231B2 (en) 2019-03-19
JP2019502195A (ja) 2019-01-24
US20170235626A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
JP6609050B2 (ja) 時間的因果グラフにおける異常フュージョン
US10914608B2 (en) Data analytic engine towards the self-management of complex physical systems
CN109902832B (zh) 机器学习模型的训练方法、异常预测方法及相关装置
US9245235B2 (en) Integrated approach to model time series dynamics in complex physical systems
CN105677538B (zh) 一种基于故障预测的云计算***自适应监测方法
JP6313730B2 (ja) 異常検出システムおよび方法
US9600394B2 (en) Stateful detection of anomalous events in virtual machines
JP2021524954A (ja) 異常検知
US9720823B2 (en) Free memory trending for detecting out-of-memory events in virtual machines
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
US11715284B2 (en) Anomaly detection apparatus, anomaly detection method, and program
Li et al. Prognostics of analog filters based on particle filters using frequency features
KR20190078850A (ko) 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템
US11747035B2 (en) Pipeline for continuous improvement of an HVAC health monitoring system combining rules and anomaly detection
CN115769235A (zh) 提供与训练函数的准确度有关的警报的方法和***
Biem et al. Real-time analysis and management of big time-series data
CN112380073B (zh) 一种故障位置的检测方法、装置及可读存储介质
JP2007279887A (ja) 特異パターン検出システム、モデル学習装置、特異パターン検出装置、特異パターン検出方法、及び、コンピュータプログラム
WO2020261621A1 (ja) 監視システム、監視方法及びプログラム
Lijun et al. An intuitionistic calculus to complex abnormal event recognition on data streams
US20150095490A1 (en) Online sparse regularized joint analysis for heterogeneous data
US12051232B2 (en) Anomaly detection apparatus, anomaly detection method, and program
US20240054043A1 (en) Trigger point detection for online root cause analysis and system fault diagnosis
KR102444941B1 (ko) 화재모니터링장치 및 그 동작 방법
Li et al. Analyzing Web Logs to Detect {User-Visible} Failures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191024

R150 Certificate of patent or registration of utility model

Ref document number: 6609050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350