JP6152788B2 - 障害予兆検知方法、情報処理装置およびプログラム - Google Patents

障害予兆検知方法、情報処理装置およびプログラム Download PDF

Info

Publication number
JP6152788B2
JP6152788B2 JP2013249027A JP2013249027A JP6152788B2 JP 6152788 B2 JP6152788 B2 JP 6152788B2 JP 2013249027 A JP2013249027 A JP 2013249027A JP 2013249027 A JP2013249027 A JP 2013249027A JP 6152788 B2 JP6152788 B2 JP 6152788B2
Authority
JP
Japan
Prior art keywords
message
failure
pattern
type
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013249027A
Other languages
English (en)
Other versions
JP2015106334A (ja
Inventor
幸洋 渡辺
幸洋 渡辺
松本 安英
安英 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013249027A priority Critical patent/JP6152788B2/ja
Priority to US14/540,398 priority patent/US9442785B2/en
Publication of JP2015106334A publication Critical patent/JP2015106334A/ja
Application granted granted Critical
Publication of JP6152788B2 publication Critical patent/JP6152788B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer Hardware Design (AREA)

Description

本発明は障害予兆検知方法、情報処理装置およびプログラムに関する。
現在、サーバ装置やストレージや通信装置などの様々な電子機器を含む情報処理システムが利用されている。このような情報処理システムでは、HDD(Hard Disk Drive)の故障や通信インタフェースの故障などの障害が発生することがある。そこで、監視装置が電子機器から各種のメッセージを収集し、情報処理システムの稼働状態を監視することが行われている。例えば、監視装置は、収集したメッセージから障害を検知すると、使用するサーバ装置の切り替えや通信経路の変更を管理者に促すことが考えられる。
監視装置の中には、障害が発生する前に、収集したメッセージに基づいて障害の予兆を検知するものもある。例えば、監視装置は、HDDへの書き込み失敗の増加や通信遅延の急激な増大を検知すると、障害の予兆として管理者に通知することが考えられる。障害が発生する前に使用するサーバ装置の切り替えや通信経路の変更などの対策をとることができれば、情報処理の停止時間を短縮して障害の影響を軽減できる。
一例として、プラントなどの設備から収集するデータに基づいて障害の予兆を検知する設備状態監視方法が提案されている。この設備状態監視方法は、設備の正常状態を示す正常モデルを生成する学習フェーズと、正常モデルおよび設備から収集したデータに基づいて障害の予兆を検知する評価フェーズを含む。学習フェーズでは、正常時のデータから正常モデルとして特徴ベクトルを生成する。評価フェーズでは、現在収集したデータから特徴ベクトルを生成して正常モデルと比較する。特徴ベクトルの距離に応じた「異常測度」が閾値以上である場合、設備に障害の予兆があると判定する。
特開2011−70635号公報
障害の予兆を検知する方法としては、過去に障害が発生したときに現れたメッセージのパターンを学習しておき、学習したメッセージのパターンが収集したメッセージの集合の中に現れたときに、障害の予兆があると判定する方法が考えられる。学習するメッセージのパターンは、例えば、障害発生から所定時間前までに現れる確率が高いメッセージの種類の組み合わせとする。しかし、この検知方法には次のような問題がある。
監視対象の情報処理システムから収集されるメッセージの中には、障害との関連性が低く継続的に発生するメッセージがノイズとして含まれていることがある。例えば、使用していない通信インタフェースに対する監視機能がONになっていることで発生するメッセージなど、管理者が無視できるような軽度の注意情報を含むメッセージが定期的に発生することがある。ノイズとして収集されるメッセージの種類は、情報処理システムの構成変更や情報処理システムを利用した業務プロセスの変更など、情報処理システムの動作状態が変化したときに変わる可能性がある。例えば、使用していない通信インタフェースに対する監視機能をONからOFFにするとノイズが削減される。
収集されるメッセージの中に多くのノイズが含まれている場合、障害の予兆を示すメッセージのパターンの学習結果の中にも、ノイズが混入することになる。この場合、ノイズとして継続的に発生するメッセージの種類が学習時点から変化してしまうと、学習結果と同じメッセージのパターンが収集したメッセージの中に現れなくなり、既存の学習結果を用いて障害予兆を検知することができなくなるという問題がある。これに対しては、既存の学習結果を破棄してメッセージのパターンを再学習することも考えられる。しかし、情報処理システムの動作状態が変化する毎にメッセージのパターンを再学習することは、再学習の負荷が大きく、また、障害予兆検知の精度が低下するという問題がある。
1つの側面では、本発明は、収集するメッセージに含まれるノイズが変化しても既存の学習結果を活用することができる障害予兆検知方法、情報処理装置およびプログラムを提供することを目的とする。
1つの態様では、監視対象のシステムから複数の種類のメッセージを収集するコンピュータが実行する障害予兆検知方法が提供される。障害予兆検知方法では、第1のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、学習に使用しない第1のメッセージの種類を判定する。第1のメッセージの集合およびシステムの障害発生を示す障害情報から、障害が発生するときに現れるメッセージのパターンであって第1のメッセージの種類を除外した第1のメッセージのパターンを学習する。第1のメッセージの集合より後に第2のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、検知に使用しない第2のメッセージの種類を判定する。第2のメッセージの集合から、第2のメッセージの種類を除外した第2のメッセージのパターンを生成し、第1のメッセージのパターンと第2のメッセージのパターンとを比較することでシステムの障害の予兆を検知する。
また、1つの態様では、記憶部と演算部とを有する情報処理装置が提供される。記憶部は、監視対象のシステムから収集した複数の種類のメッセージと、システムの障害発生を示す障害情報とを記憶する。演算部は、第1のメッセージの集合および障害情報から、障害が発生するときに現れる第1のメッセージのパターンを学習し、第1のメッセージの集合より後に取得した第2のメッセージの集合から第2のメッセージのパターンを生成し、第1のメッセージのパターンと第2のメッセージのパターンとを比較することでシステムの障害の予兆を検知する。演算部は、第1のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、学習に使用しない第1のメッセージの種類を判定し、第1のメッセージのパターンから第1のメッセージの種類を除外する。また、演算部は、第2のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、検知に使用しない第2のメッセージの種類を判定し、第2のメッセージのパターンから第2のメッセージの種類を除外する。
また、1つの態様では、監視対象のシステムから複数の種類のメッセージを収集するコンピュータに実行させるプログラムが提供される。
1つの側面では、収集するメッセージに含まれるノイズが変化しても既存の学習結果を活用することができる。
第1の実施の形態の情報処理装置を示す図である。 第2の実施の形態の情報処理システムを示す図である。 メッセージパターンの学習例を示す図である。 予兆検知における背景ノイズの影響例を示す図である。 予兆検知における背景ノイズの除外例を示す図である。 監視サーバのハードウェア例を示すブロック図である。 監視サーバの機能例を示すブロック図である。 メッセージテーブルの例を示す図である。 頻度テーブルの例を示す図である。 ユーザ設定テーブルの例を示す図である。 障害テーブルの例を示す図である。 学習テーブルの例を示す図である。 頻度算出の手順例を示すフローチャートである。 パターン学習の手順例を示すフローチャートである。 予兆検知の手順例を示すフローチャートである。 監視サーバの他の機能例を示すブロック図である。 期間テーブルの例を示す図である。 頻度算出の他の手順例を示すフローチャートである。 パターン学習の他の手順例を示すフローチャートである。
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
図1は、第1の実施の形態の情報処理装置を示す図である。
第1の実施の形態の情報処理装置10は、監視対象のシステムから複数の種類のメッセージを収集し、収集したメッセージに基づいてシステムの障害の予兆を検知する。監視対象のシステムは、1または2以上の電子機器を有し、サーバ装置やストレージや通信装置などの複数の種類の電子機器を有していてもよい。情報処理装置10が取得するメッセージの集合には、2以上または2種類以上の電子機器からのメッセージが混在していてもよい。情報処理装置10は、コンピュータと呼ばれてもよい。情報処理装置10は、サーバ装置(例えば、サーバコンピュータと呼ばれるもの)であってもよいし、ユーザが操作する端末装置(例えば、クライアントコンピュータと呼ばれるもの)であってもよい。
情報処理装置10は、記憶部11および演算部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性の記憶装置でもよいし、HDDなどの不揮発性の記憶装置でもよい。演算部12は、例えば、プロセッサである。プロセッサは、CPU(Central Processing Unit)やDSP(Digital Signal Processor)であってもよく、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の集積回路を含んでもよい。プロセッサは、RAMなどの記憶装置(例えば、記憶部11)に記憶されたプログラムを実行する。2以上のプロセッサの集合(マルチプロセッサ)を「プロセッサ」と呼んでもよい。
記憶部11は、メッセージの集合13a,13bおよび障害情報14を記憶する。
メッセージの集合13aは、ある時点において監視対象のシステムから収集されたメッセージの集合である。メッセージの集合13bは、メッセージの集合13aより後の時点において監視対象のシステムから収集されたメッセージの集合である。メッセージの集合13aは、メッセージの集合13bが取得された時点で記憶部11から削除されていてもよいし、削除されていなくてもよい。後者の場合、メッセージの集合13bが取得された時点で、メッセージの集合13aはログ情報と見ることができる。
メッセージの集合13a,13bの中には、障害発生を示すメッセージではないが、電子機器の好ましくない動作の発生を示すメッセージが含まれる。電子機器の好ましくない動作としては、例えば、HDDへのアクセス失敗、キャッシュのオーバーフロー、通信遅延、インタフェースの初期化失敗などが挙げられる。同時期に特定の2種類以上のメッセージが発生した場合に、その後に高い確率で障害が発生することがある。ただし、メッセージの集合13a,13bの中には、障害との関連性が低く継続的に発生するメッセージも含まれる。このようなメッセージはノイズと言うことができる。
ノイズとしてのメッセージの種類は、監視対象のシステムの動作状態が変化することで変わる可能性がある。システムの動作状態の変化としては、例えば、システムの構成・設定の変更や、システムを利用した業務プロセスの変更などが挙げられる。第1の実施の形態では、メッセージの集合13aとメッセージの集合13bとには、ノイズとして異なる種類のメッセージが含まれている。図1の例では、メッセージの集合13aに種類A,B,Xのメッセージが含まれており、メッセージの集合13bに種類A,B,Yのメッセージが含まれている。種類X,Yのメッセージがノイズに相当する。なお、以下では、種類A,B,X,Yのメッセージを、メッセージA,B,X,Yと言うことがある。
障害情報14は、監視対象のシステムで過去に発生した障害を示し、例えば、障害発生の時刻を示す情報を含む。システムの障害としては、例えば、HDDの故障や通信インタフェースの故障などのハードウェア障害が挙げられる。障害情報14には、少なくとも、メッセージの集合13aが取得された時期に発生した障害についての情報が含まれる。障害情報14は、ユーザが情報処理装置10に入力してもよいし、監視対象のシステムから収集された障害発生を示すメッセージに基づいて情報処理装置10が生成してもよい。
演算部12は、メッセージの集合13aおよび障害情報14から、障害が発生するときに現れるメッセージのパターン15aを学習する。メッセージのパターン15aは、例えば、過去に障害発生から所定時間前までに現れた2種類以上のメッセージの組み合わせを示す。また、演算部12は、メッセージの集合13bからメッセージのパターン15bを生成する。メッセージのパターン15bは、例えば、同時期に現れた2種類以上のメッセージの組み合わせを示す。そして、演算部12は、メッセージのパターン15aとメッセージのパターン15bとを比較することで、障害の予兆を検知する。例えば、演算部12は、メッセージのパターン15bがメッセージのパターン15aと一致するとき、監視対象のシステムに障害の予兆があると判断してユーザに警告する。
ここで、演算部12は、メッセージのパターン15aを学習するにあたり、メッセージの集合13aが取得されたときにおけるメッセージの種類毎の出現頻度を算出する。例えば、演算部12は、メッセージの集合13aに含まれるメッセージを種類毎にカウントして、メッセージの種類毎の出現確率を算出する。そして、演算部12は、メッセージの集合13aに対応する出現頻度に基づいて、複数のメッセージの種類のうち学習に使用しないメッセージの種類(例えば、メッセージX)を判定する。学習に使用しないメッセージの種類は、例えば、出現頻度が閾値以上であるものとする。演算部12は、メッセージのパターン15aから、判定した種類のメッセージ(例えば、メッセージX)を除外する。
また、演算部12は、障害の予兆を検知するにあたり、メッセージの集合13bが取得されたときにおけるメッセージの種類毎の出現頻度を算出する。例えば、演算部12は、メッセージの集合13bに含まれるメッセージを種類毎にカウントして、メッセージの種類毎の出現確率を算出する。そして、演算部12は、メッセージの集合13bに対応する出現頻度に基づいて、複数のメッセージの種類のうち検知に使用しないメッセージの種類(例えば、メッセージY)を判定する。検知に使用しないメッセージの種類は、例えば、出現頻度が閾値以上であるものとする。演算部12は、メッセージのパターン15bから、判定した種類のメッセージ(例えば、メッセージY)を除外する。
メッセージの集合13aにはノイズとしてメッセージXが多数含まれているため、メッセージXを除外しない場合、学習時にはメッセージA,B,Xを含むメッセージのパターンが生成される可能性が高い。また、メッセージの集合13bにはノイズとしてメッセージYが多数含まれているため、メッセージYを除外しない場合、検知時にはメッセージA,B,Yを含むメッセージのパターンが生成される可能性が高い。この場合、2つのメッセージのパターンを単純に比較するだけでは障害の予兆を検知することが難しい。一方、上記のように生成されたメッセージのパターン15a,15bは、メッセージA,Bを含みメッセージX,Yを含まないため、両者の比較によって障害の予兆を検知できる。
第1の実施の形態の情報処理装置10によれば、学習時のメッセージの種類毎の出現頻度に基づいて学習に使用しないメッセージの種類が判定され、判定された種類のメッセージを除外したメッセージのパターン15aが学習される。また、検知時のメッセージの種類毎の出現頻度に基づいて検知に使用しないメッセージの種類が判定され、判定された種類のメッセージを除外したメッセージのパターン15bが学習結果と比較される。これにより、システムの構成変更や業務プロセスの変更などに応じてメッセージのノイズが変化しても、既存の学習結果を利用して障害の予兆を検知することができる。その結果、再学習の負荷を抑制でき、また、障害予兆検知の精度を高めることができる。
[第2の実施の形態]
図2は、第2の実施の形態の情報処理システムを示す図である。
第2の実施の形態の情報処理システムは、業務で使用される各種の電子機器を集中的に管理する。この情報処理システムは、業務サーバ21、ストレージ22、通信装置23、クライアント24、管理サーバ25および監視サーバ100を有する。情報処理システムに含まれるこれらの装置は、ネットワーク20に接続されている。なお、監視サーバ100は、第1の実施の形態の情報処理装置10の一例である。業務サーバ21、ストレージ22および通信装置23の集合は、監視対象のシステムの一例である。
業務サーバ21、ストレージ22および通信装置23は、業務で使用される電子機器の一例である。業務サーバ21は、業務用のアプリケーションソフトウェアを実行するサーバコンピュータである。ストレージ22は、業務に使用するデータを、磁気ディスクなどの不揮発性の記憶媒体に記憶しておく記憶装置である。ストレージ22は、業務サーバ21からアクセスされ得る。通信装置23は、データを転送するルータやスイッチなどである。監視対象のシステムには、他の種類の電子機器が含まれていてもよい。
クライアント24は、管理者が操作する端末装置としてのクライアントコンピュータである。監視対象のシステムの構成を変更するとき、クライアント24は、構成変更の内容およびそのスケジュールを管理サーバ25に登録する。構成変更の例としては、業務サーバの追加や削除、業務サーバ間での仮想マシンの移動、業務サーバ21にインストールされたソフトウェアの更新、通信装置23の通信ポートの設定変更などが挙げられる。
また、クライアント24は、監視対象のシステムに障害が発生すると、障害を示す警告情報を監視サーバ100から受信する。障害の例としては、業務サーバ21やストレージ22が備えるHDDの故障、通信装置23が備える通信ポートの故障などが挙げられる。障害を示す警告情報は、クライアント24のディスプレイに表示される。管理者は、クライアント24を用いて、システムを復旧する操作を行うことができる。例えば、管理者は、業務サーバ21やストレージ22を、予備の業務サーバやストレージに切り替える。
また、クライアント24は、障害はまだ発生していないが障害の予兆があるとき、障害の予兆を示す警告情報を監視サーバ100から受信することがある。障害の予兆の例としては、HDDへのアクセス失敗、キャッシュのオーバーフロー、通信遅延、インタフェースの初期化失敗などの好ましくない動作の組み合わせであって、所定の条件を満たす複数種類の動作の組み合わせが考えられる。障害の予兆を示す警告情報は、クライアント24のディスプレイに表示される。管理者は、クライアント24を用いて、障害発生前に障害の影響を小さくするための操作を行うことができる。例えば、業務サーバ21に障害の予兆がある場合、管理者は、障害発生前に、仮想マシンを業務サーバ21から他の業務サーバへ移動させる。また、例えば、通信装置23に障害の予兆がある場合、管理者は、障害発生前に、通信装置23を通過しないように通信経路の設定を変更する。
管理サーバ25は、クライアント24からの指示に応じて、監視対象のシステムの構成を変更するサーバコンピュータである。管理サーバ25は、クライアント24から構成変更の内容およびスケジュールが登録されると、登録された構成変更をスケジュールに従って実行する。例えば、管理サーバ25は、指定された日時に、業務サーバ21にインストールされたソフトウェアの更新や通信装置23の通信ポートの設定変更などを行う。
監視サーバ100は、システムに障害または障害の予兆がないか監視するサーバコンピュータである。監視サーバ100は、監視対象のシステムに属する各電子機器から継続的にメッセージを収集する。メッセージの収集には、SNMP(Simple Network Management Protocol)を含む任意のプロトコルを用いることができる。収集されるメッセージの集合には、HDDの故障や通信ポートの故障などの障害を示すメッセージが含まれ得る。また、収集されるメッセージの集合には、HDDへのアクセス失敗、キャッシュのオーバーフロー、通信遅延、インタフェースの初期化失敗など、障害ではないが好ましくない動作を示す注意喚起のメッセージが含まれ得る。
収集されたメッセージに基づいて、監視サーバ100は、障害または障害の予兆を検知する。障害を検知すると、監視サーバ100は、障害の種類・障害が発生した電子機器・発生時刻などを示す警告情報を生成し、クライアント24に送信する。注意喚起のメッセージに基づいて障害の予兆を検知すると、監視サーバ100は、予兆のある障害の種類・予兆のある電子機器・予兆の検知に用いられたメッセージ・検知時刻などを示す警告情報を生成し、クライアント24に送信する。監視サーバ100からクライアント24への警告情報の送信には、電子メールを含む任意のプロトコルを用いることができる。
障害の予兆を検知するために、監視サーバ100は、過去に収集されたメッセージの集合に基づいて、障害発生の所定時間前までに現れる確率の高いメッセージの種類の組み合わせを学習する。監視サーバ100は、現在収集されたメッセージと学習結果とをリアルタイムに比較し、学習結果に合致するメッセージの系列が現れたとき障害の予兆があると判断する。以下、監視サーバ100が行う障害予兆検知を中心に説明する。
図3は、メッセージパターンの学習例を示す図である。
第2の実施の形態では、同時期に現れる2種類以上のメッセージの組み合わせをメッセージのパターンとして扱う。監視サーバ100は、収集されたメッセージの集合を用いて、障害発生と相関の高いメッセージのパターンを学習する。これにより、監視サーバ100は、人手では発見が容易でないメッセージと障害との関係を発見することができる。
監視サーバ100は、各メッセージに受信時刻の情報を付与することで、収集したメッセージを時系列に管理する。図3に示すように、監視サーバ100は、一定の時間幅(例えば、5分間)のスライディングウィンドウを時間軸に沿ってシフトさせる。スライディングウィンドウに含まれるメッセージの種類の組み合わせが、同時期に現れたメッセージのパターンとして抽出される。このとき、メッセージのパターンにおいては、同じ種類のメッセージの数やメッセージの出現順序は考慮されない。すなわち、メッセージのパターンでは、同時期に現れたメッセージの種類が順不動で列挙されることになる。
例えば、ある時点でスライディングウィンドウに種類4,9,7,1のメッセージ(以下ではメッセージ4,9,7,1と表記することがある)が含まれる場合、[1,4,7,9]というパターンが抽出される。その後、スライディングウィンドウにメッセージ3が追加されると、[1,3,4,7,9]というパターンが抽出される。更にその後、スライディングウィンドウにメッセージ10が追加されスライディングウィンドウからメッセージ4,9,7,1が追い出されると、[3,10]というパターンが抽出される。
このようなメッセージのパターンは、学習時に抽出されると共に、予兆検知時に現在収集したメッセージの集合からリアルタイムに抽出される。学習時には、監視サーバ100は、障害発生から所定時間前までに現れた回数をパターン毎にカウントすることで、パターンと障害発生の相関を学習する。あるパターンが障害発生から所定時間前までに現れるとは、例えば、スライディングウィンドウ内で末尾にある(最も新しい)メッセージの受信時刻またはスライディングウィンドウの末尾の時刻と、障害発生時刻との差が閾値以下であることである。予兆検知時には、監視サーバ100は、障害発生との相関が高いパターンとリアルタイムに抽出するパターンとを比較して、両者の一致不一致を判定する。
次に、障害発生と相関の高いパターンを学習するときの問題について説明する。
図4は、予兆検知における背景ノイズの影響例を示す図である。
監視サーバ100が収集するメッセージの中には、障害との関連性が低く継続的に発生するメッセージが含まれる。第2の実施の形態では、このような種類のメッセージを「背景ノイズ」として扱う。背景ノイズは継続的に発生するため、通常、他の種類のメッセージよりも出現頻度が高い。背景ノイズの例としては、使用していない通信ポートに対する監視機能がONになっていることで発生するメッセージなど、管理者が無視できるような軽度の注意喚起のメッセージが挙げられる。システムの運用上、注意喚起のメッセージが発生するような設定を行い、管理者がこのメッセージを意図的に無視する場合がある。
背景ノイズとしてのメッセージの種類は、時間の経過に応じて変化することがある。例えば、システム構成を変更したときやシステムを利用した業務プロセスを変更したとき、背景ノイズが大きく変化し得る。業務プロセスの変更の例としては、ユーザがストレージ22に格納されたファイルを直接編集するという業務手順から、業務サーバ21で実行されるWebアプリケーションのプログラムを介して当該ファイルを編集するという業務手順に変えることが挙げられる。構成変更や業務プロセスの変更は、監視対象のシステムの規模が大きいほど高頻度で生じる。これに対し、パターン学習に用いたメッセージの集合と予兆検知時に用いる現在のメッセージの集合とには、背景ノイズとして異なる種類のメッセージが多く含まれている可能性がある。このため、次のような問題が生じる。
学習に用いたメッセージの集合の中に、メッセージA,B,Xが含まれているとする。メッセージA,Bの組み合わせが障害直前に高確率で現れるとする。ただし、メッセージXが背景ノイズとして継続的に多数発生している。すると、監視サーバ100は、スライディングウィンドウ内にメッセージA,B,Xが含まれるため、メッセージXを除外しないと、障害と相関の高いパターンとして[A,B,X]を学習してしまう。
一方、現在収集したメッセージの集合の中に、メッセージA,B,Yが含まれているとする。メッセージYが背景ノイズとして継続的に多数発生しており、メッセージXは発生していない。すなわち、構成変更や業務プロセスの変更などによって背景ノイズが変化している。すると、監視サーバ100は、スライディングウィンドウ内にメッセージA,B,Yが含まれるため、メッセージYを除外しないとパターンとして[A,B,Y]を抽出する。学習したパターン[A,B,X]と現在抽出したパターン[A,B,Y]とは一致しないため、監視サーバ100は、このままでは障害の予兆を検知しない。
図5は、予兆検知における背景ノイズの除外例を示す図である。
上記の問題に対し、第2の実施の形態では、学習時に抽出するパターンから学習時における背景ノイズを除外し、また、予兆検知時に抽出するパターンから予兆検知時における背景ノイズを除外する。予兆検知時における背景ノイズは、学習時における背景ノイズと異なる可能性がある。そして、背景ノイズが除外されたパターン同士が比較される。
例えば、監視サーバ100は、学習に用いるメッセージの中から出現頻度が高いメッセージXを検索し、学習時における背景ノイズと判定する。そして、監視サーバ100は、メッセージXを除外したパターン[A,B]を学習する。また、監視サーバ100は、現在収集したメッセージの集合の中から出現頻度が高いメッセージYを検索し、予兆検知時における背景ノイズと判定する。そして、監視サーバ100は、メッセージYを除外したパターン[A,B]を抽出する。学習したパターン[A,B]と現在抽出したパターン[A,B]とは一致するため、監視サーバ100は、障害の予兆を検知する。
次に、監視サーバ100の構成について説明する。
図6は、監視サーバのハードウェア例を示すブロック図である。
監視サーバ100は、CPU101、RAM102、HDD103、画像信号処理部104、入力信号処理部105、媒体リーダ106および通信インタフェース107を有する。CPU101は、第1の実施の形態の演算部12の一例である。RAM102またはHDD103は、第1の実施の形態の記憶部11の一例である。
CPU101は、プログラムの命令を実行する演算回路を含むプロセッサである。CPU101は、HDD103に記憶されているプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。なお、CPU101は複数のプロセッサコアを備えてもよく、監視サーバ100は複数のプロセッサを備えてもよく、以下で説明する処理を複数のプロセッサまたはプロセッサコアを用いて並列実行してもよい。また、複数のプロセッサの集合(マルチプロセッサ)を「プロセッサ」と呼んでもよい。
RAM102は、CPU101が実行するプログラムやCPU101が演算に用いるデータを一時的に記憶する揮発性メモリである。なお、監視サーバ100は、RAM以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。
HDD103は、OSやミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、監視サーバ100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。
画像信号処理部104は、CPU101からの命令に従って、監視サーバ100に接続されたディスプレイ31に画像を出力する。ディスプレイ31としては、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、プラズマディスプレイ(PDP:Plasma Display Panel)、有機EL(OEL:Organic Electro-Luminescence)ディスプレイなどを用いることができる。
入力信号処理部105は、監視サーバ100に接続された入力デバイス32から入力信号を取得し、CPU101に出力する。入力デバイス32としては、マウスやタッチパネルやタッチパッドやトラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、監視サーバ100に、複数の種類の入力デバイスが接続されていてもよい。
媒体リーダ106は、記録媒体33に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体33として、例えば、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスク(MO:Magneto-Optical disk)、半導体メモリなどを使用できる。媒体リーダ106は、例えば、記録媒体33から読み取ったプログラムやデータをRAM102またはHDD103に格納する。
通信インタフェース107は、ネットワーク20に接続され、ネットワーク20を介して、業務で使用される電子機器(業務サーバ21、ストレージ22、通信装置23など)、クライアント24および管理サーバ25と通信を行うインタフェースである。通信インタフェース107は、ケーブルで通信装置と接続される有線通信インタフェースでもよいし、基地局と無線リンクで接続される無線通信インタフェースでもよい。
なお、監視サーバ100は、媒体リーダ106を備えていなくてもよく、端末装置から制御される場合には画像信号処理部104や入力信号処理部105を備えていなくてもよい。また、ディスプレイ31や入力デバイス32が、監視サーバ100の筐体と一体に形成されていてもよい。業務サーバ21、クライアント24および管理サーバ25も、監視サーバ100と同様のハードウェアを用いて実現することができる。
図7は、監視サーバの機能例を示すブロック図である。
監視サーバ100は、受信部111、障害検出部112、障害情報記憶部113および設定情報記憶部114を有する。また、監視サーバ100は、頻度算出部121、メッセージバッファ122、頻度情報記憶部123、パターン抽出部124、フィルタリング部125、学習部126および学習情報記憶部127を有する。監視サーバ100は、頻度算出部131、メッセージバッファ132、頻度情報記憶部133、パターン抽出部134、フィルタリング部135、パターン比較部136および警告部137を有する。
障害情報記憶部113、設定情報記憶部114、メッセージバッファ122,132、頻度情報記憶部123,133および学習情報記憶部127は、例えば、RAM102またはHDD103に確保した記憶領域として実装される。上記の他のユニットは、例えば、CPU101が実行するプログラムのモジュールとして実装される。
受信部111は、業務サーバ21、ストレージ22および通信装置23などの電子機器からメッセージを受信する。受信部111が受信するメッセージには、複数個の電子機器または複数の種類の電子機器からのメッセージが混在していてよい。受信部111は、受信時刻を示すタイムスタンプを各メッセージに付与する。ただし、メッセージに生成時刻または送信時刻の情報が含まれている場合、別途タイムスタンプを付与しなくてもよい。
障害検出部112は、受信部111からメッセージを取得し、メッセージの種類を判定する。取得したメッセージが、HDD障害やサーバソフトウェアの異常停止などの障害を示している場合、障害発生を示す障害情報を生成する。障害情報には、障害発生時刻としてメッセージに付与されている時刻や障害内容などを示す情報が含まれる。障害検出部112は、生成した障害情報を障害情報記憶部113に格納する。
障害情報記憶部113は、過去に発生した障害の内容と障害発生時刻とを対応付けた障害情報を記憶する。障害情報は、障害検出部112によって書き込まれることもあるし、管理者の操作に基づいてクライアント24から書き込まれることもある。設定情報記憶部114は、管理者から見て障害との関連性が明らかに高いメッセージの種類および障害との関連性が明らかに低いメッセージの種類を示すユーザ設定情報を記憶する。ユーザ設定情報は、管理者の操作に基づいてクライアント24から書き込まれる。
頻度算出部121は、受信部111からメッセージを取得し、直近の一定時間(例えば、24時間)に取得されたメッセージの集合を管理し、メッセージの種類毎の出現頻度を継続的に算出する。頻度算出部121は、受信部111からメッセージを取得すると、取得したメッセージをメッセージバッファ122に追加し、また、一定時間より古いメッセージをメッセージバッファ122から削除する。そして、頻度算出部121は、メッセージバッファ122に記憶されているメッセージの集合から、メッセージの種類毎の出現頻度を示す頻度情報を生成し、生成した頻度情報を頻度情報記憶部123に格納する。
メッセージバッファ122は、監視サーバ100が収集したメッセージを一定時間だけ記憶するバッファ領域である。頻度情報記憶部123は、メッセージの種類と出現頻度と出現頻度に基づいて算出されるスコアとを対応付けた頻度情報を記憶する。スコアは、出現確率の逆数であり、出現頻度が高いほど小さく出現頻度が低いほど大きい値をとる。頻度情報は、頻度算出部121によって継続的に更新される。
パターン抽出部124は、受信部111からメッセージを取得し、スライディングウィンドウの時間(例えば、5分間)だけメッセージを保持し、メッセージのパターンを抽出する。パターン抽出部124は、受信部111からメッセージを取得すると、取得したメッセージが含まれるようにスライディングウィンドウをシフトし、スライディングウィンドウから外れた古いメッセージ(例えば、5分以上前のメッセージ)を削除する。そして、パターン抽出部124は、スライディングウィンドウに含まれるメッセージの種類を列挙したメッセージのパターンを抽出し、フィルタリング部125に出力する。
フィルタリング部125は、頻度情報記憶部123に記憶された最新の頻度情報および設定情報記憶部114に記憶されたユーザ設定情報を参照して、抽出されたパターンから背景ノイズを除外する。フィルタリング部125は、パターン抽出部124からパターンを取得すると、パターン内からスコアが閾値以下であるメッセージの種類(出現確率が閾値以上のメッセージの種類)を検索する。そして、フィルタリング部125は、検索されたメッセージの種類を背景ノイズと判定してパターン内から除外する。ただし、フィルタリング部125は、ユーザ設定情報によって障害との関連性が高いと指定されているメッセージの種類は除外しない。また、フィルタリング部125は、ユーザ設定情報によって障害との関連性が低いと指定されているメッセージの種類は除外する。フィルタリング部125は、フィルタリングしたパターンを学習部126に出力する。
学習部126は、障害情報記憶部113に記憶された障害情報を参照して、フィルタリングされたパターンと障害との間の相関を示す学習情報を生成し、学習情報記憶部127に格納する。学習部126は、フィルタリング部125からパターンを取得すると、取得したパターンが現れた時刻から一定時間以内に障害が発生したか判定する。パターンが現れた時刻としては、例えば、スライディングウィンドウの末尾の時刻やスライディングウィンドウに含まれる末尾のメッセージの受信時刻などを用いることができる。学習部126は、同じパターン現れた回数とそのうち一定時間以内に障害が発生した回数とをカウントし、パターンと障害との共起確率を継続的に更新していく。
なお、パターン抽出部124、フィルタリング部125および学習部126は、メッセージが受信されてすぐに当該メッセージを用いた学習を進めてもよい。ただし、学習部126では、パターンと障害との共起確率を算出するため、パターンが抽出されてから少なくとも一定時間待つことになる。また、パターン抽出部124、フィルタリング部125および学習部126は、バッチ処理のように、メッセージが受信されてからある程度時間が経った後に当該メッセージを用いた学習を進めてもよい。また、第2の実施の形態では、メッセージの集合からパターンを抽出した後に背景ノイズを除外しているが、メッセージの集合から背景ノイズを除外した後にパターンを抽出するようにしてもよい。
頻度算出部121、メッセージバッファ122、頻度情報記憶部123、パターン抽出部124おびフィルタリング部125は、学習系に属する。これに対し、頻度算出部131、メッセージバッファ132、頻度情報記憶部133、パターン抽出部134おびフィルタリング部135は、検知系に属しており学習系と対応している。
頻度算出部131は、受信部111からメッセージを取得し、直近の一定時間に取得されたメッセージの集合を管理し、メッセージの種類毎の出現頻度を継続的に算出する。メッセージバッファ132は、収集されたメッセージを一定時間だけ記憶するバッファ領域である。頻度情報記憶部133は、メッセージの種類と出現頻度と出現頻度に基づいて算出されるスコアとを対応付けた頻度情報を記憶する。パターン抽出部134は、受信部111からメッセージを取得し、スライディングウィンドウの時間だけメッセージを保持し、メッセージのパターンを抽出する。フィルタリング部135は、頻度情報記憶部133に記憶された最新の頻度情報および設定情報記憶部114に記憶されたユーザ設定情報を参照して、抽出されたパターンから背景ノイズを除外する。
パターン比較部136は、学習情報記憶部127に記憶された学習情報を参照して、障害の予兆を検知する。パターン比較部136は、フィルタリング部135からパターンを取得すると、取得したパターンを学習情報の中から検索する。学習情報に記載されたパターンからは学習時点における背景ノイズが除外されており、現在取得したパターンからは現時点における背景ノイズが除外されている。取得したパターンと障害との間の共起確率が閾値(例えば、80%)以上である場合、パターン比較部136は、障害の予兆がある、すなわち、現在から一定時間以内に障害が発生する可能性が高いと判定する。
警告部137は、パターン比較部136が障害の予兆を検知すると、システムの管理者に対して警告する。例えば、警告部137は、障害の予兆を示す警告情報を生成してクライアント24に送信する。ただし、警告部137は、監視サーバ100に接続されたディスプレイ31に警告情報を表示するようにしてもよい。警告情報には、例えば、障害の予兆があると判定する原因となったメッセージが含まれる。
図8は、メッセージテーブルの例を示す図である。
メッセージテーブル141は、受信された複数のメッセージを格納する。メッセージテーブル141に相当するテーブルとして、一定時間(例えば、24時間)分のメッセージを格納したメッセージテーブルが、メッセージバッファ122,132に記憶される。また、スライディングウィンドウの時間幅(例えば、5分間)分のメッセージを格納したメッセージテーブルが、パターン抽出部124,134によって保持されている。メッセージテーブル141は、時刻、種類およびメッセージの項目を含む。
時刻の項目には、受信部111がメッセージを受信した時刻が登録される。ただし、送信元の電子機器がメッセージに生成時刻または送信時刻を付与している場合、時刻の項目には、生成時刻または送信時刻が登録されてもよい。種類の項目には、メッセージの種類を示す識別情報が登録される。メッセージは、RAID(Redundant Arrays of Independent Disks)のインタフェース検出失敗、カウンタのオーバーフロー、ディスク検出失敗などの発生原因に応じて、複数の種類に分類される。メッセージの種類を示す識別情報は、送信元の電子機器がメッセージに付与してもよいし、受信部111が付与してもよい。メッセージの項目には、メッセージに記載された不具合の具体的な内容が登録される。
図9は、頻度テーブルの例を示す図である。
頻度テーブル142は、メッセージの種類と出現頻度と出現頻度に基づいて算出されるスコアとを対応付けた頻度情報を格納する。頻度テーブル142に相当するテーブルとして、頻度情報記憶部123,133それぞれに頻度テーブルが記憶される。頻度テーブル142は、種類、出現数、総数、頻度およびスコアの項目を含む。
種類の項目には、メッセージの種類を示す識別情報が登録される。出現数の項目には、各種類のメッセージの受信回数が登録される。総数の項目には、全ての種類のメッセージの受信総数が登録される。頻度の項目には、出現頻度として各種類のメッセージの出現確率が登録される。ある種類のメッセージの出現確率は、当該種類のメッセージの出現数を全ての種類のメッセージの総数で割ることで算出できる。スコアの項目には、メッセージの種類毎に、出現頻度が高いほど小さく出現頻度が低いほど大きい指標値が登録される。スコアは、例えば、出現確率の逆数として算出することができる。
頻度情報記憶部123に記憶された頻度テーブルの出現数や総数は、メッセージバッファ122に格納された学習に使用する一定時間分(例えば、24時間分)のメッセージの集合から算出される。新たなメッセージの受信などによってメッセージバッファ122に格納されたメッセージの集合が変わると、出現数・総数・頻度・スコアが更新される。頻度情報記憶部133に記憶された頻度テーブルに登録される出現数や総数は、メッセージバッファ132に格納された直近の一定時間分(例えば、直近の24時間分)のメッセージの集合から算出される。新たなメッセージの受信によってメッセージバッファ132に格納されたメッセージの集合が変わると、出現数・総数・頻度・スコアが更新される。
図10は、ユーザ設定テーブルの例を示す図である。
ユーザ設定テーブル143は、管理者によって作成されたユーザ設定情報を格納する。ユーザ設定テーブル143は、設定情報記憶部114に記憶されている。ユーザ設定テーブル143は、種類、除外フラグおよび非除外フラグの項目を含む。
種類の項目には、メッセージの種類を示す識別情報が登録される。除外フラグの項目には、当該種類のメッセージが、管理者から見て障害との関連性が低いか否かを示すフラグが設定される。障害との関連性が低いと指定されたメッセージの種類は、出現頻度が低い(スコアが大きい)場合であっても背景ノイズであると判定され、抽出されたパターンの中から除外される。非除外フラグの項目には、当該種類のメッセージが、管理者から見て障害との関連性が高いか否かを示すフラグが設定される。障害との関連性が高いと指定されたメッセージの種類は、出現頻度が高い(スコアが小さい)場合であっても背景ノイズでないと判定され、抽出されたパターンの中から除外されない。
図11は、障害テーブルの例を示す図である。
障害テーブル144は、障害検出部112または管理者によって作成された障害情報を格納する。障害テーブル144は、障害情報記憶部113に記憶されている。障害テーブル144は、時刻および障害の項目を含む。
時刻の項目には、障害が発生した時刻が登録される。障害発生を示すメッセージに基づいて障害情報を生成する場合、障害発生時刻として、メッセージに記載された生成時刻や送信時刻、受信部111が当該メッセージを受信した時刻などを用いることができる。障害の項目には、発生した障害の内容が登録される。障害の内容としては、例えば、HDD障害、性能低下、Webサーバ応答なしなどが挙げられる。
図12は、学習テーブルの例を示す図である。
学習テーブル145は、学習部126が生成した学習情報を格納する。学習テーブル145は、学習情報記憶部127に記憶されている。学習テーブル145は、パターン、障害、出現数、予兆数および共起確率の項目を含む。
パターンの項目には、同時期に受信されたメッセージの種類の組み合わせを示すメッセージのパターンが登録される。パターンを抽出するにあたり、スライディングウィンドウ内でのメッセージの出現順序は考慮しなくてよい。また、パターンを抽出するにあたり、スライディングウィンドウに同じ種類のメッセージが2以上含まれていても、同じ種類のメッセージの個数は考慮しなくてよい。例えば、各メッセージの種類の識別情報を用いて、[1,3,4,7,9]、[1,4,6,10,12]、[3,7,11,14]のようにパターンが表現される。ただし、学習テーブル145に登録されるパターンには、学習時に背景ノイズと判定されたメッセージの種類は含まれていない。
障害の項目には、障害テーブル144に登録された障害の内容のうち、パターンが出現してから一定時間以内に発生したことのある障害の内容が登録される。出現数の項目には、過去に各パターンが出現した回数が登録される。予兆数の項目には、パターンが出現してから一定時間以内に障害が発生した回数が登録される。共起確率の項目には、パターンと障害との間の相関を示す確率が登録される。相関が大きいほど共起確率が大きくなる。共起確率は、例えば、予兆数を出現数で割ることで算出できる。
次に、監視サーバ100が実行する情報処理の手順について説明する。
図13は、頻度算出の手順例を示すフローチャートである。
この頻度算出の手順は、学習系として、頻度算出部121が受信部111からメッセージを取得する毎に実行される。検知系として、頻度算出部131が受信部111からメッセージを取得する毎にも、頻度算出部121と同様の頻度算出の手順が実行される。
(S10)頻度算出部121は、受信部111から取得したメッセージ(新たに受信されたメッセージ)を、メッセージバッファ122に格納する。
(S11)頻度算出部121は、現在時刻から一定時間(例えば、24時間)以上古いメッセージをメッセージバッファ122から検索し、検索したメッセージを削除する。
(S12)頻度算出部121は、メッセージバッファ122に格納されているメッセージ、すなわち、直近の一定時間に収集されたメッセージの総数をカウントする。また、頻度算出部121は、各メッセージの種類を判定し、種類毎にメッセージバッファ122に格納されているメッセージの数(出現数)をカウントする。
(S13)頻度算出部121は、ステップS12でカウントした総数および種類毎の出現数を、頻度情報記憶部123の頻度テーブルに登録する。また、頻度算出部121は、総数および種類毎の出現数から種類毎の頻度および種類毎のスコアを算出し、当該頻度テーブルに登録する。例えば、頻度=出現数÷総数とし、スコアは頻度の逆数とする。
このようにして、学習系である頻度算出部121は、新たなメッセージの受信に応じて継続的に、学習時におけるメッセージの種類毎の出現頻度およびスコアを更新する。ただし、頻度算出部121は、メッセージ受信からある程度の時間が経過した後に頻度算出を行ってもよいし、ある程度の量のメッセージが溜まってから頻度算出を行ってもよい。また、検知系である頻度算出部131は、新たなメッセージの到着に応じて継続的に、現在(検知時)におけるメッセージの種類毎の出現頻度およびスコアを更新する。
図14は、パターン学習の手順例を示すフローチャートである。
このパターン学習の手順は、学習系として、パターン抽出部124が受信部111からメッセージを取得する毎に実行される。ただし、メッセージ受信からある程度の時間が経過した後や、ある程度の量のメッセージが溜まってから行うことも可能である。
(S20)パターン抽出部124は、受信部111から取得したメッセージ(新たに受信されたメッセージ)をスライディングウィンドウに追加する。
(S21)パターン抽出部124は、新たなメッセージの追加に応じてスライディングウィンドウを前方にシフトさせ、スライディングウィンドウから外れる古いメッセージを削除する。すなわち、パターン抽出部124は、保持しているメッセージの中から、新たなメッセージの受信時刻からスライディングウィンドウ時間幅(例えば、5分)以上古いメッセージを検索し、検索された古いメッセージを削除する。
(S22)パターン抽出部124は、スライディングウィンドウに含まれるメッセージの種類を判定し、メッセージの種類を列挙したパターンを生成する。
(S23)フィルタリング部125は、頻度情報記憶部123に記憶された頻度テーブルを参照して、ステップS22で生成されたパターンに含まれる複数のメッセージの種類のうち、スコアが閾値以下であるメッセージの種類を検索する。
(S24)フィルタリング部125は、設定情報記憶部114に記憶されたユーザ設定テーブル143を参照して、ステップS22で生成されたパターンに含まれる複数のメッセージの種類のうち、管理者から指定されたメッセージの種類を検索する。指定されるメッセージの種類には、前述のステップS13で算出されたスコアに関係なく、背景ノイズとして除外すべきものと背景ノイズではなく除外すべきでないものとが含まれ得る。
(S25)フィルタリング部125は、ステップS22で生成されたパターンから一部のメッセージの種類をフィルタリングすることで、背景ノイズを除外する。具体的には、フィルタリング部125は、スコアの低いメッセージの種類を生成されたパターンから除外する。ただし、ユーザ設定テーブル143によって背景ノイズでないと指定されたメッセージの種類は除外されない。また、フィルタリング部125は、ユーザ設定テーブル143によって背景ノイズであると指定されたメッセージの種類を除外する。
(S26)学習部126は、学習情報記憶部127に記憶された学習テーブル145において、フィルタリング部125が出力したパターンの出現数をインクリメントする。
(S27)学習部126は、障害情報記憶部113に記憶された障害テーブル144を参照して、フィルタリング部125が出力したパターンの現れた時刻から一定時間以内に障害が発生したか判断する。パターンの現れた時刻としては、例えば、スライディングウィンドウの末尾の時刻や、スライディングウィンドウに含まれる末尾のメッセージの受信時刻などを用いることができる。一定時間以内に障害が発生した場合はステップS28に処理が進み、障害が発生していない場合はステップS29に処理が進む。
(S28)学習部126は、学習テーブル145において、フィルタリング部125が出力したパターンの予兆数をインクリメントする。なお、学習テーブル145の障害の項目には、障害テーブル144に記載された障害の内容であって、パターンの現れた時刻から一定時間以内に発生した障害の内容が登録される。
(S29)学習部126は、学習テーブル145において、フィルタリング部125が出力したパターンの共起確率を更新する。ステップS27の判断がYESである場合、共起確率は、ステップS28で更新した予兆数をステップS26で更新した出現数で割ることで算出できる。ステップS27の判断がNOである場合、共起確率は、更新されない現在の予兆数をステップS26で更新した出現数で割ることで算出できる。
図15は、予兆検知の手順例を示すフローチャートである。
この予兆検知の手順は、検知系として、パターン抽出部134が受信部111からメッセージを取得する毎に(好ましくは、リアルタイムに)実行される。
(S30)パターン抽出部134は、受信部111から取得したメッセージ(新たに受信されたメッセージ)をスライディングウィンドウに追加する。
(S31)パターン抽出部134は、新たなメッセージの追加に応じてスライディングウィンドウを前方にシフトさせ、スライディングウィンドウから外れる古いメッセージを削除する。すなわち、パターン抽出部134は、保持しているメッセージの中から、新たなメッセージの受信時刻からスライディングウィンドウ時間幅(例えば、5分)以上古いメッセージを検索し、検索された古いメッセージを削除する。
(S32)パターン抽出部134は、スライディングウィンドウに含まれるメッセージの種類を判定し、メッセージの種類を列挙したパターンを生成する。
(S33)フィルタリング部135は、頻度情報記憶部133に記憶された頻度テーブルを参照して、ステップS32で生成されたパターンに含まれる複数のメッセージの種類のうち、スコアが閾値以下であるメッセージの種類を検索する。スコアが閾値以下である(出現頻度が閾値以上である)メッセージの種類は、過去に学習テーブル145が更新されたとき(学習時)と現在(検知時)とで異なる可能性がある。
(S34)フィルタリング部135は、設定情報記憶部114に記憶されたユーザ設定テーブル143を参照して、ステップS32で生成されたパターンに含まれる複数のメッセージの種類のうち、管理者から指定されたメッセージの種類を検索する。
(S35)フィルタリング部135は、ステップS32で生成されたパターンから一部のメッセージの種類をフィルタリングすることで、背景ノイズを除外する。具体的には、フィルタリング部135は、スコアの低いメッセージの種類を生成されたパターンから除外する。ただし、ユーザ設定テーブル143によって背景ノイズでないと指定されたメッセージの種類は除外されない。また、フィルタリング部135は、ユーザ設定テーブル143によって背景ノイズであると指定されたメッセージの種類を除外する。
(S36)パターン比較部136は、フィルタリング部135が出力したパターンを、学習情報記憶部127に記憶された学習テーブル145から検索する。
(S37)パターン比較部136は、フィルタリング部135が出力したパターンが学習テーブル145に登録されており、かつ、当該パターンの共起確率が閾値以上であるか判断する。この条件を満たす場合、パターン比較部136は監視対象のシステムに障害の予兆があると判断し、ステップS38に処理が進む。この条件を満たさない(フィルタリング部135が出力したパターンが学習テーブル145に登録されていないか、または、当該パターンの共起確率が閾値未満である)場合、障害の予兆がないと判断する。
(S38)警告部137は、管理者に対して障害の予兆を警告する。例えば、警告部137は、障害の予兆を示す警告情報を生成してクライアント24に送信する。
第2の実施の形態の情報処理システムによれば、学習時のメッセージの種類毎の出現頻度に基づいて学習時の背景ノイズが判定され、背景ノイズを除外したメッセージのパターンが学習される。また、検知時のメッセージの種類毎の出現頻度に基づいて検知時の背景ノイズが判定され、背景ノイズを除外したメッセージのパターンと学習結果とが比較される。これにより、監視対処のシステムの構成変更や業務プロセスの変更などに応じて背景ノイズが変化しても、既存の学習結果を利用して障害の予兆を検知することができる。その結果、再学習の負荷を抑制でき、また、障害予兆検知の精度を高めることができる。また、第2の実施の形態では、継続的に頻度情報が更新されるため、背景ノイズの変化に迅速に対応でき、学習精度および障害予兆の検知精度を向上させることができる。
[第3の実施の形態]
次に、第3の実施の形態を説明する。前述の第2の実施の形態との違いを中心に説明し、第2の実施の形態と同様の事項については適宜説明を省略する。第3の実施の形態の情報処理システムは、図2と同様の構成によって実現できる。ただし、第3の実施の形態の情報処理システムは、監視サーバ100に代えて後述する監視サーバ100aを含む。監視サーバ100aは、メッセージのパターンと障害との相関を学習するタイミングや、メッセージの種類毎の出現頻度を更新するタイミングが、監視サーバ100と異なる。
図16は、監視サーバの他の機能例を示すブロック図である。
監視サーバ100aは、受信部111、障害検出部112、障害情報記憶部113および設定情報記憶部114を有する。また、監視サーバ100aは、パターン抽出部124a、フィルタリング部125a、学習部126、学習情報記憶部127およびログ記憶部128を有する。また、監視サーバ100aは、頻度算出部131a、頻度情報記憶部133a、パターン抽出部134、フィルタリング部135a、パターン比較部136、警告部137およびログ記憶部138を有する。以下、監視サーバ100aが有するユニットのうち、第2の実施の形態の監視サーバ100と異なるユニットについて説明する。
ログ記憶部128は、受信部111で受信されたメッセージを含むログファイルを記憶する。受信部111で新たなメッセージが受信されると、当該メッセージがログファイルに追記される。メッセージは、パターン抽出部124aから利用されると消去される。
パターン抽出部124aは、ログ記憶部128に記憶されたログファイルをバッチ方式で処理することで、ログファイルに含まれるメッセージの集合からメッセージのパターンを抽出する。例えば、パターン抽出部124aは、ログファイルからメッセージを1つ読み込む毎にスライディングウィンドウをシフトし、スライディングウィンドウに含まれるメッセージの種類を列挙したパターンを生成する。全てのメッセージの読み込みを終えると、パターン抽出部124aは、ログファイルを初期化(メッセージを消去)する。
バッチ方式であるため、パターン抽出部124aは、間欠的にログファイルを処理する。ログファイルを処理するタイミングとして、例えば、監視対象のシステムの構成が変更されたタイミングが挙げられる。システムの構成が変更されることは、管理サーバ25に問い合わせることで知ることができる。また、ログファイルを処理するタイミングとして、所定の周期(例えば、24時間や1ヶ月)や所定の時刻なども挙げられる。
フィルタリング部125aは、頻度情報記憶部133aに記憶された頻度情報および設定情報記憶部114に記憶されたユーザ設定情報を参照して、パターン抽出部124aが抽出したパターンから背景ノイズを除外する。後述するように、頻度情報記憶部133aには、異なる複数の期間についての頻度情報が記憶されている。フィルタリング部125aは、今回処理されたログファイルに対応する期間の頻度情報を選択して使用する。
具体的には、フィルタリング部125aは、パターン内からスコアが閾値以下であるメッセージの種類(出現確率が閾値以上であるメッセージの種類)を検索する。このとき、複数の期間(複数の世代)の頻度情報のうち、ログファイルに対応する期間(ログファイルと同じ世代)の頻度情報を参照する。そして、フィルタリング部125aは、検索されたメッセージの種類を背景ノイズと判定してパターン内から除外する。ただし、フィルタリング部125aは、ユーザ設定情報によって障害との関連性が高いと指定されているメッセージの種類は除外しない。また、フィルタリング部125aは、ユーザ設定情報によって障害との関連性が低いと指定されているメッセージの種類は除外する。
ログ記憶部138は、受信部111で受信されたメッセージを含むログファイルを記憶する。受信部111で新たなメッセージが受信されると、当該メッセージがログファイルに追記される。メッセージは、頻度算出部131aから利用されると消去される。
頻度算出部131aは、ログ記憶部138に記憶されたログファイルをバッチ方式で処理することで、ログファイルに含まれるメッセージの集合からメッセージの種類毎の出現頻度を算出する。頻度算出部131aは、ログファイルからメッセージを1つずつ読み込むことで、メッセージの種類毎の出現頻度を示す頻度情報を生成し、頻度算出に用いたメッセージの期間(ログファイルの世代)を示す期間情報と対応付けて頻度情報記憶部133aに格納する。全てのメッセージの読み込みを終えると、頻度算出部131aは、ログ記憶部138に記憶されたログファイルを初期化(メッセージを消去)する。
なお、頻度算出部131aがログファイルを処理するタイミングは、パターン抽出部124aがログファイルを処理するタイミングと同じでもよいし異なってもよい。例えば、頻度算出を行うタイミングとして、監視対象のシステムの構成が変更されたタイミング、所定の周期(例えば、24時間や1ヶ月)、所定の時刻などが挙げられる。
頻度情報記憶部133aは、メッセージの種類と出現頻度と出現頻度に基づいて算出されるスコアとを対応付けた頻度情報を、1回のバッチ処理毎に記憶する。すなわち、頻度情報記憶部133aは、異なる複数の期間のメッセージの集合から算出された複数の期間分(複数の世代)の頻度情報を記憶する。また、頻度情報記憶部133aは、各頻度情報が何れの期間に対応するものかを管理するための期間情報を記憶する。
フィルタリング部135aは、頻度情報記憶部133aに記憶された頻度情報および設定情報記憶部114に記憶されたユーザ設定情報を参照して、パターン抽出部134が抽出したパターンから背景ノイズを除外する。このとき、頻度情報記憶部133aに記憶された複数の期間の頻度情報のうち、最新の頻度情報が使用される。
図17は、期間テーブルの例を示す図である。
期間テーブル146は、頻度算出部131aが生成した期間情報を格納する。期間テーブル146は、頻度情報記憶部133aに記憶されている。期間テーブル146は、期間、開始時刻および終了時刻の項目を含む。
期間の項目には、頻度情報の生成に用いたメッセージの集合(ログファイルの世代)を識別するための識別情報が登録される。開始時刻の項目には、頻度情報の生成に用いたメッセージの集合の中で最先のメッセージの受信時刻が設定される。ただし、開始時刻の項目に、前回バッチ処理を行った時刻や、前回バッチ処理を行った後であってメッセージの受信を再開した時刻などを登録してもよい。終了時刻の項目には、頻度情報の生成に用いたメッセージの集合の中で末尾のメッセージの受信時刻が設定される。ただし、終了時刻の項目に、今回バッチ処理を行った時刻などを登録してもよい。
図18は、頻度算出の他の手順例を示すフローチャートである。
(S40)頻度算出部131aは、頻度情報を生成するタイミングが到来すると、新たな期間(新たな世代)の頻度テーブルを生成して頻度情報記憶部133aに格納する。
(S41)頻度算出部131aは、ログ記憶部138に記憶されたログファイルから、メッセージを1つ読み込む。このとき、ログファイルの先頭から順に読み込んでいく。ただし、ステップS41では、任意の順序でメッセージを読み込むようにしてもよい。
(S42)頻度算出部131aは、頻度テーブルに記載されたメッセージの総数をインクリメントする。また、頻度算出部131aは、読み込んだメッセージの種類を判定し、頻度テーブルにおいて判定した種類に対応する出現数をインクリメントする。
(S43)頻度算出部131aは、ログファイルの終端に達したか、すなわち、ログファイルに含まれる全てのメッセージが読み込まれたか判断する。終端に達した場合はステップS44に処理が進み、それ以外の場合はステップS41に処理が進む。
(S44)頻度算出部131aは、頻度テーブルに記載されたメッセージの総数と種類毎の出現数から、種類毎の出現頻度とスコアを算出して頻度テーブルに登録する。例えば、出現頻度=出現数÷総数とし、スコアは出現頻度の逆数とする。
(S45)頻度算出部131aは、頻度情報記憶部133aに記憶された期間テーブル146に、新たな期間の識別情報と、当該期間を示す開始時刻・終了時刻を登録する。
図19は、パターン学習の他の手順例を示すフローチャートである。
(S50)パターン抽出部124aは、学習を行うタイミングが到来すると、ログ記憶部128に記憶されたログファイルからメッセージを1つ読み込む。このとき、ログファイルの先頭から順に(受信時刻の早い順に)メッセージを読み込んでいく。
(S51)パターン抽出部124aは、図14のステップS20〜22と同様にして、スライディングウィンドウを用いてメッセージのパターンを生成する。
(S52)フィルタリング部125aは、頻度情報記憶部133aに記憶された複数の期間(複数の世代)の頻度テーブルの中から、今回処理するログファイルが属する期間(ログファイルと同じ世代)に対応する頻度テーブルを選択する。頻度テーブルの選択にあたっては、頻度情報記憶部133aに記憶された期間テーブル146が参照される。
(S53)フィルタリング部125aは、図14のステップS23〜S25と同様にして、ステップS51で生成されたパターン内から背景ノイズを除外する。ただし、ステップS23に相当する処理においては、ステップS52で選択した頻度テーブルに記載されているメッセージの種類毎のスコア(ログファイルと同じ期間のスコア)を使用する。
(S54)学習部126は、学習情報記憶部127に記憶された学習テーブル145において、フィルタリング部125aが出力したパターンの出現数をインクリメントする。
(S55)学習部126は、障害情報記憶部113に記憶された障害テーブル144を参照して、フィルタリング部125aが出力したパターンの現れた時刻から一定時間以内に障害が発生したか判断する。一定時間以内に障害が発生した場合はステップS56に処理が進み、障害が発生していない場合はステップS57に処理が進む。
(S56)学習部126は、学習テーブル145において、フィルタリング部125aが出力したパターンの予兆数をインクリメントする。
(S57)パターン抽出部124aは、ログファイルの終端に達したか、すなわち、ログファイルに含まれる全てのメッセージが読み込まれたか判断する。終端に達した場合はステップS58に処理が進み、それ以外の場合はステップS50に処理が進む。
(S58)学習部126は、学習テーブル145において各パターンの共起確率を更新する。共起確率は、パターン毎に予兆数を出現数で割ることで算出できる。
第3の実施の形態の情報処理システムによれば、第2の実施の形態と同様、監視対処のシステムの構成変更や業務プロセスの変更などに応じて背景ノイズが変化しても、既存の学習結果を利用して障害の予兆を検知することができる。その結果、再学習の負荷を抑制でき、障害予兆検知の精度を高めることができる。また、第3の実施の形態では、頻度情報や学習情報がバッチ方式で更新されるため、監視サーバ100aの負荷を抑制できる。
なお、前述のように、第1の実施の形態の情報処理は、情報処理装置10にプログラムを実行させることで実現することができる。第2および第3の実施の形態の情報処理は、監視サーバ100,100aにプログラムを実行させることで実現することができる。
プログラムは、コンピュータ読み取り可能な記録媒体(例えば、記録媒体33)に記録しておくことができる。記録媒体としては、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどを使用できる。磁気ディスクには、FDおよびHDDが含まれる。光ディスクには、CD、CD−R(Recordable)/RW(Rewritable)、DVDおよびDVD−R/RWが含まれる。プログラムは、可搬型の記録媒体に記録されて配布されることがある。その場合、可搬型の記録媒体からHDDなどの他の記録媒体(例えば、HDD103)にプログラムを複製して(インストールして)実行してもよい。
10 情報処理装置
11 記憶部
12 演算部
13a,13b メッセージの集合
14 障害情報
15a,15b メッセージのパターン

Claims (6)

  1. 監視対象のシステムから複数の種類のメッセージを収集するコンピュータが実行する障害予兆検知方法であって、
    第1のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、学習に使用しない第1のメッセージの種類を判定し、
    前記第1のメッセージの集合および前記システムの障害発生を示す障害情報から、障害が発生するときに現れるメッセージのパターンであって前記第1のメッセージの種類を除外した第1のメッセージのパターンを学習し、
    前記第1のメッセージの集合より後に第2のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、検知に使用しない第2のメッセージの種類を判定し、
    前記第2のメッセージの集合から、前記第2のメッセージの種類を除外した第2のメッセージのパターンを生成し、前記第1のメッセージのパターンと前記第2のメッセージのパターンとを比較することで前記システムの障害の予兆を検知する、
    障害予兆検知方法。
  2. 前記第1のメッセージの種類は、複数のメッセージの種類のうち前記第1のメッセージの集合を取得したときにおける出現頻度が閾値以上であるメッセージの種類であり、
    前記第2のメッセージの種類は、前記複数のメッセージの種類のうち前記第2のメッセージの集合を取得したときにおける出現頻度が閾値以上であるメッセージの種類である、
    請求項1記載の障害予兆検知方法。
  3. 前記システムの動作状態が変化したことを検出し、前記システムの動作状態の変化を契機として前記メッセージの種類毎の出現頻度を再計算する、
    請求項1または2記載の障害予兆検知方法。
  4. 前記第1のメッセージの種類が除外された前記第1のメッセージのパターンと、前記第2のメッセージの種類が除外された前記第2のメッセージのパターンとが一致するとき、前記システムの障害の予兆があると判定する、
    請求項1乃至3の何れか一項に記載の障害予兆検知方法。
  5. 監視対象のシステムから収集した複数の種類のメッセージと、前記システムの障害発生を示す障害情報とを記憶する記憶部と、
    第1のメッセージの集合および前記障害情報から、障害が発生するときに現れる第1のメッセージのパターンを学習し、前記第1のメッセージの集合より後に取得した第2のメッセージの集合から第2のメッセージのパターンを生成し、前記第1のメッセージのパターンと前記第2のメッセージのパターンとを比較することで前記システムの障害の予兆を検知する演算部と、
    を有し、前記演算部は、
    前記第1のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、学習に使用しない第1のメッセージの種類を判定し、前記第1のメッセージのパターンから前記第1のメッセージの種類を除外し、
    前記第2のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、検知に使用しない第2のメッセージの種類を判定し、前記第2のメッセージのパターンから前記第2のメッセージの種類を除外する、
    情報処理装置。
  6. 監視対象のシステムから複数の種類のメッセージを収集するコンピュータに、
    第1のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、学習に使用しない第1のメッセージの種類を判定し、
    前記第1のメッセージの集合および前記システムの障害発生を示す障害情報から、障害が発生するときに現れるメッセージのパターンであって前記第1のメッセージの種類を除外した第1のメッセージのパターンを学習し、
    前記第1のメッセージの集合より後に第2のメッセージの集合を取得したときにおけるメッセージの種類毎の出現頻度に基づいて、検知に使用しない第2のメッセージの種類を判定し、
    前記第2のメッセージの集合から、前記第2のメッセージの種類を除外した第2のメッセージのパターンを生成し、前記第1のメッセージのパターンと前記第2のメッセージのパターンとを比較することで前記システムの障害の予兆を検知する、
    処理を実行させるプログラム。
JP2013249027A 2013-12-02 2013-12-02 障害予兆検知方法、情報処理装置およびプログラム Expired - Fee Related JP6152788B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013249027A JP6152788B2 (ja) 2013-12-02 2013-12-02 障害予兆検知方法、情報処理装置およびプログラム
US14/540,398 US9442785B2 (en) 2013-12-02 2014-11-13 Fault symptom detection method and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013249027A JP6152788B2 (ja) 2013-12-02 2013-12-02 障害予兆検知方法、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2015106334A JP2015106334A (ja) 2015-06-08
JP6152788B2 true JP6152788B2 (ja) 2017-06-28

Family

ID=53265405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013249027A Expired - Fee Related JP6152788B2 (ja) 2013-12-02 2013-12-02 障害予兆検知方法、情報処理装置およびプログラム

Country Status (2)

Country Link
US (1) US9442785B2 (ja)
JP (1) JP6152788B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9208051B2 (en) * 2012-12-26 2015-12-08 Bmc Software, Inc. Automatic creation of graph time layer of model of computer network objects and relationships
JP6287274B2 (ja) * 2014-01-31 2018-03-07 富士通株式会社 監視装置、監視方法及び監視プログラム
JP5775618B1 (ja) * 2014-03-14 2015-09-09 株式会社コナミデジタルエンタテインメント メッセージ表示制御装置、メッセージ表示制御システム、メッセージ表示制御サーバ、及びプログラム
JP6451483B2 (ja) * 2015-05-11 2019-01-16 富士通株式会社 予兆検知プログラム、装置、及び方法
US9594624B2 (en) * 2015-06-12 2017-03-14 International Business Machines Corporation Resolving and preventing computer system failures caused by changes to the installed software
DE102016008987B4 (de) 2015-07-31 2021-09-16 Fanuc Corporation Maschinenlernverfahren und Maschinenlernvorrichtung zum Lernen von Fehlerbedingungen, und Fehlervorhersagevorrichtung und Fehlervorhersagesystem, das die Maschinenlernvorrichtung einschließt
JP2017111601A (ja) * 2015-12-16 2017-06-22 富士通株式会社 調査対象特定プログラム、および調査対象特定方法
JP6785603B2 (ja) * 2016-09-16 2020-11-18 株式会社Screenホールディングス 異常予測システム、プログラム、および異常予測方法
US20200183805A1 (en) * 2016-10-13 2020-06-11 Nec Corporation Log analysis method, system, and program
US10852951B1 (en) * 2017-10-18 2020-12-01 EMC IP Holding Company, LLC System and method for improving I/O performance by introducing extent pool level I/O credits and user I/O credits throttling on Mapped RAID
US10852966B1 (en) * 2017-10-18 2020-12-01 EMC IP Holding Company, LLC System and method for creating mapped RAID group during expansion of extent pool
JP6512646B1 (ja) * 2018-02-13 2019-05-15 Necプラットフォームズ株式会社 保守管理装置、システム及びプログラム
CN110609759B (zh) * 2018-06-15 2021-09-14 华为技术有限公司 一种故障根因分析的方法及装置
JPWO2020240680A1 (ja) * 2019-05-28 2020-12-03
JP7156543B2 (ja) * 2019-08-20 2022-10-19 日本電信電話株式会社 パターン抽出およびルール生成装置、方法およびプログラム
US11269706B2 (en) * 2020-07-15 2022-03-08 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for alarm correlation and aggregation in IT monitoring

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353902B1 (en) * 1999-06-08 2002-03-05 Nortel Networks Limited Network fault prediction and proactive maintenance system
JP4746850B2 (ja) * 2004-06-21 2011-08-10 富士通株式会社 パターン生成プログラム
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
JP4506520B2 (ja) * 2005-03-16 2010-07-21 日本電気株式会社 管理サーバ、メッセージの抽出方法、及び、プログラム
US8370108B2 (en) * 2007-03-22 2013-02-05 Nec Corporation Diagnostic device
JP5277667B2 (ja) * 2008-03-07 2013-08-28 日本電気株式会社 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP5431235B2 (ja) 2009-08-28 2014-03-05 株式会社日立製作所 設備状態監視方法およびその装置
JP5541130B2 (ja) * 2010-12-10 2014-07-09 富士通株式会社 管理装置、管理方法および管理用プログラム
JP5609637B2 (ja) * 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
JP2013030092A (ja) * 2011-07-29 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> ログ管理システム、ログ管理装置及びログ管理方法
JP5692414B2 (ja) * 2011-12-15 2015-04-01 富士通株式会社 検知装置、検知プログラムおよび検知方法
US9298525B2 (en) * 2012-12-04 2016-03-29 Accenture Global Services Limited Adaptive fault diagnosis
US9612898B2 (en) * 2013-06-03 2017-04-04 Nec Corporation Fault analysis apparatus, fault analysis method, and recording medium

Also Published As

Publication number Publication date
US9442785B2 (en) 2016-09-13
US20150154062A1 (en) 2015-06-04
JP2015106334A (ja) 2015-06-08

Similar Documents

Publication Publication Date Title
JP6152788B2 (ja) 障害予兆検知方法、情報処理装置およびプログラム
JP5423904B2 (ja) 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
US9690645B2 (en) Determining suspected root causes of anomalous network behavior
US11513935B2 (en) System and method for detecting anomalies by discovering sequences in log entries
CN107171819B (zh) 一种网络故障诊断方法及装置
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US11030038B2 (en) Fault prediction and detection using time-based distributed data
WO2020000404A1 (en) Multi-factor cloud service storage device error prediction
JP5704234B2 (ja) メッセージ判定装置およびメッセージ判定プログラム
US20110246835A1 (en) Management server and management system
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN112579327B (zh) 一种故障检测方法、装置及设备
US12021681B2 (en) Communication device, surveillance server, and log collection method
US10360090B2 (en) Determination method, determination apparatus, and recording medium
CN105607973B (zh) 一种虚拟机***中设备故障处理的方法、装置及***
US9860109B2 (en) Automatic alert generation
CN113903389A (zh) 一种慢盘检测方法、装置及计算机可读写存储介质
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
JP2015035160A (ja) 監視データ記憶装置、監視データ記憶方法およびプログラム
JP7082285B2 (ja) 監視システム、監視方法および監視プログラム
US11809271B1 (en) System and method for identifying anomalies in data logs using context-based analysis
JP7097408B2 (ja) 局所的ホットスポットを処理する方法、装置、電子デバイス及び記憶媒体
JP2020135701A (ja) 情報処理システム、情報処理装置および情報処理プログラム
US9953266B2 (en) Management of building energy systems through quantification of reliability
US20230396511A1 (en) Capacity Aware Cloud Environment Node Recovery System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170515

R150 Certificate of patent or registration of utility model

Ref document number: 6152788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees