JP2015028700A - 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 - Google Patents

障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 Download PDF

Info

Publication number
JP2015028700A
JP2015028700A JP2013157773A JP2013157773A JP2015028700A JP 2015028700 A JP2015028700 A JP 2015028700A JP 2013157773 A JP2013157773 A JP 2013157773A JP 2013157773 A JP2013157773 A JP 2013157773A JP 2015028700 A JP2015028700 A JP 2015028700A
Authority
JP
Japan
Prior art keywords
failure
log
information
failure detection
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013157773A
Other languages
English (en)
Inventor
明彦 西谷
Akihiko Nishitani
明彦 西谷
茂莉 黒川
Mori Kurokawa
茂莉 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013157773A priority Critical patent/JP2015028700A/ja
Publication of JP2015028700A publication Critical patent/JP2015028700A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】サイレント障害を監視する監視サーバを備えた監視システムにおいて、複数種類の状態を並行して観測分析することで、精度良く障害を検知可能とする障害検知装置を得る。
【課題手段】監視対象ホストのサイレント障害の発生を監視する障害検知装置において、前記監視対象ホストにおけるシステムログと、前記監視対象ホストにおける過去に存在したシステムログのログ遷移である正常状態モデルとを比較して異常を判定する異常判定部と、前記異常判定部で異常が判定された場合に、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データによるネガティブな事象を考慮するとともに、直前のシステムログの単語出現分布と、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルとを比較することでサイレント障害を推定する障害推定部とを備える。
【選択図】図1

Description

本発明は、複数の監視対象ホストのサイレント障害(発生しても症状が出ない障害)を監視する監視サーバを備えた障害検知システムに関し、特に、サイレント障害の発生を効率良く検出する障害検知装置、障害検知方法、障害検知プログラム及び記録媒体に関する。
従来から、ウェブサーバやメールサーバ等のサーバシステムにおけるサイレント障害に関しては、監視対象ホストとなるサーバから出力されるテキストのログであるシスログ(syslog)をモニタリングし、CPU負荷、メモリ利用量、I/O待ち数、パケット数等のリソース情報をチェックすることで、サイレント障害発生の有無を判断する手法が行われていた。
例えば、閾値監視による異常検知によれば、CPU使用率、メモリ使用量等の指定された監視項目を定期的に監視し、観測値が設定した閾値を上下するかしないかで異常を検知する。死活監視、リソース監視技術を用いる一般的な監視ツール(Zabbix、Nagios等)が相当する。
また、相関分析による異常検知によれば、リソース情報、性能情報等の互いの時系列な普遍関係の存在を発見・モデル化・監視し、平常時モデルと異なる挙動の調査により異常を検知する。
状態遷移パターン分析による異常検知によれば、ログレコードやリソース情報の時系列な遷移パターンをモデル化・監視し、平常時モデルには無い遷移パターンの調査により異常を検知する。
上述したシステム又はプロセスの動作の異常を検出する技術は、例えば、特許文献1〜特許文献3及び非特許文献1〜2に開示されている。
特願2012−275113号 特開2012−094046号公報 特開2010−250502号公報
電子情報通信学会 Vol100、P50-P60 NEC技報 Vol.63 No.2/2010.「WebSAM Ver.8が実現するクラウド時代のデータセンター運用」
しかしながら、上述した手法であると、リソース情報のみを基に障害の有無を判断するため、障害発生に関して精度良い判断ができない(障害とは関係の無い異常も検知する率が高く、かつ検知した異常が何の障害によるものなのかわかりづらい)という課題があった。
また、全ての監視対象ホストに対してリソース情報を定期的にモニタリングする必要があるため、監視するトラフィック量が多くなり監視負荷も高くなるという課題があった。
従来の相関分析や遷移パターン分析といった検知技術では、監視システムは正常状態を示すモデルをシステム内部に保持し、定期的に観測する現時点の状態を正常状態モデルに照らし合わせ異常か否かを判定し、異常であればアラームを発行する。そこで、異常と判断された状態が継続し、アラームが連続的に発行されるのを防ぐため、一度検出された異常は正常状態としてモデルに学習され、以降同様の状態が発生しても異常としては認識しない仕組み(自動学習機能)を備えている。
しかし、この自動学習機能を利用した場合、同種の異常が複数回発生しても最初の一度しか検知されないため、規模は小さいが(件数は少ないが)継続的に異常が発生しているといった状況を検知することができないという問題があった。
本発明は上記実情に鑑みて提案されたもので、サイレント障害を監視する監視サーバを備えた監視システムにおいて、監視対象ホストを監視する場合の監視負荷の軽減を図りながら、複数種類の状態を並行して観測分析することで、精度良く障害を検知可能とする障害検知装置、障害検知方法、障害検知プログラム及び記録媒体を提供することを目的としている。
上記目的を達成するため本発明は、監視対象ホストのサイレント障害の発生を監視する障害検知装置において、次の構成を含むことを特徴としている。
前記監視対象ホストにおけるシステムログと、前記監視対象ホストにおける過去に存在したシステムログのログ遷移である正常状態モデルとを比較して異常を判定する異常判定部。
前記異常判定部で異常が判定された場合に、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データによるネガティブな事象を考慮するとともに、直前のシステムログの単語出現分布と、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルとを比較することでサイレント障害を推定する障害推定部。
請求項2の発明は、監視対象ホストのサイレント障害の発生を監視する障害検知装置において、次の構成を含むことを特徴としている。
前記監視対象ホストにおける過去に存在したシステムログのログ遷移を正常状態モデルとして読み込むと共に、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布を結果予想モデルとして読み込む初期設定部。
前記監視対象ホストにおけるログ遷移監視によりシステムログと、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データとを読み込む情報収集部。
前記システムログを前記各モデルと比較可能な形式に加工するデータ情報加工部。
前記システムログと前記正常状態モデルを比較して異常を判定する異常判定部。
前記異常判定部で異常が判定された場合に、前記観測データによるネガティブな事象を考慮するとともに、直前のシステムログの単語出現分布と前記結果予想モデルとを比較することでサイレント障害を推定する障害推定部。
学習効果による正常状態モデルの生成保持と、前記障害推定部によりサイレント障害が推定された結果予想モデルの生成保持を行うモデル生成部。
前記モデル作成部において一定期間学習することなく前記異常判定部において前記システムログの新規遷移を観測する非学習期間を管理するタイマ管理部。
請求項3は、監視対象ホストのサイレント障害の発生を監視する方法において、
前記監視対象ホストのシステムログと、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データについて、それぞれ正常状態モデルを生成保持し、複数種類の観測項目を組み合わせて異常の有無を観測する手順と、
前記監視対象ホストの過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布を結果予想モデルとして保持し、複数の観測項目において同時に異常が見受けられる際の直前システムログの単語出現分布と前記結果予想モデルとを比較することでサイレント障害の有無を判断する手順と、
を備えたことを特徴としている。
請求項4は、請求項3の障害検知方法において、前記結果予想モデルは、新規遷移の検知数に紐づく単語出現分布(出現率)情報、又は、新規遷移のカテゴリ構成要素に紐づく単語出現分布(出現率)情報により形成することを特徴としている。
請求項5は、請求項3の障害検知方法において、前記結果予想モデルを、マハラノビス距離、Z検定、T検定等の分析手法により、前記直前システムログの状態と比較することを特徴としている。
請求項6は、請求項3の障害検知方法において、前記ログ遷移監視により検出される新規遷移の組の数が、運用者が指定した閾値を超えた時点から運用者が指定した期間学習せず、前記新規遷移が毎時間閾値を超える数分出続けるか観測することにより、ノイズを除去し、目立たず継続する前記閾値を超えた状態を注視して異常として捉えることでサイレント障害の可能性を疑うことを特徴としている。
請求項7は、請求項6の障害検知方法において、前記閾値を超える新規遷移は、全て継続して観測することを特徴としている。
請求項8は、請求項6の障害検知方法において、前記閾値を超える新規遷移は、特定のキーワードを含む新規遷移のみ継続して観測することを特徴としている。
請求項9は、請求項3の障害検知方法において、複数の観測対象を、 システム稼働開始時あるいは稼働中に運用者が指定可能としたことを特徴としている。
請求項10は、請求項3の障害検知方法において、障害と判断された状態を障害状態モデルとして保管し、以降に同様の状態が検出された場合は、過去の障害状態モデルから抽出した情報を参考値として提示可能としたことを特徴としている。
請求項11は、請求項3の障害検知方法において、障害と判断された状態を、システム稼働開始時あるいは稼働中に運用者の指示により障害モデルに学習させることを可能とすることを特徴としている。
請求項12は、請求項3に記載の監視対象ホストの障害検知方法の各手順をコンピュータにより実行することが可能な障害検知プログラムを特徴としている。
請求項13は、請求項12に記載の障害検知プログラムが格納されたコンピュータに読み取り可能な記録媒体であることを特徴としている。
本発明によれば、サーバシステム(監視対象ホスト)からのシステムログと、SNS(呟き情報等)、お客様からの問合せ状況(キャリアにおけるコールセンター情報等)、行動情報(Webアクセス情報、GPS情報等)、サービスへのアクセス数の複数種類の観測項データを組み合わせて観測し、複数種類の観測項目において同時に異常が発見された場合に障害を疑うとともに、直前のシステムログの単語出現分布と、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルとを比較することでサイレント障害を推定するので、ログ分析とともに他の観測結果における異常を考慮することで、サーバシステムにおける障害発生の有無の判断についての精度を高めることができる。
また、観測対象にて検知した異常の数が、運用者が指定した閾値を超えた時間から運用者が指定した期間(例えば数時間とか2日間とか)モデル学習せず、一定期間異常が継続するかどうか観測することで、動的に学習することで異常有無が判断できない状況が発生することを防止する。
本発明の障害検知装置を使用して各種サーバシステムのシステムログと、SNSによるつぶやき情報を収集して障害を検知する場合のシステム全体構成図である。 本発明の障害検知装置の構成を示すブロック図である。 障害検知装置の異常判定部の構成を示すブロック図である。 監視装置に読み込まれたログ情報に対してクラスタリングを行ってモデル化する場合の説明図である。 障害検知装置が監視するサーバシステムにおける異常パターンの発生例を示すモデル図である。
監視対象ホストのサイレント障害の発生を監視する障害検知装置を備えた監視システムの実施形態の一例について、図1〜図4を参照しながら説明する。
障害検知装置(監視サーバ)10は、図1に示すように、監視対象となる複数のサーバシステム(監視対象ホスト)1からシステムログ情報の収集を行うとともに、ソーシャルネットワーク(SNS)2からの情報を収集し、それぞれ正常モデルとの比較を行い、双方異常であればサイレント障害の発生を疑うとともに、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルとの照合を行うことでサイレント障害の有無を推定し、各サーバシステム(監視対象ホスト)1の運用者に対してメールや画面表示、音声等でアラームを発行して障害検知結果の通知を行うものである。
障害検知装置(監視サーバ)10は、Linux(登録商標)等の一般的なオペレーティングシステム(OS)を含む基本プログラムや各種の基本デバイスが記憶されたROMと、各種のプログラムやデータが記憶されるハードディスクドライブ装置(HDD)と、CR−ROMやDVD等の記憶媒体からプログラムやデータを読み出すメディアドライブ装置と、プログラムを実行するCPUと、このCPUにワークエリアを提供するRAMと、外部装置と通信するパラレル/シリアルIFとを主要な構成としたコンピュータで構成され、記録媒体等を介して監視プログラムがHDDに格納されることで、監視対象となる各種サーバシステム1のサイレント障害を検知可能なように構成されている。
障害検知装置(監視サーバ)10は、図2に示すように、初期設定パラメータや過去モデルを読み込む初期設定部11と、複数観測データを読み込む情報収集部12と、読み込んだデータを加工するデータ情報加工部13と、異常判定部14と、障害推定部15と、モデル生成部16と、タイマ管理部17と、アラーム発行部18を備えて構成されている。
初期設定部11は、各種サーバシステム(監視対象ホスト)1における過去に存在したシステムログのログ遷移を正常状態モデルとして読み込むと共に、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布を結果予想モデルとして読み込む。
結果予想モデルは、例えば、「仮にこのようなパターンの新規遷移が出現した場合には、それ以前の一定期間におけるログ中の単語出現率はこういう分布と予想される」といったような予測を、過去のデータを基に行うことで作成される単語出現率の分布モデルから構成される。
具体的な結果予想モデルX(単語出現分布)は、
単語の分布モデルが、
単語1:60%
単語2:50%
単語3:35%

単語N:〜%
のように、出現率トップN個の単語をピックアップしたデータから構成される。
そして、結果予想モデルと実際のシステムログの分布モデルとを比較した場合に、実際のシステムログの分布モデルが結果予想モデルで予測された分布モデル通りにならなかった場合、未知の障害(サイレント障害)として疑うことが可能となる。
初期設定部11には、過去に生成した障害状態モデルの情報が存在する場合には、障害状態モデルとして読み込まれる。
例えば、過去に障害と判断した際の
(1)各種サーバシステム1におけるログ遷移パターン、
(2)SNS情報2におけるネガティブな呟きの出現数(率)リスト等、
(3)各種サーバシステム1における直近のログメッセージ中の単語出現分布、
が障害状態モデルとして保管される。
初期設定部11に読み込まれた各情報は、情報収集部12、データ情報加工部13、異常判定部14、障害推定部15、モデル生成部16の各部間で読み出し可能なメモリ上にて共有する。
また、障害検知を行う場合の各種設定に関する初期設定パラメータが読み込まれる。
情報収集部12は、各サーバシステム(監視対象ホスト)1におけるログ遷移監視によるシステムログと、呟き等のSNS情報、キャリアにおけるコールセンター情報、Webアクセス情報やGPS情報等のユーザ行動情報、サービスへのアクセス数等の複数種類の観測データを読み込む。
データ情報加工部13は、情報収集部12で収集されたシステムログ及び観測データについて、初期設定部11に読込まれた正常状態モデル、障害状態モデル、結果予側モデルの各モデルと比較可能なデータ形式への加工が行われる。
異常判定部14は、システムログ(原因情報源)と正常状態モデル(原因情報源正常モデル)、観測データ(結果情報源)と正常状態モデル(結果情報源正常モデル)を比較して異常を判定する。
異常判定部14は、システムログの分析を行って異常の有無を判断するため、図3に示すように、ログ読込部21と、ログクラスタリング部22と、ログ分析部23とを備えて構成されている。ログ読込部21では、各サーバシステム1で日々発生する各種のログ情報(syslog)が情報収集部12及び情報加工部13を介してサーバシステム毎に定期的に読み込まれる。
ログクラスタリング部22は、一つのサーバシステム(仮想ホスト)1に対して読み込まれた不定形なログ情報(syslog)をカテゴリ毎に分類する。ログ情報(syslog)は、時刻、ホスト名、プログラム名等の情報が含まれている。カテゴリは、ログ情報(syslog)を構成する項目の数や種類により複数のカテゴリに分類される。例えば、図4のように、一つのサーバシステム(仮想ホスト)から読み込まれた各ログ情報について、項目の数や種類(ログ情報のAug719:00:04〜Vpxaに続く省略されたメッセージ部分が異なる)から同種のログ情報同士をカテゴリA,B,C,D…に分類する。
モデル生成部16では、ログ情報の分類結果を基に正常時におけるログ情報の遷移モデルを作成する。例えば、ログ情報をカテゴリA,B,C,Dに分類した図4の場合、遷移元と遷移先の平常モデルとして「カテゴリAからB」「カテゴリAからD」「カテゴリBからC」「カテゴリCからA」が登録(モデル化)される。
正常時におけるログ情報の遷移モデルは、例えば障害のないログ情報の1か月分から予め複数の遷移モデルとして登録しておく。
また、障害のないログ情報の遷移モデルは、正常モデルとして常時追加されるように構成してもよい。
ログ分析部23は、新たに読み込まれたログ情報のログ分類結果と、モデル生成部16で作成された遷移モデルを比較し、ログ分類結果によるログ遷移が遷移モデルに無い場合をログ変化と認定する処理が行われる。例えば、正常モデルとして「カテゴリAからB」「カテゴリAからD」「カテゴリBからC」「カテゴリCからA」が登録(モデル化)されている場合に、「カテゴリBからC」「カテゴリCからB」「カテゴリAからB」「カテゴリBからA」「カテゴリCからA」といった遷移を検知したとすると、「カテゴリCからB」と「カテゴリBからA」が正常モデルに無いため、新規遷移(ログ変化の認定による異常検知)を検出したことになる。
そして、ログ分析部23がログ変化を検知した場合(異常が判定された場合)、障害推定部15に対して障害推定指示信号が出力し、この信号を受けた障害推定部15は、複数種類の観測データと前記結果予想モデルから障害を推定する処理が行われる。
すなわち、障害推定部15では、異常判定部14で異常が判定された場合に、観測データによるネガティブな事象を考慮するとともに、直前のシステムログの単語出現分布と上述した結果予想モデルとを比較することでサイレント障害の有無を推定する。
過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルは、事前に初期設定部11に読込まれるものであるが、新規遷移が形成されるパターンは、(a)既存カテゴリの組み合わせで形成される新規遷移と、(b)新規カテゴリを含む新規遷移、が存在する。
(a)の既存カテゴリの組み合わせによる場合は、上述した例によると、「カテゴリAからB」「カテゴリAからD」「カテゴリBからC」「カテゴリCからA」が正常モデルとして登録(モデル化)されている場合に、正常モデルに無い「カテゴリCからB」と「カテゴリBからA」が該当する。
(b)新規カテゴリを含む新規遷移は、新しいカテゴリを含む組み合わせが該当する。
本例においては、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルは、新規遷移のカテゴリ構成要素に紐づく単語出現分布(出現率)情報により形成したが、新規遷移の検知数に紐づく単語出現分布(出現率)情報により形成するようにしてもよい。
モデル生成部16は、正常状態モデルを生成保持(学習)するとともに、障害推定部15によりサイレント障害が推定された結果予想モデルを生成保持する。
モデル生成部16に障害推定部15によりサイレント障害が推定された結果予想モデルが保持されている場合において、異常判定部14でログ遷移が障害状態モデルのログ遷移パターンと同じであると判定された時、ある区間でのネガティブな呟きの出現数(率)が障害状態モデル以上で、収集した直近のログメッセージ中の一般的な分布類似計算手法による単語出現分布が障害状態モデルと類似している場合には、障害推定部15において無条件にサイレント障害と推定する。
また、段落番号0031で記載した(1)〜(3)の3項目について、AND条件で障害を推定するようにしてもよい。
タイマ管理部17は、モデル作成部16において一定期間学習することなく異常判定部14においてシステムログの新規遷移を観測する非学習期間を管理する。
すなわち、ログ遷移監視により検出される新規遷移の組の数が、運用者が指定した閾値を超えた時点から運用者が指定した期間学習せず、新規遷移が毎時間閾値を超える数分出続けるか観測することにより、ノイズを除去し、目立たず継続する前記閾値を超えた状態を注視して異常として捉えることでサイレント障害の可能性を疑う。
この結果、一定期間学習を行わないことで、即座に障害とみなすことなく、継続的に観測することにより、ノイズ(障害ではない一時的な作業等による異常)を無視できる。また、サイレント障害の症状は目立たず継続して少しずつ悪化するケースが多いため、このような事象による障害を捉え易くすることができる。
次に、上述した障害検知装置(監視サーバ)10を使用して各種サーバシステム(監視対象ホスト)1のサイレント障害を検知する手順について、図1を参照して説明する。
手順1として、SNS情報2からのネガティブな呟きの出現数(率)を定期的に観測し、観測結果を蓄積する。
手順2として、各サーバシステム1からの正常状態のログを読み込み、ログ遷移の正常状態モデルを作成する。
手順3として、各サーバシステム1から定期的にログを読み込み、新規遷移を監視する(一定期間継続して発生するか観測する)。
手順4として、連続して新規遷移を検出した場合に、検出した期間内のネガティブな呟きの出願数(率)が閾値を超えている場合、双方の異常から障害を疑い、次の手順に進む。
手順5として、検出した新規遷移のパターンに紐づく単語出現分布(結果予想モデル)と、直近のログメッセージ中の単語出現分布をチェックする。
結果予想モデルと直近のシステムログとの照合は、例えば該当する結果予側モデルが上述した結果予想モデルX(単語出現分布)である場合、単語の分布モデルが異なっていないかついて判定される。異なっていれば、従前の説明変数で説明できない事象を検知したこととなり、サイレント障害を疑うこととなる。
結果予想モデルX(単語出現分布)と、直前ログの単語出現率の分布モデルとが異なっているかどうかの判定は、例えば、前ログの単語出現率の分布モデルの各単語の出現率が結果予想モデルXの各単語の出現率とどのくらい一致しているか(乖離しているか)により判定される。どの程度の一致(乖離)による判断基準は、初期設定部11への入力で予め設定することができる。
また、結果予想モデルと直近のシステムログとの照合を行うに際して、マハラノビス距離、Z検定、T検定等の分析手法により、直前システムログの状態と比較してもよい。
手順6として、観測した直近の単語出現分布が、結果予側モデルとかけ離れていた場合(予想精度が低かった場合)、未知の障害を疑い、実際のシステムログの分布モデルにおいて、予想外に出現したり、出現しなかった単語を運用者に通知することで、サイレント障害原因追究の参考情報として提供することができる。
手順7として、既知の障害として結果予想モデルはモデル生成部16で学習される。
また、障害と判断された状態を、システム稼働開始時あるいは稼働中に運用者の指示により障害モデルに手動操作により学習させるようにしてもよい。
各種サーバシステム(監視対象ホスト)1のサイレント障害を検知するに際して、一定期間、ログの新規遷移とSNS情報(ネガティブな呟きの出現)2を監視した例を図5に示す。
図5において、棒状グラフで検出された各システムログにおける障害個数は、単発では障害と疑われる閾値を下回っているが、閾値より低い異常が連続的に発生している状態(状態A)であり、その期間において、ネガティブな呟きの出現数(もしくは出現率)が閾値以上(状態B)であれば、状態A及び状態Bからサイレント障害を疑うことが行われる。
すなわち、状態Bにおいては、SNS情報2の呟き情報において、ネガティブワードの出現数(もしくは出現率)が、ある期間において運用者が設定した閾値未満の場合は正常状態とし、閾値以上の場合は異常と判断する。
また、閾値を超える新規遷移の出現数は、全て継続して観測してもよいし、特定のキーワードを含む新規遷移のみ継続して観測するようにしてもよい。
尚、図5においては、SNS情報2における状態Bは、Twitter情報(どのような呟きがされているか)を例にしたが、これに代えた(若しくは加えた)判定基準として、
・コールセンター情報(お客様からどのような問い合わせを受けているか)
・Webアクセスログ(どのようなWebサイトにアクセスされているか)
・GPS情報(どのような場所に移動しているか)
・サービスへのアクセス数
といったものも考慮することができる。
これらの情報についても、正常状態を定義することで異常を識別可能とするため、本発明の障害検知方法を実現するための状態判定要素の一つとなり得る。
また、複数の観測対象のいずれかを観測データとして使用するかについては、障害検知装置のシステム稼働開始時(初期設定パラメータ入力時)、あるいは稼働中に運用者が指定可能なようにしてもよい。
これらにおいて、正常と異常を判断する場合の手法について、以下に説明する。
・コールセンター情報(お客様からどのような問い合わせを受けているか)による場合
対応者のメモおよびテキスト化された音声データにおいて、ネガティブワードの出現数(もしくは出現率)が、ある期間において運用者が設定した閾値未満の場合は正常状態とし、閾値以上の場合は異常と判断する。
・Webアクセスログ(どのようなWebサイトにアクセスされているか)による場合
観測対象システムを利用して提供されるサービスや、該当サービスを提供する会社に関わるホームページのアクセス数ランキングを正常時にモデル化しておき、ある期間における各ホームページへのアクセス数をモデルと照合して異常を判断する。
例えば、KDDIが提供する各ホームページへのアクセス数を正常時にモデル化しておき、普段は滅多にアクセスされないHPへのアクセスが急に多くなった場合に異常と判断する。
また、関連ホームページ内で検索されるキーワードにおいて、ネガティブワードの出現数(もしくは出現率)が、ある期間において運用者が設定した閾値以上の場合も異常と判断する。
・位置情報(どのような場所に移動しているか)による場合
観測対象システムを利用して提供されるサービスに接続する端末のGPS情報等から、正常時の動き(GPS等の履歴)をモデル化しておき、ある期間においてモデルに無い位置へ移動した端末数が、運用者が設定した閾値以上の場合は異常と判断する。
・サービスへのアクセス数による場合
観測対象システムを利用して提供されるサービスに対する接続要求数を正常時にモデル化しておき、ある期間におけるサービスへの接続要求数が、ある期間において運用者が設定した上下閾値の以上もしくは以下となった場合に異常と判断する。
上述した障害検知装置によれば、直前のシステムログの単語出現分布と、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルとを比較するとともに、複数種類の観測データを分析することで障害か否かの判断を行うので、検知した異常をサイレント障害と判断する精度を高めることができる。
システムログのログ遷移に異常があった場合においても、即座に障害とみなさず継続的に観測することにより、ノイズ(障害ではない一時的な作業等による異常)を無視できる。また、サイレント障害の症状は目立たず継続して少しずつ悪化するケースが多いため、該当障害を捉え易くすることができる。
結果予測モデルと共起変数の特定により、事象と相関のある新規の原因(未知の原因)を特定できる。すなわち、予想とかけ離れた異常状態を見つけることにより、未知の状態を検出することができる。
1…サーバシステム(監視対象ホスト)、 2…SNS情報、 10…障害検知装置(監視サーバ)、 11…初期設定部、 12…情報収集部12、 13…データ情報加工部、 14…異常判定部、 15…障害推定部、 16…モデル生成部、 17…タイマ管理部、 18…アラーム発行部18、 21…ログ読込部、 22…ログクラスタリング部、 23…ログ分析部。

Claims (13)

  1. 監視対象ホストのサイレント障害の発生を監視する障害検知装置において、
    前記監視対象ホストにおけるシステムログと、前記監視対象ホストにおける過去に存在したシステムログのログ遷移である正常状態モデルとを比較して異常を判定する異常判定部と、
    前記異常判定部で異常が判定された場合に、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データによるネガティブな事象を考慮するとともに、直前のシステムログの単語出現分布と、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布である結果予想モデルとを比較することでサイレント障害を推定する障害推定部と、
    を具備したことを特徴とする障害検知装置。
  2. 監視対象ホストのサイレント障害の発生を監視する障害検知装置において、
    前記監視対象ホストにおける過去に存在したシステムログのログ遷移を正常状態モデルとして読み込むと共に、過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布を結果予想モデルとして読み込む初期設定部と、
    前記監視対象ホストにおけるログ遷移監視によりシステムログと、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データとを読み込む情報収集部と、
    前記システムログを前記各モデルと比較可能な形式に加工するデータ情報加工部と、
    前記システムログと前記正常状態モデルを比較して異常を判定する異常判定部と、
    前記異常判定部で異常が判定された場合に、前記観測データによるネガティブな事象を考慮するとともに、直前のシステムログの単語出現分布と前記結果予想モデルとを比較することでサイレント障害を推定する障害推定部と、
    学習効果による正常状態モデルの生成保持と、前記障害推定部によりサイレント障害が推定された結果予想モデルの生成保持を行うモデル生成部と、
    前記モデル作成部において一定期間学習することなく前記異常判定部において前記システムログの新規遷移を観測する非学習期間を管理するタイマ管理部と、
    を具備したことを特徴とする障害検知装置。
  3. 監視対象ホストのサイレント障害の発生を監視する方法において、
    前記監視対象ホストのシステムログと、SNS情報、キャリアにおけるコールセンター情報、ユーザ行動情報、サービスへのアクセス数の内の少なくとも一つの観測データについて、それぞれ正常状態モデルを生成保持し、複数種類の観測項目を組み合わせて異常の有無を観測する手順と、
    前記監視対象ホストの過去のシステムログの新規遷移出現時に紐付いた一定時間内の単語出現分布を結果予想モデルとして保持し、複数の観測項目において同時に異常が見受けられる際の直前システムログの単語出現分布と前記結果予想モデルとを比較することでサイレント障害の有無を判断する手順と、
    を備えたことを特徴とした障害検知方法。
  4. 前記結果予想モデルは、新規遷移の検知数に紐づく単語出現分布(出現率)情報、又は、新規遷移のカテゴリ構成要素に紐づく単語出現分布(出現率)情報により形成する請求項3に記載の障害検知方法。
  5. 前記結果予想モデルを、マハラノビス距離、Z検定、T検定等の分析手法により、前記直前システムログの状態と比較する請求項3に記載の障害検知方法。
  6. 前記ログ遷移監視により検出される新規遷移の組の数が、運用者が指定した閾値を超えた時点から運用者が指定した期間学習せず、前記新規遷移が毎時間閾値を超える数分出続けるか観測することにより、ノイズを除去し目立たず継続する前記閾値を超えた状態を注視して異常として捉えることでサイレント障害の可能性を疑う請求項3に記載の障害検知方法。
  7. 前記閾値を超える新規遷移は、全て継続して観測する請求項6に記載の障害検知方法。
  8. 前記閾値を超える新規遷移は、特定のキーワードを含む新規遷移のみ継続して観測する請求項6に記載の障害検知方法。
  9. 複数の観測対象を、 システム稼働開始時あるいは稼働中に運用者が指定可能とした請求項3に記載の障害検知方法。
  10. 障害と判断された状態を障害状態モデルとして保管し、以降に同様の状態が検出された場合は、過去の障害状態モデルから抽出した情報を参考値として提示可能とした請求項3に記載の障害検知方法。
  11. 障害と判断された状態を、システム稼働開始時あるいは稼働中に運用者の指示により障害モデルに学習させることを可能とする請求項3に記載の障害検知方法。
  12. 請求項3に記載の監視対象ホストの障害検知方法の各手順をコンピュータにより実行することが可能な障害検知プログラム。
  13. 請求項12に記載の障害検知プログラムが格納されたことを特徴とするコンピュータに読み取り可能な記録媒体。
JP2013157773A 2013-07-30 2013-07-30 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 Pending JP2015028700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013157773A JP2015028700A (ja) 2013-07-30 2013-07-30 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013157773A JP2015028700A (ja) 2013-07-30 2013-07-30 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2015028700A true JP2015028700A (ja) 2015-02-12

Family

ID=52492370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013157773A Pending JP2015028700A (ja) 2013-07-30 2013-07-30 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2015028700A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084106A (ja) * 2015-10-28 2017-05-18 株式会社 日立産業制御ソリューションズ 気付き情報提供装置及び気付き情報提供方法
CN108090648A (zh) * 2016-11-22 2018-05-29 松下知识产权经营株式会社 诊断用电设备工作状态的方法、装置及显示装置
CN112286766A (zh) * 2020-11-02 2021-01-29 深圳市巨文科技有限公司 一种硬件故障报警***
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN114866401A (zh) * 2022-05-06 2022-08-05 辽宁振兴银行股份有限公司 一种分布式交易链路日志分析方法及***
CN115333929A (zh) * 2022-07-14 2022-11-11 深圳市大头兄弟科技有限公司 一种基于集群的日志预警方法和相关设备
US11640459B2 (en) 2018-06-28 2023-05-02 Nec Corporation Abnormality detection device
CN116166967A (zh) * 2023-04-21 2023-05-26 深圳开鸿数字产业发展有限公司 基于元学习与残差网络的数据处理方法、设备和存储介质
CN116566512A (zh) * 2023-07-07 2023-08-08 四川九洲空管科技有限责任公司 一种机载防撞***降低同频干扰虚警的方法
JP7425918B1 (ja) 2023-07-25 2024-01-31 Kddi株式会社 情報処理装置、情報処理方法及びプログラム
JP7437145B2 (ja) 2019-12-10 2024-02-22 Tis株式会社 監視サーバ、プログラム、及び監視方法
CN117855107A (zh) * 2024-03-06 2024-04-09 上海朋熙半导体有限公司 水***监测处理方法、***及可读介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084106A (ja) * 2015-10-28 2017-05-18 株式会社 日立産業制御ソリューションズ 気付き情報提供装置及び気付き情報提供方法
CN108090648A (zh) * 2016-11-22 2018-05-29 松下知识产权经营株式会社 诊断用电设备工作状态的方法、装置及显示装置
US11640459B2 (en) 2018-06-28 2023-05-02 Nec Corporation Abnormality detection device
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN112579327B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
JP7437145B2 (ja) 2019-12-10 2024-02-22 Tis株式会社 監視サーバ、プログラム、及び監視方法
CN112286766A (zh) * 2020-11-02 2021-01-29 深圳市巨文科技有限公司 一种硬件故障报警***
CN114866401A (zh) * 2022-05-06 2022-08-05 辽宁振兴银行股份有限公司 一种分布式交易链路日志分析方法及***
CN115333929A (zh) * 2022-07-14 2022-11-11 深圳市大头兄弟科技有限公司 一种基于集群的日志预警方法和相关设备
CN116166967A (zh) * 2023-04-21 2023-05-26 深圳开鸿数字产业发展有限公司 基于元学习与残差网络的数据处理方法、设备和存储介质
CN116566512A (zh) * 2023-07-07 2023-08-08 四川九洲空管科技有限责任公司 一种机载防撞***降低同频干扰虚警的方法
CN116566512B (zh) * 2023-07-07 2023-09-01 四川九洲空管科技有限责任公司 一种机载防撞***降低同频干扰虚警的方法
JP7425918B1 (ja) 2023-07-25 2024-01-31 Kddi株式会社 情報処理装置、情報処理方法及びプログラム
CN117855107A (zh) * 2024-03-06 2024-04-09 上海朋熙半导体有限公司 水***监测处理方法、***及可读介质
CN117855107B (zh) * 2024-03-06 2024-06-11 上海朋熙半导体有限公司 水***监测处理方法、***及可读介质

Similar Documents

Publication Publication Date Title
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
EP3745272B1 (en) An application performance analyzer and corresponding method
CN107171819B (zh) 一种网络故障诊断方法及装置
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
EP2759938B1 (en) Operations management device, operations management method, and program
EP2523115B1 (en) Operation management device, operation management method, and program storage medium
AU2017274576B2 (en) Classification of log data
JP2017076360A (ja) 予測信頼性マイニングのためのシステム及び方法
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20110276836A1 (en) Performance analysis of applications
JP6413537B2 (ja) 障害予兆通報装置および予兆通報方法、予兆通報プログラム
WO2013043170A1 (en) Automated detection of a system anomaly
CN109034423B (zh) 一种故障预警判定的方法、装置、设备及存储介质
KR101893563B1 (ko) 사물인터넷 기반 화재 블랙박스 시스템 및 그 운용 방법
JP6280862B2 (ja) イベント分析システムおよび方法
JP6223380B2 (ja) 中継装置及びプログラム
CN111459692A (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
KR101281460B1 (ko) 통계적 공정 관리도를 이용하여 이상증후를 탐지하는 방법
CN116881962B (zh) 一种安全监控***、方法、装置和存储介质
CN106533812B (zh) 一种应用服务器
JP6832890B2 (ja) 監視装置、監視方法、及びコンピュータプログラム
US20210027254A1 (en) Maintenance management apparatus, system, method, and non-transitory computer readable medium
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
JP2020035297A (ja) 機器状態監視装置及びプログラム