JP2014153736A - 障害予兆検出方法、プログラムおよび装置 - Google Patents

障害予兆検出方法、プログラムおよび装置 Download PDF

Info

Publication number
JP2014153736A
JP2014153736A JP2013020110A JP2013020110A JP2014153736A JP 2014153736 A JP2014153736 A JP 2014153736A JP 2013020110 A JP2013020110 A JP 2013020110A JP 2013020110 A JP2013020110 A JP 2013020110A JP 2014153736 A JP2014153736 A JP 2014153736A
Authority
JP
Japan
Prior art keywords
monitoring
week
date
monitoring data
allowable range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013020110A
Other languages
English (en)
Inventor
Akira Goto
公 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013020110A priority Critical patent/JP2014153736A/ja
Publication of JP2014153736A publication Critical patent/JP2014153736A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】 障害予兆検出で、監視対象の稼働状況に応じた閾値で障害予兆を判定できるようにする。
【解決手段】 障害予兆検出装置1は、監視対象2について異常が検出されなかった期間の監視対象2の監視データを曜日、時間帯、日にち、または、週数毎に分類して記憶部(23)に記憶し(14)、記憶部に記憶された監視データの曜日、時間帯、日にち、または、週数毎の分布をもとに許容範囲を設定し、監視対象2から取得した監視データと、監視データの監視日時が属する曜日、時間帯、日にち、または、週数の監視データの分布にもとづく許容範囲とを比較し、監視データが該許容範囲の上限または下限を超える場合に監視対象2の障害予兆を検出する(13)。
【選択図】 図2

Description

本発明は、コンピュータシステム監視における障害予兆の検出技術に関する。
24時間稼働するコンピュータシステムでは、障害によるシステム停止を極力短くする必要がある。そのため、コンピュータシステムが停止してから障害を検知するのではなく、障害の予兆を検知して、停止前の障害の回避や復旧作業の初動を早くすることが求められている。
従来のコンピュータシステムの障害監視では、コンピュータシステムの停止を検出した後または稼働状況が予め設定された閾値を超えた時に異常を通知するようにしていた。
障害検出の従来手法の1つとして、監視対象システムの性能を表す時系列データを一定周期で抽出し、過去の時系列データとして過去のメタデータに関連付けて格納し、リアルタイムの時系列データを示すメタデータと照合し、今後の変化を検出して障害を出力する手法が知られている。
また、別の従来手法として、障害管理の対象から出力されたログ情報と過去の障害発生時の障害ログ情報とを読み出し、ログ情報および障害ログ情報の類似度を判定し、類似度が高い障害ログ情報の障害関連情報を出力する手法が知られている。
さらに、別の従来手法として複数のネットワーク装置からの監視情報を初期監視情報として連続的に収集し、収集した連続情報の統計的な振舞いを監視し、通常の振舞いと異なる場合に異常発生の予兆の検出とみなして関連する複数の監視情報収集を指示する手法が知られている。
特開2009−289221号公報 特開2006−099249号公報 特開2005−285040号公報
監視対象のコンピュータシステムで実際に障害が発生する前にその予兆を検知する必要がある。障害の予兆を閾値で判定する場合に、閾値の設定が問題となる。設定した閾値が低すぎれば誤検知が生じやすく、高すぎれば検知の直後に障害となる。
また、コンピュータシステムによっては夜間にバッチ処理を実行したり特定時機にシステムを一時停止したりすることがあり、コンピュータシステムの稼働状況は常に一定であるとは限らない。そのため、変動する稼働状況に応じて閾値を変える必要がある。
さらに、コンピュータシステムでは障害のない運用が期待されているため、障害が実際に発生する前から適切な閾値を設定する必要がある。
しかしながら、従来手法では、監視対象の稼働状況に応じた閾値で障害予兆を検出することができず、また、実際に障害が発生しなければ適切な閾値を得ることができなかった。
1つの側面では、本発明は、監視対象の通常時の稼働情報から監視時の稼働状況に応じた閾値を設定して障害予兆を検出できる障害予兆検出を実行する方法、プログラムおよび装置を提供することである。さらに、本発明の前記ならびに他の目的と新規な特徴は、明細書の記述および添付図面から明らかにされるであろう。
1実施態様に係る障害予兆検出方法は、監視対象システムについて異常が検出されなかった期間における該監視対象システムの監視データを曜日、時間帯、日にち、または、週数毎に分類して記憶部に記憶し、前記記憶部に記憶された監視データの曜日、時間帯、日にち、または、週数毎の分布をもとに許容範囲を設定し、前記監視対象システムから現在取得した監視データと、該現在の日時が属する曜日、時間帯、日にち、または、週数の監視データの分布にもとづく許容範囲とを比較し、該取得した監視データが該許容範囲の上限または下限を超える場合に前記監視対象システムの障害予兆を検出する、処理をコンピュータが実行するものである。
監視対象のコンピュータシステムの稼働状況に応じた適切な閾値を用いて障害予兆を検出する処理を実現することができる。
障害予兆検出装置の一実施例におけるハードウェア構成例を示す図である。 開示する障害予兆検出装置の一実施例における機能ブロック例を示す図である。 監視結果ログテーブルの一実施例におけるデータ構成例を示す図である。 監視閾値テーブルの一実施例におけるデータ構成例を示す図である。 正常稼働情報テーブルの一実施例におけるデータ構成例を示す図である。 稼働システムテーブルの一実施例におけるデータ構成例を示す図である。 障害予兆検出装置の一実施例における障害予兆の検出処理フローを示す図である。 障害予兆検出装置が取得する監視結果と許容範囲との関係例を示す図である。 障害予兆検出装置の一実施例における閾値設定処理フローを示す図である。
以下、本発明の一態様として開示する障害予兆検出方法を実行する障害予兆検出装置について説明する。
図1は、障害予兆検出装置1の一実施例におけるハードウェア構成例を示す図である。
障害予兆検出装置1は、CPU101、短期記憶部(DRAM)102、長期記憶部(HDD)103、ネットワークインタフェース104、入力装置(キーボード、マウス等)105、出力装置(ディスプレイ、プリンタ等)106が内部ネットワーク等で接続されたコンピュータとして実施することができる。
障害予兆検出装置1は、監視対象のコンピュータシステムの障害予兆を検出する処理に必要な情報をファイルとして長期記憶部103に記憶し、入力装置105から実行プログラムを起動し、起動された実行プログラムが、短期記憶部102にロードされ、ネットワークインタフェース104で受信した監視対象のコンピュータシステムの正常時の稼働状況を示す情報(正常稼働情報)をもとに障害予兆の検出処理を実行する。
障害予兆検出装置1は、必要に応じて情報を長期記憶部103から短期記憶部102に読み出しながら障害予兆検出処理を進める。障害予兆検出装置1は、監視対象の正常稼働情報を日時情報と対応付けて記憶し、記憶した正常稼働情報をもとに監視時に対応する許容範囲を示す閾値(上限値、下限値)を設定し、リアルタイムで取得した稼働情報が監視時の許容範囲を超えた場合に障害予兆検出を出力する。
障害予兆検出装置1は、正常稼働情報として、監視対象のコンピュータシステムの正常時の稼働状況における情報、例えば、監視対象のコンピュータシステムを構成する各システムを実行するコンピュータ装置のCPU使用率、記憶領域使用率、未処理データ件数等の情報を用いる。
なお、障害予兆検出処理の実行プログラムは、CD−ROM、CD−RW、DVD−R、DVD−RAM、DVD−RW等やフレキシブルディスク等の記録媒体だけでなく、通信回線の先に備えられた他の記憶装置やコンピュータのハードディスク等に記憶されるものであってもよい。
図2は、開示する障害予兆検出装置1の一実施例における機能ブロック例を示す図である。
障害予兆検出装置1は、一実施例において、医療機関に設置されたコンピュータシステムを監視対象2とし、そのコンピュータシステムを構成する各システムを監視対象システム2A〜2Cについて障害予兆を検出する。
障害予兆検出装置1は、上記処理を実行するため、監視結果取得部11、監視結果比較部12、正常稼働情報比較部13、正常稼働情報算出部14、予兆検知通知部15を備え、データ保管場所として、監視結果ログテーブル21、監視閾値テーブル22、正常稼働情報テーブル23を備える。
さらに、障害予兆検出装置1は、稼働システム比較部16、閾値設定部17、データ保管場所の稼働システムテーブル24を備えてもよい。
監視結果取得部11は、監視対象2であるコンピュータシステムの各監視対象システム2A〜2Cそれぞれから正常時の稼働状況を示すデータである監視結果データを取得し、監視データに監視対象および監視日時を付けた監視結果ログデータを監視結果ログテーブル21に記録する。なお、監視結果データは、監視対象システム2A〜2Cを実行する各コンピュータ装置に常駐する監視プログラム等により生成され障害予兆検出装置1へ送信されるものとする。
図3は、監視結果ログテーブル21のデータ構成例を示す図である。
監視結果ログテーブル21は、施設、監視日時、監視対象機器、監視項目および監視結果のデータ項目を有する。「施設」は監視対象2のコンピュータシステムが設置されている場所を識別する情報である。「監視日時」は、監視結果データを取得した日時を示す情報、「監視対象機器」は監視対象2のコンピュータシステムの各監視対象システムを実行するコンピュータ装置等の機器を識別する情報である。
「監視項目」は、監視対象2に対して監視する稼働状況の項目を示す情報であり、例えば、CPU使用率、記憶領域の使用率(ディスク使用率)、処理するデータのうち未処理のデータの件数(未処理データ件数)等が予め設定される。「監視結果」は、監視項目の状況について監視日時に取得された値である。
図3に示す監視結果ログテーブル21の例では、先頭データが、“A病院”に設置された監視対象2のコンピュータシステムを構成する“電子カルテサーバ”で“2012年02月20日 00時00分”取得した“CPU使用率”の監視結果が“32%”であることを表している。
監視結果比較部12は、監視結果ログテーブル21に現時点で取得した監視結果ログデータが記録されると、監視閾値テーブル22に記憶された監視結果ログデータの監視結果を監視閾値と比較し、監視結果が対応する監視閾値を超過する場合に「異常検知」を出力する。
図4は、監視閾値テーブル22のデータ構成例を示す図である。
監視閾値テーブル22は、施設、監視対象機器、監視項目、閾値th1、閾値th2のデータ項目を有する。
監視閾値テーブル22の「施設」、「監視対象機器」、「監視項目」は、監視結果ログテーブル21の同名のデータ項目と同じ情報である。監視閾値の「閾値th1」および「閾値th2」は、異常検知を出力するかを判定する情報である。監視閾値は、1つが設定されていればよく、図4に示すように、異常の段階に応じて複数の閾値が設定されていてもよい。
図4に示す監視閾値テーブル22の先頭データは、“A病院”に設置された監視対象2のコンピュータシステムの監視対象システム“電子カルテサーバ”の“CPU使用率”について、閾値th1=85%および閾値th2=90%が設定されていることを表している。
監視結果比較部12は、監視結果ログテーブル21にリアルタイムで取得された監視結果ログデータが記録されると、監視閾値テーブル22から、その監視結果ログデータと施設、監視対象機器、および監視項目が一致する閾値th1および閾値th2を抽出し、その監視結果ログデータの監視結果が閾値th1または閾値th2のいずれかを超過したと判断した場合に「異常検知」を出力する。
正常稼働情報比較部13は、監視結果ログデータの監視結果が対応する監視閾値(閾値th1および閾値th2)を超過しなかった場合に、その監視結果ログデータの監視日時と日時にもとづく条件(曜日、日にち、週数、または時間帯)が一致する正常稼働情報から算出された許容範囲と監視結果ログデータの監視結果と比較して、監視結果が許容範囲を超過する場合に「障害予兆検知」を出力する。
図5は、正常稼働情報テーブル23のデータ構成例を示す図である。
正常稼働情報テーブル23は、施設、監視対象機器、監視項目、条件区分条件、監視時間、許容範囲のデータ項目を有する。
正常稼働情報テーブル23の「施設」、「監視対象機器」、「監視項目」は、監視結果ログテーブル21の同名のデータ項目と同じ情報が記録される。
「条件区分」は、許容範囲を適用するための条件であって、監視日時の月日に対する区分である。「条件区分」は、例えば、曜日、週数、日にち等の区分が設定される。「曜日」の条件区分では「日曜日」〜「土曜日」までの各曜日が、「週数」の条件区分では1年単位での各週の週番号が、「日にち」の条件区分では月単位の第何番目の日、月末等が、その条件としてそれぞれ設定される。
「監視時間」は、監視日時の時刻に対する区分であり、監視時間帯の中央時刻を示す情報である。例えば、「監視時間」が“0:00”である場合は、時刻0:00を中央とする前後所定の時間帯が監視日時の条件となる。
「許容範囲」は、日時に基づく条件で分類された通常の稼働状況での監視結果の分布から求められた正常と許容できる範囲である。図5では、“下限値”〜“上限値”として表している。なお、許容範囲の算出については後述する。
図5に示す正常稼働情報テーブル23の先頭データは、“A病院”に設置された監視対象2のコンピュータシステムの“電子カルテサーバ”の“CPU使用率”について、監視日時が“日曜日”かつ“0:00”前後に得られた監視結果が“30%〜35%”を超過する場合に、障害予兆が検出されたと判定されることを表している。
正常稼働情報比較部13は、監視結果ログデータの監視日時が属する条件区分毎の区分(曜日、週番号、監視時間)を特定する。ここで、監視日時から、“日曜日”、“第1週”、“0:00”が特定されたとする。
正常稼働情報比較部13は、特定した監視日時の区分と正常稼働情報テーブル23の条件とをつきあわせ、該当する1または複数の許容範囲の最大上限値および最小下限値を求め、監視結果ログデータの監視結果が、最大上限値および最小下限値を超過している場合に「障害予兆検知」を出力する。
正常稼働情報算出部14は、監視結果が許容範囲を超過しなかった監視結果ログデータ、すなわち異常や障害予兆が検出されなかった監視結果ログデータを、その監視日時をもとに予め定められた条件区分(曜日、日にち、週数)毎の該当する条件および監視時間(時間帯)で分類し、条件区分毎の監視結果の分布をもとに、各条件での許容範囲を算出し正常稼働情報テーブル23に記録する。正常稼働情報算出部14は、分類した正常稼働情報の監視結果についての所定の区分(例えば、5分毎)での度数分布を算出し、分布が最大となる区分(範囲)の監視結果を求め、求めた監視結果から一定の上限値および下限値を決定して許容範囲とする。
予兆検知通知部15は、監視結果比較部12が「異常検知」を出力した場合または正常稼働情報比較部13が「障害予兆検知」を出力した場合に、監視対象2の監視対象システムの異常を示す情報として、出力された「異常検知」または「障害予兆検知」を予め設定された監視システムや管理者端末等の通知先へ通知する。
稼働システム比較部16は、新しい施設に設置されたコンピュータシステムが監視対象2となる場合に、新しく監視対象2とするコンピュータシステムのシステム構成および利用機能に関する情報を取得して稼働システムテーブル24に追加する。そして、稼働システム比較部16は、追加したコンピュータシステムが備える稼働システムの構成を、既存の監視対象2のコンピュータシステムが備える稼働システムの構成および利用機能と比較し、新しく監視対象2のコンピュータシステムの稼働システムの構成と高い割合で一致する既存のコンピュータシステムを特定する。
図6は、稼働システムテーブル24のデータ構成例を示す図である。
稼働システムテーブル24は、施設、稼働システム構成、利用機能のデータ項目を有する。
「施設」は監視対象2が設置されている場所である。「稼働システム」は、監視対象2となっているコンピュータシステムが備える稼働システムを識別する情報である。「稼働システム」は、コンピュータシステムを構成する機器、装置等のハードウェアだけでなく、OS、アプリケーションプログラム等のソフトウェアの構成であってもよい。
「利用機能」は、監視対象2となるコンピュータシステムが備える稼働システムの機能の利用状態を示す情報であり、全機能が利用されている状態(全機能)、機能の一部が未使用である状態(一部機能は未使用)等が記録されている。
図6に示す稼働システムテーブル24では、第1番目〜第3番目のデータは、“A病院”に設置された監視対象2のコンピュータシステムに電子カルテシステム、医事会計システム、給食システムの稼働システムが含まれ、各稼働システムで全機能が利用されていることを表している。また、稼働システムテーブル24の第4番目〜第6番目のデータは、“B病院”に設置された監視対象2のコンピュータシステムに電子カルテシステム、医事会計システム、検査システムが含まれ、検査システムでは一部の機能が未使用であることを表している。
閾値設定部17は、新しく監視対象2とするコンピュータシステムの稼働システムの構成と高い割合で一致する既存のコンピュータシステムが稼働システムテーブル24で特定できた場合に、監視閾値テーブル22および正常稼働情報テーブル23から特定した監視対象2のコンピュータシステムの稼働システムに対する監視閾値および正常稼働情報を抽出し、新しく監視対象2とするコンピュータシステムの監視閾値および正常稼働情報に情報を複写する。
新しい監視対象2として、稼働システムテーブル24に“C病院”に設置されたコンピュータシステムが追加されたとする。また、監視対象同士の一致を判断する際に、一致する割合が100%(完全一致)で設定されているとする。この場合に、図6に示す稼働システムテーブル24において、“C病院”のコンピュータシステムの構成が、既存の監視対象2の“A病院”のコンピュータシステムと「稼働システム」および「利用機能」が一致している。閾値設定部17は、監視閾値テーブル22および正常稼働情報テーブル23から“A病院”のコンピュータシステムに対する監視閾値および正常稼働情報を抽出して“C病院”の監視閾値のデータおよび正常稼働情報に複写する。
一方、新しい監視対象2として、稼働システムテーブル24に“D病院”に設置されたコンピュータシステムが追加された場合に、“D病院”のコンピュータシステムと“A病院”のコンピュータシステムと「稼働システム構成」が同一であるが「利用機能」の一部が一致していない。したがって、閾値設定部17は、“D病院”のコンピュータシステムの監視閾値データおよび正常稼働情報を他の既存の監視対象2の情報を利用せず、所定の初期値を設定して生成する。
図7は、障害予兆検出装置1の一実施例における障害予兆の検出処理フローを示す図である。
障害予兆検出装置1の監視結果取得部11が、一定時間毎に、監視対象2のコンピュータシステムの各監視対象システムを実行する監視対象機器から、施設、監視対象機器、監視日時、監視項目と監視結果を含む監視結果データを取得し管理結果ログテーブル21を更新する(ステップS1)。
監視結果比較部12が、追加された監視結果ログデータに対応する監視閾値(閾値th1、閾値th2)を監視閾値テーブル22から取得し(ステップS2)、監視結果ログデータの監視結果が監視閾値を超過しているかを判定する(ステップS3)。
監視結果が、監視閾値を超過していない場合に(ステップS3のN)、正常稼働情報比較部13が、監視閾値を超過しなかった監視結果ログデータに対応する正常稼働情報の許容範囲を正常稼働情報テーブル23から取得し(ステップS4)、監視結果が取得した正常稼働情報の許容範囲(上限値または下限値)を超過しているかを判定する(ステップS5)。
監視結果が取得された許容範囲(上限値および下限値)を超過していない場合は(ステップS5のN)、正常稼働情報算出部14は、監視結果ログデータに、その監視日時に対応する条件および監視時間を設定し、同じ正常稼働情報の許容範囲(上限値および下限値)を設定した正常稼働情報を算出し(ステップS6)、算出した正常稼働情報で正常稼働情報テーブル23を更新する(ステップS7)。
ステップS3の処理で、監視結果データの監視結果が監視閾値(閾値th1または閾値th2)のいずれかを超過しているか(ステップS3のY)、もしくは、ステップS5の処理で、監視結果が許容範囲(上限値または下限値)のいずれかを超過していれば(ステップS5のY)、予兆検知通知部15は、出力された異常検知または障害予兆検知を含む異常情報を所定の通知先へ通知する(ステップS8)。
図8は、障害予兆検出装置1が取得する監視結果と許容範囲との関係例を示す図である。
図8に示すグラフは、障害予兆検出装置1が、病院に設置された監視対象のある1日(0時〜24時)に取得した監視結果ログデータの「CPU使用率」の監視結果(n%)の時間的変化と許容範囲との関係を表している。グラフの横軸は時間経過を、縦軸は「CPU使用率(%)」を示している。
図8のグラフに示すように、12時辺り(昼休み時間に該当)のシステムの稼働率がその前後の時間帯に比べて低く、監視対象2から得る監視結果(CPU使用率)もこのような状況を反映する。したがって、この監視対象2では、午前12時辺りの許容範囲の閾値もその前後の時間帯に比べて低く設定しなければ、障害予兆を正確に検知することができない。
障害予兆検出装置1では、日時に基づく条件区分および監視時間で区分した正常稼働情報、すなわち正常時の稼働状況を示す計測値をもとに対応する許容範囲を決定している。したがって、障害予兆検出装置1では、図8に示すように、ある1日の単位では、監視対象2の正常な稼働状況の時間に応じた変動が許容範囲の設定に反映される。図8に示すグラフを、特定の曜日や日にちの1日の時間帯毎の変動を示すグラフとしても、また、横軸をある月単位や週単位における日毎の変動を示すグラフとしても、同様に、障害予兆検出装置1は、監視対象2の正常な稼働状況に応じた許容範囲を設定することができる。
図9は、障害予兆検出装置1の一実施例における閾値設定処理フローを示す図である。
障害予兆検出装置1の稼働システム比較部16は、稼働システムテーブル24から監視対象2の稼働システムを示す情報(稼働システム情報)を取得し(ステップS11)、新しく監視対象2とするコンピュータシステムの稼働システムの構成が、取得した既存の監視対象2の稼働システム情報(稼働システムの構成)と高い割合で一致するかを判定する(ステップS12)。
新規の監視対象2の稼働システムの構成が取得した既存の監視対象2の稼働システム情報と高い割合で一致すると判定された場合に(ステップS12のY)、閾値設定部17は、取得した既存の監視対象2の各稼働システムに対応する監視対象機器の監視閾値と正常稼働情報を監視閾値テーブル22および正常稼働情報テーブル23からそれぞれ取得し(ステップS13)、取得した監視閾値および正常稼働情報をもとに新規の監視対象2の稼働システムに対する監視閾値データと正常稼働情報を生成して監視閾値テーブル22および正常稼働情報テーブル23を更新する(ステップS14)。
新規の監視対象2の稼働システムの構成が取得した既存の監視対象2の稼働システム情報と高い割合で一致すると判定されなければ(ステップS12のN)、そのまま処理を終了する。
以上説明したように、開示した障害予兆検出装置1は、監視対象構成する稼働システム毎に日時により変化する稼働状況に応じた許容範囲を設定することができる。
また、障害予兆検出装置1は、異常状態が生じることなく運用されている監視対象2に対しても、正常時の稼働状況のみをもとに稼働状況に応じた許容範囲を設定することができる。
よって、障害予兆検出装置1によれば、監視対象の稼働状況に対応した閾値をもとに監視結果が正常とみなせる許容範囲であるかの判断を行えるため、より精度の高い障害予兆検知を実現することができる。
以上説明した障害予兆検出装置1は、構成する要素が任意の組合せで実現されてもよい。複数の構成要素が1つの部材として実現されてもよく、1つの構成要素が複数の部材から構成されてもよい。また、障害予兆検出装置1は、上述した実施形態に限定されず、本発明の要旨を逸脱しない範囲において各種の改良および変更を行ってもよいことは当然である。
1 障害予兆検出装置
11 監視結果取得部
12 監視結果比較部
13 正常稼働情報比較部
14 正常稼働情報算出部
15 予兆検知通知部
16 稼働システム比較部
17 閾値設定部
21 監視結果ログテーブル
22 監視閾値テーブル
23 正常稼働情報テーブル
24 稼働システムテーブル
2 監視対象
2A〜2C 監視対象システム

Claims (4)

  1. 監視対象システムについて異常が検出されなかった期間における該監視対象システムの監視データを曜日、時間帯、日にち、または、週数毎に分類して記憶部に記憶し、
    前記記憶部に記憶された監視データの曜日、時間帯、日にち、または、週数毎の分布をもとに許容範囲を設定し、
    前記監視対象システムから現在取得した監視データと、該現在の日時が属する曜日、時間帯、日にち、または、週数の監視データの分布にもとづく許容範囲とを比較し、該取得した監視データが該許容範囲の上限または下限を超える場合に前記監視対象システムの障害予兆を検出する、
    処理をコンピュータが実行することを特徴とする障害予兆検出方法。
  2. 前記監視対象システムの構成を前記記憶部に記憶し、
    新たに監視対象とするシステムの構成が前記監視対象システムの構成と高い割合で一致する場合に、前記記憶部に記憶された前記監視対象システムの監視データの曜日、時間帯、日にち、または、週数毎の分布にもとづく許容範囲を、該新たに監視対象とするシステムの許容範囲として使用する、
    ことを特徴とする請求項1に記載の障害予兆検出方法。
  3. 監視対象システムについて異常が検出されなかった期間における該監視対象システムの監視データを曜日、時間帯、日にち、または、週数毎に分類して記憶部に記憶し、
    前記記憶部に記憶された監視データの曜日、時間帯、日にち、または、週数毎の分布をもとに許容範囲を設定し、
    前記監視対象システムから現在取得した監視データと、該現在の日時が属する曜日、時間帯、日にち、または、週数の監視データの分布にもとづく許容範囲とを比較し、該監視データが該許容範囲の上限または下限を超える場合に前記監視対象システムの障害予兆を検出する、
    処理をコンピュータに実行させることを特徴とする障害予兆検出プログラム。
  4. 監視対象システムについて異常が検出されなかった期間における該監視対象システムの監視データを曜日、時間帯、日にち、または、週数毎に分類して記憶する記憶部と、
    前記記憶部に記憶された監視データの曜日、時間帯、日にち、または、週数毎の分布をもとに許容範囲を設定する正常稼働情報算出部と、
    前記監視対象システムから現在取得した監視データと、該現在の日時が属する曜日、時間帯、日にち、または、週数の監視データの分布にもとづく許容範囲とを比較し、該現在取得した監視データが該許容範囲の上限または下限を超える場合に前記監視対象システムの障害予兆を検出する正常稼働情報比較部と、
    を備えることを特徴とする障害予兆検出装置。
JP2013020110A 2013-02-05 2013-02-05 障害予兆検出方法、プログラムおよび装置 Pending JP2014153736A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013020110A JP2014153736A (ja) 2013-02-05 2013-02-05 障害予兆検出方法、プログラムおよび装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013020110A JP2014153736A (ja) 2013-02-05 2013-02-05 障害予兆検出方法、プログラムおよび装置

Publications (1)

Publication Number Publication Date
JP2014153736A true JP2014153736A (ja) 2014-08-25

Family

ID=51575595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013020110A Pending JP2014153736A (ja) 2013-02-05 2013-02-05 障害予兆検出方法、プログラムおよび装置

Country Status (1)

Country Link
JP (1) JP2014153736A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016184358A (ja) * 2015-03-26 2016-10-20 株式会社日立システムズ データ分析システム
JP2017037645A (ja) * 2015-08-07 2017-02-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited スマートアラートのためのシステム及び方法
WO2017160423A1 (en) * 2016-03-15 2017-09-21 Honeywell International Inc. Remote data analytics to predict system components or device failure
WO2022210061A1 (ja) * 2021-03-29 2022-10-06 株式会社日立産機システム 監視装置及び方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
JP2005316808A (ja) * 2004-04-30 2005-11-10 Nec Software Chubu Ltd 性能監視装置および性能監視方法並びにプログラム
JP2009193238A (ja) * 2008-02-13 2009-08-27 Nec Corp システム負荷監視方法
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
JP2012198693A (ja) * 2011-03-18 2012-10-18 Ricoh Co Ltd 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
JP2005316808A (ja) * 2004-04-30 2005-11-10 Nec Software Chubu Ltd 性能監視装置および性能監視方法並びにプログラム
JP2009193238A (ja) * 2008-02-13 2009-08-27 Nec Corp システム負荷監視方法
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
JP2012198693A (ja) * 2011-03-18 2012-10-18 Ricoh Co Ltd 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016184358A (ja) * 2015-03-26 2016-10-20 株式会社日立システムズ データ分析システム
JP2017037645A (ja) * 2015-08-07 2017-02-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited スマートアラートのためのシステム及び方法
WO2017160423A1 (en) * 2016-03-15 2017-09-21 Honeywell International Inc. Remote data analytics to predict system components or device failure
US10139788B2 (en) 2016-03-15 2018-11-27 Honeywell International Inc. Remote data analytics to predict system components or device failure
WO2022210061A1 (ja) * 2021-03-29 2022-10-06 株式会社日立産機システム 監視装置及び方法

Similar Documents

Publication Publication Date Title
US9471462B2 (en) Proactive risk analysis and governance of upgrade process
US10171335B2 (en) Analysis of site speed performance anomalies caused by server-side issues
US9772898B2 (en) Identifying root causes of failures in a deployed distributed application using historical fine grained machine state data
US10592308B2 (en) Aggregation based event identification
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US10263833B2 (en) Root cause investigation of site speed performance anomalies
US9658902B2 (en) Adaptive clock throttling for event processing
US10868744B2 (en) Influence range identification method and influence range identification apparatus
US20170140295A1 (en) Pattern analytics for real-time detection of known significant pattern signatures
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
US9524223B2 (en) Performance metrics of a computer system
US20170139759A1 (en) Pattern analytics for real-time detection of known significant pattern signatures
US10613525B1 (en) Automated health assessment and outage prediction system
US9860109B2 (en) Automatic alert generation
US20200233587A1 (en) Method, device and computer product for predicting disk failure
US11438239B2 (en) Tail-based span data sampling
US10504026B2 (en) Statistical detection of site speed performance anomalies
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
US9116804B2 (en) Transient detection for predictive health management of data processing systems
US8543552B2 (en) Detecting statistical variation from unclassified process log
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN111209153A (zh) 异常检测处理方法、装置及电子设备
JP5623950B2 (ja) It障害予兆検知装置及びプログラム
JP2023036469A (ja) 外れ値検出装置及び方法
US11216327B1 (en) Systems and methods for computer infrastructure monitoring and maintenance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170307