JP6504611B2 - 監視装置、情報監視システム、監視装置の制御方法、及びプログラム - Google Patents

監視装置、情報監視システム、監視装置の制御方法、及びプログラム Download PDF

Info

Publication number
JP6504611B2
JP6504611B2 JP2016101757A JP2016101757A JP6504611B2 JP 6504611 B2 JP6504611 B2 JP 6504611B2 JP 2016101757 A JP2016101757 A JP 2016101757A JP 2016101757 A JP2016101757 A JP 2016101757A JP 6504611 B2 JP6504611 B2 JP 6504611B2
Authority
JP
Japan
Prior art keywords
information
input
path information
failure
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016101757A
Other languages
English (en)
Other versions
JP2017208037A (ja
Inventor
史明 ▲菊▼井
史明 ▲菊▼井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Fielding Ltd
Original Assignee
NEC Fielding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Fielding Ltd filed Critical NEC Fielding Ltd
Priority to JP2016101757A priority Critical patent/JP6504611B2/ja
Publication of JP2017208037A publication Critical patent/JP2017208037A/ja
Application granted granted Critical
Publication of JP6504611B2 publication Critical patent/JP6504611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、監視装置、情報監視システム、監視装置の制御方法、及びプログラムに関する。
情報処理装置(コンピュータ)において、障害が発生した場合、障害復旧作業等を行う作業者は、処理内容の履歴を示すログに基づいて、障害の原因等を解析する。その際、障害復旧作業等を行う作業者は、情報処理装置からログを効率的に取得し、解析することが好ましい。
特許文献1においては、複数のアプリケーションのログを解析して、異常事象を検知する技術が記載されている。特許文献1に記載された技術では、複数のアプリケーションのログを収集する。そして、特許文献1に記載された技術では、直接の異常事象を示すエラーログと、その直前に連続して出力される警告ログとの組み合わせをログパターンと呼ぶ。そして、予め登録されたログパターンと、収集したログのログパターンとの類似度を算出する。そして、特許文献1に記載された技術では、算出した類似度に基づいて、通知する異常事象の内容を決定する。
特開2016−024786号公報
なお、上記先行技術文献の開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明の観点からなされたものである。
上述の通り、障害復旧作業等を行う作業者は、情報処理装置からログを効率的に取得することが好ましい。特に、障害復旧作業等を行う作業者は、障害とは無関係なログを除外して、情報処理装置から、障害を解析するために必要十分な情報を取得することが好ましい。
ここで、特許文献1に記載された技術では、予め登録されたアプリケーション(プログラム)から出力されたログに基づいて、ログパターンを判断する。しかし、特許文献1に記載された技術では、未登録のプログラムから出力されたログは、ログパターンの判断材料から除外される。そのため、特許文献1に記載された技術では、未登録のプログラムでの処理が、障害の本質的な原因である場合、作業者は、障害の本質的な原因を解析できない恐れがある。
その結果、特許文献1に記載された技術では、障害復旧作業等を行う作業者は、表層的な事象に着目してしまい、本質的な原因を解析できない恐れがある。つまり、特許文献1に記載された技術では、障害が発生した場合に、障害復旧作業等を行う作業者は、障害解析のための必要十分な情報を取得できない恐れがある。
そこで、本発明は、コンピュータにおいて障害が発生した場合、必要十分なログファイルを保存することに貢献する監視装置、情報監視システム、監視装置の制御方法、及びプログラムを提供することを目的とする。
本発明の第1の視点によれば、監視装置が提供される。該監視装置は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える。
さらに、該監視装置は、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する、障害情報取得部を備える。
さらに、該監視装置は、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部を備える。
さらに、該監視装置は、前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部を備える。
前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む。
本発明の他の視点によれば、他の監視装置が提供される。前記他の監視装置は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える。
さらに、前記他の監視装置は、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する、障害情報取得部を備える。
さらに、前記他の監視装置は、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部を備える。
さらに、前記他の監視装置は、前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部を備える。
前記他の監視装置において、前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含む。
前記他の監視装置において、前記パス情報決定部は、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出する。
さらに、前記他の監視装置において、前記パス情報決定部は、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定する。
前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである。
本発明の第2の視点によれば、監視システムが提供される。該監視システムは、実行した処理に応じたログファイルを出力する監視対象装置と、前記監視対象装置を監視する監視装置と、を含む。
該監視装置は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える。
さらに、該監視装置は、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを、前記監視対象装置から取得する、障害情報取得部を備える。
さらに、該監視装置は、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部を備える。
さらに、該監視装置は、前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部を備える。
前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む。
本発明の他の視点によれば、他の監視システムが提供される。前記他の監視システムは、実行した処理に応じたログファイルを出力する監視対象装置と、前記監視対象装置を監視する監視装置と、を含む。
前記他の監視システムにおいて、前記監視装置は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える。
さらに、前記他の監視システムにおいて、前記監視装置は、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを、前記監視対象装置から取得する、障害情報取得部を備える。
さらに、前記他の監視システムにおいて、前記監視装置は、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部を備える。
さらに、前記他の監視システムにおいて、前記監視装置は、前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部を備える。
前記他の監視システムにおいて、前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含む。
前記他の監視システムにおいて、前記パス情報決定部は、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出する。
さらに、前記他の監視システムにおいて、前記パス情報決定部は、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定する。
前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである。前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである。
本発明の第3の視点によれば、監視装置の制御方法が提供される。該監視装置は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える。
該制御方法は、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する工程を含む。
さらに、該制御方法は、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する工程を含む。
さらに、該制御方法は、前記保存対象パス情報に対応する前記入力パス情報を特定する工程を含む。
さらに、該制御方法は、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する工程を含む。
前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、
前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む。
本発明の他の視点によれば、監視装置の他の制御方法が提供される。該監視装置は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える。
前記他の制御方法は、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する工程を含む。
さらに、前記他の制御方法は、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する工程を含む。
さらに、前記他の制御方法は、前記保存対象パス情報に対応する前記入力パス情報を特定する工程を含む。
さらに、前記他の制御方法は、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する工程を含む。
前記他の制御方法において、前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含む。
前記他の制御方法の前記保存対象パス情報を決定する工程において、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出し、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定する。
前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである。
なお、これらの方法は、ログファイルを保存する監視装置という、特定の機械に結び付けられている。
本発明の第4の視点によれば、プログラムが提供される。該プログラムは、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える監視装置を制御するコンピュータに実行させるプログラムである。
該プログラムは、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する処理を、該コンピュータに実行させる。
さらに、該プログラムは、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する処理を、該コンピュータに実行させる。
さらに、該プログラムは、前記保存対象パス情報に対応する前記入力パス情報を特定する処理と、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する処理を、該コンピュータに実行させる。
前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む。
本発明の他の視点によれば、他のプログラムが提供される。前記他のプログラムは、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える監視装置を制御するコンピュータに実行させるプログラムである。
前記他のプログラムは、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する処理を、該コンピュータに実行させる。
さらに、前記他のプログラムは、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する処理を、該コンピュータに実行させる。
さらに、前記他のプログラムは、前記保存対象パス情報に対応する前記入力パス情報を特定する処理と、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する処理を、該コンピュータに実行させる。
前記他のプログラムにおいて、前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含む。
前記他のプログラムの前記保存対象パス情報を決定する処理において、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出し、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定する。
前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである。
なお、これらのプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント(non-transient)なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。
本発明の各視点によれば、コンピュータにおいて障害が発生した場合、必要十分なログファイルを保存することに貢献する監視装置、情報監視システム、監視装置の制御方法、及びプログラムが提供される。
一実施形態の概要を説明するための図である。 監視システム1の全体構成の一例を示すブロック図である。 入力障害情報の一例を示す図である。 監視装置200の内部構成の一例を示すブロック図である。 障害履歴データ111の一例を示す図である。 障害履歴データ111、障害履歴候補データ112の一例を示す図である。 ログ情報データベース2022に格納される情報の一例を示す図である。 監視システム1の処理の一例を示すフローチャートである。 監視システム1の処理の一例を示すフローチャートである。 監視システム1の処理の一例を示すフローチャートである。 監視システム1の処理の一例を示すフローチャートである。 監視システム1の処理の一例を示すフローチャートである。 監視システム1の処理の一例を示すフローチャートである。 保存対象パス情報の一例を示す図である。
初めに、図1を用いて一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。
上述の通り、コンピュータにおいて障害が発生した場合、必要十分なログファイルを保存することに貢献する監視装置が望まれる。
そこで、図1に示す監視装置10を提供する。監視装置10は、障害情報データベース11と、障害情報取得部12と、パス情報決定部13と、ログ情報選定部14とを備える。
障害情報データベース11は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する。
登録パス情報は、ディレクトリパス、ファイルパスの少なくともいずれかを示す情報である。なお、過去に障害復旧作業を行った作業者が、障害を解析する上で、重要であると判断したログファイルに関するディレクトリパス等を、登録パス情報として登録するものとする。
登録障害情報は、情報処理装置において発生した障害に関する情報である。登録障害情報は、障害の内容、障害の発生元等に関する情報を含むことが好ましい。ここで、登録障害情報に対応する情報処理装置が、監視装置10と同一の装置であるか否かは問わない。また、障害情報データベース11は、2以上の異なる情報処理装置に対応する障害履歴データを含んでも良い。または、障害情報データベース11は、同一の情報処理装置に対応する、2以上の異なる障害に関する障害履歴データを含んでも良い。
障害情報取得部12は、1又は2以上の入力パス情報と、入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する。
入力ログファイルは、障害が発生した情報処理装置において、出力されたログファイルである。ここで、入力ログファイルは、障害に関連する情報を含むか否かは問わない。また、入力パス情報は、障害が発生した情報処理装置において、入力ログファイルが出力された、ディレクトリパス、ファイルパスの少なくともいずれかの情報である。なお、入力パス情報は、入力ログファイルが出力されたディレクトリに対して、上位のディレクトリパスを示す情報であっても良い。
入力障害情報は、情報処理装置において発生した障害に関する情報である。入力障害情報は、障害の内容、障害の発生元等に関する情報を含むことが好ましい。ここで、入力障害情報に対応する情報処理装置は、監視装置10と同一の装置であるか否かは問わない。
パス情報決定部13は、入力障害情報と、障害履歴データとに基づいて、登録パス情報から、1又は2以上の保存対象パス情報を決定する。保存対象パス情報とは、ディレクトリパス等を示す情報である。
ログ情報選定部14は、保存対象パス情報に対応する、入力パス情報を特定し、特定した入力パス情報に対応する入力ログファイルを、保存対象のログファイルとして決定する。
つまり、監視装置10は、取得した入力障害情報、及び予め登録された障害の内容、障害の発生元等に関する情報を利用して、予め登録されたディレクトリパス(即ち、登録パス情報)等から、1又は2以上のディレクトリパス等を決定する。そして、監視装置10は、決定したディレクトリパス等に対応するログファイルを、出力されたログファイルから選定して、保存する。
ここで、上記の通り、登録パス情報は、過去に障害復旧作業を行った作業者が、障害を解析する上で、重要であると判断したログファイルに関するディレクトリパス等である。そのため、監視装置10は、過去に障害復旧作業を行った作業者が、障害を解析する上で、重要であると判断したディレクトリパス等を利用して、ログファイルを選定して、保存できる。つまり、監視装置10は、障害の内容、障害の発生元に応じて、作業を行う者にとって必要なログファイルを、出力されたログファイルから選定して保存することに貢献する。
従って、監視装置10は、コンピュータにおいて障害が発生した場合、必要十分なログファイルを保存することに貢献する。
[第1の実施形態]
第1の実施形態について、図面を用いてより詳細に説明する。なお、以下の説明では、障害を示すメッセージを、障害メッセージと呼ぶ。また、以下の説明では、障害メッセージの出力タイミングに対して、所定の時間内に出力されるメッセージを、障害前後メッセージと呼ぶ。また、以下の説明では、ログファイルのファイルパス、及び/又はディレクトリパスを、パス情報と呼ぶ。また、以下の説明では、作業者とは、障害復旧作業を行った作業者を意味するものとする。
図2は、本実施形態に係る監視システム1の全体構成の一例を示すブロック図である。監視システム1は、監視対象装置100と、監視装置200と、端末装置300とを含んで構成される。図2に示す監視システム1の場合、監視装置200は、ネットワーク400を介して、監視対象装置100と接続する。さらに、監視装置200は、ネットワーク400を介して、端末装置300と接続する。なお、図2に示す監視システム1は一例であり、監視システム1の全体構成を図2に示す構成に限定する趣旨ではない。
また、図2においては、一の監視対象装置100、一の端末装置300を示すが、監視対象装置100及び端末装置300の数を限定する趣旨ではない。監視システム1は、二以上の監視対象装置100、二以上の端末装置300を含んで構成されても良い。
監視対象装置100は、情報処理装置(コンピュータ)であり、実行した処理に応じてログファイルを生成する。監視対象装置100は、自装置の障害を検出した場合、当該障害に関する情報、及び自装置の処理の履歴等を示すログファイルを、監視装置200に送信する。
監視装置200は、監視対象装置100を監視する情報処理装置(コンピュータ)である。監視装置200は、監視対象装置100から受信したログファイルのうち、所定の条件を満たすログファイルを選定し、選定したログファイルを保存する。
端末装置300は、障害復旧作業等を行う作業者が操作する、情報処理装置(コンピュータ)である。端末装置300は、監視対象装置100の処理の履歴等に関するログファイルを、監視装置200に要求する。例えば、端末装置300は、ユーザの操作に基づいて、監視装置200に、監視対象装置100の処理の履歴等に関するログファイルを要求しても良い。
ネットワーク400は、インターネット、イントラネット等である。ネットワーク400の実現方法には、各種の方式があるがその詳細は問わない。監視システム1の実現形態に応じて、ネットワーク400の方式は異なるものとする。
[監視対象装置の構成]
次に、図2を参照しながら、監視対象装置100の構成について、詳細に説明する。
監視対象装置100は、監視対象通信部101と、監視対象記憶部102と、監視対象制御部103と、監視対象入力部104と、監視対象出力部105とを含んで構成される。図2は、本実施形態に係る監視対象装置100に関係するモジュールを主に記載する。監視対象装置100は、図2に示すモジュール以外のモジュール(ソフトウェア、ハードウェア)を含んでも良い。
監視対象通信部101は、通信機能を制御する。監視対象通信部101は、NIC(Network Interface Card)等を用いて実現される。
監視対象記憶部102は、監視対象装置100を動作させるために必要な情報を記憶する。また、監視対象記憶部102は、監視対象制御部103からの命令に応じて、記憶するデータの読み書き、データの検索等を行う。監視対象記憶部102は、磁気ディスク装置や光ディスク装置、半導体メモリによって実現される。なお、半導体メモリは、例えば、SSD(Solid State Drive)であり、フラッシュメモリを使用したものでも良く、DRAM(Dynamic Random Access Memory)を含んでも良い。
また、監視対象記憶部102は、1又は2以上のソフトウェアプログラム(図示せず)、データ等を記憶する。ここで、監視対象記憶部102が記憶するソフトウェアプログラムとは、OS(Operating System)、及びアプリケーションプログラムを含むものとする。なお、以下の説明では、UNIX(登録商標)系に準拠したディレクトリパスを例示して説明するが、監視対象装置100が搭載するOSを、UNIX系のOSに限定する趣旨ではない。
また、監視対象記憶部102は、障害監視ソフトウェア106と、ログ情報107とを記憶する。障害監視ソフトウェア106、及びログ情報107の詳細については、後述する。
監視対象制御部103は、監視対象装置100を動作させるための処理を制御する。監視対象制御部103は、CPU(Central Processing Unit)等を用いて実現される。監視対象制御部103は、監視対象記憶部102が記憶する各プログラムを呼び出し、処理を実行する。以下、説明の便宜上、障害監視ソフトウェア106が、監視対象制御部103に処理を実行させることを、「障害監視ソフトウェア106が処理を実行する」と表現する。
障害監視ソフトウェア106は、自装置(即ち、監視対象装置100)が実行する各処理の実行状況を監視し、障害の有無を監視する。そして、障害監視ソフトウェア106は、自装置において障害が発生したことを検出した場合、1又は2以上のディレクトリパス及び/又はファイルパスから、1又は2以上のログファイルを収集する。
例えば、障害監視ソフトウェア106は、予め登録したディレクトリパスから、ログファイルを収集(抽出)しても良い。また、例えば、障害監視ソフトウェア106は、障害が発生した処理に関連する1又は2以上のディレクトリパスから、1又は2以上のログファイルを収集(抽出)しても良い。
障害監視ソフトウェア106は、収集したログファイルと、ログファイルのパス情報との組み合わせを、ログ情報107として、監視対象記憶部102に記憶させる。なお、以下の説明では、ログ情報107に含まれるログファイルを、入力ログファイルとも呼ぶ。また、以下の説明では、入力ログファイルのパス情報を、入力パス情報とも呼ぶ。
また、障害監視ソフトウェア106は、ログ情報と、入力障害情報とを、監視装置200に送信する。入力障害情報は、入力メッセージ情報を含む。
入力メッセージ情報は、障害メッセージ(第1の種類の入力メッセージ)と、障害前後メッセージ(第2の種類の入力メッセージ)とを含む。なお、以下の説明では、入力メッセージ情報に含まれる障害メッセージを、入力障害メッセージとも呼ぶ。また、以下の説明では、入力メッセージ情報に含まれる障害前後メッセージを、入力障害前後メッセージとも呼ぶ。
障害メッセージは、監視対象装置100の異常(障害)を示すメッセージである。障害監視ソフトウェア106は、監視対象の処理において、障害が発生したことを検知した場合、障害メッセージを出力する。なお、障害が発生した処理を制御するプログラムが、障害メッセージを生成して、生成した障害メッセージをログファイルに出力(書き出し)しても良い。そして、障害監視ソフトウェア106は、当該ログファイルを参照し、障害メッセージを取得してもよい。
障害前後メッセージは、障害メッセージが出力されたタイミングに対して、前後の所定の時間内に出力された、1又は2以上のメッセージである。例えば、障害監視ソフトウェア106は、障害が発生したことを検知した場合、障害メッセージが出力されたタイミングに対して、前後の所定の時間内に出力されたメッセージを、ログファイルから取得する。
障害前後メッセージは、監視対象装置100の異常を示すメッセージ以外のメッセージであっても良い。つまり、障害前後メッセージは、障害が発生した処理とは異なる処理から出力されるメッセージであっても良い。例えば、障害監視ソフトウェア106は、何らかの処理が出力したログファイルから、障害前後メッセージを抽出しても良い。
また、入力障害情報に含まれる障害前後メッセージは、障害メッセージが出力されたタイミングに対して、前後の所定の時間内に出力された、1又は2以上のメッセージにおいて、共通する文字列等であっても良い。または、入力障害情報に含まれる障害前後メッセージは、障害メッセージが出力されたタイミングに対して、前後の所定の時間内に出力された、1又は2以上のメッセージと、障害メッセージとの組み合せであっても良い。
さらに、入力障害情報は、障害が発生した装置を特定する入力装置情報を含んでも良い。例えば、入力装置情報は、障害が発生した装置の機種名、型番等である。
さらに、入力障害情報は、障害が発生した装置に対応する顧客を特定する、入力顧客情報を含んでも良い。また、障害が発生した装置が、2以上の装置から構成されるシステムの一部である場合、入力顧客情報は、当該システムの名称であっても良い。あるいは、装置及び/又はシステムの名称として、顧客独自の名称が採用されている場合、入力顧客情報は、装置及び/又はシステムを特定する、顧客独自の名称であっても良い。
さらに、入力障害情報は、障害が発生した時刻を特定する、入力時刻情報を含んでも良い。さらに、入力障害情報は、障害が発生した日を特定する情報を含んでも良い。以下の説明では、障害が発生した時刻を、障害発生時刻とも呼ぶ。また、以下の説明では、障害が発生した日を、障害発生日とも呼ぶ。
例えば、障害監視ソフトウェア106は、障害が発生したことを検出した場合、ログ情報と、入力障害情報とを、監視装置200に送信しても良い。または、障害監視ソフトウェア106は、所定の時間間隔で、監視対象記憶部102からログ情報と、入力障害情報とを抽出し、抽出したログ情報と、入力障害情報とを監視装置200に送信しても良い。あるいは、障害監視ソフトウェア106は、監視装置200からの要求に応じて、監視対象記憶部102からログ情報と、入力障害情報とを抽出し、抽出したログ情報と、入力障害情報とを監視装置200に送信しても良い。
図3は、入力障害情報の一例を示す図である。図3を参照すると、入力障害情報は、入力顧客情報、入力装置情報、発生日、発生時刻、障害メッセージ、障害前後メッセージを含んで構成される。
図3に示す入力障害情報は、2015年10月15日の20時30分0秒に、顧客「A商事」が使用する装置「110RX―XX」において、障害が発生し、当該装置は、障害メッセージ「Error Code 0x00003A」を出力したことを示す。さらに、図3に示す入力障害情報は、障害メッセージが出力されたタイミングに対して、前後の所定の時間内に「System Restarted.」、及び「Initialization Completed.」とのメッセージを、装置「110RX―XX」が出力したことを示す。
監視対象入力部104は、外部からの情報、信号等の入力を受け付ける装置、インタフェース等である。監視対象入力部104は、入力された情報等を、監視対象制御部103に渡す。監視対象入力部104は、キーボード、タッチパネル、ボタン等であっても良い。監視対象入力部104は、外部からの情報等の入力を受け付けることができれば良く、その詳細は問わない。
監視対象出力部105は、外部に情報を出力する。具体的には、監視対象制御部103は、監視対象記憶部102にアクセスし、監視対象記憶部102から情報を抽出する。そして、監視対象制御部103は、監視対象出力部105を介して、抽出した情報を外部に出力する。例えば、監視対象出力部105は、監視対象装置100が接続する表示装置(図示せず)、印刷装置(図示せず)等に情報を出力しても良い。また、例えば、監視対象出力部105は、監視対象通信部101を介して情報を出力しても良い。
[監視装置の構成]
次に、図2、図4を参照しながら、監視装置200の構成について、詳細に説明する。なお、以下の説明では、監視装置200が、監視対象装置100から取得したログ情報107を、入力ログ情報と呼ぶ。また、以下の説明では、入力ログ情報に含まれるログファイルを、入力ログファイルと呼ぶ。また、以下の説明では、入力ログファイルに対応するパス情報を、入力パス情報と呼ぶ。また、以下の説明では、「パス情報に対応するログファイル」との表現を使用するが、これは、「パス情報に対応するディレクトリパス等から、監視対象装置100が抽出したログファイル」を意味するものとする。
監視装置200は、監視装置通信部201と、監視装置記憶部202と、監視装置制御部203とを含んで構成される。図2、図4は、監視装置200に関係するモジュールを主に記載する。監視装置200は、図2、図4に示すモジュール以外のモジュール(ソフトウェア、ハードウェア)を含んでも良い。
監視装置通信部201は、通信機能を制御する。監視装置通信部201は、NIC等を用いて実現される。
監視装置記憶部202は、監視装置200を動作させるために必要な情報を記憶する。監視装置記憶部202は、磁気ディスク装置や光ディスク装置、半導体メモリによって実現される。なお、半導体メモリは、例えば、SSDであり、フラッシュメモリを使用したものでも良く、DRAMを含んでも良い。
監視装置記憶部202は、監視装置制御部203からの命令に応じて、記憶するデータの読み書き、データの検索等を行う。具体的には、監視装置記憶部202は、障害情報データベース2021と、ログ情報データベース2022と、ログ情報保存領域2023とを含んで構成される。監視装置記憶部202の詳細は後述する。
監視装置制御部203は、障害情報取得部2031と、障害履歴登録部2032と、解析部2033と、パス情報決定部2034と、ログ情報選定部2035と、を含んで構成される。
監視装置制御部203は、監視装置200を動作させるための処理を制御する。監視装置制御部203は、CPU等を用いて実現される。監視装置制御部203の詳細は後述する。
障害情報データベース2021は、1又は2以上の情報処理装置の障害に関する情報を格納する。障害情報データベース2021は、障害履歴データ111と、障害履歴候補データ112とを格納する。具体的には、障害情報データベース2021は、1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データ111を格納する。さらに、障害情報データベース2021は、1又は2以上の障害履歴候補データ112を格納する。
登録パス情報は、ディレクトリパス、ファイルパスの少なくともいずれかを含む情報である。登録パス情報は、障害復旧作業等を行った作業者が入力するものとする。登録パス情報を入力する処理についての詳細は後述する。
また、登録障害情報は、登録メッセージ情報を含む。登録メッセージ情報は、障害メッセージ(第1の種類の登録メッセージ)と、障害前後メッセージ(第2の種類の登録メッセージ)とを含んでも良い。なお、以下の説明では、登録メッセージ情報に含まれる障害メッセージを、登録障害メッセージとも呼ぶ。また、以下の説明では、登録メッセージ情報に含まれる障害前後メッセージを、登録障害前後メッセージとも呼ぶ。
さらに、登録障害情報は、装置を特定する登録装置情報を含んでも良い。さらに、登録障害情報は、顧客を特定する、登録顧客情報をさらに含んでも良い。
さらに、登録障害情報は、障害発生日を特定する情報を含んでも良い。また、登録障害情報は、障害発生時刻を特定する登録時刻情報を含んでも良い。
さらに、登録障害情報は、障害対応の内容を示す情報(以下、障害対応履歴情報と呼ぶ)を含んでも良い。例えば、障害対応履歴情報は、障害復旧のために、作業者が行った作業内容等であっても良い。
以下、登録パス情報について、詳細に説明する。
まず、登録パス情報は、障害復旧作業を行った作業者が、障害を解析するために主に使用した、ログファイルのパス情報(以下、解析使用ログパス情報と呼ぶ。)を含む。解析使用ログパス情報は、作業者が入力するパス情報である。例えば、解析使用ログパス情報は、障害復旧作業を行った作業者が、障害メッセージに基づいて、障害解析に必要であると判断した、ログファイルのパス情報であっても良い。
また、登録パス情報は、障害復旧作業を行った作業者が、重要であると判断したログファイルのパス情報であって、障害前後メッセージに関連するログファイルのパス情報(以下、前後メッセージ一致ログパス情報と呼ぶ。)を含む。前後メッセージ一致ログパス情報は、作業者が入力するパス情報である。例えば、前後メッセージ一致ログパス情報は、作業者が、障害メッセージに障害前後メッセージを組み合せることで得られた知見等に関連する、ログファイルのパス情報であっても良い。なお、前後メッセージ一致ログパス情報は、解析使用ログパス情報とは異なるディレクトリパス、及び/又はファイルパスを示す情報であっても良い。
また、登録パス情報は、障害復旧作業を行った作業者が、同一(又は類似)の装置等の、同一(又は類似)の障害に関連する、と判断したログファイルのパス情報(以下の説明では、同一障害ログパス情報と呼ぶ。)を含む。例えば、同一障害ログパス情報は、同一(又は類似)の装置等の、同一(又は類似)の障害が再発した場合に、障害復旧作業を行った作業者が必要であると判断した、ログファイルのパス情報であっても良い。なお、同一障害ログパス情報は、解析使用ログパス情報とは異なるディレクトリパス、及び/又はファイルパスを示す情報であっても良い。
図5は、障害履歴データ111の一例を、詳細に示す図である。図5においては、図5に示す各行が、一つの障害履歴データ111に対応するものとする。図5を参照すると、障害履歴データ111は、登録顧客情報、登録装置情報、障害発生日、登録時刻情報、障害対応履歴情報、登録障害メッセージ、障害前後メッセージ、解析使用ログパス情報、前後メッセージ一致ログパス情報、同一障害ログパス情報を含んで構成される。
図6は、障害履歴データ111、及び障害履歴候補データ112の一例を示す図である。図6を参照すると、障害履歴データ111と、障害履歴候補データ112との相違点は、障害履歴データ111が、障害対応履歴情報、及び登録パス情報(解析使用ログパス情報、前後メッセージ一致ログパス情報、同一障害ログパス情報)を含んで構成される点である。なお、図6は、障害履歴データ111、及び障害履歴候補データ112に含まれる情報を限定する趣旨ではない。そして、障害履歴データ111、及び障害履歴候補データ112を構成する情報において、後述するパス情報決定部2034は、保存対象パス情報を決定する方法を適宜選択して良いものとする。ただし、障害履歴データ111は、図6に示す登録障害情報、登録パス情報のうち、夫々、少なくとも一の情報を含むことが好ましい。また、障害履歴候補データ112も、図6に示す情報のうち、少なくとも一の情報を含むことが好ましい。
ログ情報データベース2022は、解析部2033が解析した、障害履歴データ111の解析結果を格納する。ログ情報データベース2022の詳細は後述する。
障害情報取得部2031は、1又は2以上の入力パス情報と、入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する。具体的には、障害情報取得部2031は、監視装置通信部201を介して、監視対象装置100から、1又は2以上の入力パス情報と、入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する。上記の通り、入力障害情報は、入力メッセージ情報と、障害元を示す情報とを含んで構成される。
障害情報取得部2031は、入力障害情報に含まれる入力顧客情報、入力装置情報、発生日、発生時刻、障害メッセージ、障害前後メッセージを対応付けた情報を、障害履歴候補データ112として生成する。そして、障害情報取得部2031は、生成した障害履歴候補データ112を、障害情報データベース2021に登録する。ここで、障害情報取得部2031は、障害履歴候補データ112を生成する度に、障害履歴候補データ112に、一意な番号等(図示せず)を割り当てても良い。以下、障害履歴候補データ112に割り当てられる、一意な番号を、「障害履歴候補データ112の識別番号」と呼ぶ。
障害履歴登録部2032は、障害履歴データ111を生成し、生成した障害履歴データ111を、障害情報データベース2021に登録する。具体的には、障害履歴登録部2032は、障害履歴候補データ112に含まれる情報と、端末装置300から取得する障害対応履歴情報及び登録パス情報とを対応付けて、障害履歴データ111を生成する。なお、端末装置300は、登録パス情報等を送信する場合、送信する登録パス情報等に対応する障害履歴候補データ112の識別番号を送信しても良い。障害履歴登録部2032は、生成した障害履歴データ111に対応する障害履歴候補データ112を削除する。
以下、ログ情報データベース2022及び解析部2033について、詳細に説明する。
解析部2033は、登録装置情報及び登録顧客情報の組み合わせ毎に、登録時刻情報に基づいて、障害発生平均時刻を算出する。具体的には、解析部2033は、登録装置情報及び登録顧客情報の組み合わせ毎に、登録時刻情報に対応する時刻の平均値を算出する。また、以下の説明では、2以上の時刻の平均値を、平均時刻と呼ぶ。
ログ情報データベース2022は、障害発生平均時刻と、登録装置情報と、登録顧客情報と、第1の監視パス情報とを対応付けた情報をさらに格納する。
第1の監視パス情報とは、登録装置情報に対応する装置において、当該装置のパフォーマンス(性能)に関するログファイル(以下、負荷ログと呼ぶ)のパス情報である。例えば、負荷ログは、当該装置に搭載されたCPU、ハードディスク等の負荷に関する情報が書き出されたログファイルであっても良い。以下の説明では、第1の監視パス情報を、負荷ログパス情報とも呼ぶ。
第1の監視パス情報は、人為的に入力され、ログ情報データベース2022に登録される情報である。例えば、監視装置200の管理者、障害復旧作業を行った作業者等が、第1の監視パス情報を入力する。第1の監視パス情報の入力の詳細については後述する。
また、解析部2033は、登録装置情報毎に、障害発生率を算出する。具体的には、解析部2033は、障害情報データベース2021を参照し、登録装置情報毎に、障害履歴データ111の数を算出する。つまり、これは、解析部2033が、登録障害情報に基づいて、装置毎の障害件数を算出することに相当する。
そして、解析部2033は、障害情報データベース2021に登録された障害履歴データ111の総数に対する、登録装置情報毎の障害履歴データ111の数を算出する。つまり、これは、解析部2033が、障害の総件数に対する、装置毎の障害発生の件数を算出することに相当する。換言すると、解析部2033は、障害の総件数に対する、装置毎の障害発生率を算出する。
そして、解析部2033は、障害履歴データ111に含まれる登録装置情報のうち、障害発生率が所定の閾値を越える装置に対応する、登録装置情報を特定する。
ログ情報データベース2022は、所定の閾値を越える障害発生率に対応する、登録装置情報と、第2の監視パス情報とを、対応付けた情報を格納する。以下の説明では、所定の閾値を越える障害発生率に対応する、登録装置情報を、特定装置情報と呼ぶ。
例えば、障害履歴登録部2032が障害履歴データ111を新たに登録した場合、解析部2033は、登録装置情報毎に、障害発生率を算出しても良い。そして、解析部2033は、算出した障害発生率に応じて、特定装置情報の追加、削除を行っても良い。
第2の監視パス情報とは、装置等に特有の機器情報に関する、ログファイルのパス情報である。たとえば、機器情報に関するログファイルは、装置等に搭載されたハードウェア、ソフトウェアのバージョン情報等が書き出された、ログファイルであっても良い。以下の説明では、第2の監視パス情報を、特定装置ログパス情報とも呼ぶ。
第2の監視パス情報とは、人為的に入力され、ログ情報データベース2022に登録される情報である。例えば、監視装置200の管理者、障害復旧作業を行った作業者等が、第2の監視パス情報を入力する。第2の監視パス情報の入力の詳細については後述する。
また、ログ情報データベース2022は、第3の監視パス情報と、第4の監視パス情報とを対応付けた情報を格納する。
第3の監視パス情報とは、監視対象装置100が正常動作であるか否かを判断する際に、判断基準として利用可能なログファイル(以下、出力必須ログと呼ぶ)のパス情報である。例えば、出力必須ログは、装置等が搭載するハードウェアの構成に関する情報等が書き出された、ログファイルであっても良い。また、例えば、出力必須ログは、OSに関する情報が書き出されたログファイルであっても良い。以下の説明では、第3の監視パス情報を、出力必須ログパス情報とも呼ぶ。
第4の監視パス情報とは、監視対象装置100に搭載されたソフトウェアの動作状況に関する情報が書き出された、ログファイル(以下、ソフトウェア動作状況ログ)のパス情報である。以下の説明では、第4の監視パス情報を、ソフトウェア動作状況ログパス情報とも呼ぶ。
解析部2033は、第3の監視パス情報に対応する、ログファイルのファイルサイズを算出する。
第3の監視パス情報、及び第4の監視パス情報は、人為的に入力され、ログ情報データベース2022に登録される情報である。例えば、監視装置200の管理者、障害復旧作業を行った作業者等が、第3の監視パス情報、及び第4の監視パス情報を入力する。監視装置200の管理者等は、正常動作時に、必ず出力されると判断したログファイルを、出力必須ログであると決定しても良い。そして、監視装置200の管理者等は、決定した出力必須ログのパス情報を、第3の監視パス情報として入力しても良い。第3の監視パス情報、及び第4の監視パス情報の入力の詳細については後述する。
第1の監視パス情報、第2の監視パス情報、第3の監視パス情報、第4の監視パス情報は、一般的には、OS毎に同一である。そのため、監視装置200の管理者等は、監視対象とする装置等(即ち、監視対象装置100)を新たに追加する際に、追加対象の装置等に搭載されたOSに応じて、第1の監視パス情報、第2の監視パス情報、第3の監視パス情報、第4の監視パス情報を登録しても良い。
また、例えば、作業者が、ログ情報データベース2022に登録された、第1の監視パス情報とは異なるディレクトリパスに、負荷ログが出力されていることを見つけたとする。その場合、作業者は、負荷ログが出力されているディレクトリパスを、新たな第1の監視パス情報として、端末装置300に入力しても良い。端末装置300は、入力された第1の監視パス情報を監視装置200に送信する。監視装置通信部201が、端末装置300から新たな第1の監視パス情報を受信した場合、監視装置制御部203は、受信した第1の監視パス情報をログ情報データベース2022に登録しても良い。
同様に、作業者は、端末装置300に、新たな第2の監視パス情報、第3の監視パス情報、第4の監視パス情報を入力しても良い。そして、監視装置200は、端末装置300から第2の監視パス情報、第3の監視パス情報、第4の監視パス情報を受信し、ログ情報データベース2022に登録しても良い。
ここで、一の装置に、二以上のOSが搭載される場合がある。そのため、監視装置制御部203は、端末装置300から第1の監視パス情報等を受信して、第1の監視パス情報等を修正、追加する場合には、ログ情報データベース2022に登録された、2以上の第1の監視パス情報等(例えば、全ての第1の監視パス情報等)に追加、修正しても良い。
また、ログ情報データベース2022は、第5の監視パス情報を格納する。
第5の監視パス情報とは、アクセス回数が所定の閾値を越えるログファイル(以下、必須ログと呼ぶ)の出力元である、監視対象装置100においてのパス情報である。具体的には、必須ログとは、ログ情報保存領域2023に格納されたログファイルのうち、アクセス回数が所定の閾値を越える、ログファイルを意味する。そして、第5の監視パス情報とは、監視対象装置100が必須ログを出力した際に、必須ログが出力された、監視対象装置100内のディレクトリパス等である。また、アクセス回数が所定の閾値を越えるログファイルは、障害情報データベースの解析使用ログパス情報より、同一のログパス情報毎に登録された件数を算出し、予め決められた件数より多い、もしくは、予め決められた使用率(解析に使用された割合)より高い、ログを選んでも良い。以下の説明では、第5の監視パス情報を、必須ログパス情報とも呼ぶ。
解析部2033は、記憶領域(ログ情報保存領域2023)に格納されたログファイルへのアクセスを監視する。そして、解析部2033は、ログ情報保存領域2023に格納されたログファイルへのアクセス回数を算出する。
そして、解析部2033は、ログ情報保存領域2023が格納するログファイルへのアクセス回数が、所定の閾値を越える場合、当該ログファイルに対応する入力パス情報を、第5の監視パス情報として、ログ情報データベース2022に登録する。
例えば、障害履歴登録部2032が障害履歴データ111を新たに登録した場合、解析部2033は、ログ情報保存領域2023に格納されたログファイルへのアクセス回数を算出しても良い。そして、解析部2033は、算出したアクセス回数に応じて、第5の監視パス情報の追加、削除を行っても良い。
図7は、ログ情報データベース2022に格納される情報の一例を示す図である。図7(a)は、顧客情報と、障害発生平均時刻と、負荷ログパス情報(第1の監視パス情報)とを対応付けたテーブルを示す。図7(b)は、特定装置情報と、特定装置ログパス情報(第2の監視パス情報)とを対応付けたテーブルを示す。図7(c)は、必須ログパス情報(第5の監視パス情報)を示す。図7(d)は、出力必須ログパス情報(第3の監視パス情報)と、ソフトウェア動作状況ログパス情報(第4の監視パス情報)とを対応付けたテーブルを示す。
例えば、図7(a)は、顧客「A商事」が使用する装置等において、障害発生平均時刻が、「20:30:10(即ち、20時30分10秒)」であることを示す。さらに、図7(a)は、顧客「A商事」が使用する装置等に対応する、負荷ログパス情報(第1の監視パス情報)が、ディレクトリパス「/proc/」であることを示す。
また、例えば、図7(b)は、装置「R120X−YY」に対応する、特定装置ログパス情報(第2の監視パス情報)が、ディレクトリパス「/opt/nec/」であることを示す。
また、例えば、図7(c)は、必須ログパス情報(第5の監視パス情報)が、ファイルパス「/var/log/messages」及びディレクトリパス「/etc/」であることを示す。
また、例えば、図7(d)は、出力必須ログパス情報(第3の監視パス情報)が、ファイルパス「/proc/cpuinfo」、ファイルパス「/proc/iomem」、ファイルパス「/proc/ioport」であることを示す。さらに、図7(d)は、当該、出力必須ログパス情報(第3の監視パス情報)に対応する、ソフトウェア動作状況ログパス情報(第4の監視パス情報)が、ディレクトリパス「/software/run/」であることを示す。
パス情報決定部2034は、入力障害情報と、障害履歴データ111とに基づいて、1又は2以上の保存対象パス情報を決定する。
また、パス情報決定部2034は、ログ情報データベース2022が格納する、障害履歴データ111の解析結果をさらに利用して、保存対象パス情報を決定しても良い。
ログ情報選定部2035は、保存対象パス情報に対応する入力パス情報を特定する。そして、ログ情報選定部2035は、特定した入力パス情報に対応する入力ログファイルを、保存対象のログファイルとして決定する。そして、ログ情報選定部2035は、決定した保存対象のログファイルを、保存ログ情報として、ログ情報保存領域2023に保存する。
ここで、ログ情報選定部2035は、抽出した1又は2以上のログファイルに対して、データ圧縮処理を実行しても良い。そして、ログ情報選定部2035は、データ圧縮した状態で、ログ情報保存領域2023にログファイルを保存しても良い。データ圧縮アルゴリズムは、ZIP形式、LZH形式等、各種あるが、その詳細は問わない。また、ログ情報選定部2035は、データ圧縮処理の専用のソフトウェアプログラムを利用して、データ圧縮を実行しても良い。
また、ログ情報選定部2035は、入力障害情報に含まれる情報を、保存ログ情報に対応付けて保存しても良い。入力障害情報に含まれる情報を、保存ログ情報に対応付けることは、保存ログ情報の検索を容易にすることに貢献する。
以下、保存対象パス情報を決定する処理について、詳細に説明する。なお、以下のパス情報決定部2034の説明においては、障害情報取得部2031が、入力ログ情報と、入力障害情報とを取得済みの状態であるものとする。
パス情報決定部2034は、入力障害情報と、障害履歴データ111とに基づいて、登録パス情報から、1又は2以上の保存対象パス情報を決定する。具体的には、パス情報決定部2034は、入力障害情報と、登録障害情報とを照合し、照合結果に基づいて、障害履歴データ111を抽出する。そして、パス情報決定部2034は、抽出した障害履歴データ111に含まれる登録パス情報から、1又は2以上の保存対象パス情報を決定する。
また、パス情報決定部2034は、ログ情報データベース2022が格納する、障害履歴データ111の解析結果をさらに利用して、保存対象パス情報を決定しても良い。
以下、保存対象パス情報を決定する処理について、以下の処理1〜処理7を説明しながら、さらに詳細に説明する。
処理1:障害メッセージを照合
処理2:障害前後メッセージを照合
処理3:障害が発生した装置の同一性、及び顧客の同一性を照合
処理4:障害発生時刻を照合
処理5:障害発生率を考慮
処理6:出力必須ログ情報の有無を判断
処理7:ログファイルへのアクセス回数を考慮
(処理1:障害メッセージを照合)
パス情報決定部2034は、入力障害メッセージと、登録障害メッセージとを照合する。そして、パス情報決定部2034は、入力障害メッセージと、登録障害メッセージとの照合結果に基づいて、障害情報データベース2021から、障害履歴データ111を抽出する。そして、パス情報決定部2034は、抽出した障害履歴データ111に含まれる解析使用ログパス情報を、保存対象パス情報の一つとして決定する。
例えば、入力メッセージ情報及び登録メッセージ情報は、「メッセージの出力元を示す情報(以下、ソース情報と呼ぶ)」、「障害が発生した処理を特定する情報(以下、イベントID(Identification)と呼ぶ)」を含むとする。ここで、ソース情報は、メッセージ出力元のソフトウェアプログラムを特定する情報であっても良い。その場合、パス情報決定部2034は、入力メッセージ情報及び登録メッセージ情報に含まれる、ソース情報及びイベントIDを照合しても良い。そして、入力メッセージ情報及び登録メッセージ情報において、ソース情報及びイベントIDが一致した場合、パス情報決定部2034は、入力メッセージ情報及び登録メッセージ情報に含まれる、障害の内容(以下、エラー内容呼ぶ)を照合しても良い。入力メッセージ情報及び登録メッセージ情報において、エラー内容が一部一致(例えば、所定の文字数を越えて一致)した場合、入力メッセージ情報と、登録メッセージ情報とが一致した、とパス情報決定部2034は判断しても良い。
また、例えば、OS毎に、メッセージの書式が既知である場合には、パス情報決定部2034は、メッセージの書式に基づいて、入力メッセージ情報と、登録メッセージ情報とを照合しても良い。例えば、ソース情報がメッセージの先頭に出力されることが、既知である場合、パス情報決定部2034は、メッセージの先頭の単語を照合することで、ソース情報を照合しても良い。
(処理2:障害前後メッセージを照合)
また、入力メッセージ情報及び登録メッセージ情報が、障害前後メッセージ(第2の種類の入力メッセージ)を含んで構成されるとする。その場合、まず、パス情報決定部2034は、入力障害情報に含まれる第1の種類の入力メッセージと、登録障害情報に含まれる第1の種類の登録メッセージとを照合する。つまり、パス情報決定部2034は、入力障害メッセージと、登録障害メッセージとを照合する。そして、パス情報決定部2034は、第1の種類の入力メッセージと、第1の種類の登録メッセージとの照合結果に基づいて、障害情報データベース2021から、1又は2以上の前記障害履歴データを抽出する。
そして、パス情報決定部2034は、入力障害情報に含まれる第2の種類の入力メッセージと、抽出した障害履歴データ111に含まれる第2の種類の登録メッセージとを照合する。つまり、パス情報決定部2034は、入力障害前後メッセージと、抽出した障害履歴データ111に含まれる、登録障害前後メッセージとを照合する。
そして、パス情報決定部2034は、入力障害情報に含まれる第2の種類の入力メッセージと、抽出した障害履歴データ111に含まれる第2の種類の登録メッセージとの照合結果を利用して、保存対象パス情報を決定する。つまり、パス情報決定部2034は、入力障害前後メッセージと、抽出した障害履歴データ111に含まれる、登録障害前後メッセージとの照合結果を利用して、保存対象パス情報を決定する。
具体的には、入力障害情報に含まれる第2の種類の入力メッセージと、抽出した障害履歴データ111に含まれる第2の種類の登録メッセージとが一致する場合、パス情報決定部2034は、当該障害履歴データ111に含まれる前後メッセージ一致ログパス情報を、保存対象パス情報の一つとして決定する。
(処理3:障害が発生した装置の同一性、及び顧客の同一性を照合)
また、入力障害情報が、入力顧客情報を含んで構成されるとする。さらに、登録障害情報が、登録顧客情報を含んで構成されるとする。その場合、パス情報決定部2034は、入力装置情報及び入力顧客情報の組み合わせと、登録装置情報及び登録顧客情報の組み合わせとの照合結果をさらに利用して、保存対象パス情報を決定する。
具体的には、パス情報決定部2034は、入力装置情報及び入力顧客情報の組み合わせと、登録装置情報及び登録顧客情報の組み合わせとを照合する。そして、パス情報決定部2034は、入力装置情報及び入力顧客情報の組み合わせと、登録装置情報及び登録顧客情報の組み合わせとの照合結果に基づいて、障害情報データベース2021から、障害履歴データ111を抽出する。
より具体的には、パス情報決定部2034は、障害情報データベース2021から、入力装置情報及び入力顧客情報の組み合わせと一致する、登録装置情報及び登録顧客情報の組み合わせを含む障害履歴データ111を抽出する。または、パス情報決定部2034は、障害情報データベース2021から、入力装置情報及び入力顧客情報の組み合わせの一部と一致する、登録装置情報及び登録顧客情報の組み合わせを含む障害履歴データ111を抽出する。
そして、パス情報決定部2034は、入力メッセージ情報と、抽出した障害履歴データ111の登録メッセージ情報との照合結果に基づいて、保存対象パス情報を決定する。
例えば、パス情報決定部2034は、障害が発生した装置と同じ装置であるとともに、当該装置を使用する顧客と同じ顧客であって、同じ障害メッセージに対応する、障害履歴データ111を、障害情報データベース2021から抽出する。そして、パス情報決定部2034は、抽出した障害履歴データ111に基づいて、保存対象パス情報を決定する。そして、パス情報決定部2034は、抽出した障害履歴データ111に含まれる、同一障害ログパス情報を、保存対象パス情報の一つとして決定する。
(処理4:障害発生時刻を照合)
また、ログ情報データベース2022は、解析部2033が算出した障害発生平均時刻と、登録装置情報と、登録顧客情報と、第1の監視パス情報とを対応付けた情報を格納するとする。その場合、パス情報決定部2034は、入力時刻情報と、障害発生平均時刻との差分値に基づいて、第1の監視パス情報を、保存対象パス情報の一つにするか否かを判断する。
より具体的には、パス情報決定部2034は、ログ情報データベース2022を参照し、入力装置情報及び顧客情報の組み合わせに対応する、障害発生平均時刻を特定する。そして、入力時刻情報と、特定した障害発生平均時刻との差分値が、所定の範囲内である場合、パス情報決定部2034は、ログ情報データベース2022を参照し、特定した障害発生平均時刻に対応する、第1の監視パス情報を抽出する。そして、パス情報決定部2034は、抽出した第1の監視パス情報を、保存対象パス情報の一つとして決定する。以下の説明では、一の時刻に対して所定の範囲内の2以上の時刻を、説明の便宜上、「同様の時刻」と表現する。
(処理5:障害発生率を考慮)
また、ログ情報データベース2022は、所定の閾値を越える障害発生率に対応する、登録装置情報と、第2の監視パス情報とを、対応付けた情報を格納するとする。その場合、パス情報決定部2034は、所定の閾値を越える前記障害発生率に対応する、第2の監視パス情報を、保存対象パス情報の一つとして決定する。
具体的には、パス情報決定部2034は、ログ情報データベース2022を参照し、入力装置情報が、第2の監視パス情報に対応付けられた登録装置情報に対応するか否かを判断する。そして、入力装置情報が、第2の監視パス情報に対応付けられた登録装置情報に対応する場合、パス情報決定部2034は、ログ情報データベース2022から、当該第2の監視パス情報を抽出する。そして、パス情報決定部2034は、抽出した第2の監視パス情報を、保存対象パス情報の一つとして決定する。
(処理6:出力必須ログ情報の有無を判断)
また、ログ情報データベース2022は、第3の監視パス情報と、第4の監視パス情報とを対応付けた情報を格納するとする。その場合、パス情報決定部2034は、第3の監視パス情報に対応する、ログファイルのファイルサイズが所定の閾値より小さいか否かを判断する。なお、上記の通り、解析部2033は、第3の監視パス情報に対応する、ログファイルのファイルサイズを算出する。そして、パス情報決定部2034は、当該第3の監視パス情報に対応する、第4の監視パス情報を、保存対象パス情報の一つとして決定する。
例えば、第3の監視パス情報に対応する、ログファイルのファイルサイズがゼロであるとする。その場合、当該ログファイルのファイルサイズがゼロであることは、監視対象装置100において、出力されることが求められるログファイルが、適切に出力されていないことを意味する。そこで、ソフトウェアの動作状況に関するログファイルを、ログ情報保存領域2023に保存するために、パス情報決定部2034は、当該第3の監視パス情報に対応する、第4の監視パス情報を、保存対象パス情報の一つとして決定する。そして、ログ情報選定部2035は、第4の監視パス情報に対応するログファイルを、ログ情報保存領域2023に保存する。
(処理7:ログファイルへのアクセス回数を考慮)
また、ログ情報データベース2022は、アクセス回数が、所定の閾値を越えるログファイルに対応する、入力パス情報を、第5の監視パス情報として格納するとする。その場合、パス情報決定部2034は、入力ログファイルに対応する入力パス情報が、第5の監視パス情報に対応する場合、当該第5の監視パス情報を、保存対象パス情報の一つとして決定する。
[端末装置の構成]
次に、図2を参照しながら、端末装置300の構成について、詳細に説明する。
端末装置300は、端末通信部301と、端末記憶部302と、端末制御部303と、端末入力部304と、端末出力部305とを含んで構成される。図2は、端末装置300に関係するモジュールを主に記載する。端末装置300は、図2に示すモジュール以外のモジュール(ソフトウェア、ハードウェア)を含んでも良い。
端末通信部301は、通信機能を制御する。端末通信部301は、NIC等を用いて実現される。
端末記憶部302は、端末装置300を動作させるために必要な情報を記憶する。端末記憶部302は、磁気ディスク装置や光ディスク装置、半導体メモリによって実現される。なお、半導体メモリは、例えば、SSDであり、フラッシュメモリを使用したものでも良く、DRAMを含んでも良い。
また、端末記憶部302は、端末制御部303からの命令に応じて、記憶するデータの読み書き、データの検索等を行う。
端末制御部303は、端末装置300を動作させるための処理を制御する。端末制御部303は、CPU等を用いて実現される。
端末制御部303は、端末通信部301を介して、監視装置200に、保存ログ情報を要求する。例えば、端末装置300のユーザは、端末入力部304を用いて、要求対象の保存ログ情報を特定するための情報を、検索キーとして入力する。そして、端末制御部303は、入力された検索キーを監視装置200に送信することで、保存ログ情報を要求しても良い。
また、端末制御部303は、端末入力部304に対する操作に基づいて、登録パス情報、及び障害対応履歴情報を決定する。具体的には、端末制御部303は、端末通信部301を介して、監視装置200から障害履歴候補データ112を取得する。そして、端末制御部303は、取得した障害履歴候補データ112に対応する、登録パス情報、及び障害対応履歴情報を決定する。そして、端末制御部303は、端末通信部301を介して、決定した登録パス情報、及び障害対応履歴情報を監視装置200に送信する。
端末入力部304は、外部からの情報、信号等の入力を受け付ける装置、インタフェース等である。端末入力部304は、入力された情報等を、端末制御部303に渡す。端末入力部304は、キーボード、タッチパネル、ボタン等であっても良い。端末入力部304は、外部からの情報等の入力を受け付けることができればよく、その詳細は問わない。
端末出力部305は、外部に情報を出力する。具体的には、端末制御部303は、端末記憶部302にアクセスし、端末記憶部302から情報を抽出する。そして、端末制御部303は、端末出力部305を介して、抽出した情報を外部に出力する。例えば、端末出力部305は、端末装置300が接続する表示装置(図示せず)、印刷装置(図示せず)等に情報を出力しても良い。また、例えば、端末出力部305は、端末通信部301を介して情報を出力しても良い。
以下、障害復旧作業後に、作業者が行う作業を説明しながら、端末装置300について、さらに詳細に説明する。
例えば、障害復旧作業等を行う作業者が、障害復旧作業等を完了したとする。その場合、作業者は、作業を行った装置名、顧客名等を入力する。端末制御部303は、入力された装置名、顧客名等を検索キーとして、監視装置200に、障害候補履歴データ112を要求する。
そして、端末制御部303は、取得した障害候補履歴データ112に対応する、障害対応履歴情報、及び登録パス情報を入力するように、端末装置300のユーザ(即ち、作業者)に指示する。以下、障害対応履歴情報の入力、解析使用ログパス情報の入力、前後メッセージ一致ログパス情報の入力、同一障害ログパス情報の入力について、夫々詳細に説明する。
(障害対応履歴情報の入力)
作業者は、端末装置300に、作業内容を入力する。端末制御部303は、入力された作業内容を、障害対応履歴情報として決定する。
端末装置300は、表示画面に、「作業内容を具体的に入力してください」等のメッセージを表示しても良い。端末装置300は、このようなメッセージを表示することで、作業者に、障害対応履歴情報を入力することを指示しても良い。
(解析使用ログパス情報の入力)
さらに、作業者は、障害を解析するために主に使用したログファイルのディレクトリパス、及び/又はファイルパスを、端末装置300に入力する。端末制御部303は、入力された、障害を解析するために主に使用したログファイルのディレクトリパス等を、解析使用ログパス情報として決定する。
端末装置300は、表示画面に、「障害を解析するために、主に使用した、ログファイルのディレクトリパスを入力してください」等のメッセージを表示しても良い。端末装置300は、このようなメッセージを表示することで、作業者に、解析使用ログパス情報を入力することを指示しても良い。
(前後メッセージ一致ログパス情報の入力)
さらに、作業者は、障害復旧作業等において、障害前後メッセージが重要であったと判断したとする。そして、作業者は、障害復旧作業等において、障害前後メッセージに関連するログファイルを参照したとする。その場合、作業者は、障害前後メッセージに関連する、ログファイルのディレクトリパス、及び/又はファイルパスを、端末装置300に入力する。端末制御部303は、入力された、障害前後メッセージに関連するログファイルのディレクトリパス等を、前後メッセージ一致ログパス情報として決定する。
端末装置300は、表示画面に、「障害を示すメッセージの前後に出力されたメッセージに関連して、参照したログファイルがあれば、そのログファイルのディレクトリパスを入力してください」等のメッセージを表示しても良い。端末装置300は、このようなメッセージを表示することで、作業者に、前後メッセージ一致ログパス情報を入力することを指示しても良い。
例えば、監視対象装置100が、障害メッセージを出力後に、当該監視対象装置100を起動する旨のメッセージを出力したとする。そして、障害前後メッセージが、当該監視対象装置100を起動する旨のメッセージを含むとする。そして、作業者は、監視対象装置100を起動する旨のメッセージに基づいて、監視対象装置100が一旦停止後に、再起動したと判断したとする。そして、作業者は、監視対象装置100の停止に関するログファイルが、障害復旧作業等において重要であったと判断したとする。その場合、作業者は、監視対象装置100の停止に関するログファイルのパス情報を、前後メッセージ一致ログパス情報として、端末装置300に入力しても良い。
(同一障害ログパス情報の入力)
さらに、作業者は、障害復旧作業等において、同一(又は類似)の装置等の、同一(又は類似)の障害に対応した経験が役立ったと判断したとする。そして、作業者は、障害復旧作業等において、当該経験に基づいて、何らかのログファイルを参照したとする。その場合、作業者は、当該経験に基づいて参照したログファイルのディレクトリパス、及び/又はファイルパスを、端末装置300に入力する。端末制御部303は、入力された、当該経験に基づいて参照されたログファイルのディレクトリパス等を、同一障害ログパス情報として決定する。
端末装置300は、表示画面に、「今後、同一の装置で、同一の障害が発生した場合に、必要だと思われるログファイルがあれば、そのログファイルのディレクトリパスを入力してください」等のメッセージを表示しても良い。端末装置300は、このようなメッセージを表示することで、作業者に、同一障害ログパス情報を入力することを指示しても良い。
例えば、監視対象装置100が搭載する、ハードディスクドライブの障害に関して、作業者は、復旧作業を行った経験があるとする。しかし、復旧作業後に、再度、同一の監視対象装置100が搭載する、同一のハードディスクドライブに関して、障害が発生したとする。そして、作業者は障害を解析した結果、当該障害は、ハードディスクドライブが原因ではなく、CPUが原因であると判断したとする。その場合、作業者は、障害の原因であるCPUに関するログファイルのパス情報を、同一障害ログパス情報として、端末装置300に入力しても良い。
そして、端末制御部303は、決定した解析使用ログパス情報と、前後メッセージ一致ログパス情報と、同一障害ログパス情報とを、登録パス情報として決定する。そして、端末制御部303は、登録パス情報及び障害対応履歴情報を、端末通信部301を介して、監視装置200に送信する。なお、端末制御部303は、送信する登録パス情報等が、監視装置200から取得した障害履歴候補データ112に対応することを示すために、障害履歴候補データ112の識別番号を送信しても良い。
[監視システム1の動作]
次に、監視システム1の動作について、詳細に説明する。なお、以下の説明においては、パス情報決定部2034は、上記の処理1〜処理7に示す処理を全て行い、保存対象パス情報を決定する場合について説明する。ただし、これは、パス情報決定部2034が、上記の処理1〜処理7に示す処理を全て行うことに限定する趣旨ではない。パス情報決定部2034は、上記の処理1〜処理7のうち、1又は2以上のいずれかの処理を行い、保存対象パス情報を決定しても良い。
まず、図8を参照しながら、障害履歴データ111を特定する処理について説明する。
監視対象装置100において、障害監視ソフトウェア106が、障害発生を検出したとする(ステップS001)。その場合、障害監視ソフトウェア106は、入力ログ情報と、入力障害情報とを収集する(ステップS002)。障害監視ソフトウェア106は、入力ログ情報と、入力障害情報とを収集した場合、監視対象通信部101を介して、入力ログ情報と、入力障害情報とを監視装置200に送信する(ステップS003)。
監視装置通信部201は、入力ログ情報と、入力障害情報とを受信し、障害情報取得部2031に、受信した入力ログ情報と、入力障害情報とを渡す。障害情報取得部2031は、取得した入力障害情報と、入力ログ情報を一時的に、監視装置記憶部202に保存する(ステップS004)。なお、入力障害情報については、障害情報取得部2031は、取得した入力障害情報に基づいて、障害履歴候補データ112を生成する。そして、障害情報取得部2031は、生成した障害履歴候補データ112を、障害情報データベース2021に登録する。
ステップS005において、入力障害メッセージに対応する登録障害メッセージが、障害情報データベース2021に登録されているか否かを、パス情報決定部2034は判断する。入力障害メッセージに対応する登録障害メッセージが、障害情報データベース2021に登録されている場合(ステップS005のYes分岐)には、ステップS007に遷移する。一方、入力障害メッセージに対応する登録障害メッセージが、障害情報データベース2021に登録されていない場合(ステップS005のNo分岐)には、ログ情報選定部2035は、ログ情報保存領域2023に、入力ログ情報を保存ログ情報として保存する(ステップS006)。
パス情報決定部2034は、入力障害メッセージ対応する登録障害メッセージに基づいて、障害履歴データ111を特定する(ステップS007)。そして、パス情報決定部2034は、特定した障害履歴データ111から、解析使用ログパス情報を抽出する(ステップS008)。そして、パス情報決定部2034は、抽出した解析使用ログパス情報を、保存対象パス情報の一つとして決定する(ステップS009)。
ステップS010において、入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111が、障害情報データベース2021に登録されているか否かを、パス情報決定部2034は判断する。入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111が、障害情報データベース2021に登録されている場合(ステップS010のYes分岐)には、図9に示すステップS101に遷移する。一方、入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111が、障害情報データベース2021に登録されていない場合(ステップS010のNo分岐)には、図9に示すステップS105に遷移する。
次に、図9を参照しながら、障害履歴データ111に基づいて、保存対象パス情報を決定する処理について説明する。
ステップS101において、入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111に、同一障害ログパス情報が登録されているか否かを、パス情報決定部2034は判断する。入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111に、同一障害ログパス情報が登録されている場合(ステップS101のYes分岐)には、ステップS103に遷移する。一方、入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111に、同一障害ログパス情報が登録されていない場合(ステップS101のNo分岐)には、ログ情報選定部2035は、ログ情報保存領域2023に、入力ログ情報を保存ログ情報として保存する(ステップS102)。
ステップS103において、パス情報決定部2034は、入力障害メッセージと、入力装置情報と、入力顧客情報との組み合わせに対応する障害履歴データ111から、同一障害ログパス情報を抽出する。そして、パス情報決定部2034は、抽出した同一障害ログパス情報を、保存対象パス情報の一つとして決定する(ステップS104)。
ステップS105において、入力障害前後メッセージが障害履歴データ111に登録されているか否かを、パス情報決定部2034は判断する。ここで、判断対象の障害履歴データ111は、入力障害メッセージに対応する登録障害メッセージを含む(図8に示すステップS005のYes分岐に相当)こととする。
入力障害前後メッセージが障害履歴データ111に登録されている場合(ステップS105のYes分岐)には、ステップS106に遷移する。一方、入力障害前後メッセージが障害履歴データ111に登録されていない場合(ステップS105のNo分岐)には、図10に示すステップS201に遷移する。
ステップS106において、パス情報決定部2034は、入力障害前後メッセージに対応する障害履歴データから、前後メッセージ一致ログパス情報を抽出する。そして、パス情報決定部2034は、抽出したメッセージ一致ログパス情報を、保存対象パス情報の一つとして決定する(ステップS107)。そして、図10に示すステップS201に遷移する。
次に、図10を参照しながら、ログ情報データベース2022に基づいて、保存対象パス情報を決定する処理について説明する。
ステップS201において、パス情報決定部2034は、ログ情報データベース2022から、入力顧客情報に対応する障害発生平均時刻を抽出する。
ステップS202において、入力障害情報に含まれる障害発生時刻が、抽出した障害発生平均時刻に対して、所定の範囲内であるか否かを、パス情報決定部2034は判断する。入力障害情報に含まれる障害発生時刻が、抽出した障害発生平均時刻に対して、所定の範囲内である場合(ステップS202のYes分岐)には、ステップS203に遷移する。一方、入力障害情報に含まれる障害発生時刻が、抽出した障害発生平均時刻に対して、所定の範囲内ではない場合(ステップS202のNo分岐)には、ステップS205に遷移する。
ステップS203において、パス情報決定部2034は、ログ情報データベース2022から、装置の性能情報に関連する負荷ログパス情報(第1の監視パス情報)を抽出する。そして、パス情報決定部2034は、抽出した負荷ログパス情報(第1の監視パス情報)を、保存対象パス情報の一つとして決定する(ステップS204)。
例えば、同じ顧客が使用する、同じ監視対象装置100において、2以上の異なる障害メッセージが、異なる日において、同様の時刻に、繰り返し出力されたとする。その場合、当該装置において、同様の時刻に、負荷の高い処理が行われたために、障害が発生した可能性がある。そこで、障害復旧を行う作業者が、障害を解析するためには、障害が発生した装置の負荷ログを参照することが好ましい。そのため、パス情報決定部2034は、第1の監視パス情報を、保存対象パス情報の一つとして決定する。その結果、ログ情報選定部2035は、第1の監視パス情報に対応する入力ログファイルを、ログ情報保存領域2023に保存する。
ステップS205において、入力装置情報に対応する登録装置情報が、所定の閾値を越える障害発生率の特定装置情報として、ログ情報データベース2022に登録されているか否かを、パス情報決定部2034は判断する。入力装置情報に対応する登録装置情報が、所定の閾値を越える障害発生率の特定装置情報として、ログ情報データベース2022に登録されている場合(ステップS205のYes分岐)には、ステップS206に遷移する。一方、入力装置情報に対応する登録装置情報が、所定の閾値を越える障害発生率の特定装置情報として、ログ情報データベース2022に登録されていない場合(ステップS205のNo分岐)には、図11に示すステップS301に遷移する。
ステップS206において、パス情報決定部2034は、ログ情報データベース2022から、当該特定装置情報に対応する特定装置ログパス情報(第2の監視パス情報)を抽出する。そして、パス情報決定部2034は、抽出した特定装置ログパス情報(第2の監視パス情報)を、保存対象パス情報の一つとして決定する(ステップS207)。そして、図11に示すステップS301に遷移する。
次に、図11を参照しながら、保存対象パス情報を決定する処理、及び保存ログ情報を保存する処理について説明する。
ステップS301において、パス情報決定部2034は、ログ情報データベース2022から、アクセス回数が所定の閾値を越えるログファイルに対応する、必須ログパス情報(第5の監視パス情報)を抽出する。そして、パス情報決定部2034は、抽出した必須ログパス情報(第5の監視パス情報)を、保存対象ログパス情報の一つとして決定する(ステップS302)。
ステップS303において、パス情報決定部2034は、ログ情報データベース2022から、出力必須ログパス情報(第3の監視パス情報)を抽出する。
ステップS304において、入力ログファイルが、抽出した第3の監視パス情報に対応する、出力必須ログファイルを含むか否かを、パス情報決定部2034は判断する。入力ログファイルが、抽出した出力必須ログパス情報(第3の監視パス情報)に対応する、出力必須ログファイルを含む場合(ステップS304のYes分岐)には、ステップS307に遷移する。一方、入力ログファイルが、抽出した出力必須ログパス情報(第3の監視パス情報)に対応する、出力必須ログファイルを含まない場合(ステップS304のNo分岐)には、ステップS305に遷移する。
ステップS305において、パス情報決定部2034は、当該第3の監視パス情報に対応する、ソフトウェア動作状況ログパス情報(第4の監視パス情報)を、ログ情報データベース2022から抽出する。そして、パス情報決定部2034は、抽出したソフトウェア動作状況ログパス情報(第4の監視パス情報)を、保存対象パス情報の一つとして決定する(ステップS306)。
ステップS307において、ログ情報選定部2035は、入力ログ情報から、保存対象パス情報に対応する入力ログファイルを抽出する。
ステップS308において、ログ情報選定部2035は、入力ログ情報から抽出した入力ログファイルを、保存ログ情報として、ログ情報保存領域2023に保存する。
次に、図12を参照しながら、保存ログ情報を抽出する処理について説明する。
ここで、監視装置200のログ情報保存領域2023は、抽出対象の保存ログ情報を格納しているものとする。その場合に、端末装置300の端末制御部303は、検索キーとして、装置情報、顧客情報等を取得した(ステップS401)とする。例えば、端末入力部304は、装置情報、顧客情報等を入力する操作を受け付けたとする。
そして、端末制御部303は、端末通信部301を介して、装置情報、顧客情報等を検索キーとして、保存ログ情報を監視装置200に要求する(ステップS402)。
監視装置通信部201が保存ログ情報の要求を受信した場合、監視装置制御部203は、検索キーとして指定された装置情報、顧客情報等に基づいて、ログ情報保存領域2023から保存ログ情報を抽出する(ステップS403)。そして、監視装置制御部203は、保存ログ情報の要求元の端末装置300に、抽出した保存ログ情報を送信する(ステップ404)。
例えば、端末通信部301が保存ログ情報を受信した場合、端末制御部303は、端末出力部305を介して、受信した保存ログ情報を出力しても良い。または、端末通信部301が保存ログ情報を受信した場合、端末制御部303は、受信した保存ログ情報を、端末記憶部302に格納しても良い。そして、端末制御部303は、ユーザの要求に応じて、保存ログ情報を出力しても良い。
次に、図13を参照しながら、障害履歴データ111を登録する処理について説明する。
そして、端末制御部303は、端末入力部304を介して、登録障害情報、登録メッセージ情報、登録パス情報の入力を検出した(ステップS501)とする。その場合、端末制御部303は、端末通信部301を介して、入力された登録障害情報、登録メッセージ情報、登録パス情報を、監視装置200に送信する(ステップS502)。
監視装置通信部201が、登録障害情報、登録メッセージ情報、登録パス情報を受信した場合、監視装置制御部203は、登録障害情報、登録メッセージ情報、登録パス情報に基づいて、障害履歴データ111を生成する(ステップS503)。そして、監視装置制御部203は、障害情報データベース2021に、生成した障害履歴データ111を登録する(ステップS504)。
図14は、保存対象パス情報の一例を示す図である。図14に示す保存対象パス情報は、解析使用ログパス情報、前後メッセージ一致ログパス情報、同一障害ログパス情報、負荷ログパス情報、特定装置ログパス情報、ソフトウェア動作情報ログパス情報、必須ログパス情報を示す。
ここで、障害情報データベース2021は、図5に示す障害履歴データ111を格納するとする。そして、ログ情報データベース2022は、図7(a)〜(d)に示す情報を格納する。そして、障害情報取得部2031は、図3に示す入力障害情報を取得したとする。
パス情報決定部2034は、図3に示す入力障害メッセージ「Error Code 0x00003A」を含む障害履歴データ111を、障害情報データベース2021から抽出する。そして、パス情報決定部2034は、図5に示す解析使用ログパス情報「/var/log/」を、保存対象パス情報の一つとして決定する。
さらに、パス情報決定部2034は、図3に示す入力障害メッセージ情報「Error Code 0x00003A」と、入力顧客情報「A商事」と、入力装置情報「110RX−XX」とを含む障害履歴データ111が、障害情報データベース2021に登録されているか否かを、パス情報決定部2034は判断する。図5を参照すると、障害情報データベース2021は、入力障害メッセージ情報「Error Code 0x00003A」と、入力顧客情報「A商事」と、入力装置情報「110RX−XX」とを含む障害履歴データ111を含まない。そのため、保存対象パス情報は、同一障害ログパス情報を含まないものである、とパス情報決定部2034は決定する。
さらに、パス情報決定部2034は、入力障害前後メッセージ、及び入力障害前後メッセージ「Error Code 0x00003A」、「System Restarted.」、及び「Initialization Completed.」を含む障害履歴データ111を、障害情報データベース2021から抽出する。そして、パス情報決定部2034は、図5に示す前後メッセージ一致ログパス情報「/var/sys/」を、保存対象パス情報の一つとして決定する。
さらに、図3に示す障害発生時刻「20:30:00(20時30分0秒)」が、図7(a)に示す顧客情報「A商事」の障害発生平均時刻「20:30:10(20時30分10秒)」に対して、所定の範囲内であるか否かを、パス情報決定部2034は判断する。ここで、図3に示す障害発生時刻「20:30:00(20時30分0秒)」は、図7(a)に示す顧客情報「A商事」の障害発生平均時刻「20:30:10(20時30分10秒)」に対して、所定の範囲内であるとする。その場合、パス情報決定部2034は、図7(a)に示す顧客情報「A商事」の障害発生平均時刻「20:30:10(20時30分10秒)」に対応する、負荷ログパス情報(第1の監視パス情報)「/proc/」を、保存対象パス情報の一つとして決定する。
さらに、図3に示す入力装置情報「110RX−XX」が、図7(b)に示す特定装置情報であるか否かを、パス情報決定部2034は判断する。図7(b)を参照すると、ログ情報データベース2022は、入力装置情報「110RX−XX」を、特定装置情報
として含まない。そのため、保存対象パス情報は、特定装置ログパス情報(第2の監視パス情報)を含まないものである、とパス情報決定部2034は決定する。
さらに、図7(d)に示す出力必須ログパス情報(第3の監視パス情報)に対応する、ログファイルのファイルサイズが所定の閾値より小さいか否かを、パス情報決定部2034は判断する。ここで、図7(d)に示す出力必須ログパス情報(第3の監視パス情報)に対応する、ログファイルのファイルサイズが所定の閾値を越えるとする。その場合、保存対象パス情報は、ソフトウェア動作状況ログパス情報(第4の監視パス情報)を含まないものである、とパス情報決定部2034は決定する。
そして、図7(c)に示す必須ログパス情報(第5の監視パス情報)「/etc/」「/var/log/messages」に対応するログファイルへのアクセス回数が、所定の閾値を越えるとする。その場合、パス情報決定部2034は、図7(c)に示す第5の監視パス情報である、「/etc/」「/var/log/messages」を、保存対象パス情報の一つとして決定する。
そして、パス情報決定部2034が、図14に示す保存パス情報を決定した場合、ログ情報選定部2035は、入力ログファイルのうち、監視対象装置100のディレクトリパス「/var/log/」、「/var/sys/」、「/proc/」、「/etc/」、「/var/log/messages」以下から収集されたログファイルを、保存ログ情報として選定する。
一方、ログ情報選定部2035は、監視対象装置100のディレクトリパス「/var/log/」、「/var/sys/」、「/proc/」、「/etc/」、「/var/log/messages」以外から収集された入力ログファイルを、監視装置記憶部202から削除する。または、障害情報取得部2031が、削除対象の入力ログファイルを取得後、所定の日数(例えば、1日等)経過後に、ログ情報選定部2035は、監視装置記憶部202から、削除対象の入力ログファイルを削除しても良い。
[変形例1]
本実施形態に係る監視システム1の変形例1として、監視対象装置100において、同一の障害が再度発生した場合、監視装置200は、同一の障害が発生した旨を示す情報を、保存ログ情報に追加しても良い。具体的には、パス情報決定部2034が、同一障害ログログパス情報を、保存対象パス情報の一つとして決定した場合、ログ情報選定部2035は、同一の障害が発生した旨を示す情報を、保存ログ情報に追加しても良い。さらに、ログ情報選定部2035は、以前の障害解析で判断した障害原因とは別の障害原因である可能性もある旨を示す情報を、保存ログ情報に追加しても良い。
つまり、パス情報決定部2034が、入力装置情報及び入力顧客情報の組み合わせに対応する、登録装置情報及び登録顧客情報の組み合わせを含む障害履歴データを抽出したとする。そして、パス情報決定部2034は、抽出した当該障害履歴データをさらに利用して、保存対象パス情報を決定したとする。その場合、ログ情報選定部2035は、同一の障害が発生した旨を示す情報を、保存ログ情報に追加しても良い。
[変形例2]
本実施形態に係る監視システム1の変形例2として、監視対象装置100において、出力必須ログが出力されていない場合、監視装置200は、出力必須ログが出力されていない旨を示す情報を、保存ログ情報に追加して、ログ情報保存領域2023に保存しても良い。具体的には、パス情報決定部2034が、ソフトウェア動作状況ログパス情報を、保存対象パス情報の一つとして決定した場合、ログ情報選定部2035は、出力されることが求められるログファイルが、出力されていない旨を示す情報を、保存ログ情報に追加しても良い。
以上のように、本実施形態に係る監視装置200は、1又は2以上の判断基準に基づいて、ディレクトリパス等を決定し、決定したディレクトリパス等に基づいて、保存対象のログファイルを選定する。従って、本実施形態に係る監視装置200は、全てのログファイルを保存する場合に比べ、保存されるログファイルの容量を低減することに貢献する。
さらに、本実施形態に係る監視装置200は、障害復旧作業を行った作業者が、重要であると判断したディレクトリパス等を、予め、保持する。そして、本実施形態に係る監視装置200は、障害復旧作業を行った作業者が、重要であると判断したディレクトリパス等から、保存対象のログファイルに対応するディレクトリパス等を決定する。従って、本実施形態に係る監視装置200は、障害解析する上で不必要なログファイルを保存することを抑制することに貢献する。よって、本実施形態に係る監視装置200は、コンピュータにおいて障害が発生した場合、必要十分なログファイルを保存することに貢献する。
また、本実施形態に係る監視装置200が、必要十分なログファイルを保存することで、記憶容量の消費量を低減できる。その結果、本実施形態に係る監視装置200は、不必要なログファイルを保存する場合に比べ、より多くの障害に関するログファイルを、より長期間保持することに貢献する。
また、本実施形態に係る監視装置200が、必要十分なログファイルを保存することで、障害復旧作業を行う作業者は、障害解析に必要なログファイルを探す時間を短縮できる。従って、本実施形態に係る監視装置200は、作業者が迅速に障害解析を行うことに貢献する。
上記の説明では、監視対象装置100と監視装置200とが、ネットワーク400を介して接続する構成について説明した。しかし、監視システム1の構成は、上記の構成に限定されない。例えば、監視対象装置100は、監視装置200の内部に、仮想化して構成されていても良い。そして、監視装置200の内部に、2以上の仮想化された監視対象装置100が構成されても良い。そして、各監視対象装置100は、監視装置200の内部において、夫々、異なるOS等に基づいて動作する構成であっても良い。
また、上記の説明では、端末装置300と監視装置200とが、ネットワーク400を介して接続する構成について説明した。しかし、監視システム1の構成は、上記の構成に限定されない。例えば、監視装置200は、端末装置300の機能を備えて構成されても良い。つまり、監視装置200が、端末装置300の機能を実現しても良い。
また、端末装置300は、他の1又は2以上の情報処理装置と、何らかのネットワークを介して、接続しても良い。そして、端末装置300は、当該他の情報処理装置に対するユーザの操作に基づいて、監視装置200に保存ログ情報を要求しても良い。そして、端末装置300は、監視装置200から保存ログ情報を取得した場合、要求元の情報処理装置に保存ログ情報を送信しても良い。
また、上記の説明では、監視システム1において、監視装置200が、障害情報データベース2021、ログ情報データベース2022、ログ情報保存領域2023を備える構成について説明した。しかし、監視システム1において、障害情報データベース2021、ログ情報データベース2022、ログ情報保存領域2023は、監視装置200と接続する他の装置(図示せず)が備える構成であっても良い。また、その場合、障害情報データベース2021等を備える装置と、監視装置200とが、何らかのネットワークを介して接続する構成であっても良い。
また、上記の説明では、監視装置200が、上記の処理1〜処理7に示す処理を全て行い、保存対象パス情報を決定する場合について説明した。ただし、これは、監視装置200は、上記の処理1〜処理7に示す処理を全て行うことに限定する趣旨ではない。監視装置200は、上記の処理1〜処理7のうち、1又は2以上のいずれかの処理を行い、保存対象パス情報を決定しても良い。
上述の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)上記第1の視点に係る監視装置の通りである。
(付記2)前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含み、前記パス情報決定部は、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出し、前記パス情報決定部は、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定し、前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである、付記1に記載の監視装置。
(付記3)前記入力障害情報は、障害が発生した装置を特定する入力装置情報、及び顧客を特定する入力顧客情報をさらに含み、前記登録障害情報は、装置を特定する登録装置情報、及び顧客を特定する登録顧客情報をさらに含み、前記パス情報決定部は、前記入力装置情報及び前記入力顧客情報の組み合わせに対応する、前記登録装置情報及び前記登録顧客情報の組み合わせを含む前記障害履歴データを抽出し、抽出した当該障害履歴データをさらに利用して、前記保存対象パス情報を決定する、付記1又は2に記載の監視装置。
(付記4)
前記ログ情報選定部は、前記パス情報決定部が、前記入力装置情報及び前記入力顧客情報の組み合わせに対応する、前記登録装置情報及び前記登録顧客情報の組み合わせを含む前記障害履歴データを抽出し、抽出した当該障害履歴データをさらに利用して、前記保存対象パス情報を決定した場合、同一の障害が発生した旨を示す情報を保存する、付記3に記載の監視装置。
(付記5)前記障害履歴データを解析する、解析部と、前記解析部が解析した、前記障害履歴データの解析結果を格納する、ログ情報データベースと、をさらに含み、前記パス情報決定部は、前記ログ情報データベースが格納する、前記障害履歴データの解析結果をさらに利用して、前記保存対象パス情報を決定する、付記3又は4に記載の監視装置。
(付記6)前記入力障害情報は、障害が発生した時刻を特定する、入力時刻情報をさらに含み、前記登録障害情報は、障害が発生した時刻を特定する、登録時刻情報をさらに含み、前記解析部は、前記登録装置情報及び登録顧客情報の組み合わせ毎に、前記登録時刻情報に基づいて、障害発生平均時刻を算出し、前記ログ情報データベースは、前記障害発生平均時刻と、前記登録装置情報と、前記登録顧客情報と、第1の監視パス情報とを対応付けた情報をさらに格納し、前記パス情報決定部は、入力顧客情報と入力装置情報との組み合わせに対応する前記障害発生平均時刻を、前記ログ情報データベースから抽出し、前記入力時刻情報と、抽出した前記障害発生平均時刻との差分値に基づいて、抽出した前記障害発生平均時刻に対応する前記第1の監視パス情報を、前記保存対象パス情報の一つにするか否かを判断する、付記5に記載の監視装置。
(付記7)前記第1の監視パス情報は、前記登録装置情報に対応する装置の性能に関する情報を示す、ログファイルの出力先を示すパス情報である、付記6に記載の監視装置。
(付記8)前記解析部は、前記登録装置情報毎に、障害発生率を算出し、前記ログ情報データベースは、所定の閾値を越える前記障害発生率に対応する、前記登録装置情報と、第2のパス情報とを、対応付けた情報をさらに格納し、前記パス情報決定部は、前記入力装置情報が、所定の閾値を越える前記障害発生率に対応する前記登録装置情報として、前記ログ情報データベースに登録されている場合、当該登録装置情報に対応付けられた前記第2の監視パス情報を、前記保存対象パス情報の一つとして決定する、付記5乃至7のいずれか一に記載の監視装置。
(付記9)前記第2の監視パス情報は、前記装置情報に対応する装置に搭載されたハードウェア、ソフトウェアに関する情報を示す、ログファイルの出力先を示すパス情報である、付記8に記載の監視装置。
(付記10)前記ログ情報データベースは、第3の監視パス情報と、第4の監視パス情報とを対応付けた情報をさらに格納し、前記解析部は、前記第3の監視パス情報に対応する、ログファイルのファイルサイズを算出し、前記パス情報決定部は、前記解析部が算出したファイルサイズが所定の閾値より小さい場合、当該第3の監視パス情報に対応する、前記第4の監視パス情報を、前記保存対象パス情報の一つとして決定する、付記5乃至9のいずれか一に記載の監視装置。
(付記11)前記第3の監視パス情報は、装置の正常動作の判断基準として利用可能な情報を示す、ログファイルの出力先を示すパス情報であり、前記第4の監視パス情報は、装置に搭載されたソフトウェアの動作状況を示す、ログファイルの出力先をパス情報である、付記10に記載の監視装置。
(付記12)
前記ログ情報選定部は、前記パス情報決定部2034が、前記第4の監視パス情報を、前記保存対象パス情報の一つとして決定した場合、出力されることが求められるログファイルが、出力されていない旨を示す情報を保存する、付記11に記載の監視装置。
(付記13)前記保存対象のログファイルを格納する記憶領域を備え、前記解析部は、前記記憶領域が格納する前記保存対象のログファイルへのアクセス回数が、所定の閾値を越える場合、当該保存対象のログファイルに対応する前記入力パス情報を、第5の監視パス情報として、前記ログ情報データベースに登録し、前記パス情報決定部は、前記入力ログファイルに対応する前記入力パス情報が、前記第5の監視パス情報に対応する場合、当該第5の監視パス情報を、前記保存対象パス情報の一つとして決定する、付記5乃至12のいずれか一に記載の監視装置。
(付記14)上記第2の視点に係る監視システムの通りである。
(付記15)上記第3の視点に係る監視装置の制御方法の通りである。
(付記16)1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える監視装置を制御するコンピュータに実行させるプログラムであって、1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する処理と、前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する処理と、前記保存対象パス情報に対応する前記入力パス情報を特定する処理と、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する処理と、を前記コンピュータに実行させるプログラム。
なお、上記の付記14乃至16に示す形態は、付記1に示す形態と同様に、付記2乃至13に示す形態に展開することが可能である。
なお、上記の特許文献の開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
1 監視システム
10、200 監視装置
11、2021 障害情報データベース
12、2031 障害情報取得部
13、2034 パス情報決定部
14、2035 ログ情報選定部
100 監視対象装置
101 監視対象通信部
102 監視対象記憶部
103 監視対象制御部
104 監視対象入力部
105 監視対象出力部
106 障害監視ソフトウェア
107 ログ情報
111 障害履歴データ
112 障害履歴候補データ
201 監視装置通信部
202 監視装置記憶部
203 監視装置制御部
300 端末装置
301 端末通信部
302 端末記憶部
303 端末制御部
304 端末入力部
305 端末出力部
400 ネットワーク
2022 ログ情報データベース
2023 ログ情報保存領域
2032 障害履歴登録部
2033 解析部

Claims (12)

  1. 1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースと、
    1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する、障害情報取得部と、
    前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部と、
    前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部と、
    を備え
    前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、
    前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む、監視装置。
  2. 1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースと、
    1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する、障害情報取得部と、
    前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部と、
    前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部と、
    を備え、
    前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、
    前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含み、
    前記パス情報決定部は、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出し、
    前記パス情報決定部は、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定し、
    前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、
    前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである、監視装置。
  3. 前記入力障害情報は、障害が発生した装置を特定する入力装置情報、及び顧客を特定する入力顧客情報をさらに含み、
    前記登録障害情報は、装置を特定する登録装置情報、及び顧客を特定する登録顧客情報をさらに含み、
    前記パス情報決定部は、前記入力装置情報及び前記入力顧客情報の組み合わせに対応する、前記登録装置情報及び前記登録顧客情報の組み合わせを含む前記障害履歴データを抽出し、抽出した当該障害履歴データをさらに利用して、前記保存対象パス情報を決定する、請求項1又は2に記載の監視装置。
  4. 前記障害履歴データを解析する、解析部と、
    前記解析部が解析した、前記障害履歴データの解析結果を格納する、ログ情報データベースと、
    をさらに含み、
    前記パス情報決定部は、前記ログ情報データベースが格納する、前記障害履歴データの解析結果をさらに利用して、前記保存対象パス情報を決定する、請求項3に記載の監視装置。
  5. 前記入力障害情報は、障害が発生した時刻を特定する、入力時刻情報をさらに含み、
    前記登録障害情報は、障害が発生した時刻を特定する、登録時刻情報をさらに含み、
    前記解析部は、前記登録装置情報及び登録顧客情報の組み合わせ毎に、前記登録時刻情報に基づいて、障害発生平均時刻を算出し、
    前記ログ情報データベースは、前記障害発生平均時刻と、前記登録装置情報と、前記登録顧客情報と、第1の監視パス情報とを対応付けた情報をさらに格納し、
    前記パス情報決定部は、入力顧客情報と入力装置情報との組み合わせに対応する前記障害発生平均時刻を、前記ログ情報データベースから抽出し、前記入力時刻情報と、抽出した前記障害発生平均時刻との差分値に基づいて、抽出した前記障害発生平均時刻に対応する前記第1の監視パス情報を、前記保存対象パス情報の一つにするか否かを判断する、請求項4に記載の監視装置。
  6. 前記解析部は、前記登録装置情報毎に、障害発生率を算出し、
    前記ログ情報データベースは、所定の閾値を越える前記障害発生率に対応する、前記登録装置情報と、第2の監視パス情報とを、対応付けた情報をさらに格納し、
    前記パス情報決定部は、前記入力装置情報が、所定の閾値を越える前記障害発生率に対応する前記登録装置情報として、前記ログ情報データベースに登録されている場合、当該登録装置情報に対応付けられた前記第2の監視パス情報を、前記保存対象パス情報の一つとして決定する、請求項4又は5に記載の監視装置。
  7. 前記ログ情報データベースは、第3の監視パス情報と、第4の監視パス情報とを対応付けた情報をさらに格納し、
    前記解析部は、前記第3の監視パス情報に対応する、ログファイルのファイルサイズを算出し、
    前記パス情報決定部は、前記解析部が算出したファイルサイズが所定の閾値より小さい場合、当該第3の監視パス情報に対応する、前記第4の監視パス情報を、前記保存対象パス情報の一つとして決定する、請求項4乃至6のいずれか一に記載の監視装置。
  8. 前記保存対象のログファイルを格納する記憶領域を備え、
    前記解析部は、前記記憶領域が格納する前記保存対象のログファイルへのアクセス回数が、所定の閾値を越える場合、当該保存対象のログファイルに対応する前記入力パス情報を、第5の監視パス情報として、前記ログ情報データベースに登録し、
    前記パス情報決定部は、前記入力ログファイルに対応する前記入力パス情報が、前記第5の監視パス情報に対応する場合、当該第5の監視パス情報を、前記保存対象パス情報の一つとして決定する、請求項4乃至7のいずれか一に記載の監視装置。
  9. 実行した処理に応じたログファイルを出力する監視対象装置と、
    前記監視対象装置を監視する監視装置と、
    を含む監視システムであって、
    前記監視装置は、
    1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースと、
    1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを、前記監視対象装置から取得する、障害情報取得部と、
    前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部と、
    前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部と、
    を備え
    前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、
    前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む、監視システム。
  10. 実行した処理に応じたログファイルを出力する監視対象装置と、
    前記監視対象装置を監視する監視装置と、
    を含む監視システムであって、
    前記監視装置は、
    1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースと、
    1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを、前記監視対象装置から取得する、障害情報取得部と、
    前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する、パス情報決定部と、
    前記保存対象パス情報に対応する前記入力パス情報を特定し、特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する、ログ情報選定部と、
    を備え、
    前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、
    前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含み、
    前記パス情報決定部は、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出し、
    前記パス情報決定部は、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定し、
    前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、
    前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである、監視システム。
  11. 1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える監視装置の制御方法であって、
    1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する工程と、
    前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する工程と、
    前記保存対象パス情報に対応する前記入力パス情報を特定する工程と、
    特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する工程と、
    を含み、
    前記登録障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含み、
    前記入力障害情報は、障害の発生元、障害の発生タイミングの少なくともいずれかに関する情報を含む、監視装置の制御方法。
  12. 1又は2以上の登録パス情報と、登録障害情報とを対応付けた、1又は2以上の障害履歴データを格納する、障害情報データベースを備える監視装置の制御方法であって、
    1又は2以上の入力パス情報と、前記入力パス情報に対応する入力ログファイルとを含む入力ログ情報と、入力障害情報とを取得する工程と、
    前記入力障害情報と、前記障害履歴データとに基づいて、前記登録パス情報から、1又は2以上の保存対象パス情報を決定する工程と、
    前記保存対象パス情報に対応する前記入力パス情報を特定する工程と、
    特定した前記入力パス情報に対応する前記入力ログファイルを、保存対象のログファイルとして決定する工程と、
    を含み、
    前記入力障害情報は、障害を示す、第1の種類の入力メッセージと、第2の種類の入力メッセージとを含み、
    前記登録障害情報は、障害を示す、第1の種類の登録メッセージと、第2の種類の登録メッセージとを含み、
    前記保存対象パス情報を決定する工程において、前記第1の種類の入力メッセージと、前記第1の種類の登録メッセージとの照合結果に基づいて、前記障害情報データベースから、1又は2以上の前記障害履歴データを抽出し、前記第2の種類の入力メッセージと、抽出した前記障害履歴データに含まれる前記第2の種類の登録メッセージとの照合結果を利用して、前記保存対象パス情報を決定し、
    前記第2の種類の入力メッセージは、前記第1の種類の入力メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージであり、
    前記第2の種類の登録メッセージは、前記第1の種類の登録メッセージの出力タイミングに対して、所定の時間内に出力されたメッセージである、監視装置の制御方法。
JP2016101757A 2016-05-20 2016-05-20 監視装置、情報監視システム、監視装置の制御方法、及びプログラム Active JP6504611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016101757A JP6504611B2 (ja) 2016-05-20 2016-05-20 監視装置、情報監視システム、監視装置の制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016101757A JP6504611B2 (ja) 2016-05-20 2016-05-20 監視装置、情報監視システム、監視装置の制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017208037A JP2017208037A (ja) 2017-11-24
JP6504611B2 true JP6504611B2 (ja) 2019-04-24

Family

ID=60416554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016101757A Active JP6504611B2 (ja) 2016-05-20 2016-05-20 監視装置、情報監視システム、監視装置の制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6504611B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610560B (zh) * 2020-12-07 2024-04-02 腾讯科技(深圳)有限公司 ***异常监控方法、装置和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058265A (ja) * 2005-08-22 2007-03-08 Hitachi Software Eng Co Ltd ログ出力制御装置及びログ出力制御プログラム
JP2007293699A (ja) * 2006-04-26 2007-11-08 Toshiba Corp プログラム異常動作時における解析用データ取得装置及びプログラム
JP2009110318A (ja) * 2007-10-31 2009-05-21 Nec Corp 障害情報出力制御装置及びそれらに用いる障害情報出力制御方法並びにそのプログラム
JP2013178715A (ja) * 2012-02-29 2013-09-09 Nippon Telegr & Teleph Corp <Ntt> ログ管理装置、ログ管理方法、ログ管理プログラム及びログ管理システム
JP2014010529A (ja) * 2012-06-28 2014-01-20 Hitachi Systems Ltd インシデント管理運用業務システム、インシデント管理運用業務システムの障害判定条件自動生成方法およびインシデント管理運用業務システムの障害対策手順追加依頼自動送信方法
JP2016001418A (ja) * 2014-06-12 2016-01-07 セイコーエプソン株式会社 電子機器、及び、電子機器の制御方法

Also Published As

Publication number Publication date
JP2017208037A (ja) 2017-11-24

Similar Documents

Publication Publication Date Title
US9294338B2 (en) Management computer and method for root cause analysis
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
US10462027B2 (en) Cloud network stability
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US20110307742A1 (en) Method and apparatus for cause analysis involving configuration changes
JP2019500680A5 (ja)
JP4506520B2 (ja) 管理サーバ、メッセージの抽出方法、及び、プログラム
JP6411696B1 (ja) バージョン管理システムおよびバージョン管理方法
US20060004839A1 (en) Method and system for data processing with data replication for the same
JPWO2018042584A1 (ja) 問合せ対応システム及び方法
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP6504611B2 (ja) 監視装置、情報監視システム、監視装置の制御方法、及びプログラム
WO2016095716A1 (zh) 一种故障信息处理方法与相关装置
JP7263206B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム
JP2018028798A (ja) 情報処理装置及びプログラム
JP7504816B2 (ja) ログ検索支援装置、及びログ検索支援方法
US12001271B2 (en) Network monitoring apparatus, method, and program
JP5435225B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP2017069912A (ja) ネットワーク監視装置およびネットワーク監視方法
US20210397498A1 (en) Information processing apparatus, control method, and program
US10353902B2 (en) Non-transitory computer-readable recording medium, retrieval support device, and retrieval support method
CN106569731B (zh) 极限存储方法、装置及设备
JP5978804B2 (ja) システムを管理するためのプログラム、方法及び情報処理装置
JP6291859B2 (ja) 判定プログラム,判定装置,判定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190320

R150 Certificate of patent or registration of utility model

Ref document number: 6504611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150