JP7380830B2 - 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム - Google Patents

障害対処装置及びシステム、ルールリスト生成方法並びにプログラム Download PDF

Info

Publication number
JP7380830B2
JP7380830B2 JP2022503695A JP2022503695A JP7380830B2 JP 7380830 B2 JP7380830 B2 JP 7380830B2 JP 2022503695 A JP2022503695 A JP 2022503695A JP 2022503695 A JP2022503695 A JP 2022503695A JP 7380830 B2 JP7380830 B2 JP 7380830B2
Authority
JP
Japan
Prior art keywords
execution
condition
failure
list
handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022503695A
Other languages
English (en)
Other versions
JPWO2021172435A5 (ja
JPWO2021172435A1 (ja
Inventor
凪 森山
友生子 竹村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021172435A1 publication Critical patent/JPWO2021172435A1/ja
Publication of JPWO2021172435A5 publication Critical patent/JPWO2021172435A5/ja
Application granted granted Critical
Publication of JP7380830B2 publication Critical patent/JP7380830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本開示は、障害対処装置及びシステム、ルールリスト生成方法並びにプログラムに関し、特に、情報システムの障害に対処する障害対処装置及びシステム、ルールリスト生成方法並びにプログラムに関する。
情報システムの運用の現場では、システムに障害が発生すると、正常稼働に戻すためにシステムに対して対処(復旧処理等)が行われる。
特許文献1には、コンピュータシステムの障害を監視する障害監視装置における自動障害復旧方法に関する技術が開示されている。特許文献1にかかる障害監視装置は、コンピュータシステムにおいて障害が発生した場合の復旧動作を定義する規則よりなる障害復旧情報を記憶する記憶手段を備える。そして、コンピュータシステムに障害が発生した時、障害監視装置は、障害復旧情報に予め設定されている規則を検索し、一致した規則に対応する障害復旧動作を行うようにコンピュータシステムに指示する。
特許文献2には、障害対処ルールに記述された障害以外の障害が発生した場合でも、その障害の復旧を試行することのできる障害復旧装置に関する技術が開示されている。
特開2005-346331号公報 特開2003-114811号公報
特許文献1及び2における情報システムの障害対処のルールを定義するためには、所定のルール指定言語により記述する必要がある。しかしながら、所定のルール指定言語により記述することは、運用担当者にとっては、スキルの難易度が高いという問題点がある。
本開示は、このような問題点を解決するためになされたものであり、情報システムの障害対処のルールの定義を容易に行うための障害対処装置及びシステム、ルールリスト生成方法並びにプログラムを提供することを目的とする。
本開示の第1の態様にかかる障害対処装置は、
情報システムから検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶部と、
前記障害メッセージを取得する取得部と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定部と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる実行制御部と、
を備え、
前記実行条件における条件情報の指定を受け付ける受付部と、
前記指定された条件情報に基づく条件式のプログラムコードを生成するコード生成部と、
前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成するテンプレート生成部と、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶部に格納するリスト生成部と、
をさらに備える。
本開示の第2の態様にかかる障害対処システムは、
情報システムから障害メッセージを検出する検出部と、
前記検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶部と、
前記障害メッセージを取得する取得部と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定部と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させるように指示を行う実行制御部と、
前記指示に応じて前記特定した対処内容を前記情報システムに対して実行する実行部と、
を備え、
前記実行条件における条件情報の指定を受け付ける受付部と、
前記指定された条件情報に基づく条件式のプログラムコードを生成するコード生成部と、
前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成するテンプレート生成部と、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶部に格納するリスト生成部と、
をさらに備える。
本開示の第3の態様にかかるルールリスト生成方法は、
情報システムから検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶部と、
前記障害メッセージを取得する取得部と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定部と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる実行制御部と、
を備える障害対処装置が、
前記実行条件における条件情報の指定を受け付け、
前記指定された条件情報に基づく条件式のプログラムコードを生成し、
前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成し、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶部に格納する。
本開示の第4の態様にかかるプログラムは、
情報システムから検出された障害メッセージに応じた対処内容を前記情報システムに対して実行するための実行条件における条件情報の指定を受け付ける処理と、
前記指定された条件情報に基づく条件式のプログラムコードを生成する処理と、
前記障害メッセージから抽出される抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた複数の障害対処ルールの入力テンプレートを生成する処理と、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記複数の障害対処ルールのリストとして記憶装置に格納する処理と、
前記障害メッセージを取得する処理と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する処理と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる処理と、
をコンピュータに実行させる。
本開示により、情報システムの障害対処のルールの定義を容易に行うための障害対処装置及びシステム、ルールリスト生成方法並びにプログラムを提供することができる。
本実施形態1にかかる障害対処装置の構成を示すブロック図である。 本実施形態1にかかるルールリスト生成処理の流れを示すフローチャートである。 本実施形態1にかかる障害対処処理の流れを示すフローチャートである。 本実施形態2にかかる障害対処システムを含む全体構成を示すブロック図である。 本実施形態2にかかる障害対処装置の構成を示すブロック図である。 本実施形態2にかかるルールリストの構成を示すブロック図である。 本実施形態2にかかるルールリストの例を示す図である。 本実施形態2にかかるルールリスト生成処理の流れを示すフローチャートである。 本実施形態2にかかる条件部定義画面の例を示す図である。 本実施形態2にかかるルールリストの入力テンプレートの例を示す図である。 本実施形態2にかかるルールリスト及びルールの入力例を示す図である。 本実施形態2にかかる障害対処処理の流れを示すシーケンス図である。 本実施形態3にかかるルールリストの入力テンプレートの例を示す図である。 本実施形態3にかかるルールリスト及びルールの入力例を示す図である。 本実施形態3にかかる障害対処処理の流れを示すフローチャートである。 本実施形態3にかかる障害対処処理の流れを示すフローチャートである。 本実施形態3にかかるアクション抑止間隔及び上限回数の組合せのパターンの例を示す図である。 本実施形態3にかかるアクション抑止間隔を設定有にした場合の例を示す図である。 本実施形態3にかかるアクション抑止上限回数を設定有にした場合の例を示す図である。 本実施形態3にかかるアクション抑止間隔及び上限回数を設定有にした場合の例を示す図である。 本実施形態3にかかるアクション抑止間隔及び上限回数を設定有にした場合の他の例を示す図である。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
<実施形態1>
図1は、本実施形態1にかかる障害対処装置100の構成を示すブロック図である。障害対処装置100は、監視対象の情報システム(不図示)において障害メッセージが検出された場合に所定の対処を実行することで、情報システムの復旧や運用の継続を行うための情報処理装置又はシステムである。
障害対処装置100は、記憶部11、取得部12、判定部13、実行制御部14、受付部15、コード生成部16、テンプレート生成部17及びリスト生成部18を備える。記憶部11は、複数の障害対処ルール111~11m(mは2以上の整数。)のリスト110を記憶する記憶領域である。障害対処ルール111等のそれぞれは、対処内容1111と実行条件1112とが対応付けられた情報である。対処内容1111は、情報システムから検出された障害メッセージに応じた対処の内容であり、例えば、情報システムに対する所定のコマンドやスクリプト又はこれらを生成するためのパラメータ等である。実行条件1112は、対処内容1111を情報システムに対して実行するための条件である。
取得部12は、情報システムから検出された障害メッセージを取得する。判定部13は、リスト110内の複数の障害対処ルール111等のそれぞれについて、取得した障害メッセージから抽出された抽出情報が実行条件1112に該当するか否かを判定する。尚、抽出情報は、文字列や数値である。実行制御部14は、該当すると判定された実行条件1112に対応付けられた対処内容1111を特定し、当該特定した対処内容1111を情報システムに対して実行させる。
受付部15は、実行条件1112における条件情報の指定を受け付ける。実行条件1112が被演算子AとBの比較条件である場合、条件情報とは「比較演算子」に相当する情報(文字列等)である。条件情報とは例えば、「(AとBが)等しい」「(AがB)より大きい」「(AとBが)正規表現に一致する」「(AがBを)含む」といったことを示す情報である。
コード生成部16は、指定された条件情報に基づく条件式のプログラムコードを生成する。例えば、条件情報が「等しい」である場合、生成されるプログラムコードは「A==B」に相当する。
テンプレート生成部17は、前記プログラムコードに基づいて複数の障害対処ルールの入力テンプレートを生成する。ここで、入力テンプレートには、各障害対処ルールについて、判定対象値と対処内容の入力欄が含まれる。判定対象値とは、抽出情報を前記プログラムコードに基づいて判定するための値である。例えば、プログラムコードが「A==B」である場合、抽出情報は「B」、判定対象値は「A」に相当する。つまり、「抽出情報をプログラムコードに基づいて判定するための判定対象値」の入力欄とは「A」の値の入力欄である。
また、対処内容は最終的なコマンドやスクリプトでなくても良い。例えば、対処内容は、対処の識別情報、対処先のシステム(サーバ)、最終的なコマンドに用いられるパラメータ等を含むものである。
リスト生成部18は、入力テンプレートに対する入力値を入力欄に設定してリスト110として記憶部11に格納する。
図2は、本実施形態1にかかるルールリスト生成処理の流れを示すフローチャートである。まず、受付部15は、実行条件1112における条件情報の指定を受け付ける(S11)。次に、コード生成部16は、指定された条件情報に基づく条件式のプログラムコードを生成する(S12)。そして、テンプレート生成部17は、プログラムコードに基づいて、判定対象値及び対処内容の入力欄を含めた入力テンプレートを生成する(S13)。その後、リスト生成部18は、入力テンプレートに対する入力値を入力欄に設定して、リスト110として記憶部11に格納する(S14)。
図3は、本実施形態1にかかる障害対処処理の流れを示すフローチャートである。まず、取得部12は、情報システムから検出された障害メッセージを取得する(S21)。このとき、障害対処装置100は、取得した障害メッセージから所定のロジックに基づいて1以上の抽出情報を抽出する。次に、判定部13は、障害対処ルール111等のそれぞれについて、抽出情報が実行条件1112に該当するか否かを判定する(S22)。このとき、判定部13は、記憶部11からリスト110をメモリ(不図示)に読み込み、各障害対処ルール111等における実行条件1112を解釈して、抽出情報が条件式を満たすか否かを判定する。
ステップS22で該当すると判定した場合、実行制御部14は、対処内容1111を特定する(S23)。そして、実行制御部14は、特定した対処内容1111を情報システムに対して実行させる(S24)。例えば、実行制御部14は、対処内容1111に相当するコマンドを情報システム上で実行させる。または、実行制御部14は、別途、コマンド実行ツールに対処内容1111を入力し、情報システムを宛先として対処内容1111に相当するコマンドを実行させる。ステップS24の後、又は、ステップS22で該当しないと判定した場合、実行制御部14は、当該障害対処処理を終了する。
このように本実施形態では、障害対処ルール111の実行条件1112にプログラムコードが必要なケースを対象とする。つまり、障害対処ルールを定義するためにプログラミングが必要となる。しかしながら、このようなプログラミングは、運用担当者にとってスキルの難易度が高いため、大量の障害対処ルールを定義することが困難となっている。そこで、本実施形態では、対処内容の実行条件における条件情報の指定を受け付けることにより、条件情報に基づき条件式のプログラムコードを生成(変換)し、プログラムコードと対応付けた判定対象値の入力欄を含む入力テンプレートを生成する。そのため、運用担当者等のユーザは、条件情報と判定対象値、対処内容といった運用に関する情報のみを入力することで複数の障害対処ルールを含むルールリストを定義できる。つまり、運用担当者はプログラミングを行わずに、情報システムの障害対処のルールの定義を容易に行うことができる。
尚、障害対処装置100は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施形態にかかるルールリスト生成方法の処理が実装されたコンピュータプログラムが記憶されている。また、当該プログラムには、運用対処方法の処理がさらに実装されていてもよい。但し、運用対処方法の処理は、他のプログラムに実装されていてもよい。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込ませ、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、取得部12、判定部13、実行制御部14、受付部15、コード生成部16、テンプレート生成部17及びリスト生成部18の機能を実現する。
または、取得部12、判定部13、実行制御部14、受付部15、コード生成部16、テンプレート生成部17及びリスト生成部18は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等を用いることができる。
また、障害対処装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、障害対処装置100の機能がSaaS(Software as a Service)形式で提供されてもよい。
<実施形態2>
本実施形態2は、上述した実施形態1の具体的な実施例である。図4は、本実施形態2にかかる障害対処システム1000を含む全体構成を示すブロック図である。障害対処システム1000は、情報システム1を監視する情報システムであり、監視ツール2と障害対処装置3と対処実行ツール4を備える。情報システム1は、監視対象の情報システムであり、1以上のコンピュータにより構成される。監視ツール2は、情報システム1の出力メッセージを監視し、所定の障害メッセージを検出した場合、検出した障害メッセージを障害対処装置3へ通知する。監視ツール2は、検出部の一例である。障害対処装置3は、上述した障害対処装置100の一例であり、監視ツール2から取得した障害メッセージ及びルールリストに基づきアクションコマンドを生成し、生成したアクションコマンドを対処実行ツール4へ出力する。障害対処装置3は、ルールエンジンと呼ぶこともできる。例えば、障害対処装置3は、ルールリストを解析してリスト内の複数のルールのそれぞれについて実行条件を解釈し、取得した障害メッセージが該当する実行条件に対応するルールのアクション(コマンド)を実行させる。対処実行ツール4は、障害対処装置3から入力されたアクションコマンドを指定された宛先に対して実行する。例えば、宛先が情報システム1の場合、対処実行ツール4は、情報システム1においてアクションコマンドを実行する。また、宛先がメールサーバ5の場合、対処実行ツール4は、アクションコマンド実行により送信メールを運用端末6へ出力する。対処実行ツール4は、実行部の一例である。尚、監視ツール2及び対処実行ツール4は、障害対処装置3と同一又は異なるコンピュータ上で実行されるコンピュータプログラムにより実現される。
また、障害対処装置3は、運用端末6とも接続されている。運用端末6は、運用担当者が操作するコンピュータである。障害対処装置3は、運用端末6からの入力に応じてルールリストの入力テンプレートを生成し、運用端末6から入力テンプレートに対する入力に応じてルールリストを生成する。
図5は、本実施形態2にかかる障害対処装置3の構成を示すブロック図である。障害対処装置3は、記憶部31、制御部32、メモリ33及び通信部34を備える。記憶部31は、上述した記憶部11の一例であり、プログラム310及びルールリスト311から31n(nは2以上の整数。)を記憶する。プログラム310は、本実施形態にかかるルール生成処理及び障害対処処理が実装されたコンピュータプログラムである。尚、記憶部31は、図示しない構成としてOS(Operating System)を記憶していてもよい。ルールリスト311等のそれぞれは、サービス種別3110、ヘッダ部40、ルール41から4mを含む。言い換えると、ルールリストは、サービス種別ごとに記憶されている。
図6は、本実施形態2にかかるルールリスト311の構成を示すブロック図である。また、図7は、本実施形態2にかかるルールリスト311の例を示す図である。サービス種別3110は、情報システム1において提供される複数種類のサービスのうち特定のサービスの種別を示す情報である。サービス種別3110は、例えばサービスID等である。ルールリスト311は、一つのサービス種別3110が含まれている。つまり、各ルールリストは、サービス種別ごとに分けられている。
ヘッダ部40は、ヘッダコード部401、条件コード部402、条件ヘッダ部403、アクションコード部404及びアクションヘッダ部405を含む。ヘッダコード部401は、ルールリスト311内で共通するプログラムコードを記述した欄である。尚、ヘッダコード部401は、固定値であってもよい。ヘッダコード部401は、例えば、ルールセット名、インポート文等である。条件コード部402は、各ルールの条件部のカラムごとのプログラムコードである。条件コード部402は、上述した「指定された条件情報に基づく条件式のプログラムコード」の一例である。条件ヘッダ部403は、各ルールの条件部のカラム名である。アクションコード部404は、各ルールのアクション部のカラムごとのプログラムコードである。尚、アクションコード部404は、固定値であってもよい。アクションヘッダ部405は、各ルールのアクション部のカラム名である。
ルール41は、条件部411及びアクション部412を含む。条件部411は、上述した判定対象値(及びその入力欄)に相当する。アクション部412は、対処内容(及びその入力欄)に相当する。尚、条件部のカラム(項目)数は、可変である。ルール42から4mについてはルール41と同様である。また、ルールリスト312から31nについてもルールリスト311と同様である。
図5に戻り説明を続ける。
メモリ33は、RAM(Random Access Memory)等の揮発性記憶装置であり、制御部32の動作時に一時的に情報を保持するための記憶領域である。通信部34は、障害対処装置3の外部との入出力を行うインタフェースである。例えば、通信部34は、運用端末6から処理要求等を受け付け、受け付けた処理要求を制御部32へ出力する。また、通信部34は、制御部32からの指示に応じて、出力を行う。または、通信部34は、監視ツール2から障害メッセージを受け付け、受け付けた障害メッセージを制御部32へ出力する。また、通信部34は、制御部32からアクションコマンドを受け付け、対処実行ツール4へ出力する。
制御部32は、障害対処装置3の各構成を制御するプロセッサつまり制御装置である。制御部32は、記憶部31からOS及びプログラム310をメモリ33へ読み込ませ、OS及びプログラム310を実行する。これにより、制御部32は、ルールリスト生成部321、メッセージ解析部322、判定部323、アクションコマンド生成部324及び実行指示部325の機能を実現する。
ルールリスト生成部321は、運用端末6からのルールリスト生成要求に応じてリストの入力テンプレートを生成及び出力し、入力テンプレートに対する入力値を入力欄に設定してルールリスト311等として記憶部31に格納する。メッセージ解析部322は、監視ツール2から取得した障害メッセージを解析して、抽出情報を抽出し、判定部323へ出力する。判定部323は、抽出情報からサービス種別を判定し、該当するルールリストを特定する。そして、判定部323は、特定したルールリストの各ルールの条件部を解釈し、抽出情報が条件式に該当するか否かを判定する。アクションコマンド生成部324は、判定部323により該当すると判定されたルールにおけるアクション部を特定し、当該アクション部からアクションコマンドを生成する。実行指示部325は、生成されたアクションコマンドを対処実行ツール4において実行させるように指示する。尚、ルールリスト生成部321は、上述した受付部15、コード生成部16、テンプレート生成部17及びリスト生成部18の具体例である。メッセージ解析部322は、上述した取得部12の具体例である。判定部323は、上述した判定部13の具体例である。アクションコマンド生成部324及び実行指示部325は、上述した実行制御部14の具体例である。
図8は、本実施形態2にかかるルールリスト生成処理の流れを示すフローチャートである。まず、運用担当者は、運用端末6に対してルールリスト生成開始の入力を行う。これに応じて、運用端末6は、障害対処装置3に対してルールリスト生成要求を送信する。そして、障害対処装置3のルールリスト生成部321は、運用端末6からルールリスト生成要求を受信する(S101)。
次に、ルールリスト生成部321は、運用端末6に対して条件部定義画面を返信する(S102)。これに応じて、運用端末6は、受信した条件部定義画面をディスプレイ等に表示する。図9は、本実施形態2にかかる条件部定義画面50の例を示す図である。移動部51は、各行の順序を入れ替えるための指示を受け付ける欄である。例えば、運用担当者はマウス等で特定の行の移動部51をドラッグして所望の行の位置へ移動させることができる。
条件名52は、ルールリストにおける条件名(条件部のカラム名)を入力する欄である。条件式53は、上述した条件情報を選択する欄である。削除54は、条件式(該当行)の削除を受け付ける欄である。条件式追加ボタン55は、条件式の追加を受け付ける欄である。閉じるボタン56は、条件部定義画面50をルールリストの入力テンプレートを生成せずに、画面を閉じるためのボタンである。追加ボタン57は、ルールリストの入力テンプレートの生成を開始するためのボタンである。また、図9は、条件名入力欄521「メモリ使用率」における条件式選択欄531が押下されて「より大きい」が選択されようとしている状況を示す。条件式選択欄531の選択肢は、条件情報の一例である。
図8に戻り説明を続ける。運用端末6は、運用担当者により追加ボタン57が押下された場合、条件部定義画面50の条件名52に入力された条件名、条件式53で選択された条件情報、及び、各条件の並び順を障害対処装置3へ送信する。これに応じて、ルールリスト生成部321は、運用端末6から条件名の入力値、条件式の選択値(条件情報)及び各条件の並び順を取得する(S103)。
そして、ルールリスト生成部321は、取得した入力値及び選択値並びに各条件の並び順に基づき、条件ヘッダ部403及び条件コード部402を生成する(S104)。例えば、図7の例では、条件名「メッセージID」が並び順「1」である場合であり、その際、ルールリスト生成部321は、条件コード部402に「MID==$param2」というコードを生成する。ここで、「$param2」の「2」は並び順に対応する。つまり、並び順「2」である場合、「$param3」となる。この場合、ルールリスト生成部321は、条件コード部402に「message==$param3」というコードを生成する。尚、この例における左辺「MID」や「message」は固定でもよいし、条件名に応じて予め定義したものであってもよい。また、ルールリスト生成部321は、ヘッダコード部401、アクションコード部404及びアクションヘッダ部405を生成する(S105)。尚、ヘッダコード部401、アクションコード部404及びアクションヘッダ部405は、固定値であってもよい。
ステップS104及びS105の後、ルールリスト生成部321は、ルールリストの入力テンプレートを生成する(S106)。ここでは、ルールリスト生成部321は、入力テンプレートを複数のセルによるスプレッドシート形式で生成する場合について説明する。まず、ルールリスト生成部321は、図7に示したように入力テンプレートの上部にヘッダコード部401を設定する。そして、ルールリスト生成部321は、条件部定義画面50に入力された各条件の並び順に対応させて、条件部のカラムを設定する。このとき、ルールリスト生成部321は、条件部定義画面50に入力された条件名(条件ヘッダ部403)を、対応する順序の各カラムに設定する。また、ルールリスト生成部321は、各カラムに対応付けて条件コード部402を設定する。具体的には図7に示したように、カラム名の上のセルに条件コード部402を設定する。続いて、ルールリスト生成部321は、条件ヘッダ部403のカラムの右側にアクションヘッダ部405を設定する。同様に、ルールリスト生成部321は、条件コード部402の右側にアクションコード部404を設定する。但し、ルールリスト生成部321は、入力テンプレートにおいてヘッダ部40を非表示とする。これにより、運用担当者がヘッダ部40を誤って編集してしまうことを防ぐことができる。尚、入力テンプレートにおいてヘッダ部40を表示しても構わない。
そして、ルールリスト生成部321は、入力テンプレートを記憶部31に保存し、また、運用端末6へ入力テンプレートを返信する(S107)。このとき、ルールリスト生成部321は、所定のサービス種別3110を入力テンプレートに対応付けて保存する。例えば、ルールリスト生成部321は、別途、運用端末6からルールリストに対応付けるサービス種別の指定を受け付けているものとする。また、運用端末6は、受信した入力テンプレートをディスプレイ等に表示する。
図10は、本実施形態2にかかるルールリストの入力テンプレートの例を示す図である。図10は、運用端末6での表示例であり、ヘッダ部40が非表示となっていること、及び、各ルールの入力欄が空欄であることを示す。
図8に戻り説明を続ける。その後、運用担当者は、入力テンプレートの各ルールにおける条件部及びアクション部に値の入力を行う。これに応じて、運用端末6は、各ルールの入力値を障害対処装置3へ送信する。そして、ルールリスト生成部321は、運用端末6からルールの入力値を受信し(S108でYES)、受信した入力値を該当する入力欄に設定してルールリスト311として記憶部31に登録(更新)する(S109)。そして、ステップS108へ戻る。
図11は、本実施形態2にかかるルールリスト及びルールの入力例を示す図である。ここでは、3つのルールについて条件部とアクション部が入力された例を示す。
図8に戻り説明を続ける。ルールリスト生成部321は、運用端末6から入力の終了の指示を受け付けた場合(S108でNO)、当該ルールリスト生成処理を終了する。
図12は、本実施形態2にかかる障害対処処理の流れを示すシーケンス図である。まず、監視ツール2は、情報システム1を監視し、障害メッセージを検出する(S201)。そして、監視ツール2は、検出した障害メッセージを障害対処装置3へ通知する(S202)。
次に、メッセージ解析部322は、監視ツール2から取得した障害メッセージを解析して抽出情報を抽出する(S203)。例えば、メッセージ解析部322は、障害メッセージからメッセージID、メッセージ本文、サービス種別、障害名称、障害レベル、サーバ温度、CPU使用率、発生日時(時分)、メモリ使用率等を抽出情報として抽出する。尚、抽出情報はこれらに限定されない。
そして、判定部323は、抽出情報からサービス種別を判定する(S204)。これにより、判定部323は、判定されたサービス種別が対応付けられたルールリストを特定する。続いて、判定部323は、特定されたルールリスト内の複数の障害対処ルールのそれぞれについて、抽出情報が条件部に該当するか否かを判定する(S205)。図11の例では、障害名称「サーバ温度異常」、障害レベル「重要」、サーバ温度「30」度以上、発生日時「06:00」から「18:00」の間の場合、判定部323は、ルール1に該当すると判定する。つまり、判定部323は、抽出情報が実行条件を満たすルールとしてルール1を特定する。
そして、アクションコマンド生成部324は、特定されたルールにおけるアクション部を特定し、当該アクション部からアクションコマンドを生成する(S206)。図11の例では、アクションコマンド生成部324は、情報システム1に対して電源OFF/ONを行うアクションコマンドを生成する。また、この例では、アクションコマンド生成部324は、アクション種別としてITA(対処実行ツール4)を特定し、アクションサーバリスト(情報システム1のサーバ)として「srv1」を特定する。そして、実行指示部325は、生成されたアクションコマンドを情報システム1の「srv1」に対して実行させるように対処実行ツール4へアクションコマンド実行指示を出力する(S207)。尚、アクション種別「mail」の場合も実行指示部325は、対処実行ツール4経由でメールサーバ5へ実行指示を行うものとする。但し、実行指示部325は、メールサーバ5へ直接、警告メールを出力してもよい。
対処実行ツール4は、受信したアクションコマンド実行指示に応じてアクションコマンドを実行する(S208)。図11の例では、対処実行ツール4は、情報システム1の「srv1」をリモートで電源OFF/ONを行う。
このように本実施形態では、実施形態1と同様に、運用担当者は、条件名の入力及び条件式の選択をルール数分行うだけで、ルールリスト生成部321は、プログラムコードが埋め込まれた入力テンプレートを生成する。すなわち、入力テンプレートの条件部の各カラムには、条件コード部402が埋め込まれている。同様に、入力テンプレートのアクション部の各カラムにも、アクションコード部404が埋め込まれている。さらに、入力テンプレートにはヘッダコード部401が埋め込まれている。そのため、運用担当者は、プログラムが不要で、運用に必要な知識を用いて個別の障害対処ルールにおける条件部及びアクション部を入力するだけで、ルールエンジンが解釈可能なルールリストを生成することができる。
また、本実施形態では、ルールリストがサービス種別ごとに分けられているため、ルールリストのメンテナンスをサービス担当者ごとに分業して行うことができる。また、障害メッセージの条件判定を行う際に、該当するサービスに対応するルールリストに絞り込むため、抽出情報が該当するルールを判定するための判定件数を抑制でき、処理効率を向上させることができる。
<実施形態3>
本実施形態3は、上述した実施形態2の改良例である。すなわち、ルールリスト生成部321は、特定の障害対処ルールについての実行抑止条件の入力を受け付けた場合、当該特定の障害対処ルールの実行条件に当該実行抑止条件をさらに対応付けてルールリストを更新する。そして、判定部323は、該当すると判定された実行条件に実行抑止条件が対応付けられている場合、当該実行抑止条件を満たすか否かを判定する。実行指示部325は、実行抑止条件を満たす場合、特定した対処内容の実行を抑止する。逆に言うと、実行指示部325は、実行条件を満たし、かつ、実行抑止条件を満たさない場合に、特定した対処内容の実行を指示する。例えば、実行条件を満たした場合であっても、障害の特性や対処後の情報システムの状態によっては、対処を抑止するなど、対処の実行を柔軟に制御できる。
さらに、前記実行抑止条件は、対応付けられている対処内容を単位時間あたりに実行させる上限回数を含むとよい。この場合、判定部323は、対処内容の単位時間あたりの実行回数が上限回数を超えていると判定した場合、前記実行抑止条件を満たすと判定する。例えば、同様の障害が連続して発生する場合には、毎回、同じ対処を実行すると却って不具合が生じる場合がある。具体的には、サーバの温度が規定値を上回った場合、対処としてサーバ室のファンの回転数を上げるといったことが挙げられる。その場合、一度、対処を行ったとしてもすぐにサーバの温度が規定値を下回るとは限らず、連続して同じ障害が発生し、実行条件を満たしてしまう。しかし、同じ障害が発生する度に毎回、ファンの回転数を上げると予期せぬ障害(二次障害)が発生する恐れがある。よってそのような場合には、対処の実行を抑止することが望ましく、本実施形態により実現できる。
または、前記実行抑止条件は、対応付けられている対処内容の実行を抑止する間隔を含むとよい。この場合、判定部323は、当該対処内容が直前に実行された後、前記間隔が経過していないと判定した場合、前記実行抑止条件を満たすと判定する。これにより、同様の障害が連続して発生し、その対処を実行した後、その効果が出るまで時間がかかる場合に、当該対処の過剰な実行を抑制し、二次障害や不要な電力の消費等を抑制できる。
または、前記実行抑止条件は、対応付けられている対処内容について上記上限回数と上記間隔とを組み合わせても良い。これによっても、対処の実行をきめ細かく制御することができる。
また、前記実行抑止条件は、対応付けられている前記対処内容の実行を抑止する時間帯を含むとよい。この場合、判定部323は、現在時刻が前記時間帯に含まれていると判定した場合、前記実行抑止条件を満たすと判定する。例えば、ある対処について動作検証を行った後に実行させたい場合がある。その際、予めルールリストに定義だけを行ったとする。このような場合に、特定の時間帯については対処の実行を抑止することが望ましい。または、対処がサーバの電源OFF/ONの場合、ある時間帯には実行を抑止することが望ましい場合がある。これらの場合への対応が本実施形態により実現できる。
尚、その他の構成は、実施形態2と同等であるため、共通する部分については図示及び詳細な説明を省略する。
図13は、本実施形態3にかかるルールリストの入力テンプレートの例を示す図である。ここでは、ルールリスト生成部321は、アクション部の右側にアクション制御部のカラムが追加して入力テンプレートを生成したことを示す。アクション制御部は、例えば、アクション抑止間隔及びアクション抑止上限回数、並びに、アクション抑止時間帯(from)及び(to)である。但し、アクション制御部はこれらに限定されない。ここで、アクション制御部は、実行抑止条件の一例である。また、「アクション抑止時間帯(from)」及び「アクション抑止時間帯(to)」も、実行抑止条件の一例である。尚、ルールリスト生成部321は、上述したステップS105と同様に、アクション制御部(ヘッダ部)に対応するプログラムコード(コード部)を生成し、コード部を非表示にしているものとする。これにより、運用担当者がコード部を誤って編集してしまうことを防ぐことができる。尚、入力テンプレートにおいてコード部を表示しても構わない。
図14は、本実施形態3にかかるルールリスト及びルールの入力例を示す図である。例えば、ルール1は、毎日6時30分から8時10分の間にルールに該当する障害が発生しても、アクションコマンドの実行が抑止されることを示す。また、ルール1は、6時00分から30分又は8時10分から18時00分の時間帯においてルールに該当する障害が発生して電源OFF/ONが1回実行されると、その後の3時間のうち計3回までしか電源OFF/ONが再実行されないことを示す。
また、ルール2は、12時00分から13時00分の間においてCPU使用率が80%を超えた場合、APサーバを再起動するアクションコマンドが実行される。但し、ルール2は、当該障害が頻繁に発生しても、10分の間隔を空けてAPサーバの再起動が実行されることを示す。
また、ルール3は、6時00分から18時00分の間にメモリ使用率が90%以上となった場合、警告メールを送信するアクションコマンドが実行される。但し、ルール3は、1回メールが送信されると、その後、同様の障害が発生しても5回まではメールの送信が抑止されることを示す。
図15及び図16は、本実施形態3にかかる障害対処処理の流れを示すフローチャートである。まず、初期設定として、制御部32は、各ルールにおける抑止タイマーを停止し、抑止フラグ及び抑止回数に「0」を設定する(S301)。次に、図12のステップS202からS205に相当する処理が実行される(S302)。これにより、判定部323は、抽出情報が実行条件を満たすルールを特定する。
続いて、判定部323は、現在時刻が、特定されたルールにおけるアクション抑止時間帯に含まれているか否かを判定する(S303)。現在時刻がアクション抑止時間帯に含まれている場合、ステップS302へ戻る。つまり、この場合、特定されたルールにおけるアクションコマンドの実行が抑止される。
一方、現在時刻がアクション抑止時間帯に含まれていない場合、ステップS304へ進む。尚、特定されたルールにアクション抑止時間帯が設定されていない場合も、ステップS304へ進む。そして、判定部323は、特定されたルールにおいて、アクション抑止間隔及びアクション抑止上限回数の組合せの設定有無を判定する(S304)。
ステップS304においてアクション抑止間隔及びアクション抑止上限回数のいずれも設定がない場合([無、無]の場合)、アクションコマンド生成部324は、特定されたルールにおけるアクション部を特定し、当該アクション部からアクションコマンドを生成する。そして、実行指示部325は、対処実行ツール4へアクションコマンド実行指示を出力する(S305)。その後、ステップS302へ戻る。
ステップS304においてアクション抑止間隔に設定があり、アクション抑止上限回数に設定がない場合([有、無]の場合)、判定部323は、抑止タイマーが制限時間内であるか否かを判定する(S306)。または、判定部323は、抑止タイマーが動作中か否かを判定してもよい。抑止タイマーが制限時間内である場合、ステップS302へ戻る。つまり、抑止タイマーが制限時間内である場合、特定されたルールにおけるアクションコマンドの実行が抑止される。
ステップS306において抑止タイマーが制限時間外、つまり、抑止タイマーが停止している場合、アクションコマンド生成部324は、特定されたルールにおけるアクション部を特定し、当該アクション部からアクションコマンドを生成する。そして、実行指示部325は、対処実行ツール4へアクションコマンド実行指示を出力する(S307)。そして、制御部32は、特定されたルールに対応付けられたアクション抑止間隔を制限時間として設定して抑止タイマーを開始する(S308)。その後、ステップS302へ戻る。尚、抑止タイマーは制限時間を経過すると自動で停止するものとする。言い換えると、アクションの実行からアクション抑止間隔を経過すると実行の抑止が解除される。
ステップS304においてアクション抑止間隔に設定がなく、アクション抑止上限回数に設定がある場合([無、有]の場合)、判定部323は、抑止フラグが1であるか否かを判定する(S309)。抑止フラグが1である場合、判定部323は、特定されたルールにおける現在の抑止回数が、特定されたルールに対応付けられたアクション抑止上限回数より小さいか否かを判定する(S310)。抑止回数が上限回数より小さい場合、制御部32は、現在の抑止回数に1を加算する(S311)。その後、ステップS302へ戻る。一方、抑止回数が上限回数以上である場合(つまり、抑止回数が上限回数である場合)、制御部32は、抑止フラグを「0」に更新する(S312)。その後、ステップS302へ戻る。つまり、抑止フラグが1である場合(ステップS311及びS312のいずれの場合も)、特定されたルールにおけるアクションコマンドの実行が抑止される。
ステップS309において抑止フラグが0である場合、アクションコマンド生成部324は、特定されたルールにおけるアクション部を特定し、当該アクション部からアクションコマンドを生成する。そして、実行指示部325は、対処実行ツール4へアクションコマンド実行指示を出力する(S313)。そして、制御部32は、特定されたルールに対応付けられた抑止フラグを「1」に更新し、抑止回数を「0」に更新(クリア)する(S314)。その後、ステップS302へ戻る。
ステップS304においてアクション抑止間隔及びアクション抑止上限回数のいずれも設定がある場合([有、有]の場合)、判定部323は、抑止タイマーが制限時間内であるか否かを判定する(S315)。抑止タイマーが制限時間内である場合、上述したステップS309からS314と同様に、ステップS316からS321が実行される。
ステップS315において抑止タイマーが制限時間外、つまり、抑止タイマーが停止している場合、アクションコマンド生成部324は、特定されたルールにおけるアクション部を特定し、当該アクション部からアクションコマンドを生成する。そして、実行指示部325は、対処実行ツール4へアクションコマンド実行指示を出力する(S322)。そして、制御部32は、特定されたルールに対応付けられたアクション抑止間隔を制限時間として設定して抑止タイマーを開始し、特定されたルールに対応付けられた抑止フラグを「1」に更新する(S323)。その後、ステップS302へ戻る。
続いて、本実施形態3にかかるアクション抑止間隔及び上限回数の組合せのパターンによる動作例を説明する。図17は、本実施形態3にかかるアクション抑止間隔及び上限回数の組合せのパターンの例を示す図である。パターン(1)は、アクション抑止間隔「無」及びアクション抑止上限回数「無」の場合であり、アクションの実行抑止が行されず、通常通りにアクションが実行される。パターン(2)は、アクション抑止間隔「5秒」及びアクション抑止上限回数「無」の場合である。この場合、アクションの実行後5秒間、同一ルールのアクションの実行が抑止される。パターン(3)は、アクション抑止間隔「無」及びアクション抑止上限回数「5回」の場合である。この場合、アクションの実行後、同一ルールのアクションの実行が5回、抑止される。パターン(4)は、アクション抑止間隔「5秒」及びアクション抑止上限回数「5回」の場合である。この場合、パターン(2)及び(3)の組合せで抑止される。但し、以下では、パターン(2)を優先する場合とする。
図18は、本実施形態3にかかるアクション抑止間隔を設定有にした場合(パターン(2))の例を示す図である。この場合、まず、障害対処装置3は、初回のルールヒットで該当するアクションを実行する。併せて、障害対処装置3は、5秒間の抑止(タイマー)を開始する。そして、抑止タイマーの開始から5秒間、同一のルールに何回ヒットしても、障害対処装置3は、該当するアクションの実行を抑止する。その後、抑止時間が経過した場合、障害対処装置3は、次のルールヒットまで抑止を解除する。そして、抑止が解除されている状態でのルールヒットで、障害対処装置3は、該当するアクションを実行し、併せて、再度、5秒間の抑止(タイマー)を開始する。
図19は、本実施形態3にかかるアクション抑止上限回数を設定有にした場合(パターン(3))の例を示す図である。この場合、まず、障害対処装置3は、初回のルールヒットで該当するアクションを実行する。このとき、障害対処装置3は、抑止を開始、つまり抑止フラグ=1に更新する。そのため、その後、同一のルールにヒットした場合、5回まで該当するアクションの実行を抑止する。そして、6回目(抑止期間の5回目)のルールヒットの場合、障害対処装置3は、抑止を解除、つまり抑止フラグ=0に更新する。その後、(全体で)7回目のルールヒットの場合、障害対処装置3は、該当するアクションを実行し、併せて、再度、抑止を開始、つまり抑止フラグ=1に更新する。言い換えると、抑止間隔は制限されない。
図20は、本実施形態3にかかるアクション抑止間隔及び上限回数を設定有にした場合(パターン(4))の例(障害発生例4-1)を示す図である。ここでは、パターン(2)(アクション抑止間隔)を優先するため、初回のルールヒットによるアクション実行から5秒間を経過すると抑止が解除される。そして、アクション抑止が開始後5秒の間に、抑止フラグについて「1」と「0」の更新が繰り返される。図20では、5秒間に13回のルールヒットが発生したが、1,7、13回目のルールヒットの場合のみ、該当するアクションが実行されることを示す。
図21は、本実施形態3にかかるアクション抑止間隔及び上限回数を設定有にした場合(パターン(4)の他の例(障害発生例4-2))を示す図である。ここでは、初回のルールヒットによるアクション実行から5秒間に(初回を含めて)7回のルールヒットが発生し、1、7回目のルールヒットの場合のみ、該当するアクションが実行されることを示す。そして、7回目のルールヒットからの経過時間にかかわらず、8回目のルールヒットにより該当するアクションが実行され、併せて、再度、抑止タイマーの開始と抑止フラグ=1への更新がされる。
このように、本実施形態では、実行抑止条件を用いることにより、上述したように対処の実行を柔軟に制御できる。
尚、アクション制御部には、再実行条件を含めても良い。再実行条件には、例えば、アクションリトライ間隔やアクションリトライ回数を含めても良い。アクションリトライ間隔は、該当するアクションが実行された際に、実行結果の応答を待つ待ち時間である。また、アクションリトライ回数は、待ち時間を経過した後、当該アクションを再実行する上限回数である。
<その他の実施形態>
尚、上述の実施形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、DVD(Digital Versatile Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
なお、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施形態を適宜組み合わせて実施されてもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記A1)
情報システムから検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶部と、
前記障害メッセージを取得する取得部と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定部と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる実行制御部と、
を備え、
前記実行条件における条件情報の指定を受け付ける受付部と、
前記指定された条件情報に基づく条件式のプログラムコードを生成するコード生成部と、
前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成するテンプレート生成部と、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶部に格納するリスト生成部と、
をさらに備える障害対処装置。
(付記A2)
前記リスト生成部は、
特定の障害対処ルールについての実行抑止条件の入力を受け付けた場合、当該特定の障害対処ルールの前記実行条件に当該実行抑止条件をさらに対応付けて前記リストを更新し、
前記判定部は、
前記該当すると判定された実行条件に前記実行抑止条件が対応付けられている場合、当該実行抑止条件を満たすか否かを判定し、
前記実行制御部は、
前記実行抑止条件を満たす場合、前記特定した対処内容の実行を抑止する
付記A1に記載の障害対処装置。
(付記A3)
前記実行抑止条件は、対応付けられている前記対処内容を単位時間あたりに実行させる上限回数を含み、
前記判定部は、
前記対処内容の単位時間あたりの実行回数が前記上限回数を超えていると判定した場合、前記実行抑止条件を満たすと判定する
付記A2に記載の障害対処装置。
(付記A4)
前記実行抑止条件は、対応付けられている前記対処内容の実行を抑止する間隔を含み、
前記判定部は、
前記対処内容が直前に実行された後、前記間隔が経過していないと判定した場合、前記実行抑止条件を満たすと判定する
付記A2又はA3に記載の障害対処装置。
(付記A5)
前記実行抑止条件は、対応付けられている前記対処内容の実行を抑止する時間帯を含み、
前記判定部は、
現在時刻が前記時間帯に含まれていると判定した場合、前記実行抑止条件を満たすと判定する
付記A2乃至A4のいずれか1項に記載の障害対処装置。
(付記A6)
前記記憶部は、サービス種別ごとに前記リストを記憶し、
前記判定部は、
前記抽出情報からサービス種別を判定し、
前記判定されたサービス種別に対応する前記リストを特定し、
前記特定されたリスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する
付記A1乃至A5のいずれか1項に記載の障害対処装置。
(付記B1)
情報システムから障害メッセージを検出する検出部と、
前記検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶部と、
前記障害メッセージを取得する取得部と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定部と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させるように指示を行う実行制御部と、
前記指示に応じて前記特定した対処内容を前記情報システムに対して実行する実行部と、
を備え、
前記実行条件における条件情報の指定を受け付ける受付部と、
前記指定された条件情報に基づく条件式のプログラムコードを生成するコード生成部と、
前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成するテンプレート生成部と、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶部に格納するリスト生成部と、
をさらに備える障害対処システム。
(付記B2)
前記リスト生成部は、
特定の障害対処ルールについての実行抑止条件の入力を受け付けた場合、当該特定の障害対処ルールの前記実行条件に当該実行抑止条件をさらに対応付けて前記リストを更新し、
前記判定部は、
前記該当すると判定された実行条件に前記実行抑止条件が対応付けられている場合、当該実行抑止条件を満たすか否かを判定し、
前記実行制御部は、
前記実行抑止条件を満たす場合、前記特定した対処内容の実行を抑止する
付記B1に記載の障害対処システム。
(付記C1)
情報システムから検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶部と、
前記障害メッセージを取得する取得部と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定部と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる実行制御部と、
を備える障害対処装置が、
前記実行条件における条件情報の指定を受け付け、
前記指定された条件情報に基づく条件式のプログラムコードを生成し、
前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成し、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶部に格納する、
ルールリスト生成方法。
(付記D1)
情報システムから検出された障害メッセージに応じた対処内容を前記情報システムに対して実行するための実行条件における条件情報の指定を受け付ける処理と、
前記指定された条件情報に基づく条件式のプログラムコードを生成する処理と、
前記障害メッセージから抽出される抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた複数の障害対処ルールの入力テンプレートを生成する処理と、
前記入力テンプレートに対する入力値を前記入力欄に設定して前記複数の障害対処ルールのリストとして記憶装置に格納する処理と、
前記障害メッセージを取得する処理と、
前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する処理と、
前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる処理と、
をコンピュータに実行させるプログラム。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2020年2月28日に出願された日本出願特願2020-032721を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 障害対処装置
11 記憶部
110 リスト
111 障害対処ルール
1111 対処内容
1112 実行条件
11m 障害対処ルール
12 取得部
13 判定部
14 実行制御部
15 受付部
16 コード生成部
17 テンプレート生成部
18 リスト生成部
1000 障害対処システム
1 情報システム
2 監視ツール
3 障害対処装置
31 記憶部
310 プログラム
311 ルールリスト
3110 サービス種別
40 ヘッダ部
401 ヘッダコード部
402 条件コード部
403 条件ヘッダ部
404 アクションコード部
405 アクションヘッダ部
41 ルール
411 条件部
412 アクション部
4m ルール
31n ルールリスト
32 制御部
321 ルールリスト生成部
322 メッセージ解析部
323 判定部
324 アクションコマンド生成部
325 実行指示部
33 メモリ
34 通信部
4 対処実行ツール
5 メールサーバ
6 運用端末
50 条件部定義画面
51 移動部
52 条件名
521 条件名入力欄
53 条件式
531 条件式選択欄
54 削除
55 条件式追加ボタン
56 閉じるボタン
57 追加ボタン

Claims (10)

  1. 情報システムから検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶手段と、
    前記障害メッセージを取得する取得手段と、
    前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定手段と、
    前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる実行制御手段と、
    を備え、
    前記実行条件における条件情報の指定を受け付ける受付手段と、
    前記指定された条件情報に基づく条件式のプログラムコードを生成するコード生成手段と、
    前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成するテンプレート生成手段と、
    前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶手段に格納するリスト生成手段と、
    をさらに備える障害対処装置。
  2. 前記リスト生成手段は、
    特定の障害対処ルールについての実行抑止条件の入力を受け付けた場合、当該特定の障害対処ルールの前記実行条件に当該実行抑止条件をさらに対応付けて前記リストを更新し、
    前記判定手段は、
    前記該当すると判定された実行条件に前記実行抑止条件が対応付けられている場合、当該実行抑止条件を満たすか否かを判定し、
    前記実行制御手段は、
    前記実行抑止条件を満たす場合、前記特定した対処内容の実行を抑止する
    請求項1に記載の障害対処装置。
  3. 前記実行抑止条件は、対応付けられている前記対処内容を単位時間あたりに実行させる上限回数を含み、
    前記判定手段は、
    前記対処内容の単位時間あたりの実行回数が前記上限回数を超えていると判定した場合、前記実行抑止条件を満たすと判定する
    請求項2に記載の障害対処装置。
  4. 前記実行抑止条件は、対応付けられている前記対処内容の実行を抑止する間隔を含み、
    前記判定手段は、
    前記対処内容が直前に実行された後、前記間隔が経過していないと判定した場合、前記実行抑止条件を満たすと判定する
    請求項2又は3に記載の障害対処装置。
  5. 前記実行抑止条件は、対応付けられている前記対処内容の実行を抑止する時間帯を含み、
    前記判定手段は、
    現在時刻が前記時間帯に含まれていると判定した場合、前記実行抑止条件を満たすと判定する
    請求項2乃至4のいずれか1項に記載の障害対処装置。
  6. 前記記憶手段は、サービス種別ごとに前記リストを記憶し、
    前記判定手段は、
    前記抽出情報からサービス種別を判定し、
    前記判定されたサービス種別に対応する前記リストを特定し、
    前記特定されたリスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する
    請求項1乃至5のいずれか1項に記載の障害対処装置。
  7. 情報システムから障害メッセージを検出する検出手段と、
    前記検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶手段と、
    前記障害メッセージを取得する取得手段と、
    前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定手段と、
    前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させるように指示を行う実行制御手段と、
    前記指示に応じて前記特定した対処内容を前記情報システムに対して実行する実行手段と、
    を備え、
    前記実行条件における条件情報の指定を受け付ける受付手段と、
    前記指定された条件情報に基づく条件式のプログラムコードを生成するコード生成手段と、
    前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成するテンプレート生成手段と、
    前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶手段に格納するリスト生成手段と、
    をさらに備える障害対処システム。
  8. 前記リスト生成手段は、
    特定の障害対処ルールについての実行抑止条件の入力を受け付けた場合、当該特定の障害対処ルールの前記実行条件に当該実行抑止条件をさらに対応付けて前記リストを更新し、
    前記判定手段は、
    前記該当すると判定された実行条件に前記実行抑止条件が対応付けられている場合、当該実行抑止条件を満たすか否かを判定し、
    前記実行制御手段は、
    前記実行抑止条件を満たす場合、前記特定した対処内容の実行を抑止する
    請求項7に記載の障害対処システム。
  9. 情報システムから検出された障害メッセージに応じた対処内容と、当該対処内容を前記情報システムに対して実行するための実行条件とが対応付けられた複数の障害対処ルールのリストを記憶する記憶手段と、
    前記障害メッセージを取得する取得手段と、
    前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する判定手段と、
    前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる実行制御手段と、
    を備える障害対処装置が、
    前記実行条件における条件情報の指定を受け付け、
    前記指定された条件情報に基づく条件式のプログラムコードを生成し、
    前記抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた前記複数の障害対処ルールの入力テンプレートを生成し、
    前記入力テンプレートに対する入力値を前記入力欄に設定して前記リストとして前記記憶手段に格納する、
    ルールリスト生成方法。
  10. 情報システムから検出された障害メッセージに応じた対処内容を前記情報システムに対して実行するための実行条件における条件情報の指定を受け付ける処理と、
    前記指定された条件情報に基づく条件式のプログラムコードを生成する処理と、
    前記障害メッセージから抽出される抽出情報を前記プログラムコードに基づいて判定するための判定対象値及び前記対処内容の入力欄を含めた複数の障害対処ルールの入力テンプレートを生成する処理と、
    前記入力テンプレートに対する入力値を前記入力欄に設定して前記複数の障害対処ルールのリストとして記憶装置に格納する処理と、
    前記障害メッセージを取得する処理と、
    前記リスト内の前記複数の障害対処ルールのそれぞれについて、前記取得した障害メッセージから抽出された抽出情報が前記実行条件に該当するか否かを判定する処理と、
    前記該当すると判定された実行条件に対応付けられた対処内容を特定し、当該特定した対処内容を前記情報システムに対して実行させる処理と、
    をコンピュータに実行させるプログラム
JP2022503695A 2020-02-28 2021-02-25 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム Active JP7380830B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020032721 2020-02-28
JP2020032721 2020-02-28
PCT/JP2021/007116 WO2021172435A1 (ja) 2020-02-28 2021-02-25 障害対処装置及びシステム、ルールリスト生成方法並びに非一時的なコンピュータ可読媒体

Publications (3)

Publication Number Publication Date
JPWO2021172435A1 JPWO2021172435A1 (ja) 2021-09-02
JPWO2021172435A5 JPWO2021172435A5 (ja) 2022-10-06
JP7380830B2 true JP7380830B2 (ja) 2023-11-15

Family

ID=77491581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022503695A Active JP7380830B2 (ja) 2020-02-28 2021-02-25 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム

Country Status (3)

Country Link
US (1) US11907053B2 (ja)
JP (1) JP7380830B2 (ja)
WO (1) WO2021172435A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7369219B2 (ja) * 2022-02-04 2023-10-25 株式会社日立製作所 運用管理装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038223A (ja) 2003-07-16 2005-02-10 Nec Corp 障害復旧装置および障害復旧方法ならびにプログラム
JP2005346331A (ja) 2004-06-02 2005-12-15 Nec Corp 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
WO2015040688A1 (ja) 2013-09-18 2015-03-26 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003114811A (ja) 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US20050216241A1 (en) * 2004-03-29 2005-09-29 Gadi Entin Method and apparatus for gathering statistical measures
US8746548B2 (en) * 2011-09-15 2014-06-10 Dell Products L.P. Dynamic multidimensional barcodes for information handling system service information
US9292373B2 (en) * 2013-03-15 2016-03-22 International Business Machines Corporation Query rewrites for data-intensive applications in presence of run-time errors
JP6421600B2 (ja) * 2015-01-05 2018-11-14 富士通株式会社 障害監視装置、障害監視プログラム、障害監視方法
US10839352B1 (en) * 2018-02-05 2020-11-17 CollectiveHealth, Inc. Intelligent file-level validation
WO2020061587A1 (en) * 2018-09-22 2020-03-26 Manhattan Engineering Incorporated Error recovery
US11243859B2 (en) * 2019-10-09 2022-02-08 Microsoft Technology Licensing, Llc Baseboard management controller that initiates a diagnostic operation to collect host information
JP7369219B2 (ja) * 2022-02-04 2023-10-25 株式会社日立製作所 運用管理装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038223A (ja) 2003-07-16 2005-02-10 Nec Corp 障害復旧装置および障害復旧方法ならびにプログラム
JP2005346331A (ja) 2004-06-02 2005-12-15 Nec Corp 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
WO2015040688A1 (ja) 2013-09-18 2015-03-26 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大野 允裕,自律運用管理に向けた障害対処ポリシの運用制御/流用手法,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2005年07月29日,Vol.105, No.227,pp. 13-18

Also Published As

Publication number Publication date
US20230070080A1 (en) 2023-03-09
WO2021172435A1 (ja) 2021-09-02
JPWO2021172435A1 (ja) 2021-09-02
US11907053B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
CN104021043B (zh) 批量应用程序的中断重入方法及***
US9459989B2 (en) Method and apparatus for reverse debugging source code using causal analysis
US20180322004A1 (en) Systems and methods for detecting anomalies in execution of computer programs
US20130024466A1 (en) System event logging system
JP7380830B2 (ja) 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム
US20210248231A1 (en) Attack tree generation device, attack tree generation method, and computer readable medium
JP6244992B2 (ja) 構成情報管理プログラム、構成情報管理方法、及び構成情報管理装置
CN108369503A (zh) 对外部场可更换单元(fru)过程的自动***响应
US7979743B2 (en) Determining correctness of job plans in a stream processing application
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
US20180121044A1 (en) Run-time event handler generation in json environments
CN103679024A (zh) 病毒的处理方法及设备
JP7263206B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム
JP5453871B2 (ja) イベント判別装置、イベント判別プログラム、イベント判別方法
JP2009116618A (ja) 情報処理装置
JP6157375B2 (ja) 操作手順フロー更新装置、方法及びプログラム
JP7147495B2 (ja) 復旧支援装置、復旧支援方法及びプログラム
CN109445877B (zh) 一种检测游戏服务器多线程使用同一虚拟机的方法
JP5836316B2 (ja) 障害監視システム、障害監視方法、及び障害監視プログラム
WO2021053801A1 (ja) 情報分析装置、方法およびプログラム
WO2024135322A1 (ja) 障害対処装置、システム、方法、及び、プログラム
WO2023281595A1 (ja) 障害推定装置、方法およびプログラム
US20150135199A1 (en) Medium, method, and apparatus
JP7259436B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理システム
US20220318374A1 (en) Diagnosis apparatus, diagnosis method, and computer-readable recording medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220812

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231016

R151 Written notification of patent or utility model registration

Ref document number: 7380830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151