JP6109662B2 - 運用管理装置、運用管理方法およびプログラム - Google Patents

運用管理装置、運用管理方法およびプログラム Download PDF

Info

Publication number
JP6109662B2
JP6109662B2 JP2013148358A JP2013148358A JP6109662B2 JP 6109662 B2 JP6109662 B2 JP 6109662B2 JP 2013148358 A JP2013148358 A JP 2013148358A JP 2013148358 A JP2013148358 A JP 2013148358A JP 6109662 B2 JP6109662 B2 JP 6109662B2
Authority
JP
Japan
Prior art keywords
component
failure
service
components
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013148358A
Other languages
English (en)
Other versions
JP2015022396A (ja
Inventor
毅 大黒
毅 大黒
伸佳 二本木
伸佳 二本木
西村 徹
徹 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013148358A priority Critical patent/JP6109662B2/ja
Publication of JP2015022396A publication Critical patent/JP2015022396A/ja
Application granted granted Critical
Publication of JP6109662B2 publication Critical patent/JP6109662B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、システムの運用管理技術、特に、ネットワーク等の通信回線を介して接続されるシステムに対する統合運用管理および障害の可視化技術に関する。
従来の統合運用管理システムでは、監視対象となるハードウェアやソフトウェアの状態を示すデータを取得し、それらの稼働状況の管理を行う。統合運用管理システムの一例が非特許文献1に開示されている。直接監視対象としている部分だけに限らず、システムやサービス全体の稼働状況の監視を行うため、統合運用管理システムは、サービス全体の構造を表す構成情報を保持する。
構成情報は、階層構造をなす複数の構成要素の物理構成および論理構成を示す情報である。各構成要素について障害の有無および障害の程度を表す状態の情報は、構成情報に紐づけて記録される。階層構造の最下位の構成要素はそれ自身が監視対象であり、監視の結果得られた状態やイベントに基づき、その障害状態が決定される。階層構造の中間の構成要素は、下位の構成要素の障害状態から予め決められた判定ルールに基づいて、その障害状態が判定される。階層構造の最上位の構成要素は典型的にはサービスに相当する。
従来の構成情報の具体例を、図8および図9を参照して説明する。図8は、監視対象となるハードウェア単位で、割り当てられたサービスに関する構成要素を示したものである。図9は構成情報によりサービス全体の構造を図に表現したものである。
構成情報は物理構成および論理構成の情報からなる。図8および図9に示す例はサービスαとサービスβの場合であり、構成情報はサービスα、βを構成する物理構成および論理構成を示す。
図8に示すように、監視対象となる構成要素は、CPU(Central Processing Unit)サーバA、Bと、ストレージ1、2である。CPUサーバAは、サービスαのVM(Virtual Machine)1と、サービスβの現用のVM2を保持している。CPUサーバBは、サービスβの待機用のVM3を受け持っている。ストレージ1には、領域Aにサービスαの現用のストレージが割り当てられている。ストレージ2には、領域Bにサービスβの待機用のストレージが割り当てられ、領域Cにサービスβのストレージが割り当てられている。
物理構成は監視対象となるハードウェアの物理的な構成を意味する。図8に示す例では、CPUサーバAやストレージ1等のハードウェアが監視対象となる。論理構成は管理対象となる業務システムの論理的な構成を意味する。図9に示す構成情報では、最上位にサービスα、βが配置され、最下位にストレージ1、2およびCPUサーバA、Bが配置され、その中間にVM1〜VM3および領域A〜領域Cが配置された階層構造で表現される。業務システムの1つであるサービスβに注目すると、図9では、サービスβの下位にVM2とVM3の仮想マシンが接続される論理構成が可視化されている。
なお、図8および図9に示す例では、説明を簡単にするために構成情報を単純化しており、実際のサービスの構成とは異なる。また、「領域」、「CPUサーバ」等の名称を用いているが、これはイメージを掴みやすくするための仮の名称である。
最下位の構成要素であるストレージ1、2およびCPUサーバA、Bは監視対象であり、監視により障害状態が定まる。判定ルールは、最下位の構成要素の障害状態に基づいて、他の構成要素の障害状態を判定するためのルールである。
図8および図9に示す例において、判定ルールは次の3つであるものとする。
1.領域A〜領域CおよびVM1〜VM3は、それぞれ下位のストレージまたはCPUサーバの障害状態を引き継ぐ。
2.サービスαは、VM1が障害か、または領域A〜領域Bの50%以上が障害の場合、障害状態と判定される。
3.サービスβは、VM2〜VM3の2つ以上が障害か、または領域Cが障害の場合、障害状態と判定される。
図8および図9に示す例において、ストレージ2とCPUサーバBとに障害(続行不能)が発生したとする。正確には、統合運用管理システムによる監視の結果、ストレージ2とCPUサーバBの障害状態が決定されたものとする。このとき、判定ルールにしたがって各構成要素の障害状態が判定され、その結果、図10に示すような障害の可視化が行われる。図10に示す星印は障害が発生して処理が続行不能であることを示し、三角印は障害が発生しているが処理が続行可能であることを示す。
図10に示すように、領域Bは、下位のストレージの障害状態を引き継ぐ判定ルール「1」により、障害と判定されるが、領域Aが障害ではないため、その上位のサービスαは、判定ルール「2」により、障害とは判定されない。一方、サービスβは、VM2、領域CおよびVM3で構成され、判定ルール「1」により領域Cが障害と判定されるため、判定ルール「3」によりサービスβが障害と判定される。
林憲亮,外1名,「クラウド環境における運用管理ソリューション」,NTT技術ジャーナル,日本電信電話株式会社,2011年8月1日,vol.23 No.8,pp.19−24
図10において、サービスβの障害(続行不能)の原因としては、領域CまたはVM3の障害が可能性として考えられるが、そのいずれであるかは、管理者は、図10だけからは直ちにはわからない。判定ルールを参照すれば、実際には領域Cが主原因であること、すなわち領域Cの障害を是正すればサービスβの障害は解消されることがわかる。一方、判定ルールにたよらずに、VM3の障害を是正してもサービスβの障害が解消されないので、そのときにVM3が主原因ではないことが初めてわかる。
上記の統合運用管理システムでは、構成情報に障害状態をマップして表示しているだけなので、管理者は、直感的に因果関係がわからず、障害により影響を受けるサービスとその程度を直ちに把握することができず、サービスへの影響を解消するためにはどの部分の障害を是正することが第一かを直ちに把握できないという問題がある。
本発明は上述したような技術が有する問題点を解決するためになされたものであり、個々の障害に対する影響範囲や個々のサービスの障害に対する原因部分を切り分けて表示可能にした運用管理装置、運用管理方法、およびコンピュータに実行させるためのプログラムを提供することを目的とする。
上記目的を達成するための本発明の運用管理装置は、
サービスを含む複数の構成要素の物理構成および論理構成を示す構成情報と、障害の発生した構成要素を基に他の構成要素の状態を判定するための判定ルールとを記憶する記憶部と、
表示部と、
前記構成情報に基づいて最上位に前記サービスを配置し、最下位に監視対象となる構成要素を配置し、該サービスの構成および論理を反映させたツリー構造を生成し、前記監視対象となる構成要素に障害が発生すると、前記判定ルールにしたがって前記ツリー構造における他の構成要素の障害状態を判定し、指定された構成要素を基点に障害の影響範囲または原因部分となる構成要素を特定して前記表示部に表示させる制御部と、
を有する構成である。
また、本発明の運用管理方法は、表示部を有する運用管理装置による運用管理方法であって、
サービスを含む複数の構成要素の物理構成および論理構成を示す構成情報を格納し、
前記構成情報に基づいて、最上位に前記サービスを配置し、最下位に監視対象となる構成要素を配置し、該サービスの構成および論理を反映させたツリー構造を生成し、
前記監視対象となる構成要素に障害が発生すると、判定ルールにしたがって前記ツリー構造における他の構成要素の障害状態を判定し、
指定された構成要素を基点に障害の影響範囲または原因部分となる構成要素を特定して前記表示部に表示させるものである。
さらに、本発明のプログラムは、表示部を有するコンピュータに、
サービスを含む複数の構成要素の物理構成および論理構成を示す構成情報を格納する手順と、
前記構成情報に基づいて、最上位に前記サービスを配置し、最下位に監視対象となる構成要素を配置し、該サービスの構成および論理を反映させたツリー構造を生成する手順と、
前記監視対象となる構成要素に障害が発生すると、判定ルールにしたがって前記ツリー構造における他の構成要素の障害状態を判定する手順と、
指定された構成要素を基点に障害の影響範囲または原因部分となる構成要素を特定して前記表示部に表示させる手順を実行させるものである。
本発明によれば、サービスを含む複数の構成要素のうち、障害の影響範囲または原因部分の構成要素に絞り込んで表示されるため、障害の影響範囲または原因部分の把握がし易くなり、管理者は障害発生の因果関係を直感的に直ちに把握することができるようになる。
本実施形態の運用管理装置の一構成例を示すブロック図である。 本実施形態のツリー構造の生成手順を示すフローチャートである。 図9に示した構成情報を本実施形態のツリー構造に変換した場合を示す図である。 本実施形態の運用管理装置の動作手順を示すシーケンス図である。 図1に示した構成情報障害計算部の動作手順を示すフローチャートである。 本実施形態における、障害の可視化の具体例を示す図である。 障害の影響範囲および原因部分の絞り込み表示の具体例を示す図である。 従来の構成情報を説明するための図である。 従来の構成情報によりサービス全体の構造を表した図である。 図9に示した構成要素に発生した障害の可視化の一例を示す図である。
本実施形態の運用管理装置は、障害発生の因果関係を管理者が直感的に理解しやすいように構成情報をツリー構造に変更し、発生した障害の影響範囲または原因部分を絞り込んで表示することを特徴とする。
本実施形態の運用管理装置の構成を説明する。図1は本実施形態の運用管理装置の一構成例を示すブロック図である。
図1に示すように、本実施形態の運用管理装置10は、障害発生の監視対象の情報処理装置である監視対象機器50と通信可能に接続されている。
運用管理装置10と監視対象機器50の接続方法は、有線および無線のいずれであってもよく、または、それらの組み合わせであってもよい。また、図1では、説明を簡単にするために監視対象機器50が1台の場合を示しているが、監視対象機器50は複数設けられていてもよい。監視対象機器50はネットワーク(不図示)を介して運用管理装置10と接続されてもよく、直接に信号線を介して運用管理装置10と接続されてもよい。
運用管理装置10は、制御部11と、記憶部12と、表示部15とを有する。記憶部12は、イベント判定データベース(DB)25と、構成情報DB26と、判定ルールDB27とを有する。以下に、各構成について詳しく説明する。
イベント判定DB25には、監視対象機器50に発生したイベントから監視対象機器50の状態を判定するためのルールが登録されている。例えば、監視対象機器50に発生したイベントから、監視対象機器50のどの構成要素に障害が発生したかを判定するためのルールが登録されている。構成情報DB26には、監視対象機器50がユーザに提供するサービスを含む複数の構成要素の物理構成および論理構成を示す構成情報が格納されている。判定ルールDB27には、障害が発生した構成要素を基に他の構成要素の状態を判定するための判定ルールが登録されている。
制御部11は、監視部21と、イベント判定部22と、構成・障害可視化部13とを有する。制御部11は、プログラムにしたがって処理を実行するCPU(不図示)と、プログラムを記憶するメモリ(不図示)とを有する。CPUがプログラムにしたがって処理を実行することで、図1に示す監視部21、イベント判定部22および構成・障害可視化部13が運用管理装置10に仮想的に構成される。
監視部21は、監視対象機器50の状態を監視し、監視対象機器50の状態等の情報の取得または監視対象機器50からのトラップの受信等により、イベントの発生を検出する。
イベント判定部22は、イベント発生を検出した旨の情報を監視部21から受信すると、発生したイベントをイベント判定DB25に照らし合わせ、監視対象機器50の障害状態を判定する。
構成・障害可視化部13は、構成情報DB26に格納された構成情報に基づいてサービスの構成および論理を反映させたツリー構造を生成するツリー構造生成部23と、障害が発生した構成要素を基点に判定ルールにしたがって障害の影響範囲または原因部分を抽出する構成情報障害計算部24とを有する。
ツリー構造生成部23によるツリー構造生成方法を詳しく説明する。本実施形態における、障害の可視化手法では、はじめに構成情報をサービスの構成・論理を反映させた情報に変更する。本実施形態で説明するツリー構造はその方法の一例である。これにより、後で詳しく説明するが、障害状態の判定ルールが単純なものとなる。
図2は本実施形態のツリー構造の生成手順を示すフローチャートである。なお、ツリー構造の生成処理は、構成情報DB26に登録されている構成情報の更新を契機に行われてもよく、構成情報DB26に新しい構成情報が登録されたときに行われてもよく、管理者による指示の入力を契機に行われてもよい。
ツリー構造生成部23は、最上位にサービスを配置し、最下位に監視対象となる構成要素を配置したツリー構造に各構成要素を配置するために、構成情報をツリー構造に変換する(ステップ101)。このとき、ツリー構造生成部23は、必要と判断した場合、同一の構成要素をコピーして配置する(ステップ102、103)。元の構成要素とコピーされた構成要素は、形式的には別扱いとするが、実態としては同一であり、その構成要素の状態等は1つである。ステップ103の処理は、例えば、複数の上位の構成要素を含む構成要素に対して行われる。図9で説明すると、「CPUサーバA」が2つの上位の構成要素を含む構成要素に該当する。CPUサーバAはその上位にあるVM1とVM2の構成要素を含んでいる。
さらに、ツリー構造生成部23は、必要と判断した場合、中間階層の構成要素であるサブ構成要素を新たに導入する(ステップ104、105)。新たに導入されるサブ構成要素は、サービスの構成・論理を反映させるために必要十分であるように適宜選択される。その後、ツリー構造生成部23は完成したツリー構造を表示部15に表示させる(ステップ106)。なお、図2に示すステップ102、104の判定処理については、具体例を用いて、後で詳しく説明する。
続いて、上記のツリー構造の生成時における「構成情報の変更」について説明する。
本実施形態の運用管理方法のポイントの1つは、障害の因果関係をより把握しやすいように構成情報を変更することである。
ステップ104、105における処理では、「新たに導入されるサブ構成要素は、サービスの構成・論理を反映させるために必要十分であるように、適宜選択される」と説明している。サービスの構成・論理の反映を直接行うためには、それらに対する知識が必要である。このため、構成情報の変更は、管理者により手動で行われることが基本と想定される。このとき、判定ルールの分解・変更もまた、管理者により手動で行われることが考えられる。
しかし、構成情報の変更にあたって、サービスの構成・論理に対する知識を直接に反映しなくてもよい方法が考えられる。すなわち、判定ルールを単純なものに分解し、その分解に従って必要なサブ構成要素を導入することで、結果として構成情報の変更を行う方法である。このような方法を用いれば、サービスの構成・論理に対する知識を直接用いる必要がなく、判定ルールの分解という操作だけで構成情報の変更を行うことができる。つまり、構成情報の変更を管理者による手動ではなく、コンピュータに処理させる自動化も可能となる。
判定ルールの分解においては、多段論理式の各段に対する分解、あるいはその類似の手法を用いることができ、これはよく知られた単純なアルゴリズムで容易に実現可能である。例えば、元の判定ルールに式 = A and (B or (C and D))が含まれている場合、この論理式は、中間階層であるa,bを導入することにより、以下のような単純な論理のみからなる構成に、容易に変更できる。
式 = A and a,a = B or b,b = C and D
なお、本実施形態における、構成情報の変更には、サブ構成要素の導入に関すること以外にもツリー構造に変更するという操作が存在するが、これも単純なアルゴリズムを用いて自動化することは容易である。具体的には、複数の上位の構成要素を含む構成要素がある場合、当該構成要素およびその下位の構成要素のコピーを作って、これらを分離する。この操作を必要なだけ繰り返すことにより、ツリー構造に展開できることは自明である。
次に、図2に示したツリー構造生成手順におけるステップ102、104の処理を、具体例を用いて説明する。図3は、図9に示した構成情報を本実施形態のツリー構造に変換した場合を示す図である。
構成情報をツリー構造に変換する際、図2に示したステップ102において、ツリー構造生成部23は、図9に示す構成情報を参照し、各構成要素の上下の接続を調べる。ここでは、領域A〜領域C、VM1〜VM3のそれぞれについて、下位に接続される構成要素に注目する。図9から、領域Bと領域Cはストレージ2に接続され、VM1とVM2はCPUサーバAに接続されていることがわかる。ツリー構造生成部23は、ストレージ2が上位の領域Bと領域Cを含んでいると判定すると、ストレージ2をコピーし、2つのストレージ2のそれぞれを領域Bと領域Cのそれぞれの下位に配置する。また、ツリー構造生成部23は、CPUサーバAが上位のVM1とVM2を含んでいると判定すると、CPUサーバAをコピーし、2つのCPUサーバAのそれぞれをVM1とVM2のそれぞれの下位に配置する。その結果、図3に示すように、構成要素となるCPUサーバAとストレージ2に対してコピーが作成され、それぞれ最下位に配置される。
また、図2に示したステップ104において、ツリー構造生成部23は、サービスの構成および論理にしたがって、サービスの構成要素を細分化可能か否かを判定し、可能と判断すれば、ステップ105でサブ構成要素を追加する。
図9を参照すると、サービスαは「領域Aと領域B」を含む構成要素と「VM1」を含む構成要素に細分化することが可能であることがわかる。ツリー構成生成部23または管理者は、サービスαについて、「領域Aと領域B」を含むサブ構成要素(ストレージサブシステムαと称する)を追加し、「VM1」を含むサブ構成要素(CPUサブシステムαと称する)を追加している。サービスβについても、ツリー構造生成部23または管理者は、サービスαと同様に判定を行ってサブ構成要素を追加する。その結果、図3に示すように、サービス毎に「CPUサブシステム」および「ストレージサブシステム」というサブ構成要素がツリー構造に導入される。
図9に示した構成情報では、最上位のサービスα、βから中間階層のVM1〜VM3までの論理構成と、CPUサーバAおよびストレージ1等の物理構成との接続をマップして表示しているに過ぎない。これに対して、図3に示すツリー構造では、サービスα、βのそれぞれにCPUサブシステムとストレージサブシステムのサブ構成要素を定義し、それぞれのサブ構成要素における論理と構成が一目でわかるように可視化されている。
図1に示す構成情報障害計算部24は、監視対象機器50の障害状態の判定結果をイベント判定部22から受信すると、構成情報DB26および判定ルールDB27を参照し、判定ルールにしたがって各構成要素の障害状態を論理式の計算により判定し、障害状態の判定結果を含むツリー構造を表示部15に表示させる。また、構成情報障害計算部24は、指定された構成要素を基点として、対応する影響範囲・原因部分を絞り込んで表示部15に表示させる。基点となる構成要素の指定は、例えば、管理者の入力によって行われる。影響範囲および原因部分の絞り込み表示については、後で具体例を用いて詳しく説明する。
ここで、障害判定に用いられる判定ルールについて説明する。本実施形態では、サブ構成要素の導入により、判定ルールが、以下のように変更されている。
1.サービスβは、CPUサブシステムβまたはストレージサブシステムβが障害の場合、障害状態と判定される。
2.CPUサブシステムβは、VM2〜VM3の2つ以上が障害の場合、障害状態と判定される。
3.ストレージサブシステムβは、領域Cが障害の場合、障害状態と判定される。
4.サービスα、CPUサブシステムα、ストレージサブシステムαに関しても、図3に示すツリー構造に基づいて、1〜3と同様にルールが決められている。
本実施形態では、サービスの構成および論理にしたがってサブ構成要素を中間階層に追加することで、サービスの構成要素の単位が従来よりも細分化されている。そのため、本実施形態の判定ルールでは、従来に比べて判定ルールが単純化されている。
本実施形態の判定ルールの内容について、さらに詳しく説明する。
管理者による理解を容易かつ直感的に可能にするためにも、また、「構成情報の変更」の自動化を容易にするためにも、個々の判定ルールは単純なものである必要がある。すなわち、論理式で言えば一段のANDまたはORのみ(リテラルの否定はあり)、あるいは判定オペレーションで言えば一種類であることが望ましい。
具体的な判定ルールとしては、例えば、以下のようなものが考えられる。
・最も重大な障害状態を伝搬させる(OR)
・子の構成要素が「全て障害」ならば障害とする(AND)
・子の構成要素のうち「障害状態のものがX%以上/を超える」であれば障害(「X」および「以上/を超える」を予め指定)
・子の構成要素のうち「障害状態のものがX個以上/を超える」であれば障害(「X」および「以上/を超える」を予め指定)
なお、これらの条件は反転(障害状態のもの⇔障害状態でないもの)させてもよい。
上記のような適用可能な判定ルールの限定を行っても、必要に応じて構成情報を変更し中間階層を置くことにより、全体としての判定ルールの表現能力に著しい制約が加わることはない。例えば、論理式を例に取れば、任意の論理式は多段論理式として表すことができ、多段論理式は中間変数を導入することにより一段の論理式の組として表すことが可能なことはよく知られている。「構成情報の変更」の説明のところで、その一例を説明している。
図1に示す表示部15は、構成情報障害計算部24によって求められた各構成要素の障害状態を予め作成されたツリー構造に表示する、または、障害の影響範囲・原因部分を絞り込んで表示する。図1には、表示部15がツリー構造の表示を意味する「構成情報に基づく可視化」と、「影響範囲・原因部分の絞り込み表示」を行う様子を模式的に示す。
次に、本実施形態の運用管理装置10の動作手順を説明する。ここでは、ツリー構造生成部23によってツリー構造が予め作成されているものとする。
図4は本実施形態の運用管理装置の動作手順を示すシーケンス図である。図5は構成情報障害計算部の動作手順を示すフローチャートである。図6および図7は、障害の可視化の具体例を示す図である。
監視部21は監視対象機器50の状態を監視する。監視対象機器50でイベントが発生すると(ステップ201)、監視部21は、監視対象機器50の状態を示す情報の取得または監視対象機器50からのトラップの受信により、イベントの発生を検出する(ステップ202)。イベント判定部22は、イベント発生を検出した旨の情報を監視部21から受信すると、イベント判定DB25を参照し、発生したイベントから監視対象機器50の障害状態を判定する(ステップ203)。
構成情報障害計算部24は、監視対象機器50の障害状態の判定結果をイベント判定部22から受信すると、各構成要素の障害状態を判定する(ステップ204)。ステップ204において、構成情報障害計算部24は、図5に示すように、イベント発生を管理者に通知するための警告メッセージ等を表示部15に表示させ(ステップ301)、続いて、各構成要素の障害状態の判定結果を表示部15が表示しているツリー構造に表示させる(ステップ302)。これにより、図4のステップ205において、表示部15は、障害の発生した構成要素を他の構成要素とは異なるように表示したツリー構造を表示する。
図6は図4のステップ205で表示されたツリー構造の一例を示す図であり、図3に示したツリー構造に障害の有無などが表示されている。図6では、障害が発生して処理が続行不能な構成要素およびサービスに星印を表示し、障害が発生しているが処理が続行可能な構成要素およびサービスに三角印を表示し、障害の有無とその程度をマップ表示している。
図6において、サービスβの障害(続行不能)の原因が、ストレージサブシステムβであり、その元をさらに辿れば領域Cの障害であり、CPUサブシステムβ(その下位に障害が発生しているVM3)ではないことが、直ちにわかる。このとき、サービスβの障害状態の判定ルールも単純になっているため、より直感的な因果関係の理解に寄与している。本実施形態の障害の可視化方法では、論理のネストが分解されているからである。具体的に説明すると、「サービスβはCPUサブシステムβまたはストレージサブシステムβが障害の場合、障害状態」という一段の論理と、「CPUサブシステムβは、VM2〜VM3の2つ以上が障害の場合、障害状態と判定(ストレージサブシステムβに関しても同様)」といった論理とに分解されている。この例では説明のため、ある程度構成とルールを単純化しているが、より複雑な構成とルールを考えた場合、判定ルールの単純化がより直感的な因果関係の理解に寄与することは容易に想定できる。
図10に示した、障害の可視化では、構成情報に障害状態をマップして表示しているだけなので、管理者は、直感的に因果関係がわからず、障害により影響を受けるサービスとその程度の把握を直ちに行うことができない。その原因として、従来の構成情報では、障害判定対象の粒度が荒く、サービスから見た際の障害による影響の度合いの把握が困難であることが考えられる。図9を参照して説明すると、サービスβにおいては「VMが冗長化されているが、領域は冗長化されていない」という構成と論理が、構成情報に十分に反映されていない。このことは、サービスβの障害状態の判定ルールが複雑になっていることからもわかる。すなわち、「“冗長構成のVMの2つ以上が障害”および“非冗長構成の領域が障害”のうち、いずれかが成立した場合に障害」という論理のネストになっていた。
これに対して、本実施形態では、構成情報をツリー構造で表現できるものに限定し、必要に応じて中間階層を導入して構成情報を変更して、サービスの構成および論理にしたがって障害の原因部分の単位を細分化することで、従来に比べて、障害判定対象の粒度が細かくなる。これにより、障害状態の判定ルールが単純なものとなり、上述したように、障害判定の論理のネストが分解されるので、障害の因果関係を直感的に理解しやすくなる。
しかし、複数の障害やイベントが同時に発生した場合、個々の障害に対する影響範囲や、個々のサービスの障害に対する原因部分の切り分けを管理者が一目でできないことがある。
具体的には、図6において、管理者がストレージ2の障害の影響範囲を一目で判断することは困難である。ストレージ2の障害の影響範囲は、領域Cからストレージサブシステムβを経由してサービスβに到達するパスと、領域Bからストレージサブシステムαまで到達するパスとがある。図中でパスを辿ることで影響範囲を確認できるが、ストレージ2が複数個所にあるため、これを一目で判断することは困難である。図6に示す例では説明のために構成を単純化しているが、より複雑な構成であった場合、図中でパスを辿ることが容易ではないことが想像できる。
また、図6に示す例では、ストレージ2とCPUサーバBの、複数の構成要素に障害が発生しており、それらが同時に表示されているため、管理者は、表示部15に表示されるツリー構造において、上記の「辿る」という行為をすることなしに、これらの切り分けを行うことができない。
この問題を解決するため、本実施形態では、指定された構成要素を基点として、それに対応する影響範囲または原因部分を絞り込んで表示する手段を提供する。
図5に示すステップ303において、構成情報障害計算部24は、管理者から構成要素を指定する旨の指示が入力されると、指定された構成要素を基点として、対応する影響範囲または原因部分を絞り込んで表示部15に表示させる。これにより、図4のステップ206において、表示部15が影響範囲および原因部分の絞り込み表示を行う。なお、影響範囲および原因部分のうち、表示対象をいずれか一方とするか、両方とするか、管理者が指定してもよく、予め設定されていてもよい。
構成情報障害計算部24は、管理者に指定された構成要素について、障害の影響範囲を調べる場合、指定された構成要素を基点にして上位の構成要素を辿り、障害の原因部分を調べる場合には、指定された構成要素を基点にして下位の構成要素を辿る。そして、構成情報障害計算部24は、辿った経路にある構成要素から、基点となる構成要素と同等以上の障害状態である構成要素のみをピックアップする。辿った先の構成要素が基点となる構成要素よりも軽微な障害状態である場合はピックアップせず、それ以上辿らない。なお、障害状態はその程度の情報が予め定義されており、構成情報に、構成要素毎にその情報が添付されている。
ただし、コピーした構成要素の障害は、元の構成要素と同一のものとして扱う。図6に示す例では、ストレージ2(forサービスα)とストレージ2(forサービスβ)の障害状態は区別されず同一のものとして扱う。これらの影響範囲および原因部分の特定方法に関するルールも、判定ルールに予め規定されている。
図7(a)は、図6においてストレージ2を基点として、それに対応する影響範囲を表示させた場合を示す。図7(b)は、図6においてサービスβを基点として、それに対応する原因部分を表示させた場合を示す。
図7(a)および図7(b)を参照すると、指定された構成要素に対する影響範囲および原因部分が絞り込んで表示されていることがわかる。図7(a)は、ストレージ2→ストレージサブシステムβ→領域Cおよび領域Bが影響範囲であることを示す。図7(b)は、サービスβ→ストレージサブシステムβ→領域C→ストレージ2が原因部分であることを示す。この場合、着目した構成要素に関係しない障害、例えば、サービスβに対するCPUサーバBはフィルタアウトされる。このようにして、障害の影響範囲および原因部分が運用管理装置10によって特定され、表示される。また、管理者は、図6に示したツリー構造において「辿る」といった行為をすることなしに、これらの切り分けを行うことができる。これにより、複数の障害・イベントが同時に発生している場合でも、管理者は、個々の障害に対する影響範囲や、個々のサービスの障害に対する原因部分の切り分けが一目でできるようになる。
なお、影響範囲・原因部分の絞り込み表示について、図7では、対象となる構成要素を箇条書きにリスト表示により提示する方法を示しているが、この方法は一例であり、絞り込んだ表示ができれば、表現方法はリスト表示に限定されない。
例えば、図6と同様にマップ表示するが、絞り込み対象の構成要素だけハイライトし、他の構成要素をグレーアウトする表現方法や、絞り込み対象の構成要素だけ切り出し表示する表現方法であってもよい。このように、ツリー構造に絞り込み対象の構成要素を表示する場合、管理者は、管理対象の業務システム全体に対して、発生した障害の影響範囲や原因部分がどの程度あるかを把握できるメリットがある。
また、基点となる構成要素が管理者によって指定される場合で説明したが、構成要素の指定は、例えば、重要な構成要素などを対象に予めプログラムに設定されていてもよい。
本実施形態によれば、サービスを含む複数の構成要素のうち、障害の影響範囲または原因部分の構成要素に絞り込んで表示されるため、障害の影響範囲または原因部分の把握がし易くなり、管理者は障害発生の因果関係を直感的に直ちに把握することができるようになる。その結果、管理者は、どのサービスが障害によりどの程度の影響を受けているかを把握し、そのようなサービスへの影響を解消するためにはどの部分の障害を是正することが第一かを把握することが可能となる。
なお、本実施形態における、構成情報に基づくツリー構造の表示方法、および障害の影響範囲または原因部分の可視化方法を実行するための手順を記述したプログラムをコンピュータにインストールし、コンピュータに本発明の運用管理方法を実行させてもよい。
10 運用管理装置
11 制御部
12 記憶部
13 構成・障害可視化部
15 表示部

Claims (7)

  1. サービスを含む複数の構成要素の物理構成および論理構成を示す構成情報と、障害の発生した構成要素を基に他の構成要素の状態を判定するための判定ルールとを記憶する記憶部と、
    表示部と、
    前記構成情報に基づいて最上位に前記サービスを配置し、最下位に監視対象となる構成要素を配置し、該サービスの構成および論理を反映させたツリー構造を生成し、前記ツリー構造を生成する際、前記サービスの構成要素が、構成要素の種別ごとに細分化可能であるか否かを判定し、構成要素の種別ごとに細分化可能であると判定した場合には、前記サービスと、細分化された各種別の構成要素との間の中間階層に、各種別に応じたサブ構成要素を種別を示す情報として追加し、前記監視対象となる構成要素に障害が発生すると、前記判定ルールにしたがって前記ツリー構造における他の構成要素の障害状態を判定し、指定された構成要素を基点に障害の影響範囲または原因部分となる構成要素を特定して前記表示部に表示させる制御部と、
    を有する運用管理装置。
  2. 請求項1記載の運用管理装置において、
    前記制御部は、
    前記ツリー構造を生成する際、複数の上位の構成要素を含む構成要素があると、該構成要素および該構成要素の下位にある構成要素を複製して配置する、運用管理装置。
  3. 請求項2記載の運用管理装置において、
    前記判定ルールは、前記サービスの障害の有無は該サービスの下位のサブ構成要素の障害の有無によって判定され、前記サブ構成要素の障害の有無は該サブ構成要素の下位の構成要素について予め決められた障害判定のルールにしたがって判定されることを含む、運用管理装置。
  4. 請求項1から3のいずれか1項記載の運用管理装置において、
    前記制御部は、前記表示部にツリー構造を表示させ、該ツリー構造において、前記影響範囲または前記原因部分となる構成要素を他の構成要素とは異なるように前記表示部に表示させる、運用管理装置。
  5. 請求項1から3のいずれか1項記載の運用管理装置において、
    前記制御部は、前記影響範囲または前記原因部分となる構成要素のリストを前記表示部に表示させる、運用管理装置。
  6. 表示部を有する運用管理装置による運用管理方法であって、
    サービスを含む複数の構成要素の物理構成および論理構成を示す構成情報を格納し、
    前記構成情報に基づいて、最上位に前記サービスを配置し、最下位に監視対象となる構成要素を配置し、該サービスの構成および論理を反映させたツリー構造を生成し、前記ツリー構造を生成する際、前記サービスの構成要素が、構成要素の種別ごとに細分化可能であるか否かを判定し、構成要素の種別ごとに細分化可能であると判定した場合には、前記サービスと、細分化された各種別の構成要素との間の中間階層に、各種別に応じたサブ構成要素を種別を示す情報として追加し、
    前記監視対象となる構成要素に障害が発生すると、判定ルールにしたがって前記ツリー構造における他の構成要素の障害状態を判定し、
    指定された構成要素を基点に障害の影響範囲または原因部分となる構成要素を特定して前記表示部に表示させる、運用管理方法。
  7. 表示部を有するコンピュータに、
    サービスを含む複数の構成要素の物理構成および論理構成を示す構成情報を格納する手順と、
    前記構成情報に基づいて、最上位に前記サービスを配置し、最下位に監視対象となる構成要素を配置し、該サービスの構成および論理を反映させたツリー構造を生成し、前記ツリー構造を生成する際、前記サービスの構成要素が、構成要素の種別ごとに細分化可能であるか否かを判定し、構成要素の種別ごとに細分化可能であると判定した場合には、前記サービスと、細分化された各種別の構成要素との間の中間階層に、各種別に応じたサブ構成要素を種別を示す情報として追加する手順と、
    前記監視対象となる構成要素に障害が発生すると、判定ルールにしたがって前記ツリー構造における他の構成要素の障害状態を判定する手順と、
    指定された構成要素を基点に障害の影響範囲または原因部分となる構成要素を特定して前記表示部に表示させる手順を実行させるためのプログラム。
JP2013148358A 2013-07-17 2013-07-17 運用管理装置、運用管理方法およびプログラム Active JP6109662B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013148358A JP6109662B2 (ja) 2013-07-17 2013-07-17 運用管理装置、運用管理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013148358A JP6109662B2 (ja) 2013-07-17 2013-07-17 運用管理装置、運用管理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015022396A JP2015022396A (ja) 2015-02-02
JP6109662B2 true JP6109662B2 (ja) 2017-04-05

Family

ID=52486819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013148358A Active JP6109662B2 (ja) 2013-07-17 2013-07-17 運用管理装置、運用管理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6109662B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6369119B2 (ja) * 2014-05-08 2018-08-08 富士通株式会社 資源表示プログラム,情報処理装置および資源表示方法
WO2016135841A1 (ja) * 2015-02-24 2016-09-01 株式会社日立製作所 情報システムを管理する管理システム
JP6586844B2 (ja) * 2015-09-28 2019-10-09 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP6867589B2 (ja) 2017-05-30 2021-04-28 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
JP7032640B2 (ja) * 2017-12-28 2022-03-09 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
JP6571232B1 (ja) * 2018-03-14 2019-09-04 みずほ情報総研株式会社 影響調査システム、影響調査方法及び影響調査プログラム
JP7344375B2 (ja) * 2020-04-28 2023-09-13 株式会社日立製作所 事業影響範囲判定装置および方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020428A (ja) * 1998-07-07 2000-01-21 Sumitomo Electric Ind Ltd ネットワーク管理システム
JP2004362144A (ja) * 2003-06-03 2004-12-24 Hitachi Ltd 運用管理方法及び実施装置並びに処理プログラム
JP2005235176A (ja) * 2004-01-20 2005-09-02 Fujitsu Ltd 計算機の構成表示方法
JP5469011B2 (ja) * 2010-08-05 2014-04-09 株式会社野村総合研究所 インシデント管理システム、障害影響範囲可視化方法

Also Published As

Publication number Publication date
JP2015022396A (ja) 2015-02-02

Similar Documents

Publication Publication Date Title
JP6109662B2 (ja) 運用管理装置、運用管理方法およびプログラム
US11354131B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11379292B2 (en) Baseline modeling for application dependency discovery, reporting, and management tool
US10642719B1 (en) Intelligent services for application dependency discovery, reporting, and management tool
US9383900B2 (en) Enabling real-time operational environment conformity to an enterprise model
CN110928772B (zh) 一种测试方法及装置
US10747544B1 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
US10430257B2 (en) Alarms with stack trace spanning logical and physical architecture
US20200409824A1 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
US20130297603A1 (en) Monitoring methods and systems for data centers
JP2017509262A (ja) ネットワーク障害のトラブルシューティング・オプションの識別
US11093378B2 (en) Testing agent for application dependency discovery, reporting, and management tool
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
CN111858254B (zh) 数据的处理方法、装置、计算设备和介质
US11645172B1 (en) Managing data center failure events
JP6002856B2 (ja) 監視システム、及び、監視方法
CN109918354B (zh) 一种基于hdfs的磁盘定位方法、装置、设备及介质
GB2463343A (en) Fault diagnosis using device interdependencies and fault history for networked systems
JP2010092312A (ja) 因果関係可視化装置及び因果関係可視化方法
JP6881434B2 (ja) ログ分析装置、ログ分析方法及びプログラム
CN109271270A (zh) 存储***中底层硬件的故障排除方法、***及相关装置
JP2009296531A (ja) 監視装置
US20220035359A1 (en) System and method for determining manufacturing plant topology and fault propagation information
JP2016057658A (ja) 障害情報管理システムおよび障害情報管理方法
Andrade et al. Openmads: An open source tool for modeling and analysis of distributed systems

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20141027

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20141031

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170308

R150 Certificate of patent or registration of utility model

Ref document number: 6109662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150