JP4294353B2

JP4294353B2 - ジョブ管理機能を有するストレージ系障害管理方法及び装置

Info

Publication number: JP4294353B2
Application number: JP2003090518A
Authority: JP
Inventors: 直一根本; 和彦茂木; 記史西川; 信男河村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-03-28
Filing date: 2003-03-28
Publication date: 2009-07-08
Anticipated expiration: 2023-03-28
Also published as: JP2004295811A; US20040193969A1; US7509331B2; US20060036899A1; US7552138B2; US7124139B2; US20060031270A1

Description

【０００１】
【発明の属する技術分野】
本発明は、計算機システムに用いられるストレージシステムに係わり、特にストレージ系障害の管理技術に関する。
【０００２】
【従来の技術】
（１）ＳＡＮ(ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ)について
近年、各サーバ計算機からストレージを切り離し、ストレージ系を集約化したストレージ入出力専用のネットワークであるＳＡＮが浸透しつつある。ＳＡＮの導入により、高速なデータ転送、ストレージシステムの高い拡張性と可用性およびストレージ資源の有効利用が実現可能となった。
（２）ＳＡＮ管理マネージャについて
ＳＡＮで集約されたストレージ装置を無停止で運用するためには、それぞれの機種の運用方法に精通した管理者が必要であり、管理コストが高くなる。ストレージ装置の運用管理においては、特に日々の運用の基本となるＳＡＮに接続される各装置(サーバ装置・仮想化スイッチ装置・ストレージ装置など)の稼動状況の監視が重要である。稼動状況を監視するためのソフトウェアを、以降、管理マネージャとよぶ。管理マネージャは、ストレージシステムの構成管理機能と障害監視機能の二大機能を持つ。構成管理機能とは、ＳＡＮを構成する各装置に存在する管理エージェントから情報を定期的に取得し、取得した情報からＳＡＮの物理的な接続関係(トポロジ)を検出し、常に最新のトポロジを視覚化して管理者に提供する機能である。障害監視機能とは、各装置が発行するハードウエア障害や性能低下などのイベント通知や、各装置に存在する管理エージェントから定期的に取得する装置情報に基づき、障害や性能低下等のイベントの発生を把握し、そのイベントを管理者に通知する機能である。これら二つの機能により、ユーザは、管理マネージャを用いて装置の稼動状況を一元的に管理でき、管理者の少人数化などによって運用コストの削減を図ることができる。
（３）データベース、ストレージ間のマッピング技術について
データベースとストレージ間のマッピング技術を使用して性能解析を行う技術が特許文献1に開示されている。このマッピング技術をＳＡＮに導入することにより、データベース又はファイル単位に性能解析を行うことができる。
【０００３】
なおＳＡＮに関する技術として関連するものには、米国特許第６，０３５，３０６号などがある。
【０００４】
【特許文献１】
米国特許第６，０３５，３０６号
【０００５】
【発明が解決しようとする課題】
データベース管理システム（以下ＤＢＭＳと呼ぶ）は、大規模なデータを格納するストレージ装置をデータベースとして使用する。ＤＢＭＳの処理は、高いスループットと高信頼性が求められる。データベースを格納する記憶装置としてストレージ装置を使用することにより、高速かつ高信頼な処理を実行し続けることが可能である。ジョブにより呼び出されるＤＢＭＳは、ストレージ装置における複数の物理ディスク装置を意識することなく使用する。仮想化装置は、複数の論理ディスクを1つの仮想ボリュームとして提供する。ＤＢＭＳがマッピング技術を使用して、バーチャリゼーション機能を持つ仮想化装置を含めたストレージ装置の構成を把握し、その管理を行うことは困難である。また仮想化装置を含むストレージ系に障害が発生したとき、特定の装置についての障害情報だけではどのジョブに影響を与えるものであるのか区別することができない。このような障害に際しては、人手による調査が必要である。また障害によって影響を受けるジョブの実行制御をする処理は、人手を要するものであり、高コストの要因となっている。
【０００６】
本発明の目的は、ストレージ系のいずれかの部位に障害が発生したとき、この障害によって影響を受けるジョブを特定し、これらジョブの実行制御をする技術を提供することにある。
【０００７】
【課題を解決するための手段】
本発明は、特定のジョブがアクセスするデータベース上の特定のテーブルに始まり、このテーブルを格納するファイル、このファイルを格納する論理的なボリュームを経てそのボリューム上のデータを分散して格納する物理ディスク装置に至るまでのデータマッピング情報に基づいてデータマッピング経路上に存在するいずれかの部位の障害によって影響を受けるジョブを特定する障害管理技術を特徴とする。
【０００８】
また本発明は、障害によって影響を受けると特定されたジョブについて、あらかじめジョブ実行制御テーブルに設定された処理方法に従って処理を行う技術を特徴とする。
【０００９】
【発明の実施の形態】
以下に、図面を参照しながら本発明の実施形態について説明する。なおこれにより本発明が限定されるものではない。
（１）実施例１：各装置間のボリュームマッピングの構成管理と障害監視
本実施形態のコンピュータシステムは、管理サーバ装置が、仮想化スイッチ装置、ＤＢＭＳサーバ装置及びストレージ装置と専用の管理ネットワークにより接続されている。ＤＢＭＳサーバ装置、仮想化スイッチ装置及びストレージ装置の各々は、管理エージェントを具備する。管理サーバ装置は、これらの管理エージェントから各データマッピング情報を収集し、ジョブ単位でのデータマッピングの構成を管理する。また管理サーバ装置は、ＳＮＭＰ（ＳｉｍｐｌｅＮｅｔｗｏｒｋＭａｎａｇｅｍｅｎｔＰｒｏｔｏｃｏｌ）の障害通知メッセージを用いて障害の発生した装置から受け取るメッセージとデータマッピング情報から、障害の発生によるジョブへの影響を管理者に対して通知する。
【００１０】
まずＳＡＮの構成例について説明する。図１から図５は、ＳＡＮ及びＳＡＮに接続される各装置の構成例を示す。図６は、データマッピングの階層構成を示す。図７から図１６は、ＤＢＭＳサーバ装置、仮想化スイッチ装置及びストレージ装置の装置内に具備された管理情報を示す。
【００１１】
図１は、システムの構成例を示す。本実施形態のコンピュータシステムは、ＤＢＭＳサーバ装置1010、仮想化スイッチ装置1020、ストレージ装置1030及び管理サーバ装置1000から構成される。1台以上のＤＢＭＳサーバ装置1010（以下ＤＢＭＳサーバと略称する）は、ＤＢＭＳ1011、ＤＢＭＳサーバ管理エージェント1012及びボリュームマネージャ1013を有する。1台以上の仮想化スイッチ装置1020（以下スイッチと略称する）は、スイッチ管理エージェント1021を有する。1台以上のストレージ装置1030は、ストレージ装置管理エージェント1031を有する。1台の管理サーバ装置1000（以下管理サーバと略称する）は、管理サーバ管理マネージャ1001と障害管理マネージャ1002を有する。またＤＢＭＳサーバ1010とは別に、管理用ネットワーク1050に接続されＤＢＭＳサーバ1010を利用するアプリケーションサーバあるいはクライアント端末を有してもかまわない。あるいはＤＢＭＳサーバ1010自体をアプリケーションサーバと呼んでもよい。図１のシステムは、ＤＢＭＳサーバ1010、スイッチ1020およびストレージ装置1030がそれぞれ２台ずつ記載されている。しかし以降の説明は、その都合上、１台のＤＢＭＳサーバ1010、１台のスイッチ1020及び１台のストレージ装置1030がファイバチャネル1040（以下ＦＣと略称する）を介して相互に接続されているものとして説明する。
【００１２】
ＤＢＭＳサーバ1010は、ストレージ装置1030をデータベースとして使用するＤＢＭＳ1011、ボリュームを管理するボリュームマネージャ1013及びＤＢＭＳサーバ1010内のボリュームの構成を管理するＤＢＭＳサーバ管理エージェント1012を有する。スイッチ1020は、当該装置内の仮想ボリュームの構成を管理するスイッチ管理エージェント1021を有する。ストレージ装置1030は、スイッチ1020の仮想ボリュームとストレージ装置の物理ディスク1032間の構成を管理するストレージ装置管理エージェント1031を有している。
【００１３】
管理サーバ1000は、管理用ネットワーク1050を介してＤＢＭＳサーバ1010、スイッチ1020及びストレージ装置1030に接続されている。管理サーバ1000の管理サーバ管理マネージャ1001は、管理用ネットワーク1050を介してＤＢＭＳサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031と通信できる。
【００１４】
管理サーバ管理マネージャ1001は、ＤＢＭＳサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031から各装置のマッピング情報を取得し、後述する一元的な管理処理を行うことにより、ＳＡＮにおける仮想ボリューム、実ボリューム、論理ディスク及び物理ディスクの構成を管理する。
【００１５】
図２は、管理サーバ1000の構成例を示す。管理サーバ1000は、プロセッサ2002、主記憶2005、管理用ネットワーク1050に接続する管理Ｉ／Ｆ（インタフェース）2001、出力装置2003及び実トポロジリポジトリ2004を有する。これらの装置は、内部バス等の通信路2006を介して相互に接続される。出力装置2003は、管理サーバ管理マネージャ1001によって実行された処理の実行結果を出力する。実トポロジリポジトリ2004は、管理テーブルデータ等を格納する。主記憶2005には、管理サーバ管理マネージャ1001、障害管理マネージャ1002、管理サーバ管理テーブル2011及びイベント辞書2012が格納されている。管理サーバ管理マネージャ1001は、プロセッサ2002によって実行されるプログラムであり、各装置からのデータマッピング情報と障害通知メッセージを受け取る。障害管理マネージャ1002は、障害管理を行うプログラムである。管理サーバ管理テーブル2011は、データマッピング情報を保持するテーブルである。イベント辞書2012は、障害検出メッセージを解釈するための辞書情報を格納する。
【００１６】
図３は、ＤＢＭＳサーバ1010の構成例を示す図である。ＤＢＭＳサーバ1010は、プロセッサ3002、主記憶3005、管理用ネットワーク1050に接続する管理Ｉ／Ｆ3001及びＦＣ1040に接続する一つ以上のデータＩ／Ｆ3004を有する。これらの装置は、内部バス等の通信路3006を介して相互に接続される。主記憶3005には、実行中のＤＢＭＳ1011、ボリュームを管理するボリュームマネージャ1013、ＤＢＭＳサーバＩ／Ｆテーブル3012、ＤＢＭＳサーバ管理テーブル3011及びＤＢＭＳサーバ管理エージェント1012が格納されている。ＤＢＭＳサーバＩ／Ｆテーブル3012は、ＦＣ1040へのＩ／Ｆを管理する。ＤＢＭＳサーバ管理テーブル3011は、ジョブが操作しているＤＢＭＳ1011管理下のテーブルやボリュームマネージャ管理情報をまとめたテーブルである。ＤＢＭＳサーバ管理エージェント1012は、ＤＢＭＳサーバ管理テーブル3011を管理するプログラムである。
【００１７】
ボリュームマネージャ1013は、スイッチ1020が提供する仮想ボリュームを認識し、１つ以上の仮想ボリュームをまとめて１つの仮想的な実ボリュームとしてＤＢＭＳサーバ1010に提供する。ボリュームマネージャ1013は、プロセッサ3002によって実行されるプログラムである。また、図３には記載されていないが、ＤＢＭＳ1011は、ファイルシステムを経由してからボリュームマネージャ1013にアクセスする。ファイルシステムは、実ボリューム上のファイルを管理する。
【００１８】
図４は、スイッチ1020の構成例を示す。スイッチ1020は、コントローラ4003、記憶領域4004、管理用ネットワーク1050に接続する管理Ｉ／Ｆ4001及びＳＡＮに接続する複数のデータＩ／Ｆ4002を有する。記憶領域4004、管理Ｉ／Ｆ4001及びデータＩ／Ｆ4002は、コントローラ4003を介して相互に接続される。コントローラ4003は、ＳＡＮのＦＣ1040を介して送受信されるデータのスイッチング及び仮想ストレージ機能を実現する。記憶領域4004には、スイッチ管理エージェント1021、ボリューム仮想化プログラム4011、ＦＣ接続管理テーブル4012、スイッチＩ／Ｆテーブル4013及びスイッチ管理テーブル4014が格納されている。スイッチ管理エージェント1021は、管理サーバ管理マネージャ1001と通信してスイッチ1020の管理情報を送受信し、スイッチ管理テーブル4014を管理するためのプログラムである。ボリューム仮想化プログラム4011は、記憶領域のバーチャリゼーションを実現するためのプログラムである。ＦＣ接続管理テーブル4012は、ＳＡＮを介したスイッチ1020、ＤＢＭＳサーバ1010及びストレージ装置1030間の接続関係を示す情報を格納する。スイッチＩ／Ｆテーブル4013は、データＩ／Ｆ4002についての管理情報を保持する。スイッチ管理テーブル4014は、仮想ボリュームについての管理情報を保持する。
【００１９】
ボリューム仮想化プログラム4011は、スイッチ管理テーブル4014を参照してＤＢＭＳサーバ1010から受け取った入出力要求に含まれる仮想ボリュームの識別子を論理ディスク装置の識別子に変換する。
【００２０】
なお本実施例ではスイッチ1020は６個のデータＩ／Ｆ4002（S1、S2、S3、S4、S5、S6）を有する構成としているが、データＩ／Ｆ4002の個数は１つ以上であればいくつでもよい。この例では識別子S1、S2、S3によって示されるデータＩ／Ｆ4002は、ＤＢＭＳサーバ1010と接続される。また識別子S4、S5、S6によって示されるデータＩ／Ｆ4002は、ストレージ装置1030と接続される。
【００２１】
図５は、ストレージ装置1030の詳細な構成例を示す。ストレージ装置1030は、ストレージ装置1030内の制御を行うコントローラ5003、記憶領域5004、管理用ネットワーク1050に接続する管理Ｉ／Ｆ5001、ＳＡＮのＦＣ1040に接続する一つ以上のデータＩ／Ｆ5002及び物理ディスク1032を有する。記憶領域5004、管理Ｉ／Ｆ5001及びデータＩ／Ｆ5002は、コントローラ5003を介して相互に接続される。物理ディスク1032は、ＤＢＭＳサーバ1010およびスイッチ1020に提供する記憶領域を構成する１つ以上の物理的なディスク装置である。
【００２２】
記憶領域5004には、ストレージ装置管理エージェント1031、ストレージ装置Ｉ／Ｆテーブル5011及びストレージ装置管理テーブル5012が格納されている。ストレージ装置管理エージェント1031は、管理サーバ管理マネージャ1001と通信してストレージ装置1030の管理情報を送受信し、ストレージ装置管理テーブル5012を管理するためのプログラムである。ストレージ装置Ｉ／Ｆテーブル5011は、データＩ／Ｆ5002についての管理情報を保持する。ストレージ装置管理テーブル5012は、物理ディスク1032についての管理情報を保持する。
【００２３】
なお本実施例ではストレージ装置1030は２個のデータＩ／Ｆ5002（T1、T2）と１１個の物理ディスク1032（SS1、SS2、．．．、SS11）を有するが、データＩ／Ｆ5002及び物理ディスク1032の個数は１つ以上であれば幾つであってもよい。
【００２４】
図６は、データマッピングの階層構成の一例を示す。ＤＢＭＳサーバ1010は２つのジョブ6010、それらのジョブ6010が操作する３つのテーブル6020、ファイルシステム6101上の２つのファイル6030及びボリュームマネージャ1013が管理する３つの実ボリューム6040とを有する。スイッチ1020は、３つの仮想ボリューム6050を有する。ストレージ装置1030は、５つの論理ディスク装置6060と１１個の物理ディクス装置1032を有する。ＤＢＭＳサーバ1010上のテーブルデータ6020は、ファイルシステム6101上のファイル6030に格納される。ファイル6030は、ボリュームマネージャ1013上の実ボリューム6040に分散して格納されている。その実ボリューム6040は、スイッチ1020の仮想ボリューム6050に格納される。１つの実ボリューム6040が複数の仮想ボリューム6050に分散して格納されてもよい。仮想ボリューム6050は、ストレージ装置1030の論理ディスク装置6060を介して物理ディスク装置1032へと分散して格納されている。
【００２５】
なお本実施例では、データマッピング全体のうち、主として実ボリューム6040以下の階層構成に注目したデータマッピングを特にボリュームマッピングと呼んでいる。
【００２６】
図６に示すように、特定のジョブに始まり、論理的なボリュームを経て特定の物理装置に至るデータマッピングの経路を特定することができる。このデータマッピング経路上には、装置と装置とを接続する特定のインタフェース部又は特定の物理ディスクが存在する。
【００２７】
図６の例では、ジョブ6010はＤＢＭＳサーバ1010内に存在しているが、図示しないアプリケーションサーバ、クライアント端末などの計算装置上に存在するジョブであってもよい。これらのジョブ6010は、所在する装置上で稼動するＯＳ（オペレーティングシステム）及びそのジョブ管理機能の制御の下に実行される。なお本例のデータマッピングの階層構成は、より縮退された階層構成であってもよい。例えばＤＢＭＳ1011がなく、ジョブ6010が直接ファイル6030にアクセスするような構成でもよい。またスイッチ1020がなく、実ボリューム6040が直接論理ディスク装置6060にボリュームマッピングされるような構成でもよい。あるいはスイッチ1020及び論理ディスク装置6060がなく、実ボリューム6040が直接物理ディスク装置1032にボリュームマッピングされるような構成でもよい。
【００２８】
図７は、ＤＢＭＳサーバ1010が保持するＤＢＭＳサーバＩ／Ｆテーブル3012の一例を示す。ＤＢＭＳサーバＩ／Ｆテーブル3012のＤＢ−Ｉ／Ｆ欄7010は、ＳＡＮへの接続Ｉ／Ｆ識別子を格納し、名前欄7020は各Ｉ／Ｆ識別子に与えられる名称を格納する。
【００２９】
図８は、ＤＢＭＳサーバ1010が保持するＤＢＭＳサーバ管理テーブル3011の一例を示す。本テーブルのＤＢＭＳ−ＩＤ欄8010は、管理サーバ1000が一意に識別ができるＤＢＭＳ識別子を格納する。ジョブＩＤ欄8020はジョブ識別子を格納する。テーブル名欄8030はＤＢＭＳ1010が操作しているテーブルの識別子を格納する。ファイル名欄8040はテーブル6020が格納されているファイル6030のファイル名を格納する。実ボリューム名欄8050は、そのファイル6030が格納されている実ボリューム6040の識別子を格納する。ＤＢ−Ｉ／Ｆ欄8060はＤＢＭＳサーバ1010が保持するＳＡＮ接続のＩ／Ｆ識別子を格納する。ＳＣＳＩ−ＩＤ欄8070は接続先のＩ／Ｆ識別子を格納する。ＬＵＮ欄8080はＳＣＳＩターゲットデバイス内のボリュームにアクセスするための論理装置番号（ＬＵＮ）の識別子を格納する。
【００３０】
図９は、スイッチ1020が保持するスイッチＩ／Ｆテーブル4013の一例を示す。本テーブルのデータＩ／Ｆ−ＩＤ欄9010はスイッチ1020が保持するＩ／Ｆの識別子を格納する。仮想データＩ／Ｆ−ＩＤ欄9020は、ＤＢＭＳサーバ装置1010にデータＩ／Ｆ4002の識別子として認識させている識別子を格納する。ＳＣＳＩ−ＩＤ欄9030は、仮想ボリューム6050に割り当てたＳＣＳＩＩＤの識別子を格納する。
【００３１】
図１０は、スイッチ1020が保持するＦＣ接続管理テーブル4012の一例を示す。本テーブルのデータＩ／Ｆ欄10010はスイッチ1020が保持するＳＡＮ接続Ｉ／Ｆの識別子を格納する。スイッチ側名前欄10020は、ＳＡＮ接続の各Ｉ／Ｆ4002に割り当てられている名前を格納する。接続先名前欄10030はＳＡＮ接続の各Ｉ／Ｆが接続されている接続先の名前を格納する。
【００３２】
図１１は、スイッチ1020が保持するスイッチ管理テーブル4014の一例を示す。まずスイッチ管理テーブル4014の仮想ボリューム欄11100について説明する。仮想データＩ／Ｆ−ＩＤ欄11110は仮想ボリュームＩ／Ｆの識別子を格納する。ＳＣＳＩ−ＩＤ欄11120は仮想ボリュームに割り当てられたＳＣＳＩ識別子を格納する。ＬＵＮ欄11130は仮想データＩ／Ｆを介して仮想ボリューム6050にアクセスするためのＳＣＳＩのＬＵＮを格納する。仮想ボリュームＩＤ欄11140は、仮想データＩ／Ｆを介してアクセスされる仮想ボリューム6050に対し任意に割り当てた識別子を格納する。
【００３３】
次に論理ディスク欄11200について説明する。実データＩ／Ｆ−ＩＤ欄11210は、仮想ボリューム6050を構成している論理ディスク6060にアクセスするために用いられるスイッチ1020のＩ／Ｆの識別子を格納する。ＳＣＳＩ−ＩＤ欄11220は、実データＩ／Ｆの接続先であるＳＣＳＩターゲットデバイスの識別番号を格納する。ＬＵＮ欄11230は、実データＩ／Ｆを介して論理ディスク6060にアクセスするとき用いられるＳＣＳＩのＬＵＮを格納する。
【００３４】
図１２は、ストレージ装置1030が保持するストレージ装置Ｉ／Ｆテーブル5011の一例を示す。本テーブルのデータＩ／Ｆ−ＩＤ欄12010は、ストレージ装置1030が保持するＳＡＮ接続のＩ／Ｆの識別子を格納する。ストレージ側名前欄12020はＳＡＮ接続のＩ／Ｆに割り当てられている名前を格納する。仮想データＩ／ＦＩＤ欄12030は、ストレージ装置1030上の物理ディスク1032にアクセスするために用いられるデータＩ／Ｆ5002の識別子を格納する。ＳＣＳＩＩＤ欄12040は、実データＩ／Ｆの接続先であるＳＣＳＩターゲットデバイスのＬＵＮを格納する。
【００３５】
図１３は、ストレージ装置1030が保持するストレージ装置管理テーブル5012の一例を示す。まずストレージ装置管理テーブル5012の論理ディスク欄13100について説明する。仮想データＩ／ＦＩＤ欄13110は、ストレージ装置1030上の物理ディスク1032にアクセスするために用いられるデータＩ／Ｆ5002の識別子を格納する。ＳＣＳＩ−ＩＤ欄13120は、実データＩ/Ｆの接続先であるＳＣＳＩターゲットデバイスの識別番号を格納する。ＬＵＮ欄13130は物理ディスク1032にアクセスするためのＳＣＳＩのＬＵＮを格納する。論理ディスクＩＤ欄13140は、仮想データＩ／Ｆを介してアクセスされる論理ディスク6060に対し任意に割り当てた識別子を格納する。
【００３６】
もう一方の物理ディスク欄13200内の物理ディスクＩＤ欄13210は、ストレージ装置1030が保持する物理ディスクの識別子を格納する。ＳＣＳＩＩＤ欄13220は、実データＩ／Ｆの接続先であるＳＣＳＩターゲットデバイスの識別番号を格納する。ＳＣＳＩＬＵＮ欄13230は、実データＩ／Ｆ5002を介してアクセスされる論理ディスク6060についてＳＣＳＩのＬＵＮを格納する。
【００３７】
図１４は、管理サーバ1000が保持する管理サーバ管理テーブル2011の一例を示す。管理サーバ管理テーブル2011は、図７から図１３に至るＤＢＭＳサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031が管理する各テーブルの情報について後述する処理を施した結果を格納する。
【００３８】
まずＤＢＭＳサーバ欄14100について説明する。ＤＢＭＳ−ＩＤ欄14101は管理サーバ1000が一意に識別が出来るＤＢＭＳ識別子を格納する。ジョブＩＤ欄14102はジョブ識別子を格納する。テーブル名欄14103はＤＢＭＳ1010が操作しているテーブルの識別子を格納する。ファイル名欄14104は、ＤＢＭＳ1010が操作しているテーブル6020に対応してそのテーブル6020を格納するファイル6030のファイル名を格納する。ボリュームマネージャ欄14105は、そのファイル6030が格納されているボリュームの名称を格納する。ＤＢ−Ｉ／Ｆ欄14105は、ＤＢＭＳサーバ1010が保持するＳＡＮ接続のＩ／Ｆ識別子を格納する。
【００３９】
次にスイッチ欄14200について説明する。スイッチＩ／Ｆ欄14201はスイッチ1020が保持するＳＡＮ接続Ｉ／Ｆの識別子を格納する。仮想ボリューム欄14210内の仮想ボリュームＩＤ欄14211は仮想データＩ／Ｆを介してアクセスされる仮想ボリューム6050に対し任意に割り当てた識別子を格納する。仮想データＩ／Ｆ−ＩＤ欄14212は仮想ボリュームＩ／Ｆの識別子を格納する。ＳＣＳＩ−ＩＤ欄14213は仮想ボリュームに割り当てられたＳＣＳＩ識別子を格納する。ＬＵＮ欄14214は仮想データＩ／Ｆを介してアクセスされる仮想ボリューム6050についてそのＳＣＳＩのＬＵＮを格納する。
【００４０】
次にストレージ装置実ボリューム欄14220について説明する。実データＩ／Ｆ−ＩＤ欄14221は、仮想ボリューム6050を構成している論理ディスク6060にアクセスするために用いられるスイッチ1020のＩ／Ｆの識別子を格納する。ＳＣＳＩ−ＩＤ欄14222は実データＩ／Ｆの接続先であるＳＣＳＩターゲットデバイスの識別番号を格納する。ＬＵＮ欄14223は実データＩ／Ｆを介してアクセスされる論理ディスク装置6060についてそのＳＣＳＩのＬＵＮを格納する。
【００４１】
次にストレージ装置欄14300について説明する。データＩ／ＦＩＤ欄14301はストレージ装置1030が保持するＳＡＮ接続のＩ／Ｆの識別子を格納する。論理ディスク欄14310内について説明する。仮想データＩ／ＦＩＤ欄14311は、ストレージ装置1030上の物理ディスク1032にアクセスするために用いられるデータＩ／Ｆ5002の識別子を格納する。ＳＣＳＩ−ＩＤ欄14312は、実データＩ／Ｆの接続先であるＳＣＳＩターゲットデバイスの識別番号を格納する。ＬＵＮ欄14313は物理ディスク1032にアクセスするためのＳＣＳＩ−ＬＵＮを格納する。論理ディスクＩＤ欄14314は、仮想データＩ／Ｆを介してアクセスされる論理ディスク6060に対し任意に割り当てた識別子を格納する。
【００４２】
次に物理ディスク欄14320について説明する。物理ディスクＩＤ欄14321はストレージ装置1030が保持する物理ディスクの識別子を格納する。ＳＣＳＩＩＤ欄14322は、実データＩ／Ｆの接続先であるＳＣＳＩターゲットデバイスの識別番号を格納する。ＳＣＳＩＬＵＮ欄14323は実データＩ／Ｆ5002を介してアクセスされる論理ディスク装置6060についてそのＳＣＳＩ−ＬＵＮを格納する。
【００４３】
この図１４に示した管理サーバ管理テーブル2011によって、ジョブ6010ごとにＤＢＭＳサーバ1010内のどのテーブル6020を参照し、どのファイル6030、ボリューム6040を使用して、またそれらがスイッチ1020においてどのような仮想ボリューム6050を経てストレージ装置1030上の物理ディスク1032にアクセスを行っているのかを把握することができる。本テーブルは、ＤＢＭＳサーバ管理テーブル3011、スイッチ管理テーブル4014及びストレージ装置管理テーブル5012の変化の度に更新される。すなわち管理サーバ1000は、管理サーバ管理テーブル2011を通して常に各装置のデータマッピングに関する最新状態を監視しているものとする。
【００４４】
図１５に管理サーバ1000が保持するイベント辞書2012の一例を示す。イベント辞書2012の各行は、障害コード15010に対して対応する障害／復旧部位15020、その識別子15030及び障害ごとに付与される障害管理ＩＤ15040を有する。識別子15030は、障害が発生した装置より管理サーバ1000へ送信される障害通知メッセージ内のバリアブル・バインディングズ・フィールド16009の障害コードを示している。障害管理ＩＤ15040は、障害発生から障害復旧までその障害を管理するために用いられる識別子である。
【００４５】
図１６に、ＳＮＭＰプロトコルの障害通知メッセージ（以下Ｔｒａｐメッセージと略称する）のフォーマットとそのメッセージの一例を示す。現在のＳＡＮ管理ソフトによる障害監視機能は、Ｔｒａｐメッセージを用いることが多く、本実施例においてはこのＴｒａｐメッセージを用いて障害通知を行っている。
【００４６】
図１６（ａ）に示すＳＮＭＰプロトコルのＴｒａｐメッセージフォーマットは、図示するフィールドから構成される。コミュニティー名16002は、メッセージ送信先を示す。ＰＤＵ(ＰｒｏｔｏｃｏｌＤａｔａＵｎｉｔ)タイプ16003は、メッセージの種類を示す。エンタプライズ16004は送信元装置のベンダ名を示す。エージェント・アドレス16005は送信先ＩＰアドレスを示す。ジェネリック・トラップ・タイプ16006は、Ｔｒａｐメッセージの種別を示す。タイムスタンプ16008はメッセージの送信時刻を示す。バリアブル・バインディングズのフィールド16009はメッセージ内容を格納する。
【００４７】
ＰＤＵタイプ・フィールド16003の値が"４"のとき、本メッセージはＴｒａｐメッセージであると判断される。ジェネリック・トラップ・タイプフィールド16006の値が"６"のとき、Ｔｒａｐメッセージは送信元装置ベンダ固有の定義に基づくＴｒａｐメッセージと判断される。このとき各ベンダによって定義されたスペシフィック・トラップ・タイプフィールド16007とバリアブル・バインディングズ・フィールド16009(図中下線部)の内容にもとづきＴｒａｐメッセージを解釈する必要がある。
【００４８】
図１６（ｂ）に示すＴｒａｐメッセージは、ストレージ装置1030のハードウエア障害を通知するために、管理サーバ1000の障害管理マネージャ1002に対して送信されるＴｒａｐメッセージの一例である。この例は、ＰＤＵタイプ・フィールド16103の値が"４"、ジェネリック・トラップ・タイプフィールド16106の値が"６"であるために本メッセージはＴｒａｐメッセージであり、送信元装置ベンダ固有の定義に基づくＴｒａｐメッセージであると判断される。
【００４９】
またスペシフィック・トラップ・タイプ16107に障害種別、バリアブル・バインディングズ16109に障害発生部位を示す障害コードを格納するよう管理者が定義している場合、本メッセージは、障害コード"30c1"の部位にハードウエア障害が生じている旨を示している。また本メッセージは、障害が発生した場合においてのみ障害発生装置から管理サーバ1000に対して通知するのではなく、障害の発生した装置において障害が復旧となった場合についてもＴｒａｐメッセージを用いて管理サーバ1000に通知されるものとする。その場合については、バリアブル・バインディングズ16109に障害復旧部位を示す障害コードを格納する。
【００５０】
図１７は、管理サーバ1000において実行されるデータマッピング処理の処理手順を示すフローチャートである。この処理は、ＤＢＭＳサーバ1010、スイッチ1020及びストレージ装置1030の各装置からの情報を用いて各ジョブ6010ごとにデータマッピングを実行する。管理サーバ管理マネージャ1001は、メモリ上に各装置の管理情報をコピーする領域を用意する（ステップ17010）。次に管理サーバ管理マネージャ1001は、管理ネットワーク1050を介してＤＢＭＳサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031と通信を行い、図８から図１３に至る各装置の管理情報をコピーする（ステップ17020）。次に管理サーバ管理マネージャ1001は、ステップ17020でコピーした各装置の管理情報を実トポロジリポジトリ2004に格納する（ステップ17030）。次に管理サーバ管理マネージャ1001は、ステップ17020でコピーした情報を基にして図１４に示す管理サーバ1000独自の管理サーバ管理テーブル2011を作成する（ステップ17040）。次に管理サーバ管理マネージャ1001は、作成した管理サーバ管理テーブル2011を管理サーバ1000の保持する実トポロジリポジトリ2004に格納する（ステップ17050）。
【００５１】
ＤＢＭＳサーバ1010、スイッチ1020及びストレージ装置1030の各装置から得られた図８から図１３の管理情報は、各装置の状態により常に変化する。管理サーバ1000は、これらの管理情報が変化するごとに図１７に示す処理手順に従って管理サーバ管理テーブル2011を更新する。
【００５２】
図１８は、管理サーバ管理テーブル2011を作成する処理ステップ17040の詳細を展開して示すフローチャートである。管理サーバ管理マネージャ1001は、管理ネットワーク1050を介してＤＢＭＳサーバ1010、スイッチ1020及びストレージ装置1030と通信を行い、各装置のＤＢＭＳサーバ管理テーブル3011、スイッチ管理テーブル4014及びストレージ装置管理テーブル5012を基にして管理サーバ管理テーブル2011を作成する。管理サーバ管理マネージャ1001は、作成する管理サーバ管理テーブル2011のすべてのエントリについて以下の処理を実行する。
【００５３】
まず管理サーバ管理マネージャ1001は、メモリ上に作成する管理サーバ管理テーブル2011の領域を用意する（ステップ18010）。次に管理サーバ管理テーブル2011の各エントリについて以下の処理を実行する（ステップ18020）。ＤＢＭＳサーバ欄14100の各エントリには、ＤＢＭＳサーバ1010のＤＢＭＳサーバ管理エージェント1012との通信により得たＤＢＭＳサーバ管理テーブル3011のエントリをコピーし、登録する（ステップ18030）。登録されるエントリは、ＤＢＭＳＩＤ8010、ジョブＩＤ8020、テーブル名8030、ファイル名8040、実ボリューム名8050及びＤＢＩ／Ｆ8060である。
【００５４】
次に管理サーバ管理マネージャ1001は、ＤＢＭＳサーバ管理テーブル3011のＤＢ−Ｉ／Ｆ欄8060の値をキーとして、ＤＢＭＳサーバＩ／Ｆテーブル3012を検索し、ＤＢ−Ｉ／Ｆ欄の値が一致する行の名前欄7020の識別子を検出する（ステップ18040）。次に検出した名前欄7020の識別子をキーとしてＦＣ接続管理テーブル4012を検索し、名前欄7020の識別子が一致する行のデータＩ／Ｆ欄10010の識別子を検出する。管理サーバ管理マネージャ1001は、管理サーバ管理テーブル2011内のスイッチ欄14200のスイッチＩ／Ｆ14201エントリにＤＢＭＳサーバ欄14100内のＤＢＩ／Ｆ欄14106と対応するように検出したデータＩ／Ｆ欄の10010の識別子をコピーし、登録する（ステップ18050）。
【００５５】
次にステップ18050で検出したデータＩ／Ｆ10010の識別子をキーとして、スイッチＩ／Ｆテーブル4013を検索し、データＩ／Ｆの識別子が一致する仮想データＩ／ＦＩＤ9020とＳＣＳＩＩＤ9030を検出し、当該管理サーバ管理テーブル2011のスイッチ欄14200内の仮想ボリューム欄14210の仮想データＩ／ＦＩＤ14212とＳＣＳＩＩＤ14213エントリへコピーする（ステップ18060）。
【００５６】
次に管理サーバ管理マネージャ1001は、検出した仮想データＩ／ＦＩＤ9020とＳＣＳＩＩＤ9030をキーとして、スイッチ管理テーブル4014を検索し、キー値の仮想データＩ／ＦＩＤ9020とＳＣＳＩＩＤ9030と一致する仮想ボリューム欄11100内の仮想ボリュームＩＤ11140、論理ディスク欄11200内の実データＩ／ＦＩＤ11210、ＳＣＳＩＩＤ11220及びＬＵＮ識別子11230を検出する。次に管理サーバ管理マネージャ1001は、検出した各々のエントリを管理サーバ管理テーブル2011のスイッチ欄14200内の仮想ボリューム欄14210の仮想ボリュームＩＤ14211およびＬＵＮ欄14214と、ストレージ装置実ボリューム欄14220内の実データＩ／ＦＩＤ14221、ＳＣＳＩＩＤ14222およびＬＵＮ欄14223の各欄へコピーする（ステップ18070）。
【００５７】
次にステップ18070で検出した実データＩ／ＦＩＤ11210をキーとしてＦＣ接続テーブル4012を検索し、キー値と一致する接続先名前10030の識別子を抽出する（ステップ18080）。次にステップ18080で抽出した接続先名前10030の識別子をキーとしてストレージ装置Ｉ／Ｆテーブル5011を検索し、キー値と一致するストレージ装置1030のストレージ装置Ｉ／Ｆテーブル5011内のデータＩ／ＦＩＤ12010エントリ、仮想データＩ／ＦＩＤ12030エントリ及びＳＣＳＩＩＤ12040エントリを検出する。検出した各エントリを管理サーバ管理テーブル2011のストレージ装置欄14300のデータＩ／ＦＩＤエントリ14301および論理ディスク欄14310内の仮想データＩ／ＦＩＤ14311エントリへコピーする（ステップ18090）。
【００５８】
次に管理サーバ管理マネージャ1001は、ステップ18090にて抽出した仮想データＩ／ＦＩＤ12030とＳＣＳＩＩＤ12040の各エントリをキーとしてストレージ装置管理テーブル5012を検索し、論理ディスク欄13100内のＬＵＮ13130および論理ディスクＩＤ13140の各エントリと、物理ディスク欄13200内の物理ディスクＩＤ13210、ＳＣＳＩＩＤ13220およびＳＣＳＩＬＵＮ13230の各エントリを検出する。管理サーバ管理マネージャ1001は、検出した各エントリを管理サーバ管理テーブル2011のストレージ装置欄14300の論理ディスク欄14310内のＳＣＳＩＩＤ14312、ＬＵＮ14313および論理ディスクＩＤ14314の各エントリと、物理ディスク欄14320内の物理ディスクＩＤ14321、ＳＣＳＩＩＤ14322およびＳＣＳＩＬＵＮ14323の各エントリへコピーする（ステップ18100）。
【００５９】
最後に管理サーバ管理マネージャ1001は、管理サーバ管理テーブル2011の全てのエントリが登録されているか判定し、登録完了していないエントリがある場合にはステップ18020に戻る（ステップ18110）。以上のステップにより管理サーバ管理テーブル2011作成処理が終了する。図１４は、本処理により実行された管理サーバ管理テーブル2011の一部を示している。
【００６０】
図１９は、管理サーバ1000において実行される障害検出処理、及び管理者に対して障害により影響のあるジョブが存在する場合の内容通知処理を示すフローチャートである。管理サーバ1000は、障害発生装置からのＴｒａｐメッセージを受信する（ステップ19010）。すなわちＤＢＭＳサーバ1010、スイッチ1020およびストレージ装置1030の各装置において発生した障害内容は、ＳＮＭＰプロトコルのＴｒａｐメッセージのバリアブル・バインディングズ16009内の障害コードとして管理サーバ1000へと伝えられる。障害管理マネージャ1002は、障害発生装置より送信されたＴｒａｐメッセージを受け取った後に、メッセージのバリアブル・バインディングズ16009内のコードをキーとして、自身が保持するイベント辞書2012内を検索し、識別子15030を抽出し、どの装置の障害であるのか、またその障害部位を特定する処理を行う（ステップ19020）。障害部位は、管理サーバ管理テーブル2011に登録されているいずれかの装置のインタフェース部又は物理ディスク装置を含む。
【００６１】
次に障害管理マネージャ1002は、特定した障害部位の識別子15030をキーとして管理サーバ管理テーブル2011を検索し、障害通知に必要な情報を抽出する（ステップ19030）。必要な情報は、障害部位によって異なる。抽出された情報は、キー値の障害管理ＩＤ15040を用いて抽出した情報と合わせて障害復旧まで保持される。図２０は、このようにして抽出され保存される情報の一例を示す。
【００６２】
ステップ19030で検出した結果が、実行中の各ジョブ6010に対して影響のある障害部位であるのか、そうでないのかについて、障害管理マネージャ1002は、検出した結果から判別を行う（ステップ19040）。影響があるジョブが存在すると判断された場合には、抽出した情報から表示に必要な情報を検出し、表示処理を行う（ステップ19050）。
【００６３】
ステップ19030での抽出結果の一例を図２０に示す。図２０は、管理サーバ1000がＴｒａｐメッセージより、イベント辞書2012の障害コード15010“30c1”を検出した場合の抽出結果であり、障害管理ＩＤ20050“F3031”によって管理されている。この例では、ストレージ装置1030にのみ障害が発生したと想定しているため、図２０は、障害部位が影響を与えるＤＢＭＳサーバ1010と、ストレージ装置1030間における各ＤＢＭＳ1011内のジョブ6010ごとの関係を示している。ただしストレージ装置1030以外の装置に障害が発生した場合は、図２０の形式と異なる。
【００６４】
また各ジョブ6010に対して発生した障害が影響を及ぼさないとされた場合には、「実行中のジョブに対して影響はないが、障害が発生した」旨の表示を行うために必要な情報を、ステップ19030において抽出した情報から検出し、表示処理を行う（ステップ19060）。
【００６５】
現在のＳＡＮを管理するソフトウェアによる障害監視機能は、ＩＥＴＦ(ＩｎｔｅｒｎｅｔＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅ)で作成されたＲＦＣ1157「ＡＳｉｍｐｌｅＮｅｔｗｏｒｋＭａｎａｇｅｍｅｎｔＰｒｏｔｏｃｏｌ（ＳＮＭＰ)」によって定められたＳＮＭＰプロトコルのＴｒａｐメッセージを利用することが多い。しかしＳＡＮに接続されているＤＢＭＳサーバ1010、スイッチ1020、ストレージ装置1030の各装置間がスイッチ1020などで仮想ボリューム用いている場合がある。このために、各装置からのＴｒａｐメッセージのみでシステム全体のどの装置でどの部位に障害が発生し、どのような障害影響が発生するのか把握することは難しい。そこで本実施例は、管理サーバ1000に障害管理マネージャ1002を配し、管理サーバ管理テーブル2011と共に運用することによりこの問題を回避する。管理サーバ1000の障害管理マネージャ1002は、管理サーバ1000内に保持しているイベント辞書2012を用いて、各装置からのＴｒａｐメッセージの内容を解釈する。そして実トポロジリポジトリ2004に格納した管理サーバ管理テーブル2011情報とＴｒａｐメッセージの解釈情報を付きあわせて、ジョブ6010の実行に影響が出ると判断した場合には、障害管理マネージャ1002は、その旨について管理者に対して通知を行う。ここでＴｒａｐメッセージとは、各装置において障害が発生した場合に、管理サーバ1000に対して管理ネットワークを通して通知を行うメッセージを指している。
【００６６】
ここで、図１６（ｂ）に示す障害コード15010が“30c1”の場合を例に考える。この場合、ストレージ装置1030は、障害が発生した旨のＴｒａｐメッセージを管理サーバ1000に送信する。障害管理マネージャ1002は、Ｔｒａｐメッセージを受信した時に、イベント辞書2012を参照し、Ｔｒａｐメッセージ中の障害コード“30c1”をキーとしてイベント辞書2012内の障害コード行を検索する。そして検索した行の識別子15030を抽出する。次に障害管理マネージャ1002は、抽出した識別子15030をキーとして管理サーバ管理テーブル2011を検索する。これによってキーとなる識別子15030を含む行14500を抽出し、ＤＢＭＳサーバと発生した障害から影響を受けるジョブ6010を絞り込むことが可能となる。ここでは“Job1”というジョブＩＤ14102で示されるジョブが影響を受けるものとされる。また抽出された情報から、ジョブ6010と障害発生装置との関係を図２０内の行20500のように導く。そしてその導いた行20500内のＤＢＭＳ−ＩＤ20110、ジョブＩＤ20120、ＤＢＩ／Ｆ20150、データＩ／ＦＩＤ20210および障害発生部位である実ボリュームＩＤ20220の情報から、障害発生によりジョブ6010に影響が出る場合の表示処理を行う。
【００６７】
この時の表示例を図２１に示す。本表示例21000は、障害が発生した装置内のハードウエアの故障箇所と、障害の影響を受けるジョブとを共に表示する。これによって管理者は障害により受けるジョブ6010への影響を容易に把握することができる。
【００６８】
また図２２は、障害が発生したが、ジョブ6010には影響が及ばなかった場合の表示処理例を示す。表示例22000は、ジョブ6010が使用していないストレージ装置1030内の物理ディスク1032“SS3”に障害が発生した場合の表示例22000を示す。
【００６９】
上記表示例21000および22000は、一箇所の障害発生の例を示すが、複数の障害が発生した場合においても同様の表示により管理者に対して通知されるものとする。
【００７０】
本実施例で示したＤＢＭＳサーバ1010、スイッチ1020及びストレージ装置1030の各装置間のボリュームマッピング構成の把握と、各装置における障害の発生監視を行うことにより、管理者は容易に実行中の各ジョブ6010について障害が及ぼす影響を把握することが可能となる。
（２）実施例２：障害発生時のジョブ実行制御
実施例２は、実施例１で示した障害発生した時に管理者に対して障害を通知する内容に加えて、各ジョブの実行順序をジョブの実行時に決めておくことにより、障害の影響を受けるジョブに対する実行管理の技術を示す。以降の説明は、実施例1で示した障害箇所特定および管理者に対し障害通知に至るまでについては、同じステップを踏むため、変更点のみ説明する。
【００７１】
図２３は、図２に示した管理サーバ1000の主記憶2005に新たにジョブ実行制御テーブル24000を追加した管理サーバ1000の構成例を示す。ジョブ実行制御テーブル24000は、管理サーバ1000の実トポロジリポジトリ2004に格納されている。
【００７２】
図２４は、ジョブ実行制御テーブル24000のデータ構成の一例を示す。ジョブ実行制御テーブル24000のＤＢＭＳ-ＩＤ欄24010は、ＤＢＭＳサーバ装置1010内のＤＢＭＳ1011に割り振られた一意の識別子を格納する。ジョブＩＤ欄24020はＤＢＭＳサーバ装置1010に関して実行中のジョブ6010のジョブＩＤを格納する。実施装置欄24030はジョブ実行制御処理を行う装置を格納する。
【００７３】
優先度欄24040はジョブの処理優先度を格納する。ジョブの優先度は、通常処理の優先度数値を“３”とし、最大（優先度が最も高い状態）で“５”となるように、ジョブ6010ごとの処理についての優先度が設定される。処理方法欄24050は事前に与えられた処理方法によって制御を行う固定方法と、ジョブ6010の実行時間を利用して制御を行う変動方法のどちらかを格納する。処理内容欄24060は、当該ジョブについて施されるジョブ実行制御処理の内容を格納する。本例の「閉塞処理」は、当該ジョブがアクセスしていたデータを閉塞する処理である。また「休止」は、当該ジョブを停止させることを意味する。
【００７４】
確認処理欄24070は、実施装置欄24030に指定の装置について処理内容欄24060に指定の処理を実行する前に、管理者に指定処理の実行確認を行う必要があるか否かの区別を格納する。自動実施欄24080は確認処理欄24070に“不要”が設定された場合に指定する必要があり、処理内容欄24060内の処理を管理者に対して確認せずに自動実行を行うか否かについて登録する。
【００７５】
ここで処理方法24050の登録する固定処理とは、事前に管理者によって登録されているジョブ実行制御を実施装置において実行する処理である。また変動処理とは、各装置より得られるＩ/Ｏ、ＣＰＵモニタから計算されるジョブ6010の実行時間の計算値に基づいて動的にジョブの実行制御を行う方法である。障害管理マネージャ1002は、計算されたジョブ6010の実行時間が障害発生前の実行時間よりも大きい場合に、優先度欄24040を参照する。実行ジョブ6010の優先度が通常処理優先度数値より低いならば、障害管理マネージャ1002は、処理内容欄24060に指定されている制御処理を行う。ジョブ実行制御テーブル24000の優先度24040、処理方法24050及び処理内容24060の各欄は、管理者によりジョブ1060の実行時に設定されるものとする。
【００７６】
図２５は、障害管理マネージャ1002が実行するジョブ実行制御処理の流れを示すフローチャートである。本処理は、特に指摘しない限り障害管理マネージャ1002が実行するものとする。まず障害管理マネージャ1002は、実トポロジリポジトリ2004から管理者により登録されたジョブ実行制御テーブル24000を取得する（ステップ25000）。管理者は、ジョブ6010の実行時にジョブ実行制御テーブル24000を作成するが、スケジューラを用いている場合には前もって登録しておく必要がある。次にある装置において障害が発生した場合には、実施例1と同様の手順によって障害が発生した装置から送信されるＴｒａｐメッセージより障害箇所の特定を行う（ステップ25010）。
【００７７】
次に障害の影響を受けるジョブについてジョブ実行制御処理を実施するにあたって、管理者に対し実施の確認を求めるか否かについて、ジョブ実行制御テーブル24000の確認処理欄24070に指定される情報から判断を行う（ステップ25020）。ステップ25020で確認を求めると判断された場合にはステップ25030に移行し、確認を求めずにジョブ実行制御テーブル24000の指定に従ってジョブ実行制御処理を実施する場合にはステップ25031に移行する。
【００７８】
次にステップ25020において確認を求めると判断された場合に、管理者に対して実施例1と同様の形で障害が発生した旨の表示を行う。その表示内容は、障害の影響を受けるジョブ6010へのジョブ実行制御を行うため管理者の確認を要求するという内容である。管理者が承諾した場合には、処理内容を選択するステップ25040に移行する。管理者が拒否した場合には、ジョブ実行制御処理を行わずに障害復旧まで待ち、ステップ25060に移行する（ステップ25030）。
【００７９】
次にステップ25020でジョブ実行制御テーブル24000の情報に基づいて自動実行を行うと判断された場合に、管理者に対して実施例1と同様の形で障害が発生した旨の表示処理を行い、ジョブ実行制御テーブル24000の自動実施欄24080に指定される情報からジョブ実行制御処理を行うのか行わないのか判断をする（ステップ25031）。ステップ25031で自動実行を行うと判断された場合にはステップ25040に移行し、自動実行を行わないと判断された場合にはステップ25060へ移行する。
【００８０】
ステップ25030で管理者が承諾した場合もしくはステップ25031で自動実行を行うと判断した場合、ジョブ実行制御方法について事前に決まっている処理を行うか、ジョブの負荷状況をみて優先度を変化させる処理を行うかについて判断する（ステップ25040）。その判断は、ジョブ実行制御テーブル24000の処理方法欄24050に指定されている情報に基づく。
【００８１】
ステップ25040において固定処理と判断された場合、障害復旧に備えて現在実行している処理の状態を記憶装置に保存し、ジョブ実行制御テーブル24000の実施装置欄24030に指定される装置において、処理内容欄24060に指定される処理方法によって、処理を実行する（ステップ25041）。
【００８２】
ステップ25040において変動処理と判断された場合、障害管理マネージャ1002は、以下の処理を実行する。まずＤＢＭＳサーバ1010、スイッチ1020およびストレージ装置1030の各装置についてＩ/Ｏ、ＣＰＵモニタの情報を取得する。なお管理サーバ1000は、各装置のＩ/Ｏ、ＣＰＵモニタ情報を監視しているものとする。Ｉ/Ｏは単位時間当り入出力されるデータ量、ＣＰＵデータは通常各装置のＣＰＵ稼働率の統計データが用いられる。各装置のＩ/Ｏ、ＣＰＵモニタ情報を監視しておくことにより、ジョブ実施装置のＩ/Ｏ、ＣＰＵ負荷を見積ることができる。
【００８３】
各装置のモニタ情報と管理サーバ1000が管理している管理サーバ管理テーブル2011の情報を監視することによって、障害管理マネージャ1002は、各ジョブ6010と各装置の関係から、障害発生箇所から影響を受けるジョブ6010を検索できる。この検索結果によって、ジョブ6010の優先度を用いた柔軟な実行制御や、事前に決められた実行制御を行うことができる。これによって障害の影響を容易に把握し、障害の影響を受けるジョブ6010の明確にし、管理者によって指定するジョブの実行制御を行うことができる。
【００８４】
このＩ/Ｏ、ＣＰＵモニタ情報に基づいてジョブ実行時間の見積を計算することができるものとする。また障害前のジョブ実行時間を取得できるものとする。定型的なジョブであれば、通常のジョブ実行時間の統計データを利用することは容易である。障害管理マネージャ1002は、ジョブ実行時間の見積値が障害発生前のジョブ実行時間より上回るか否か判断を行う（ステップ25042）。
【００８５】
ステップ25042において上回ったと判断された場合には、そのジョブの実行終了が予定時刻を過ぎるおそれがある。この場合に、障害管理マネージャ1002は、当該ジョブについてジョブ実行制御テーブル24000の優先度欄24040を参照し、その優先度が通常処理の標準優先度数値“３”との比較を行う（ステップ25043）。ステップ25043において、該当ジョブの優先度が低い優先度である場合、現在実行している処理の状態を記憶装置に保存し、ジョブ実行制御テーブル24000の処理内容欄24060内の内容に従って処理を行う（ステップ25044）。逆に優先度が通常処理の標準優先度数値“３”よりも高い優先度または標準優先度数値“３”と同じである場合、実行制御処理を行わずにステップ25050に移行する。一方、ステップ25042において上回らないと判断された場合、実行制御処理を行わずにステップ25050に移行する。
【００８６】
次に障害発生装置において障害復旧がなされたとき、障害発生装置より復旧した意味の障害コードを入れたＴｒａｐメッセージが管理サーバ1000に対して送信される。管理サーバ1000は、そのＴｒａｐメッセージを受信した時、メッセージ中の障害コードをイベント辞書2012より検索し、復旧部位の識別子15030と障害管理ＩＤ15040を抽出する。
【００８７】
障害管理マネージャ1002は、障害復旧時にステップ19030での抽出結果20000及び保存された処理状態を用いて実行中のジョブ実行制御処理からジョブ実行制御処理を行う前に実行していた処理に戻す（ステップ25050）。このために障害管理マネージャ1002は、抽出された識別子15030と障害管理ＩＤ15040をキーにして、抽出結果20000を検索し、ＤＢＭＳサーバ欄20100内のジョブＩＤ20120を抽出する。そのジョブＩＤ20120について、障害管理ＩＤ20050で指示されたジョブ実行制御処理からジョブ実行制御処理を行う前に実行していた処理に戻すよう、障害管理マネージャ1002を通して該当装置に指示する（ステップ25050）。次に管理サーバ1000は、管理者に対して発生した障害が復旧した旨のメッセージを作成し、管理者に通知を行う（ステップ25060）。
【００８８】
本実施例においては、ステップ25044にてジョブ実行制御テーブル24000に指示される実施装置について、現在実行している処理の状態を保存して、ジョブ実行制御テーブルに指示される処理を実行する。この場合に現在実行している処理状態の保存はどの装置で行ってもかまわない。
【００８９】
ここでストレージ装置1030の物理ディスク1032“SS1”で障害が発生し、事前に決められた処理である固定処理方法で閉塞処理を行うジョブ実行制御処理の場合24101を例にとって説明する。この場合、ストレージ装置1030の物理ディスク1032“SS1”に障害が発生したという障害通知メッセージがストレージ装置1030から管理サーバ1000へ送信される。管理サーバ1000が行う障害部位の特定処理については、実施例1の通りである。
【００９０】
ステップ25000で管理サーバ1000の障害管理マネージャ1002がメッセージを受信したとき、メッセージ内の障害コード16109からイベント辞書2012と管理サーバ管理テーブル2011の参照により図２０に示す抽出結果20000が得られる。障害管理マネージャ1002は、ステップ25030の管理者からのジョブ実行制御処理の実施許可を得た後に、ステップ25040からステップ25041においてジョブ実行制御テーブル24000の指示に従い設定された実施装置24030において、現在実行中の処理状態を保存し、指定された処理方法24050で指定された処理内容24060を実行する。
【００９１】
障害発生装置であるストレージ装置1030の物理ディスク1032において障害が復旧された場合には、ステップ25050で障害発生装置のストレージ装置1030から障害復旧コード“00a1”を含んだＴｒａｐメッセージが管理サーバへ送信される。障害管理マネージャ1002は、このメッセージを受信したとき、メッセージ内の障害復旧コード“00a1”をキーとしてイベント辞書2012から識別子の“SS1”と障害管理ＩＤの“F3031”情報15101を抽出し、障害発生時に作成した図２０のテーブル20000から識別子が“SS1”であり、障害管理ＩＤ“F3031”で管理されているジョブ実行制御処理15101から、記憶していたジョブ実行制御処理を行う前に実行していた処理に戻すという処理を実行する。管理サーバ1000は、ステップ25060でストレージ装置1030で発生した障害が復旧し、ジョブ実行制御処理をから記憶してある処理に戻したというメッセージを管理者に対して表示する。
【００９２】
図２６は、ストレージ装置1030の物理ディスク1032“SS1”に障害が発生し、影響をうけるジョブ6010“Job1”に対するジョブ実行制御処理実行の確認を管理者に求める通知例26000を示している。管理者に障害の発生箇所と影響を受けるジョブ6010、ＤＢＭＳサーバ1010等を共に表示することによって、管理者は各ジョブ6010への影響を容易に把握することができる。このとき障害管理マネージャ1002は、管理者へジョブ実行制御処理を行う際の詳細で分かりやすい情報を提供する。この通知例26000は、障害発生箇所が一箇所であるとしているが、複数箇所において障害が発生したとしても同様の表示を行うこととする。
【００９３】
また図２７は、ストレージ装置1030において発生した物理ディスク1032“SS1”の障害復旧がなされた内容の管理サーバ1000から管理者への通知例27000を示している。
【００９４】
本実施例で示した障害を検知し、発生した障害への対応をジョブごとに、指定された方法の実行制御、または優先度を加味した実行制御、またはスケジュール処理という方法を用いることで、障害発生時におけるシステムのパフォーマンス低下中に対して、効率のよいシステム運用が可能となる。
【００９５】
なお以上で説明した実施例１および実施例２においては、仮想化スイッチ装置がバーチャリゼーション機能を備えているネットワーク構成を想定していたが、スイッチ機能を有する装置とは異なる装置をバーチャリゼーション装置として管理ネットワーク及びＳＡＮに接続した構成であっても、上述の実施例１および２は同様の処理により実現可能である。
【００９６】
【発明の効果】
本発明により、ジョブごとにデータマッピング情報を集約することができ、この情報に基づいて障害によって影響を受けるジョブを特定することができる。また障害によって影響を受けたジョブの実行制御をすることができる。
【図面の簡単な説明】
【図１】ストレージ系を含むコンピュータシステムの構成例を示す図である。
【図２】管理サーバ装置の構成例を示す図である。
【図３】ＤＢＭＳサーバ装置の構成例を示す図である。
【図４】仮想化スイッチ装置の構成例を示す図である。
【図５】ストレージ装置の構成例を示す図である。
【図６】データマッピングの階層構成例を示す図である。
【図７】ＤＢＭＳサーバ装置が保持するＩ/Ｆテーブルの例を示す図である。
【図８】ＤＢＭＳサーバ装置が保持するＤＢＭＳサーバ管理テーブルの例を示す図である。
【図９】仮想化スイッチ装置が保持するＩ/Ｆテーブルの例を示す図である。
【図１０】仮想化スイッチ装置が保持するＦＣ接続管理テーブルの例を示す図である。
【図１１】仮想化スイッチ装置が保持するスイッチ管理テーブルの例を示す図である。
【図１２】ストレージ装置が保持するＩ/Ｆテーブルの例を示す図である。
【図１３】ストレージ装置が保持するストレージ装置管理テーブルの例を示す図である。
【図１４】管理サーバ装置が保持する管理サーバ管理テーブルの例を示す図である。
【図１５】管理サーバ装置が保持するイベント辞書内にある解釈の一例を示す図である。
【図１６】障害通知メッセージのフォーマットとそのメッセージの一例を示す図である。
【図１７】管理サーバ装置によって実行される各装置の管理情報から管理サーバ管理テーブルを作成する処理の一例を示すフローチャートである。
【図１８】管理サーバ装置において実行される管理サーバ管理テーブル作成の詳細処理内容の一例を示すフローチャートである。
【図１９】管理サーバ装置において実行される障害箇所検出処理および通知処理の一例を示すフローチャートである。
【図２０】影響のあるジョブの情報を抽出した結果の一例を示す図である。
【図２１】障害発生によりジョブに影響が出た場合の表示処理例の一例を示す図である。
【図２２】障害が発生したが、ジョブには影響がなかった場合の表示処理例の一例を示す図である。
【図２３】ジョブ実行制御テーブルを追加した管理サーバ装置の構成例を示す図である。
【図２４】管理サーバ装置が保持するジョブ実行制御テーブルの一例を示す図である。
【図２５】管理サーバ装置が実行するジョブ実行制御処理の一例を示すフローチャートである。
【図２６】ストレージ装置において障害が発生し、ジョブＩＤ“Job1”に対するジョブ実行制御処理実行の確認を管理者に求める通知の一例を示す図である。
【図２７】ストレージ装置において発生した物理ディスクＩＤ“SS1”の障害復旧がなされた旨の管理者への通知の一例を示す図である。
【符号の説明】
1000…管理サーバ装置、1010…ＤＢＭＳサーバ装置、1020…仮想化スイッチ装置、1030…ストレージ装置、1001…管理サーバ管理マネージャ、1002…管理サーバ障害管理マネージャ、1011…ＤＢＭＳ、1012…ＤＢＭＳサーバ管理エージェント、1013…ボリュームマネージャ、1021…スイッチ管理エージェント、1031…ストレージ装置管理エージェント、1032…物理ディスク。

Claims

ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定する障害管理方法であって、
障害を管理する計算機によって、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置、前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集し、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納し、前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示することを特徴とするジョブ管理機能を有するストレージ系障害管理方法。
前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する１つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項１記載のジョブ管理機能を有するストレージ系障害管理方法。
前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項２記載のジョブ管理機能を有するストレージ系障害管理方法。
ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するコンピュータシステムであって、
前記コンピュータシステムは、ジョブを実行する計算装置と、複数の前記物理ディスク装置を収容するストレージ装置と、障害を管理するサーバ計算機とを含み、
前記サーバ計算機は、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置、前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集する手段と、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する手段と、前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する手段とを有することを特徴とするコンピュータシステム。
前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する１つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項４記載のコンピュータシステム。
前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項５記載のコンピュータシステム。
ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機であって、
前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置、前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集する手段と、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する手段と、前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する手段とを有することを特徴とするサーバ計算機。
前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する１つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項７記載のサーバ計算機。
前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項８記載のサーバ計算機。
ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機であって、
前記データマッピング情報の一部情報を保持する前記計算装置、前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記一部情報を収集する手段と、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する手段と、前記データマッピング経路上に存在する部位であってその識別子が前記管理テーブルに格納されている部位のいずれかについて障害のあった部位の識別子を伴う障害報告を受けたとき、障害のあった当該部位の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する手段とを有することを特徴とするサーバ計算機。
前記データマッピング情報は、前記ファイルとこれを格納する実ボリュームとの対応関係、前記実ボリュームとこれを格納する１つ以上の仮想ボリュームとの対応関係、前記仮想ボリュームと前記仮想ボリューム上のデータを分散して格納する論理ディスク装置との対応関係、および前記論理ディスク装置と前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置との対応関係についての情報を含み、
前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項１０記載のサーバ計算機。
前記サーバ計算機は、さらに前記障害によって影響を受けると特定された前記ジョブについて、あらかじめジョブ実行制御テーブルに設定された処理方法によって処理を行う手段を有することを特徴とする請求項１０記載のサーバ計算機。
前記サーバ計算機は、さらにあらかじめ前記ジョブ実行制御テーブルに設定された管理者の確認の要否の情報に従い、管理者から承諾を指示されたとき前記処理方法によって処理を行う手段を有することを特徴とする請求項１２記載のサーバ計算機。
ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機で実行されるプログラムであって、
前記サーバ計算機に、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置、前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集する機能、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する機能、および前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する機能を実現させるためのプログラム。
前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する１つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項１４記載のプログラム。
前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項１５記載のプログラム。
ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機で実行されるプログラムあって、
前記サーバ計算機に、前記データマッピング情報の一部情報を保持する前記計算装置、前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記一部情報を収集する機能、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する機能、および前記データマッピング経路上に存在する部位であってその識別子が前記管理テーブルに格納されている部位のいずれかについて障害のあった部位の識別子を伴う障害報告を受けたとき、障害のあった当該部位の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する機能を実現させるためのプログラム。
前記データマッピング情報は、前記ファイルとこれを格納する実ボリュームとの対応関係、前記実ボリュームとこれを格納する１つ以上の仮想ボリュームとの対応関係、前記仮想ボリュームと前記仮想ボリューム上のデータを分散して格納する論理ディスク装置との対応関係、および前記論理ディスク装置と前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置との対応関係についての情報を含み、
前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項１７記載のプログラム。
さらに前記サーバ計算機に、前記障害によって影響を受けると特定された前記ジョブについて、あらかじめジョブ実行制御テーブルに設定された処理方法によって処理を行う機能を実現させるための請求項１７記載のプログラム。
さらに前記サーバ計算機に、さらにあらかじめ前記ジョブ実行制御テーブルに設定された管理者の確認の要否の情報に従い、管理者から承諾を指示されたとき前記処理方法によって処理を行う機能を実現させるための請求項１９記載のプログラム。