JP4294353B2 - ジョブ管理機能を有するストレージ系障害管理方法及び装置 - Google Patents

ジョブ管理機能を有するストレージ系障害管理方法及び装置 Download PDF

Info

Publication number
JP4294353B2
JP4294353B2 JP2003090518A JP2003090518A JP4294353B2 JP 4294353 B2 JP4294353 B2 JP 4294353B2 JP 2003090518 A JP2003090518 A JP 2003090518A JP 2003090518 A JP2003090518 A JP 2003090518A JP 4294353 B2 JP4294353 B2 JP 4294353B2
Authority
JP
Japan
Prior art keywords
job
data
volume
file
data mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003090518A
Other languages
English (en)
Other versions
JP2004295811A (ja
Inventor
直一 根本
和彦 茂木
記史 西川
信男 河村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003090518A priority Critical patent/JP4294353B2/ja
Priority to US10/649,665 priority patent/US7124139B2/en
Publication of JP2004295811A publication Critical patent/JP2004295811A/ja
Priority to US11/247,160 priority patent/US7509331B2/en
Priority to US11/247,210 priority patent/US7552138B2/en
Application granted granted Critical
Publication of JP4294353B2 publication Critical patent/JP4294353B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、計算機システムに用いられるストレージシステムに係わり、特にストレージ系障害の管理技術に関する。
【0002】
【従来の技術】
(1)SAN(Storage Area Network)について
近年、各サーバ計算機からストレージを切り離し、ストレージ系を集約化したストレージ入出力専用のネットワークであるSANが浸透しつつある。SANの導入により、高速なデータ転送、ストレージシステムの高い拡張性と可用性およびストレージ資源の有効利用が実現可能となった。
(2)SAN管理マネージャについて
SANで集約されたストレージ装置を無停止で運用するためには、それぞれの機種の運用方法に精通した管理者が必要であり、管理コストが高くなる。ストレージ装置の運用管理においては、特に日々の運用の基本となるSANに接続される各装置(サーバ装置・仮想化スイッチ装置・ストレージ装置など)の稼動状況の監視が重要である。稼動状況を監視するためのソフトウェアを、以降、管理マネージャとよぶ。管理マネージャは、ストレージシステムの構成管理機能と障害監視機能の二大機能を持つ。構成管理機能とは、SANを構成する各装置に存在する管理エージェントから情報を定期的に取得し、取得した情報からSANの物理的な接続関係(トポロジ)を検出し、常に最新のトポロジを視覚化して管理者に提供する機能である。障害監視機能とは、各装置が発行するハードウエア障害や性能低下などのイベント通知や、各装置に存在する管理エージェントから定期的に取得する装置情報に基づき、障害や性能低下等のイベントの発生を把握し、そのイベントを管理者に通知する機能である。これら二つの機能により、ユーザは、管理マネージャを用いて装置の稼動状況を一元的に管理でき、管理者の少人数化などによって運用コストの削減を図ることができる。
(3)データベース、ストレージ間のマッピング技術について
データベースとストレージ間のマッピング技術を使用して性能解析を行う技術が特許文献1に開示されている。このマッピング技術をSANに導入することにより、データベース又はファイル単位に性能解析を行うことができる。
【0003】
なおSANに関する技術として関連するものには、米国特許第6,035,306号などがある。
【0004】
【特許文献1】
米国特許第6,035,306号
【0005】
【発明が解決しようとする課題】
データベース管理システム(以下DBMSと呼ぶ)は、大規模なデータを格納するストレージ装置をデータベースとして使用する。DBMSの処理は、高いスループットと高信頼性が求められる。データベースを格納する記憶装置としてストレージ装置を使用することにより、高速かつ高信頼な処理を実行し続けることが可能である。ジョブにより呼び出されるDBMSは、ストレージ装置における複数の物理ディスク装置を意識することなく使用する。仮想化装置は、複数の論理ディスクを1つの仮想ボリュームとして提供する。DBMSがマッピング技術を使用して、バーチャリゼーション機能を持つ仮想化装置を含めたストレージ装置の構成を把握し、その管理を行うことは困難である。また仮想化装置を含むストレージ系に障害が発生したとき、特定の装置についての障害情報だけではどのジョブに影響を与えるものであるのか区別することができない。このような障害に際しては、人手による調査が必要である。また障害によって影響を受けるジョブの実行制御をする処理は、人手を要するものであり、高コストの要因となっている。
【0006】
本発明の目的は、ストレージ系のいずれかの部位に障害が発生したとき、この障害によって影響を受けるジョブを特定し、これらジョブの実行制御をする技術を提供することにある。
【0007】
【課題を解決するための手段】
本発明は、特定のジョブがアクセスするデータベース上の特定のテーブルに始まり、このテーブルを格納するファイル、このファイルを格納する論理的なボリュームを経てそのボリューム上のデータを分散して格納する物理ディスク装置に至るまでのデータマッピング情報に基づいてデータマッピング経路上に存在するいずれかの部位の障害によって影響を受けるジョブを特定する障害管理技術を特徴とする。
【0008】
また本発明は、障害によって影響を受けると特定されたジョブについて、あらかじめジョブ実行制御テーブルに設定された処理方法に従って処理を行う技術を特徴とする。
【0009】
【発明の実施の形態】
以下に、図面を参照しながら本発明の実施形態について説明する。なおこれにより本発明が限定されるものではない。
(1)実施例1:各装置間のボリュームマッピングの構成管理と障害監視
本実施形態のコンピュータシステムは、管理サーバ装置が、仮想化スイッチ装置、DBMSサーバ装置及びストレージ装置と専用の管理ネットワークにより接続されている。DBMSサーバ装置、仮想化スイッチ装置及びストレージ装置の各々は、管理エージェントを具備する。管理サーバ装置は、これらの管理エージェントから各データマッピング情報を収集し、ジョブ単位でのデータマッピングの構成を管理する。また管理サーバ装置は、SNMP(Simple Network Management Protocol)の障害通知メッセージを用いて障害の発生した装置から受け取るメッセージとデータマッピング情報から、障害の発生によるジョブへの影響を管理者に対して通知する。
【0010】
まずSANの構成例について説明する。図1から図5は、SAN及びSANに接続される各装置の構成例を示す。図6は、データマッピングの階層構成を示す。図7から図16は、DBMSサーバ装置、仮想化スイッチ装置及びストレージ装置の装置内に具備された管理情報を示す。
【0011】
図1は、システムの構成例を示す。本実施形態のコンピュータシステムは、DBMSサーバ装置1010、仮想化スイッチ装置1020、ストレージ装置1030及び管理サーバ装置1000から構成される。1台以上のDBMSサーバ装置1010(以下DBMSサーバと略称する)は、DBMS1011、DBMSサーバ管理エージェント1012及びボリュームマネージャ1013を有する。1台以上の仮想化スイッチ装置1020(以下スイッチと略称する)は、スイッチ管理エージェント1021を有する。1台以上のストレージ装置1030は、ストレージ装置管理エージェント1031を有する。1台の管理サーバ装置1000(以下管理サーバと略称する)は、管理サーバ管理マネージャ1001と障害管理マネージャ1002を有する。またDBMSサーバ1010とは別に、管理用ネットワーク1050に接続されDBMSサーバ1010を利用するアプリケーションサーバあるいはクライアント端末を有してもかまわない。あるいはDBMSサーバ1010自体をアプリケーションサーバと呼んでもよい。図1のシステムは、DBMSサーバ1010、スイッチ1020およびストレージ装置1030がそれぞれ2台ずつ記載されている。しかし以降の説明は、その都合上、1台のDBMSサーバ1010、1台のスイッチ1020及び1台のストレージ装置1030がファイバチャネル1040(以下FCと略称する)を介して相互に接続されているものとして説明する。
【0012】
DBMSサーバ1010は、ストレージ装置1030をデータベースとして使用するDBMS1011、ボリュームを管理するボリュームマネージャ1013及びDBMSサーバ1010内のボリュームの構成を管理するDBMSサーバ管理エージェント1012を有する。スイッチ1020は、当該装置内の仮想ボリュームの構成を管理するスイッチ管理エージェント1021を有する。ストレージ装置1030は、スイッチ1020の仮想ボリュームとストレージ装置の物理ディスク1032間の構成を管理するストレージ装置管理エージェント1031を有している。
【0013】
管理サーバ1000は、管理用ネットワーク1050を介してDBMSサーバ1010、スイッチ1020及びストレージ装置1030に接続されている。管理サーバ1000の管理サーバ管理マネージャ1001は、管理用ネットワーク1050を介してDBMSサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031と通信できる。
【0014】
管理サーバ管理マネージャ1001は、DBMSサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031から各装置のマッピング情報を取得し、後述する一元的な管理処理を行うことにより、SANにおける仮想ボリューム、実ボリューム、論理ディスク及び物理ディスクの構成を管理する。
【0015】
図2は、管理サーバ1000の構成例を示す。管理サーバ1000は、プロセッサ2002、主記憶2005、管理用ネットワーク1050に接続する管理I/F(インタフェース)2001、出力装置2003及び実トポロジリポジトリ2004を有する。これらの装置は、内部バス等の通信路2006を介して相互に接続される。出力装置2003は、管理サーバ管理マネージャ1001によって実行された処理の実行結果を出力する。実トポロジリポジトリ2004は、管理テーブルデータ等を格納する。主記憶2005には、管理サーバ管理マネージャ1001、障害管理マネージャ1002、管理サーバ管理テーブル2011及びイベント辞書2012が格納されている。管理サーバ管理マネージャ1001は、プロセッサ2002によって実行されるプログラムであり、各装置からのデータマッピング情報と障害通知メッセージを受け取る。障害管理マネージャ1002は、障害管理を行うプログラムである。管理サーバ管理テーブル2011は、データマッピング情報を保持するテーブルである。イベント辞書2012は、障害検出メッセージを解釈するための辞書情報を格納する。
【0016】
図3は、DBMSサーバ1010の構成例を示す図である。DBMSサーバ1010は、プロセッサ3002、主記憶3005、管理用ネットワーク1050に接続する管理I/F3001及びFC1040に接続する一つ以上のデータI/F3004を有する。これらの装置は、内部バス等の通信路3006を介して相互に接続される。主記憶3005には、実行中のDBMS1011、ボリュームを管理するボリュームマネージャ1013、DBMSサーバI/Fテーブル3012、DBMSサーバ管理テーブル3011及びDBMSサーバ管理エージェント1012が格納されている。DBMSサーバI/Fテーブル3012は、FC1040へのI/Fを管理する。DBMSサーバ管理テーブル3011は、ジョブが操作しているDBMS1011管理下のテーブルやボリュームマネージャ管理情報をまとめたテーブルである。DBMSサーバ管理エージェント1012は、DBMSサーバ管理テーブル3011を管理するプログラムである。
【0017】
ボリュームマネージャ1013は、スイッチ1020が提供する仮想ボリュームを認識し、1つ以上の仮想ボリュームをまとめて1つの仮想的な実ボリュームとしてDBMSサーバ1010に提供する。ボリュームマネージャ1013は、プロセッサ3002によって実行されるプログラムである。また、図3には記載されていないが、DBMS1011は、ファイルシステムを経由してからボリュームマネージャ1013にアクセスする。ファイルシステムは、実ボリューム上のファイルを管理する。
【0018】
図4は、スイッチ1020の構成例を示す。スイッチ1020は、コントローラ4003、記憶領域4004、管理用ネットワーク1050に接続する管理I/F4001及びSANに接続する複数のデータI/F4002を有する。記憶領域4004、管理I/F4001及びデータI/F4002は、コントローラ4003を介して相互に接続される。コントローラ4003は、SANのFC1040を介して送受信されるデータのスイッチング及び仮想ストレージ機能を実現する。記憶領域4004には、スイッチ管理エージェント1021、ボリューム仮想化プログラム4011、FC接続管理テーブル4012、スイッチI/Fテーブル4013及びスイッチ管理テーブル4014が格納されている。スイッチ管理エージェント1021は、管理サーバ管理マネージャ1001と通信してスイッチ1020の管理情報を送受信し、スイッチ管理テーブル4014を管理するためのプログラムである。ボリューム仮想化プログラム4011は、記憶領域のバーチャリゼーションを実現するためのプログラムである。FC接続管理テーブル4012は、SANを介したスイッチ1020、DBMSサーバ1010及びストレージ装置1030間の接続関係を示す情報を格納する。スイッチI/Fテーブル4013は、データI/F4002についての管理情報を保持する。スイッチ管理テーブル4014は、仮想ボリュームについての管理情報を保持する。
【0019】
ボリューム仮想化プログラム4011は、スイッチ管理テーブル4014を参照してDBMSサーバ1010から受け取った入出力要求に含まれる仮想ボリュームの識別子を論理ディスク装置の識別子に変換する。
【0020】
なお本実施例ではスイッチ1020は6個のデータI/F4002(S1、S2、S3、S4、S5、S6)を有する構成としているが、データI/F4002の個数は1つ以上であればいくつでもよい。この例では識別子S1、S2、S3によって示されるデータI/F4002は、DBMSサーバ1010と接続される。また識別子S4、S5、S6によって示されるデータI/F4002は、ストレージ装置1030と接続される。
【0021】
図5は、ストレージ装置1030の詳細な構成例を示す。ストレージ装置1030は、ストレージ装置1030内の制御を行うコントローラ5003、記憶領域5004、管理用ネットワーク1050に接続する管理I/F5001、SANのFC1040に接続する一つ以上のデータI/F5002及び物理ディスク1032を有する。記憶領域5004、管理I/F5001及びデータI/F5002は、コントローラ5003を介して相互に接続される。物理ディスク1032は、DBMSサーバ1010およびスイッチ1020に提供する記憶領域を構成する1つ以上の物理的なディスク装置である。
【0022】
記憶領域5004には、ストレージ装置管理エージェント1031、ストレージ装置I/Fテーブル5011及びストレージ装置管理テーブル5012が格納されている。ストレージ装置管理エージェント1031は、管理サーバ管理マネージャ1001と通信してストレージ装置1030の管理情報を送受信し、ストレージ装置管理テーブル5012を管理するためのプログラムである。ストレージ装置I/Fテーブル5011は、データI/F5002についての管理情報を保持する。ストレージ装置管理テーブル5012は、物理ディスク1032についての管理情報を保持する。
【0023】
なお本実施例ではストレージ装置1030は2個のデータI/F5002(T1、T2)と11個の物理ディスク1032(SS1、SS2、...、SS11)を有するが、データI/F5002及び物理ディスク1032の個数は1つ以上であれば幾つであってもよい。
【0024】
図6は、データマッピングの階層構成の一例を示す。DBMSサーバ1010は2つのジョブ6010、それらのジョブ6010が操作する3つのテーブル6020、ファイルシステム6101上の2つのファイル6030及びボリュームマネージャ1013が管理する3つの実ボリューム6040とを有する。スイッチ1020は、3つの仮想ボリューム6050を有する。ストレージ装置1030は、5つの論理ディスク装置6060と11個の物理ディクス装置1032を有する。DBMSサーバ1010上のテーブルデータ6020は、ファイルシステム6101上のファイル6030に格納される。ファイル6030は、ボリュームマネージャ1013上の実ボリューム6040に分散して格納されている。その実ボリューム6040は、スイッチ1020の仮想ボリューム6050に格納される。1つの実ボリューム6040が複数の仮想ボリューム6050に分散して格納されてもよい。仮想ボリューム6050は、ストレージ装置1030の論理ディスク装置6060を介して物理ディスク装置1032へと分散して格納されている。
【0025】
なお本実施例では、データマッピング全体のうち、主として実ボリューム6040以下の階層構成に注目したデータマッピングを特にボリュームマッピングと呼んでいる。
【0026】
図6に示すように、特定のジョブに始まり、論理的なボリュームを経て特定の物理装置に至るデータマッピングの経路を特定することができる。このデータマッピング経路上には、装置と装置とを接続する特定のインタフェース部又は特定の物理ディスクが存在する。
【0027】
図6の例では、ジョブ6010はDBMSサーバ1010内に存在しているが、図示しないアプリケーションサーバ、クライアント端末などの計算装置上に存在するジョブであってもよい。これらのジョブ6010は、所在する装置上で稼動するOS(オペレーティングシステム)及びそのジョブ管理機能の制御の下に実行される。なお本例のデータマッピングの階層構成は、より縮退された階層構成であってもよい。例えばDBMS1011がなく、ジョブ6010が直接ファイル6030にアクセスするような構成でもよい。またスイッチ1020がなく、実ボリューム6040が直接論理ディスク装置6060にボリュームマッピングされるような構成でもよい。あるいはスイッチ1020及び論理ディスク装置6060がなく、実ボリューム6040が直接物理ディスク装置1032にボリュームマッピングされるような構成でもよい。
【0028】
図7は、DBMSサーバ1010が保持するDBMSサーバI/Fテーブル3012の一例を示す。DBMSサーバI/Fテーブル3012のDB−I/F欄7010は、SANへの接続I/F識別子を格納し、名前欄7020は各I/F識別子に与えられる名称を格納する。
【0029】
図8は、DBMSサーバ1010が保持するDBMSサーバ管理テーブル3011の一例を示す。本テーブルのDBMS−ID欄8010は、管理サーバ1000が一意に識別ができるDBMS識別子を格納する。ジョブID欄8020はジョブ識別子を格納する。テーブル名欄8030はDBMS1010が操作しているテーブルの識別子を格納する。ファイル名欄8040はテーブル6020が格納されているファイル6030のファイル名を格納する。実ボリューム名欄8050は、そのファイル6030が格納されている実ボリューム6040の識別子を格納する。DB−I/F欄8060はDBMSサーバ1010が保持するSAN接続のI/F識別子を格納する。SCSI−ID欄8070は接続先のI/F識別子を格納する。LUN欄8080はSCSIターゲットデバイス内のボリュームにアクセスするための論理装置番号(LUN)の識別子を格納する。
【0030】
図9は、スイッチ1020が保持するスイッチI/Fテーブル4013の一例を示す。本テーブルのデータI/F−ID欄9010はスイッチ1020が保持するI/Fの識別子を格納する。仮想データI/F−ID欄9020は、DBMSサーバ装置1010にデータI/F4002の識別子として認識させている識別子を格納する。SCSI−ID欄9030は、仮想ボリューム6050に割り当てたSCSI IDの識別子を格納する。
【0031】
図10は、スイッチ1020が保持するFC接続管理テーブル4012の一例を示す。本テーブルのデータI/F欄10010はスイッチ1020が保持するSAN接続I/Fの識別子を格納する。スイッチ側名前欄10020は、SAN接続の各I/F4002に割り当てられている名前を格納する。接続先名前欄10030はSAN接続の各I/Fが接続されている接続先の名前を格納する。
【0032】
図11は、スイッチ1020が保持するスイッチ管理テーブル4014の一例を示す。まずスイッチ管理テーブル4014の仮想ボリューム欄11100について説明する。仮想データI/F−ID欄11110は仮想ボリュームI/Fの識別子を格納する。SCSI−ID欄11120は仮想ボリュームに割り当てられたSCSI識別子を格納する。LUN欄11130は仮想データI/Fを介して仮想ボリューム6050にアクセスするためのSCSIのLUNを格納する。仮想ボリュームID欄11140は、仮想データI/Fを介してアクセスされる仮想ボリューム6050に対し任意に割り当てた識別子を格納する。
【0033】
次に論理ディスク欄11200について説明する。実データI/F−ID欄11210は、仮想ボリューム6050を構成している論理ディスク6060にアクセスするために用いられるスイッチ1020のI/Fの識別子を格納する。SCSI−ID欄11220は、実データI/Fの接続先であるSCSIターゲットデバイスの識別番号を格納する。LUN欄11230は、実データI/Fを介して論理ディスク6060にアクセスするとき用いられるSCSIのLUNを格納する。
【0034】
図12は、ストレージ装置1030が保持するストレージ装置I/Fテーブル5011の一例を示す。本テーブルのデータI/F−ID欄12010は、ストレージ装置1030が保持するSAN接続のI/Fの識別子を格納する。ストレージ側名前欄12020はSAN接続のI/Fに割り当てられている名前を格納する。仮想データI/FID欄12030は、ストレージ装置1030上の物理ディスク1032にアクセスするために用いられるデータI/F5002の識別子を格納する。SCSI ID欄12040は、実データI/Fの接続先であるSCSIターゲットデバイスのLUNを格納する。
【0035】
図13は、ストレージ装置1030が保持するストレージ装置管理テーブル5012の一例を示す。まずストレージ装置管理テーブル5012の論理ディスク欄13100について説明する。仮想データI/F ID欄13110は、ストレージ装置1030上の物理ディスク1032にアクセスするために用いられるデータI/F5002の識別子を格納する。SCSI−ID欄13120は、実データI/Fの接続先であるSCSIターゲットデバイスの識別番号を格納する。LUN欄13130は物理ディスク1032にアクセスするためのSCSIのLUNを格納する。論理ディスクID欄13140は、仮想データI/Fを介してアクセスされる論理ディスク6060に対し任意に割り当てた識別子を格納する。
【0036】
もう一方の物理ディスク欄13200内の物理ディスクID欄13210は、ストレージ装置1030が保持する物理ディスクの識別子を格納する。SCSI ID欄13220は、実データI/Fの接続先であるSCSIターゲットデバイスの識別番号を格納する。SCSI LUN欄13230は、実データI/F5002を介してアクセスされる論理ディスク6060についてSCSIのLUNを格納する。
【0037】
図14は、管理サーバ1000が保持する管理サーバ管理テーブル2011の一例を示す。管理サーバ管理テーブル2011は、図7から図13に至るDBMSサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031が管理する各テーブルの情報について後述する処理を施した結果を格納する。
【0038】
まずDBMSサーバ欄14100について説明する。DBMS−ID欄14101は管理サーバ1000が一意に識別が出来るDBMS識別子を格納する。ジョブID欄14102はジョブ識別子を格納する。テーブル名欄14103はDBMS1010が操作しているテーブルの識別子を格納する。ファイル名欄14104は、DBMS1010が操作しているテーブル6020に対応してそのテーブル6020を格納するファイル6030のファイル名を格納する。ボリュームマネージャ欄14105は、そのファイル6030が格納されているボリュームの名称を格納する。DB−I/F欄14105は、DBMSサーバ1010が保持するSAN接続のI/F識別子を格納する。
【0039】
次にスイッチ欄14200について説明する。スイッチI/F欄14201はスイッチ1020が保持するSAN接続I/Fの識別子を格納する。仮想ボリューム欄14210内の仮想ボリュームID欄14211は仮想データI/Fを介してアクセスされる仮想ボリューム6050に対し任意に割り当てた識別子を格納する。仮想データI/F−ID欄14212は仮想ボリュームI/Fの識別子を格納する。SCSI−ID欄14213は仮想ボリュームに割り当てられたSCSI識別子を格納する。LUN欄14214は仮想データI/Fを介してアクセスされる仮想ボリューム6050についてそのSCSIのLUNを格納する。
【0040】
次にストレージ装置実ボリューム欄14220について説明する。実データI/F−ID欄14221は、仮想ボリューム6050を構成している論理ディスク6060にアクセスするために用いられるスイッチ1020のI/Fの識別子を格納する。SCSI−ID欄14222は実データI/Fの接続先であるSCSIターゲットデバイスの識別番号を格納する。LUN欄14223は実データI/Fを介してアクセスされる論理ディスク装置6060についてそのSCSIのLUNを格納する。
【0041】
次にストレージ装置欄14300について説明する。データI/F ID欄14301はストレージ装置1030が保持するSAN接続のI/Fの識別子を格納する。論理ディスク欄14310内について説明する。仮想データI/F ID欄14311は、ストレージ装置1030上の物理ディスク1032にアクセスするために用いられるデータI/F5002の識別子を格納する。SCSI−ID欄14312は、実データI/Fの接続先であるSCSIターゲットデバイスの識別番号を格納する。LUN欄14313は物理ディスク1032にアクセスするためのSCSI−LUNを格納する。論理ディスクID欄14314は、仮想データI/Fを介してアクセスされる論理ディスク6060に対し任意に割り当てた識別子を格納する。
【0042】
次に物理ディスク欄14320について説明する。物理ディスクID欄14321はストレージ装置1030が保持する物理ディスクの識別子を格納する。SCSI ID欄14322は、実データI/Fの接続先であるSCSIターゲットデバイスの識別番号を格納する。SCSI LUN欄14323は実データI/F5002を介してアクセスされる論理ディスク装置6060についてそのSCSI−LUNを格納する。
【0043】
この図14に示した管理サーバ管理テーブル2011によって、ジョブ6010ごとにDBMSサーバ1010内のどのテーブル6020を参照し、どのファイル6030、ボリューム6040を使用して、またそれらがスイッチ1020においてどのような仮想ボリューム6050を経てストレージ装置1030上の物理ディスク1032にアクセスを行っているのかを把握することができる。本テーブルは、DBMSサーバ管理テーブル3011、スイッチ管理テーブル4014及びストレージ装置管理テーブル5012の変化の度に更新される。すなわち管理サーバ1000は、管理サーバ管理テーブル2011を通して常に各装置のデータマッピングに関する最新状態を監視しているものとする。
【0044】
図15に管理サーバ1000が保持するイベント辞書2012の一例を示す。イベント辞書2012の各行は、障害コード15010に対して対応する障害/復旧部位15020、その識別子15030及び障害ごとに付与される障害管理ID15040を有する。識別子15030は、障害が発生した装置より管理サーバ1000へ送信される障害通知メッセージ内のバリアブル・バインディングズ・フィールド16009の障害コードを示している。障害管理ID15040は、障害発生から障害復旧までその障害を管理するために用いられる識別子である。
【0045】
図16に、SNMPプロトコルの障害通知メッセージ(以下Trapメッセージと略称する)のフォーマットとそのメッセージの一例を示す。現在のSAN管理ソフトによる障害監視機能は、Trapメッセージを用いることが多く、本実施例においてはこのTrapメッセージを用いて障害通知を行っている。
【0046】
図16(a)に示すSNMPプロトコルのTrapメッセージフォーマットは、図示するフィールドから構成される。コミュニティー名16002は、メッセージ送信先を示す。PDU(Protocol Data Unit)タイプ16003は、メッセージの種類を示す。エンタプライズ16004は送信元装置のベンダ名を示す。エージェント・アドレス16005は送信先IPアドレスを示す。ジェネリック・トラップ・タイプ16006は、Trapメッセージの種別を示す。タイムスタンプ16008はメッセージの送信時刻を示す。バリアブル・バインディングズのフィールド16009はメッセージ内容を格納する。
【0047】
PDUタイプ・フィールド16003の値が"4"のとき、本メッセージはTrapメッセージであると判断される。ジェネリック・トラップ・タイプフィールド16006の値が"6"のとき、Trapメッセージは送信元装置ベンダ固有の定義に基づくTrapメッセージと判断される。このとき各ベンダによって定義されたスペシフィック・トラップ・タイプフィールド16007とバリアブル・バインディングズ・フィールド16009(図中下線部)の内容にもとづきTrapメッセージを解釈する必要がある。
【0048】
図16(b)に示すTrapメッセージは、ストレージ装置1030のハードウエア障害を通知するために、管理サーバ1000の障害管理マネージャ1002に対して送信されるTrapメッセージの一例である。この例は、PDUタイプ・フィールド16103の値が"4"、ジェネリック・トラップ・タイプフィールド16106の値が"6"であるために本メッセージはTrapメッセージであり、送信元装置ベンダ固有の定義に基づくTrapメッセージであると判断される。
【0049】
またスペシフィック・トラップ・タイプ16107に障害種別、バリアブル・バインディングズ16109に障害発生部位を示す障害コードを格納するよう管理者が定義している場合、本メッセージは、障害コード"30c1"の部位にハードウエア障害が生じている旨を示している。また本メッセージは、障害が発生した場合においてのみ障害発生装置から管理サーバ1000に対して通知するのではなく、障害の発生した装置において障害が復旧となった場合についてもTrapメッセージを用いて管理サーバ1000に通知されるものとする。その場合については、バリアブル・バインディングズ16109に障害復旧部位を示す障害コードを格納する。
【0050】
図17は、管理サーバ1000において実行されるデータマッピング処理の処理手順を示すフローチャートである。この処理は、DBMSサーバ1010、スイッチ1020及びストレージ装置1030の各装置からの情報を用いて各ジョブ6010ごとにデータマッピングを実行する。管理サーバ管理マネージャ1001は、メモリ上に各装置の管理情報をコピーする領域を用意する(ステップ17010)。次に管理サーバ管理マネージャ1001は、管理ネットワーク1050を介してDBMSサーバ管理エージェント1012、スイッチ管理エージェント1021及びストレージ装置管理エージェント1031と通信を行い、図8から図13に至る各装置の管理情報をコピーする(ステップ17020)。次に管理サーバ管理マネージャ1001は、ステップ17020でコピーした各装置の管理情報を実トポロジリポジトリ2004に格納する(ステップ17030)。次に管理サーバ管理マネージャ1001は、ステップ17020でコピーした情報を基にして図14に示す管理サーバ1000独自の管理サーバ管理テーブル2011を作成する(ステップ17040)。次に管理サーバ管理マネージャ1001は、作成した管理サーバ管理テーブル2011を管理サーバ1000の保持する実トポロジリポジトリ2004に格納する(ステップ17050)。
【0051】
DBMSサーバ1010、スイッチ1020及びストレージ装置1030の各装置から得られた図8から図13の管理情報は、各装置の状態により常に変化する。管理サーバ1000は、これらの管理情報が変化するごとに図17に示す処理手順に従って管理サーバ管理テーブル2011を更新する。
【0052】
図18は、管理サーバ管理テーブル2011を作成する処理ステップ17040の詳細を展開して示すフローチャートである。管理サーバ管理マネージャ1001は、管理ネットワーク1050を介してDBMSサーバ1010、スイッチ1020及びストレージ装置1030と通信を行い、各装置のDBMSサーバ管理テーブル3011、スイッチ管理テーブル4014及びストレージ装置管理テーブル5012を基にして管理サーバ管理テーブル2011を作成する。管理サーバ管理マネージャ1001は、作成する管理サーバ管理テーブル2011のすべてのエントリについて以下の処理を実行する。
【0053】
まず管理サーバ管理マネージャ1001は、メモリ上に作成する管理サーバ管理テーブル2011の領域を用意する(ステップ18010)。次に管理サーバ管理テーブル2011の各エントリについて以下の処理を実行する(ステップ18020)。DBMSサーバ欄14100の各エントリには、DBMSサーバ1010のDBMSサーバ管理エージェント1012との通信により得たDBMSサーバ管理テーブル3011のエントリをコピーし、登録する(ステップ18030)。登録されるエントリは、DBMS ID8010、ジョブID8020、テーブル名8030、ファイル名8040、実ボリューム名8050及びDB I/F8060である。
【0054】
次に管理サーバ管理マネージャ1001は、DBMSサーバ管理テーブル3011のDB−I/F欄8060の値をキーとして、DBMSサーバI/Fテーブル3012を検索し、DB−I/F欄の値が一致する行の名前欄7020の識別子を検出する(ステップ18040)。次に検出した名前欄7020の識別子をキーとしてFC接続管理テーブル4012を検索し、名前欄7020の識別子が一致する行のデータI/F欄10010の識別子を検出する。管理サーバ管理マネージャ1001は、管理サーバ管理テーブル2011内のスイッチ欄14200のスイッチI/F14201エントリにDBMSサーバ欄14100内のDB I/F欄14106と対応するように検出したデータI/F欄の10010の識別子をコピーし、登録する(ステップ18050)。
【0055】
次にステップ18050で検出したデータI/F10010の識別子をキーとして、スイッチI/Fテーブル4013を検索し、データI/Fの識別子が一致する仮想データI/F ID9020とSCSI ID9030を検出し、当該管理サーバ管理テーブル2011のスイッチ欄14200内の仮想ボリューム欄14210の仮想データI/F ID14212とSCSI ID14213エントリへコピーする(ステップ18060)。
【0056】
次に管理サーバ管理マネージャ1001は、検出した仮想データI/F ID9020とSCSI ID9030をキーとして、スイッチ管理テーブル4014を検索し、キー値の仮想データI/F ID9020とSCSI ID9030と一致する仮想ボリューム欄11100内の仮想ボリュームID11140、論理ディスク欄11200内の実データI/F ID11210、SCSI ID11220及びLUN識別子11230を検出する。次に管理サーバ管理マネージャ1001は、検出した各々のエントリを管理サーバ管理テーブル2011のスイッチ欄14200内の仮想ボリューム欄14210の仮想ボリュームID14211およびLUN欄14214と、ストレージ装置実ボリューム欄14220内の実データI/F ID14221、SCSI ID14222およびLUN欄14223の各欄へコピーする(ステップ18070)。
【0057】
次にステップ18070で検出した実データI/F ID11210をキーとしてFC接続テーブル4012を検索し、キー値と一致する接続先名前10030の識別子を抽出する(ステップ18080)。次にステップ18080で抽出した接続先名前10030の識別子をキーとしてストレージ装置I/Fテーブル5011を検索し、キー値と一致するストレージ装置1030のストレージ装置I/Fテーブル5011内のデータI/F ID12010エントリ、仮想データI/F ID12030エントリ及びSCSI ID12040エントリを検出する。検出した各エントリを管理サーバ管理テーブル2011のストレージ装置欄14300のデータI/F IDエントリ14301および論理ディスク欄14310内の仮想データI/F ID14311エントリへコピーする(ステップ18090)。
【0058】
次に管理サーバ管理マネージャ1001は、ステップ18090にて抽出した仮想データI/F ID12030とSCSI ID12040の各エントリをキーとしてストレージ装置管理テーブル5012を検索し、論理ディスク欄13100内のLUN13130および論理ディスクID13140の各エントリと、物理ディスク欄13200内の物理ディスクID13210、SCSI ID13220およびSCSI LUN13230の各エントリを検出する。管理サーバ管理マネージャ1001は、検出した各エントリを管理サーバ管理テーブル2011のストレージ装置欄14300の論理ディスク欄14310内のSCSI ID14312、LUN14313および論理ディスクID14314の各エントリと、物理ディスク欄14320内の物理ディスクID14321、SCSI ID14322およびSCSI LUN14323の各エントリへコピーする(ステップ18100)。
【0059】
最後に管理サーバ管理マネージャ1001は、管理サーバ管理テーブル2011の全てのエントリが登録されているか判定し、登録完了していないエントリがある場合にはステップ18020に戻る(ステップ18110)。以上のステップにより管理サーバ管理テーブル2011作成処理が終了する。図14は、本処理により実行された管理サーバ管理テーブル2011の一部を示している。
【0060】
図19は、管理サーバ1000において実行される障害検出処理、及び管理者に対して障害により影響のあるジョブが存在する場合の内容通知処理を示すフローチャートである。管理サーバ1000は、障害発生装置からのTrapメッセージを受信する(ステップ19010)。すなわちDBMSサーバ1010、スイッチ1020およびストレージ装置1030の各装置において発生した障害内容は、SNMPプロトコルのTrapメッセージのバリアブル・バインディングズ16009内の障害コードとして管理サーバ1000へと伝えられる。障害管理マネージャ1002は、障害発生装置より送信されたTrapメッセージを受け取った後に、メッセージのバリアブル・バインディングズ16009内のコードをキーとして、自身が保持するイベント辞書2012内を検索し、識別子15030を抽出し、どの装置の障害であるのか、またその障害部位を特定する処理を行う(ステップ19020)。障害部位は、管理サーバ管理テーブル2011に登録されているいずれかの装置のインタフェース部又は物理ディスク装置を含む。
【0061】
次に障害管理マネージャ1002は、特定した障害部位の識別子15030をキーとして管理サーバ管理テーブル2011を検索し、障害通知に必要な情報を抽出する(ステップ19030)。必要な情報は、障害部位によって異なる。抽出された情報は、キー値の障害管理ID15040を用いて抽出した情報と合わせて障害復旧まで保持される。図20は、このようにして抽出され保存される情報の一例を示す。
【0062】
ステップ19030で検出した結果が、実行中の各ジョブ6010に対して影響のある障害部位であるのか、そうでないのかについて、障害管理マネージャ1002は、検出した結果から判別を行う(ステップ19040)。影響があるジョブが存在すると判断された場合には、抽出した情報から表示に必要な情報を検出し、表示処理を行う(ステップ19050)。
【0063】
ステップ19030での抽出結果の一例を図20に示す。図20は、管理サーバ1000がTrapメッセージより、イベント辞書2012の障害コード15010“30c1”を検出した場合の抽出結果であり、障害管理ID20050“F3031”によって管理されている。この例では、ストレージ装置1030にのみ障害が発生したと想定しているため、図20は、障害部位が影響を与えるDBMSサーバ1010と、ストレージ装置1030間における各DBMS1011内のジョブ6010ごとの関係を示している。ただしストレージ装置1030以外の装置に障害が発生した場合は、図20の形式と異なる。
【0064】
また各ジョブ6010に対して発生した障害が影響を及ぼさないとされた場合には、「実行中のジョブに対して影響はないが、障害が発生した」旨の表示を行うために必要な情報を、ステップ19030において抽出した情報から検出し、表示処理を行う(ステップ19060)。
【0065】
現在のSANを管理するソフトウェアによる障害監視機能は、IETF(Internet Engineering Task Force)で作成されたRFC1157「A Simple Network Management Protocol (SNMP)」によって定められたSNMPプロトコルのTrapメッセージを利用することが多い。しかしSANに接続されているDBMSサーバ1010、スイッチ1020、ストレージ装置1030の各装置間がスイッチ1020などで仮想ボリューム用いている場合がある。このために、各装置からのTrapメッセージのみでシステム全体のどの装置でどの部位に障害が発生し、どのような障害影響が発生するのか把握することは難しい。そこで本実施例は、管理サーバ1000に障害管理マネージャ1002を配し、管理サーバ管理テーブル2011と共に運用することによりこの問題を回避する。管理サーバ1000の障害管理マネージャ1002は、管理サーバ1000内に保持しているイベント辞書2012を用いて、各装置からのTrapメッセージの内容を解釈する。そして実トポロジリポジトリ2004に格納した管理サーバ管理テーブル2011情報とTrapメッセージの解釈情報を付きあわせて、ジョブ6010の実行に影響が出ると判断した場合には、障害管理マネージャ1002は、その旨について管理者に対して通知を行う。ここでTrapメッセージとは、各装置において障害が発生した場合に、管理サーバ1000に対して管理ネットワークを通して通知を行うメッセージを指している。
【0066】
ここで、図16(b)に示す障害コード15010が“30c1”の場合を例に考える。この場合、ストレージ装置1030は、障害が発生した旨のTrapメッセージを管理サーバ1000に送信する。障害管理マネージャ1002は、Trapメッセージを受信した時に、イベント辞書2012を参照し、Trapメッセージ中の障害コード“30c1”をキーとしてイベント辞書2012内の障害コード行を検索する。そして検索した行の識別子15030を抽出する。次に障害管理マネージャ1002は、抽出した識別子15030をキーとして管理サーバ管理テーブル2011を検索する。これによってキーとなる識別子15030を含む行14500を抽出し、DBMSサーバと発生した障害から影響を受けるジョブ6010を絞り込むことが可能となる。ここでは“Job1”というジョブID14102で示されるジョブが影響を受けるものとされる。また抽出された情報から、ジョブ6010と障害発生装置との関係を図20内の行20500のように導く。そしてその導いた行20500内のDBMS−ID20110、ジョブID20120、DB I/F20150、データI/F ID20210および障害発生部位である実ボリュームID20220の情報から、障害発生によりジョブ6010に影響が出る場合の表示処理を行う。
【0067】
この時の表示例を図21に示す。本表示例21000は、障害が発生した装置内のハードウエアの故障箇所と、障害の影響を受けるジョブとを共に表示する。これによって管理者は障害により受けるジョブ6010への影響を容易に把握することができる。
【0068】
また図22は、障害が発生したが、ジョブ6010には影響が及ばなかった場合の表示処理例を示す。表示例22000は、ジョブ6010が使用していないストレージ装置1030内の物理ディスク1032“SS3”に障害が発生した場合の表示例22000を示す。
【0069】
上記表示例21000および22000は、一箇所の障害発生の例を示すが、複数の障害が発生した場合においても同様の表示により管理者に対して通知されるものとする。
【0070】
本実施例で示したDBMSサーバ1010、スイッチ1020及びストレージ装置1030の各装置間のボリュームマッピング構成の把握と、各装置における障害の発生監視を行うことにより、管理者は容易に実行中の各ジョブ6010について障害が及ぼす影響を把握することが可能となる。
(2)実施例2:障害発生時のジョブ実行制御
実施例2は、実施例1で示した障害発生した時に管理者に対して障害を通知する内容に加えて、各ジョブの実行順序をジョブの実行時に決めておくことにより、障害の影響を受けるジョブに対する実行管理の技術を示す。以降の説明は、実施例1で示した障害箇所特定および管理者に対し障害通知に至るまでについては、同じステップを踏むため、変更点のみ説明する。
【0071】
図23は、図2に示した管理サーバ1000の主記憶2005に新たにジョブ実行制御テーブル24000を追加した管理サーバ1000の構成例を示す。ジョブ実行制御テーブル24000は、管理サーバ1000の実トポロジリポジトリ2004に格納されている。
【0072】
図24は、ジョブ実行制御テーブル24000のデータ構成の一例を示す。ジョブ実行制御テーブル24000のDBMS-ID欄24010は、DBMSサーバ装置1010内のDBMS1011に割り振られた一意の識別子を格納する。ジョブID欄24020はDBMSサーバ装置1010に関して実行中のジョブ6010のジョブIDを格納する。実施装置欄24030はジョブ実行制御処理を行う装置を格納する。
【0073】
優先度欄24040はジョブの処理優先度を格納する。ジョブの優先度は、通常処理の優先度数値を“3”とし、最大(優先度が最も高い状態)で“5”となるように、ジョブ6010ごとの処理についての優先度が設定される。処理方法欄24050は事前に与えられた処理方法によって制御を行う固定方法と、ジョブ6010の実行時間を利用して制御を行う変動方法のどちらかを格納する。処理内容欄24060は、当該ジョブについて施されるジョブ実行制御処理の内容を格納する。本例の「閉塞処理」は、当該ジョブがアクセスしていたデータを閉塞する処理である。また「休止」は、当該ジョブを停止させることを意味する。
【0074】
確認処理欄24070は、実施装置欄24030に指定の装置について処理内容欄24060に指定の処理を実行する前に、管理者に指定処理の実行確認を行う必要があるか否かの区別を格納する。自動実施欄24080は確認処理欄24070に“不要”が設定された場合に指定する必要があり、処理内容欄24060内の処理を管理者に対して確認せずに自動実行を行うか否かについて登録する。
【0075】
ここで処理方法24050の登録する固定処理とは、事前に管理者によって登録されているジョブ実行制御を実施装置において実行する処理である。また変動処理とは、各装置より得られるI/O、CPUモニタから計算されるジョブ6010の実行時間の計算値に基づいて動的にジョブの実行制御を行う方法である。障害管理マネージャ1002は、計算されたジョブ6010の実行時間が障害発生前の実行時間よりも大きい場合に、優先度欄24040を参照する。実行ジョブ6010の優先度が通常処理優先度数値より低いならば、障害管理マネージャ1002は、処理内容欄24060に指定されている制御処理を行う。ジョブ実行制御テーブル24000の優先度24040、処理方法24050及び処理内容24060の各欄は、管理者によりジョブ1060の実行時に設定されるものとする。
【0076】
図25は、障害管理マネージャ1002が実行するジョブ実行制御処理の流れを示すフローチャートである。本処理は、特に指摘しない限り障害管理マネージャ1002が実行するものとする。まず障害管理マネージャ1002は、実トポロジリポジトリ2004から管理者により登録されたジョブ実行制御テーブル24000を取得する(ステップ25000)。管理者は、ジョブ6010の実行時にジョブ実行制御テーブル24000を作成するが、スケジューラを用いている場合には前もって登録しておく必要がある。次にある装置において障害が発生した場合には、実施例1と同様の手順によって障害が発生した装置から送信されるTrapメッセージより障害箇所の特定を行う(ステップ25010)。
【0077】
次に障害の影響を受けるジョブについてジョブ実行制御処理を実施するにあたって、管理者に対し実施の確認を求めるか否かについて、ジョブ実行制御テーブル24000の確認処理欄24070に指定される情報から判断を行う(ステップ25020)。ステップ25020で確認を求めると判断された場合にはステップ25030に移行し、確認を求めずにジョブ実行制御テーブル24000の指定に従ってジョブ実行制御処理を実施する場合にはステップ25031に移行する。
【0078】
次にステップ25020において確認を求めると判断された場合に、管理者に対して実施例1と同様の形で障害が発生した旨の表示を行う。その表示内容は、障害の影響を受けるジョブ6010へのジョブ実行制御を行うため管理者の確認を要求するという内容である。管理者が承諾した場合には、処理内容を選択するステップ25040に移行する。管理者が拒否した場合には、ジョブ実行制御処理を行わずに障害復旧まで待ち、ステップ25060に移行する(ステップ25030)。
【0079】
次にステップ25020でジョブ実行制御テーブル24000の情報に基づいて自動実行を行うと判断された場合に、管理者に対して実施例1と同様の形で障害が発生した旨の表示処理を行い、ジョブ実行制御テーブル24000の自動実施欄24080に指定される情報からジョブ実行制御処理を行うのか行わないのか判断をする(ステップ25031)。ステップ25031で自動実行を行うと判断された場合にはステップ25040に移行し、自動実行を行わないと判断された場合にはステップ25060へ移行する。
【0080】
ステップ25030で管理者が承諾した場合もしくはステップ25031で自動実行を行うと判断した場合、ジョブ実行制御方法について事前に決まっている処理を行うか、ジョブの負荷状況をみて優先度を変化させる処理を行うかについて判断する(ステップ25040)。その判断は、ジョブ実行制御テーブル24000の処理方法欄24050に指定されている情報に基づく。
【0081】
ステップ25040において固定処理と判断された場合、障害復旧に備えて現在実行している処理の状態を記憶装置に保存し、ジョブ実行制御テーブル24000の実施装置欄24030に指定される装置において、処理内容欄24060に指定される処理方法によって、処理を実行する(ステップ25041)。
【0082】
ステップ25040において変動処理と判断された場合、障害管理マネージャ1002は、以下の処理を実行する。まずDBMSサーバ1010、スイッチ1020およびストレージ装置1030の各装置についてI/O、CPUモニタの情報を取得する。なお管理サーバ1000は、各装置のI/O、CPUモニタ情報を監視しているものとする。I/Oは単位時間当り入出力されるデータ量、CPUデータは通常各装置のCPU稼働率の統計データが用いられる。各装置のI/O、CPUモニタ情報を監視しておくことにより、ジョブ実施装置のI/O、CPU負荷を見積ることができる。
【0083】
各装置のモニタ情報と管理サーバ1000が管理している管理サーバ管理テーブル2011の情報を監視することによって、障害管理マネージャ1002は、各ジョブ6010と各装置の関係から、障害発生箇所から影響を受けるジョブ6010を検索できる。この検索結果によって、ジョブ6010の優先度を用いた柔軟な実行制御や、事前に決められた実行制御を行うことができる。これによって障害の影響を容易に把握し、障害の影響を受けるジョブ6010の明確にし、管理者によって指定するジョブの実行制御を行うことができる。
【0084】
このI/O、CPUモニタ情報に基づいてジョブ実行時間の見積を計算することができるものとする。また障害前のジョブ実行時間を取得できるものとする。定型的なジョブであれば、通常のジョブ実行時間の統計データを利用することは容易である。障害管理マネージャ1002は、ジョブ実行時間の見積値が障害発生前のジョブ実行時間より上回るか否か判断を行う(ステップ25042)。
【0085】
ステップ25042において上回ったと判断された場合には、そのジョブの実行終了が予定時刻を過ぎるおそれがある。この場合に、障害管理マネージャ1002は、当該ジョブについてジョブ実行制御テーブル24000の優先度欄24040を参照し、その優先度が通常処理の標準優先度数値“3”との比較を行う(ステップ25043)。ステップ25043において、該当ジョブの優先度が低い優先度である場合、現在実行している処理の状態を記憶装置に保存し、ジョブ実行制御テーブル24000の処理内容欄24060内の内容に従って処理を行う(ステップ25044)。逆に優先度が通常処理の標準優先度数値“3”よりも高い優先度または標準優先度数値“3”と同じである場合、実行制御処理を行わずにステップ25050に移行する。一方、ステップ25042において上回らないと判断された場合、実行制御処理を行わずにステップ25050に移行する。
【0086】
次に障害発生装置において障害復旧がなされたとき、障害発生装置より復旧した意味の障害コードを入れたTrapメッセージが管理サーバ1000に対して送信される。管理サーバ1000は、そのTrapメッセージを受信した時、メッセージ中の障害コードをイベント辞書2012より検索し、復旧部位の識別子15030と障害管理ID15040を抽出する。
【0087】
障害管理マネージャ1002は、障害復旧時にステップ19030での抽出結果20000及び保存された処理状態を用いて実行中のジョブ実行制御処理からジョブ実行制御処理を行う前に実行していた処理に戻す(ステップ25050)。このために障害管理マネージャ1002は、抽出された識別子15030と障害管理ID15040をキーにして、抽出結果20000を検索し、DBMSサーバ欄20100内のジョブID20120を抽出する。そのジョブID20120について、障害管理ID20050で指示されたジョブ実行制御処理からジョブ実行制御処理を行う前に実行していた処理に戻すよう、障害管理マネージャ1002を通して該当装置に指示する(ステップ25050)。次に管理サーバ1000は、管理者に対して発生した障害が復旧した旨のメッセージを作成し、管理者に通知を行う(ステップ25060)。
【0088】
本実施例においては、ステップ25044にてジョブ実行制御テーブル24000に指示される実施装置について、現在実行している処理の状態を保存して、ジョブ実行制御テーブルに指示される処理を実行する。この場合に現在実行している処理状態の保存はどの装置で行ってもかまわない。
【0089】
ここでストレージ装置1030の物理ディスク1032“SS1”で障害が発生し、事前に決められた処理である固定処理方法で閉塞処理を行うジョブ実行制御処理の場合24101を例にとって説明する。この場合、ストレージ装置1030の物理ディスク1032“SS1”に障害が発生したという障害通知メッセージがストレージ装置1030から管理サーバ1000へ送信される。管理サーバ1000が行う障害部位の特定処理については、実施例1の通りである。
【0090】
ステップ25000で管理サーバ1000の障害管理マネージャ1002がメッセージを受信したとき、メッセージ内の障害コード16109からイベント辞書2012と管理サーバ管理テーブル2011の参照により図20に示す抽出結果20000が得られる。障害管理マネージャ1002は、ステップ25030の管理者からのジョブ実行制御処理の実施許可を得た後に、ステップ25040からステップ25041においてジョブ実行制御テーブル24000の指示に従い設定された実施装置24030において、現在実行中の処理状態を保存し、指定された処理方法24050で指定された処理内容24060を実行する。
【0091】
障害発生装置であるストレージ装置1030の物理ディスク1032において障害が復旧された場合には、ステップ25050で障害発生装置のストレージ装置1030から障害復旧コード“00a1”を含んだTrapメッセージが管理サーバへ送信される。障害管理マネージャ1002は、このメッセージを受信したとき、メッセージ内の障害復旧コード“00a1”をキーとしてイベント辞書2012から識別子の“SS1”と障害管理IDの“F3031”情報15101を抽出し、障害発生時に作成した図20のテーブル20000から識別子が“SS1”であり、障害管理ID“F3031”で管理されているジョブ実行制御処理15101から、記憶していたジョブ実行制御処理を行う前に実行していた処理に戻すという処理を実行する。管理サーバ1000は、ステップ25060でストレージ装置1030で発生した障害が復旧し、ジョブ実行制御処理をから記憶してある処理に戻したというメッセージを管理者に対して表示する。
【0092】
図26は、ストレージ装置1030の物理ディスク1032“SS1”に障害が発生し、影響をうけるジョブ6010“Job1”に対するジョブ実行制御処理実行の確認を管理者に求める通知例26000を示している。管理者に障害の発生箇所と影響を受けるジョブ6010、DBMSサーバ1010等を共に表示することによって、管理者は各ジョブ6010への影響を容易に把握することができる。このとき障害管理マネージャ1002は、管理者へジョブ実行制御処理を行う際の詳細で分かりやすい情報を提供する。この通知例26000は、障害発生箇所が一箇所であるとしているが、複数箇所において障害が発生したとしても同様の表示を行うこととする。
【0093】
また図27は、ストレージ装置1030において発生した物理ディスク1032“SS1”の障害復旧がなされた内容の管理サーバ1000から管理者への通知例27000を示している。
【0094】
本実施例で示した障害を検知し、発生した障害への対応をジョブごとに、指定された方法の実行制御、または優先度を加味した実行制御、またはスケジュール処理という方法を用いることで、障害発生時におけるシステムのパフォーマンス低下中に対して、効率のよいシステム運用が可能となる。
【0095】
なお以上で説明した実施例1および実施例2においては、仮想化スイッチ装置がバーチャリゼーション機能を備えているネットワーク構成を想定していたが、スイッチ機能を有する装置とは異なる装置をバーチャリゼーション装置として管理ネットワーク及びSANに接続した構成であっても、上述の実施例1および2は同様の処理により実現可能である。
【0096】
【発明の効果】
本発明により、ジョブごとにデータマッピング情報を集約することができ、この情報に基づいて障害によって影響を受けるジョブを特定することができる。また障害によって影響を受けたジョブの実行制御をすることができる。
【図面の簡単な説明】
【図1】ストレージ系を含むコンピュータシステムの構成例を示す図である。
【図2】管理サーバ装置の構成例を示す図である。
【図3】DBMSサーバ装置の構成例を示す図である。
【図4】仮想化スイッチ装置の構成例を示す図である。
【図5】ストレージ装置の構成例を示す図である。
【図6】データマッピングの階層構成例を示す図である。
【図7】DBMSサーバ装置が保持するI/Fテーブルの例を示す図である。
【図8】DBMSサーバ装置が保持するDBMSサーバ管理テーブルの例を示す図である。
【図9】仮想化スイッチ装置が保持するI/Fテーブルの例を示す図である。
【図10】仮想化スイッチ装置が保持するFC接続管理テーブルの例を示す図である。
【図11】仮想化スイッチ装置が保持するスイッチ管理テーブルの例を示す図である。
【図12】ストレージ装置が保持するI/Fテーブルの例を示す図である。
【図13】ストレージ装置が保持するストレージ装置管理テーブルの例を示す図である。
【図14】管理サーバ装置が保持する管理サーバ管理テーブルの例を示す図である。
【図15】管理サーバ装置が保持するイベント辞書内にある解釈の一例を示す図である。
【図16】障害通知メッセージのフォーマットとそのメッセージの一例を示す図である。
【図17】管理サーバ装置によって実行される各装置の管理情報から管理サーバ管理テーブルを作成する処理の一例を示すフローチャートである。
【図18】管理サーバ装置において実行される管理サーバ管理テーブル作成の詳細処理内容の一例を示すフローチャートである。
【図19】管理サーバ装置において実行される障害箇所検出処理および通知処理の一例を示すフローチャートである。
【図20】影響のあるジョブの情報を抽出した結果の一例を示す図である。
【図21】障害発生によりジョブに影響が出た場合の表示処理例の一例を示す図である。
【図22】障害が発生したが、ジョブには影響がなかった場合の表示処理例の一例を示す図である。
【図23】ジョブ実行制御テーブルを追加した管理サーバ装置の構成例を示す図である。
【図24】管理サーバ装置が保持するジョブ実行制御テーブルの一例を示す図である。
【図25】管理サーバ装置が実行するジョブ実行制御処理の一例を示すフローチャートである。
【図26】ストレージ装置において障害が発生し、ジョブID“Job1”に対するジョブ実行制御処理実行の確認を管理者に求める通知の一例を示す図である。
【図27】ストレージ装置において発生した物理ディスクID“SS1”の障害復旧がなされた旨の管理者への通知の一例を示す図である。
【符号の説明】
1000…管理サーバ装置、1010…DBMSサーバ装置、1020…仮想化スイッチ装置、1030…ストレージ装置、1001…管理サーバ管理マネージャ、1002…管理サーバ障害管理マネージャ、1011…DBMS、1012…DBMSサーバ管理エージェント、1013…ボリュームマネージャ、1021…スイッチ管理エージェント、1031…ストレージ装置管理エージェント、1032…物理ディスク。

Claims (20)

  1. ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定する障害管理方法であって、
    障害を管理する計算機によって、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集し、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納し、前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示することを特徴とするジョブ管理機能を有するストレージ系障害管理方法。
  2. 前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する1つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
    前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項1記載のジョブ管理機能を有するストレージ系障害管理方法。
  3. 前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項2記載のジョブ管理機能を有するストレージ系障害管理方法。
  4. ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するコンピュータシステムであって、
    前記コンピュータシステムは、ジョブを実行する計算装置と、複数の前記物理ディスク装置を収容するストレージ装置と、障害を管理するサーバ計算機とを含み、
    前記サーバ計算機は、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集する手段と、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する手段と、前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する手段とを有することを特徴とするコンピュータシステム。
  5. 前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する1つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
    前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項4記載のコンピュータシステム。
  6. 前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項5記載のコンピュータシステム。
  7. ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機であって、
    前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集する手段と、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する手段と、前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する手段とを有することを特徴とするサーバ計算機。
  8. 前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する1つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
    前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項7記載のサーバ計算機。
  9. 前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項8記載のサーバ計算機。
  10. ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機であって、
    前記データマッピング情報の一部情報を保持する前記計算装置前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記一部情報を収集する手段と、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する手段と、前記データマッピング経路上に存在する部位であってその識別子が前記管理テーブルに格納されている部位のいずれかについて障害のあった部位の識別子を伴う障害報告を受けたとき、障害のあった当該部位の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する手段とを有することを特徴とするサーバ計算機。
  11. 前記データマッピング情報は、前記ファイルとこれを格納する実ボリュームとの対応関係、前記実ボリュームとこれを格納する1つ以上の仮想ボリュームとの対応関係、前記仮想ボリュームと前記仮想ボリューム上のデータを分散して格納する論理ディスク装置との対応関係、および前記論理ディスク装置と前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置との対応関係についての情報を含み、
    前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項10記載のサーバ計算機。
  12. 前記サーバ計算機は、さらに前記障害によって影響を受けると特定された前記ジョブについて、あらかじめジョブ実行制御テーブルに設定された処理方法によって処理を行う手段を有することを特徴とする請求項10記載のサーバ計算機。
  13. 前記サーバ計算機は、さらにあらかじめ前記ジョブ実行制御テーブルに設定された管理者の確認の要否の情報に従い、管理者から承諾を指示されたとき前記処理方法によって処理を行う手段を有することを特徴とする請求項12記載のサーバ計算機。
  14. ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機で実行されるプログラムであって、
    前記サーバ計算機に、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部を経て前記物理ディスク装置に至るまでのデータマッピング経路上の対応情報を保持する前記計算装置前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記データマッピング情報の一部情報を収集する機能、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する機能、および前記ストレージ装置から障害のあった前記物理ディスク装置の識別子を伴う障害報告を受けたとき、障害のあった当該物理ディスク装置の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する機能を実現させるためのプログラム。
  15. 前記データマッピング情報は、前記ファイルを格納する実ボリューム、前記実ボリュームを格納する1つ以上の仮想ボリューム、前記仮想ボリューム上のデータを分散して格納する論理ディスク装置および前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置の階層構成を有し、
    前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項14記載のプログラム。
  16. 前記データマッピング情報は、前記ファイルと前記実ボリュームとの対応関係、前記実ボリュームと前記仮想ボリュームとの対応関係、前記仮想ボリュームと前記論理ディスク装置との対応関係、および前記論理ディスク装置と前記物理ディスク装置との対応関係についての情報を含むことを特徴とする請求項15記載のプログラム。
  17. ジョブを実行する計算装置と、複数の物理ディスク装置を収容するストレージ装置とを有するコンピュータシステムにおいて、特定の前記ジョブがアクセスするデータベース上の特定のテーブルに始まり、前記テーブルを格納するファイル、前記ファイルを格納する論理的なボリューム、前記計算装置と前記ストレージ装置との間に介在する経路スイッチ装置のインタフェース部を経て前記ボリューム上のデータを分散して格納する前記物理ディスク装置に至るまで、当該ジョブによってアクセスされるデータが如何に順次マッピングされデータアクセスのためにいかなる部位を経由するかを示す一連のアクセス経路であるデータマッピング経路に沿って、前記ジョブ、前記テーブル、前記ファイル、前記ボリューム、前記インタフェース部および前記物理ディスク装置についての各識別子間の対応関係を示すデータマッピング情報に基づいて、前記データマッピング経路上に存在する部位の障害によって影響を受けるジョブを特定するサーバ計算機で実行されるプログラムあって、
    前記サーバ計算機に、前記データマッピング情報の一部情報を保持する前記計算装置前記ストレージ装置および前記インタフェース部に関する対応情報を保持する前記経路スイッチ装置の各々から前記一部情報を収集する機能、前記ジョブごとに前記一部情報を組み合わせることによって前記データマッピング情報を生成して管理テーブルに格納する機能、および前記データマッピング経路上に存在する部位であってその識別子が前記管理テーブルに格納されている部位のいずれかについて障害のあった部位の識別子を伴う障害報告を受けたとき、障害のあった当該部位の識別子に基づいて前記管理テーブルを参照して障害によって影響を受けるジョブを特定して表示する機能を実現させるためのプログラム。
  18. 前記データマッピング情報は、前記ファイルとこれを格納する実ボリュームとの対応関係、前記実ボリュームとこれを格納する1つ以上の仮想ボリュームとの対応関係、前記仮想ボリュームと前記仮想ボリューム上のデータを分散して格納する論理ディスク装置との対応関係、および前記論理ディスク装置と前記論理ディスク装置のデータを分散して格納する前記物理ディスク装置との対応関係についての情報を含み、
    前記コンピュータシステムは、さらに前記計算装置と前記ストレージ装置との間に介在し、上位装置から受け取った入出力要求に含まれる前記仮想ボリュームの識別子を前記論理ディスク装置の識別子に変換する仮想化装置を有することを特徴とする請求項17記載のプログラム。
  19. さらに前記サーバ計算機に、前記障害によって影響を受けると特定された前記ジョブについて、あらかじめジョブ実行制御テーブルに設定された処理方法によって処理を行う機能を実現させるための請求項17記載のプログラム。
  20. さらに前記サーバ計算機に、さらにあらかじめ前記ジョブ実行制御テーブルに設定された管理者の確認の要否の情報に従い、管理者から承諾を指示されたとき前記処理方法によって処理を行う機能を実現させるための請求項19記載のプログラム。
JP2003090518A 2003-03-28 2003-03-28 ジョブ管理機能を有するストレージ系障害管理方法及び装置 Expired - Fee Related JP4294353B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003090518A JP4294353B2 (ja) 2003-03-28 2003-03-28 ジョブ管理機能を有するストレージ系障害管理方法及び装置
US10/649,665 US7124139B2 (en) 2003-03-28 2003-08-28 Method and apparatus for managing faults in storage system having job management function
US11/247,160 US7509331B2 (en) 2003-03-28 2005-10-12 Method and apparatus for managing faults in storage system having job management function
US11/247,210 US7552138B2 (en) 2003-03-28 2005-10-12 Method and apparatus for managing faults in storage system having job management function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003090518A JP4294353B2 (ja) 2003-03-28 2003-03-28 ジョブ管理機能を有するストレージ系障害管理方法及び装置

Publications (2)

Publication Number Publication Date
JP2004295811A JP2004295811A (ja) 2004-10-21
JP4294353B2 true JP4294353B2 (ja) 2009-07-08

Family

ID=32985285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003090518A Expired - Fee Related JP4294353B2 (ja) 2003-03-28 2003-03-28 ジョブ管理機能を有するストレージ系障害管理方法及び装置

Country Status (2)

Country Link
US (3) US7124139B2 (ja)
JP (1) JP4294353B2 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7433948B2 (en) * 2002-01-23 2008-10-07 Cisco Technology, Inc. Methods and apparatus for implementing virtualization of storage within a storage area network
US7409583B2 (en) * 2002-10-07 2008-08-05 Hitachi, Ltd. Volume and failure management method on a network having a storage device
US7234073B1 (en) * 2003-09-30 2007-06-19 Emc Corporation System and methods for failover management of manageable entity agents
GB0329261D0 (en) * 2003-12-18 2004-01-21 Ibm Device control support information acquisition
US7818387B1 (en) * 2004-02-09 2010-10-19 Oracle America, Inc. Switch
US7716168B2 (en) 2005-06-29 2010-05-11 Microsoft Corporation Modifying table definitions within a database application
US8135755B2 (en) 2005-06-29 2012-03-13 Microsoft Corporation Templates in a schema editor
US7546286B2 (en) * 2004-02-19 2009-06-09 Microsoft Corporation Offline multi-table data editing and storage
US7546291B2 (en) * 2004-02-19 2009-06-09 Microsoft Corporation Data source task pane
US7565568B1 (en) * 2004-02-27 2009-07-21 Veritas Operating Corporation Method and system for virtualization switch failover
JP2005339111A (ja) * 2004-05-26 2005-12-08 Hitachi Ltd ジョブの実行制御方法、及びジョブの実行制御システム
US7619979B2 (en) * 2004-06-15 2009-11-17 International Business Machines Corporation Fault isolation in a network
US7293191B1 (en) * 2004-07-26 2007-11-06 Symantec Operating Corporation System and method for managing I/O errors in a storage environment employing asymmetric distributed block virtualization
US7457871B2 (en) * 2004-10-07 2008-11-25 International Business Machines Corporation System, method and program to identify failed components in storage area network
JP4596889B2 (ja) * 2004-11-08 2010-12-15 株式会社日立製作所 ストレージシステムの管理方法
JP4604669B2 (ja) * 2004-11-15 2011-01-05 株式会社日立製作所 仮想テープボリュームの運用方法
US7499865B2 (en) * 2004-12-17 2009-03-03 International Business Machines Corporation Identification of discrepancies in actual and expected inventories in computing environment having multiple provisioning orchestration server pool boundaries
US20060136490A1 (en) * 2004-12-17 2006-06-22 International Business Machines Corporation Autonomic creation of shared workflow components in a provisioning management system using multi-level resource pools
US7953703B2 (en) * 2005-02-17 2011-05-31 International Business Machines Corporation Creation of highly available pseudo-clone standby servers for rapid failover provisioning
JP2006227856A (ja) * 2005-02-17 2006-08-31 Hitachi Ltd アクセス制御装置及びそれに搭載されるインターフェース
US7676692B2 (en) * 2005-04-18 2010-03-09 Bank Of America Corporation Database automated disaster recovery
US8140614B2 (en) * 2005-06-02 2012-03-20 International Business Machines Corporation Distributed computing environment with remote data collection management
US7770061B2 (en) * 2005-06-02 2010-08-03 Avaya Inc. Fault recovery in concurrent queue management systems
US7793138B2 (en) * 2005-12-21 2010-09-07 Cisco Technology, Inc. Anomaly detection for storage traffic in a data center
TWI307026B (en) * 2005-12-30 2009-03-01 Ind Tech Res Inst System and method for storage management
JP2007188428A (ja) * 2006-01-16 2007-07-26 Fuji Xerox Co Ltd 半導体ストレージ装置およびストレージシステム
JP4757038B2 (ja) * 2006-01-25 2011-08-24 株式会社日立製作所 ストレージシステム及び記憶制御装置
US7743026B2 (en) * 2006-01-31 2010-06-22 Microsoft Corporation Redirection to local copies of server-based files
JP4912026B2 (ja) * 2006-04-27 2012-04-04 キヤノン株式会社 情報処理装置、情報処理方法
US20080034167A1 (en) * 2006-08-03 2008-02-07 Cisco Technology, Inc. Processing a SCSI reserve in a network implementing network-based virtualization
US8161010B2 (en) 2006-10-04 2012-04-17 Salesforce.Com, Inc. Methods and systems for providing fault recovery to side effects occurring during data processing
US8548942B2 (en) 2006-10-04 2013-10-01 Salesforce.Com, Inc. Methods and systems for recursive saving of hierarchical objects to a database
US8682863B2 (en) * 2006-10-04 2014-03-25 Salesforce.Com, Inc. Methods and systems for bulk row save logic in an object relational mapping layer and application framework
JP4884198B2 (ja) * 2006-12-19 2012-02-29 株式会社日立製作所 ストレージネットワークの性能管理方法、並びに、その方法を用いた計算機システム及び管理計算機
JP5018133B2 (ja) * 2007-02-27 2012-09-05 富士通株式会社 ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム
JP5073348B2 (ja) * 2007-04-04 2012-11-14 株式会社日立製作所 アプリケーション管理支援システム、管理計算機、ホスト計算機、及びアプリケーション管理支援方法
US7949637B1 (en) * 2007-06-27 2011-05-24 Emc Corporation Storage management for fine grained tiered storage with thin provisioning
US7716429B2 (en) * 2007-09-14 2010-05-11 International Business Machines Corporation Apparatus, system, and method for dynamic address tracking
JP5046863B2 (ja) * 2007-11-01 2012-10-10 株式会社日立製作所 情報処理システム及びデータ管理方法
CN101459679A (zh) * 2007-12-12 2009-06-17 华为技术有限公司 网络存储设备及数据读写控制方法
US9069667B2 (en) 2008-01-28 2015-06-30 International Business Machines Corporation Method to identify unique host applications running within a storage controller
WO2009110111A1 (ja) * 2008-03-04 2009-09-11 三菱電機株式会社 サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
JP4918668B2 (ja) * 2008-06-27 2012-04-18 株式会社日立システムズ 仮想化環境運用支援システム及び仮想化環境運用支援プログラム
JP5140633B2 (ja) * 2008-09-04 2013-02-06 株式会社日立製作所 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
US8209290B1 (en) * 2009-03-11 2012-06-26 Symantec Corporation Generic granular restore of application data from a volume image backup
WO2011027388A1 (en) * 2009-09-02 2011-03-10 Hitachi,Ltd. Storage system and control method
US9130967B2 (en) * 2010-11-17 2015-09-08 Alcatel Lucent Method and system for network element service recovery
US10019159B2 (en) 2012-03-14 2018-07-10 Open Invention Network Llc Systems, methods and devices for management of virtual memory systems
US9569113B2 (en) * 2012-10-11 2017-02-14 SK Hynix Inc. Data storage device and operating method thereof
US9755938B1 (en) * 2012-12-20 2017-09-05 EMC IP Holding Company LLC Monitored system event processing and impact correlation
US20140259023A1 (en) * 2013-03-07 2014-09-11 Seagate Technology Llc Adaptive vibration mitigation
US9712382B2 (en) 2014-10-27 2017-07-18 Quanta Computer Inc. Retrieving console messages after device failure
JP2020135019A (ja) * 2019-02-13 2020-08-31 日本電信電話株式会社 処理システム、処理方法、保守者支援装置および保守者支援プログラム
JP7457740B2 (ja) 2022-03-03 2024-03-28 株式会社日立製作所 ストレージシステム及びその制御方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152498A (ja) 1993-12-01 1995-06-16 Hitachi Ltd 情報処理システム
US5500940A (en) 1994-04-25 1996-03-19 Hewlett-Packard Company Method for evaluating failure in an electronic data storage system and preemptive notification thereof, and system with component failure evaluation
JPH10340185A (ja) 1997-06-06 1998-12-22 Nec Corp 媒体障害時の起動抑止ジョブ認識方式
US6130875A (en) 1997-10-29 2000-10-10 Lucent Technologies Inc. Hybrid centralized/distributed precomputation of network signal paths
US6035306A (en) 1997-11-24 2000-03-07 Terascape Software Inc. Method for improving performance of large databases
JP3843713B2 (ja) 1999-08-27 2006-11-08 株式会社日立製作所 計算機システム及びそのデバイスの割り当て方法
US6636981B1 (en) 2000-01-06 2003-10-21 International Business Machines Corporation Method and system for end-to-end problem determination and fault isolation for storage area networks
EP1282861A4 (en) * 2000-04-18 2008-03-05 Storeage Networking Technologi VIRTUALIZATION OF STORAGE IN A STORAGE AREA NETWORK
JP2001337790A (ja) 2000-05-24 2001-12-07 Hitachi Ltd 記憶システム及びその階層管理制御方法
JP4115093B2 (ja) 2000-07-06 2008-07-09 株式会社日立製作所 計算機システム
US6766430B2 (en) * 2000-07-06 2004-07-20 Hitachi, Ltd. Data reallocation among storage systems
US20020196744A1 (en) 2001-06-26 2002-12-26 O'connor Michael A. Path discovery and mapping in a storage area network
US8549133B2 (en) 2002-03-11 2013-10-01 Qwest Communications International Inc. Systems and methods for tracking the reliability of communications networks
US6757778B1 (en) * 2002-05-07 2004-06-29 Veritas Operating Corporation Storage management system
JP4100968B2 (ja) 2002-06-06 2008-06-11 株式会社日立製作所 データマッピング管理装置
US7162579B2 (en) * 2002-08-19 2007-01-09 Aristos Logic Corporation Asymmetrical load balancing for mirrored storage volumes
US7260628B2 (en) 2002-09-06 2007-08-21 Hitachi, Ltd. Event notification in storage networks
US7058545B2 (en) 2002-09-16 2006-06-06 Hewlett-Packard Development Company, L.P. Software application domain and storage domain characterization process and method
US20040153844A1 (en) 2002-10-28 2004-08-05 Gautam Ghose Failure analysis method and system for storage area networks
JP2004173136A (ja) 2002-11-22 2004-06-17 Fujitsu Ltd ネットワーク管理装置

Also Published As

Publication number Publication date
JP2004295811A (ja) 2004-10-21
US20040193969A1 (en) 2004-09-30
US7509331B2 (en) 2009-03-24
US20060036899A1 (en) 2006-02-16
US7552138B2 (en) 2009-06-23
US7124139B2 (en) 2006-10-17
US20060031270A1 (en) 2006-02-09

Similar Documents

Publication Publication Date Title
JP4294353B2 (ja) ジョブ管理機能を有するストレージ系障害管理方法及び装置
US8359440B2 (en) Management server device for managing virtual storage device, and method for managing virtual storage device
US7702951B2 (en) Volume and failure management method on a network having a storage device
JP4202709B2 (ja) ストレージ装置を有するネットワークにおける、ボリューム及び障害管理方法
US7409583B2 (en) Volume and failure management method on a network having a storage device
JP4130615B2 (ja) ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
US8010836B2 (en) Storage configuration recovery method and storage management system
CN100417081C (zh) 检查和修复网络配置的方法和***
JP2003108420A (ja) データストレージシステム及びこの制御方法
WO2007060664A2 (en) System and method of managing data protection resources
JP2004341994A (ja) プログラム、情報処理装置、及び情報処理装置の制御方法
WO2013171865A1 (ja) 管理方法及び管理システム
US8032490B2 (en) Storage system operable to perform LU auditing
JP4443786B2 (ja) 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム
WO2014147699A1 (ja) 管理装置、方法及びプログラム
JP4326819B2 (ja) ストレージシステムの制御方法、ストレージシステム、プログラム、及び記録媒体
JP4256912B2 (ja) ストレージ装置を有するネットワークにおける、ボリューム及び障害管理方法
JP4575462B2 (ja) ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
US8443235B2 (en) Storage system and known problem information management method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050804

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees