JP2006185312A - 障害解析装置及び障害解析方法 - Google Patents

障害解析装置及び障害解析方法 Download PDF

Info

Publication number
JP2006185312A
JP2006185312A JP2004380071A JP2004380071A JP2006185312A JP 2006185312 A JP2006185312 A JP 2006185312A JP 2004380071 A JP2004380071 A JP 2004380071A JP 2004380071 A JP2004380071 A JP 2004380071A JP 2006185312 A JP2006185312 A JP 2006185312A
Authority
JP
Japan
Prior art keywords
failure
access
route
access route
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004380071A
Other languages
English (en)
Inventor
Tetsuya Teramachi
哲也 寺町
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004380071A priority Critical patent/JP2006185312A/ja
Publication of JP2006185312A publication Critical patent/JP2006185312A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

【課題】 正確に自動で、アクセスルートの障害箇所を特定し、障害の無いアクセスルートに切り替える。
【解決手段】 障害が検出された場合、通常アクセスを実行したアクセスルート上の全ての構成要素が、障害箇所候補とされる。障害箇所候補へテスト用アクセスが実行される。障害特定手段11cにより、1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素が障害箇所とされる。アクセスルート切替手段11dにより、障害箇所として特定された構成要素を経由しないアクセスルートに切り替えられる。
【選択図】 図1

Description

本発明は、コンピュータシステムの障害解析装置及び障害解析方法に関し、特に、冗長化されたアクセスルートと複数の装置とを含むコンピュータシステムの障害解析装置及び障害解析方法に関する。
コンピュータシステムは、データを記憶装置に記憶したり、データを記憶装置から抽出したりしている。このため、記憶装置はコンピュータシステムにとって不可欠な存在である。
しかも、コンピュータシステムにおいて、利用するデータは年々増加するので、大容量の記憶装置が必要である。現在、低価格の大容量の記憶装置が出現しており、入手しやすくなっている。
また、コンピュータシステムでは、終日運転に対応するために、複数の記憶装置を論理的に1台の記憶装置として使用している(ディスクアレイ)。このディスクアレイを採用したコンピュータシステムは、コンピュータシステムの中に予備の記憶装置を準備している。そして、自動的に、予備の記憶装置に運用している記憶装置のデータを通常時に転送している。このようにすると、コンピュータシステムの中の1つの記憶装置において、使用不可能となるような障害が発生した場合に対応できるようになる。
ディスクアレイを使用し、かつ、複数のアクセスルートを持つコンピュータシステムも現れている。ここで、アクセスルートの障害については、オペレータが障害箇所を特定しているか、自動で大まかな障害箇所を特定している。なぜなら、コンピュータシステムはマルチベンダが一般的であり、大まかなインタフェースが統一されているだけだからである。そして、障害箇所を使用しないで済むように、使用するアクセスルートを手動か自動で変更している(例えば、特許文献1参照)。
特開平9−259001号公報
しかし、手動で使用するアクセスルートを変更する場合は、オペレータが接続ミスを発生させやすい。
また、自動で使用するアクセスルートを変更する場合、障害箇所が存在することしか分かっていないので、後述するように機能的に何の問題も無い活性箇所を停止させることがあり、コンピュータシステムの運用効率を低下させている。例えば、中継器が存在するネットワークの場合、障害箇所の特定が困難であり、関係する構成要素を全て交換する等の悪い運用効率になっている。しかも、活性箇所を停止させてしまうと、復旧に時間がかかる。具体的には、図30を参照して説明する。
図30は、従来のシステム構成図における障害への対応の例を示す図である。
従来のシステム構成図は、第1のコンピュータ110と第2のコンピュータ210と中継器310、410と記憶装置530と伝送路L31、L32、L33、L34、L35、L36、L37、L38とから構成される。第1のコンピュータ110と第2のコンピュータ210とは、ユーザの端末装置であり、ユーザのサービス要求に応答するか、ユーザのサービス要求をサーバに送信する。中継器310、410は、第1のコンピュータ110と第2のコンピュータ210と記憶装置530とを互いに接続する。記憶装置530は、第1のコンピュータ110と第2のコンピュータ210とから、データを記憶させられる。第1のコンピュータ110と第2のコンピュータ210と中継器310、410と記憶装置530とは、伝送路L31、L32、L33、L34、L35、L36、L37、L38を介して、互いに通信している。
第1のコンピュータ110は、アダプタ111、112とから構成される。アダプタ111、112は、第1のコンピュータ110をネットワークに接続する。アダプタ111、112とは、互いに通信している。
第2のコンピュータ210は、アダプタ211、212とから構成される。第1のコンピュータ110と第2のコンピュータ210との関係において、同じ名称の構成要素ならば、構成要素の機能も同じである。
記憶装置530は、コントローラ531、532と記憶装置本体533とから構成される。コントローラ531、532は、記憶装置530をネットワークに接続する。記憶装置本体533は、記憶装置530の本体である。コントローラ531、532と記憶装置本体533とは、互いに通信している。
従来では、第1のコンピュータ110と第2のコンピュータ210との環境を統一するために、第1のコンピュータ110におけるアダプタ111と伝送路L31と中継器310と伝送路L35とコントローラ531とのアクセスルートに障害が検出されると、第2のコンピュータ210におけるアダプタ211と伝送路L33と中継器310と伝送路L35とコントローラ531とのアクセスルートも使用しないようにしている。
ここで、障害箇所がアダプタ111の場合、第2のコンピュータ210での冗長性が失われ、信頼性が低下する。
本発明は、このような点に鑑みてなされたものであり、利用しているアクセスルートに関して、自動で、アクセスルートの障害箇所を正確に特定し、障害の無いアクセスルートに切り替える障害解析装置及び障害解析方法を提供することを目的とする。
本発明では、上記課題を解決するために、図1に示すように、複数の装置間の通常アクセスにおいて障害を検出すると、通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする障害検出手段11aと、障害検出手段11aで障害が検出されると、障害箇所候補へテスト用アクセスを実行し、テスト用アクセスで障害を検出しなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補から除外し、テスト用アクセスで障害を検出した場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を障害箇所候補から除外する障害診断手段11bと、障害診断手段11bにおいて、1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素を障害箇所とする障害特定手段11cと、複数の装置間の通常アクセス用のアクセスルートを、障害特定手段11cで障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるアクセスルート切替手段11dとを提供する。
このようにすると、複数の装置間の通常アクセスにおいて障害が検出された場合、障害検出手段11aにより、通常アクセスを実行したアクセスルート上の全ての構成要素が、障害箇所候補とされる。障害検出手段11aで障害が検出されると、障害箇所候補へテスト用アクセスが実行される。障害診断手段11bにより、テスト用アクセスで障害が検出されなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素が、障害箇所候補から除外される。障害診断手段11bにより、テスト用アクセスで障害が検出された場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素が、障害箇所候補から除外される。障害特定手段11cにより、障害診断手段11bにおいて1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素が、障害箇所とされる。アクセスルート切替手段11dにより、複数の装置間の通常アクセス用のアクセスルートが、障害特定手段11cで障害箇所として特定された構成要素を経由しないアクセスルートに切り替えられる。
本発明では、通常アクセスにおいて障害を検出すると、テスト用アクセスを繰り返すようにした。そして、障害箇所を特定し、障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるようにした。
これにより、障害箇所を正確に特定することができ、障害箇所を容易に交換できるようになる。
以下、本発明の実施の形態を図面を参照して説明する。
まず、本発明の概念について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、本発明の概念図である。
本発明の障害解析装置が使用される障害解析システムは、コンピュータ10と中継器20、30と装置40と伝送路L1、L2、L3、L4、L5、L6、L7、L8とから構成される。コンピュータ10は、ユーザの端末装置であり、ユーザのサービス要求に応答するか、ユーザのサービス要求をサーバに送信する。中継器20、30は、コンピュータ10と装置40とを互いに接続する。装置40は、コンピュータ10から、データを記憶させられる。コンピュータ10と中継器20、30と装置40とは、伝送路L1、L2、L3、L4、L5、L6、L7、L8を介して、互いに通信している。
コンピュータ10は、障害解析装置11とアダプタ12、13とから構成される。障害解析装置11は、利用しているアクセスルートに関して、アクセスルートの障害箇所を特定し、障害の無いアクセスルートに切り替える。アダプタ12、13は、コンピュータ10をネットワークに接続する。障害解析装置11とアダプタ12、13とは、互いに通信している。
装置40は、コントローラ41、42と装置本体43とから構成される。コントローラ41、42は、装置40をネットワークに接続する。装置本体43は、装置40の本体である。コントローラ41、42と装置本体43とは、互いに通信している。
障害解析装置11は、障害検出手段11aと障害診断手段11bと障害特定手段11cとアクセスルート切替手段11dとから構成される。
障害検出手段11aは、複数の装置間の通常アクセスにおいて障害を検出すると、通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする。
障害診断手段11bは、障害検出手段11aで障害が検出されると、障害箇所候補へテスト用アクセスを実行し、テスト用アクセスで障害を検出しなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補から除外する。さらに障害診断手段11bは、テスト用アクセスで障害を検出した場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を障害箇所候補から除外する。
障害特定手段11cは、障害診断手段11bにおいて、1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素を障害箇所とする。
アクセスルート切替手段11dは、複数の装置間の通常アクセス用のアクセスルートを、障害特定手段11cで障害箇所として特定された構成要素を経由しないアクセスルートに切り替える。
障害検出手段11aと障害診断手段11bと障害特定手段11cとアクセスルート切替手段11dとは、互いに通信している。
例えば、コンピュータ10と装置40との通信が、伝送路L1、L5を利用して実現されている。そして、伝送路L1、L5にエラーが発生すると、伝送路L3、L5に切り替えて、エラーが無い場合、伝送路L1もしくはアダプタ12が故障箇所である。さらに、伝送路L2、L7に切り替えて、エラーが無い場合、伝送路L1が故障箇所である。その後、伝送路L1、L5を、エラーの無い伝送路L2、L7に切り替える。
このようにすると、障害を発生させた構成要素を正確に自動で把握でき、容易に交換できる。
以下、実施の形態の具体的な内容を説明する。
[第1の実施の形態]
図2は、第1の実施の形態のシステム構成図である。第1のコンピュータ100と第2のコンピュータ200とは、利用しているアクセスルートに関して、アクセスルートの障害箇所を特定し、障害の無いアクセスルートに切り替える。
第1の実施の形態のシステム構成図は、第1のコンピュータ100と第2のコンピュータ200と中継器300、400と記憶装置500と伝送路L11、L12、L13、L14、L15、L16、L17、L18とから構成される。第1のコンピュータ100と第2のコンピュータ200とは、データを記憶装置500に書き込んだり、データを記憶装置500から引き出したりする。中継器300、400は、第1のコンピュータ100と第2のコンピュータ200と記憶装置500とを互いに接続する。記憶装置500は、第1のコンピュータ100と第2のコンピュータ200とから送られるデータを記憶する。第1のコンピュータ100と第2のコンピュータ200と中継器300、400と記憶装置500とは、伝送路L11、L12、L13、L14、L15、L16、L17、L18を介して、互いに通信している。
第1のコンピュータ100は、障害特定部103とアクセスルート切替部104とアダプタ101、102とから構成される。
障害特定部103は、記憶装置500への通常アクセスにおいて、障害を検出した場合、通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする。そして、障害箇所候補へテスト用アクセスを実行する。テスト用アクセスで障害を検出しなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素を、障害箇所候補から除外する。テスト用アクセスで障害を検出した場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、障害箇所候補から除外する。最後に、1以上のアクセスルートでテスト用アクセスを実行した結果として、最後の1つとなった障害箇所候補の構成要素を障害箇所とする。
アクセスルート切替部104は、記憶装置500への通常アクセスが実行されて障害が検出されたアクセスルートを、障害箇所として特定された構成要素を経由しないアクセスルートに切り替える。
アダプタ101、102は、第1のコンピュータ100をネットワークに接続する。
障害特定部103とアクセスルート切替部104とアダプタ101、102とは、互いに通信している。
第2のコンピュータ200は、障害特定部203とアクセスルート切替部204とアダプタ201、202とから構成される。第1のコンピュータ100と第2のコンピュータ200との関係において、同じ名称の構成要素ならば、構成要素の機能も同じである。
記憶装置500は、コントローラ501、502と記憶装置本体503とから構成される。コントローラ501、502は、記憶装置500をネットワークに接続する。記憶装置本体503は、記憶装置500の本体である。コントローラ501、502と記憶装置本体503とは、互いに通信している。
また、第1のコンピュータ100の障害特定部103と第2のコンピュータ200の障害特定部203とは、互いに通信し、連帯して動作する。
図3は、障害特定部の例を示す図である。障害特定部103は、全てのアクセスルート上において各構成要素に対する障害確認部を複数有している。障害特定部103は、デーモンを利用して各構成要素を監視している。デーモンから各構成要素に命令が出て、障害特定部103は、各構成要素からの応答を取得する。
障害特定部103は、各構成要素に対する障害確認部として、記憶装置本体に対する障害確認部103a、アダプタに対する障害確認部103b、コントローラ(自経路)に対する障害確認部103c、コントローラ(他経路)に対する障害確認部103d、中継器及び中継器前伝送路に対する障害確認部103e及び中継器及び中継器後伝送路に対する障害確認部103fから構成される。記憶装置本体に対する障害確認部103a、アダプタに対する障害確認部103b、コントローラ(自経路)に対する障害確認部103c、コントローラ(他経路)に対する障害確認部103d、中継器及び中継器前伝送路に対する障害確認部103e及び中継器及び中継器後伝送路に対する障害確認部103fは、互いに通信している。
以下に、各構成要素に対する障害確認部について説明する。
図4は、記憶装置本体に対する障害確認部の処理の例を示す図である。
記憶装置本体に対する障害確認部103aが、図4に太字で示されるアクセスルートを確認すると、正常なら、記憶装置本体503へのアクセスルートは正常である。異常なら、記憶装置本体503へのアクセスルートは異常であり、アダプタ101と伝送路L11と中継器300と伝送路L15とコントローラ501と記憶装置本体503との中で、何れかが異常である。
なお、原則的に、記憶装置本体503の自らの障害を管理する機能により、記憶装置本体503そのものが異常な場合は、明確に異常であることを外部に通知する。つまり、記憶装置本体503へのアクセスルートが異常な場合と記憶装置本体503そのものが異常な場合とが存在するが、後者については明確になる。
図5は、アダプタに対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。
アダプタに対する障害確認部103bが、図5に太字で示されるアクセスルートを確認すると、正常なら、アダプタ101へのアクセスルートは正常である。異常なら、アダプタ101へのアクセスルートは異常であり、アダプタ101は異常である。
図6は、コントローラ(自経路)に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。
コントローラ(自経路)に対する障害確認部103cが、図6に太字で示されるアクセスルートを確認すると、正常なら、コントローラ501へのアクセスルートは正常である。異常なら、コントローラ501へのアクセスルートは異常であり、アダプタ101と伝送路L11と中継器300と伝送路L15とコントローラ501との中で、何れかが異常である。
図7は、コントローラ(他経路)に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートと異なるアクセスルートを経由したテスト用アクセスを実行する。
コントローラ(他経路)に対する障害確認部103dが、図7に太字で示されるアクセスルートを確認すると、正常なら、コントローラ501へのアクセスルートは正常である。異常なら、コントローラ501へのアクセスルートは異常である。
ここで、自経路と他経路との両方が異常な場合、コントローラ501は異常である。
なお、コントローラ(他経路)に対する障害確認部103dは、記憶装置500の内部の処理を伴う。この場合において、例えば、UNIX(登録商標)のUSCSIコマンドのSEND DIAGNOSTIC/RECEIVE DIAGNOSTICを利用して、コントローラ501とコントローラ502との間を互いに通信している。
図8は、中継器及び中継器前伝送路に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。そして、通常アクセスを実行したアクセスルートと異なるアクセスルートを経由したテスト用アクセスを実行する。
中継器及び中継器前伝送路に対する障害確認部103eが、図8に太字で示される2つのアクセスルートを確認すると、左側が正常なら、コントローラ501への左側のアクセスルートは正常である。左側が異常なら、コントローラ501への左側のアクセスルートは異常である。右側が正常なら、コントローラ501への右側のアクセスルートは正常である。右側が異常なら、コントローラ501への右側のアクセスルートは異常である。
ここで、左側が正常で右側が異常なら、アダプタ201と伝送路L13との中で、何れかが異常である。右側が正常で左側が異常なら、アダプタ101と伝送路L11との中で、何れかが異常である。
図9は、中継器及び中継器後伝送路に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。そして、通常アクセスを実行したアクセスルートと異なるアクセスルートを経由したテスト用アクセスを実行する。
中継器及び中継器後伝送路に対する障害確認部103fが、図9に太字で示される2つのアクセスルートを確認すると、左側が正常なら、コントローラ501への左側のアクセスルートは正常である。左側が異常なら、コントローラ501への左側のアクセスルートは異常である。右側が正常なら、コントローラ502への右側のアクセスルートは正常である。右側が異常なら、コントローラ502への右側のアクセスルートは異常である。
ここで、左側が正常で右側が異常なら、伝送路L16とコントローラ502との中で、何れかが異常である。右側が正常で左側が異常なら、伝送路L15とコントローラ501との中で、何れかが異常である。
以上において、例えば、コントローラ(他経路)に対する障害確認部103d以外の他の障害確認部は、UNIXのUSCSIコマンドのTEST UNIT READYを利用している。
以下に、上述した各障害確認部を利用して、障害箇所の特定の処理を説明する。
図10は、第1の実施の形態の処理の例を示すフローチャートの前半である。
[S11]障害特定部103が、初期設定として既に記憶しているアクセスルート情報を取得する。なお、アクセスルート情報は、設定ファイルに指定できる。ここで、アクセスルート情報とは、スタートポイントからエンドポイントまでのアクセスルートに、何が存在するかの情報である。
[S12]障害特定部103が、初期設定として既に記憶している各構成要素に対する障害確認部を取得する。なお、実行する順番に、各構成要素に対する障害確認部を後述する設定ファイルに記載できる。
[S13]障害特定部103の中の記憶装置本体に対する障害確認部103aが、記憶装置本体503までの障害の有無を判断する。障害が存在する場合、他の構成要素を確認するため、S15へ進む。障害が存在しない場合、次のアクセスルートを確認するため、S11へ進む。
[S15]記憶装置本体503自体の障害の場合、障害特定部103が、アクセスルート切替部104に、障害の存在を通知する。
[S16]障害特定部103の中のアダプタに対する障害確認部103bが、アダプタ101までの障害の有無を判断する。障害が存在する場合、アダプタ101の障害が発見されたため、S17へ進む。障害が存在しない場合、他の構成要素を確認するため、S18へ進む。
[S17]障害特定部103が、アダプタ101の障害を確認する。そして、次のアクセスルートを確認するため、S11へ進む。
[S18]障害特定部103の中の自経路でのコントローラに対する障害確認部103cが、コントローラ501までの障害の有無を判断する。障害が存在する場合、他の構成要素を確認するため、S20へ進む。障害が存在しない場合、記憶装置本体503の障害が発見されたため、S19へ進む。
[S19]障害特定部103が、記憶装置本体503の障害を確認する。そして、次のアクセスルートを確認するため、S11へ進む。
[S20]障害特定部103が、伝送路L11、L15と中継器300とコントローラ501との中の何れかの障害を確認する。そして、図11のAへ進む。
図11は、第1の実施の形態の処理の例を示すフローチャートの後半である。
[S21]図10のAから、障害特定部103の中の他経路でのコントローラに対する障害確認部103dが、コントローラ501までの障害の有無を判断する。障害が存在する場合、コントローラ501の障害が発見されたため、S22へ進む。障害が存在しない場合、他の構成要素を確認するため、S23へ進む。
[S22]障害特定部103が、コントローラ501の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S23]障害特定部103が、伝送路L11、L15と中継器300との中の何れかの障害を確認する。
[S24]障害特定部103の中の中継器及び中継器前伝送路に対する障害確認部103eが、伝送路L13までの障害の有無を判断する。障害が存在する場合、他の構成要素を確認するため、S26へ進む。障害が存在しない場合、伝送路L11の障害が発見されたため、S25へ進む。
[S25]障害特定部103が、伝送路L11の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S26]障害特定部103が、伝送路L15と中継器300との中の何れかの障害を確認する。
[S27]障害特定部103の中の中継器及び中継器後伝送路に対する障害確認部103fが、伝送路L16までの障害の有無を判断する。障害が存在する場合、中継器300の障害が発見されたため、S28へ進む。障害が存在しない場合、伝送路L15の障害が発見されたため、S29へ進む。
[S28]障害特定部103が、中継器300の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S29]障害特定部103が、伝送路L15の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
このようにすると、障害箇所の特定を自動で正確に実行できる。これによって、コンピュータシステムの保守者による障害箇所の特定ミスを未然に防止できる。そして、保守に対する大幅な効率化を図ることができる。
以下に、障害箇所を含むアクセスルートを障害箇所を含まないアクセスルートへ変更する場合について説明する。
図12は、通信テーブルの例を示す図である。
通信テーブル60は、名称と使用伝送路と通信状況とから構成される。名称は、アクセスルートの名称である。使用伝送路は、名称に関係するアクセスルートが使用する伝送路である。通信状況は、名称に関係するアクセスルートの状況である。なお、通信状況は、アクセスルートが運用されている場合運用用となり、アクセスルートが待機している場合待機用となり、アクセスルートがアクセスルートを診断する目的の場合診断用となる。
ここで、運用用と診断用と待機用との図12の記載は、第1の実施の形態の初期値である。通信1は、伝送路L11、L15を使用し、運用用である。通信2は、伝送路L11、L16を使用し、診断用である。通信3は、伝送路L12、L17を使用し、診断用である。通信4は、伝送路L12、L18を使用し、待機用である。通信5は、伝送路L13、L15を使用し、運用用である。通信6は、伝送路L13、L16を使用し、診断用である。通信7は、伝送路L14、L17を使用し、診断用である。通信8は、伝送路L14、L18を使用し、待機用である。
アクセスルート切替部104、204は、第1のコンピュータ100と第2のコンピュータ200と記憶装置500とが接続された場合、通信テーブル60を作成する。記憶装置500に対し入出力が始まると、障害特定部103、203の障害情報により、障害箇所交換時に障害箇所が存在するアクセスルートにコンピュータがアクセスしないように、障害箇所が存在するアクセスルートを障害箇所が存在しないアクセスルートに切り替える。
図13は、アクセスルート情報の例を示す図である。
アクセスルート情報80は、第1のコンピュータ表現部81と第2のコンピュータ表現部82とから表現される。第1のコンピュータ表現部81は、第1のコンピュータ100に関係するアクセスルートを表現する。第2のコンピュータ表現部82は、第2のコンピュータ200に関係するアクセスルートを表現する。
さらに、存在するアクセスルート情報80は、アダプタ表現部83と中継器表現部84とコントローラ表現部85とから表現される。アダプタ表現部83は、アクセスルートが利用しているアダプタを表現する。中継器表現部84は、アクセスルートが利用している中継器を表現する。コントローラ表現部85は、アクセスルートが利用しているコントローラを表現する。
これらのアクセスルート情報80は、OS(Operating System)内で定義されている。
なお、障害情報は、図13の情報を利用する。
図14は、アクセスルート選択情報の例を示す図である。もともと複数存在するアクセスルートを1つの仮想デバイスとして見せている。
アクセスルート選択情報90は、仮想デバイス名91と仮想デバイス番号92と第1の名称93と第2の名称94とユーザ用名称95と第1の予備の名称96と第2の予備の名称97とから表現される。
仮想デバイス名91は、仮想デバイスの名称である。仮想デバイス番号92は、仮想デバイス名91に関係する仮想デバイスの番号である。第1の名称93は、仮想デバイス名91に関係する仮想デバイスにされるアクセスルートの名称である。第2の名称94は、仮想デバイス名91に関係する仮想デバイスにされるアクセスルートの名称である。なお、通常は第1の名称93に関係するアクセスルートが仮想デバイスになる。ユーザ用名称95は、仮想デバイスにされるアクセスルートのユーザ用の名称である。第1の予備の名称96は、仮想デバイスを利用しない場合において、第1の名称93に関係するアクセスルートのユーザ用の名称である。第2の予備の名称97は、仮想デバイスを利用しない場合において、第2の名称94に関係するアクセスルートのユーザ用の名称である。
図15は、障害情報の表現の例を示す図である。
障害情報600は、障害名称601と障害説明開始部602と第1の障害説明部603と第2の障害説明部604と障害説明終了部605とから表現される。
障害名称601は、障害が検出されたアクセスルートの名称である。障害説明開始部602は、障害の説明の開始を宣言する。第1の障害説明部603において、cmd_flag=3の場合アダプタ101以外の障害であり、cmd_flag=1の場合アダプタ101の障害である。第2の障害説明部604において、es_key=0x4の場合記憶装置500以外の障害であり、es_key=0x3の場合記憶装置500の障害である。es_key=0x4、es_key=0x3の場合、記憶装置500のコントローラが障害特定部103へ報告する。なお、この機能はそもそも記憶装置500が有している。障害説明終了部605は、障害の説明の終了を宣言する。
図16は、アダプタに対するアクセスルート切替部の処理の例を示す図である。
障害特定部103によりアダプタ101が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信2である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信2を停止させる。
図17は、コントローラに対するアクセスルート切替部の処理の例を示す図である。
障害特定部103によりコントローラ501が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1、通信3、通信5及び通信7である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信3を停止させる。アクセスルート切替部104、204は、通信5を停止させ、通信8を運用用にする。アクセスルート切替部104、204は、通信7を停止させる。
図18は、中継器前の伝送路に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により伝送路L11が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信2である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信2を停止させる。
図19は、中継器に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により中継器300が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1、通信2、通信5及び通信6である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信2を停止させる。アクセスルート切替部104、204は、通信5を停止させ、通信8を運用用にする。アクセスルート切替部104、204は、通信6を停止させる。
図20は、中継器後の伝送路に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により伝送路L15が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信5である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信5を停止させ、通信8を運用用にする。
このようにすると、構成要素の交換の際、コンピュータシステムに対する操作が不要となるため、操作ミスが起こり得ない。また、コンピュータシステムの知識が少ない人でも、構成要素の交換を実行しやすい。
そして、通常業務において、処理性能を落とすことのない継続運用可能な高信頼性のコンピュータシステムを実現できる。
[第2の実施の形態]
以下に、第1の実施の形態と比較して、各構成要素に対する障害確認部の起動の順序が記憶されている設定ファイルを利用する場合について説明する。
図21は、第2の実施の形態のシステム構成図である。
第2の実施の形態のシステム構成図は、第1の実施の形態と比較して、第1のコンピュータ100が第1のコンピュータ100zに変化し、第2のコンピュータ200が第2のコンピュータ200zに変化し、障害特定部103が障害特定部103zに変化し、障害特定部203が障害特定部203zに変化している。そして、第1のコンピュータ100zと第2のコンピュータ200zとに設定ファイル50が追加されている。
第1の実施の形態と第2の実施の形態との関係において、障害特定部103z、203zを除いた構成要素の名称が同一の場合は構成要素の機能も同一である。設定ファイル50は、各構成要素に対する障害確認部の起動の順序を記憶する。そして、障害特定部103z、203zにより参照される。
図22は、設定ファイルの例を示す図である。各構成要素に対する障害確認部の起動の順序を設定ファイルに指定する。
設定ファイル50は、構成要素名と障害確認部の略称と異常応答時の障害箇所と正常応答時の障害箇所とから構成される。構成要素名は、構成要素の名称である。障害確認部の略称は、構成要素名に関係する構成要素の障害を確認する手段の略称である。異常応答時の障害箇所は、構成要素名に関係する構成要素が異常である場合、障害を発生させている構成要素である。正常応答時の障害箇所は、構成要素名に関係する構成要素が正常である場合、障害を発生させている構成要素である。
具体的には、実行する順番に、各構成要素に対する障害確認部の起動の順序を設定ファイル50に記載する。図10と図11との処理を設定ファイル50に記載すると、図22のようになる。
設定ファイル50は、記憶装置本体に対する障害確認部51、アダプタに対する障害確認部52、コントローラ(自経路)に対する障害確認部53、コントローラ(他経路)に対する障害確認部54、中継器及び中継器前伝送路に対する障害確認部55、中継器及び中継器後伝送路に対する障害確認部56から構成される。
記憶装置本体に対する障害確認部51は、記憶装置本体503という構成要素に対して障害確認を実行し、(a)と略称される。
アダプタに対する障害確認部52は、アダプタ101という構成要素に対して障害確認を実行し、(b)と略称され、異常応答時にはアダプタ101を障害箇所とする。
コントローラ(自経路)に対する障害確認部53は、コントローラ501という構成要素に対して障害確認を実行し、(c)と略称され、正常応答時には記憶装置本体503を障害箇所とする。
コントローラ(他経路)に対する障害確認部54は、コントローラ501という構成要素に対して障害確認を実行し、(d)と略称され、異常応答時にはコントローラ501を障害箇所とし、正常応答時には伝送路L11、L15及び中継器300を障害箇所とする。
中継器及び中継器前伝送路に対する障害確認部55は、中継器300という構成要素に対して障害確認を実行し、(e)と略称され、異常応答時には中継器300を障害箇所とし、正常応答時には伝送路L11を障害箇所とする。
中継器及び中継器後伝送路に対する障害確認部56は、伝送路L16という構成要素に対して障害確認を実行し、(f)と略称され、異常応答時には中継器300を障害箇所とし、正常応答時には伝送路L15を障害箇所とする。
このように、設定ファイル50を使用すれば、テスト用アクセスを自由に実行でき、構成要素の構成が複雑なコンピュータシステムの場合でも、障害箇所の細かい特定が容易になる。そして、構成要素の障害の原因も特定しやすくなる。
具体的には、既存のコンピュータシステムにHub等の中継器を追加した場合、その構成要素がコンピュータから障害確認可能な機能を有していれば、その構成要素を設定ファイル50に追加することで、障害箇所の自動特定が可能になる。
[第3の実施の形態]
以下に、第1の実施の形態と比較して、記憶装置が1つから2つに増加した場合について説明する。
図23は、第3の実施の形態のシステム構成図である。
第3の実施の形態のシステム構成図は、第1のコンピュータ100と第2のコンピュータ200と中継器300、400と第1の記憶装置510と第2の記憶装置520と伝送路L11、L12、L13、L14、L15、L16、L17、L18、L19、L20、L21、L22とから構成される。第1のコンピュータ100と第2のコンピュータ200とは、ユーザの端末装置であり、ユーザのサービス要求に応答するか、ユーザのサービス要求をサーバに送信する。中継器300、400は、第1のコンピュータ100と第2のコンピュータ200と第1の記憶装置510と第2の記憶装置520とを、互いに接続する。第1の記憶装置510は、第1のコンピュータ100と第2のコンピュータ200とから、データを記憶させられる。第2の記憶装置520は、第1のコンピュータ100と第2のコンピュータ200とから、データを記憶させられる。第1のコンピュータ100と第2のコンピュータ200と中継器300、400と第1の記憶装置510と第2の記憶装置520とは、伝送路L11、L12、L13、L14、L15、L16、L17、L18、L19、L20、L21、L22を介して、互いに通信している。
第1のコンピュータ100については、第1の実施の形態で示した通りである。
第2のコンピュータ200については、第1の実施の形態で示した通りである。
第1の記憶装置510は、コントローラ511、512と記憶装置本体513とから構成される。コントローラ511、512は、第1の記憶装置510をネットワークに接続する。記憶装置本体513は、第1の記憶装置510の本体である。コントローラ511、512と記憶装置本体513とは、互いに通信している。
第2の記憶装置520は、コントローラ521、522と記憶装置本体523とから構成される。コントローラ521、522は、第2の記憶装置520をネットワークに接続する。記憶装置本体523は、第2の記憶装置520の本体である。コントローラ521、522と記憶装置本体523とは、互いに通信している。
図24は、通信テーブルの例を示す図である。
通信テーブル70は、名称と使用伝送路と通信状況とから構成される。名称は、アクセスルートの名称である。使用伝送路は、名称に関係するアクセスルートが使用する伝送路である。通信状況は、名称に関係するアクセスルートの状況である。なお、通信状況は、アクセスルートが運用されている場合運用用となり、アクセスルートが待機している場合待機用となり、アクセスルートがアクセスルートを診断する目的の場合診断用となる。
ここで、運用用と診断用と待機用との図24の記載は、第3の実施の形態の初期値である。通信1は、伝送路L11、L15を使用し、運用用である。通信2は、伝送路L11、L16を使用し、診断用である。通信3は、伝送路L11、L17を使用し、運用用である。通信4は、伝送路L11、L18を使用し、診断用である。通信5は、伝送路L12、L19を使用し、診断用である。通信6は、伝送路L12、L20を使用し、待機用である。通信7は、伝送路L12、L21を使用し、診断用である。通信8は、伝送路L12、L22を使用し、待機用である。通信9は、伝送路L13、L15を使用し、運用用である。通信10は、伝送路L13、L16を使用し、診断用である。通信11は、伝送路L13、L17を使用し、運用用である。通信12は、伝送路L13、L18を使用し、診断用である。通信13は、伝送路L14、L19を使用し、診断用である。通信14は、伝送路L14、L20を使用し、待機用である。通信15は、伝送路L14、L21を使用し、診断用である。通信16は、伝送路L14、L22を使用し、待機用である。
アクセスルート切替部104、204は、第1のコンピュータ100と第2のコンピュータ200と第1の記憶装置510と第2の記憶装置520とが接続された場合、通信テーブル70を作成する。第1の記憶装置510と第2の記憶装置520とに対し入出力が始まると、障害特定部103、203の障害情報により、障害箇所交換時に障害箇所が存在するアクセスルートにコンピュータがアクセスしないように、障害箇所が存在するアクセスルートを障害箇所が存在しないアクセスルートに切り替える。
図25は、中継器後の伝送路に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により伝送路L15が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信9である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信6を運用用にする。アクセスルート切替部104、204は、通信9を停止させ、通信14を運用用にする。
図26は、図25の場合による通信テーブルの変化を示す図である。
通信テーブル70において、通信1が停止に、通信6が運用用に、通信9が停止に、通信14が運用用に変化する。
図27は、コントローラに対するアクセスルート切替部の処理の例を示す図である。
障害特定部103によりコントローラ511が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1、通信5、通信9及び通信13である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信6を運用用にする。アクセスルート切替部104、204は、通信5を停止させる。アクセスルート切替部104、204は、通信9を停止させ、通信14を運用用にする。アクセスルート切替部104、204は、通信13を停止させる。
図28は、図27の場合による通信テーブルの変化を示す図である。
通信テーブル70において、通信1が停止に、通信6が運用用に、通信5が停止に、通信9が停止に、通信14が運用用に、通信13が停止に変化する。
このようにすると、構成要素の交換の際、コンピュータシステムに対する操作が不要となるため、操作ミスが起こり得ない。また、コンピュータシステムの知識が少ない人でも、構成要素の交換を実行しやすい。
そして、通常業務において、処理性能を落とすことのない継続運用可能な高信頼性のコンピュータシステムを実現できる。
図29は、コンピュータのハードウェア構成の例を示す図である。コンピュータ800は、CPU(Central Processing Unit)801によって装置全体が制御されている。CPU801には、バス807を介してRAM(Random Access Memory)802、ハードディスクドライブ(HDD:Hard Disk Drive)803、グラフィック処理装置804、入力インタフェース805、および通信インタフェース806が接続されている。
RAM802には、CPU801に実行させるOSのプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM802には、CPU801による処理に必要な各種データが格納される。HDD803には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置804には、モニタ901が接続されている。グラフィック処理装置804は、CPU801からの命令に従って、画像をモニタ901の画面に表示させる。入力インタフェース805には、キーボード902とマウス903とが接続されている。入力インタフェース805は、キーボード902やマウス903から送られてくる信号を、バス807を介してCPU801に送信する。
通信インタフェース806は、ネットワーク904に接続されている。通信インタフェース806は、ネットワーク904を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、障害解析装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
(付記1) 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析装置において、
前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする障害検出手段と、
前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外する障害診断手段と、
前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とする障害特定手段と、
前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるアクセスルート切替手段と、
を有することを特徴とする障害解析装置。
(付記2) 前記障害診断手段は、テスト用アクセスの起動の順序が記憶されている設定ファイルを参照し、前記設定ファイルで示される順序で前記テスト用アクセスを実行することを特徴とする付記1記載の障害解析装置。
(付記3) 前記障害診断手段は、前記通常アクセスを実行したアクセスルートの一部の構成要素を経由したアクセスルートで前記テスト用アクセスを実行することを特徴とする付記1記載の障害解析装置。
(付記4) 前記障害診断手段は、前記通常アクセスを実行したアクセスルートと異なる構成要素を経由したアクセスルートで前記テスト用アクセスを実行することを特徴とする付記1記載の障害解析装置。
(付記5) 前記複数の装置は、記憶装置と前記記憶装置に対してネットワーク経由でアクセスするコンピュータであり、前記情報機器には、前記記憶装置内でデータを記憶する装置本体、前記装置本体を制御するコントローラ、前記ネットワーク上でデータを中継する中継器及び前記コンピュータにおいて通信を制御するアダプタが含まれることを特徴とする付記1記載の障害解析装置。
(付記6) コンピュータにより、複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析方法において、
障害検出手段が、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段が、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段が、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段が、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
ことを特徴とする障害解析方法。
(付記7) 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析プログラムにおいて、
コンピュータに、
障害検出手段は、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段は、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段は、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段は、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
処理を実行させることを特徴とする障害解析プログラム。
(付記8) 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析プログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータに、
障害検出手段は、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段は、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段は、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段は、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
処理を実行させることを特徴とする障害解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
本発明の概念図である。 第1の実施の形態のシステム構成図である。 障害特定部の例を示す図である。 記憶装置本体に対する障害確認部の処理の例を示す図である。 アダプタに対する障害確認部の処理の例を示す図である。 コントローラ(自経路)に対する障害確認部の処理の例を示す図である。 コントローラ(他経路)に対する障害確認部の処理の例を示す図である。 中継器及び中継器前伝送路に対する障害確認部の処理の例を示す図である。 中継器及び中継器後伝送路に対する障害確認部の処理の例を示す図である。 第1の実施の形態の処理の例を示すフローチャートの前半である。 第1の実施の形態の処理の例を示すフローチャートの後半である。 通信テーブルの例を示す図である。 存在するアクセスルートの表現の例を示す図である。 アクセスルート情報の表現の例を示す図である。 障害情報の表現の例を示す図である。 アダプタに対するアクセスルート切替部の処理の例を示す図である。 コントローラに対するアクセスルート切替部の処理の例を示す図である。 中継器前の伝送路に対するアクセスルート切替部の処理の例を示す図である。 中継器に対するアクセスルート切替部の処理の例を示す図である。 中継器後の伝送路に対するアクセスルート切替部の処理の例を示す図である。 第2の実施の形態のシステム構成図である。 設定ファイルの例を示す図である。 第3の実施の形態のシステム構成図である。 通信テーブルの例を示す図である。 中継器後の伝送路に対するアクセスルート切替部の処理の例を示す図である。 図25の場合による通信テーブルの変化を示す図である。 コントローラに対するアクセスルート切替部の処理の例を示す図である。 図27の場合による通信テーブルの変化を示す図である。 コンピュータのハードウェア構成の例を示す図である。 従来のシステム構成図における障害への対応の例を示す図である。
符号の説明
10 コンピュータ
11 障害解析装置
11a 障害検出手段
11b 障害診断手段
11c 障害特定手段
11d アクセスルート切替手段
12 アダプタ
13 アダプタ
20 中継器
30 中継器
40 装置
41 コントローラ
42 コントローラ
43 装置本体
L1 伝送路
L2 伝送路
L3 伝送路
L4 伝送路
L5 伝送路
L6 伝送路
L7 伝送路
L8 伝送路

Claims (5)

  1. 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析装置において、
    前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする障害検出手段と、
    前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を前記障害箇所候補から除外する障害診断手段と、
    前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とする障害特定手段と、
    前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるアクセスルート切替手段と、
    を有することを特徴とする障害解析装置。
  2. 前記障害診断手段は、テスト用アクセスの起動の順序が記憶されている設定ファイルを参照し、前記設定ファイルで示される順序で前記テスト用アクセスを実行することを特徴とする請求項1記載の障害解析装置。
  3. 前記障害診断手段は、前記通常アクセスを実行したアクセスルートの一部の構成要素を経由したアクセスルートで前記テスト用アクセスを実行することを特徴とする請求項1記載の障害解析装置。
  4. 前記障害診断手段は、前記通常アクセスを実行したアクセスルートと異なる構成要素を経由したアクセスルートで前記テスト用アクセスを実行することを特徴とする請求項1記載の障害解析装置。
  5. コンピュータにより、複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析方法において、
    障害検出手段が、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
    障害診断手段が、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
    障害特定手段が、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
    アクセスルート切替手段が、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
    ことを特徴とする障害解析方法。
JP2004380071A 2004-12-28 2004-12-28 障害解析装置及び障害解析方法 Withdrawn JP2006185312A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004380071A JP2006185312A (ja) 2004-12-28 2004-12-28 障害解析装置及び障害解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004380071A JP2006185312A (ja) 2004-12-28 2004-12-28 障害解析装置及び障害解析方法

Publications (1)

Publication Number Publication Date
JP2006185312A true JP2006185312A (ja) 2006-07-13

Family

ID=36738368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004380071A Withdrawn JP2006185312A (ja) 2004-12-28 2004-12-28 障害解析装置及び障害解析方法

Country Status (1)

Country Link
JP (1) JP2006185312A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114360A1 (ja) * 2007-03-16 2008-09-25 Fujitsu Limited ストレージシステム、ストレージ装置、ファームウェアの活***換方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114360A1 (ja) * 2007-03-16 2008-09-25 Fujitsu Limited ストレージシステム、ストレージ装置、ファームウェアの活***換方法
US8010713B2 (en) 2007-03-16 2011-08-30 Fujitsu Limited Storage system, storage apparatus, and method for hot swapping of firmware

Similar Documents

Publication Publication Date Title
JP4107083B2 (ja) 高可用ディスク制御装置とその障害処理方法及び高可用ディスクサブシステム
JP4480756B2 (ja) ストレージ管理装置、ストレージシステム制御装置、ストレージ管理プログラム、データ記憶システムおよびデータ記憶方法
USRE42703E1 (en) System and method for fibrechannel fail-over through port spoofing
US7315963B2 (en) System and method for detecting errors in a network
US7302615B2 (en) Method and system for analyzing loop interface failure
US9075542B2 (en) Storage system
JP2006285919A (ja) 計算機システム、計算機及びリモートコピー処理方法
KR100672885B1 (ko) 정보 처리 시스템, 스토리지 장치, 및 스토리지 제어 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2005165618A (ja) ストレージシステムの制御方法、ストレージシステム、及び記憶装置
WO2001029647A1 (fr) Systeme de reseau de zone a memoire
JP2008299481A (ja) ストレージシステム及び複数拠点間でのデータコピー方法
CN107947976A (zh) 故障节点隔离方法及集群***
JP2006139477A (ja) 計算機システム、管理方法及びストレージネットワークシステム
US20050278712A1 (en) Selecting a processor to run an executable of a distributed software application upon startup of the distributed software application
JP2006313410A (ja) ストレージネットワークの管理情報管理方法、ストレージ管理システム及びストレージ管理ソフトウェア
JP4641714B2 (ja) 遠隔監視システム
CN101714064B (zh) 数据存取方法及服务器
JP2006185312A (ja) 障害解析装置及び障害解析方法
US8347051B2 (en) Storage apparatus, backup apparatus, and backup method
US7409605B2 (en) Storage system
JP5067075B2 (ja) 疎結合システム、待機系排他制御装置、疎結合システムのリカバリ方法、プログラムおよび記憶媒体
JP5651004B2 (ja) 計算機切替システム、計算機切替プログラム、および計算機切替方法
JP3781369B2 (ja) 記憶サブシステム
JP2007128551A (ja) ストレージエリアネットワークシステム
JP4241405B2 (ja) コンピュータシステムおよびi/oリトライ方法ならびにプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304