JP2001188765A

JP2001188765A - 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法

Info

Publication number: JP2001188765A
Application number: JP2000325790A
Authority: JP
Inventors: R Gensler Robert Jr; ロバート・アール・ゲンスラー・ジュニア; A Schmidt Michael; マイケル・エイ・シュミット
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-10-28
Filing date: 2000-10-25
Publication date: 2001-07-10
Anticipated expiration: 2020-10-25
Also published as: US6651183B1; GB2363488A; GB0025622D0; JP4215384B2; GB2363488B

Abstract

(57)【要約】【課題】【解決手段】複数の処理ノードを有する分散コンピュ
ーティング環境で、複数の関係する障害を表す障害情報
を参照する技法を提示する。第１障害レポートは、分散
コンピューティング環境内で稼動する第１プログラムで
の初期障害状態の検出時に作成される。第１プログラム
障害レポートに、そのレポートを一意に識別する第１識
別子が割り当てられる。第１プログラム障害状態に関係
する第２プログラム障害が第２ノードで検出された時
に、第２プログラム障害状態に関する情報を記録するこ
とによって第２プログラム障害レポートが作成される。
第１プログラム障害レポートの第１識別子への参照を含
む第２プログラム障害レポートを一意に識別する第２識
別子が、第２プログラム障害レポートに割り当てられ
る。したがって、第２識別子を使用して第２プログラム
障害レポートを取り出した後に、第１識別子を使用して
第１プログラム障害レポートを取り出すことができる。
したがって、関係するプログラム障害のチェーンに関す
るレポートを作成し、後で参照することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、全般的には、複数
の処理ノードを有する分散コンピューティング環境に関
し、具体的には、分散コンピューティング環境内の、そ
の環境の複数のノードのうちの同一または異なるノード
で発生する複数の関係する障害状態を表す障害情報を参
照する技法に関する。

【０００２】

【従来の技術】分散システムは、複雑で動的なコンポー
ネント相互依存性に起因して管理が困難であることがし
ばしばである。マネージャが、分散システムで使用さ
れ、システム内のコンポーネントのアクティビティおよ
び現行状態に関する情報の取得、総合管理ポリシによる
決定、およびコンポーネントの挙動を変更する制御処置
の実行の責任を負う。一般に、マネージャは、分散シス
テム内で５つの機能すなわち、構成、パフォーマンス、
アカウンティング、セキュリティ、および障害管理を実
行する。

【０００３】これらの５つの機能のどれもが、複雑な分
散システムで発生する障害の診断に特に適してはいな
い。手動管理を使用する障害の診断は、時間がかかり、
分散システムの詳しい知識を必要とする。また、あるシ
ステムのリソース制限が別のシステムでの性能低下を引
き起こす可能性があり、これは分散アプリケーションの
アーキテクチャおよびコンポーネントが一緒に働く方法
に精通していなければ明白ではないので、分散環境での
障害の切りわけは困難である。

【０００４】分散コンピューティング環境では、多くの
ソフトウェア・コンポーネントが、エンドユーザに機能
を提供するために独立の形で使用される。エンドユーザ
は、さまざまなコンポーネントの相互依存性を意識せ
ず、その環境が期待される機能を提供することだけを知
っていることがしばしばである。コンポーネントは、分
散コンピューティング環境のさまざまな計算ノードにま
たがって分散される可能性がある。コンポーネントが障
害を経験する場合に、この障害は、分散コンピューティ
ング環境全体に波及し、特定の機能について、障害を発
生したコンポーネントに依存するコンポーネントの障害
を引き起こす可能性がある。この波及効果は、最終的に
エンドユーザが期待する機能を拒否されるまで、コンポ
ーネントがそれに依存するコンポーネントの機能に影響
しながら継続する。

【０００５】

【発明が解決しようとする課題】この環境での課題は、
許容可能な時間期間内にできる限り問題の根本原因（こ
の場合では元の障害を発生したコンポーネント）の近く
まで、症状（この場合では期待される機能の拒否）から
障害状態をトレースすることである。この努力を複雑に
しているのが、分散コンピューティング環境内に同時に
複数の障害状態が存在する可能性があるという事実であ
る。根本原因を正しく識別するために、問題の障害症状
に関係する障害状態を識別しなければならず、これらの
障害状態に関係する情報を収集しなければならない。関
係しない障害状態は、分析から除去しなければならな
い。というのは、これらの状態の修理が、問題の障害症
状の修理につながらないからである。今までは、これら
の関係する障害を識別するには、分散コンピューティン
グ環境、その実施形態、およびそのコンポーネントの相
互依存性の詳しい知識が必要であった。このレベルの知
識がある場合でも、問題判定の努力は、問題の障害状態
の根本原因がどこにあるかに関する問題調査者の「最善
推測」に基づく非決定的な努力である。分散コンピュー
ティング環境が大きく、複雑になればなるほど、より多
くのコンポーネントが環境に導入され、障害の原因がど
こにあるかを信頼性のある形で「推測」することがます
ます困難になる。問題判定の努力を行うのに必要な知識
は、分散コンピューティング環境の製造者だけが有し、
分散コンピューティング環境管理者が障害を効率的に識
別し、解決することが困難になっている。

【０００６】

【課題を解決するための手段】簡単に要約すると、本発
明には、一態様で、複数のノードを有する分散コンピュ
ーティング環境で障害情報を参照する方法が含まれる。
この方法には、分散コンピューティング環境のノードで
の障害状態の検出時に障害状態に関する情報を記録する
ことによって障害レポートを作成するステップと、障害
レポートに識別子を割り当て、ノードで障害レポートを
記憶するステップとが含まれ、識別子は、障害レポート
を作成した分散コンピューティング環境内のノードと、
そのノードに関連する記憶装置内で障害レポートが配置
される場所を含む障害レポートを一意に識別する。

【０００７】もう１つの態様では、本発明には、複数の
ノードを有する分散コンピューティング環境内で障害情
報を参照する方法が含まれる。この方法には、第１ノー
ドでの第１プログラム障害状態の検出時に第１プログラ
ム障害レポートを作成するステップと、第１プログラム
障害レポートを作成した分散コンピューティング環境内
のノードおよびそのノードに関連する記憶装置内で第１
プログラム障害レポートが配置される場所を含む第１プ
ログラム障害レポートを一意に識別する第１識別子を第
１プログラム障害レポートに割り当てるステップと、第
１プログラム障害状態に関係する第２ノードでの第２プ
ログラム障害状態の検出時に第２プログラム障害レポー
トを作成するステップであって、第２プログラム障害レ
ポートが、第２ノードで第２プログラム障害状態に関す
る情報を記録することによって作成され、第２ノードお
よび第１ノードが、分散コンピューティング環境内の同
一ノードまたは異なるノードを含むことができるステッ
プと、第２プログラム障害レポートを作成する分散コン
ピューティング環境内の第２ノード、第２ノードに関連
する記憶装置内で第２プログラム障害レポートが配置さ
れる場所、および第２プログラム障害状態に関係する第
１プログラム障害状態に関する第１プログラム障害レポ
ートの第１識別子を含む第２プログラム障害レポートを
一意に識別する第２識別子を第２プログラム障害レポー
トに割り当てるステップとが含まれる。

【０００８】分散コンピューティング環境内で障害情報
を参照する、上で要約した方法を実行するために機械に
よって実行可能な命令の少なくとも１つのプログラムを
具体的に実施する、システムおよび機械によって可読の
少なくとも１つのプログラム記憶装置も、本明細書に記
載され、請求される。

【０００９】言い換えると、提示されるのは、分散コン
ピューティング環境内で障害情報を参照する技法であ
る。環境のすべてのコンポーネントからアクセス可能な
持続記憶装置を使用する。システム・コンポーネントに
よって検出され、持続記憶装置に記録される障害のレポ
ートは、障害状態の性質、状態の可能な原因、およびそ
の状態に応答して行われることが推奨される処置を記述
することが好ましい。識別子トークンが割り当てられ、
これによって、分散コンピューティング環境内でレコー
ドが存在する位置と、レコードが存在するノードの持続
記憶装置内の位置を含む、障害状態に関する特定の障害
レポートが一意に識別される。この識別子を使用して、
障害レポートを、分散コンピューティング環境内のどの
位置からでも突きとめることができ、問題判定および解
決策分析に使用するために取り出すことができる。この
識別子は、コンポーネントの応答情報の一部として、環
境の関係するコンポーネントの間で渡される。あるコン
ポーネントが、別のコンポーネントの障害に起因する障
害を経験する場合には、識別子が、第１のコンポーネン
トの応答情報から取得され、第２のコンポーネントの障
害レポートの一部として、記録される情報に含まれる。

【００１０】本発明の原理によれば、障害レコードを検
索するために分散コンピューティング環境問題判定を開
始する位置を推測する、以前の必要が、除去される。エ
ンドユーザ・アプリケーションに供給される一意の障害
識別子によって、問題判定の努力で、障害レポートが分
散コンピューティング環境内のどこにあるかに無関係に
障害レポートを突きとめられるようになる。本発明は、
調査中の状態に関係する障害レポートを識別する必要を
なくす。障害識別子によって、障害レポートが参照さ
れ、その障害レポートによって、それに関連する１つ
（または複数）の他の障害レポートが参照される。関係
するレポートに、別の関係するレポートなどが列挙され
る。したがって、障害に関係する障害レポートを識別す
る必要がなくなる。というのは、各障害レポートに、次
の関係する障害レポートが明示的に列挙されるからであ
る。

【００１１】さらに、分散コンピューティング環境の実
施形態および相互依存性の詳細な理解は、もはや障害状
態のトレースに必要ではなくなる。本発明は、分散コン
ピューティング環境製造者の介入を必要とするのではな
く、問題の判定および解決を実行する能力を分散コンピ
ューティング環境管理者の手に返す。問題判定の努力を
どの特定の点から進めるかの推測は、もはや問題ではな
い。というのは、障害レポートに次の関連する問題が列
挙され、したがって、次に調査を進めるべき場所が列挙
されるからである。関係するリンクが報告されない場合
には、問題判定の努力はその点から開始される。もや
は、根本原因から問題症状を分離する必要はない。ある
問題症状の障害レポートには、その原因に関するレポー
トが具体的に列挙されるか、最低限でも、最終的に根本
原因につながる関係する障害のリスト内の次のリンクが
列挙される。本発明の原理によれば、問題症状は、問題
判定の努力の役に立つ出発点になるが、これは、以前の
システムでは、努力に暗影を投ずるのみであった。問題
症状が、問題の根本原因ではない場合には、障害レポー
トに、問題のチェーン・リストへのリンクが含まれ、最
終的に、問題判定の努力が根本原因に導かれる。

【００１２】

【発明の実施の形態】図１は、本発明と共に使用するこ
とのできる分散コンピュータ・システム１００の概略図
である。分散コンピュータ・システム１００は、米国ニ
ューヨーク州アーモンクのInternational Business Mac
hines Corporationが販売するＩＢＭＲＩＳＣ System/6
000 Scalable POWERparallel Systems（ＳＰ）分散コン
ピュータ・システムとすることができる。図１に開示
された実施形態は、合計８フレームを有し、各フレーム
が１６個までのノードを有し、合計１２８個までのノー
ドを有するＳＰコンピュータ・システムである。ノード
１０６のすべてが、ローカル・エリア・ネットワーク
（ＬＡＮ）１０２によって結合される。ノード１０６の
それぞれは、コンピュータ自体であり、当業者に周知の
通り、ＲＩＳＣSystem/6000ワークステーションとする
ことができる。

【００１３】分散コンピュータ・システム１００の１フ
レーム内のすべてのノードが、１つのＬＡＮセグメント
に含まれ、ＬＡＮセグメントは、ＬＡＮゲート１０４を
介して他のＬＡＮセグメントによって結合される。やは
りＬＡＮ１０２に接続されるのが、コントロール・ワー
クステーション（ＣＷＳ）１１２であり、これは、分散
コンピュータ・システム１００の動作を制御する。コン
トロール・ワークステーションは、システム共用ディス
クと称する、システム・データ・リポジトリ（ＳＤＲ）
ファイルが格納される直接アクセス記憶装置（ＤＡＳ
Ｄ）１１４を有する。ＳＤＲファイルには、システム内
に存在するノードのリストおよびそれらの構成などの情
報が含まれ、ノード１０６のそれぞれのリソース定義お
よびオブジェクト定義が含まれる。各ノード１０６に
も、分散コンピュータ・システム１００によって処理さ
れるデータを格納するためのＤＡＳＤ装置１０７が含ま
れる。

【００１４】一実施形態では、各フレームのノードが、
ＩＢＭ Scalable POWERparallelスイッチ（ＳＰＳ）１
０５にも接続される。各フレームのＳＰＳ１０５のそれ
ぞれが、バス１１０によって、他のフレームの隣接する
ＳＰＳ１０５に接続される。

【００１５】当技術分野で周知の通り、ＣＷＳ１１２
は、ＬＡＮ１０２によって分散コンピュータ・システム
１００のフレームにシステム・データ信号およびシステ
ム制御信号を送り、メッセージおよびデータは、ＳＰＳ
１０５によってあるノード１０６から別のノード１０６
に送ることができる。

【００１６】本発明に対してより具体的に、図２は、本
発明の原理による障害情報参照を使用するための分散コ
ンピューティング環境のノード、ノード・アルファ２０
０の一実施形態を示す図である。ノード・アルファ２０
０には、本発明の原理に従って実施される第１障害デー
タ取込（ＦＦＤＣ）インターフェース２２０と通信する
１つまたは複数のアプリケーション・プログラム２１０
が含まれる。ＦＦＤＣインターフェース２２０は、一例
ではＡＩＸエラー・ロギング・サブシステム２３０を介
してＡＩＸエラー・ログ持続記憶装置２４０へ、また
は、第１障害データ取込エラー・スタック持続記憶装置
２５０へ、障害レポートを格納し、取り出す。代替実施
形態では、ＡＩＸエラー・ログ持続記憶装置２４０およ
び第１障害データ取込エラー・スタック持続記憶装置２
５０に、ノード・アルファ２００内の同一の記憶装置を
含めることができる。第１障害データ取込エラー・スタ
ック持続記憶装置２５０は、通常はＡＩＸエラー・ログ
持続記憶装置２４０に送られないはずの情報を格納する
ことができる。ＡＩＸエラー・ロギング・サブシステム
２３０およびＡＩＸエラー・ログ持続記憶装置２４０
は、International Business Machines Corporationが
提供するＡＩＸ Operating Systemと共に入手可能なコ
ンポーネントである。

【００１７】本発明によれば、障害を検出するハードウ
ェア・デバイス・ドライバおよびソフトウェア・コンポ
ーネントが、本明細書で第１障害データ取込（ＦＦＤ
Ｃ）と称する、明示的に障害の持続的記録のために供給
されるソフトウェア機能を使用して、障害の持続的記録
を行う。ＦＦＤＣは、ノード・アルファ２００がプログ
ラム障害を最初に検出したノードである場合に、そのプ
ログラム障害に初期障害状態または関連障害状態のどち
らが含まれる場合でも、障害レポートを作成する。本明
細書で使用する「関連障害状態」は、分散コンピューテ
ィング環境の同一ノードまたは異なるノードのいずれか
での、別の障害状態の発生から生じる障害である。

【００１８】障害レコードを作成する時に、ＦＦＤＣシ
ステム・コンポーネントが、十分な情報を提供し、その
結果、１）障害が適当に記述され、その結果、後の分析
の努力で障害状態の性質および範囲が理解されるように
なり、２）分散コンピューティング環境製造者にとって
重要な具体的な詳細が記録され、その結果、製造者が、
その状態が存在するようになった理由を理解でき、した
がって、分散コンピューティング環境設計の欠陥のすべ
てを識別でき、修理できるようになることが好ましい。

【００１９】ＦＦＤＣインターフェース２２０は、特定
の障害レポートごとに一意のトークンを計算する。この
トークンを、本明細書では識別子またはＦＦＤＣ障害識
別子（ＦＦＤＣＩＤ）と称するが、これによって、以
下の情報がカプセル化されることが好ましい。障害レポ
ート上で障害が検出された分散コンピューティング環境
内の計算ノード位置が記録される。障害レポートの格納
に使用された持続記憶装置。レコードが存在する持続記
憶装置内の特定の位置。障害レポートが記録された時
刻。

【００２０】ＦＦＤＣ障害識別子は、障害情報を持続記
憶装置に記録する前に、ＦＦＤＣソフトウェアによって
生成される。ＦＦＤＣは、その後、障害情報自体の一部
としてＦＦＤＣ障害識別子を組み込み、障害情報および
そのＦＦＤＣ障害識別子を持続記憶装置に記録する。Ｆ
ＦＤＣ障害識別子は、その後、サービス・コンポーネン
ト、たとえばハードウェア・デバイス・ドライバまたは
ソフトウェア・コンポーネントに送り返され、そのサー
ビス・コンポーネントは、このトークンをクライアント
に供給するか、障害報告情報の一部として使用する。

【００２１】図３は、図２のＦＦＤＣインターフェース
２２０、ＡＩＸエラー・ロギング・サブシステム２３
０、ＡＩＸエラー・ログ持続記憶装置２４０、および第
１障害データ取込エラー・スタック持続記憶装置２５０
を含む、やはり符号２００で示される代替のノード・ア
ルファを示す図である。さらに、図３のノード・アルフ
ァ２００内のアプリケーション・プログラムは、サーバ
・プログラムまたはサービス・アプリケーション・プロ
グラム２１４およびクライアント・アプリケーション・
プログラム２１２によって置換されている。クライアン
ト・アプリケーション・プログラム２１２およびサービ
ス・アプリケーション・プログラム２１４の両方が、Ｆ
ＦＤＣインターフェース２２０と直接にインターフェー
スすることができる。さらに、クライアント・アプリケ
ーション・プログラム２１２は、サービス・アプリケー
ション・プログラムを介してＦＦＤＣインターフェース
と間接的にインターフェースすることができる。たとえ
ば、サービスが障害を経験し、ＦＦＤＣインターフェー
ス２２０から受け取る障害情報をクライアント・アプリ
ケーション・プログラム２１２に返すことができる。

【００２２】図４は、複数のノードすなわち、ノード・
アルファ４００、ノード・ベータ４０１、ノード・ガン
マ４０２、およびノード・デルタ４０３を有する分散コ
ンピューティング環境を示す図である。ノード・アルフ
ァ４００、ノード・ベータ４０１、ノード・ガンマ４０
２、およびノード・デルタ４０３のそれぞれには、ノー
ド間の分散通信およびデータ受け渡しを処理する分散ア
プリケーション・コンポーネント４０５が含まれる。各
ノードのＦＦＤＣインターフェース４２０は、互いに直
接には通信しない。各ノードには、さらに、アプリケー
ション・プログラム４１０ならびに、ＡＩＸエラー・ロ
ギング（Elog）サブシステム４３０、ＡＩＸエラー・ロ
グ記憶装置４４０、およびＦＦＤＣエラー・スタック記
憶装置４５０が含まれる。各ＦＦＤＣインターフェース
４２０は、その特定のノードの持続記憶装置への情報の
記録だけに関係する。やはり、ＦＦＤＣインターフェー
スは、本発明の原理に従う、障害レポートの形での障害
情報の記録および一意の識別子の割当の責任を負う。一
意の識別子は、分散アプリケーション・コンポーネント
を使用してノード間で転送することができる。一実施形
態では、分散アプリケーション・コンポーネント４０５
に、ＩＢＭ社のParallel System Support Program（Ｐ
ＳＳＰ）ソフトウェア、バージョン３．１を含めること
ができる。

【００２３】図５は、本発明の原理による第１障害デー
タ取込（ＦＦＤＣ）インターフェース論理５２０を使用
する、分散コンピューティング環境のノード・アルファ
５００の一実施形態を示す図である。この例では、サー
ビス・アプリケーション・プログラム５１４での初期エ
ラー状態または初期障害状態が発生したと仮定する。や
はり、「初期障害状態」には、障害のチェーンの最初の
障害または根本障害が含まれ、初期障害状態に関係し、
その後に発生する各障害を、「関連障害状態」と称す
る。ＦＦＤＣインターフェース５２０は、サービス・ア
プリケーション・プログラム５１４から保存された障害
情報から障害レコードを作成する。この障害レコード
は、その後、持続記憶装置すなわち、この実施形態で
は、たとえばその情報がシステム操作員に使用可能にさ
れたかどうかに応じて、ＡＩＸエラー・ロギング・サブ
システム５３０を介してＡＩＸエラー・ログ持続記憶装
置５４０または直接に第１障害データ取込エラー・スタ
ック持続記憶装置５５０のいずれかに記録される。障害
位置識別子（ＦＦＤＣＩＤ）は、ＦＦＤＣインターフ
ェース５２０によってサービス・アプリケーション・プ
ログラム５１４に供給され、サービス・アプリケーショ
ン・プログラム５１４は、この識別子を、この場合では
やはりノード・アルファ５００に存在するクライアント
・アプリケーション・プログラム５１２に返すことがで
きる。ＦＦＤＣＩＤまたはアプリケーション障害レコ
ードを供給するほかに、サービス・アプリケーション・
プログラムは、クライアント・アプリケーション・プロ
グラムに、サービス・アプリケーション・プログラム内
でエラーが発生していることの表示も供給する。

【００２４】図６は、図５のノード・アルファで持続記
憶装置に格納するための障害レコードを作成する論理の
一実施形態を示す図である。まず、障害が、ノードでＦ
ＦＤＣインターフェースの上の層で検出される（５６
０）。障害状態に関係するデータを収集し（５６２）、
ＦＦＤＣインターフェースを介して記録する（５６
４）。

【００２５】ＦＦＤＣインターフェースを介するデータ
のこの記録には、障害状態に関係する障害データの収集
（５６６）と、障害が関連障害状態である場合の、関係
する障害レコードからのＦＦＤＣＩＤの収集（５６
８）が含まれる。新しいレコードの障害位置識別子を作
成し（５７０）、障害データ、新しいレコードのＦＦＤ
ＣＩＤおよび、供給される場合に関係障害からのＦＦ
ＤＣＩＤから、障害レコード自体を作成する（５７
２）。ＦＦＤＣインターフェースは、その後、データを
持続記憶装置のどこに格納するかを選択する（５７４）
すなわち、データを（この例では）ＦＦＤＣエラー・ス
タック（５７６）とＡＩＸエラー・ログ（５７８）のど
ちらに記録するかを選択する。新しい障害レポートのＦ
ＦＤＣＩＤ（５８０）を、ＦＦＤＣインターフェース
によって返して（５６４）クライアント・プログラムに
障害表示を転送する（５８２）。

【００２６】図７は、サービス・アプリケーション・プ
ログラム６１４内の障害状態に応答してクライアント・
アプリケーション・プログラム６１２内で関連障害状態
が発生したと仮定される、分散コンピューティング環境
のノード６００を示す図である。クライアント・アプリ
ケーション・プログラム６１２からの障害情報が、第１
障害データ取込（ＦＦＤＣ）インターフェース６２０に
転送されて、第１障害データ取込エラー・スタック持続
記憶装置６５０またはＡＩＸエラー・ロギング・サブシ
ステム６３０を介するＡＩＸエラー・ログ持続記憶装置
６４０への格納のためのもう１つの障害レコードの作成
に使用される。新しい障害位置識別子ＦＦＤＣＩＤ
が、最終的にＦＦＤＣインターフェース６２０によって
クライアント・アプリケーション・プログラムに返され
る。関連障害状態の障害情報の受取と共に、ＦＦＤＣイ
ンターフェースは、サービス・アプリケーション・プロ
グラム６１４で発生した初期障害状態に関する障害レポ
ートの位置を識別する、サービス・アプリケーション・
プログラム６１４からの障害位置識別子（ＦＦＤＣＩ
Ｄ）を受け取る。この新しいＦＦＤＣＩＤは、クライ
アント・アプリケーション・プログラムに転送され、こ
のクライアント・アプリケーション・プログラム自体
は、（たとえば）分散コンピューティング環境の別のノ
ードに存在する、クライアントに対するサーバ・プログ
ラムとすることができる。そのような場合には、エラー
表示が、クライアント・アプリケーション・プログラム
６１２の障害レコードの障害位置識別子（ＦＦＤＣＩ
Ｄ）と共に、他のノードのクライアント・アプリケーシ
ョンに送られる。

【００２７】図８は、本発明の第１障害データ取込イン
ターフェース論理を使用する、図７のノードで発生する
関連障害状態を記録する論理流れの例を示す図である。
関連障害状態を検出し（６６０）、サーバ・プログラム
の障害位置識別子（ＦＦＤＣＩＤ）を、サーバ・プログ
ラムから取得する（６６１）。関連障害状態に関係する
データを収集し（６６２）、ＦＦＤＣ論理を使用して障
害レコードを作成する（６６４）。

【００２８】ＦＦＤＣ論理は、関連障害に関係するデー
タ（６６６）ならびに関係する障害レコードからのＦＦ
ＤＣＩＤ（６６８）を使用してデータ・レコードを作
成する。新しい障害位置識別子を割り当て（６７０）、
障害データ、レコードのＦＦＤＣＩＤ、および前の関
係する障害からのＦＦＤＣＩＤを使用して、新しい障
害レコードを作成する（６７２）。記憶装置を選択する
（６７４）が、これには、エラー・スタック（６７６）
またはＡＩＸエラー・ログ（６７８）を含めることがで
きる。インターフェース論理（６６４）を介して新しい
ＦＦＤＣＩＤを返して（６８０）、障害表示と共にノ
ード外（この例では）のクライアント・プログラムに転
送する（６８２）。

【００２９】図９は、リモート・ノードからノード・ベ
ータ７００に受け取られる障害通知の例を示す図であ
る。この例では、分散アプリケーション・コンポーネン
ト７１３が、障害通知を受け取り、障害情報を第１障害
データ取込（ＦＦＤＣ）インターフェース７２０に供給
する。障害情報のほかに、リモート・ノードのコンポー
ネントからの障害位置識別子も受け取られ、その情報
が、ノード・ベータ７００で発生する関連障害状態の障
害レコードの作成に使用される。障害レコードは、やは
り、たとえば操作員がサービスまたは交換部品を要求す
るためにエラーについて現在知る必要があるかどうかに
応じて、エラー・ロギング・サブシステム７３０を介し
てＡＩＸエラー・ログ持続記憶装置７４０にまたは第１
障害データ取込エラー・スタック持続記憶装置７５０に
記録される。ＦＦＤＣインターフェース７２０は、新し
い関連障害状態の新しい識別子を返す。この新しいＦＦ
ＤＣ識別子は、エラー表示と共に、たとえば分散コンピ
ューティング環境の別のノードで稼動する、クライアン
ト・アプリケーションに転送される。

【００３０】図１０は、図９に示された関連障害状態を
記録する一実施形態の流れ図である。リモート・コンポ
ーネントから障害通知を受け取る（７６０）が、これに
は障害位置識別子が含まれる（７６１）。ノード・ベー
タ７００（図９）で発生している関連障害状態に関係す
るデータを収集する（７６２）。この情報を一緒に、障
害レポート内の障害データの記録のためにＦＦＤＣイン
ターフェースに転送する（７６４）。障害レポートは、
ノード・ベータでの障害に関係するデータ（７６６）
を、リモート・コンポーネントから受け取ったＦＦＤＣ
ＩＤ（７６８）と組み合わせ、ノード・ベータで作成
される新しい障害レコードに新し障害位置識別子を割り
当てる（７７０）ことによって構成される。障害レコー
ドは、関連障害状態データ、新しい障害レコードのＦＦ
ＤＣＩＤ、およびリモート・コンポーネントから受け
取った関係する障害からのＦＦＤＣＩＤから作成され
る（７７２）。ＦＦＤＣインターフェースは、その後、
記憶媒体を選択する（７７４）が、これには、上で説明
したように、ＦＦＤＣエラー・スタック（７７６）また
はＡＩＸエラー・ログ（７７８）への障害レコードの記
録を含めることができる。記録の後に、ノード・ベータ
で格納された関連障害レコードの障害位置識別子（７８
０）を障害表示と共にクライアント・プログラムに転送
するためにＦＦＤＣインターフェースを介して返す（７
８２）。

【００３１】上で説明した発明は、分散コンピューティ
ング環境での障害の診断および解決での前述の問題を解
決するのに使用される。これらの問題の解決における問
題点には、下記が含まれることを想起されたい。エンド
ユーザが見る症状が、問題自体の根本原因であることが
ほとんどない。症状は、通常は、分散コンピューティン
グ環境の依存コンポーネントでの他の障害によって引き
起こされた障害によって引き起こされる。関係する障害
を自動的に識別できない限り、分散コンピューティング
環境の実施形態およびコンポーネント相互依存性の詳し
い理解が、これらの問題を解決する方法を知るのに必要
である。この情報は、分散コンピューティング環境製造
者だけが知っている（問題解決を顧客の手から奪う）。
関係する障害のレコードを識別しなければならず、関係
しない障害レコードを分析に含めてはならない。障害レ
コードが、分散コンピューティング環境全体に分散して
いる。

【００３２】要約すると、本発明の使用を介して、初期
障害状態を検出する分散コンピューティング環境コンポ
ーネントが、この障害に関する情報を持続記憶装置に記
録する。このコンポーネントは、ＦＦＤＣソフトウェア
に障害情報を供給し、ＦＦＤＣソフトウェアは、この障
害レポートを識別する一意のトークン（ＦＦＤＣ障害識
別子）を計算する。ＦＦＤＣソフトウェアは、その後、
このレコードのＦＦＤＣ障害識別子と、コンポーネント
によって供給された障害情報を組み合わせて障害レポー
トにし、このレポートを持続記憶装置に記録する。コン
ポーネントは、障害を示すソフトウェア・エラー・コー
ドを供給するが、障害情報の一部としてこのトークンを
依存コンポーネントに供給する。

【００３３】依存コンポーネントは、その後、障害を発
生したコンポーネントに要求する機能が、それ自体の機
能を送達するのに必要であったので、障害を経験する可
能性がある。依存コンポーネントは、それ自体の障害状
態に関する情報も持続記憶装置に記録し、記録される障
害情報の一部として、障害を発生したコンポーネントか
らのＦＦＤＣ障害識別子を供給する。それを行う際に、
依存コンポーネントは、それ自体の障害状態と、それを
引き起こした障害を発生したコンポーネントの元の障害
状態との間のリンクを確立する。依存コンポーネント
は、この情報をＦＦＤＣソフトウェアにサブミットし、
ＦＦＤＣソフトウェアは、依存コンポーネントの障害レ
ポートを識別する新しいＦＦＤＣ識別子を計算する。Ｆ
ＦＤＣソフトウェアは、新しいＦＦＤＣ識別子、依存コ
ンポーネントの障害情報、および元の障害を発生したコ
ンポーネントの関係するＦＦＤＣ障害識別子を、単一の
障害レポートに組み込み、このレポートを持続記憶装置
に記録する。依存コンポーネントは、その後、ＦＦＤＣ
ソフトウェアから、それ自体のレコード（元の障害を発
生したコンポーネントのレコードではなく）のＦＦＤＣ
識別子を受け取る。依存コンポーネントは、障害を示す
ソフトウェア・エラーを供給するが、それ自体のクライ
アントにこのＦＦＤＣ識別子を供給する。

【００３４】分散コンピューティング環境の次のコンポ
ーネントは、依存コンポーネントを元の障害を発生した
コンポーネントであるかのように扱って、上の段落で輪
郭を示したステップを繰り返す。次のコンポーネント
は、ＦＦＤＣ障害識別子および障害情報をＦＦＤＣソフ
トウェアに供給し、ＦＦＤＣソフトウェアは、新しいコ
ンポーネントのレポートの新しいＦＦＤＣ障害識別子を
計算し、新しい障害レコード内のすべての情報を持続記
憶装置に記録し、ＦＦＤＣ障害識別子を新しいコンポー
ネントに与える。新しいコンポーネントは、この新しい
ＦＦＤＣ障害識別子を、その障害情報の一部としてクラ
イアントに供給し、このサイクルが繰り返される。

【００３５】この方法を使用して、分散コンピューティ
ング環境のコンポーネントが、関係する障害を一緒にリ
ンクする。別のコンポーネントの障害に起因する障害が
発生する時には、必ず、関係するコンポーネントの障害
レポートへのリンクが確立される。

【００３６】前述の図では、ノード・アルファで実行中
のコンポーネントが、障害状態を検出する。そのコンポ
ーネントは、この障害状態を持続記憶装置に記録する際
に、その障害レポートだけを識別する一意のトークンを
得る。このトークンは、分散コンピューティング環境内
のどこからでも、この障害に関する正確な障害レポート
を突きとめるのに使用することができる。ノード・アル
ファのコンポーネントは、このトークン（ＦＦＤＣ障害
識別子）を、それのサービスを要求したものと同一のノ
ードのコンポーネントに供給する。この障害のゆえに、
クライアント・アプリケーションも障害を経験する。ク
ライアントは、障害情報およびサービスのＦＦＤＣ障害
識別子をＦＦＤＣソフトウェアに供給し、ＦＦＤＣソフ
トウェアは、サービスのＦＦＤＣ識別子を障害情報の一
部として記録する。これによって、クライアントの障害
状態の間のリンクが確立される。新しいＦＦＤＣ障害識
別子が、クライアントの障害のために作成され、ＦＦＤ
Ｃによってクライアントに供給される。クライアント
は、この新しいＦＦＤＣ障害識別子を、ノード・ベータ
で実行中の、アルファで実行中のコンポーネントにサー
ビスを要求したコンポーネントに供給する。このシナリ
オが繰り返され、ベータのコンポーネントがノード・ア
ルファからのＦＦＤＣ障害識別子をその障害レポートに
記録し、これによって、ベータの障害状態とノード・ア
ルファでの出来事の間のリンクが確立される。新しいＦ
ＦＤＣ障害識別子が、ベータの障害レポートのために作
成され、ベータの障害応答の一部としてエンドユーザ・
アプリケーションに返される。

【００３７】エンドユーザ・アプリケーションは、ＦＦ
ＤＣ障害識別子をノード・ベータから受け取った時に、
関係する障害状態のリストの初期リンクを有する。この
ＦＦＤＣ障害識別子は、その後、他のＦＦＤＣソフトウ
ェア・ユーティリティが、その識別子に関する正確な障
害レポートを取り出し、関係する障害の識別子を取得
し、その障害レポートも取得するのに使用される。次の
障害レポートに、別の関連障害レポートへのリンクも含
まれる場合、そのレポートも取得され、このサイクル
は、根本原因の障害が取得されるまで繰り返される。

【００３８】図１１は、各ノードが本発明のＦＦＤＣイ
ンターフェース論理８２０を実施する複数のノード８０
０、８０１、８０２、および８０３を有する分散コンピ
ューティング環境の例である。各ノードには、上で説明
したＡＩＸエラー・ロギング・サブシステム８３０、Ａ
ＩＸエラー・ログ記憶装置８４０、およびＦＦＤＣエラ
ー・スタック記憶装置８５０も含まれる。これらのノー
ドは、ＦＦＤＣコマンド８１５および各ノードのＲシェ
ル８１７を使用して通信する。Ｒシェル８１７は、ＵＮ
ＩＸ（登録商標）オペレーティング・システムで使用可
能なリモート・シェル・コマンドであり、リモート・ノ
ードでコマンドを実行するジョブ許可を提供する。分散
アプリケーションが障害通知を受け取ったと仮定する
と、エンドユーザ・アプリケーション８１１は、分散ア
プリケーション・コンポーネント８１３によって、障害
について知らされ、上で説明したように、障害位置識別
子（ＦＦＤＣＩＤ）を与えられる。この障害位置識別
子ＦＦＤＣＩＤは、その後、ＦＦＤＣコマンド８１５
およびＲシェル８１７コマンドを介して要求元ノードに
転送することができる。この実施形態では、エンドユー
ザ・アプリケーション８１１は、本発明の原理に従って
連鎖された識別子を使用して障害状態の完全なリストを
取り出し、分散コンピューティング環境の適当なノード
８００、８０１、８０２、または８０３からレポートを
取り出すことができる。

【００３９】図１２および１３は、障害レポートを取り
出すための一実施形態を示す図である。根本原因までの
障害状態の症状のトレースは、分散アプリケーションを
呼び出し（８６２）、アプリケーションが成功裡に完了
したかどうかを判定するために待機する（８６４）こと
によって開始することができる（８６０）。成功裡に完
了した場合、処理を単純に終了する（８９６）。障害状
態が発生した場合、障害位置識別子をアプリケーション
状況から取得し（８６６）、第１データ取込障害レポー
ト・コマンドを呼び出して（８６７）、分散システムの
ノードから障害レポート情報を収集する。

【００４０】図１３からわかるように、まず、ローカル
ＦＦＤＣエラー・スタックから障害レポートを取り出し
（８６８）、これを使用して、次の障害レポートに関す
る位置情報を得る（８７０）。次の障害レポートがロー
カル・ノード上に記録されているかどうかを問い合わせ
る（８７２）。そうである場合には、ＦＦＤＣインター
フェースは、レポートがＡＩＸエラー・ログまたはＦＦ
ＤＣエラー・スタックのどちらに配置されたかを判定す
る。次のレポートを、適当な持続記憶装置から取り出す
（８７６および８７８、または、８８０および８８
２）。その代わりに、次のレポートがリモート・ノード
上にある場合には、リモート・ノードに送られる障害レ
ポート・コマンドを使用して、リモート・ノードの第１
障害データ取込インターフェースを使用する（８９
０）。障害レポートが、リモート・ノードから返される
（８９２）。障害レポート（８９２、８８２、または８
７８）から関係するＦＦＤＣＩＤを取り出し（８８
４）、ＦＦＤＣインターフェースによって生成されるレ
ポートで使用するために障害レポートを準備する（８８
６）。障害レポートは、ＦＦＤＣインターフェース（図
１３）に転送されるが、レポートを転送する前に、関係
するＦＦＤＣＩＤがレポート内で見つかるかどうかを
判定する（８８８）。そうである場合には、処理がルー
プ・バックして、そのＦＦＤＣＩＤに関係する障害レ
ポートを取得する（８６８）。障害レポートが、クライ
アント・プログラムに返され、推奨される処置を実行す
るために調べられ（８９４）、その後、トレース処理が
終了する（８９６）。

【００４１】上で述べた本発明の障害情報参照機能を、
下でさらに要約する。当業者は、図面に示された２つの
ソフトウェア・ユーティリティによって供給される障害
レコードの持続記憶が、例にすぎないことに留意された
い。ＡＩＸエラー・ログは、ＩＢＭ社のＡＩＸ Operati
ng Systemの一部として供給され、第１障害データ取込
エラー・スタックは、本発明の一部として供給される新
しい持続記憶テーブルである。

【００４２】一意の障害識別子は、文字列として供給す
ることができ、下の情報からＦＦＤＣユーティリティに
よって計算することができる。障害レポートが記録され
た日付および時刻。情報の記録に使用された持続記憶装
置の表示（たとえば、ＡＩＸエラー・ログおよびＦＦＤ
Ｃエラー・スタック）。ＡＩＸエラー・ログ装置が使用
された時にはこの記録を行うのに使用されたエラー情報
テンプレート、ＦＦＤＣエラー・スタック装置が使用さ
れた時にはＦＦＤＣエラー・スタック・ファイルのｉ−
ノード番号。ＩＰｖ４フォーマットまたはＩＰｖ６フォ
ーマットのいずれかの、計算ノードのＩＰアドレス。

【００４３】このトークンは、表示可能文字だけで構成
され、この情報をすべての端末装置またはテキスト・フ
ァイルに表示することが可能であり、このデータをシス
テム・コンポーネント間で伝送することができる。

【００４４】ソフトウェア・コンポーネント、アプリケ
ーション、およびハードウェア・デバイス・ドライバ
は、コンポーネント始動時に実行環境を初期設定する。
情報は、ＦＦＤＣユーティリティによる便利で効率的な
取出を可能にし、障害レポートを生成する必要が生じた
時に必ずこの情報を継続的に取り出す必要をなくすため
に、プロセスの環境内に格納される。コンピュータ・ノ
ードのＩＰアドレスおよび使用されるＦＦＤＣエラー・
スタック（ある場合）は、この環境データに含まれる。

【００４５】障害状態が検出された時に、ソフトウェア
・コンポーネント、アプリケーション、またはハードウ
ェア・デバイス・ドライバは、ＦＦＤＣユーティリティ
に下記の情報を供給する。障害レポートの記録に使用さ
れる持続記憶装置の表示（たとえば、ＡＩＸエラー・ロ
グまたはＦＦＤＣエラー・スタック）。エラー情報テン
プレート（ＡＩＸエラー・ログの場合）または記述メッ
セージ（ＦＦＤＣエラー・スタックの場合）を介する、
障害状態の記述。ＡＩＸエラー・ログが持続記憶装置と
して選択された時には、エラー情報テンプレートは、少
なくとも４つの詳細データ・フィールドを指定し、その
最初の３つがＦＦＤＣユーティリティによる使用のため
に予約されることが期待される。問題調査者による使用
を目的とする、障害の詳細。前に報告された障害がこの
障害状態の出現に影響した場合の、任意選択のＦＦＤＣ
障害識別子。

【００４６】ＦＦＤＣユーティリティは、下記に基づい
て、この障害レポートの一意のＦＦＤＣ障害識別子を計
算する。起動中にコンポーネントによってセット・アッ
プされる環境情報すなわち、計算ノードのＩＰアドレス
およびＦＦＤＣエラー・スタック・ファイルのｉ−ノー
ド番号（ＦＦＤＣエラー・スタックがこのコンポーネン
トによって使用される持続記憶装置である場合）。エラ
ー情報テンプレート識別子（ＡＩＸエラー・ログがこの
コンポーネントによって使用される持続記憶装置である
場合）。現在の日付および時刻。

【００４７】障害情報をＡＩＸエラー・ログに記録する
時に、コンポーネントによって供給される前に報告され
た障害のＦＦＤＣ障害識別子が含まれる。この識別子
は、たとえば第３詳細データ・フィールドに記録され
る。

【００４８】障害情報をＦＦＤＣエラー・スタックに記
録する時に、障害レポートおよび任意選択の関係する障
害のＦＦＤＣ障害識別子が、その目的のために予約され
たレコード・フィールドに記録される。

【００４９】ＦＦＤＣユーティリティは、障害レポート
を適当な持続記憶装置に記録し、新たに作成されたレコ
ードのＦＦＤＣ障害識別子を、障害を報告したコンポー
ネントに供給する。コンポーネントは、このＦＦＤＣ障
害識別子を、障害報告情報の一部として、障害状態を知
らせるためにそのクライアントに通常供給する障害表示
またはメッセージまたは戻りコードと共に、そのクライ
アントに供給することが期待される。

【００５０】コンポーネントが、可変量の障害情報をそ
のクライアントに送る能力を有しない（たとえば、終了
状況だけを親シェルまたはスクリプトに供給するコマン
ド）場合、コンポーネントは、このＦＦＤＣ障害識別子
を標準エラー装置に表示する。コンポーネントのクライ
アントは、コンポーネントからの標準エラー出力を解析
することによってＦＦＤＣ障害識別子を得る。

【００５１】障害状態の根本原因を見つけるために、症
状の障害レポートのＦＦＤＣ障害識別子が、ＦＦＤＣエ
ンドユーザ・ユーティリティに供給される。このユーテ
ィリティは、ＦＦＤＣ障害識別子を解釈して、下記を判
定する。分散コンピューティング環境のどの計算ノード
に障害レポートがあるか。その計算ノードのどの持続記
憶装置が障害レポートの記録に使用されているか。障害
情報の記録にどのエラー情報テンプレートが使用された
か（ＡＩＸエラー・ログが持続記憶装置である場合）。
その計算ノードのどのファイルがＦＦＤＣエラー・スタ
ック情報の格納に使用されているか（ＦＦＤＣエラー・
スタックが持続記憶装置である場合）。持続記憶装置へ
の記録が行われた日付および時刻。

【００５２】この情報を取得した後に、ユーティリティ
は、ＦＦＤＣ障害識別子によって示される計算ノードの
持続記憶装置から障害レポートを取り出す。ＦＦＤＣ障
害識別子自体は、その障害状態の特定のレコードを識別
するための検索キーとして使用され、ＦＦＤＣ障害識別
子は、障害レポートに記録される情報に含まれる。ＡＩ
Ｘエラー・ログから障害レポートを取得するには、ＡＩ
Ｘオペレーティング・システム・コマンド「errpt」を
使用し、ＦＦＤＣエラー・スタック装置から障害レポー
トを取得するには、ＦＦＤＣエンドユーザ・コマンド
「fcstkrpt」を使用する。ＡＩＸコマンド「rsh」は、
障害のレコードが、ＦＦＤＣエンド・ユーザが実行中の
システムに存在しない場合に、分散コンピューティング
環境内のリモート・ノードから情報を取得するのに使用
される。

【００５３】ＦＦＤＣエンドユーザ・ユーティリティに
よって得られた障害レポートは、エンドユーザの確立し
たロケールを使用して、ＦＦＤＣユーティリティ・ユー
ザに供給される。このレポートに、関係する障害または
関連障害のＦＦＤＣ障害識別子が含まれる場合には、こ
のＦＦＤＣ障害識別子が、障害レポートの内容から取得
される。前にリストしたステップが繰り返され、下記の
条件の１つが満足されるまで障害レポートが取得され
る。障害レポートによって参照される障害レポートがこ
れ以上存在しない。そのレポートに、障害レポート内の
関連ＦＦＤＣ障害識別子がリストされていない。ＦＦＤ
Ｃ障害識別子の障害レポートを取得することができな
い。

【００５４】したがって、障害レポートのリストが、エ
ンドユーザに提供される。ユーザは、エンドユーザの視
点から気付かれた障害症状につながる障害のシーケンス
を理解することができる。問題判定の努力は、エンドユ
ーザの障害症状から開始し、その障害がどこから発した
かを「推測」しようとするのではなく、出発点としてユ
ーティリティから得られた最後の障害レポートを使用す
ることによって開始することができる。

【００５５】たとえば、本発明は、たとえばコンピュー
タ使用可能媒体を有する、製造品（たとえば、１つまた
は複数のコンピュータ・プログラム製品）に含めること
ができる。この媒体は、たとえば、本発明の機能を提供
し促進するコンピュータ可読プログラム・コード手段を
その中に実施される。製造品は、コンピュータ・システ
ムの一部として含めるか、別々に販売することができ
る。

【００５６】さらに、本発明の機能を実行するために機
械によって実行可能な少なくとも１つの命令のプログラ
ムを具体的に実施する、機械によって可読の少なくとも
１つのプログラム記憶装置を提供することができる。

【００５７】本明細書で示された流れ図は、例として提
供される。これらの図または本明細書に記載のステップ
（または動作）に対する、本発明の主旨から逸脱しない
変形形態がありえる。たとえば、場合によっては、ステ
ップを異なる順序で実行することができ、ステップの追
加、削除、または変更を行うことができる。これらの変
形形態のすべてが、請求項に記載の本発明の一部を含む
と見なされる。

【００５８】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００５９】（１）複数のノードを有する分散コンピュ
ーティング環境で障害情報を参照する方法であって、ノ
ードでの障害状態の検出時に、前記障害状態に関する情
報を記録することによって、障害レポートを作成するス
テップと、前記障害レポートに識別子を割り当て、前記
ノードで前記障害レポートを格納するステップであっ
て、前記識別子が、前記障害レポートを作成する前記分
散コンピューティング環境内の前記ノード、および前記
ノードに関連する記憶装置内で前記障害レポートが配置
される場所を含む前記障害レポートを一意に識別するス
テップとを含む方法。（２）前記障害状態が、前記ノードで稼動するプログラ
ム内で発し、前記プログラムが、サーバ・プログラムを
含む前記ノードで稼動し、前記方法がさらに、前記いず
れかのノードからの前記障害レポートの可能な取出のた
めに前記分散コンピューティング環境の前記複数のノー
ドのいずれかのノードで稼動するクライアント・プログ
ラムに前記識別子を供給するステップを含み、前記いず
れかのノードが、前記障害レポートが配置される前記ノ
ードまたは前記分散コンピューティング環境の異なるノ
ードを含む、上記（１）に記載の方法。（３）前記障害レポートが、前記識別子を使用して、前
記分散コンピューティング環境の前記複数のノードのど
のノードからでも取出可能である、上記（１）に記載の
方法。（４）前記障害状態が、初期障害状態を含み、前記方法
がさらに、前記初期障害状態の結果として生ずる関連障
害状態に関する情報を記録することによって第２障害レ
ポートを作成するステップであって、前記関連障害状態
が、前記分散コンピューティング環境の前記複数のノー
ドのいずれかのノードで発生するステップと、前記第２
障害レポートに第２識別子を割り当て、前記第２障害レ
ポートを前記いずれかのノードで格納するステップであ
って、前記第２識別子が、前記第２障害レポートを作成
する前記分散コンピューティング環境内の前記いずれか
のノード、前記いずれかのノードに関連する記憶装置内
で前記第２障害レポートが配置される場所、および前記
初期障害状態に関する前記障害レポートの取出のための
前記識別子を含む前記第２障害レポートを一意に識別す
る、上記（１）に記載の方法。（５）前記初期障害状態が、前記ノードの第１プログラ
ム内で発生し、前記関連障害が、前記いずれかのノード
の第２プログラム内で発生し、前記第１プログラムが、
サーバ・プログラムを含み、前記第２プログラムが、ク
ライアント・プログラムを含む、上記（４）に記載の方
法。（６）前記関連障害状態が、第１関連障害状態を含み、
前記方法が、ｎ個の追加の関連障害状態について前記作
成ステップおよび前記割当ステップを繰り返すステップ
を含み、各追加の関連障害状態が、前記追加の関連障害
状態が発生する前記分散コンピューティング環境内のノ
ード、前記ノードに関連する記憶装置内でその障害レポ
ートが配置される場所、および前記初期障害状態に関係
する前記ｎ個の追加の障害状態を含む障害状態のチェー
ン内の障害状態に関する前の障害レポートの取出のため
の識別子を識別する一意の識別子を割り当てられた、上
記（４）に記載の方法。（７）前記障害条件が、サーバ・プログラム内で発生
し、前記方法がさらに、前記ノードまたは前記複数のノ
ードの異なるノードのクライアント・プログラムに、障
害表示と共に前記識別子を返すステップを含む、上記
（１）に記載の方法。（８）前記障害状態が生じた前記分散コンピューティン
グ環境の前記ノードで格納された前記障害レポートを前
記クライアント・プログラムから取り出すステップをさ
らに含む、上記（７）に記載の方法。（９）前記ノードで第１障害データ取込論理インターフ
ェースを使用して前記作成ステップおよび前記割当ステ
ップを実行するステップと、前記ノードに関連する持続
記憶装置に前記障害レポートを格納するステップとをさ
らに含む、上記（１）に記載の方法。（１０）前記障害レポートの前記作成ステップが、前記
障害状態の可能な原因または前記障害状態に応答して行
うべき推奨処置のうちの少なくとも１つを記録するステ
ップを含む、上記（１）に記載の方法。（１１）複数のノードを有する分散コンピューティング
環境で障害情報を参照する方法であって、第１ノードで
の第１プログラム障害状態の検出時に、前記第１プログ
ラム障害状態に関する情報を記録することによって、第
１プログラム障害レポートを作成するステップと、前記
第１プログラム障害レポートを作成する前記分散コンピ
ューティング環境内の前記ノード、および前記ノードに
関連する記憶装置内で前記第１プログラム障害レポート
が配置される場所を含む前記第１プログラム障害レポー
トを一意に識別する第１識別子を、前記第１プログラム
障害レポートに割り当てるステップと、前記第１プログ
ラム障害状態に関係する、第２ノードでの第２プログラ
ム障害状態の検出時に、前記第２プログラム障害状態に
関する情報を記録することによって第２プログラム障害
レポートを作成するステップであって、前記第２ノード
および前記第１ノードが、前記分散コンピューティング
環境内の同一のノードまたは異なるノードを含むステッ
プと、前記第２プログラム障害レポートを作成する前記
分散コンピューティング環境内の前記第２ノード、前記
第２ノードに関連する記憶装置内で前記第２プログラム
障害レポートが配置される場所、および前記第２プログ
ラム障害状態に関係する前記第１プログラム障害状態に
関する前記第１プログラム障害レポートの前記第１識別
子を含む前記第２プログラム障害レポートを一意に識別
する第２識別子を、前記第２プログラム障害レポートに
割り当てるステップとを含む方法。（１２）前記分散コンピューティング環境内で障害情報
をトレースするステップをさらに含み、前記トレースす
るステップが、前記第２識別子を使用して前記第２ノー
ドから前記第２プログラム障害レポートを取り出すステ
ップと、それから前記第１識別子を突きとめるステップ
と、前記第１識別子を使用して、前記分散コンピューテ
ィング環境の前記第１ノードの前記第１プログラム障害
レポートを取り出すステップを含む、上記（１１）に記
載の方法。（１３）前記分散コンピューティング環境の１つまたは
複数のノードでｎ個の追加のプログラム障害状態を検出
するステップと、各前記プログラム障害状態に関する情
報を記録することによってｎ個の追加のプログラム障害
レポートを作成するステップであって、各前記プログラ
ム障害状態が前記第１プログラム障害状態に関係するス
テップと、前記ｎ個の追加のプログラム障害レポートに
ｎ個の一意の識別子を割り当てるステップであって、各
一意の識別子が、前記プログラム障害レポートを作成す
る前記分散コンピューティング環境内の前記ノード、前
記ノードに関連する記憶装置内で前記プログラム障害レ
ポートが配置される場所、および、前記ｎ個の一意の識
別子、前記第１識別子、または前記第２識別子のうちの
１つを使用する少なくとも１つの他のプログラム障害レ
ポートへの参照を含んで、前記第１プログラム障害レポ
ートを除いた各プログラム障害レポートを含むプログラ
ム障害レポートを一意に識別するステップとをさらに含
む、上記（１１）に記載の方法。（１４）複数のノードを有する分散コンピューティング
環境で障害情報を参照するシステムであって、ノードで
の障害状態の検出時に、前記障害状態に関する情報を記
録することによって、障害レポートを作成する手段と、
前記障害レポートに識別子を割り当て、前記ノードで前
記障害レポートを格納する手段であって、前記識別子
が、前記障害レポートを作成する前記分散コンピューテ
ィング環境内の前記ノード、および前記ノードに関連す
る記憶装置内で前記障害レポートが配置される場所を含
む前記障害レポートを一意に識別する手段とを含むシス
テム。（１５）前記障害状態が、前記ノードで稼動するプログ
ラム内で発し、前記プログラムが、サーバ・プログラム
を含む前記ノードで稼動し、前記システムがさらに、前
記いずれかのノードからの前記障害レポートの可能な取
出のために前記分散コンピューティング環境の前記複数
のノードのいずれかのノードで稼動するクライアント・
プログラムに前記識別子を供給する手段を含み、前記い
ずれかのノードが、前記障害レポートが配置される前記
ノードまたは前記分散コンピューティング環境の異なる
ノードを含む、上記（１４）に記載のシステム。（１６）前記障害レポートが、前記識別子を使用して、
前記分散コンピューティング環境の前記複数のノードの
どのノードからでも取出可能である、上記（１４）に記
載のシステム。（１７）前記障害状態が、初期障害状態を含み、前記シ
ステムがさらに、前記初期障害状態の結果として生ずる
関連障害状態に関する情報を記録することによって第２
障害レポートを作成する手段であって、前記関連障害状
態が、前記分散コンピューティング環境の前記複数のノ
ードのいずれかのノードで発生する手段と、前記第２障
害レポートに第２識別子を割り当て、前記第２障害レポ
ートを前記いずれかのノードで格納する手段であって、
前記第２識別子が、前記第２障害レポートを作成する前
記分散コンピューティング環境内の前記いずれかのノー
ド、前記いずれかのノードに関連する記憶装置内で前記
第２障害レポートが配置される場所、および前記初期障
害状態に関する前記障害レポートの取出のための前記識
別子を含む前記第２障害レポートを一意に識別する手段
とを含む、上記（１４）に記載のシステム。（１８）前記初期障害状態が、前記ノードの第１プログ
ラム内で発生し、前記関連障害状態が、前記いずれかの
ノードの第２プログラム内で発生し、前記第１プログラ
ムが、サーバ・プログラムを含み、前記第２プログラム
が、クライアント・プログラムを含む、上記（１７）に
記載のシステム。（１９）前記関連障害状態が、第１関連障害状態を含
み、前記システムが、ｎ個の追加の関連障害状態につい
て前記作成手段および前記割当手段を繰り返す手段を含
み、各追加の関連障害状態が、前記追加の関連障害状態
が発生する前記分散コンピューティング環境内のノー
ド、前記ノードに関連する記憶装置内でその障害レポー
トが配置される場所、および前記初期障害状態に関係す
る前記ｎ個の追加の障害状態を含む障害状態のチェーン
内の障害状態に関する前の障害レポートの取出のための
識別子を識別する一意の識別子を割り当てられた、上記
（１７）に記載のシステム。（２０）前記障害条件が、サーバ・プログラム内で発生
し、前記システムがさらに、前記ノードまたは前記複数
のノードの異なるノードのクライアント・プログラム
に、障害表示と共に前記識別子を返す手段を含む、上記
（１４）に記載のシステム。（２１）前記障害状態が生じた前記分散コンピューティ
ング環境の前記ノードで格納された前記障害レポートを
前記クライアント・プログラムから取り出す手段をさら
に含む、上記（２０）に記載のシステム。（２２）前記作成手段および前記割当手段が、前記ノー
ドの第１障害データ取込論理インターフェース内で実施
され、前記格納手段が、前記ノードに関連する持続記憶
装置に前記障害レポートを格納する手段を含む、上記
（１４）に記載のシステム。（２３）前記障害レポートの前記作成手段が、前記障害
状態の可能な原因または前記障害状態に応答して行うべ
き推奨処置のうちの少なくとも１つを記録する手段を含
む、上記（１４）に記載のシステム。（２４）複数のノードを有する分散コンピューティング
環境内で障害情報を参照するシステムであって、前記複
数のノードのうちの少なくとも１つの処理ノードが、前
記少なくとも１つのノードでの障害状態の検出時に、前
記障害状態に関する情報を記録することによって、障害
レポートを作成するための第１障害データ取込インター
フェースを有し、上位第１障害データ取込インターフェ
ースが、さらに、前記障害レポートに識別子を割り当
て、前記少なくとも１つのノードで前記障害レポートを
格納するように適合され、前記識別子が、前記障害レポ
ートを作成する前記分散コンピューティング環境内の前
記少なくとも１つのノード、および前記少なくとも１つ
のノードに関連する記憶装置内で前記障害レポートが配
置される場所を含む前記障害レポートを一意に識別する
システム。（２５）複数のノードを有する分散コンピューティング
環境で障害情報を参照するシステムであって、第１ノー
ドで検出された第１プログラム障害状態に関する情報を
記録することによって第１プログラム障害レポートを作
成する手段と、前記第１プログラム障害レポートを作成
する前記分散コンピューティング環境内の前記ノード、
および前記ノードに関連する記憶装置内で前記第１プロ
グラム障害レポートが配置される場所を含む前記第１プ
ログラム障害レポートを一意に識別する第１識別子を前
記第１プログラム障害レポートに割り当てる手段と、前
記第１プログラム障害状態に関係する、第２ノードでの
第２プログラム障害状態の検出時に、第２プログラム障
害レポートを作成する手段であって、前記第２プログラ
ム障害レポートが、前記第２プログラム障害状態に関す
る情報を記録することによって作成され、前記第２ノー
ドおよび前記第１ノードが、前記分散コンピューティン
グ環境内の同一のノードまたは異なるノードを含む手段
と、前記第２プログラム障害レポートを作成する前記分
散コンピューティング環境内の前記第２ノード、前記第
２ノードに関連する記憶装置内で前記第２プログラム障
害レポートが配置される場所、および前記第２プログラ
ム障害状態に関係する前記第１プログラム障害状態の前
記第１プログラム障害レポートの前記第１識別子を含む
第２プログラム障害レポートを一意に識別する第２識別
子を、前記第２プログラム障害レポートに割り当てる手
段とを含むシステム。（２６）前記分散コンピューティング環境内で障害情報
をトレースする手段をさらに含み、前記トレースする手
段が、前記第２識別子を使用して前記第２ノードから前
記第２プログラム障害レポートを取り出す手段と、それ
から前記第１識別子を突きとめる手段と、前記第１識別
子を使用して、前記分散コンピューティング環境の前記
第１ノードの前記第１プログラム障害レポートを取り出
す手段とを含む、上記（２５）に記載のシステム。（２７）前記分散コンピューティング環境の１つまたは
複数のノードでｎ個の追加のプログラム障害状態を検出
する手段と、各前記プログラム障害状態に関する情報を
記録することによってｎ個の追加のプログラム障害レポ
ートを作成する手段であって、各前記プログラム障害状
態が前記第１プログラム障害状態に関係する手段と、前
記ｎ個の追加のプログラム障害レポートにｎ個の一意の
識別子を割り当てる手段であって、各一意の識別子が、
前記プログラム障害レポートを作成する前記分散コンピ
ューティング環境内の前記ノード、前記ノードに関連す
る記憶装置内で前記プログラム障害レポートが配置され
る場所、および、前記ｎ個の一意の識別子、前記第１識
別子、または前記第２識別子のうちの１つを使用する少
なくとも１つの他のプログラム障害レポートへの参照を
含んで、前記第１プログラム障害レポートを除いた各プ
ログラム障害レポートを含むプログラム障害レポートを
一意に識別する手段とをさらに含む、上記（２５）に記
載のシステム。（２８）複数のノードを有する分散コンピューティング
環境で障害情報を参照するシステムであって、第１障害
データ取込インターフェース論理を使用して前記第１プ
ログラム障害状態に関する情報を記録することによっ
て、第１プログラム障害レポートを作成するように適合
された前記複数のノードの第１ノードを含み、前記第１
ノードが、さらに、前記第１プログラム障害レポートを
作成する前記分散コンピューティング環境内の前記第１
ノード、および前記ノードに関連する記憶装置内で前記
第１プログラム障害レポートが配置される場所を含む前
記第１プログラム障害レポートを一意に識別する第１識
別子を前記第１プログラム障害レポートに割り当てるよ
うに適合され、前記第１識別子が、前記第１ノードの前
記第１障害データ取込インターフェース論理を使用して
割り当てられ、さらに、第２ノードで発生する第２プロ
グラム障害状態に関する情報を記録することによって第
２プログラム障害レポートを作成するように適合された
第２ノードを含み、前記第２プログラム障害状態が、前
記第１プログラム障害状態に関係し、前記第２ノードお
よび前記第１ノードが、前記分散コンピューティング環
境内の同一のノードまたは異なるノードを含むことがで
き、前記第２ノードが、前記第２ノードの第１障害デー
タ取込インターフェース論理を使用して前記第２プログ
ラム障害レポートを作成し、前記第２ノードが、さら
に、前記第２ノードの前記第１障害データ取込インター
フェース論理を使用して前記第２プログラム障害レポー
トに第２識別子を割り当てるように適合され、前記第２
識別子が、前記第２プログラム障害レポートを作成する
前記分散コンピューティング環境内の前記第２ノード、
前記第２ノードに関連する記憶装置内で前記第２プログ
ラム障害レポートが配置される場所、および前記第２プ
ログラム障害条件に関係する前記第１プログラム障害状
態の前記第１プログラム障害レポートの前記第１識別子
を含む前記第２プログラム障害レポートを一意に識別す
るシステム。（２９）複数のノードを有する分散コンピューティング
環境で障害情報を参照する方法を実行するために機械に
よって実行可能な少なくとも１つの命令のプログラムを
具体的に実施する、機械によって読取可能な少なくとも
１つのプログラム記憶装置であって、前記方法が、ノー
ドでの障害状態の検出時に、前記障害状態に関する情報
を記録することによって、障害レポートを作成するステ
ップと、前記障害レポートに識別子を割り当て、前記ノ
ードで前記障害レポートを格納するステップであって、
前記識別子が、前記障害レポートを作成する前記分散コ
ンピューティング環境内の前記ノード、および前記ノー
ドに関連する記憶装置内で前記障害レポートが配置され
る場所を含む前記障害レポートを一意に識別するステッ
プとを含む、少なくとも１つのプログラム記憶装置。（３０）前記障害状態が、前記ノードで稼動するプログ
ラム内で発し、前記プログラムが、サーバ・プログラム
を含む前記ノードで稼動し、前記方法がさらに、前記い
ずれかのノードからの前記障害レポートの可能な取出の
ために前記分散コンピューティング環境の前記複数のノ
ードのいずれかのノードで稼動するクライアント・プロ
グラムに前記識別子を供給するステップを含み、前記い
ずれかのノードが、前記障害レポートが配置される前記
ノードまたは前記分散コンピューティング環境の異なる
ノードを含む、上記（２９）に記載の少なくとも１つの
プログラム記憶装置。（３１）前記障害レポートが、前記識別子を使用して、
前記分散コンピューティング環境の前記複数のノードの
どのノードからでも取出可能である、上記（２９）に記
載の少なくとも１つのプログラム記憶装置。（３２）前記障害状態が、初期障害状態を含み、前記方
法がさらに、前記初期障害状態の結果として生ずる関連
障害状態に関する情報を記録することによって第２障害
レポートを作成するステップであって、前記関連障害状
態が、前記分散コンピューティング環境の前記複数のノ
ードのいずれかのノードで発生するステップと、前記第
２障害レポートに第２識別子を割り当て、前記第２障害
レポートを前記いずれかのノードで格納するステップで
あって、前記第２識別子が、前記第２障害レポートを作
成する前記分散コンピューティング環境内の前記いずれ
かのノード、前記いずれかのノードに関連する記憶装置
内で前記第２障害レポートが配置される場所、および前
記初期障害状態に関する前記障害レポートの取出のため
の前記識別子を含む前記第２障害レポートを一意に識別
するステップとを含む、上記（２９）に記載の少なくと
も１つのプログラム記憶装置。（３３）前記初期障害状態が、前記ノードの第１プログ
ラム内で発生し、前記関連障害状態が、前記いずれかの
ノードの第２プログラム内で発生し、前記第１プログラ
ムが、サーバ・プログラムを含み、前記第２プログラム
が、クライアント・プログラムを含む、上記（３２）に
記載の少なくとも１つのプログラム記憶装置。（３４）前記関連障害状態が、第１関連障害状態を含
み、前記方法が、ｎ個の追加の関連障害状態について前
記作成ステップおよび前記割当ステップを繰り返すステ
ップを含み、各追加の関連障害状態が、前記追加の関連
障害状態が発生する前記分散コンピューティング環境内
のノード、前記ノードに関連する記憶装置内でその障害
レポートが配置される場所、および前記初期障害状態に
関係する前記ｎ個の追加の障害状態を含む障害状態のチ
ェーン内の障害状態に関する前の障害レポートの取出の
ための識別子を識別する一意の識別子を割り当てられ
た、上記（３２）に記載の少なくとも１つのプログラム
記憶装置。（３５）前記障害条件が、サーバ・プログラム内で発生
し、前記方法がさらに、前記ノードまたは前記複数のノ
ードの異なるノードのクライアント・プログラムに、障
害表示と共に前記識別子を返すステップを含む、上記
（２９）に記載の少なくとも１つのプログラム記憶装
置。（３６）前記障害状態が生じた前記分散コンピューティ
ング環境の前記ノードで格納された前記障害レポートを
前記クライアント・プログラムから取り出すステップを
さらに含む、上記（３５）に記載の少なくとも１つのプ
ログラム記憶装置。（３７）前記ノードで第１障害データ取込論理インター
フェースを使用して前記作成ステップおよび前記割当ス
テップを実行するステップと、前記ノードに関連する持
続記憶装置に前記障害レポートを格納するステップとを
さらに含む、上記（２９）に記載の少なくとも１つのプ
ログラム記憶装置。（３８）前記障害レポートの前記作成ステップが、前記
障害状態の可能な原因または前記障害状態に応答して行
うべき推奨処置のうちの少なくとも１つを記録するステ
ップを含む、上記（２９）に記載の少なくとも１つのプ
ログラム記憶装置。（３９）複数のノードを有する分散コンピューティング
環境内で障害情報を参照する方法を実行するために機械
によって実行可能な少なくとも１つの命令のプログラム
を具体的に実施する、機械によって読取可能な少なくと
も１つのプログラム記憶装置であって、前記方法が、第
１ノードでの第１プログラム障害状態の検出時に、前記
第１プログラム障害状態に関する情報を記録することに
よって、第１プログラム障害レポートを作成するステッ
プと、前記第１プログラム障害レポートを作成する前記
分散コンピューティング環境内の前記ノード、および前
記ノードに関連する記憶装置内で前記第１プログラム障
害レポートが配置される場所を含む前記第１プログラム
障害レポートを一意に識別する第１識別子を前記第１プ
ログラム障害レポートに割り当てるステップと、前記第
１プログラム障害状態に関係する、第２ノードでの第２
プログラム障害状態の検出時に、前記第２プログラム障
害状態に関する情報を記録することによって第２プログ
ラム障害レポートを作成するステップであって、前記第
２ノードおよび前記第１ノードが、前記分散コンピュー
ティング環境内の同一のノードまたは異なるノードを含
むステップと、前記第２プログラム障害レポートを作成
する前記分散コンピューティング環境内の前記第２ノー
ド、前記第２ノードに関連する記憶装置内で前記第２プ
ログラム障害レポートが配置される場所、および前記第
２プログラム障害状態に関係する前記第１プログラム障
害状態に関する前記第１プログラム障害レポートの前記
第１プログラム識別子を含む第２プログラム障害レポー
トを一意に識別する第２識別子を前記第２プログラム障
害レポートに割り当てるステップとを含む、少なくとも
１つのプログラム記憶装置。（４０）前記方法がさらに、前記分散コンピューティン
グ環境内で障害情報をトレースするステップをさらに含
み、前記トレースするステップが、前記第２識別子を使
用して前記第２ノードから前記第２プログラム障害レポ
ートを取り出すステップと、それから前記第１識別子を
突きとめるステップと、前記第１識別子を使用して、前
記分散コンピューティング環境の前記第１ノードの前記
第１プログラム障害レポートを取り出すステップを含
む、上記（３９）に記載の少なくとも１つのプログラム
記憶装置。（４１）前記方法がさらに、前記分散コンピューティン
グ環境の１つまたは複数のノードでｎ個の追加のプログ
ラム障害状態を検出するステップと、各前記プログラム
障害状態に関する情報を記録することによってｎ個の追
加のプログラム障害レポートを作成するステップであっ
て、各前記プログラム障害状態が前記第１プログラム障
害状態に関係するステップと、前記ｎ個の追加のプログ
ラム障害レポートにｎ個の一意の識別子を割り当てるス
テップであって、各一意の識別子が、前記プログラム障
害レポートを作成する前記分散コンピューティング環境
内の前記ノード、前記ノードに関連する記憶装置内で前
記プログラム障害レポートが配置される場所、および、
前記ｎ個の一意の識別子、前記第１識別子、または前記
第２識別子のうちの１つを使用する少なくとも１つの他
のプログラム障害レポートへの参照を含んで、前記第１
プログラム障害レポートを除いた各プログラム障害レポ
ートを含むプログラム障害レポートを一意に識別するス
テップとをさらに含む、上記（３９）に記載の少なくと
も１つのプログラム記憶装置。

【図面の簡単な説明】

【図１】本発明の原理による障害情報参照機能を使用す
る分散コンピューティング環境の一実施形態を示す図で
ある。

【図２】本発明の原理による第１障害データ取込インタ
ーフェース論理を使用する分散コンピューティング環境
の１ノードのブロック図である。

【図３】サーバ・アプリケーション・プログラムとクラ
イアント・アプリケーション・プログラムの両方を有
し、やはり本発明の原理による第１障害データ取込イン
ターフェース論理を使用する分散コンピューティング環
境の１ノードのブロック図である。

【図４】各処理ノードが分散アプリケーション・コンポ
ーネントを使用して他の処理ノードと通信し、各処理ノ
ードに本発明の原理による第１障害データ取込（ＦＦＤ
Ｃ）インターフェース論理が含まれる、複数の処理ノー
ドを有する分散コンピューティング環境の図である。

【図５】本発明の原理による第１障害データ取込インタ
ーフェース論理を使用し、サービス・アプリケーション
・プログラムでの初期エラーが仮定される、分散コンピ
ューティング環境の１ノードのブロック図である。

【図６】本発明の第１障害データ取込インターフェース
論理を使用して、図５の初期プログラム障害状態を記録
するための一実施形態の流れ図である。

【図７】関連障害状態がクライアント・アプリケーショ
ン・プログラムで発生した場合の、本発明の第１障害デ
ータ取込インターフェース論理を有する分散コンピュー
ティング環境のノードを示す図である。

【図８】第１障害データ取込インターフェース論理を使
用して図７の関連障害状態に関する情報を記録するため
の一実施形態の流れ図である。

【図９】本発明の原理による第１障害データ取込インタ
ーフェース論理を使用して、分散システムのリモート・
ノード上のコンポーネントからの障害通知に応答してノ
ードで関連障害状態を記録する、分散コンピューティン
グ環境のノードを示す図である。

【図１０】本発明の第１障害データ取込インターフェー
ス論理を使用して図９の関連障害状態を記録するための
一実施形態の流れ図である。

【図１１】各ノードが本発明の第１障害データ取込（Ｆ
ＦＤＣ）インターフェース論理を使用し、これを使用し
て本発明の技法を使用して根本原因まで障害の症状をト
レースすることができる、分散コンピューティング環境
の一実施形態を示す図である。

【図１２】本発明の第１障害データ取込インターフェー
ス論理および割り当てられた識別子を使用して、根本原
因まで障害の症状をトレースするための一実施形態の流
れ図である。

【図１３】本発明の第１障害データ取込インターフェー
ス論理および割り当てられた識別子を使用して、根本原
因まで障害の症状をトレースするための一実施形態の流
れ図である。

【符号の説明】

１００分散コンピュータ・システム１０２ローカル・エリア・ネットワーク（ＬＡＮ）１０４ＬＡＮゲート１０５ＩＢＭ Scalable POWERparallelスイッチ（Ｓ
ＰＳ）１０６ノード１０７ＤＡＳＤ装置１１０バス１１２コントロール・ワークステーション（ＣＷＳ）１１４直接アクセス記憶装置（ＤＡＳＤ）２００ノード・アルファ２１０アプリケーション・プログラム２１２クライアント・アプリケーション・プログラム２１４サービス・アプリケーション・プログラム２２０第１障害データ取込（ＦＦＤＣ）インターフェ
ース２３０ＡＩＸエラー・ロギング・サブシステム２４０ＡＩＸエラー・ログ持続記憶装置２５０第１障害データ取込エラー・スタック持続記憶
装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケル・エイ・シュミットアメリカ合衆国12484−5819 ニューヨーク州ストーン・リッジパイン・ブッシュ・ロード 113

Claims

【特許請求の範囲】

【請求項１】複数のノードを有する分散コンピューティ
ング環境で障害情報を参照する方法であって、ノードでの障害状態の検出時に、前記障害状態に関する
情報を記録することによって、障害レポートを作成する
ステップと、前記障害レポートに識別子を割り当て、前記ノードで前
記障害レポートを格納するステップであって、前記識別
子が、前記障害レポートを作成する前記分散コンピュー
ティング環境内の前記ノード、および前記ノードに関連
する記憶装置内で前記障害レポートが配置される場所を
含む前記障害レポートを一意に識別するステップとを含
む方法。
【請求項２】前記障害状態が、前記ノードで稼動するプ
ログラム内で発し、前記プログラムが、サーバ・プログ
ラムを含む前記ノードで稼動し、前記方法がさらに、前
記いずれかのノードからの前記障害レポートの可能な取
出のために前記分散コンピューティング環境の前記複数
のノードのいずれかのノードで稼動するクライアント・
プログラムに前記識別子を供給するステップを含み、前
記いずれかのノードが、前記障害レポートが配置される
前記ノードまたは前記分散コンピューティング環境の異
なるノードを含む、請求項１に記載の方法。
【請求項３】前記障害レポートが、前記識別子を使用し
て、前記分散コンピューティング環境の前記複数のノー
ドのどのノードからでも取出可能である、請求項１に記
載の方法。
【請求項４】前記障害状態が、初期障害状態を含み、前
記方法がさらに、前記初期障害状態の結果として生ずる
関連障害状態に関する情報を記録することによって第２
障害レポートを作成するステップであって、前記関連障
害状態が、前記分散コンピューティング環境の前記複数
のノードのいずれかのノードで発生するステップと、前
記第２障害レポートに第２識別子を割り当て、前記第２
障害レポートを前記いずれかのノードで格納するステッ
プであって、前記第２識別子が、前記第２障害レポート
を作成する前記分散コンピューティング環境内の前記い
ずれかのノード、前記いずれかのノードに関連する記憶
装置内で前記第２障害レポートが配置される場所、およ
び前記初期障害状態に関する前記障害レポートの取出の
ための前記識別子を含む前記第２障害レポートを一意に
識別する、請求項１に記載の方法。
【請求項５】前記初期障害状態が、前記ノードの第１プ
ログラム内で発生し、前記関連障害が、前記いずれかの
ノードの第２プログラム内で発生し、前記第１プログラ
ムが、サーバ・プログラムを含み、前記第２プログラム
が、クライアント・プログラムを含む、請求項４に記載
の方法。
【請求項６】前記関連障害状態が、第１関連障害状態を
含み、前記方法が、ｎ個の追加の関連障害状態について
前記作成ステップおよび前記割当ステップを繰り返すス
テップを含み、各追加の関連障害状態が、前記追加の関
連障害状態が発生する前記分散コンピューティング環境
内のノード、前記ノードに関連する記憶装置内でその障
害レポートが配置される場所、および前記初期障害状態
に関係する前記ｎ個の追加の障害状態を含む障害状態の
チェーン内の障害状態に関する前の障害レポートの取出
のための識別子を識別する一意の識別子を割り当てられ
た、請求項４に記載の方法。
【請求項７】前記障害条件が、サーバ・プログラム内で
発生し、前記方法がさらに、前記ノードまたは前記複数
のノードの異なるノードのクライアント・プログラム
に、障害表示と共に前記識別子を返すステップを含む、
請求項１に記載の方法。
【請求項８】前記障害状態が生じた前記分散コンピュー
ティング環境の前記ノードで格納された前記障害レポー
トを前記クライアント・プログラムから取り出すステッ
プをさらに含む、請求項７に記載の方法。
【請求項９】前記ノードで第１障害データ取込論理イン
ターフェースを使用して前記作成ステップおよび前記割
当ステップを実行するステップと、前記ノードに関連す
る持続記憶装置に前記障害レポートを格納するステップ
とをさらに含む、請求項１に記載の方法。
【請求項１０】前記障害レポートの前記作成ステップ
が、前記障害状態の可能な原因または前記障害状態に応
答して行うべき推奨処置のうちの少なくとも１つを記録
するステップを含む、請求項１に記載の方法。
【請求項１１】複数のノードを有する分散コンピューテ
ィング環境で障害情報を参照する方法であって、第１ノードでの第１プログラム障害状態の検出時に、前
記第１プログラム障害状態に関する情報を記録すること
によって、第１プログラム障害レポートを作成するステ
ップと、前記第１プログラム障害レポートを作成する前記分散コ
ンピューティング環境内の前記ノード、および前記ノー
ドに関連する記憶装置内で前記第１プログラム障害レポ
ートが配置される場所を含む前記第１プログラム障害レ
ポートを一意に識別する第１識別子を、前記第１プログ
ラム障害レポートに割り当てるステップと、前記第１プログラム障害状態に関係する、第２ノードで
の第２プログラム障害状態の検出時に、前記第２プログ
ラム障害状態に関する情報を記録することによって第２
プログラム障害レポートを作成するステップであって、
前記第２ノードおよび前記第１ノードが、前記分散コン
ピューティング環境内の同一のノードまたは異なるノー
ドを含むステップと、前記第２プログラム障害レポートを作成する前記分散コ
ンピューティング環境内の前記第２ノード、前記第２ノ
ードに関連する記憶装置内で前記第２プログラム障害レ
ポートが配置される場所、および前記第２プログラム障
害状態に関係する前記第１プログラム障害状態に関する
前記第１プログラム障害レポートの前記第１識別子を含
む前記第２プログラム障害レポートを一意に識別する第
２識別子を、前記第２プログラム障害レポートに割り当
てるステップとを含む方法。
【請求項１２】前記分散コンピューティング環境内で障
害情報をトレースするステップをさらに含み、前記トレ
ースするステップが、前記第２識別子を使用して前記第
２ノードから前記第２プログラム障害レポートを取り出
すステップと、それから前記第１識別子を突きとめるス
テップと、前記第１識別子を使用して、前記分散コンピ
ューティング環境の前記第１ノードの前記第１プログラ
ム障害レポートを取り出すステップを含む、請求項１１
に記載の方法。
【請求項１３】前記分散コンピューティング環境の１つ
または複数のノードでｎ個の追加のプログラム障害状態
を検出するステップと、各前記プログラム障害状態に関
する情報を記録することによってｎ個の追加のプログラ
ム障害レポートを作成するステップであって、各前記プ
ログラム障害状態が前記第１プログラム障害状態に関係
するステップと、前記ｎ個の追加のプログラム障害レポ
ートにｎ個の一意の識別子を割り当てるステップであっ
て、各一意の識別子が、前記プログラム障害レポートを
作成する前記分散コンピューティング環境内の前記ノー
ド、前記ノードに関連する記憶装置内で前記プログラム
障害レポートが配置される場所、および、前記ｎ個の一
意の識別子、前記第１識別子、または前記第２識別子の
うちの１つを使用する少なくとも１つの他のプログラム
障害レポートへの参照を含んで、前記第１プログラム障
害レポートを除いた各プログラム障害レポートを含むプ
ログラム障害レポートを一意に識別するステップとをさ
らに含む、請求項１１に記載の方法。
【請求項１４】複数のノードを有する分散コンピューテ
ィング環境で障害情報を参照するシステムであって、ノードでの障害状態の検出時に、前記障害状態に関する
情報を記録することによって、障害レポートを作成する
手段と、前記障害レポートに識別子を割り当て、前記ノードで前
記障害レポートを格納する手段であって、前記識別子
が、前記障害レポートを作成する前記分散コンピューテ
ィング環境内の前記ノード、および前記ノードに関連す
る記憶装置内で前記障害レポートが配置される場所を含
む前記障害レポートを一意に識別する手段とを含むシス
テム。
【請求項１５】前記障害状態が、前記ノードで稼動する
プログラム内で発し、前記プログラムが、サーバ・プロ
グラムを含む前記ノードで稼動し、前記システムがさら
に、前記いずれかのノードからの前記障害レポートの可
能な取出のために前記分散コンピューティング環境の前
記複数のノードのいずれかのノードで稼動するクライア
ント・プログラムに前記識別子を供給する手段を含み、
前記いずれかのノードが、前記障害レポートが配置され
る前記ノードまたは前記分散コンピューティング環境の
異なるノードを含む、請求項１４に記載のシステム。
【請求項１６】前記障害レポートが、前記識別子を使用
して、前記分散コンピューティング環境の前記複数のノ
ードのどのノードからでも取出可能である、請求項１４
に記載のシステム。
【請求項１７】前記障害状態が、初期障害状態を含み、
前記システムがさらに、前記初期障害状態の結果として
生ずる関連障害状態に関する情報を記録することによっ
て第２障害レポートを作成する手段であって、前記関連
障害状態が、前記分散コンピューティング環境の前記複
数のノードのいずれかのノードで発生する手段と、前記
第２障害レポートに第２識別子を割り当て、前記第２障
害レポートを前記いずれかのノードで格納する手段であ
って、前記第２識別子が、前記第２障害レポートを作成
する前記分散コンピューティング環境内の前記いずれか
のノード、前記いずれかのノードに関連する記憶装置内
で前記第２障害レポートが配置される場所、および前記
初期障害状態に関する前記障害レポートの取出のための
前記識別子を含む前記第２障害レポートを一意に識別す
る手段とを含む、請求項１４に記載のシステム。
【請求項１８】前記初期障害状態が、前記ノードの第１
プログラム内で発生し、前記関連障害状態が、前記いず
れかのノードの第２プログラム内で発生し、前記第１プ
ログラムが、サーバ・プログラムを含み、前記第２プロ
グラムが、クライアント・プログラムを含む、請求項１
７に記載のシステム。
【請求項１９】前記関連障害状態が、第１関連障害状態
を含み、前記システムが、ｎ個の追加の関連障害状態に
ついて前記作成手段および前記割当手段を繰り返す手段
を含み、各追加の関連障害状態が、前記追加の関連障害
状態が発生する前記分散コンピューティング環境内のノ
ード、前記ノードに関連する記憶装置内でその障害レポ
ートが配置される場所、および前記初期障害状態に関係
する前記ｎ個の追加の障害状態を含む障害状態のチェー
ン内の障害状態に関する前の障害レポートの取出のため
の識別子を識別する一意の識別子を割り当てられた、請
求項１７に記載のシステム。
【請求項２０】前記障害条件が、サーバ・プログラム内
で発生し、前記システムがさらに、前記ノードまたは前
記複数のノードの異なるノードのクライアント・プログ
ラムに、障害表示と共に前記識別子を返す手段を含む、
請求項１４に記載のシステム。
【請求項２１】前記障害状態が生じた前記分散コンピュ
ーティング環境の前記ノードで格納された前記障害レポ
ートを前記クライアント・プログラムから取り出す手段
をさらに含む、請求項２０に記載のシステム。
【請求項２２】前記作成手段および前記割当手段が、前
記ノードの第１障害データ取込論理インターフェース内
で実施され、前記格納手段が、前記ノードに関連する持
続記憶装置に前記障害レポートを格納する手段を含む、
請求項１４に記載のシステム。
【請求項２３】前記障害レポートの前記作成手段が、前
記障害状態の可能な原因または前記障害状態に応答して
行うべき推奨処置のうちの少なくとも１つを記録する手
段を含む、請求項１４に記載のシステム。
【請求項２４】複数のノードを有する分散コンピューテ
ィング環境内で障害情報を参照するシステムであって、前記複数のノードのうちの少なくとも１つの処理ノード
が、前記少なくとも１つのノードでの障害状態の検出時
に、前記障害状態に関する情報を記録することによっ
て、障害レポートを作成するための第１障害データ取込
インターフェースを有し、上位第１障害データ取込インターフェースが、さらに、
前記障害レポートに識別子を割り当て、前記少なくとも
１つのノードで前記障害レポートを格納するように適合
され、前記識別子が、前記障害レポートを作成する前記
分散コンピューティング環境内の前記少なくとも１つの
ノード、および前記少なくとも１つのノードに関連する
記憶装置内で前記障害レポートが配置される場所を含む
前記障害レポートを一意に識別するシステム。
【請求項２５】複数のノードを有する分散コンピューテ
ィング環境で障害情報を参照するシステムであって、第１ノードで検出された第１プログラム障害状態に関す
る情報を記録することによって第１プログラム障害レポ
ートを作成する手段と、前記第１プログラム障害レポートを作成する前記分散コ
ンピューティング環境内の前記ノード、および前記ノー
ドに関連する記憶装置内で前記第１プログラム障害レポ
ートが配置される場所を含む前記第１プログラム障害レ
ポートを一意に識別する第１識別子を前記第１プログラ
ム障害レポートに割り当てる手段と、前記第１プログラム障害状態に関係する、第２ノードで
の第２プログラム障害状態の検出時に、第２プログラム
障害レポートを作成する手段であって、前記第２プログ
ラム障害レポートが、前記第２プログラム障害状態に関
する情報を記録することによって作成され、前記第２ノ
ードおよび前記第１ノードが、前記分散コンピューティ
ング環境内の同一のノードまたは異なるノードを含む手
段と、前記第２プログラム障害レポートを作成する前記分散コ
ンピューティング環境内の前記第２ノード、前記第２ノ
ードに関連する記憶装置内で前記第２プログラム障害レ
ポートが配置される場所、および前記第２プログラム障
害状態に関係する前記第１プログラム障害状態の前記第
１プログラム障害レポートの前記第１識別子を含む第２
プログラム障害レポートを一意に識別する第２識別子
を、前記第２プログラム障害レポートに割り当てる手段
とを含むシステム。
【請求項２６】前記分散コンピューティング環境内で障
害情報をトレースする手段をさらに含み、前記トレース
する手段が、前記第２識別子を使用して前記第２ノード
から前記第２プログラム障害レポートを取り出す手段
と、それから前記第１識別子を突きとめる手段と、前記
第１識別子を使用して、前記分散コンピューティング環
境の前記第１ノードの前記第１プログラム障害レポート
を取り出す手段とを含む、請求項２５に記載のシステ
ム。
【請求項２７】前記分散コンピューティング環境の１つ
または複数のノードでｎ個の追加のプログラム障害状態
を検出する手段と、各前記プログラム障害状態に関する
情報を記録することによってｎ個の追加のプログラム障
害レポートを作成する手段であって、各前記プログラム
障害状態が前記第１プログラム障害状態に関係する手段
と、前記ｎ個の追加のプログラム障害レポートにｎ個の
一意の識別子を割り当てる手段であって、各一意の識別
子が、前記プログラム障害レポートを作成する前記分散
コンピューティング環境内の前記ノード、前記ノードに
関連する記憶装置内で前記プログラム障害レポートが配
置される場所、および、前記ｎ個の一意の識別子、前記
第１識別子、または前記第２識別子のうちの１つを使用
する少なくとも１つの他のプログラム障害レポートへの
参照を含んで、前記第１プログラム障害レポートを除い
た各プログラム障害レポートを含むプログラム障害レポ
ートを一意に識別する手段とをさらに含む、請求項２５
に記載のシステム。
【請求項２８】複数のノードを有する分散コンピューテ
ィング環境で障害情報を参照するシステムであって、第１障害データ取込インターフェース論理を使用して前
記第１プログラム障害状態に関する情報を記録すること
によって、第１プログラム障害レポートを作成するよう
に適合された前記複数のノードの第１ノードを含み、前記第１ノードが、さらに、前記第１プログラム障害レ
ポートを作成する前記分散コンピューティング環境内の
前記第１ノード、および前記ノードに関連する記憶装置
内で前記第１プログラム障害レポートが配置される場所
を含む前記第１プログラム障害レポートを一意に識別す
る第１識別子を前記第１プログラム障害レポートに割り
当てるように適合され、前記第１識別子が、前記第１ノ
ードの前記第１障害データ取込インターフェース論理を
使用して割り当てられ、さらに、第２ノードで発生する第２プログラム障害状態に関する
情報を記録することによって第２プログラム障害レポー
トを作成するように適合された第２ノードを含み、前記
第２プログラム障害状態が、前記第１プログラム障害状
態に関係し、前記第２ノードおよび前記第１ノードが、
前記分散コンピューティング環境内の同一のノードまた
は異なるノードを含むことができ、前記第２ノードが、
前記第２ノードの第１障害データ取込インターフェース
論理を使用して前記第２プログラム障害レポートを作成
し、前記第２ノードが、さらに、前記第２ノードの前記第１
障害データ取込インターフェース論理を使用して前記第
２プログラム障害レポートに第２識別子を割り当てるよ
うに適合され、前記第２識別子が、前記第２プログラム
障害レポートを作成する前記分散コンピューティング環
境内の前記第２ノード、前記第２ノードに関連する記憶
装置内で前記第２プログラム障害レポートが配置される
場所、および前記第２プログラム障害条件に関係する前
記第１プログラム障害状態の前記第１プログラム障害レ
ポートの前記第１識別子を含む前記第２プログラム障害
レポートを一意に識別するシステム。
【請求項２９】複数のノードを有する分散コンピューテ
ィング環境で障害情報を参照する方法を実行するために
機械によって実行可能な少なくとも１つの命令のプログ
ラムを具体的に実施する、機械によって読取可能な少な
くとも１つのプログラム記憶装置であって、前記方法
が、ノードでの障害状態の検出時に、前記障害状態に関する
情報を記録することによって、障害レポートを作成する
ステップと、前記障害レポートに識別子を割り当て、前記ノードで前
記障害レポートを格納するステップであって、前記識別
子が、前記障害レポートを作成する前記分散コンピュー
ティング環境内の前記ノード、および前記ノードに関連
する記憶装置内で前記障害レポートが配置される場所を
含む前記障害レポートを一意に識別するステップとを含
む、少なくとも１つのプログラム記憶装置。
【請求項３０】前記障害状態が、前記ノードで稼動する
プログラム内で発し、前記プログラムが、サーバ・プロ
グラムを含む前記ノードで稼動し、前記方法がさらに、
前記いずれかのノードからの前記障害レポートの可能な
取出のために前記分散コンピューティング環境の前記複
数のノードのいずれかのノードで稼動するクライアント
・プログラムに前記識別子を供給するステップを含み、
前記いずれかのノードが、前記障害レポートが配置され
る前記ノードまたは前記分散コンピューティング環境の
異なるノードを含む、請求項２９に記載の少なくとも１
つのプログラム記憶装置。
【請求項３１】前記障害レポートが、前記識別子を使用
して、前記分散コンピューティング環境の前記複数のノ
ードのどのノードからでも取出可能である、請求項２９
に記載の少なくとも１つのプログラム記憶装置。
【請求項３２】前記障害状態が、初期障害状態を含み、
前記方法がさらに、前記初期障害状態の結果として生ず
る関連障害状態に関する情報を記録することによって第
２障害レポートを作成するステップであって、前記関連
障害状態が、前記分散コンピューティング環境の前記複
数のノードのいずれかのノードで発生するステップと、
前記第２障害レポートに第２識別子を割り当て、前記第
２障害レポートを前記いずれかのノードで格納するステ
ップであって、前記第２識別子が、前記第２障害レポー
トを作成する前記分散コンピューティング環境内の前記
いずれかのノード、前記いずれかのノードに関連する記
憶装置内で前記第２障害レポートが配置される場所、お
よび前記初期障害状態に関する前記障害レポートの取出
のための前記識別子を含む前記第２障害レポートを一意
に識別するステップとを含む、請求項２９に記載の少な
くとも１つのプログラム記憶装置。
【請求項３３】前記初期障害状態が、前記ノードの第１
プログラム内で発生し、前記関連障害状態が、前記いず
れかのノードの第２プログラム内で発生し、前記第１プ
ログラムが、サーバ・プログラムを含み、前記第２プロ
グラムが、クライアント・プログラムを含む、請求項３
２に記載の少なくとも１つのプログラム記憶装置。
【請求項３４】前記関連障害状態が、第１関連障害状態
を含み、前記方法が、ｎ個の追加の関連障害状態につい
て前記作成ステップおよび前記割当ステップを繰り返す
ステップを含み、各追加の関連障害状態が、前記追加の
関連障害状態が発生する前記分散コンピューティング環
境内のノード、前記ノードに関連する記憶装置内でその
障害レポートが配置される場所、および前記初期障害状
態に関係する前記ｎ個の追加の障害状態を含む障害状態
のチェーン内の障害状態に関する前の障害レポートの取
出のための識別子を識別する一意の識別子を割り当てら
れた、請求項３２に記載の少なくとも１つのプログラム
記憶装置。
【請求項３５】前記障害条件が、サーバ・プログラム内
で発生し、前記方法がさらに、前記ノードまたは前記複
数のノードの異なるノードのクライアント・プログラム
に、障害表示と共に前記識別子を返すステップを含む、
請求項２９に記載の少なくとも１つのプログラム記憶装
置。
【請求項３６】前記障害状態が生じた前記分散コンピュ
ーティング環境の前記ノードで格納された前記障害レポ
ートを前記クライアント・プログラムから取り出すステ
ップをさらに含む、請求項３５に記載の少なくとも１つ
のプログラム記憶装置。
【請求項３７】前記ノードで第１障害データ取込論理イ
ンターフェースを使用して前記作成ステップおよび前記
割当ステップを実行するステップと、前記ノードに関連
する持続記憶装置に前記障害レポートを格納するステッ
プとをさらに含む、請求項２９に記載の少なくとも１つ
のプログラム記憶装置。
【請求項３８】前記障害レポートの前記作成ステップ
が、前記障害状態の可能な原因または前記障害状態に応
答して行うべき推奨処置のうちの少なくとも１つを記録
するステップを含む、請求項２９に記載の少なくとも１
つのプログラム記憶装置。
【請求項３９】複数のノードを有する分散コンピューテ
ィング環境内で障害情報を参照する方法を実行するため
に機械によって実行可能な少なくとも１つの命令のプロ
グラムを具体的に実施する、機械によって読取可能な少
なくとも１つのプログラム記憶装置であって、前記方法
が、第１ノードでの第１プログラム障害状態の検出時に、前
記第１プログラム障害状態に関する情報を記録すること
によって、第１プログラム障害レポートを作成するステ
ップと、前記第１プログラム障害レポートを作成する前記分散コ
ンピューティング環境内の前記ノード、および前記ノー
ドに関連する記憶装置内で前記第１プログラム障害レポ
ートが配置される場所を含む前記第１プログラム障害レ
ポートを一意に識別する第１識別子を前記第１プログラ
ム障害レポートに割り当てるステップと、前記第１プログラム障害状態に関係する、第２ノードで
の第２プログラム障害状態の検出時に、前記第２プログ
ラム障害状態に関する情報を記録することによって第２
プログラム障害レポートを作成するステップであって、
前記第２ノードおよび前記第１ノードが、前記分散コン
ピューティング環境内の同一のノードまたは異なるノー
ドを含むステップと、前記第２プログラム障害レポートを作成する前記分散コ
ンピューティング環境内の前記第２ノード、前記第２ノ
ードに関連する記憶装置内で前記第２プログラム障害レ
ポートが配置される場所、および前記第２プログラム障
害状態に関係する前記第１プログラム障害状態に関する
前記第１プログラム障害レポートの前記第１プログラム
識別子を含む第２プログラム障害レポートを一意に識別
する第２識別子を前記第２プログラム障害レポートに割
り当てるステップとを含む、少なくとも１つのプログラ
ム記憶装置。
【請求項４０】前記方法がさらに、前記分散コンピュー
ティング環境内で障害情報をトレースするステップをさ
らに含み、前記トレースするステップが、前記第２識別
子を使用して前記第２ノードから前記第２プログラム障
害レポートを取り出すステップと、それから前記第１識
別子を突きとめるステップと、前記第１識別子を使用し
て、前記分散コンピューティング環境の前記第１ノード
の前記第１プログラム障害レポートを取り出すステップ
を含む、請求項３９に記載の少なくとも１つのプログラ
ム記憶装置。
【請求項４１】前記方法がさらに、前記分散コンピュー
ティング環境の１つまたは複数のノードでｎ個の追加の
プログラム障害状態を検出するステップと、各前記プロ
グラム障害状態に関する情報を記録することによってｎ
個の追加のプログラム障害レポートを作成するステップ
であって、各前記プログラム障害状態が前記第１プログ
ラム障害状態に関係するステップと、前記ｎ個の追加の
プログラム障害レポートにｎ個の一意の識別子を割り当
てるステップであって、各一意の識別子が、前記プログ
ラム障害レポートを作成する前記分散コンピューティン
グ環境内の前記ノード、前記ノードに関連する記憶装置
内で前記プログラム障害レポートが配置される場所、お
よび、前記ｎ個の一意の識別子、前記第１識別子、また
は前記第２識別子のうちの１つを使用する少なくとも１
つの他のプログラム障害レポートへの参照を含んで、前
記第１プログラム障害レポートを除いた各プログラム障
害レポートを含むプログラム障害レポートを一意に識別
するステップとをさらに含む、請求項３９に記載の少な
くとも１つのプログラム記憶装置。