JP2001188765A - 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法 - Google Patents

分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法

Info

Publication number
JP2001188765A
JP2001188765A JP2000325790A JP2000325790A JP2001188765A JP 2001188765 A JP2001188765 A JP 2001188765A JP 2000325790 A JP2000325790 A JP 2000325790A JP 2000325790 A JP2000325790 A JP 2000325790A JP 2001188765 A JP2001188765 A JP 2001188765A
Authority
JP
Japan
Prior art keywords
program
failure
node
fault
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000325790A
Other languages
English (en)
Other versions
JP4215384B2 (ja
Inventor
R Gensler Robert Jr
ロバート・アール・ゲンスラー・ジュニア
A Schmidt Michael
マイケル・エイ・シュミット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001188765A publication Critical patent/JP2001188765A/ja
Application granted granted Critical
Publication of JP4215384B2 publication Critical patent/JP4215384B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【課題】 【解決手段】 複数の処理ノードを有する分散コンピュ
ーティング環境で、複数の関係する障害を表す障害情報
を参照する技法を提示する。第1障害レポートは、分散
コンピューティング環境内で稼動する第1プログラムで
の初期障害状態の検出時に作成される。第1プログラム
障害レポートに、そのレポートを一意に識別する第1識
別子が割り当てられる。第1プログラム障害状態に関係
する第2プログラム障害が第2ノードで検出された時
に、第2プログラム障害状態に関する情報を記録するこ
とによって第2プログラム障害レポートが作成される。
第1プログラム障害レポートの第1識別子への参照を含
む第2プログラム障害レポートを一意に識別する第2識
別子が、第2プログラム障害レポートに割り当てられ
る。したがって、第2識別子を使用して第2プログラム
障害レポートを取り出した後に、第1識別子を使用して
第1プログラム障害レポートを取り出すことができる。
したがって、関係するプログラム障害のチェーンに関す
るレポートを作成し、後で参照することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、全般的には、複数
の処理ノードを有する分散コンピューティング環境に関
し、具体的には、分散コンピューティング環境内の、そ
の環境の複数のノードのうちの同一または異なるノード
で発生する複数の関係する障害状態を表す障害情報を参
照する技法に関する。
【0002】
【従来の技術】分散システムは、複雑で動的なコンポー
ネント相互依存性に起因して管理が困難であることがし
ばしばである。マネージャが、分散システムで使用さ
れ、システム内のコンポーネントのアクティビティおよ
び現行状態に関する情報の取得、総合管理ポリシによる
決定、およびコンポーネントの挙動を変更する制御処置
の実行の責任を負う。一般に、マネージャは、分散シス
テム内で5つの機能すなわち、構成、パフォーマンス、
アカウンティング、セキュリティ、および障害管理を実
行する。
【0003】これらの5つの機能のどれもが、複雑な分
散システムで発生する障害の診断に特に適してはいな
い。手動管理を使用する障害の診断は、時間がかかり、
分散システムの詳しい知識を必要とする。また、あるシ
ステムのリソース制限が別のシステムでの性能低下を引
き起こす可能性があり、これは分散アプリケーションの
アーキテクチャおよびコンポーネントが一緒に働く方法
に精通していなければ明白ではないので、分散環境での
障害の切りわけは困難である。
【0004】分散コンピューティング環境では、多くの
ソフトウェア・コンポーネントが、エンドユーザに機能
を提供するために独立の形で使用される。エンドユーザ
は、さまざまなコンポーネントの相互依存性を意識せ
ず、その環境が期待される機能を提供することだけを知
っていることがしばしばである。コンポーネントは、分
散コンピューティング環境のさまざまな計算ノードにま
たがって分散される可能性がある。コンポーネントが障
害を経験する場合に、この障害は、分散コンピューティ
ング環境全体に波及し、特定の機能について、障害を発
生したコンポーネントに依存するコンポーネントの障害
を引き起こす可能性がある。この波及効果は、最終的に
エンドユーザが期待する機能を拒否されるまで、コンポ
ーネントがそれに依存するコンポーネントの機能に影響
しながら継続する。
【0005】
【発明が解決しようとする課題】この環境での課題は、
許容可能な時間期間内にできる限り問題の根本原因(こ
の場合では元の障害を発生したコンポーネント)の近く
まで、症状(この場合では期待される機能の拒否)から
障害状態をトレースすることである。この努力を複雑に
しているのが、分散コンピューティング環境内に同時に
複数の障害状態が存在する可能性があるという事実であ
る。根本原因を正しく識別するために、問題の障害症状
に関係する障害状態を識別しなければならず、これらの
障害状態に関係する情報を収集しなければならない。関
係しない障害状態は、分析から除去しなければならな
い。というのは、これらの状態の修理が、問題の障害症
状の修理につながらないからである。今までは、これら
の関係する障害を識別するには、分散コンピューティン
グ環境、その実施形態、およびそのコンポーネントの相
互依存性の詳しい知識が必要であった。このレベルの知
識がある場合でも、問題判定の努力は、問題の障害状態
の根本原因がどこにあるかに関する問題調査者の「最善
推測」に基づく非決定的な努力である。分散コンピュー
ティング環境が大きく、複雑になればなるほど、より多
くのコンポーネントが環境に導入され、障害の原因がど
こにあるかを信頼性のある形で「推測」することがます
ます困難になる。問題判定の努力を行うのに必要な知識
は、分散コンピューティング環境の製造者だけが有し、
分散コンピューティング環境管理者が障害を効率的に識
別し、解決することが困難になっている。
【0006】
【課題を解決するための手段】簡単に要約すると、本発
明には、一態様で、複数のノードを有する分散コンピュ
ーティング環境で障害情報を参照する方法が含まれる。
この方法には、分散コンピューティング環境のノードで
の障害状態の検出時に障害状態に関する情報を記録する
ことによって障害レポートを作成するステップと、障害
レポートに識別子を割り当て、ノードで障害レポートを
記憶するステップとが含まれ、識別子は、障害レポート
を作成した分散コンピューティング環境内のノードと、
そのノードに関連する記憶装置内で障害レポートが配置
される場所を含む障害レポートを一意に識別する。
【0007】もう1つの態様では、本発明には、複数の
ノードを有する分散コンピューティング環境内で障害情
報を参照する方法が含まれる。この方法には、第1ノー
ドでの第1プログラム障害状態の検出時に第1プログラ
ム障害レポートを作成するステップと、第1プログラム
障害レポートを作成した分散コンピューティング環境内
のノードおよびそのノードに関連する記憶装置内で第1
プログラム障害レポートが配置される場所を含む第1プ
ログラム障害レポートを一意に識別する第1識別子を第
1プログラム障害レポートに割り当てるステップと、第
1プログラム障害状態に関係する第2ノードでの第2プ
ログラム障害状態の検出時に第2プログラム障害レポー
トを作成するステップであって、第2プログラム障害レ
ポートが、第2ノードで第2プログラム障害状態に関す
る情報を記録することによって作成され、第2ノードお
よび第1ノードが、分散コンピューティング環境内の同
一ノードまたは異なるノードを含むことができるステッ
プと、第2プログラム障害レポートを作成する分散コン
ピューティング環境内の第2ノード、第2ノードに関連
する記憶装置内で第2プログラム障害レポートが配置さ
れる場所、および第2プログラム障害状態に関係する第
1プログラム障害状態に関する第1プログラム障害レポ
ートの第1識別子を含む第2プログラム障害レポートを
一意に識別する第2識別子を第2プログラム障害レポー
トに割り当てるステップとが含まれる。
【0008】分散コンピューティング環境内で障害情報
を参照する、上で要約した方法を実行するために機械に
よって実行可能な命令の少なくとも1つのプログラムを
具体的に実施する、システムおよび機械によって可読の
少なくとも1つのプログラム記憶装置も、本明細書に記
載され、請求される。
【0009】言い換えると、提示されるのは、分散コン
ピューティング環境内で障害情報を参照する技法であ
る。環境のすべてのコンポーネントからアクセス可能な
持続記憶装置を使用する。システム・コンポーネントに
よって検出され、持続記憶装置に記録される障害のレポ
ートは、障害状態の性質、状態の可能な原因、およびそ
の状態に応答して行われることが推奨される処置を記述
することが好ましい。識別子トークンが割り当てられ、
これによって、分散コンピューティング環境内でレコー
ドが存在する位置と、レコードが存在するノードの持続
記憶装置内の位置を含む、障害状態に関する特定の障害
レポートが一意に識別される。この識別子を使用して、
障害レポートを、分散コンピューティング環境内のどの
位置からでも突きとめることができ、問題判定および解
決策分析に使用するために取り出すことができる。この
識別子は、コンポーネントの応答情報の一部として、環
境の関係するコンポーネントの間で渡される。あるコン
ポーネントが、別のコンポーネントの障害に起因する障
害を経験する場合には、識別子が、第1のコンポーネン
トの応答情報から取得され、第2のコンポーネントの障
害レポートの一部として、記録される情報に含まれる。
【0010】本発明の原理によれば、障害レコードを検
索するために分散コンピューティング環境問題判定を開
始する位置を推測する、以前の必要が、除去される。エ
ンドユーザ・アプリケーションに供給される一意の障害
識別子によって、問題判定の努力で、障害レポートが分
散コンピューティング環境内のどこにあるかに無関係に
障害レポートを突きとめられるようになる。本発明は、
調査中の状態に関係する障害レポートを識別する必要を
なくす。障害識別子によって、障害レポートが参照さ
れ、その障害レポートによって、それに関連する1つ
(または複数)の他の障害レポートが参照される。関係
するレポートに、別の関係するレポートなどが列挙され
る。したがって、障害に関係する障害レポートを識別す
る必要がなくなる。というのは、各障害レポートに、次
の関係する障害レポートが明示的に列挙されるからであ
る。
【0011】さらに、分散コンピューティング環境の実
施形態および相互依存性の詳細な理解は、もはや障害状
態のトレースに必要ではなくなる。本発明は、分散コン
ピューティング環境製造者の介入を必要とするのではな
く、問題の判定および解決を実行する能力を分散コンピ
ューティング環境管理者の手に返す。問題判定の努力を
どの特定の点から進めるかの推測は、もはや問題ではな
い。というのは、障害レポートに次の関連する問題が列
挙され、したがって、次に調査を進めるべき場所が列挙
されるからである。関係するリンクが報告されない場合
には、問題判定の努力はその点から開始される。もや
は、根本原因から問題症状を分離する必要はない。ある
問題症状の障害レポートには、その原因に関するレポー
トが具体的に列挙されるか、最低限でも、最終的に根本
原因につながる関係する障害のリスト内の次のリンクが
列挙される。本発明の原理によれば、問題症状は、問題
判定の努力の役に立つ出発点になるが、これは、以前の
システムでは、努力に暗影を投ずるのみであった。問題
症状が、問題の根本原因ではない場合には、障害レポー
トに、問題のチェーン・リストへのリンクが含まれ、最
終的に、問題判定の努力が根本原因に導かれる。
【0012】
【発明の実施の形態】図1は、本発明と共に使用するこ
とのできる分散コンピュータ・システム100の概略図
である。分散コンピュータ・システム100は、米国ニ
ューヨーク州アーモンクのInternational Business Mac
hines Corporationが販売するIBMRISC System/6
000 Scalable POWERparallel Systems(SP)分散コン
ピュータ・システムとすることができる。 図1に開示
された実施形態は、合計8フレームを有し、各フレーム
が16個までのノードを有し、合計128個までのノー
ドを有するSPコンピュータ・システムである。ノード
106のすべてが、ローカル・エリア・ネットワーク
(LAN)102によって結合される。ノード106の
それぞれは、コンピュータ自体であり、当業者に周知の
通り、RISCSystem/6000ワークステーションとする
ことができる。
【0013】分散コンピュータ・システム100の1フ
レーム内のすべてのノードが、1つのLANセグメント
に含まれ、LANセグメントは、LANゲート104を
介して他のLANセグメントによって結合される。やは
りLAN102に接続されるのが、コントロール・ワー
クステーション(CWS)112であり、これは、分散
コンピュータ・システム100の動作を制御する。コン
トロール・ワークステーションは、システム共用ディス
クと称する、システム・データ・リポジトリ(SDR)
ファイルが格納される直接アクセス記憶装置(DAS
D)114を有する。SDRファイルには、システム内
に存在するノードのリストおよびそれらの構成などの情
報が含まれ、ノード106のそれぞれのリソース定義お
よびオブジェクト定義が含まれる。各ノード106に
も、分散コンピュータ・システム100によって処理さ
れるデータを格納するためのDASD装置107が含ま
れる。
【0014】一実施形態では、各フレームのノードが、
IBM Scalable POWERparallelスイッチ(SPS)1
05にも接続される。各フレームのSPS105のそれ
ぞれが、バス110によって、他のフレームの隣接する
SPS105に接続される。
【0015】当技術分野で周知の通り、CWS112
は、LAN102によって分散コンピュータ・システム
100のフレームにシステム・データ信号およびシステ
ム制御信号を送り、メッセージおよびデータは、SPS
105によってあるノード106から別のノード106
に送ることができる。
【0016】本発明に対してより具体的に、図2は、本
発明の原理による障害情報参照を使用するための分散コ
ンピューティング環境のノード、ノード・アルファ20
0の一実施形態を示す図である。ノード・アルファ20
0には、本発明の原理に従って実施される第1障害デー
タ取込(FFDC)インターフェース220と通信する
1つまたは複数のアプリケーション・プログラム210
が含まれる。FFDCインターフェース220は、一例
ではAIXエラー・ロギング・サブシステム230を介
してAIXエラー・ログ持続記憶装置240へ、また
は、第1障害データ取込エラー・スタック持続記憶装置
250へ、障害レポートを格納し、取り出す。代替実施
形態では、AIXエラー・ログ持続記憶装置240およ
び第1障害データ取込エラー・スタック持続記憶装置2
50に、ノード・アルファ200内の同一の記憶装置を
含めることができる。第1障害データ取込エラー・スタ
ック持続記憶装置250は、通常はAIXエラー・ログ
持続記憶装置240に送られないはずの情報を格納する
ことができる。AIXエラー・ロギング・サブシステム
230およびAIXエラー・ログ持続記憶装置240
は、International Business Machines Corporationが
提供するAIX Operating Systemと共に入手可能なコ
ンポーネントである。
【0017】本発明によれば、障害を検出するハードウ
ェア・デバイス・ドライバおよびソフトウェア・コンポ
ーネントが、本明細書で第1障害データ取込(FFD
C)と称する、明示的に障害の持続的記録のために供給
されるソフトウェア機能を使用して、障害の持続的記録
を行う。FFDCは、ノード・アルファ200がプログ
ラム障害を最初に検出したノードである場合に、そのプ
ログラム障害に初期障害状態または関連障害状態のどち
らが含まれる場合でも、障害レポートを作成する。本明
細書で使用する「関連障害状態」は、分散コンピューテ
ィング環境の同一ノードまたは異なるノードのいずれか
での、別の障害状態の発生から生じる障害である。
【0018】障害レコードを作成する時に、FFDCシ
ステム・コンポーネントが、十分な情報を提供し、その
結果、1)障害が適当に記述され、その結果、後の分析
の努力で障害状態の性質および範囲が理解されるように
なり、2)分散コンピューティング環境製造者にとって
重要な具体的な詳細が記録され、その結果、製造者が、
その状態が存在するようになった理由を理解でき、した
がって、分散コンピューティング環境設計の欠陥のすべ
てを識別でき、修理できるようになることが好ましい。
【0019】FFDCインターフェース220は、特定
の障害レポートごとに一意のトークンを計算する。この
トークンを、本明細書では識別子またはFFDC障害識
別子(FFDC ID)と称するが、これによって、以
下の情報がカプセル化されることが好ましい。障害レポ
ート上で障害が検出された分散コンピューティング環境
内の計算ノード位置が記録される。障害レポートの格納
に使用された持続記憶装置。レコードが存在する持続記
憶装置内の特定の位置。障害レポートが記録された時
刻。
【0020】FFDC障害識別子は、障害情報を持続記
憶装置に記録する前に、FFDCソフトウェアによって
生成される。FFDCは、その後、障害情報自体の一部
としてFFDC障害識別子を組み込み、障害情報および
そのFFDC障害識別子を持続記憶装置に記録する。F
FDC障害識別子は、その後、サービス・コンポーネン
ト、たとえばハードウェア・デバイス・ドライバまたは
ソフトウェア・コンポーネントに送り返され、そのサー
ビス・コンポーネントは、このトークンをクライアント
に供給するか、障害報告情報の一部として使用する。
【0021】図3は、図2のFFDCインターフェース
220、AIXエラー・ロギング・サブシステム23
0、AIXエラー・ログ持続記憶装置240、および第
1障害データ取込エラー・スタック持続記憶装置250
を含む、やはり符号200で示される代替のノード・ア
ルファを示す図である。さらに、図3のノード・アルフ
ァ200内のアプリケーション・プログラムは、サーバ
・プログラムまたはサービス・アプリケーション・プロ
グラム214およびクライアント・アプリケーション・
プログラム212によって置換されている。クライアン
ト・アプリケーション・プログラム212およびサービ
ス・アプリケーション・プログラム214の両方が、F
FDCインターフェース220と直接にインターフェー
スすることができる。さらに、クライアント・アプリケ
ーション・プログラム212は、サービス・アプリケー
ション・プログラムを介してFFDCインターフェース
と間接的にインターフェースすることができる。たとえ
ば、サービスが障害を経験し、FFDCインターフェー
ス220から受け取る障害情報をクライアント・アプリ
ケーション・プログラム212に返すことができる。
【0022】図4は、複数のノードすなわち、ノード・
アルファ400、ノード・ベータ401、ノード・ガン
マ402、およびノード・デルタ403を有する分散コ
ンピューティング環境を示す図である。ノード・アルフ
ァ400、ノード・ベータ401、ノード・ガンマ40
2、およびノード・デルタ403のそれぞれには、ノー
ド間の分散通信およびデータ受け渡しを処理する分散ア
プリケーション・コンポーネント405が含まれる。各
ノードのFFDCインターフェース420は、互いに直
接には通信しない。各ノードには、さらに、アプリケー
ション・プログラム410ならびに、AIXエラー・ロ
ギング(Elog)サブシステム430、AIXエラー・ロ
グ記憶装置440、およびFFDCエラー・スタック記
憶装置450が含まれる。各FFDCインターフェース
420は、その特定のノードの持続記憶装置への情報の
記録だけに関係する。やはり、FFDCインターフェー
スは、本発明の原理に従う、障害レポートの形での障害
情報の記録および一意の識別子の割当の責任を負う。一
意の識別子は、分散アプリケーション・コンポーネント
を使用してノード間で転送することができる。一実施形
態では、分散アプリケーション・コンポーネント405
に、IBM社のParallel System Support Program(P
SSP)ソフトウェア、バージョン3.1を含めること
ができる。
【0023】図5は、本発明の原理による第1障害デー
タ取込(FFDC)インターフェース論理520を使用
する、分散コンピューティング環境のノード・アルファ
500の一実施形態を示す図である。この例では、サー
ビス・アプリケーション・プログラム514での初期エ
ラー状態または初期障害状態が発生したと仮定する。や
はり、「初期障害状態」には、障害のチェーンの最初の
障害または根本障害が含まれ、初期障害状態に関係し、
その後に発生する各障害を、「関連障害状態」と称す
る。FFDCインターフェース520は、サービス・ア
プリケーション・プログラム514から保存された障害
情報から障害レコードを作成する。この障害レコード
は、その後、持続記憶装置すなわち、この実施形態で
は、たとえばその情報がシステム操作員に使用可能にさ
れたかどうかに応じて、AIXエラー・ロギング・サブ
システム530を介してAIXエラー・ログ持続記憶装
置540または直接に第1障害データ取込エラー・スタ
ック持続記憶装置550のいずれかに記録される。障害
位置識別子(FFDC ID)は、FFDCインターフ
ェース520によってサービス・アプリケーション・プ
ログラム514に供給され、サービス・アプリケーショ
ン・プログラム514は、この識別子を、この場合では
やはりノード・アルファ500に存在するクライアント
・アプリケーション・プログラム512に返すことがで
きる。FFDC IDまたはアプリケーション障害レコ
ードを供給するほかに、サービス・アプリケーション・
プログラムは、クライアント・アプリケーション・プロ
グラムに、サービス・アプリケーション・プログラム内
でエラーが発生していることの表示も供給する。
【0024】図6は、図5のノード・アルファで持続記
憶装置に格納するための障害レコードを作成する論理の
一実施形態を示す図である。まず、障害が、ノードでF
FDCインターフェースの上の層で検出される(56
0)。障害状態に関係するデータを収集し(562)、
FFDCインターフェースを介して記録する(56
4)。
【0025】FFDCインターフェースを介するデータ
のこの記録には、障害状態に関係する障害データの収集
(566)と、障害が関連障害状態である場合の、関係
する障害レコードからのFFDC IDの収集(56
8)が含まれる。新しいレコードの障害位置識別子を作
成し(570)、障害データ、新しいレコードのFFD
C IDおよび、供給される場合に関係障害からのFF
DC IDから、障害レコード自体を作成する(57
2)。FFDCインターフェースは、その後、データを
持続記憶装置のどこに格納するかを選択する(574)
すなわち、データを(この例では)FFDCエラー・ス
タック(576)とAIXエラー・ログ(578)のど
ちらに記録するかを選択する。新しい障害レポートのF
FDC ID(580)を、FFDCインターフェース
によって返して(564)クライアント・プログラムに
障害表示を転送する(582)。
【0026】図7は、サービス・アプリケーション・プ
ログラム614内の障害状態に応答してクライアント・
アプリケーション・プログラム612内で関連障害状態
が発生したと仮定される、分散コンピューティング環境
のノード600を示す図である。クライアント・アプリ
ケーション・プログラム612からの障害情報が、第1
障害データ取込(FFDC)インターフェース620に
転送されて、第1障害データ取込エラー・スタック持続
記憶装置650またはAIXエラー・ロギング・サブシ
ステム630を介するAIXエラー・ログ持続記憶装置
640への格納のためのもう1つの障害レコードの作成
に使用される。新しい障害位置識別子FFDC ID
が、最終的にFFDCインターフェース620によって
クライアント・アプリケーション・プログラムに返され
る。関連障害状態の障害情報の受取と共に、FFDCイ
ンターフェースは、サービス・アプリケーション・プロ
グラム614で発生した初期障害状態に関する障害レポ
ートの位置を識別する、サービス・アプリケーション・
プログラム614からの障害位置識別子(FFDCI
D)を受け取る。この新しいFFDC IDは、クライ
アント・アプリケーション・プログラムに転送され、こ
のクライアント・アプリケーション・プログラム自体
は、(たとえば)分散コンピューティング環境の別のノ
ードに存在する、クライアントに対するサーバ・プログ
ラムとすることができる。そのような場合には、エラー
表示が、クライアント・アプリケーション・プログラム
612の障害レコードの障害位置識別子(FFDC I
D)と共に、他のノードのクライアント・アプリケーシ
ョンに送られる。
【0027】図8は、本発明の第1障害データ取込イン
ターフェース論理を使用する、図7のノードで発生する
関連障害状態を記録する論理流れの例を示す図である。
関連障害状態を検出し(660)、サーバ・プログラム
の障害位置識別子(FFDCID)を、サーバ・プログ
ラムから取得する(661)。関連障害状態に関係する
データを収集し(662)、FFDC論理を使用して障
害レコードを作成する(664)。
【0028】FFDC論理は、関連障害に関係するデー
タ(666)ならびに関係する障害レコードからのFF
DC ID(668)を使用してデータ・レコードを作
成する。新しい障害位置識別子を割り当て(670)、
障害データ、レコードのFFDC ID、および前の関
係する障害からのFFDC IDを使用して、新しい障
害レコードを作成する(672)。記憶装置を選択する
(674)が、これには、エラー・スタック(676)
またはAIXエラー・ログ(678)を含めることがで
きる。インターフェース論理(664)を介して新しい
FFDC IDを返して(680)、障害表示と共にノ
ード外(この例では)のクライアント・プログラムに転
送する(682)。
【0029】図9は、リモート・ノードからノード・ベ
ータ700に受け取られる障害通知の例を示す図であ
る。この例では、分散アプリケーション・コンポーネン
ト713が、障害通知を受け取り、障害情報を第1障害
データ取込(FFDC)インターフェース720に供給
する。障害情報のほかに、リモート・ノードのコンポー
ネントからの障害位置識別子も受け取られ、その情報
が、ノード・ベータ700で発生する関連障害状態の障
害レコードの作成に使用される。障害レコードは、やは
り、たとえば操作員がサービスまたは交換部品を要求す
るためにエラーについて現在知る必要があるかどうかに
応じて、エラー・ロギング・サブシステム730を介し
てAIXエラー・ログ持続記憶装置740にまたは第1
障害データ取込エラー・スタック持続記憶装置750に
記録される。FFDCインターフェース720は、新し
い関連障害状態の新しい識別子を返す。この新しいFF
DC識別子は、エラー表示と共に、たとえば分散コンピ
ューティング環境の別のノードで稼動する、クライアン
ト・アプリケーションに転送される。
【0030】図10は、図9に示された関連障害状態を
記録する一実施形態の流れ図である。リモート・コンポ
ーネントから障害通知を受け取る(760)が、これに
は障害位置識別子が含まれる(761)。ノード・ベー
タ700(図9)で発生している関連障害状態に関係す
るデータを収集する(762)。この情報を一緒に、障
害レポート内の障害データの記録のためにFFDCイン
ターフェースに転送する(764)。障害レポートは、
ノード・ベータでの障害に関係するデータ(766)
を、リモート・コンポーネントから受け取ったFFDC
ID(768)と組み合わせ、ノード・ベータで作成
される新しい障害レコードに新し障害位置識別子を割り
当てる(770)ことによって構成される。障害レコー
ドは、関連障害状態データ、新しい障害レコードのFF
DC ID、およびリモート・コンポーネントから受け
取った関係する障害からのFFDC IDから作成され
る(772)。FFDCインターフェースは、その後、
記憶媒体を選択する(774)が、これには、上で説明
したように、FFDCエラー・スタック(776)また
はAIXエラー・ログ(778)への障害レコードの記
録を含めることができる。記録の後に、ノード・ベータ
で格納された関連障害レコードの障害位置識別子(78
0)を障害表示と共にクライアント・プログラムに転送
するためにFFDCインターフェースを介して返す(7
82)。
【0031】上で説明した発明は、分散コンピューティ
ング環境での障害の診断および解決での前述の問題を解
決するのに使用される。これらの問題の解決における問
題点には、下記が含まれることを想起されたい。エンド
ユーザが見る症状が、問題自体の根本原因であることが
ほとんどない。症状は、通常は、分散コンピューティン
グ環境の依存コンポーネントでの他の障害によって引き
起こされた障害によって引き起こされる。関係する障害
を自動的に識別できない限り、分散コンピューティング
環境の実施形態およびコンポーネント相互依存性の詳し
い理解が、これらの問題を解決する方法を知るのに必要
である。この情報は、分散コンピューティング環境製造
者だけが知っている(問題解決を顧客の手から奪う)。
関係する障害のレコードを識別しなければならず、関係
しない障害レコードを分析に含めてはならない。障害レ
コードが、分散コンピューティング環境全体に分散して
いる。
【0032】要約すると、本発明の使用を介して、初期
障害状態を検出する分散コンピューティング環境コンポ
ーネントが、この障害に関する情報を持続記憶装置に記
録する。このコンポーネントは、FFDCソフトウェア
に障害情報を供給し、FFDCソフトウェアは、この障
害レポートを識別する一意のトークン(FFDC障害識
別子)を計算する。FFDCソフトウェアは、その後、
このレコードのFFDC障害識別子と、コンポーネント
によって供給された障害情報を組み合わせて障害レポー
トにし、このレポートを持続記憶装置に記録する。コン
ポーネントは、障害を示すソフトウェア・エラー・コー
ドを供給するが、障害情報の一部としてこのトークンを
依存コンポーネントに供給する。
【0033】依存コンポーネントは、その後、障害を発
生したコンポーネントに要求する機能が、それ自体の機
能を送達するのに必要であったので、障害を経験する可
能性がある。依存コンポーネントは、それ自体の障害状
態に関する情報も持続記憶装置に記録し、記録される障
害情報の一部として、障害を発生したコンポーネントか
らのFFDC障害識別子を供給する。それを行う際に、
依存コンポーネントは、それ自体の障害状態と、それを
引き起こした障害を発生したコンポーネントの元の障害
状態との間のリンクを確立する。依存コンポーネント
は、この情報をFFDCソフトウェアにサブミットし、
FFDCソフトウェアは、依存コンポーネントの障害レ
ポートを識別する新しいFFDC識別子を計算する。F
FDCソフトウェアは、新しいFFDC識別子、依存コ
ンポーネントの障害情報、および元の障害を発生したコ
ンポーネントの関係するFFDC障害識別子を、単一の
障害レポートに組み込み、このレポートを持続記憶装置
に記録する。依存コンポーネントは、その後、FFDC
ソフトウェアから、それ自体のレコード(元の障害を発
生したコンポーネントのレコードではなく)のFFDC
識別子を受け取る。依存コンポーネントは、障害を示す
ソフトウェア・エラーを供給するが、それ自体のクライ
アントにこのFFDC識別子を供給する。
【0034】分散コンピューティング環境の次のコンポ
ーネントは、依存コンポーネントを元の障害を発生した
コンポーネントであるかのように扱って、上の段落で輪
郭を示したステップを繰り返す。次のコンポーネント
は、FFDC障害識別子および障害情報をFFDCソフ
トウェアに供給し、FFDCソフトウェアは、新しいコ
ンポーネントのレポートの新しいFFDC障害識別子を
計算し、新しい障害レコード内のすべての情報を持続記
憶装置に記録し、FFDC障害識別子を新しいコンポー
ネントに与える。新しいコンポーネントは、この新しい
FFDC障害識別子を、その障害情報の一部としてクラ
イアントに供給し、このサイクルが繰り返される。
【0035】この方法を使用して、分散コンピューティ
ング環境のコンポーネントが、関係する障害を一緒にリ
ンクする。別のコンポーネントの障害に起因する障害が
発生する時には、必ず、関係するコンポーネントの障害
レポートへのリンクが確立される。
【0036】前述の図では、ノード・アルファで実行中
のコンポーネントが、障害状態を検出する。そのコンポ
ーネントは、この障害状態を持続記憶装置に記録する際
に、その障害レポートだけを識別する一意のトークンを
得る。このトークンは、分散コンピューティング環境内
のどこからでも、この障害に関する正確な障害レポート
を突きとめるのに使用することができる。ノード・アル
ファのコンポーネントは、このトークン(FFDC障害
識別子)を、それのサービスを要求したものと同一のノ
ードのコンポーネントに供給する。この障害のゆえに、
クライアント・アプリケーションも障害を経験する。ク
ライアントは、障害情報およびサービスのFFDC障害
識別子をFFDCソフトウェアに供給し、FFDCソフ
トウェアは、サービスのFFDC識別子を障害情報の一
部として記録する。これによって、クライアントの障害
状態の間のリンクが確立される。新しいFFDC障害識
別子が、クライアントの障害のために作成され、FFD
Cによってクライアントに供給される。クライアント
は、この新しいFFDC障害識別子を、ノード・ベータ
で実行中の、アルファで実行中のコンポーネントにサー
ビスを要求したコンポーネントに供給する。このシナリ
オが繰り返され、ベータのコンポーネントがノード・ア
ルファからのFFDC障害識別子をその障害レポートに
記録し、これによって、ベータの障害状態とノード・ア
ルファでの出来事の間のリンクが確立される。新しいF
FDC障害識別子が、ベータの障害レポートのために作
成され、ベータの障害応答の一部としてエンドユーザ・
アプリケーションに返される。
【0037】エンドユーザ・アプリケーションは、FF
DC障害識別子をノード・ベータから受け取った時に、
関係する障害状態のリストの初期リンクを有する。この
FFDC障害識別子は、その後、他のFFDCソフトウ
ェア・ユーティリティが、その識別子に関する正確な障
害レポートを取り出し、関係する障害の識別子を取得
し、その障害レポートも取得するのに使用される。次の
障害レポートに、別の関連障害レポートへのリンクも含
まれる場合、そのレポートも取得され、このサイクル
は、根本原因の障害が取得されるまで繰り返される。
【0038】図11は、各ノードが本発明のFFDCイ
ンターフェース論理820を実施する複数のノード80
0、801、802、および803を有する分散コンピ
ューティング環境の例である。各ノードには、上で説明
したAIXエラー・ロギング・サブシステム830、A
IXエラー・ログ記憶装置840、およびFFDCエラ
ー・スタック記憶装置850も含まれる。これらのノー
ドは、FFDCコマンド815および各ノードのRシェ
ル817を使用して通信する。Rシェル817は、UN
IX(登録商標)オペレーティング・システムで使用可
能なリモート・シェル・コマンドであり、リモート・ノ
ードでコマンドを実行するジョブ許可を提供する。分散
アプリケーションが障害通知を受け取ったと仮定する
と、エンドユーザ・アプリケーション811は、分散ア
プリケーション・コンポーネント813によって、障害
について知らされ、上で説明したように、障害位置識別
子(FFDC ID)を与えられる。この障害位置識別
子FFDC IDは、その後、FFDCコマンド815
およびRシェル817コマンドを介して要求元ノードに
転送することができる。この実施形態では、エンドユー
ザ・アプリケーション811は、本発明の原理に従って
連鎖された識別子を使用して障害状態の完全なリストを
取り出し、分散コンピューティング環境の適当なノード
800、801、802、または803からレポートを
取り出すことができる。
【0039】図12および13は、障害レポートを取り
出すための一実施形態を示す図である。根本原因までの
障害状態の症状のトレースは、分散アプリケーションを
呼び出し(862)、アプリケーションが成功裡に完了
したかどうかを判定するために待機する(864)こと
によって開始することができる(860)。成功裡に完
了した場合、処理を単純に終了する(896)。障害状
態が発生した場合、障害位置識別子をアプリケーション
状況から取得し(866)、第1データ取込障害レポー
ト・コマンドを呼び出して(867)、分散システムの
ノードから障害レポート情報を収集する。
【0040】図13からわかるように、まず、ローカル
FFDCエラー・スタックから障害レポートを取り出し
(868)、これを使用して、次の障害レポートに関す
る位置情報を得る(870)。次の障害レポートがロー
カル・ノード上に記録されているかどうかを問い合わせ
る(872)。そうである場合には、FFDCインター
フェースは、レポートがAIXエラー・ログまたはFF
DCエラー・スタックのどちらに配置されたかを判定す
る。次のレポートを、適当な持続記憶装置から取り出す
(876および878、または、880および88
2)。その代わりに、次のレポートがリモート・ノード
上にある場合には、リモート・ノードに送られる障害レ
ポート・コマンドを使用して、リモート・ノードの第1
障害データ取込インターフェースを使用する(89
0)。障害レポートが、リモート・ノードから返される
(892)。障害レポート(892、882、または8
78)から関係するFFDC IDを取り出し(88
4)、FFDCインターフェースによって生成されるレ
ポートで使用するために障害レポートを準備する(88
6)。障害レポートは、FFDCインターフェース(図
13)に転送されるが、レポートを転送する前に、関係
するFFDC IDがレポート内で見つかるかどうかを
判定する(888)。そうである場合には、処理がルー
プ・バックして、そのFFDC IDに関係する障害レ
ポートを取得する(868)。障害レポートが、クライ
アント・プログラムに返され、推奨される処置を実行す
るために調べられ(894)、その後、トレース処理が
終了する(896)。
【0041】上で述べた本発明の障害情報参照機能を、
下でさらに要約する。当業者は、図面に示された2つの
ソフトウェア・ユーティリティによって供給される障害
レコードの持続記憶が、例にすぎないことに留意された
い。AIXエラー・ログは、IBM社のAIX Operati
ng Systemの一部として供給され、第1障害データ取込
エラー・スタックは、本発明の一部として供給される新
しい持続記憶テーブルである。
【0042】一意の障害識別子は、文字列として供給す
ることができ、下の情報からFFDCユーティリティに
よって計算することができる。障害レポートが記録され
た日付および時刻。情報の記録に使用された持続記憶装
置の表示(たとえば、AIXエラー・ログおよびFFD
Cエラー・スタック)。AIXエラー・ログ装置が使用
された時にはこの記録を行うのに使用されたエラー情報
テンプレート、FFDCエラー・スタック装置が使用さ
れた時にはFFDCエラー・スタック・ファイルのi−
ノード番号。IPv4フォーマットまたはIPv6フォ
ーマットのいずれかの、計算ノードのIPアドレス。
【0043】このトークンは、表示可能文字だけで構成
され、この情報をすべての端末装置またはテキスト・フ
ァイルに表示することが可能であり、このデータをシス
テム・コンポーネント間で伝送することができる。
【0044】ソフトウェア・コンポーネント、アプリケ
ーション、およびハードウェア・デバイス・ドライバ
は、コンポーネント始動時に実行環境を初期設定する。
情報は、FFDCユーティリティによる便利で効率的な
取出を可能にし、障害レポートを生成する必要が生じた
時に必ずこの情報を継続的に取り出す必要をなくすため
に、プロセスの環境内に格納される。コンピュータ・ノ
ードのIPアドレスおよび使用されるFFDCエラー・
スタック(ある場合)は、この環境データに含まれる。
【0045】障害状態が検出された時に、ソフトウェア
・コンポーネント、アプリケーション、またはハードウ
ェア・デバイス・ドライバは、FFDCユーティリティ
に下記の情報を供給する。障害レポートの記録に使用さ
れる持続記憶装置の表示(たとえば、AIXエラー・ロ
グまたはFFDCエラー・スタック)。エラー情報テン
プレート(AIXエラー・ログの場合)または記述メッ
セージ(FFDCエラー・スタックの場合)を介する、
障害状態の記述。AIXエラー・ログが持続記憶装置と
して選択された時には、エラー情報テンプレートは、少
なくとも4つの詳細データ・フィールドを指定し、その
最初の3つがFFDCユーティリティによる使用のため
に予約されることが期待される。問題調査者による使用
を目的とする、障害の詳細。前に報告された障害がこの
障害状態の出現に影響した場合の、任意選択のFFDC
障害識別子。
【0046】FFDCユーティリティは、下記に基づい
て、この障害レポートの一意のFFDC障害識別子を計
算する。起動中にコンポーネントによってセット・アッ
プされる環境情報すなわち、計算ノードのIPアドレス
およびFFDCエラー・スタック・ファイルのi−ノー
ド番号(FFDCエラー・スタックがこのコンポーネン
トによって使用される持続記憶装置である場合)。エラ
ー情報テンプレート識別子(AIXエラー・ログがこの
コンポーネントによって使用される持続記憶装置である
場合)。現在の日付および時刻。
【0047】障害情報をAIXエラー・ログに記録する
時に、コンポーネントによって供給される前に報告され
た障害のFFDC障害識別子が含まれる。この識別子
は、たとえば第3詳細データ・フィールドに記録され
る。
【0048】障害情報をFFDCエラー・スタックに記
録する時に、障害レポートおよび任意選択の関係する障
害のFFDC障害識別子が、その目的のために予約され
たレコード・フィールドに記録される。
【0049】FFDCユーティリティは、障害レポート
を適当な持続記憶装置に記録し、新たに作成されたレコ
ードのFFDC障害識別子を、障害を報告したコンポー
ネントに供給する。コンポーネントは、このFFDC障
害識別子を、障害報告情報の一部として、障害状態を知
らせるためにそのクライアントに通常供給する障害表示
またはメッセージまたは戻りコードと共に、そのクライ
アントに供給することが期待される。
【0050】コンポーネントが、可変量の障害情報をそ
のクライアントに送る能力を有しない(たとえば、終了
状況だけを親シェルまたはスクリプトに供給するコマン
ド)場合、コンポーネントは、このFFDC障害識別子
を標準エラー装置に表示する。コンポーネントのクライ
アントは、コンポーネントからの標準エラー出力を解析
することによってFFDC障害識別子を得る。
【0051】障害状態の根本原因を見つけるために、症
状の障害レポートのFFDC障害識別子が、FFDCエ
ンドユーザ・ユーティリティに供給される。このユーテ
ィリティは、FFDC障害識別子を解釈して、下記を判
定する。分散コンピューティング環境のどの計算ノード
に障害レポートがあるか。その計算ノードのどの持続記
憶装置が障害レポートの記録に使用されているか。障害
情報の記録にどのエラー情報テンプレートが使用された
か(AIXエラー・ログが持続記憶装置である場合)。
その計算ノードのどのファイルがFFDCエラー・スタ
ック情報の格納に使用されているか(FFDCエラー・
スタックが持続記憶装置である場合)。持続記憶装置へ
の記録が行われた日付および時刻。
【0052】この情報を取得した後に、ユーティリティ
は、FFDC障害識別子によって示される計算ノードの
持続記憶装置から障害レポートを取り出す。FFDC障
害識別子自体は、その障害状態の特定のレコードを識別
するための検索キーとして使用され、FFDC障害識別
子は、障害レポートに記録される情報に含まれる。AI
Xエラー・ログから障害レポートを取得するには、AI
Xオペレーティング・システム・コマンド「errpt」を
使用し、FFDCエラー・スタック装置から障害レポー
トを取得するには、FFDCエンドユーザ・コマンド
「fcstkrpt」を使用する。AIXコマンド「rsh」は、
障害のレコードが、FFDCエンド・ユーザが実行中の
システムに存在しない場合に、分散コンピューティング
環境内のリモート・ノードから情報を取得するのに使用
される。
【0053】FFDCエンドユーザ・ユーティリティに
よって得られた障害レポートは、エンドユーザの確立し
たロケールを使用して、FFDCユーティリティ・ユー
ザに供給される。このレポートに、関係する障害または
関連障害のFFDC障害識別子が含まれる場合には、こ
のFFDC障害識別子が、障害レポートの内容から取得
される。前にリストしたステップが繰り返され、下記の
条件の1つが満足されるまで障害レポートが取得され
る。障害レポートによって参照される障害レポートがこ
れ以上存在しない。そのレポートに、障害レポート内の
関連FFDC障害識別子がリストされていない。FFD
C障害識別子の障害レポートを取得することができな
い。
【0054】したがって、障害レポートのリストが、エ
ンドユーザに提供される。ユーザは、エンドユーザの視
点から気付かれた障害症状につながる障害のシーケンス
を理解することができる。問題判定の努力は、エンドユ
ーザの障害症状から開始し、その障害がどこから発した
かを「推測」しようとするのではなく、出発点としてユ
ーティリティから得られた最後の障害レポートを使用す
ることによって開始することができる。
【0055】たとえば、本発明は、たとえばコンピュー
タ使用可能媒体を有する、製造品(たとえば、1つまた
は複数のコンピュータ・プログラム製品)に含めること
ができる。この媒体は、たとえば、本発明の機能を提供
し促進するコンピュータ可読プログラム・コード手段を
その中に実施される。製造品は、コンピュータ・システ
ムの一部として含めるか、別々に販売することができ
る。
【0056】さらに、本発明の機能を実行するために機
械によって実行可能な少なくとも1つの命令のプログラ
ムを具体的に実施する、機械によって可読の少なくとも
1つのプログラム記憶装置を提供することができる。
【0057】本明細書で示された流れ図は、例として提
供される。これらの図または本明細書に記載のステップ
(または動作)に対する、本発明の主旨から逸脱しない
変形形態がありえる。たとえば、場合によっては、ステ
ップを異なる順序で実行することができ、ステップの追
加、削除、または変更を行うことができる。これらの変
形形態のすべてが、請求項に記載の本発明の一部を含む
と見なされる。
【0058】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0059】(1)複数のノードを有する分散コンピュ
ーティング環境で障害情報を参照する方法であって、ノ
ードでの障害状態の検出時に、前記障害状態に関する情
報を記録することによって、障害レポートを作成するス
テップと、前記障害レポートに識別子を割り当て、前記
ノードで前記障害レポートを格納するステップであっ
て、前記識別子が、前記障害レポートを作成する前記分
散コンピューティング環境内の前記ノード、および前記
ノードに関連する記憶装置内で前記障害レポートが配置
される場所を含む前記障害レポートを一意に識別するス
テップとを含む方法。 (2)前記障害状態が、前記ノードで稼動するプログラ
ム内で発し、前記プログラムが、サーバ・プログラムを
含む前記ノードで稼動し、前記方法がさらに、前記いず
れかのノードからの前記障害レポートの可能な取出のた
めに前記分散コンピューティング環境の前記複数のノー
ドのいずれかのノードで稼動するクライアント・プログ
ラムに前記識別子を供給するステップを含み、前記いず
れかのノードが、前記障害レポートが配置される前記ノ
ードまたは前記分散コンピューティング環境の異なるノ
ードを含む、上記(1)に記載の方法。 (3)前記障害レポートが、前記識別子を使用して、前
記分散コンピューティング環境の前記複数のノードのど
のノードからでも取出可能である、上記(1)に記載の
方法。 (4)前記障害状態が、初期障害状態を含み、前記方法
がさらに、前記初期障害状態の結果として生ずる関連障
害状態に関する情報を記録することによって第2障害レ
ポートを作成するステップであって、前記関連障害状態
が、前記分散コンピューティング環境の前記複数のノー
ドのいずれかのノードで発生するステップと、前記第2
障害レポートに第2識別子を割り当て、前記第2障害レ
ポートを前記いずれかのノードで格納するステップであ
って、前記第2識別子が、前記第2障害レポートを作成
する前記分散コンピューティング環境内の前記いずれか
のノード、前記いずれかのノードに関連する記憶装置内
で前記第2障害レポートが配置される場所、および前記
初期障害状態に関する前記障害レポートの取出のための
前記識別子を含む前記第2障害レポートを一意に識別す
る、上記(1)に記載の方法。 (5)前記初期障害状態が、前記ノードの第1プログラ
ム内で発生し、前記関連障害が、前記いずれかのノード
の第2プログラム内で発生し、前記第1プログラムが、
サーバ・プログラムを含み、前記第2プログラムが、ク
ライアント・プログラムを含む、上記(4)に記載の方
法。 (6)前記関連障害状態が、第1関連障害状態を含み、
前記方法が、n個の追加の関連障害状態について前記作
成ステップおよび前記割当ステップを繰り返すステップ
を含み、各追加の関連障害状態が、前記追加の関連障害
状態が発生する前記分散コンピューティング環境内のノ
ード、前記ノードに関連する記憶装置内でその障害レポ
ートが配置される場所、および前記初期障害状態に関係
する前記n個の追加の障害状態を含む障害状態のチェー
ン内の障害状態に関する前の障害レポートの取出のため
の識別子を識別する一意の識別子を割り当てられた、上
記(4)に記載の方法。 (7)前記障害条件が、サーバ・プログラム内で発生
し、前記方法がさらに、前記ノードまたは前記複数のノ
ードの異なるノードのクライアント・プログラムに、障
害表示と共に前記識別子を返すステップを含む、上記
(1)に記載の方法。 (8)前記障害状態が生じた前記分散コンピューティン
グ環境の前記ノードで格納された前記障害レポートを前
記クライアント・プログラムから取り出すステップをさ
らに含む、上記(7)に記載の方法。 (9)前記ノードで第1障害データ取込論理インターフ
ェースを使用して前記作成ステップおよび前記割当ステ
ップを実行するステップと、前記ノードに関連する持続
記憶装置に前記障害レポートを格納するステップとをさ
らに含む、上記(1)に記載の方法。 (10)前記障害レポートの前記作成ステップが、前記
障害状態の可能な原因または前記障害状態に応答して行
うべき推奨処置のうちの少なくとも1つを記録するステ
ップを含む、上記(1)に記載の方法。 (11)複数のノードを有する分散コンピューティング
環境で障害情報を参照する方法であって、第1ノードで
の第1プログラム障害状態の検出時に、前記第1プログ
ラム障害状態に関する情報を記録することによって、第
1プログラム障害レポートを作成するステップと、前記
第1プログラム障害レポートを作成する前記分散コンピ
ューティング環境内の前記ノード、および前記ノードに
関連する記憶装置内で前記第1プログラム障害レポート
が配置される場所を含む前記第1プログラム障害レポー
トを一意に識別する第1識別子を、前記第1プログラム
障害レポートに割り当てるステップと、前記第1プログ
ラム障害状態に関係する、第2ノードでの第2プログラ
ム障害状態の検出時に、前記第2プログラム障害状態に
関する情報を記録することによって第2プログラム障害
レポートを作成するステップであって、前記第2ノード
および前記第1ノードが、前記分散コンピューティング
環境内の同一のノードまたは異なるノードを含むステッ
プと、前記第2プログラム障害レポートを作成する前記
分散コンピューティング環境内の前記第2ノード、前記
第2ノードに関連する記憶装置内で前記第2プログラム
障害レポートが配置される場所、および前記第2プログ
ラム障害状態に関係する前記第1プログラム障害状態に
関する前記第1プログラム障害レポートの前記第1識別
子を含む前記第2プログラム障害レポートを一意に識別
する第2識別子を、前記第2プログラム障害レポートに
割り当てるステップとを含む方法。 (12)前記分散コンピューティング環境内で障害情報
をトレースするステップをさらに含み、前記トレースす
るステップが、前記第2識別子を使用して前記第2ノー
ドから前記第2プログラム障害レポートを取り出すステ
ップと、それから前記第1識別子を突きとめるステップ
と、前記第1識別子を使用して、前記分散コンピューテ
ィング環境の前記第1ノードの前記第1プログラム障害
レポートを取り出すステップを含む、上記(11)に記
載の方法。 (13)前記分散コンピューティング環境の1つまたは
複数のノードでn個の追加のプログラム障害状態を検出
するステップと、各前記プログラム障害状態に関する情
報を記録することによってn個の追加のプログラム障害
レポートを作成するステップであって、各前記プログラ
ム障害状態が前記第1プログラム障害状態に関係するス
テップと、前記n個の追加のプログラム障害レポートに
n個の一意の識別子を割り当てるステップであって、各
一意の識別子が、前記プログラム障害レポートを作成す
る前記分散コンピューティング環境内の前記ノード、前
記ノードに関連する記憶装置内で前記プログラム障害レ
ポートが配置される場所、および、前記n個の一意の識
別子、前記第1識別子、または前記第2識別子のうちの
1つを使用する少なくとも1つの他のプログラム障害レ
ポートへの参照を含んで、前記第1プログラム障害レポ
ートを除いた各プログラム障害レポートを含むプログラ
ム障害レポートを一意に識別するステップとをさらに含
む、上記(11)に記載の方法。 (14)複数のノードを有する分散コンピューティング
環境で障害情報を参照するシステムであって、ノードで
の障害状態の検出時に、前記障害状態に関する情報を記
録することによって、障害レポートを作成する手段と、
前記障害レポートに識別子を割り当て、前記ノードで前
記障害レポートを格納する手段であって、前記識別子
が、前記障害レポートを作成する前記分散コンピューテ
ィング環境内の前記ノード、および前記ノードに関連す
る記憶装置内で前記障害レポートが配置される場所を含
む前記障害レポートを一意に識別する手段とを含むシス
テム。 (15)前記障害状態が、前記ノードで稼動するプログ
ラム内で発し、前記プログラムが、サーバ・プログラム
を含む前記ノードで稼動し、前記システムがさらに、前
記いずれかのノードからの前記障害レポートの可能な取
出のために前記分散コンピューティング環境の前記複数
のノードのいずれかのノードで稼動するクライアント・
プログラムに前記識別子を供給する手段を含み、前記い
ずれかのノードが、前記障害レポートが配置される前記
ノードまたは前記分散コンピューティング環境の異なる
ノードを含む、上記(14)に記載のシステム。 (16)前記障害レポートが、前記識別子を使用して、
前記分散コンピューティング環境の前記複数のノードの
どのノードからでも取出可能である、上記(14)に記
載のシステム。 (17)前記障害状態が、初期障害状態を含み、前記シ
ステムがさらに、前記初期障害状態の結果として生ずる
関連障害状態に関する情報を記録することによって第2
障害レポートを作成する手段であって、前記関連障害状
態が、前記分散コンピューティング環境の前記複数のノ
ードのいずれかのノードで発生する手段と、前記第2障
害レポートに第2識別子を割り当て、前記第2障害レポ
ートを前記いずれかのノードで格納する手段であって、
前記第2識別子が、前記第2障害レポートを作成する前
記分散コンピューティング環境内の前記いずれかのノー
ド、前記いずれかのノードに関連する記憶装置内で前記
第2障害レポートが配置される場所、および前記初期障
害状態に関する前記障害レポートの取出のための前記識
別子を含む前記第2障害レポートを一意に識別する手段
とを含む、上記(14)に記載のシステム。 (18)前記初期障害状態が、前記ノードの第1プログ
ラム内で発生し、前記関連障害状態が、前記いずれかの
ノードの第2プログラム内で発生し、前記第1プログラ
ムが、サーバ・プログラムを含み、前記第2プログラム
が、クライアント・プログラムを含む、上記(17)に
記載のシステム。 (19)前記関連障害状態が、第1関連障害状態を含
み、前記システムが、n個の追加の関連障害状態につい
て前記作成手段および前記割当手段を繰り返す手段を含
み、各追加の関連障害状態が、前記追加の関連障害状態
が発生する前記分散コンピューティング環境内のノー
ド、前記ノードに関連する記憶装置内でその障害レポー
トが配置される場所、および前記初期障害状態に関係す
る前記n個の追加の障害状態を含む障害状態のチェーン
内の障害状態に関する前の障害レポートの取出のための
識別子を識別する一意の識別子を割り当てられた、上記
(17)に記載のシステム。 (20)前記障害条件が、サーバ・プログラム内で発生
し、前記システムがさらに、前記ノードまたは前記複数
のノードの異なるノードのクライアント・プログラム
に、障害表示と共に前記識別子を返す手段を含む、上記
(14)に記載のシステム。 (21)前記障害状態が生じた前記分散コンピューティ
ング環境の前記ノードで格納された前記障害レポートを
前記クライアント・プログラムから取り出す手段をさら
に含む、上記(20)に記載のシステム。 (22)前記作成手段および前記割当手段が、前記ノー
ドの第1障害データ取込論理インターフェース内で実施
され、前記格納手段が、前記ノードに関連する持続記憶
装置に前記障害レポートを格納する手段を含む、上記
(14)に記載のシステム。 (23)前記障害レポートの前記作成手段が、前記障害
状態の可能な原因または前記障害状態に応答して行うべ
き推奨処置のうちの少なくとも1つを記録する手段を含
む、上記(14)に記載のシステム。 (24)複数のノードを有する分散コンピューティング
環境内で障害情報を参照するシステムであって、前記複
数のノードのうちの少なくとも1つの処理ノードが、前
記少なくとも1つのノードでの障害状態の検出時に、前
記障害状態に関する情報を記録することによって、障害
レポートを作成するための第1障害データ取込インター
フェースを有し、上位第1障害データ取込インターフェ
ースが、さらに、前記障害レポートに識別子を割り当
て、前記少なくとも1つのノードで前記障害レポートを
格納するように適合され、前記識別子が、前記障害レポ
ートを作成する前記分散コンピューティング環境内の前
記少なくとも1つのノード、および前記少なくとも1つ
のノードに関連する記憶装置内で前記障害レポートが配
置される場所を含む前記障害レポートを一意に識別する
システム。 (25)複数のノードを有する分散コンピューティング
環境で障害情報を参照するシステムであって、第1ノー
ドで検出された第1プログラム障害状態に関する情報を
記録することによって第1プログラム障害レポートを作
成する手段と、前記第1プログラム障害レポートを作成
する前記分散コンピューティング環境内の前記ノード、
および前記ノードに関連する記憶装置内で前記第1プロ
グラム障害レポートが配置される場所を含む前記第1プ
ログラム障害レポートを一意に識別する第1識別子を前
記第1プログラム障害レポートに割り当てる手段と、前
記第1プログラム障害状態に関係する、第2ノードでの
第2プログラム障害状態の検出時に、第2プログラム障
害レポートを作成する手段であって、前記第2プログラ
ム障害レポートが、前記第2プログラム障害状態に関す
る情報を記録することによって作成され、前記第2ノー
ドおよび前記第1ノードが、前記分散コンピューティン
グ環境内の同一のノードまたは異なるノードを含む手段
と、前記第2プログラム障害レポートを作成する前記分
散コンピューティング環境内の前記第2ノード、前記第
2ノードに関連する記憶装置内で前記第2プログラム障
害レポートが配置される場所、および前記第2プログラ
ム障害状態に関係する前記第1プログラム障害状態の前
記第1プログラム障害レポートの前記第1識別子を含む
第2プログラム障害レポートを一意に識別する第2識別
子を、前記第2プログラム障害レポートに割り当てる手
段とを含むシステム。 (26)前記分散コンピューティング環境内で障害情報
をトレースする手段をさらに含み、前記トレースする手
段が、前記第2識別子を使用して前記第2ノードから前
記第2プログラム障害レポートを取り出す手段と、それ
から前記第1識別子を突きとめる手段と、前記第1識別
子を使用して、前記分散コンピューティング環境の前記
第1ノードの前記第1プログラム障害レポートを取り出
す手段とを含む、上記(25)に記載のシステム。 (27)前記分散コンピューティング環境の1つまたは
複数のノードでn個の追加のプログラム障害状態を検出
する手段と、各前記プログラム障害状態に関する情報を
記録することによってn個の追加のプログラム障害レポ
ートを作成する手段であって、各前記プログラム障害状
態が前記第1プログラム障害状態に関係する手段と、前
記n個の追加のプログラム障害レポートにn個の一意の
識別子を割り当てる手段であって、各一意の識別子が、
前記プログラム障害レポートを作成する前記分散コンピ
ューティング環境内の前記ノード、前記ノードに関連す
る記憶装置内で前記プログラム障害レポートが配置され
る場所、および、前記n個の一意の識別子、前記第1識
別子、または前記第2識別子のうちの1つを使用する少
なくとも1つの他のプログラム障害レポートへの参照を
含んで、前記第1プログラム障害レポートを除いた各プ
ログラム障害レポートを含むプログラム障害レポートを
一意に識別する手段とをさらに含む、上記(25)に記
載のシステム。 (28)複数のノードを有する分散コンピューティング
環境で障害情報を参照するシステムであって、第1障害
データ取込インターフェース論理を使用して前記第1プ
ログラム障害状態に関する情報を記録することによっ
て、第1プログラム障害レポートを作成するように適合
された前記複数のノードの第1ノードを含み、前記第1
ノードが、さらに、前記第1プログラム障害レポートを
作成する前記分散コンピューティング環境内の前記第1
ノード、および前記ノードに関連する記憶装置内で前記
第1プログラム障害レポートが配置される場所を含む前
記第1プログラム障害レポートを一意に識別する第1識
別子を前記第1プログラム障害レポートに割り当てるよ
うに適合され、前記第1識別子が、前記第1ノードの前
記第1障害データ取込インターフェース論理を使用して
割り当てられ、さらに、第2ノードで発生する第2プロ
グラム障害状態に関する情報を記録することによって第
2プログラム障害レポートを作成するように適合された
第2ノードを含み、前記第2プログラム障害状態が、前
記第1プログラム障害状態に関係し、前記第2ノードお
よび前記第1ノードが、前記分散コンピューティング環
境内の同一のノードまたは異なるノードを含むことがで
き、前記第2ノードが、前記第2ノードの第1障害デー
タ取込インターフェース論理を使用して前記第2プログ
ラム障害レポートを作成し、前記第2ノードが、さら
に、前記第2ノードの前記第1障害データ取込インター
フェース論理を使用して前記第2プログラム障害レポー
トに第2識別子を割り当てるように適合され、前記第2
識別子が、前記第2プログラム障害レポートを作成する
前記分散コンピューティング環境内の前記第2ノード、
前記第2ノードに関連する記憶装置内で前記第2プログ
ラム障害レポートが配置される場所、および前記第2プ
ログラム障害条件に関係する前記第1プログラム障害状
態の前記第1プログラム障害レポートの前記第1識別子
を含む前記第2プログラム障害レポートを一意に識別す
るシステム。 (29)複数のノードを有する分散コンピューティング
環境で障害情報を参照する方法を実行するために機械に
よって実行可能な少なくとも1つの命令のプログラムを
具体的に実施する、機械によって読取可能な少なくとも
1つのプログラム記憶装置であって、前記方法が、ノー
ドでの障害状態の検出時に、前記障害状態に関する情報
を記録することによって、障害レポートを作成するステ
ップと、前記障害レポートに識別子を割り当て、前記ノ
ードで前記障害レポートを格納するステップであって、
前記識別子が、前記障害レポートを作成する前記分散コ
ンピューティング環境内の前記ノード、および前記ノー
ドに関連する記憶装置内で前記障害レポートが配置され
る場所を含む前記障害レポートを一意に識別するステッ
プとを含む、少なくとも1つのプログラム記憶装置。 (30)前記障害状態が、前記ノードで稼動するプログ
ラム内で発し、前記プログラムが、サーバ・プログラム
を含む前記ノードで稼動し、前記方法がさらに、前記い
ずれかのノードからの前記障害レポートの可能な取出の
ために前記分散コンピューティング環境の前記複数のノ
ードのいずれかのノードで稼動するクライアント・プロ
グラムに前記識別子を供給するステップを含み、前記い
ずれかのノードが、前記障害レポートが配置される前記
ノードまたは前記分散コンピューティング環境の異なる
ノードを含む、上記(29)に記載の少なくとも1つの
プログラム記憶装置。 (31)前記障害レポートが、前記識別子を使用して、
前記分散コンピューティング環境の前記複数のノードの
どのノードからでも取出可能である、上記(29)に記
載の少なくとも1つのプログラム記憶装置。 (32)前記障害状態が、初期障害状態を含み、前記方
法がさらに、前記初期障害状態の結果として生ずる関連
障害状態に関する情報を記録することによって第2障害
レポートを作成するステップであって、前記関連障害状
態が、前記分散コンピューティング環境の前記複数のノ
ードのいずれかのノードで発生するステップと、前記第
2障害レポートに第2識別子を割り当て、前記第2障害
レポートを前記いずれかのノードで格納するステップで
あって、前記第2識別子が、前記第2障害レポートを作
成する前記分散コンピューティング環境内の前記いずれ
かのノード、前記いずれかのノードに関連する記憶装置
内で前記第2障害レポートが配置される場所、および前
記初期障害状態に関する前記障害レポートの取出のため
の前記識別子を含む前記第2障害レポートを一意に識別
するステップとを含む、上記(29)に記載の少なくと
も1つのプログラム記憶装置。 (33)前記初期障害状態が、前記ノードの第1プログ
ラム内で発生し、前記関連障害状態が、前記いずれかの
ノードの第2プログラム内で発生し、前記第1プログラ
ムが、サーバ・プログラムを含み、前記第2プログラム
が、クライアント・プログラムを含む、上記(32)に
記載の少なくとも1つのプログラム記憶装置。 (34)前記関連障害状態が、第1関連障害状態を含
み、前記方法が、n個の追加の関連障害状態について前
記作成ステップおよび前記割当ステップを繰り返すステ
ップを含み、各追加の関連障害状態が、前記追加の関連
障害状態が発生する前記分散コンピューティング環境内
のノード、前記ノードに関連する記憶装置内でその障害
レポートが配置される場所、および前記初期障害状態に
関係する前記n個の追加の障害状態を含む障害状態のチ
ェーン内の障害状態に関する前の障害レポートの取出の
ための識別子を識別する一意の識別子を割り当てられ
た、上記(32)に記載の少なくとも1つのプログラム
記憶装置。 (35)前記障害条件が、サーバ・プログラム内で発生
し、前記方法がさらに、前記ノードまたは前記複数のノ
ードの異なるノードのクライアント・プログラムに、障
害表示と共に前記識別子を返すステップを含む、上記
(29)に記載の少なくとも1つのプログラム記憶装
置。 (36)前記障害状態が生じた前記分散コンピューティ
ング環境の前記ノードで格納された前記障害レポートを
前記クライアント・プログラムから取り出すステップを
さらに含む、上記(35)に記載の少なくとも1つのプ
ログラム記憶装置。 (37)前記ノードで第1障害データ取込論理インター
フェースを使用して前記作成ステップおよび前記割当ス
テップを実行するステップと、前記ノードに関連する持
続記憶装置に前記障害レポートを格納するステップとを
さらに含む、上記(29)に記載の少なくとも1つのプ
ログラム記憶装置。 (38)前記障害レポートの前記作成ステップが、前記
障害状態の可能な原因または前記障害状態に応答して行
うべき推奨処置のうちの少なくとも1つを記録するステ
ップを含む、上記(29)に記載の少なくとも1つのプ
ログラム記憶装置。 (39)複数のノードを有する分散コンピューティング
環境内で障害情報を参照する方法を実行するために機械
によって実行可能な少なくとも1つの命令のプログラム
を具体的に実施する、機械によって読取可能な少なくと
も1つのプログラム記憶装置であって、前記方法が、第
1ノードでの第1プログラム障害状態の検出時に、前記
第1プログラム障害状態に関する情報を記録することに
よって、第1プログラム障害レポートを作成するステッ
プと、前記第1プログラム障害レポートを作成する前記
分散コンピューティング環境内の前記ノード、および前
記ノードに関連する記憶装置内で前記第1プログラム障
害レポートが配置される場所を含む前記第1プログラム
障害レポートを一意に識別する第1識別子を前記第1プ
ログラム障害レポートに割り当てるステップと、前記第
1プログラム障害状態に関係する、第2ノードでの第2
プログラム障害状態の検出時に、前記第2プログラム障
害状態に関する情報を記録することによって第2プログ
ラム障害レポートを作成するステップであって、前記第
2ノードおよび前記第1ノードが、前記分散コンピュー
ティング環境内の同一のノードまたは異なるノードを含
むステップと、前記第2プログラム障害レポートを作成
する前記分散コンピューティング環境内の前記第2ノー
ド、前記第2ノードに関連する記憶装置内で前記第2プ
ログラム障害レポートが配置される場所、および前記第
2プログラム障害状態に関係する前記第1プログラム障
害状態に関する前記第1プログラム障害レポートの前記
第1プログラム識別子を含む第2プログラム障害レポー
トを一意に識別する第2識別子を前記第2プログラム障
害レポートに割り当てるステップとを含む、少なくとも
1つのプログラム記憶装置。 (40)前記方法がさらに、前記分散コンピューティン
グ環境内で障害情報をトレースするステップをさらに含
み、前記トレースするステップが、前記第2識別子を使
用して前記第2ノードから前記第2プログラム障害レポ
ートを取り出すステップと、それから前記第1識別子を
突きとめるステップと、前記第1識別子を使用して、前
記分散コンピューティング環境の前記第1ノードの前記
第1プログラム障害レポートを取り出すステップを含
む、上記(39)に記載の少なくとも1つのプログラム
記憶装置。 (41)前記方法がさらに、前記分散コンピューティン
グ環境の1つまたは複数のノードでn個の追加のプログ
ラム障害状態を検出するステップと、各前記プログラム
障害状態に関する情報を記録することによってn個の追
加のプログラム障害レポートを作成するステップであっ
て、各前記プログラム障害状態が前記第1プログラム障
害状態に関係するステップと、前記n個の追加のプログ
ラム障害レポートにn個の一意の識別子を割り当てるス
テップであって、各一意の識別子が、前記プログラム障
害レポートを作成する前記分散コンピューティング環境
内の前記ノード、前記ノードに関連する記憶装置内で前
記プログラム障害レポートが配置される場所、および、
前記n個の一意の識別子、前記第1識別子、または前記
第2識別子のうちの1つを使用する少なくとも1つの他
のプログラム障害レポートへの参照を含んで、前記第1
プログラム障害レポートを除いた各プログラム障害レポ
ートを含むプログラム障害レポートを一意に識別するス
テップとをさらに含む、上記(39)に記載の少なくと
も1つのプログラム記憶装置。
【図面の簡単な説明】
【図1】本発明の原理による障害情報参照機能を使用す
る分散コンピューティング環境の一実施形態を示す図で
ある。
【図2】本発明の原理による第1障害データ取込インタ
ーフェース論理を使用する分散コンピューティング環境
の1ノードのブロック図である。
【図3】サーバ・アプリケーション・プログラムとクラ
イアント・アプリケーション・プログラムの両方を有
し、やはり本発明の原理による第1障害データ取込イン
ターフェース論理を使用する分散コンピューティング環
境の1ノードのブロック図である。
【図4】各処理ノードが分散アプリケーション・コンポ
ーネントを使用して他の処理ノードと通信し、各処理ノ
ードに本発明の原理による第1障害データ取込(FFD
C)インターフェース論理が含まれる、複数の処理ノー
ドを有する分散コンピューティング環境の図である。
【図5】本発明の原理による第1障害データ取込インタ
ーフェース論理を使用し、サービス・アプリケーション
・プログラムでの初期エラーが仮定される、分散コンピ
ューティング環境の1ノードのブロック図である。
【図6】本発明の第1障害データ取込インターフェース
論理を使用して、図5の初期プログラム障害状態を記録
するための一実施形態の流れ図である。
【図7】関連障害状態がクライアント・アプリケーショ
ン・プログラムで発生した場合の、本発明の第1障害デ
ータ取込インターフェース論理を有する分散コンピュー
ティング環境のノードを示す図である。
【図8】第1障害データ取込インターフェース論理を使
用して図7の関連障害状態に関する情報を記録するため
の一実施形態の流れ図である。
【図9】本発明の原理による第1障害データ取込インタ
ーフェース論理を使用して、分散システムのリモート・
ノード上のコンポーネントからの障害通知に応答してノ
ードで関連障害状態を記録する、分散コンピューティン
グ環境のノードを示す図である。
【図10】本発明の第1障害データ取込インターフェー
ス論理を使用して図9の関連障害状態を記録するための
一実施形態の流れ図である。
【図11】各ノードが本発明の第1障害データ取込(F
FDC)インターフェース論理を使用し、これを使用し
て本発明の技法を使用して根本原因まで障害の症状をト
レースすることができる、分散コンピューティング環境
の一実施形態を示す図である。
【図12】本発明の第1障害データ取込インターフェー
ス論理および割り当てられた識別子を使用して、根本原
因まで障害の症状をトレースするための一実施形態の流
れ図である。
【図13】本発明の第1障害データ取込インターフェー
ス論理および割り当てられた識別子を使用して、根本原
因まで障害の症状をトレースするための一実施形態の流
れ図である。
【符号の説明】
100 分散コンピュータ・システム 102 ローカル・エリア・ネットワーク(LAN) 104 LANゲート 105 IBM Scalable POWERparallelスイッチ(S
PS) 106 ノード 107 DASD装置 110 バス 112 コントロール・ワークステーション(CWS) 114 直接アクセス記憶装置(DASD) 200 ノード・アルファ 210 アプリケーション・プログラム 212 クライアント・アプリケーション・プログラム 214 サービス・アプリケーション・プログラム 220 第1障害データ取込(FFDC)インターフェ
ース 230 AIXエラー・ロギング・サブシステム 240 AIXエラー・ログ持続記憶装置 250 第1障害データ取込エラー・スタック持続記憶
装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マイケル・エイ・シュミット アメリカ合衆国12484−5819 ニューヨー ク州ストーン・リッジ パイン・ブッシ ュ・ロード 113

Claims (41)

    【特許請求の範囲】
  1. 【請求項1】複数のノードを有する分散コンピューティ
    ング環境で障害情報を参照する方法であって、 ノードでの障害状態の検出時に、前記障害状態に関する
    情報を記録することによって、障害レポートを作成する
    ステップと、 前記障害レポートに識別子を割り当て、前記ノードで前
    記障害レポートを格納するステップであって、前記識別
    子が、前記障害レポートを作成する前記分散コンピュー
    ティング環境内の前記ノード、および前記ノードに関連
    する記憶装置内で前記障害レポートが配置される場所を
    含む前記障害レポートを一意に識別するステップとを含
    む方法。
  2. 【請求項2】前記障害状態が、前記ノードで稼動するプ
    ログラム内で発し、前記プログラムが、サーバ・プログ
    ラムを含む前記ノードで稼動し、前記方法がさらに、前
    記いずれかのノードからの前記障害レポートの可能な取
    出のために前記分散コンピューティング環境の前記複数
    のノードのいずれかのノードで稼動するクライアント・
    プログラムに前記識別子を供給するステップを含み、前
    記いずれかのノードが、前記障害レポートが配置される
    前記ノードまたは前記分散コンピューティング環境の異
    なるノードを含む、請求項1に記載の方法。
  3. 【請求項3】前記障害レポートが、前記識別子を使用し
    て、前記分散コンピューティング環境の前記複数のノー
    ドのどのノードからでも取出可能である、請求項1に記
    載の方法。
  4. 【請求項4】前記障害状態が、初期障害状態を含み、前
    記方法がさらに、前記初期障害状態の結果として生ずる
    関連障害状態に関する情報を記録することによって第2
    障害レポートを作成するステップであって、前記関連障
    害状態が、前記分散コンピューティング環境の前記複数
    のノードのいずれかのノードで発生するステップと、前
    記第2障害レポートに第2識別子を割り当て、前記第2
    障害レポートを前記いずれかのノードで格納するステッ
    プであって、前記第2識別子が、前記第2障害レポート
    を作成する前記分散コンピューティング環境内の前記い
    ずれかのノード、前記いずれかのノードに関連する記憶
    装置内で前記第2障害レポートが配置される場所、およ
    び前記初期障害状態に関する前記障害レポートの取出の
    ための前記識別子を含む前記第2障害レポートを一意に
    識別する、請求項1に記載の方法。
  5. 【請求項5】前記初期障害状態が、前記ノードの第1プ
    ログラム内で発生し、前記関連障害が、前記いずれかの
    ノードの第2プログラム内で発生し、前記第1プログラ
    ムが、サーバ・プログラムを含み、前記第2プログラム
    が、クライアント・プログラムを含む、請求項4に記載
    の方法。
  6. 【請求項6】前記関連障害状態が、第1関連障害状態を
    含み、前記方法が、n個の追加の関連障害状態について
    前記作成ステップおよび前記割当ステップを繰り返すス
    テップを含み、各追加の関連障害状態が、前記追加の関
    連障害状態が発生する前記分散コンピューティング環境
    内のノード、前記ノードに関連する記憶装置内でその障
    害レポートが配置される場所、および前記初期障害状態
    に関係する前記n個の追加の障害状態を含む障害状態の
    チェーン内の障害状態に関する前の障害レポートの取出
    のための識別子を識別する一意の識別子を割り当てられ
    た、請求項4に記載の方法。
  7. 【請求項7】前記障害条件が、サーバ・プログラム内で
    発生し、前記方法がさらに、前記ノードまたは前記複数
    のノードの異なるノードのクライアント・プログラム
    に、障害表示と共に前記識別子を返すステップを含む、
    請求項1に記載の方法。
  8. 【請求項8】前記障害状態が生じた前記分散コンピュー
    ティング環境の前記ノードで格納された前記障害レポー
    トを前記クライアント・プログラムから取り出すステッ
    プをさらに含む、請求項7に記載の方法。
  9. 【請求項9】前記ノードで第1障害データ取込論理イン
    ターフェースを使用して前記作成ステップおよび前記割
    当ステップを実行するステップと、前記ノードに関連す
    る持続記憶装置に前記障害レポートを格納するステップ
    とをさらに含む、請求項1に記載の方法。
  10. 【請求項10】前記障害レポートの前記作成ステップ
    が、前記障害状態の可能な原因または前記障害状態に応
    答して行うべき推奨処置のうちの少なくとも1つを記録
    するステップを含む、請求項1に記載の方法。
  11. 【請求項11】複数のノードを有する分散コンピューテ
    ィング環境で障害情報を参照する方法であって、 第1ノードでの第1プログラム障害状態の検出時に、前
    記第1プログラム障害状態に関する情報を記録すること
    によって、第1プログラム障害レポートを作成するステ
    ップと、 前記第1プログラム障害レポートを作成する前記分散コ
    ンピューティング環境内の前記ノード、および前記ノー
    ドに関連する記憶装置内で前記第1プログラム障害レポ
    ートが配置される場所を含む前記第1プログラム障害レ
    ポートを一意に識別する第1識別子を、前記第1プログ
    ラム障害レポートに割り当てるステップと、 前記第1プログラム障害状態に関係する、第2ノードで
    の第2プログラム障害状態の検出時に、前記第2プログ
    ラム障害状態に関する情報を記録することによって第2
    プログラム障害レポートを作成するステップであって、
    前記第2ノードおよび前記第1ノードが、前記分散コン
    ピューティング環境内の同一のノードまたは異なるノー
    ドを含むステップと、 前記第2プログラム障害レポートを作成する前記分散コ
    ンピューティング環境内の前記第2ノード、前記第2ノ
    ードに関連する記憶装置内で前記第2プログラム障害レ
    ポートが配置される場所、および前記第2プログラム障
    害状態に関係する前記第1プログラム障害状態に関する
    前記第1プログラム障害レポートの前記第1識別子を含
    む前記第2プログラム障害レポートを一意に識別する第
    2識別子を、前記第2プログラム障害レポートに割り当
    てるステップとを含む方法。
  12. 【請求項12】前記分散コンピューティング環境内で障
    害情報をトレースするステップをさらに含み、前記トレ
    ースするステップが、前記第2識別子を使用して前記第
    2ノードから前記第2プログラム障害レポートを取り出
    すステップと、それから前記第1識別子を突きとめるス
    テップと、前記第1識別子を使用して、前記分散コンピ
    ューティング環境の前記第1ノードの前記第1プログラ
    ム障害レポートを取り出すステップを含む、請求項11
    に記載の方法。
  13. 【請求項13】前記分散コンピューティング環境の1つ
    または複数のノードでn個の追加のプログラム障害状態
    を検出するステップと、各前記プログラム障害状態に関
    する情報を記録することによってn個の追加のプログラ
    ム障害レポートを作成するステップであって、各前記プ
    ログラム障害状態が前記第1プログラム障害状態に関係
    するステップと、前記n個の追加のプログラム障害レポ
    ートにn個の一意の識別子を割り当てるステップであっ
    て、各一意の識別子が、前記プログラム障害レポートを
    作成する前記分散コンピューティング環境内の前記ノー
    ド、前記ノードに関連する記憶装置内で前記プログラム
    障害レポートが配置される場所、および、前記n個の一
    意の識別子、前記第1識別子、または前記第2識別子の
    うちの1つを使用する少なくとも1つの他のプログラム
    障害レポートへの参照を含んで、前記第1プログラム障
    害レポートを除いた各プログラム障害レポートを含むプ
    ログラム障害レポートを一意に識別するステップとをさ
    らに含む、請求項11に記載の方法。
  14. 【請求項14】複数のノードを有する分散コンピューテ
    ィング環境で障害情報を参照するシステムであって、 ノードでの障害状態の検出時に、前記障害状態に関する
    情報を記録することによって、障害レポートを作成する
    手段と、 前記障害レポートに識別子を割り当て、前記ノードで前
    記障害レポートを格納する手段であって、前記識別子
    が、前記障害レポートを作成する前記分散コンピューテ
    ィング環境内の前記ノード、および前記ノードに関連す
    る記憶装置内で前記障害レポートが配置される場所を含
    む前記障害レポートを一意に識別する手段とを含むシス
    テム。
  15. 【請求項15】前記障害状態が、前記ノードで稼動する
    プログラム内で発し、前記プログラムが、サーバ・プロ
    グラムを含む前記ノードで稼動し、前記システムがさら
    に、前記いずれかのノードからの前記障害レポートの可
    能な取出のために前記分散コンピューティング環境の前
    記複数のノードのいずれかのノードで稼動するクライア
    ント・プログラムに前記識別子を供給する手段を含み、
    前記いずれかのノードが、前記障害レポートが配置され
    る前記ノードまたは前記分散コンピューティング環境の
    異なるノードを含む、請求項14に記載のシステム。
  16. 【請求項16】前記障害レポートが、前記識別子を使用
    して、前記分散コンピューティング環境の前記複数のノ
    ードのどのノードからでも取出可能である、請求項14
    に記載のシステム。
  17. 【請求項17】前記障害状態が、初期障害状態を含み、
    前記システムがさらに、前記初期障害状態の結果として
    生ずる関連障害状態に関する情報を記録することによっ
    て第2障害レポートを作成する手段であって、前記関連
    障害状態が、前記分散コンピューティング環境の前記複
    数のノードのいずれかのノードで発生する手段と、前記
    第2障害レポートに第2識別子を割り当て、前記第2障
    害レポートを前記いずれかのノードで格納する手段であ
    って、前記第2識別子が、前記第2障害レポートを作成
    する前記分散コンピューティング環境内の前記いずれか
    のノード、前記いずれかのノードに関連する記憶装置内
    で前記第2障害レポートが配置される場所、および前記
    初期障害状態に関する前記障害レポートの取出のための
    前記識別子を含む前記第2障害レポートを一意に識別す
    る手段とを含む、請求項14に記載のシステム。
  18. 【請求項18】前記初期障害状態が、前記ノードの第1
    プログラム内で発生し、前記関連障害状態が、前記いず
    れかのノードの第2プログラム内で発生し、前記第1プ
    ログラムが、サーバ・プログラムを含み、前記第2プロ
    グラムが、クライアント・プログラムを含む、請求項1
    7に記載のシステム。
  19. 【請求項19】前記関連障害状態が、第1関連障害状態
    を含み、前記システムが、n個の追加の関連障害状態に
    ついて前記作成手段および前記割当手段を繰り返す手段
    を含み、各追加の関連障害状態が、前記追加の関連障害
    状態が発生する前記分散コンピューティング環境内のノ
    ード、前記ノードに関連する記憶装置内でその障害レポ
    ートが配置される場所、および前記初期障害状態に関係
    する前記n個の追加の障害状態を含む障害状態のチェー
    ン内の障害状態に関する前の障害レポートの取出のため
    の識別子を識別する一意の識別子を割り当てられた、請
    求項17に記載のシステム。
  20. 【請求項20】前記障害条件が、サーバ・プログラム内
    で発生し、前記システムがさらに、前記ノードまたは前
    記複数のノードの異なるノードのクライアント・プログ
    ラムに、障害表示と共に前記識別子を返す手段を含む、
    請求項14に記載のシステム。
  21. 【請求項21】前記障害状態が生じた前記分散コンピュ
    ーティング環境の前記ノードで格納された前記障害レポ
    ートを前記クライアント・プログラムから取り出す手段
    をさらに含む、請求項20に記載のシステム。
  22. 【請求項22】前記作成手段および前記割当手段が、前
    記ノードの第1障害データ取込論理インターフェース内
    で実施され、前記格納手段が、前記ノードに関連する持
    続記憶装置に前記障害レポートを格納する手段を含む、
    請求項14に記載のシステム。
  23. 【請求項23】前記障害レポートの前記作成手段が、前
    記障害状態の可能な原因または前記障害状態に応答して
    行うべき推奨処置のうちの少なくとも1つを記録する手
    段を含む、請求項14に記載のシステム。
  24. 【請求項24】複数のノードを有する分散コンピューテ
    ィング環境内で障害情報を参照するシステムであって、 前記複数のノードのうちの少なくとも1つの処理ノード
    が、前記少なくとも1つのノードでの障害状態の検出時
    に、前記障害状態に関する情報を記録することによっ
    て、障害レポートを作成するための第1障害データ取込
    インターフェースを有し、 上位第1障害データ取込インターフェースが、さらに、
    前記障害レポートに識別子を割り当て、前記少なくとも
    1つのノードで前記障害レポートを格納するように適合
    され、前記識別子が、前記障害レポートを作成する前記
    分散コンピューティング環境内の前記少なくとも1つの
    ノード、および前記少なくとも1つのノードに関連する
    記憶装置内で前記障害レポートが配置される場所を含む
    前記障害レポートを一意に識別するシステム。
  25. 【請求項25】複数のノードを有する分散コンピューテ
    ィング環境で障害情報を参照するシステムであって、 第1ノードで検出された第1プログラム障害状態に関す
    る情報を記録することによって第1プログラム障害レポ
    ートを作成する手段と、 前記第1プログラム障害レポートを作成する前記分散コ
    ンピューティング環境内の前記ノード、および前記ノー
    ドに関連する記憶装置内で前記第1プログラム障害レポ
    ートが配置される場所を含む前記第1プログラム障害レ
    ポートを一意に識別する第1識別子を前記第1プログラ
    ム障害レポートに割り当てる手段と、 前記第1プログラム障害状態に関係する、第2ノードで
    の第2プログラム障害状態の検出時に、第2プログラム
    障害レポートを作成する手段であって、前記第2プログ
    ラム障害レポートが、前記第2プログラム障害状態に関
    する情報を記録することによって作成され、前記第2ノ
    ードおよび前記第1ノードが、前記分散コンピューティ
    ング環境内の同一のノードまたは異なるノードを含む手
    段と、 前記第2プログラム障害レポートを作成する前記分散コ
    ンピューティング環境内の前記第2ノード、前記第2ノ
    ードに関連する記憶装置内で前記第2プログラム障害レ
    ポートが配置される場所、および前記第2プログラム障
    害状態に関係する前記第1プログラム障害状態の前記第
    1プログラム障害レポートの前記第1識別子を含む第2
    プログラム障害レポートを一意に識別する第2識別子
    を、前記第2プログラム障害レポートに割り当てる手段
    とを含むシステム。
  26. 【請求項26】前記分散コンピューティング環境内で障
    害情報をトレースする手段をさらに含み、前記トレース
    する手段が、前記第2識別子を使用して前記第2ノード
    から前記第2プログラム障害レポートを取り出す手段
    と、それから前記第1識別子を突きとめる手段と、前記
    第1識別子を使用して、前記分散コンピューティング環
    境の前記第1ノードの前記第1プログラム障害レポート
    を取り出す手段とを含む、請求項25に記載のシステ
    ム。
  27. 【請求項27】前記分散コンピューティング環境の1つ
    または複数のノードでn個の追加のプログラム障害状態
    を検出する手段と、各前記プログラム障害状態に関する
    情報を記録することによってn個の追加のプログラム障
    害レポートを作成する手段であって、各前記プログラム
    障害状態が前記第1プログラム障害状態に関係する手段
    と、前記n個の追加のプログラム障害レポートにn個の
    一意の識別子を割り当てる手段であって、各一意の識別
    子が、前記プログラム障害レポートを作成する前記分散
    コンピューティング環境内の前記ノード、前記ノードに
    関連する記憶装置内で前記プログラム障害レポートが配
    置される場所、および、前記n個の一意の識別子、前記
    第1識別子、または前記第2識別子のうちの1つを使用
    する少なくとも1つの他のプログラム障害レポートへの
    参照を含んで、前記第1プログラム障害レポートを除い
    た各プログラム障害レポートを含むプログラム障害レポ
    ートを一意に識別する手段とをさらに含む、請求項25
    に記載のシステム。
  28. 【請求項28】複数のノードを有する分散コンピューテ
    ィング環境で障害情報を参照するシステムであって、 第1障害データ取込インターフェース論理を使用して前
    記第1プログラム障害状態に関する情報を記録すること
    によって、第1プログラム障害レポートを作成するよう
    に適合された前記複数のノードの第1ノードを含み、 前記第1ノードが、さらに、前記第1プログラム障害レ
    ポートを作成する前記分散コンピューティング環境内の
    前記第1ノード、および前記ノードに関連する記憶装置
    内で前記第1プログラム障害レポートが配置される場所
    を含む前記第1プログラム障害レポートを一意に識別す
    る第1識別子を前記第1プログラム障害レポートに割り
    当てるように適合され、前記第1識別子が、前記第1ノ
    ードの前記第1障害データ取込インターフェース論理を
    使用して割り当てられ、さらに、 第2ノードで発生する第2プログラム障害状態に関する
    情報を記録することによって第2プログラム障害レポー
    トを作成するように適合された第2ノードを含み、前記
    第2プログラム障害状態が、前記第1プログラム障害状
    態に関係し、前記第2ノードおよび前記第1ノードが、
    前記分散コンピューティング環境内の同一のノードまた
    は異なるノードを含むことができ、前記第2ノードが、
    前記第2ノードの第1障害データ取込インターフェース
    論理を使用して前記第2プログラム障害レポートを作成
    し、 前記第2ノードが、さらに、前記第2ノードの前記第1
    障害データ取込インターフェース論理を使用して前記第
    2プログラム障害レポートに第2識別子を割り当てるよ
    うに適合され、前記第2識別子が、前記第2プログラム
    障害レポートを作成する前記分散コンピューティング環
    境内の前記第2ノード、前記第2ノードに関連する記憶
    装置内で前記第2プログラム障害レポートが配置される
    場所、および前記第2プログラム障害条件に関係する前
    記第1プログラム障害状態の前記第1プログラム障害レ
    ポートの前記第1識別子を含む前記第2プログラム障害
    レポートを一意に識別するシステム。
  29. 【請求項29】複数のノードを有する分散コンピューテ
    ィング環境で障害情報を参照する方法を実行するために
    機械によって実行可能な少なくとも1つの命令のプログ
    ラムを具体的に実施する、機械によって読取可能な少な
    くとも1つのプログラム記憶装置であって、前記方法
    が、 ノードでの障害状態の検出時に、前記障害状態に関する
    情報を記録することによって、障害レポートを作成する
    ステップと、 前記障害レポートに識別子を割り当て、前記ノードで前
    記障害レポートを格納するステップであって、前記識別
    子が、前記障害レポートを作成する前記分散コンピュー
    ティング環境内の前記ノード、および前記ノードに関連
    する記憶装置内で前記障害レポートが配置される場所を
    含む前記障害レポートを一意に識別するステップとを含
    む、少なくとも1つのプログラム記憶装置。
  30. 【請求項30】前記障害状態が、前記ノードで稼動する
    プログラム内で発し、前記プログラムが、サーバ・プロ
    グラムを含む前記ノードで稼動し、前記方法がさらに、
    前記いずれかのノードからの前記障害レポートの可能な
    取出のために前記分散コンピューティング環境の前記複
    数のノードのいずれかのノードで稼動するクライアント
    ・プログラムに前記識別子を供給するステップを含み、
    前記いずれかのノードが、前記障害レポートが配置され
    る前記ノードまたは前記分散コンピューティング環境の
    異なるノードを含む、請求項29に記載の少なくとも1
    つのプログラム記憶装置。
  31. 【請求項31】前記障害レポートが、前記識別子を使用
    して、前記分散コンピューティング環境の前記複数のノ
    ードのどのノードからでも取出可能である、請求項29
    に記載の少なくとも1つのプログラム記憶装置。
  32. 【請求項32】前記障害状態が、初期障害状態を含み、
    前記方法がさらに、前記初期障害状態の結果として生ず
    る関連障害状態に関する情報を記録することによって第
    2障害レポートを作成するステップであって、前記関連
    障害状態が、前記分散コンピューティング環境の前記複
    数のノードのいずれかのノードで発生するステップと、
    前記第2障害レポートに第2識別子を割り当て、前記第
    2障害レポートを前記いずれかのノードで格納するステ
    ップであって、前記第2識別子が、前記第2障害レポー
    トを作成する前記分散コンピューティング環境内の前記
    いずれかのノード、前記いずれかのノードに関連する記
    憶装置内で前記第2障害レポートが配置される場所、お
    よび前記初期障害状態に関する前記障害レポートの取出
    のための前記識別子を含む前記第2障害レポートを一意
    に識別するステップとを含む、請求項29に記載の少な
    くとも1つのプログラム記憶装置。
  33. 【請求項33】前記初期障害状態が、前記ノードの第1
    プログラム内で発生し、前記関連障害状態が、前記いず
    れかのノードの第2プログラム内で発生し、前記第1プ
    ログラムが、サーバ・プログラムを含み、前記第2プロ
    グラムが、クライアント・プログラムを含む、請求項3
    2に記載の少なくとも1つのプログラム記憶装置。
  34. 【請求項34】前記関連障害状態が、第1関連障害状態
    を含み、前記方法が、n個の追加の関連障害状態につい
    て前記作成ステップおよび前記割当ステップを繰り返す
    ステップを含み、各追加の関連障害状態が、前記追加の
    関連障害状態が発生する前記分散コンピューティング環
    境内のノード、前記ノードに関連する記憶装置内でその
    障害レポートが配置される場所、および前記初期障害状
    態に関係する前記n個の追加の障害状態を含む障害状態
    のチェーン内の障害状態に関する前の障害レポートの取
    出のための識別子を識別する一意の識別子を割り当てら
    れた、請求項32に記載の少なくとも1つのプログラム
    記憶装置。
  35. 【請求項35】前記障害条件が、サーバ・プログラム内
    で発生し、前記方法がさらに、前記ノードまたは前記複
    数のノードの異なるノードのクライアント・プログラム
    に、障害表示と共に前記識別子を返すステップを含む、
    請求項29に記載の少なくとも1つのプログラム記憶装
    置。
  36. 【請求項36】前記障害状態が生じた前記分散コンピュ
    ーティング環境の前記ノードで格納された前記障害レポ
    ートを前記クライアント・プログラムから取り出すステ
    ップをさらに含む、請求項35に記載の少なくとも1つ
    のプログラム記憶装置。
  37. 【請求項37】前記ノードで第1障害データ取込論理イ
    ンターフェースを使用して前記作成ステップおよび前記
    割当ステップを実行するステップと、前記ノードに関連
    する持続記憶装置に前記障害レポートを格納するステッ
    プとをさらに含む、請求項29に記載の少なくとも1つ
    のプログラム記憶装置。
  38. 【請求項38】前記障害レポートの前記作成ステップ
    が、前記障害状態の可能な原因または前記障害状態に応
    答して行うべき推奨処置のうちの少なくとも1つを記録
    するステップを含む、請求項29に記載の少なくとも1
    つのプログラム記憶装置。
  39. 【請求項39】複数のノードを有する分散コンピューテ
    ィング環境内で障害情報を参照する方法を実行するため
    に機械によって実行可能な少なくとも1つの命令のプロ
    グラムを具体的に実施する、機械によって読取可能な少
    なくとも1つのプログラム記憶装置であって、前記方法
    が、 第1ノードでの第1プログラム障害状態の検出時に、前
    記第1プログラム障害状態に関する情報を記録すること
    によって、第1プログラム障害レポートを作成するステ
    ップと、 前記第1プログラム障害レポートを作成する前記分散コ
    ンピューティング環境内の前記ノード、および前記ノー
    ドに関連する記憶装置内で前記第1プログラム障害レポ
    ートが配置される場所を含む前記第1プログラム障害レ
    ポートを一意に識別する第1識別子を前記第1プログラ
    ム障害レポートに割り当てるステップと、 前記第1プログラム障害状態に関係する、第2ノードで
    の第2プログラム障害状態の検出時に、前記第2プログ
    ラム障害状態に関する情報を記録することによって第2
    プログラム障害レポートを作成するステップであって、
    前記第2ノードおよび前記第1ノードが、前記分散コン
    ピューティング環境内の同一のノードまたは異なるノー
    ドを含むステップと、 前記第2プログラム障害レポートを作成する前記分散コ
    ンピューティング環境内の前記第2ノード、前記第2ノ
    ードに関連する記憶装置内で前記第2プログラム障害レ
    ポートが配置される場所、および前記第2プログラム障
    害状態に関係する前記第1プログラム障害状態に関する
    前記第1プログラム障害レポートの前記第1プログラム
    識別子を含む第2プログラム障害レポートを一意に識別
    する第2識別子を前記第2プログラム障害レポートに割
    り当てるステップとを含む、少なくとも1つのプログラ
    ム記憶装置。
  40. 【請求項40】前記方法がさらに、前記分散コンピュー
    ティング環境内で障害情報をトレースするステップをさ
    らに含み、前記トレースするステップが、前記第2識別
    子を使用して前記第2ノードから前記第2プログラム障
    害レポートを取り出すステップと、それから前記第1識
    別子を突きとめるステップと、前記第1識別子を使用し
    て、前記分散コンピューティング環境の前記第1ノード
    の前記第1プログラム障害レポートを取り出すステップ
    を含む、請求項39に記載の少なくとも1つのプログラ
    ム記憶装置。
  41. 【請求項41】前記方法がさらに、前記分散コンピュー
    ティング環境の1つまたは複数のノードでn個の追加の
    プログラム障害状態を検出するステップと、各前記プロ
    グラム障害状態に関する情報を記録することによってn
    個の追加のプログラム障害レポートを作成するステップ
    であって、各前記プログラム障害状態が前記第1プログ
    ラム障害状態に関係するステップと、前記n個の追加の
    プログラム障害レポートにn個の一意の識別子を割り当
    てるステップであって、各一意の識別子が、前記プログ
    ラム障害レポートを作成する前記分散コンピューティン
    グ環境内の前記ノード、前記ノードに関連する記憶装置
    内で前記プログラム障害レポートが配置される場所、お
    よび、前記n個の一意の識別子、前記第1識別子、また
    は前記第2識別子のうちの1つを使用する少なくとも1
    つの他のプログラム障害レポートへの参照を含んで、前
    記第1プログラム障害レポートを除いた各プログラム障
    害レポートを含むプログラム障害レポートを一意に識別
    するステップとをさらに含む、請求項39に記載の少な
    くとも1つのプログラム記憶装置。
JP2000325790A 1999-10-28 2000-10-25 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法 Expired - Lifetime JP4215384B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/429,513 US6651183B1 (en) 1999-10-28 1999-10-28 Technique for referencing failure information representative of multiple related failures in a distributed computing environment
US09/429513 1999-10-28

Publications (2)

Publication Number Publication Date
JP2001188765A true JP2001188765A (ja) 2001-07-10
JP4215384B2 JP4215384B2 (ja) 2009-01-28

Family

ID=23703579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000325790A Expired - Lifetime JP4215384B2 (ja) 1999-10-28 2000-10-25 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法

Country Status (3)

Country Link
US (1) US6651183B1 (ja)
JP (1) JP4215384B2 (ja)
GB (1) GB2363488B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259289A (ja) * 2009-08-07 2009-11-05 Stmicroelectronics Sa マイクロプロセッサのモニタ回路により伝送されるメッセージの時間的相関
JP2016110397A (ja) * 2014-12-05 2016-06-20 日本電信電話株式会社 並列処理システム、方法、およびプログラム

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002139807A (ja) * 2000-10-31 2002-05-17 Fuji Photo Film Co Ltd 表示装置、表示方法及び画像処理システム
JP4345334B2 (ja) * 2003-03-28 2009-10-14 日本電気株式会社 耐障害計算機システム、プログラム並列実行方法およびプログラム
US7392436B2 (en) * 2003-05-08 2008-06-24 Micron Technology, Inc. Program failure recovery
US7185222B2 (en) * 2003-11-14 2007-02-27 International Business Machines Corporation Apparatus, system, and method for maintaining data in a storage array
US20050132032A1 (en) * 2003-12-15 2005-06-16 Bertrand Daniel W. Autonomous agent-based system management
US7486623B2 (en) * 2004-05-13 2009-02-03 General Instrument Corporation Method and system for surveilling a telecommunications network link
US7827154B1 (en) * 2004-10-05 2010-11-02 Symantec Operating Corporation Application failure diagnosis
US20060107121A1 (en) * 2004-10-25 2006-05-18 International Business Machines Corporation Method of speeding up regression testing using prior known failures to filter current new failures when compared to known good results
US20060195731A1 (en) * 2005-02-17 2006-08-31 International Business Machines Corporation First failure data capture based on threshold violation
US7500142B1 (en) * 2005-12-20 2009-03-03 International Business Machines Corporation Preliminary classification of events to facilitate cause-based analysis
US20080126878A1 (en) * 2006-11-28 2008-05-29 International Business Machines Corporation Highlighting anomalies when displaying trace results
US20080222456A1 (en) * 2007-03-05 2008-09-11 Angela Richards Jones Method and System for Implementing Dependency Aware First Failure Data Capture
US8184546B2 (en) * 2008-02-29 2012-05-22 Avaya Inc. Endpoint device configured to permit user reporting of quality problems in a communication network
US8082275B2 (en) * 2008-05-20 2011-12-20 Bmc Software, Inc. Service model flight recorder
US8374745B2 (en) * 2008-09-05 2013-02-12 GM Global Technology Operations LLC Telematics-enabled aggregated vehicle diagnosis and prognosis
KR101210275B1 (ko) * 2008-12-22 2012-12-10 한국전자통신연구원 다계층 장비로 구성된 노드를 위한 통합 에이전트 장치 및 그의 장애 관리 방법
US8407189B2 (en) * 2009-11-25 2013-03-26 International Business Machines Corporation Finding and fixing stability problems in personal computer systems
US8707111B2 (en) * 2011-02-09 2014-04-22 Ebay Inc. High-volume distributed script error handling
US8671186B2 (en) * 2011-03-08 2014-03-11 Hitachi, Ltd. Computer system management method and management apparatus
US8812916B2 (en) 2011-06-02 2014-08-19 International Business Machines Corporation Failure data management for a distributed computer system
WO2013016013A1 (en) * 2011-07-27 2013-01-31 Cleversafe, Inc. Generating dispersed storage network event records
US9122602B1 (en) 2011-08-31 2015-09-01 Amazon Technologies, Inc. Root cause detection service
US8930756B2 (en) 2011-12-22 2015-01-06 International Business Machines Corporation Grouping related errors in a distributed computing environment
GB2504728A (en) 2012-08-08 2014-02-12 Ibm Second failure data capture in co-operating multi-image systems
US9246935B2 (en) 2013-10-14 2016-01-26 Intuit Inc. Method and system for dynamic and comprehensive vulnerability management
US9313281B1 (en) 2013-11-13 2016-04-12 Intuit Inc. Method and system for creating and dynamically deploying resource specific discovery agents for determining the state of a cloud computing environment
US9501345B1 (en) * 2013-12-23 2016-11-22 Intuit Inc. Method and system for creating enriched log data
US9323926B2 (en) 2013-12-30 2016-04-26 Intuit Inc. Method and system for intrusion and extrusion detection
US20150304343A1 (en) 2014-04-18 2015-10-22 Intuit Inc. Method and system for providing self-monitoring, self-reporting, and self-repairing virtual assets in a cloud computing environment
US9325726B2 (en) 2014-02-03 2016-04-26 Intuit Inc. Method and system for virtual asset assisted extrusion and intrusion detection in a cloud computing environment
US10757133B2 (en) 2014-02-21 2020-08-25 Intuit Inc. Method and system for creating and deploying virtual assets
US9866581B2 (en) 2014-06-30 2018-01-09 Intuit Inc. Method and system for secure delivery of information to computing environments
US9276945B2 (en) 2014-04-07 2016-03-01 Intuit Inc. Method and system for providing security aware applications
US9245117B2 (en) 2014-03-31 2016-01-26 Intuit Inc. Method and system for comparing different versions of a cloud based application in a production environment using segregated backend systems
US11294700B2 (en) 2014-04-18 2022-04-05 Intuit Inc. Method and system for enabling self-monitoring virtual assets to correlate external events with characteristic patterns associated with the virtual assets
US9374389B2 (en) 2014-04-25 2016-06-21 Intuit Inc. Method and system for ensuring an application conforms with security and regulatory controls prior to deployment
US9900322B2 (en) 2014-04-30 2018-02-20 Intuit Inc. Method and system for providing permissions management
US9319415B2 (en) 2014-04-30 2016-04-19 Intuit Inc. Method and system for providing reference architecture pattern-based permissions management
US9330263B2 (en) 2014-05-27 2016-05-03 Intuit Inc. Method and apparatus for automating the building of threat models for the public cloud
US9473481B2 (en) 2014-07-31 2016-10-18 Intuit Inc. Method and system for providing a virtual asset perimeter
US10102082B2 (en) 2014-07-31 2018-10-16 Intuit Inc. Method and system for providing automated self-healing virtual assets
US9772898B2 (en) * 2015-09-11 2017-09-26 International Business Machines Corporation Identifying root causes of failures in a deployed distributed application using historical fine grained machine state data
JP6328595B2 (ja) * 2015-09-29 2018-05-23 東芝テック株式会社 情報処理装置及びプログラム
US10423475B2 (en) * 2016-09-30 2019-09-24 Microsoft Technology Licensing, Llc Stateful tokens for communicating with external services
US10768232B2 (en) * 2017-07-14 2020-09-08 International Business Machines Corporation ATE compatible high-efficient functional test
US10977113B2 (en) * 2019-01-29 2021-04-13 Dell Products L.P. System and method for fault identification, logging, and remediation
US11669386B1 (en) * 2019-10-08 2023-06-06 Pure Storage, Inc. Managing an application's resource stack
US11593191B2 (en) * 2021-07-13 2023-02-28 Dell Products L.P. Systems and methods for self-healing and/or failure analysis of information handling system storage
CN115396282B (zh) * 2022-07-20 2024-03-15 北京奇艺世纪科技有限公司 信息处理方法、***及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63240233A (ja) 1987-03-27 1988-10-05 Nec Eng Ltd パケツト網内ノ−ドヘルスチエツク方式
JPH04257142A (ja) 1991-02-08 1992-09-11 Nippon Telegr & Teleph Corp <Ntt> リングネットワークにおける故障ノード検査方法
US5684807A (en) 1991-04-02 1997-11-04 Carnegie Mellon University Adaptive distributed system and method for fault tolerance
JPH07239835A (ja) 1994-02-25 1995-09-12 Hitachi Ltd 並列計算機のネットワーク内データ転送制御方式
US5862322A (en) 1994-03-14 1999-01-19 Dun & Bradstreet Software Services, Inc. Method and apparatus for facilitating customer service communications in a computing environment
US5692120A (en) 1994-08-08 1997-11-25 International Business Machines Corporation Failure recovery apparatus and method for distributed processing shared resource control
KR0175987B1 (ko) * 1994-10-28 1999-05-15 윌리암 티. 엘리스 데이타 처리 시스템 및 데이타 처리 방법
US5664093A (en) 1994-12-27 1997-09-02 General Electric Company System and method for managing faults in a distributed system
IL112513A (en) * 1995-02-01 1999-05-09 Ald Advanced Logistics Dev Ltd System and method for failure reporting and collection
US5550973A (en) 1995-03-15 1996-08-27 International Business Machines Corporation System and method for failure recovery in a shared resource system having a moving write lock
JP3200661B2 (ja) 1995-03-30 2001-08-20 富士通株式会社 クライアント/サーバシステム
US5765151A (en) 1995-08-17 1998-06-09 Sun Microsystems, Inc. System and method for file system fix-on-panic for a computer operating system
US5740354A (en) * 1995-11-27 1998-04-14 Microsoft Corporation Method and system for associating related errors in a computer system
US5949759A (en) 1995-12-20 1999-09-07 International Business Machines Corporation Fault correlation system and method in packet switching networks
US5908471A (en) 1997-01-31 1999-06-01 Sun Microsystems, Inc Diagnostic arrangement for digital computer system
US6175931B1 (en) 1997-01-31 2001-01-16 Hewlett-Packard Company Global hard error distribution using the SCI interconnect
US6170067B1 (en) * 1997-05-13 2001-01-02 Micron Technology, Inc. System for automatically reporting a system failure in a server
US6243838B1 (en) * 1997-05-13 2001-06-05 Micron Electronics, Inc. Method for automatically reporting a system failure in a server
US5995981A (en) 1997-06-16 1999-11-30 Telefonaktiebolaget Lm Ericsson Initialization of replicated data objects
US6243827B1 (en) * 1998-06-30 2001-06-05 Digi-Data Corporation Multiple-channel failure detection in raid systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259289A (ja) * 2009-08-07 2009-11-05 Stmicroelectronics Sa マイクロプロセッサのモニタ回路により伝送されるメッセージの時間的相関
JP2016110397A (ja) * 2014-12-05 2016-06-20 日本電信電話株式会社 並列処理システム、方法、およびプログラム

Also Published As

Publication number Publication date
US6651183B1 (en) 2003-11-18
GB2363488A (en) 2001-12-19
GB0025622D0 (en) 2000-12-06
JP4215384B2 (ja) 2009-01-28
GB2363488B (en) 2004-07-14

Similar Documents

Publication Publication Date Title
JP2001188765A (ja) 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法
US7856496B2 (en) Information gathering tool for systems administration
US7281040B1 (en) Diagnostic/remote monitoring by email
US6026499A (en) Scheme for restarting processes at distributed checkpoints in client-server computer system
US7698691B2 (en) Server application state
US20080133978A1 (en) System and Method for Determining Fault Isolation in an Enterprise Computing System
US20040186903A1 (en) Remote support of an IT infrastructure
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
JPH1091482A (ja) 情報処理システムにおいて、管理ノードに結合する複数のノードの複数のタイプのオブジェクトを監視する方法
US7137041B2 (en) Methods, systems and computer program products for resolving problems in an application program utilizing a situational representation of component status
US7500144B2 (en) Resolving problems in a business process utilizing a situational representation of component status
US11874728B2 (en) Software application diagnostic aid
CN113672452A (zh) 一种数据采集任务的运行监控方法、***
US7739420B2 (en) Communication error information output method, communication error information output device and recording medium therefor
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
JP2000047912A (ja) ネットワークサービス監視方法および装置とネットワークサービス監視プログラムを記録した記録媒体
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
CN113626288A (zh) 故障处理方法、***、装置、存储介质和电子设备
JP3691272B2 (ja) 分散処理システムおよび障害解析情報の保存方法
JP2004192293A (ja) ソフトウェア検証支援ツール
CN117235107B (zh) 数据访问处理方法、装置、电子设备及存储介质
Forman et al. Automated whole-system diagnosis of distributed services using model-based reasoning
JP5331749B2 (ja) フォールトトレラントコンピュータシステム、およびデータアクセス方法
JP2001282671A (ja) 障害情報収集装置及び記録媒体及びプログラム
JPH09265415A (ja) 異常診断方法及び異常診断装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040927

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040930

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051212

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060127

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20071112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080917

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4215384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131114

Year of fee payment: 5

EXPY Cancellation because of completion of term