JP2002543494A - 分散コンピュータシステム内のエラーを処理するための方法およびシステム - Google Patents

分散コンピュータシステム内のエラーを処理するための方法およびシステム

Info

Publication number
JP2002543494A
JP2002543494A JP2000614126A JP2000614126A JP2002543494A JP 2002543494 A JP2002543494 A JP 2002543494A JP 2000614126 A JP2000614126 A JP 2000614126A JP 2000614126 A JP2000614126 A JP 2000614126A JP 2002543494 A JP2002543494 A JP 2002543494A
Authority
JP
Japan
Prior art keywords
error
errors
resource
resolving
handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000614126A
Other languages
English (en)
Inventor
アルビー・ガルテン
ピーター・ウィリアムズ
Original Assignee
ユニバーサル・ミュージック・グループ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニバーサル・ミュージック・グループ・インコーポレーテッド filed Critical ユニバーサル・ミュージック・グループ・インコーポレーテッド
Publication of JP2002543494A publication Critical patent/JP2002543494A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 本発明は、分散電子装置システム内のエラーを追跡しかつ処理するための方法およびシステムに関する。アプリケーションがエラーに遭遇した際に、集中エラー検出システムは、エラーイベントを傍受し、かつ、エラーイベントの処理を引き継ぐ。中央エラー処理については、種々のユーザーコンピュータ上で実行されるアプリケーションを接続している分散ネットワークとともに用いることができる。アプリケーションからエラーメッセージ12を受信すると、システムは、情報エラーパッケージを作成し、関連するサブシステムへ適切なエラー警報を伝搬し、かつ、エラーを解決しようとする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本出願は、本明細書中に参照として組み込まれている1999年4月28日に
出願された米国仮特許出願第60/131,412号の優先権を主張するもので
ある。 本発明は、分散電子装置システムにおけるエラーに対する追跡および応答に関
する。
【0002】
【従来の技術】
アプリケーションプログラムは、通常は、自己充足(self-contained)である
ように設計され、各々のアプリケーションプログラムは、プログラムの実行中に
発生し得るエラーを処理するための独自の能力を有している。多数のプログラム
を同時に動作させることがますます一般的になるとともに、各プログラムのエラ
ーメッセージのためのコードおよび該エラーメッセージの処理の多くは冗長であ
り、したがって、非効率的である。さらに、インターネットの利用がいっそう増
えるとともに、局所的に動作する多くのアプリケーションプログラムは、ネット
ワーク化されたリソースを用いる。アプリケーションの中には、インターネット
に接続されているユーザーに自動ヘルプ(automated help)を提供するために中
央リソース(central resource)を用いるものもある。
【0003】
【発明が解決しようとする課題】
必要とされるのは、分散システム上で実行されるアプリケーションにとって効
率的な方法で、エラーメッセージングおよびエラー処理を扱うシステムである。
【0004】
【課題を解決するための手段】
本発明は、1つ以上のアプリケーションにより発生したエラーを集中(centra
lized)エラー処理ユーティリティが処理する分散(distributed)コンピュータ
システム内のエラーを追跡しかつ処理するための方法およびシステムである。明
確には、アプリケーションがエラーに遭遇した際に、本発明は、そのエラーイベ
ントを傍受し、かつ、そのエラーイベントの処理を引き継ぐ。この全体的エラー
処理は、種々のユーザーコンピュータ上で実行されるアプリケーションを接続し
ている分散ネットワークにより容易となる。アプリケーションからエラーメッセ
ージを受信すると、システムは、情報エラーパッケージ(informative error pa
ckage)を作成し、関連するサブシステムへ適切なエラー警報を伝搬し、かつ、
エラーを解決しようとする。これらのエラーについては、種々の方法で解決する
ことができる。例えば、システムは、適切なヘルプ情報を選択し、かつ、ユーザ
ーへ発送することができ、または、システムは、障害リソース(failed resourc
e)の代用となる代替リソースを配置することができる。システムは、所定の時
刻においてまだ未解決のエラーが2つ以上ある場合に、エラーに優先順位をつけ
ることができる。さらに、システムは、様々なレベルの応答を必要とするエラー
をフィルタリングすることができ、かつ、システムは、エラーを、該エラーの解
決を補助することが可能なリソースへ向けることができる。
【0005】
【発明の実施の形態】
本発明の好ましい実施形態において、システムは、エラーメッセージを作成し
、警報を伝搬し、かつ、コンピュータシステムの動作の間に発生するエラーを解
決する。好ましい実施形態によるシステムは、他のコンピュータプログラムで発
生するエラーに作用する独立型、自己充足のプログラムであってもよい。あるい
はまた、本システムは、他のコンピュータシステム(通常は、多くのサブシステ
ムを有する大型プログラム)の一部であってもよい。このシステムは、種々のア
プリケーションまたはサブシステム(独立して動作するものもあれば、協働して
動作するものもある)がネットワーク全域の様々なコンピュータ上で同時に動作
することができるコンピュータシステムのネットワークとともに用いることに適
している。しかしながら、本発明のシステムおよび方法は、概して、スタンドア
ローンコンピュータから大規模なグローバルコンピュータネットワークに及ぶコ
ンピュータシステムに適用可能である。システムエレメント(system element)
という語は、本明細書において、本発明の影響を受け得る広範囲のコンピュータ
プログラムおよびサブシステムを、すなわち、エラーを発生させるプログラムを
指すために用いられる。システムエレメントは、例えば、アプリケーションプロ
グラム、サブプログラム、オペレーティングプログラム、通信プロトコル、およ
び周辺機器用ドライバを包含している。さらに、ユーザーという語は、アプリケ
ーションを用いる側を指すだけでなく、システムエレメントのオペレータまたは
モニターをも指し得る。
【0006】 通常は、最新のプログラミングにおいて、各々のシステムエレメントは、エラ
ーメッセージによって、(他のモジュールからのメッセージを予測したり、利用
可能ではない共通リソースにアクセスしようとするような)例外的条件を処理す
るように設計されており、該エラーメッセージは、プログラムデバッグにおいて
用いられるか、または、診断情報またはユーザーフィードバックを提供するエラ
ー処理ルーチンへ渡される。例えば、アプリケーションプログラム内において、
エラー処理およびデバッグサブシステムは、該アプリケーションにおける予測不
可能または不安定な状態と関連した特定のエラーメッセージを発生させる。エラ
ーの発生は、通常はナンバリングまたはネーミングスキーマによって、これらの
エラーを生じさせるアプリケーションプログラム内において独自に識別される。
さらに、プログラムは、通常は、診断または監査上の目的のために、各々のエラ
ーをログファイルへログ記録する。
【0007】 システムエレメントにおいて発生し得る多くの様々なタイプのエラーが存在す
る。例えば、幾つかのエラーは、アプリケーションプログラムの内部論理回路に
影響を及ぼすことがあり、これにより、プログラムは、要求されたタスクを請け
負うことができなくなり、かつ、安定した形式または不安定な形式のいずれかで
、この状態を抜け出す。他のエラーは、システムエレメントの動作のみに影響を
及ぼし、かつ、ユーザーに報告される。さらに他のエラーは、例えば、エラーを
被ったアプリケーションプログラムが他のシステムエレメントと同期的または非
同期的に連絡している場合に、他のシステムエレメントの動作に影響を及ぼす。
この場合には、エラーによって、多数のシステムエレメントが、安定した形式ま
たは不安定な形式のいずれかで、請け負われている機能から抜け出す可能性があ
る。
【0008】 <作成> 中央リソースは、例えばアプリケーションプログラムにより発生したエラーメ
ッセージのような、エラーの発生を示すシステムエレメントから受信された信号
に基づいて、エラー情報パッケージ(error information package)を作成する
。図1を参照すると、エラールーティングサーバー(16)は、多数のアプリケ
ーションおよび/またはネットワークコンピュータにより利用されるように設計
されたコンピュータまたはユーティリティである。エラールーティングサーバー
は、着信エラーメッセージと発信応答とを管理するクリアリングハウス(cleari
nghouse)として作用する。矢印により示されるように、システムエレメント(
10)により発生したエラーメッセージ(12)は、エラールーティングサーバ
ー(16)へ送信される。次に、エラールーティングサーバー(16)は、この
エラーメッセージ(12)を、本明細書において説明されるようにエラーを処理
する中央リソースを実装するように設計されたコンピュータまたはユーティリテ
ィであるエラーリソースサーバー(18)へ転送することができる。エラーリソ
ースサーバー(18)は、処理されているエラーに応答する情報を得るために、
エラーFAQサーバー(20)を用いることができる。さらに、エラーリソース
サーバー(18)は、エラーに応答する種々の補助オプション(assistance opt
ions)を提供する1つ以上のデータベースにアクセスすることができる。さらに
、エラールーティングサーバー(16)は、着信エラーメッセージ(12)をエ
ラーフィルタ(14)へ転送することができ、かつ、これらのエラーを拡大させ
る(escalate)ことができる。エラーフィルタは、様々なタイプのエラーを分離
することができ、かつ、各々のエラーメッセージが処理のために何処へ送信され
るべきかをエラールーティングサーバーに指示することができる。最後に、これ
らの構成要素は、エラールーティングサーバー(16)によって、適切な応答ま
たは指示を、エラーを被っているシステムエレメント(10)へ送信することに
より、補助をもたらし、かつ/または、エラーを解決する。これらの構成要素の
動作については、図2Aおよび図2Bと関連してより詳細に説明する。
【0009】 図2Aおよび図2Bを参照すると、システムエレメントの処理中にエラーが発
生した場合に、本発明は、該エレメントのエラー処理を傍受するか、または、シ
ステムエレメントは、前方へ送信するためのエラーメッセージを発生させる。段
階24において、システムエレメントは、ユーザーがアクティブ状態でネットワ
ークに接続されているかどうかを判断する。ユーザーがアクティブ状態でネット
ワークに接続されていなければ、段階28において、エラーメッセージについて
は、もし存在すればローカルエラー管理システムへ送信することができ、かつ/
または、後で送信するために待ち行列に入れる(queue)ことができる。段階2
4において、ユーザーがオンライン状態であると判断されれば、工程は段階26
へ進行する。段階26において、エレメントのエラーメッセージは、処理のため
に中央リソースへ送信される。中央リソースは、局所的に、または、他のエリア
ネットワークコンピュータ上に、または、インターネット上に存在することがで
きる。エラーについては、中央リソースへ送信する前に、耐タンパー (tamper-r
esistant) または安全なフォーマットで、フォーマットすることができる。中央
リソースについては、遠隔的に配置することができ、かつ、インターネットのよ
うな分散ネットワークを介して接続することができる。概して、エラーメッセー
ジは、多くの障害ポイント(points of failure)を備えたネットワークシステ
ム全体を用いる場合のエラー条件をユーザーが受ける際に送信される。
【0010】 段階30において、中央リソースは、受信されたエラーメッセージに基づいて
、エラー情報パッケージ(エラーパック)を発生させる。各々のエラーパックに
ついては、エラーコードにより識別することができ、該エラーコードは、全ての
エラー発生に関する独自の番号であってもよく、または、エラータイプを示すこ
ともできる。何らかの補助供給をユーザーに対して発生させるために、十分な追
加情報をエラーパックに含めることもできる。例えば、各々のエラーパックは、
エラーを被っているアプリケーションおよび/またはサブシステムエレメントの
識別と、エラーパックが作成された時刻またはエラーが発生した時刻を示すタイ
ムスタンプと、ユーザーの位置を示すアドレス(例えば、IPアドレス、MAC
アドレス、または、電子メールアドレス)とを包含することができる。エラーの
優先順位を示すために、優先順位コードを含めることもできる。優先順位は、例
えば、特定のプログラムのシステム障害のような末端から、エラーが全体的な機
能またはオペレーションである場合のサービス切断にまで及ぶことができる。プ
ログラムまたはシステムエレメントの内部状態の表示についてもエラーパックに
含めることができ、これにより、他のシステムエレメントは、自らの応答をこの
状態に適応させることが可能となる。この内部状態は、エラーを被っているアプ
リケーションまたはサブシステムの状態を示し、かつ、外部システムエレメント
が自らの応答をこの状態に適合させることを可能にする。
【0011】 エラー情報パッケージを発生させることの他に、段階32において、中央リソ
ースは、ヘルプページまたは動的に更新される他のヘルプ情報を、元のアプリケ
ーションまたはユーザーへ発送する。こうして、ユーザーは、問題の潜在的原因
に関する補助を適時に受信する。ヘルプメッセージは、考慮中の問題と関連した
FAQタイプのページへユーザーを向けることができる。さらに、ヘルプメッセ
ージは、問題を識別または除去しようとする多数のシナリオを通してユーザーを
補助する自動ヘルプ“bot”またはウィザードを発生させることができる。“
bot”(ロボット)は、インターネット上で用いられるプログラムであり、か
つ、多数のニュースグループへメッセージをポストしたり情報を検索するような
反復的機能を実行するプログラムである。これらのシナリオは、ユーザー入力に
、および/または、工程内で発生するさらなるエラーまたはシステムメッセージ
に応答するという点において動的であり得る。
【0012】 中央リソースにより受信されたエラーメッセージについては、これらのエラー
メッセージの識別番号により分類することができ、かつ、知識ベースとこれに関
連しかつユーザーに提供される補助とを更新するために、自動的にまたは人為的
にのいずれかで処理することができる。エラー情報パッケージについては、安全
なフォーマットで供給することができ、かつ、関連するシステムリソースへ送信
することができる。
【0013】 <伝搬> エラー情報パッケージを発生させた後に、段階34において、中央リソースは
、エラーの発生を知ることから利益を得ることができる任意のサブシステムまた
はプログラムへ、関連する情報を伝搬する。エラー情報パッケージについては、
対応するウェブベースのエラー管理リソースへ送信することができる。さらに、
エラーのタイプに応じて、エラー警報メッセージを発生させることができ、かつ
、システム全体にわたって伝搬することができる。これらのメッセージは、エレ
メント全体の障害または通信の停止のような問題をシステム自身が被っているこ
とを示すシステム警報を作成するように意図されている。実際には、デリバリー
システムからのタイムアウトのようなエラーについては、タイムアウトに遭遇し
たリソースから他のリソースへ、局所的にまたは遠隔的にのいずれかでユーザー
を動的に切り替えるために用いることができる。
【0014】 さらなるシステムエレメントに対するエラー警報メッセージの伝搬は、さらに
、システムに、エラーの性質に応じた様々な方法で応答させる。あるシステムエ
レメントからのエラーは、他のエレメントを潜在的にリセットすることにより、
または、作用すべき他のエレメントへ指示を与えることにより、別のシステムエ
レメントに様々な形で応答させる。このことは、各々の特定のシステムの状況ま
たはアーキテクチャに依存する。エラー警報の伝搬は、ネットワークおよびサポ
ーティング・インフラストラクチャを包含する包括的なカスタマーケア・ソリュ
ーション内に、エラー処理を統合させるための基盤をもたらす。
【0015】 <解決> エラー情報パッケージおよびエラー警報メッセージの作成および伝搬は、知覚
されかつ実現されるカスタマーサービスに対して重大な影響力を有し得る。しか
しながら、究極の目標はエラーを解決することである。したがって、中央リソー
スは、エラーを分析し、かつ、適時の応答を、たとえこの応答がユーザーに彼ら
が被っている問題について知らせるために作用するだけのものであっても、ユー
ザーに提供する。
【0016】 エラーの分析は、各々のエラーを、個々におよび/または他のエラーと組み合
わせて識別しかつ評価することを伴う。エラーについては、エラー情報パッケー
ジにより提供された情報の組み合わせにより識別することができる。例えば、位
置および内部状態に基づいて、中央リソースは、エラーの評価を補助することが
でき、かつ、効率的な解決の可能性を高めることができる。
【0017】 根元的な(underlying)システムエレメントの動作中に、多くのエラーが同時
に発生する可能性があり、かつ、所定のエラーに関し、もっと早期に発生しかつ
未解決のエラーが存在する可能性がある。所定の時刻において未解決のままであ
り得る多数のエラーを処理するために、段階36において、システムは、エラー
処理に優先順位をつけるために、エラールーティングサーバー(16)を利用す
ることができる。エラールーティングサーバーは、根元的なシステムエレメント
の連続動作に最も重大な脅威を呈するエラーを識別する。前記ルーティングサー
バーは、種々のシステムエレメントが様々な程度の相対的重要性を有することを
考慮に入れることができる。例えば、他のプログラムを管理するオペレーティン
グシステムまたは主要なプログラムは、これらのオペレーティングシステムまた
はプログラムのそれぞれのアプリケーションプログラムまたはモジュールよりも
重要である。どのエラーが最も重大な脅威を呈するのかに関する判断は、事前に
設定された優先順位レベルに依存ことができ、かつこれにより、一連の規則を通
して評価され得る。これらの規則については最初に定義することができるが、た
とえ時刻を超過しても、これらの規則については、エラーおよび障害の履歴が展
開されていくにつれて、自動的に更新しかつ変更することができる。前記ルーテ
ィングサーバーは、さらに、幾つかのについては一緒に関連づけることができか
つ処理すべきであることを考慮に入れることができる。種々のシステムエレメン
トからのエラーを中央リソースにおいて処理することは、これらのエラーを集め
るための、かつ、(例えば、他の任務において重大なインフラストラクチャのた
めに依存される1つ以上のデリバリーサービスまたは重大なパイプ(crucial pi
pes)の障害のような)問題に関する警報を主要なシステムエレメントへ供給す
るための能力を生じさせる。
【0018】 システムがエラーを評価する一方法は、エラーに関連した情報のデータベース
を参照することである(段階38)。データベースは、過去のエラーに関する履
歴を、これらのエラーの解決に関する提案とともに有することができる。データ
ベースは、差し迫ったエラーを解決するようにシステムを案内できる頻繁に発生
するエラーまたは頻繁に問い合わせられる質問(frequently asked questions)
のコンパイルを有することができる。FAQサーバーは、エラーおよびその原因
を集めるための通常の技術を利用することができ、該エラーおよびその原因には
、原因およびエラー識別の両方の番号により索引をつけることができる。いった
ん、エラーが集められるか、または、システムエレメント内における特定の問題
と関連づけられると、新たなFAQをエラーリソースサーバーから作成すること
ができる。
【0019】 前記エラーリソースサーバーは、システムにより発生する全てのエラーのリポ
ジトリである。エラーリソースサーバーは、システムアーキテクチャの表示をシ
ステムエレメントの各インターフェースとともに保持することができ、かつ、こ
れらのインターフェースを、受信されたエラーを分類するための機構として用い
ることができる。これらのエラーについては、システムエレメント内部またはシ
ステムエレメント外部のいずれかにおけるものとして分類することができる。エ
ラーの定義は、システムエレメントの識別と、該エラーと該システムエレメント
または他のシステムエレメントとの関係とを包含することができる。これらのエ
ラーについては、一般によく知られているオブジェクトモデリング技術を用いた
オブジェクトモデルにおいて、互いに関連づけることができる。前記オブジェク
トモデリング技術は、継承(inheritance)、前提、および事後の条件および属
性を包含するが、これらに制限されるものではない。このようなオブジェクトモ
デリングに関するさらなる詳細については、メイヤー(Meyer)による"Object O
riented Software Construction"(Prentice Hall) において見出すことができ、
この内容は本明細書に参照として組み込まれている。エラーとこれらのエラーの
処理との間の関係を、系統的モデル内における個々のオブジェクトとして識別す
ることは、エラーリソースサーバーに関する核心をもたらす。エラーとシステム
インターフェースモデルとの関係のマッピングは、分類すべきかつ残りのシステ
ムによりアクセスすべきエラーのための枠組みをもたらす。
【0020】 前記エラーリソースサーバーは、残りのエラーシステムのためにデータリソー
スを供給し、かつ、他のシステムエレメントが自らのベースライン情報を得るリ
ポジトリとして作用する。これにより、他のシステムエレメントが効率的かつ適
時の応答をシステムエラーに対して与えることが可能となる一方で、同時に、同
時発生エラー管理リソースと、システムの動作をサポートする管理システムとが
維持される。このモデルにおいて、発生するエラーは、システムの効率的な動作
全体を可能にするカスタマーケア方法の一部となる。こうして、エラーは、シス
テムの動作全体において同質なものとなる。これらのリソースを用いることによ
り、中央リソースは、エラーまたはエラーグループを生じさせる根底的な問題を
識別することができる。問題を識別した後で、リソースは、可能であれば、この
問題と取り組み始めることができる。
【0021】 起こり得る様々なエラーおよび問題が多数存在するので、中央リソースは、必
要とされる応答または救済策のタイプにしたがって、エラーをフィルタリングす
る。このようなフィルタリングは、エラーフィルタ(14)により行われる。段
階40において、フィルタは、何らかの物理的変更または人間による介入がなく
ては解決できないエラーを分離することができる。例えば、不十分なローカルデ
ィスク空間により生じるエラーは、通常は、利用可能なディスク空間を作成する
幾つかのファイルを削除することを、または、ディスク空間を追加または置き換
えることを、ユーザーに求める。幾つかのエラーについては、フィルタアウト(
filter out)することができ、かつ、さらなる処理のためにリダイレクト(redi
rect)することができる。例えば、問題を解決する行動を起こすために他のシス
テムエレメントを必要とするエラーについては、他のシステムエレメントへリダ
イレクトすることができる。他の例は、選ばれたシステムエレメント全体を集め
ることが外部インフラストラクチャに、または、障害に遭遇したサービス供給に
依存する場合である。このような例においては、エラーを外部エレメントへリダ
イレクトすることができる。
【0022】 前記中央リソースにより発生したエラー情報パッケージは、ネットワーク管理
システムへの移入に非常に適しており、該ネットワーク管理システムについては
、エラーの管理、監視、拡大(escalation)、および究極的にはカスタマーケア
のために用いることができる。
【0023】 こうして、本発明のシステムおよび方法は、エラー情報パッケージを作成する
ことにより、エラー警報メッセージを伝搬することにより、かつ、エラーを解決
することにより、エラーを処理する。前記作成、伝搬、および解決機能について
は、直列的にまたは並列的にのいずれかで実行でき、かつ、同一モジュールによ
っても異なるモジュールによっても実行できることを理解すべきである。エラー
を処理するための補助を発送したり、種々のエラーに優先順位をつけたり、エラ
ーフィルタを適用するようなさらなる機能については、特定のアプリケーション
に応じて、異なる順序でも、または、1つ以上の異なるモジュールによっても同
様に実行することができる。
【0024】 本発明について、その好ましい実施形態を参照して詳細に示しかつ説明してき
たが、その一方で、形式および詳細における種々の変更が本発明の真意および範
囲から逸脱することなく本発明において行われ得ることが、当業者には理解され
る。
【図面の簡単な説明】
【図1】 本発明の好ましい実施形態を示すブロック図である。
【図2A】 好ましい実施形態による方法を示すフローチャートである。
【図2B】 図2Aと同様の図である。
【符号の説明】
10 システムエレメント 12 エラーメッセージ 14 エラーフィルタ 16 エラールーティングサーバー 18 エラーリソースサーバー 20 エラーFAQサーバー
【手続補正書】
【提出日】平成13年10月24日(2001.10.24)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,HR,HU,ID,IL,IN, IS,JP,KE,KG,KP,KR,KZ,LC,L K,LR,LS,LT,LU,LV,MD,MG,MK ,MN,MW,MX,NO,NZ,PL,PT,RO, RU,SD,SE,SG,SI,SK,SL,TJ,T M,TR,TT,TZ,UA,UG,US,UZ,VN ,YU,ZA,ZW (72)発明者 ピーター・ウィリアムズ オーストラリア・2011・シドニー・ポッ ツ・ポイント・ダーリンハースト・ロー ド・33/57 Fターム(参考) 5B042 GA12 JJ03 KK09 MA09 MC15 【要約の続き】

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 分散コンピュータシステム内のエラーを追跡しかつ処理す
    るための方法であって、 複数のアプリケーションの1つからエラーイベントを傍受するために集中エラ
    ー検出システムを利用する段階と、 前記アプリケーションの1つからエラーメッセージを傍受すると、情報エラー
    パッケージを作成する段階と、 関連するサブシステムへ適切なエラー警報を伝搬する段階と、 エラーを解決する段階と を具備することを特徴とする方法。
  2. 【請求項2】 前記解決段階は、適切なヘルプ情報を選択する段階と、前
    記ヘルプ情報をユーザーへ発送する段階とをさらに有することを特徴とする請求
    項1に記載の方法。
  3. 【請求項3】 前記解決段階は、傍受されたエラーと関連した障害リソー
    スの代用となる代替リソースを配置する段階をさらに有することを特徴とする請
    求項1に記載の方法。
  4. 【請求項4】 所定の時刻においてまだ未解決のエラーが2つ以上存在す
    る場合に、エラーに優先順位をつける段階をさらに具備することを特徴とする請
    求項1に記載の方法。
  5. 【請求項5】 様々なレベルの応答を必要とするエラーをフィルタリング
    する段階をさらに具備することを特徴とする請求項1に記載の方法。
  6. 【請求項6】 エラーを、該エラーの解決を補助することが可能なリソー
    スへ向ける段階をさらに具備することを特徴とする請求項1に記載の方法。
JP2000614126A 1999-04-28 2000-04-27 分散コンピュータシステム内のエラーを処理するための方法およびシステム Pending JP2002543494A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13141299P 1999-04-28 1999-04-28
US60/131,412 1999-04-28
PCT/US2000/011702 WO2000065448A1 (en) 1999-04-28 2000-04-27 A method and system for handling errors in a distributed computer system

Publications (1)

Publication Number Publication Date
JP2002543494A true JP2002543494A (ja) 2002-12-17

Family

ID=22449358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000614126A Pending JP2002543494A (ja) 1999-04-28 2000-04-27 分散コンピュータシステム内のエラーを処理するための方法およびシステム

Country Status (4)

Country Link
EP (1) EP1214655A1 (ja)
JP (1) JP2002543494A (ja)
AU (1) AU4684200A (ja)
WO (1) WO2000065448A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712083B2 (en) 2003-08-20 2010-05-04 Igt Method and apparatus for monitoring and updating system software
US7930347B2 (en) 2004-02-10 2011-04-19 Enikos Pty. Limited Responsible peer-to-peer (P2P) digital content distribution
KR101036036B1 (ko) 2004-04-06 2011-05-19 파나소닉 주식회사 프로그램 실행 장치
GB2424086A (en) * 2004-09-14 2006-09-13 Acres Gaming Inc Monitoring computer system software
WO2014120148A1 (en) * 2013-01-30 2014-08-07 Hewlett-Packard Development Company, L.P. Controlling error propagation due to fault in computing node of a distributed computing system
US9594622B2 (en) 2015-02-04 2017-03-14 International Business Machines Corporation Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
US10275296B2 (en) 2017-01-24 2019-04-30 Wipro Limited Method and system for resolving one or more errors in an enterprise storage system
US10817361B2 (en) 2018-05-07 2020-10-27 Hewlett Packard Enterprise Development Lp Controlling error propagation due to fault in computing node of a distributed computing system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644242B2 (ja) * 1988-03-17 1994-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける問題解決方法
JP3675851B2 (ja) * 1994-03-15 2005-07-27 富士通株式会社 計算機監視方式
US5563805A (en) * 1994-08-16 1996-10-08 International Business Machines Corporation Multimedia context-sensitive real-time-help mechanism for use in a data processing system
US5892898A (en) * 1996-10-04 1999-04-06 Honeywell, Inc. Error management system for supporting the identification and logging of error messages
US5941996A (en) * 1997-07-25 1999-08-24 Merrill Lynch & Company, Incorporated Distributed network agents

Also Published As

Publication number Publication date
WO2000065448A1 (en) 2000-11-02
AU4684200A (en) 2000-11-10
EP1214655A1 (en) 2002-06-19

Similar Documents

Publication Publication Date Title
US6918059B1 (en) Method and system for handling errors in a distributed computer system
US20020188706A1 (en) Secure computer support system
US8140644B2 (en) Method and apparatus for updating application servers
EP1405187B1 (en) Method and system for correlating and determining root causes of system and enterprise events
US7464161B2 (en) Enabling and disabling byte code inserted probes based on transaction monitoring tokens
US8176137B2 (en) Remotely managing a data processing system via a communications network
CN100570607C (zh) 用于多处理环境中的数据聚合的方法和***
US20040059966A1 (en) Adaptive problem determination and recovery in a computer system
US7689688B2 (en) Multiple-application transaction monitoring facility for debugging and performance tuning
US20060233312A1 (en) Method and system for providing automated fault isolation in a managed services network
JPH05298210A (ja) コンピュータ・システムのサービス・ネットワークへのコンピュータ・システムの自動登録
JP2005538459A (ja) 分散システム内の根本原因識別および問題判定のための方法および装置
US7469287B1 (en) Apparatus and method for monitoring objects in a network and automatically validating events relating to the objects
JP2002543494A (ja) 分散コンピュータシステム内のエラーを処理するための方法およびシステム
EP0806009A1 (en) Enhanced instrumentation software in fault tolerant systems
US20080155522A1 (en) Method and system for customer support
US20070106783A1 (en) Independent message stores and message transport agents
US20020078182A1 (en) Failover service method and system
WO2001035599A2 (en) Secure communication system
EP0471636B1 (en) Flexible service network for computer systems
KR950010832B1 (ko) 컴퓨터 시스템의 서비스 네트워크에서 한 컴퓨터 시스템상의 문제 해결 트래킹 방법
KR950010835B1 (ko) 컴퓨터 시스템의 서비스 네트워크에서 한 컴퓨터 시스템상의 문제 예방 실행 방법
JP2001005795A (ja) 分散システムにおける異常検出方法
EP0917061A1 (en) A data processing support method and system
CN115375269A (zh) 税务流程智能审批方法、装置、设备及介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041109