JP2004326775A - 分散ノード環境におけるfru障害分離のための機構 - Google Patents
分散ノード環境におけるfru障害分離のための機構 Download PDFInfo
- Publication number
- JP2004326775A JP2004326775A JP2004122267A JP2004122267A JP2004326775A JP 2004326775 A JP2004326775 A JP 2004326775A JP 2004122267 A JP2004122267 A JP 2004122267A JP 2004122267 A JP2004122267 A JP 2004122267A JP 2004326775 A JP2004326775 A JP 2004326775A
- Authority
- JP
- Japan
- Prior art keywords
- counters
- error
- counter
- computer
- integrated circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000002955 isolation Methods 0.000 title claims description 27
- 230000007246 mechanism Effects 0.000 title claims description 18
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000001360 synchronised effect Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 57
- 238000004891 communication Methods 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 13
- 239000004744 fabric Substances 0.000 description 9
- 238000012937 correction Methods 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000002950 deficient Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
【解決手段】コンピュータ構成要素(処理装置など)にそれぞれ関連付けられた複数のカウンタを初期化し、コンピュータ構成要素が動作している間は、カウンタを増分するが、所与のカウンタを、それに関連するコンピュータ構成要素がエラーを検出したときは一時停止させ、次いで、どのカウンタが最小のカウント値を含んでいるかを判断する。初期化信号を受信する相対遅延時間に基づいて、カウンタの同期をとる。エラーが報告されたとき、診断コードが、最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録する。
【選択図】図3
Description
複数のコンピュータ構成要素にそれぞれ関連付けられた複数のカウンタを初期化するステップと、
前記コンピュータ構成要素が動作している間、前記複数のカウンタを増分するステップと、
前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに、一時停止するステップと、
前記一時停止ステップの後で、前記複数カウンタのうちどれが最小カウント値を含むかを判断するステップとを含む方法。
(2)前記初期化ステップが、初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタのそれぞれの同期をとるステップを含む、上記(1)に記載の方法。
(3)前記複数のカウンタのうち1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーを検出するステップに応答して一時停止される、上記(1)に記載の方法。
(4)前記複数カウンタのうち1つが、第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号を検出するステップに応答して一時停止される、上記(1)に記載の方法。
(5)前記判断ステップに応答して、最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録するステップをさらに含む、上記(1)に記載の方法。
(6)前記複数カウンタのうち1つが、最大カウント値を超えて1回または複数回増分された後、低いラップアラウンド値で中断され、
前記判断ステップが、前記最大カウント値を前記低いラップアラウンド値に加算するステップを含む、上記(1)に記載の方法。
(7)前記コンピュータ構成要素間の通信経路を静止するステップと、
前記静止ステップの後に、前記コンピュータ構成要素上の障害分離レジスタをクリアするステップと、
前記クリア・ステップの後に、前記通信経路を再開するステップとをさらに含む、上記(1)に記載の方法。
(8)コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別するための機構であって、
複数のコンピュータ構成要素にそれぞれ関連付けられ、それぞれが初期化され、前記コンピュータ構成要素が動作している間に増分する複数のカウンタと、
前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに一時停止する手段と、
前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含む機構。
(9)初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、上記(8)に記載の機構。
(10)前記複数カウンタのうち特定の1つが集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーが検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、上記(8)に記載の機構。
(11)前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、上記(8)に記載の機構。
(12)最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録する診断コードをさらに含む、上記(8)に記載の機構。
(13)それぞれのカウンタの最大カウント値が、前記コンピュータ構成要素を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、上記(8)に記載の機構。
(14)前記判断手段が、前記コンピュータ構成要素間の通信経路を静止し、それらが静止している間に、前記コンピュータ構成要素上の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、上記(8)に記載の機構。
(15)複数の処理装置と、
前記処理装置にプログラム命令およびオペランド・データを提供するためのメモリ階層と、
前記複数の処理装置のうち様々な処理装置間で通信できるようにするデータ経路と、
前記複数の処理装置にそれぞれ関連付けられ、それぞれが初期化され、前記複数の処理装置が動作している間に増分する複数のカウンタと、
前記複数カウンタのうち所与の1つを、それに関連する処理装置がエラーを検出したときに一時停止する障害分離論理と、
前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含むコンピュータ・システム。
(16)初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、上記(15)に記載のコンピュータ・システム。
(17)前記複数カウンタのうち特定の1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある処理装置内でエラーが検出されたことに応答して、前記障害分離論理が前記特定のカウンタを一時停止する、上記(15)に記載のコンピュータ・システム。
(18)前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止の手段が前記特定のカウンタを一時停止する、上記(15)に記載のコンピュータ・システム。
(19)最小カウント値を含むカウンタに関連する特定の処理装置について、エラー・イベントをログに記録する診断コードをさらに含む、上記(15)に記載のコンピュータ・システム。
(20)それぞれのカウンタの最大カウント値が、前記処理装置を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、上記(15)に記載のコンピュータ・システム。
(21)前記判断手段が、前記通信経路を静止し、それらが静止されている間に、前記処理装置内の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、上記(15)に記載のコンピュータ・システム。
12a 処理装置
12b 処理装置
12c 処理装置
12d 処理装置
14 プロセッサ・グループ
16 ファブリック・バス
18a サービス・プロセッサ
18b サービス・プロセッサ
20 システム・メモリ・デバイス
22 周辺装置
24 プロセッサ・ブリッジ
26a プロセッサ・コア
26b プロセッサ・コア
28 L2キャッシュ
30 メモリ・コントローラ
32 L3キャッシュ
34 通信バス
40 プロセッサ・グループ
42a ドロワ
42b ドロワ
42c ドロワ
44a MCM
44b MCM
44c MCM
44d MCM
44e MCM
44f MCM
46a ドロワ間バス
46b ドロワ間バス
46c ドロワ間バス
46d ドロワ間バス
48a ドロワ内間バス
48b ドロワ内間バス
48c ドロワ内間バス
50 チップ
52 クロック制御された構成要素
54 フリーラン構成要素
56a プロセッサ・コア
56b プロセッサ・コア
58 メモリ・サブシステム
60 障害分離回路
62 データ経路へのインターフェース
64 JTAGインターフェース
66 SCOMコントローラ
68 スキャン・リング・コントローラ
70 クロック・コントローラ
72 並列直列変換器
76 カウンタ/タイマ
78 ラッチ
80 同期化論理
Claims (21)
- コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別する方法であって、
複数のコンピュータ構成要素にそれぞれ関連付けられた複数のカウンタを初期化するステップと、
前記コンピュータ構成要素が動作している間、前記複数のカウンタを増分するステップと、
前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに、一時停止するステップと、
前記一時停止ステップの後で、前記複数カウンタのうちどれが最小カウント値を含むかを判断するステップとを含む方法。 - 前記初期化ステップが、初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタのそれぞれの同期をとるステップを含む、請求項1に記載の方法。
- 前記複数のカウンタのうち1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーを検出するステップに応答して一時停止される、請求項1に記載の方法。
- 前記複数カウンタのうち1つが、第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号を検出するステップに応答して一時停止される、請求項1に記載の方法。
- 前記判断ステップに応答して、最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録するステップをさらに含む、請求項1に記載の方法。
- 前記複数カウンタのうち1つが、最大カウント値を超えて1回または複数回増分された後、低いラップアラウンド値で中断され、
前記判断ステップが、前記最大カウント値を前記低いラップアラウンド値に加算するステップを含む、請求項1に記載の方法。 - 前記コンピュータ構成要素間の通信経路を静止するステップと、
前記静止ステップの後に、前記コンピュータ構成要素上の障害分離レジスタをクリアするステップと、
前記クリア・ステップの後に、前記通信経路を再開するステップとをさらに含む、請求項1に記載の方法。 - コンピュータ・システムの一部を介して伝搬し、二次エラーを引き起こすエラーの一次発生源を識別するための機構であって、
複数のコンピュータ構成要素にそれぞれ関連付けられ、それぞれが初期化され、前記コンピュータ構成要素が動作している間に増分する複数のカウンタと、
前記複数カウンタのうち所与の1つを、それに関連するコンピュータ構成要素がエラーを検出したときに一時停止する手段と、
前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含む機構。 - 初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、請求項8に記載の機構。
- 前記複数カウンタのうち特定の1つが集積回路チップ上にあり、それと同じ集積回路チップ上にある構成要素内でエラーが検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、請求項8に記載の機構。
- 前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止手段が前記特定のカウンタを一時停止する、請求項8に記載の機構。
- 最小カウント値を含むカウンタに関連する特定のコンピュータ構成要素について、エラー・イベントをログに記録する診断コードをさらに含む、請求項8に記載の機構。
- それぞれのカウンタの最大カウント値が、前記コンピュータ構成要素を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、請求項8に記載の機構。
- 前記判断手段が、前記コンピュータ構成要素間の通信経路を静止し、それらが静止している間に、前記コンピュータ構成要素上の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、請求項8に記載の機構。
- 複数の処理装置と、
前記処理装置にプログラム命令およびオペランド・データを提供するためのメモリ階層と、
前記複数の処理装置のうち様々な処理装置間で通信できるようにするデータ経路と、
前記複数の処理装置にそれぞれ関連付けられ、それぞれが初期化され、前記複数の処理装置が動作している間に増分する複数のカウンタと、
前記複数カウンタのうち所与の1つを、それに関連する処理装置がエラーを検出したときに一時停止する障害分離論理と、
前記複数カウンタのうちどれが最小カウント値を含むかを判断する手段とを含むコンピュータ・システム。 - 初期化信号を受信する相対遅延時間に基づいて、前記複数カウンタの同期がとられる、請求項15に記載のコンピュータ・システム。
- 前記複数カウンタのうち特定の1つが、集積回路チップ上にあり、それと同じ集積回路チップ上にある処理装置内でエラーが検出されたことに応答して、前記障害分離論理が前記特定のカウンタを一時停止する、請求項15に記載のコンピュータ・システム。
- 前記複数カウンタのうち特定の1つが第1の集積回路チップ上にあり、第2の集積回路チップからのエラー信号が検出されたことに応答して、前記一時停止の手段が前記特定のカウンタを一時停止する、請求項15に記載のコンピュータ・システム。
- 最小カウント値を含むカウンタに関連する特定の処理装置について、エラー・イベントをログに記録する診断コードをさらに含む、請求項15に記載のコンピュータ・システム。
- それぞれのカウンタの最大カウント値が、前記処理装置を回るエラー伝搬の最大遅延時間の少なくとも2倍であるサイクル時間に対応するように、それぞれのカウンタに十分な記憶域を設ける、請求項15に記載のコンピュータ・システム。
- 前記判断手段が、前記通信経路を静止し、それらが静止されている間に、前記処理装置内の障害分離レジスタをクリアし、次いで、前記通信経路を再開する、請求項15に記載のコンピュータ・システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/425,441 US20040216003A1 (en) | 2003-04-28 | 2003-04-28 | Mechanism for FRU fault isolation in distributed nodal environment |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004326775A true JP2004326775A (ja) | 2004-11-18 |
Family
ID=33299511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004122267A Withdrawn JP2004326775A (ja) | 2003-04-28 | 2004-04-16 | 分散ノード環境におけるfru障害分離のための機構 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20040216003A1 (ja) |
JP (1) | JP2004326775A (ja) |
KR (1) | KR100637780B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009037575A (ja) * | 2007-08-06 | 2009-02-19 | Hitachi Ltd | 分散システム |
JPWO2012172682A1 (ja) * | 2011-06-17 | 2015-02-23 | 富士通株式会社 | 演算処理装置及び演算処理装置の制御方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7379418B2 (en) * | 2003-05-12 | 2008-05-27 | International Business Machines Corporation | Method for ensuring system serialization (quiesce) in a multi-processor environment |
US20050223288A1 (en) * | 2004-02-12 | 2005-10-06 | Lockheed Martin Corporation | Diagnostic fault detection and isolation |
US7801702B2 (en) | 2004-02-12 | 2010-09-21 | Lockheed Martin Corporation | Enhanced diagnostic fault detection and isolation |
US7584420B2 (en) * | 2004-02-12 | 2009-09-01 | Lockheed Martin Corporation | Graphical authoring and editing of mark-up language sequences |
US7177662B2 (en) * | 2004-04-02 | 2007-02-13 | Broadcom Corporation | Multimode wireless communication device |
US20080052281A1 (en) | 2006-08-23 | 2008-02-28 | Lockheed Martin Corporation | Database insertion and retrieval system and method |
US7447957B1 (en) * | 2005-08-01 | 2008-11-04 | Sun Microsystems, Inc. | Dynamic soft-error-rate discrimination via in-situ self-sensing coupled with parity-space detection |
JP4586750B2 (ja) * | 2006-03-10 | 2010-11-24 | 日本電気株式会社 | コンピュータシステムおよび起動監視方法 |
US7596724B2 (en) * | 2006-03-31 | 2009-09-29 | Intel Corporation | Quiescence for retry messages on bidirectional communications interface |
US20080256400A1 (en) * | 2007-04-16 | 2008-10-16 | Chih-Cheng Yang | System and Method for Information Handling System Error Handling |
US8855093B2 (en) * | 2007-12-12 | 2014-10-07 | Broadcom Corporation | Method and system for chip-to-chip communications with wireline control |
US8667504B2 (en) | 2008-06-20 | 2014-03-04 | Netapp, Inc. | System and method for achieving high performance data flow among user space processes in storage system |
US20100306442A1 (en) * | 2009-06-02 | 2010-12-02 | International Business Machines Corporation | Detecting lost and out of order posted write packets in a peripheral component interconnect (pci) express network |
JP5970987B2 (ja) * | 2012-07-05 | 2016-08-17 | 富士通株式会社 | 故障検出装置、故障検出方法および故障検出プログラム |
CN104956346B (zh) * | 2013-01-30 | 2018-06-19 | 慧与发展有限责任合伙企业 | 控制由于分布式计算***的计算节点中的故障而导致的错误传播 |
CN103198000A (zh) * | 2013-04-02 | 2013-07-10 | 浪潮电子信息产业股份有限公司 | 一种linux***下的故障内存位置定位方法 |
US10579499B2 (en) * | 2017-04-04 | 2020-03-03 | International Business Machines Corporation | Task latency debugging in symmetric multiprocessing computer systems |
US10642693B2 (en) * | 2017-09-06 | 2020-05-05 | Western Digital Technologies, Inc. | System and method for switching firmware |
US10817361B2 (en) | 2018-05-07 | 2020-10-27 | Hewlett Packard Enterprise Development Lp | Controlling error propagation due to fault in computing node of a distributed computing system |
CN109872066B (zh) * | 2019-02-19 | 2024-02-02 | 北京天诚同创电气有限公司 | 污水处理厂的***复杂性度量方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS594054B2 (ja) * | 1979-04-17 | 1984-01-27 | 株式会社日立製作所 | マルチプロセツサ障害検出方式 |
US5023779A (en) | 1982-09-21 | 1991-06-11 | Xerox Corporation | Distributed processing environment fault isolation |
US4679195A (en) * | 1985-04-10 | 1987-07-07 | Amdahl Corporation | Error tracking apparatus in a data processing system |
US4852095A (en) * | 1988-01-27 | 1989-07-25 | International Business Machines Corporation | Error detection circuit |
US4916697A (en) * | 1988-06-24 | 1990-04-10 | International Business Machines Corporation | Apparatus for partitioned clock stopping in response to classified processor errors |
US5383201A (en) * | 1991-12-23 | 1995-01-17 | Amdahl Corporation | Method and apparatus for locating source of error in high-speed synchronous systems |
US5758065A (en) * | 1995-11-30 | 1998-05-26 | Ncr Corporation | System and method of establishing error precedence in a computer system |
US6516429B1 (en) * | 1999-11-04 | 2003-02-04 | International Business Machines Corporation | Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system |
US20020194319A1 (en) | 2001-06-13 | 2002-12-19 | Ritche Scott D. | Automated operations and service monitoring system for distributed computer networks |
-
2003
- 2003-04-28 US US10/425,441 patent/US20040216003A1/en not_active Abandoned
-
2004
- 2004-04-16 JP JP2004122267A patent/JP2004326775A/ja not_active Withdrawn
- 2004-04-21 KR KR1020040027491A patent/KR100637780B1/ko not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009037575A (ja) * | 2007-08-06 | 2009-02-19 | Hitachi Ltd | 分散システム |
JP4512621B2 (ja) * | 2007-08-06 | 2010-07-28 | 株式会社日立製作所 | 分散システム |
JPWO2012172682A1 (ja) * | 2011-06-17 | 2015-02-23 | 富士通株式会社 | 演算処理装置及び演算処理装置の制御方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100637780B1 (ko) | 2006-10-25 |
KR20040093405A (ko) | 2004-11-05 |
US20040216003A1 (en) | 2004-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100637780B1 (ko) | 분산된 노드 환경에서의 현장 교체 가능형 유닛의 결함분리를 위한 1차 에러 소스의 식별 방법, 메카니즘 및그의 컴퓨터 시스템 | |
US7313717B2 (en) | Error management | |
US20040221198A1 (en) | Automatic error diagnosis | |
US6742139B1 (en) | Service processor reset/reload | |
Spainhower et al. | IBM S/390 parallel enterprise server G5 fault tolerance: A historical perspective | |
EP1204924B1 (en) | Diagnostic caged mode for testing redundant system controllers | |
Meaney et al. | IBM z990 soft error detection and recovery | |
CN101271417B (zh) | 修复数据处理***的方法、数据处理***及信息处置*** | |
US6910160B2 (en) | System, method, and computer program product for preserving trace data after partition crash in logically partitioned systems | |
US7103808B2 (en) | Apparatus for reporting and isolating errors below a host bridge | |
US7793139B2 (en) | Partial link-down status for virtual Ethernet adapters | |
KR100342802B1 (ko) | L1 데이타 캐시 패러티 에러 복구 메카니즘 | |
US20020184576A1 (en) | Method and apparatus for isolating failing hardware in a PCI recoverable error | |
US20070260910A1 (en) | Method and apparatus for propagating physical device link status to virtual devices | |
US7137020B2 (en) | Method and apparatus for disabling defective components in a computer system | |
US6950978B2 (en) | Method and apparatus for parity error recovery | |
US6571360B1 (en) | Cage for dynamic attach testing of I/O boards | |
JPH03182939A (ja) | ソフトウェアのエラー処理の方法 | |
KR20090122209A (ko) | 병렬 컴퓨터 시스템 상에서 노드 트래픽의 동적 리라우팅 | |
CN100375960C (zh) | 用于调试输入/输出故障的方法和*** | |
US8166273B2 (en) | Degeneration method and information processing apparatus | |
US20060184840A1 (en) | Using timebase register for system checkstop in clock running environment in a distributed nodal environment | |
US7363531B2 (en) | Data synchronization for system controllers | |
Spainhower et al. | G4: A fault-tolerant CMOS mainframe | |
US7925728B2 (en) | Facilitating detection of hardware service actions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060919 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20060919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060920 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20070205 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070209 |