JP2004355424A - 情報処理装置の障害管理方式 - Google Patents

情報処理装置の障害管理方式 Download PDF

Info

Publication number
JP2004355424A
JP2004355424A JP2003153705A JP2003153705A JP2004355424A JP 2004355424 A JP2004355424 A JP 2004355424A JP 2003153705 A JP2003153705 A JP 2003153705A JP 2003153705 A JP2003153705 A JP 2003153705A JP 2004355424 A JP2004355424 A JP 2004355424A
Authority
JP
Japan
Prior art keywords
fault
failure
maintenance
component
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003153705A
Other languages
English (en)
Inventor
Daiki Abe
大輝 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003153705A priority Critical patent/JP2004355424A/ja
Publication of JP2004355424A publication Critical patent/JP2004355424A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】情報処理装置の障害管理方式において、保守作業に連動して自動的に障害コード辞書を更新することにより、人為的な障害コード辞書の更新作業を行うことなく、被疑部品の的中率を向上させる。
【解決手段】情報処理装置の部品の障害回復をシステムファームウェアの動作テストで検出し、サービスプロセッサ上で動作する交換部品特定プログラムが部品のシリアル番号の変化から保守のために交換した部品を特定し、交換した部品の情報をインターネット経由で保守センタの保守管理サーバへ送信し、前記情報を受信した保守管理サーバ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置の障害管理方式に関し、特に障害コードを基に被疑部品を指摘する方式に関する。
【0002】
【従来の技術】
従来の情報処理装置の障害管理方式においては、障害コードと被疑部品の対応を示す障害コード辞書を予め作成し、障害発生時には障害コードをキーとして障害コード辞書を検索し、被疑部品の指摘を行っている。
【0003】
ただし、障害コードと被疑部品の関係は必ずしも1対1ではなく、1つの障害コードに対して複数の部品が被疑の対象となる場合がある。このため、被疑部品と被疑順位がセットで障害コード辞書に設定され、障害発生時には被疑順位に従った順番で被疑部品の交換を行っている。
【0004】
ただし、被疑順位の設定は情報処理装置の設計段階で行われるため、被疑順位には実際の部品の故障率および品質が反映されておらず、情報処理装置の出荷後に保守作業の回数を積まない限り、被疑順位の設定誤りが顕在化しないという問題があった。このため、情報処理装置の出荷後も被疑順位の設定が実状と相違ないか監視し、必要に応じて障害コード辞書の更新を行っていた。
【0005】
【特許文献1】
特開平10−320241号公報
【0006】
【発明が解決しようとする課題】
前記方式では、前述した通り、被疑部品の的中率を向上させるため、情報処理装置の出荷後も障害コード辞書の見直しを継続的に行わなければならないという問題があった。
【0007】
本発明は、前記問題点を鑑みてなされたものであり、保守作業に連動して自動的に障害コード辞書を更新することにより、人為的な障害コード辞書の更新作業を行うことなく、被疑部品の的中率を向上させることを目的とする。
【0008】
【課題を解決するための手段】
本発明の情報処理装置の障害管理方式について、図1を参照して説明する。
【0009】
本発明の障害管理方式は、情報処理装置(101)の部品(103)の障害発生を障害発生検出手段(105)が検出し、サービスプロセッサ(107)上で動作する障害診断プログラム(108)が障害コードを公衆回線(110)経由で保守センタ(111)の保守管理サーバ(114)へ送信し、前記障害コードを受信した保守管理サーバ(114)上で動作する被疑部品表示プログラム(115)がハードディスク(112)に格納されている障害コード辞書ファイル(113)を基に推定した被疑部品を出力手段(117)に表示する情報処理装置の障害管理方式において、情報処理装置(101)の部品(103)の障害回復を障害回復検出手段(106)が検出し、サービスプロセッサ(107)上で動作する交換部品特定プログラム(109)が保守のために交換した部品の種別情報を公衆回線(110)経由で保守センタ(111)の保守管理サーバ(114)へ送信し、前記情報を受信した保守管理サーバ(114)上で動作する障害コード辞書更新プログラム(116)がハードディスク(112)に格納されている障害コード辞書ファイル(113)を更新することを特徴とする。
【0010】
また、サービスプロセッサ(107)上で動作する交換部品特定プログラム(109)が交換された部品(103)を特定する手段として、情報処理装置(101)の部品(103)に一意に付加されているシリアル番号(104)をシリアル番号採取インタフェース(102)経由で参照し、障害発生前と障害回復後のシリアル番号(104)を比較することを特徴とする。
【0011】
さらに、障害回復検出手段(106)として、情報処理装置のブート時にシステムファームウェアが行う初期部品動作テストを用いることを特徴とする。
【0012】
なお、保守センタを設けず、情報処理装置の部品の障害発生を障害発生検出手段が検出し、サービスプロセッサ上で動作する障害診断プログラムが作成した障害コードを基にサービスプロセッサ上で動作する被疑部品表示プログラムが推定した被疑部品を出力手段に表示する情報処理装置の障害管理方式において、情報処理装置の部品の障害回復を障害回復検出手段が検出し、サービスプロセッサ上で動作する交換部品特定プログラムが保守のために交換した部品の種別情報を基にサービスプロセッサ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新するという構成も、前記課題を解決するための手段として取り得る。
【0013】
【発明の実施の形態】
以下、本発明の実施形態について、図面を参照して説明する。図2は、本発明の一実施形態の構成を示すブロック図である。
【0014】
保守対象サーバ(201)は、保守センタ(223)と保守サービスの契約を結んでいる情報処理装置である。保守対象サーバ(201)の交換可能な部品は、CPU(205)、DIMM(207)、システムボード(202)の3つであり、各部品には、一意のシリアル番号が付加されている。なお、CPU(205)とDIMM(207)は、システムボード(202)上に搭載されているが、自由に着脱することが可能である。
【0015】
CPU(205)のシリアル番号は、PIROM(206)に記憶されている。PIROM(206)は、CPU(205)に内蔵されているSEEPROMであり、CPU(205)に関する情報を記憶している。
【0016】
DIMM(207)のシリアル番号は、SPD(208)に記憶されている。SPD(208)は、DIMM(207)に内蔵されているSEEPROMであり、DIMM(207)に関する情報を記憶している。
【0017】
システムボード(202)のシリアル番号は、FRU−ROM(204)に記憶されている。FRU−ROM(204)は、システムボード(202)上に搭載されているSEEPROMであり、システムボード(202)に関する情報を記憶している。
【0018】
システムボード(202)上には、CPU(205)、DIMM(207)、FRU−ROM(204)の他に、チップセット(211)とBIOS−ROM(209)が搭載されている。
【0019】
チップセット(211)は、CPU(205)からDIMM(207)、BIOS−ROM(209)、NVRAM(214)へのアクセスを制御し、CPU(205)、DIMM(207)、チップセット(211)の内部処理および通信処理において発生した障害を検出する機能を備えている。前記機能は、障害を検出した場合、チップセット(211)に内蔵されている障害状態レジスタ(212)に障害情報を記憶する。
【0020】
BIOS−ROM(209)は、保守対象サーバ(201)のシステムファームウェアのコードが記憶されているEEPROMである。前記システムファームウェアは、CPU(205)上で動作し、保守対象サーバ(201)のブート処理を行う。なお、前記ブート処理には、CPU(205)、DIMM(207)、システムボード(202)が正常に動作するかテストする初期部品動作テスト機能が含まれている。障害回復確認プログラム(210)は、前記初期部品動作テスト機能を利用して障害が回復したか確認するプログラムである。
【0021】
図8は、障害回復確認プログラム(210)の処理を示す流れ図である。障害回復確認プログラム(210)は、前記初期部品動作テスト機能を用いてCPU(205)、DIMM(207)、システムボード(202)が正常に動作するかテストを行い(801)、前記テストの結果より障害が回復したか確認し(802)、障害の回復を確認できた場合、障害回復フラグを“1”にセットし(803)、ブート処理を続行する(804)。一方、障害の回復を確認できなかった場合、ブート処理を中断する(805)。
【0022】
保守対象サーバ(201)内には、システムボード(202)の他に、サービスプロセッサボード(213)が装着されている。サービスプロセッサボード(213)上には、NVRAM(214)とマイコン(219)が搭載されている。
【0023】
NVRAM(214)は、CPU(205)とマイコン(219)の両方からアクセスが可能な不揮発性メモリであり、障害発生フラグ(215)、障害回復フラグ(216)、RC待避変数(217)、シリアル番号表(218)が配置されている。
【0024】
障害発生フラグ(214)は、障害の発生状態を示す2値変数である。障害発生フラグ(214)=“0”は、障害が発生していないことを意味し、障害発生フラグ(214)=“1”は、障害が発生したことを意味する。
【0025】
障害回復フラグ(215)は、障害の回復状態を示す2値変数である。障害回復フラグ(215)=“0”は、障害が回復していないことを意味し、障害回復フラグ(215)=“1”は、障害が回復したことを意味する。
【0026】
RC退避変数(216)は、障害診断プログラム(220)が作成したRCを記憶しておくために使用する変数である。なお、RCとは“ReferenceCode”の略語であり、障害コードに相当する用語である。
【0027】
シリアル番号表(218)は、CPU(205)、DIMM(207)、システムボード(202)のシリアル番号を記憶するために使用する配列変数である。図3は、シリアル番号表(218)の構成を示す表である。配列の添数は、部品の種別に対応し、“1”=CPU(205)、“2”=DIMM(207)、“3”=システムボード(202)と定義する。また、配列の要素には、添数に対応する部品のシリアル番号が記憶される。
【0028】
マイコン(219)は、CPU(205)と独立して動作する組み込みコントローラであり、LAN通信機能、IICバスアクセス機能、内蔵ROMを備えている。
【0029】
前記LANアクセス機能は、インターネット(222)経由の通信を行うための機能である。マイコン(219)は、インターネット(222)経由で、保守管理サーバ(227)との通信を行うことができる。
【0030】
前記IICバスアクセス機能は、IICバス(203)経由のアクセスを行うための機能である。マイコン(219)は、IICバス(203)経由で、FRU−ROM(204)、PIROM(206)、SPD(208)、障害状態レジスタ(212)をアクセスすることができる。
【0031】
前記内蔵ROMには、障害診断プログラム(220)と交換部品特定プログラム(221)が格納されている。
【0032】
障害診断プログラム(220)は、障害が発生したことを検出し、RCを保守管理サーバ(227)に通知するプログラムである。図7は、障害診断プログラム(220)の処理を示す流れ図である。障害診断プログラム(220)は、IICバス経由で障害状態レジスタ(212)を参照し(701)、障害状態レジスタ(212)に障害情報が記憶されているか判定し(702)、障害状態レジスタ(212)に障害情報が記憶されていた場合、前記障害情報を基にRCを作成し(703)、前記RCをRC待避変数(217)に記憶し(704)、前記RCをインターネット(222)経由で保守管理サーバ(227)に送信し(705)、障害回復フラグ(216)の値を“0”にクリアし(706)、障害発生フラグ(215)の値を“1”にセットする(707)。
【0033】
交換部品特定プログラム(221)は、障害が回復したことを検出し、保守のために交換した部品の種別情報を保守管理サーバ(227)に通知するプログラムである。図9は、交換部品特定プログラム(221)の処理を示す流れ図である。交換部品特定プログラム(221)は、障害発生フラグ(215)と障害回復フラグ(216)の値が両方共“1”であるか判定し(901)、障害発生フラグ(215)と障害回復フラグ(216)の値が両方共“1”の場合、IICバス(203)経由でPIROM(206)、SPD(208)、FRU−ROM(204)に記憶されている現在のCPU(205)、DIMM(207)、システムボード(202)のシリアル番号を参照し(902、906、910)、シリアル番号表(218)に記憶されている障害発生時のCPU(205)、DIMM(207)、システムボード(202)のシリアル番号と差違があるか判定し(903、907、911)、現在のシリアル番号と障害発生時のシリアル番号に差違があった場合、シリアル番号に差違のあった部品の種別情報をRC待避変数に記憶しておいたRCと共にインターネット(222)経由で保守管理サーバ(227)に送信し(904、908、912)、シリアル番号表(218)を現状に沿うように更新する(905、909、913)。最後に、障害発生フラグ(215)の値を“0”にクリアする(914)。
【0034】
保守センタ(223)は、保守対象サーバ(201)の保守作業を行う保守員の在籍する建物であり、ディスプレイ(224)、ハードディスク(225)、保守管理サーバ(227)が設置されている。
【0035】
ディスプレイ(224)は、保守管理サーバ(227)の出力を表示する表示装置である。
【0036】
ハードディスク(225)は、保守管理サーバ(227)のファイルを保存する記憶装置であり、RC辞書ファイル(226)を保存している。
【0037】
RC辞書ファイル(226)は、RCと被疑部品の対応を示すファイルである。図4は、RC辞書ファイル(226)の構成を示した表である。RC辞書ファイル(226)の項目は、RC、部品、交換回数、優先順位の4つである。なお、キー項目は、RCと部品である。交換回数は、該RCに対して該部品を交換して障害が回復した回数を示している。優先順位は、該RCに対して交換回数の等しい部品が複数存在した場合の被疑の優先順位を示し、保守対象サーバ(201)の設計者によって予め設定されている。なお、優先順位は、“1”が最も高く、数値が増加するほど低くなる。また、優先順位が“0”の場合は、該部品が被疑対象外であることを示している。
【0038】
保守管理サーバ(227)は、保守対象サーバ(201)を管理するサーバであり、被疑部品表示プログラム(228)とRC辞書更新プログラム(229)が格納されている。
【0039】
被疑部品表示プログラム(228)は、マイコン(219)からインターネット(222)経由でRCを受信し、前記RCをキーにRC辞書ファイル(226)を検索し、ディスプレイ(224)に被疑部品を表示するプログラムである。なお、被疑部品が複数存在する場合は、夫々の被疑部品に被疑順位を付けて表示する。図5は、被疑部品表示プログラム(228)によるディスプレイ(224)の表示を示す図であり、図4のRC辞書ファイル(226)と対応している。図5の(A)は、RC=“AAAAAAAA”の場合の表示である。図5より、DIMM(207)の交換回数は“8”であり、システムボード(202)の交換回数である“6”より多い。ここで、交換回数に差がある場合、優先順位は使用しない。よって、図5の(A)に示す通り、被疑順位1位はDIMM(207)となり、被疑順位2位はシステムボード(202)となる。なお、CPU(205)は、優先順位が“0”のため、被疑対象外である。図7の(B)は、RC=“BBBBBBBB”の場合の表示である。図4より、CPU(205)の交換回数は“4”であり、システムボード(202)の交換回数である“4”と等しい。交換回数が等しい場合は、優先順位を用いて被疑順位を付ける。図4より、CPU(205)の優先順位は“1”であり、システムボード(202)の優先順位である“2”より高い。よって、図5の(B)に示す通り、被疑順位1位はCPU(205)となり、被疑順位2位はシステムボード(202)となる。なお、DIMM(207)は、優先順位が“0”のため、被疑対象外である。
【0040】
RC辞書更新プログラム(229)は、マイコン(219)からインターネット(222)経由で交換した部品の種別情報とRCを受信し、該RCと該部品をキーにRC辞書ファイル(226)を検索し、対応するレコードの交換回数を“+1”するプログラムである。
【0041】
次に、図6の流れ図を参照して障害の発生からRC辞書ファイル(226)の更新までの動作について説明する。
【0042】
図10は、障害発生前の障害発生フラグ(214)、障害回復フラグ(215)、RC退避変数(216)、シリアル番号表(217)、実際の部品のシリアル番号、RC辞書ファイル(226)、ディスプレイ(229)の表示を示す図である。図10の状態において、システムボード(202)に起因する障害が発生したと仮定する(601)。チップセット(211)は、前記障害を検出し、障害状態レジスタ(212)に障害情報を記憶する(602)。障害状態レジスタ(212)に前記障害情報が記憶されたことを受け、マイコン(219)上で動作する障害診断プログラム(220)が処理を開始する(603)。
【0043】
ここで、説明を図7の障害診断プログラム(220)の流れ図に移す。障害診断プログラム(220)は、IICバス(203)経由で障害状態レジスタ(212)を参照し(701)、障害状態レジスタ(212)に前記障害情報が記憶されていることを検出し(702)、前記障害情報を基にRCを作成し(703)、前記RCをRC待避変数(217)に記憶し(704)、前記RCをインターネット(222)経由で保守管理サーバ(227)に送信し(705)、障害回復フラグ(216)の値を“0”にクリアし(706)、障害発生フラグ(215)の値を“1”にセットする(707)。なお、前記ステップ703において作成したRCは、“AAAAAAAA”であったと仮定する。
【0044】
説明を図6の流れ図に戻す。保守管理サーバ(227)は、前記RCをマイコン(219)からインターネット(222)経由で受信し、被疑部品表示プログラム(228)を起動する(604)。被疑部品表示プログラム(228)は、前記RCをキーにRC辞書ファイル(226)を検索し、ディスプレイ(224)に被疑部品を表示する。図10のRC辞書ファイル(226)より、前記RC=“AAAAAAAA”に対応する部品の交換回数は、DIMM(207)とシステムボード(202)が共に“2”である。交換回数が等しい場合は、優先順位を用いて被疑順位を付ける。優先順位は、DIMM(207)が“1”であり、システムボード(202)の“2”よりも高い。よって、被疑順位1位はDIMM(207)となり、被疑順位2位はシステムボード(202)となる。図11は、現時点の障害発生フラグ(215)、障害回復フラグ(216)、RC退避変数(217)、シリアル番号表(218)、実際の部品のシリアル番号、RC辞書ファイル(226)、ディスプレイ(224)の表示を示す図である。なお、図11の網掛け箇所は、図10との差分を示している。
【0045】
次に、保守センタ(223)に在籍する保守員は、ディスプレイ(224)の前記表示を見て、最も被疑順位が高いDIMM(207)を交換し(605)、保守対象サーバ(201)を再起動する(606)。保守対象サーバ(201)を再起動することにより、情報処理装置(201)のブート処理が始まり、CPU(205)上で動作する障害回復確認プログラム(210)が処理を開始する。
【0046】
ここで、説明を図8の障害診断プログラム(210)の流れ図に移す。障害回復確認プログラム(210)は、システムファームウェアの初期部品動作テスト機能を用いて部品の動作テストを行うが(801)、障害の原因はDIMM(207)ではなくシステムボード(202)であるため、前記初期部品動作テストの結果はNGとなり(802)、ブート処理を中断する(805)。
【0047】
説明を図6の流れ図に戻す。保守員は、保守対象サーバ(201)のブート処理の中断を見て、障害が回復しなかったと判断し(608)、交換したDIMM(207)を元に戻し、次に被疑順位が高いシステムボード(202)を交換し(605)、保守対象サーバ(201)を再起動する(606)。保守対象サーバ(201)を再起動することにより、情報処理装置(201)のブート処理が始まり、CPU(205)上で動作する障害回復確認プログラム(210)が処理を開始する。
【0048】
ここで、説明を図8の障害診断プログラム(210)の流れ図に移す。障害回復確認プログラム(210)は、システムファームウェアの初期部品動作テスト機能を用いて部品の動作テストを行い(801)、障害の原因はシステムボード(202)であったため、前記初期部品動作テストの結果はOKとなり(802)、障害回復フラグを“1”にセットし(803)、ブート処理を続行する(804)。
【0049】
説明を図6の流れ図に戻す。保守員は、保守対象サーバ(201)のブート処理の正常終了を見て、障害が回復したと判断する(608)。なお、前記ステップ605において交換した新しいシステムボード(202)のシリアル番号は、“4444444444”であったと仮定する。図12は、現時点の障害発生フラグ(215)、障害回復フラグ(216)、RC退避変数(217)、シリアル番号表(218)、実際の部品のシリアル番号、RC辞書ファイル(226)、ディスプレイ(224)の表示を示す図である。なお、図12の網掛け箇所は、図11との差分を示している。
【0050】
障害回復フラグが“1”にセットされたことを受け、マイコン(219)上で動作する交換部品特定プログラム(221)が処理を開始する(609)。
【0051】
ここで、説明を図9の交換部品特定プログラム(221)の流れ図に移す。交換部品特定プログラム(221)は、障害発生フラグと障害回復フラグが共に“1”であることを確認し(901)、IICバス(203)経由でPIROM(206)、SPD(208)、FRU−ROM(204)に記憶されている現在のCPU(205)、DIMM(207)、システムボード(202)のシリアル番号を参照し(902、906、910)、シリアル番号表(218)に記憶されている障害発生時のCPU(205)、DIMM(207)、システムボード(202)のシリアル番号と差違があるか判定する(903、907、911)。図12より、CPU(205)、DIMM(207)、システムボード(202)のシリアル番号のうち、障害発生時と現在で差違があるのはシステムボード(202)のシリアル番号だけである。よって、システムボード(202)の交換が行われたものと判断し、交換した部品はシステムボード(202)であるという情報とRC待避変数に記憶しておいたRC=“AAAAAAAA”をインターネット(222)経由で保守管理サーバ(227)に送信し(912)、シリアル番号表(218)のシステムボード(202)のシリアル番号を現状に沿うように“4444444444”に更新する(913)。最後に、障害発生フラグ(216)の値を“0”にクリアする(914)。
【0052】
説明を図6の流れ図に戻す。保守管理サーバ(227)上で動作するRC辞書更新プログラム(229)は、マイコン(219)からインターネット(222)経由で交換した部品はシステムボード(202)であるという情報とRC=“AAAAAAAA”を受信し、RC=“AAAAAAAA”と部品=“システムボード(202)”をキーにRC辞書ファイル(226)を検索し、該当するレコードの交換回数を“2”から“3”へ“+1”する。図13は、現時点の障害発生フラグ(215)、障害回復フラグ(216)、RC退避変数(217)、シリアル番号表(218)、実際の部品のシリアル番号、RC辞書ファイル(226)、ディスプレイ(224)の表示を示す図である。なお、図13の網掛け箇所は、図12との差分を示している。
【0053】
以上説明したように、RC辞書ファイル(226)の更新は、保守員が意識することなく行われる。そして、今度また同様の障害が発生した場合は、図14に示す通り、被疑順位1位はシステムボード(202)となり、被疑順位2位はDIMM(207)となり、最初からシステムボード(202)を交換することになり、余分なDIMM(207)の交換作業を省くことができる。これは、保守対象サーバ(201)のダウンタイムの短縮に繋がる。
【0054】
【発明の効果】
以上説明したように、本発明は、実際の保守作業の内容に基づいて障害コード辞書を更新するため、被疑部品の的中率が向上し、ダウンタイムの短縮が図られ、情報処理装置の稼働率を向上することができる。
【0055】
また、保守作業に連動して自動的に障害コード辞書を更新するため、新たな作業を生じることなく、前記効果を得ることができる。
【図面の簡単な説明】
【図1】情報処理装置の障害管理方式の構成を示すブロック図である。
【図2】本発明の一実施形態の構成を示すブロック図である。
【図3】シリアル番号表(218)の構成を示す表である。
【図4】RC辞書ファイル(226)の構成を示す表である。
【図5】被疑部品表示プログラム(228)によるディスプレイ(224)の表示を示す図である。
【図6】本発明の動作を示す流れ図である。
【図7】障害診断プログラム(220)の処理を示す流れ図である。
【図8】障害回復確認プログラム(210)の処理を示す流れ図である。
【図9】交換部品特定プログラム(221)の処理を示す流れ図である。
【図10】各変数とシリアル番号とRC辞書ファイル(226)とディスプレイ(224)表示の初期状態を示す図である。
【図11】各変数と各シリアル番号とRC辞書ファイル(226)とディスプレイ(224)表示のステップ604を終えた時点の状態を示す図である。
【図12】各変数と各シリアル番号とRC辞書ファイル(226)とディスプレイ(224)表示のステップ607を終えた時点の状態を示す図である。
【図13】各変数と各シリアル番号とRC辞書ファイル(226)とディスプレイ(224)表示のステップ609を終えた時点の状態を示す図である。
【図14】各変数と各シリアル番号とRC辞書ファイル(226)とディスプレイ(224)表示の再度同様の障害が発生した後のステップ604を終えた時点の状態を示す図である。
【符号の説明】
101…情報処理装置、102…シリアル番号採取インターフェース、103…部品、104…シリアル番号、105…障害発生検出手段、106…障害回復検出手段、107…サービスプロセッサ、108…障害診断プログラム、109…交換部位特定プログラム、110…公衆回線、111…保守センタ、112…ハードディスク、113…障害コード辞書ファイル、114…保守管理サーバ、115…被疑部品表示プログラム、116…障害コード辞書更新プログラム、117…出力手段、201…保守対象サーバ、202…システムボード、203…IICバス、204…FRU−ROM、205…CPU、206…PIROM、207…DIMM、208…SPD、209…BIOS−ROM、210…障害回復確認プログラム、211…チップセット、212…障害状態レジスタ、213…サービスプロセッサボード、214…NVRAM、215…障害発生フラグ、216…障害回復フラグ、217…RC退避変数、218…シリアル番号表、219…マイコン、220…障害診断プログラム、221…交換部品特定プログラム、222…インターネット、223…保守センタ、224…ディスプレイ、225…ハードディスク、226…RC辞書ファイル、227…保守管理サーバ、228…被疑部品表示プログラム、229…RC辞書更新プログラム。

Claims (4)

  1. 情報処理装置の部品の障害発生を障害発生検出手段が検出し、サービスプロセッサ上で動作する障害診断プログラムが障害コードを公衆回線経由で保守センタの保守管理サーバへ送信し、前記障害コードを受信した保守管理サーバ上で動作する被疑部品表示プログラムがハードディスクに格納されている障害コード辞書ファイルを基に推定した被疑部品を出力手段に表示する情報処理装置の障害管理方式において、情報処理装置の部品の障害回復を障害回復検出手段が検出し、サービスプロセッサ上で動作する交換部品特定プログラムが保守のために交換した部品の種別情報を公衆回線経由で保守センタの保守管理サーバへ送信し、前記情報を受信した保守管理サーバ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新することを特徴とする情報処理装置の障害管理方式。
  2. サービスプロセッサ上で動作する交換部品特定プログラムが交換された部品を特定する手段として、情報処理装置の部品に一意に付加されているシリアル番号をシリアル番号採取インタフェース経由で参照し、障害発生前と障害回復後のシリアル番号を比較することを特徴とする請求項1記載の情報処理装置の障害管理方式。
  3. 障害回復検出手段として、情報処理装置のブート時にシステムファームウェアが行う初期部品動作テストを用いることを特徴とする請求項1記載の情報処理装置の障害管理方式。
  4. 情報処理装置の部品の障害発生を障害発生検出手段が検出し、サービスプロセッサ上で動作する障害診断プログラムが作成した障害コードを基にサービスプロセッサ上で動作する被疑部品表示プログラムが推定した被疑部品を出力手段に表示する情報処理装置の障害管理方式において、情報処理装置の部品の障害回復を障害回復検出手段が検出し、サービスプロセッサ上で動作する交換部品特定プログラムが保守のために交換した部品の種別情報を基にサービスプロセッサ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新することを特徴とする情報処理装置の障害管理方式。
JP2003153705A 2003-05-30 2003-05-30 情報処理装置の障害管理方式 Pending JP2004355424A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003153705A JP2004355424A (ja) 2003-05-30 2003-05-30 情報処理装置の障害管理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003153705A JP2004355424A (ja) 2003-05-30 2003-05-30 情報処理装置の障害管理方式

Publications (1)

Publication Number Publication Date
JP2004355424A true JP2004355424A (ja) 2004-12-16

Family

ID=34048556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003153705A Pending JP2004355424A (ja) 2003-05-30 2003-05-30 情報処理装置の障害管理方式

Country Status (1)

Country Link
JP (1) JP2004355424A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008527554A (ja) * 2005-01-18 2008-07-24 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け)
JP2010231666A (ja) * 2009-03-27 2010-10-14 Nec Personal Products Co Ltd 修理部品指示システム、修理部品指示装置、修理情報管理装置、それらの方法及びプログラム
JP2011175513A (ja) * 2010-02-25 2011-09-08 Nec Computertechno Ltd 障害管理システム及び方法
CN103197999A (zh) * 2013-03-22 2013-07-10 北京百度网讯科技有限公司 一种内存故障自动定位方法及装置
CN114322202A (zh) * 2021-12-20 2022-04-12 青岛海尔空调器有限总公司 基于云端服务器的故障自诊断方法与***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008527554A (ja) * 2005-01-18 2008-07-24 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け)
JP4717079B2 (ja) * 2005-01-18 2011-07-06 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け)
JP2010231666A (ja) * 2009-03-27 2010-10-14 Nec Personal Products Co Ltd 修理部品指示システム、修理部品指示装置、修理情報管理装置、それらの方法及びプログラム
JP2011175513A (ja) * 2010-02-25 2011-09-08 Nec Computertechno Ltd 障害管理システム及び方法
CN103197999A (zh) * 2013-03-22 2013-07-10 北京百度网讯科技有限公司 一种内存故障自动定位方法及装置
CN103197999B (zh) * 2013-03-22 2016-08-03 北京百度网讯科技有限公司 一种内存故障自动定位方法及装置
CN114322202A (zh) * 2021-12-20 2022-04-12 青岛海尔空调器有限总公司 基于云端服务器的故障自诊断方法与***

Similar Documents

Publication Publication Date Title
EP3620922A1 (en) Server hardware fault analysis and recovery
TWI337304B (en) Method for fast system recovery via degraded reboot
US7287193B2 (en) Methods, systems, and media to correlate errors associated with a cluster
US5704031A (en) Method of performing self-diagnosing hardware, software and firmware at a client node in a client/server system
US10068015B2 (en) Monitoring a monitoring-target process
JP4751785B2 (ja) 伝送装置およびソフトウェア自動更新方法
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
KR20040047209A (ko) 네트워크 상의 컴퓨터 시스템의 자동 복구 방법 및 이를구현하기 위한 컴퓨터 시스템의 자동 복구 시스템
CN112948182B (zh) 机顶盒紧急备份恢复升级方法及***
EP1943593B1 (en) Methods and apparatus for automatically multi-booting a computer system
CN104899116A (zh) 数据备份的方法、源服务器、目标服务器及***
JP2004355424A (ja) 情報処理装置の障害管理方式
JP2010067115A (ja) データ記憶システム、データ記憶方法
WO2021061146A1 (en) Lifecycle change cryptographic ledger
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
JP4715552B2 (ja) 障害検出方式
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
JP2010198314A (ja) 情報管理装置