JP2004355424A

JP2004355424A - 情報処理装置の障害管理方式

Info

Publication number: JP2004355424A
Application number: JP2003153705A
Authority: JP
Inventors: Daiki Abe; 大輝阿部
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-05-30
Filing date: 2003-05-30
Publication date: 2004-12-16

Abstract

【課題】情報処理装置の障害管理方式において、保守作業に連動して自動的に障害コード辞書を更新することにより、人為的な障害コード辞書の更新作業を行うことなく、被疑部品の的中率を向上させる。
【解決手段】情報処理装置の部品の障害回復をシステムファームウェアの動作テストで検出し、サービスプロセッサ上で動作する交換部品特定プログラムが部品のシリアル番号の変化から保守のために交換した部品を特定し、交換した部品の情報をインターネット経由で保守センタの保守管理サーバへ送信し、前記情報を受信した保守管理サーバ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、情報処理装置の障害管理方式に関し、特に障害コードを基に被疑部品を指摘する方式に関する。
【０００２】
【従来の技術】
従来の情報処理装置の障害管理方式においては、障害コードと被疑部品の対応を示す障害コード辞書を予め作成し、障害発生時には障害コードをキーとして障害コード辞書を検索し、被疑部品の指摘を行っている。
【０００３】
ただし、障害コードと被疑部品の関係は必ずしも１対１ではなく、１つの障害コードに対して複数の部品が被疑の対象となる場合がある。このため、被疑部品と被疑順位がセットで障害コード辞書に設定され、障害発生時には被疑順位に従った順番で被疑部品の交換を行っている。
【０００４】
ただし、被疑順位の設定は情報処理装置の設計段階で行われるため、被疑順位には実際の部品の故障率および品質が反映されておらず、情報処理装置の出荷後に保守作業の回数を積まない限り、被疑順位の設定誤りが顕在化しないという問題があった。このため、情報処理装置の出荷後も被疑順位の設定が実状と相違ないか監視し、必要に応じて障害コード辞書の更新を行っていた。
【０００５】
【特許文献１】
特開平１０−３２０２４１号公報
【０００６】
【発明が解決しようとする課題】
前記方式では、前述した通り、被疑部品の的中率を向上させるため、情報処理装置の出荷後も障害コード辞書の見直しを継続的に行わなければならないという問題があった。
【０００７】
本発明は、前記問題点を鑑みてなされたものであり、保守作業に連動して自動的に障害コード辞書を更新することにより、人為的な障害コード辞書の更新作業を行うことなく、被疑部品の的中率を向上させることを目的とする。
【０００８】
【課題を解決するための手段】
本発明の情報処理装置の障害管理方式について、図１を参照して説明する。
【０００９】
本発明の障害管理方式は、情報処理装置（１０１）の部品（１０３）の障害発生を障害発生検出手段（１０５）が検出し、サービスプロセッサ（１０７）上で動作する障害診断プログラム（１０８）が障害コードを公衆回線（１１０）経由で保守センタ（１１１）の保守管理サーバ（１１４）へ送信し、前記障害コードを受信した保守管理サーバ（１１４）上で動作する被疑部品表示プログラム（１１５）がハードディスク（１１２）に格納されている障害コード辞書ファイル（１１３）を基に推定した被疑部品を出力手段（１１７）に表示する情報処理装置の障害管理方式において、情報処理装置（１０１）の部品（１０３）の障害回復を障害回復検出手段（１０６）が検出し、サービスプロセッサ（１０７）上で動作する交換部品特定プログラム（１０９）が保守のために交換した部品の種別情報を公衆回線（１１０）経由で保守センタ（１１１）の保守管理サーバ（１１４）へ送信し、前記情報を受信した保守管理サーバ（１１４）上で動作する障害コード辞書更新プログラム（１１６）がハードディスク（１１２）に格納されている障害コード辞書ファイル（１１３）を更新することを特徴とする。
【００１０】
また、サービスプロセッサ（１０７）上で動作する交換部品特定プログラム（１０９）が交換された部品（１０３）を特定する手段として、情報処理装置（１０１）の部品（１０３）に一意に付加されているシリアル番号（１０４）をシリアル番号採取インタフェース（１０２）経由で参照し、障害発生前と障害回復後のシリアル番号（１０４）を比較することを特徴とする。
【００１１】
さらに、障害回復検出手段（１０６）として、情報処理装置のブート時にシステムファームウェアが行う初期部品動作テストを用いることを特徴とする。
【００１２】
なお、保守センタを設けず、情報処理装置の部品の障害発生を障害発生検出手段が検出し、サービスプロセッサ上で動作する障害診断プログラムが作成した障害コードを基にサービスプロセッサ上で動作する被疑部品表示プログラムが推定した被疑部品を出力手段に表示する情報処理装置の障害管理方式において、情報処理装置の部品の障害回復を障害回復検出手段が検出し、サービスプロセッサ上で動作する交換部品特定プログラムが保守のために交換した部品の種別情報を基にサービスプロセッサ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新するという構成も、前記課題を解決するための手段として取り得る。
【００１３】
【発明の実施の形態】
以下、本発明の実施形態について、図面を参照して説明する。図２は、本発明の一実施形態の構成を示すブロック図である。
【００１４】
保守対象サーバ（２０１）は、保守センタ（２２３）と保守サービスの契約を結んでいる情報処理装置である。保守対象サーバ（２０１）の交換可能な部品は、ＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）の３つであり、各部品には、一意のシリアル番号が付加されている。なお、ＣＰＵ（２０５）とＤＩＭＭ（２０７）は、システムボード（２０２）上に搭載されているが、自由に着脱することが可能である。
【００１５】
ＣＰＵ（２０５）のシリアル番号は、ＰＩＲＯＭ（２０６）に記憶されている。ＰＩＲＯＭ（２０６）は、ＣＰＵ（２０５）に内蔵されているＳＥＥＰＲＯＭであり、ＣＰＵ（２０５）に関する情報を記憶している。
【００１６】
ＤＩＭＭ（２０７）のシリアル番号は、ＳＰＤ（２０８）に記憶されている。ＳＰＤ（２０８）は、ＤＩＭＭ（２０７）に内蔵されているＳＥＥＰＲＯＭであり、ＤＩＭＭ（２０７）に関する情報を記憶している。
【００１７】
システムボード（２０２）のシリアル番号は、ＦＲＵ−ＲＯＭ（２０４）に記憶されている。ＦＲＵ−ＲＯＭ（２０４）は、システムボード（２０２）上に搭載されているＳＥＥＰＲＯＭであり、システムボード（２０２）に関する情報を記憶している。
【００１８】
システムボード（２０２）上には、ＣＰＵ（２０５）、ＤＩＭＭ（２０７）、ＦＲＵ−ＲＯＭ（２０４）の他に、チップセット（２１１）とＢＩＯＳ−ＲＯＭ（２０９）が搭載されている。
【００１９】
チップセット（２１１）は、ＣＰＵ（２０５）からＤＩＭＭ（２０７）、ＢＩＯＳ−ＲＯＭ（２０９）、ＮＶＲＡＭ（２１４）へのアクセスを制御し、ＣＰＵ（２０５）、ＤＩＭＭ（２０７）、チップセット（２１１）の内部処理および通信処理において発生した障害を検出する機能を備えている。前記機能は、障害を検出した場合、チップセット（２１１）に内蔵されている障害状態レジスタ（２１２）に障害情報を記憶する。
【００２０】
ＢＩＯＳ−ＲＯＭ（２０９）は、保守対象サーバ（２０１）のシステムファームウェアのコードが記憶されているＥＥＰＲＯＭである。前記システムファームウェアは、ＣＰＵ（２０５）上で動作し、保守対象サーバ（２０１）のブート処理を行う。なお、前記ブート処理には、ＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）が正常に動作するかテストする初期部品動作テスト機能が含まれている。障害回復確認プログラム（２１０）は、前記初期部品動作テスト機能を利用して障害が回復したか確認するプログラムである。
【００２１】
図８は、障害回復確認プログラム（２１０）の処理を示す流れ図である。障害回復確認プログラム（２１０）は、前記初期部品動作テスト機能を用いてＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）が正常に動作するかテストを行い（８０１）、前記テストの結果より障害が回復したか確認し（８０２）、障害の回復を確認できた場合、障害回復フラグを“１”にセットし（８０３）、ブート処理を続行する（８０４）。一方、障害の回復を確認できなかった場合、ブート処理を中断する（８０５）。
【００２２】
保守対象サーバ（２０１）内には、システムボード（２０２）の他に、サービスプロセッサボード（２１３）が装着されている。サービスプロセッサボード（２１３）上には、ＮＶＲＡＭ（２１４）とマイコン（２１９）が搭載されている。
【００２３】
ＮＶＲＡＭ（２１４）は、ＣＰＵ（２０５）とマイコン（２１９）の両方からアクセスが可能な不揮発性メモリであり、障害発生フラグ（２１５）、障害回復フラグ（２１６）、ＲＣ待避変数（２１７）、シリアル番号表（２１８）が配置されている。
【００２４】
障害発生フラグ（２１４）は、障害の発生状態を示す２値変数である。障害発生フラグ（２１４）＝“０”は、障害が発生していないことを意味し、障害発生フラグ（２１４）＝“１”は、障害が発生したことを意味する。
【００２５】
障害回復フラグ（２１５）は、障害の回復状態を示す２値変数である。障害回復フラグ（２１５）＝“０”は、障害が回復していないことを意味し、障害回復フラグ（２１５）＝“１”は、障害が回復したことを意味する。
【００２６】
ＲＣ退避変数（２１６）は、障害診断プログラム（２２０）が作成したＲＣを記憶しておくために使用する変数である。なお、ＲＣとは“ＲｅｆｅｒｅｎｃｅＣｏｄｅ”の略語であり、障害コードに相当する用語である。
【００２７】
シリアル番号表（２１８）は、ＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）のシリアル番号を記憶するために使用する配列変数である。図３は、シリアル番号表（２１８）の構成を示す表である。配列の添数は、部品の種別に対応し、“１”＝ＣＰＵ（２０５）、“２”＝ＤＩＭＭ（２０７）、“３”＝システムボード（２０２）と定義する。また、配列の要素には、添数に対応する部品のシリアル番号が記憶される。
【００２８】
マイコン（２１９）は、ＣＰＵ（２０５）と独立して動作する組み込みコントローラであり、ＬＡＮ通信機能、ＩＩＣバスアクセス機能、内蔵ＲＯＭを備えている。
【００２９】
前記ＬＡＮアクセス機能は、インターネット（２２２）経由の通信を行うための機能である。マイコン（２１９）は、インターネット（２２２）経由で、保守管理サーバ（２２７）との通信を行うことができる。
【００３０】
前記ＩＩＣバスアクセス機能は、ＩＩＣバス（２０３）経由のアクセスを行うための機能である。マイコン（２１９）は、ＩＩＣバス（２０３）経由で、ＦＲＵ−ＲＯＭ（２０４）、ＰＩＲＯＭ（２０６）、ＳＰＤ（２０８）、障害状態レジスタ（２１２）をアクセスすることができる。
【００３１】
前記内蔵ＲＯＭには、障害診断プログラム（２２０）と交換部品特定プログラム（２２１）が格納されている。
【００３２】
障害診断プログラム（２２０）は、障害が発生したことを検出し、ＲＣを保守管理サーバ（２２７）に通知するプログラムである。図７は、障害診断プログラム（２２０）の処理を示す流れ図である。障害診断プログラム（２２０）は、ＩＩＣバス経由で障害状態レジスタ（２１２）を参照し（７０１）、障害状態レジスタ（２１２）に障害情報が記憶されているか判定し（７０２）、障害状態レジスタ（２１２）に障害情報が記憶されていた場合、前記障害情報を基にＲＣを作成し（７０３）、前記ＲＣをＲＣ待避変数（２１７）に記憶し（７０４）、前記ＲＣをインターネット（２２２）経由で保守管理サーバ（２２７）に送信し（７０５）、障害回復フラグ（２１６）の値を“０”にクリアし（７０６）、障害発生フラグ（２１５）の値を“１”にセットする（７０７）。
【００３３】
交換部品特定プログラム（２２１）は、障害が回復したことを検出し、保守のために交換した部品の種別情報を保守管理サーバ（２２７）に通知するプログラムである。図９は、交換部品特定プログラム（２２１）の処理を示す流れ図である。交換部品特定プログラム（２２１）は、障害発生フラグ（２１５）と障害回復フラグ（２１６）の値が両方共“１”であるか判定し（９０１）、障害発生フラグ（２１５）と障害回復フラグ（２１６）の値が両方共“１”の場合、ＩＩＣバス（２０３）経由でＰＩＲＯＭ（２０６）、ＳＰＤ（２０８）、ＦＲＵ−ＲＯＭ（２０４）に記憶されている現在のＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）のシリアル番号を参照し（９０２、９０６、９１０）、シリアル番号表（２１８）に記憶されている障害発生時のＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）のシリアル番号と差違があるか判定し（９０３、９０７、９１１）、現在のシリアル番号と障害発生時のシリアル番号に差違があった場合、シリアル番号に差違のあった部品の種別情報をＲＣ待避変数に記憶しておいたＲＣと共にインターネット（２２２）経由で保守管理サーバ（２２７）に送信し（９０４、９０８、９１２）、シリアル番号表（２１８）を現状に沿うように更新する（９０５、９０９、９１３）。最後に、障害発生フラグ（２１５）の値を“０”にクリアする（９１４）。
【００３４】
保守センタ（２２３）は、保守対象サーバ（２０１）の保守作業を行う保守員の在籍する建物であり、ディスプレイ（２２４）、ハードディスク（２２５）、保守管理サーバ（２２７）が設置されている。
【００３５】
ディスプレイ（２２４）は、保守管理サーバ（２２７）の出力を表示する表示装置である。
【００３６】
ハードディスク（２２５）は、保守管理サーバ（２２７）のファイルを保存する記憶装置であり、ＲＣ辞書ファイル（２２６）を保存している。
【００３７】
ＲＣ辞書ファイル（２２６）は、ＲＣと被疑部品の対応を示すファイルである。図４は、ＲＣ辞書ファイル（２２６）の構成を示した表である。ＲＣ辞書ファイル（２２６）の項目は、ＲＣ、部品、交換回数、優先順位の４つである。なお、キー項目は、ＲＣと部品である。交換回数は、該ＲＣに対して該部品を交換して障害が回復した回数を示している。優先順位は、該ＲＣに対して交換回数の等しい部品が複数存在した場合の被疑の優先順位を示し、保守対象サーバ（２０１）の設計者によって予め設定されている。なお、優先順位は、“１”が最も高く、数値が増加するほど低くなる。また、優先順位が“０”の場合は、該部品が被疑対象外であることを示している。
【００３８】
保守管理サーバ（２２７）は、保守対象サーバ（２０１）を管理するサーバであり、被疑部品表示プログラム（２２８）とＲＣ辞書更新プログラム（２２９）が格納されている。
【００３９】
被疑部品表示プログラム（２２８）は、マイコン（２１９）からインターネット（２２２）経由でＲＣを受信し、前記ＲＣをキーにＲＣ辞書ファイル（２２６）を検索し、ディスプレイ（２２４）に被疑部品を表示するプログラムである。なお、被疑部品が複数存在する場合は、夫々の被疑部品に被疑順位を付けて表示する。図５は、被疑部品表示プログラム（２２８）によるディスプレイ（２２４）の表示を示す図であり、図４のＲＣ辞書ファイル（２２６）と対応している。図５の（Ａ）は、ＲＣ＝“ＡＡＡＡＡＡＡＡ”の場合の表示である。図５より、ＤＩＭＭ（２０７）の交換回数は“８”であり、システムボード（２０２）の交換回数である“６”より多い。ここで、交換回数に差がある場合、優先順位は使用しない。よって、図５の（Ａ）に示す通り、被疑順位１位はＤＩＭＭ（２０７）となり、被疑順位２位はシステムボード（２０２）となる。なお、ＣＰＵ（２０５）は、優先順位が“０”のため、被疑対象外である。図７の（Ｂ）は、ＲＣ＝“ＢＢＢＢＢＢＢＢ”の場合の表示である。図４より、ＣＰＵ（２０５）の交換回数は“４”であり、システムボード（２０２）の交換回数である“４”と等しい。交換回数が等しい場合は、優先順位を用いて被疑順位を付ける。図４より、ＣＰＵ（２０５）の優先順位は“１”であり、システムボード（２０２）の優先順位である“２”より高い。よって、図５の（Ｂ）に示す通り、被疑順位１位はＣＰＵ（２０５）となり、被疑順位２位はシステムボード（２０２）となる。なお、ＤＩＭＭ（２０７）は、優先順位が“０”のため、被疑対象外である。
【００４０】
ＲＣ辞書更新プログラム（２２９）は、マイコン（２１９）からインターネット（２２２）経由で交換した部品の種別情報とＲＣを受信し、該ＲＣと該部品をキーにＲＣ辞書ファイル（２２６）を検索し、対応するレコードの交換回数を“＋１”するプログラムである。
【００４１】
次に、図６の流れ図を参照して障害の発生からＲＣ辞書ファイル（２２６）の更新までの動作について説明する。
【００４２】
図１０は、障害発生前の障害発生フラグ（２１４）、障害回復フラグ（２１５）、ＲＣ退避変数（２１６）、シリアル番号表（２１７）、実際の部品のシリアル番号、ＲＣ辞書ファイル（２２６）、ディスプレイ（２２９）の表示を示す図である。図１０の状態において、システムボード（２０２）に起因する障害が発生したと仮定する（６０１）。チップセット（２１１）は、前記障害を検出し、障害状態レジスタ（２１２）に障害情報を記憶する（６０２）。障害状態レジスタ（２１２）に前記障害情報が記憶されたことを受け、マイコン（２１９）上で動作する障害診断プログラム（２２０）が処理を開始する（６０３）。
【００４３】
ここで、説明を図７の障害診断プログラム（２２０）の流れ図に移す。障害診断プログラム（２２０）は、ＩＩＣバス（２０３）経由で障害状態レジスタ（２１２）を参照し（７０１）、障害状態レジスタ（２１２）に前記障害情報が記憶されていることを検出し（７０２）、前記障害情報を基にＲＣを作成し（７０３）、前記ＲＣをＲＣ待避変数（２１７）に記憶し（７０４）、前記ＲＣをインターネット（２２２）経由で保守管理サーバ（２２７）に送信し（７０５）、障害回復フラグ（２１６）の値を“０”にクリアし（７０６）、障害発生フラグ（２１５）の値を“１”にセットする（７０７）。なお、前記ステップ７０３において作成したＲＣは、“ＡＡＡＡＡＡＡＡ”であったと仮定する。
【００４４】
説明を図６の流れ図に戻す。保守管理サーバ（２２７）は、前記ＲＣをマイコン（２１９）からインターネット（２２２）経由で受信し、被疑部品表示プログラム（２２８）を起動する（６０４）。被疑部品表示プログラム（２２８）は、前記ＲＣをキーにＲＣ辞書ファイル（２２６）を検索し、ディスプレイ（２２４）に被疑部品を表示する。図１０のＲＣ辞書ファイル（２２６）より、前記ＲＣ＝“ＡＡＡＡＡＡＡＡ”に対応する部品の交換回数は、ＤＩＭＭ（２０７）とシステムボード（２０２）が共に“２”である。交換回数が等しい場合は、優先順位を用いて被疑順位を付ける。優先順位は、ＤＩＭＭ（２０７）が“１”であり、システムボード（２０２）の“２”よりも高い。よって、被疑順位１位はＤＩＭＭ（２０７）となり、被疑順位２位はシステムボード（２０２）となる。図１１は、現時点の障害発生フラグ（２１５）、障害回復フラグ（２１６）、ＲＣ退避変数（２１７）、シリアル番号表（２１８）、実際の部品のシリアル番号、ＲＣ辞書ファイル（２２６）、ディスプレイ（２２４）の表示を示す図である。なお、図１１の網掛け箇所は、図１０との差分を示している。
【００４５】
次に、保守センタ（２２３）に在籍する保守員は、ディスプレイ（２２４）の前記表示を見て、最も被疑順位が高いＤＩＭＭ（２０７）を交換し（６０５）、保守対象サーバ（２０１）を再起動する（６０６）。保守対象サーバ（２０１）を再起動することにより、情報処理装置（２０１）のブート処理が始まり、ＣＰＵ（２０５）上で動作する障害回復確認プログラム（２１０）が処理を開始する。
【００４６】
ここで、説明を図８の障害診断プログラム（２１０）の流れ図に移す。障害回復確認プログラム（２１０）は、システムファームウェアの初期部品動作テスト機能を用いて部品の動作テストを行うが（８０１）、障害の原因はＤＩＭＭ（２０７）ではなくシステムボード（２０２）であるため、前記初期部品動作テストの結果はＮＧとなり（８０２）、ブート処理を中断する（８０５）。
【００４７】
説明を図６の流れ図に戻す。保守員は、保守対象サーバ（２０１）のブート処理の中断を見て、障害が回復しなかったと判断し（６０８）、交換したＤＩＭＭ（２０７）を元に戻し、次に被疑順位が高いシステムボード（２０２）を交換し（６０５）、保守対象サーバ（２０１）を再起動する（６０６）。保守対象サーバ（２０１）を再起動することにより、情報処理装置（２０１）のブート処理が始まり、ＣＰＵ（２０５）上で動作する障害回復確認プログラム（２１０）が処理を開始する。
【００４８】
ここで、説明を図８の障害診断プログラム（２１０）の流れ図に移す。障害回復確認プログラム（２１０）は、システムファームウェアの初期部品動作テスト機能を用いて部品の動作テストを行い（８０１）、障害の原因はシステムボード（２０２）であったため、前記初期部品動作テストの結果はＯＫとなり（８０２）、障害回復フラグを“１”にセットし（８０３）、ブート処理を続行する（８０４）。
【００４９】
説明を図６の流れ図に戻す。保守員は、保守対象サーバ（２０１）のブート処理の正常終了を見て、障害が回復したと判断する（６０８）。なお、前記ステップ６０５において交換した新しいシステムボード（２０２）のシリアル番号は、“４４４４４４４４４４”であったと仮定する。図１２は、現時点の障害発生フラグ（２１５）、障害回復フラグ（２１６）、ＲＣ退避変数（２１７）、シリアル番号表（２１８）、実際の部品のシリアル番号、ＲＣ辞書ファイル（２２６）、ディスプレイ（２２４）の表示を示す図である。なお、図１２の網掛け箇所は、図１１との差分を示している。
【００５０】
障害回復フラグが“１”にセットされたことを受け、マイコン（２１９）上で動作する交換部品特定プログラム（２２１）が処理を開始する（６０９）。
【００５１】
ここで、説明を図９の交換部品特定プログラム（２２１）の流れ図に移す。交換部品特定プログラム（２２１）は、障害発生フラグと障害回復フラグが共に“１”であることを確認し（９０１）、ＩＩＣバス（２０３）経由でＰＩＲＯＭ（２０６）、ＳＰＤ（２０８）、ＦＲＵ−ＲＯＭ（２０４）に記憶されている現在のＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）のシリアル番号を参照し（９０２、９０６、９１０）、シリアル番号表（２１８）に記憶されている障害発生時のＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）のシリアル番号と差違があるか判定する（９０３、９０７、９１１）。図１２より、ＣＰＵ（２０５）、ＤＩＭＭ（２０７）、システムボード（２０２）のシリアル番号のうち、障害発生時と現在で差違があるのはシステムボード（２０２）のシリアル番号だけである。よって、システムボード（２０２）の交換が行われたものと判断し、交換した部品はシステムボード（２０２）であるという情報とＲＣ待避変数に記憶しておいたＲＣ＝“ＡＡＡＡＡＡＡＡ”をインターネット（２２２）経由で保守管理サーバ（２２７）に送信し（９１２）、シリアル番号表（２１８）のシステムボード（２０２）のシリアル番号を現状に沿うように“４４４４４４４４４４”に更新する（９１３）。最後に、障害発生フラグ（２１６）の値を“０”にクリアする（９１４）。
【００５２】
説明を図６の流れ図に戻す。保守管理サーバ（２２７）上で動作するＲＣ辞書更新プログラム（２２９）は、マイコン（２１９）からインターネット（２２２）経由で交換した部品はシステムボード（２０２）であるという情報とＲＣ＝“ＡＡＡＡＡＡＡＡ”を受信し、ＲＣ＝“ＡＡＡＡＡＡＡＡ”と部品＝“システムボード（２０２）”をキーにＲＣ辞書ファイル（２２６）を検索し、該当するレコードの交換回数を“２”から“３”へ“＋１”する。図１３は、現時点の障害発生フラグ（２１５）、障害回復フラグ（２１６）、ＲＣ退避変数（２１７）、シリアル番号表（２１８）、実際の部品のシリアル番号、ＲＣ辞書ファイル（２２６）、ディスプレイ（２２４）の表示を示す図である。なお、図１３の網掛け箇所は、図１２との差分を示している。
【００５３】
以上説明したように、ＲＣ辞書ファイル（２２６）の更新は、保守員が意識することなく行われる。そして、今度また同様の障害が発生した場合は、図１４に示す通り、被疑順位１位はシステムボード（２０２）となり、被疑順位２位はＤＩＭＭ（２０７）となり、最初からシステムボード（２０２）を交換することになり、余分なＤＩＭＭ（２０７）の交換作業を省くことができる。これは、保守対象サーバ（２０１）のダウンタイムの短縮に繋がる。
【００５４】
【発明の効果】
以上説明したように、本発明は、実際の保守作業の内容に基づいて障害コード辞書を更新するため、被疑部品の的中率が向上し、ダウンタイムの短縮が図られ、情報処理装置の稼働率を向上することができる。
【００５５】
また、保守作業に連動して自動的に障害コード辞書を更新するため、新たな作業を生じることなく、前記効果を得ることができる。
【図面の簡単な説明】
【図１】情報処理装置の障害管理方式の構成を示すブロック図である。
【図２】本発明の一実施形態の構成を示すブロック図である。
【図３】シリアル番号表（２１８）の構成を示す表である。
【図４】ＲＣ辞書ファイル（２２６）の構成を示す表である。
【図５】被疑部品表示プログラム（２２８）によるディスプレイ（２２４）の表示を示す図である。
【図６】本発明の動作を示す流れ図である。
【図７】障害診断プログラム（２２０）の処理を示す流れ図である。
【図８】障害回復確認プログラム（２１０）の処理を示す流れ図である。
【図９】交換部品特定プログラム（２２１）の処理を示す流れ図である。
【図１０】各変数とシリアル番号とＲＣ辞書ファイル（２２６）とディスプレイ（２２４）表示の初期状態を示す図である。
【図１１】各変数と各シリアル番号とＲＣ辞書ファイル（２２６）とディスプレイ（２２４）表示のステップ６０４を終えた時点の状態を示す図である。
【図１２】各変数と各シリアル番号とＲＣ辞書ファイル（２２６）とディスプレイ（２２４）表示のステップ６０７を終えた時点の状態を示す図である。
【図１３】各変数と各シリアル番号とＲＣ辞書ファイル（２２６）とディスプレイ（２２４）表示のステップ６０９を終えた時点の状態を示す図である。
【図１４】各変数と各シリアル番号とＲＣ辞書ファイル（２２６）とディスプレイ（２２４）表示の再度同様の障害が発生した後のステップ６０４を終えた時点の状態を示す図である。
【符号の説明】
１０１…情報処理装置、１０２…シリアル番号採取インターフェース、１０３…部品、１０４…シリアル番号、１０５…障害発生検出手段、１０６…障害回復検出手段、１０７…サービスプロセッサ、１０８…障害診断プログラム、１０９…交換部位特定プログラム、１１０…公衆回線、１１１…保守センタ、１１２…ハードディスク、１１３…障害コード辞書ファイル、１１４…保守管理サーバ、１１５…被疑部品表示プログラム、１１６…障害コード辞書更新プログラム、１１７…出力手段、２０１…保守対象サーバ、２０２…システムボード、２０３…ＩＩＣバス、２０４…ＦＲＵ−ＲＯＭ、２０５…ＣＰＵ、２０６…ＰＩＲＯＭ、２０７…ＤＩＭＭ、２０８…ＳＰＤ、２０９…ＢＩＯＳ−ＲＯＭ、２１０…障害回復確認プログラム、２１１…チップセット、２１２…障害状態レジスタ、２１３…サービスプロセッサボード、２１４…ＮＶＲＡＭ、２１５…障害発生フラグ、２１６…障害回復フラグ、２１７…ＲＣ退避変数、２１８…シリアル番号表、２１９…マイコン、２２０…障害診断プログラム、２２１…交換部品特定プログラム、２２２…インターネット、２２３…保守センタ、２２４…ディスプレイ、２２５…ハードディスク、２２６…ＲＣ辞書ファイル、２２７…保守管理サーバ、２２８…被疑部品表示プログラム、２２９…ＲＣ辞書更新プログラム。

Claims

情報処理装置の部品の障害発生を障害発生検出手段が検出し、サービスプロセッサ上で動作する障害診断プログラムが障害コードを公衆回線経由で保守センタの保守管理サーバへ送信し、前記障害コードを受信した保守管理サーバ上で動作する被疑部品表示プログラムがハードディスクに格納されている障害コード辞書ファイルを基に推定した被疑部品を出力手段に表示する情報処理装置の障害管理方式において、情報処理装置の部品の障害回復を障害回復検出手段が検出し、サービスプロセッサ上で動作する交換部品特定プログラムが保守のために交換した部品の種別情報を公衆回線経由で保守センタの保守管理サーバへ送信し、前記情報を受信した保守管理サーバ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新することを特徴とする情報処理装置の障害管理方式。
サービスプロセッサ上で動作する交換部品特定プログラムが交換された部品を特定する手段として、情報処理装置の部品に一意に付加されているシリアル番号をシリアル番号採取インタフェース経由で参照し、障害発生前と障害回復後のシリアル番号を比較することを特徴とする請求項１記載の情報処理装置の障害管理方式。
障害回復検出手段として、情報処理装置のブート時にシステムファームウェアが行う初期部品動作テストを用いることを特徴とする請求項１記載の情報処理装置の障害管理方式。
情報処理装置の部品の障害発生を障害発生検出手段が検出し、サービスプロセッサ上で動作する障害診断プログラムが作成した障害コードを基にサービスプロセッサ上で動作する被疑部品表示プログラムが推定した被疑部品を出力手段に表示する情報処理装置の障害管理方式において、情報処理装置の部品の障害回復を障害回復検出手段が検出し、サービスプロセッサ上で動作する交換部品特定プログラムが保守のために交換した部品の種別情報を基にサービスプロセッサ上で動作する障害コード辞書更新プログラムがハードディスクに格納されている障害コード辞書ファイルを更新することを特徴とする情報処理装置の障害管理方式。