JP7351129B2

JP7351129B2 - 情報処理装置および情報処理装置の制御プログラム

Info

Publication number: JP7351129B2
Application number: JP2019138029A
Authority: JP
Inventors: 保竹内
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2023-09-27
Anticipated expiration: 2039-07-26
Also published as: US20210026726A1; US11422877B2; JP2021022144A

Description

本発明は、情報処理装置および情報処理装置の制御プログラムに関する。

複数のプロセッサを有する情報処理装置において、プロセッサのエラーが発生した場合、エラーが発生したプロセッサを使用しないようにすることで、エラー発生後に、再度エラーが発生することが抑止される（例えば、特許文献１参照）。また、情報処理装置において、通常運用ファームウェアが正常に起動しない場合、修復用ファームウェアを起動することで、人手を介することなくファームウェアの修復が行われる（例えば、特許文献２参照）。

特開平３－１８２９３９号公報特開２００４－５４６１６号公報

エラーが発生したプロセッサの使用を停止した場合、情報処理装置の処理性能は低下してしまう。また、例えば、電源が間欠的にショートすることに起因してプロセッサのエラーが発生する場合、プロセッサの使用を停止しても、エラーの原因は取り除かれない。

例えば、プロセッサをそれぞれ含む複数のコンポーネントと、複数のコンポーネントを管理する管理部とを有する情報処理装置において、故障したコンポーネントを他のコンポーネントに活***換するとする。この場合、管理部が実行するファームウェアとプロセッサが実行するオペレーティングシステム（以下、ＯＳとも称する）とが、プロセッサからのエラー通知に基づいて互いに連携して活***換処理を実行する。

例えば、プロセッサからのエラー通知に基づいてＯＳが実行するリカバリ処理が成功せず、ＯＳがハングアップした場合、ファームウェアとＯＳとの連携により活***換処理を実行することは困難である。しかしながら、ファームウェアは、プロセッサからのエラー通知に基づいてＯＳがハングアップした場合にも、ＯＳがハングアップしたことを認識しないため、ＯＳと連携して活***換処理を実行しようとする。そして、活***換処理は失敗する。ＯＳに機能を追加することで、ファームウェアは、活***換処理を開始する前にＯＳが動作しているかを判定することができるが、情報処理装置のベンダがＯＳの機能を追加することは困難である。

１つの側面では、本発明は、ＯＳに機能を追加することなくＯＳの動作状態を監視して、故障したコンポーネントを他のコンポーネントに活***換することを目的とする。

一つの観点によれば、プロセッサをそれぞれ含む複数のコンポーネントと、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置であって、前記管理部は、前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定するエラー特定部と、前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行し、前記エラーが前記活***換中に再度発生するエラーであることを判定した場合、前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合にも、前記活***換の要求を発行しない交換判定部と、前記プロセッサにより実行されるオペレーティングシステムが生存しているかどうかを監視し、前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行する生存監視処理部と、前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始する活***換処理部と、を有する。

１つの側面では、本発明は、ＯＳに機能を追加することなくＯＳの動作状態を監視して、故障したコンポーネントを他のコンポーネントに活***換することができる。

一実施形態における情報処理装置の一例を示すブロック図である。図１の管理部において、コンポーネントを活***換するための処理の一例を示すフロー図である。図２のステップＳ６の処理の一例を示すフロー図である。別の実施形態における情報処理装置の一例を示すブロック図である。図４のＯＳのリカバリ処理部の処理の一例を示すフロー図である。図４のファームウェアのエラー解析処理部の処理の一例を示すフロー図である。図４のファームウェアの生存監視処理部の処理の一例を示すフロー図である。別の実施形態における情報処理装置の一例を示すブロック図である。別の実施形態における情報処理装置の一例を示すブロック図である。

以下、図面を用いて実施形態が説明される。

図１は、一実施形態における情報処理装置１００の一例を示す。情報処理装置１００は、プロセッサ２およびメモリ３をそれぞれ含む複数のコンポーネント１と、コンポーネント１を管理する管理部４とを有する。例えば、コンポーネント１は、システム基板の形態を有する。プロセッサ２は、ＣＰＵ（Central Processing Unit）でもよく、ＣＰＵ以外のプロセッサでもよい。例えば、プロセッサ２は、ＱＰＩ（Quick Path Interconnect）またはＵＰＩ（Ultra Path Interconnect）により相互に接続される。プロセッサ２と管理部４とは管理バスを介して相互に接続される。

管理部４は、エラー特定部５、交換判定部６、生存監視処理部７および活***換処理部８を有する。管理部４は、ハードウェアで実現されてもよく、管理部４が有する図示しない管理プロセッサが実行する管理プログラムにより実現されてもよい。

エラー特定部５は、例えば、管理バスを介してプロセッサ２のいずれかからエラー通知を受信した場合、エラー通知を出力したプロセッサ２のステータスレジスタ等に保持されたエラー情報を読み出し、読み出したエラー情報を解析する。エラー特定部５は、エラー情報の解析結果に基づいて、エラーの原因となった部品を含むコンポーネント１であるエラーコンポーネント１を特定する。例えば、エラーコンポーネント１は、エラーコンポーネント１の識別番号またはエラーコンポーネント１に含まれるプロセッサ２の識別番号により識別される。

各プロセッサ２は、メモリ３のアクセスエラー、図示しないＩ／Ｏ（Input/Output）のアクセスエラー、または他のプロセッサ２との通信エラー等を検出した場合、検出したエラーを示すエラー情報をエラーステータスレジスタに格納する。そして、各プロセッサ２は、エラーピン等を介してエラー通知を管理部４に発行する。エラーの発生の原因は、エラーを検出したプロセッサ２を含むコンポーネント１内の部品の故障の場合と、エラーを検出したプロセッサ２に接続された他のコンポーネント１内の部品の故障の場合とがある。

なお、エラー通知は、各コンポーネント１のプロセッサ２により実行されるＯＳにも通知される。エラー通知を受信したＯＳは、エラー通知を出力したコンポーネント１のステータスレジスタ等に保持されたエラー情報を読み出し、読み出したエラー情報を解析する。そして、ＯＳは、リカバリ処理を実行する。

リカバリ処理が成功した場合、ＯＳは動作を継続し、ウォッチドッグタイマーコマンド等の生存監視通知を定期的に発行する。生存監視通知はＯＳが動作していることを示す。一方、リカバリ処理が失敗した場合、ＯＳは、コンポーネント１の再起動処理を実行し、再起動されない場合、ハングアップする。ＯＳがハングアンプした場合、生存監視通知の発行は停止される。

交換判定部６は、エラーコンポーネント１と交換可能な他のコンポーネント１が存在するかどうかを判定する。交換判定部６は、エラーコンポーネント１と交換可能な他のコンポーネント１が存在する場合、活***換の要求を発行する。ここで、活***換とは、電源が投入された状態で、コンポーネント１のいずれかを停止し、停止したコンポーネント１の代わりに、他のコンポーネント１を開始することを示す。活***換の処理は、管理部４とＯＳとが連携して実行する。

例えば、交換判定部６は、情報処理装置１００に含まれる複数のエラーコンポーネント１のうち、エラーコンポーネント１と同様の構成のコンポーネント１であって、使用していないコンポーネント１が存在するかを判定する。交換判定部６は、管理バスを介して、使用していないコンポーネント１に含まれるプロセッサ２の仕様を示す仕様情報を取得し、取得した仕様情報とエラーコンポーネント１に含まれるプロセッサ２の仕様情報とを比較する。例えば、仕様情報は、プロセッサ２の型式および動作周波数の情報を含む。

そして、交換判定部６は、取得した仕様情報がエラーコンポーネント１に含まれるプロセッサの仕様情報と同じである場合、もしくは同等である場合、エラーコンポーネント１と交換可能な他のコンポーネント１が存在すると判定し、活***換の要求を発行する。管理バスを介して取得する使用していないプロセッサ２の仕様情報に基づいて、活性追加可能なコンポーネント１が存在するかどうかを判定することで、活***換後の情報処理装置１００の処理性能を活***換前と同等にすることができる。これにより、活***換後に処理遅延等が発生することを抑止することができ、コンポーネント１の故障が情報処理装置１００の処理に与える影響を最小限にすることができる。

生存監視処理部７は、ＯＳの生存監視を行う。例えば、生存監視処理部７は、生存監視通知を受信する毎に図示しないタイマーをリセットする動作を繰り返す。生存監視処理部７は、エラーの発生に基づいてＯＳが実行したリカバリ処理が失敗し、ＯＳが正常に動作しなくなったことをタイマーのタイムアウトにより検出する。なお、生存監視機能を有効または無効に切り替え可能な場合、生存監視機能は有効に設定される。

生存監視処理部７は、交換判定部６により活***換の要求が発行された場合であって、ＯＳの生存が確認された場合、エラーコンポーネント１の活性削除処理と交換可能な他の前記コンポーネント１の活性追加処理との指示を発行する。一方、生存監視処理部７は、ＯＳの生存を認識しない場合、交換判定部６により活***換の要求が発行された場合であっても、活性削除処理と活性追加処理との指示の発行を抑止する。これにより、ＯＳが正常に動作していない場合、ＯＳと管理部４とが連携して実行する活性削除処理と活性追加処理とが完了しない不具合を未然に抑止することができる。

活***換処理部８は、生存監視処理部７からの活性削除処理と活性追加処理との指示に基づいて、エラーコンポーネント１の活性削除処理と、使用していない他の前記コンポーネント１の活性追加処理とを開始する。この際、活***換処理部８は、ＯＳと連携して活***換処理を実行する。活***換処理は、生存監視処理部７によりＯＳの生存が確認されたことに基づいて実行されるため、活***換処理を開始した後にＯＳと連携が取れなくなることはない。

なお、交換判定部６は、エラー特定部５が読み出したエラー情報の解析結果に基づいて、故障を含むと想定されるコンポーネント１を活***換することを判定した場合、エラーが活***換中に再度発生するかどうかを判定してもよい。すなわち、交換判定部６は、エラー通知の内容が、コンポーネント１の活***換によってはエラーが解消しない致命的なエラーであるかどうかを判定してもよい。交換判定部６は、致命的なエラーであることを判定した場合、エラーコンポーネント１と交換可能な他のコンポーネント１が存在する場合にも、活***換の要求を生存監視処理部７に発行しない。

以上により、コンポーネント１のいずれかの故障に基づいて、コンポーネント１の活***換を実行する場合、活***換が可能かどうかを管理部４により判定することができる。すなわち、活性削除するエラーコンポーネント１の特定と、活性追加の対象である使用していないコンポーネント１の有無の判定とを、管理部４により自動的に実行することができる。また、活***換中にエラーが再度発生するかどうかの判定を、管理部４により自動的に実行することができる。

これにより、情報処理装置１００を使用するユーザ等が操作をすることなく、コンポーネント１の活***換を実行することができる。また、活***換を自動的に実行する仕組みを、ＯＳの機能を変更することなく実現することができる。さらに、ＯＳの生存監視機能を利用することで、ＯＳが生存していないことによりコンポーネント１の活***換が完了しない不具合を、未然に抑止することができる。

図２は、図１の管理部４において、コンポーネント１を活***換するための処理の一例を示す。例えば、図２の処理は、管理部４が有する管理プロセッサが、活***換用の制御プログラムを実行することにより実現される。すなわち、図２は、情報処理装置１００の制御プログラムの一例を示す。

まず、ステップＳ１において、エラー特定部５は、コンポーネント１からエラー通知を受信するまで待ち、エラー通知を受信した場合、処理をステップＳ２に移行する。ステップＳ２において、エラー特定部５は、エラー通知を出力したプロセッサ２のステータスレジスタ等に保持されたエラー情報を読み出し、読み出したエラー情報を解析し、エラーコンポーネント１を特定する。

次に、ステップＳ３において、交換判定部６は、エラーコンポーネント１と交換可能な他のコンポーネント１が存在するかどうかを判定する。エラーコンポーネント１と交換可能な他のコンポーネント１が存在する場合、処理はステップＳ４に移行され、エラーコンポーネント１と交換可能な他のコンポーネント１が存在しない場合、処理は終了する。

なお、交換判定部６は、コンポーネント１の活***換によってはエラーが解消しない致命的なエラーであることを判定した場合、エラーコンポーネント１と交換可能な他のコンポーネント１が存在する場合にも、処理を終了してもよい。ステップＳ４において、交換判定部６は、コンポーネント１の活***換の要求を生存監視処理部７に発行する。

次に、ステップＳ５において、生存監視処理部７は、ＯＳが生存しているか否かを判定する。生存監視処理部７は、ＯＳが生存している場合、処理をステップＳ６に移行し、ＯＳが生存していない場合、処理を終了する。ステップＳ６において、生存監視処理部７は、活***換処理部８に活***換を指示する。

次に、ステップＳ７において、活***換処理部８は、生存監視処理部７からの活性削除処理と活性追加処理との指示に基づいて、エラーコンポーネント１の活性削除処理と、使用していない他の前記コンポーネント１の活性追加処理とを実行し、処理を終了する。活性削除処理と活性追加処理とは、ＯＳとともに実行される。

図３は、図２のステップＳ６の処理の一例を示す。まず、ステップＳ６１において、生存監視処理部７は、ＯＳの生存監視で異常を検出した場合、処理をステップＳ６２に移行し、ＯＳの生存監視で異常を検出しない場合、処理をステップＳ６３に移行する。

ステップＳ６２において、生存監視処理部７は、ＯＳが生存していないときに実行される異常検出時の処理を実行し、処理を終了する。例えば、異常検出時の処理として、プロセッサ２のリセットや、ＯＳが使用しているメモリ領域に保持された情報をハードディスク等に転送するメモリダンプの取得等がある。

一方、ＯＳの生存監視で異常を検出しない場合、ステップＳ６３において、生存監視処理部７は、交換判定部６により活***換の要求が発行されたかどうかを判定する。生存監視処理部７は、活***換の要求が発行された場合、処理をステップＳ６４に移行し、活***換の要求が発行されていない場合、処理をステップＳ６１に戻す。ステップＳ６４において、生存監視処理部７は、コンポーネント１の活***換を活***換処理部８に指示し、処理をステップＳ６１に戻す。

以上、図１から図３に示す実施形態では、コンポーネント１のいずれかの故障に基づいて、活***換が可能かどうかを管理部４により判定し、人手を解することなく活***換を自動的に実行することができる。また、活***換を自動的に実行する仕組みを、ＯＳの機能を変更することなく実現することができる。さらに、ＯＳの生存監視機能を利用することで、ＯＳが生存していないことによりコンポーネント１の活***換が完了しない不具合を、未然に抑止することができる。したがって、生存監視機能を有するＯＳであれば、ＯＳの機能を変更することなく本実施形態の活***換機能を実現することができる。

また、活***換中にエラーが再度発生するかどうかを判定し、エラーが再度発生すると判定された場合、活***換の実行を抑止することができる。したがって、活***換後にエラーが再度発生して、情報処理装置１００の運用の継続が困難になることを抑止することができ、情報処理装置１００の安定稼働を実現することができる。

管理バスを介して使用していないプロセッサ２の仕様情報を取得することで、エラーコンポーネント１を、同等の性能を有するコンポーネント１に活***換することができる。これにより、活***換後に処理遅延等が発生することを抑止することができ、コンポーネント１の故障が情報処理装置１００の処理に与える影響を最小限にすることができる。

図４は、別の実施形態における情報処理装置１００Ａの一例を示す。図１と同様の要素については、詳細な説明は省略する。例えば、図４に示す情報処理装置１００Ａは、汎用のＣＰＵが搭載されるサーバである。

情報処理装置１００Ａは、複数のＣＰＵユニット１０と、少なくとも１つのＩＯユニット２０とを有する。ＩＯユニット２０は、入出力ユニットの一例である。各ＣＰＵユニット１０は、複数のＣＰＵ１２と、各ＣＰＵ１２に接続された複数のメモリ１４とを含む。例えば、ＣＰＵユニット１０は、システム基板の形態を有する。例えば、メモリ１４は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）を有するメモリモジュールである。ＣＰＵユニット１０は、コンポーネントの一例である。

ＩＯユニット２０は、ＩＯコントローラ３０、ビデオコントローラ３２、ＬＡＮ（Local Area Network）コントローラ３４、ハードディスクコントローラ３６、ハードディスク４０、ＲＯＭ（Read Only Memory）５０およびサーバ管理装置６０を有する。ＩＯコントローラ３０、ビデオコントローラ３２、ＬＡＮコントローラ３４およびハードディスクコントローラ３６は、入出力インタフェースの一例である。ＲＯＭ５０は、記憶装置の一例である。

ＩＯコントローラ３０は、入出力バスＩＯＢＵＳを介して各ＣＰＵ１２と接続される。ＩＯコントローラ３０は、各ＣＰＵ１２と、ビデオコントローラ３２、ＬＡＮコントローラ３４、ハードディスクコントローラ３６、ＲＯＭ５０およびサービスプロセッサ６２との間での情報の転送を制御する。図４では、１つのＣＰＵ１２がＩＯコントローラ３０に接続されているが、各ＣＰＵ１２は、任意のＩＯユニット２０や図示しないＰＣＩ（Peripheral Component Interconnect）ユニットに接続可能である。なお、ＩＯコントローラ３０は、ビデオコントローラ３２およびＬＡＮコントローラ３４以外のコントローラが接続されてもよい。

ハードディスク４０には、ＯＳ処理部４２、リカバリ処理部４４、活***換処理部４６および生存監視処理部４８として機能するＯＳ４１が記憶されている。ＯＳ４１は、ハードディスク４０からメモリ１４に展開された後、ＣＰＵ１２により実行される。

ＯＳ処理部４２は、既存の通常のＯＳ４１の処理を実行する。リカバリ処理部４４は、ＣＰＵ１２からエラー通知を受信した場合、ＣＰＵ１２のエラーステータスレジスタの内容に基づいて、ＣＰＵ１２またはメモリ１４等のエラーを解析し、リカバリ処理が可能な場合、リカバリ処理を実行する。ＯＳ４１が実行するリカバリ処理部４４の処理の例は、図５に示す。

活***換処理部４６は、後述するファームウェア７１の活***換処理部７８およびＢＩＯＳ（Basic Input Output System）の活***換処理部５４と連携して活性追加処理および活性削除処理を実行する。例えば、活***換処理部４６は、ＣＰＵユニット１０の活性追加処理において、活***換処理部７８または活***換処理部５４から割り込みを受けた場合、活性追加するＣＰＵユニット１０のＣＰＵ１２およびメモリ１４を使用できるように設定する。

また、活***換処理部４６は、ＣＰＵユニット１０の活性削除処理において、活***換処理部７８または活***換処理部５４から割り込みを受けた場合、活性削除するＣＰＵユニット１０のＣＰＵ１２およびメモリ１４を使用しないように設定する。例えば、活***換処理部７８または活***換処理部５４からの割り込みは、ＩＯコントローラ３０を介してＯＳ４１を実行するＣＰＵ１２に発行される。生存監視処理部４８は、生存監視通知を定期的にファームウェア７１に発行する。

ＲＯＭ５０には、ＢＩＯＳ処理部５２および活***換処理部５４として機能するＢＩＯＳ５１が記憶されている。ＢＩＯＳ５１は、ＣＰＵ１２により実行される。なお、ＣＰＵ１２は、ＲＯＭ５０に記憶されているＢＩＯＳ５１を実行してもよく、ＲＯＭ５０からメモリ１４に展開されたＢＩＯＳ５１を実行してもよい。ＢＩＯＳ処理部５２は、既存の通常のＢＩＯＳの処理を実行する。活***換処理部５４は、情報処理装置１００を使用するユーザからの指示に基づいて、ＯＳ４１の活***換処理部４６と連携して活性追加処理および活性削除処理を実行する。

サーバ管理装置６０は、サービスプロセッサ６２、メモリ６４およびＲＯＭ７０を有する。サービスプロセッサ６２は、サーバ管理バスＳＭＢＵＳを介して各ＣＰＵ１２に接続される。例えば、サービスプロセッサ６２は、ＢＭＣ（Baseboard Management Controller）であり、ＲＯＭ７０からメモリ６４に展開されたファームウェア７１を実行することで、ＣＰＵユニット１０等を管理する。

ＲＯＭ７０には、サーバ管理処理部７２、エラー解析処理部７４、生存監視処理部７６および活***換処理部７８の機能を実現するファームウェア７１が記憶されている。ＲＯＭ７０は、記憶装置の一例である。サーバ管理処理部７２、エラー解析処理部７４、生存監視処理部７６および活***換処理部７８は、管理部の一例である。エラー解析処理部７４は、エラー特定部および交換判定部の一例である。

サーバ管理処理部７２は、各ＣＰＵユニット１０の電源の制御、温度情報等の取得、イベントの記録等のサーバ管理装置６０として通常の処理を実行する。

エラー解析処理部７４は、ＣＰＵ１２からエラー通知を受信した場合、エラーを解析して故障したＣＰＵユニット１０を特定し、活***換可能かどうかを判定する。また、エラー解析処理部７４は、活***換可能な場合、生存監視処理部７６に活***換の要求を発行する。エラー解析処理部７４の処理の例は、図６に示す。

生存監視処理部７６は、ＯＳ４１の生存監視を実行し、ＯＳ４１の生存が確認できずにタイムアウトが発生した場合、タイムアウト処理を実行する。また、生存監視処理部７６は、エラー解析処理部７４からの活***換の要求に基づいて、活***換が可能な場合、活***換処理部７８に活***換を指示する。生存監視処理部７６の処理の例は、図７に示す。

活***換処理部７８は、生存監視処理部７６からの活***換の指示に基づいて、ＯＳ４１の活***換処理部４６と連携して活***換の処理を実行する。例えば、活***換処理部７８は、ＣＰＵユニット１０の活性追加処理において、活性追加するＣＰＵユニット１０の電源を投入し、ＣＰＵ１２のリセットを解除することで、ＢＩＯＳ５１の動作を開始させる。動作を開始したＢＩＯＳ５１は、ＣＰＵ１２とメモリ１４を初期化する。

さらに、活***換処理部７８は、動作中のＣＰＵユニット１０のＣＰＵ１２が実行しているＢＩＯＳ５１に割り込みを発行し、ＢＩＯＳ５１にＣＰＵ１２の初期化を実行させる。これにより動作中のＣＰＵ１２と活性追加するＣＰＵユニット１０のＣＰＵ１２とが相互に接続される。この後、活***換処理部７８は、ＯＳ４１に割り込みを発行し、ＯＳ４１にＣＰＵ１２およびメモリ１４を使用できるように設定させる。

一方、活***換処理部７８は、ＣＰＵユニット１０の活性削除処理において、ＯＳ４１に割り込みを発行し、ＯＳ４１に、活性削除するＣＰＵユニット１０のＣＰＵ１２とメモリ１４を使用させないようにする。ＢＩＯＳ５１は、ＯＳ４１への割り込みに基づいて、活性削除するＣＰＵユニット１０のＣＰＵ１２と動作中のＣＰＵユニット１０のＣＰＵ１２との間の接続を電気的に遮断し、活性削除するＣＰＵユニット１０の電源を遮断する。これにより、ＣＰＵユニット１０が活性削除される。

図５は、図４のＯＳ４１のリカバリ処理部４４の処理の一例を示す。図５に示す処理は、ＯＳ４１がＣＰＵ１２からエラー通知を受信したことに基づいて開始される。図５は、情報処理装置１００ＡのＯＳ４１による制御プログラムの一例を示している。

まず、ステップＳ１１において、リカバリ処理部４４は、ＣＰＵ１２からエラー通知を受信した場合、エラー通知を発行したＣＰＵ１２のエラーステータスレジスタからエラー情報を取得する。次に、ステップＳ１２において、リカバリ処理部４４は、取得したエラー情報に基づいて、ＣＰＵ１２またはメモリ１４等で発生したエラー内容を解析し、ＣＰＵユニット１０のリカバリが可能な場合、リカバリ処理を実行する。

次に、ステップＳ１３において、リカバリ処理部４４は、リカバリ処理が成功した場合、処理をステップＳ１４に移行し、リカバリ処理が失敗した場合、処理をステップＳ１５に移行する。ステップＳ１４において、リカバリ処理部４４は、ＯＳ処理部４２にＯＳ４１の通常動作を継続させ、処理を終了する。なお、ＯＳ４１の通常動作は、生存監視通知の定期的な発行処理を含む。生存監視通知は、ウォッチドッグタイマーコマンドにより行われてもよい。

ステップＳ１５において、リカバリ処理部４４は、ＣＰＵユニット１０の再起動処理を実行し、再起動されない場合、ＯＳ４１は、ハングアップ状態になる。ＯＳ４１がハングアンプした場合、生存監視通知の発行は停止される。

なお、汎用のＣＰＵが搭載されるサーバでは、ＣＰＵやメモリでエラーが発生しても、ＯＳによるリカバリ処理が成功すると、情報処理装置を停止することなく、装置の動作継続が可能である。しかし、エラーが発生した部品は、ハードウェアの間欠故障が発生しているなど、同様のエラーが再度発生する可能性がある。このため、エラーの発生後、ＯＳによるリカバリ処理が成功し、ＯＳの動作が継続できたとしても、情報処理装置を継続して使用していると、再度、同様のエラーが発生する場合がある。

したがって、部品のエラーに基づいてＯＳによるリカバリ処理が成功した場合でも、エラーが発生した部品を継続して動作させることは、情報処理装置の安定運用の観点から好ましくない。この実施形態では、ＯＳによるリカバリ処理に成功した後に、エラーが発生した部品を搭載するＣＰＵユニット１０を活性削除し、他のＣＰＵユニット１０を活性追加する処理を実行することで、エラーの再発生を事前に防ぐことができる。

例えば、この実施形態が適用される前の汎用のＣＰＵを搭載した情報処理装置では、サーバ管理装置のファームウェアは、ＯＳがエラーのリカバリ処理に成功したかどうかを判定しない。このため、リカバリ処理の成功に基づいてＣＰＵユニット１０の活性削除と活性追加とを実行することが困難である。リカバリ処理の成功に基づいてＣＰＵユニット１０の活性削除と活性追加とを実行するためには、ＯＳとサーバ管理装置のファームウェアとに新たな機能を追加することで可能になる。

しかしながら、ＯＳベンダの協力が得られない場合、情報処理装置のベンダとＯＳベンダとが連携して、リカバリ処理の成功に基づいてＣＰＵユニット１０の活性削除と活性追加とを実行する機能を実装することは困難である。そのため、この実施形態が適用される前の汎用のＣＰＵを搭載した情報処理装置では、エラーの発生時に、情報処理装置の操作者が人手でエラー情報を確認し、エラー後の情報処理装置の状況等を確認する。そして、活性削除、活性追加をするかどうかと、活性削除、活性追加が可能かどうかを人手で判断し、手動で、活性削除、活性追加を実行している。

これに対して、本実施形態では、図６および図７で説明するように、ＯＳ４１の機能変更や機能追加を行うことなく、エラーが発生したＣＰＵ１２やメモリ１４を含むＣＰＵユニット１０を、人手による操作なしに自動的に活性削除、活性追加することができる。すなわち、ＯＳベンダと連携することなく、情報処理装置１００Ａにより、ＣＰＵユニット１０を自動的に活性削除、活性追加する機能を実現することができる。さらに、生存監視の通知機能があるＯＳであれば、ＯＳを問わずに本実施形態の機能を実現できる。

エラーが発生したＣＰＵ１２やメモリ１４を含むＣＰＵユニット１０を活***換することにより、情報処理装置１００Ａのリソース（ＣＰＵ１２やメモリ１４など）を減らすことなく、情報処理装置１００Ａの動作を継続できる。また、エラーが発生したＣＰＵユニット１０を情報処理装置１００から電気的に削除することにより、情報処理装置１００Ａの動作を継続したまま、ＣＰＵユニット１０やＣＰＵユニット１０に搭載される故障部品を交換することができる。

図６は、図４のファームウェア７１のエラー解析処理部７４の処理の一例を示す。図６に示す処理は、ＣＰＵ１２からエラー通知を受信したことに基づいてエラー解析処理部７４により開始される。図５は、情報処理装置１００Ａのファームウェア７１による制御プログラムの一例を示している。

まず、ステップＳ２１において、エラー解析処理部７４は、ＣＰＵ１２からエラー通知を受信した場合、エラー通知を発行したＣＰＵ１２のエラーステータスレジスタからエラー情報を取得する。次に、ステップＳ２２において、エラー解析処理部７４は、取得したエラー情報を解析し、故障部品（ＣＰＵ１２またはメモリ１４等）を特定することで、活***換の対象の不良のＣＰＵユニット１０を特定する。不良のＣＰＵユニット１０は、エラーコンポーネントの一例である。

次に、ステップＳ２３において、エラー解析処理部７４は、解析したエラー内容を、情報処理装置１００Ａのユーザに開放しない内部ログや、ユーザに通知するシステムイベントログ（ＳＥＬ）に登録する。

次に、ステップＳ２４において、エラー解析処理部７４は、エラー通知が、コンポーネント１の活***換によってはエラーが解消しない致命的なエラーであるかどうかを判定する。例えば、エラー解析処理部７４は、ＣＰＵユニット１０で発生したエラーが、電源やクロックのエラーなど、ＣＰＵユニット１０の活***換中に再度発生するエラーである場合、致命的なエラーと判定する。エラー解析処理部７４は、致命的なエラーと判定した場合、処理を終了し、致命的なエラーでないと判定した場合、処理をステップＳ２５に移行する。

ステップＳ２５において、エラー解析処理部７４は、情報処理装置１００に搭載されたＣＰＵユニット１０の構成管理テーブル等を参照し、使用していないＣＰＵユニット１０の情報を取得する。例えば、構成管理テーブル等は、メモリ６４に保持されており、ＣＰＵユニット１０に搭載されたＣＰＵ１２等の部品の構成、仕様（性能や記憶容量等）が保持される。

次に、ステップＳ２６において、エラー解析処理部７４は、ステップＳ２５で取得した使用していないＣＰＵユニット１０により活***換が可能かどうかを判定する。例えば、エラー解析処理部７４は、故障の発生により活性削除するＣＰＵユニット１０の構成および仕様と同等の構成および仕様を有する使用していないＣＰＵユニット１０があるかどうかを判定する。活***換するためには、少なくともＣＰＵ１２の種類が同じであることが好ましい。エラー解析処理部７４は、活***換が可能な場合、処理をステップＳ２７に移行し、活***換が困難な場合、処理を終了する。

ステップＳ２７において、エラー解析処理部７４は、生存監視処理部７６に活***換を要求し、処理を終了する。すなわち、エラー解析処理部７４は、不良のＣＰＵユニット１０を活性削除し、交換可能な他のＣＰＵユニット１０を活性追加することを生存監視処理部７６に要求する。なお、ＣＰＵユニット１０の活***換を自動的に行う機能を持たない情報処理装置のエラー解析処理部は、ステップＳ２４、Ｓ２５、Ｓ２６、Ｓ２７を処理する機能を持たない。

図７は、図４のファームウェア７１の生存監視処理部７６の処理の一例を示す。図７に示す処理は、情報処理装置１００Ａの起動時に開始される。図７は、情報処理装置１００Ａのファームウェア７１による制御プログラムの一例を示している。図７に示す例では、生存監視処理部７６は、図示しないウォッチドッグタイマーＷＤＴを使用してＯＳ４１の生存監視を行う。

まず、ステップＳ３１において、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴの時間をセットし、ウォッチドッグタイマーＷＤＴをスタートする。次に、ステップＳ３２において、生存監視処理部７６は、ＯＳ４１からウォッチドッグタイマーコマンドを受信した場合、処理をステップＳ３３に移行し、ＯＳ４１からウォッチドッグタイマーコマンドを受信していない場合、処理をステップＳ３６に移行する。ウォッチドッグタイマーコマンドは、タイマーリセットコマンドの一例であり、ＯＳ４１が動作していることを示す。

例えば、ＯＳ４１は、エラーを検出したＣＰＵ１２から受信したエラー通知に基づいてリカバリ処理を実行し、リカバリ処理が成功した場合、ウォッチドッグタイマーコマンドを定期的に発行する。一方、ＯＳ４１は、リカバリ処理が失敗した場合、再起動を繰り返し、あるいはハングアップするため、ウォッチドッグタイマーコマンドを発行しない。このため、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴによるＯＳ４１の生存監視機能を利用することで、ウォッチドッグタイマーコマンドの受信により、リカバリ処理の成功を検出することができる。すなわち、既存のＯＳ４１の生存監視機能を利用することで、ＯＳ４１を修正することなく、生存監視処理部７６は、ＯＳ４１が活***換処理を実施可能な状態にあることを検出することができる。

ステップＳ３３において、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴをリセットする。次に、ステップＳ３４において、生存監視処理部７６は、エラー解析処理部７４から活***換の要求がある場合、処理をステップＳ３５に移行し、エラー解析処理部７４から活***換の要求がない場合、処理をステップＳ３６に移行する。

ステップＳ３５において、生存監視処理部７６は、活***換の要求をクリアし、活***換処理部７８に活***換を指示し、処理をステップＳ３６に移行する。すなわち、生存監視処理部７６は、不良のＣＰＵユニット１０の活性削除処理と交換可能な他のＣＰＵユニット１０の活性追加処理との指示を活***換処理部７８に発行する。

ステップＳ３６において、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴがタイムアウトした場合、処理をステップＳ３７に移行し、ウォッチドッグタイマーＷＤＴがタイムアウトしていない場合、処理をステップＳ３２に戻す。これにより、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴの機能を利用して、ＯＳ４１が生存している間、所定の周期で活***換の要求の有無を検出することができる。

ステップＳ３７において、生存監視処理部７６は、タイムアウト処理を実行し、処理を終了する。例えば、生存監視処理部７６は、タイムアウトを発生させたＣＰＵユニット１０のリセットや、メモリダンプの取得を行う。

なお、ＣＰＵユニット１０の活***換を自動的に行う機能を持たない情報処理装置の生存監視処理部は、ステップＳ３４、Ｓ３５を処理する機能を持たない。このため、ステップＳ３３でウォッチドッグタイマーＷＤＴがリセットされた後、処理はステップＳ３６に移行される。このため、ＣＰＵ１２からのエラー通知に基づいてＯＳのリカバリ処理が成功したかどうかは、生存監視機能以外の機能により判定される。例えば、ＯＳを修正し、リカバリ処理の成功／失敗をＯＳからＢＩＯＳに通知する場合、情報処理装置のベンダとＯＳのベンダとが連携して、ＢＩＯＳとＯＳとを修正する。このため、ＯＳのベンダの協力が得られない場合、活***換を自動的に行う機能の実現が困難となる。

以上、図４から図７に示す実施形態においても、図１から図３に示す実施形態と同様の効果を得ることができる。例えば、ＣＰＵユニット１０のいずれかの故障に基づいて、活***換が可能かどうかをファームウェア７１により判定し、活***換を自動的に実行することができる。また、活***換中にエラーが再度発生するかどうかを判定し、エラーが再度発生すると判定された場合、活***換の実行を抑止することができる。サーバ管理バスＳＭＢＵＳを介して使用していないＣＰＵユニット１０のＣＰＵ情報を取得することで、故障したＣＰＵユニット１０を、同等の性能を有するＣＰＵユニット１０に活***換することができる。

さらに、この実施形態では、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴの機能を利用して、ＯＳ４１が生存している間、所定の周期で活***換の要求の有無を検出することができる。また、生存監視処理部７６は、ウォッチドッグタイマーＷＤＴによるＯＳ４１の生存監視機能を利用することで、ウォッチドッグタイマーコマンドの受信により、リカバリ処理の成功を検出することができる。すなわち、既存のＯＳ４１の生存監視機能を利用することで、ＯＳ４１を修正することなく、生存監視処理部７６は、ＯＳ４１が活***換処理を実行可能な状態にあることを検出することができる。

図８は、別の実施形態における情報処理装置１００Ｂの一例を示す。図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。例えば、図８に示す情報処理装置１００Ｂは、汎用のＣＰＵが搭載されるサーバである。

この実施形態の情報処理装置１００Ｂは、図４のＩＯユニット２０の代わりにＩＯユニット２０Ｂを有する。ＩＯユニット２０Ｂは、図４に示したサーバ管理装置６０を持たず、エラー解析処理部７４および生存監視処理部７６の機能は、ＲＯＭ５０に記憶されるＢＩＯＳ５１により実現される。換言すれば、エラー解析処理部７４および生存監視処理部７６の機能は、ＣＰＵ１２が実行するＢＩＯＳ５１により実現される。また、ＢＩＯＳ５１は、図４に示したＢＩＯＳ５１と同様に、ＢＩＯＳ処理部５２および活***換処理部５４を有する。但し、活***換処理部５４は、図４のファームウェア７１の活***換処理部７８と同様の機能を有する。

ＣＰＵ１２からエラー通知を受信したことに基づいて、情報処理装置１００Ｂが活***換を自動的に実行する動作は、ＢＩＯＳ５１により実行されることを除き、図６および図７に示した動作と同様である。

以上、図８に示す実施形態では、図４に示したファームウェア７１の機能が、ＢＩＯＳ５１により実現される。このため、図１から図７に示した実施形態と同様に、ＣＰＵユニット１０のいずれかの故障に基づいて、活***換が可能かどうかをＢＩＯＳ５１により自動的に判定し、活***換を自動的に実行することができる。

さらに、この実施形態では、ＩＯユニット２０Ｂに図４に示したサーバ管理装置６０を設けることなく、活***換を自動的に実行することができる。これにより、ＩＯユニット２０Ｂの構成を、図４に示したＩＯユニット２０の構成よりも簡易にすることができ、情報処理装置１００Ｂのコストを削減することができる。

図９は、別の実施形態における情報処理装置１００Ｃの一例を示す。図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。例えば、図９に示す情報処理装置１００Ｃは、汎用のＣＰＵが搭載されるサーバである。

この実施形態の情報処理装置１００Ｃは、図４に示した複数のＣＰＵユニット１０の代わりに複数のＣＰＵユニット１０Ｃを有し、図４に示したＩＯユニット２０の代わりにＩＯユニット２０Ｃを有する。また、情報処理装置１００Ｃは、図４に示したサーバ管理装置６０の代わりに装置管理部８０Ｃを有する。

各ＣＰＵユニット１０Ｃは、ＣＰＵ１２とＩＯコントローラ３０との間にＩＯコントローラ１６Ｃ（ＣＰＵインタフェース部）を有する。例えば、ＣＰＵユニット１０Ｃは、システム基板の形態を有する。ＩＯコントローラ１６Ｃは、ＣＰＵ１２側の入出力バスＩＯＢＵＳを介して各ＣＰＵ１２に接続され、ＩＯユニット２０Ｃ側の入出力バスＩＯＢＵＳを介してＩＯコントローラ３０に接続される。

ＲＯＭ５０Ｃは、ＩＯコントローラ１６Ｃを介して各ＣＰＵ１２に接続される。ＲＯＭ５０Ｃには、図４のＲＯＭ５０と同様に、ＢＩＯＳ５１が記憶されている。また、各ＣＰＵユニット１０Ｃは、サーバ管理バスＳＭＢＵＳに接続されたサーバ管理部６０Ｃを有する。

この実施形態の情報処理装置１００Ｃは、情報処理装置１００Ｃの管理を行う装置管理部８０Ｃとは別に、活***換処理を行うサーバ管理部６０Ｃを有する。そして、ＩＯコントローラ３０の一部の機能を実現するＩＯコントローラ１６Ｃと、ＢＩＯＳ５１を記憶するＲＯＭ５０Ｃと、サーバ管理部６０Ｃとが各ＣＰＵユニット１０Ｃに搭載される。ＣＰＵユニット１０の活***換処理は、任意のＣＰＵユニット１０Ｃ（マスタ）上のサーバ管理部６０Ｃにより実行される。各ＣＰＵユニット１０Ｃのサーバ管理部６０Ｃは、管理部の一例である。

サーバ管理部６０Ｃは、図４に示したサーバ管理装置６０と同様に、サービスプロセッサ６２、メモリ６４およびＲＯＭ７０Ｃを有する。ＲＯＭ７０Ｃに格納されたファームウェア７１Ｃは、サーバ管理処理部７２、エラー解析処理部７４、生存監視処理部７６、活***換処理部７８および連携処理部７９Ｃの機能を実現する。連携処理部７９Ｃは、サーバ管理部６０Ｃのファームウェア７１Ｃの連携処理部７９Ｃと連携して情報処理装置１００Ｃを管理する。

サーバ管理処理部７２、エラー解析処理部７４、生存監視処理部７６および活***換処理部７８の機能は、図４に示したサーバ管理処理部７２、エラー解析処理部７４、生存監視処理部７６および活***換処理部７８の機能とそれぞれ同じである。

このため、図６および図７で説明した活***換処理は、各ＣＰＵユニット１０Ｃのサーバ管理部６０Ｃのサービスプロセッサ６２が実行するファームウェア７１Ｃにより実現される。活***換処理は、複数のＣＰＵユニット１０Ｃのうち、情報処理装置１００Ｃの起動時に設定されるマスタＣＰＵユニット１０Ｃのサーバ管理部６０Ｃにより実行される。

装置管理部８０Ｃは、サービスプロセッサ８２Ｃ、メモリ８４ＣおよびＲＯＭ９０Ｃを有する。サービスプロセッサ８２Ｃは、サーバ管理バスＳＭＢＵＳを介して各ＣＰＵ１２および各サーバ管理部６０Ｃに接続される。例えば、サービスプロセッサ８２Ｃは、ＢＭＣであり、ＲＯＭ９０Ｃからメモリ８４Ｃに展開されたファームウェア９１Ｃを実行することで、ＣＰＵユニット１０Ｃ等を管理する。ＲＯＭ９０Ｃに格納されたファームウェア９１Ｃは、サーバ管理処理部９２、活***換処理部９８Ｃおよび連携処理部９９Ｃの機能を実現する。

ＩＯユニット２０Ｃは、図４に示したサーバ管理装置６０を持たず、エラー解析処理部７４および生存監視処理部７６の機能は、ＲＯＭ７０Ｃに記憶されるファームウェア７１Ｃにより実現される。換言すれば、エラー解析処理部７４および生存監視処理部７６の機能は、サービスプロセッサ６２が実行するファームウェア７１Ｃにより実現される。

ＢＩＯＳ５１は、図４のＢＩＯＳと同様に、ＢＩＯＳ処理部５２および活***換処理部５４を有する。但し、活***換処理部５４は、図４のファームウェア７１の活***換処理部７８と同様の機能を有する。

以上、図９に示す実施形態では、図４に示したファームウェア７１の機能が、各ＣＰＵユニット１０Ｃに搭載されたサーバ管理部６０Ｃのいずれかのファームウェア７１Ｃにより実現される。このため、図１から図７に示した実施形態と同様に、ＣＰＵユニット１０Ｃのいずれかの故障に基づいて、活***換が可能かどうかをＢＩＯＳ５１により自動的に判定し、活***換を自動的に実行することができる。

さらに、この実施形態では、ＩＯユニット２０Ｃに図４に示したサーバ管理装置６０を設けることなく、活***換を自動的に実行することができる。これにより、ＩＯユニット２０Ｃの構成を、図４に示したＩＯユニット２０の構成よりも簡易にすることができ、情報処理装置１００Ｂのコストを削減することができる。

以上の図１から図９に示す実施形態に関し、さらに以下の付記を開示する。
（付記１）
プロセッサをそれぞれ含む複数のコンポーネントと、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置であって、
前記管理部は、
前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定するエラー特定部と、
前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行する交換判定部と、
情報処理装置により実行されるオペレーティングシステムが生存しているかどうかを監視し、前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行する生存監視処理部と、
前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始する活***換処理部と、を有する情報処理装置。
（付記２）
前記交換判定部は、エラーが前記活***換中に再度発生することを判定した場合、前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合にも、前記活***換の要求を発行しない、付記１に記載の情報処理装置。
（付記３）
前記生存監視処理部は、前記オペレーティングシステムの生存が確認されない場合、前記活***換の要求が発行された場合であっても、前記活性削除処理と前記活性追加処理の指示の発行を抑止する、付記１または付記２に記載の情報処理装置。
（付記４）
前記生存監視処理部は、前記オペレーティングシステムから周期的に発行されるタイマーリセットコマンドを受信した場合、タイマーをリセットすることで、前記オペレーティングシステムの生存を認識し、前記活***換の要求が発行された場合、前記タイマーのリセット後に前記活性削除処理と前記活性追加処理の指示を発行する、付記１ないし付記３のいずれか１項に記載の情報処理装置。
（付記５）
前記交換判定部は、前記管理部と複数の前記コンポーネントとを接続する管理バスを介して、未使用の前記コンポーネントに含まれる前記プロセッサの仕様情報を取得し、取得した仕様情報と前記エラーコンポーネントに含まれる前記プロセッサの仕様情報との比較に基づいて、活***換可能かどうかを判定する、付記１ないし付記４のいずれか１項に記載の情報処理装置。
（付記６）
管理バスを介して前記複数のコンポーネントの前記プロセッサに接続される管理プロセッサを有し、
前記管理部は、前記管理プロセッサが実行するファームウェアにより実現される、付記１ないし付記５のいずれか１項に記載の情報処理装置。
（付記７）
前記管理プロセッサは、前記複数のコンポーネントにそれぞれ搭載され、
前記管理部は、前記複数のコンポーネントのそれぞれに搭載された前記管理プロセッサのいずれかが実行するファームウェアにより実現される、付記６に記載の情報処理装置。
（付記８）
入出力バスを介して前記複数のコンポーネントの前記プロセッサに接続され、所定数のインタフェースと前記複数のコンポーネントの前記プロセッサにより実行されるファームウェアを記憶する記憶装置とを含む入出力ユニットを有し、
前記管理部は、前記プロセッサが実行するファームウェアにより実現される、付記１ないし付記５のいずれか１項に記載の情報処理装置。
（付記９）
プロセッサをそれぞれ含む複数のコンポーネントと、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置の制御プログラムであって、
前記情報処理装置に、
前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定させ、
前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行させ、
情報処理装置により実行されるオペレーティングシステムが生存しているかどうかを監視させ、
前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行させ、
前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始させる、情報処理装置の制御プログラム。
（付記１０）
エラーが前記活***換中に再度発生することを判定した場合、前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合にも、前記活***換の要求を発行しない、付記９に記載の情報処理装置の制御プログラム。
（付記１１）
前記オペレーティングシステムの生存が確認されない場合、前記活***換の要求が発行された場合であっても、前記活性削除処理と前記活性追加処理の指示の発行を抑止させる、付記９または付記１０に記載の情報処理装置の制御プログラム。
（付記１２）
前記オペレーティングシステムから周期的に発行されるタイマーリセットコマンドを受信した場合、タイマーをリセットすることで、前記オペレーティングシステムの生存を認識させ、
前記活***換の要求が発行された場合、前記タイマーのリセット後に前記活性削除処理と前記活性追加処理の指示を発行させる、付記９ないし付記１１のいずれか１項に記載の情報処理装置の制御プログラム。
（付記１３）
前記管理部と複数の前記コンポーネントとを接続する管理バスを介して、未使用の前記コンポーネントに含まれる前記プロセッサの仕様情報を取得させ、
取得した仕様情報と前記エラーコンポーネントに含まれる前記プロセッサの仕様情報との比較に基づいて、活***換可能かどうかを判定させる、付記９ないし付記１２のいずれか１項に記載の情報処理装置の制御プログラム。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１コンポーネント
２プロセッサ
３メモリ
４管理部
５エラー特定部
６交換判定部
７生存監視処理部
８活***換処理部
１０、１０ＣＣＰＵユニット
１２ＣＰＵ
１４メモリ
２０、２０ＢＩＯユニット
４１ＯＳ
４２ＯＳ処理部
４４リカバリ処理部
４６活***換処理部
４８生存監視処理部
５０ＲＯＭ
５１ＢＩＯＳ
５２ＢＩＯＳ処理部
５４活***換処理部
６０サーバ管理装置
６０Ｃサーバ管理部
６２サービスプロセッサ
６４メモリ
７０、７０ＣＲＯＭ
７１、７１Ｃファームウェア
７２サーバ管理処理部
７４エラー解析処理部
７６生存監視処理部
７８活***換処理部
１００、１００Ａ、１００Ｂ、１００Ｃ情報処理装置
ＩＯＢＵＳ入出力バス
ＳＭＢＵＳサーバ管理バス

Claims

プロセッサをそれぞれ含む複数のコンポーネントと、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置であって、
前記管理部は、
前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定するエラー特定部と、
前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行し、前記エラーが前記活***換中に再度発生するエラーであることを判定した場合、前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合にも、前記活***換の要求を発行しない交換判定部と、
前記プロセッサにより実行されるオペレーティングシステムが生存しているかどうかを監視し、前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行する生存監視処理部と、
前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始する活***換処理部と、を有する情報処理装置。
前記生存監視処理部は、前記オペレーティングシステムの生存が確認されない場合、前記活***換の要求が発行された場合であっても、前記活性削除処理と前記活性追加処理の指示の発行を抑止する、請求項１に記載の情報処理装置。
前記生存監視処理部は、前記オペレーティングシステムから周期的に発行されるタイマーリセットコマンドを受信した場合、タイマーをリセットすることで、前記オペレーティングシステムの生存を認識し、前記活***換の要求が発行された場合、前記タイマーのリセット後に前記活性削除処理と前記活性追加処理の指示を発行する、請求項１または請求項２に記載の情報処理装置。
前記交換判定部は、前記管理部と複数の前記コンポーネントとを接続する管理バスを介して、未使用の前記コンポーネントに含まれる前記プロセッサの仕様情報を取得し、取得した仕様情報と前記エラーコンポーネントに含まれる前記プロセッサの仕様情報との比較に基づいて、活***換可能かどうかを判定する、請求項１ないし請求項３のいずれか１項に記載の情報処理装置。
管理バスを介して前記複数のコンポーネントの前記プロセッサに接続される管理プロセッサを有し、
前記管理部は、前記管理プロセッサが実行するファームウェアにより実現される、請求項１ないし請求項４のいずれか１項に記載の情報処理装置。
前記管理プロセッサは、前記複数のコンポーネントにそれぞれ搭載され、
前記管理部は、前記複数のコンポーネントのそれぞれに搭載された前記管理プロセッサのいずれかが実行するファームウェアにより実現される、請求項５に記載の情報処理装置。
入出力バスを介して前記複数のコンポーネントの前記プロセッサに接続され、所定数のインタフェースと前記複数のコンポーネントの前記プロセッサにより実行されるファームウェアを記憶する記憶装置とを含む入出力ユニットを有し、
前記管理部は、前記プロセッサが実行するファームウェアにより実現される、請求項１ないし請求項４のいずれか１項に記載の情報処理装置。
プロセッサをそれぞれ含む複数のコンポーネントと、管理バスを介して前記複数のコンポーネントの前記プロセッサに接続される管理プロセッサと、前記管理プロセッサが実行するファームウェアにより実現され、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置であって、
前記管理部は、
前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定するエラー特定部と、
前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行する交換判定部と、
前記プロセッサにより実行されるオペレーティングシステムが生存しているかどうかを監視し、前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行する生存監視処理部と、
前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始する活***換処理部と、を有する情報処理装置。
前記管理プロセッサは、前記複数のコンポーネントにそれぞれ搭載され、
前記管理部は、前記複数のコンポーネントのそれぞれに搭載された前記管理プロセッサのいずれかが実行するファームウェアにより実現される、請求項８に記載の情報処理装置。
プロセッサをそれぞれ含む複数のコンポーネントと、入出力バスを介して前記複数のコンポーネントの前記プロセッサに接続され、所定数のインタフェースと前記複数のコンポーネントの前記プロセッサにより実行されるファームウェアを記憶する記憶装置とを含む入出力ユニットと、前記プロセッサが実行するファームウェアにより実現され、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置であって、
前記管理部は、
前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定するエラー特定部と、
前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行する交換判定部と、
前記プロセッサにより実行されるオペレーティングシステムが生存しているかどうかを監視し、前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行する生存監視処理部と、
前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始する活***換処理部と、を有する情報処理装置。
プロセッサをそれぞれ含む複数のコンポーネントと、前記複数のコンポーネントを管理する管理部と、を有する情報処理装置の制御プログラムであって、
前記情報処理装置に、
前記プロセッサからエラー通知を受信した場合、エラー通知を出力した前記プロセッサに保持されたエラー情報を解析することで、エラーの原因となった部品を含む前記コンポーネントであるエラーコンポーネントを特定させ、
前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合、活***換の要求を発行させ、前記エラーが前記活***換中に再度発生するエラーであることを判定した場合、前記エラーコンポーネントと活***換可能な他のコンポーネントが存在する場合にも、前記活***換の要求を発行させず、
前記プロセッサにより実行されるオペレーティングシステムが生存しているかどうかを監視させ、
前記活***換の要求が発行された場合であって、前記オペレーティングシステムの生存が確認された場合、前記エラーコンポーネントの活性削除処理と前記他のコンポーネントの活性追加処理との指示を発行させ、
前記活性削除処理と前記活性追加処理との指示に基づいて、前記活性削除処理と前記活性追加処理とを開始させる、情報処理装置の制御プログラム。