JP5689783B2

JP5689783B2 - コンピュータ、コンピュータシステム、および障害情報管理方法

Info

Publication number: JP5689783B2
Application number: JP2011256512A
Authority: JP
Inventors: 和哉長澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2015-03-25
Anticipated expiration: 2031-11-24
Also published as: JP2013109722A

Description

本発明の実施形態は、コンピュータに生じたハードウェア障害を確実に記録するためのコンピュータ、コンピュータシステム、および障害情報管理方法に関する。

コンピュータに発生した障害を管理するためのシステム管理コントローラをマザーボード上に設けることが行われている。障害が発生した場合に、システム管理コントローラは、障害の内容を示す障害情報を不揮発性メモリに格納する。後に、管理者が障害情報を解析することによって、障害の原因を容易に特定することが可能になる。

特開２０１１−４８５３４号公報特開平１０−２４７９１１号公報特開２００９−２５２００６号公報

管理コントローラが故障したり、不揮発性メモリが故障したりすると、障害情報を不揮発性メモリに記録することができず、障害情報を管理することができない。そこで、障害情報を管理することができない場合であっても、後に発生した障害を解析するために障害を障害の情報を管理することが望まれている。

本発明の目的は、システム管理コントローラが障害の情報を管理することができない場合であっても、障害の情報を管理することが可能なコンピュータ、コンピュータシステム、および障害情報管理方法を提供することにある。

実施形態によれば、コンピュータは、ネットワークに接続される第１のコンピュータと管理用コンピュータとを含むコンピュータシステムであって、前記第１のコンピュータは、第１の記憶部と、前記第１のコンピュータにハードウェア障害が発生した場合に第１の割り込み通知を発行する第１の発行手段と、前記第１の割り込み通知の発行に応じて前記ハードウェア障害の内容を収集し、前記収集された内容に基づいた第１の障害情報を生成する生成手段と、前記第１の障害情報が生成された場合に第２の割り込み命令を発行する第２の発行手段と、前記第２の割り込み命令が発行された場合に、前記第１の障害情報を取得し、前記第１の障害情報を前記第１の記憶部に記録するシステム管理コントローラと、前記システム管理用コントローラが前記第１の障害情報を前記第１の記憶部に記録できなかった場合に前記第１の障害情報を前記管理用コンピュータに通知する通知手段とを具備し、前記管理用コンピュータは、第２の記憶部と、前記第１の障害情報が通知された場合に、前記第１の障害情報を前記第２の記憶部に書き込むシステム管理手段を具備する。

実施形態のコンピュータシステムの構成の一例を示すブロック図。実施形態のサーバコンピュータの構成の一例を示すブロック図。図２に示すＳＭＩハンドラの構成の一例を示すブロック図。実施形態のサーバコンピュータの構成の一例を示すブロック図。実施形態の管理用サーバコンピュータの構成の一例を示すブロック図。ＳＭＩハンドラによって実行される処理の手順を示すフローチャート。ＢＭＣ代理プログラムによって実行される処理の手順を示すフローチャート。

以下、実施の形態について図面を参照して説明する。

図１は、一実施形態のコンピュータシステムの構成を示すブロック図である。
図１に示すように、コンピュータシステムは、ＬＡＮ（Local Area Network）に接続された管理用サーバコンピュータ１０、第１のサーバコンピュータ２０Ａ、および第２のサーバコンピュータ２０Ｂ等から構成されている。

サーバコンピュータ２０（第１のサーバコンピュータ２０Ａ、第２のサーバコンピュータ２０Ｂ）の構成を図２を参照して説明する。
サーバコンピュータ２０は、第１のＮＩＣ（Network Interface Card）２１、第２のＮＩＣ２２、ネットワークコントローラ２３、システム管理コントローラとしてのＢＭＣ（Baseboard Management Controller）２４、不揮発性メモリ（ＮＶＲＡＭ：Non-volatile memory）２５、およびフラッシュＲＯＭ２６等を備えている。

ネットワークコントローラ２３は、ＯＳＩ参照モデルのデータリンク層に相当する機能を有する。第１のＮＩＣ２１および第２のＮＩＣ２２は、例えばＯＳＩ参照モデルの物理層チップである。第２のＮＩＣ２２は、後述するＢＭＣ２４に設けられている。なお、第１のＮＩＣ２１は、サーバコンピュータ２０によって実行されるアプリケーションプログラム等が使用する。

ＢＭＣ２４は、サーバコンピュータ２０内に設けられたセンサを用いてハードウェアを常時監視する。そして、ハードウェア障害が発生した場合に、発生した障害の内容をＮＶＲＡＭ２５内のＳＥＬ(System Event Log)２５１に書き込む。また、ＢＭＣ２４は、発生した障害の内容を予め設定された管理者端末３０に通知する。ＢＭＣ２４は、例えば管理者のメールアドレス宛にメールを送ることで、発生した障害の内容を管理者に通知する。また、ＢＭＣ２４は、発生した障害の内容を含むメッセージをＳＮＭＰ（Simple Network Management Protocol）で送ることで、発生した障害の内容を予め設定された管理者端末３０に通知する。

ＢＭＣ２４はコンピュータ（サーバ）のマザーボード上に配置され、ＩＰＭＩ(Intelligent Platform Management Interface)アーキテクチャに基づく特殊なマイクロコントローラである。ＢＭＣ２４は、ＣＰＵ（ＯＳ）が動作していなくても、電源さえあれば動作する。図示しないコンピュータに内蔵された異なるタイプのセンサは、温度、冷却ファン回転速度、電源状態、ＯＳ状態等に関するパラメータをＢＭＣ２４に報告する。ＢＭＣ２４はセンサを監視し、いずれかのパラメータが許容範囲外となると、システムの動作不良の可能性を、ネットワークを介して管理者端末３０に通知する。

ＮＶＭＲＡＭ２５には、ＳＥＬ（System Event Log）２５１、ＳＤＲ（Sensor Data Records）２５２、およびＰＥＦ（Platform Event Filtering）２５３が書き込まれている。ＮＶＲＡＭ２５は、シリアルバス接続タイプのＥＥＰＲＯＭ（Electrically Erasable and Programmable Read Only Memory）またはフラッシュメモリである。ＳＥＬ２５１には、例えばＢＭＣ２４により情報処理装置の異常を検出した場合、又はセンサで閾値を超えるエラーを検出した場合、障害の内容が記録される。ＳＤＲ２５２には、ＢＭＣ２４が管理しているセンサの種類（温度や電圧等）や、異常を識別する為の閾値などが製造時に記録されている。ＰＥＦ２５３には、障害が発生した場合に、管理者端末３０に通知を行う障害の種類の設定が記録されている。

フラッシュＲＯＭ２６内には、ＢＩＯＳ（基本入出力システム：Basic Input Output System）２６１が格納されている。ＢＩＯＳ２６１は、ＣＰＵによって実行されるハードウェア制御のためのシステムプログラムである。ＢＩＯＳ２６１は、ＳＭＩ（System Management Interrupt）イベントの発行時に、ＣＰＵによって実行されるＳＭＩハンドラ２６２を有する。

なお、ＳＭＩハンドラ２６２は、図３に示すように、障害情報生成モジュール２６２１、障害情報格納指示モジュール２６２２、および障害情報送信モジュール２６２３等のプログラムを有する。

障害情報生成モジュール２６２１は、サーバコンピュータにハードウェア障害が発生した場合に、ハードウェア障害の内容に基づいて障害情報を生成する。障害情報が生成された場合に、指示発行モジュール２６２２は、ＢＭＣ２４に対して障害情報のＮＶＲＡＭ２５への格納を指示するための指示信号を送信する。障害情報送信モジュール２６２３は、障害情報のＮＶＲＡＭ２５への格納に失敗した場合に、障害情報を管理用サーバコンピュータ１０によって管理させるために、障害情報を管理用サーバコンピュータ１０に送信する。

サーバコンピュータ２０のより詳細なシステム構成を、図４を参照して説明する。
本コンピュータ２０は、図３に示されているように、ＣＰＵ１０１、ノースブリッジ１０２、主メモリ１０３、サウスブリッジ１０４、グラフィクスプロセッシングユニット（ＧＰＵ）１０５、ビデオメモリ（ＶＲＡＭ）１０５Ａ、サウンドコントローラ１０６、フラッシュＲＯＭ２６、ネットワークコントローラ２３、ＢＭＣ２４、ＮＶＲＡＭ２５、ハードディスクドライブ（ＨＤＤ）１１１、およびＰＣＩデバイス１１５等を備えている。

ＣＰＵ１０１は本コンピュータ１０の動作を制御するプロセッサである。ＣＰＵ１０１は、ハードディスクドライブ（ＨＤＤ）１１１から主メモリ１０３にロードされる、オペレーティングシステムや各種アプリケーションプログラムを実行する。また、ＣＰＵ１０１は、フラッシュＲＯＭ１０９に格納されたＢＩＯＳ（Basic Input Output System）２６１も実行する。ＢＩＯＳ２６１はハードウェア制御のためのプログラムである。

ノースブリッジ１０２は、ＣＰＵ１０１のローカルバスとサウスブリッジ１０４との間を接続するブリッジデバイスである。ノースブリッジ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１０２は、PCI EXPRESS規格のシリアルバスなどを介して、ＧＰＵ１０５との通信を実行する機能も有している。

ＧＰＵ１０５は、本コンピュータ１０のディスプレイモニタを制御する表示コントローラである。ＧＰＵ１０５は、ＶＲＡＭ１０５Ａをワークメモリとして使用する。このＧＰＵ１０５によって生成される映像信号は、ディスプレイモニタに送られる。

サウスブリッジ１０４は、ＬＰＣ（Low Pin Count）バス上の各デバイス、およびＰＣＩ（Peripheral Component Interconnect）バス上の各デバイス１１５Ａ、１１５Ｂを制御する。また、サウスブリッジ１０４は、ハードディスクドライブ（ＨＤＤ）１１１およびＤＶＤドライブ１１２を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信を実行する機能も有している。

更に、第１の発行手段としてのサウスブリッジ１０４は、ＰＣＩバス１４上のＰＥＲＲ（パリティエラー）信号やＳＥＲＲ（システムエラー）信号の検出に伴い、ＳＭＩ（System Management Interrupts）イベントをＣＰＵに発行する回路を内蔵する。

サウンドコントローラ１０６は音源デバイスであり、再生対象のオーディオデータをスピーカ１８Ａ，１８Ｂに出力する。

センサ２４１は、サウスブリッジ１０４から発行されたシステムエラー信号(ＳＥＲＲ信号)／パリティエラー信号(ＰＥＲＲ信号)の発行やＣＰＵの温度等を監視する。センサ２４１は、ＢＭＣ２４により、所定間隔毎にポーリングされる。

次に、管理用サーバコンピュータ１０のＣＰＵによって実行されるソフトウェアプログラムの構成について図５を参照して説明する。管理用サーバコンピュータ１０内では、ＢＭＣ代理プログラム５０１が実行される。ＢＭＣ代理プログラム５０１では、ＢＭＣマネージャ５０２、第１の仮想ＢＭＣ５０３Ａ、および第２の仮想ＢＭＣ５０３Ｂが実行される。また、管理用サーバコンピュータ１０は、記憶装置５１０を有する。

第１の仮想ＢＭＣ５０３Ａは、第１のサーバコンピュータ２０Ａ内のＢＭＣの機能を実行する。第２の仮想ＢＭＣ５０３Ｂは、第２のサーバコンピュータ２０Ｂ内のＢＭＣの機能を実行する。管理マネージャは５０１、障害情報を送信したサーバに対応する仮想ＢＭＣに送信する。

正常運用時、ＢＭＣマネージャ５０２は、各サーバコンピュータの第２のＮＩＣ２２を経由して、ＢＭＣ２４からＳＤＲ２５２、ＰＥＦ２５３、ＢＭＣ専用ＬＡＮポートの構成情報（トラップの送信先など）をポーリングして取得する。

ＢＭＣマネージャ５０２は、取得したＳＤＲおよびＰＥＦを、取得したサーバコンピュータに対応する仮想ＢＭＣに関連づけられた記憶装置５１０内のフォルダ（５１１Ａまたは５１１Ｂ）内に記録する。また、ＢＭＣマネージャ５０２は、ＢＭＣ専用ＬＡＮポートの構成情報を対応する仮想ＢＭＣに設定する。
ＢＭＣマネージャ５０２は、ＳＭＩハンドラ２６２に、ＢＭＣ故障時のＳＭＩイベントの送信先として、管理用サーバコンピュータ１０を登録しておく。

サーバコンピュータにハードウェア障害が発生し、正常にＮＶＲＡＭに障害情報が書き込まれる場合の動作を説明する。

センサ２４１は、ＰＣＩバス１１４上のＰＣＩデバイスが発行したＳＥＲＲ信号／ＰＥＲＲ信号を検出する。センサ２４１は、ＳＥＲＲ信号／ＰＥＲＲ信号を検出した場合、サウスブリッジ１０４に対して、ＳＭＩ信号をＣＰＵ１０１に出力するように指示する。サウスブリッジ１０４は、センサ２４１からの指示に従い、ＣＰＵ１０１に対して、ＳＭＩ信号を出力する。ＳＭＩ信号に応じて、ＳＭＩハンドラ２６２が起動する。

ＳＭＩ信号に応答して、起動されたＳＭＩハンドラ２６２内の障害情報生成モジュール２６２１は、ＰＣＩバス１１４上のどのデバイスが、ＳＥＲＲ信号／ＰＥＲＲ信号を出力したかを示す情報を検出する。

障害情報生成モジュール２６２１は、検出された情報に基づいて、エラーの種類（ＳＥＲＲ信号／ＰＥＲＲ信号）、エラーを発行・検出したデバイスのバス番号、ファンクション番号、デバイス番号を含む第１の障害情報を生成する。

第１の障害情報が生成されると、障害情報格納指示モジュール２６２２は、ＢＭＣ２４に第１の障害情報のＮＶＲＡＭ２５への格納を指示するための指示信号を送信する。

ＢＭＣ２４は、指示信号の受信に応じて、第１の障害情報をＳＭＩハンドラ２６２から取得する。そして、第１の障害情報に、エラーイベントとして、イベントの通し番号、センサの種類と時刻等の付加情報を付加した第２の障害情報をＳＥＬ２５１に記録する。

ＢＭＣ２４は、ＰＥＦ２５３に発生した障害が設定されている場合に、第２のＮＩＣ２２から予め設定されている管理者端末３０にトラップを送信する。

以上が、ＢＭＣおよびＮＶＲＡＭが故障していない状態で、サーバコンピュータのハードウエアに障害が生じた場合の動作である。

ＢＭＣまたはＮＶＲＡＭが故障している状態で、ＳＭＩイベントが発行された場合のＳＭＩハンドラの動作を、図６のフローチャートを参照して説明する。

センサ２４１は、ＰＣＩバス１１４上のＰＣＩデバイスが発行したＳＥＲＲ信号／ＰＥＲＲ信号を検出する。センサ２４１は、ＳＥＲＲ信号／ＰＥＲＲ信号を検出した場合、サウスブリッジ１０４に対して、ＳＭＩ信号をＣＰＵ１０１に出力するように指示する。サウスブリッジ１０４は、センサ２４１からの指示に従い、ＣＰＵ１０１に対して、ＳＭＩ信号を出力する。ＳＭＩ信号に応じて（ステップＢ６０１）、ＳＭＩハンドラ２６２が起動する。

ＳＭＩ信号に応答して、起動されたＳＭＩハンドラ２６２内の障害情報生成モジュール２６２１は、ＰＣＩバス１１４上のどのデバイスが、ＳＥＲＲ信号／ＰＥＲＲ信号を出力したかを検出する（ステップＢ６０２）。

障害情報生成モジュール２６２１は、収集された情報に基づいて、エラーの種類（ＳＥＲＲ信号／ＰＥＲＲ信号）、エラーを発行・検出したデバイスのバス番号、ファンクション番号、デバイス番号を含む第１の障害情報を生成する（ステップＢ６０３）。

第１の障害情報が生成されると、障害情報格納指示モジュール２６２２は、ＢＭＣ２４に第１の障害情報を記録を指示するためのＳＭＩイベントを発行する（ステップＢ６０４）。

ＮＶＲＡＭ２５が故障している場合、ＢＭＣがＳＭＩハンドラにＳＥＬ２５１に第１の障害情報が記録できなかったことを示すエラー通知を発行する。また、ＢＭＣが故障している場合、ＳＭＩハンドラが第１の障害情報を記録するように指示してから一定時間経過するまでにＢＭＣからの応答が無い場合に、ＳＭＩハンドラは、ＳＥＬに障害情報が書き込まれなかったと判断する（ステップＢ６０５）。

ＳＥＬ２５１に障害情報が書き込まれなかった場合、ＳＭＩハンドラ２６２の障害情報送信モジュール２６２３は、通常のＬＡＮポート（ＮＩＣ１）を経由して、管理用サーバコンピュータ１０のアプリケーションプログラムに、第１の障害情報を含むメッセージを送信する（ステップＢ６０６）。メッセージ内には、当該メッセージを送ったサーバを示す送信元情報が格納されている。

次に、メッセージを受け取ったＢＭＣ代理プログラム５０１の動作を、図７のフローチャートを参照して説明する。

ＢＭＣマネージャ５０２が、第１のサーバコンピュータ２０Ａから送信された第１の障害情報を含むメッセージを受け取る（ステップＢ７０１）。

ＢＭＣマネージャは、メッセージから第１の障害情報と送信元情報とをそれぞれ抽出し、メッセージに含まれる送信元情報に基づいて、第１の障害情報を第１の仮想ＢＭＣに送る（ステップＢ７０２）。

第１の仮想ＢＭＣは、第１の障害情報を含む第３の障害情報を、第１のサーバコンピュータに対応する第１の仮想ＢＭＣ５０３Ａに関連づけられているフォルダ５１１Ａ内のＳＥＬ２５１Ａに書き込む（ステップＢ７０３）。

第１の仮想ＢＭＣ５０３Ａは、第１のサーバコンピュータ２０Ａに発生した障害が、ＰＥＦに設定されているかを判定する（ステップＢ７０４）。障害が、設定されていると判定した場合（ステップＢ７０４のＹｅｓ）、第１の障害情報に含まれている情報の内、少なくとも一部を含む第４の障害情報にトラップを送信する（ステップＢ７０５）。障害が、設定されていないと判定した場合（ステップＢ７０４のＮｏ）は、処理を終了する。また、トラップを送信した場合（ステップＢ７０５）も、処理を終了する。

本実施形態によれば、ＢＭＣまたはＮＶＲＡＭが故障し、サーバコンピュータに発生した障害の内容をＮＶＲＡＭに記録することができ無い状態であっても、管理用サーバコンピュータ１０内の記憶装置に障害の内容を書き込むことが出来る。このため、障害発生時の解析に有効となる。また、トラップを管理者端末３０に送信することが可能になる。

なお、上記実施形態では、センサがサウスブリッジにＳＭＩイベントの発行を指示していたが、センサによって検出された値が閾値を超えた場合に、ＢＭＣがサウスブリッジにＳＭＩイベントの発行を指示するように構成しても良い。この場合、障害情報生成モジュール２６２１は、ＢＭＣ２４からハードウェア障害の内容を取得する。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…管理用サーバコンピュータ、２０Ａ…第１のサーバコンピュータ、２０Ｂ…第２のサーバコンピュータ、２１…第１のＮＩＣ、２２…第２のＮＩＣ、２３…ネットワークコントローラ、２４…ＢＭＣ（システム管理コントローラ）、２５…不揮発性メモリ（第１の記憶部）、１０１…ＣＰＵ、１０４…サウスブリッジ、１１５Ａ．１１５Ｂ…ＰＣＩデバイス、１１６…キーボードコントローラＩＣ、２６２…ＳＭＩハンドラ、５０１…ＢＭＣ代理プログラム、５０２…ＢＭＣマネージャ、５０３Ａ…第１の仮想ＢＭＣ、５０３Ｂ…第２の仮想ＢＭＣ、５１０…記憶装置（第２の記憶部）。

Claims

ネットワークを介して管理用コンピュータに接続されたコンピュータであって、
記憶部と、
前記コンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成する生成手段と、
前記障害情報が生成された場合に第１の指示信号を発行する発行手段と、
前記発行手段からの前記第１の指示信号の受信に応じて前記障害情報を前記記憶部に格納するシステム管理コントローラと、
前記障害情報の前記記憶部への格納に失敗した場合に前記障害情報を前記管理用コンピュータに送信する送信手段とを具備するコンピュータ。
前記システム管理コントローラは、
前記障害情報が通知設定によって指定された障害を示す情報を含む場合に、送信先情報に基づいて前記障害情報の少なくとも一部を管理者端末に送信する請求項１に記載のコンピュータ。
ネットワークに接続される第１のコンピュータと前記ネットワークに接続される管理用コンピュータとを含むコンピュータシステムであって、
前記第１のコンピュータは、
第１の記憶部と、
前記第１のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成する生成手段と、
前記障害情報が生成された場合に第１の指示信号を発行する発行手段と、
前記発行手段からの前記第１の指示信号の受信に応じて前記障害情報を前記第１の記憶部に格納するシステム管理コントローラと、
前記障害情報の前記第１の記憶部への格納に失敗した場合に前記障害情報を前記管理用コンピュータに送信する送信手段とを具備し、
前記管理用コンピュータは、
第２の記憶部と、
前記障害情報を前記第２の記憶部に格納するシステム管理手段を具備するコンピュータシステム。
前記システム管理コントローラは、
前記障害情報が通知設定によって指定された障害を示す情報を含む場合に、送信先情報に基づいて前記障害情報の少なくとも一部を管理者端末に送信する請求項３に記載のコンピュータシステム。
前記管理用コンピュータは、前記通知設定と前記送信先情報とを取得する取得手段を更に具備し、
前記システム管理手段は、前記障害情報が前記取得した通知設定によって指定された障害を示す情報を含む場合に、前記取得した送信先情報に基づいて前記障害情報の少なくとも一部を前記管理者端末に送信する請求項４に記載のコンピュータシステム。
前記コンピュータシステムは、前記ネットワークに接続される第２のコンピュータを更に具備し、
前記第２のコンピュータは、
第３の記憶部と、
前記第２のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す第２の障害情報を生成する生成手段と、
前記第２の障害情報が生成された場合に第２の指示信号を発行する第１の発行手段と、
前記第１の発行手段からの前記第２の指示信号の受信に応じて前記第２の障害情報を前記第３の記憶部に格納する第２のシステム管理コントローラと、
前記第２の障害情報の前記第３の記憶部への格納に失敗した場合に前記第２の障害情報を前記管理用コンピュータに送信する送信手段とを具備し、
前記管理用コンピュータは、前記第２の障害情報を前記第２の記憶部に格納する請求項３記載のコンピュータシステム。
ネットワークに接続される第１のコンピュータと前記ネットワークに接続される管理用コンピュータとを含むコンピュータシステムによる障害情報管理方法であって、
前記第１のコンピュータが、前記第１のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成し、
前記第１のコンピュータが、前記障害情報が生成された場合に第１の指示信号を発行し、
前記第１のコンピュータに設けられたシステム管理コントローラが、前記第１の指示信号の受信に応じて前記障害情報を前記第１のコンピュータに設けられた第１の記憶部に格納し、
前記障害情報の前記第１の記憶部への格納に失敗した場合に、前記システム管理コントローラが、前記障害情報を前記管理用コンピュータに送信し、
前記管理用コンピュータが、前記障害情報を前記管理用コンピュータに設けられた第２の記憶部に格納する障害情報管理方法。