JPWO2012046293A1

JPWO2012046293A1 - 障害監視装置、障害監視方法及びプログラム

Info

Publication number: JPWO2012046293A1
Application number: JP2012537503A
Authority: JP
Inventors: 光生杉本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-10-04
Filing date: 2010-10-04
Publication date: 2014-02-24
Also published as: US20130219229A1; WO2012046293A1; EP2626790A1

Abstract

サーバ１０のシステム管理ファームウエア１６が、複数の監視対象（即ち、複数のエラーステータスレジスタ）、複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信し、ログデータの取得開始条件が満たされた場合に、指定された時間間隔に従って、複数の監視対象からログデータを取得し、取得されたログデータを時間順に従って一覧形式で出力する。

Description

本発明は、障害監視装置、障害監視方法及びプログラムに関する。

図１は、従来の障害監視システムの構成図である。図１において、障害監視システム１は、サーバ２及びシステム制御端末７を備えている。サーバ２は、ＣＰＵ（Central Processing Unit）３Ａ〜３Ｃ、チップセット４Ａ〜４Ｃ、マイクロコントローラ５及びＢＩＯＳ（Basic Input/Output System）６Ａ〜６Ｃを備えている。

障害監視システム１において、例えば、ＣＰＵ３Ａにエラーが発生すると（図１の（１））、ＣＰＵ３ＡはＢＩＯＳ６Ａに割り込みを通知する（図１の（２））。ＢＩＯＳ６Ａは、マイクロコントローラ５内のシステム管理ファームウエアにエラーの発生を報告する（図１の（３））。このとき、ＣＰＵ３Ｂに２次エラーが発生したと仮定する（図１の（４））。２次エラーは、最初のエラー、即ちＣＰＵ３Ａに発生したエラーに起因するエラーである。システム管理ファームウエアは、最初のエラー報告をトリガとして、ＣＰＵ３Ａ〜３Ｃ及びチップセット４Ａ〜４Ｃ内のエラーステータスレジスタの値を読み出す（図１の（５））。システム管理ファームウエアは、読み出されたエラーステータスレジスタの値をシステム制御端末７に送信し、読み出されたエラーステータスレジスタの値をシステム制御端末７に表示させる（図１の（６））。

この場合、ユーザが、システム制御端末７に表示されたＣＰＵ３Ａ及び３Ｂ内のエラーステータスレジスタの値を見ても、ユーザは最初のエラーと２次エラーの区別ができない。これは、ＣＰＵ３ＡがＢＩＯＳ６Ａに割り込みを通知してから、システム管理ファームウエアが全ＣＰＵ及び全チップセットのエラーステータスレジスタの値を読み出すまでの間に、２次エラーが発生しているからである。

そこで、エラーが発生しているＣＰＵがＢＩＯＳに割り込みを通知するか否かによらず、単一のＣＰＵ又は単一のチップセットに含まれるエラーステータスレジスタのログ情報を周期的に収集するログ情報収集方法が知られている（例えば、特許文献１参照）。

図２は、図１の複数のエラーステータスレジスタの値を読み出す方法と異なる方法を示す図である。

まず、システム制御端末７が、ＣＰＵ３Ａのエラーステータスレジスタの値を読み出す要求をマイクロコントローラ５内のシステム管理ファームウエアに出力する（図２の（１））。システム管理ファームウエアは、ＣＰＵ３Ａに対してエラーステータスレジスタの値を読み出すコマンドを発行する（図２の（２））。ＣＰＵ３Ａは、自身のエラーステータスレジスタの値をシステム管理ファームウエアに転送する（図２の（３））。システム管理ファームウエアは、ＣＰＵ３Ａのエラーステータスレジスタの値をシステム制御端末７に転送する（図２の（４））。ここで、システム制御端末７は、ＣＰＵ３Ａのエラーステータスレジスタの値を取得したので、システム制御端末７は、ＣＰＵ３Ｂのエラーステータスレジスタの値を読み出す要求を出力できる状態になる。

次いで、システム制御端末７が、ＣＰＵ３Ｂのエラーステータスレジスタの値を読み出す要求をマイクロコントローラ５内のシステム管理ファームウエアに出力する（図２の（５））。システム管理ファームウエアは、ＣＰＵ３Ｂに対してエラーステータスレジスタの値を読み出すコマンドを発行する（図２の（６））。ＣＰＵ３Ｂは、自身のエラーステータスレジスタの値をシステム管理ファームウエアに転送する（図２の（７））。システム管理ファームウエアは、ＣＰＵ３Ｂのエラーステータスレジスタの値をシステム制御端末７に転送する（図２の（８））。

このように、システム制御端末７が複数のＣＰＵ又は複数のチップセットのエラーステータスレジスタの値を読み出す場合、１つのＣＰＵのエラーステータスレジスタの値を読み出す処理が完了してから、次のＣＰＵに対する処理が実行される。

このように、複数の対象装置から周期的にログデータを収集し、表示する統合監視装置は、従来から知られている（例えば、特許文献２参照）。

特開平９−３２１７２８号公報特開平１１−３５３１４５号公報

ところで、上記特許文献１のログ情報収集方法は、単一のＣＰＵ又は単一のチップセットに含まれるエラーステータスレジスタのログ情報を周期的に収集するので、同一のタイミングで複数のＣＰＵ又は複数のチップセットのエラーステータスレジスタの値を読み出すことができない。また、特許文献２の統合監視装置も、周期的にログデータを収集するのみであり、同一のタイミングで複数のＣＰＵ又は複数のチップセットのエラーステータスレジスタの値を読み出すことができない。従って、特許文献１及び２では、複数のＣＰＵ又は複数のチップセットでエラーが発生した場合に、最初にエラーを発生したＣＰＵ又はチップセットを特定することが困難であるという課題がある。

上記課題に鑑み、明細書に開示された障害監視装置、障害監視方法及びプログラムは、複数の監視対象の中から、障害の原因となる監視対象を容易に特定することができることを目的とする。

上記目的を達成するため、明細書に開示された障害監視装置は、複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段と、前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段と、前記取得されたログデータを時間順に従って一覧形式で出力する出力手段とを備える。

明細書に開示された障害監視方法は、複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信し、前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得し、前記取得されたログデータを時間順に従って一覧形式で出力する。

明細書に開示されたプログラムは、コンピュータを、複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段、前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段、及び前記取得されたログデータを時間順に従って一覧形式で出力する出力手段として機能させる。

明細書に開示された障害監視装置、障害監視方法及びプログラムは、複数の監視対象の中から、障害の原因となる監視対象を容易に特定することができる。

従来の障害監視システムの構成図である。図１の複数のエラーステータスレジスタの値を読み出す方法と異なる方法を示す図である。（Ａ）は、本実施の形態にかかる障害監視システムの構成図である。（Ｂ）は、サーバに含まれる各ＣＰＵの構成を示す模式図である。（Ｃ）は、サーバに含まれる各チップセットの構成を示す模式図である。指定情報を設定するためのシステム制御端末３０の設定画面の一例を示す図である。障害再現試験で実行される処理を示すフローチャートである。ログデータを表示するシステム制御端末３０の表示画面の一例を示す図である。図３（Ａ）の障害監視システム１００の変形例を示す模式図である。ログデータを表示するシステム制御端末３０の表示画面の一例を示す図である。

以下、図面を参照しながら本発明の実施の形態を説明する。

図３（Ａ）は、本実施の形態にかかる障害監視システムの構成図である。図３（Ｂ）は、サーバに含まれる各ＣＰＵの構成を示す模式図である。図３（Ｃ）は、サーバに含まれる各チップセットの構成を示す模式図である。

図３（Ａ）において、障害監視システム１００は、障害監視装置としてのサーバ１０と、システム制御端末３０とを備えている。サーバ１０は、ＣＰＵ（Central Processing Unit）１１Ａ〜１１Ｃ、チップセット１２Ａ〜１２Ｃ、マイクロコントローラ１３（受信手段、取得手段、出力手段として機能する）及びＢＩＯＳ（Basic Input/Output System）１４Ａ〜１４Ｃを備えている。マイクロコントローラ１３は、システム管理ファームウエア１６とＲＡＭ１５を備えている。ＲＡＭ１５は、システム制御端末３０で指定された指定情報と、ＣＰＵ及び／又はチップセットからのログデータとを保存する。

指定情報は、（１）ログデータの取得先、即ち、監視対象であるＣＰＵ及び／又はチップセット内のレジスタを指定する情報、（２）ログデータの取得開始条件、即ちトリガを指定する情報、及び（３）ログデータを取得する時間間隔を指定する情報を含む。システム管理ファームウエア１６は、この指定情報をシステム制御端末３０から受信し、受信した指定情報に基づいて、指定されたＣＰＵ及び／又はチップセット内のレジスタからログデータを取得する。取得したログデータはＲＡＭ１５に保存される。

また、マイクロコントローラ１３は、IIC（Inter-Integrated Circuit）バス１７を介して、各ＣＰＵ及び各チップセットに接続されている。また、マイクロコントローラ１３は、LAN（Local Area Network）を介してシステム制御端末３０に接続されている。システム制御端末３０は、コンピュータや携帯端末のような情報処理端末である。

図３（Ｂ）に示すように、ＣＰＵ１１Ａ〜１１Ｃの各々は、複数のレジスタ１１１−１〜１１１−Ｎ（Ｎ＝２，３…）を備えている。この複数のレジスタの１つは、ＣＰＵのエラー状態を示すエラーステータスレジスタである。残りのレジスタは、より詳細なエラーステータスを示すレジスタやＣＰＵ間伝送路のＣＲＣ（Cyclic Redundancy Check）エラーカウンタの値を保持するレジスタ、アドレスレジスタ及びコントロールレジスタなどの少なくとも１つである。

同様に、図３（Ｃ）に示すように、チップセット１２Ａ〜１２Ｃの各々は、複数のレジスタ１２１−１〜１２１−Ｎ（Ｎ＝２，３…）を備えている。この複数のレジスタの１つは、チップセットのエラー状態を示すエラーステータスレジスタであり、残りのレジスタは、汎用レジスタ、アドレスレジスタ及びコントロールレジスタなどの少なくとも１つである。

各ＣＰＵ又は各チップセット内のレジスタのログデータは、各ＣＰＵ又は各チップセットに含まれているエラーステータスレジスタから読み出される値である。例えば、エラー状態を「１」の値とする論理で設計されているＣＰＵまたはチップセットにおいて、エラーステータスレジスタから読み出される値が「１」である場合は、そのエラーステータスレジスタを含むＣＰＵ又はチップセットは異常状態である。例えば、エラーステータスレジスタから読み出される値が「０」である場合は、そのエラーステータスレジスタを含むＣＰＵ又はチップセットは正常状態である。

また、ログデータの取得開始条件は、任意の１つのレジスタの値を使って指定することができる。例えば、ＣＰＵ間伝送路のＣＲＣ（Cyclic Redundancy Check）エラーカウンタの値を保持するレジスタが所定値を超えた場合をログデータの取得開始条件として指定することができる。さらに、ログデータの取得開始条件は、例えば、時間やクロック数などを使って指定してもよい。

図４は、指定情報を設定するためのシステム制御端末３０の設定画面の一例を示す図である。

図４の設定画面４０は、ログデータの取得先を指定する欄４１、ログデータの取得開始条件を指定する欄４２、ログデータを取得する時間間隔を指定する欄４３、及びログデータの取得停止条件を指定する欄４４を含む。欄４１には、例えば、ＣＰＵやチップセット内レジスタのアドレス又はＩＤが記載される。欄４２には、例えば、「汎用レジスタの値＝１」のような条件が記載される。欄４３には、例えば、１０ｍｓのような時間間隔が記載される。欄４４には、「全レジスタの値＝１」のような条件又は「１分間」のような停止時間が記載される。欄４４において、ログデータの取得停止条件を予め指定することで、ログデータの取得を自動で停止することができる。ユーザが設定画面４０のＯＫボタンを押下すると、欄４１〜４４に記載された情報が指定情報としてマイクロコントローラ１３に送信され、ＲＡＭ１５に保存される。

尚、指定情報を設定する方法は、図４の設定画面４０を利用する方法に限定されない。例えば、システム制御端末３０が、ユーザからの指示に応じて、ログデータの取得先を指定するコード、ログデータの取得開始条件を指定するコード及びログデータを取得する時間間隔を指定するコードを含むコマンドを作成し、そのコマンドを指定情報としてマイクロコントローラ１３に送信してもよい。

また、ログデータの取得停止条件は、必ずしも指定情報に含まれなくてもよい。この場合、システム制御端末３０は、ユーザからの指示に応じて、ログデータの取得を停止する停止コマンドを作成し、その停止コマンドをマイクロコントローラ１３に送信してもよい。つまり、障害監視システム１００は、ログデータの取得を手動で停止することもできる。

次に、図３（Ａ）及び図５を参照しながら、障害監視システム１００の動作を説明する。ここでの障害監視システム１００の動作は、サーバ１０で発生した障害の原因を探るための障害再現試験で実行される処理を示す。図５は、障害再現試験で実行される処理を示すフローチャートである。

まず、システム制御端末３０は、ユーザによって指定された、ログデータの取得先、ログデータの取得開始条件（トリガ）及びログデータを取得する時間間隔を指定情報としてマイクロコントローラ１３に送信する（ステップＳ１）。マイクロコントローラ１３は指定情報を受信する。

マイクロコントローラ１３内のシステム管理ファームウエア１６は、ログデータの取得開始条件が満たされると（即ち、トリガがかかる）、ログデータの読み出しを実行する。このとき、システム管理ファームウエア１６は、ログデータの取得先として指定されたＣＰＵ及び／又はチップセット内のエラーステータスレジスタの値（ログデータ）を、指定された時間間隔で読み出す（ステップＳ２）。図３（Ａ）の例では、ログデータの取得先としてＣＰＵ１１Ａ及び１１Ｂのエラーステータスレジスタが指定されているが、これらに限定されるものではない。

システム管理ファームウエア１６は、読み出したログデータを順次ＲＡＭ１５に保存する（ステップＳ３）。ステップＳ３の動作は、システム管理ファームウエア１６がシステム制御端末３０からの停止コマンドを受信するか又は予め指定したログデータの取得停止条件に到達するまで、継続して実行される。

その後、例えば、ＣＰＵ１１Ａにエラーが発生すると（ステップＳ４）、ＣＰＵ１１ＡはＢＩＯＳ１４Ａに割り込みを通知する（ステップＳ５）。ＢＩＯＳ１４Ａは、システム管理ファームウエア１６にエラーの発生を報告する（ステップＳ６）。次に、ＣＰＵ１１Ｂに２次エラーが発生したと仮定する（ステップＳ７）。２次エラーは、最初のエラー、即ちＣＰＵ１１Ａに発生したエラーに起因するエラーである。

その後、システム管理ファームウエア１６がシステム制御端末３０からの停止コマンドを受信した場合又は予め指定したログデータの取得停止条件に到達した場合に、ログデータの読み出しは終了する。このとき、システム管理ファームウエア１６は、ログデータをＲＡＭ１５に保存することを停止する（ステップＳ８）。システム管理ファームウエア１６は、システム制御端末３０からの読み出しコマンドに応じて、ＲＡＭ１５に保存されたログデータをシステム制御端末３０に出力する（ステップＳ９）。ここでは、システム管理ファームウエア１６は、ＲＡＭ１５に保存されたログデータを各エラーステータスレジスタから取得した時間順に従ってシステム制御端末３０に一覧形式で表示又は出力させている。

尚、上記ステップＳ８、Ｓ９に代えて、システム管理ファームウエア１６は、停止コマンドを受信するまで又はログデータの取得停止条件に到達するまで、ＲＡＭ１５に保存されたログデータを一定の間隔（例えば１００ｍｓ）でシステム制御端末３０に出力してもよい。

図６は、ログデータを表示するシステム制御端末３０の表示画面の一例を示す図である。ここでは、システム制御端末３０はシステム管理ファームウエア１６から取得したログデータを画面に表示しているが、システム管理ファームウエア１６から取得したログデータを印刷してもよい又はファイルとして出力してもよい。

図６において、時間は、図６の１行目から下に向かって進行する。図６の１行目に示すように、ログデータの取得開始時には、ＣＰＵ１１Ａ及び１１Ｂのエラーステータスレジスタの値が共に０である。図６の３行目の時点で、ＣＰＵ１１Ａのエラーステータスレジスタの値が「１」に変化している。図６の８行目の時点で、ＣＰＵ１１Ｂのエラーステータスレジスタの値が「１」に変化している。これにより、ＣＰＵ１１Ａ及び１１Ｂに障害が発生した場合であっても、ユーザは、ＣＰＵ１１Ａが最初に障害を発生していることを確認できる。また、ユーザは、最初の障害再現試験で障害の原因を確認できない場合には、ログデータの取得先、ログデータの取得開始条件（トリガ）及びログデータを取得する時間間隔の少なくとも１つを適宜変更し、障害再現試験を繰り返し実行することで、障害の原因を確認することができる。

図７は、図３（Ａ）の障害監視システム１００の変形例を示す模式図である。

図７において、障害監視システム２００は、サーバ５０及びシステム制御端末３０を備えている。サーバ５０は、例えば、ブレードサーバであり、システムボード６０及び７０と、マイクロコントローラ８０を備えている。システムボード６０は、ＣＰＵ６１、ＣＰＵ６２、ＩＯＨＵＢ６３、及びＢＭＣ(Baseboard Management Controller)６４を備えている。ＣＰＵ６１及び６２は、様々な演算を実行する。ＩＯＨＵＢ６３は、ＣＰＵ６１又は６２と様々なＩＯデバイスとの通信を行うインターフェースを提供するチップである。ＢＭＣ６４は、ＣＰＵ６１、ＣＰＵ６２及びＩＯＨＵＢ６３のハードウェア・エラーを監視して、監視結果をシステム管理ファームウエア８３に通知する。

ＣＰＵ６１はレジスタ６１Ａ及び６１Ｂを備え、ＣＰＵ６２はレジスタ６２Ａ及び６２Ｂを備えている。ＩＯＨＵＢ６３は、レジスタ６３Ａ及び６３Ｂを備えている。ＣＰＵ６１、ＣＰＵ６２及びＩＯＨＵＢ６３は、２つ以上のレジスタを備えていてもよい。また、ＣＰＵ６１、ＣＰＵ６２及びＩＯＨＵＢ６３の各々は、少なくともエラーステータスレジスタを備えている。例えば、レジスタ６１Ａ〜６３Ａがエラーステータスレジスタである。例えば、レジスタ６１Ｂ〜６３Ｂのいずれか１つは、ログデータの取得開始条件（トリガ）の対象になる。

ＣＰＵ６１はFSB（Front Side Bus）、 QPI（Quick Path Interconnect）、又はHyperTransportのような接続技術を介して、ＣＰＵ６２及びＩＯＨＵＢ６３に接続されている。また、ＣＰＵ６１はコネクタ６５を介してシステムボード７０内のＣＰＵ７１に接続されている。ＣＰＵ６２はFSB、QPI、又はHyperTransportのような接続技術を介して、ＩＯＨＵＢ６３に接続されている。また、ＣＰＵ６２は、コネクタ６６を介してシステムボード７０内のＣＰＵ７２に接続されている。ＢＭＣ６４は、IIC（Inter-Integrated Circuit）バスを介して、ＣＰＵ６１、ＣＰＵ６２及びＩＯＨＵＢ６３に接続されている。また、ＢＭＣ６４は、IICまたは内部ＬＡＮを介してマイクロコントローラ８０に接続されている。

マイクロコントローラ８０は、システム管理ファームウエア８３及び上述した指定情報を保存するＲＡＭ８１と、各ＣＰＵ及び／又は各ＩＯＨＵＢのログデータを保存するＲＡＭ８２とを備えている。システム管理ファームウエア８３は、マイクロコントローラ８０によってＲＯＭ８４から読み出されて稼働する。尚、ＲＡＭ８１及びＲＡＭ８２は１つのＲＡＭで構成されていてもよい。システムボード７０の構成は、システムボード６０の構成と同様であるので、その説明は省略する。

以上のように構成された障害監視システム２００において、ユーザは、システム制御端末３０上で、ログデータの取得先、ログデータの取得開始条件、及びログデータを取得する時間間隔を指定する。例えば、ユーザは、ログデータの取得先として、ＣＰＵ６１のレジスタ６１Ａ、ＩＯＨＵＢ６３のレジスタ６３Ａ、及びＣＰＵ７１のレジスタ７１Ａを指定する。また、ユーザは、ログデータの取得開始条件（トリガ）として、ＣＰＵ６１のレジスタ６１Ｂの値が「０」から「１」に変化することを指定する。さらに、ユーザは、ログデータを取得する時間間隔として、１０ｍｓを指定する。システム制御端末３０は、ユーザによって指定された、ログデータの取得先、ログデータの取得開始条件、及びログデータを取得する時間間隔を含む指定情報をマイクロコントローラ８０に送信する。マイクロコントローラ８０が指定情報を受信する。

システム管理ファームウエア８３は、ＣＰＵ６１のレジスタ６１Ｂの値が「０」から「１」に変化すると、ＢＭＣ６４及び７４を介して、ＣＰＵ６１のレジスタ６１Ａ、ＩＯＨＵＢ６３のレジスタ６３Ａ、及びＣＰＵ７１のレジスタ７１Ａの値を１０ｍｓ間隔で取得する。取得された値、即ちログデータは、順次ＲＡＭ８２に保存される。その後、システム管理ファームウエア８３は、システム制御端末３０からの停止コマンドを受信した場合に、ＣＰＵ６１のレジスタ６１Ａ、ＩＯＨＵＢ６３のレジスタ６３Ａ、及びＣＰＵ７１のレジスタ７１Ａの値の取得を終了する。システム管理ファームウエア８３は、システム制御端末３０からの読み出しコマンドに応じて、ＲＡＭ８２に保存されたログデータをシステム制御端末３０に出力する。

図８は、ログデータを表示するシステム制御端末３０の表示画面の一例を示す図である。ここでは、システム制御端末３０はシステム管理ファームウエア８３から取得したログデータを画面に表示しているが、システム管理ファームウエア８３から取得したログデータを印刷してもよい又はファイルとして出力してもよい。

図８に示すように、各レジスタの値は時間順に従って一覧形式で表示され、時刻によって変化する。尚、時間は、図８の１行目から下に向かって進行する。図８の１行目に示すように、ログデータの取得開始時には、ＣＰＵ６１のレジスタ６１Ａ、ＩＯＨＵＢ６３のレジスタ６３Ａ、及びＣＰＵ７１のレジスタ７１Ａの値が全て０である。図８において、「０」は、正常状態を示し、「１」は異常状態を示す。図８の３行目の時点で、ＣＰＵ６１のレジスタ６１Ａの値が「１」に変化している。図８の８行目の時点で、ＣＰＵ７１のレジスタ７１Ａの値が「１」に変化している。これにより、ユーザは、ＣＰＵ６１のレジスタ６１Ａの値の変化がＣＰＵ７１のレジスタ７１Ａの値の変化よりも早いことを確認できる。即ち、ユーザは、ＣＰＵ６１が最初に障害を発生していることを確認できる。

以上説明したように、本実施の形態によれば、システム管理ファームウエア１６又は８３が、複数の監視対象（複数のエラーステータスレジスタ）、複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する。そして、システム管理ファームウエア１６又は８３は、ログデータの取得開始条件が満たされた場合に、指定された時間間隔に従って、複数の監視対象からログデータを取得し、取得されたログデータを時間順に従って一覧形式で出力する。よって、ユーザは、複数のエラーステータスレジスタの値が遷移する様子を閲覧することができ、複数の監視対象の中から、障害の原因となる監視対象を容易に特定することができる。

ＣＰＵやチップセットが障害の発生を特定するための特別な機構を有していない場合には、ユーザはＣＰＵやチップセットに含まれるエラーステータスレジスタの値を読み出して、障害の発生箇所を特定する必要がある。従って、ＣＰＵやチップセットが障害の発生を特定するための特別な機構を有していない場合に、本実施の形態にかかる障害監視システムは特に有効である。

サーバ１０の機能を実現するためのソフトウェアのプログラムが記録されている記録媒体を、サーバ１０に供給し、マイクロコントローラ１３が記憶媒体に格納されたプログラムを読み出し実行することによっても、上記実施の形態と同様の効果を奏する。プログラムを供給するための記憶媒体としては、例えば、ＣＤ−ＲＯＭ、ＤＶＤ、ブルーレイ又はＳＤカードなどがある。また、マイクロコントローラ１３が、サーバ１０の機能を実現するためのソフトウェアのプログラムを実行することによっても、上記実施の形態と同様の効果を奏する。

１０サーバ
１１Ａ〜１１ＣＣＰＵ
１２Ａ〜１２Ｃチップセット
１３マイクロコントローラ
１４Ａ〜１４ＣＢＩＯＳ
１５ＲＡＭ
１６システム管理ファームウエア
３０システム制御端末
１００障害監視システム

マイクロコントローラ８０は、上述した指定情報を保存するＲＡＭ８１と、各ＣＰＵ及び／又は各ＩＯＨＵＢのログデータを保存するＲＡＭ８２とを備えている。システム管理ファームウエア８３は、マイクロコントローラ８０によってＲＯＭ８４から読み出されて稼働する。尚、ＲＡＭ８１及びＲＡＭ８２は１つのＲＡＭで構成されていてもよい。システムボード７０の構成は、システムボード６０の構成と同様であるので、その説明は省略する。

Claims

複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段と、
前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段と、
前記取得されたログデータを時間順に従って一覧形式で出力する出力手段と
を備えることを特徴とする障害監視装置。
前記複数の監視対象は、複数のプロセッサ、複数のチップセット、又はプロセッサ及びチップセットの組み合わせのいずれかに含まれる複数のエラーステータスレジスタであり、前記ログデータは、当該複数のエラーステータスレジスタの値であることを特徴とする請求項１に記載の障害監視装置。
前記指定情報は、さらに、前記ログデータの取得停止条件を含み、前記取得手段は、前記ログデータの取得停止条件が満たされた場合に、前記複数の監視対象からのログデータの取得を停止することを特徴とする請求項１又は２に記載の障害監視装置。
前記受信手段が外部装置から前記ログデータの取得停止命令を受信した場合に、前記取得手段は、前記複数の監視対象からのログデータの取得を停止することを特徴とする請求項１又は２に記載の障害監視装置。
複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信し、
前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得し、
前記取得されたログデータを時間順に従って一覧形式で出力することを特徴とする障害監視方法。
コンピュータを、
複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段、
前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段、及び
前記取得されたログデータを時間順に従って一覧形式で出力する出力手段
として機能させることを特徴とするプログラム。