JPWO2012046293A1 - 障害監視装置、障害監視方法及びプログラム - Google Patents

障害監視装置、障害監視方法及びプログラム Download PDF

Info

Publication number
JPWO2012046293A1
JPWO2012046293A1 JP2012537503A JP2012537503A JPWO2012046293A1 JP WO2012046293 A1 JPWO2012046293 A1 JP WO2012046293A1 JP 2012537503 A JP2012537503 A JP 2012537503A JP 2012537503 A JP2012537503 A JP 2012537503A JP WO2012046293 A1 JPWO2012046293 A1 JP WO2012046293A1
Authority
JP
Japan
Prior art keywords
log data
cpu
monitoring targets
monitoring
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012537503A
Other languages
English (en)
Inventor
光生 杉本
光生 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012046293A1 publication Critical patent/JPWO2012046293A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3075Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved in order to maintain consistency among the monitored data, e.g. ensuring that the monitored data belong to the same timeframe, to the same system or component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

サーバ10のシステム管理ファームウエア16が、複数の監視対象(即ち、複数のエラーステータスレジスタ)、複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信し、ログデータの取得開始条件が満たされた場合に、指定された時間間隔に従って、複数の監視対象からログデータを取得し、取得されたログデータを時間順に従って一覧形式で出力する。

Description

本発明は、障害監視装置、障害監視方法及びプログラムに関する。
図1は、従来の障害監視システムの構成図である。図1において、障害監視システム1は、サーバ2及びシステム制御端末7を備えている。サーバ2は、CPU(Central Processing Unit)3A〜3C、チップセット4A〜4C、マイクロコントローラ5及びBIOS(Basic Input/Output System)6A〜6Cを備えている。
障害監視システム1において、例えば、CPU3Aにエラーが発生すると(図1の(1))、CPU3AはBIOS6Aに割り込みを通知する(図1の(2))。BIOS6Aは、マイクロコントローラ5内のシステム管理ファームウエアにエラーの発生を報告する(図1の(3))。このとき、CPU3Bに2次エラーが発生したと仮定する(図1の(4))。2次エラーは、最初のエラー、即ちCPU3Aに発生したエラーに起因するエラーである。システム管理ファームウエアは、最初のエラー報告をトリガとして、CPU3A〜3C及びチップセット4A〜4C内のエラーステータスレジスタの値を読み出す(図1の(5))。システム管理ファームウエアは、読み出されたエラーステータスレジスタの値をシステム制御端末7に送信し、読み出されたエラーステータスレジスタの値をシステム制御端末7に表示させる(図1の(6))。
この場合、ユーザが、システム制御端末7に表示されたCPU3A及び3B内のエラーステータスレジスタの値を見ても、ユーザは最初のエラーと2次エラーの区別ができない。これは、CPU3AがBIOS6Aに割り込みを通知してから、システム管理ファームウエアが全CPU及び全チップセットのエラーステータスレジスタの値を読み出すまでの間に、2次エラーが発生しているからである。
そこで、エラーが発生しているCPUがBIOSに割り込みを通知するか否かによらず、単一のCPU又は単一のチップセットに含まれるエラーステータスレジスタのログ情報を周期的に収集するログ情報収集方法が知られている(例えば、特許文献1参照)。
図2は、図1の複数のエラーステータスレジスタの値を読み出す方法と異なる方法を示す図である。
まず、システム制御端末7が、CPU3Aのエラーステータスレジスタの値を読み出す要求をマイクロコントローラ5内のシステム管理ファームウエアに出力する(図2の(1))。システム管理ファームウエアは、CPU3Aに対してエラーステータスレジスタの値を読み出すコマンドを発行する(図2の(2))。CPU3Aは、自身のエラーステータスレジスタの値をシステム管理ファームウエアに転送する(図2の(3))。システム管理ファームウエアは、CPU3Aのエラーステータスレジスタの値をシステム制御端末7に転送する(図2の(4))。ここで、システム制御端末7は、CPU3Aのエラーステータスレジスタの値を取得したので、システム制御端末7は、CPU3Bのエラーステータスレジスタの値を読み出す要求を出力できる状態になる。
次いで、システム制御端末7が、CPU3Bのエラーステータスレジスタの値を読み出す要求をマイクロコントローラ5内のシステム管理ファームウエアに出力する(図2の(5))。システム管理ファームウエアは、CPU3Bに対してエラーステータスレジスタの値を読み出すコマンドを発行する(図2の(6))。CPU3Bは、自身のエラーステータスレジスタの値をシステム管理ファームウエアに転送する(図2の(7))。システム管理ファームウエアは、CPU3Bのエラーステータスレジスタの値をシステム制御端末7に転送する(図2の(8))。
このように、システム制御端末7が複数のCPU又は複数のチップセットのエラーステータスレジスタの値を読み出す場合、1つのCPUのエラーステータスレジスタの値を読み出す処理が完了してから、次のCPUに対する処理が実行される。
このように、複数の対象装置から周期的にログデータを収集し、表示する統合監視装置は、従来から知られている(例えば、特許文献2参照)。
特開平9−321728号公報 特開平11−353145号公報
ところで、上記特許文献1のログ情報収集方法は、単一のCPU又は単一のチップセットに含まれるエラーステータスレジスタのログ情報を周期的に収集するので、同一のタイミングで複数のCPU又は複数のチップセットのエラーステータスレジスタの値を読み出すことができない。また、特許文献2の統合監視装置も、周期的にログデータを収集するのみであり、同一のタイミングで複数のCPU又は複数のチップセットのエラーステータスレジスタの値を読み出すことができない。従って、特許文献1及び2では、複数のCPU又は複数のチップセットでエラーが発生した場合に、最初にエラーを発生したCPU又はチップセットを特定することが困難であるという課題がある。
上記課題に鑑み、明細書に開示された障害監視装置、障害監視方法及びプログラムは、複数の監視対象の中から、障害の原因となる監視対象を容易に特定することができることを目的とする。
上記目的を達成するため、明細書に開示された障害監視装置は、複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段と、前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段と、前記取得されたログデータを時間順に従って一覧形式で出力する出力手段とを備える。
明細書に開示された障害監視方法は、複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信し、前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得し、前記取得されたログデータを時間順に従って一覧形式で出力する。
明細書に開示されたプログラムは、コンピュータを、複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段、前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段、及び前記取得されたログデータを時間順に従って一覧形式で出力する出力手段として機能させる。
明細書に開示された障害監視装置、障害監視方法及びプログラムは、複数の監視対象の中から、障害の原因となる監視対象を容易に特定することができる。
従来の障害監視システムの構成図である。 図1の複数のエラーステータスレジスタの値を読み出す方法と異なる方法を示す図である。 (A)は、本実施の形態にかかる障害監視システムの構成図である。(B)は、サーバに含まれる各CPUの構成を示す模式図である。(C)は、サーバに含まれる各チップセットの構成を示す模式図である。 指定情報を設定するためのシステム制御端末30の設定画面の一例を示す図である。 障害再現試験で実行される処理を示すフローチャートである。 ログデータを表示するシステム制御端末30の表示画面の一例を示す図である。 図3(A)の障害監視システム100の変形例を示す模式図である。 ログデータを表示するシステム制御端末30の表示画面の一例を示す図である。
以下、図面を参照しながら本発明の実施の形態を説明する。
図3(A)は、本実施の形態にかかる障害監視システムの構成図である。図3(B)は、サーバに含まれる各CPUの構成を示す模式図である。図3(C)は、サーバに含まれる各チップセットの構成を示す模式図である。
図3(A)において、障害監視システム100は、障害監視装置としてのサーバ10と、システム制御端末30とを備えている。サーバ10は、CPU(Central Processing Unit)11A〜11C、チップセット12A〜12C、マイクロコントローラ13(受信手段、取得手段、出力手段として機能する)及びBIOS(Basic Input/Output System)14A〜14Cを備えている。マイクロコントローラ13は、システム管理ファームウエア16とRAM15を備えている。RAM15は、システム制御端末30で指定された指定情報と、CPU及び/又はチップセットからのログデータとを保存する。
指定情報は、(1)ログデータの取得先、即ち、監視対象であるCPU及び/又はチップセット内のレジスタを指定する情報、(2)ログデータの取得開始条件、即ちトリガを指定する情報、及び(3)ログデータを取得する時間間隔を指定する情報を含む。システム管理ファームウエア16は、この指定情報をシステム制御端末30から受信し、受信した指定情報に基づいて、指定されたCPU及び/又はチップセット内のレジスタからログデータを取得する。取得したログデータはRAM15に保存される。
また、マイクロコントローラ13は、IIC(Inter-Integrated Circuit)バス17を介して、各CPU及び各チップセットに接続されている。また、マイクロコントローラ13は、LAN(Local Area Network)を介してシステム制御端末30に接続されている。システム制御端末30は、コンピュータや携帯端末のような情報処理端末である。
図3(B)に示すように、CPU11A〜11Cの各々は、複数のレジスタ111−1〜111−N(N=2,3…)を備えている。この複数のレジスタの1つは、CPUのエラー状態を示すエラーステータスレジスタである。残りのレジスタは、より詳細なエラーステータスを示すレジスタやCPU間伝送路のCRC(Cyclic Redundancy Check)エラーカウンタの値を保持するレジスタ、アドレスレジスタ及びコントロールレジスタなどの少なくとも1つである。
同様に、図3(C)に示すように、チップセット12A〜12Cの各々は、複数のレジスタ121−1〜121−N(N=2,3…)を備えている。この複数のレジスタの1つは、チップセットのエラー状態を示すエラーステータスレジスタであり、残りのレジスタは、汎用レジスタ、アドレスレジスタ及びコントロールレジスタなどの少なくとも1つである。
各CPU又は各チップセット内のレジスタのログデータは、各CPU又は各チップセットに含まれているエラーステータスレジスタから読み出される値である。例えば、エラー状態を「1」の値とする論理で設計されているCPUまたはチップセットにおいて、エラーステータスレジスタから読み出される値が「1」である場合は、そのエラーステータスレジスタを含むCPU又はチップセットは異常状態である。例えば、エラーステータスレジスタから読み出される値が「0」である場合は、そのエラーステータスレジスタを含むCPU又はチップセットは正常状態である。
また、ログデータの取得開始条件は、任意の1つのレジスタの値を使って指定することができる。例えば、CPU間伝送路のCRC(Cyclic Redundancy Check)エラーカウンタの値を保持するレジスタが所定値を超えた場合をログデータの取得開始条件として指定することができる。さらに、ログデータの取得開始条件は、例えば、時間やクロック数などを使って指定してもよい。
図4は、指定情報を設定するためのシステム制御端末30の設定画面の一例を示す図である。
図4の設定画面40は、ログデータの取得先を指定する欄41、ログデータの取得開始条件を指定する欄42、ログデータを取得する時間間隔を指定する欄43、及びログデータの取得停止条件を指定する欄44を含む。欄41には、例えば、CPUやチップセット内レジスタのアドレス又はIDが記載される。欄42には、例えば、「汎用レジスタの値=1」のような条件が記載される。欄43には、例えば、10msのような時間間隔が記載される。欄44には、「全レジスタの値=1」のような条件又は「1分間」のような停止時間が記載される。欄44において、ログデータの取得停止条件を予め指定することで、ログデータの取得を自動で停止することができる。ユーザが設定画面40のOKボタンを押下すると、欄41〜44に記載された情報が指定情報としてマイクロコントローラ13に送信され、RAM15に保存される。
尚、指定情報を設定する方法は、図4の設定画面40を利用する方法に限定されない。例えば、システム制御端末30が、ユーザからの指示に応じて、ログデータの取得先を指定するコード、ログデータの取得開始条件を指定するコード及びログデータを取得する時間間隔を指定するコードを含むコマンドを作成し、そのコマンドを指定情報としてマイクロコントローラ13に送信してもよい。
また、ログデータの取得停止条件は、必ずしも指定情報に含まれなくてもよい。この場合、システム制御端末30は、ユーザからの指示に応じて、ログデータの取得を停止する停止コマンドを作成し、その停止コマンドをマイクロコントローラ13に送信してもよい。つまり、障害監視システム100は、ログデータの取得を手動で停止することもできる。
次に、図3(A)及び図5を参照しながら、障害監視システム100の動作を説明する。ここでの障害監視システム100の動作は、サーバ10で発生した障害の原因を探るための障害再現試験で実行される処理を示す。図5は、障害再現試験で実行される処理を示すフローチャートである。
まず、システム制御端末30は、ユーザによって指定された、ログデータの取得先、ログデータの取得開始条件(トリガ)及びログデータを取得する時間間隔を指定情報としてマイクロコントローラ13に送信する(ステップS1)。マイクロコントローラ13は指定情報を受信する。
マイクロコントローラ13内のシステム管理ファームウエア16は、ログデータの取得開始条件が満たされると(即ち、トリガがかかる)、ログデータの読み出しを実行する。このとき、システム管理ファームウエア16は、ログデータの取得先として指定されたCPU及び/又はチップセット内のエラーステータスレジスタの値(ログデータ)を、指定された時間間隔で読み出す(ステップS2)。図3(A)の例では、ログデータの取得先としてCPU11A及び11Bのエラーステータスレジスタが指定されているが、これらに限定されるものではない。
システム管理ファームウエア16は、読み出したログデータを順次RAM15に保存する(ステップS3)。ステップS3の動作は、システム管理ファームウエア16がシステム制御端末30からの停止コマンドを受信するか又は予め指定したログデータの取得停止条件に到達するまで、継続して実行される。
その後、例えば、CPU11Aにエラーが発生すると(ステップS4)、CPU11AはBIOS14Aに割り込みを通知する(ステップS5)。BIOS14Aは、システム管理ファームウエア16にエラーの発生を報告する(ステップS6)。次に、CPU11Bに2次エラーが発生したと仮定する(ステップS7)。2次エラーは、最初のエラー、即ちCPU11Aに発生したエラーに起因するエラーである。
その後、システム管理ファームウエア16がシステム制御端末30からの停止コマンドを受信した場合又は予め指定したログデータの取得停止条件に到達した場合に、ログデータの読み出しは終了する。このとき、システム管理ファームウエア16は、ログデータをRAM15に保存することを停止する(ステップS8)。システム管理ファームウエア16は、システム制御端末30からの読み出しコマンドに応じて、RAM15に保存されたログデータをシステム制御端末30に出力する(ステップS9)。ここでは、システム管理ファームウエア16は、RAM15に保存されたログデータを各エラーステータスレジスタから取得した時間順に従ってシステム制御端末30に一覧形式で表示又は出力させている。
尚、上記ステップS8、S9に代えて、システム管理ファームウエア16は、停止コマンドを受信するまで又はログデータの取得停止条件に到達するまで、RAM15に保存されたログデータを一定の間隔(例えば100ms)でシステム制御端末30に出力してもよい。
図6は、ログデータを表示するシステム制御端末30の表示画面の一例を示す図である。ここでは、システム制御端末30はシステム管理ファームウエア16から取得したログデータを画面に表示しているが、システム管理ファームウエア16から取得したログデータを印刷してもよい又はファイルとして出力してもよい。
図6において、時間は、図6の1行目から下に向かって進行する。図6の1行目に示すように、ログデータの取得開始時には、CPU11A及び11Bのエラーステータスレジスタの値が共に0である。図6の3行目の時点で、CPU11Aのエラーステータスレジスタの値が「1」に変化している。図6の8行目の時点で、CPU11Bのエラーステータスレジスタの値が「1」に変化している。これにより、CPU11A及び11Bに障害が発生した場合であっても、ユーザは、CPU11Aが最初に障害を発生していることを確認できる。また、ユーザは、最初の障害再現試験で障害の原因を確認できない場合には、ログデータの取得先、ログデータの取得開始条件(トリガ)及びログデータを取得する時間間隔の少なくとも1つを適宜変更し、障害再現試験を繰り返し実行することで、障害の原因を確認することができる。
図7は、図3(A)の障害監視システム100の変形例を示す模式図である。
図7において、障害監視システム200は、サーバ50及びシステム制御端末30を備えている。サーバ50は、例えば、ブレードサーバであり、システムボード60及び70と、マイクロコントローラ80を備えている。システムボード60は、CPU61、CPU62、IO HUB63、及びBMC(Baseboard Management Controller)64を備えている。CPU61及び62は、様々な演算を実行する。IO HUB63は、CPU61又は62と様々なIOデバイスとの通信を行うインターフェースを提供するチップである。BMC64は、CPU61、CPU62及びIO HUB63のハードウェア・エラーを監視して、監視結果をシステム管理ファームウエア83に通知する。
CPU61はレジスタ61A及び61Bを備え、CPU62はレジスタ62A及び62Bを備えている。IO HUB63は、レジスタ63A及び63Bを備えている。CPU61、CPU62及びIO HUB63は、2つ以上のレジスタを備えていてもよい。また、CPU61、CPU62及びIO HUB63の各々は、少なくともエラーステータスレジスタを備えている。例えば、レジスタ61A〜63Aがエラーステータスレジスタである。例えば、レジスタ61B〜63Bのいずれか1つは、ログデータの取得開始条件(トリガ)の対象になる。
CPU61はFSB(Front Side Bus)、 QPI(Quick Path Interconnect)、又はHyperTransportのような接続技術を介して、CPU62及びIO HUB63に接続されている。また、CPU61はコネクタ65を介してシステムボード70内のCPU71に接続されている。CPU62はFSB、QPI、又はHyperTransportのような接続技術を介して、IO HUB63に接続されている。また、CPU62は、コネクタ66を介してシステムボード70内のCPU72に接続されている。BMC64は、IIC(Inter-Integrated Circuit)バスを介して、CPU61、CPU62及びIO HUB63に接続されている。また、BMC64は、IICまたは内部LANを介してマイクロコントローラ80に接続されている。
マイクロコントローラ80は、システム管理ファームウエア83及び上述した指定情報を保存するRAM81と、各CPU及び/又は各IO HUBのログデータを保存するRAM82とを備えている。システム管理ファームウエア83は、マイクロコントローラ80によってROM84から読み出されて稼働する。尚、RAM81及びRAM82は1つのRAMで構成されていてもよい。システムボード70の構成は、システムボード60の構成と同様であるので、その説明は省略する。
以上のように構成された障害監視システム200において、ユーザは、システム制御端末30上で、ログデータの取得先、ログデータの取得開始条件、及びログデータを取得する時間間隔を指定する。例えば、ユーザは、ログデータの取得先として、CPU61のレジスタ61A、IO HUB63のレジスタ63A、及びCPU71のレジスタ71Aを指定する。また、ユーザは、ログデータの取得開始条件(トリガ)として、CPU61のレジスタ61Bの値が「0」から「1」に変化することを指定する。さらに、ユーザは、ログデータを取得する時間間隔として、10msを指定する。システム制御端末30は、ユーザによって指定された、ログデータの取得先、ログデータの取得開始条件、及びログデータを取得する時間間隔を含む指定情報をマイクロコントローラ80に送信する。マイクロコントローラ80が指定情報を受信する。
システム管理ファームウエア83は、CPU61のレジスタ61Bの値が「0」から「1」に変化すると、BMC64及び74を介して、CPU61のレジスタ61A、IO HUB63のレジスタ63A、及びCPU71のレジスタ71Aの値を10ms間隔で取得する。取得された値、即ちログデータは、順次RAM82に保存される。その後、システム管理ファームウエア83は、システム制御端末30からの停止コマンドを受信した場合に、CPU61のレジスタ61A、IO HUB63のレジスタ63A、及びCPU71のレジスタ71Aの値の取得を終了する。システム管理ファームウエア83は、システム制御端末30からの読み出しコマンドに応じて、RAM82に保存されたログデータをシステム制御端末30に出力する。
図8は、ログデータを表示するシステム制御端末30の表示画面の一例を示す図である。ここでは、システム制御端末30はシステム管理ファームウエア83から取得したログデータを画面に表示しているが、システム管理ファームウエア83から取得したログデータを印刷してもよい又はファイルとして出力してもよい。
図8に示すように、各レジスタの値は時間順に従って一覧形式で表示され、時刻によって変化する。尚、時間は、図8の1行目から下に向かって進行する。図8の1行目に示すように、ログデータの取得開始時には、CPU61のレジスタ61A、IO HUB63のレジスタ63A、及びCPU71のレジスタ71Aの値が全て0である。図8において、「0」は、正常状態を示し、「1」は異常状態を示す。図8の3行目の時点で、CPU61のレジスタ61Aの値が「1」に変化している。図8の8行目の時点で、CPU71のレジスタ71Aの値が「1」に変化している。これにより、ユーザは、CPU61のレジスタ61Aの値の変化がCPU71のレジスタ71Aの値の変化よりも早いことを確認できる。即ち、ユーザは、CPU61が最初に障害を発生していることを確認できる。
以上説明したように、本実施の形態によれば、システム管理ファームウエア16又は83が、複数の監視対象(複数のエラーステータスレジスタ)、複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する。そして、システム管理ファームウエア16又は83は、ログデータの取得開始条件が満たされた場合に、指定された時間間隔に従って、複数の監視対象からログデータを取得し、取得されたログデータを時間順に従って一覧形式で出力する。よって、ユーザは、複数のエラーステータスレジスタの値が遷移する様子を閲覧することができ、複数の監視対象の中から、障害の原因となる監視対象を容易に特定することができる。
CPUやチップセットが障害の発生を特定するための特別な機構を有していない場合には、ユーザはCPUやチップセットに含まれるエラーステータスレジスタの値を読み出して、障害の発生箇所を特定する必要がある。従って、CPUやチップセットが障害の発生を特定するための特別な機構を有していない場合に、本実施の形態にかかる障害監視システムは特に有効である。
サーバ10の機能を実現するためのソフトウェアのプログラムが記録されている記録媒体を、サーバ10に供給し、マイクロコントローラ13が記憶媒体に格納されたプログラムを読み出し実行することによっても、上記実施の形態と同様の効果を奏する。プログラムを供給するための記憶媒体としては、例えば、CD−ROM、DVD、ブルーレイ又はSDカードなどがある。また、マイクロコントローラ13が、サーバ10の機能を実現するためのソフトウェアのプログラムを実行することによっても、上記実施の形態と同様の効果を奏する。
10 サーバ
11A〜11C CPU
12A〜12C チップセット
13 マイクロコントローラ
14A〜14C BIOS
15 RAM
16 システム管理ファームウエア
30 システム制御端末
100 障害監視システム
マイクロコントローラ80は、上述した指定情報を保存するRAM81と、各CPU及び/又は各IO HUBのログデータを保存するRAM82とを備えている。システム管理ファームウエア83は、マイクロコントローラ80によってROM84から読み出されて稼働する。尚、RAM81及びRAM82は1つのRAMで構成されていてもよい。システムボード70の構成は、システムボード60の構成と同様であるので、その説明は省略する。

Claims (6)

  1. 複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段と、
    前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段と、
    前記取得されたログデータを時間順に従って一覧形式で出力する出力手段と
    を備えることを特徴とする障害監視装置。
  2. 前記複数の監視対象は、複数のプロセッサ、複数のチップセット、又はプロセッサ及びチップセットの組み合わせのいずれかに含まれる複数のエラーステータスレジスタであり、前記ログデータは、当該複数のエラーステータスレジスタの値であることを特徴とする請求項1に記載の障害監視装置。
  3. 前記指定情報は、さらに、前記ログデータの取得停止条件を含み、前記取得手段は、前記ログデータの取得停止条件が満たされた場合に、前記複数の監視対象からのログデータの取得を停止することを特徴とする請求項1又は2に記載の障害監視装置。
  4. 前記受信手段が外部装置から前記ログデータの取得停止命令を受信した場合に、前記取得手段は、前記複数の監視対象からのログデータの取得を停止することを特徴とする請求項1又は2に記載の障害監視装置。
  5. 複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信し、
    前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得し、
    前記取得されたログデータを時間順に従って一覧形式で出力することを特徴とする障害監視方法。
  6. コンピュータを、
    複数の監視対象、前記複数の監視対象からのログデータの取得開始条件、及び当該ログデータを取得する時間間隔を指定する指定情報を受信する受信手段、
    前記ログデータの取得開始条件が満たされた場合に、前記時間間隔に従って、前記複数の監視対象からログデータを取得する取得手段、及び
    前記取得されたログデータを時間順に従って一覧形式で出力する出力手段
    として機能させることを特徴とするプログラム。

JP2012537503A 2010-10-04 2010-10-04 障害監視装置、障害監視方法及びプログラム Pending JPWO2012046293A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/067397 WO2012046293A1 (ja) 2010-10-04 2010-10-04 障害監視装置、障害監視方法及びプログラム

Publications (1)

Publication Number Publication Date
JPWO2012046293A1 true JPWO2012046293A1 (ja) 2014-02-24

Family

ID=45927314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537503A Pending JPWO2012046293A1 (ja) 2010-10-04 2010-10-04 障害監視装置、障害監視方法及びプログラム

Country Status (4)

Country Link
US (1) US20130219229A1 (ja)
EP (1) EP2626790A1 (ja)
JP (1) JPWO2012046293A1 (ja)
WO (1) WO2012046293A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6163722B2 (ja) * 2012-09-14 2017-07-19 日本電気株式会社 資料採取システム、サーバ、資料採取方法及びプログラム
JP6040704B2 (ja) * 2012-10-24 2016-12-07 株式会社リコー 情報処理装置、及び情報処理システム
US9389940B2 (en) * 2013-02-28 2016-07-12 Silicon Graphics International Corp. System and method for error logging
JP2016012172A (ja) * 2014-06-27 2016-01-21 オムロン株式会社 通信システム、プログラマブル表示器、情報処理装置、動作制御方法、情報処理方法、およびプログラム
JP2017004329A (ja) * 2015-06-12 2017-01-05 株式会社東芝 処理装置、dsp基板、及び動作エラー原因特定方法
EP3268865B1 (en) * 2015-06-26 2021-08-04 Hewlett Packard Enterprise Development LP Self-tune controller
TWI632453B (zh) * 2015-10-02 2018-08-11 緯穎科技服務股份有限公司 監測伺服器的方法、監測裝置及監測系統
KR101956602B1 (ko) * 2017-06-14 2019-03-12 (주)클라우드네트웍스 로그 데이터 수집 장치
CN111625382B (zh) * 2020-05-21 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
KR20220010303A (ko) * 2020-07-17 2022-01-25 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작방법
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、***及介质
CN113986598B (zh) * 2021-10-29 2023-10-27 中汽创智科技有限公司 一种确定开机故障原因的方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064362A (ja) * 1992-06-17 1994-01-14 Fujitsu Ltd 同期トレース方式
JP2003150240A (ja) * 2001-11-08 2003-05-23 Digital Electronics Corp 制御システムのデータ伝送方法、および、そのプログラム
JP2004295321A (ja) * 2003-03-26 2004-10-21 Nec Software Chubu Ltd プロセス状態監視分析方式及び監視分析プログラム
JP2004348640A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd ネットワーク管理システム及びネットワーク管理方法
JP2008065668A (ja) * 2006-09-08 2008-03-21 Internatl Business Mach Corp <Ibm> 障害発生の原因箇所の発見を支援する技術
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP2010009313A (ja) * 2008-06-26 2010-01-14 Mitsubishi Electric Corp 障害予兆検知装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6088816A (en) * 1997-10-01 2000-07-11 Micron Electronics, Inc. Method of displaying system status

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064362A (ja) * 1992-06-17 1994-01-14 Fujitsu Ltd 同期トレース方式
JP2003150240A (ja) * 2001-11-08 2003-05-23 Digital Electronics Corp 制御システムのデータ伝送方法、および、そのプログラム
JP2004295321A (ja) * 2003-03-26 2004-10-21 Nec Software Chubu Ltd プロセス状態監視分析方式及び監視分析プログラム
JP2004348640A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd ネットワーク管理システム及びネットワーク管理方法
JP2008065668A (ja) * 2006-09-08 2008-03-21 Internatl Business Mach Corp <Ibm> 障害発生の原因箇所の発見を支援する技術
JP2008084080A (ja) * 2006-09-28 2008-04-10 Nec Computertechno Ltd 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP2010009313A (ja) * 2008-06-26 2010-01-14 Mitsubishi Electric Corp 障害予兆検知装置

Also Published As

Publication number Publication date
US20130219229A1 (en) 2013-08-22
WO2012046293A1 (ja) 2012-04-12
EP2626790A1 (en) 2013-08-14

Similar Documents

Publication Publication Date Title
WO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
US10698788B2 (en) Method for monitoring server, and monitoring device and monitoring system using the same
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US11231944B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to a dedicated physical button or trigger
EP2518627B1 (en) Partial fault processing method in computer system
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
WO2016197737A1 (zh) 自检处理方法、装置及***
US9021078B2 (en) Management method and management system
CN109032867A (zh) 一种故障诊断方法、装置及设备
EP2495660A1 (en) Information processing device and method for controlling information processing device
JP6504610B2 (ja) 処理装置、方法及びプログラム
JP2011159011A (ja) ジョブ監視システム及びジョブ監視プログラム
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN110704219B (zh) 一种硬件故障上报方法、装置和计算机存储介质
US9454452B2 (en) Information processing apparatus and method for monitoring device by use of first and second communication protocols
JP6133614B2 (ja) 障害ログ採取装置、障害ログ採取方法、及び、障害ログ採取プログラム
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
JP2011159234A (ja) 障害対応システム及び障害対応方法
JP4260441B2 (ja) システムヘルスチェックプログラム及びシステムヘルスチェック方法
JP2015022686A (ja) 解析システム
CN112084049A (zh) 用于监控基板管理控制器的常驻程序的方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140318

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140805