JPWO2011051999A1 - 情報処理装置及び情報処理装置の制御方法 - Google Patents

情報処理装置及び情報処理装置の制御方法 Download PDF

Info

Publication number
JPWO2011051999A1
JPWO2011051999A1 JP2011538107A JP2011538107A JPWO2011051999A1 JP WO2011051999 A1 JPWO2011051999 A1 JP WO2011051999A1 JP 2011538107 A JP2011538107 A JP 2011538107A JP 2011538107 A JP2011538107 A JP 2011538107A JP WO2011051999 A1 JPWO2011051999 A1 JP WO2011051999A1
Authority
JP
Japan
Prior art keywords
log
hardware
error
unit
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011538107A
Other languages
English (en)
Inventor
鈴木 康夫
康夫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2011051999A1 publication Critical patent/JPWO2011051999A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)

Abstract

プロセッサと複数のハードウェアユニットとを有する情報処理装置の制御方法において、該プロセッサは、該情報処理装置内のハードウェアユニットの異常状態を検出し、異常が有ったハードウェアユニットの識別情報を取得し、該識別情報に基づいて、異常識別情報を生成し、該プロセッサが実行した実行処理のログを記録し、該ハードウェアユニットの異常状態を検出した時点で記録されている該実行処理のログに該異常識別情報を付与し、該異常識別情報が付与された実行処理のログを出力する。

Description

本発明は、情報処理装置及び情報処理装置の制御方法に関する。
サーバシステムは複数のサーバ装置を有する。サーバシステムは高信頼性が求められる。サーバシステムは高信頼性を保つためサーバ管理装置を含む。サーバ管理装置はサーバシステムに含まれる各サーバ装置の運用状態を管理し、障害情報などを蓄積する。サーバ管理者は障害情報を用いて障害解析を行う。
サーバ管理装置は、以下の手法でハードウェアログとソフトウェアログとを一元管理する。サーバ装置においてハードウェアの障害が発生すると、サーバ管理装置はハードウェアの障害情報及びエラーの統計情報をサーバ装置から取得する。サーバ管理装置はハードウェアの障害情報の履歴をハードウェアログとして記憶する。サーバ管理装置は障害発生時にサーバ装置から転送されるハードウェアログを受け取る。サーバ管理装置は、サーバ装置からのハードウェアログに対し、エラーを識別するエラー識別IDを付与する。サーバ管理装置は、障害が発生したサーバ装置のサーバ管理者に、エラーが発生したことを示す情報をエラー識別IDも付与して通知する。エラー通知を受けたサーバ管理者は、サーバ装置において障害時にオペレーティング・システム(OS:Operating System)やアプリケーション等の動作の履歴を記憶したソフトウェアログを取得する。その後、サーバ管理者はエラー識別IDをソフトウェアログに付与し、サーバ管理装置にソフトウェアログを転送する。サーバ管理装置は、(エラーが関連する)エラー識別IDが付与されたソフトウェアログとハードウェアログを管理するため、それぞれのログをサーバ管理装置で一元管理することが可能になる。
しかし、上述した手法では、ハードウェアログと実行処理のログであるソフトウェアログとの対応付けをサーバ管理者が行っており、作業ミスが起こるおそれがある。また、サーバ管理装置がハードウェアログを取得する時間と、ソフトウェアログを取得する時間にはタイムラグがある。そのため、障害時のソフトウェアログを解析する際、サーバ管理者はタイムラグを考慮しなければならない。
先行技術文献としては、下記のものがある。
特開平11−119992号公報 特開2002−215431号公報 特開2008−059413号公報
本発明の課題は、ハードウェアエラーと実行処理のログの対応付けを自動で行うことである。
上記課題を解決するために、プロセッサと複数のハードウェアユニットとを有する情報処理装置の制御方法において、該プロセッサは、該情報処理装置内のハードウェアユニットの異常状態を検出し、異常が有ったハードウェアユニットの識別情報を取得し、該識別情報に基づいて、異常識別情報を生成し、該プロセッサが実行した実行処理のログを記録し、該ハードウェアユニットの異常状態を検出した時点で記録されている該実行処理のログに該異常識別情報を付与し、該異常識別情報が付与された実行処理のログを出力する。
本実施形態の一側面によれば、ハードウェアユニットの異常状態を検出した時点で記録されている実行処理のログに異常識別情報を付与する。そのため、ハードウェアエラーと実行処理のログとの対応付けを自動で行うことができる。
一実施形態における障害情報収集システムを示す図である。 一実施形態におけるハードウェアログの一例を示す図である。 一実施形態におけるエラー識別IDの一例を示す図である。 一実施形態におけるソフトウェアログの一例を示す図である。 一実施形態におけるエラー割り込みハンドラの処理のフローチャートである。 一実施形態におけるファームウェア障害処理のフローチャートである。 一実施形態におけるエラー監視プログラムのフローチャートである。 障害処理の全体を示す図である。 障害情報収集システムの一例を示す図(その1)である。 障害情報収集システムの一例を示す図(その2)である。
図1に一実施形態における障害情報収集システム0を示す。本実施形態では情報処理装置のOSに、標準のオープンソースであるLinux(登録商標)を適用した例を用いて説明する。
障害情報収集システム0は情報処理装置100、システム監視コンポーネント127及び情報支援システム131を有する。
情報処理装置100は、ハードウェア101、プロセッサである中央処理装置(CPU:Central Processing Unit)800及びハード・ディスク・ドライブ(HDD:Hard Disc Drive)115を有する。CPU800によって、オペレーティング・システム(OS:Operating System)119及びファームウェア105が実行される。OS119及びファームウェア105はCPU800によって実行されることで、OS119及びファームウェア105は以下に述べる様々な機能を有するようになる。
ハードウェア101は、ハードウェア101の障害や異常状態を検出するエラー検出部102を有する。ここで、ハードウェアとは、情報処理装置100を構成する内部構成部品、周辺機器等のことである。ハードウェア101は例えば、情報処理装置100と構内ネットワーク(LAN:Local Area Network)とを接続するための拡張カードであるネットワーク・インタフェース・カード(NIC:Network Interface Card)等のハードウェアユニットである。エラー検出部102は、エラーを検出するとエラー割り込みハンドラ103に対して割り込みを行う。
OS119には、エラー割り込み時に実行されるエラー割り込みハンドラ103及びエラー監視プログラム117が実装されている。
エラー割り込みハンドラ103は、ハードウェアエラー詳細ログ問い合わせ部104及びハードウェアエラー詳細ログ格納部114を有する。ハードウェアエラー詳細ログ問い合わせ部104は、エラー検出部102がエラーを検出すると、ハードウェアログ取得部106を呼び出す。ハードウェアエラー詳細ログ格納部114は、ハードウェアログをHDD115のハードウェアログ格納領域116に格納する。ハードウェアログ格納領域116については後述する。なお、本実施形態におけるハードウェアログは、障害発生時のハードウェアの状態を示すハードウェアのレジスタ情報である。なお、ハードウェアエラー詳細ログ問い合わせ部104及びハードウェアエラー詳細ログ格納部114はモジュールである。
図2にハードウェアログの一例を示す。ハードウェアログ500は、エラー種別502、エラー強度504、エラーの位置情報506及びエラー箇所のレジスタダンプ508を有する。エラー種別502は、発生したエラーの種別を表す。エラー強度504は、発生したエラーが訂正可能であるか否かを表す。エラーの位置情報506は、エラーが発生した位置を表す。エラー箇所のレジスタダンプ508は、どのハードウェアにエラーが発生しているかを特定するための情報である。
ファームウェア105は、ハードウェアログ取得部106、エラー識別ID作成部108、障害通知部110及びハードウェアログ通知部112を有する。ファームウェアはCPU800によって実行される。なお、ハードウェアログ取得部106、エラー識別ID作成部108、障害通知部110及びハードウェアログ通知部112はモジュールである。
ハードウェアログ取得部106はエラー割り込みハンドラ103から呼び出される。ハードウェアログ取得部106はハードウェアログを取得して加工する。異常識別情報を生成する生成部であるエラー識別ID作成部108はエラーを識別するエラー識別IDを作成し、作成したエラー識別IDをハードウェアログに付与する。異常識別情報であるエラー識別IDは、例えば、ハードウェアエラーの発生時間を監視するタイマから取得したエラー発生時間とNICのMACアドレス(MACA:Media Access Control Address)等のハードウェア固有の識別情報を組み合わせて作成すれば良い。このようなエラー識別IDを作成することで、エラー識別IDは情報処理装置100のハードウェアのどの障害ログとも同一になることはなく、ログ管理を時系列にかつ、サーバシステム毎に行うことができる。エラー識別IDはハードウェアログに付与され、以降障害に対して取得されるログ情報は全て、エラー識別IDで管理される。
図3にエラー識別IDの一例を示す。エラー識別ID600は、エラー発生時刻602及びMACアドレス604を有する。エラー発生時刻602は、エラーが発生した時刻を表す。MACアドレス604は上述したものと同様なので、その説明を省略する。
障害通知部110は、エラーが発生したことを障害支援システム131に通知するため、障害発生をシステム監視コンポーネント127に通知する。ハードウェアログ通知部112は、障害通知部110による障害の通知後、ハードウェアログをハードウェアエラー詳細ログ格納部114に通知する。
システム監視コンポーネント127は、エラー情報格納部128及びエラー統計情報格納部130を有する。エラー情報格納部128は、障害通知部110から通知されるエラー情報を格納する。エラー統計情報格納部130は、発生したエラーの種類の分布情報を格納する。
HDD115はエラーログを格納するエラーログ格納領域113を有する。エラーログ格納領域113は、ハードウェアログを格納するハードウェアログ格納領域116及びソフトウェアログを格納するソフトウェアログ格納領域126を有する。ハードウェアエラー詳細ログ格納部114は、ハードウェアログ通知部112からハードウェアログを取得すると、取得したハードウェアログをハードウェアログ格納領域116に格納する。なお、本実施形態におけるソフトウェアログは、例えば、障害発生時のOSやアプリケーションの動作を追跡するためのシスログである。
なお、本実施形態のOSは,システム上で発生した各種イベントや状態の変化を記録可能であるとする。本実施形態のOSで実行するプログラムは,複数のプロセスのログ情報をまとめて記録する。このログを「システム・ログ」,または縮めて「シスログ」とする。ソフトウェアログは、ソフトウェアの誤動作やユーザによるどの操作がハードウェア障害につながったかを追跡するために使用される。
図4にソフトウェアログの一例を示す。ソフトウェアログ700は、イベント発生時刻702及びイベントログ704を有する。イベント発生時刻702は、イベントが発生した時刻を表す。イベントログ704は、OSやアプリケーションの誤動作の原因を記録した情報である。
エラー監視プログラム117は、ハードウェアログ監視部118、エラー識別ID取得部120、ソフトウェアログ取得部122及びソフトウェアログ格納部124を有する。なお、ハードウェアログ監視部118、エラー識別ID取得部120、ソフトウェアログ取得部122及びソフトウェアログ格納部124はモジュールである。
ハードウェアログ監視部118は、ハードウェアエラー詳細ログ格納部114によってハードウェアログ格納領域116に新たにハードウェアログが格納されたか否かを監視する。ソフトウェアログ取得部122は、ハードウェアログ格納領域116に新たにハードウェアログが格納された場合、OSやアプリケーションのソフトウェアログを取得する。エラー識別ID取得部120は、ハードウェアログ格納領域116に新たにハードウェアログが格納されると、ハードウェアログからエラー識別IDを取得し、取得したエラー識別IDをソフトウェアログに付与する。ソフトウェアログ格納部124は、ソフトウェアログ格納領域126にソフトウェアログを格納する。
エラー識別ID取得部120によるソフトウェアログへのエラー識別IDの他の付与方法としては、以下の方法がある。例えば、ハードウェアエラーが検出された時点で、ソフトウェアログ取得部122によって取得されているソフトウェアログ全てにエラー識別IDを付与しても良い。また、例えば、ハードウェアエラーが検出された時点で、未だエラー識別IDが付与されていないソフトウェアログに対してエラー識別IDを付与しても良い。
情報支援システム131は、システム監視コンポーネント127のエラー情報格納部128に格納されているエラー情報及びエラー統計情報格納部130に格納されているエラーの種類の分布情報を取得する。また、情報支援システム131は、HDD115のハードウェアログ格納領域116に格納されているハードウェアログ及びソフトウェアログ格納領域126に格納されているソフトウェアログを取得する。サーバ管理者は、情報支援システム131によって取得された情報を参照して、情報処理装置100の障害解析を行うことができる。
図5に、一実施形態におけるエラー割り込みハンドラの処理のフローチャートを示す。ステップS101において、エラー割り込みハンドラ103は、エラー検出部102からエラー通知を受信する。処理はステップS102へ移行する。
ステップS102において、エラー割り込みハンドラ103は、ファームウェア105にエラー情報の問い合わせを行う。処理はステップS103へ移行する。
ステップS103において、エラー割り込みハンドラ103は、ファームウェア105からの応答を待つ。ファームウェアからの応答があった場合、処理はステップS104へ移行する。
ステップS104において、エラー割り込みハンドラ103は、ファームウェア105から取得したエラー情報をHDD115に格納する。処理は終了する。
図6に、一実施形態におけるファームウェア障害処理のフローチャートを示す。ステップS201において、ハードウェアログ取得部106はハードウェアデータを取得する。ハードウェアデータは、エラー解析を行うためのレジスタ情報である。処理はステップS202へ移行する。
ステップS202において、ハードウェアログ取得部106はステップS201において取得したハードウェアデータからハードウェアログを生成する。処理はステップS203へ移行する。
ステップS203において、エラー識別ID作成部108はエラー識別IDを作成する。処理はステップS204へ移行する。
ステップS204において、エラー識別ID作成部108はステップS203において作成したエラー識別IDをステップS202において生成したハードウェアログに付与する。処理はステップS205へ移行する。
ステップS205において、障害通知部110はエラー通知データを生成する。処理はステップS206へ移行する。
ステップS206において、障害通知部110はステップS205において生成したエラー通知データにエラー識別IDを付与する。処理はステップS207へ移行する。
ステップS207において、障害通知部110はシステム監視コンンポーネント127にエラーを通知する。処理はステップS208へ移行する。
ステップS208において、ハードウェアログ通知部112はハードウェアログをOS119に通知する。処理は終了する。
図7に、一実施形態におけるエラー監視プログラムのフローチャートを示す。ステップS301において、ハードウェアログ監視部118は、ハードウェアログのアップデートを監視する。処理はステップS302へ移行する。
ステップS302において、ハードウェアログ監視部118はハードウェアエラー詳細ログ格納部114によって、ハードウェアログ格納領域116にハードウェアログが新たに格納されたか否かを判定する。ハードウェアエラー詳細ログ格納部114によってハードウェアログがハードウェアログ格納領域116に新たに格納された場合(S302 YES)、処理はステップS303へ移行する。一方、ハードウェアログ格納領域116にハードウェアエラー詳細ログ格納部114によってハードウェアログが新たに格納されていない場合(S302 NO)、処理はステップS301へ戻る。
ステップS303において、エラー識別ID取得部120はハードウェアログを取得する。処理はステップS304へ移行する。
ステップS304において、エラー識別ID取得部120はハードウェアログからエラー識別IDを抽出する。処理はステップS305へ移行する。
ステップS305において、ソフトウェアログ取得部122はソフトウェアログを取得する。処理はステップS306へ移行する。
ステップS306において、エラー識別ID作成部108はソフトウェアログにエラー識別IDを付与する。処理はステップS307へ移行する。
ステップS307において、ソフトウェアログ格納部124はエラー識別IDが付与されたソフトウェアログをソフトウェアログ格納領域126に格納する。処理は終了する。
以上により、ファームウェアが、障害毎に取得したエラー識別IDをハードウェアログに付与し、エラー監視プログラムもソフトウェアログを収集する時にそのエラー識別IDでソフトウェアログを管理する。
そのため、エラー識別IDによってハードウェアログとソフトウェアログとを人手を介在することなく自動的にハードウェアエラーとソフトウェアのログ情報とを関連付けて記憶することができる。ゆえに、上記障害情報収集システムでは、障害が短時間に多発した場合でも、1障害に対しハードウェアログ取得、エラーID取得、ソフトウェアログ取得という一連の動作が実現でき、障害ごとにログ管理が可能となる。また、連続したハードウェア障害においても個々の障害のログ取得が可能となる。
また、ファームウェアがハードウェアログを取得し、エラー識別IDを取得した後、エラー発生通知をシステム監視コンポーネント127にすることで、障害支援システム131への通知が可能になる。このとき、システム監視コンポーネント127に通知するデータに、エラー識別IDも付与することで障害支援システム131に通知される障害情報ともエラー識別IDで管理することができる。
なお、上述したフローチャートをまとめたシーケンス図を図8に示す。
本実施形態の有用性について説明する。例えば、図9に示す障害情報収集システム2がある。情報処理装置200にてハードウェア障害が発生すると、サーバ監視システム300は情報処理装置200からハードウェアログを受信する。エラー識別ID付与部302は、情報処理装置200から受信したハードウェアログにエラー識別IDを付与する。ハードウェアログ格納部304は、エラー識別IDが付与されたハードウェアログをハードウェアログ格納領域316に格納する。障害・エラー識別ID通知部306は、ハードウェアエラーが発生したこと及びハードウェアログに付与されたエラー識別IDをサーバ管理者400に通知する。サーバ管理者400は、障害・エラー識別ID通知部306から通知を受けると、情報処理装置200のOSやアプリケーションのソフトウェアログを取得する。そして、サーバ管理者400は、取得したソフトウェアログをソフトウェアログ格納領域326に格納する際に、ハードウェアログに付与されたエラー識別IDをアップロードのキーコードとすることで、それぞれのログをサーバ監視システムで一元管理する。
また、例えば、図10に示す障害情報収集システム4がある。エラー検出部202はハードウェア201のハードウェアエラーを検出する。エラー検出部202はハードウェアエラーを検出すると、処理はOS219のエラー割り込みハンドラ203に移る。ハードウェアエラー詳細ログ問合せ部204は、ハードウェアログ取得部206にハードウェアログを問い合わせる。ハードウェアログ取得部206は取得したハードウェアログをハードウェア受け渡し部207に送信する。ハードウェア受け渡し部207は、受信したハードウェアログをハードウェアエラー詳細ログ格納部214に送信する。ハードウェアエラー詳細ログ格納部214は、受信したハードウェアログをハードウェアログ格納領域に格納する。
図9に示した障害情報収集システム2では、ハードウェアログとソフトウェアログの紐づけが自動になっておらず、サーバ管理者の作業ミスを起こしやすい。また、ハードウェアログの収集と、ソフトウェアログを収集する時間にはタイムラグがあり、障害時のソフトウェアログを解析するのにそのタイムラグを考慮する必要がある。そして、ログが密に記録されている状態では、ログのどの時点で障害が発生したかの判断ができない。さらに、短時間に連続して発生する障害では、サーバ監視システムに転送されるハードウェアログと、サーバ管理者が取得するソフトウェアログが1対1で対応付けられず、1つのソフトウェアログに対し、複数のハードウェアログが存在する。このような現象が起こると、お互いのログの参照が困難になり、またログの参照ミスの原因になり、サーバ管理者は誤った障害解析をしてしまう。
また、図10に示した障害情報収集システム4では、障害発生時にソフトウェアログを取得する機構がないため、障害解析者がソフトウェアログを必要とした場合、サーバ管理者に取得の依頼をする必要がある。また、障害発生時にエラー識別IDを取得しないため、障害管理を自動で行うことができない。
これに対し、本実施形態によれば、ハードウェアログとソフトウェアログとをエラー識別IDにより一元管理することができる。また、本実施形態によれば、ハードウェアログとソフトウェアログとが自動的に取得され、人手を介在しないことでタイムラグなく取得されるため,各ログの照合ミスを解消できる。また、本実施形態によれば、ソフトウェアログが自動で採取されるのでログの採取忘れが発生せず、障害時のソフトウェアログが上書きされて解析できないことを防ぐことができる。
また、例えば、ハードウェアログを取得する際に使用されるタイマと、ソフトウェアログを取得する際に使用されるタイマとが同期していない場合、サーバ管理者がハードウェアログ格納領域116及びソフトウェアログ格納領域126に格納されたログの時刻情報を参照したとしても、タイムラグを考慮してハードウェアログとソフトウェアログとを対応付けなければならない。これに対し、本実施形態によれば、ハードウェアエラーが検出された時点でソフトウェアエラーにエラー識別IDを付与するため、タイマが同期していなくても、エラー識別IDを参照すれば、あるハードウェアログに対応するソフトウェアログを特定することができる。
0、2、4 障害情報収集システム
100、200 情報処理装置
101、201 ハードウェア
102、202 エラー検出部
103、203 エラー割り込みハンドラ
104、204 ハードウェアエラー詳細ログ問い合わせ部
105、205 ファームウェア
106、206 ハードウェアログ取得部
108 エラー識別ID作成部
110 障害通知部
112 ハードウェアログ通知部
113 エラーログ格納領域
114、214 ハードウェアエラー詳細ログ格納部
115、215 HDD
116、216、316 ハードウェアログ格納領域
117 エラー監視プログラム
118 ハードウェアログ監視部
119、219 OS
120 エラー識別ID取得部
122 ソフトウェアログ取得部
124 ソフトウェアログ格納部
126、326 ソフトウェアログ格納領域
127 システム監視コンポーネント
128 エラー情報格納部
130 エラー統計情報格納部
131 情報支援システム
207 ハードウェア受け渡し部
300 サーバ監視システム
302 エラー識別ID付与部
306 障害・エラー識別ID通知部
400 サーバ管理者
500 ハードウェアログ
502 エラー種別
504 エラー強度
506 エラーの位置情報
508 エラー箇所のレジスタダンプ
600 エラー識別ID
602 エラー発生時刻
604 MACアドレス
700 ソフトウェアログ
702 イベント発生時刻
704 イベントログ
800 CPU

Claims (6)

  1. プロセッサと複数のハードウェアユニットとを有する情報処理装置の制御方法において、
    該プロセッサは、該情報処理装置内のハードウェアユニットの異常状態を検出し、
    異常が有ったハードウェアユニットの識別情報を取得し、
    該識別情報に基づいて、異常識別情報を生成し、
    該プロセッサが実行した実行処理のログを記録し、
    該ハードウェアユニットの異常状態を検出した時点で記録されている該実行処理のログに該異常識別情報を付与し、
    該異常識別情報が付与された実行処理のログを出力することを特徴とする情報処理装置の制御方法。
  2. 該識別情報と異常状態が検出された時間情報とに基づいて、該異常識別情報を生成することを特徴とする請求項1記載の情報処理装置の制御方法。
  3. ハードウェアユニットの異常状態の検出時に、該異常識別情報が付与されていない実行処理のログに該異常識別情報を付与することを特徴とする請求項1記載の情報処理装置の制御方法。
  4. プロセッサと複数のハードウェアユニットとを有する情報処理装置において、
    該情報処理装置内のハードウェアユニットの異常状態を検出する検出部と、
    異常が有ったハードウェアユニットの識別情報を取得する取得部と、
    該識別情報に基づいて、異常識別情報を生成する生成部と、
    該プロセッサが実行した実行処理のログを格納する格納部と、
    該検出部が該ハードウェアユニットの異常状態を検出した時点で該格納部に格納されている該実行処理のログに該異常識別情報を付与する付与部と、
    を有することを特徴とする情報処理装置。
  5. 該生成部は該識別情報と異常状態が検出された時間情報とに基づいて、該異常識別情報を生成することを特徴とする請求項4記載の情報処理装置。
  6. 該付与部はハードウェアユニットの異常状態の検出時に、該異常識別情報が付与されていない実行処理のログに該異常識別情報を付与することを特徴とする請求項4記載の情報処理装置。
JP2011538107A 2009-10-26 2009-10-26 情報処理装置及び情報処理装置の制御方法 Pending JPWO2011051999A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/005644 WO2011051999A1 (ja) 2009-10-26 2009-10-26 情報処理装置及び情報処理装置の制御方法

Publications (1)

Publication Number Publication Date
JPWO2011051999A1 true JPWO2011051999A1 (ja) 2013-03-14

Family

ID=43921446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011538107A Pending JPWO2011051999A1 (ja) 2009-10-26 2009-10-26 情報処理装置及び情報処理装置の制御方法

Country Status (4)

Country Link
US (1) US20120210176A1 (ja)
EP (1) EP2495660A4 (ja)
JP (1) JPWO2011051999A1 (ja)
WO (1) WO2011051999A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122930A1 (en) * 2012-10-25 2014-05-01 International Business Machines Corporation Performing diagnostic tests in a data center
JP5999254B2 (ja) * 2013-03-18 2016-09-28 富士通株式会社 管理装置、方法及びプログラム
JP7207009B2 (ja) * 2019-02-26 2023-01-18 日本電信電話株式会社 異常検知装置、異常検知方法および異常検知プログラム
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN113890818A (zh) * 2021-09-28 2022-01-04 广州超云科技有限公司 一种服务器中的设备更换报警方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366396A (ja) * 2001-06-06 2002-12-20 Nec Corp 故障解析情報自動採取システム及び故障解析情報自動採取プログラム
JP2003022200A (ja) * 2001-07-05 2003-01-24 Dainippon Screen Mfg Co Ltd 基板処理システム、基板処理装置、追加情報取得方法、プログラム及び記録媒体
JP2008059413A (ja) * 2006-09-01 2008-03-13 Hitachi Electronics Service Co Ltd 障害管理支援システム及びその情報管理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6170067B1 (en) * 1997-05-13 2001-01-02 Micron Technology, Inc. System for automatically reporting a system failure in a server
JPH11119992A (ja) 1997-10-09 1999-04-30 Nec Eng Ltd ファームウェアのトレース制御装置
JPH11296480A (ja) * 1998-04-06 1999-10-29 Hitachi Ltd 遠隔障害監視システム
US6643802B1 (en) * 2000-04-27 2003-11-04 Ncr Corporation Coordinated multinode dump collection in response to a fault
JP2002215431A (ja) 2001-01-16 2002-08-02 Toshiba Corp 情報処理装置およびトレースログ情報出力方法
US20060123108A1 (en) * 2004-12-08 2006-06-08 Parthasarathy Sarangam Embedding a unique identifier in asset information to identify the source of an event
JP4652090B2 (ja) * 2005-03-15 2011-03-16 富士通株式会社 事象通知管理プログラム、事象通知管理装置及び事象通知管理方法
US7613949B1 (en) * 2006-06-30 2009-11-03 Boone Lewis A Fault isolation system and method
US8140892B2 (en) * 2008-09-26 2012-03-20 Microsoft Corporation Configuration of memory management techniques selectively using mitigations to reduce errors
US8122290B2 (en) * 2009-12-17 2012-02-21 Hewlett-Packard Development Company, L.P. Error log consolidation
US8046639B1 (en) * 2010-07-29 2011-10-25 Oracle International Corporation Cycle accurate fault log modeling for a digital system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366396A (ja) * 2001-06-06 2002-12-20 Nec Corp 故障解析情報自動採取システム及び故障解析情報自動採取プログラム
JP2003022200A (ja) * 2001-07-05 2003-01-24 Dainippon Screen Mfg Co Ltd 基板処理システム、基板処理装置、追加情報取得方法、プログラム及び記録媒体
JP2008059413A (ja) * 2006-09-01 2008-03-13 Hitachi Electronics Service Co Ltd 障害管理支援システム及びその情報管理方法

Also Published As

Publication number Publication date
US20120210176A1 (en) 2012-08-16
WO2011051999A1 (ja) 2011-05-05
EP2495660A4 (en) 2013-04-03
EP2495660A1 (en) 2012-09-05

Similar Documents

Publication Publication Date Title
US10761926B2 (en) Server hardware fault analysis and recovery
KR102268355B1 (ko) 클라우드 배치 기반구조 검증 엔진
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
US9354862B2 (en) Apparatus and method for software information management
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
JP5910444B2 (ja) 情報処理装置、起動プログラム、および起動方法
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
US9021078B2 (en) Management method and management system
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
CN109271270A (zh) 存储***中底层硬件的故障排除方法、***及相关装置
JP2018180982A (ja) 情報処理装置、およびログ記録方法
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
US10936400B2 (en) Dynamic handling of callhome data
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JP6032369B2 (ja) 情報処理装置、診断方法、診断プログラム、及び情報処理システム
JP2022052504A (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
JP2014093012A (ja) ディスクアレイコントローラ、方法、及び、プログラム
JP2011159234A (ja) 障害対応システム及び障害対応方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130806