JP2013206046A - 情報処理装置、起動時診断方法、及びプログラム - Google Patents
情報処理装置、起動時診断方法、及びプログラム Download PDFInfo
- Publication number
- JP2013206046A JP2013206046A JP2012073278A JP2012073278A JP2013206046A JP 2013206046 A JP2013206046 A JP 2013206046A JP 2012073278 A JP2012073278 A JP 2012073278A JP 2012073278 A JP2012073278 A JP 2012073278A JP 2013206046 A JP2013206046 A JP 2013206046A
- Authority
- JP
- Japan
- Prior art keywords
- time
- post
- execution time
- trace log
- failure diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【課題】システム立ち上げ時のデバイスの異常診断を簡易な方法により行う。
【解決手段】BIOS立ち上げ時に障害診断が行われる各デバイスごとに、前回のBIOS立ち上げ時における障害診断の実行時間と、今回のBIOS立ち上げ時における障害診断の実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する。
【選択図】図1
【解決手段】BIOS立ち上げ時に障害診断が行われる各デバイスごとに、前回のBIOS立ち上げ時における障害診断の実行時間と、今回のBIOS立ち上げ時における障害診断の実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する。
【選択図】図1
Description
本発明は、サーバなどの情報処理装置、起動時診断方法、及びプログラムに関する。
サーバなどの情報処理装置には、BIOS(Basic Input/Output System)と呼ばれる制御ファームウェアが、システム立ち上げ時にPOST(POwer On Self Test;電源オン自己試験)により自己診断を行うものがある。例えば、関連する情報処理装置が特許文献1に開示されている。この特許文献1に記載の情報処理装置は、システム立ち上げ時にPOSTごとの時間計測を行い、立ち上げ時間の監視を行うことにより、特別なハードウェアを必要とすることなく、マルチプロセッサシステムでの障害診断動作を実行するようにしている。
また、関連する診断プログラム起動方式が特許文献2に開示されている。この特許文献2に記載の診断プログラム起動方式は、ログファイルに記録されている情報を有効に活用し、早期に装置の異常を発見することを目的としている。
また、関連するスペクトラム拡散無線を使用したパルス幅比例制御遠隔操縦方式が特許文献3に開示されている。この特許文献3に記載のパルス幅比例制御遠隔操縦方式は、位置情報を取得する際に、前回データと今回データの隔たりが大きければエラーと見なして前回データを生かすようにしている。
サーバなどの情報処理装置では、特許文献1に記載の情報処理装置にように、システムの立ち上げ時に、システムの障害状況を診断するタスクを実行し、その実行時間を監視することにより、CPUやメモリやIO等のデバイス(機器や部品)の障害診断を行っている技術がある。しかし、例えば、間欠障害であるような場合には、所定回数以内のリトライで救済される場合に、POST結果が正常と判断され、障害検出ができない場合もあった。
なお、BIOSブート時の異常監視に関しては、IPMI(Intelligent Platform Management Interface)のWDTタイマ(ウォッチドッグタイマ)を用いた監視方法が一般的に用いられるが、この方法は、監視対象範囲が広いため、どの部品の初期化で時間がかかったのかの特定が難しい。
またタイムスタンプ情報を確認して時間監視を行う方法も考えられるが、この方法は、BIOSの立ち上げ時にコンソールの初期化が完了していないフェーズが含まれるため、実用的とは言えない。一方、POST自身を強化し、間欠障害対応の障害診断機能をサポートする方法もあるが、この方法は、コストがかさみ、かつ立ち上げ実行時間が増加するというデメリットがある。
またタイムスタンプ情報を確認して時間監視を行う方法も考えられるが、この方法は、BIOSの立ち上げ時にコンソールの初期化が完了していないフェーズが含まれるため、実用的とは言えない。一方、POST自身を強化し、間欠障害対応の障害診断機能をサポートする方法もあるが、この方法は、コストがかさみ、かつ立ち上げ実行時間が増加するというデメリットがある。
本発明は、上述の課題を解決することのできる、情報処理装置、起動時診断方法、及びプログラムを提供することにある。
本発明の情報処理装置は、BIOS立ち上げ時に、障害診断の対象となる各デバイスごとに障害診断に要した実行時間を計測する実行時間計測手段と、前回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ旧として記憶部へ退避するとともに、今回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ新として記憶部に保存するトレースログ保存手段と、前記トレースログ旧と前記トレースログ新とを基に、各デバイスについての今回の障害診断に要した実行時間と前回の障害診断に要した実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する時間比較分析手段と、を備えることを特徴とする。
また本発明の起動時診断方法は、情報処理装置の起動時診断方法であって、BIOS立ち上げ時に障害診断が行われる各デバイスごとに、前回のBIOS立ち上げ時における障害診断の実行時間と、今回のBIOS立ち上げ時における障害診断の実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定することを特徴とする。
また、本発明のコンピュータプログラムは、情報処理装置内のコンピュータに、BIOS立ち上げ時に、障害診断の対象となる各デバイスごとに障害診断に要した実行時間を計測する実行時間計測手順と、前回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ旧として記憶部へ退避するとともに、今回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ新として記憶部に保存するトレースログ保存手順と、前記トレースログ旧と前記トレースログ新とを基に、各デバイスについての今回の障害診断に要した実行時間と前回の障害診断に要した実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する時間比較分析手順と、を実行させるためのコンピュータプログラムである。
本発明の情報処理装置、及び起動時診断方法は、BIOS立ち上げ時におけるデバイスの障害診断を簡易な方法により行うことができる。
(概要)
本発明の情報処理装置は、BIOS立ち上げ時に障害診断が行われる各デバイスごとに、前回のBIOS立ち上げ時における障害診断の実行時間と、今回のBIOS立ち上げ時における障害診断の実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する。これにより、本発明の情報処理装置は、BIOS立ち上げ時におけるデバイスの障害診断を簡易な方法により行うことができる。
本発明の情報処理装置は、BIOS立ち上げ時に障害診断が行われる各デバイスごとに、前回のBIOS立ち上げ時における障害診断の実行時間と、今回のBIOS立ち上げ時における障害診断の実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する。これにより、本発明の情報処理装置は、BIOS立ち上げ時におけるデバイスの障害診断を簡易な方法により行うことができる。
図1は、本発明の情報処理装置の基本概念について説明するための図である。図1に示す情報処理装置1は、システムの立ち上げ時に、BIOS3が、各デバイス(CPU/メモリ/IOデバイス等)2を立ち上げる(起動する)。このシステム立ち上げの際に、BIOS3は、各デバイス2についての障害診断(例えば、POSTによる障害診断)を行うとともに、トレース情報を採取しトレースログとして記憶部7に記録する。
このBIOS3は、実行時間計測手段4と、トレースログ保存手段5と、時間比較分析手段6と、を有している。実行時間計測手段4は、各デバイス2についての障害診断を行う際に、障害診断の対象となる各デバイス2ごとに障害診断に要した実行時間(診断の開示から終了するまでの時間)を計測する。BIOS3は、各デバイス2ごとの障害診断に要した実行時間の情報を含むトレース情報を生成する。
トレースログ保存手段5は、BIOS4の起動の際に、前回のBIOS3の起動時におけるトレース情報を、トレースログ旧T1として記憶部7へ退避するとともに、今回のBIOS立ち上げ時におけるトレース情報をトレースログ新T2として記憶部7に保存する。
トレースログ保存手段5は、BIOS4の起動の際に、前回のBIOS3の起動時におけるトレース情報を、トレースログ旧T1として記憶部7へ退避するとともに、今回のBIOS立ち上げ時におけるトレース情報をトレースログ新T2として記憶部7に保存する。
時間比較分析手段6は、トレースログ旧T1とトレースログ新T2とを参照し、各デバイス2についての今回の障害診断に要した実行時間と、前回の障害診断に要した実行時間とを比較し、時間差が大きいデバイス2がある場合に、当該デバイス2に異常があると判定する。
BIOS3は、デバイス2に異常が発生していると判定された場合に、障害通報をおこない、この異常が発生しているデバイスを、原因究明を行う保守対象の候補とする。
BIOS3は、デバイス2に異常が発生していると判定された場合に、障害通報をおこない、この異常が発生しているデバイスを、原因究明を行う保守対象の候補とする。
このように、本発明の情報処理装置1は、BIOS立ち上げ時のトレース情報を2世代分採取し、各デバイスごとに、今回のBIOS立ち上げ時の障害診断の実行時間と、前回のBIOS立ち上げ時の障害診断の実行時間前回との差分を観測することにより、情報処理装置1内のデバイス(機器や部品)の障害診断をシンプルなロジックで行うことができる。特に、情報処理装置1は、間欠障害により、障害診断の実行時間が遅延しているデバイスの障害検出に有効である。
(サーバの構成例)
図2は、本発明の実施形態に係わる情報処理装置の構成を示す図であり、サーバの構成例を示す図である。また、図3は、本発明の特徴をなす部分である、システム立ち上げ時の処理フローを示す図である。図4は、立ち上げ時の処理フロー中で実施される異常判定処理の具体例を示す図である。
図2は、本発明の実施形態に係わる情報処理装置の構成を示す図であり、サーバの構成例を示す図である。また、図3は、本発明の特徴をなす部分である、システム立ち上げ時の処理フローを示す図である。図4は、立ち上げ時の処理フロー中で実施される異常判定処理の具体例を示す図である。
図2に示すサーバ10は、複数のプロセッサ11及びプロセッサ11Aを備えるサーバの例である。このサーバ10は、不揮発性記憶部20と、サービスプロセッサ30と、主記憶部40と、システム状態表示部50と、を備える。
このサーバ10において、プロセッサ11は、サーバ10の起動を行うBSP(Base System Processor)プロセッサであり、このプロセッサ11には時間計測のための内蔵タイマ12が組み込まれている。サービスプロセッサ30は、サーバ10のシステムの構成情報31と環境情報32とを取得し、BIOS41へ通知する機能と、システムの状態(例えば、障害発生情報)をシステム状態表示部50に通報して表示させるシステム状態通報手段33(システム情報通報手段)とを備えている。
このサーバ10において、プロセッサ11は、サーバ10の起動を行うBSP(Base System Processor)プロセッサであり、このプロセッサ11には時間計測のための内蔵タイマ12が組み込まれている。サービスプロセッサ30は、サーバ10のシステムの構成情報31と環境情報32とを取得し、BIOS41へ通知する機能と、システムの状態(例えば、障害発生情報)をシステム状態表示部50に通報して表示させるシステム状態通報手段33(システム情報通報手段)とを備えている。
また、主記憶部40には、BIOS41を実行するための制御プログラムが記憶されており、この制御プログラムがプロセッサ11により実行されることにより、BIOS41の機能が実現される。このBIOS41は、トレースログ保存手段42と、POSTタスク制御部43とを備えている。
このPOSTタスク制御部43は、POST起動手段44と、実行時間計測手段45と、構成/環境確認手段46と、POST時間比較分析手段47と、を有している。POSTタスク制御部43は、システム立ち上げ時(BIOS41の立ち上げ時)に、各デバイス(CPU/メモリ/IOデバイス等)のそれぞれについてPOSTによる診断を行うとともに、実行時間計測手段45により、各デバイスについてのPOSTごとの実行時間(診断に要した時間)を、タイマ12により計測する。
このPOSTタスク制御部43は、POST起動手段44と、実行時間計測手段45と、構成/環境確認手段46と、POST時間比較分析手段47と、を有している。POSTタスク制御部43は、システム立ち上げ時(BIOS41の立ち上げ時)に、各デバイス(CPU/メモリ/IOデバイス等)のそれぞれについてPOSTによる診断を行うとともに、実行時間計測手段45により、各デバイスについてのPOSTごとの実行時間(診断に要した時間)を、タイマ12により計測する。
また、不揮発性記憶部20は、トレースログ格納領域21を有している。このトレースログ格納領域21には、トレースログ保存手段42により、前回のシステム立ち上げ時(BIOS立ち上げ時)のトレースログが「トレースログ旧T1」として記録(退避)される。また、このトレースログ格納領域21には、トレースログ保存手段42により、今回のシステム立ち上げ時(BIOS立ち上げ時)のトレースログが「トレースログ新T2」として記録される。
図2に示すサーバ10の構成において、BIOS41は、システム立ち上げ時に、前回のシステム立ち上げ時のPOSTごとのそれぞれの実行時間のトレース情報を、バックアップエリアとなるトレースログ格納領域41へ「トレースログ旧T1」として退避する。
この「トレースログ旧T1」をトレースログ格納領域41へ退避した後、BIOS41は、新たに、今回のトレース情報採取を開始する。このトレース情報としては、例えば、POSTごとの開始及び終了時間と、構成情報と、環境情報(温度等)と、が採取される。そして、今回採取されたトレース情報は、「トレースログ新T2」としてトレースログ格納領域21へ記録される。
この「トレースログ旧T1」をトレースログ格納領域41へ退避した後、BIOS41は、新たに、今回のトレース情報採取を開始する。このトレース情報としては、例えば、POSTごとの開始及び終了時間と、構成情報と、環境情報(温度等)と、が採取される。そして、今回採取されたトレース情報は、「トレースログ新T2」としてトレースログ格納領域21へ記録される。
トレースログ格納領域21に新たにトレースログ新T2が記録されると、POST時間比較分析手段47は、トレースログ新T2を参照し、今回のPOSTごとの開始及び終了時間の計測結果から、今回のシステム立ち上げ時のPOSTごとの実行時間を算出する。また、POST時間比較分析手段47は、トレースログ旧T1を参照し、前回のPOSTごとの開始及び終了時間の計測結果から、前回のシステム立ち上げ時のPOSTごとの実行時間を算出する。
そして、POST時間比較分析手段47は、各デバイスごとに、前回のPOSTの実行時間と、今回のPOSTの実行時間とを比較する。そして、POST時間比較分析手段47は、前回のシステム立ち上げ時のシステム構成情報や、環境情報に差がないにもかかわらず、POSTの実行時間に時間差が大きいものがある場合は、対応する試験(POST)対象のデバイスに何らかの異常があると判定する。そして、BIOS41は、いずれかのデバイスに異常が発生していると判定された場合に、システム状態表示部50により障害通報をおこない、この異常が発生しているデバイスを原因究明を行う保守対象の候補とする。
(システム立ち上げ時の動作の説明)
次に、図3の処理フローを参照して、本実施形態のサーバ10におけるシステム立ち上げ時の処理の流れについて説明する。
なお、本実施形態のサーバ10は、複数のプロセッサ11及び11Aを搭載しており、その複数のプロセッサ11及び11AのうちのBSPプロセッサであるプロセッサ11が、メモリ、I/OデバイスについてのPOST(POST_A、POST_B、及びPOST_C)を代表して実行するケースを想定している。
次に、図3の処理フローを参照して、本実施形態のサーバ10におけるシステム立ち上げ時の処理の流れについて説明する。
なお、本実施形態のサーバ10は、複数のプロセッサ11及び11Aを搭載しており、その複数のプロセッサ11及び11AのうちのBSPプロセッサであるプロセッサ11が、メモリ、I/OデバイスについてのPOST(POST_A、POST_B、及びPOST_C)を代表して実行するケースを想定している。
サーバ10の立ち上げ開始(ステップS101)に伴い、プロセッサ11が起動され、プロセッサ11は、内蔵タイマ12の更新を開始する。次に、BIOS41が立ち上げられ(起動され)、BIOS41は、不揮発性記憶部20のトレースログ格納領域21に格納されたトレースログ新T2をトレースログ旧T1へコピーし、トレースログ新T2のエリアをクリアする(ステップS102)
その後、POSTタスク制御部43に含まれるPOST起動手段44により、POST_A、POST_B、POST_Cの順にPOSTが起動される。また、実行時間計測手段45により、タイマ12のタイマ値(計測時間)の読み込みが開始される(ステップS103)。
そして、実行時間計測手段45は、POST_Aの起動時に、まず、タイマ12の値を読み、トレースログ新T2のPOST_Aの開始タイマ値(T2A_S)として、主記憶部40に記憶する。また、実行時間計測手段45は、POST_A終了時のタイマ12を読み、終了タイマ値(T2A_E)として主記憶部40に記憶する。
実行時間計測手段45は、後続のPOST_B、POST_Cについても同様に開始、終了時間を計測して主記憶部40に記憶する。その後、トレースログ保存手段42は、実行時間計測手段45により計測された計測時間(タイマ値)をまとめてトレースログ格納領域21内の「トレースログ新T2」に記録する(ステップS104)。
そして、実行時間計測手段45は、POST_Aの起動時に、まず、タイマ12の値を読み、トレースログ新T2のPOST_Aの開始タイマ値(T2A_S)として、主記憶部40に記憶する。また、実行時間計測手段45は、POST_A終了時のタイマ12を読み、終了タイマ値(T2A_E)として主記憶部40に記憶する。
実行時間計測手段45は、後続のPOST_B、POST_Cについても同様に開始、終了時間を計測して主記憶部40に記憶する。その後、トレースログ保存手段42は、実行時間計測手段45により計測された計測時間(タイマ値)をまとめてトレースログ格納領域21内の「トレースログ新T2」に記録する(ステップS104)。
次に、構成/環境確認手段46が起動され、構成/環境確認手段46は、サービスプロセッサ30から、構成情報31と環境情報32とを入手する。トレースログ保存手段42は、構成情報31と環境情報32とを、トレースログ格納領域21の「トレースログ新T2」に、構成情報T22と環境情報T23として記録する(ステップS105)。なお、トレースログ旧T1」には、前回のシステム立ち上げ時の構成情報31と環境情報32とが、構成情報T12と環境情報T13として記録されている。
次に、POST時間比較分析手段47が起動される。POST時間比較分析手段47は、トレースログ格納領域21に保存された「トレースログ旧T1」と「トレースログ新T2」とを参照し、POST_A、POST_B、及びPOST_CのそれぞれについてPOST実行時間を比較する(ステップS106)。この実行時間の比較結果を基に、POST時間比較分析手段47は、POST_A、POST_B、及びPOST_Cのそれぞれが対象とするデバイスの異常の有無を判定する(ステップS107)。
そして、POST時間比較分析手段47は、ステップS107の判定処理において異常があると判定された場合に(ステップS107;Yes)、サービスプロセッサ30のシステム状態通報手段33を介して、システム状態表示部50にシステム状態の通報を行う(ステップS108)。このステップS108の処理の終了後に、BIOS41は、ブート(BOOT)処理を完了する(ステップS109)。
また、BIOS41は、ステップS107の判定処理においてPOST時間比較分析手段47により異常がないと判定された場合に(ステップS107;No)、ブート(BOOT)処理を完了する(ステップS109)。
また、BIOS41は、ステップS107の判定処理においてPOST時間比較分析手段47により異常がないと判定された場合に(ステップS107;No)、ブート(BOOT)処理を完了する(ステップS109)。
次に、図4を参照して、POST時間比較分析手段47において行われる異常判定処理の具体例について説明する。なお、この図4に示す例は、異常発生の判定基準として、以下の基準を用いている。
第1の判定基準は、システムの構成及び環境が同じであれば、システム立ち上げ時のPOSTの実行時間に大きな差は生じないはずであるので、この実行時間に大きな差がない場合に対象デバイスが正常と判定する。
第2の判定基準は、システムの構成及び環境が同じであるにも係わらず、システム立ち上げ時のPOSTの実行時間に大きな差が生じる場合に、POST中のエラーリトライ救済等による対象デバイス(例えば、USBポート)に何らかの異常が発生した可能性があると判定する。
第1の判定基準は、システムの構成及び環境が同じであれば、システム立ち上げ時のPOSTの実行時間に大きな差は生じないはずであるので、この実行時間に大きな差がない場合に対象デバイスが正常と判定する。
第2の判定基準は、システムの構成及び環境が同じであるにも係わらず、システム立ち上げ時のPOSTの実行時間に大きな差が生じる場合に、POST中のエラーリトライ救済等による対象デバイス(例えば、USBポート)に何らかの異常が発生した可能性があると判定する。
上記の判定基準のもと、POST時間比較分析手段47は、トレースログ格納領域21格納された「トレースログ旧T1」と「トレースログ新T2」とを、主記憶部40へ読み込み、比較を開始する。
構成/環境確認手段46は、まず、トレースログ旧T1の構成情報(旧)T12と、トレースログ新T2の構成情報(新)T22とを比較し、構成情報に変更があれば、比較分析を終了する。
次に、構成/環境確認手段46は、環境情報(旧)T13と、環境情報(新)T23とを比較し、環境情報の差が大きい場合(例えば、吸気温度の差が10度以上の場合)も比較分析を終了する。
構成/環境確認手段46は、まず、トレースログ旧T1の構成情報(旧)T12と、トレースログ新T2の構成情報(新)T22とを比較し、構成情報に変更があれば、比較分析を終了する。
次に、構成/環境確認手段46は、環境情報(旧)T13と、環境情報(新)T23とを比較し、環境情報の差が大きい場合(例えば、吸気温度の差が10度以上の場合)も比較分析を終了する。
構成/環境確認手段46により、新旧の構成情報及び環境情報に差分がほとんどないと判定された場合に、POST時間比較分析手段47は、POST_A、POST_B、及びPOST_CのそれぞれについてPOST実行時間を比較する。
図4に示す例では、POST時間比較分析手段47は、最初に、トレースログ新T2内のPOST_A(以下、「新POST_A」とも呼ぶ)のログT21Aと、トレースログ旧T1内のPOST_A(以下、「旧POST_A」とも呼ぶ)のログT11Aとを基に、新旧それぞれのPOST_Aの実行時間を比較する。
この場合、新POST_Aは、実行開始時のタイマスタート値が「S:0」であり、実行終了時のタイマ値が「E:290」であり、その差分値「290−0=290」により、新POST_Aの実行時間は、290msecとなる。
一方、旧POST_Aは、実行開始時のタイマスタート値が「S:0」であり、実行終了時のタイマ値が「E:300」であり、その差分値「300−0=300」により、旧POST_Aの実行時間は、300msecとなる。
このため、新POST_Aの実行時間(290msec)と旧POST_Aの実行時間(300msec)とは、ほぼ等しく、POST時間比較分析手段47は、POST_Aの実行時に、異常が発生しなかったと判定する。
一方、旧POST_Aは、実行開始時のタイマスタート値が「S:0」であり、実行終了時のタイマ値が「E:300」であり、その差分値「300−0=300」により、旧POST_Aの実行時間は、300msecとなる。
このため、新POST_Aの実行時間(290msec)と旧POST_Aの実行時間(300msec)とは、ほぼ等しく、POST時間比較分析手段47は、POST_Aの実行時に、異常が発生しなかったと判定する。
次に、POST時間比較分析手段47は、トレースログ新T2内のPOST_B(以下、「新POST_B」とも呼ぶ)のログT21Bと、トレースログ旧T1内のPOST_B(以下、「旧POST_B」とも呼ぶ)のログT11Bとを基に、新旧それぞれのPOST_Bの実行時間を比較する。
この場合、新POST_Bは、実行開始時のタイマスタート値が「S:300」であり、実行終了時のタイマ値が「E:600」であり、その差分値「600−300=300」により、新POST_Bの実行時間は、300msecとなる。
一方、旧POST_Bは、実行開始時のタイマスタート値が「S:310」であり、実行終了時のタイマ値が「E:400」であり、その差分値「400−310=90」により、旧POST_Bの実行時間は、90msecとなる。
このため、POST時間比較分析手段47は、新POST_Bの実行時間(300msec)と旧POST_Bの実行時間(90msec)とは、実行時間の時間差が大きく、POST_Bの実行時に、何らかの異常が発生して遅延が生じたと判定する。
一方、旧POST_Bは、実行開始時のタイマスタート値が「S:310」であり、実行終了時のタイマ値が「E:400」であり、その差分値「400−310=90」により、旧POST_Bの実行時間は、90msecとなる。
このため、POST時間比較分析手段47は、新POST_Bの実行時間(300msec)と旧POST_Bの実行時間(90msec)とは、実行時間の時間差が大きく、POST_Bの実行時に、何らかの異常が発生して遅延が生じたと判定する。
次に、トレースログ新T2内のPOST_C(以下、「新POST_C」とも呼ぶ)のログT21Cと、トレースログ旧T1内のPOST_C(以下、「旧POST_C」とも呼ぶ)のログT11Cとを基に、新旧それぞれのPOST_Cの実行時間を比較する。
この場合、新POST_Cは、実行開始時のタイマスタート値が「S:610」であり、実行終了時のタイマ値が「E:650」であり、その差分値「650−610=40」により、新POST_Cの実行時間は、40msecとなる。
一方、旧POST_Cは、実行開始時のタイマスタート値が「S:410」であり、実行終了時のタイマ値が「E:450」であり、その差分値「450−410=40」により、旧POST_Cの実行時間は、40msecとなる。
このため、新POST_Cの実行時間(40msec)と旧POST_Cの実行時間(40msec)とは、ほぼ等しく、POST時間比較分析手段47は、POST_Cの実行時に、異常が発生しなかったと判定する。
一方、旧POST_Cは、実行開始時のタイマスタート値が「S:410」であり、実行終了時のタイマ値が「E:450」であり、その差分値「450−410=40」により、旧POST_Cの実行時間は、40msecとなる。
このため、新POST_Cの実行時間(40msec)と旧POST_Cの実行時間(40msec)とは、ほぼ等しく、POST時間比較分析手段47は、POST_Cの実行時に、異常が発生しなかったと判定する。
このように、POST時間比較分析手段47は、トレースログ新T2とトレースログ旧T1との比較を行うことにより、POST_Bの時間差が大きいと判定された場合に、POST_Bの実行時に何らかの異常が発生して遅延が生じた疑いがあると判定することができる。
以上説明したように、通常の場合、POSTは、診断対象のデバイスごとに設定されており、POST時間比較分析手段47は、前回と今回のPOSTの実行時間を比較することにより、異常が発生したデバイスの把握が可能になる。例えば、図4の例では、構成情報、構成情報には差がほとんどないため、本来は、システム立ち上げ毎に立ち上げ時間に時間差が生じるはずはないにも係わらず(第1の判定基準)、POST_Bのみの実行時間に大きな時間が生じている。
したがって、POST_BがUSBポート診断に対応する場合は、USBポートに何らかの異常が発生していると判定できる(第2の判定基準)。この異常検出時には、BIOS41は、サービスプロセッサ30内のシステム状態通報手段33を介して、システム状態表示部50によりシステム状態通報を行う。
したがって、POST_BがUSBポート診断に対応する場合は、USBポートに何らかの異常が発生していると判定できる(第2の判定基準)。この異常検出時には、BIOS41は、サービスプロセッサ30内のシステム状態通報手段33を介して、システム状態表示部50によりシステム状態通報を行う。
このように、サーバ10は、BIOS立ち上げ時のトレース情報を2世代分採取し、今回のBIOS立ち上げ時のPOSTごとの実行時間と、前回のPOSTごとの実行時間との差分を観測することにより、サーバ10のデバイス(機器や部品)の異常時の障害診断をシンプルなロジックで行うことが可能になる。これにより、本発明における起動時診断方法は、特に、間欠障害によりPOSTの実行時間が遅延している場合の障害検出に有効である。
なお、上述した実施形態では、サーバ10が、各デバイスについてのPOSTごとの実行時間を計測することにより異常判定(障害診断)を行う例を示したが、これに加えて、トレースログの観測対象を増やして障害診断を行うようにしてもよい。例えば、サーバ10は、POSTを実行する際のエラーリトライ回数を計数することにより、障害診断を行うこともできる。
また、上述した実施形態では、サーバ10が、トレースログの世代を2世代(新、旧)に渡り計測することにより、障害診断を行う例を示したが、トレースログの世代を3世代以上に増やすこともできる。このトレースログの世代を3世代以上用いる方法では、3世代以上のPOSTの実行時間の平均値と、最新のPOSTの実行時間とを比較することにより、デバイスの障害診断を行うことになる。
以上、本発明の実施の形態について説明したが、上述のサーバ10内のプロセッサ11,11Aおよびサービスプロセッサ30は、内部にコンピュータシステムを有している。そして、上述した処理に関する一連の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。すなわち、BIOS41等における、各処理は、CPU等の中央演算処理装置が上記プログラムを読み出して、情報の加工、演算処理を実行することにより、実現されるものである。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
以上、本発明の実施の形態について説明したが、本発明の情報処理装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
1…情報処理装置、2…デバイス、3…BIOS、4…時間計測手段、5…トレースログ保存手段、6…時間比較分析手段、7…記憶部、10…サーバ、11,11A…プロセッサ、12…タイマ、20…不揮発性記憶部、21…トレースログ格納領域、30…サービスプロセッサ、31…構成情報、32…環境情報、33…システム状態通報手段、40…主記憶部、41…BIOS、42…トレースログ保存手段、43…POSTタスク制御部、44…POST起動手段、45…実行時間計測手段、46…構成/環境確認手段、47…POST時間比較分析手段、T1…トレースログ旧、T2…トレースログ新
Claims (6)
- BIOS立ち上げ時に、障害診断の対象となる各デバイスごとに障害診断に要した実行時間を計測する実行時間計測手段と、
前回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ旧として記憶部へ退避するとともに、今回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ新として記憶部に保存するトレースログ保存手段と、
前記トレースログ旧と前記トレースログ新とを基に、各デバイスについての今回の障害診断に要した実行時間と前回の障害診断に要した実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する時間比較分析手段と、
を備えることを特徴とする情報処理装置。 - 前記BIOSは、障害診断の対象となる各デバイスの障害診断を、各デバイスのそれぞれに対応するPOSTごとに行うPOSTタスク制御部を備え、
前記実行時間計測手段は、
前記BIOS立ち上げ時に、障害診断の対象となる各デバイスのそれぞれに対応するPOSTごとの実行時間を計測し、
前記トレースログ保存手段は、
前回のBIOS立ち上げ時における前記POSTごとの実行時間を含むトレース情報を、トレースログ旧として記憶部へ退避するとともに、今回のBIOS立ち上げ時における前記POSTごとの実行時間を含むトレース情報を、トレースログ新として記憶部に保存し、
前記時間比較分析手段は、
前記トレースログ旧と前記トレースログ新とを基に、各デバイスごとに今回のPOSTの実行時間と前回のPOSTの実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記トレースログ保存手段は、
前記トレース情報として、診断対象となる各デバイスのPOSTごとの実行時間とともに、システムの構成情報と環境情報とを保存し、
前記時間比較分析手段は、
前回のBIOS立ち上げ時における前記構成情報及び環境情報と、今回のBIOS立ち上げ時における前記構成情報及び環境情報と、に差がないにもかかわらず、前回のPOSTの実行時間と今回のPOSTの実行時間との時間差が所定時間以上大きいデバイスがある場合に、当該デバイスに異常があると判定する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記時間比較分析手段により、デバイスに異常があると判定された場合に、
当該デバイスに異常があることをシステム状態表示部に表示させるシステム情報通報手段を備える
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 情報処理装置の起動時診断方法であって、
BIOS立ち上げ時に障害診断が行われる各デバイスごとに、前回のBIOS立ち上げ時における障害診断の実行時間と、今回のBIOS立ち上げ時における障害診断の実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定することを特徴とする起動時診断方法。 - 情報処理装置内のコンピュータに、
BIOS立ち上げ時に、障害診断の対象となる各デバイスごとに障害診断に要した実行時間を計測する実行時間計測手順と、
前回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ旧として記憶部へ退避するとともに、今回のBIOS立ち上げ時における前記実行時間の計測情報を、トレースログ新として記憶部に保存するトレースログ保存手順と、
前記トレースログ旧と前記トレースログ新とを基に、各デバイスについての今回の障害診断に要した実行時間と前回の障害診断に要した実行時間とを比較し、所定時間以上の時間差がある場合に、当該デバイスに異常があると判定する時間比較分析手順と、
を実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012073278A JP2013206046A (ja) | 2012-03-28 | 2012-03-28 | 情報処理装置、起動時診断方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012073278A JP2013206046A (ja) | 2012-03-28 | 2012-03-28 | 情報処理装置、起動時診断方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013206046A true JP2013206046A (ja) | 2013-10-07 |
Family
ID=49525077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012073278A Pending JP2013206046A (ja) | 2012-03-28 | 2012-03-28 | 情報処理装置、起動時診断方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013206046A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018156603A (ja) * | 2017-03-21 | 2018-10-04 | 日本電気株式会社 | 情報処理装置及び情報処理方法 |
JP2019095845A (ja) * | 2017-11-17 | 2019-06-20 | Necプラットフォームズ株式会社 | 出力装置及び出力方法 |
JP7389877B2 (ja) | 2021-12-23 | 2023-11-30 | 廣達電腦股▲ふん▼有限公司 | ネットワークの最適なブートパスの方法及びシステム |
-
2012
- 2012-03-28 JP JP2012073278A patent/JP2013206046A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018156603A (ja) * | 2017-03-21 | 2018-10-04 | 日本電気株式会社 | 情報処理装置及び情報処理方法 |
JP7069551B2 (ja) | 2017-03-21 | 2022-05-18 | 日本電気株式会社 | 情報処理装置及び情報処理方法 |
JP2019095845A (ja) * | 2017-11-17 | 2019-06-20 | Necプラットフォームズ株式会社 | 出力装置及び出力方法 |
JP7032109B2 (ja) | 2017-11-17 | 2022-03-08 | Necプラットフォームズ株式会社 | 出力装置及び出力方法 |
JP7389877B2 (ja) | 2021-12-23 | 2023-11-30 | 廣達電腦股▲ふん▼有限公司 | ネットワークの最適なブートパスの方法及びシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI680369B (zh) | 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統 | |
JP6394726B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
JP6008070B1 (ja) | 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体 | |
TWI659283B (zh) | 診斷裝置、診斷方法及程式 | |
JP5643321B2 (ja) | 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム | |
CN108388489B (zh) | 一种服务器故障诊断方法、***、设备及存储介质 | |
WO2017063505A1 (zh) | 一种服务器硬件故障检测方法及其装置和服务器 | |
US9170866B2 (en) | System and method for in-service diagnostics based on health signatures | |
WO2011083687A1 (ja) | 運用管理装置、運用管理方法、及びプログラム記憶媒体 | |
US20140310564A1 (en) | Autonomous Service Management | |
WO2017125014A1 (zh) | 硬盘监控方法及装置 | |
US20140143749A1 (en) | Affinity recommendation in software lifecycle management | |
JP2014021577A (ja) | 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム | |
JP6794805B2 (ja) | 故障情報管理プログラム、起動試験方法及び並列処理装置 | |
JP5419819B2 (ja) | 計算機システムの管理方法、及び管理システム | |
JP2013206046A (ja) | 情報処理装置、起動時診断方法、及びプログラム | |
TW201500919A (zh) | 基板管理控制器遠端調試系統及方法 | |
JP2016162428A (ja) | 情報処理システム、管理装置、および情報処理システムの管理方法 | |
US20140297234A1 (en) | Forecasting production output of computing system fabrication test using dynamic predictive model | |
JPWO2019049521A1 (ja) | リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム | |
JPWO2011051999A1 (ja) | 情報処理装置及び情報処理装置の制御方法 | |
JP2012150661A (ja) | プロセッサ動作検査システム、及びその検査方法 | |
US20150149827A1 (en) | Identifying a change to indicate a degradation within a computing device | |
JP5958987B2 (ja) | 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム | |
JP6217086B2 (ja) | 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム |