JP7001236B2 - 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム - Google Patents

情報処理装置、障害監視方法及び障害監視用コンピュータプログラム Download PDF

Info

Publication number
JP7001236B2
JP7001236B2 JP2019052459A JP2019052459A JP7001236B2 JP 7001236 B2 JP7001236 B2 JP 7001236B2 JP 2019052459 A JP2019052459 A JP 2019052459A JP 2019052459 A JP2019052459 A JP 2019052459A JP 7001236 B2 JP7001236 B2 JP 7001236B2
Authority
JP
Japan
Prior art keywords
useful information
control circuit
stored
volatile memory
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019052459A
Other languages
English (en)
Other versions
JP2020154705A (ja
Inventor
耕一 末木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2019052459A priority Critical patent/JP7001236B2/ja
Publication of JP2020154705A publication Critical patent/JP2020154705A/ja
Application granted granted Critical
Publication of JP7001236B2 publication Critical patent/JP7001236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置、障害監視方法及び障害監視用コンピュータプログラムに関する。
サーバ等の情報処理装置において、オペレーティングシステム(OS)から独立して、ソフトウェア、ハードウェアの監視を行うコントローラとして、ベースボードマネジメントコントローラ(BMC)がある。より具体的には、BMCは情報処理装置の電源制御、温度や電圧の監視機能、システムの動作監視機能などを持つ。さらに、近年の情報処理装置は、リモートコンピュータからのシステムの電源制御、リモートメディア制御、マルチタスク化などの機能も備え、それら機能に対応するためBMCの機能も多様化、複雑化してきている。その結果、BMC自身に異常が生じストールして停止状態となる場合も増えてきた。関連する技術において、BMCがストールした場合、BMCがストールした原因を追求する方法が特許文献1に開示されている。
特開2011-014075号公報
ところで、BMCにおいて、ソフトウェアトラブルの原因の特定が重要な機能の1つである。しかし、BMCがストール中に、OS(Operating System)やBIOS(Basic Input/Output System)がストールする場合もある。この場合、原因を究明するための情報が取れず、BMCの本来の機能を果たすことができない。そこで本発明は、上述の課題を解決する情報処理装置、障害監視方法及び障害監視用コンピュータプログラムを提供することを目的としている。
本発明の第1の態様によれば、情報処理装置は、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、前記オペレーティングシステムから独立して情報処理装置の状態監視を行うコントローラと、を備え、前記コントローラは、該コントローラが起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認するメモリチェック部と、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録するログ処理部と、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う削除処理部とを備える、ことを特徴とする。
本発明の第2の態様によれば、障害監視方法は、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置によって、オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う、ことを特徴とする。
本発明の第3の態様によれば、障害監視用コンピュータプログラムは、オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、指示に従って前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置のための障害監視用コンピュータプログラムであって、オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行うことをコンピュータに実行させる、ことを特徴とする。
これにより、BMCがストール中に情報処理装置のOSやBIOSがストールしても、OSやBIOSのストールの原因を究明するための情報を取得することができる、という効果が得られる。
本発明の一実施形態によるサーバの機能ブロック図である。 本発明の一実施形態によるBMCのハードウェア構成を示す図である。 本発明の一実施形態によるOS、BISOの有益情報に関する処理フローを示す図である。 本発明の一実施形態による制御回路の有益情報に関する処理フローを示す図である。 本発明の一実施形態によるBMCの有益情報に関する処理フローを示す図である。 本発明の一実施形態による正常時における各モジュールの動作の一例を示す図である。 本発明の一実施形態によるBMCのストール時の各モジュールの動作の一例を示す図である。 本発明の一実施形態によるBMCのストール時にOS/BIOSがストールし、NMIで復活したときの各モジュールの動作の一例を示す図である。 本発明の一実施形態によるBMCのストール時にOS/BIOSがストールし、NMIで復活しなかったときの各モジュールの動作の一例を示す図である。 本発明の一実施形態によるBMCの起動時の各モジュールの動作の一例を示す図である。 本発明の一実施形態による情報処理装置の最小構成図を示す図である。
以下、本発明の一実施形態によるサーバについて図面を参照して説明する。図1は本発明の一実施形態によるサーバの機能ブロック図である。図1において、符号1はサーバを示す。符号2は制御回路を、符号3はオペレーティングシステム(OS)を、符号4はBIOS(Basic Input/Output System)を示す。また、符号5はベースボードマネジメントコントローラ(BMC:Baseboard Management Controller)を示す。
サーバ1は、制御回路2、OS・3、BIOS・4、BMC・5を備え、これらはI2C(Inter-Integrated Circuit)のようなシリアルバスの通信路11により接続される。また、サーバ1は、制御回路2から図示しないCPU(Central Processing Unit)に対してNMI(Non Maskable Interrupt)を発行するための通信路12をさらに備える。ここで、NMIとは、CPUに対して外部から要求される割り込みの一種で、どのような場合でも強制的に割り込みが行われ、制御命令によりマスク(禁止)できない割り込みを指す。NMIは、サーバ1の機能に深刻な障害発生した場合など、緊急時や特殊な場合に用いられる。本実施の形態において、NMIは、OS・3またはBIOS・4がストールし、操作を受け付けなくフリーズした状態(停止状態)での復活のために用いられるが、NMIの使用の詳細は別途説明する。以下では、情報処理装置の一例として、サーバ1を用いて説明するが、情報処理装置は、パーソナルコンピュータや、その他、CPU、OS、BIOS等を備えた他の電子機器であってもよい。
制御回路2は、OS・3やBIOS・4がストールした際の解析に有益な情報である有益情報の管理を行う。制御回路2は、有益情報処理部21、復活処理部22、不揮発性メモリ23を備える。また、不揮発性メモリ23は、前述の有益情報24を記憶する。有益情報としては、有益情報を取得した時刻に関するタイムスタンプ、OS・3におけるその時点でのシステム構成/システムログ/カーネル情報、BIOS・4におけるその時点でのタスクコード(Task Code)などである。
不揮発性メモリ23は、読み書き可能なメモリで、例えば、フラッシュメモリ等である。
有益情報処理部21は、OS・3、BIOS・4、BMC・5からの指示に応じて、不揮発性メモリ23に有益情報24を保存する処理、または、不揮発性メモリ23から有益情報24を削除する処理を行う。
復活処理部22は、不揮発性メモリ23に記憶された有益情報24が一定期間更新されない場合、OS・3あるいはBIOS・4のストールからの復活のためのマスク不可な割り込み命令をサーバ1のCPUに対して発生する処理を行う。
OS・3は、サーバ1の基本的な管理や制御のための機能や、多くのソフトウェアが共通して利用する基本的な機能などを実装した、サーバ1全体を管理するソフトウェアである。OS・3は、制御回路指示部31と、タイマ処理部32をデーモンまたはドライバとして備える。
制御回路指示部31は、所定のタイマ期間毎に、OS・3に関する有益情報を収集して、収集した有益情報を制御回路2に送信し、保存を指示する処理を行う。さらに、制御回路指示部31は、サーバ1の回路に対する直流電源が切られることによる電源オフ(シャットダウン)のための処理をする際に、不揮発性メモリ23に記憶される有益情報24の削除の指示を制御回路2に対して行う処理をする。
タイマ処理部32は、定期的に設けられる所定のタイマ期間に対する応答をする処理を行う。ここで、「定期的に設けられる所定のタイマ期間」は、OS・3やBIOS・4が正常に機能しているかどうかを定期的に監視するためのタイマ期間である。WDT(Watch Dog Timer)は、このタイマ期間の間に所定の応答(リセット信号)の有無を監視する。なお、WDTは、所定のタイマ期間に対して、OS・3やBIOS・4から応答がある際、タイマがリセットされる。一方、OS・3やBIOS・4のストールにより所定期間を経過してもOS・3やBIOS・4からの応答がない場合、タイマがリセットされない。このようにWDTは、タイマがリセットされない期間が長いと、OS・3やBIOS・4がストールしているもとの判断するために用いられる。
BIOS・4は、OS・3の起動や、サーバ1とサーバ1に対する接続機器の入出力を制御するソフトウェアである。BIOS・4は、制御回路指示部41と、タイマ処理部42をソフトウェアモジュールとして備える。制御回路指示部41とタイマ処理部42は、OS・3の制御回路指示部31、タイマ処理部32と同等の機能を備える。
BMC・5は、OS・3から独立してサーバ1のハード面での監視や、システムの動作監視、OS・3やBIOS・4のストールの原因の特定等をするためのものである。本実施の形態では、BMC・5による、OS・3やBIOS・4のストールの原因の特定に関する機能を説明する。BMC・5に関し、IPMI(Intelligent Platform Management Interface)という情報処理装置の基本コンポーネントの監視や遠隔地からの制御などを行うためのインターフェース仕様がある。BMC・5は、IPMIに基づき、WDTを用いてOS・3やBIOS・4がストールした際の原因解析のための有益情報を収集する。BMC・5は、メモリチェック部51、ログ処理部52、削除処理部53を備える。
メモリチェック部51は、起動のためAC電源の投入やサーバ1のリセットで、BMC・5が再起動した際、不揮発性メモリ23に有益情報24が保存されているかを確認する処理を行う。なお、BMC・5が起動した際、不揮発性メモリ23に有益情報24が保存されている場合とは、BMC・5の起動前に、BMC・5がストールし、さらに、OS・3ないしはBIOS・4がストールした状況となる。
ログ処理部52は、メモリチェック部51の処理により、不揮発性メモリ23に有益情報24が保存されている場合、保存されている有益情報24に関するログを登録する処理を行う。
削除処理部53は、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41により不揮発性メモリ23に有益情報24が保存された後、次の所定のタイマの期間の開始前に保存された有益情報の削除がなされるよう制御回路2に対して指示を行う処理をする。
図2は本発明の一実施形態によるBMC・5のハードウェア構成を示す図である。BMC・5は、CPU・61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、フラッシュメモリ64、通信モジュール65を備える。
CPU61は、ROM・62またはフラッシュメモリ64等の記録媒体に記憶されるプログラムを実行することで、BMC・5の各機能を実現する。
フラッシュメモリ64には、BMC・5の機能を実現するため必要となる有益情報24やその他のデータ等も記憶する。
通信モジュール65は、制御回路2、OS・3、BIOS・4等と通信路11を介した通信が行えるようにする。また、サーバ1の稼動状態に依存せず、基本的なリモート操作ができるようにするための機能も備える。
なお、BMC・5は、これらハードの機能を含んだ、オンボードチップとして提供されるものであってもよい。
図3は、本発明の一実施形態によるOS・3、BISO・4の有益情報に関する処理フローを示す図である。OS・3、BISO・4の動作について処理フローを追って説明する。
サーバ1の起動に伴い、OS・3、BISO・4も起動し、ストール時の解析に利用される有益情報に関する処理が開始する。また、OS・3、BISO・4の起動後、OS・3、BISO・4が正常に機能しているかを監視するため、WDTに関連しシステム・タイマが定期的に発せられる。
OS・3、BISO・4における有益情報に関する処理は同等である。そこで、以下では、OS・3の処理フローについて説明し、BISO・4における有益情報に関する処理フローに関する説明を省略する。
OS・3のタイマ処理部32は、所定のタイマ期間毎に、WDTのタイマリセットのための応答(更新処理)をする(ステップS31)。
OS・3の制御回路指示部31は、有益情報を収集する(ステップS32)。なお、OS・3における有益情報としては、有益情報を収集した時刻に関するタイムスタンプ、その時点でのシステム構成/システムログ/カーネル情報等となる。なお、BIOS・4における有益情報としては、有益情報を収集した時刻に関するタイムスタンプ、その時点でタスクコード(Task Code)等となる。
制御回路指示部31は、収集した有益情報を制御回路2に送信するとともに、制御回路2に対して送信した有益情報の保存を指示する(ステップS33)。
制御回路指示部31は、OS・3のストールがない限り、ステップS31からS33の処理をタイマ期間毎に行う。
さらに、サーバ1の回路に対する直流電源が切られるDC-OFFの状態への移行がなければ(ステップS34:No)、OS・3のストールがない限り、OS・3は、ステップS31からS33の処理を各タイマ期間に行う。
サーバ1の回路に対する直流電源が切られるDC-OFFの状態へ移行する場合(ステップS34:Yes)、制御回路指示部31は、不揮発性メモリ23に記憶される有益情報24の削除の指示を制御回路2に対して行う。これにより、OS・3は、ストールすることなく正常終了する場合、不揮発性メモリ23に有益情報24を残すことなく、有益情報に関する処理を終了することができる。
図4は、本発明の一実施形態による制御回路2の有益情報に関する処理フローを示す図である。図4のフローは、制御回路2の起動により開始する。
制御回路2の有益情報処理部21は、OS・3、BIOS・4からの有益情報の保存の指示があるか判断する(ステップS41)。
保存の指示がある場合(ステップS41:Yes)、有益情報処理部21は、OS・3あるいはBIOS・4から送信された有益情報を、不揮発性メモリ23に保存する(ステップS42)。一方、保存の指示がない場合(ステップS41:No)、有益情報処理部21は処理をステップS43に移す。
有益情報処理部21は、OS・3、BIOS・4、BMC・5からの削除の指示があるか判断する(ステップS43)。
削除の指示がある場合(ステップS43:Yes)、有益情報処理部21は、不揮発性メモリ23に保存される有益情報24を不揮発性メモリ23から削除する(ステップS44)。一方、削除の指示がない場合(ステップS43:No)、有益情報処理部21は処理をステップS45に移す。
制御回路2は、OS・3またはBIOS・4の一方、あるいは、双方がストールしたか判断する(ステップS45)。この判断は、WDTにおいて、タイマが所定のタイマ期間を超えてリセットされていないか否かで判断する。WDTにおいて、タイマが所定のタイマ期間を超えてリセットされていない場合は、OS・3またはBIOS・4の一方、あるいは、双方がストールしたと判断する。
OS・3やBIOS・4がストールしたと判断した場合(ステップS45:Yes)、制御回路2の復活処理部22は、OS・3やBIOS・4におけるストールからの復活のため、NMIをサーバ1のCPUに対して発行する(ステップS46)。これにより、OS・3やBIOS・4の復活のための処理が行われる。この処理により、OS・3やBIOS・4が復活し、正常に機能し始める場合もある。
BIOS・4の一方、あるいは、双方がストールしていないと判断した場合(ステップS45:No)、制御回路2は、処理をステップS47に移す。BMC・5は、サーバ1の回路に対する直流電源が切られシャットダウンがなされると(ステップS47:Yes)、有益情報に関する処理を終了する。一方、処理が継続する場合(ステップS47:No)、制御回路2は、ステップS41からS47の有益情報に関する処理を繰り返す。
図5は、本発明の一実施形態によるBMC・5の有益情報に関する処理フローを示す図である。
起動のためAC電源の投入やサーバ1のリセットによりBMC・5が起動した際、BMC・5のメモリチェック部51は、不揮発性メモリ23に有益情報24が保存されているかを確認する(ステップS51)。不揮発性メモリ23に有益情報24が保存されていない場合(ステップS51:No)、BMC・5は、処理をステップS54に移す。
一方、不揮発性メモリ23に有益情報24が保存されている場合(ステップS51:Yes)、BMC・5の起動前に、BMC・5がストールし、さらに、OS・3/BIOS・4がストールした状況であったことを示す。
この場合、ログ処理部52は、保存されている有益情報24に基づきログを登録する(ステップS52)。この処理により、BMC・5がストールし、さらに、OS・3ないしはBIOS・4がストールした状況であっても、OS・3ないしはBIOS・4におけるストールの原因を解析するための有益情報を取得することができる。
削除処理部53は、ステップS52の処理の後、有益情報24を不揮発性メモリ23から削除する指示を制御回路2に対して行う(ステップS53)。
削除処理部53は、OS・3やBIOS・4からの所定のタイマの期間に対する応答があるか判断する(ステップS54)。なお、この応答は、前述の通り、OS・3やBIOS・4が正常に機能していることを示すためのWDTのタイマリセットのための処理として行われる通知である。
OS・3やBIOS・4からの所定のタイマ期間に対する応答がある場合(ステップS54:Yes)、削除処理部53は、不揮発性メモリ23に保存される有益情報24を削除するよう制御回路2に対して指示を行う(ステップS55)。この処理により、OS・3やBIOS・4が正常に動作している際、そのタイマ期間における有益情報24を残すことなく、次の所定のタイマ期間の処理に移行できる。
一方、OS・3やBIOS・4からの所定のタイマ期間に対する応答がない場合(ステップS54:No)、OS・3あるいはBIOS・4の一方、または、双方にストールが生じている可能性がある。そこで、削除処理部53は、保存された有益情報24を用いた解析が行えるように、有益情報24を削除することなく、ステップS56に移行する。
サーバ1の回路に対する直流電源が切られてシャットダウンされると(ステップS56:Yes)、BMC・5は、有益情報に関する処理を終了する。一方、処理が継続する場合(ステップS56:No)、BMC・5は、ステップS54からS56の処理を繰り返す。
図6は、本発明の一実施形態による正常時における各モジュールの動作の一例を示す図である。
図6において、所定のタイマ期間は“00:01”であり、時刻“09:00”から処理が開始している例を示している。図6に示すように、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41が、所定のタイマ期間“00:01”毎に、有益情報の保存を制御回路2に対して指示する。その結果、制御回路2の有益情報処理部21は、受け取った有益情報を不揮発性メモリ23に保存する。
また、OS・3のタイマ処理部32やBIOS・4のタイマ処理部42は、WDTのリセットのための応答を行う。これに対応して、BMC・5の削除処理部53は、不揮発性メモリ23に保存される有益情報24の削除を制御回路2に対して指示する。
サーバ1の回路に対する直流電源が切られて電源オフ(DC-OFF)に移行する際、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。
このように、OS・3、BIOS・4、BMC・5が正常に動作している際、OS・3やBIOS・4は、WDTの更新時に制御回路2の不揮発性メモリ23に有益情報24を設定するが、BMC・5の処理の処理により有益情報24が直ぐに削除される。また、DC-OFF時に、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。
よって、OS・3、BIOS・4、BMC・5が正常に動作し、処理を終了した際、不揮発性メモリに有益情報は残らない。
図7は、本発明の一実施形態によるBMC・5のストール時の各モジュールの動作の一例を示す図である。図7の例では、時刻“10:00”におけるBMC・5による有益情報24の削除の後、符号71に示すタイミングで、BMC・5がストールした例を示す。
図7の例では、OS・3、BIOS・4は正常に動作し、最後にサーバ1の回路に対する直流電源が切られて電源オフとなる(DC-OFF)。この場合、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。よって、BMC・5がストールしても、OS・3やBIOS・4が正常に動作していれば、DC-OFF時にOS・3やBIOS・4が不揮発性メモリ23内の有益情報24の削除の処理をするので、DC-OFF時に不揮発性メモリ23に有益情報は残らない。
図8は、本発明の一実施形態によるBMC・5のストール時にOS・3/BIOS・4がストールし、NMIで復活したときの各モジュールの動作の一例を示す図である。図8の例では、時刻“11:00”におけるBMC・5による有益情報24の削除の後、符号81に示すタイミングで、BMC・5がストールする。さらに、時刻“11:02”において、この時刻の有益情報の保存の後、符号82で示すタイミングでOS・3/BIOS・4がストールする。
この場合、次の所定のタイマ期間“11:03”が開始するまでに、制御回路2の復活処理部22は、OS・3/BIOS・4によるWDTの更新のための通知を確認できない。そのため、復活処理部22は、符号83で示すタイミングで、OS・3/BIOS・4の復活のためNMIを発行する。図8の例では、符号84で示すタイミングで、NMIによる復活処理で、OS・3/BIOS・4が復活する例を示している。
OS・3、BIOS・4は、符号84に示すタイミングでの復活の後、正常に動作する。サーバ1の回路に対する直流電源が切られて電源オフに移行する際(DC-OFF)、OS・3の制御回路指示部31やBIOS・4の制御回路指示部41は、保存される有益情報24の削除を制御回路2に対して指示する。よって、BMC・5がストールしても、OS・3やBIOS・4が正常であれば、DC-OFF時にOS・3やBIOS・4が不揮発性メモリ23に保存される有益情報24の削除の処理をするので、DC-OFF時に不揮発性メモリ23に有益情報24は残らない。なお、NMIにより、OS・3やBIOS・4が復活すれば、OS・3やBIOS・4自身が持つ機能でストールの原因解析のための必要なログを保存することができる。
図9は、本発明の一実施形態によるBMC・5のストール時にOS・3/BIOS・4がストールし、NMIで復活しなかったときの各モジュールの動作の一例を示す図である。図9の例では、時刻“12:00”におけるBMC・5による有益情報24の削除の後、符号91に示すタイミングで、BMC・5がストールする。さらに、時刻“12:02”において、この時刻の有益情報の保存の後、符号92で示すタイミングでOS・3/BIOS・4がストールする。
この場合、次の所定のタイマ期間“12:03”が開始するまでに、制御回路2の復活処理部22は、OS・3/BIOS・4からWDTの更新のための通知を確認できない。そのため、復活処理部22は、符号93で示すタイミングで、OS・3/BIOS・4の復活のためNMIを発行する。図9の例では、符号93で示すタイミングのNMIによる復活ができない状況を示している。そのため、図9に示すように、BMC・5がストールしたときに、OS・3やBIOS・4がストールした場合、NMIでOS・3やBIOS・4が復活しなければ、不揮発性メモリ23にはOS・3/BIOS・4のストール直前の有益情報24が不揮発性メモリ23に保存されている。
図10は、本発明の一実施形態によるBMC・5の起動時の各モジュールの動作の一例を示す図である。図10は、図9に示す状態の後における、サーバ1の再起動時の例を示す。BMC・5のメモリチェック部51は、起動後に不揮発性メモリ23をチェックすると、有益情報24が保存されていることを確認する。BMC・5のログ処理部52は、保存されている有益情報24を、ログとして登録する。
これにより、BMC・5がストールして、OS・3やBIOS・4と通信できない時に、OS・3やBIOS・4がストールし復活できない場合でも、OS・3やBIOS・4がストールした直前の情報を取得することができる。しがって、このような場合でも、OS・3やBIOS・4のストールの原因究明を進めることができる。
なお、OS・3あるいはBIOS・4はそれぞれ、制御回路指示部31、41、タイマ処理部32,42を備えるものとして説明した。これに限定されるものではなく、OS・3またはBIOS・4の一方のストールの原因の解析のみでよい場合、OS・3あるいはBIOS・4のどちらか一方が、制御回路指示部、タイマ処理部を備えるようにしてもよい。
制御回路2が不揮発性メモリ23を備えるものとして説明した。制御回路2が直接、不揮発性メモリ23に対する有益情報24の保存、削除をできる構成であれば、制御回路2が不揮発性メモリ23を内部に備えなくてもよい。
図11は、本発明の一実施形態による情報処理装置であるサーバ1の最小構成図を示す図である。サーバ1は、制御回路2と、OS・3と、BIOS・4と、コントローラであるBMC・5とを備える。
サーバ1は、OS・3あるいはBIOS・4が停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリ23を備える。
制御回路2は、指示に従って、不揮発性メモリ23に有益情報24を保存または削除する有益情報処理部21を備える。
OS・3あるいはBIOS・4の一方または双方は、所定のタイマ期間毎に有益情報を制御回路2に送信して保存を指示するとともに、電源オフ時の処理の際に、有益情報24の削除の指示を制御回路2に対して行う制御回路指示部31、41を備える。
BMC・5は、OS・3から独立してサーバ1の状態監視を行い、BMC・5が起動した際、不揮発性メモリ23に有益情報24が保存されているかを確認するメモリチェック部51と、不揮発性メモリ23に有益情報24が保存されている場合、保存されている有益情報24に基づきログを登録するログ処理部52と、制御回路指示部31、41により不揮発性メモリ23に有益情報24が保存された後、次の所定のタイマ期間の開始前に保存された有益情報24の削除がなされるよう制御回路2に対して指示を行う削除処理部53とを備える。
1・・・サーバ
2・・・制御回路
3・・・OS
4・・・BIOS
5・・・BMC
21・・・有益情報処理部
22・・・復活処理部
23・・・不揮発性メモリ
24・・・有益情報
31・・・制御回路指示部
32・・・タイマ処理部
41・・・制御回路指示部
42・・・タイマ処理部
51・・・メモリチェック部
52・・・ログ処理部
53・・・削除処理部

Claims (6)

  1. オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、
    指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
    前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、
    前記オペレーティングシステムから独立して情報処理装置の状態監視を行うコントローラと、
    を備え、
    前記コントローラは、
    該コントローラが起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認するメモリチェック部と、
    前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録するログ処理部と、
    前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う削除処理部と
    を備える情報処理装置。
  2. 前記制御回路は、
    前記不揮発性メモリに記憶された前記有益情報が一定期間更新されない場合、前記オペレーティングシステムあるいは前記BIOSの停止状態からの復活のためのマスク不可な割り込み命令を前記情報処理装置の中央処理装置に対して発生する復活処理部
    を備える、請求項1に記載の情報処理装置。
  3. 記オペレーティングシステムあるいは前記BIOSの一方または双方は、前記所定のタイマ期間に応答を行うタイマ処理部、をさらに備え、
    前記コントローラの削除処理部は、前記タイマ処理部からの応答に対応して、前記次の所定のタイマ期間の開始前に保存された前記有益情報の削除を行う
    請求項1または請求項2に記載の情報処理装置。
  4. 前記コントローラの前記削除処理部は、前記ログ処理部による前記ログの登録の後、前記不揮発性メモリに保存された前記有益情報の削除の指示を前記制御回路に対して行う処理をさらに行う、
    請求項1から請求項3のいずれか一項に記載の情報処理装置。
  5. オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、
    指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
    前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置によって
    オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、
    起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、
    前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、
    前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う
    障害監視方法。
  6. オペレーティングシステムあるいはBIOSが停止状態となった際の原因解析に利用される情報である有益情報を記憶する不揮発性メモリと、
    指示に従って、前記不揮発性メモリに前記有益情報を保存または削除する有益情報処理部を備えた制御回路と、
    前記オペレーティングシステムあるいは前記BIOSの一方または双方に備えられ、所定のタイマ期間毎に前記有益情報を前記制御回路に送信して保存を指示するとともに、電源オフ時の処理の際に、前記有益情報の削除の指示を前記制御回路に対して行う制御回路指示部と、を備えた情報処理装置のための障害監視用コンピュータプログラムであって、
    オペレーティングシステムから独立して前記情報処理装置の状態監視を行い、
    起動した際、前記不揮発性メモリに前記有益情報が保存されているかを確認し、
    前記不揮発性メモリに前記有益情報が保存されている場合、保存されている前記有益情報に基づきログを登録し、
    前記制御回路指示部により前記不揮発性メモリに前記有益情報が保存された後、次の所定のタイマ期間の開始前に保存された前記有益情報の削除がなされるよう前記制御回路に対して指示を行う
    ことをコンピュータに実行させる、障害監視用コンピュータプログラム。
JP2019052459A 2019-03-20 2019-03-20 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム Active JP7001236B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019052459A JP7001236B2 (ja) 2019-03-20 2019-03-20 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019052459A JP7001236B2 (ja) 2019-03-20 2019-03-20 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2020154705A JP2020154705A (ja) 2020-09-24
JP7001236B2 true JP7001236B2 (ja) 2022-01-19

Family

ID=72559171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019052459A Active JP7001236B2 (ja) 2019-03-20 2019-03-20 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP7001236B2 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101032A (ja) 1999-09-29 2001-04-13 Hitachi Ltd 異種os間制御によるos監視方式
JP2002251300A (ja) 2001-02-22 2002-09-06 Hitachi Ltd 障害監視方法及び装置
JP2004302731A (ja) 2003-03-31 2004-10-28 Toshiba Corp 情報処理装置および障害診断方法
JP2011210064A (ja) 2010-03-30 2011-10-20 Nec Corp ログ情報収集システム、装置、方法及びプログラム
JP2012078948A (ja) 2010-09-30 2012-04-19 Fujitsu Ltd 終了ログ取得プログラム、終了ログ取得装置及び終了ログ取得方法
US20140068350A1 (en) 2012-08-29 2014-03-06 Hon Hai Precision Industry Co., Ltd. Self-checking system and method using same
JP2015049552A (ja) 2013-08-30 2015-03-16 日本電気株式会社 情報処理装置、ログ処理方法、及びプログラム
JP2015130023A (ja) 2014-01-07 2015-07-16 Necプラットフォームズ株式会社 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム
JP2017078998A (ja) 2015-10-21 2017-04-27 Necプラットフォームズ株式会社 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101032A (ja) 1999-09-29 2001-04-13 Hitachi Ltd 異種os間制御によるos監視方式
JP2002251300A (ja) 2001-02-22 2002-09-06 Hitachi Ltd 障害監視方法及び装置
JP2004302731A (ja) 2003-03-31 2004-10-28 Toshiba Corp 情報処理装置および障害診断方法
JP2011210064A (ja) 2010-03-30 2011-10-20 Nec Corp ログ情報収集システム、装置、方法及びプログラム
JP2012078948A (ja) 2010-09-30 2012-04-19 Fujitsu Ltd 終了ログ取得プログラム、終了ログ取得装置及び終了ログ取得方法
US20140068350A1 (en) 2012-08-29 2014-03-06 Hon Hai Precision Industry Co., Ltd. Self-checking system and method using same
JP2015049552A (ja) 2013-08-30 2015-03-16 日本電気株式会社 情報処理装置、ログ処理方法、及びプログラム
JP2015130023A (ja) 2014-01-07 2015-07-16 Necプラットフォームズ株式会社 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム
JP2017078998A (ja) 2015-10-21 2017-04-27 Necプラットフォームズ株式会社 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
JP2020154705A (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US20100082957A1 (en) Information processing device
CN111045866B (zh) 一种bmc故障处理方法、装置、电子设备及存储介质
US8677177B2 (en) Apparatus, a recovery method and a program thereof
JP2012069032A (ja) 情報処理装置
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
TW200426571A (en) Policy-based response to system errors occurring during os runtime
TWI723477B (zh) 電子設備、可遠端維護電子設備運作的系統及方法
CN114116280A (zh) 交互式bmc自恢复方法、***、终端及存储介质
EP2590072A1 (en) System control device, information processing system, and data migration and restoration method for information processing system
US11073893B2 (en) System and method capable of remotely controlling electronic apparatus
JP4886558B2 (ja) 情報処理装置
JP4836732B2 (ja) 情報処理装置
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
JP7001236B2 (ja) 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
CN111078452A (zh) 一种bmc固件镜像恢复方法与装置
JP2003256240A (ja) 情報処理装置及びその障害回復方法
JP3231561B2 (ja) バックアップメモリ制御方式
JP2760367B2 (ja) マイクロ診断装置付情報処理装置
JP2019016218A (ja) 情報処理装置、制御装置および情報処理装置の制御方法
JP2004094455A (ja) コンピュータ装置
TWI486770B (zh) 基板管理控制器的韌體恢復系統及方法
KR101969393B1 (ko) 2단계 컨트롤을 통한 cctv 녹화기 와치독 시스템
JP4368689B2 (ja) 停電制御プログラム、停電制御装置、および停電制御方法
JP2699291B2 (ja) 電源異常処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211216

R150 Certificate of patent or registration of utility model

Ref document number: 7001236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150