JP6996602B1 - Bmc、サーバシステム、装置安定度判定方法及びプログラム - Google Patents

Bmc、サーバシステム、装置安定度判定方法及びプログラム Download PDF

Info

Publication number
JP6996602B1
JP6996602B1 JP2020158930A JP2020158930A JP6996602B1 JP 6996602 B1 JP6996602 B1 JP 6996602B1 JP 2020158930 A JP2020158930 A JP 2020158930A JP 2020158930 A JP2020158930 A JP 2020158930A JP 6996602 B1 JP6996602 B1 JP 6996602B1
Authority
JP
Japan
Prior art keywords
bmc
server
failure
stability
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020158930A
Other languages
English (en)
Other versions
JP2022052504A (ja
Inventor
俊彦 藤崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2020158930A priority Critical patent/JP6996602B1/ja
Priority to US17/473,147 priority patent/US11561852B2/en
Application granted granted Critical
Publication of JP6996602B1 publication Critical patent/JP6996602B1/ja
Publication of JP2022052504A publication Critical patent/JP2022052504A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)

Abstract

【課題】各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するBMCを特定することのできるBMCを提供する。【解決手段】BMCは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCであって、前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する故障情報収集手段と、前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する故障解析手段と、前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する装置安定度判断手段と、を備える。【選択図】図3

Description

本発明は、BMC、サーバシステム、装置安定度判定方法及びプログラムに関する。
サーバ間で共有するデバイスの監視に専用の監視ハードウェアを設けず、サーバのBMC(Base Management Controller)を経由して共有デバイスの監視を行うシステムがある。
特許文献1~3には、関連する技術として、BMCに関する技術が開示されている。
特開2016-149924号公報 特開2016-092898号公報 特開2013-127723号公報
ところで、一般的なラック型サーバやタワー型サーバなどのサーバでは、動作を継続しながら保守点検や部品交換を行うことが困難な場合がある。そのため、一般的なラック型サーバやタワー型サーバなどのサーバでは、保守点検や部品交換を行う場合のように、どうしても電源を遮断しなければならないことがある。このように、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、サーバのBMC(Base Management Controller)を用いて複数のサーバ間で共有するデバイスを監視する場合、複数のサーバのBMCの中で最も安定して動作するBMCがマスターとなり共有するデバイスを監視することが望ましい。
そのため、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するBMCを特定することのできる技術が求められている。
本発明の各態様は、上記の課題を解決することのできるBMC、サーバシステム、装置安定度判定方法及びプログラムを提供することを目的としている。
上記目的を達成するために、本発明の一態様によれば、BMCは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCであって、前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する故障情報収集手段と、前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する故障解析手段と、前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する装置安定度判断手段と、を備える。
上記目的を達成するために、本発明の別の態様によれば、サーバシステムは、上記のBMC、を複数備える。
上記目的を達成するために、本発明の別の態様によれば、装置安定度判定方法は、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCが行う装置安定度判定方法であって、前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、解析結果に基づいて、サーバの安定度を判断することと、を含む。
上記目的を達成するために、本発明の別の態様によれば、プログラムは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCのコンピュータに、前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、解析結果に基づいて、サーバの安定度を判断することと、を実行させる。
本発明の各態様によれば、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するBMCを特定することができる。
本発明の一実施形態によるBMCの構成の一例を示す図である。 本発明の一実施形態によるサーバシステムの構成の一例を示す図である。 本発明の実施形態による最小構成のBMCの一例を示す図である。 本発明の実施形態による最小構成のBMCの処理フローの一例を示す図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、図面を参照しながら実施形態について詳しく説明する。
<実施形態>
本発明の一実施形態によるサーバ1は、図1に示すように、BMC11を備える。
BMC11は、HW(Hardware)故障情報収集手段101(故障情報収集手段の一例)、HW故障解析手段102(故障解析手段の一例)、装置構成収集手段103、故障率格納データベース104、BMC自己診断手段105(自己診断手段の一例)、装置負荷情報収集手段106、装置安定度判断手段107を備える。
HW故障情報収集手段101は、BMC11がI2C(Inter-Integrated Circuit)バスなどを介して行うHW監視(つまり、各デバイスの監視)により故障を検出した場合、故障情報を保持する。この故障情報は、BMC11がその監視により把握した、DIMM(Dual Inline Memory Module)の縮退やRAID(Redundant Arrays of Inexpensive Disks)コントローラ経由でHDD(hard disk drive)のdead(すなわち、ハードディスクが起動しようとしても動作が停止しアクセスできない状態)などの情報を含む。また、HW故障情報収集手段101は、BMC11が行うHW監視により復旧を検出した場合、当該故障情報を削除するなど、HW故障情報を収集する。
HW故障情報収集手段101は、故障および復旧を検出する度にHW故障解析手段102へ通知を行う。
HW故障解析手段102は、HW故障情報収集手段101が保持する故障情報からHW故障によるサーバ安定度を解析する。HW故障解析手段102は、故障部品がある場合、安定度が低いと解析する。
HW故障解析手段102は、HW故障情報収集手段101から通知を受ける度に安定度を解析し、解析結果を装置安定度判断手段107へ送信する。
装置構成収集手段103は、CPUの種別や数量、DIMM/PCIeボードの種類と実装位置などサーバ1のHW(すなわち、ハードウェア)の構成情報を収集する。
故障率格納データベース104は、サーバ1のHWを構成する構成品それぞれの故障率を格納する。
装置構成収集手段103は、故障率格納データベース104を参照し、現在のサーバ1のHWの構成に対する構成情報を、総故障率として装置安定度判断手段107へ送信する。
HWの構成の変更を検出する度に、装置構成収集手段103は、総故障率として、装置安定度判断手段107へ送信する。
BMC自己診断手段105は、ipmiログから警告/異常レベルのログを収集し警告レベルか異常レベルかで安定度を診断する。なお、ipmiログは、例えば、各センサの読み取り値と規定値とを比較して、規定値の上下xxパーセント以上センサの読み取り値が振れた場合を警告ログ、規定値の上下yyパーセント以上センサの読み取り値が振れた場合を異常ログとして記録したものである。例えば、温度センサであれば、温度警告ログおよび温度異常ログが記録される。また、電圧センサであれば、電圧警告ログおよび電圧異常ログが記録される。なお、yyパーセントは、xxパーセントよりも大きいため、警告レベルより異常レベルの方が安定度は低い。そのため、BMC自己診断手段105は、警告レベル/異常レベルそれぞれのログ件数から安定度を診断する。
警告もしくは異常のログを検出する度に、BMC自己診断手段105は、安定度を診断し、診断結果を装置安定度判断手段107へ送信する。
装置負荷情報収集手段106は、CPUの負荷やメモリおよびディスクの使用率をOS上で収集するソフトウェア経由で取得する。装置負荷情報収集手段106は、CPUの負荷が高く、メモリ/ディスク使用率が高いほど装置負荷が高いものとし、CPUの負荷やメモリおよびディスクの使用率を装置安定度判断手段107へ送信する。
装置負荷情報収集手段106は、CPUの負荷やメモリ/ディスク使用を一定間隔で取得して、装置負荷を診断し、診断結果を装置安定度判断手段107へ送信する。
装置安定度判断手段107は、HW故障解析手段102、装置構成収集手段103、BMC自己診断手段105、装置負荷情報収集手段106のそれぞれから送信されたパラメータからサーバ1全体の安定度を判断し、保持する。
装置安定度判断手段107は、パラメータが送信されてくる度にサーバ1の安定度を判断し、判断した結果をBMC・LAN(Local Area Network)21を経由して他サーバのBMCへ送信する。BMC・LAN21は、BMCに対してhttp接続で情報を読み出したり設定を行ったりするためのLANポートである。
また、BMC11は、図1に示すように、さらに、マスターBMC選定の際に使用するマスターBMC選定対象IPアドレスリスト111、通信可能BMC・IPアドレスリスト112、マスターBMCログ格納メモリ113、再送ログID格納メモリ114を備える。
マスターBMC選定対象IPアドレスリスト111、通信可能BMC・IPアドレスリスト112、マスターBMCログ格納メモリ113、再送ログID格納メモリ114の役割や動作は、後述する。
なお、マスターBMC選定対象IPアドレスリスト111については、サーバを初期構築する際に登録する。
また、各BMC(後述するBMC11、12、13、14)は、マスターBMC選定対象IPアドレスリスト111に登録されたIPアドレスの個数と同数の再送ログID格納メモリ114をBMCのメモリ上に確保する。
また、マスターであるBMC11の煩雑な切り替えを抑止するため、他サーバ(後述するサーバ2、3、4)のBMC(BMC12、13、14)の安定度の差が規定値を超えるまでは、現在のマスターであるBMC11をそのまま利用する。
次に、本発明によるマスター及びスレーブの各BMC・LANの接続を示す。
図2は、マスターのBMCの選定対象であるサーバが4台の場合のBMC・LAN接続されたサーバシステム1000を示している。
本発明によるサーバシステム1000は、サーバ1、2、3、4を備える。
サーバ1は、BMC11、BMC・LAN21を備える。サーバ2は、BMC12、BMC・LAN22を備える。サーバ3は、BMC13、BMC・LAN23を備える。サーバ4は、BMC14、BMC・LAN24を備える。
BMC11、12、13、14は、BMC・LAN21、22、23、24を介してLANスイッチ100に接続される。
なお、BMC11、12、13、14は、同一の構成である。また、サーバ1、2、3、4は、同一の構成である。
次に、本発明によるサーバシステム1000によるマスターのBMCを選定する処理について説明する。以下、マスターのBMCをBMC11とし、マスターのBMC11が平常の場合、マスターのBMC11が異常となった場合のそれぞれについて説明する。
(マスターのBMC11が平常の場合)
各BMC(BMC11、12、13、14)は、マスターBMC選定対象IPアドレスリスト111の内自身以外のBMC・IPアドレスに対してpingにより監視を行う。各BMC(BMC11、12、13、14)は、応答があったBMC・IPアドレスを通信可能BMC・IPアドレスリスト112に記録する。通信可能BMC・IPアドレスリスト112は、pingを監視する度に変更があれば更新する。
スレーブであるBMC12、13、14からサーバ2、3、4の安定度が送信されてきた場合、マスターであるBMC11は、自サーバ1の安定度との差が規定値を越えるかどうか確認する。規定値を越えていた場合、マスターであるBMC11は、当該スレーブであるBMCに対して次のマスターのBMCとなるよう指示を送り、自身はスレーブのBMCとなる。
(マスターのBMC11が異常となった場合)
マスターであるBMC11がpingの監視においてタイムアウトとなった場合、各スレーブであるBMC(BMC12、13、14)は、通信可能BMC・IPアドレスリスト112に登録されているBMCの内マスターのBMC11以外に対して自身の安定度指標を送信する。他のスレーブであるBMC(BMC12、13、14)から送信されてきた安定度指標と比較し、一番安定しているものを新たなマスターのBMCに選定する。
次に、旧マスターであるBMCのipmiログを新しいマスターのBMCに引き継ぐ手段について説明する。以下、マスターのBMC11が平常の場合、マスターのBMC11が異常となった場合、旧マスターのBMCが異常から回復した場合のそれぞれについて説明する。
(マスターのBMC11が平常の場合)
マスターであるBMC11は、自身のipmiログに共有デバイスのログが登録される度に、BMC・LAN21を介して通信可能BMC・IPアドレスリスト112に登録されたBMC・IPアドレスへ当該ipmiログを送信する。当該ipmiログを受信した各スレーブであるBMC(BMC12、13、14)は、マスターであるBMC11のipmiログをコピーとしてマスターBMCログ格納メモリ113に保持する。
マスターであるBMC11がスレーブであるBMC(BMC12、13、14)に対するpingの監視においてタイムアウトを検出した場合、当該スレーブであるBMC(BMC12、13、14)へ再送するログの先頭として最後に送信したipmiログの次のログIDをマスターであるBMC11の再送ログID格納メモリ114に保持する。マスターであるBMC11から通信できないスレーブであるBMCが複数ある場合、通信できないそれぞれのスレーブであるBMCに対する再送ログID格納メモリ114を保持する。
また、マスターであるBMC11は、新規のipmiログを各スレーブであるBMC(BMC12、13、14)へ送信する際に、通信できない全てのスレーブのBMCの再送ログIDを通信可能な各スレーブであるBMCへ併せて送信する。受信した各スレーブであるBMCは、マスターであるBMC11の再送ログID格納メモリのコピーとして自身の再送ログID格納メモリ114に保持する。
通信できないスレーブであるBMCとの通信が回復した場合、マスターであるBMC11は、再送ログID以降のマスターであるBMCのipmiログを当該スレーブであるBMCへ送信する。そして、回復したスレーブであるBMCは、マスターのipmiログのコピーとしてマスターBMCログ格納メモリ113に保持する。
(マスターのBMC11が異常となった場合)
新たなマスターであるBMCは、旧マスターであるBMC11から受信した最後のipmiログの次の時刻に当たる自身のipmiログを、旧マスターであるBMC11へ再送すべきログの先頭として再送ログID格納メモリ114に保持する。
(旧マスターのBMCが異常から回復した場合)
新たなマスターであるBMCは、旧マスターであるBMC11の再送ログIDから最新ログまでのipmiログを旧マスターであるBMC11へ送信し、旧マスターであるBMC11は、新たなマスターであるBMCのipmiログのコピーとして自身のマスターBMCログ格納メモリ113に保持する。
以上、本発明の一実施形態によるサーバシステム1000について説明した。
サーバシステム1000において、BMCは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCである。BMCにおいて、故障情報収集手段は、前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する。故障解析手段は、前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する。装置安定度判断手段は、前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する。
こうすることにより、BMCは、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するBMCを特定することができる。
本発明の実施形態による最小構成のBMC11について説明する。
本発明の実施形態による最小構成のBMC11は、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCである。BMC11は、図3に示すように、故障情報収集手段101、故障解析手段102、装置安定度判断手段107を備える。
故障情報収集手段101は、前記BMC11が行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する。
故障解析手段102は、前記故障情報収集手段101が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する。
装置安定度判断手段107は、前記故障解析手段102による解析結果に基づいて、サーバの安定度を判断する。
次に、最小構成のBMC11の処理について図4を参照して説明する。
故障情報収集手段101は、前記BMC11が行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する(ステップS1)。
故障解析手段102は、前記故障情報収集手段101が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する(ステップS2)。
装置安定度判断手段107は、前記故障解析手段102による解析結果に基づいて、サーバの安定度を判断する(ステップS3)。
こうすることにより、BMC11は、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するBMCを特定することができる。
なお、本発明の実施形態における処理は、適切な処理が行われる範囲において、処理の順番が入れ替わってもよい。
本発明の実施形態について説明したが、上述のサーバ1、2、3、4、BMC11、12、13、14、その他の制御装置は内部に、コンピュータ装置を有していてもよい。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。コンピュータの具体例を以下に示す。
図5は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ5は、図5に示すように、CPU6(ベクトルプロセッサを含む)、メインメモリ7、ストレージ8、インターフェース9を備える。
例えば、上述のサーバ1、2、3、4、BMC11、12、13、14、その他の制御装置のそれぞれは、コンピュータ5に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ8に記憶されている。CPU6は、プログラムをストレージ8から読み出してメインメモリ7に展開し、当該プログラムに従って上記処理を実行する。また、CPU6は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ7に確保する。
ストレージ8の例としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、半導体メモリ等が挙げられる。ストレージ8は、コンピュータ5のバスに直接接続された内部メディアであってもよいし、インターフェース9または通信回線を介してコンピュータ5に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ5に配信される場合、配信を受けたコンピュータ5が当該プログラムをメインメモリ7に展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、ストレージ8は、一時的でない有形の記憶媒体である。
また、上記プログラムは、前述した機能の一部を実現してもよい。さらに、上記プログラムは、前述した機能をコンピュータ装置にすでに記録されているプログラムとの組み合わせで実現できるファイル、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例であり、発明の範囲を限定しない。これらの実施形態は、発明の要旨を逸脱しない範囲で、種々の追加、省略、置き換え、変更を行ってよい。
1、2、3、4・・・サーバ
5・・・コンピュータ
6・・・CPU
7・・・メインメモリ
8・・・ストレージ
9・・・インターフェース
11、12、13、14・・・BMC
21、22、23、24・・・BMC・LAN
100・・・LANスイッチ
101・・・HW故障情報収集手段
102・・・HW故障解析手段
103・・・装置構成収集手段
104・・・故障率格納データベース
105・・・BMC自己診断手段
106・・・装置負荷情報収集手段
107・・・装置安定度判断手段
1000・・・サーバシステム

Claims (7)

  1. サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCであって、
    前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する故障情報収集手段と、
    前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する故障解析手段と、
    前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する装置安定度判断手段と、
    を備えるBMC。
  2. 前記サーバのハードウェアの構成情報を収集する装置構成収集手段、
    を備え、
    前記装置安定度判断手段は、
    前記装置構成収集手段により収集された前記ハードウェアの構成情報に基づいて、サーバの安定度を判断する、
    請求項1に記載のBMC。
  3. 警告レベルのログ及び異常レベルのログに基づいて、安定度を診断する自己診断手段、
    を備え、
    前記装置安定度判断手段は、
    前記自己診断手段により診断された前記安定度に基づいて、サーバの安定度を判断する、
    請求項1または請求項2に記載のBMC。
  4. CPUの負荷及び記憶装置の使用率の少なくとも一方に基づいて、BMCの負荷を診断する装置負荷情報収集手段、
    を備え、
    前記装置安定度判断手段は、
    前記装置負荷情報収集手段により診断された前記BMCの負荷に基づいて、サーバの安定度を判断する、
    請求項1から請求項3の何れか一項に記載のBMC。
  5. 請求項1から請求項4の何れか一項に記載のBMC、
    を複数備えるサーバシステム。
  6. サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCが行う装置安定度判定方法であって、
    前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、
    保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、
    解析結果に基づいて、サーバの安定度を判断することと、
    を含む装置安定度判定方法。
  7. サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるBMCのコンピュータに、
    前記BMCが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、
    保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、
    解析結果に基づいて、サーバの安定度を判断することと、
    を実行させるプログラム。
JP2020158930A 2020-09-23 2020-09-23 Bmc、サーバシステム、装置安定度判定方法及びプログラム Active JP6996602B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020158930A JP6996602B1 (ja) 2020-09-23 2020-09-23 Bmc、サーバシステム、装置安定度判定方法及びプログラム
US17/473,147 US11561852B2 (en) 2020-09-23 2021-09-13 BMC, server system, device stability determination method, and non-transitory computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020158930A JP6996602B1 (ja) 2020-09-23 2020-09-23 Bmc、サーバシステム、装置安定度判定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6996602B1 true JP6996602B1 (ja) 2022-01-17
JP2022052504A JP2022052504A (ja) 2022-04-04

Family

ID=80448075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020158930A Active JP6996602B1 (ja) 2020-09-23 2020-09-23 Bmc、サーバシステム、装置安定度判定方法及びプログラム

Country Status (2)

Country Link
US (1) US11561852B2 (ja)
JP (1) JP6996602B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113708986B (zh) * 2020-05-21 2023-02-03 富联精密电子(天津)有限公司 服务器监控装置、方法及计算机可读存储介质
CN118132359B (zh) * 2024-04-30 2024-07-09 苏州元脑智能科技有限公司 一种服务器自动化宕机诊断方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276320A (ja) 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
JP2012079266A (ja) 2010-10-06 2012-04-19 Nec Computertechno Ltd 情報処理装置、故障部位判別方法および故障部位判別プログラム
JP2015230720A (ja) 2014-06-09 2015-12-21 株式会社日立製作所 計算機システム
US20200099584A1 (en) 2018-09-21 2020-03-26 Cisco Technology, Inc. Autonomous datacenter management plane

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006276320A (ja) 2005-03-29 2006-10-12 Olympus Corp 自動合焦装置
JP5672225B2 (ja) 2011-12-19 2015-02-18 日本電気株式会社 ハードウェア管理装置、情報処理装置、ハードウェア管理方法、および、コンピュータ・プログラム
JP6517494B2 (ja) 2014-10-30 2019-05-22 株式会社東芝 電力変換装置、制御方法およびコンピュータプログラム
KR101649813B1 (ko) 2015-02-11 2016-08-19 엘에스산전 주식회사 충전 제어 장치
TWI582585B (zh) * 2015-11-18 2017-05-11 神雲科技股份有限公司 機櫃的監控系統
JP7081344B2 (ja) * 2018-07-02 2022-06-07 富士通株式会社 監視装置,監視制御方法および情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276320A (ja) 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
JP2012079266A (ja) 2010-10-06 2012-04-19 Nec Computertechno Ltd 情報処理装置、故障部位判別方法および故障部位判別プログラム
JP2015230720A (ja) 2014-06-09 2015-12-21 株式会社日立製作所 計算機システム
US20200099584A1 (en) 2018-09-21 2020-03-26 Cisco Technology, Inc. Autonomous datacenter management plane

Also Published As

Publication number Publication date
US11561852B2 (en) 2023-01-24
JP2022052504A (ja) 2022-04-04
US20220091920A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
JP4940967B2 (ja) ストレージシステム、ストレージ装置、ファームウェアの活***換方法、ファームウェアの活***換プログラム
US8037362B2 (en) Storage system that finds occurrence of power source failure
US7313717B2 (en) Error management
US7650532B2 (en) Storage system
US8996924B2 (en) Monitoring device, monitoring system and monitoring method
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
JP2009151519A (ja) ストレージ管理装置、ストレージ管理プログラムおよびストレージシステム
JP6996602B1 (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
US20070016901A1 (en) Storage system and automatic renewal method of firmware
JP2017091456A (ja) 制御装置、制御プログラムおよび制御方法
US8145952B2 (en) Storage system and a control method for a storage system
US8095820B2 (en) Storage system and control methods for the same
JP2017091077A (ja) 擬似故障の発生プログラム、発生方法、及び発生装置
US8732531B2 (en) Information processing apparatus, method of controlling information processing apparatus, and control program
CN112015600B (zh) 日志信息处理***、日志信息处理方法及装置和交换机
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
TWI756007B (zh) 用以進行全快閃記憶體陣列伺服器的高可用性管理的方法與設備
JP6582523B2 (ja) ストレージ装置、制御装置、制御プログラム
CN114528163A (zh) 一种服务器故障硬盘自动定位***、方法及装置
JP2013196410A (ja) サーバ装置及び障害管理方法及び障害管理プログラム
JP2016038656A (ja) 接続監視装置、接続監視プログラムおよび接続監視方法
JP7132499B2 (ja) ストレージ装置およびプログラム
JP4985033B2 (ja) バックアッププログラム、バックアップ方法およびバックアップ装置
JP5011159B2 (ja) システム監視回路を備えた計算機
JP2004021608A (ja) 二重化サーバの障害検知方式及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211129

R150 Certificate of patent or registration of utility model

Ref document number: 6996602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150