JP6996602B1

JP6996602B1 - Ｂｍｃ、サーバシステム、装置安定度判定方法及びプログラム

Info

Publication number: JP6996602B1
Application number: JP2020158930A
Authority: JP
Inventors: 俊彦藤崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-01-17
Anticipated expiration: 2040-09-23
Also published as: US11561852B2; JP2022052504A; US20220091920A1

Abstract

【課題】各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するＢＭＣを特定することのできるＢＭＣを提供する。【解決手段】ＢＭＣは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣであって、前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する故障情報収集手段と、前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する故障解析手段と、前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する装置安定度判断手段と、を備える。【選択図】図３

Description

本発明は、ＢＭＣ、サーバシステム、装置安定度判定方法及びプログラムに関する。

サーバ間で共有するデバイスの監視に専用の監視ハードウェアを設けず、サーバのＢＭＣ（ＢａｓｅＭａｎａｇｅｍｅｎｔＣｏｎｔｒｏｌｌｅｒ）を経由して共有デバイスの監視を行うシステムがある。
特許文献１～３には、関連する技術として、ＢＭＣに関する技術が開示されている。

特開２０１６－１４９９２４号公報特開２０１６－０９２８９８号公報特開２０１３－１２７７２３号公報

ところで、一般的なラック型サーバやタワー型サーバなどのサーバでは、動作を継続しながら保守点検や部品交換を行うことが困難な場合がある。そのため、一般的なラック型サーバやタワー型サーバなどのサーバでは、保守点検や部品交換を行う場合のように、どうしても電源を遮断しなければならないことがある。このように、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、サーバのＢＭＣ（ＢａｓｅＭａｎａｇｅｍｅｎｔＣｏｎｔｒｏｌｌｅｒ）を用いて複数のサーバ間で共有するデバイスを監視する場合、複数のサーバのＢＭＣの中で最も安定して動作するＢＭＣがマスターとなり共有するデバイスを監視することが望ましい。
そのため、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するＢＭＣを特定することのできる技術が求められている。

本発明の各態様は、上記の課題を解決することのできるＢＭＣ、サーバシステム、装置安定度判定方法及びプログラムを提供することを目的としている。

上記目的を達成するために、本発明の一態様によれば、ＢＭＣは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣであって、前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する故障情報収集手段と、前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する故障解析手段と、前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する装置安定度判断手段と、を備える。

上記目的を達成するために、本発明の別の態様によれば、サーバシステムは、上記のＢＭＣ、を複数備える。

上記目的を達成するために、本発明の別の態様によれば、装置安定度判定方法は、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣが行う装置安定度判定方法であって、前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、解析結果に基づいて、サーバの安定度を判断することと、を含む。

上記目的を達成するために、本発明の別の態様によれば、プログラムは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣのコンピュータに、前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、解析結果に基づいて、サーバの安定度を判断することと、を実行させる。

本発明の各態様によれば、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するＢＭＣを特定することができる。

本発明の一実施形態によるＢＭＣの構成の一例を示す図である。本発明の一実施形態によるサーバシステムの構成の一例を示す図である。本発明の実施形態による最小構成のＢＭＣの一例を示す図である。本発明の実施形態による最小構成のＢＭＣの処理フローの一例を示す図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、図面を参照しながら実施形態について詳しく説明する。
＜実施形態＞
本発明の一実施形態によるサーバ１は、図１に示すように、ＢＭＣ１１を備える。
ＢＭＣ１１は、ＨＷ（Ｈａｒｄｗａｒｅ）故障情報収集手段１０１（故障情報収集手段の一例）、ＨＷ故障解析手段１０２（故障解析手段の一例）、装置構成収集手段１０３、故障率格納データベース１０４、ＢＭＣ自己診断手段１０５（自己診断手段の一例）、装置負荷情報収集手段１０６、装置安定度判断手段１０７を備える。

ＨＷ故障情報収集手段１０１は、ＢＭＣ１１がＩ２Ｃ（Ｉｎｔｅｒ－ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）バスなどを介して行うＨＷ監視（つまり、各デバイスの監視）により故障を検出した場合、故障情報を保持する。この故障情報は、ＢＭＣ１１がその監視により把握した、ＤＩＭＭ（ＤｕａｌＩｎｌｉｎｅＭｅｍｏｒｙＭｏｄｕｌｅ）の縮退やＲＡＩＤ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｅｘｐｅｎｓｉｖｅＤｉｓｋｓ）コントローラ経由でＨＤＤ（ｈａｒｄｄｉｓｋｄｒｉｖｅ）のｄｅａｄ（すなわち、ハードディスクが起動しようとしても動作が停止しアクセスできない状態）などの情報を含む。また、ＨＷ故障情報収集手段１０１は、ＢＭＣ１１が行うＨＷ監視により復旧を検出した場合、当該故障情報を削除するなど、ＨＷ故障情報を収集する。
ＨＷ故障情報収集手段１０１は、故障および復旧を検出する度にＨＷ故障解析手段１０２へ通知を行う。

ＨＷ故障解析手段１０２は、ＨＷ故障情報収集手段１０１が保持する故障情報からＨＷ故障によるサーバ安定度を解析する。ＨＷ故障解析手段１０２は、故障部品がある場合、安定度が低いと解析する。
ＨＷ故障解析手段１０２は、ＨＷ故障情報収集手段１０１から通知を受ける度に安定度を解析し、解析結果を装置安定度判断手段１０７へ送信する。

装置構成収集手段１０３は、ＣＰＵの種別や数量、ＤＩＭＭ／ＰＣＩｅボードの種類と実装位置などサーバ１のＨＷ（すなわち、ハードウェア）の構成情報を収集する。

故障率格納データベース１０４は、サーバ１のＨＷを構成する構成品それぞれの故障率を格納する。

装置構成収集手段１０３は、故障率格納データベース１０４を参照し、現在のサーバ１のＨＷの構成に対する構成情報を、総故障率として装置安定度判断手段１０７へ送信する。
ＨＷの構成の変更を検出する度に、装置構成収集手段１０３は、総故障率として、装置安定度判断手段１０７へ送信する。

ＢＭＣ自己診断手段１０５は、ｉｐｍｉログから警告／異常レベルのログを収集し警告レベルか異常レベルかで安定度を診断する。なお、ｉｐｍｉログは、例えば、各センサの読み取り値と規定値とを比較して、規定値の上下ｘｘパーセント以上センサの読み取り値が振れた場合を警告ログ、規定値の上下ｙｙパーセント以上センサの読み取り値が振れた場合を異常ログとして記録したものである。例えば、温度センサであれば、温度警告ログおよび温度異常ログが記録される。また、電圧センサであれば、電圧警告ログおよび電圧異常ログが記録される。なお、ｙｙパーセントは、ｘｘパーセントよりも大きいため、警告レベルより異常レベルの方が安定度は低い。そのため、ＢＭＣ自己診断手段１０５は、警告レベル／異常レベルそれぞれのログ件数から安定度を診断する。
警告もしくは異常のログを検出する度に、ＢＭＣ自己診断手段１０５は、安定度を診断し、診断結果を装置安定度判断手段１０７へ送信する。

装置負荷情報収集手段１０６は、ＣＰＵの負荷やメモリおよびディスクの使用率をＯＳ上で収集するソフトウェア経由で取得する。装置負荷情報収集手段１０６は、ＣＰＵの負荷が高く、メモリ／ディスク使用率が高いほど装置負荷が高いものとし、ＣＰＵの負荷やメモリおよびディスクの使用率を装置安定度判断手段１０７へ送信する。
装置負荷情報収集手段１０６は、ＣＰＵの負荷やメモリ／ディスク使用を一定間隔で取得して、装置負荷を診断し、診断結果を装置安定度判断手段１０７へ送信する。

装置安定度判断手段１０７は、ＨＷ故障解析手段１０２、装置構成収集手段１０３、ＢＭＣ自己診断手段１０５、装置負荷情報収集手段１０６のそれぞれから送信されたパラメータからサーバ１全体の安定度を判断し、保持する。
装置安定度判断手段１０７は、パラメータが送信されてくる度にサーバ１の安定度を判断し、判断した結果をＢＭＣ・ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）２１を経由して他サーバのＢＭＣへ送信する。ＢＭＣ・ＬＡＮ２１は、ＢＭＣに対してｈｔｔｐ接続で情報を読み出したり設定を行ったりするためのＬＡＮポートである。

また、ＢＭＣ１１は、図１に示すように、さらに、マスターＢＭＣ選定の際に使用するマスターＢＭＣ選定対象ＩＰアドレスリスト１１１、通信可能ＢＭＣ・ＩＰアドレスリスト１１２、マスターＢＭＣログ格納メモリ１１３、再送ログＩＤ格納メモリ１１４を備える。

マスターＢＭＣ選定対象ＩＰアドレスリスト１１１、通信可能ＢＭＣ・ＩＰアドレスリスト１１２、マスターＢＭＣログ格納メモリ１１３、再送ログＩＤ格納メモリ１１４の役割や動作は、後述する。

なお、マスターＢＭＣ選定対象ＩＰアドレスリスト１１１については、サーバを初期構築する際に登録する。
また、各ＢＭＣ（後述するＢＭＣ１１、１２、１３、１４）は、マスターＢＭＣ選定対象ＩＰアドレスリスト１１１に登録されたＩＰアドレスの個数と同数の再送ログＩＤ格納メモリ１１４をＢＭＣのメモリ上に確保する。
また、マスターであるＢＭＣ１１の煩雑な切り替えを抑止するため、他サーバ（後述するサーバ２、３、４）のＢＭＣ（ＢＭＣ１２、１３、１４）の安定度の差が規定値を超えるまでは、現在のマスターであるＢＭＣ１１をそのまま利用する。

次に、本発明によるマスター及びスレーブの各ＢＭＣ・ＬＡＮの接続を示す。
図２は、マスターのＢＭＣの選定対象であるサーバが４台の場合のＢＭＣ・ＬＡＮ接続されたサーバシステム１０００を示している。
本発明によるサーバシステム１０００は、サーバ１、２、３、４を備える。
サーバ１は、ＢＭＣ１１、ＢＭＣ・ＬＡＮ２１を備える。サーバ２は、ＢＭＣ１２、ＢＭＣ・ＬＡＮ２２を備える。サーバ３は、ＢＭＣ１３、ＢＭＣ・ＬＡＮ２３を備える。サーバ４は、ＢＭＣ１４、ＢＭＣ・ＬＡＮ２４を備える。
ＢＭＣ１１、１２、１３、１４は、ＢＭＣ・ＬＡＮ２１、２２、２３、２４を介してＬＡＮスイッチ１００に接続される。
なお、ＢＭＣ１１、１２、１３、１４は、同一の構成である。また、サーバ１、２、３、４は、同一の構成である。

次に、本発明によるサーバシステム１０００によるマスターのＢＭＣを選定する処理について説明する。以下、マスターのＢＭＣをＢＭＣ１１とし、マスターのＢＭＣ１１が平常の場合、マスターのＢＭＣ１１が異常となった場合のそれぞれについて説明する。

（マスターのＢＭＣ１１が平常の場合）
各ＢＭＣ（ＢＭＣ１１、１２、１３、１４）は、マスターＢＭＣ選定対象ＩＰアドレスリスト１１１の内自身以外のＢＭＣ・ＩＰアドレスに対してｐｉｎｇにより監視を行う。各ＢＭＣ（ＢＭＣ１１、１２、１３、１４）は、応答があったＢＭＣ・ＩＰアドレスを通信可能ＢＭＣ・ＩＰアドレスリスト１１２に記録する。通信可能ＢＭＣ・ＩＰアドレスリスト１１２は、ｐｉｎｇを監視する度に変更があれば更新する。
スレーブであるＢＭＣ１２、１３、１４からサーバ２、３、４の安定度が送信されてきた場合、マスターであるＢＭＣ１１は、自サーバ１の安定度との差が規定値を越えるかどうか確認する。規定値を越えていた場合、マスターであるＢＭＣ１１は、当該スレーブであるＢＭＣに対して次のマスターのＢＭＣとなるよう指示を送り、自身はスレーブのＢＭＣとなる。

（マスターのＢＭＣ１１が異常となった場合）
マスターであるＢＭＣ１１がｐｉｎｇの監視においてタイムアウトとなった場合、各スレーブであるＢＭＣ（ＢＭＣ１２、１３、１４）は、通信可能ＢＭＣ・ＩＰアドレスリスト１１２に登録されているＢＭＣの内マスターのＢＭＣ１１以外に対して自身の安定度指標を送信する。他のスレーブであるＢＭＣ（ＢＭＣ１２、１３、１４）から送信されてきた安定度指標と比較し、一番安定しているものを新たなマスターのＢＭＣに選定する。

次に、旧マスターであるＢＭＣのｉｐｍｉログを新しいマスターのＢＭＣに引き継ぐ手段について説明する。以下、マスターのＢＭＣ１１が平常の場合、マスターのＢＭＣ１１が異常となった場合、旧マスターのＢＭＣが異常から回復した場合のそれぞれについて説明する。

（マスターのＢＭＣ１１が平常の場合）
マスターであるＢＭＣ１１は、自身のｉｐｍｉログに共有デバイスのログが登録される度に、ＢＭＣ・ＬＡＮ２１を介して通信可能ＢＭＣ・ＩＰアドレスリスト１１２に登録されたＢＭＣ・ＩＰアドレスへ当該ｉｐｍｉログを送信する。当該ｉｐｍｉログを受信した各スレーブであるＢＭＣ（ＢＭＣ１２、１３、１４）は、マスターであるＢＭＣ１１のｉｐｍｉログをコピーとしてマスターＢＭＣログ格納メモリ１１３に保持する。
マスターであるＢＭＣ１１がスレーブであるＢＭＣ（ＢＭＣ１２、１３、１４）に対するｐｉｎｇの監視においてタイムアウトを検出した場合、当該スレーブであるＢＭＣ（ＢＭＣ１２、１３、１４）へ再送するログの先頭として最後に送信したｉｐｍｉログの次のログＩＤをマスターであるＢＭＣ１１の再送ログＩＤ格納メモリ１１４に保持する。マスターであるＢＭＣ１１から通信できないスレーブであるＢＭＣが複数ある場合、通信できないそれぞれのスレーブであるＢＭＣに対する再送ログＩＤ格納メモリ１１４を保持する。
また、マスターであるＢＭＣ１１は、新規のｉｐｍｉログを各スレーブであるＢＭＣ（ＢＭＣ１２、１３、１４）へ送信する際に、通信できない全てのスレーブのＢＭＣの再送ログＩＤを通信可能な各スレーブであるＢＭＣへ併せて送信する。受信した各スレーブであるＢＭＣは、マスターであるＢＭＣ１１の再送ログＩＤ格納メモリのコピーとして自身の再送ログＩＤ格納メモリ１１４に保持する。
通信できないスレーブであるＢＭＣとの通信が回復した場合、マスターであるＢＭＣ１１は、再送ログＩＤ以降のマスターであるＢＭＣのｉｐｍｉログを当該スレーブであるＢＭＣへ送信する。そして、回復したスレーブであるＢＭＣは、マスターのｉｐｍｉログのコピーとしてマスターＢＭＣログ格納メモリ１１３に保持する。

（マスターのＢＭＣ１１が異常となった場合）
新たなマスターであるＢＭＣは、旧マスターであるＢＭＣ１１から受信した最後のｉｐｍｉログの次の時刻に当たる自身のｉｐｍｉログを、旧マスターであるＢＭＣ１１へ再送すべきログの先頭として再送ログＩＤ格納メモリ１１４に保持する。

（旧マスターのＢＭＣが異常から回復した場合）
新たなマスターであるＢＭＣは、旧マスターであるＢＭＣ１１の再送ログＩＤから最新ログまでのｉｐｍｉログを旧マスターであるＢＭＣ１１へ送信し、旧マスターであるＢＭＣ１１は、新たなマスターであるＢＭＣのｉｐｍｉログのコピーとして自身のマスターＢＭＣログ格納メモリ１１３に保持する。

以上、本発明の一実施形態によるサーバシステム１０００について説明した。
サーバシステム１０００において、ＢＭＣは、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣである。ＢＭＣにおいて、故障情報収集手段は、前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する。故障解析手段は、前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する。装置安定度判断手段は、前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する。
こうすることにより、ＢＭＣは、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するＢＭＣを特定することができる。

本発明の実施形態による最小構成のＢＭＣ１１について説明する。
本発明の実施形態による最小構成のＢＭＣ１１は、サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣである。ＢＭＣ１１は、図３に示すように、故障情報収集手段１０１、故障解析手段１０２、装置安定度判断手段１０７を備える。
故障情報収集手段１０１は、前記ＢＭＣ１１が行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する。
故障解析手段１０２は、前記故障情報収集手段１０１が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する。
装置安定度判断手段１０７は、前記故障解析手段１０２による解析結果に基づいて、サーバの安定度を判断する。

次に、最小構成のＢＭＣ１１の処理について図４を参照して説明する。
故障情報収集手段１０１は、前記ＢＭＣ１１が行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する（ステップＳ１）。
故障解析手段１０２は、前記故障情報収集手段１０１が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する（ステップＳ２）。
装置安定度判断手段１０７は、前記故障解析手段１０２による解析結果に基づいて、サーバの安定度を判断する（ステップＳ３）。
こうすることにより、ＢＭＣ１１は、各サーバが安定した電源を常に確保できるとは限らないサーバシステムにおいて、その時々で安定して動作するＢＭＣを特定することができる。

なお、本発明の実施形態における処理は、適切な処理が行われる範囲において、処理の順番が入れ替わってもよい。

本発明の実施形態について説明したが、上述のサーバ１、２、３、４、ＢＭＣ１１、１２、１３、１４、その他の制御装置は内部に、コンピュータ装置を有していてもよい。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。コンピュータの具体例を以下に示す。
図５は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ５は、図５に示すように、ＣＰＵ６（ベクトルプロセッサを含む）、メインメモリ７、ストレージ８、インターフェース９を備える。
例えば、上述のサーバ１、２、３、４、ＢＭＣ１１、１２、１３、１４、その他の制御装置のそれぞれは、コンピュータ５に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ８に記憶されている。ＣＰＵ６は、プログラムをストレージ８から読み出してメインメモリ７に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ６は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ７に確保する。

ストレージ８の例としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、半導体メモリ等が挙げられる。ストレージ８は、コンピュータ５のバスに直接接続された内部メディアであってもよいし、インターフェース９または通信回線を介してコンピュータ５に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ５に配信される場合、配信を受けたコンピュータ５が当該プログラムをメインメモリ７に展開し、上記処理を実行してもよい。少なくとも１つの実施形態において、ストレージ８は、一時的でない有形の記憶媒体である。

また、上記プログラムは、前述した機能の一部を実現してもよい。さらに、上記プログラムは、前述した機能をコンピュータ装置にすでに記録されているプログラムとの組み合わせで実現できるファイル、いわゆる差分ファイル（差分プログラム）であってもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例であり、発明の範囲を限定しない。これらの実施形態は、発明の要旨を逸脱しない範囲で、種々の追加、省略、置き換え、変更を行ってよい。

１、２、３、４・・・サーバ
５・・・コンピュータ
６・・・ＣＰＵ
７・・・メインメモリ
８・・・ストレージ
９・・・インターフェース
１１、１２、１３、１４・・・ＢＭＣ
２１、２２、２３、２４・・・ＢＭＣ・ＬＡＮ
１００・・・ＬＡＮスイッチ
１０１・・・ＨＷ故障情報収集手段
１０２・・・ＨＷ故障解析手段
１０３・・・装置構成収集手段
１０４・・・故障率格納データベース
１０５・・・ＢＭＣ自己診断手段
１０６・・・装置負荷情報収集手段
１０７・・・装置安定度判断手段
１０００・・・サーバシステム

Claims

サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣであって、
前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持する故障情報収集手段と、
前記故障情報収集手段が保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析する故障解析手段と、
前記故障解析手段による解析結果に基づいて、サーバの安定度を判断する装置安定度判断手段と、
を備えるＢＭＣ。
前記サーバのハードウェアの構成情報を収集する装置構成収集手段、
を備え、
前記装置安定度判断手段は、
前記装置構成収集手段により収集された前記ハードウェアの構成情報に基づいて、サーバの安定度を判断する、
請求項１に記載のＢＭＣ。
警告レベルのログ及び異常レベルのログに基づいて、安定度を診断する自己診断手段、
を備え、
前記装置安定度判断手段は、
前記自己診断手段により診断された前記安定度に基づいて、サーバの安定度を判断する、
請求項１または請求項２に記載のＢＭＣ。
ＣＰＵの負荷及び記憶装置の使用率の少なくとも一方に基づいて、ＢＭＣの負荷を診断する装置負荷情報収集手段、
を備え、
前記装置安定度判断手段は、
前記装置負荷情報収集手段により診断された前記ＢＭＣの負荷に基づいて、サーバの安定度を判断する、
請求項１から請求項３の何れか一項に記載のＢＭＣ。
請求項１から請求項４の何れか一項に記載のＢＭＣ、
を複数備えるサーバシステム。
サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣが行う装置安定度判定方法であって、
前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、
保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、
解析結果に基づいて、サーバの安定度を判断することと、
を含む装置安定度判定方法。
サーバが安定した電源を常に確保できるとは限らない複数のサーバを有するサーバシステムに設けられるＢＭＣのコンピュータに、
前記ＢＭＣが行うハードウェアの監視により故障を検出した場合、故障情報を保持し、前記ハードウェアの監視により復旧を検出した場合、前記ハードウェアの故障情報を収集して保持することと、
保持する前記故障情報から前記ハードウェアの故障によるサーバ安定度を解析することと、
解析結果に基づいて、サーバの安定度を判断することと、
を実行させるプログラム。