以下、図面を参照しながら、実施形態を詳細に説明する。
図1は、データセンタの情報処理システムの構成例を示している。図1のデータセンタ101は、管理サーバ111及びN個の対象装置112−1〜対象装置112−N(Nは1以上の整数)を含む。以下では、対象装置112−1〜対象装置112−Nの1つを指して、対象装置112と記す場合がある。
対象装置112−1〜対象装置112−Nは、交換作業を含む保守作業の対象となる装置であり、Local Area Network(LAN)等の通信ネットワーク113を介して管理サーバ111と通信する。対象装置112の筐体には、サーバ、ネットワーク装置、ストレージ装置等のうち1種類又は複数種類のハードウェアが搭載されている。
管理サーバ111は、対象装置112−1〜対象装置112−Nから送信される通報情報に基づいて交換候補提示処理を行う情報処理装置(コンピュータ)であり、通信ネットワーク103を介して保守センタ102の保守サーバ121と通信する。管理サーバ111から保守サーバ121へは、対象装置112−1〜対象装置112−Nから送信される通報情報や、交換候補情報等が送信される。
通報情報としては、例えば、通報メッセージが用いられる。通報メッセージ以外にも、テキストデータ、音声データ、画像データ等の情報を通報情報として用いることができる。
保守サーバ121は、管理サーバ111から受信した交換候補情報等をディスプレイ画面に表示する情報処理装置である。保守センタ102の保守者は、表示された交換候補情報に基づいて、対象装置112−1〜対象装置112−Nの交換単位を交換する作業を行うことができる。
図2は、図1の管理サーバ111の構成例を示している。図2の管理サーバ111は、処理部201、格納部202、及び出力部203を含む。格納部202は、対象装置112内の複数の交換単位を識別する識別情報により交換単位同士の包含関係を示す構成情報211を格納する。
図3は、図2の管理サーバ111による交換候補提示処理の例を示すフローチャートである。処理部201は、格納部202に格納された構成情報211に基づいて、対象装置112から送信される通報情報に含まれる第1の識別情報が示す対象装置内の第1の交換単位を含む第2の交換単位を示す第2の識別情報を求める(ステップ301)。
出力部203は、第2の交換単位が交換候補であることを示すための第2の識別情報を含む交換候補情報を出力する(ステップ302)。このとき、出力部203は、管理サーバ111に設けられたディスプレイに交換候補情報を出力してもよく、保守サーバ121へ交換候補情報を送信してもよい。
このような交換候補提示処理によれば、対象装置112からの通報情報に基づく保守作業を簡素化することができる。
図4は、図2の処理部201の機能的構成例を示している。図4の処理部201は、メッセージ処理部401、メッセージ監視部402、メッセージ解析部403、履歴解析部404、及び交換単位解析部405を含む。これらの機能部が行う処理については後述する。
図5は、図2の格納部202に格納される情報の例を示している。図5の格納部202は、通報メッセージ501、構成情報502、履歴情報503、及び保守ポリシー情報504を格納する。
通報メッセージ501は、対象装置112−1〜対象装置112−Nから送信される1つ以上の通報メッセージであり、必要に応じて保守サーバ121へ転送される。各通報メッセージは、例えば、図6に示すようなフォーマットを有する。
図6の通報メッセージは、検出元ID601、場所ID602、日付603、時刻604、レベル605、メッセージID606、部品ID607、故障情報608、詳細情報609、及びデータ610を含む。
検出元ID601は、故障イベントを検出したシステム監視装置の識別情報であり、場所ID602は、対象装置112内で故障イベントが発生した場所を示す識別情報である。場所ID602には、例えば、対象装置112の筐体の識別情報と、対象装置112内のパーティションを識別する識別情報とが含まれる。日付603及び時刻604は、故障イベントを検出した日時を表す。
レベル605は、故障イベントの障害レベルを示す情報である。例えば、情報処理システムの動作継続に対して影響を与える重大な障害の場合は、エラーを示すレベルEがレベル605として設定される。また、情報処理システムが動作を継続可能な場合は、警告を示すレベルWがレベル605として設定され、単なる通知情報である場合は、レベルIがレベル605として設定される。
メッセージID606は、保守作業の運用指針等に基づいて決められた、通報メッセージの種類を示す識別情報であり、部品ID607は、故障イベントが発生した部品(故障部品)を示す識別情報である。保守作業の運用指針は、保守センタ102の保守者と、データセンタ101を所有し業務を実施する所有者との間の合意に基づいて作成される。
故障情報608は、故障イベントの内容を示す情報であり、詳細情報609は、故障部品の詳細を示す情報である。詳細情報609としては、例えば、故障部品の部品番号、シリアル番号、モデル名等が設定される。データ610は、故障イベントの検出に用いられたセンサの測定値等のデータである。
なお、通報メッセージは図6のすべての情報を含む必要はなく、一部の情報を省略することも可能である。
図5の構成情報502は、図2の構成情報211に対応し、データセンタ101の各対象装置112内における交換単位同士の包含関係を表す。ここで、図7及び図8を参照しながら、構成情報502の具体例を説明する。
図7は、対象装置112の構成例を示している。図7の対象装置112は、サーバ701−1〜サーバ701−3を含み、サーバ701−1は、システム監視装置710、システムボード(SB)711−1、及びSB711−2を含む。
SB711−1は、部品として、Central Processing Unit (CPU)721−1、721−2、メモリ722−1〜メモリ722−4、ハードディスクドライブ(HDD)723−1、及びHDD723−2を含む。
この場合、対象装置112の筐体、サーバ701−1〜サーバ701−3、SB711−1、SB711−2、CPU721−1、CPU721−2、メモリ722−1〜メモリ722−4、HDD723−1、及びHDD723−2の各々が、1つの交換単位になり得る。
以下では、サーバ701−1〜サーバ701−3の1つを指して、サーバ701と記す場合があり、SB711−1又はSB711−2を指して、SB711と記す場合がある。CPU721−1、CPU721−2、メモリ722−1〜メモリ722−4、及びHDD723−1、HDD723−2についても同様である。
SB711−1に含まれるCPU721、メモリ722、又はHDD723の数は、図7に示される数に限定されるものではなく、1以上の整数であればよい。さらに、SB711−1には、入出力インタフェース等の他の部品が含まれていても構わない。
SB711−2の構成は、SB711−1の構成と同じでもよく、異なっていてもよい。サーバ701−1に含まれるSB711の数は、図7に示される数に限定されるものではなく、1以上の整数であればよい。
サーバ701−2及び701−3の構成は、サーバ701−1の構成と同じでもよく、異なっていてもよい。対象装置112に含まれるサーバ701の数は、図7に示される数に限定されるものではなく、1以上の整数であればよい。さらに、対象装置112には、サーバ701の代わりに、ネットワーク装置、ストレージ装置等の他のハードウェアが搭載されていても構わない。
システム監視装置710は、サーバ701−1の動作状態を監視し、サーバ701−1内で発生するイベントを検出する。そして、システム監視装置710に対応する検出元ID601及び場所IDと、検出されたイベントに応じたレベル605とを含む通報メッセージを、管理サーバ111へ送信する。なお、サーバ701−1内のシステム監視装置710の数は1個に限られるものではなく、SB711毎に1個のシステム監視装置710を設けてもよい。
図8は、図7の対象装置112の構成情報502の例を示している。図8の構成情報502は、構成ID801及び階層情報802を含む。構成ID801は、構成情報502の識別情報であり、階層情報802は、対象装置112内の交換単位同士の包含関係を示す情報である。図8の例では、対象装置112において、上位から下位へ向かって第1階層〜第4階層の4つの階層が設けられており、各階層に属する交換単位の識別情報が設定されている。
例えば、第1階層のC1は、対象装置112の筐体の識別情報であり、第2階層のSV1〜SV3は、それぞれサーバ701−1〜サーバ701−3の識別情報であり、第3階層のSB1及びSB2は、それぞれSB711−1及びSB711−2の識別情報である。また、第4階層のCPU1及びCPU2は、それぞれCPU721−1及びCPU721−2の識別情報であり、第4階層のMEM1〜MEM4は、それぞれメモリ722−1〜メモリ722−4の識別情報である。第4階層のHDD1及びHDD2は、それぞれHDD723−1及びHDD723−2の識別情報である。
この場合、対象装置112の筐体、サーバ701−1〜サーバ701−3、SB711−1、SB711−2、CPU721−1、CPU721−2、メモリ722−1〜メモリ722−4、HDD723−1、及びHDD723−2の各々が交換単位となる。さらに、SB2に含まれる部品や、SV1及びSV3に含まれるSB、部品等も交換単位となり、それらの交換単位の識別情報も階層情報に設定される。
階層情報802は、1つの階層に設定された識別情報が示す交換単位が、その階層より下位の階層に設定された識別情報が示す交換単位を含むことを表している。したがって、図8の例では、対象装置112の筐体がサーバ701−1〜サーバ701−3を含み、サーバ701−1がSB711−1及びSB711−2を含むことが分かる。さらに、SB711−1がCPU721−1、CPU721−2、メモリ722−1〜メモリ722−4、HDD723−1、及びHDD723−2を含むことも分かる。
構成情報502は、例えば、サーバ等のハードウェアに実装されている収集装置により収集された、各交換単位の実装位置及びその他の実装情報と、SBや部品に搭載されている記憶装置に記憶された、交換単位の構成情報とに基づいて、設定することができる。
なお、階層情報802の階層数は4に限られるものではなく、2以上の整数であればよい。また、構成情報502は、必ずしも階層情報802を用いて記述する必要はなく、交換単位同士の包含関係を示すことができる他の情報を用いて記述しても構わない。
次に、図5の履歴情報503は、過去に対象装置112−1〜対象装置112−Nから送信された1つ以上の通報メッセージの各々と、そのときに交換された交換単位の識別情報とを対応付けた情報である。履歴情報503に含まれる通報メッセージとして、別のデータセンタから保守サーバ121へ送信された通報メッセージを追加してもよい。
図9は、履歴情報503の例を示している。図9の履歴情報503は、パターン名901、発生期間902、緊急度/重み903、構成ID904、メッセージID905、頻度906、環境907、構成名908、条件909、及び交換単位910の項目を含む。
パターン名901は、過去に発生した保守作業を識別する識別情報であり、発生期間902は、その保守作業が発生した期間を表す。緊急度/重み903の緊急度は、保守作業の緊急度を表し、重みは、その緊急度を数値化した情報である。構成ID904は、保守作業の対象となった対象装置112の構成情報502の識別情報であり、メッセージID905は、保守作業の契機となった通報メッセージの識別情報である。
頻度906は、通報メッセージが示すイベントの発生頻度を表し、環境907は、イベント発生時の対象装置112内の温度等の環境を示す情報である。構成名908は、イベント発生時の対象装置112の構成を表す名称であり、条件909は、イベント発生時の対象装置112の動作条件を表す。この動作条件には、例えば、対象装置112が実行していたオペレーティングシステム、アプリケーションプログラム等の識別情報が含まれる。交換単位910は、保守作業において実際に交換された交換単位の種類を表す。交換単位の種類としては、例えば、筐体、サーバ、SB、CPU、メモリ、HDD等が用いられる。
なお、履歴情報503は図9のすべての項目を含む必要はなく、一部の項目を省略することも可能である。また、メッセージID905に加えて、通報メッセージに含まれる故障情報608、詳細情報609、データ610等の他の情報を、履歴情報503に含めてもよい。
次に、図5の保守ポリシー情報504は、保守作業の運用方針である保守ポリシーに合わせて設定される情報である。データセンタ101における保守ポリシーは、所有者の運用方針に合わせて、交換単位の種類毎に、状況に応じて変更可能であることが好ましい。このため、保守サーバ121は、通信ネットワーク103を介して、複数のデータセンタ101の管理サーバ111に対しそれぞれローカルな保守ポリシー情報504を設定する。
図10は、図5の保守ポリシー情報504の例を示している。図10の保守ポリシー情報504は、交換候補変更情報1001及び抑止情報1002を含む。
交換候補変更情報1001は、交換候補の変更を指定する情報であり、変更指定1011、条件1012、及び予防交換1013の項目を含む。変更指定1011は、交換候補の変更をどのように実施するかを表す。この変更指定1011には、例えば、以下のような指定のいずれか1つが設定される。
(1)最小単位:通報メッセージが示す交換単位に含まれる交換単位のうち最小の交換単位(最下位の階層の交換単位)を交換候補として提示する。
(2)大きな交換単位:通報メッセージが示す交換単位を含む交換単位(上位の階層の交換単位)を交換候補として提示する。
(3)製品:通報メッセージが示す交換単位を含む販売単位(上位の階層の交換単位)を交換候補として提示する。
(4)筐体:通報メッセージが示す交換単位を含む対象装置112の全体(最上位の階層の交換単位)を交換候補として提示する。
条件1012は、交換作業を実施しない場合の条件を表す情報である。条件1012としては、例えば、特定のハードウェア、特定の部品等で故障イベントが発生したこと等が設定される。条件1012に該当する故障イベントが発生した場合、交換作業を実施せず、対象装置112が自律的に構成を変更する。例えば、ハードウェアが二重化されている場合、現用ハードウェアを予備ハードウェアへ切り替えることで構成が変更される。また、構成を変更せずに、故障したハードウェア又はSB等の交換単位全体を廃棄することもあり得る。
予防交換1013は、障害発生を予防するために交換作業を行うか否かを指定する情報である。
抑止情報1002は、通報メッセージの抑止範囲を指定する情報であり、レベル1021、対象装置1022、及びメッセージ1023の項目を含む。
レベル1021は、抑止対象となる通報メッセージのレベル605を表す情報であり、対象装置1022は、対象装置112−1〜対象装置112−Nのうち、抑止対象となる通報メッセージの送信元の対象装置112の範囲を指定する情報である。対象装置1022としては、筐体の識別情報等が設定される。メッセージ1023は、抑止対象から除外される通報メッセージのリストを表す情報である。通報メッセージのリストには、例えば、特定のメッセージID606が設定される。
上述したように、管理サーバ111から保守サーバ121へは、交換候補を示す交換候補情報が送信されるため、従来のようにすべての通報メッセージを保守サーバ121へ送信する必要はなくなると考えられる。そこで、例えば、管理サーバ111から保守サーバ121へ送信される通報メッセージの数を削減するため、管理サーバ111は、保守ポリシー情報504に設定された抑止情報1002に基づいて、通報メッセージの送信を抑止する。
抑止情報1002を用いることで、データセンタ101から保守センタ102へ送信されるメッセージの量を削減したり、カスタマイズしたりすることができる。例えば、上述した通報メッセージのレベルE、W、及びIのうち、相対的に重要度が低いレベルIの通報メッセージを抑止することができる。また、レベルIの通報メッセージであっても、特に必要となる通報メッセージについては、メッセージ1023に設定しておくことで、抑止対象から除外して保守サーバ121へ送信することができる。
なお、保守ポリシー情報504は図10のすべての項目を含む必要はなく、一部の項目を省略することも可能である。例えば、交換候補変更情報1001のうち条件1012及び予防交換1013を省略してもよく、抑止情報1002のうち対象装置1022及びメッセージ1023を省略してもよい。また、通報メッセージを抑止する必要がない場合は、抑止情報1002を省略しても構わない。
図11は、交換候補提示処理により管理サーバ111から保守サーバ121へ送信される保守メッセージのフォーマットを示している。図11の保守メッセージは、日付1101、時刻1102、期間1103、送信元ID1104、交換候補情報1105、及び詳細情報1106を含む。
日付1101及び時刻1102は、保守メッセージを生成した日時を表し、期間1103は、交換候補提示処理におけるメッセージ監視期間を表す。管理サーバ111は、このメッセージ監視期間内に受信した通報メッセージに基づいて保守メッセージを生成する。送信元ID1104は、保守メッセージを生成した管理サーバ111が属するデータセンタ101の識別情報である。
交換候補情報1105は、データセンタ101における交換作業の対象となる交換候補を示す情報である。交換候補情報1105としては、例えば、交換候補提示処理により決定された交換候補である1つ以上の交換単位の識別情報が設定される。詳細情報1106は、故障イベントの詳細を示す情報である。詳細情報1106としては、例えば、通報メッセージに含まれる部品ID607、故障情報608、詳細情報609等の情報が設定される。
なお、保守メッセージは図11のすべての情報を含む必要はなく、一部の情報を省略することも可能である。
図12は、図4の処理部201を含む管理サーバ111による交換候補提示処理の例を示すフローチャートである。
処理部201のメッセージ処理部401は、対象装置112−1〜対象装置112−Nから通報メッセージを受信すると、その通報メッセージを通報メッセージ501として格納部202に格納する(ステップ1201)。通報メッセージ501は、例えば、ログファイルとして格納部202内に設けることができる。
次に、メッセージ監視部402は、メッセージ監視期間が経過したか否かをチェックし(ステップ1202)、メッセージ監視期間が経過していなければ(ステップ1202,NO)、メッセージ処理部401はステップ1201の処理を繰り返す。メッセージ監視期間は、保守作業の運用方針に基づいて、時間、日、週、月等の単位で設定される。
メッセージ監視期間が経過すると(ステップ1202,YES)、メッセージ解析部403は、通報メッセージ501のうち、交換単位解析処理に用いる通報メッセージを抽出するメッセージ解析処理を行う(ステップ1203)。このメッセージ解析処理では、メッセージ監視期間内に受信され通報メッセージ501として格納されている通報メッセージが処理対象となる。
次に、履歴解析部404は、通報メッセージ501のうち、履歴情報503に含まれる過去の通報メッセージに対応する通報メッセージを抽出する履歴解析処理を行う(ステップ1204)。この履歴解析処理でも、メッセージ監視期間内に受信され通報メッセージ501として格納されている通報メッセージが処理対象となる。
次に、交換単位解析部405は、保守ポリシー情報504を取得する保守ポリシー取得処理を行い(ステップ1205)、保守ポリシー情報504に基づいて交換単位解析処理を行う(ステップ1206)。交換単位解析処理では、ステップ1203で抽出された通報メッセージに含まれる部品ID607と、構成情報502と、保守ポリシー情報504とに基づいて、交換作業の対象となる対象装置112と、交換候補となる交換単位が決定される。そして、決定された交換候補を示す交換候補情報が生成される。
次に、交換単位解析部405は、図10の保守ポリシー情報504に含まれる交換候補変更情報1001に基づいて、決定された対象装置112の構成変更を行うか否かを判定する(ステップ1207)。そして、交換単位解析部405は、構成変更を行う場合(ステップ1207,YES)は、構成変更要求をその対象装置112に送信し、構成変更要求を受信した対象装置112は、要求された構成変更を自律的に行う(ステップ1208)。
ステップ1207では、交換候補変更情報1001の条件1012に該当する故障イベントが発生した場合に構成変更を行うと判定され、その故障イベントが発生した対象装置112に構成変更要求が送信される。
図13は、対象装置112が自律的に構成変更を行う例を示している。図13のデータセンタ101において、対象装置112−i(i=1,2,...,N)のサーバ1301−iは、予備サーバ1302−iにより二重化されている。そして、対象装置112−iは、管理サーバ111から構成変更要求を受信すると、現用サーバをサーバ1301−iから予備サーバ1302−iへ切り替えて、構成を変更する。
これにより、重要部品の故障等の故障イベントが発生した場合に、保守者による交換作業を実施しなくても、ハードウェア全体を交換してサービス運用を継続することが可能になる。切り替えにより現用サーバではなくなったサーバ1301−iは、定期的にまとめて回収し、新たな予備サーバと交換することができる。
ステップ1208において、サーバ等の交換単位を予備の装置に切り替える代わりに、SB、CPU、メモリ等の交換単位で縮退させることで、構成を変更してもよい。
次に、交換単位解析部405は、図10の保守ポリシー情報504に含まれる抑止情報1002に基づいて、通報メッセージを抑止するか否かを判定する(ステップ1209)。そして、交換単位解析部405は、通報メッセージを抑止する場合(ステップ1209,YES)は、保守サーバ121への通報メッセージの送信を抑止する(ステップ1210)。
ステップ1209では、抑止情報1002のレベル1021又は対象装置1022に抑止対象が設定されていれば、通報メッセージを抑止すると判定される。この場合、対象装置1022の情報に該当する対象装置112から受信した通報メッセージのうち、レベル1021の情報に該当するレベル605を有する通報メッセージが抑止対象となる。一方、メッセージ1023の情報に該当する通報メッセージは、抑止対象から除外される。
通報メッセージを抑止することで、データセンタ101から保守センタ102へ送信されるメッセージの量を制御して、その量が膨大になることを防止できる。また、通報メッセージを抑止する場合であっても、特に必要な通報メッセージについては個別にメッセージ1023に設定しておくことで、送信可能にすることができる。
次に、交換単位解析部405は、交換単位解析処理により生成された交換候補情報を含む保守メッセージを保守サーバ121へ送信する(ステップ1211)。保守サーバ121は、管理サーバ111から受信した保守メッセージに基づいて、交換候補を提示する情報等をディスプレイ画面に表示する。これにより、保守センタ102の保守者は、提示された交換候補に該当する交換単位を交換する作業を行うことができる。
なお、ステップ1208で構成変更を行った場合は、交換作業を実施しないことがある。交換作業を実施しない場合は、保守者に対して交換候補を提示する必要がないため、保守メッセージの送信を省略することができる。
交換単位解析部405は、構成変更を行わない場合(ステップ1207,NO)は、ステップ1209以降の処理を行い、通報メッセージを抑止しない場合(ステップ1209,NO)は、ステップ1211の処理を行う。
次に、図14〜図17を参照しながら、図12のステップ1203〜1206で行われる処理について説明する。
図14は、図12のステップ1203におけるメッセージ解析処理の例を示すフローチャートである。メッセージ解析部403は、まず、メッセージ監視期間内に受信した通報メッセージをレベル605が示すレベル毎に分類し、レベルE、W、及びIのそれぞれのレベルの通報メッセージを抽出する(ステップ1401)。
次に、メッセージ解析部403は、各レベルの通報メッセージを部品ID607が示す部品毎に分類し、各部品の通報メッセージを抽出する(ステップ1402)。そして、メッセージ解析部403は、同一の部品ID607を有する複数のレベルEの通報メッセージが抽出されたか否かをチェックする(ステップ1403)。
同一の部品ID607を有する複数のレベルEの通報メッセージが抽出された場合(ステップ1403,YES)、メッセージ解析部403は、それらの通報メッセージを格納部202に記録する(ステップ1406)。
一方、同一の部品ID607を有する複数のレベルEの通報メッセージが抽出されなかった場合(ステップ1403,NO)、メッセージ解析部403は、次に、同一の部品ID607を有するレベルE及びレベルWの通報メッセージの組が抽出されたか否かをチェックする(ステップ1404)。
同一の部品ID607を有するレベルE及びレベルWの通報メッセージの組が抽出された場合(ステップ1404,YES)、メッセージ解析部403は、それらの通報メッセージを格納部202に記録する(ステップ1406)。なお、同一の部品ID607を有するレベルEの通報メッセージが複数抽出された場合は、それらの複数の通報メッセージが記録される。同様に、同一の部品ID607を有するレベルWの通報メッセージが複数抽出された場合は、それらの複数の通報メッセージが記録される。
一方、同一の部品ID607を有するレベルE及びレベルWの通報メッセージの組が抽出されなかった場合(ステップ1404,NO)、メッセージ解析部403は、次に、同一の部品ID607を有する一定数以上のレベルWの通報メッセージが抽出されたか否かをチェックする(ステップ1405)。
同一の部品ID607を有する一定数以上のレベルWの通報メッセージが抽出された場合(ステップ1405,YES)、メッセージ解析部403は、それらの通報メッセージを格納部202に記録する(ステップ1406)。一方、同一の部品ID607を有する一定数以上のレベルWの通報メッセージが抽出されなかった場合(ステップ1405,NO)、メッセージ解析部403は、処理を終了する。
このようなメッセージ解析処理によれば、同一の部品の障害に起因して一定期間内に集中して発生したエラーメッセージであるレベルEの通報メッセージ、又は警告メッセージであるレベルWの通報メッセージを特定することができる。
図15は、図12のステップ1204における履歴解析処理の例を示すフローチャートである。履歴解析部404は、まず、メッセージ監視期間内に受信した通報メッセージをレベル605が示すレベル毎に分類し、レベルE、W、及びIのそれぞれのレベルの通報メッセージを抽出する(ステップ1501)。
次に、履歴解析部404は、格納部202の履歴情報503を参照して、抽出された各通報メッセージに対応するエントリがあるか否かをチェックする(ステップ1502)。ここでは、例えば、通報メッセージのメッセージID606と一致するメッセージID905を有する、履歴情報503のエントリが検索される。
通報メッセージに対応するエントリがある場合(ステップ1502,YES)、履歴解析部404は、次に、格納部202を参照して、その通報メッセージの場所ID602に含まれる、対象装置112の筐体の識別情報を含む構成情報502を取得する(ステップ1503)。そして、履歴解析部404は、取得した構成情報502の構成ID801と、履歴情報503のエントリの構成ID904とを比較する(ステップ1504)。
履歴解析部404は、構成情報502の構成ID801と履歴情報503のエントリの構成ID904が一致すれば(ステップ1504,YES)、そのエントリの交換単位910の情報に基づいて交換候補を格納部202に記録する(ステップ1505)。ここでは、例えば、構成情報502に含まれる交換単位の識別情報のうち、交換単位910が示す種類に対応する交換単位の識別情報が、交換候補として記録される。
履歴解析部404は、通報メッセージに対応する履歴情報503のエントリがない場合(ステップ1502,NO)、又は構成情報502の構成ID801と履歴情報503のエントリの構成ID904が一致しない場合(ステップ1504,NO)は、処理を終了する。
なお、図6の故障情報608、詳細情報609、データ610等が履歴情報503に含まれている場合は、ステップ1502において、各通報メッセージに含まれるそれらの情報と一致する情報を有する、履歴情報503のエントリを検索してもよい。
また、ステップ1502において、通報メッセージに対応する履歴情報503のエントリが複数存在し、それらのエントリに緊急度/重み903が設定されている場合は、その重みが大きいものから優先的に一定数のエントリを選択してもよい。
このような履歴解析処理によれば、過去に発生した故障イベントに基づいて交換された交換単位と同じ種類の交換単位を、今回の交換候補として提示することが可能になる。また、保守センタ102が管理する他のデータセンタの履歴を含む履歴情報503を用いることで、他のデータセンタで実施された交換作業の結果に基づいて、交換候補の精度を向上させることができる。
図16は、図12のステップ1205における保守ポリシー取得処理の例を示すフローチャートである。交換単位解析部405は、まず、図14のステップ1406で記録された通報メッセージがあるか否かをチェックする(ステップ1601)。記録された通報メッセージがあれば(ステップ1601,YES)、交換単位解析部405は、格納部1603から保守ポリシー情報504を取得する(ステップ1603)。
一方、記録された通報メッセージがない場合(ステップ1601,NO)、交換単位解析部405は、次に、図15のステップ1505で記録された交換候補があるか否かをチェックする(ステップ1602)。記録された交換候補があれば(ステップ1602,YES)、交換単位解析部405は、格納部1603から保守ポリシー情報504を取得する(ステップ1603)。記録された交換候補がない場合(ステップ1602,NO)、交換単位解析部405は、処理を終了する。
図17は、図12のステップ1206における交換単位解析処理の例を示すフローチャートである。交換単位解析部405は、まず、図14のステップ1406で記録された通報メッセージと、図15のステップ1505で記録された交換候補とを用いて、交換単位同士の包含関係をチェックする(ステップ1701)。
ここでは、例えば、記録された通報メッセージに含まれる部品ID607が示す交換単位と、記録された交換候補が示す交換単位とを処理対象として、交換単位同士の包含関係がチェックされる。このとき、記録された通報メッセージの場所ID602に含まれる、対象装置112の筐体の識別情報を含む構成情報502と、記録された交換候補を決定する際に用いられた構成情報502とが、包含関係のチェックに用いられる。さらに、場所ID602が示す対象装置112が、交換作業の対象に決定される。
そして、交換単位解析部405は、保守ポリシー情報504の変更指定1011に従って交換候補を変更し、変更された交換候補の識別情報を含む交換候補情報1105を生成する(ステップ1702)。
例えば、変更指定1011として大きな交換単位が設定されている場合、処理対象の交換単位を含む、より大きな交換単位が、変更後の交換候補に決定される。図8の構成情報502を用いた場合、第4階層のMEM1及びMEM2が処理対象に含まれていれば、例えば、MEM1及びMEM2を含む第3階層のSB1が変更後の交換候補に決定される。
また、変更指定1011として製品が設定されている場合、処理対象の交換単位を含む販売単位が、変更後の交換候補に決定される。例えば、第4階層のMEM1及びMEM2が処理対象に含まれており、サーバが販売単位であれば、MEM1及びMEM2を含む第2階層のSV1が変更後の交換候補に決定される。
そして、変更指定1011として筐体が設定されている場合、処理対象の交換単位を含む対象装置112の筐体が、変更後の交換候補に決定される。例えば、第4階層のMEM1及びMEM2が処理対象に含まれていれば、MEM1及びMEM2を含む第1階層のC1が変更後の交換候補に決定される。
変更後の交換候補は1つの交換単位である必要はなく、複数の交換単位であってもよい。交換候補として複数の交換単位が存在する場合は、構成情報502に含まれる第1階層の交換単位から優先的に、下位の階層へ向かって順番に優先順位を付加して、交換候補情報1105を生成することができる。さらに、処理対象の交換単位そのものを交換候補として交換候補情報1105に含めてもよい。
例えば、第1階層のC1を第1候補とし、第2階層のSV1を第2候補とし、第3階層のSB1を第3候補とし、第4階層のMEM1及びMEM2を第4候補として含む交換候補情報1105を生成することができる。
このような交換単位解析処理によれば、通報メッセージに含まれる部品ID607が示す個々の部品のみならず、故障している可能性がある1つ以上の部品を含むより大きな交換単位を、交換候補として提示することが可能になる。また、過去に発生した故障イベントに基づいて交換された部品を含むより大きな交換単位を、交換候補として提示することも可能になる。例えば、過去に交換したメモリで再度故障イベントが発生した場合には、同じメモリを再度交換するのではなく、そのメモリを含むSB全体を交換候補として提示することができる。これにより、保守者の交換作業が大幅に簡素化される。
例えば、1つのSB上に搭載されている複数のメモリからエラーメッセージや警告メッセージが発生した場合に、同じSB上で複数の故障が発生しているものと判定して、SBを交換候補として指定する交換候補情報1105を生成することが可能になる。この交換候補情報1105を含む保守メッセージは、個々のエラーメッセージや警告メッセージとは別に保守センタ102へ送信される。これにより、保守者は、一度の交換作業で複数のメモリを交換するか、SB全体を交換するかを選択することが可能になる。
構成情報502としては、対象装置112のハードウェア構成の他に、ハードウェアの論理構成やネットワーク装置との接続構成等についての情報を設定できる場合がある。この場合、交換単位解析部405は、例えば、SB上の論理インタフェースの障害や通信ネットワーク間の障害に基づく交換候補を求めることができる。
以上説明した交換候補提示処理によれば、対象装置112内のシステム監視装置710からの複数種類の通報メッセージに基づいて、交換候補を柔軟に変更することが可能になる。これにより、ハードウェアの故障イベントが複数発生した場合でも、状況によっては、交換作業の重複を避けて、保守者の作業量を削減することができる。また、保守センタ102へ送信される通報メッセージを削減することができるため、保守者の作業量がさらに削減される。
また、ハードウェアの一部の部品を交換する場合と、部品交換を実施せずにハードウェア全体を交換して保守作業を極端に簡素化する場合とを、保守ポリシー情報504を用いて区別することが可能になる。さらに、交換作業のコストと交換単位のコストとを比較考量して、保守作業を最適化することが可能になる。
ところで、それぞれのデータセンタ101の管理サーバ111に設定される保守ポリシー情報504は、保守作業の運用方針に基づき、対象装置112に含まれるハードウェアの種類と数に応じて、また対象装置112の運用状況に応じて変更できることが望ましい。
また、保守センタ102では、保守作業のために複数のデータセンタ101から各種のシステム情報、ハードウェア情報、通報メッセージ等を収集することができる。そして、収集した情報に対して統計的なデータ処理を実施し、収集した情報とデータ処理の結果とに基づいて、履歴情報503を更新することが可能である。したがって、更新された履歴情報503を、データセンタ101の管理サーバ111に設定される履歴情報503に反映できることが望ましい。
そこで、保守センタ102から遠隔操作により、それぞれのデータセンタ101の履歴情報503及び保守ポリシー情報504を変更する手順を設けることが考えられる。
図18は、保守センタ102の保守サーバ121が履歴情報503及び保守ポリシー情報504を変更する処理の例を示すフローチャートである。保守サーバ121は、まず、対象装置112に含まれるハードウェアの種類と数、又は対象装置112の運用状況に応じて、保守ポリシー情報504を更新する(ステップ1801)。
次に、保守サーバ121は、複数のデータセンタ101から収集した情報に対して統計的なデータ処理を実施し、履歴情報503を更新する(ステップ1802)。そして、保守サーバ121は、更新した履歴情報503及び保守ポリシー情報504を管理サーバ111へ送信する(ステップ1803)。管理サーバ111は、受信した履歴情報503及び保守ポリシー情報504を用いて、格納部202の履歴情報503及び保守ポリシー情報504を更新する(ステップ1804)。
ステップ1803では、故障イベントが発生したデータセンタと同様のハードウェア又はシステムを有する別のデータセンタ、又は同様の運用を行っている別のデータセンタへ、履歴情報503を選択的に送信することもできる。
このように、あるデータセンタで発生した故障イベントの履歴情報を、動作環境が類似する別のデータセンタへ転送することで、他のデータセンタで同種の装置に対して実施済みの交換作業を参照して、効率良く交換候補を決定することが可能になる。また、保守サーバ121により実施されたデータ処理の結果に基づいて、履歴情報503に含まれる緊急度/重み903の情報を変更することで、交換候補の精度を向上させることができる。
図12及び図14〜図18に示した各フローチャートは一例に過ぎず、データセンタ101又は保守センタ102の構成や条件に応じて一部の処理を省略又は変更してもよい。例えば、過去に発生した故障イベントを参照する必要がない場合は、図5の履歴情報503及び図12のステップ1204の処理を省略することができる。また、通報メッセージを抑止する必要がない場合は、図10の抑止情報1002及び図12のステップ1209、1210の処理を省略することができる。
図1の管理サーバ111及び保守サーバ121は、例えば、図19に示すような情報処理装置(コンピュータ)を用いて実現可能である。
図19の情報処理装置は、CPU1901、メモリ1902、入力装置1903、出力装置1904、外部記憶装置1905、媒体駆動装置1906、及びネットワーク接続装置1907を備える。これらはバス1908により互いに接続されている。
メモリ1902は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。例えば、CPU1901は、メモリ1902を利用してプログラムを実行することにより、図2の処理部201として動作し交換候補提示処理を行う。メモリ1902は、図2の格納部202としても使用できる。
入力装置1903は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示や情報の入力に用いられる。出力装置1904は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザ又はオペレータへの問い合わせや処理結果の出力に用いられる。出力装置1904は、図2の出力部203としても使用できる。
外部記憶装置1905は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。この外部記憶装置1905には、ハードディスクドライブも含まれる。情報処理装置は、外部記憶装置1905にプログラム及びデータを格納しておき、それらをメモリ1902にロードして使用することができる。
媒体駆動装置1906は、可搬型記録媒体1909を駆動し、その記録内容にアクセスする。可搬型記録媒体1909は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。この可搬型記録媒体1909には、Compact Disk Read Only Memory (CD−ROM)、Digital Versatile Disk(DVD)、Universal Serial Bus(USB)メモリ等も含まれる。ユーザ又はオペレータは、この可搬型記録媒体1909にプログラム及びデータを格納しておき、それらをメモリ1902にロードして使用することができる。
このように、各種処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体には、メモリ1902、外部記憶装置1905、及び可搬型記録媒体1909のような、物理的な(非一時的な)記録媒体が含まれる。
ネットワーク接続装置1907は、通信ネットワーク103及び113に接続され、通信に伴うデータ変換を行う通信インタフェースである。通信ネットワーク103及び113の各々に対して1台のネットワーク接続装置1907を設けてもよい。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1907を介して受け取り、それらをメモリ1902にロードして使用することもできる。ネットワーク接続装置1907は、図2の出力部203としても使用できる。
なお、情報処理装置が図19のすべての構成要素を含む必要はなく、用途や条件に応じて一部の構成要素を省略することも可能である。例えば、情報処理装置がユーザ又はオペレータと直接対話しない場合は、入力装置1903及び出力装置1904を省略してもよく、可搬型記録媒体1909にアクセスしない場合は、媒体駆動装置1906を省略してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。