JP6417742B2

JP6417742B2 - データ管理プログラム、データ管理装置及びデータ管理方法

Info

Publication number: JP6417742B2
Application number: JP2014125703A
Authority: JP
Inventors: 幸久宮川; 清志 ▲高▼下; 康英當房; 伊智郎小谷; 孝昭中澤; 有希鳥居
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2018-11-07
Anticipated expiration: 2034-06-18
Also published as: JP2016004488A; US20150370626A1

Description

本発明は、データ管理に関する。

最近のクラウド技術の発達などにより、システムの性能を管理するサーバの数が大規模化（数千台）し、システム性能の観測データ（以下、性能データと称する）を格納する性能データベースに蓄積されるデータ量が膨大となっている。そのため、データを蓄積するディスクの容量不足や、ディスクコストの増大が発生している。

蓄積されるデータ量を削減するためには、詳細な内容の性能データを期間や時間帯などで間引くことでデータ量を削減することが考えられる。しかし、性能トラブル発生時のトラブルシューティング時には、過去１年間分程度の性能データが必要となる。このため、性能データを一律に間引くことでは、トラブルシューティング時に必要な性能データを参照できない場合があり、発生している問題の切り分けができない、または調査に時間を要する。

データを蓄積するディスク容量不足やディスクコスト増大を抑えつつ、トラブルシューティングに必要となる過去の性能データを参照できる仕組みが求められている。

第１技術として、必要なデータを取りながら、保存データの量を削減する技術がある（例えば、特許文献１）。第１の技術では、ネットワークを経由して接続された操作対象装置と、情報保存装置とを含む情報保存システムがある。操作対象装置は、装置の状態変化が操作データを基に動作した結果の出力データの保存開始指示及び保存終了指示であるか否かを判定し、出力データと保存開始指示と保存終了指示とを送信する。情報保存装置は、操作対象装置に操作データを送信し、操作対象装置から出力データと保存開始指示と保存終了指示とを受信し、保存開始指示に応じて出力データの保存を開始し、保存終了指示に応じて出力データの保存を終了する。

第２技術として、データ系列の数が非常に多い場合であっても、どのデータ系列に異常や変化が生じたかを効率よく検出することができる異常検出技術がある（例えば、特許文献２）。第２技術では、集約手段は、同一のグループに属していると定められたデータ系列のデータ値またはデータ値の累乗の和を計算することにより、同一のグループに属していると定められたデータ系列を集約する。統計量計算手段は、集約される前のデータ系列のデータ値の統計量を計算する。グループ検出手段は、各グループ毎に計算された和に基づいて、異常または変化が生じているデータ系列を含むグループを検出する。データ系列特定手段は、グループ検出手段に検出されたグループに属するデータ系列の中から、統計量に基づいて、異常または変化が生じているデータ系列を特定する。

第３技術として、管理対象システムの状態を示すデータを収集し、効果的に活用できるように保持するデータ収集記録技術がある（例えば、特許文献３）。データ収集記録装置は、システムデータ取得部、データ記録部、データ読出し部、データ圧縮部、制御部を含む。システムデータ取得部は、管理対象システムの状態に関するデータを所定の時間間隔ごとに取得する。データ記録部は、データ蓄積部にデータを時系列順に記録する。データ読出し部は、データ蓄積部に記録されたデータを読み出す。データ圧縮部は、データ読出し部８によって読み出された複数のデータのいずれかを間引く処理によって、圧縮データを生成する。制御部は、装置全体を制御する。データ圧縮部は、複数のデータのいずれかを間引く処理を、データ蓄積部に記録されたデータの時間間隔が所定の時間間隔よりも長くなるように実行する。データ記録部は、データ蓄積部に記録されているデータを圧縮データに書き替える。

特開２０１３−１４０４７１号公報特開２０１０−１９８５７９号公報特開２０１１−２５８０６４号公報

トラブルシューティング時に必要となる過去の性能データは、過去に性能問題が発生した際のデータである。そこで、性能問題発生時の性能データ部分を残して、その他の部分を不要なデータとして間引くアプローチが考えられる。性能問題発生を自動検知する関連技術として閾値監視技術や予兆検知技術が考えられるが、これらの技術では解決できない問題を抱えている。

閾値監視技術では、ユーザがシステムの監視項目毎に閾値を設定してシステムの監視を行い、その監視項目の計測値が閾値を超えた場合にアラームを通知する。

しかしながら、設定された閾値によっては、運用状況や時間帯で通知が不要な異常の通知をしたり、または、通知が必要な異常の通知が行われなかったりという問題がある。

予兆検知技術では、システム性能の計測値を統計処理することで、システムの動作が正常か異常かを判断する。これにより、個々の計測値からは分からない異常を統計計算によって見つけることができる。

しかしながら、統計計算の値からあるデータを異常と判断し、ユーザに通知した場合でも、一時的な傾向のためそのデータは原因分析データとして不要であることが多くある。また、クラウド環境ではシステム構成・リソース割当が動的に変更可能となったため、過去の性能データから異常値（外れ値）を検知する精度が下がっている。

すなわち、閾値の監視や予兆の検知によるデータ蓄積対象の制御では、異常が発生しているシステムの性能データのうち、異常が発生している時間帯の性能データが残せなかったり、異常が発生していない時間帯の性能データが残ってしまう問題が発生する。

本発明は、一側面として、蓄積された監視対象のログから、異常が発生している期間に対応するログを抽出する技術を提供する。

データ管理プログラムは、コンピュータに、監視対象の情報処理装置におけるイベントのうち、特定のイベントを第１記憶部に記憶し、前記情報処理装置からログを取得して第２記憶部に記憶し、前記ログのうち、前記第１記憶部に記憶された前記特定のイベントと一致しないイベントの発生の際のログを特定し、特定した前記ログによって示される性能値が異常と判断される期間を、取得した前記ログからのログ抽出の対象期間として特定する、処理を実行させる。

本発明によれば、一側面として、蓄積された監視対象のログから、異常が発生している期間に対応するログを抽出することができる。

関連技術を使用して性能の問題を検知する場合の例について説明するための図である。第１技術を使用した場合に、データの間引きの結果、不要なデータが残る場合について説明するための図である。本実施形態に係るデータ管理装置の一例を示す。本実施形態における監視システムのブロック図を示す。本実施形態におけるＯＳ再起動情報及びＯＳ再起動情報（作業用）の一例を示す。本実施形態における常駐プロセス一覧情報及び常駐プロセス一覧情報（作業用）の一例を示す。本実施形態におけるＶＭ資源割当変更パターン及びＶＭ資源割当変更パターン（作業用）の一例を示す。本実施形態におけるコマンド一覧の一例を示す。本実施形態における再起動プロセス一覧の一例を示す。本実施形態におけるモジュール一覧の一例を示す。本実施形態におけるＶＭ構成一覧の一例を示す。本実施形態における全体処理のフローを示す。本実施形態における間引き処理を説明するための図である。本実施形態における、時間経過に伴う監視対象の性能データの間引き処理後の結果を示す。本実施形態における、週単位での時間経過に伴う監視対象の性能データの間引き処理後の結果を示す。本実施形態における定期的なＯＳ再起動のサイクル情報抽出（Ｓ１−１）（エージェント側）の詳細フローを示す。本実施形態における定期的なＯＳ再起動のサイクル情報抽出（Ｓ１−１）（マネージャ側）の詳細フローを示す。本実施形態における常駐プロセス一覧の抽出処理（Ｓ１−２）（エージェント側）の初回時の詳細フローを示す。本実施形態における常駐プロセス一覧の抽出処理（Ｓ１−２）（エージェント側）の２回目以降の詳細フローを示す。本実施形態における常駐プロセス一覧の抽出処理（Ｓ１−２）（マネージャ側）のモニタリング期間終了時の詳細フローを示す。本実施形態における定期的な仮想環境での資源の動的変更のサイクル情報抽出（Ｓ１−３）（マネージャ側）の詳細フローを示す。本実施形態における定期的な仮想環境での資源の動的変更のサイクル情報抽出（Ｓ１−３）（マネージャ側）のモニタリング期間終了時の詳細フローを示す。本実施形態におけるＯＳの再起動の検出処理（Ｓ２−１）の詳細フローを示す。本実施形態における定期的ＯＳ再起動判定処理（Ｓ３−１）の詳細フローを示す。本実施形態におけるミドルウェアやアプリケーションの再起動の検出処理（Ｓ２−２）の詳細フローを示す。本実施形態における改訂／修正プログラムの適用によるミドルウェアやアプリケーションプログラムの再起動判定処理（Ｓ３−２）の詳細フローを示す。本実施形態における監視対象サーバが定期的に実行する性能情報取得系コマンドの検出処理（Ｓ２−３）の詳細フローを示す。本実施形態における監視対象サーバが定期的に実行する性能情報取得系コマンドであるかを判定する処理（Ｓ３−３）の詳細フローを示す。本実施形態における仮想環境での資源の動的変更の検出処理（Ｓ２−４）の詳細フローを示す。本実施形態における仮想環境での資源の動的変更が定期的な動的変更であるかを判定する処理（Ｓ３−４）の詳細フローを示す。本実施形態における仮想環境でのライブマイグレーションの検出処理（Ｓ２−５）の詳細フローを示す。本実施形態におけるライブマイグレーションが自システムの問題以外の問題によるものなのかを判定する処理（初回）（Ｓ３−４）の詳細フローを示す。本実施形態におけるライブマイグレーションが自システムの問題以外の問題によるものなのかを判定する処理（２回目以降）（Ｓ３−４）の詳細フローを示す。本実施形態における自システムの問題以外の理由のために実行されたライブマイグレーションがあるかを検出する処理（Ｓ３−５−６）の詳細フローを示す。本実施形態における性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理（Ｓ４）において、性能データが標準偏差の範囲を超えた時間の始点と終点とを特定する処理の詳細フロー（その１）を示す。本実施形態における性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理（Ｓ４）において、性能データが標準偏差の範囲を超えた時間の始点と終点とを特定する処理の詳細フロー（その２）を示す。本実施形態における、特定された始点と終点に基づいて、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理（Ｓ４）の詳細フローを示す。本実施形態における性能データの参照処理のフローを示す。本実施形態における未参照性能データの削除処理のフローを示す。本実施形態におけるプログラムを実行するコンピュータのハードウェア環境の構成ブロック図の一例である。

図１は、関連技術を使用して性能の問題を検知する場合の例について説明するための図である。図１において、縦軸は、監視対象のシステムを示す。また、横軸は、時間を示す。

図１内の“異常（システム３）”は、上記関連技術により蓄積すべき性能データが間引かれて残らなかった様子を示す。図１内の“異常（システム９）”は、蓄積するべき性能データが正しく残る様子を示す。

“異常（システム３）”と“異常（システム９）”以外のシステムでは、運用上問題のない範囲の一時的なアラートが多発し、多くの性能データが間引かれずに残ることを示す。

データ量を削減する場合、ファイル圧縮技術を使った削減方法も考えられるが、以下の問題があるため除外する。

・可逆性圧縮（完全に元のデータと同じデータに戻ることを保証）の技術（例：ＺＩＰ）は、１／１０程度の圧縮率であり、データセンターに集約された数千台の管理対象サーバの詳細な性能データを１年間分蓄積するには、膨大なディスク（数ＴＢ以上）が必要となる。

高圧縮率な非可逆性圧縮（元のデータと同じデータに戻ることを保証しない）の技術（例：ＪＰＥＧ）は、圧縮率は高いが、圧縮の結果、データ値が０以外の場合に０になったり、値が０の場合に０以上になったりして性能データの詳細な値を完全に復元できない。そのため、トラブルシューティング時にその圧縮データを利用することができない。

・また、圧縮技術を利用して性能データを圧縮した場合、トラブルシューティング時にデータを復元する必要があり、データが大量になると復元時間が増大し、緊急を要するトラブルシューティングに利用できない。また、大量のデータを一時的に復元するためのディスクの容量の問題が発生する。

また、性能トラブル発生時は、調査資料採取や回避のためのリブートなど、運用者がＩＴ（information technology）システムに対して何らかの操作を実施する。そのため、この特性を活かして、運用者によるＩＴシステムへの端末からの操作をキャッチアップし、性能トラブル発生を検知する技術が考えられる。端末からの操作をキャッチアップし、操作内容を識別してデータに対する保存操作などを実現する技術がある（例えば、第１技術）。

図２は、第１技術を使用した場合に、データの間引きの結果、不要なデータが残る場合について説明するための図である。図２において、縦軸は、監視対象のシステムを示す。また、横軸は、時間を示す。

図２に示す事例では、各システムにおいて以下の定期リブートを実施している。
システム１：毎週日曜日、システム２：毎週土曜日
システム３：各週土曜日、システムｎ：毎月第一日曜日

しかし第１技術を用いて問題を解決しようとすると、例えば毎週末の定期リブート操作の度に性能トラブル発生と誤認し、不要なデータ（蓄積対象とされた性能データ）を保存してしまう。

そこで、本実施形態では、性能問題発生時のシステム管理者が行うシステムへのオペレーション特性を利用して問題が発生したかどうかを判別し、問題が発生した場合に行われるオペレーションと判別した場合、必要な性能データを残す。

図３は、本実施形態に係るデータ管理装置の一例を示す。データ管理装置１は、動作情報取得部２、第１記憶部３、動作情報特定部４、第２記憶部５、ログ取得部６、期間特定部７を含む。

動作情報取得部２は、監視対象の情報処理手段から、所定の動作に関する動作情報を取得する。動作情報取得部２の一例として、検出部１８が挙げられる。監視対象の情報処理手段の一例として、監視対象サーバ４１のホストサーバ４２または仮想サーバ４３が挙げられる。

第１記憶部３は、所定の動作と登録動作パターンとを対応づけた動作パターン情報を記憶する。第１記憶部３の一例として、管理ＤＢ２３が挙げられる。

動作情報特定部４は、動作パターン情報に基づいて、取得した動作情報より、登録動作パターンに対応する動作情報を特定する。動作情報特定部４の一例として、決定部１９が挙げられる。

第２記憶部５は、情報処理手段のログを記憶する。第２記憶部５の一例として、性能データを格納する性能情報ＤＢ２２が挙げられる。

ログ取得部６は、ログのうち登録動作パターンに許容されない動作情報が行なわれた時期のログを取得する。ログ取得部６の一例として、間引き部２０が挙げられる。

期間特定部７は、取得したログによって示される性能値に基づき抽出するログの期間を特定する。期間特定部７の一例として、間引き部２０が挙げられる。

このように構成することにより、蓄積された監視対象のログから、異常が発生している期間に対応するログを抽出することができる。

期間特定部７は、取得したログによって示される性能値が所定の範囲から外れる期間のログを特定する。すなわち、ログ取得部６は、第２記憶部５から、登録動作パターンに許容されない動作情報が行なわれた日と一致する前記ログを取得する。このとき、期間特定部７は、取得したログによって示される性能値の標準偏差を算出し、性能値が該標準偏差から外れる期間に対応するログを特定する。

このように構成することにより、異常があった監視対象の性能データから、異常状態になっていた期間の性能データを抽出することができる。

期間特定部７は、性能値が、標準偏差の範囲内から外れる時期の所定時間前までにあるログの性能値の平均を算出し、平均した性能値についてのログを特定する。

このように構成することにより、異常が発生する直前の性能データを抽出することができる。

ここで、動作パターン情報は、監視対象の情報処理手段における所定のプログラムの再起動、監視対象の情報処理手段に対して発行される所定のコマンド、監視対象の情報処理手段のリソースの変動、または監視対象の情報処理手段が仮想マシンの場合における仮想マシンの仮想環境の移行に関するパターン情報である。

このように構成することにより、定期的に行なうオペレーション等、正常時に行なうオペレーションをパターン情報を用いることにより、異常時に実際に行なったオペレーションを区別することができる。

図４は、本実施形態における監視システムのブロック図を示す。監視システム１０は、管理サーバ１１、１以上のサーバ４１を含む。管理サーバ１１と１以上のサーバ４１とは、通信ネットワークで接続されている。

各サーバ４１は、物理サーバで稼動するシステム（１，２，・・，ｎ）に含まれるサーバをいう。具体的には、各サーバ４１は、ホストＯＳ（Operating System）に基づくサーバ（ホストサーバまたは物理サーバ）４２、及び仮想計算機（ＶＭ：Virtual Machine）で稼動するゲストＯＳに基づくサーバ（仮想サーバ）４３を含む。

ホストサーバ（物理サーバ）４２のホスト環境は、仮想化技術により仮想化された環境である。ホスト環境では、複数のＶＭが動作する。したがって、仮想化技術により、各ＶＭ（ゲスト環境）でＯＳを稼動させることができる。これにより、各ゲスト環境で、仮想サーバ（ＶＭ）が動作する。

各サーバ（物理サーバ及びＶＭ）４１には、監視ソフトウェア（エージェント）４４がインストールされている。監視ソフトウェア（エージェント）４４はエージェント処理部４５を含む。エージェント処理部４５は、自身がインストールされているサーバ４１を監視対象として、監視対象の動作に関する性能データ及び所定のオペレーションに関する情報、及びその他の情報を収集し、監視ソフトウェア（マネージャ）１３に送信する。

管理サーバ１１は、１以上のサーバ４１を監視して、各時刻におけるサーバ４１の性能（例えば、メモリ使用率、ＣＰＵ使用率等）についての監視による計測情報（性能データ）を取得し、蓄積する。管理サーバ１１は、制御部１２、格納部２１を含む。格納部２１は、性能情報データベース（以下、データベースを「ＤＢ」と称する）２２、管理ＤＢ２３を含む。

性能情報ＤＢ２２には、各監視対象サーバ４１に対する監視による各監視対象サーバ４１の動作に関する時系列の性能データが格納される。

管理ＤＢ２３には、ＯＳ再起動情報３１、常駐プロセス一覧情報３２、コマンド一覧３３、再起動プロセス一覧３４、モジュール一覧３５、ＶＭ資源割当変更パターン３６、ＶＭ構成一覧３７、性能情報収集定義３８等が格納される。

ＯＳ再起動情報３１は、監視対象サーバ４１の定期的なＯＳの再起動のタイミングについての情報を示す。常駐プロセス一覧情報３２は、監視対象サーバ４１において常駐しているプロセスについての情報である。ＶＭ資源割当変更パターン３３は、ＶＭ毎の資源の割当のための操作に関する情報である。コマンド一覧３４は、性能情報取得系コマンド（top、ps、vstatなど）を保持する。再起動プロセス一覧３５は、停止状態から再起動されたプロセスについての一覧情報である。モジュール一覧３６は、製品インストール時または改訂モジュールインストール時におけるモジュールを管理する一覧情報である。ＶＭ構成一覧３７は、システム内（ホストサーバ）に存在するＶＭの構成情報を保持する。性能情報収集定義３８は、性能データを収集するための定義を保持する。

また、処理進行に応じて、ＯＳ再起動情報３１、常駐プロセス一覧情報３２、ＶＭ資源割当変更パターン３３の作業用テーブルがメモリに形成される。

制御部１２は、格納部２１より本実施形態に係るプログラムを含む監視ソフトウェア（マネージャ）１３を読み出して実行すると、表示制御部１４、収集部１５、蓄積制御部１６、抽出部１７、検出部１８、決定部１９、間引き部２０として機能する。

表示制御部１４は、監視対象サーバ４１の監視結果を表示部（不図示）に表示する制御を行なう。収集部１５は、性能情報収集定義３８に基づいて、各監視対象サーバ４１から監視結果を収集する。蓄積制御部１６は、各監視対象サーバ４１より収集した監視結果を性能情報ＤＢ２２に格納する。

抽出部１７は、監視対象サーバ４１を一定期間モニタリングして、監視対象サーバ４１から各種の情報を収集し、その収集した情報から、ユーザの操作（オペレーション）のうち所定のオペレーションを検出するために用いる情報を抽出する。所定のオペレーションを検出するために用いる情報とは、例えば、各監視対象サーバ４１から取得したイベントログ／システムログ情報、プロセス一覧、ハイパーバイザのログ等の情報である。

検出部１８は、抽出部１７で抽出した情報から、性能問題発生時に行なわれるオペレーションを検出する。

決定部１９は、抽出部１７で抽出した情報に基づいて、検出部１８で検出したオペレーションが性能問題発生時に行う以外の他の目的で使用されていないかを判定し、性能問題発生時でのみ使用されたオペレーションを特定する。

間引き部２０は、性能情報ＤＢから、決定部１９で特定されたオペレーションが時期の性能データを取得し、取得した性能データによって示される性能値が所定の範囲に含まれるデータを間引き（削除し）、その残りのデータ（所定の範囲から外れる期間に対応する性能データ）を取得する。すなわち、間引き部２０は、取得した性能データによって示される性能値が所定の範囲から外れる期間に対応する性能データを抽出する。

図５は、本実施形態におけるＯＳ再起動情報及びＯＳ再起動情報（作業用）の一例を示す。図５（Ａ）に示すＯＳ再起動情報３１は、「サーバ情報」、「再起動曜日」、「再起動時刻」のデータ項目を含む。

「サーバ情報」には、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレス等のサーバを識別するための情報が格納される。「再起動曜日」には、サーバを再起動する曜日が格納される。「再起動時刻」には、サーバを再起動する時刻が格納される。

図５（Ｂ）に示すＯＳ再起動情報（作業用）３１ａは、処理中に一時的に作成されるテーブルであり、ＯＳ再起動情報３１に、データ項目「登録済み」が追加されている。「登録済み」には、初期値としてＯＦＦ（未登録）が設定されており、ＯＳ再起動情報（作業用）３１ａに新たにレコードを登録する場合において、既に同じレコードが登録されている場合、ＯＮ（登録済み）が設定される。

図６は、本実施形態における常駐プロセス一覧情報及び常駐プロセス一覧情報（作業用）の一例を示す。図６（Ａ）に示す常駐プロセス一覧情報３２は、「サーバ情報」、「プロセス名」を含む。「サーバ情報」には、ＩＰアドレス等のサーバを識別するための情報が格納される。「プロセス名」には、プロセスの名称が格納される。

図６（Ｂ）に示す常駐プロセス一覧情報（作業用）３２ａは、処理中に一時的に作成されるテーブルであり、「プロセスＩＤ」、「プロセス名」、「プロセスの起動時刻」のエータ項目が格納される。

「プロセスＩＤ」には、プロセスを識別する情報が格納される。「プロセス名」には、プロセスの名称が格納される。「プロセスの起動時刻」には、プロセスが起動する時刻が格納される。

図７は、本実施形態におけるＶＭ資源割当変更パターン及びＶＭ資源割当変更パターン（作業用）の一例を示す。ＶＭ資源割当変更パターン３３は、「ＶＭ情報」、「資源割当操作内容」、「再起動曜日」、「再起動時刻」のデータ項目を含む。

「ＶＭ情報」には、仮想サーバ（ＶＭ）のＩＰアドレス等の仮想マシンを識別する情報が格納される。「資源割当操作内容」には、ＶＭへのＣＰＵの割当の増減等、仮想マシンへのリソースの割り当ての操作内容が格納される。「再起動曜日」には、ＶＭを再起動する曜日が格納される。「再起動時刻」には、仮想サーバを再起動する時刻が格納される。

図７（Ｂ）に示すＶＭ資源割当変更パターン（作業用）３３ａは、処理中に一時的に作成されるテーブルであり、ＯＳ再起動情報３１に、データ項目「登録済み」が追加されている。「登録済み」には、初期値としてＯＦＦ（未登録）が設定されており、ＶＭ資源割当変更パターン（作業用）３３ａに新たにレコードを登録する場合において、既に同じレコードが登録されている場合、ＯＮ（登録済み）が設定される。

図８は、本実施形態におけるコマンド一覧の一例を示す。コマンド一覧３４には、性能情報取得系コマンド（top、ps、vstatなど）が格納される。

図９は、本実施形態における再起動プロセス一覧の一例を示す。再起動プロセス一覧３５は、停止状態から再起動されたプロセスについての一覧を示す。作成再起動プロセス一覧３５は、「プロセス名」、「モジュール名」、「作成日時」、「サイズ」、「ＶＬ」のデータ項目を含む。

「プロセス名」には、停止状態から再起動されたプロセスの名称が格納される。「モジュール名」には、そのプロセスで用いるモジュールの名称が格納される。「作成日時」には、そのモジュールの作成日時が格納される。「サイズ」には、モジュールのサイズが格納される。「ＶＬ」には、そのモジュールの改訂番号（バージョン）が格納される。

図１０は、本実施形態におけるモジュール一覧の一例を示す。モジュール一覧３６は、製品インストール時または改訂モジュールインストール時におけるモジュールを管理する一覧を示す。モジュール一覧３６は、「フォルダ」、「モジュール名」、「作成日時」、「サイズ」、「ＶＬ」のデータ項目を含む。

「フォルダ」には、そのモジュールの格納先が格納される。「モジュール名」には、そのモジュールの名称が格納される。「作成日時」には、そのモジュールの作成日時が格納される。「サイズ」には、モジュールのサイズが格納される。「ＶＬ」には、そのモジュールの改訂番号（バージョン）が格納される。

図１１は、本実施形態におけるＶＭ構成一覧の一例を示す。ＶＭ構成一覧３７は、各システムを構成する仮想サーバ（ＶＭ）の一覧を示す。ＶＭ構成一覧３７は、「システム名」、「ＶＭ数」、「ＶＭ情報」のデータ項目を含む。

「システム名」には、システムの名称が格納される。「ＶＭ数」には、そのシステムで稼動するＶＭ数が格納される。「ＶＭ情報」には、ＶＭのＩＰアドレス等の仮想マシンを識別する情報が格納される。

図１２は、本実施形態における全体処理のフローを示す。まずは、テスト環境・本番環境での事前準備処理として、排除オペレーション判断情報抽出（テスト環境または本番環境でのモニタリング）が行なわれる（Ｓ１）。Ｓ１では、テスト環境または本番環境（テスト環境がない場合）において、エージェント処理部４５は、業務サーバを一定期間（例えば、１か月等）モニタリングして、後述するＳ３で使用する情報を生成し、管理サーバ１１へ送信する。

Ｓ１で生成される情報としては、以下に示すように、例えば、定期的なＯＳ再起動のサイクル情報、常駐プロセス一覧、定期的な仮想環境での資源の動的変更のサイクル情報がある。

（Ｓ１−１）定期的なＯＳ再起動のサイクル情報抽出
エージェント処理部４５は、管理対対象サーバ４１のモニタリング期間中、各サーバ４１において、サーバのイベントログ／システムログ情報からＯＳ再起動の契機を識別する情報を取得する。

エージェント処理部４５は、モニタリング期間中に、サーバのイベントログ／システムログ情報から取得した複数のＯＳ再起動契機（日時）から、サイクル・時刻のパターンを導出し、ＯＳ再起動情報３１（図５（Ａ））を作成する。

（Ｓ１−２）常駐プロセス一覧の抽出
エージェント処理部４５は、モニタリング期間中、各サーバ４１において、所定の間隔（例えば、１０分間隔）でプロセス一覧を取得する。エージェント処理部４５は、その取得したプロセス一覧からプロセス情報（プロセスＩＤ・プロセス名・プロセスの起動時刻）を常駐プロセス一覧情報（作業用）３２ａ（図６）に保存する。エージェント処理部４５は、初回取得時には、全プロセス情報を常駐プロセス一覧情報（作業用）３２ａに保存する。

エージェント処理部４５は、２回目以降のプロセス一覧の取得時は、以下の処理を実施する。すなわち、エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａに存在しないプロセスの情報を常駐プロセス一覧情報（作業用）３２ａに追加する。または、エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａに存在し、今回取得したプロセス一覧にも存在するプロセスに対しては、何も処理を実施しない。または、エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａに存在し、今回取得したプロセス一覧には存在しないプロセスに対しては、当該プロセスの起動時刻と現在時刻を比較する。その結果、存在期間が例えば４時間未満のプロセスの場合は、エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａから当該プロセス情報を削除する。

次に、エージェント処理部４５は、モニタリング期間終了時に常駐プロセス一覧情報（作業用）３２ａに残っているプロセス情報一覧を、常駐プロセス一覧情報３２（図６（Ａ））に保存する。

（Ｓ１−３）定期的な仮想環境での資源（ＣＰＵやメモリ等）の動的変更のサイクル情報抽出
抽出部１７は、モニタリング期間中、各ハイパーバイザ（仮想環境を管理するサーバ）において、ハイパーバイザのログから、ＶＭに対する資源割当操作情報を取得する。

抽出部１７は、モニタリング期間中に取得した複数の資源割当操作情報から、資源操作内容・曜日・時刻のパターンを導出し、ＶＭ資源割当変更パターン３３（図７（Ａ））を作成する。

次に、本番環境での監視処理として、性能問題発生時に行われるオペレーションが行われたか否かが検知される（Ｓ２）。ここでは、性能問題発生時にシステム管理者は、以下のようなオペレーションを実施する。
（Ｓ２−１）一時的な回避行動：ＯＳの再起動
（Ｓ２−２）一時的な回避行動：ミドルウェアやアプリケーションの再起動
（Ｓ２−３）性能情報取得行動：コマンド実行（top、ps、vstatなど）
（Ｓ２−４）仮想環境での資源（ＣＰＵやメモリ）の動的変更（追加／削除）
（Ｓ２−５）仮想環境でのライブマイグレーション

（Ｓ２−１）〜（Ｓ２−５）のオペレーションは、以下の方法で検出することができる。

（Ｓ２−１）ＯＳの再起動についての情報は、検出部１８により、イベントログ／システムログから検出できる。

（Ｓ２−２）ミドルウェアやアプリケーションの再起動は、検出部１８により、イベントログ／システムログから検出できる。

（Ｓ２−３）コマンドの発行（コマンド実行）はＯＳのログなどで確認できる場合もあるが、全てのコマンド情報は確認できない。そのため、検出部１８は、図８に示すように、性能情報取得系コマンド（top、ps、vstatなど）のコマンド一覧３４を作成し、そのプロセスを特定し、コマンドの発行を検出する。

（Ｓ２−４）仮想環境での資源（ＣＰＵやメモリ）の動的変更は、検出部１８により、仮想化ソフトウェア（ＶＭｗａｒｅなど）のログから検出できる。

（Ｓ２−５）仮想環境でのライブマイグレーションは、仮想化ソフトウェアのログから検出できる。

次に、排除するオペレーションが判定される（Ｓ３）。性能問題発生時におけるサーバ４１へのオペレーションは、性能問題発生の確認・検証及び復旧等の目的以外の“他の目的”でも実行される場合がある。そのため、Ｓ３では、決定部１９は、サーバ４１へのオペレーションから、“他の目的”による以下のような正常時に行なうオペレーションを排除して、性能問題発生時（異常時）に行なわれるオペレーションを特定する。
（Ｓ３−１）定期的なＯＳの再起動
（Ｓ３−２）改訂／修正プログラムの適用によるミドルウェアやアプリケーションプログラムの再起動
（Ｓ３−３）監視対象サーバが定期的に実行する性能情報取得系コマンド
（Ｓ３−４）定期的な仮想環境での資源（ＣＰＵやメモリ）の動的変更
（Ｓ３−５）自システムの問題以外の理由で実行されたライブマイグレーション

上記の”他の目的”（正常時）によるオペレーションは、以下の方法で確認することができる。

（Ｓ３−１）決定部１９は、Ｓ２−１で検出した本番環境におけるＯＳ再起動についての情報と、モニタリング期間に作成したＯＳ再起動情報３１と比較する。そして、決定部１９は、該当サーバ４１の再起動曜日と再起動時刻が一致していれば、Ｓ２−１で検出した本番環境におけるＯＳ再起動が定期的なＯＳ再起動であると判断できる。ここで、例えば、前後１時間のずれは“一致”とみなすことにする。

（Ｓ３−２）イベントログ／システムログから検出した再起動内容からは、その再起動が改訂／修正プログラムの適用によるものか判断できない。そのため、決定部１９は、再起動したプロセスについての再起動プロセス一覧３５（図９）を作成する。決定部１９は、再起動プロセス一覧３５と、製品インストール時または前回リリースされた改訂／修正プログラムの適用時に作成したモジュール一覧３６（図１０）の作成日付、サイズ、ＶＬを比較し、今回、改訂／修正プログラムが適用されたか否かを判定する。なお、モジュール一覧の作成日付、サイズ、ＶＬは改訂／修正プログラム適用後に更新される。

（Ｓ３−３）決定部１９は、本番環境で取得した各サーバ４１のプロセス一覧と、モニタリング期間に作成した常駐プロセス一覧情報３２の情報と比較する。決定部１９は、該当サーバのプロセス名が一致していれば、監視対象のサーバ４１が定期的に実行する性能情報取得系コマンドであると判断できる。

（Ｓ３−４）決定部１９は、本番環境で取得した各サーバ４１のＶＭ資源割当変更情報と、モニタリング期間に作成したＶＭ資源割当変更パターン３３とを比較する。決定部１９は、該当ＶＭの資源割当操作内容、操作曜日と時刻が一致していれば、定期的な仮想環境の資源の動的変更であると判断できる。ここで、例えば、前後１時間のずれは“一致”とみなすことにする。

（Ｓ３−５）ライブマイグレーションは、仮想化ソフトウェアのログから確認できる。各システムの構成情報は仮想化ソフトウェアの構成情報取得コマンドから取得できる。しかし、そのマイグレーションの発生契機が移行元か移行先かどちらのシステムによるものなのかの区別はログ単体からでは行うことができない。

そのため、決定部１９は、定期的に収集しているシステムを構成するＶＭ構成一覧３７の変化と、リソースの性能データと合わせて確認し、マイグレーション発生時に高負荷などの性能異常が発生していないかの判断を行う。そうすることで、ライブマイグレーションが自システムの性能異常により発生したものか、自システムの問題以外の問題（他システムの性能異常、メンテナンスなど）によるものなのかを判断できる。

Ｓ３における比較の結果、Ｓ２で行なわれたオペレーションが、実際に性能問題が発生した時に実行されたオペレーションであると判定された場合、Ｓ４の処理が行われる。Ｓ３での比較の結果、Ｓ２で行なわれたオペレーションが、実際に性能問題が発生した時に行なわれたオペレーションではない、すなわち正常時に実行されたオペレーションであると判定された場合、Ｓ２の処理へ戻る。

次に、性能情報ＤＢ２２に蓄積された性能データから正常な状態の性能データが間引きされる（Ｓ４）。Ｓ４については、図１３を参照しながら説明する。

図１３は、本実施形態における間引き処理を説明するための図である。（Ｓ２−１）〜（Ｓ２−５）から（Ｓ３−１）〜（Ｓ３−５）を除いたオペレーションを、“性能問題発生時のオペレーション”（以降、“性能問題発生状態”と記載）と定義する。“性能問題発生状態”のデータは以下のように決定することができる。

（Ａ）間引き部２０は、“性能問題発生状態”のオペレーションが行われたサーバの情報に基づいて、構成情報から当該サーバが属する業務システムを特定する。間引き部２０は、当該業務システムを構成する全サーバ・その他機器（あれば）が、“性能問題発生状態”のデータの対象と決定する。

（Ｂ）間引き部２０は、図１３（Ａ）に示すように、“性能問題発生状態”の対象データについて、全ての性能データ項目毎に過去に遡って性能データが標準偏差の範囲から外れ始めた地点を算出し、一番過去の日時の性能データを“始点”とする。ここで、標準偏差の範囲とは、平均値μ±標準偏差σの範囲内を示す。

ただし、現象によっては“始点”より前の状況を現象の“予兆”として確認する必要がある。そのため、間引き部２０は、“始点”より例えば、６０分前の性能データを１／２のデータ量に変換（平均化する）し、そのさらに６０分前のデータを１／１０のデータ量に変換（平均化する）し、その平均化したデータを残す。なお、データの圧縮率は、一例であり、１／２、１／１０の値に限定されない。

（Ｃ）間引き部２０は、上記（Ｂ）の逆の考え方で、標準偏差の範囲に戻った地点を“終点”として求める。なお、リブート等再起動による回避行動（オペレーション）が行われた際は、その時点を“終点”とする。ただし、“性能問題発生状態”が復旧されていない場合は、復旧されたと判断できた時点を“終点”とする。

図１３（Ｂ）に示すように、“性能問題発生状態”と“予兆”以外のデータを、“正常な状態”のデータとする。“正常な状態”のデータは以下の式で表すことができる。
“正常な状態”のデータ＝性能データ−（“性能問題発生状態”＋“予兆”）データ

図１３（Ｃ）に示すように、間引き部２０は、性能データから“正常な状態”のデータを間引きする。正常な状態のデータを間引きすることより、図１４、図１５に示すように業務システムにおいて異常が発生した時間帯以外のデータが正しく間引きされる。

図１４は、本実施形態における、時間経過に伴う監視対象の性能データの間引き処理後の結果を示す。縦軸は、監視対象のシステムを示す。また、横軸は、時間を示す。図１と比べて、図１４では、残すべき“性能問題発生状態”が残っており、残す必要のない性能データが間引かれている。

図１５は、本実施形態における、週単位での時間経過に伴う監視対象の性能データの間引き処理後の結果を示す。縦軸は、監視対象のシステムを示す。また、横軸は、時間を示す。図２と比べて、図１５では、定期リブート実行に基づく性能データは間引きされ、定期リブート以外のリブートが行なわれた、すなわち、異常発生時でのリブート実行に基づく性能データが残っている。

本実施形態によれば、過去の性能データから性能推移の傾向を参照できるようになり、キャパシティ管理に活用できる。また、性能問題発生時の原因判定作業時に、過去の性能データを参照できるため、原因判定が容易に行えるようになる。

次に、未参照の性能データの削除処理について説明する。上述の通り、性能情報ＤＢ２２に蓄積された性能データから正常な状態のデータを間引きすることより、必要な性能データ（以降“間引き済み性能データ”と記載）のみが保存される。しかしながら、運用を続けると間引き済み性能データが増加する。長期間参照されない間引き済み性能データは、削除しても問題はない。

そこで、間引き済み性能データは直近の参照日付（未参照の場合は、作成日付）から、例えば一年間経過したところで、毎日定時に動作する性能情報の削除処理で削除するようにしてもよい。

なお、トラブルシューティングで対象の性能データを参照する場合、関連する性能データ（例：問題がＣＰＵであってもメモリやディスクのデータも参照する）や同システム内の関係するコンピュータやＶＭの性能データも参照する。参照時に参照日付を更新することにより、トラブルシューティングに必要な間引き済み性能データが判別される。よって、参照されなかった間引き済み性能データが一年間経過して削除されても問題はない。

次に、本実施形態の詳細な実施例について説明する。本実施例のシステムの構成は、図４と同様である。なお、以下で説明する実施例において用いる時刻、時間、標準偏差、データの圧縮率等の値は説明の便宜上用いた一例であり、これらの値に限定されるものではない。

図１６は、本実施形態における定期的なＯＳ再起動のサイクル情報抽出（Ｓ１−１）（エージェント側）の詳細フローを示す。ホスト４２またはＶＭ４３にインストールされたエージェント４４のエージェント処理部４５は、毎日定時（例えば、午前２時）にＳ１−１の処理を実行する。

まず、エージェント処理部４５は、イベントログ／システムログファイルを開く（Ｓ１−１−１）。

次に、エージェント処理部４５は、イベントログ／システムログファイルから、ＩＰアドレス等のサーバ情報、再起動曜日、再起動時刻を抽出し、ＯＳ再起動情報３１に登録する。エージェント処理部４５は、ＯＳ再起動情報３１に、さらに、登録済みフラグ（ＯＦＦ）を登録する。但し、既に、同一のサーバ情報について、同一の再起動曜日、再起動時刻が登録されている場合には、エージェント処理部４５は、ＯＳ再起動情報３１に、登録済みフラグ（ＯＮ）を設定する。

図１７は、本実施形態における定期的なＯＳ再起動のサイクル情報抽出（Ｓ１−１）（マネージャ側）の詳細フローを示す。マネージャ１３は、モニタリング期間の終了時に、各エージェントで生成されたＯＳ再起動情報３１を収集する（Ｓ１−１−３）。

マネージャ１３は、収集したＯＳ再起動情報３１から、登録済みフラグ（ＯＮ）のＯＳ再起動情報を抽出し、管理ＤＢ２３に、ＯＳ再起動情報３１として格納する（Ｓ１−１−４）。

図１８は、本実施形態における常駐プロセス一覧の抽出処理（Ｓ１−２）（エージェント側）の初回時の詳細フローを示す。ホスト４２またはＶＭ４３にインストールされたエージェント４４のエージェント処理部４５は、次の処理を行う。すなわち、エージェント処理部４５は、所定の時間間隔（例えば、１０分間隔）で常駐プロセス一覧の抽出処理を行う場合、その初回時に、ＯＳに所定のコマンドを発行して、プロセス一覧を取得する（Ｓ１−２−１）。

エージェント処理部４５は、取得したプロセス一覧から、「プロセスＩＤ」、「プロセス名」、「プロセスの起動時刻」を抽出し、ホスト４２またはＶＭ４３のメモリに領域が確保された常駐プロセス一覧情報（作業用）３２ａに登録する（Ｓ１−２−２）。

図１９は、本実施形態における常駐プロセス一覧の抽出処理（Ｓ１−２）（エージェント側）の２回目以降の詳細フローを示す。エージェント処理部４５は、２回目移行の常駐プロセス一覧の抽出処理では、ホスト４２またはＶＭ４３にインストールされたＯＳに所定のコマンドを発行して、プロセス一覧を取得する（Ｓ１−２−３）。

エージェント処理部４５は、Ｓ１−２−３で取得したプロセス一覧から、１つのプロセスを取得し、その取得したプロセスが常駐プロセス一覧情報（作業用）３２ａに登録されていないか否かを判定する（Ｓ１−２−４）。

その取得したプロセスが常駐プロセス一覧情報（作業用）３２ａに登録されていない場合（Ｓ１−２−４で「Ｙｅｓ」）、エージェント処理部４５は、次を行う。すなわち、エージェント処理部４５は、その取得したプロセスの「プロセスＩＤ」、「プロセス名」、「プロセスの起動時刻」を、常駐プロセス一覧情報（作業用）３２ａに登録する（Ｓ１−２−５）。

Ｓ１−２−３で取得したプロセス一覧に存在するプロセス数分、Ｓ１−２−４〜Ｓ１−２−５を繰り返す。

次に、エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａに存在し、今回取得したプロセス一覧には存在しないプロセスがあるかを確認する。常駐プロセス一覧情報（作業用）３２ａに存在し、今回取得したプロセス一覧には存在しないプロセスがある場合、エージェント処理部４５は、そのプロセスの起動時刻と現在時刻を比較する。比較の結果、そのプロセスが起動して４時間未満の場合、エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａからそのプロセスについての情報を削除する（Ｓ１−２−６）。

図２０は、本実施形態における常駐プロセス一覧の抽出処理（Ｓ１−２）（マネージャ側）のモニタリング期間終了時の詳細フローを示す。エージェント処理部４５は、常駐プロセス一覧情報（作業用）３２ａに残っているプロセス情報をマネージャ１３に送信する。

マネージャ１３は、各エージェント４４から送信されたプロセス情報を受信し、常駐プロセス一覧情報３２としてファイルに保存する（Ｓ１−２−７）。

図２１は、本実施形態における定期的な仮想環境での資源の動的変更のサイクル情報抽出（Ｓ１−３）（マネージャ側）の詳細フローを示す。マネージャ１３は、毎日定時（例えば、午前２時）にＳ１−３の処理を実行する。

まず、マネージャ１３は、各ホストサーバ４２のハイパーバイザに接続し、ハイパーバイザのログファイルを開く（Ｓ１−３−１）。

マネージャ１３は、ハイパーバイザのログファイルから、ＶＭを識別する「ＶＭ情報」、資源割当操作内容、再起動曜日、再起動時刻を抽出し、その抽出した情報をＶＭ資源割当変更パターン（作業用）３３ａに登録する。マネージャ１３は、ＶＭ資源割当変更パターン（作業用）３３ａに、さらに、登録済みフラグ（ＯＦＦ）を登録する。但し、既に、同一のサーバ情報について、同一の再起動曜日、再起動時刻が登録されている場合には、マネージャ１３は、ＶＭ資源割当変更パターン（作業用）３３ａに登録済みフラグ（ＯＮ）を設定する（Ｓ１−３−２）。

図２２は、本実施形態における定期的な仮想環境での資源の動的変更のサイクル情報抽出（Ｓ１−３）（マネージャ側）のモニタリング期間終了時の詳細フローを示す。マネージャ１３は、ＶＭ資源割当変更パターン（作業用）３３ａを開く（Ｓ１−３−３）。

マネージャ１３は、ＶＭ資源割当変更パターン（作業用）３３ａから、登録済みフラグ（ＯＮ）のＶＭ資源割当変更パターンを抽出し、管理ＤＢ２３に、ＶＭ資源割当変更パターン３３として格納する（Ｓ１−３−４）。

図２３は、本実施形態におけるＯＳの再起動の検出処理（Ｓ２−１）の詳細フローを示す。マネージャ１３は、毎日定時（例えば、午前２時）に各サーバからイベントログ／システムログを取得し、取得したイベントログ／システムログからＯＳ再起動の情報を検索する（Ｓ２−１−１）。

取得したイベントログ／システムログにＯＳ再起動の情報がある場合（Ｓ２−１−２で「Ｙｅｓ」）、マネージャ１３は、その検索されたＯＳ再起動が定期的なＯＳ再起動処理であるか否かを判定する（Ｓ３−１）。

図２４は、本実施形態における定期的ＯＳ再起動判定処理（Ｓ３−１）の詳細フローを示す。マネージャ１３は、管理ＤＢ２３からＯＳ再起動情報３１を取得し、ＯＳ再起動情報３１に、その検索されたＯＳ再起動の再起動曜日及び再起動時刻と一致する情報があるがあるかを判定する（Ｓ３−１−２）。ここで、例えば、前後１時間のずれは“一致”とみなすことにする。

ＯＳ再起動情報３１に、その検索されたＯＳ再起動の再起動曜日及び再起動時刻と一致する情報がある場合（Ｓ３−１−２で「Ｙｅｓ」）、マネージャ１３は、その検索されたＯＳ再起動が定期的なＯＳ再起動処理であると判定する（Ｓ３−１−５）。

ＯＳ再起動情報３１に、その検索されたＯＳ再起動の再起動曜日及び再起動時刻と一致する情報がない場合（Ｓ３−１−２で「Ｎｏ」）、マネージャ１３は、その検索されたＯＳ再起動が定期的なＯＳ再起動処理でないと判定する（Ｓ３−１−３）。この場合、マネージャ１３は、その検索されたＯＳ再起動を排除オペレーションと決定し、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理を行う（Ｓ４）。

図２５は、本実施形態におけるミドルウェアやアプリケーションの再起動の検出処理（Ｓ２−２）の詳細フローを示す。マネージャ１３は、毎日定時（例えば、午前２時）に各サーバからイベントログ／システムログを取得し、取得したイベントログ／システムログからミドルウェアやアプリケーションの再起動の情報を検索する（Ｓ２−２−１）。

検索の結果、イベントログ／システムログにミドルウェアやアプリケーションの再起動の情報がある場合（Ｓ２−２−２で「Ｙｅｓ」）、マネージャ１３は、次の処理を行う。すなわち、マネージャ１３は、その検索されたミドルウェアやアプリケーションの再起動が、改訂／修正プログラムの適用によるミドルウェアやアプリケーションプログラムの再起動処理であるかを判定する（Ｓ３−２）。

図２６は、本実施形態における改訂／修正プログラムの適用によるミドルウェアやアプリケーションプログラムの再起動判定処理（Ｓ３−２）の詳細フローを示す。マネージャ１３は、イベントログ／システムログを取得して、ミドルウェアやアプリケーションの再起動が行なわれた否かを判定する（Ｓ３−２−１）。

ミドルウェアやアプリケーションの再起動が行われなかった場合（Ｓ３−２−２で「Ｎｏ」）、マネージャ１３は、改訂／修正プログラムのリリースが行なわれなかったと判定し（Ｓ３−２−６）、本フローを終了する。

ミドルウェアやアプリケーションの再起動が行われた場合（Ｓ３−２−２で「Ｙｅｓ」）、マネージャ１３は、イベントログ／システムログから、再起動したプロセスについての再起動プロセス一覧３５（図９）を作成する（Ｓ３−２−３）。

マネージャ１３は、再起動プロセス一覧３５と、製品インストール時または前回リリースされた改訂／修正プログラムの適用時に作成したモジュール一覧３６（図１０）との作成日付、サイズ、及びＶＬを比較する（Ｓ３−２−４）。ここで、例えば、前後１時間のずれは“一致”とみなすことにする。

作成日付、サイズ、及びＶＬの全てが一致する場合（Ｓ３−２−４で「Ｙｅｓ」）、マネージャ１３は、改訂／修正プログラムのリリースが行なわれなかったと判定し（Ｓ３−２−６）、本フローを終了する。

作成日付、サイズ、及びＶＬのいずれかが一致しない場合（Ｓ３−２−４で「Ｎｏ」）、マネージャ１３は、リリースされた改訂／修正プログラムが適用されていると判定する。この場合、マネージャ１３は、モジュール一覧３６において、対応するモジュールの作成日付、サイズ、及びＶＬをその改訂／修正プログラムの適用後の情報に更新する（Ｓ３−２−５）。マネージャ１３は、再起動プロセス一覧３５のうちモジュール一覧３６と一致しないモジュールに対応するプロセスの再起動を排除オペレーションと決定し、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理を行う（Ｓ４）。

図２７は、本実施形態における監視対象サーバが定期的に実行する性能情報取得系コマンドの検出処理（Ｓ２−３）の詳細フローを示す。マネージャ１３は、所定間隔（例えば、１０分間隔）で、監視対象のサーバ４１のＯＳに所定のコマンドを発行して、プロセス一覧を取得する。マネージャ１３は、その取得したプロセス一覧に、コマンド一覧３４と一致するプロセスがあるかを判定する（Ｓ２−３−１）。

その取得したプロセス一覧に、コマンド一覧３４に登録されたコマンド（プロセス）と一致するプロセスがある場合（Ｓ２−３−２で「Ｙｅｓ」）、マネージャ１３は、次の処理を行う。すなわち、マネージャ１３は、監視対象のサーバ４１が定期的に実行する性能情報取得系コマンドであるかを判定する処理を行う（Ｓ３−３）。

図２８は、本実施形態における監視対象サーバが定期的に実行する性能情報取得系コマンドであるかを判定する処理（Ｓ３−３）の詳細フローを示す。マネージャ１３は、監視対象のサーバのＯＳに所定のコマンドを発行して、プロセス一覧を取得する。マネージャ１３は、取得したプロセス一覧と、管理ＤＢ２３にある常駐プロセス一覧情報３２とを比較する（Ｓ３−３−１）。

比較の結果、一致するプロセス名がある場合（Ｓ３−３−２で「Ｙｅｓ」）、マネージャ１３は、そのコマンドは、監視対象のサーバが定期的に実行する性能情報取得系コマンドであると判定する（Ｓ３−３−４）。

比較の結果、一致するプロセス名がない場合（Ｓ３−３−２で「Ｎｏ」）、マネージャ１３は、そのコマンドは、監視対象のサーバが定期的に実行する性能情報取得系コマンドではないと判定する（Ｓ３−３−３）。この場合、マネージャ１３は、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理を行う（Ｓ４）。

図２９は、本実施形態における仮想環境での資源の動的変更の検出処理（Ｓ２−４）の詳細フローを示す。マネージャ１３は、毎日定時（例えば、午前２時）にサーバ４１にインストールされている仮想化ソフトウェアのログファイルから、仮想環境での資源（ＣＰＵやメモリ）の動的変更に関する情報（ＶＭ資源割当変更情報）を取得する。マネージャ１３は、その取得したＶＭ資源割当変更情報に基づいて、仮想環境での資源の動的変更があったかを判定する（Ｓ２−４−１）。

仮想環境での資源（ＣＰＵやメモリ）の動的変更があった場合（Ｓ２−４−２で「Ｙｅｓ」）、マネージャ１３は、その仮想環境での資源の動的変更が、定期的な動的変更であるかを判定する（Ｓ３−４）。

図３０は、本実施形態における仮想環境での資源の動的変更が定期的な動的変更であるかを判定する処理（Ｓ３−４）の詳細フローを示す。マネージャ１３は、管理ＤＢからＶＭ資源割当変更パターン３３を取得する（Ｓ３−４−１）。

マネージャ１３は、Ｓ２−４−２で動的変更が検出されたＶＭ資源割当変更情報のＶＭの資源割当操作内容、操作曜日、及び時刻と一致する情報がＶＭ資源割当変更パターン３３にあるかを判定する（Ｓ３−４−２）。ここで、例えば、前後１時間のずれは“一致”とみなすことにする。

ＶＭ資源割当変更パターン３３に、Ｓ２−４−２で動的変更が検出されたＶＭの資源割当操作内容、操作曜日、及び時刻と一致する情報がある場合（Ｓ３−４−２で「Ｙｅｓ」）、マネージャ１３は、次の処理を行う。すなわち、マネージャ１３は、ＶＭ資源割当変更情報から検出された動的変更が定期的な仮想環境の資源の動的変更であると判定する（Ｓ３−４−５）。

ＶＭ資源割当変更パターン３３に、Ｓ２−４−２で動的変更が検出されたＶＭ資源割当変更情報のＶＭの資源割当操作内容、操作曜日、及び時刻と一致する情報がない場合（Ｓ３−４−２で「Ｎｏ」）、マネージャ１３は、次の処理を行う。すなわち、マネージャ１３は、ＶＭ資源割当変更情報から検出された動的変更が定期的な仮想環境の資源の動的変更でないと判定する（Ｓ３−４−３）。このとき、マネージャ１３は、Ｓ２−４−２で検出された仮想環境での資源の動的変更を排除オペレーションと決定し、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理を行う（Ｓ４）。

図３１は、本実施形態における仮想環境でのライブマイグレーションの検出処理（Ｓ２−５）の詳細フローを示す。マネージャ１３は、毎日定時（例えば、午前２時）に業務サーバにインストールされている仮想化ソフトウェアのログファイルから、ライブマイグレーションに関する情報を取得する。マネージャ１３は、その取得したライブマイグレーションに関する情報に基づいて、ライブマイグレーションがあったかを判定する（Ｓ２−５−１）。

ライブマイグレーションがあった場合（Ｓ２−５−２で「Ｙｅｓ」）、マネージャ１３は、次の処理を行う。すなわち、マネージャ１３は、ライブマイグレーションが自システムの性能異常により発生したものか、自システムの問題以外の問題（他システムの性能異常、メンテナンスなど）によるものなのかを判定する（Ｓ３−５）。

図３２は、本実施形態におけるライブマイグレーションが自システムの問題以外の問題によるものなのかを判定する処理（初回）（Ｓ３−４）の詳細フローを示す。マネージャ１３は、各ホストサーバ４２上の仮想化ソフトウェアに対して、所定の時間間隔（例えば、３０分間隔）で行なう処理のうち、初回だけ図３２の処理を行い、それ以降図３３の処理を行う。

マネージャ１３は、ホストサーバ４２に対して構成情報取得コマンドを発行し、ホストサーバから構成情報を取得する（Ｓ３−５−１）。マネージャ１３は、取得した構成情報から、システム名、ＶＭ数、ＶＭ情報を抽出し、管理ＤＢ２３内のＶＭ構成一覧３７に登録する（Ｓ３−５−２）。

マネージャ１３は、ホストサーバ４２の数だけ、Ｓ３−５−１〜Ｓ３−５−２の処理を繰り返す。

図３３は、本実施形態におけるライブマイグレーションが自システムの問題以外の問題によるものなのかを判定する処理（２回目以降）（Ｓ３−４）の詳細フローを示す。

マネージャ１３は、ホストサーバ４２に対して構成情報取得コマンドを発行し、ホストサーバ４２から構成情報を取得する（Ｓ３−５−３）。マネージャ１３は、Ｓ３−５−３で取得した構成情報と、管理ＤＢ２３内のＶＭ構成一覧３７とを比較する（Ｓ３−５−４）。

Ｓ３−５−３で取得した構成情報と、管理ＤＢ２３内のＶＭ構成一覧３７とに相違がある場合（Ｓ３−５−４で「Ｙｅｓ」）、マネージャ１３は、Ｓ３−５−３で取得した構成情報から、システム名、ＶＭ数、ＶＭ情報を抽出する。マネージャ１３は、その抽出した情報をＶＭ構成一覧３７に登録する（Ｓ３−５−５）。

マネージャ１３は、自システムの問題以外の理由のために実行されたライブマイグレーションがあるかを検出する処理を実行する（Ｓ３−５−６）。

マネージャ１３は、ホストサーバ４２の数だけ、Ｓ３−５−３〜Ｓ３−５−６の処理を繰り返す。

図３４は、本実施形態における自システムの問題以外の理由のために実行されたライブマイグレーションがあるかを検出する処理（Ｓ３−５−６）の詳細フローを示す。

マネージャ１３は、ホストサーバ４２にアクセスし、ホストサーバ４２の仮想化ソフトウェアのログファイルを開く（Ｓ３−５−７）。

マネージャ１３は、ホストサーバ４２の仮想化ソフトウェアのログファイルから１つのログを取得し、その取得したログがマイグレーションのログであるか否かを判定する（Ｓ３−５−８）。

その取得したログがマイグレーションのログである場合（Ｓ３−５−８で「Ｙｅｓ」）、マネージャ１３は、性能情報ＤＢ２２から、そのサーバ名及びログの日時に対応する日時の性能情報データを検索する（Ｓ３−５−９）。

Ｓ３−５−９での検索の結果得られた性能情報データに関して、マネージャ１３は、そのログの日時により前１２時間の間に、標準偏差から外れる値があるかを判定する（Ｓ３−５−１０）。

その性能情報データにおいて、その日時により前１２時間の間に、標準偏差から外れる値がある場合（Ｓ３−５−１０で「Ｙｅｓ」）、マネージャ１３は、監視対象サーバ４１に問題があったと判定する（Ｓ３−５−１３）。このとき、マネージャ１３は、その検出されたマイグレーション操作を排除オペレーションと決定し、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理を行う（Ｓ４）。

Ｓ３−５−９での検索の結果得られた性能情報データに関して、そのログの日時により前１２時間の間に、標準偏差から外れる値がない場合（Ｓ３−５−１０で「Ｎｏ」）、マネージャ１３は、監視対象サーバ４１に問題がなかったと判定する（Ｓ３−５−１１）。この場合、マネージャ１３は、移行元サーバがあるか否かを判定する（Ｓ３−５−１２）。

移行元サーバがある場合（Ｓ３−５−１２で「Ｙｅｓ」）、マネージャ１３は、その移行元サーバを対象サーバとし、Ｓ３−５−９の処理を行う。移行元サーバがない場合（Ｓ３−５−１２で「Ｎｏ」）、マネージャ１３は、仮想化ソフトウェアのログファイルから次のログを取得し、Ｓ３−５−８以降の処理を行う。

マネージャ１３は、前回確認した行数から最終行数まで、Ｓ３−５−８〜Ｓ３−５−１３、Ｓ４の処理を繰り返す。その後、マネージャ１３は、仮想化ソフトウェアのログファイルにて、確認した最終行数を保存する（Ｓ３−５−１４）。

図３５及び図３６は、本実施形態における性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理（Ｓ４）において、性能データが標準偏差の範囲を超えた時間の始点と終点とを特定する処理の詳細フローを示す。

マネージャ１３は、サーバ名と日付をキーとして、性能情報ＤＢ２２から、排除オペレーションが行なわれたサーバの対象日時の性能データを検索する（Ｓ４−１）。

マネージャ１３は、検索した性能データの性能値の標準偏差を算出する（Ｓ４−２）。例えば、性能データがＣＰＵ使用率の場合、図１３（Ａ）で示したように、時間に対するＣＰＵ使用率の平均μ及び標準偏差σが算出され、（μ−σ≦“平均値μ±標準偏差σ”≦μ＋σ）＝１０〜２０％が得られるとする。

マネージャ１３は、性能データ項目毎に過去に遡って性能データがμ±σ（μ−σ≦“平均値±標準偏差”≦μ＋σ）の範囲から外れ、かつその一個前のデータが標準偏差以内の値であるかを判定する（Ｓ４−３）。

性能データがμ±σの範囲から外れ、かつその一個前のデータがμ±σ以内の値である場合（Ｓ４−３で「Ｙｅｓ」）、マネージャ１３は、その性能データの時刻の所定時間前（例えば、３０分前）のデータの始点フラグをＯＮにする（Ｓ４−４）。

性能データがμ±σから外れず、またはその性能データの一個前のデータがμ±σ以内の値でない場合（Ｓ４−３で「Ｙｅｓ」）、マネージャ１３は、次の時刻の性能データについてＳ４−３の処理を行う。

次に、マネージャ１３は、性能データがμ±σから外れ、かつその一個後のデータがμ±σ以内の値であるかを判定する（Ｓ４−５）。

性能データがμ±σから外れ、かつその一個後のデータがμ±σ以内の値である場合（Ｓ４−５で「Ｙｅｓ」）、マネージャ１３は、その性能データの終点フラグをＯＮにする（Ｓ４−６）。

性能データがμ±σから外れず、またはその一個後のデータがμ±σ以内の値でない場合（Ｓ４−５で「Ｎｏ」）、マネージャ１３は、その性能データの終点フラグをＯＦＦにする（Ｓ４−６）。

マネージャは、始点から排除オペレーションの時刻の所定時間後（例えば、１時間後）のデータまで、Ｓ４−５〜Ｓ４−７の処理を繰り返す。

さらに、マネージャは、排除オペレーションの時刻から所定時間後（例えば、１時間後）のデータまで、Ｓ４−３〜Ｓ４−７の処理を繰り返す。

図３７は、本実施形態における、特定された始点と終点に基づいて、性能情報ＤＢ２２に格納された性能データから正常な状態の性能データを間引きする処理（Ｓ４）の詳細フローを示す。マネージャ１３は、毎日定時（例えば、午前２時）に本フローの処理を実行する。

マネージャ１３は、性能情報ＤＢ２２から、削除対象の日付の性能データを取得する（Ｓ４−８）。取得した性能データに始点及び修正がない場合（Ｓ４−９で「Ｎｏ」）、マネージャ１３はその日付の性能データを削除する（Ｓ４−１２）。

取得した性能データに始点〜終点で示される区間がある場合（Ｓ４−９で「Ｙｅｓ」）、マネージャ１３は、予兆データとして、始点から所定時間前（例えば、６０分前）のデータを１／２のデータ量（２個のデータの値を平均化する）にする。さらに、マネージャ１３は、予兆データとして、所定時間前（例えば、６０分前）を１／１０のデータ量（１０個のデータの値を平均化する）。取得した性能データに始点〜終点で示される区間が複数ある場合、マネージャ１３は、その区間毎に、Ｓ４−１０の処理を行う。

マネージャ１３は、始点〜終点までの各区間の性能データを残し、その他の性能データを削除する。マネージャ１３は、その残した性能データに、Ｓ４−１０で作成した予兆データを追加する（Ｓ４−１１）。

次に、間引き済み性能データを直近の参照日付（未参照の場合は、作成日付）から、所定期間経過したところで、毎日定時に動作する性能情報の削除処理で削除する処理について説明する。

図３８は、本実施形態における性能データの参照処理のフローを示す。マネージャ１３は、性能情報ＤＢ２２から性能情報を参照する（Ｓ５−１）。この場合、マネージャ１３は、その参照した性能データに参照日時を設定する（Ｓ５−２）。

図３９は、本実施形態における未参照性能データの削除処理のフローを示す。マネージャ１３は、毎日定時（例えば、午前２時）に本フローの処理を実行する。

マネージャ１３は、性能情報ＤＢ２２から、間引き済みの性能データの参照日時（参照日時が未設定の場合には、性能データの作成日時）を参照し（Ｓ５−３）、その参照日時から所定期間（例えば、１年）以上経過しているかを判定する（Ｓ５−４）。

その参照日時から所定期間（例えば、１年）以上経過している場合（Ｓ５−４で「Ｙｅｓ」）、マネージャ１３は、性能情報ＤＢ２２からその間引き済みの性能データを削除する（Ｓ５−５）。

マネージャは、性能情報ＤＢ２２に格納されている間引き済みの性能データのそれぞれについて、Ｓ５−３〜Ｓ５−５の処理を行う。

図４０は、本実施形態におけるプログラムを実行するコンピュータのハードウェア環境の構成ブロック図の一例である。コンピュータ５０は、管理サーバ１１として機能する。コンピュータ５０は、ＣＰＵ５２、ＲＯＭ５３、ＲＡＭ５６、通信Ｉ／Ｆ５４、記憶装置５７、出力Ｉ／Ｆ５１、入力Ｉ／Ｆ５５、読み取り装置５８、バス８９、出力機器６１、入力機器６２によって構成されている。

ここで、ＣＰＵは、中央演算装置を示す。ＲＯＭは、リードオンリメモリを示す。ＲＡＭは、ランダムアクセスメモリを示す。Ｉ／Ｆは、インターフェースを示す。バス５９には、ＣＰＵ５２、ＲＯＭ５３、ＲＡＭ５６、通信Ｉ／Ｆ５４、記憶装置５７、出力Ｉ／Ｆ５１、入力Ｉ／Ｆ５５、及び読み取り装置５８が接続されている。読み取り装置５８は、可搬型記録媒体を読み出す装置である。出力機器６１は、出力Ｉ／Ｆ５１に接続されている。入力機器６２は、入力Ｉ／Ｆ５５に接続にされている。

記憶装置５７としては、ハードディスク、フラッシュメモリ、磁気ディスクなど様々な形式の記憶装置を使用することができる。記憶装置５７またはＲＯＭ５３には、ＣＰＵ５２を表示制御部１４、収集部１５、蓄積制御部１６、抽出部１７、検出部１８、決定部１９、間引き部２０として機能させる監視ソフトウェア（マネージャ）のプログラムが格納されている。また、記憶装置５７またはＲＯＭ５３には、性能情報ＤＢ２２、管理ＤＢ２３が格納されている。ＲＡＭ５６には、情報が一時的に記憶される。

ＣＰＵ５２は、監視ソフトウェア（マネージャ）のプログラムを読み出し、当該プログラムを実行する。

上記実施形態で説明した処理を実現するプログラムは、プログラム提供者側から通信ネットワーク６０、および通信Ｉ／Ｆ５４を介して、例えば記憶装置５７に格納されてもよい。また、上記実施形態で説明した処理を実現するプログラムは、市販され、流通している可搬型記憶媒体に格納されていてもよい。この場合、この可搬型記憶媒体は読み取り装置５８にセットされて、ＣＰＵ５２によってそのプログラムが読み出されて、実行されてもよい。可搬型記憶媒体としてはＣＤ−ＲＯＭ、フレキシブルディスク、光ディスク、光磁気ディスク、ＩＣカード、ＵＳＢメモリ装置など様々な形式の記憶媒体を使用することができる。このような記憶媒体に格納されたプログラムが読み取り装置５８によって読み取られる。

また、入力機器６２には、キーボード、マウス、電子カメラ、ウェブカメラ、マイク、スキャナ、センサ、タブレットなどを用いることが可能である。また、出力機器６１には、ディスプレイ、プリンタ、スピーカなどを用いることが可能である。また、ネットワーク６０は、インターネット、ＬＡＮ、ＷＡＮ、専用線、有線、無線等の通信網であってよい。

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。

１データ管理装置
２動作情報取得部
３第１記憶部
４動作情報特定部
５第２記憶部
６ログ取得部
７期間特定部
１０監視システム
１１管理サーバ
１２制御部
１３監視ソフトウェア（マネージャ）
１４表示制御部
１５収集部
１６蓄積制御部
１７抽出部
１８検出部
１９決定部
２０間引き部
２１格納部
２２性能情報ＤＢ
２３管理ＤＢ
３１ＯＳ再起動情報
３２常駐プロセス一覧情報
３３コマンド一覧
３４再起動プロセス一覧
３５モジュール一覧
３６ＶＭ資源割当変更パターン
３７ＶＭ構成一覧
３８性能情報収集定義
４１監視対象サーバ
４２ホストサーバ
４３仮想サーバ（ＶＭ）
４４監視ソフトウェア（エージェント）
４５エージェント処理部

Claims

コンピュータに、
監視対象の情報処理装置におけるイベントのうち、特定のイベントを第１記憶部に記憶し、
前記情報処理装置からログを取得して第２記憶部に記憶し、
前記ログのうち、前記第１記憶部に記憶された前記特定のイベントと一致しないイベントの発生の際のログを特定し、
特定した前記ログによって示される性能値が異常と判断される期間を、取得した前記ログからのログ抽出の対象期間として特定する、
処理を実行させるデータ管理プログラム。
前記ログ抽出の対象期間の特定において、
特定した前記ログによって示される性能値が所定の範囲から外れる期間を前記対象期間として特定する
ことを特徴とする請求項１に記載のデータ管理プログラム。
前記ログの特定において、
前記第２記憶部に記憶したログのうち、前記特定のイベントと一致しないイベントが発生した日のログを特定し、
前記ログ抽出の対象期間の特定において、
特定した前記ログによって示される性能値の標準偏差を算出し、性能値が該標準偏差から外れる期間を前記対象期間として特定する
ことを特徴とする請求項２に記載のデータ管理プログラム。
前記監視対象の情報処理装置におけるイベントは、前記監視対象の情報処理装置における所定のプログラムの再起動、前記監視対象の情報処理装置に対する所定のコマンドの発行、前記監視対象の情報処理装置のリソースの変動、または前記監視対象の情報処理装置が仮想マシンの場合における仮想マシンの仮想環境の移行である
ことを特徴とする請求項１〜３のうちいずれか１項に記載のデータ管理プログラム。
監視対象の情報処理装置におけるイベントのうち、特定のイベントを記憶する第１記憶部と、
前記情報処理装置からログを取得して記憶する第２記憶部と、
前記ログのうち、前記第１記憶部に記憶された前記特定のイベントと一致しないイベントの発生の際のログを特定するログ特定部と、
特定した前記ログによって示される性能値が異常と判断される期間を、取得した前記ログからのログ抽出の対象期間として特定する期間特定部と、
を備えることをデータ管理装置。
コンピュータが、
監視対象の情報処理装置におけるイベントのうち、特定のイベントを第１記憶部に記憶し、
前記情報処理装置からログを取得して第２記憶部に記憶し、
前記ログのうち、前記第１記憶部に記憶された前記特定のイベントと一致しないイベントの発生の際のログを特定し、
特定した前記ログによって示される性能値が異常と判断される期間を、取得した前記ログからのログ抽出の対象期間として特定する、
ことを特徴とするデータ管理方法。