JP5267748B2 - 運用管理システム、運用管理方法、及びプログラム - Google Patents

運用管理システム、運用管理方法、及びプログラム Download PDF

Info

Publication number
JP5267748B2
JP5267748B2 JP2012547767A JP2012547767A JP5267748B2 JP 5267748 B2 JP5267748 B2 JP 5267748B2 JP 2012547767 A JP2012547767 A JP 2012547767A JP 2012547767 A JP2012547767 A JP 2012547767A JP 5267748 B2 JP5267748 B2 JP 5267748B2
Authority
JP
Japan
Prior art keywords
detection
correlation
period
order
systems
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012547767A
Other languages
English (en)
Other versions
JPWO2012128388A1 (ja
Inventor
陽介 野々垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012547767A priority Critical patent/JP5267748B2/ja
Application granted granted Critical
Publication of JP5267748B2 publication Critical patent/JP5267748B2/ja
Publication of JPWO2012128388A1 publication Critical patent/JPWO2012128388A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、運用管理システム、運用管理方法、及びプログラムに関し、特に、システムの障害検出を行う運用管理システム、運用管理方法、及びプログラムに関する。
システム性能の時系列情報を用いて、システムのモデル化を行い、生成されたモデルを用いてそのシステムの障害を検出する運用管理システムの一例が特許文献1に記載されている。
特許文献1記載の運用管理システムは、システムの複数種別の性能値の計測値をもとに、複数の種別間の組み合わせのそれぞれに対して相関関数を決定することにより、複数の相関関数を含む相関モデルを生成する。そして、この運用管理システムは、生成された相関モデルを用いて、新たに入力された性能値の計測値に対して相関関係の破壊(相関破壊)が発生しているかどうかを判定し、相関破壊が集中している性能種別を検出する等の方法により、障害の原因を特定する。このように、相関破壊をもとに障害原因を分析する技術は、不変関係分析と呼ばれる。
不変関係分析では、性能値の大きさでは無く性能値間の相関関係に着目するため、それぞれの性能値を閾値と比較することにより障害検出を行う場合に比べて、閾値の設定が不要、閾値により検出できない障害の検出が可能、及び、異常原因の特定が容易等の利点がある。
このような不変関係分析を、例えば、全国の数十のシステムを分析対象とする場合のように、多数の分析対象システムに対して行う場合、分析対象システム毎に不変関係分析を行う分析装置を用意すると、投資コストが増大する。
そこで、例えば、全国のシステムを管理するデータセンタ等において、複数の分析対象システムに対して1つの分析装置を設置し、複数の分析対象システムの各々に対して、順番に不変関係分析を行う方法が考えられる。
特開2009−199533号公報
しかしながら、上述のように、特許文献1に記載された不変関係分析を、1つの分析装置が複数の分析対象システムの各々に対して順番に行う場合、分析の順番が後のシステムの障害検出が遅れ、適切な通報や対策ができないという問題がある。
例えば、各々の分析対象システムが大量のサーバ装置を含むために、各々の分析対象システムの不変関係分析に数秒かかる場合、数十台の分析対象システムに対する不変分析において、分析の順序が後のシステムの障害が検出されるまでには、数分かかる。
本発明の目的は、上述の課題を解決し、複数の分析対象システムに対する不変関係分析において、障害検出の遅れを低減できる運用管理システム、運用管理方法、及びプログラムを提供することである。
本発明の一態様における運用管理システムは、複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデルを記憶する相関モデル記憶手段と、前記複数のシステムに対する相関破壊の検出順序を記憶する分析順序記憶手段と、複数の期間の各々において、当該期間に対して入力された前記性能値を用いて、前記検出順序に従って、前記複数のシステムの各々の前記相関モデルに含まれる前記相関関係の前記相関破壊の有無を検出する分析手段と、前記複数の期間の各々において、前記検出順序を更新する順序制御手段とを備える。
本発明の一態様における運用管理方法は、複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデルを記憶し、前記複数のシステムに対する相関破壊の検出順序を記憶し、複数の期間の各々において、当該期間に対して入力された前記性能値を用いて、前記検出順序に従って、前記複数のシステムの各々の前記相関モデルに含まれる前記相関関係の前記相関破壊の有無を検出し、前記複数の期間の各々において、前記検出順序を更新する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデルを記憶し、前記複数のシステムに対する相関破壊の検出順序を記憶し、複数の期間の各々において、当該期間に対して入力された前記性能値を用いて、前記検出順序に従って、前記複数のシステムの各々の前記相関モデルに含まれる前記相関関係の前記相関破壊の有無を検出し、前記複数の期間の各々において、前記検出順序を更新する処理を実行させるプログラムを格納する。
本発明の効果は、複数の分析対象システムに対する不変関係分析において、障害検出の遅れを低減できることである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態における運用管理システム1の構成を示すブロック図である。 本発明の第1の実施の形態における運用管理システム1の処理を示すフローチャートである。 本発明の第1の実施の形態における、運用管理システム1の相関破壊検出処理(ステップS102)の詳細を示すフローチャートである。 本発明の第1の実施の形態における性能系列情報221の例を示す図である。 本発明の第1の実施の形態における相関モデル222の例を示す図である。 本発明の第1の実施の形態における相関破壊情報223の例を示す図である。 本発明の第1の実施の形態における相関破壊パターン224の例を示す図である。 本発明の第1の実施形態における異常度の算出例を示す図である。 本発明の第1の実施の形態における異常度情報421の例を示す図である。 本発明の第1の実施の形態における分析順序情報422の例を示す図である。 本発明の第1の実施の形態における、各期間に実行される相関破壊検出処理の例を示す図である。 本発明の第1の実施形態における、検出順序の算出例を示す図である。 本発明の第1の実施の形態における分析順序情報422の他の例を示す図である。 本発明の第2の実施の形態における運用管理システム1の構成を示すブロック図である。 本発明の第2の実施の形態における運用管理システム1の処理を示すフローチャートである。 本発明の第2の実施の形態における未分析システム情報423の例を示す図である。 本発明の第2の実施の形態における、各期間に実行される相関破壊検出処理の例を示す図である。 本発明の第2の実施の形態における検出順序の算出例を示す図である。 本発明の第2の実施の形態における検出順序の算出例を示す図である。 本発明の第2の実施の形態における検出順序の算出例を示す図である。 本発明の第3の実施の形態における、各期間に実行される相関破壊検出処理の例を示す図である。 本発明の第3の実施の形態における検出順序の算出例を示す図である。 本発明の第3の実施の形態における検出順序の算出例を示す図である。 本発明の第3の実施の形態における検出順序の算出例を示す図である。
(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における運用管理システム1の構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態における運用管理システム1は、複数の分析対象システム100(100a、100b、100c…)、複数の分析制御部200(200a、200b、200c…)、分析部300、及び、順序制御部400を含む。
分析対象システム100は、例えば、Webサーバ、アプリケーションサーバ、データベースサーバ等、分析対象のシステムを構成する1以上の監視対象装置を含む。
分析制御部200は、分析対象システム100毎に接続され、分析対象システム100に関する相関モデル222を生成する。また、分析制御部200は、利用者に対する分析結果の出力や、検出された障害に対する対処を行う。
分析制御部200は、性能情報収集部201、相関モデル生成部202、管理者対話部203、対処実行部204、性能情報記憶部211、相関モデル記憶部212、相関破壊記憶部213、及び、相関破壊パターン記憶部214を含む。
ここで、性能情報収集部201は、所定の時間間隔で、分析対象システム100に含まれる各監視対象装置から、当該監視対象装置において計測された複数種目の性能値の実測データ(計測値)を取得する。性能値の種目としては、例えば、CPU(Central Processing Unit)使用率(CPU)、メモリ使用量(MEM)、ディスク使用量(DSK)等が取得される。ここで、監視対象装置と性能値の種目の組を性能値の種別(性能種別、または、単に種別)とし、同一時刻に計測された複数種別の性能値の組を性能情報とする。性能情報収集部201は、性能情報の時系列変化を性能系列情報221として性能情報記憶部211に保存する。
図5は、本発明の第1の実施の形態における性能系列情報221の例を示す図である。図5の例では、性能系列情報221は、装置識別子SV1の監視対象装置のCPU使用率(SV1.CPU)、メモリ使用量(SV1.MEM)、ディスク使用量(SV1.DSK)、装置識別子SV2の監視対象装置のCPU使用率(SV2.CPU)等を性能種別として含む。
相関モデル生成部202は、性能系列情報221をもとに分析対象システム100の相関モデル222を生成する。ここで、相関モデル生成部202は、性能系列情報221に含まれる所定のモデル化期間に取得された性能情報に基づいて、複数の性能種別の内の異なる2つの性能種別毎に、当該2つの性能種別間の相関関係を示す相関関数(変換関数)を決定し、決定した相関関数の集合である相関モデル222を生成する。相関関数は、1つの性能種別の計測値の時系列から他の性能種別の性能値の時系列を予測する関数であり、特許文献1に示されるように、上述の任意の2つの性能種別の計測値の時系列に対するシステム同定処理によって決定される。相関モデル生成部202は、さらに、相関関数による変換誤差をもとに、相関関数毎に、例えば、変換誤差の平均値の大きさに応じて小さくなる重みを算出し、重みが所定値以上の相関関数の集合を相関モデル222としてもよい。
相関モデル記憶部212は、相関モデル生成部202が生成した相関モデル222を記憶する。
図6は、本発明の第1の実施の形態における相関モデル222の例を示す図である。図6において、各ノードは性能種別、ノード間の実線の矢印は2つの性能種別の一方から他方への相関関係を示す。また、これらの相関関係のそれぞれについて、相関関数(図示せず)が決定される。
相関破壊記憶部213は、分析部300により取得した、相関モデル222に対する相関破壊の検出結果である相関破壊情報223を記憶する。
図7は、本発明の第1の実施の形態における相関破壊情報223の例を示す図である。相関破壊情報223は、性能情報の計測時刻毎に生成され、図7に示すように、相関破壊の検出対象である性能情報の計測時刻、相関モデル222に含まれる相関関係(入力、及び、出力)、及び、相関関係毎の相関破壊検出結果を含む。相関破壊検出結果の「○」は相関破壊無し、「×」は相関破壊有りを示す。図7の例は、図6の相関モデル222に関する相関破壊の検出結果の例を示している。
相関破壊パターン記憶部214は、分析部300において、障害兆候度の算出に用いられる相関破壊パターン224を記憶する。
図8は、本発明の第1の実施の形態における相関破壊パターン224の例を示す図である。相関破壊パターン224は、図8に示すように、過去に発生した障害の識別子(障害識別子)と、当該障害が発生したときの相関関係毎の相関破壊検出結果のリストとの組を1以上含む。図8は、図6の相関モデル222に対する相関破壊パターン224の例を示している。
管理者対話部203は、分析部300から取得した相関破壊の検出結果を管理者等に提示し、管理者から障害に対する対処等の指示を受け付ける。
対処実行部204は、管理者により指示された対処を分析対象システム100上で実行する。
分析部300は、複数の分析制御部200(200a、200b、…)と接続され、複数の分析対象システム100(100a、100b、…)の各々の相関モデル222における相関関係の相関破壊を検出する。
分析部300は、相関破壊検出部301を含む。
相関破壊検出部301は、連続する複数の期間の各々において、複数の分析対象システム100の各々の相関モデル222に含まれる相関関係の相関破壊を検出する。相関破壊検出部301は、期間毎に、分析制御部200の性能情報記憶部211から、分析対象である性能情報を順番に取得し、当該性能情報に対して相関破壊を検出する。
ここで、各期間の時間長は、上述の、性能値が収集される時間間隔と同一でもよい。この場合、相関破壊検出部301は、期間毎に、性能情報記憶部211から、新たに収集された性能情報を取得し、相関破壊を検出する。
相関破壊検出部301は、特許文献1と同様に、分析対象である性能情報と相関モデル記憶部212に記憶された相関モデル222とを用いて、相関モデル222に含まれる相関関係の相関破壊を検出する。相関破壊検出部301は、分析対象である性能情報に含まれる2つの性能種別の一方の計測値を当該2つの性能種別間の相関関係を表す相関関数に入力して得られた値と、他方の計測値との差分を算出する。そして、相関破壊検出部301は、当該差分が所定値以上の場合、当該2つの性能種別間に相関破壊が有ると判定する。
相関破壊検出部301は、順序制御部400から取得した分析順序情報422により示される、複数の分析対象システム100に関する「相関破壊の検出順序」に従って、順番に、各分析対象システム100に関する相関破壊を検出する。本発明の第1の実施の形態においては、全ての分析対象システム100に関する相関破壊の検出は、各期間の間に終了すると仮定する。
さらに、相関破壊検出部301は、検出された相関破壊をもとに各分析対象システム100の異常度を算出し、順序制御部400に送信する。ここで、相関破壊検出部301は、異常度として、「相関破壊度」と「障害兆候度」を算出する。
相関破壊度は、相関モデル222における相関破壊の程度を表す値である。本発明の実施の形態においては、相関モデル222に含まれる相関関係の内、相関破壊検出部301により相関破壊が検出された相関関係の数を相関破壊度として用いる。相関破壊度が大きい場合、分析対象システム100に、障害が発生している可能性があると考えられる。
図9は、本発明の第1の実施形態における異常度の算出例を示す図である。例えば、図6の相関モデル222について、相関破壊検出部301により、図7のように5つの相関関係の相関破壊が検出された場合、図9のように相関破壊度は5である。
相関破壊度は、相関モデル222に含まれる相関関係の数が大きい分析対象システム100ほど、その値が大きくなる傾向がある。
なお、相関破壊検出部301は、相関破壊の程度を表す値であれば、相関破壊度として他の方法により算出された値を用いてもよい。例えば、相関破壊検出部301は、相関破壊が検出された相関関係の重みの合計値を相関破壊度として用いてもよい。
障害兆候度は、相関破壊検出部301により検出された相関破壊の検出結果と過去の障害発生時における相関破壊の検出結果との類似性(類似度)を表す値である。本発明の実施の形態においては、相関破壊検出部301により検出された相関関係毎の相関破壊の検出有無と、相関破壊パターン224に含まれる相関関係毎の相関破壊の検出有無との一致度を障害兆候度として用いる。一致度が大きい場合、分析対象システム100に、相関破壊パターン224で示される障害と同様の障害が、現在発生している可能性がある、または、今後発生する可能性があると考えられる。
例えば、図6の相関モデル222について、図7のように5つの相関関係の相関破壊が検出され、図8のような相関破壊パターン224が設定されている場合、図9に示すように、8つの相関関係について、相関破壊の検出有無が一致する。この場合、相関破壊の検出有無の一致度は、相関破壊の検出有無一致数/相関関係の数=80%と算出される。
障害兆候度は、相関モデル222に含まれる相関関係の数が小さい分析対象システム100ほど、その値が大きくなる傾向がある。
なお、相関破壊検出部301は、相関破壊検出部301により検出された相関破壊の検出結果と過去の障害発生時における相関破壊の検出結果との類似性(類似度)を表す値であれば、障害兆候度として他の方法により算出された値を用いてもよい。例えば、相関破壊検出部301は、相関破壊の検出有無を比較する代わりに、相関破壊が検出された相関関係を比較することにより、相関破壊が検出された相関関係の類似性を求め、障害兆候度として用いてもよい。また、相関破壊検出部301は、相関関係をいくつかのグループに分類し、グループ毎の相関破壊数の分布の類似性を求め、障害兆候度として用いてもよい。
順序制御部400は、分析部300と接続され、複数の分析対象システム100に対する相関破壊の検出順序を決定、更新する。
順序制御部400は、分析順序決定部401、異常度記憶部411、及び、分析順序記憶部412を含む。
分析順序決定部401は、上述の複数の期間の各々において、異常度記憶部411に記憶された各分析対象システム100の異常度をもとに、複数の分析対象システム100に対する相関破壊の検出順序を決定し、分析順序記憶部412に記憶されている分析順序情報422を更新する。
異常度記憶部411は、分析部300から取得した、各分析対象システム100の異常度を示す異常度情報421を記憶する。図10は、本発明の第1の実施の形態における異常度情報421の例を示す図である。異常度情報421は、図10に示すように、分析対象システム100の識別子(システム識別子)、及び、当該分析対象システム100の異常度として、相関破壊度と障害兆候度とを含む。
分析順序記憶部412は、分析順序決定部401により決定された、複数の分析対象システム100に対する相関破壊の検出順序を示す分析順序情報422を記憶する。図11は、本発明の第1の実施の形態における分析順序情報422の例を示す図である。分析順序情報422は、図11に示すように、分析対象システム100のシステム識別子、及び、当該分析対象システム100の相関破壊の検出順序を含む。
なお、分析制御部200、分析部300、及び、順序制御部400の各々は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。
ここで、分析部300、及び、順序制御部400は1つの装置に含まれていてもよい。また、分析制御部200が、分析対象システム100を含んでいてもよい。
さらに、複数の分析対象システム100が1つの分析制御部200に接続されていてもよい。この場合、分析制御部200は、複数の分析対象システム100の各々について、相関モデル222の生成、及び、相関破壊の検出を行う。また、この場合、分析制御部200、分析部300、及び、順序制御部400が1つの装置に含まれていてもよい。
次に、本発明の第1の実施の形態における運用管理システム1の動作について説明する。
図3は、本発明の第1の実施の形態における運用管理システム1の処理を示すフローチャートである。図12は、本発明の第1の実施の形態における、各期間に実行される相関破壊検出処理の例を示す図である。
ここでは、各分析対象システム100の相関モデル222が、各分析制御部200により生成され、相関モデル記憶部212に記憶されていると仮定する。
はじめに、分析部300の相関破壊検出部301は、上述の複数の期間の各々において、順序制御部400の分析順序記憶部412から分析順序情報422を取得する(ステップS101)。
例えば、相関破壊検出部301は、図12の期間1において、図11のような分析順序情報422を取得する。なお、初期状態では、分析順序情報422に、例えば、分析対象システム100のシステム識別子の小さい順に、検出順序が設定されていてもよい。
相関破壊検出部301は、取得した分析順序情報422に従って、相関破壊の検出処理を実行する(ステップS102)。
図4は、本発明の第1の実施の形態における、運用管理システム1の相関破壊検出処理(ステップS102)の詳細を示すフローチャートである。
相関破壊検出部301は、全分析対象システム100の各々について、分析順序記憶部412に従って、順番に、ステップS152からステップS157を繰り返す(ステップS151)。
相関破壊検出部301は、分析制御部200の性能情報記憶部211から、現在の期間に対する性能情報を取得する(ステップS152)。また、相関破壊検出部301は、分析制御部200の相関モデル記憶部212から相関モデル222を取得する(ステップS153)。相関破壊検出部301は、取得した性能情報と相関モデル222とを用いて、相関モデル222に含まれる相関関係の相関破壊を検出する(ステップS154)。相関破壊検出部301は、相関破壊の検出結果を相関破壊情報223として、分析制御部200の相関破壊記憶部213に保存する(ステップS155)。
また、相関破壊検出部301は、検出された相関破壊をもとに、分析対象システム100の異常度を算出する(ステップS156)。相関破壊検出部301は、算出した異常度を、異常度情報421として、順序制御部400の異常度記憶部411に保存する(ステップS157)。
例えば、図12の期間1において、相関破壊検出部301は、図11の分析順序情報422に従って、システム識別子S1、S2、S3、S4の順に、それぞれの分析対象システム100で計測された期間1の性能情報d11、d21、d31、d41に対して、各分析対象システム100の相関破壊の検出、及び、異常度の算出を行う。この結果、各分析対象システム100について、図10のような異常度情報421が異常度記憶部411に保存される。
次に、順序制御部400の分析順序決定部401は、異常度記憶部411から異常度情報421を取得する(ステップS103)。
分析順序決定部401は、異常度情報421に含まれる各分析対象システム100の相関破壊度をもとに、各分析対象システム100に異常度を評価するための評価スコア(以下、スコアとする)を設定する(ステップS104)。また、分析順序決定部401は、異常度情報421に含まれる各分析対象システム100の障害兆候度をもとに、各分析対象システム100にスコアを設定する(ステップS105)。ここで、分析順序決定部401は、全ての分析対象システム100の中での相関破壊度、または、障害兆候度の順位に応じて大きくなる値を、相関破壊度、または、障害兆候度に対するスコアとして設定する。
図13は、本発明の第1の実施形態における、検出順序の算出例を示す図である。例えば、図13に示すように、分析順序決定部401は、4つの分析対象システム100の中で、相関破壊度の大きい順番に、システム識別子S1、S4、S3、S2の分析対象システム100に、それぞれ、スコア4、3、2、1を設定する。また、分析順序決定部401は、4つの分析対象システム100の中で、障害兆候度の大きい順番に、システム識別子S1、S3、S2、S4の分析対象システム100に、それぞれ、スコア4、3、2、1を設定する。
次に、分析順序決定部401は、各分析対象システム100について、相関破壊度に設定されたスコアと障害兆候度に設定されたスコアを合計した合計スコアを算出し、合計スコアの大きい分析対象システム100の検出順序が前になるように、複数の分析対象システム100に対する相関破壊の検出順序を決定する(ステップS106)。そして、分析順序決定部401は、決定した検出順序を、分析順序情報422として、分析順序記憶部412に保存する(ステップS107)。
例えば、分析順序決定部401は、図13のように、各分析対象システム100について合計スコアを算出し、合計スコアの大きい順番に、システム識別子S1、S3、S4、S2の分析対象システム100の検出順序を、それぞれ1、2、3、4と決定する。
図14は、本発明の第1の実施の形態における分析順序情報422の他の例を示す図である。分析順序決定部401は、図14のような分析順序情報422を分析順序記憶部412に保存(更新)する。なお、合計スコアが同じ分析対象システム100が複数ある場合は、相関破壊度、または、障害兆候度が大きい分析対象システム100の検出順序が前になるように検出順序を決定してもよい。
そして、相関破壊検出部301と分析順序決定部401は、上述の複数の期間の各々において、ステップS101からS107を繰り返し実行する。このとき、相関破壊検出部301は、分析順序記憶部412の分析順序情報422に従って、相関破壊の算出、及び、異常度の算出を行う。
例えば、図12の期間2において、相関破壊検出部301は、更新された図14の分析順序情報422に従って、システム識別子S1、S3、S4、S2の順に、それぞれの分析対象システム100で計測された期間2の性能情報d12、d32、d42、d22に対して、相関破壊の算出、及び、異常度の算出を行う。
このように、異常度の評価スコアの大きいシステム識別子S3、S4の分析対象システム100の相関破壊検出が、異常度の評価スコアの小さいシステム識別子S2の分析対象システム100よりも優先して行われるように、検出順序が更新される。
以上により、本発明の第1の実施の形態の動作が完了する。
なお、本発明の第1の実施の形態では、分析順序決定部401が、異常度である相関破壊度、及び、障害兆候度のそれぞれの順位をもとにそれぞれのスコアを算出し、これらのスコアの合計をもとに、検出順序を決定しているが、異常度の大きさにより検出順序を決定できれば、他の方法を用いてもよい。例えば、分析順序決定部401は、相関破壊度、及び、障害兆候度を合算した値の順位をもとに、検出順序を決定してもよい。
また、分析順序決定部401は、異常度として、相関破壊度、及び、障害兆候度のいずれか一方を用いてもよい。また、分析順序決定部401は、異常度として、相関破壊度、及び、障害兆候度以外に、相関破壊の検出結果をもとに算出される他の指標を加えてもよい。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、運用管理システム1は、相関モデル記憶部212、分析順序記憶部412、分析部300、及び、順序制御部400を含む。
相関モデル記憶部212は、複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデル222を記憶する。
分析順序記憶部412は、複数のシステムに対する相関破壊の検出順序を記憶する。
分析部300は、複数の期間の各々において、当該期間に対して入力された性能値を用いて、検出順序に従って、複数のシステムの各々の相関モデル222に含まれる相関関係の相関破壊の有無を検出する。
順序制御部400は、複数の期間の各々において、検出順序を更新する。
本発明の第1の実施の形態によれば、複数の分析対象システム100に対する不変関係分析において、障害検出の遅れを低減できる。その理由は、順序制御部400が、複数の期間の各々において、検出順序を更新するためである。
また、本発明の第1の実施の形態によれば、現在障害が発生している、または、今後障害が発生する可能性の高い分析対象システム100の障害検出を優先的に行うことができる。その理由は、順序制御部400が、相関破壊の数をもとに算出される相関破壊度、及び、分析対象システム100の障害時の相関破壊の検出結果と入力された性能値に対する相関破壊の検出結果との類似度の内の少なくとも1つである異常度を用いて、検出順序を決定するためである。
また、本発明の第1の実施の形態によれば、分析対象システム100の規模によらずに、障害検出の遅れを低減できる。その理由は、順序制御部400が、異常度として、相関モデル222に含まれる相関関係の数が大きいほど大きくなる傾向がある相関破壊度と、相関モデル222に含まれる相関関係の数が小さいほど大きくなる傾向がある相関破壊の検出結果の類似度との両方を組み合わせて用いるためである。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態においては、各期間において、その期間内に全ての分析対象システム100に対する相関破壊の検出ができない(終了しない)ことがあると仮定する。
例えば、分析対象システム100の数が多く、性能情報の収集間隔が、全ての分析対象システム100に対する相関破壊の検出を行うために必要な時間より短い場合、検出順序が後の分析対象システム100は、各期間内で相関破壊検出を行うことができない。また、分析部300において、時間的に変動する相関破壊検出以外の他の処理がある場合、当該処理の影響により、期間によっては、検出順序が後の分析対象システム100は、各期間内で相関破壊検出を行うことができない。
この場合、本発明の第1の実施の形態の構成では、相関破壊検出が行われない分析対象システム100については、異常度が更新されないため、その分析対象システム100に対する相関破壊検出が実行されない状態が続くという問題がある。
そこで、本発明の第2の実施の形態においては、相関破壊検出が行われなかった分析対象システム100の異常度に、現在の期間より前の、相関破壊検出が行われた期間に算出された異常度に比べて大きい値を設定することにより、その分析対象システム100が、次の期間において、他の分析対象システム100よりも優先的に相関破壊検出が行われるようにする。
なお、本発明の第2の実施の形態において、本発明の第1の実施の形態と同一の符号が付与された構成要素は、特に説明のない限り、本発明の第1の構成要素と同じであるとする。
はじめに、本発明の第2の実施の形態の構成について説明する。図15は、本発明の第2の実施の形態における運用管理システム1の構成を示すブロック図である。
図15を参照すると、本発明の第1の実施の形態における運用管理システム1の順序制御部400は、本発明の第2の実施の形態の構成に加えて、未分析システム記憶部413を含む。
未分析システム記憶部413は、上述の複数の期間の各々において、相関破壊の検出が行われなかった(未分析の)分析対象システム100を示す未分析システム情報423を記憶する。
図17は、本発明の第2の実施の形態における未分析システム情報423の例を示す図である。未分析システム情報423は、図17のように、分析対象システム100のシステム識別子と当該分析対象システム100について相関破壊の検出が行われなかった回数を示す未分析回数とのリストを含む。未分析回数は、初期状態では0である。また、未分析回数には、相関破壊の検出が行われた場合に0が設定される。
分析部300の相関破壊検出部301は、上述の複数の期間の各々において、順序制御部400から取得した分析順序情報422により示される検出順序に従って、順番に、各分析対象システム100に関する相関破壊を検出する。本発明の第2の実施の形態においては、相関破壊検出部301は、現在の期間の性能情報に加えて、現在の期間より前の、相関破壊検出が行われなかった期間の性能情報に対しても、相関破壊検出を一括して行う。
順序制御部400の分析順序決定部401は、上述の複数の期間の各々において、異常度記憶部411に記憶された各分析対象システム100の異常度をもとに、複数の分析対象システム100に対する相関破壊の検出順序を決定する。本発明の第2の実施の形態においては、分析順序決定部401は、相関破壊検出が行われなかった分析対象システム100の異常度に、現在の期間より前の、相関破壊検出が行われた期間に算出された異常度に比べて大きい値を設定し、当該異常度をもとに相関破壊の検出順序を決定する。具体的には、分析順序決定部401は、相関破壊検出が行われた期間に算出された異常度に未分析回数を乗じた値を用いて相関破壊の検出順序が決定される。
次に、本発明の第2の実施の形態における運用管理システム1の動作について説明する。
図16は、本発明の第2の実施の形態における運用管理システム1の処理を示すフローチャートである。図18は、本発明の第2の実施の形態における、各期間に実行される相関破壊検出処理の例を示す図である。
はじめに、分析部300の相関破壊検出部301は、上述の複数の期間の各々において、順序制御部400の分析順序記憶部412から分析順序情報422を取得する(ステップS201)。
例えば、相関破壊検出部301は、図18の期間1において、図11のような分析順序情報422を取得する。
相関破壊検出部301は、取得した分析順序情報422に従って、相関破壊検出処理を実行する(ステップS202)。
ここで、相関破壊検出部301は、図4のステップS151〜S157と同様の処理により、各分析対象システム100について、分析順序記憶部412に従って順番に、相関破壊検出処理を実行する。
ただし、相関破壊検出部301は、期間の終了時に全ての分析対象システム100に対する相関破壊検出処理が終了しない場合でも、その時点で処理を中断する。
また、ステップS152において、相関破壊検出部301は、未分析システム情報423を参照し、分析対象システム100の未分析回数が1以上、すなわち、前の期間において、当該分析対象システム100に対する相関破壊検出が行われていない場合、性能情報記憶部211から、現在の期間に対する性能情報に加えて、現在の期間より前の、相関破壊検出が行われなかった期間に対する性能情報を一括して取得する。そして、ステップS154において、相関破壊検出部301は、相関破壊検出が行われなかった期間と、現在の期間に対する性能情報に対して相関破壊検出を一括して行う。また、ステップS155において、相関破壊検出部301は、相関破壊検出が行われなかった期間と、現在の期間に対する相関破壊の検出結果を相関破壊記憶部213に一括して保存する。
次に、相関破壊検出部301は、未分析システム記憶部413の未分析システム情報423を更新する(ステップS203)。ここで、相関破壊検出部301は、期間内に相関破壊検出処理が終了しなかった分析対象システム100の未分析回数に1を加算し、期間内に相関破壊検出処理が終了した分析対象システム100の未分析回数に0を設定する。
図19、図20、及び、図21は、本発明の第2の実施の形態における検出順序の算出例を示す図である。
例えば、図18の期間1において、相関破壊検出部301は、図11の分析順序情報422に従って、システム識別子S1、S2、S3、S4の順に、相関破壊の検出、及び、異常度の算出を行う。
ここで、システム識別子S3、S4の分析対象システム100については、相関破壊検出処理が行われなかった場合、相関破壊検出部301は、図19のようにシステム識別子S4、S3の分析対象システム100の未分析回数に1を加算し、他の未分析回数に0を設定する。
また、相関破壊検出部301は、システム識別子S1、S2の分析対象システム100の相関破壊検出処理において、それぞれの分析対象システム100で計測された期間1の性能情報d11、d21に対して、相関破壊の検出を行う。相関破壊検出部301は、システム識別子S1、S2の分析対象システム100について、図19のように、異常度を算出する。
次に、順序制御部400の分析順序決定部401は、異常度記憶部411から異常度情報421を取得する(ステップS204)。また、分析順序決定部401は、未分析システム記憶部413から未分析システム情報423を取得する(ステップS205)。
分析順序決定部401は、各分析対象システム100について、異常度情報421に含まれる相関破壊度と未分析システム記憶部413に含まれる未分析回数とをもとに、スコアを設定する(ステップS206)。また、分析順序決定部401は、各分析対象システム100について、異常度情報421に含まれる障害兆候度と未分析システム記憶部413に含まれる未分析回数とをもとに、各分析対象システム100にスコアを設定する(ステップS207)。ここで、分析順序決定部401は、未分析回数が1以上の分析対象システム100については、異常度情報421の相関破壊度、障害兆候度に未分析回数を乗じた値を算出し、当該算出した値を用いて、本発明の第1の実施の形態と同様に、スコアを設定する。
例えば、図19に示すように、分析順序決定部401は、システム識別子S3、S4の相関破壊度、障害兆候度に1を乗じてから、スコアを設定する。
次に、分析順序決定部401は、各分析対象システム100について、合計スコアをもとに、複数の分析対象システム100に対する相関破壊の検出順序を決定する(ステップS208)。そして、分析順序決定部401は、決定した検出順序を、分析順序情報422として、分析順序記憶部412に保存する(ステップS209)。
例えば、分析順序決定部401は、図19に示すように、各分析対象システム100について合計スコアを算出し、合計スコアの大きい順番に、システム識別子S1、S2、S3、S4の分析対象システム100の検出順序を、それぞれ1、2、3、4と決定する。
そして、相関破壊検出部301と分析順序決定部401は、上述の複数の期間の各々において、ステップS201からS209を繰り返し実行する。
例えば、図18の期間2において、相関破壊検出部301は、システム識別子S1、S2、S3、S4の順に、相関破壊の検出、及び、異常度の算出を行う。
ここで、システム識別子S3、S4の分析対象システム100については、相関破壊検出処理が行われなかった場合、相関破壊検出部301は、図20のようにシステム識別子S3、S4の分析対象システム100の未分析回数に1を加算し、他の未分析回数に0を設定する。
また、相関破壊検出部301は、システム識別子S1、S2の分析対象システム100の相関破壊検出処理において、それぞれの分析対象システム100で計測された期間2の性能情報d12、d22に対して、相関破壊の検出を行う。相関破壊検出部301は、システム識別子S1、S2の分析対象システム100について、図20のように、異常度を算出する。
分析順序決定部401は、図20のように、システム識別子S3、S4の相関破壊度、障害兆候度に2を乗じてから、スコアを設定する。分析順序決定部401は、合計スコアをもとに、システム識別子S1、S2、S3、S4の分析対象システム100の検出順序を、それぞれ1、3、2、4と決定する。
そして、図18の期間3において、相関破壊検出部301は、システム識別子S1、S3、S2、S4の順に、相関破壊の検出、及び、異常度の算出を行う。
ここで、システム識別子S4の分析対象システム100については、相関破壊検出処理が行われなかった場合、相関破壊検出部301は、図21のように、システム識別子S4の分析対象システム100の未分析回数に1を加算し、他の未分析回数に0を設定する。
また、相関破壊検出部301は、システム識別子S1、S2の分析対象システム100の相関破壊検出処理において、それぞれの分析対象システム100で計測された期間3の性能情報d13、d23に対して、相関破壊の検出を行う。また、相関破壊検出部301は、システム識別子S3の分析対象システム100の相関破壊検出処理において、当該分析対象システム100で計測された期間1、2、3の性能情報d31、d32、d33に対して、相関破壊の検出を行う。相関破壊検出部301は、システム識別子S1、S3、S2の分析対象システム100について、図21のように、異常度を算出する。
分析順序決定部401は、図21のように、システム識別子S4の相関破壊度、障害兆候度に3を乗じてから、スコアを設定する。分析順序決定部401は、合計スコアをもとに、システム識別子S1、S2、S3、S4の分析対象システム100の検出順序を、それぞれ1、3、4、2と決定する。
そして、図18の期間4において、相関破壊検出部301は、システム識別子S1、S4、S2、S3の順に、相関破壊の検出、及び、異常度の算出を行う。
このように、期間1において、相関破壊検出が行われなかったシステム識別子S3、S4の分析対象システム100の相関破壊検出が、期間2以降に優先して行われるように、検出順序が更新される。
また、期間1、2において、相関破壊検出が行われなかったシステム識別子S3の分析対象システム100については、期間3において、期間1、2、3の性能情報に対する相関破壊検出が一括して行われる。
分析部300における相関破壊検出処理は、上述のように、(a)分析制御部200からの性能情報、及び、相関モデル222の取得(ステップS152、S153)、(b)相関破壊検出(ステップS154)、及び、(c)分析制御部200への相関破壊検出結果の保存(ステップS155)に分割される。
ここで、(a)、(c)の処理時間は、記憶装置等へのアクセスに伴う、読み出しや書き込みの制御に必要な時間が、データの転送に必要な時間より大きいため、複数の期間の性能情報を一括して取得、保存した場合の(a)、(c)の処理時間は、1つの期間の性能情報を取得、保存した場合の(a)、(c)の処理時間とほぼ同じと考えられる。また、記憶装置等へのアクセスを伴わない(b)の処理時間は、(a)、(c)の処理時間に比べて、十分小さいと考えられる。この場合、複数の期間に対する相関破壊検出の処理時間は、1つの期間に対する相関破壊検出の処理時間とほぼ同じとなる。
したがって、複数の期間に対する相関破壊検出を一括して行うことにより、相関破壊検出の処理負荷が低減される。
以上により、本発明の第2の実施の形態の動作が完了する。
なお、本発明の第2の実施の形態では、分析順序決定部401が、相関破壊検出が行われた期間に算出された異常度に未分析回数を乗じた値を用いて相関破壊の検出順序が決定しているが、異常度の値として、相関破壊検出が行われた期間に算出された異常度に比べて大きい値を用いることができれば、他の方法を用いてもよい。例えば、分析順序決定部401は、相関破壊検出が行われた期間に算出された異常度に、所定の定数を乗じてもよい。また、分析順序決定部401は、相関破壊検出が行われた期間に算出された異常度に、未分析回数に応じて大きくなる他の係数を乗じてもよい。
本発明の第2の実施の形態によれば、検出順序が後のために、分析を行う期間内に相関破壊検出が行われない分析対象システム100がある場合でも、後の期間において、当該分析対象システム100に対する相関破壊検出を行うことができる。その理由は、分析順序決定部401が、現在の期間より前の、相関破壊検出が行われた期間に算出された異常度に比べて大きい値を、相関破壊検出が行われなかった分析対象システム100の異常度に設定し、当該異常度をもとに相関破壊の検出順序を決定するためである。
また、本発明の第2の実施の形態によれば、相関破壊検出の処理負荷を低減できる。その理由は、相関破壊検出部301が、現在の期間の性能情報に加えて、現在の期間より前の、相関破壊検出が行われなかった期間の性能情報に対して、相関破壊検出を一括して行うためである。
また、本発明の第2の実施の形態によれば、現在障害が発生している、または、今後障害が発生する可能性の高い分析対象システム100の障害検出を優先的に行いながら、相関破壊検出の処理負荷を低減できる。その理由は、異常度の大きい分析対象システム100については、各期間において優先的に相関破壊検出が行われ、異常度の小さい分析対象システム100については、複数の期間の性能情報について一括して相関破壊検出が行われるためである。
(第3の実施の形態)
次に、本発明の第3の実施の形態について説明する。
本発明の第3の実施の形態においては、分析順序決定部401は、相関破壊検出が行われなかった分析対象システム100について、相関破壊検出が行われた期間に算出された異常度に未分析回数を乗じる代わりに、未分析回数が多い複数の分析対象システム100をグループ化し、グループに含まれる各々の分析対象システム100の異常度に、グループに含まれる各々の分析対象システム100の相関破壊検出が行われた期間に算出された異常度を合算した値を設定し、当該異常度をもとに相関破壊の検出順序を決定する。
本発明の第3の実施の形態の構成は、本発明の第2の実施の形態の構成(図15)と同様となる。
次に、本発明の第3の実施の形態における運用管理システム1の動作について説明する。本発明の第3の実施の形態における運用管理システム1の処理を示すフローチャートは、本発明の第2の実施の形態(図16)と同様となる。
図22は、本発明の第3の実施の形態における、各期間に実行される相関破壊検出処理の例を示す図である。また、図23、図24、及び、図25は、本発明の第3の実施の形態における検出順序の算出例を示す図である。
例えば、図22の期間1において、相関破壊検出部301は、図11の分析順序情報422に従って、システム識別子S1、S2、S3、S4の順に、相関破壊の検出、及び、異常度の算出を行う。
ここで、システム識別子S3、S4の分析対象システム100については、相関破壊検出処理が行われなかった場合、相関破壊検出部301は、図23のようにシステム識別子S3、S4の分析対象システム100の未分析回数に1を加算し、他の未分析回数に0を設定する。
また、相関破壊検出部301は、システム識別子S1、S2の分析対象システム100の相関破壊検出処理において、それぞれの分析対象システム100で計測された期間1の性能情報d11、d21に対して、相関破壊の検出を行う。相関破壊検出部301は、システム識別子S1、S2の分析対象システム100について、図23のように、異常度を算出する。
ここでは、グループ化の条件として、例えば、相関破壊の検出が行われなかった分析対象システム100の内、未分析回数が多い順に所定数の分析対象システム100をグループ化すると設定されているとする。また、所定数として2が設定されているとする。
この場合、分析順序決定部401は、図23のように、未分析回数が1であるシステム識別子S3、S4の分析対象システム100をグループ化する。分析順序決定部401は、システム識別子S3、S4の分析対象システム100の相関破壊度、障害兆候度に、システム識別子S3、S4の分析対象システム100の相関破壊度、障害兆候度をそれぞれ合算した値を設定し、スコア、及び、合計スコアを算出する。
分析順序決定部401は、合計スコアをもとに、システム識別子S1、S2、S3、S4の分析対象システム100の検出順序を、それぞれ1、4、2、3と決定する。なお、グループ内の分析対象システム100の検出順序は、例えば、相関破壊度、または、障害兆候度が大きい分析対象システム100の検出順序が前になるように検出順序を決定する。
そして、図22の期間2において、相関破壊検出部301は、システム識別子S1、S3、S4、S2の順に、相関破壊の検出、及び、異常度の算出を行う。
ここで、システム識別子S3、S4、S2の分析対象システム100については、相関破壊検出処理が行われなかった場合、相関破壊検出部301は、図24のようにシステム識別子S3、S4、S2の分析対象システム100の未分析回数に1を加算し、他の未分析回数に0を設定する。
また、相関破壊検出部301は、システム識別子S1の分析対象システム100の相関破壊検出処理において、当該分析対象システム100で計測された期間2の性能情報d12に対して、相関破壊の検出を行う。相関破壊検出部301は、システム識別子S1の分析対象システム100について、図24のように、異常度を算出する。
分析順序決定部401は、図24のように、未分析回数が2であるシステム識別子S3、S4の分析対象システム100をグループ化し、スコアを設定する。分析順序決定部401は、合計スコアをもとに、システム識別子S1、S2、S3、S4の分析対象システム100の検出順序を、それぞれ1、4、2、3と決定する。
そして、図22の期間3において、相関破壊検出部301は、システム識別子S1、S3、S4、S2の順に、相関破壊の検出、及び、異常度の算出を行う。
ここで、システム識別子S2の分析対象システム100については、相関破壊検出処理が行われなかった場合、相関破壊検出部301は、図25のようにシステム識別子S2の分析対象システム100の未分析回数に1を加算し、他の未分析回数に0を設定する。
また、相関破壊検出部301は、システム識別子S1の分析対象システム100の相関破壊検出処理において、当該分析対象システム100で計測された期間3の性能情報d13に対して、相関破壊の検出、及び、異常度の算出を行う。また、相関破壊検出部301は、システム識別子S3、及び、S4の分析対象システム100の相関破壊検出処理において、当該分析対象システム100で計測された期間1、2、3の性能情報d31、d32、d33、及び、d41、d42、d43に対して、相関破壊の検出、及び、異常度の算出を行う。相関破壊検出部301は、システム識別子S1、S3、S4の分析対象システム100について、図25のように、異常度を算出する。
分析順序決定部401は、図25のように、スコアを設定し、合計スコアをもとに、システム識別子S1、S2、S3、S4の分析対象システム100の検出順序を、それぞれ1、2、3、4と決定する。
このように、期間1において、相関破壊検出が行われなかったシステム識別子S3、S4の分析対象システム100の相関破壊検出が、期間2以降に優先して行われるように、検出順序が更新される。
以上により、本発明の第3の実施の形態の動作が完了する。
なお、本発明の第3の実施の形態では、分析順序決定部401が、相関破壊の検出が行われなかった分析対象システム100の内、未分析回数が多い順に所定数の分析対象システム100をグループ化しているが、未分析回数が多い分析対象システム100をグループ化できれば、他の方法を用いてもよい。例えば、分析順序決定部401は、未分析回数が所定値以上の分析対象システム100をグループ化してもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、分析部300における検出順序の決定に、本発明の第2の実施形態における異常度に所定の係数を乗じた値を用いる方法と、本発明の第3の実施形態における分析対象システム100のグループ化により合算した異常度の値を用いる方法の両方を用いてもよい。
この出願は、2011年3月23日に出願された日本出願特願2011−064603を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 運用管理システム
100 分析対象システム
200 分析制御部
201 性能情報収集部
202 相関モデル生成部
203 管理者対話部
204 対処実行部
211 性能情報記憶部
212 相関モデル記憶部
213 相関破壊記憶部
214 相関破壊パターン記憶部
221 性能系列情報
222 相関モデル
223 相関破壊情報
224 相関破壊パターン
300 分析部
301 相関破壊検出部
400 順序制御部
401 分析順序決定部
411 異常度記憶部
412 分析順序記憶部
413 未分析システム記憶部
421 異常度情報
422 分析順序情報
423 未分析システム情報

Claims (21)

  1. 複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデルを記憶する相関モデル記憶手段と、
    前記複数のシステムに対する相関破壊の検出順序を記憶する分析順序記憶手段と、
    複数の期間の各々において、当該期間に対して入力された前記性能値を用いて、前記検出順序に従って、前記複数のシステムの各々の前記相関モデルに含まれる前記相関関係の前記相関破壊の有無を検出する分析手段と、
    前記複数の期間の各々において、前記検出順序を更新する順序制御手段と
    を備えた運用管理システム。
  2. 前記順序制御手段は、前記複数のシステムの各々の前記相関破壊の有無の検出結果をもとに、前記検出順序を決定する
    請求項1に記載の運用管理システム。
  3. 前記順序制御手段は、前記検出結果に含まれる前記相関破壊の数をもとに算出される相関破壊度、及び、前記システムの障害時の前記検出結果と入力された前記性能値に対する前記検出結果との類似度の内の少なくとも1つである異常度を用いて、前記検出順序を決定する
    請求項2に記載の運用管理システム。
  4. 前記順序制御手段は、前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、当該システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度に比べて大きい値を、当該システムの前記異常度に設定する
    請求項3に記載の運用管理システム。
  5. 前記順序制御手段は、前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、当該システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度に前記検出が行われていない前記期間の数に応じて大きくなる係数を乗じた値を、当該システムの前記異常度に設定する
    請求項4に記載の運用管理システム。
  6. 前記順序制御手段は、前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、前記検出が行われなかった前記期間の数が他の前記システムより多い複数の前記システムを含むグループを生成し、当該グループに含まれる各々の前記システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度を合算した値を、当該グループに含まれる各々の前記システムの前記異常度に設定する
    請求項4に記載の運用管理システム。
  7. 前記分析手段は、前記複数の期間の各々において前記検出を行う場合、当該期間に対して入力された前記性能値に加えて、当該期間より前の前記検出が行われなかった期間に対して入力された前記性能値を用いた前記検出を行う
    請求項1乃至6のいずれかに記載の運用管理システム。
  8. 複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデルを記憶し、
    前記複数のシステムに対する相関破壊の検出順序を記憶し、
    複数の期間の各々において、当該期間に対して入力された前記性能値を用いて、前記検出順序に従って、前記複数のシステムの各々の前記相関モデルに含まれる前記相関関係の前記相関破壊の有無を検出し、
    前記複数の期間の各々において、前記検出順序を更新する
    運用管理方法。
  9. 前記検出順序を更新する場合、前記複数のシステムの各々の前記相関破壊の有無の検出結果をもとに、前記検出順序を決定する
    請求項8に記載の運用管理方法。
  10. 前記検出順序を更新する場合、前記検出結果に含まれる前記相関破壊の数をもとに算出される相関破壊度、及び、前記システムの障害時の前記検出結果と入力された前記性能値に対する前記検出結果との類似度の内の少なくとも1つである異常度を用いて、前記検出順序を決定する
    請求項9に記載の運用管理方法。
  11. 前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、当該システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度に比べて大きい値を、当該システムの前記異常度に設定する
    請求項10に記載の運用管理方法。
  12. 前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、当該システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度に前記検出が行われていない前記期間の数に応じて大きくなる係数を乗じた値を、当該システムの前記異常度に設定する
    請求項11に記載の運用管理方法。
  13. 前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、前記検出が行われなかった前記期間の数が他の前記システムより多い複数の前記システムを含むグループを生成し、当該グループに含まれる各々の前記システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度を合算した値を、当該グループに含まれる各々の前記システムの前記異常度に設定する
    請求項11に記載の運用管理方法。
  14. 前記複数の期間の各々において前記検出を行う場合、当該期間に対して入力された前記性能値に加えて、当該期間より前の前記検出が行われなかった期間に対して入力された前記性能値を用いた前記検出を行う
    請求項8乃至13のいずれかに記載の運用管理方法。
  15. コンピュータに、
    複数のシステムの各々について、複数種別の性能値間の相関関係を表す相関モデルを記憶し、
    前記複数のシステムに対する相関破壊の検出順序を記憶し、
    複数の期間の各々において、当該期間に対して入力された前記性能値を用いて、前記検出順序に従って、前記複数のシステムの各々の前記相関モデルに含まれる前記相関関係の前記相関破壊の有無を検出し、
    前記複数の期間の各々において、前記検出順序を更新する
    処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。
  16. 前記検出順序を更新する場合、前記複数のシステムの各々の前記相関破壊の有無の検出結果をもとに、前記検出順序を決定する
    処理を実行させる前記プログラムを格納する、請求項15に記載のコンピュータが読み取り可能な記録媒体。
  17. 前記検出順序を更新する場合、前記検出結果に含まれる前記相関破壊の数をもとに算出される相関破壊度、及び、前記システムの障害時の前記検出結果と入力された前記性能値に対する前記検出結果との類似度の内の少なくとも1つである異常度を用いて、前記検出順序を決定する
    処理を実行させる前記プログラムを格納する、請求項16に記載のコンピュータが読み取り可能な記録媒体。
  18. 前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、当該システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度に比べて大きい値を、当該システムの前記異常度に設定する
    処理を実行させる前記プログラムを格納する、請求項17に記載のコンピュータが読み取り可能な記録媒体。
  19. 前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、当該システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度に前記検出が行われていない前記期間の数に応じて大きくなる係数を乗じた値を、当該システムの前記異常度に設定する
    処理を実行させる前記プログラムを格納する、請求項18に記載のコンピュータが読み取り可能な記録媒体。
  20. 前記複数の期間のいずれかにおいて、当該期間内に前記複数のシステムのいずれかの前記検出が行われなかった場合、前記検出が行われなかった前記期間の数が他の前記システムより多い複数の前記システムを含むグループを生成し、当該グループに含まれる各々の前記システムについて当該期間より前の前記検出が行われた期間に算出された前記異常度を合算した値を、当該グループに含まれる各々の前記システムの前記異常度に設定する
    処理を実行させる前記プログラムを格納する、請求項18に記載のコンピュータが読み取り可能な記録媒体。
  21. 前記複数の期間の各々において前記検出を行う場合、当該期間に対して入力された前記性能値に加えて、当該期間より前の前記検出が行われなかった期間に対して入力された前記性能値を用いた前記検出を行う
    処理を実行させる前記プログラムを格納する、請求項15乃至20のいずれかに記載のコンピュータが読み取り可能な記録媒体。
JP2012547767A 2011-03-23 2012-03-21 運用管理システム、運用管理方法、及びプログラム Active JP5267748B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012547767A JP5267748B2 (ja) 2011-03-23 2012-03-21 運用管理システム、運用管理方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011064603 2011-03-23
JP2011064603 2011-03-23
PCT/JP2012/058033 WO2012128388A1 (ja) 2011-03-23 2012-03-21 運用管理システム、運用管理方法、及びプログラム
JP2012547767A JP5267748B2 (ja) 2011-03-23 2012-03-21 運用管理システム、運用管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP5267748B2 true JP5267748B2 (ja) 2013-08-21
JPWO2012128388A1 JPWO2012128388A1 (ja) 2014-07-24

Family

ID=46879519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012547767A Active JP5267748B2 (ja) 2011-03-23 2012-03-21 運用管理システム、運用管理方法、及びプログラム

Country Status (5)

Country Link
US (2) US9417940B2 (ja)
EP (1) EP2690559B1 (ja)
JP (1) JP5267748B2 (ja)
CN (1) CN103502951B (ja)
WO (1) WO2012128388A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2579156B1 (en) * 2010-06-07 2019-08-28 Nec Corporation Malfunction detection device, obstacle detection method, and program recording medium
CN104769551B (zh) * 2012-11-01 2018-07-03 日本电气株式会社 分布式数据处理***和分布式数据处理方法
EP2958023B1 (en) * 2013-02-18 2022-04-27 Nec Corporation System analysis device and system analysis method
US9804830B2 (en) 2014-12-19 2017-10-31 Signalfx, Inc. Anomaly detection using a data stream processing language for analyzing instrumented software
US10394692B2 (en) 2015-01-29 2019-08-27 Signalfx, Inc. Real-time processing of data streams received from instrumented software
US10599501B2 (en) * 2015-03-17 2020-03-24 Nec Corporation Information processing device, information processing method, and recording medium
JP5875726B1 (ja) * 2015-06-22 2016-03-02 株式会社日立パワーソリューションズ 異常予兆診断装置のプリプロセッサ及びその処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444263B2 (en) 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
US7366666B2 (en) * 2003-10-01 2008-04-29 International Business Machines Corporation Relative delta computations for determining the meaning of language inputs
JP2005326935A (ja) * 2004-05-12 2005-11-24 Hitachi Ltd 仮想化ストレージを備える計算機システムの管理サーバおよび障害回避復旧方法
US7325166B2 (en) 2004-06-23 2008-01-29 Autodesk, Inc. Hierarchical categorization of customer error reports
JP4201027B2 (ja) * 2006-07-10 2008-12-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数の観測結果の間の差異を検出するシステムおよびその方法
ATE515739T1 (de) 2006-08-25 2011-07-15 Accenture Global Services Ltd Visualisierung von daten für diagnose- rechnersysteme
US8127099B2 (en) * 2006-12-26 2012-02-28 International Business Machines Corporation Resource recovery using borrowed blocks of memory
FR2920233B1 (fr) * 2007-08-20 2009-10-30 Airbus France Sas Procede et dispositifs d'evaluation de risques operationnels pour l'aide aux decisions de maintenance de vehicules
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
JP5378847B2 (ja) * 2009-03-26 2013-12-25 株式会社野村総合研究所 監視装置
JP5310434B2 (ja) 2009-09-18 2013-10-09 株式会社島津製作所 ボールネジを用いた送液装置及び分析装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム

Also Published As

Publication number Publication date
US9417940B2 (en) 2016-08-16
CN103502951A (zh) 2014-01-08
US10430268B2 (en) 2019-10-01
WO2012128388A1 (ja) 2012-09-27
EP2690559A1 (en) 2014-01-29
EP2690559A4 (en) 2015-08-12
US20130055037A1 (en) 2013-02-28
EP2690559B1 (en) 2020-08-26
JPWO2012128388A1 (ja) 2014-07-24
CN103502951B (zh) 2016-12-07
US20160321128A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
JP5267748B2 (ja) 運用管理システム、運用管理方法、及びプログラム
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
US9424157B2 (en) Early detection of failing computers
JP5532150B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5621937B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
JP2016095751A (ja) 異常機器特定プログラム、異常機器特定方法、及び、異常機器特定装置
WO2017150286A1 (ja) システム分析装置、システム分析方法、及び、コンピュータ読み取り可能な記録媒体
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
US10157113B2 (en) Information processing device, analysis method, and recording medium
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
JP2013200899A (ja) 運用管理装置および運用管理方法
JP2022165669A (ja) 異常検出装置、異常検出方法、および異常検出プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

R150 Certificate of patent or registration of utility model

Ref document number: 5267748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150