JPWO2016103650A1 - 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体 - Google Patents

運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体 Download PDF

Info

Publication number
JPWO2016103650A1
JPWO2016103650A1 JP2016541727A JP2016541727A JPWO2016103650A1 JP WO2016103650 A1 JPWO2016103650 A1 JP WO2016103650A1 JP 2016541727 A JP2016541727 A JP 2016541727A JP 2016541727 A JP2016541727 A JP 2016541727A JP WO2016103650 A1 JPWO2016103650 A1 JP WO2016103650A1
Authority
JP
Japan
Prior art keywords
performance index
failure
combination
operation management
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016541727A
Other languages
English (en)
Other versions
JP6008070B1 (ja
Inventor
三木 清一
清一 三木
昌尚 棗田
昌尚 棗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of JP6008070B1 publication Critical patent/JP6008070B1/ja
Publication of JPWO2016103650A1 publication Critical patent/JPWO2016103650A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

監視対象システムに関する特定の障害状態が継続的に検出される状況において、実際に障害が発生しているか否かを判定可能とする。運用管理装置は、監視対象システムに関する性能指標の計測値と、相異なる2つの前記性能指標の関係を表す相関モデルとを用いて、相異なる2つの前記性能指標の組み合わせに関する障害を示す障害情報を検出する。運用管理装置は、当該検出された前記障害情報を時系列に保持し、当該障害情報に基づいて、特定の前記組み合わせについて、前記障害情報が継続して検出されたか否かを判定する。運用管理装置は、特定の前記性能指標を含み前記障害情報が検出された上記組み合わせのうち、前記障害情報が継続して検出されたと判定された上記組み合わせに関する情報と、特定の前記性能指標を含む他の上記組み合わせに関する情報とに基づいて、前記性能指標に関する異常の程度を表す異常スコアを算出する。

Description

本発明は監視対象の装置あるいはシステム等において発生する異常を検知可能な運用管理装置、運用管理方法、及び、運用管理用プログラム等に関する。
近年、各種プラントあるいは社会的なインフラストラクチャー等のような、比較的複雑なシステム(あるいは当該システムを構成する構成要素)の重要性が高まるにつれ、これらのシステムを安定的に運用、管理することが求められている。これに伴い、これらのシステムの運用状況や稼働状況を監視し、これらのシステムにおいて発生した異常を検知可能な技術が求められている。
このような、管理対象のシステムにおける異常を検知可能な技術に関して、以下の特許文献が開示されている。
特許文献1(特許第5267684号公報)は、システムの稼働状況を監視する運用管理装置等に関する技術を開示する。特許文献1に開示された装置は、複数の監視対象装置から、複数の性能指標(メトリック)の計測値を取得し、2つの相異なるメトリックについて、その相関モデルを生成する。特許文献1に開示された装置は、相関モデルを用いて算出した、あるメトリックに関する推定値と当該メトリックの実測値とを比較した結果に基づいて、異常項目を検出する。特許文献1に開示された装置は、監視対象装置毎に、2つのメトリックによる組み合わせの総数と検出した異常項目数とを用いて異常スコアを算出し、係る異常スコアが高いメトリックを、異常発生源として特定する。なお、特許文献1に開示された技術は、同一の階層に存在する複数の監視対象装置において共通する異常項目を除外することにより、階層間の異常の波及による影響を排除可能である。
特許文献2(特開2009−199533号公報)は、障害が発生する予兆を検知して、障害発生箇所を特定する運用管理装置等に関する技術を開示する。特許文献2に開示された装置は、複数の監視対象装置から、複数の性能情報(上記メトリックに相当)を取得し、相異なる2つの性能情報の間の相関関数を表す相関モデルを生成する。特許文献2に開示された装置は、当該相関モデルを用いて、新たに検知した性能情報が相関関係を破壊するか否かを判定し、当該判定の結果に基づいて異常スコアを算出することにより、異常の発生を分析する。特許文献2に開示された装置は、定常的に破壊される相関関係が存在する場合には、当該相関関係を表す相関モデルを削除する。
特許文献3(国際公開第2013/027562号)は、システムにおける障害の発生を検知する運用管理装置等に関する技術を開示する。特許文献3に開示された装置は、上記各特許文献と同様、監視対象装置(システム)の性能指標(メトリック)に関する相関モデルを生成し、係る相関関係の異常(状態)を検出する。特許文献3に開示された装置は、検出した相関関係の異常と、当該異常の継続度合いとに基づいて、異常スコアを算出する。特許文献3に開示された技術は、異常スコアが大きい(即ち、異常度が大きいか、あるいは異常の継続度が大きい)性能指標を特定することにより、システムに発生した異常を分析する。
特許文献4(国際公開第2013/136739号)は、システムにおける障害の発生を検知する運用管理装置等に関する技術を開示する。特許文献4に開示された装置は、上記各特許文献と同様、監視対象装置(システム)の性能指標(メトリック)に関する相関モデルを生成し、係る相関関係の異常(状態)を検出する。特許文献4に開示された装置は、システムの構成変更を検知した場合、構成変更後のメトリックの測定値に基づいて、相関モデルを再生成し、変更された構成に合せて、相関関係の破壊を検出するパターンを変更する。これにより、特許文献4に開示された技術は、監視対象装置(システム)に構成変更が発生した場合においても、当該システムにおいて発生する障害を適切に分析可能である。
特許第5267684号公報 特開2009−199533号公報 国際公開第2013/027562号 国際公開第2013/136739号
運用管理装置が、監視対象装置(あるいはシステム)から取得した性能指標(あるいはその組み合わせ)を用いて、当該監視対象装置における異常の発生を検知する場合を想定する。この場合、特定の性能指標(あるいはその組み合わせ)について、継続的に(あるいは定常的に)に異常状態が検知される可能性が有る。例えば、特定の性能指標に関する相関モデルを作成した際のシステムの状況(状態)と、係る相関モデルを適用する際のシステムの状況(状態)とが異なる場合、係るシステムの状況が正常であっても、継続的に異常状態が検知される可能性が有る。
このような状況においても、運用管理装置は、例えば、監視対象装置が正常状態から異常状態に変化した場合に、当該監視対象装置において実際に異常が発生しているか否かを判定可能であることが望ましい。また、運用管理装置は、このような状況においても、異常箇所を特定可能であることが望ましい。
これに対して、上記特許文献1に開示された技術は、特定の時点における特定の性能指標(あるいはその組み合わせ)に関する異常スコアを算出するのみである。即ち、上記特許文献1に開示された技術は、異常が発生している性能指標に関する時間変化を考慮しない。このことから、特許文献1に開示された技術は、特定の性能指標(あるいはその組み合わせ)が、定常的に異常状態を示す場合に、係る性能指標に関する異常が実際に発生しているか否かを正しく判定できない可能性が有る。
また、上記特許文献2に開示された技術は、定常的な異常状態が検出された場合(上記特許文献2においては、相関関係が定常的に破壊されている場合)、係る相関関係に関する相関モデルを削除する。このことから、特許文献2に開示された技術は、削除した相関モデルに関する性能指標に関して真に異常が発生している場合、係る異常を検知できない可能性がある。
また、上記特許文献3に開示された技術は、異常スコアを算出する際、ある性能指標に関して検知された異常の継続度に着目する。しかしながら、特許文献3に開示された技術は、ある性能指標が継続的に異常を表す場合に、当該性能指標に実際に異常が生じているかによらず、異常スコアが大きいと判定してしまう可能性がある。
なお、特許文献4に開示された技術は、監視対象装置の構成変更に応じて、異常検出に用いる相関モデル等を変更する技術である。よって、係る技術を、継続的に検出される異常状態の分析に対して適用することは困難である。
本発明は、上記のような事情を鑑みてなされたものである。即ち、本発明は、監視対象システムに関する特定の異常(障害)状態が継続的に検出される状況において、実際に異常(障害)が発生しているか否かを判定可能な情報を提供する運用管理装置等を提供することを主たる目的とする。
上記の目的を達成すべく、本発明の一態様に係る運用管理装置は、以下の構成を備える。即ち、本発明の一態様に係る運用管理装置は、監視対象システムに関する性能指標の計測値を1以上取得し、相異なる2つの上記性能指標の関係を表す相関モデルを用いることにより、上記取得した計測値に基づいて、相異なる2つの上記性能指標の組み合わせに関する障害を示す障害情報を検出する障害検出部と、当該検出された上記障害情報を時系列に保持する障害情報蓄積部と、上記障害情報蓄積部に保持された上記障害情報に基づいて、特定の上記性能指標を含む上記組み合わせについて、上記障害情報が継続して検出されたか否かを判定し、特定の上記性能指標を含み上記障害情報が検出された上記組み合わせである1以上の第1の組み合わせのうち、上記障害情報が継続して検出されたと判定された上記組み合わせである1以上の第2の組み合わせに関する情報と、特定の上記性能指標を含む他の上記組み合わせに関する情報とに基づいて、上記性能指標に関する異常の程度を表す異常スコアを算出する異常スコア計算部と、を備える。
また、本発明の一態様に係る運用管理方法は、以下の構成を備える。即ち、本発明の一態様に係る運用管理方法は、情報処理装置が、監視対象システムに関する性能指標の計測値を1以上取得し、相異なる2つの上記性能指標の関係を表す相関モデルを用いることにより、上記取得した計測値に基づいて、相異なる2つの上記性能指標の組み合わせに関する障害を示す障害情報を検出し、当該検出された上記障害情報を時系列に保持し、当該保持された上記障害情報に基づいて、特定の上記性能指標を含む上記組み合わせについて、上記障害情報が継続して検出されたか否かを判定し、特定の上記性能指標を含み、上記障害情報が検出された上記組み合わせである1以上の第1の組み合わせのうち、上記障害情報が継続して検出されたと判定された上記組み合わせである1以上の第2の組み合わせに関する情報と、特定の上記性能指標を含む他の上記組み合わせに関する情報とに基づいて、上記性能指標に関する異常の程度を表す異常スコアを算出する。
また、同目的は、上記構成を有する運用管理装置、並びに対応する運用管理方法を、コンピュータによって実現するコンピュータ・プログラム、及び、そのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記録媒体等によっても達成される。
本発明によれば、監視対象システムに関する特定の異常(障害)状態が継続的に検出される状況において、実際に異常(障害)が発生しているか否かを判定可能な情報を提供することができる。
図1は、本発明の第1の実施形態における運用管理装置の機能的な構成を例示するブロック図である。 図2は、本発明の第1の実施形態における運用管理装置の動作を例示するフローチャートである。 図3は、本発明の第1の実施形態における障害情報の具体例を例示する図である。 図4は、本発明の第1の実施形態の変形例における運用管理装置の機能的な構成を例示するブロック図である。 図5は、本発明の第1の実施形態の変形例におけるユーザ・インタフェースの一つの具体例を示す図である。 図6は、本発明の第1の実施形態の変形例におけるユーザ・インタフェースの他の具体例を示す図である。 図7は、本発明の第2の実施形態における運用管理装置の機能的な構成を例示するブロック図である。 図8は、本発明の第3の実施形態における運用管理装置の機能的な構成を例示するブロック図である。 図9は、本発明の各実施形態に係る運用管理装置を実現可能なハードウェアの構成を例示する図である。
次に、本発明を実施する形態について図面を参照して詳細に説明する。以下の各実施形態に記載されている構成は単なる例示であり、本発明の技術範囲はそれらには限定されない。
以下の各実施形態において説明される運用管理装置は、専用のハードウェア装置、あるいは、専用のハードウェア装置の組み合わせにより構成されたシステムとして実現されてもよい。また、係る運用管理装置は、1以上の物理的な情報処理装置又は仮想的な情報処理装置又はそれらの組み合わせにより構成されるシステムとして実現されてもよい。係る運用管理装置を実現する情報処理装置のハードウェア構成例(図9)については後述する。
複数の物理的あるいは論理的に離間した各種ハードウェア装置あるいは情報処理装置を用いて運用管理装置を実現する場合、それらの構成要素は、無線、有線、あるいはそれらの組み合わせによる通信ネットワークを用いて、相互に通信可能に接続されていてもよい。なお、運用管理装置が、仮想的な情報処理装置を用いて実現される場合、上記通信ネットワークは、仮想的な通信ネットワークとして構成されてもよい。
なお、以下の説明において、下記各実施形態における運用管理装置が障害(異常)の発生を検知する対象を、まとめて「監視対象装置」と称する。係る監視対象装置は、単一の装置であってもよく、複数の装置の組み合わせとして構成されたシステム(監視対象システム)であってもよい。
<第1の実施形態>
以下、本発明の第1の実施形態について説明する。
[構成の説明]
まず、本発明の第1の実施形態における運用管理装置の構成について、図1を参照して説明する。図1は、本実施形態における運用管理装置100の機能的な構成を例示するブロック図である。
図1を参照すると、本発明の第1の実施形態における運用管理装置100は、性能情報蓄積部101と、相関モデル記憶部102と、障害検出部103と、障害情報蓄積部104と、異常スコア計算部105とを備える。
係る運用管理装置100は、例えば、CPU(中央処理装置:Central Processing Unit)を有する、各種情報処理装置を用いて実現されてもよい。係る運用管理装置100を実現可能なハードウェア構成については、後述する。
図1に例示する構成においては、運用管理装置100は、各構成要素(性能情報蓄積部101、相関モデル記憶部102、障害検出部103、障害情報蓄積部104、及び、異常スコア計算部105)を含む、単一の装置として構成される。本発明はこれには限定されず、運用管理装置100を構成する構成要素は、物理的あるいは論理的に離間した複数の物理的な装置、あるいは、仮想的な装置を用いてそれぞれ個別に実現されてもよい。
以下、運用管理装置100を構成する構成要素について説明する。
性能情報蓄積部101は、例えば、各種センサ等から得られた、監視対象装置に関する性能指標(メトリック)の値(計測値あるいは実測値)を保持する。係るセンサは、監視対象装置の内部に設けられてもよい。また、係るセンサは、監視対象装置の外部から、当該監視対象装置に関する各種情報を取得してもよい。係るセンサは、例えば、監視対象装置の温度、負荷状態、単位時間当たりの処理能力、メモリの残容量等に関する情報等、適切な情報を性能指標(メトリック)として計測することができる。
性能情報蓄積部101は、例えば、ある性能指標の値と、当該性能指標が計測された時刻とを関連付けて時系列データとして保持してもよい。
性能情報蓄積部101は、後述する障害検出部103に対して、所定の時刻におけるメトリック、あるいは、当該メトリックに関する時系列データを提供可能である。
相関モデル記憶部102は、相関モデルを記憶する。相関モデル記憶部102は、障害検出部103、及び、異常スコア計算部105に対して、係る相関モデルを提供可能である。
相関モデルは、様々な組み合わせの2つの性能指標(メトリック)の間の関係を表現したモデルである。運用管理装置100(特には、後述する障害検出部103)は、相関モデルを用いることにより、一方のメトリックの値から、他方のメトリックの値を推定(算出)することができる。より具体的には、係る相関モデルは、例えば、2つのメトリックの間の相関関係を表す変換関数を用いて実現可能である。この場合、係る変換関数を用いて、2つのメトリックのうち、一方のメトリックの値(計測値)から、他方のメトリックの値に関する推定値が算出される。係る相関モデルは、例えば、特開2009−199533号公報に記載された技術を用いて生成することができる。本実施形態における相関モデルは、2つのメトリックの組み合わせと、当該組み合わせに含まれる2つのメトリックの関係を表す情報(例えば上記相関関数等)とを、複数含んでもよい。なお、以下において、2つのメトリックの組み合わせを単に「メトリックの組み合わせ」と称する場合がある。係る相関モデルは、相関モデル記憶部102に対して、予め与えられてもよい。
障害検出部103は、所定の時刻において収集された性能指標(メトリック)の値(実測値)を性能情報蓄積部101から読み出す。具体的には、障害検出部103は、性能情報蓄積部101から提供されるメトリックの値を取得してもよく、性能情報蓄積部101に蓄積されたメトリックの値を参照してもよい。また、障害検出部103は、相関モデル記憶部102から相関モデルを読み出す。具体的には、障害検出部103は、相関モデル記憶部102から提供される相関モデルを取得してもよく、相関モデル記憶部102に蓄積された相関モデルを参照してもよい。
障害検出部103は、上記性能情報蓄積部101から読み出した性能指標(メトリック)の値(実測値)を用いて、上記相関モデルに含まれる2つのメトリックの組み合わせに関する障害情報を検出する。係る障害情報は、メトリックの組み合わせに関して、障害(異常)が発生したか否かを判定可能な情報である。
具体的には、障害検出部103は、2つのメトリックの組み合わせのうち、一方のメトリック(第1のメトリック(第1の性能指標))の値(実測値)を用いて、他方のメトリック(第2のメトリック(第2の性能指標))の推定値を算出する。そして、障害検出部103は、第2のメトリックに関する推定値と、上記性能情報蓄積部101から読み出した当該第2のメトリックに関する実測値との差分を算出する。なお、障害検出部103は、第2のメトリックに関する推定値と、上記性能情報蓄積部101から読み出した当該第2のメトリックに関する実測値との差分に比例するような値を算出してもよい。係る差分に比例する値は、上記算出した差分に対して適宜加工(演算等)を施すことにより算出されてもよい。以下において、上記説明した差分、及び、差分に比例するような値をまとめて、「差分等」と称する。
障害検出部103は、算出した差分等が所定値(基準値)を超える場合に、このメトリックの組み合わせに関する障害情報を検出する。この場合、障害検出部103は、このメトリックの組み合わせに含まれる各メトリック(性能指標)について、障害情報を検出してもよい。
障害情報蓄積部104は、障害検出部103が検出する障害情報を保持する。障害情報蓄積部104は、係る障害情報と、係る障害情報が記録された時刻とを関連付けて、時系列データとして保持してもよい。具体的には、障害情報蓄積部104は、相関モデルに含まれる、1以上の2つのメトリックの組み合わせについて、それぞれ、各時刻において障害が検出されたか否か(実測値と推測値との間の差分等が所定値以上かどうか)を記録(保持)してもよい。障害情報蓄積部104は、例えば、図3に例示するような形式により、係る障害情報の時系列データを保持してもよい。なお、障害情報蓄積部104は、図3に例示する形式に限定されず、他の適切な形式により障害情報(あるいは障害情報の時系列データ)を保持してよい。
異常スコア計算部105は、障害が検知された2つのメトリックの組み合わせに含まれる、それぞれのメトリックごとに、当該メトリックに関する異常の程度を表す異常スコアを算出する。係る異常スコアは、当該メトリックの実測値が取得された監視対象装置において発生した可能性がある障害(異常)の程度を表す。
異常スコア計算部105は、障害検出部103から障害情報を受け付ける。異常スコア計算部105は、障害が検知された2つのメトリックの組み合わせ(第1の組み合わせ)に基づいて、それぞれのメトリック毎に、障害(異常)が検知された数を計数(カウント)する。この場合、異常スコア計算部105は、障害(異常)が検知された数に比例する数を計数してもよい。上記障害(異常)が検知された数に比例する数は、障害(異常)が検知された数を加工(演算等)することにより算出されてもよい。以下、上記障害(異常)が検知された数と、上記障害(異常)が検知された数に比例する数とを、まとめて「検知異常数」と称する。
異常スコア計算部105は、例えば、障害が検知された2つのメトリックの組み合わせについて、それぞれのメトリック毎に障害が検知された回数に比例するように検知異常数をカウントしてもよい。異常スコア計算部105は、例えば、単純に検出回数を検知異常数としてもよい。例えば、あるメトリック1とメトリック2との組み合わせ、及び、メトリック1とメトリック3との組み合わせにおいて障害が検知された場合を仮定する。メトリック1乃至メトリック3は、それぞれ任意の監視対象措置等に関する性能指標(メトリック)であってよい。この場合、異常スコア計算部105は、例えば、メトリック1の検知異常数を「2」、メトリック2とメトリック3との検知異常数をそれぞれ「1」として計数(算出)する。上記に限定されず、異常スコア計算部105は、例えば、検出された異常の度合(相関モデルからの外れ度合)に基づいて検知異常数を算出してもよい。また、異常スコア計算部105は、例えば、対数など、検出回数が増えるにつれ検知異常数の増加が鈍化するような算出方法を用いて、検知異常数を算出してもよい。
本実施形態における異常スコア計算部105は、検知異常数を算出する際、障害情報蓄積部104が保持する障害情報の時系列データを参照する。そして、異常スコア計算部105は、障害情報の時系列データに基づいて、ある2つのメトリックの組み合わせについて、継続的に障害が検知されているか否かを判定する。異常スコア計算部105は、継続的に障害が検知されていると判定した2つのメトリックの組み合わせ(第2の組み合わせ)を、検知異常数のカウントから除外するよう処理する。即ち、異常スコア計算部105は、障害が検知されたメトリックの組み合わせ(第1の組み合わせ)から、継続的に障害が検知されたメトリックの組み合わせ(第2の組み合わせ)を除外して、検知異常数を取得(算出)する。これにより、異常スコア計算部105は、正常状態から異常状態へのシステムの変化を鋭敏に検知可能な、障害(異常)検知処理を実現することができる。
具体的には、異常スコア計算部105は、例えば、特定の時点からの過去「n」時点(時系列データの中の「n」回の計測時点)の中で、障害として検知された回数「m」から、異常検出率(broken ratio)を、以下の計算式を用いて算出してもよい。なお、下式(1)において、記号”/”は、除算を表す記号である。
異常検出率(broken ratio)=m/n (式1)
異常スコア計算部105は、ある2つのメトリックの組み合わせに関する上記異常検出率が所定の基準値を超える場合に、その2つのメトリックの組み合わせを、検知異常数にカウントしないよう処理してもよい。即ち、この場合、異常スコア計算部105は、過去「n」時点において検知した障害の比率(割合)に基づいて、当該障害が継続しているか否かを判定する。
異常スコア計算部105は、上記に限らず、検知した障害の時間的な連続性を考慮してもよい。障害の時間的な連続性は、例えば、特定のメトリックの組み合わせに関して検知された障害が、どの程度連続しているかを表す。具体的には、異常スコア計算部105は、特定の時点からの過去「n」時点のうち、(障害検知総数でなく、)時間的に当該特定の時点に一番直近の連続する障害検知の数を「p」として、異常検出率を以下の計算式を用いて算出してもよい。
異常検出率(broken ratio)=p/n (式2)
異常スコア計算部105は、上記に限らず、特定の時点からの過去「n」時点(第1の期間)の内、当該「n」時点の間に含まれる適当な期間(第2の期間)において連続して検知された障害検知数を「p」としてもよい。
異常スコア計算部105は、更に、相関モデル記憶部102から相関モデルを受け付ける。そして、異常スコア計算部105は、それぞれのメトリック毎に、そのメトリックを含む、上記相関モデルに含まれる2つのメトリックの組み合わせの総数を、相関モデル数として取得(算出)する。例えば、具体例として相関モデルにメトリック1とメトリック2の組み合わせ、及び、メトリック1とメトリック3の組み合わせ、及び、メトリック1とメトリック4の組み合わせが含まれる場合を仮定する。この場合、異常スコア計算部105は、メトリック1に関する相関モデル数を「3」と算出する。即ち、相関モデル数は、特定のメトリックを含む、2以上のメトリックの組み合わせの総数を表す。
異常スコア計算部105は、上記相関モデル数に占める上記検知異常数の割合を異常スコアとして算出する。例えば、相関モデル数が「20」、検知異常数が「7」の場合、異常スコア計算部105は、異常スコアを「0.35」と算出する。
運用管理装置100を構成するこれらの構成要素は、監視対象装置の状態の時間変化を考慮して、当該監視対象装置における異常を検知するように機能する。これにより、運用管理装置100は、特定の性能指標(メトリック)の組み合わせについて、実際に異常が生じているか否かに関わらず定常的に異常状態が検知されるような場合でも、監視対象装置の異常を検知可能である。即ち、運用管理装置100は、特定の性能指標(メトリック)の組み合わせに関する検知結果が示す状態が正常状態から異常状態に変化した場合に、監視対象装置における障害(異常)の発生を検知可能である。また、運用管理装置100は、係る障害(異常)の発生箇所を適切に特定可能である。
[動作の説明]
次に、本実施形態における運用管理装置100の動作について、図2を参照して詳細に説明する。図2は、本実施形態における運用管理装置100の動作を例示するフローチャートである。なお、以下においては、運用管理装置100における主たる構成である、異常スコア計算部105の動作(特には、検知異常数を算出する処理)を中心に説明する。
先ず、異常スコア計算部105は、監視対象装置に関する全てのメトリックについて、それぞれステップS202乃至ステップS211の処理を繰り返す(ステップS201乃至S212)。異常スコア計算部105は、例えば、性能情報蓄積部101に蓄積されたメトリックを参照することにより、監視対象装置に関する全てのメトリックをそれぞれ参照してもよい。また、監視対象装置に関する全てのメトリックに関する情報が、予め異常スコア計算部105に設定されてもよい。
次に、異常スコア計算部105は、上記監視対象装置に関する全てのメトリックのうち、ある特定のメトリックを選択する。そして、異常スコア計算部105は、当該選択したメトリックの検知異常数を「0(ゼロ)」にリセット(初期化)する(ステップS202)。
次に、異常スコア計算部105は、相関モデル記憶部102から相関モデルを読み込む(ステップS203)。
異常スコア計算部105は、上記相関モデルに含まれる2つのメトリックの組み合わせの内、ステップS202において選択されたメトリックを含む全ての組み合わせについて、ステップS205乃至ステップS210の処理を繰り返す(ステップS204乃至ステップS211)。
異常スコア計算部105は、ステップS202において選択されたメトリックを含む、ある2つのメトリックの組み合わせを選択する。そして、異常スコア計算部105は、障害検出部103から提供された情報を用いて、当該選択したメトリックの組み合わせに関する障害が検知されたか否かを確認する(ステップS205)。なお、異常スコア計算部105は、障害情報蓄積部104に蓄積された障害情報を参照することにより、上記選択したメトリックの組み合わせに関する障害が検知されたか否かを確認してもよい。
係る確認の結果、ステップS205において選択した2つのメトリックの組み合わせに関する障害が検知された場合(ステップS206においてYES)、異常スコア計算部105は、ステップS207以下の処理を実行する。即ち、異常スコア計算部105は、障害情報蓄積部104から当該2つのメトリックの組み合わせに関する障害情報を読み込む(ステップS207)。
次に、異常スコア計算部105は、当該読み込んだ障害情報に基づいて、上記選択したメトリックの組み合わせに関する障害が継続的に検知されているか否かを判定する(ステップS208)。具体的には、異常スコア計算部105は、例えば、上記(式1)を用いて、過去「n」時点中の障害検知数「m」から異常検出率を算出する。そして、異常スコア計算部105は、異常検出率が所定の閾値(基準値)以下か否か判定する。上記算出した異常検出率が、所定の閾値以下の場合、異常スコア計算部105は、上記選択したメトリックの組み合わせに関する障害が継続していないと判定する。
ステップS208における処理の結果、上記選択したメトリックの組み合わせに関する障害が継続していないと判定された場合(ステップS209においてNO)、異常スコア計算部105は、当該メトリックに関する検知異常数を更新する(ステップS210)。この場合、異常スコア計算部105は当該メトリックに関する検知異常数を「1」増やしてよい。
なお、ステップS206においてNOの場合、及び、ステップS209においてYESの場合、異常スコア計算部105は、ステップS204に戻って処理を繰り返す(図2の繰り返し処理2)。
異常スコア計算部105は、あるメトリックを含む2つのメトリックの組み合わせ全てについて、ステップS205乃至ステップS210の処理を繰り返し(図2の繰り返し処理1)、当該メトリックに関する検知異常数を算出する(ステップS211)。その後、異常スコア計算部105は、ステップS201に戻って、次のメトリックに関する処理を実行する(ステップS212)。
[効果の説明]
次に、本実施形態における運用管理装置100が奏する効果について説明する。本実施形態における運用管理装置100は、異常スコア計算部105において異常スコアを計算する際、障害情報蓄積部104を参照することにより、障害が継続しているかどうかを考慮する。即ち、本実施形態における運用管理装置100は、監視対象装置の状態の時間変化を考慮して、当該監視対象装置に関する異常を検知するように構成されている。
これにより、運用管理装置100は、特定の性能指標(メトリック)の組み合わせに関して、実際に異常が生じているかどうかに関わらず定常的に異常状態が検知される場合であっても、監視対象装置の異常を検知可能である。より具体的には、運用管理装置100は、特定の性能指標(メトリック)の組み合わせに関して検知される状態が正常状態から異常状態に変化した場合に、監視対象装置における異常の発生を検知し、かつその異常箇所を適切に特定可能である。以上より、本実施形態における運用管理装置100によれば、監視対象システムに関する特定の異常(障害)状態が継続的に検出される状況において、監視対象システムにおいて実際に異常(障害)が発生しているか否かを判定可能な情報を提供可能である。
上記説明した本実施形態に係る運用管理装置100は、例えば、相関モデルの生成時と、実際の運用時とにおいて、監視対象装置に関する条件が異なる場合にも有効である。例えば、相関モデルが、監視対象装置の定常状態におけるデータを用いて生成される場合を仮定する。このように生成された相関モデルが、監視対象装置の立ち上げ時や停止時に適用されると、相関モデル生成時と適用時の状態の差異を異常(障害)と誤検知してしまうことがある。例えば、あるメトリックの実測値が、監視対象装置の立ち上げ状態や停止状態の際には正常な値であったとしても、定常状態において生成された相関モデルから出力される推定値とは乖離する場合がある。このような誤検知による異常状態は継続的に検知されることがあるが、本実施形態における運用管理装置100を用いることにより、その影響を適切に除外することができる。また、相関モデルの生成時と適用時とにおいてデータ収集機構が異なる(例えばセンサデバイスを変えた場合や、センサデータに変換を施した場合等)場合にも、本実施形態における運用管理装置は有効である。
<第1の実施形態の変形例>
次に、上記説明した第1の実施形態の変形例について、図4を参照して説明する。図4は、本変形例における運用管理装置400の機能的な構成を例示するブロック図である。なお、以下の説明において、上記第1の実施形態と同様の構成については、同様の参照符号を付すことにより、詳細な説明は省略する。
本変形例における運用管理装置400は、上記第1の実施形態における運用管理装置100と同様の構成要素に加えて、更に提示部406を備える。運用管理装置400において、提示部406以外の他の構成は、上記第1の実施形態と同様としてよいので、詳細な説明を省略する。
提示部406は、異常スコア計算部105において算出された異常スコア等を、運用管理装置400のユーザに対して提示する。より具体的には、提示部406は、特定のメトリック(あるいはその組み合わせ)及び当該メトリックに関する異常スコアを表示するよう、各種表示装置を制御する。表示装置は、例えば、液晶パネルやプロジェクタ等、ユーザに対して各種情報を表示する機能を有する装置であってよい。なお、図4に例示する構成においては、運用管理装置400の外部に表示装置が設けられているが、本変形例はこれには限定されない。係る表示装置は、運用管理装置400の一部として設けられてもよく、運用管理装置400とは別に設けられてもよい。
提示部406は、例えば、図5あるいは図6に示すようなユーザ・インタフェースを生成し、係るユーザ・インタフェースを表示するように、表示装置を制御してもよい。図5及び図6に例示するユーザ・インタフェースにおいては、監視対象装置における監視対象要素(メトリック)と、異常スコアとが、関連付けて表示されている。
提示部406は、異常スコアを特定の基準に沿って並べ替えて表示するユーザ・インタフェースを生成し、係るユーザ・インタフェースを表示するように、表示装置を制御可能である。具体的には、提示部406は、例えば、異常スコアを、降順(あるいは昇順)で並べ替えたランキング形式で表示するユーザインタフェースを生成してもよい。例えば、提示部406が、ある監視対象装置に関するメトリックに対して算出された異常スコアを、その値が大きい順にランキング形式でユーザに提示する場合、ユーザは、障害が生じている可能性が高い監視対象装置を知ることができる。
提示部406は、例えば、上記説明した異常検出率を考慮することにより継続的な障害の影響が除去された異常スコア(第1の異常スコア)と、異常検出率を考慮せずに算出された異常スコア(第2の異常スコア)と、を共に表示可能なユーザ・インタフェースを生成してもよい(図5)。図5に例示するユーザインタフェースにおいては、符号501により示される領域に、第1の異常スコアに関する情報が表示され、符号502により示される領域に、第2の異常スコアに関する情報が表示される。
また、提示部406は、ユーザが第1の異常スコアと、第2の異常スコアとを切り替えて表示可能なユーザ・インタフェースを生成してもよい(図6)。図6に提示するユーザ・インタフェースにおいては、例えば、ユーザが「切り替え」ボタンを押下することにより、第1の異常スコアと、第2の異常スコアとが切り替えられて表示される。この場合、ユーザは、例えば、相関モデルの生成時と適用時の条件が類似している場合には第1の異常スコアを表示するよう、ユーザ・インタフェースを操作可能である。
上記のように構成された本変形例における運用管理装置400は、特定の基準に沿って並べ替えた異常スコアを、ユーザに対して提示可能である。これより、本変形例における運用管理装置400によれば、ユーザは、例えば、異常スコアが大きい(障害が生じている可能性が高い)監視対象装置を知ることが可能である。また、ユーザは、例えば、異常スコアが小さい(安定して稼働している可能性が高い)監視対象装置を知ることも可能である。これにより、ユーザは、例えば、異常スコアが大きい監視対象装置を優先して各種管理作業を実行可能である。
また、上記のように構成された本変形例による運用管理装置400は、ユーザに対して、第1の異常スコアと、第2の異常スコアとを提示可能である。これにより、本変形例における運用管理装置400によれば、ユーザは、状況に応じて(運用管理装置400により監視対象装置を監視する場面に応じて)、参照する異常スコアを切り替えることが可能である。
以上より、本変形例における運用管理装置400は、ユーザによる監視対象装置に関する各種管理作業を効率化可能である。また、本変形例における運用管理装置400は、上記第1の実施形態における運用管理装置100と同様の構成を備えることから、上記第1の実施形態における運用管理装置100と同様の効果を奏する。
<第2の実施形態>
次に、本発明の第2の実施形態について、図7を参照して説明する。図7は、第2の実施形態における運用管理装置700の機能的な構成を例示するブロック図である。
図7に例示するように、本実施形態における運用管理装置700は、障害検出部701と、障害情報蓄積部702と、異常スコア計算部703とを備える。これらの構成要素は、適切な通信方法を用いて相互に通信可能に接続されていてもよい。以下、それぞれの構成要素について説明する。
障害検出部701(障害検出手段)は、監視対象システム(不図示)に関する性能指標(メトリック)の計測値を1以上取得する。監視対象システムは、1以上の監視対象装置から構成されてもよい。障害検出部701は、監視対象システムを構成する監視対象装置に関する性能指標(メトリック)の計測値を取得してもよい。障害検出部701は、相異なる2つの上記性能指標の関係を表す相関モデルを用いることにより、取得した計測値に基づいて、相異なる2つの性能指標に関する障害情報を検出する。係る障害検出部701は、例えば、上記各実施形態における障害検出部103と同様としてもよい。
障害情報蓄積部702(障害情報蓄積手段)は、上記障害検出部701において検出された障害に関する情報を時系列に保持する。障害情報蓄積部702は、例えば、ある性能指標(メトリック)の組み合わせに関する障害情報と、当該障害情報が検出された時刻とを関連付けて、時系列データとして保持してもよい。係る障害情報蓄積部702は、例えば、上記各実施形態における障害情報蓄積部104と同様としてもよい。
異常スコア計算部703(異常スコア計算手段)は、障害情報蓄積部702に保持された障害に関する情報に基づいて、相異なる2つの性能指標の組み合わせのうち、特定の性能指標を含む組み合わせについて、障害情報が継続して検出されたか否かを判定する。
異常スコア計算部703は、上記性能指標に関する異常の程度を表す、異常スコアを算出する。具体的には、異常スコア計算部703は、例えば、特定の性能指標を含み、障害情報が検出された1以上の上記組み合わせ(第1の組み合わせ)のうち、障害情報が継続して検出されたと判定された1以上の上記組み合わせ(第2の組み合わせ)に関する情報を取得する。また、異常スコア計算部703は、特定の性能指標を含む他の上記組み合わせに関する情報を取得する。そして、異常スコア計算部703は、上記取得した情報に基づいて、異常スコアを算出する。上記組み合わせに関する情報は、例えば、当該組み合わせの数に関する情報であってもよい。係る異常スコア計算部703は、例えば、上記各実施形態における異常スコア計算部105と同様としてもよい。
上記のように構成された本実施形態における運用管理装置700は、異常スコア計算部703において異常スコアを計算する際、障害情報蓄積部702を参照して障害が継続しているかどうかを考慮する。即ち、本実施形態における運用管理装置700は、監視対象システムの状態の時間変化を考慮して、当該監視対象システムに関する異常を検知するように構成されている。
これより、運用管理装置700は、特定の性能指標(メトリック)の組み合わせに関して、実際に異常が生じているかどうかに関わらず定常的に異常状態が検知される場合であっても、監視対象システムの異常を検知可能である。より具体的には、運用管理装置700は、特定の性能指標(メトリック)の組み合わせに関して検知される状態が正常状態から異常状態に変化した場合に、監視対象システムにおける異常の発生を検知し、かつその異常箇所を適切に特定可能である。以上より、本実施形態における運用管理装置700によれば、監視対象システムに関する特定の異常(障害)状態が継続的に検出される状況において、監視対象システムにおいて実際に異常(障害)が発生しているか否かを判定可能な情報を提供可能である。
<第3の実施形態>
次に、本発明の第2の実施形態について、図8を参照して説明する。図8は、第2の実施形態における運用管理システム800の機能的な構成を例示するブロック図である。
図8に例示するように、本実施形態における運用管理システム800は、障害検出装置801と、障害情報蓄積装置802と、異常スコア計算装置803とを備える。これらの構成要素は、適切な通信方法を用いて相互に通信可能に接続されていてもよい。このような運用管理システム800は、例えば、上記第2の実施形態における運用管理装置700の各構成要素を単体の情報処理装置(コンピュータ等)により実現し、それらを相互に接続したシステムとして実現され得る。
即ち、障害検出装置801は、例えば、上記各実施形態における障害検出部103、あるいは、障害検出部701の機能を実現可能な、コンピュータ等の任意の情報処理装置である。
また、障害情報蓄積装置802は、上記各実施形態における障害情報蓄積部104、あるいは、障害情報蓄積部702の機能を実現可能な、コンピュータ等の任意の情報処理装置である。
また、異常スコア計算装置803は、例えば、上記各実施形態における異常スコア計算部105、あるいは、異常スコア計算部703の機能を実現可能な、コンピュータ等の任意の情報処理装置である。
上記のように構成された本実施形態における運用管理システム800は、上記各実施形態と同様、異常スコア計算装置803において異常スコアを計算する際、障害情報蓄積装置802を参照して障害が継続しているかどうかを考慮する。即ち、本実施形態における運用管理システム800は、監視対象システムの状態の時間変化を考慮して、当該監視対象システムに関する異常を検知するように構成されている。
これより、運用管理システム800は、特定の性能指標(メトリック)の組み合わせに関して、実際に異常が生じているかどうかに関わらず定常的に異常状態が検知される場合であっても、監視対象システムの異常を検知可能である。より具体的には、運用管理システム800は、特定の性能指標(メトリック)の組み合わせに関して検知される状態が正常状態から異常状態に変化した場合に、監視対象システムにおける異常の発生を検知し、かつその異常箇所を適切に特定可能である。以上より、本実施形態における運用管理システム800によれば、監視対象システムに関する特定の異常(障害)状態が継続的に検出される状況において、監視対象システムにおいて実際に異常(障害)が発生しているか否かを判定可能な情報を提供可能である。
なお、上記説明においては、障害検出装置801と、障害情報蓄積装置802と、異常スコア計算装置803とがそれぞれ単体の情報処理装置により構成されるが、本実施形態はこれには限定されない。即ち、運用管理システム800を構成するこれらの構成要素のうち、2以上の構成要素が、同一の情報処理装置により実現されてもよい。係る情報処理装置は、物理的なコンピュータ等の情報処理装置であってもよく、今日では一般的な仮想化技術を用いて実現された、仮想的な情報処理装置であってもよい。なお、係る情報処理装置は、図9に例示するハードウェア構成により実現可能である。
<ハードウェア及びソフトウェア・プログラム(コンピュータ・プログラム)の構成>
以下、上記説明した各実施形態を実現可能なハードウェア構成について説明する。
以下の説明において、上記各実施形態において説明した運用管理装置(100、700)をまとめて、単に「運用管理装置」と称する。また運用管理装置の構成要素(性能情報蓄積部101、相関モデル記憶部102、障害検出部(103、701)、障害情報蓄積部(104、702)、異常スコア計算部(105、703)、提示部406)を、単に「運用管理装置の構成要素」と称する。
上記各実施形態において説明した運用管理装置は、専用のハードウェア装置により構成してもよい。その場合、上記各図に示した各構成要素は、一部又は全部を統合したハードウェア(処理ロジックを実装した集積回路等)として実現してもよい。
例えば、各構成要素をハードウェアにより実現する場合、各構成要素は、それぞれの機能を提供可能な集積回路をSoC(System on a Chip)等により実装されてもよい。この場合、例えば、各構成要素が保持するデータは、SoCとして統合されたRAM(Random Access Memory)領域やフラッシュメモリ領域に記憶されてもよい。
また、この場合、各構成要素を接続する通信回線としては、周知の通信バスを採用してもよい。また、各構成要素を接続する通信回線はバス接続に限らず、それぞれの構成要素の間はピアツーピアで接続されてもよい。
また、上述した運用管理装置は、図9に例示するような汎用のハードウェアと、係るハードウェアによって実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって構成されてもよい。
図9における演算装置901は、汎用のCPU(中央処理装置:Central Processing Unit)やマイクロプロセッサ等の演算処理装置である。演算装置901は、例えば後述する不揮発性記憶装置903に記憶された各種ソフトウェア・プログラムを記憶装置902に読み出し、係るソフトウェア・プログラムに従って処理を実行してもよい。例えば、上記各実施形態における運用管理装置の構成要素は、演算装置901により実行されるソフトウェア・プログラムとして実現可能である。
記憶装置902は、演算装置901から参照可能な、RAM等のメモリ装置であり、ソフトウェア・プログラムや各種データ等を記憶する。なお、記憶装置902は、揮発性のメモリ装置であってもよい。
不揮発性記憶装置903は、例えば磁気ディスクドライブや、フラッシュメモリによる半導体記憶装置のような、不揮発性の記憶装置である。不揮発性記憶装置903は、各種ソフトウェア・プログラムやデータ等を記憶可能である。
ネットワークインタフェース906は、通信ネットワークに接続するインタフェース装置であり、例えば有線及び無線のLAN(Local Area Network)接続用インタフェース装置等を採用してもよい。
ドライブ装置904は、例えば、後述する記録媒体905に対するデータの読み込みや書き込みを処理する装置である。
記録媒体905は、例えば光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。
入出力インタフェース907は、外部装置との間の入出力を制御する装置である。
上述した各実施形態を例に説明した本発明における運用管理装置は、例えば、図9に例示したハードウェア装置により構成されてもよい。同様に、上述した運用管理システム800の各構成要素も、例えば、図9に例示したハードウェア装置により構成されてもよい。この場合、係るハードウェア装置に対して、上記各実施形態において説明した機能を実現可能なソフトウェア・プログラムを供給することにより、本発明が実現されてもよい。より具体的には、例えば、係る装置に対して供給したソフトウェア・プログラムを、演算装置901が実行することによって、本発明が実現されてもよい。
上述した各実施形態において、上記各図(例えば、図1、図4、及び図7)に示した各部は、上述したハードウェアにより実行されるソフトウェア・プログラムの機能(処理)単位である、ソフトウェアモジュールとして実現することができる。ただし、これらの図面に示した各ソフトウェアモジュールの区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。
例えば、上記各部をソフトウェアモジュールとして実現する場合、これらのソフトウェアモジュールは、不揮発性記憶装置903に記憶されてもよい。そして、演算装置901が、それぞれの処理を実行する際に、これらのソフトウェアモジュールを記憶装置902に読み出してもよい。
また、これらのソフトウェアモジュールの間は、共有メモリやプロセス間通信等の適宜の方法により、相互に各種データを伝達できるように構成してもよい。このような構成により、これらのソフトウェアモジュールの間は、相互に通信可能に接続可能である。
更に、上記各ソフトウェア・プログラムは記録媒体905に記録されてもよい。この場合、上記各ソフトウェア・プログラムは、上記通信装置等の出荷段階、あるいは運用段階等において、適宜ドライブ装置904を通じて不揮発性記憶装置903に格納されるよう構成されてもよい。
なお、上記の場合において、上記運用管理装置への各種ソフトウェア・プログラムの供給方法は、出荷前の製造段階、あるいは出荷後のメンテナンス段階等において、適当な治具を利用して当該装置内にインストールする方法を採用してもよい。また、各種ソフトウェア・プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等のように、現在では一般的な手順を採用してもよい。
そして、このような場合において、本発明は、係るソフトウェア・プログラムを構成するコード、あるいは係るコードが記録されたところの、コンピュータ読み取り可能な記録媒体によって構成されると捉えることができる。
また、上述した運用管理装置、あるいは、当運用管理装置の構成要素は、図9に例示するハードウェア装置を仮想化した仮想化環境と、当該仮想化環境において実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって構成されてもよい。この場合、図9に例示するハードウェア装置の構成要素は、当該仮想化環境における仮想デバイスとして提供される。なお、この場合も、図9に例示するハードウェア装置を物理的な装置として構成した場合と同様の構成にて、本発明を実現可能である。
同様に、上述した運用管理システム800の各構成要素も、図9に例示するハードウェア装置を仮想化した仮想化環境と、当該仮想化環境において実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって実現可能である。
以上、本発明を、上述した模範的な実施形態に適用した例として説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態に記載した範囲には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。更に、上述した各実施形態、あるいは、係る変更又は改良を加えた新たな実施形態を組み合わせた実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、請求の範囲に記載した事項から明らかである。この出願は、2014年12月22日に出願された日本出願特願2014−259158を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 運用管理装置
101 性能情報蓄積部
102 相関モデル記憶部
103 障害検出部
104 障害情報蓄積部
105 異常スコア計算部
406 提示部
700 運用管理装置
701 障害検出部
702 障害情報蓄積部
703 異常スコア計算部
901 演算装置
902 記憶装置
903 不揮発性記憶装置
904 ドライブ装置
905 記録媒体
906 ネットワークインタフェース
907 入出力インタフェース

Claims (10)

  1. 監視対象システムに関する性能指標の計測値を1以上取得し、
    相異なる2つの前記性能指標の関係を表す相関モデルを用いることにより、前記取得した計測値に基づいて、相異なる2つの前記性能指標の組み合わせに関する障害を示す障害情報を検出する障害検出手段と、
    当該検出された前記障害情報を時系列に保持する障害情報蓄積手段と、
    前記障害情報蓄積手段に保持された前記障害情報に基づいて、特定の前記性能指標を含む前記組み合わせについて、前記障害情報が継続して検出されたか否かを判定し、
    特定の前記性能指標を含み前記障害情報が検出された前記組み合わせである1以上の第1の組み合わせのうち、前記障害情報が継続して検出されたと判定された前記組み合わせである1以上の第2の組み合わせに関する情報と、特定の前記性能指標を含む他の前記組み合わせに関する情報とに基づいて、前記性能指標に関する異常の程度を表す異常スコアを算出する異常スコア計算手段と、
    を備える運用管理装置。
  2. 前記異常スコア計算手段は、
    前記第1の組み合わせの数から、前記第2の組み合わせの数を除いた差分を算出し、
    特定の前記性能指標を含む全ての前記組み合わせの数と、前記算出した差分との割合に基づいて、前記異常スコアを算出する
    請求項1に記載の運用管理装置。
  3. 前記異常スコア計算手段は、
    特定の前記性能指標を含む前記組み合わせについて、当該組み合わせに関して第1の期間の間に取得された前記計測値の数に対する、当該第1の期間の間に検知された前記障害情報の数の割合が、基準を超えた場合に、当該組み合わせに関する前記障害情報が継続して検出されたと判定する、請求項1または請求項2に記載の運用管理装置。
  4. 前記異常スコア計算手段は、
    特定の前記性能指標を含む前記組み合わせについて、当該組み合わせに関して第1の期間の間に取得された前記計測値の数に対する、当該第1の期間に含まれる第2の期間の間に連続して検知された前記障害情報の数の割合が基準を超えた場合に、当該組み合わせに関する前記障害情報が継続して検出されたと判定する、請求項1または請求項2に記載の運用管理装置。
  5. 前記異常スコア計算手段は、
    前記障害情報蓄積手段に保持された前記障害情報に基づいて、特定の前記性能指標を含む1以上の前記組み合わせについて、当該組み合わせに関する前記障害情報が継続して検出されたか否かを判定し、
    前記障害情報が継続して検出されたと判定した場合に、前記第1の組み合わせの数から、前記第2の組み合わせの数を除いた差分を算出し、特定の前記性能指標を含む全ての前記組み合わせの数と、前記算出した差分との割合に基づいて第1の異常スコアを算出するとともに、
    前記第1の組み合わせの数と、特定の前記性能指標を含む全ての前記組み合わせの数との割合に基づいて第2の異常スコアを算出する、請求項2乃至請求項4のいずれかに記載の運用管理装置。
  6. 前記異常スコアを提示可能な提示手段を更に備え、
    前記提示手段は、前記異常スコア計算手段において算出された前記異常スコアが高い順に、当該異常スコアが算出された前記組み合わせに含まれる前記性能指標に関する異常箇所を提示する請求項1乃至請求項5のいずれかに記載の運用管理装置。
  7. 前記異常スコアを提示可能な提示手段を更に備え、
    前記提示手段は、前記異常スコア計算手段において算出された前記第1の異常スコアが高い順、または、前記第2の異常スコアが高い順に、前記第1の異常スコアまたは前記第2の異常スコアが算出された前記組み合わせに含まれる前記性能指標に関する異常箇所を切り替えて提示する請求項5に記載の運用管理装置。
  8. 前記相関モデルは、1以上の前記組み合わせに含まれる2つの前記性能指標である、第1の性能指標と、第2の性能指標との間の相関関係を表す変換関数を含み、
    前記障害検出手段は、前記取得した計測値に含まれる前記第1の性能指標の計測値に対して前記変換関数を適用することにより得られる前記第2の性能指標に関する推定値と、前記取得した計測値に含まれる前記第2の性能指標の計測値との差分あるいは当該差分に比例する値が基準を超える場合に、前記第1の性能指標と、前記第2の性能指標とに関する障害を検出する、請求項1乃至請求項7のいずれかに記載の運用管理装置。
  9. 情報処理装置が、
    監視対象システムに関する性能指標の計測値を1以上取得し、
    相異なる2つの前記性能指標の関係を表す相関モデルを用いることにより、前記取得した計測値に基づいて、相異なる2つの前記性能指標の組み合わせに関する障害を示す障害情報を検出し、
    当該検出された前記障害情報を時系列に保持し、
    当該保持された前記障害情報に基づいて、特定の前記性能指標を含む前記組み合わせについて、前記障害情報が継続して検出されたか否かを判定し、
    特定の前記性能指標を含み、前記障害情報が検出された前記組み合わせである1以上の第1の組み合わせのうち、前記障害情報が継続して検出されたと判定された前記組み合わせである1以上の第2の組み合わせに関する情報と、特定の前記性能指標を含む他の前記組み合わせに関する情報とに基づいて、前記性能指標に関する異常の程度を表す異常スコアを算出する
    運用管理方法。
  10. コンピュータに、
    監視対象システムに関する性能指標の計測値を1以上取得する処理と、
    相異なる2つの前記性能指標の関係を表す相関モデルを用いることにより、前記取得した計測値に基づいて、相異なる2つの前記性能指標の組み合わせに関する障害を示す障害情報を検出する処理と、
    当該検出された前記障害情報を時系列に保持する処理と、
    当該保持された前記障害情報に基づいて、特定の前記性能指標を含む前記組み合わせについて、前記障害情報が継続して検出されたか否かを判定する処理と、
    特定の前記性能指標を含み、前記障害情報が検出された前記組み合わせである1以上の第1の組み合わせのうち、前記障害情報が継続して検出されたと判定された前記組み合わせである1以上の第2の組み合わせに関する情報と、特定の前記性能指標を含む他の前記組み合わせに関する情報とに基づいて、前記性能指標に関する異常の程度を表す異常スコアを算出する処理と、を実行させる
    コンピュータプログラムが記録された記録媒体。
JP2016541727A 2014-12-22 2015-12-17 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体 Active JP6008070B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014259158 2014-12-22
JP2014259158 2014-12-22
PCT/JP2015/006281 WO2016103650A1 (ja) 2014-12-22 2015-12-17 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体

Publications (2)

Publication Number Publication Date
JP6008070B1 JP6008070B1 (ja) 2016-10-19
JPWO2016103650A1 true JPWO2016103650A1 (ja) 2017-04-27

Family

ID=56149713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016541727A Active JP6008070B1 (ja) 2014-12-22 2015-12-17 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体

Country Status (4)

Country Link
US (1) US10719380B2 (ja)
EP (1) EP3239839A4 (ja)
JP (1) JP6008070B1 (ja)
WO (1) WO2016103650A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
JP6734362B2 (ja) * 2016-03-24 2020-08-05 三菱重工業株式会社 監視装置、監視方法、プログラム
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
JP6955912B2 (ja) * 2017-06-19 2021-10-27 株式会社日立製作所 ネットワーク監視装置、そのシステム、およびその方法
CN108181857B (zh) * 2018-01-22 2020-07-28 珠海格力电器股份有限公司 用于控制设备机组运行的方法、装置及显示板和设备机组
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
JP6760503B2 (ja) * 2018-08-31 2020-09-23 東芝三菱電機産業システム株式会社 製造プロセス監視装置
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
JP7251259B2 (ja) * 2019-03-28 2023-04-04 富士通株式会社 運用管理装置、運用管理システム、および運用管理方法
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
US11789833B2 (en) * 2020-03-20 2023-10-17 UncommonX Inc. Generation of an issue recovery evaluation regarding a system aspect of a system
FR3119911A1 (fr) * 2021-02-12 2022-08-19 eBOS Technologies Traitement de transaction à lutte contre le blanchiment d’argent (lba) adaptatif
JP7401499B2 (ja) * 2021-10-01 2023-12-19 株式会社安川電機 異常判定システム、異常判定装置、異常判定方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4201027B2 (ja) * 2006-07-10 2008-12-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数の観測結果の間の差異を検出するシステムおよびその方法
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
WO2011083687A1 (ja) * 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体
US8667334B2 (en) * 2010-08-27 2014-03-04 Hewlett-Packard Development Company, L.P. Problem isolation in a virtual environment
JP5668425B2 (ja) 2010-11-17 2015-02-12 日本電気株式会社 障害検知装置、情報処理方法、およびプログラム
JP5516494B2 (ja) 2011-04-26 2014-06-11 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US9778972B2 (en) * 2011-08-24 2017-10-03 Nec Corporation Operation management device, operation management method
WO2013111560A1 (ja) 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
EP2827251B1 (en) 2012-03-14 2020-02-12 NEC Corporation Operation administration device, operation administration method, and program

Also Published As

Publication number Publication date
US20170351563A1 (en) 2017-12-07
WO2016103650A1 (ja) 2016-06-30
US10719380B2 (en) 2020-07-21
JP6008070B1 (ja) 2016-10-19
EP3239839A1 (en) 2017-11-01
EP3239839A4 (en) 2018-08-22

Similar Documents

Publication Publication Date Title
JP6008070B1 (ja) 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6585482B2 (ja) 機器診断装置及びシステム及び方法
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US10519960B2 (en) Fan failure detection and reporting
JP2018500709A5 (ja) コンピューティングシステム、プログラムおよび方法
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
JP6280862B2 (ja) イベント分析システムおよび方法
WO2016136198A1 (ja) システム監視装置、システム監視方法、及び、システム監視プログラムが記録された記録媒体
JP2009215010A (ja) 監視診断装置及び遠隔監視診断システム
US11032627B2 (en) Maintenance device, presentation system, and program
US20190265088A1 (en) System analysis method, system analysis apparatus, and program
JPWO2019073512A1 (ja) システム分析方法、システム分析装置、および、プログラム
JPWO2017169949A1 (ja) ログ分析装置、ログ分析方法及びプログラム
JP6627258B2 (ja) システムモデル生成支援装置、システムモデル生成支援方法、及び、プログラム
JP5958987B2 (ja) 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
US20150149827A1 (en) Identifying a change to indicate a degradation within a computing device
US8892389B1 (en) Determining a condition of a system based on plural measurements
US11118947B2 (en) Information processing device, information processing method and non-transitory computer readable medium
JP6071464B2 (ja) 故障判断支援装置および方法、ならびにプログラム
JP6973445B2 (ja) 表示方法、表示装置、および、プログラム
WO2021187128A1 (ja) 監視システム、監視装置及び監視方法
JP2019003303A (ja) 異常検出装置及び異常検出プログラム

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160829

R150 Certificate of patent or registration of utility model

Ref document number: 6008070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150