JP6097889B2 - 監視システム、監視装置、および検査装置 - Google Patents

監視システム、監視装置、および検査装置 Download PDF

Info

Publication number
JP6097889B2
JP6097889B2 JP2016538167A JP2016538167A JP6097889B2 JP 6097889 B2 JP6097889 B2 JP 6097889B2 JP 2016538167 A JP2016538167 A JP 2016538167A JP 2016538167 A JP2016538167 A JP 2016538167A JP 6097889 B2 JP6097889 B2 JP 6097889B2
Authority
JP
Japan
Prior art keywords
message
node
monitoring
inspection
messages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016538167A
Other languages
English (en)
Other versions
JPWO2016017208A1 (ja
Inventor
竹島 由晃
由晃 竹島
武田 幸子
幸子 武田
中原 雅彦
雅彦 中原
誠也 工藤
誠也 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP6097889B2 publication Critical patent/JP6097889B2/ja
Publication of JPWO2016017208A1 publication Critical patent/JPWO2016017208A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Description

参照による取り込み
本出願は、平成26年(2014年)7月28日に出願された日本出願である特願2014−152599の優先権を主張し、その内容を参照することにより、本出願に取り込む。
開示される主題は、監視対象システムを監視する監視システム、監視装置、監視対象システムを検査する検査装置に関する。
近年、インターネットアクセス機能を有する携帯電話などの急激な発展に伴い、様々な商用や公共サービスが通信ネットワークを介して提供されている。通信ネットワークの重要性が増す一方、その基盤となるネットワークシステムの障害が社会に与えるインパクトは、その重要性に比例して大きくなってきている。
ネットワークシステムの一例として、携帯電話のパケット交換システムがある。パケット交換システムは、様々な機能を有する機器であるネットワークノード(以下「ノード」)群により構成される。これらのノードで故障や輻輳などが発生することで、エンドユーザに十分な通信サービスを提供できなくなる状態、即ち通信障害となる。よって、このようなネットワークシステムの通信障害を早期検知する必要がある。
システム監視の標準的な方法としては、監視対象となるサーバ群の性能情報、たとえばCPU使用率などに対して、単一または複数の固定値を閾値として用い、その値を超過したタイミングをもって異常とみなす方法がある。このような監視方法は、監視ソフトウェアのインストールや監視設定のカスタマイズの容易さから、汎用型PCサーバを主体として構成されるシステムに適している。一方、ネットワークノードの多くは専用装置として実装されており、ノードの持つ、監視に必要な性能情報やログなどの内部データを利用できない場合がある。そのため、ネットワークシステムの障害検出方法として、ネットワークを流れるパケットを計測し、または、ネットワークスイッチなどのネットワーク機器から通信に関する情報を取得し、それらを解析することにより、ノード間の通信異常を検出する技術が用いられる。
ネットワークシステムを監視するための従来技術として、下記特許文献1の技術がある。特許文献1(たとえば、段落[0019],[0020]を参照。)は、観測値ないし相関度の激しい時間変動に頑強な手法で、実行時環境において、複数の観測ポイントの相互依存を考慮した方法であり、アプリケーション層におけるサービス停止を中心とした障害を自動で検知する異常検出システムである。具体的には、異常検出システムは、複数のコンピュータによりネットワークを構成するコンピュータシステム内の各々のコンピュータに、サービスの処理であるトランザクションを当該サービスに対応付けて記録するエージェント装置を有する。
異常検出システムでは、各エージェント装置が、トランザクションを異常監視サーバに送信し、異常監視サーバが、記録したトランザクションをエージェント装置から収集する。各エージェント装置は、この収集したトランザクションからノード相関行列を出力し、このノード相関行列の固有方程式を解くことで活動度ベクトルを算出する。そして、各エージェント装置は、算出された活動度ベクトルからこの活動度ベクトルが発生する確率を推定する確率密度から活動度ベクトルの外れ値度を算出することで、複数のコンピュータの各々が相互に関連しつつ動作するプログラムの障害を自動検知する。
特開2005−216066号公報
しかしながら、上述した従来技術では、ノード数に依存して障害を検知するため、ノードの数やノードの構成が動的に変動した場合、本来障害でないノードについて障害ありと誤検出したり、障害があるノードについて障害なしと誤検出したりするという問題がある。たとえば、仮想システムでは、仮想化ノードが増設されたり、仮想化ノードのIPアドレスが変更されたりする。したがって、上述した従来技術を適用すると障害または非障害について誤検出する場合がある。
開示されるのは、ノード数やノードの構成に依存せずに障害または非障害についての誤検出を抑制する技術である。
開示される一態様は、複数のノードを有し前記複数のノード間で通信可能な監視対象システム内を流通するメッセージ群を検査する検査装置と、前記検査装置からの検査結果を用いて、前記監視対象システムを監視する監視装置と、を有する監視システムである。
前記監視装置は、前記検査装置から受信する検査結果を用いて、前記ノードで送受信されるメッセージの種別ごとのメッセージ数を集計する集計処理と、前記集計処理によって前記メッセージ数が集計されたメッセージの各々について、前記監視対象システムが送受信するメッセージのうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理と、前記分類処理によって分類された前記起点メッセージのメッセージ数と前記発生メッセージのメッセージ数とに基づいて、前記起点メッセージと前記発生メッセージとの関係性を解析することにより、前記起点メッセージと前記発生メッセージとの関係性を示す行列を作成する解析処理と、前記行列内の要素の値が正常範囲外になった場合に、前記監視対象システムの障害と判定する検出処理と、を実行する。
要素の値が正常範囲内であれば、要素の値は、あるノードに起点メッセージが入力された場合に、他のノードにおいて発生メッセージが発生したことを示す。一方、要素の値が正常範囲外であれば、要素の値は、メッセージの大量廃棄や大量複製、大量再送といった、ソフトウェアの不具合またはハードウェア故障に起因する通信障害が発生していることを示す。
開示によれば、ノード数やノードの構成に依存せずに障害または非障害についての誤検出を抑制できる。本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。
通信状態のモデリング例を示す説明図である。 ネットワークシステム内を流れるトラフィックのシーケンスと変換行列との関係の一例を示す説明図である。 本実施例にかかる監視システムのシステム構成例を示すブロック図である。 トラフィック統計時系列情報の一例を示す説明図である。 トラフィック間関係構造情報の一例を示す説明図である。 計測設定情報の一例を示す説明図である。 計測制御情報の一例を示す説明図である。 検査装置および監視装置のハードウェア構成例を示すブロック図である。 監視装置による監視処理手順例を示すフローチャートである。 図9に示した異常検出処理(ステップS906)の詳細な処理手順例を示すフローチャートである。 図9に示した異常箇所特定処理(ステップS907)の詳細内処理手順例を示すフローチャートである。 図9に示した計測制御処理(ステップS908)の詳細な処理手順例を示すフローチャートである。
本実施例は、ネットワークシステム内のノード数やノードの構成に依存しない障害検知方法を提供する。これにより、ノード数やノードの構成が変動するような場合でも、本来障害でないノードについて障害ありと誤検出したり、障害があるノードについて障害なしと誤検出したりしないため、障害検出精度の向上を図ることができる。また、ノード数が増加すると、ノード数の増加に比例して、ノード相関行列が大きくなり、計算量が増加する。計算量が増加すると、障害検出に時間がかかる。本実施例では、ノード数に依存しないため、行列計算の増大化を抑制することにより、障害の早期検出を図ることができる。以下、実施例について説明する。
<通信状態のモデリング>
図1は、通信状態のモデリング例を示す説明図である。ネットワークシステム100は、複数(図1では例として5台)のノードNa〜Ne(以下、総称してノードN)を有する。ノードNは、他のノードNと通信可能に接続される通信装置である。たとえば、ネットワークシステム100が、LTE(Long Term Evolution)(登録商標)が適用された通信システムである場合、ノードNaがeNB(evolved Node B)、ノードNbがMME(Mobility Management Entity)、ノードNcがHSS(Home Subscriber Server)、ノードNdがSGW(Serving Gateway)、ノードNeがPGW(PDN(Packet Data Network) Gateway)である。なお、同一種類のノードNが複数台存在してもよい。たとえば、ノードNa〜Neは1台ずつ存在するが、複数台存在してもよい。
また、本実施例は、監視対象のネットワークシステム100として、センサネットワークシステムに適用することもできる。この場合、ネットワークシステム100は、センサノードとルートノードとゲートウェイノードとにより構成される。センサノードは、たとえば、サーバからのコマンドに応じて観測対象の温度などを計測するノードである。ルートノードは、センサノードによる観測データを転送したり、サーバからのコマンドを転送したりするノードである。ゲートウェイノードは、サーバからのコマンドをルートノードに転送したり、ルートノードから転送されてくる観測データをサーバに転送したりする。
ネットワークシステム100内を流れるトラフィックのシーケンスをモデリングすると以下のようになる。m個(mは1以上の整数)のシーケンス1〜mの最初のメッセージx1〜xmの個数を列ベクトルxとする。列ベクトルxの要素e(x1)〜e(xm)は、シーケンス1〜mの最初のメッセージx1〜xmの個数である。ここでは、シーケンス1〜mの最初のメッセージx1〜xmを用いたが、メッセージの種類を特定しておけば、最初のメッセージに限られない。
また、ネットワークシステム100内での最初のメッセージをトリガとして発生する後続のメッセージy1〜ynの発生数を行ベクトルyとする。行ベクトルyの要素e(y1)〜e(yn)は、シーケンス1〜mの最初のメッセージx1〜xmの入力があった場合に連鎖的に発生するメッセージy1〜ynの個数である。
本実施例では、列ベクトルxから行ベクトルyに変換する変換行列Aの要素を監視することにより、ネットワークシステム100の障害を検出する。具体的には、行ベクトルyと列ベクトルxの逆行列x^{−1}の積により変換行列Aが算出される。変換行列Aは、システム内のノード数やノードの構成に依存しないため、ノード数やノードの構成に変動があっても障害または非障害について誤検出が生じない。また、ノードが増設されてもネットワークシステム100内を流通するメッセージの種類数は変わらないため、変換行列Aの要素数が増加しない。したがって、変換行列Aを算出する際の計算量の増加もなく、障害の早期検出が可能となる。
<シーケンスと変換行列との関係>
図2は、ネットワークシステム100内を流れるトラフィックのシーケンスと変換行列Aとの関係の一例を示す説明図である。図2において、シーケンス1は、ノードNaからのメッセージx1を起点として後続のメッセージy1〜y3が順次生成されて後段のノードに出力され、最後のメッセージy3がノードNaに入力される。シーケンス2は、ノードNbからのメッセージx2を起点として後続のメッセージy4〜y7が順次生成されて後段のノードに出力され、最後のメッセージy7がノードNdに入力される。シーケンス3は、ノードNeからのメッセージx3を起点として後続のメッセージy8が順次生成されてノードNeに入力される。
シーケンス1の例としては、たとえば、eNBであるノードNaがユーザ端末から初期メッセージとして「Attach Request」を受信した場合、ノードNaは、あるシーケンスの最初のメッセージx1として「Attach Request」をMMEであるノードNbに転送する。ノードNbは、メッセージx1が入力されると後続のメッセージy1として「Authentication Information Request」を生成し、HSSであるノードNcに送信する。ノードNcは、メッセージy1が入力されると後続のメッセージy2として「Authentication Information Answer」を生成して、MMEであるノードNbに送信する。ノードNbは、メッセージy2が入力されると後続のメッセージy3として「Authentication Request」を生成し、eNBであるノードNaに送信する。したがって、このシーケンスが発生した場合、メッセージx1、y1〜y3の個数が1つカウントされる。
なお、MMEであるノードNbからのメッセージが起点となるシーケンス2については説明上簡略化したが、シーケンス2の別の例として、Detachシーケンスがある。Detachシーケンスでは、まず、ノードNb(MME)から最初のメッセージであるDetach RequestがeNBであるノードNa経由でUE(User Equipment)に送信され、かつ、SGWであるノードNdにDelete Session Requestが送信される。ノードNdは、Delete Session Requestを受信すると、Delete Session Requestを生成してPGWであるノードNeに送信され、ノードNeはDelete Session ResponseをノードNdに返す。ノードNdはDelete Session Responseを受信すると、Delete Session Responseを生成してノードNbに送信する。ノードNbは、さらにノードNa経由でUEからDetach Acceptを受信すると、ノードNaにUE Context Release Commandを生成して、ノードNaに送信する。最後に、ノードNaは、UE Context Release CompleteをノードNbに送信し、ノードNbはUE Context Release Completeを受信する。これにより、Detachシーケンスが終了する。
変換行列Aの列数は、起点となるメッセージx1〜x3の個数、すなわち、シーケンス数であり、変換行列Aの行数は、後続の発生メッセージy1〜y8の個数である。変換行列Aにおいて値が「0」の要素については、メッセージが流れていないことを示す。たとえば、x2とy1とが交差する要素の値「0」に着目すると、変換行列Aからはどのノードかは特定されないが、シーケンス2では、メッセージx2が入力されてもメッセージy1は発生しないことを意味する。
また、変換行列Aにおいて値が「1」である要素については、メッセージが正常に流れていることを示す。たとえば、x2とy6とが交差する要素の値「1」に着目すると、変換行列Aからはどのノードかは特定されないが、シーケンス2では、メッセージx2が入力されるとメッセージy6が発生することを意味する。
また、通信状態に異常が発生している場合、要素の値vは、v<1またはv>1となる。したがって、変換行列Aの要素の値を監視することにより、通信状態の異常を検出することができる。なお、要素の値vは、ノイズや観測タイミングのずれによりv=1とならない場合がある。このような場合を想定して、要素の値vの許容範囲(たとえば、vが0.5以上、1.5以下の範囲)をあらかじめ設定しておくことにより、要素の値vが許容範囲内の値である場合は正常であるとして、異常検出精度の向上を図ることができる。
なお、要素の値「1」が正常値としたが、同一のメッセージにおける時系列な要素の値の平均値を正常値とし、当該平均値avの許容範囲(たとえば、平均値avが(av−th)以上、(av+th)以下の範囲)をあらかじめ設定しておくことにより、要素の値vが許容範囲内の値である場合は正常であるとしてもよい(thは閾値)。
<システム構成例>
図3は、本実施例にかかる監視システムのシステム構成例を示すブロック図である。監視システム300は、監視対象であるネットワークシステム100内の通信トラフィックを観測して変換行列Aを作成し、変換行列を監視することにより、ネットワークシステム100の通信障害を検出するシステムである。
監視対象であるネットワークシステム100は、複数のノードNa〜Neであるノード群Nsと、ノード群Nsの管理を行うシステム管理サーバ101と、を有する。各ノードNa〜Neは、複数台存在してもよい。ノードNは、ネットワーク11を経由して、他のノードNと相互に通信を行う。ネットワーク11は、LAN(Local Area Network)などのコンピュータネットワークである。一般的には有線LANであるが、無線LANを用いてもよい。また、WAN(Wide Area Network)を経由してもよい。また、ネットワークシステム100は、1台以上のネットワークTAP装置12a〜12d(以下、総称して、ネットワークTAP装置12)を備えてもよい。
ネットワークTAP装置12は、ネットワーク11によって伝送されるパケット(またはフレーム)を複製し、TAP用ネットワーク13を経由して、複製パケット(または複製フレーム)を検査装置30a,30b(以下、総称して、検査装置30)に伝送する装置である。TAP用ネットワーク13は、一般的なLANケーブルを用いてよい。検査装置30は、1台以上あればよい。
なお、ネットワークTAP装置12は、検査装置21に内蔵されてもよい。また、ネットワークTAP装置12は、ノードNの一機能として内蔵されてもよい。また、ネットワークTAP装置12は、ルータやネットワークスイッチなどのネットワーク装置の一機能として内蔵されてもよい。
ここで、ノードN間で送受信される通信トラフィックは、例えば、各ノードNを制御するための制御用プロトコルが適用されたパケットで構成される。HTTP(Hypertext Transfer Protocol)に代表されるようなアプリケーションプロトコルでもよい。また、上記メッセージは、ノードN間で送受信される通信トラフィックにおける、アプリケーションレベルでのデータ単位に相当する。
また、ネットワークシステム100内を流通するトラフィックのうちあらかじめ設定された起点となるメッセージを起点メッセージとする。起点メッセージは、シーケンスの最初のメッセージである。例えば、図2に示したメッセージx1〜x3は、起点メッセージである。起点メッセージを受信したノードNから発生したメッセージを発生メッセージとする。発生メッセージを受信したノードNから発生したメッセージも発生メッセージとする。なお、図2に示したメッセージy1〜y8は、発生メッセージである。
また、各メッセージは、要求コマンドをメッセージタイプとする。具体的には、要求コマンドが異なる場合は、異なるメッセージタイプに分類される。例えば、ネットワークシステム100への接続要求(ATTACH REQUEST)とサービス要求(SERVICE REQUEST)では、要求される制御内容が異なるため、異なるメッセージタイプと分類される。なお、図2のメッセージx1〜x3、y1〜y8は、各々異なるメッセージタイプであるため、独立してメッセージ数がカウントされる。
監視システム300は、検査装置30と、監視装置301とを、それぞれ1台以上有する。検査装置30は、ネットワーク11を監視して、ノードNが送受信するメッセージを検査する装置である。検査装置30は、受信部31と、検査部32と、検査制御部33と、を有する。
受信部31は、ネットワークTAP装置12から複製パケットを受信する。検査部32は、複製パケットの内容を検査し、監視装置301に検査結果を含むトラフィック報告を送信する。検査制御部33は、監視装置301からの制御指示(変更指示または復帰指示)に応じて、トラフィック報告の送信間隔と検査項目とを制御する。
検査部32からのトラフィック報告34には、計測日時と、検査項目についての複製パケットの内容を解析することで得られた検査結果とが含まれる。計測日時とは、検査項目を計測した日時である。検査項目とは、プロトコル名、メッセージタイプ、宛先IPアドレスや送信元IPアドレス、通信データ量などが挙げられる。
監視装置301は、検査装置30からトラフィック報告を受信し、トラフィック報告に含まれている検査結果を用いて、ネットワークシステム100の通信状態の異常を検出する装置である。
監視装置301は、集計部302と、作成部303と、解析部304と、検出部305と、分類部306と、特定部307と、計測制御部308と、トラフィック統計情報311と、トラフィック統計時系列情報312と、トラフィック間関係構造情報313と、トラフィック分類設定情報314と、計測設定情報315と、計測制御情報316と、を有する。
集計部302は、検査装置30からトラフィック報告34を受信し、トラフィック報告34に含まれている検査結果から、ある所定の集計単位時間おきに、メッセージタイプごとのトラフィック統計量を集計し、トラフィック統計情報311に記憶する。トラフィック統計量とは、集計単位時間内のメッセージタイプごとのメッセージ数である。
トラフィック統計情報311は、通信トラフィックであるメッセージ群の各メッセージのメッセージタイプごとのトラフィック量の集計結果を記憶する領域である。例えば、ある集計単位時間において、メッセージタイプ“x1”のメッセージ数が“938”、という情報が記憶される。
作成部303は、ある所定の単位時間ごとに、トラフィック統計情報311を読み出してトラフィック統計情報311の時系列データを作成し、トラフィック統計時系列情報312に記憶する。
図4は、トラフィック統計時系列情報312の一例を示す説明図である。トラフィック統計時系列情報312は、計測日時情報401と、起点メッセージタイプ情報402と、発生メッセージタイプ情報403と、を含む。計測日時情報401は、トラフィック報告34に含まれる計測日時を、ある所定の集計単位時間ごとに区切った計測日時の情報である。例えば、所定の集計単位時間を1分とした場合、集計部302は、計測日時情報401が“2014/5/15 10:30”となっているエントリに、トラフィック報告34に記載されている計測日時が“2014/5/15 10:30:00”から“2014/5/15 10:30:59”となっているメッセージのメッセージ数を、メッセージごとにトラフィック統計情報311に格納する。
起点メッセージタイプ情報402は、トラフィック報告34に記載されているメッセージタイプが、起点メッセージに分類されるメッセージタイプのメッセージ数をメッセージごとに格納する領域である。発生メッセージタイプ情報403は、トラフィック報告34に記載されているメッセージタイプが、発生メッセージに分類されるメッセージタイプのメッセージ数をメッセージごとに格納する領域である。
なお、トラフィック統計時系列情報312のエントリは有限であるため、全エントリが使用された場合、作成部303による更新時に最古のエントリから削除することとしてもよい。
図3に戻り、解析部304は、ある所定の単位時間ごとに、トラフィック統計時系列情報312からトラフィック統計量の時系列データを読み出して、起点メッセージと発生メッセージとの間の関係性を解析して、トラフィック間関係構造データを作成し、トラフィック間関係構造情報313に記憶する。トラフィック間関係構造データは、上述した変換行列Aである。
図5は、トラフィック間関係構造情報313の一例を示す説明図である。トラフィック間関係構造情報313とは、トラフィック間関係構造データ、すなわち、上述した変換行列Aの時系列データである。具体的には、たとえば、計測日時T1を例に挙げると、要素列511〜513がそのまま変換行列Aの列ベクトル511〜513となる。
図3に戻り、検出部305は、現在のトラフィック間関係構造データと、過去のトラフィック間関係構造データとを比較して、ある所定の量以上の変化があることを検出することで、ネットワークシステム100の通信状態に異常が発生したことを検出する。そして、検出部305は、異常検出通知350をシステム管理サーバ101に送信する。
分類部306は、トラフィック分類設定情報314を参照して、メッセージを起点メッセージまたは発生メッセージのいずれかに分類する。トラフィック分類設定情報314は、各メッセージタイプが起点メッセージまたは発生メッセージのいずれに該当するかを示す設定情報である。トラフィック分類設定情報314は、システム管理者などにより、予め設定される。トラフィック分類設定情報314は、例えば、ネットワークシステム100への接続要求(ATTACH REQUEST)は起点メッセージである、という設定である。
また、別の例として、トラフィック分類設定情報314には、ネットワークシステム100の外部装置のIPアドレスの範囲が設定されてもよい。トラフィック報告34に含まれるメッセージの送信元IPアドレスが、トラフィック分類設定情報314に指定されているIPアドレス範囲内であれば、トラフィック分類処理部225は、そのメッセージを起点メッセージであると分類する。
なお、分類部306およびトラフィック分類設定情報314は、検査装置30に設けてもよい。この場合、トラフィック報告34には、メッセージごとに分類部306によって分類されたメッセージタイプが含まれることになる。
特定部307は、検出部305によってネットワークシステム100の異常が検出された場合、異常発生箇所を特定する。特定部307は、ネットワークシステム100の通信状態の異常検出時に、計測設定情報315を用いて、異常が発生したノードのノードタイプを特定する。そして、特定部307は、異常が発生したノードのノードタイプを含む異常検出通知370をシステム管理サーバ101に送信する。
図6は、計測設定情報315の一例を示す説明図である。計測設定情報315は、メッセージタイプ情報601と、ノードタイプ情報602と、検査装置情報603と、を有する。計測設定情報315は、システム管理者などによって、予め設定される情報である。
メッセージタイプ情報601には、メッセージタイプが格納される。ノードタイプ情報602には、同一エントリのメッセージタイプのメッセージを処理するノードNのノードタイプが格納される。検査装置情報603には、同一エントリのノードタイプにより特定されるノードNから複製メッセージを受信する検査装置30を一意に特定する識別情報が格納される。これにより、特定部307は、計測設定情報315を参照して、検出部305によって異常と検出されたメッセージのメッセージタイプからノードタイプおよび検査装置30を特定することができる。
図3に戻り、計測制御部308は、検査装置30を制御する。具体的には、計測制御部308は、検出部305によってネットワークシステム100の通信状態の異常が検出された場合に、検査装置30の計測性能が上昇するように制御する。具体的には、たとえば、計測制御部308は、トラフィック報告34の送信間隔を短縮する。なお、検出部305によって通信状態が正常になったことが検出された場合には、計測制御部308は、検査装置30の計測性能を上昇前の元の状態に戻す。
図7は、計測制御情報316の一例を示す説明図である。計測制御情報316は、メッセージタイプ情報701と、検査装置情報702と、制御内容情報703と、を有する。計測制御情報316は、システム管理者などによって、予め設定される情報である。メッセージタイプ情報701には、メッセージタイプが格納される。検査装置情報702には、検査装置30を一意に特定する識別情報が格納される。制御内容情報703には、同一エントリの計測制御情報316により特定される検査装置30の制御内容が格納される。
計測制御部308は、計測制御情報316から制御内容を読み出して、特定部307によって特定された検査装置30に、読み出した制御内容を含むメッセージである制御指示380を送信する。制御指示380には、例えば、トラフィック報告34の送信間隔を短縮させる変更指示や、短縮された送信間隔を元に戻す復帰指示がある。検査装置30は、当該制御指示380を受信することで、制御内容に応じた処理を実行することになる。
<ハードウェア構成例>
図8は、検査装置30および監視装置301(以下、装置800)のハードウェア構成例を示すブロック図である。装置800は、プロセッサ801、主記憶装置802、補助記憶装置803、ネットワーク11に接続するためのNIC(Network Interface Card)等のネットワークインタフェース装置804、キーボードやマウスなどの入力装置805、ディスプレイなどの出力装置806、および、それらの装置間を接続するバスなどの内部通信線807を備える。装置800は、たとえば、一般的なコンピュータにより実現される。
また、トラフィック統計情報311は、主記憶装置802の一部の領域を用いて実現できる。また、装置800は、それぞれの補助記憶装置803に記憶されている各種プログラムを主記憶装置802にロードしてプロセッサ801で実行し、必要に応じて、ネットワークインタフェース装置804を用いてネットワーク11に接続して、他の装置とのネットワーク通信を行い、または、ネットワークTAP装置12からのパケットを受信する。
<監視処理手順例>
図9は、監視装置301による監視処理手順例を示すフローチャートである。監視装置301は、まず、集計部302によりトラフィック統計量集計処理を実行する(ステップS901)。具体的には、集計部302が検査装置30からトラフィック報告34を受信し、トラフィック報告34に含まれる検査項目や計測日時といった検査結果を取得する。そして、集計部302はメッセージタイプごとにメッセージ数を計数する。
つぎに、監視装置301は、分類部306により、トラフィック分類設定情報314を参照して、メッセージを起点メッセージまたは発生メッセージのいずれかに分類する分類処理を実行する(ステップS902)。具体的には、分類部306は、メッセージタイプを検索キーとして、トラフィック分類設定情報314を検索し、分類結果である起点メッセージまたは発生メッセージのいずれかを示す情報を取得する。そして、分類部306は、取得した分類結果を、トラフィック統計情報311に追記する。例えば、メッセージ数が“938”であるメッセージタイプ“x1”が起点メッセージに分類された場合には、分類部306は、メッセージタイプ“x1”およびメッセージ数が“938”に、“起点メッセージ”を関連付けてトラフィック統計情報311に追記する。
なお、分類部306が検査装置30に設けられている場合には、分類処理(ステップS902)は実行されない。この場合、分類部306は、トラフィック報告34に含まれる分類結果を、トラフィック統計情報311に追記する。
つぎに、監視装置301は、作成部303により、トラフィック統計時系列作成処理を実行する(ステップS903)。具体的には、作成部303が、一定時間隔でトラフィック統計情報311を読み出し、トラフィック統計時系列情報312に新規エントリを作成する。そして、作成部303は、メッセージタイプごとの統計値を、トラフィック統計時系列情報312の新規エントリに追加する。
つぎに、監視装置301は、解析部304により、トラフィック間関係構造解析が可能か否かを判断する(ステップS904)。具体的には、解析部304は、トラフィック統計時系列情報312にトラフィック間関係構造解析に必要な数のエントリが蓄積されているか否かを判断する。たとえば、解析部304は、トラフィック統計時系列情報312のエントリ数が、起点メッセージに分類されるメッセージタイプ数以上蓄積されているか否かを判断する。蓄積されていない場合は、解析可能でないため(ステップS904:No)、監視処理を終了する。
一方、蓄積されている場合は、解析可能であるため(ステップS904:Yes)、監視装置301は、解析部304により、トラフィック間関係構造解析処理を実行する(ステップS905)。具体的には、たとえば、解析部304は、変換行列Aが未作成であるトラフィック統計時系列情報312のエントリを取得して、変換行列Aを作成する。解析部304は、作成された変換行列Aであるトラフィック間関係構造データを、トラフィック間関係構造情報313の新規エントリとして格納する。
つぎに、監視装置301は、異常検出処理(ステップS906)、異常箇所特定処理(ステップS907)、および計測制御処理(ステップS908)を実行する。なお、異常箇所特定処理(ステップS907)、および計測制御処理(ステップS908)は、オプショナルである。これにより、一連の監視処理を終了する。
図10は、図9に示した異常検出処理(ステップS906)の詳細な処理手順例を示すフローチャートである。監視装置301は、検出部305により、トラフィック間関係構造情報313を参照して、トラフィック間関係構造情報313内の各要素値が正常範囲内になっているか否かを判断する(ステップS1001)。
具体的には、たとえば、検出部305は、メッセージタイプごとに、所定期間の過去の要素値の平均値を算出し、新規エントリの要素の値が、平均値±閾値を超過しているか否かにより、正常範囲内になっているか否かを判断する。新規エントリの要素の値のいずれもが正常範囲内にある場合(ステップS1001:Yes)、正常であるため、異常検出処理(ステップS906)を終了し、ステップS907に移行する。
一方、新規エントリの要素の値のいずれかが正常範囲外にある場合(ステップS1001:No)、監視装置301は、検出部305により、正常範囲外の要素の値がノイズであるか否かを判断する(ステップS1002)。ノイズであるか否かは、例えば、閾値thを超過するまでの一定時間において連続して超過していなければ、検出部305は、正常範囲外の要素の値をノイズと判断する。また、閾値thを超過するまでの一定時間における要素の値の平均値が閾値thを超過していない場合に、検出部305は、正常範囲外の要素の値をノイズと判断してもよい。
ノイズ発生の例として、スイッチングハブの系切替による通信の瞬断などがある。例えば、通信が瞬断するが、一定時間内に通信状態が回復するならば、一時的なノイズが発生したものの、ネットワークシステム100の通信状態としては正常であると判断することができる。
監視装置301は、検出部305により、正常範囲外の要素の値がノイズである場合(ステップS1002:Yes)、正常であるため、異常検出処理(ステップS906)を終了し、ステップS907に移行する。なお、検出部305は、ネットワークシステム100がノイズ発生状態である旨の警告通知を、システム管理サーバ101に送信してもよい。一方、検出部305は、正常範囲外の要素の値がノイズでない場合(ステップS1002:No)、異常と判断し、異常検出通知をシステム管理サーバに通知する(ステップS1003)。これにより、異常検出処理(ステップS906)を終了して、ステップS907に移行する。
図11は、図9に示した異常箇所特定処理(ステップS907)の詳細内処理手順例を示すフローチャートである。監視装置301は、特定部307により、正常範囲外の要素の値となったメッセージタイプを検索キーとして、計測設定情報315を検索し、一致したエントリのノードタイプ情報602および検査装置情報603からノードタイプおよび検査装置を特定する情報を取得する(ステップS1101)。つぎに、監視装置301は、特定部307により、取得したノードタイプおよび検査装置を特定する情報を、異常箇所として、異常箇所通知をシステム管理サーバ101に通知する(ステップS1102)。これにより、異常箇所特定処理(ステップS907)を終了して、ステップS908に移行する。
図12は、図9に示した計測制御処理(ステップS908)の詳細な処理手順例を示すフローチャートである。監視装置301は、計測制御部308により、正常範囲外の要素の値となったメッセージタイプを検索キーとして、計測制御情報316を検索し、一致したエントリの検査装置情報702および制御内容情報703から検査装置を特定する情報および制御内容と、を取得する(ステップS1201)。つぎに、監視装置301は、計測制御部308により、取得した制御内容情報703を指示内容とし、取得した検査装置情報702に示される検査装置30の検査部32に、変更指示を送信する(ステップS1202)。
たとえば、制御内容情報703が『送信間隔の変更(60secから10secに変更)』である変更指示が送信された場合、検査装置30は、検査制御部33により、トラフィック報告34の送信間隔が60secから10secになるように検査部32を制御する。これにより、これまで60sec間隔だったトラフィック報告34が、10sec間隔で送信されるため、より詳細な情報を得ることができる。
また、監視装置301は、計測制御部308により、正常範囲外から正常範囲内に復帰した要素の値となったメッセージタイプを検索キーとして、計測設定情報315を検索し、一致したエントリの検査装置情報702と、制御内容情報703と、を取得する(ステップS1203)。つぎに、監視装置301は、計測制御部308により、取得した制御内容情報703を指示内容とし、取得した検査装置情報702に示される検査装置30の検査部32に、復帰指示を送信する(ステップS1203)。
たとえば、制御内容情報703が『送信間隔の変更(60secから10secに変更)』である変更指示により検査装置30の制御内容が変更された後、正常範囲内に要素の値が復帰した場合には、監視装置301は、計測制御部308により、制御内容情報703が『送信間隔の変更(60secから10secに変更)』である復帰指示を送信する。
検査装置30は、検査制御部33により、復帰指示の制御内容情報703を解釈して、トラフィック報告34の送信間隔を、10secから60secに戻す。ネットワークシステム100の通信トラフィックは正常に戻っているため、検査装置30の送信間隔を元に戻すことにより、検査装置30の負荷低減を図ることができる。
このように、本実施例によれば、ネットワークシステム100内でのノード間でのメッセージの入出力関係の特定が困難なブラックボックス型システムであっても、メッセージの大量廃棄や大量複製、大量再送といった、ソフトウェアの不具合またはハードウェア故障に起因する通信障害を、検査装置30で計測された検査結果を用いて検出することができる。
したがって、ノード数やノードの構成が動的に変動しても、障害または非障害について誤検出を抑制することができる。また、携帯電話システムのようなノード数が膨大なシステムであってもメッセージの種類により変換行列が作成されるため、ノード数が膨大でも変換行列の大きさに変動はないため、計算量の増大を抑制することができ、障害の早期検出が可能となる。
また、ネットワークシステム100内の障害発生個所や発生原因を必ずしも特定する必要はない。すなわち、すべての観測点(ネットワークTAP装置12)での計測値を常時リアルタイム分析する必要がないため、検査装置30による計測負荷や監視装置301による監視負荷の低減を図ることができる。また、常時リアルタイム分析は非効率であるため、ある程度おおまかに障害発生個所を絞り込んでから詳細分析をおこなうため、障害発生原因の分析効率の向上を図ることができる。
上記開示は、代表的実施形態に関して記述されているが、当業者は、開示される主題の趣旨や範囲を逸脱することなく、形式及び細部において、様々な変更や修正が可能であることを理解するであろう。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims (12)

  1. 複数のノードを有し前記複数のノード間で通信可能な監視対象システムにおいて、前記監視対象システム内のノードが送受信する複数のメッセージを検査する検査装置と、前記検査装置からの検査結果を用いて、前記監視対象システムを監視する監視装置と、を有する監視システムであって、
    前記監視装置は、
    前記検査装置から受信する検査結果を用いて、前記ノードで送受信されるメッセージの種別ごとのメッセージ数を集計する集計処理と、
    前記集計処理によって前記メッセージ数が集計されたメッセージの各々について、前記監視対象システムが送受信するメッセージのうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理と、
    前記分類処理によって分類された前記起点メッセージのメッセージ数と前記発生メッセージのメッセージ数とに基づいて、前記起点メッセージと前記発生メッセージとの関係性を解析することにより、前記起点メッセージと前記発生メッセージとの関係性を示す行列を作成する解析処理と、
    前記行列内の要素の値が正常範囲外になった場合に、前記監視対象システムの障害と判定する検出処理と、を実行する
    ことを特徴とする監視システム。
  2. 請求項1に記載の監視システムであって、
    前記解析処理では、前記監視装置は、計測日時が異なる複数の前記行列を作成し、
    前記検出処理では、前記監視装置は、前記複数の行列における同一要素の値がいずれも前記正常範囲外の値になった場合に、前記監視対象システムの障害を検出する
    ことを特徴とする監視システム。
  3. 請求項1に記載の監視システムであって、
    前記監視装置は、
    前記検出処理によって前記監視対象システムの障害が検出された場合、前記発生メッセージの種別を示すメッセージタイプと、前記ノードの種別を示すノードタイプと、前記ノードから前記メッセージを取得して検査する検査装置の識別情報と、を対応付けた計測設定情報から、前記正常範囲外となった要素に対応する特定の発生メッセージを生成した特定のノードの前記ノードタイプと、当該特定のノードから前記特定の発生メッセージを取得して検査する特定の検査装置の前記識別情報と、を取得することにより、異常発生個所を特定する特定処理を実行する
    ことを特徴とする監視システム。
  4. 請求項1に記載の監視システムであって、
    前記監視装置は、
    前記検出処理によって前記監視対象システムの障害が検出された場合、前記ノードから前記メッセージを取得して検査する検査装置からの検査結果の送信間隔を変更するように制御する制御処理を実行し、
    前記集計処理では、前記制御処理による変更後の送信間隔で送信されてくる前記検査結果を受信することにより、前記検査結果に基づいて、前記監視対象システム内の前記ノードから送信されるメッセージの種別ごとのメッセージ数を集計する
    ことを特徴とする監視システム。
  5. 請求項1に記載の監視システムであって、
    前記検査装置は、
    前記監視対象システム内を流通するメッセージ群を受信する受信処理と、
    前記受信処理によって受信されたメッセージ群を検査することにより、前記メッセージ群の各々のメッセージの種別を示すメッセージタイプと、前記受信処理による前記メッセージの受信日時と、前記メッセージの個数と、を含む検査結果を特定して、前記監視対象システムを監視する監視装置に所定の送信間隔で前記検査結果を送信する検査処理と、
    前記監視装置からの制御指示により前記所定の送信間隔を制御する検査制御処理と、を実行する
    ことを特徴とする監視システム。
  6. 請求項5に記載の監視システムであって、
    前記検査装置は、
    前記メッセージタイプに基づいて、前記メッセージ群のうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理を実行し、
    前記検査処理では、前記分類処理による分類結果を前記監視装置に送信する
    ことを特徴とする監視システム。
  7. プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置と、を有し、複数のノードを有し前記複数のノード間で通信可能な監視対象システムを監視する監視装置であって、
    前記プロセッサは、
    前記監視対象システム内の前記複数のノードが送受信する複数のメッセージを検査する検査装置から受信する検査結果を用いて、前記ノードで送受信される前記メッセージの種別ごとのメッセージ数を集計する集計処理と、
    前記集計処理によって前記メッセージ数が集計された前記メッセージの各々について、前記監視対象システムが送受信する前記メッセージのうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理と、
    前記分類処理によって分類された前記起点メッセージのメッセージ数と前記発生メッセージのメッセージ数とに基づいて、前記起点メッセージと前記発生メッセージとの関係性を解析することにより、前記起点メッセージと前記発生メッセージとの関係性を示す行列を作成する解析処理と、
    前記行列内の要素の値が、正常範囲外になった場合に、前記監視対象システムの障害と判定する検出処理と、を実行する
    ことを特徴とする監視装置。
  8. 請求項7に記載の監視装置であって、
    前記プロセッサは、
    前記解析処理では、計測日時が異なる複数の前記行列を作成し、
    前記検出処理では、前記複数の行列における同一要素の値がいずれも前記正常範囲外になった場合に、前記監視対象システムの障害を検出する
    ことを特徴とする監視装置。
  9. 請求項7に記載の監視装置であって、
    前記プロセッサは、
    前記検出処理によって前記監視対象システムの障害が検出された場合、前記発生メッセージの種別を示すメッセージタイプと、前記ノードの種別を示すノードタイプと、前記ノードから前記メッセージを取得して検査する前記検査装置の識別情報と、を対応付けた計測設定情報から、前記正常範囲外となった要素に対応する特定の発生メッセージを生成した特定のノードの前記ノードタイプと、および当該特定のノードから前記特定の発生メッセージを取得して検査する特定の検査装置の前記識別情報と、を取得することにより、異常発生個所を特定する特定処理を実行する
    ことを特徴とする監視装置。
  10. 請求項7に記載の監視装置であって、
    前記プロセッサは、
    前記検出処理によって前記監視対象システムの障害が検出された場合、前記ノードから前記メッセージを取得して検査する前記検査装置からの検査結果の送信間隔を変更するように制御する制御処理を実行し、
    前記集計処理では、前記プロセッサは、前記制御処理による変更後の送信間隔で送信されてくる前記検査結果を受信することにより、前記検査結果に基づいて、前記監視対象システム内で送信されたメッセージごとのメッセージ数を集計する
    ことを特徴とする監視装置。
  11. プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置と、を有し、複数のノードを有し前記複数のノード間で通信可能な監視対象システムを検査する検査装置であって、
    前記プロセッサは、
    前記監視対象システム内を流通するメッセージ群を受信する受信処理と、
    前記受信処理によって受信されたメッセージ群を検査することにより、前記メッセージ群の各々のメッセージの種別を示すメッセージタイプと、前記受信処理による前記メッセージの受信日時と、前記メッセージの個数と、を含む検査結果を特定して、前記監視対象システムを監視する監視装置に所定の送信間隔で前記検査結果を送信する検査処理と、
    前記監視装置からの制御指示により前記所定の送信間隔を制御する検査制御処理と、を実行する
    ことを特徴とする検査装置。
  12. 請求項11に記載の検査装置であって、
    前記プロセッサは、
    前記メッセージタイプに基づいて、前記メッセージ群のうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理を実行し、
    前記検査処理では、前記プロセッサは、前記分類処理による分類結果を前記監視装置に送信する
    ことを特徴とする検査装置。
JP2016538167A 2014-07-28 2015-03-18 監視システム、監視装置、および検査装置 Expired - Fee Related JP6097889B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014152599 2014-07-28
JP2014152599 2014-07-28
PCT/JP2015/058067 WO2016017208A1 (ja) 2014-07-28 2015-03-18 監視システム、監視装置、および検査装置

Publications (2)

Publication Number Publication Date
JP6097889B2 true JP6097889B2 (ja) 2017-03-15
JPWO2016017208A1 JPWO2016017208A1 (ja) 2017-04-27

Family

ID=55217113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016538167A Expired - Fee Related JP6097889B2 (ja) 2014-07-28 2015-03-18 監視システム、監視装置、および検査装置

Country Status (3)

Country Link
US (1) US20160283307A1 (ja)
JP (1) JP6097889B2 (ja)
WO (1) WO2016017208A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10536357B2 (en) 2015-06-05 2020-01-14 Cisco Technology, Inc. Late data detection in data center
US10142353B2 (en) 2015-06-05 2018-11-27 Cisco Technology, Inc. System for monitoring and managing datacenters
EP3394785B1 (en) 2015-12-24 2019-10-30 British Telecommunications public limited company Detecting malicious software
WO2017109129A1 (en) * 2015-12-24 2017-06-29 British Telecommunications Public Limited Company Software security
EP3394784B1 (en) 2015-12-24 2020-10-07 British Telecommunications public limited company Malicious software identification
CN109075996B (zh) * 2016-05-12 2022-11-29 瑞典爱立信有限公司 用于监视网络性能的监视控制器及因此执行的方法
GB2554980B (en) 2016-08-16 2019-02-13 British Telecomm Mitigating security attacks in virtualised computing environments
US11562076B2 (en) 2016-08-16 2023-01-24 British Telecommunications Public Limited Company Reconfigured virtual machine to mitigate attack
US11144423B2 (en) 2016-12-28 2021-10-12 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic management of monitoring tasks in a cloud environment
US10541866B2 (en) * 2017-07-25 2020-01-21 Cisco Technology, Inc. Detecting and resolving multicast traffic performance issues
US11140055B2 (en) 2017-08-24 2021-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for enabling active measurements in internet of things (IoT) systems
US11093310B2 (en) * 2018-12-31 2021-08-17 Paypal, Inc. Flow based pattern intelligent monitoring system
CN113225220B (zh) * 2021-03-23 2022-03-18 深圳市东晟数据有限公司 网络分流器的测试组网***及其测试方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216066A (ja) * 2004-01-30 2005-08-11 Internatl Business Mach Corp <Ibm> 異常検出システム及びその方法
JP2006011683A (ja) * 2004-06-24 2006-01-12 Fujitsu Ltd システム分析プログラム、システム分析方法及びシステム分析装置
JP2011113441A (ja) * 2009-11-30 2011-06-09 Fujitsu Ltd メッセージ分類用属性選択装置,メッセージ分類用属性選択プログラムおよびメッセージ分類用属性選択方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7568023B2 (en) * 2002-12-24 2009-07-28 Hewlett-Packard Development Company, L.P. Method, system, and data structure for monitoring transaction performance in a managed computer network environment
US20070255823A1 (en) * 2006-05-01 2007-11-01 International Business Machines Corporation Method for low-overhead message tracking in a distributed messaging system
US9319911B2 (en) * 2013-08-30 2016-04-19 International Business Machines Corporation Adaptive monitoring for cellular networks
EP2882141A1 (en) * 2013-12-04 2015-06-10 Exfo Inc. Network test system
US9967164B2 (en) * 2014-09-02 2018-05-08 Netscout Systems Texas, Llc Methods and devices to efficiently determine node delay in a communication network
US20160127180A1 (en) * 2014-10-30 2016-05-05 Splunk Inc. Streamlining configuration of protocol-based network data capture by remote capture agents
RO132010A2 (ro) * 2015-12-22 2017-06-30 Ixia, A California Corporation Metode, sisteme şi suport citibil de calculator pentru diagnosticarea reţelei

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216066A (ja) * 2004-01-30 2005-08-11 Internatl Business Mach Corp <Ibm> 異常検出システム及びその方法
JP2006011683A (ja) * 2004-06-24 2006-01-12 Fujitsu Ltd システム分析プログラム、システム分析方法及びシステム分析装置
JP2011113441A (ja) * 2009-11-30 2011-06-09 Fujitsu Ltd メッセージ分類用属性選択装置,メッセージ分類用属性選択プログラムおよびメッセージ分類用属性選択方法

Also Published As

Publication number Publication date
US20160283307A1 (en) 2016-09-29
WO2016017208A1 (ja) 2016-02-04
JPWO2016017208A1 (ja) 2017-04-27

Similar Documents

Publication Publication Date Title
JP6097889B2 (ja) 監視システム、監視装置、および検査装置
US11252016B2 (en) Anomaly detection and classification in networked systems
EP3379419B1 (en) Situation analysis
US8634314B2 (en) Reporting statistics on the health of a sensor node in a sensor network
US8638680B2 (en) Applying policies to a sensor network
Ehlers et al. Self-adaptive software system monitoring for performance anomaly localization
US8560894B2 (en) Apparatus and method for status decision
US20150195154A1 (en) Creating a Knowledge Base for Alarm Management in a Communications Network
JP2018513457A5 (ja)
JP2010511359A (ja) ネットワーク異常検出のための方法と装置
KR20180120558A (ko) 딥러닝 기반 통신망 장비의 장애 예측 시스템 및 방법
US20120026938A1 (en) Applying Policies to a Sensor Network
US11526422B2 (en) System and method for troubleshooting abnormal behavior of an application
US20120259976A1 (en) System and method for managing the performance of an enterprise application
CN105610648A (zh) 一种运维监控数据的采集方法及服务器
US10291493B1 (en) System and method for determining relevant computer performance events
US9479414B1 (en) System and method for analyzing computing performance
US20200099570A1 (en) Cross-domain topological alarm suppression
WO2015182629A1 (ja) 監視システム、監視装置及び監視プログラム
JP2012186667A (ja) ネットワーク障害検出装置、ネットワーク障害検出装置のネットワーク障害検出方法およびネットワーク障害検出プログラム
JP2017211806A (ja) 通信の監視方法、セキュリティ管理システム及びプログラム
CN112835780B (zh) 一种业务检测方法及装置
AU2014200806B1 (en) Adaptive fault diagnosis
US20200382397A1 (en) System and method for detecting dropped aggregated traffic metadata packets
JP6926646B2 (ja) 事業者間一括サービス管理装置および事業者間一括サービス管理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170220

R150 Certificate of patent or registration of utility model

Ref document number: 6097889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees