JP6097889B2

JP6097889B2 - 監視システム、監視装置、および検査装置

Info

Publication number: JP6097889B2
Application number: JP2016538167A
Authority: JP
Inventors: 竹島　由晃; 由晃竹島; 武田　幸子; 幸子武田; 中原　雅彦; 雅彦中原; 誠也工藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-07-28
Filing date: 2015-03-18
Publication date: 2017-03-15
Anticipated expiration: 2035-03-18
Also published as: US20160283307A1; WO2016017208A1; JPWO2016017208A1

Description

参照による取り込み

本出願は、平成２６年（２０１４年）７月２８日に出願された日本出願である特願２０１４−１５２５９９の優先権を主張し、その内容を参照することにより、本出願に取り込む。

開示される主題は、監視対象システムを監視する監視システム、監視装置、監視対象システムを検査する検査装置に関する。

近年、インターネットアクセス機能を有する携帯電話などの急激な発展に伴い、様々な商用や公共サービスが通信ネットワークを介して提供されている。通信ネットワークの重要性が増す一方、その基盤となるネットワークシステムの障害が社会に与えるインパクトは、その重要性に比例して大きくなってきている。

ネットワークシステムの一例として、携帯電話のパケット交換システムがある。パケット交換システムは、様々な機能を有する機器であるネットワークノード（以下「ノード」）群により構成される。これらのノードで故障や輻輳などが発生することで、エンドユーザに十分な通信サービスを提供できなくなる状態、即ち通信障害となる。よって、このようなネットワークシステムの通信障害を早期検知する必要がある。

システム監視の標準的な方法としては、監視対象となるサーバ群の性能情報、たとえばＣＰＵ使用率などに対して、単一または複数の固定値を閾値として用い、その値を超過したタイミングをもって異常とみなす方法がある。このような監視方法は、監視ソフトウェアのインストールや監視設定のカスタマイズの容易さから、汎用型ＰＣサーバを主体として構成されるシステムに適している。一方、ネットワークノードの多くは専用装置として実装されており、ノードの持つ、監視に必要な性能情報やログなどの内部データを利用できない場合がある。そのため、ネットワークシステムの障害検出方法として、ネットワークを流れるパケットを計測し、または、ネットワークスイッチなどのネットワーク機器から通信に関する情報を取得し、それらを解析することにより、ノード間の通信異常を検出する技術が用いられる。

ネットワークシステムを監視するための従来技術として、下記特許文献１の技術がある。特許文献１（たとえば、段落［００１９］，［００２０］を参照。）は、観測値ないし相関度の激しい時間変動に頑強な手法で、実行時環境において、複数の観測ポイントの相互依存を考慮した方法であり、アプリケーション層におけるサービス停止を中心とした障害を自動で検知する異常検出システムである。具体的には、異常検出システムは、複数のコンピュータによりネットワークを構成するコンピュータシステム内の各々のコンピュータに、サービスの処理であるトランザクションを当該サービスに対応付けて記録するエージェント装置を有する。

異常検出システムでは、各エージェント装置が、トランザクションを異常監視サーバに送信し、異常監視サーバが、記録したトランザクションをエージェント装置から収集する。各エージェント装置は、この収集したトランザクションからノード相関行列を出力し、このノード相関行列の固有方程式を解くことで活動度ベクトルを算出する。そして、各エージェント装置は、算出された活動度ベクトルからこの活動度ベクトルが発生する確率を推定する確率密度から活動度ベクトルの外れ値度を算出することで、複数のコンピュータの各々が相互に関連しつつ動作するプログラムの障害を自動検知する。

特開２００５−２１６０６６号公報

しかしながら、上述した従来技術では、ノード数に依存して障害を検知するため、ノードの数やノードの構成が動的に変動した場合、本来障害でないノードについて障害ありと誤検出したり、障害があるノードについて障害なしと誤検出したりするという問題がある。たとえば、仮想システムでは、仮想化ノードが増設されたり、仮想化ノードのＩＰアドレスが変更されたりする。したがって、上述した従来技術を適用すると障害または非障害について誤検出する場合がある。

開示されるのは、ノード数やノードの構成に依存せずに障害または非障害についての誤検出を抑制する技術である。

開示される一態様は、複数のノードを有し前記複数のノード間で通信可能な監視対象システム内を流通するメッセージ群を検査する検査装置と、前記検査装置からの検査結果を用いて、前記監視対象システムを監視する監視装置と、を有する監視システムである。

前記監視装置は、前記検査装置から受信する検査結果を用いて、前記ノードで送受信されるメッセージの種別ごとのメッセージ数を集計する集計処理と、前記集計処理によって前記メッセージ数が集計されたメッセージの各々について、前記監視対象システムが送受信するメッセージのうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理と、前記分類処理によって分類された前記起点メッセージのメッセージ数と前記発生メッセージのメッセージ数とに基づいて、前記起点メッセージと前記発生メッセージとの関係性を解析することにより、前記起点メッセージと前記発生メッセージとの関係性を示す行列を作成する解析処理と、前記行列内の要素の値が正常範囲外になった場合に、前記監視対象システムの障害と判定する検出処理と、を実行する。

要素の値が正常範囲内であれば、要素の値は、あるノードに起点メッセージが入力された場合に、他のノードにおいて発生メッセージが発生したことを示す。一方、要素の値が正常範囲外であれば、要素の値は、メッセージの大量廃棄や大量複製、大量再送といった、ソフトウェアの不具合またはハードウェア故障に起因する通信障害が発生していることを示す。

開示によれば、ノード数やノードの構成に依存せずに障害または非障害についての誤検出を抑制できる。本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。

通信状態のモデリング例を示す説明図である。ネットワークシステム内を流れるトラフィックのシーケンスと変換行列との関係の一例を示す説明図である。本実施例にかかる監視システムのシステム構成例を示すブロック図である。トラフィック統計時系列情報の一例を示す説明図である。トラフィック間関係構造情報の一例を示す説明図である。計測設定情報の一例を示す説明図である。計測制御情報の一例を示す説明図である。検査装置および監視装置のハードウェア構成例を示すブロック図である。監視装置による監視処理手順例を示すフローチャートである。図９に示した異常検出処理（ステップＳ９０６）の詳細な処理手順例を示すフローチャートである。図９に示した異常箇所特定処理（ステップＳ９０７）の詳細内処理手順例を示すフローチャートである。図９に示した計測制御処理（ステップＳ９０８）の詳細な処理手順例を示すフローチャートである。

本実施例は、ネットワークシステム内のノード数やノードの構成に依存しない障害検知方法を提供する。これにより、ノード数やノードの構成が変動するような場合でも、本来障害でないノードについて障害ありと誤検出したり、障害があるノードについて障害なしと誤検出したりしないため、障害検出精度の向上を図ることができる。また、ノード数が増加すると、ノード数の増加に比例して、ノード相関行列が大きくなり、計算量が増加する。計算量が増加すると、障害検出に時間がかかる。本実施例では、ノード数に依存しないため、行列計算の増大化を抑制することにより、障害の早期検出を図ることができる。以下、実施例について説明する。

＜通信状態のモデリング＞
図１は、通信状態のモデリング例を示す説明図である。ネットワークシステム１００は、複数（図１では例として５台）のノードＮａ〜Ｎｅ（以下、総称してノードＮ）を有する。ノードＮは、他のノードＮと通信可能に接続される通信装置である。たとえば、ネットワークシステム１００が、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）（登録商標）が適用された通信システムである場合、ノードＮａがｅＮＢ（ｅｖｏｌｖｅｄＮｏｄｅＢ）、ノードＮｂがＭＭＥ（ＭｏｂｉｌｉｔｙＭａｎａｇｅｍｅｎｔＥｎｔｉｔｙ）、ノードＮｃがＨＳＳ（ＨｏｍｅＳｕｂｓｃｒｉｂｅｒＳｅｒｖｅｒ）、ノードＮｄがＳＧＷ（ＳｅｒｖｉｎｇＧａｔｅｗａｙ）、ノードＮｅがＰＧＷ（ＰＤＮ（ＰａｃｋｅｔＤａｔａＮｅｔｗｏｒｋ）Ｇａｔｅｗａｙ）である。なお、同一種類のノードＮが複数台存在してもよい。たとえば、ノードＮａ〜Ｎｅは１台ずつ存在するが、複数台存在してもよい。

また、本実施例は、監視対象のネットワークシステム１００として、センサネットワークシステムに適用することもできる。この場合、ネットワークシステム１００は、センサノードとルートノードとゲートウェイノードとにより構成される。センサノードは、たとえば、サーバからのコマンドに応じて観測対象の温度などを計測するノードである。ルートノードは、センサノードによる観測データを転送したり、サーバからのコマンドを転送したりするノードである。ゲートウェイノードは、サーバからのコマンドをルートノードに転送したり、ルートノードから転送されてくる観測データをサーバに転送したりする。

ネットワークシステム１００内を流れるトラフィックのシーケンスをモデリングすると以下のようになる。ｍ個（ｍは１以上の整数）のシーケンス１〜ｍの最初のメッセージｘ１〜ｘｍの個数を列ベクトルｘとする。列ベクトルｘの要素ｅ（ｘ１）〜ｅ（ｘｍ）は、シーケンス１〜ｍの最初のメッセージｘ１〜ｘｍの個数である。ここでは、シーケンス１〜ｍの最初のメッセージｘ１〜ｘｍを用いたが、メッセージの種類を特定しておけば、最初のメッセージに限られない。

また、ネットワークシステム１００内での最初のメッセージをトリガとして発生する後続のメッセージｙ１〜ｙｎの発生数を行ベクトルｙとする。行ベクトルｙの要素ｅ（ｙ１）〜ｅ（ｙｎ）は、シーケンス１〜ｍの最初のメッセージｘ１〜ｘｍの入力があった場合に連鎖的に発生するメッセージｙ１〜ｙｎの個数である。

本実施例では、列ベクトルｘから行ベクトルｙに変換する変換行列Ａの要素を監視することにより、ネットワークシステム１００の障害を検出する。具体的には、行ベクトルｙと列ベクトルｘの逆行列ｘ＾｛−１｝の積により変換行列Ａが算出される。変換行列Ａは、システム内のノード数やノードの構成に依存しないため、ノード数やノードの構成に変動があっても障害または非障害について誤検出が生じない。また、ノードが増設されてもネットワークシステム１００内を流通するメッセージの種類数は変わらないため、変換行列Ａの要素数が増加しない。したがって、変換行列Ａを算出する際の計算量の増加もなく、障害の早期検出が可能となる。

＜シーケンスと変換行列との関係＞
図２は、ネットワークシステム１００内を流れるトラフィックのシーケンスと変換行列Ａとの関係の一例を示す説明図である。図２において、シーケンス１は、ノードＮａからのメッセージｘ１を起点として後続のメッセージｙ１〜ｙ３が順次生成されて後段のノードに出力され、最後のメッセージｙ３がノードＮａに入力される。シーケンス２は、ノードＮｂからのメッセージｘ２を起点として後続のメッセージｙ４〜ｙ７が順次生成されて後段のノードに出力され、最後のメッセージｙ７がノードＮｄに入力される。シーケンス３は、ノードＮｅからのメッセージｘ３を起点として後続のメッセージｙ８が順次生成されてノードＮｅに入力される。

シーケンス１の例としては、たとえば、ｅＮＢであるノードＮａがユーザ端末から初期メッセージとして「ＡｔｔａｃｈＲｅｑｕｅｓｔ」を受信した場合、ノードＮａは、あるシーケンスの最初のメッセージｘ１として「ＡｔｔａｃｈＲｅｑｕｅｓｔ」をＭＭＥであるノードＮｂに転送する。ノードＮｂは、メッセージｘ１が入力されると後続のメッセージｙ１として「ＡｕｔｈｅｎｔｉｃａｔｉｏｎＩｎｆｏｒｍａｔｉｏｎＲｅｑｕｅｓｔ」を生成し、ＨＳＳであるノードＮｃに送信する。ノードＮｃは、メッセージｙ１が入力されると後続のメッセージｙ２として「ＡｕｔｈｅｎｔｉｃａｔｉｏｎＩｎｆｏｒｍａｔｉｏｎＡｎｓｗｅｒ」を生成して、ＭＭＥであるノードＮｂに送信する。ノードＮｂは、メッセージｙ２が入力されると後続のメッセージｙ３として「ＡｕｔｈｅｎｔｉｃａｔｉｏｎＲｅｑｕｅｓｔ」を生成し、ｅＮＢであるノードＮａに送信する。したがって、このシーケンスが発生した場合、メッセージｘ１、ｙ１〜ｙ３の個数が１つカウントされる。

なお、ＭＭＥであるノードＮｂからのメッセージが起点となるシーケンス２については説明上簡略化したが、シーケンス２の別の例として、Ｄｅｔａｃｈシーケンスがある。Ｄｅｔａｃｈシーケンスでは、まず、ノードＮｂ（ＭＭＥ）から最初のメッセージであるＤｅｔａｃｈＲｅｑｕｅｓｔがｅＮＢであるノードＮａ経由でＵＥ（ＵｓｅｒＥｑｕｉｐｍｅｎｔ）に送信され、かつ、ＳＧＷであるノードＮｄにＤｅｌｅｔｅＳｅｓｓｉｏｎＲｅｑｕｅｓｔが送信される。ノードＮｄは、ＤｅｌｅｔｅＳｅｓｓｉｏｎＲｅｑｕｅｓｔを受信すると、ＤｅｌｅｔｅＳｅｓｓｉｏｎＲｅｑｕｅｓｔを生成してＰＧＷであるノードＮｅに送信され、ノードＮｅはＤｅｌｅｔｅＳｅｓｓｉｏｎＲｅｓｐｏｎｓｅをノードＮｄに返す。ノードＮｄはＤｅｌｅｔｅＳｅｓｓｉｏｎＲｅｓｐｏｎｓｅを受信すると、ＤｅｌｅｔｅＳｅｓｓｉｏｎＲｅｓｐｏｎｓｅを生成してノードＮｂに送信する。ノードＮｂは、さらにノードＮａ経由でＵＥからＤｅｔａｃｈＡｃｃｅｐｔを受信すると、ノードＮａにＵＥＣｏｎｔｅｘｔＲｅｌｅａｓｅＣｏｍｍａｎｄを生成して、ノードＮａに送信する。最後に、ノードＮａは、ＵＥＣｏｎｔｅｘｔＲｅｌｅａｓｅＣｏｍｐｌｅｔｅをノードＮｂに送信し、ノードＮｂはＵＥＣｏｎｔｅｘｔＲｅｌｅａｓｅＣｏｍｐｌｅｔｅを受信する。これにより、Ｄｅｔａｃｈシーケンスが終了する。

変換行列Ａの列数は、起点となるメッセージｘ１〜ｘ３の個数、すなわち、シーケンス数であり、変換行列Ａの行数は、後続の発生メッセージｙ１〜ｙ８の個数である。変換行列Ａにおいて値が「０」の要素については、メッセージが流れていないことを示す。たとえば、ｘ２とｙ１とが交差する要素の値「０」に着目すると、変換行列Ａからはどのノードかは特定されないが、シーケンス２では、メッセージｘ２が入力されてもメッセージｙ１は発生しないことを意味する。

また、変換行列Ａにおいて値が「１」である要素については、メッセージが正常に流れていることを示す。たとえば、ｘ２とｙ６とが交差する要素の値「１」に着目すると、変換行列Ａからはどのノードかは特定されないが、シーケンス２では、メッセージｘ２が入力されるとメッセージｙ６が発生することを意味する。

また、通信状態に異常が発生している場合、要素の値ｖは、ｖ＜１またはｖ＞１となる。したがって、変換行列Ａの要素の値を監視することにより、通信状態の異常を検出することができる。なお、要素の値ｖは、ノイズや観測タイミングのずれによりｖ＝１とならない場合がある。このような場合を想定して、要素の値ｖの許容範囲（たとえば、ｖが０．５以上、１．５以下の範囲）をあらかじめ設定しておくことにより、要素の値ｖが許容範囲内の値である場合は正常であるとして、異常検出精度の向上を図ることができる。

なお、要素の値「１」が正常値としたが、同一のメッセージにおける時系列な要素の値の平均値を正常値とし、当該平均値ａｖの許容範囲（たとえば、平均値ａｖが（ａｖ−ｔｈ）以上、（ａｖ＋ｔｈ）以下の範囲）をあらかじめ設定しておくことにより、要素の値ｖが許容範囲内の値である場合は正常であるとしてもよい（ｔｈは閾値）。

＜システム構成例＞
図３は、本実施例にかかる監視システムのシステム構成例を示すブロック図である。監視システム３００は、監視対象であるネットワークシステム１００内の通信トラフィックを観測して変換行列Ａを作成し、変換行列を監視することにより、ネットワークシステム１００の通信障害を検出するシステムである。

監視対象であるネットワークシステム１００は、複数のノードＮａ〜Ｎｅであるノード群Ｎｓと、ノード群Ｎｓの管理を行うシステム管理サーバ１０１と、を有する。各ノードＮａ〜Ｎｅは、複数台存在してもよい。ノードＮは、ネットワーク１１を経由して、他のノードＮと相互に通信を行う。ネットワーク１１は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などのコンピュータネットワークである。一般的には有線ＬＡＮであるが、無線ＬＡＮを用いてもよい。また、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を経由してもよい。また、ネットワークシステム１００は、１台以上のネットワークＴＡＰ装置１２ａ〜１２ｄ（以下、総称して、ネットワークＴＡＰ装置１２）を備えてもよい。

ネットワークＴＡＰ装置１２は、ネットワーク１１によって伝送されるパケット（またはフレーム）を複製し、ＴＡＰ用ネットワーク１３を経由して、複製パケット（または複製フレーム）を検査装置３０ａ，３０ｂ（以下、総称して、検査装置３０）に伝送する装置である。ＴＡＰ用ネットワーク１３は、一般的なＬＡＮケーブルを用いてよい。検査装置３０は、１台以上あればよい。

なお、ネットワークＴＡＰ装置１２は、検査装置２１に内蔵されてもよい。また、ネットワークＴＡＰ装置１２は、ノードＮの一機能として内蔵されてもよい。また、ネットワークＴＡＰ装置１２は、ルータやネットワークスイッチなどのネットワーク装置の一機能として内蔵されてもよい。

ここで、ノードＮ間で送受信される通信トラフィックは、例えば、各ノードＮを制御するための制御用プロトコルが適用されたパケットで構成される。ＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）に代表されるようなアプリケーションプロトコルでもよい。また、上記メッセージは、ノードＮ間で送受信される通信トラフィックにおける、アプリケーションレベルでのデータ単位に相当する。

また、ネットワークシステム１００内を流通するトラフィックのうちあらかじめ設定された起点となるメッセージを起点メッセージとする。起点メッセージは、シーケンスの最初のメッセージである。例えば、図２に示したメッセージｘ１〜ｘ３は、起点メッセージである。起点メッセージを受信したノードＮから発生したメッセージを発生メッセージとする。発生メッセージを受信したノードＮから発生したメッセージも発生メッセージとする。なお、図２に示したメッセージｙ１〜ｙ８は、発生メッセージである。

また、各メッセージは、要求コマンドをメッセージタイプとする。具体的には、要求コマンドが異なる場合は、異なるメッセージタイプに分類される。例えば、ネットワークシステム１００への接続要求（ＡＴＴＡＣＨＲＥＱＵＥＳＴ）とサービス要求（ＳＥＲＶＩＣＥＲＥＱＵＥＳＴ）では、要求される制御内容が異なるため、異なるメッセージタイプと分類される。なお、図２のメッセージｘ１〜ｘ３、ｙ１〜ｙ８は、各々異なるメッセージタイプであるため、独立してメッセージ数がカウントされる。

監視システム３００は、検査装置３０と、監視装置３０１とを、それぞれ１台以上有する。検査装置３０は、ネットワーク１１を監視して、ノードＮが送受信するメッセージを検査する装置である。検査装置３０は、受信部３１と、検査部３２と、検査制御部３３と、を有する。

受信部３１は、ネットワークＴＡＰ装置１２から複製パケットを受信する。検査部３２は、複製パケットの内容を検査し、監視装置３０１に検査結果を含むトラフィック報告を送信する。検査制御部３３は、監視装置３０１からの制御指示（変更指示または復帰指示）に応じて、トラフィック報告の送信間隔と検査項目とを制御する。

検査部３２からのトラフィック報告３４には、計測日時と、検査項目についての複製パケットの内容を解析することで得られた検査結果とが含まれる。計測日時とは、検査項目を計測した日時である。検査項目とは、プロトコル名、メッセージタイプ、宛先ＩＰアドレスや送信元ＩＰアドレス、通信データ量などが挙げられる。

監視装置３０１は、検査装置３０からトラフィック報告を受信し、トラフィック報告に含まれている検査結果を用いて、ネットワークシステム１００の通信状態の異常を検出する装置である。

監視装置３０１は、集計部３０２と、作成部３０３と、解析部３０４と、検出部３０５と、分類部３０６と、特定部３０７と、計測制御部３０８と、トラフィック統計情報３１１と、トラフィック統計時系列情報３１２と、トラフィック間関係構造情報３１３と、トラフィック分類設定情報３１４と、計測設定情報３１５と、計測制御情報３１６と、を有する。

集計部３０２は、検査装置３０からトラフィック報告３４を受信し、トラフィック報告３４に含まれている検査結果から、ある所定の集計単位時間おきに、メッセージタイプごとのトラフィック統計量を集計し、トラフィック統計情報３１１に記憶する。トラフィック統計量とは、集計単位時間内のメッセージタイプごとのメッセージ数である。

トラフィック統計情報３１１は、通信トラフィックであるメッセージ群の各メッセージのメッセージタイプごとのトラフィック量の集計結果を記憶する領域である。例えば、ある集計単位時間において、メッセージタイプ“ｘ１”のメッセージ数が“９３８”、という情報が記憶される。

作成部３０３は、ある所定の単位時間ごとに、トラフィック統計情報３１１を読み出してトラフィック統計情報３１１の時系列データを作成し、トラフィック統計時系列情報３１２に記憶する。

図４は、トラフィック統計時系列情報３１２の一例を示す説明図である。トラフィック統計時系列情報３１２は、計測日時情報４０１と、起点メッセージタイプ情報４０２と、発生メッセージタイプ情報４０３と、を含む。計測日時情報４０１は、トラフィック報告３４に含まれる計測日時を、ある所定の集計単位時間ごとに区切った計測日時の情報である。例えば、所定の集計単位時間を１分とした場合、集計部３０２は、計測日時情報４０１が“２０１４／５／１５１０：３０”となっているエントリに、トラフィック報告３４に記載されている計測日時が“２０１４／５／１５１０：３０：００”から“２０１４／５／１５１０：３０：５９”となっているメッセージのメッセージ数を、メッセージごとにトラフィック統計情報３１１に格納する。

起点メッセージタイプ情報４０２は、トラフィック報告３４に記載されているメッセージタイプが、起点メッセージに分類されるメッセージタイプのメッセージ数をメッセージごとに格納する領域である。発生メッセージタイプ情報４０３は、トラフィック報告３４に記載されているメッセージタイプが、発生メッセージに分類されるメッセージタイプのメッセージ数をメッセージごとに格納する領域である。

なお、トラフィック統計時系列情報３１２のエントリは有限であるため、全エントリが使用された場合、作成部３０３による更新時に最古のエントリから削除することとしてもよい。

図３に戻り、解析部３０４は、ある所定の単位時間ごとに、トラフィック統計時系列情報３１２からトラフィック統計量の時系列データを読み出して、起点メッセージと発生メッセージとの間の関係性を解析して、トラフィック間関係構造データを作成し、トラフィック間関係構造情報３１３に記憶する。トラフィック間関係構造データは、上述した変換行列Ａである。

図５は、トラフィック間関係構造情報３１３の一例を示す説明図である。トラフィック間関係構造情報３１３とは、トラフィック間関係構造データ、すなわち、上述した変換行列Ａの時系列データである。具体的には、たとえば、計測日時Ｔ１を例に挙げると、要素列５１１〜５１３がそのまま変換行列Ａの列ベクトル５１１〜５１３となる。

図３に戻り、検出部３０５は、現在のトラフィック間関係構造データと、過去のトラフィック間関係構造データとを比較して、ある所定の量以上の変化があることを検出することで、ネットワークシステム１００の通信状態に異常が発生したことを検出する。そして、検出部３０５は、異常検出通知３５０をシステム管理サーバ１０１に送信する。

分類部３０６は、トラフィック分類設定情報３１４を参照して、メッセージを起点メッセージまたは発生メッセージのいずれかに分類する。トラフィック分類設定情報３１４は、各メッセージタイプが起点メッセージまたは発生メッセージのいずれに該当するかを示す設定情報である。トラフィック分類設定情報３１４は、システム管理者などにより、予め設定される。トラフィック分類設定情報３１４は、例えば、ネットワークシステム１００への接続要求（ＡＴＴＡＣＨＲＥＱＵＥＳＴ）は起点メッセージである、という設定である。

また、別の例として、トラフィック分類設定情報３１４には、ネットワークシステム１００の外部装置のＩＰアドレスの範囲が設定されてもよい。トラフィック報告３４に含まれるメッセージの送信元ＩＰアドレスが、トラフィック分類設定情報３１４に指定されているＩＰアドレス範囲内であれば、トラフィック分類処理部２２５は、そのメッセージを起点メッセージであると分類する。

なお、分類部３０６およびトラフィック分類設定情報３１４は、検査装置３０に設けてもよい。この場合、トラフィック報告３４には、メッセージごとに分類部３０６によって分類されたメッセージタイプが含まれることになる。

特定部３０７は、検出部３０５によってネットワークシステム１００の異常が検出された場合、異常発生箇所を特定する。特定部３０７は、ネットワークシステム１００の通信状態の異常検出時に、計測設定情報３１５を用いて、異常が発生したノードのノードタイプを特定する。そして、特定部３０７は、異常が発生したノードのノードタイプを含む異常検出通知３７０をシステム管理サーバ１０１に送信する。

図６は、計測設定情報３１５の一例を示す説明図である。計測設定情報３１５は、メッセージタイプ情報６０１と、ノードタイプ情報６０２と、検査装置情報６０３と、を有する。計測設定情報３１５は、システム管理者などによって、予め設定される情報である。

メッセージタイプ情報６０１には、メッセージタイプが格納される。ノードタイプ情報６０２には、同一エントリのメッセージタイプのメッセージを処理するノードＮのノードタイプが格納される。検査装置情報６０３には、同一エントリのノードタイプにより特定されるノードＮから複製メッセージを受信する検査装置３０を一意に特定する識別情報が格納される。これにより、特定部３０７は、計測設定情報３１５を参照して、検出部３０５によって異常と検出されたメッセージのメッセージタイプからノードタイプおよび検査装置３０を特定することができる。

図３に戻り、計測制御部３０８は、検査装置３０を制御する。具体的には、計測制御部３０８は、検出部３０５によってネットワークシステム１００の通信状態の異常が検出された場合に、検査装置３０の計測性能が上昇するように制御する。具体的には、たとえば、計測制御部３０８は、トラフィック報告３４の送信間隔を短縮する。なお、検出部３０５によって通信状態が正常になったことが検出された場合には、計測制御部３０８は、検査装置３０の計測性能を上昇前の元の状態に戻す。

図７は、計測制御情報３１６の一例を示す説明図である。計測制御情報３１６は、メッセージタイプ情報７０１と、検査装置情報７０２と、制御内容情報７０３と、を有する。計測制御情報３１６は、システム管理者などによって、予め設定される情報である。メッセージタイプ情報７０１には、メッセージタイプが格納される。検査装置情報７０２には、検査装置３０を一意に特定する識別情報が格納される。制御内容情報７０３には、同一エントリの計測制御情報３１６により特定される検査装置３０の制御内容が格納される。

計測制御部３０８は、計測制御情報３１６から制御内容を読み出して、特定部３０７によって特定された検査装置３０に、読み出した制御内容を含むメッセージである制御指示３８０を送信する。制御指示３８０には、例えば、トラフィック報告３４の送信間隔を短縮させる変更指示や、短縮された送信間隔を元に戻す復帰指示がある。検査装置３０は、当該制御指示３８０を受信することで、制御内容に応じた処理を実行することになる。

＜ハードウェア構成例＞
図８は、検査装置３０および監視装置３０１（以下、装置８００）のハードウェア構成例を示すブロック図である。装置８００は、プロセッサ８０１、主記憶装置８０２、補助記憶装置８０３、ネットワーク１１に接続するためのＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等のネットワークインタフェース装置８０４、キーボードやマウスなどの入力装置８０５、ディスプレイなどの出力装置８０６、および、それらの装置間を接続するバスなどの内部通信線８０７を備える。装置８００は、たとえば、一般的なコンピュータにより実現される。

また、トラフィック統計情報３１１は、主記憶装置８０２の一部の領域を用いて実現できる。また、装置８００は、それぞれの補助記憶装置８０３に記憶されている各種プログラムを主記憶装置８０２にロードしてプロセッサ８０１で実行し、必要に応じて、ネットワークインタフェース装置８０４を用いてネットワーク１１に接続して、他の装置とのネットワーク通信を行い、または、ネットワークＴＡＰ装置１２からのパケットを受信する。

＜監視処理手順例＞
図９は、監視装置３０１による監視処理手順例を示すフローチャートである。監視装置３０１は、まず、集計部３０２によりトラフィック統計量集計処理を実行する（ステップＳ９０１）。具体的には、集計部３０２が検査装置３０からトラフィック報告３４を受信し、トラフィック報告３４に含まれる検査項目や計測日時といった検査結果を取得する。そして、集計部３０２はメッセージタイプごとにメッセージ数を計数する。

つぎに、監視装置３０１は、分類部３０６により、トラフィック分類設定情報３１４を参照して、メッセージを起点メッセージまたは発生メッセージのいずれかに分類する分類処理を実行する（ステップＳ９０２）。具体的には、分類部３０６は、メッセージタイプを検索キーとして、トラフィック分類設定情報３１４を検索し、分類結果である起点メッセージまたは発生メッセージのいずれかを示す情報を取得する。そして、分類部３０６は、取得した分類結果を、トラフィック統計情報３１１に追記する。例えば、メッセージ数が“９３８”であるメッセージタイプ“ｘ１”が起点メッセージに分類された場合には、分類部３０６は、メッセージタイプ“ｘ１”およびメッセージ数が“９３８”に、“起点メッセージ”を関連付けてトラフィック統計情報３１１に追記する。

なお、分類部３０６が検査装置３０に設けられている場合には、分類処理（ステップＳ９０２）は実行されない。この場合、分類部３０６は、トラフィック報告３４に含まれる分類結果を、トラフィック統計情報３１１に追記する。

つぎに、監視装置３０１は、作成部３０３により、トラフィック統計時系列作成処理を実行する（ステップＳ９０３）。具体的には、作成部３０３が、一定時間隔でトラフィック統計情報３１１を読み出し、トラフィック統計時系列情報３１２に新規エントリを作成する。そして、作成部３０３は、メッセージタイプごとの統計値を、トラフィック統計時系列情報３１２の新規エントリに追加する。

つぎに、監視装置３０１は、解析部３０４により、トラフィック間関係構造解析が可能か否かを判断する（ステップＳ９０４）。具体的には、解析部３０４は、トラフィック統計時系列情報３１２にトラフィック間関係構造解析に必要な数のエントリが蓄積されているか否かを判断する。たとえば、解析部３０４は、トラフィック統計時系列情報３１２のエントリ数が、起点メッセージに分類されるメッセージタイプ数以上蓄積されているか否かを判断する。蓄積されていない場合は、解析可能でないため（ステップＳ９０４：Ｎｏ）、監視処理を終了する。

一方、蓄積されている場合は、解析可能であるため（ステップＳ９０４：Ｙｅｓ）、監視装置３０１は、解析部３０４により、トラフィック間関係構造解析処理を実行する（ステップＳ９０５）。具体的には、たとえば、解析部３０４は、変換行列Ａが未作成であるトラフィック統計時系列情報３１２のエントリを取得して、変換行列Ａを作成する。解析部３０４は、作成された変換行列Ａであるトラフィック間関係構造データを、トラフィック間関係構造情報３１３の新規エントリとして格納する。

つぎに、監視装置３０１は、異常検出処理（ステップＳ９０６）、異常箇所特定処理（ステップＳ９０７）、および計測制御処理（ステップＳ９０８）を実行する。なお、異常箇所特定処理（ステップＳ９０７）、および計測制御処理（ステップＳ９０８）は、オプショナルである。これにより、一連の監視処理を終了する。

図１０は、図９に示した異常検出処理（ステップＳ９０６）の詳細な処理手順例を示すフローチャートである。監視装置３０１は、検出部３０５により、トラフィック間関係構造情報３１３を参照して、トラフィック間関係構造情報３１３内の各要素値が正常範囲内になっているか否かを判断する（ステップＳ１００１）。

具体的には、たとえば、検出部３０５は、メッセージタイプごとに、所定期間の過去の要素値の平均値を算出し、新規エントリの要素の値が、平均値±閾値を超過しているか否かにより、正常範囲内になっているか否かを判断する。新規エントリの要素の値のいずれもが正常範囲内にある場合（ステップＳ１００１：Ｙｅｓ）、正常であるため、異常検出処理（ステップＳ９０６）を終了し、ステップＳ９０７に移行する。

一方、新規エントリの要素の値のいずれかが正常範囲外にある場合（ステップＳ１００１：Ｎｏ）、監視装置３０１は、検出部３０５により、正常範囲外の要素の値がノイズであるか否かを判断する（ステップＳ１００２）。ノイズであるか否かは、例えば、閾値ｔｈを超過するまでの一定時間において連続して超過していなければ、検出部３０５は、正常範囲外の要素の値をノイズと判断する。また、閾値ｔｈを超過するまでの一定時間における要素の値の平均値が閾値ｔｈを超過していない場合に、検出部３０５は、正常範囲外の要素の値をノイズと判断してもよい。

ノイズ発生の例として、スイッチングハブの系切替による通信の瞬断などがある。例えば、通信が瞬断するが、一定時間内に通信状態が回復するならば、一時的なノイズが発生したものの、ネットワークシステム１００の通信状態としては正常であると判断することができる。

監視装置３０１は、検出部３０５により、正常範囲外の要素の値がノイズである場合（ステップＳ１００２：Ｙｅｓ）、正常であるため、異常検出処理（ステップＳ９０６）を終了し、ステップＳ９０７に移行する。なお、検出部３０５は、ネットワークシステム１００がノイズ発生状態である旨の警告通知を、システム管理サーバ１０１に送信してもよい。一方、検出部３０５は、正常範囲外の要素の値がノイズでない場合（ステップＳ１００２：Ｎｏ）、異常と判断し、異常検出通知をシステム管理サーバに通知する（ステップＳ１００３）。これにより、異常検出処理（ステップＳ９０６）を終了して、ステップＳ９０７に移行する。

図１１は、図９に示した異常箇所特定処理（ステップＳ９０７）の詳細内処理手順例を示すフローチャートである。監視装置３０１は、特定部３０７により、正常範囲外の要素の値となったメッセージタイプを検索キーとして、計測設定情報３１５を検索し、一致したエントリのノードタイプ情報６０２および検査装置情報６０３からノードタイプおよび検査装置を特定する情報を取得する（ステップＳ１１０１）。つぎに、監視装置３０１は、特定部３０７により、取得したノードタイプおよび検査装置を特定する情報を、異常箇所として、異常箇所通知をシステム管理サーバ１０１に通知する（ステップＳ１１０２）。これにより、異常箇所特定処理（ステップＳ９０７）を終了して、ステップＳ９０８に移行する。

図１２は、図９に示した計測制御処理（ステップＳ９０８）の詳細な処理手順例を示すフローチャートである。監視装置３０１は、計測制御部３０８により、正常範囲外の要素の値となったメッセージタイプを検索キーとして、計測制御情報３１６を検索し、一致したエントリの検査装置情報７０２および制御内容情報７０３から検査装置を特定する情報および制御内容と、を取得する（ステップＳ１２０１）。つぎに、監視装置３０１は、計測制御部３０８により、取得した制御内容情報７０３を指示内容とし、取得した検査装置情報７０２に示される検査装置３０の検査部３２に、変更指示を送信する（ステップＳ１２０２）。

たとえば、制御内容情報７０３が『送信間隔の変更（６０ｓｅｃから１０ｓｅｃに変更）』である変更指示が送信された場合、検査装置３０は、検査制御部３３により、トラフィック報告３４の送信間隔が６０ｓｅｃから１０ｓｅｃになるように検査部３２を制御する。これにより、これまで６０ｓｅｃ間隔だったトラフィック報告３４が、１０ｓｅｃ間隔で送信されるため、より詳細な情報を得ることができる。

また、監視装置３０１は、計測制御部３０８により、正常範囲外から正常範囲内に復帰した要素の値となったメッセージタイプを検索キーとして、計測設定情報３１５を検索し、一致したエントリの検査装置情報７０２と、制御内容情報７０３と、を取得する（ステップＳ１２０３）。つぎに、監視装置３０１は、計測制御部３０８により、取得した制御内容情報７０３を指示内容とし、取得した検査装置情報７０２に示される検査装置３０の検査部３２に、復帰指示を送信する（ステップＳ１２０３）。

たとえば、制御内容情報７０３が『送信間隔の変更（６０ｓｅｃから１０ｓｅｃに変更）』である変更指示により検査装置３０の制御内容が変更された後、正常範囲内に要素の値が復帰した場合には、監視装置３０１は、計測制御部３０８により、制御内容情報７０３が『送信間隔の変更（６０ｓｅｃから１０ｓｅｃに変更）』である復帰指示を送信する。

検査装置３０は、検査制御部３３により、復帰指示の制御内容情報７０３を解釈して、トラフィック報告３４の送信間隔を、１０ｓｅｃから６０ｓｅｃに戻す。ネットワークシステム１００の通信トラフィックは正常に戻っているため、検査装置３０の送信間隔を元に戻すことにより、検査装置３０の負荷低減を図ることができる。

このように、本実施例によれば、ネットワークシステム１００内でのノード間でのメッセージの入出力関係の特定が困難なブラックボックス型システムであっても、メッセージの大量廃棄や大量複製、大量再送といった、ソフトウェアの不具合またはハードウェア故障に起因する通信障害を、検査装置３０で計測された検査結果を用いて検出することができる。

したがって、ノード数やノードの構成が動的に変動しても、障害または非障害について誤検出を抑制することができる。また、携帯電話システムのようなノード数が膨大なシステムであってもメッセージの種類により変換行列が作成されるため、ノード数が膨大でも変換行列の大きさに変動はないため、計算量の増大を抑制することができ、障害の早期検出が可能となる。

また、ネットワークシステム１００内の障害発生個所や発生原因を必ずしも特定する必要はない。すなわち、すべての観測点（ネットワークＴＡＰ装置１２）での計測値を常時リアルタイム分析する必要がないため、検査装置３０による計測負荷や監視装置３０１による監視負荷の低減を図ることができる。また、常時リアルタイム分析は非効率であるため、ある程度おおまかに障害発生個所を絞り込んでから詳細分析をおこなうため、障害発生原因の分析効率の向上を図ることができる。

上記開示は、代表的実施形態に関して記述されているが、当業者は、開示される主題の趣旨や範囲を逸脱することなく、形式及び細部において、様々な変更や修正が可能であることを理解するであろう。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims

複数のノードを有し前記複数のノード間で通信可能な監視対象システムにおいて、前記監視対象システム内のノードが送受信する複数のメッセージを検査する検査装置と、前記検査装置からの検査結果を用いて、前記監視対象システムを監視する監視装置と、を有する監視システムであって、
前記監視装置は、
前記検査装置から受信する検査結果を用いて、前記ノードで送受信されるメッセージの種別ごとのメッセージ数を集計する集計処理と、
前記集計処理によって前記メッセージ数が集計されたメッセージの各々について、前記監視対象システムが送受信するメッセージのうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理と、
前記分類処理によって分類された前記起点メッセージのメッセージ数と前記発生メッセージのメッセージ数とに基づいて、前記起点メッセージと前記発生メッセージとの関係性を解析することにより、前記起点メッセージと前記発生メッセージとの関係性を示す行列を作成する解析処理と、
前記行列内の要素の値が正常範囲外になった場合に、前記監視対象システムの障害と判定する検出処理と、を実行する
ことを特徴とする監視システム。
請求項１に記載の監視システムであって、
前記解析処理では、前記監視装置は、計測日時が異なる複数の前記行列を作成し、
前記検出処理では、前記監視装置は、前記複数の行列における同一要素の値がいずれも前記正常範囲外の値になった場合に、前記監視対象システムの障害を検出する
ことを特徴とする監視システム。
請求項１に記載の監視システムであって、
前記監視装置は、
前記検出処理によって前記監視対象システムの障害が検出された場合、前記発生メッセージの種別を示すメッセージタイプと、前記ノードの種別を示すノードタイプと、前記ノードから前記メッセージを取得して検査する検査装置の識別情報と、を対応付けた計測設定情報から、前記正常範囲外となった要素に対応する特定の発生メッセージを生成した特定のノードの前記ノードタイプと、当該特定のノードから前記特定の発生メッセージを取得して検査する特定の検査装置の前記識別情報と、を取得することにより、異常発生個所を特定する特定処理を実行する
ことを特徴とする監視システム。
請求項１に記載の監視システムであって、
前記監視装置は、
前記検出処理によって前記監視対象システムの障害が検出された場合、前記ノードから前記メッセージを取得して検査する検査装置からの検査結果の送信間隔を変更するように制御する制御処理を実行し、
前記集計処理では、前記制御処理による変更後の送信間隔で送信されてくる前記検査結果を受信することにより、前記検査結果に基づいて、前記監視対象システム内の前記ノードから送信されるメッセージの種別ごとのメッセージ数を集計する
ことを特徴とする監視システム。
請求項１に記載の監視システムであって、
前記検査装置は、
前記監視対象システム内を流通するメッセージ群を受信する受信処理と、
前記受信処理によって受信されたメッセージ群を検査することにより、前記メッセージ群の各々のメッセージの種別を示すメッセージタイプと、前記受信処理による前記メッセージの受信日時と、前記メッセージの個数と、を含む検査結果を特定して、前記監視対象システムを監視する監視装置に所定の送信間隔で前記検査結果を送信する検査処理と、
前記監視装置からの制御指示により前記所定の送信間隔を制御する検査制御処理と、を実行する
ことを特徴とする監視システム。
請求項５に記載の監視システムであって、
前記検査装置は、
前記メッセージタイプに基づいて、前記メッセージ群のうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理を実行し、
前記検査処理では、前記分類処理による分類結果を前記監視装置に送信する
ことを特徴とする監視システム。
プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置と、を有し、複数のノードを有し前記複数のノード間で通信可能な監視対象システムを監視する監視装置であって、
前記プロセッサは、
前記監視対象システム内の前記複数のノードが送受信する複数のメッセージを検査する検査装置から受信する検査結果を用いて、前記ノードで送受信される前記メッセージの種別ごとのメッセージ数を集計する集計処理と、
前記集計処理によって前記メッセージ数が集計された前記メッセージの各々について、前記監視対象システムが送受信する前記メッセージのうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理と、
前記分類処理によって分類された前記起点メッセージのメッセージ数と前記発生メッセージのメッセージ数とに基づいて、前記起点メッセージと前記発生メッセージとの関係性を解析することにより、前記起点メッセージと前記発生メッセージとの関係性を示す行列を作成する解析処理と、
前記行列内の要素の値が、正常範囲外になった場合に、前記監視対象システムの障害と判定する検出処理と、を実行する
ことを特徴とする監視装置。
請求項７に記載の監視装置であって、
前記プロセッサは、
前記解析処理では、計測日時が異なる複数の前記行列を作成し、
前記検出処理では、前記複数の行列における同一要素の値がいずれも前記正常範囲外になった場合に、前記監視対象システムの障害を検出する
ことを特徴とする監視装置。
請求項７に記載の監視装置であって、
前記プロセッサは、
前記検出処理によって前記監視対象システムの障害が検出された場合、前記発生メッセージの種別を示すメッセージタイプと、前記ノードの種別を示すノードタイプと、前記ノードから前記メッセージを取得して検査する前記検査装置の識別情報と、を対応付けた計測設定情報から、前記正常範囲外となった要素に対応する特定の発生メッセージを生成した特定のノードの前記ノードタイプと、および当該特定のノードから前記特定の発生メッセージを取得して検査する特定の検査装置の前記識別情報と、を取得することにより、異常発生個所を特定する特定処理を実行する
ことを特徴とする監視装置。
請求項７に記載の監視装置であって、
前記プロセッサは、
前記検出処理によって前記監視対象システムの障害が検出された場合、前記ノードから前記メッセージを取得して検査する前記検査装置からの検査結果の送信間隔を変更するように制御する制御処理を実行し、
前記集計処理では、前記プロセッサは、前記制御処理による変更後の送信間隔で送信されてくる前記検査結果を受信することにより、前記検査結果に基づいて、前記監視対象システム内で送信されたメッセージごとのメッセージ数を集計する
ことを特徴とする監視装置。
プログラムを実行するプロセッサと、前記プログラムを格納する記憶装置と、を有し、複数のノードを有し前記複数のノード間で通信可能な監視対象システムを検査する検査装置であって、
前記プロセッサは、
前記監視対象システム内を流通するメッセージ群を受信する受信処理と、
前記受信処理によって受信されたメッセージ群を検査することにより、前記メッセージ群の各々のメッセージの種別を示すメッセージタイプと、前記受信処理による前記メッセージの受信日時と、前記メッセージの個数と、を含む検査結果を特定して、前記監視対象システムを監視する監視装置に所定の送信間隔で前記検査結果を送信する検査処理と、
前記監視装置からの制御指示により前記所定の送信間隔を制御する検査制御処理と、を実行する
ことを特徴とする検査装置。
請求項１１に記載の検査装置であって、
前記プロセッサは、
前記メッセージタイプに基づいて、前記メッセージ群のうち起点となる起点メッセージと、前記起点メッセージが前記複数のノードのいずれかのノードに与えられたことを契機として前記監視対象システム内で発生する発生メッセージとのいずれかに分類する分類処理を実行し、
前記検査処理では、前記プロセッサは、前記分類処理による分類結果を前記監視装置に送信する
ことを特徴とする検査装置。