WO2012070274A1

WO2012070274A1 - 通信システムおよびネットワーク障害検出方法

Info

Publication number: WO2012070274A1
Application number: PCT/JP2011/064938
Authority: WO
Inventors: 陽輔西潟
Original assignee: 三菱電機株式会社
Priority date: 2010-11-26
Filing date: 2011-06-29
Publication date: 2012-05-31
Also published as: JP2014033242A

Abstract

　本発明にかかる通信システムでは、ノード１は、通信障害検出を行う死活監視部と、通信障害が検出された場合に、通信障害が検出された経路を介して接続されている他のノード１との間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク経路探索部と、を備え、管理装置３は、アンダーレイネットワークにおける通信経路上での障害が検出された場合、他のノード１に対して、障害を検出したノード１との間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う死活監視部、を備える。

Description

通信システムおよびネットワーク障害検出方法

　本発明は、実ネットワークであるアンダーレイネットワーク上に複数のノードによって構成されたオーバーレイネットワークにおいてパケットの送受信を行う通信システム、およびこの通信システムで実行するネットワーク障害検出方法に関する。

　例えば、特許文献１には、オーバーレイネットワークにおいてパケット通信を行うネットワークシステムにおけるネットワーク障害を検出する技術について記載されている。

　特許文献１に記載された技術によれば、複数のノードから構成されるオーバーレイネットワークがＩＰルーティングによるネットワーク（＝アンダーレイネットワーク）の上に重畳されている場合において、オーバーレイネットワークでルーティングされるトラヒックに関する統計情報（ＲＴＴ(Round　Trip　Time)やパケットロス率，利用可能帯域幅）を利用してアンダーレイネットワークのトポロジ変化が発生したことを推定し、これを契機として、経路トレース処理（Tracerouteによる経路探索）を実施し、得られたアンダーレイネットワークの経路情報と事前に取得しておいたアンダーレイネットワークの経路情報を比較し、アンダーレイネットワークでの障害推定を行う。

特開２０１０－８８０３１号公報

　特許文献１に記載の技術では、異常検出を行うための監視パラメータとして、ＲＴＴ，パケットロス率，利用可能帯域幅の時間的な変動を監視しておき、それがある統計的な方法で規定される範囲からずれている場合を異常とみなす。ＲＴＴの算出は、オーバーレイネットワーク上でのルーティング用ヘッダの中に送信ノードが付与する送信時刻のタイムスタンプに基づくものであり、タイムスタンプと受信ノードが刻む受信時刻との差分を用いることによる。しかしこの方法は送信時刻および受信時刻を決定する送受信ノードの高精度な時刻同期を前提とするがこれは一般に特殊な同期処理もしくは高精度なクロックが必要になってしまい容易には実現できないという問題がある。

　また、経路探索についても、異常を検出したノードが探索を行うのみであるため、故障箇所の推定範囲が広いという問題がある。

　また、オーバーレイネットワーク上のネットワーク異常は、必ずしもアンダーレイネットワークの何らかの異常のみを原因とするものではなく、オーバーレイネットワークの論理的な設定の誤り等も原因と成り得る。そのため、オーバーレイネットワークに起因する問題とアンダーレイネットワークに起因する問題とを切り分けることを可能とすることが望ましい。

　本発明は、上記に鑑みてなされたものであって、アンダーレイネットワーク上にオーバーレイネットワークが構築されている構成を採用し、通信障害が発生した場合に、発生した障害がオーバーレイネットワークの問題であるのか、もしくはアンダーレイネットワークの故障等に起因するものであるのかを切り分けることが可能な通信システムを得ることを目的とする。また、オーバーレイネットワークの設定などに誤りがある場合に、管理者への通知を行う通信システムおよびネットワーク障害検出方法を得ることを目的とする。

　上述した課題を解決し、目的を達成するために、本発明は、アンダーレイネットワークと、ノードおよび管理装置を含んで構成されたオーバーレイネットワークとを備えた通信システムであって、前記ノードは、接続されている他のノードとの間で通信障害検出用の信号を定期的に送信して通信障害検出を行う障害検出手段と、前記障害検出手段により通信障害が検出された場合に、通信障害が検出された経路を介して接続されている他のノードとの間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク確認手段と、を備え、前記管理装置は、前記アンダーレイネットワーク確認手段によりアンダーレイネットワークにおける通信経路上での障害が検出された場合、前記他のノードに対して、前記アンダーレイネットワークにおける通信経路上での障害を検出したノードとの間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う指示手段、を備えることを特徴とする。

　本発明によれば、通信障害が発生した場合に、発生した障害がオーバーレイネットワークの問題によるものであるのか、もしくはアンダーレイネットワークの問題によるもの（機器の故障等に起因するもの）であるのかを切り分けることができるとともに、アンダーレイネットワークで問題が発生している場合には、問題の発生箇所を特定することができる、という効果を奏する。

図１は、本発明にかかる通信システムの構成例を示す図である。図２は、ルーティングヘッダが付加されたパケットの構成を示す図である。図３は、ノードの構成例を示す図である。図４は、管理装置の構成例を示す図である。図５は、図１に示した通信システムにおける障害監視動作の一例を示したフローチャートである。

　以下に、本発明にかかる通信システムおよびネットワーク障害検出方法の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

実施の形態．
　図１は、本発明にかかる通信システムの構成例を示す図である。図１に示した通信システムは、ノード１、ホスト２、管理装置３およびルータ／スイッチ４を含んで構成されている。複数のルータ／スイッチ４がアンダーレイネットワークを形成し、複数のノード１がオーバーレイネットワークを形成している。管理装置３はノード１を管理し、ユーザ端末であるホスト２はオーバーレイネットワーク上で通信を行う。なお、ノード１およびホスト２の数は図１に示したものに限定されない。また、１つのノード１に対して複数のホスト２が接続される場合もある。

　図１に示した構成の通信システムにおいて、ホスト２は、ノード１と接続するためのＩ／Ｆ（インタフェース、図１では記載を省略している）を介してノード１に接続されている。また、ノード１は、他のノード１と接続するためのＩ／Ｆ（図１では記載を省略している）を介して１つまたは複数の他のノード１と相互に接続されている。各ホスト２からノード１により形成されたネットワークを経由して他のホスト２などに送信されるパケットは、ホスト２からのパケットを直接受信したノード１によって、オーバーレイネットワーク上でのルーティングを可能とするためのルーティングヘッダが付加される。ルーティングヘッダが付加されたパケットの構成は図２に示したものとなる。

　ノード１同士の間で転送される（送受信される）パケットは、図２に示した形式となる。具体的には、ＩＰ，ＴＣＰ／ＵＤＰヘッダと、ルーティングヘッダと、ペイロードとを含んだ構成となる。また、図示したように、ルーティングヘッダは、少なくとも、送信先の機器の識別子（送信先識別子）、送信元の機器の識別子（送信元識別子）、およびメッセージ種別を含む。メッセージ種別は、パケットにより送信されるメッセージ（情報）の種別を示す情報である。パケットを受信した各ノード１は、ルーティングヘッダ内のメッセージ種別を確認することにより、受信したパケットに含まれる情報が制御メッセージであるのか、またはユーザーデータであるのかの判別ができる。

　また、ノード１、ホスト２および管理装置３のそれぞれには、一意な識別子が付与されている。

　図３は、ノード１の構成例を示す図である。ノード１は、メッセージ送受信部１１、死活監視部１２およびアンダーレイネットワーク経路探索部１３を備え、また、接続中ノードテーブル１４、管理装置テーブル１５および配下ホストテーブル１６を保持している。

　メッセージ送受信部１１は、オーバーレイネットワーク上の他の装置（他のノード１，ホスト２，管理装置３）との間でメッセージ（パケット）の送受信を行う。

　障害検出手段として動作する死活監視部１２は、他のノード１との間の通信が正常に行われるかどうか（通信経路上で障害が発生していないかどうか）を監視する。

　アンダーレイネットワーク確認手段として動作するアンダーレイネットワーク経路探索部１３は、他のノード１に対するアンダーレイネットワーク上での経路を探索する。

　接続中ノードテーブル１４には、自分自身（ノード１）に接続されている他のノード１の識別子と、他のノード１各々に接続されているホスト２のＩＰアドレスとのマップが登録されている。管理装置テーブル１５には、管理装置３の識別子およびＩＰアドレスが登録されている。配下ホストテーブル１６には、自分自身に直接接続されているホスト２の識別子およびＩＰアドレスが登録されている。

　このような構成のノード１は、自分自身に接続されているホスト２からパケットを受信した場合、接続中ノードテーブル１４および配下ホストテーブル１６を参照し、受信したパケットの宛先となるホスト２が他のノード１に接続されていれば、図２に示した構成のパケットを生成し、宛先ホスト２が接続されている他のノード１に向けて送信する。このとき、パケットに付与するルーティングヘッダの送信先識別子には、自分自身に接続されているホスト２から受信したパケットの宛先となるホスト２が接続されている他のノード１の識別子を設定する。また、受信したパケットの宛先となるホスト２が自分自身に接続されている場合には、その宛先ホスト２に対してパケットを転送する。他のノード１からルーティングヘッダが付与されたパケットを受信した場合、ルーティングヘッダの送信先識別子が自分自身を示していれば（すなわち、受信パケットが自分自身に接続されているホスト２宛のパケットであれば）、ルーティングヘッダを取り除いた上で、該当するホスト２へ転送する。また、受信パケットが自分自身に接続されているホスト２宛のパケットではない場合には、パケットに付与されているルーティングヘッダに従い、他のノード１へ転送する。

　図４は、管理装置３の構成例を示す図である。管理装置３は、メッセージ送受信部３１、死活監視部３２および表示部３３を備え、また、ノード一覧テーブル３４およびホスト一覧テーブル３５を保持している。

　メッセージ送受信部３１は、オーバーレイネットワーク上の他の装置（ノード１）との間でメッセージ（パケット）の送受信を行う。

　指示手段として動作する死活監視部３２は、ノード１からの異常検出結果通知の内容に応じて、異常発生箇所に関連するノード１に対して異常解析のための経路検索実行指示を行い、必要な情報を収集する。

　表示部３３は、死活監視部３２による監視結果をネットワーク管理者などへ通知するための表示を行う。

　ノード一覧テーブル３４には、通信システム内のすべてのノード１の識別子が登録されている。ホスト一覧テーブル３５には、通信システム内のノード１に接続しているすべてのホストの識別子と接続しているノード１の識別子とのマップが登録されている。

　管理装置３は、図２に示した構成のパケットを送受信することによりノード１との間で通信を行う。

　つづいて、本実施の形態の通信システムのオーバーレイネットワークにおいて実行する特徴的な動作について、図５を用いて説明する。なお、図５は、図１に示した通信システムにおける障害監視動作の一例を示したフローチャートである。

　本実施の形態の通信システムにおいて、各ノード１は、他のノード１との間の通信経路の状態を定期的に監視している。具体的には、各ノード１の死活監視部１２が、自分自身に接続中の他のノード１に対して、所定の時間間隔でヘルスチェックパケット（HealthCheck）を送信し、これに対する応答を規定時間内に受け取ったかどうかを確認する（ステップＳ１，Ｓ２）。規定時間内に応答を受け取った場合（ステップＳ２：Ｙｅｓ）、所定の時間間隔でヘルスチェックパケットを送信して応答を待つ動作を継続する。なお、死活監視部１２は、他のノード１からのヘルスチェックパケットを受信した場合、規定時間内に応答パケットを返送する。また、死活監視部１２は、ヘルスチェックパケットを送信する場合、ルーティングヘッダ内のメッセージ種別（図２参照）に対して、ヘルスチェックパケットを示す値を設定する。ノード１のメッセージ送受信部１１は、他のノード１などから受信したパケットがヘルスチェックパケットに該当するかどうかをルーティングヘッダ内のメッセージ種別にて判別し、メッセージ種別の値がヘルスチェックパケットを示している場合、受信したパケットを死活監視部１２に渡す。死活監視部１２は、ヘルスチェックパケットに対する応答パケットを送信する場合、ルーティングヘッダ内のメッセージ種別に対して、ヘルスチェックパケットに対する応答パケットであることを示す値を設定する。ここで、ヘルスチェックパケットとしてＩＰパケットを使用している場合、パケットのＩＰヘッダから送信元と送信先のＩＰアドレスが分かるため、この情報を使用することでヘルスチェックに対する応答パケットを送信することが可能である。

　ヘルスチェックパケットを送信後、規定時間内に応答を受け取れなかった場合（ステップＳ２：Ｎｏ）、死活監視部１２は、アンダーレイネットワーク経路探索部１３に対し、応答を受け取れなかった（応答を返送してこなかった）ノード１のＩＰアドレスおよび識別子を通知するとともに、ヘルスチェックパケットを受け取れなかったノード１に対してｉｃｍｐ（エコー要求）を送信するよう指示する。この指示を受けたアンダーレイネットワーク探索部１３は、死活監視部１２からの指示内容に従いｉｃｍｐを送信し（ステップＳ３）、これに対する応答を規定時間（上記、ヘルスチェックパケットに対する応答を受信するまでの規定時間とは異なる）内に受け取れなかった場合（ステップＳ４：Ｎｏ）、後述するステップＳ６の処理を実行してアンダーレイネットワークに関する経路の探索を行う。

　一方、ｉｃｍｐに対する応答を規定時間内に受け取った場合には（ステップＳ４：Ｙｅｓ）、監視対象のＨ／Ｗ（上記ステップＳ３でｉｃｍｐの送信先としたノード１）とアンダーレイネットワークが正常であることを管理装置３に通知する（ステップＳ５）。

　このようにすることによって、あるノード１がｉｃｍｐを送信し、その応答が送信されてきた場合には、オーバーレイネットワークを構成する機能がダウンしてはいるものの、ｉｃｍｐの送信先としたノードの機能を動作させるハードウエアおよびアンダーレイネットワーク自体には異常がないということを切り分けることが可能となる。管理装置３は、ステップＳ５での通知内容に従い、検出結果を表示部３３に表示させて外部のネットワーク管理者などに通知する。

　以上のステップ５までを実行した結果、ｉｃｍｐに対する応答が規定の時間以内に返ってこない場合には、監視対象のノード（ｉｃｍｐに対する応答を返送してこないノード１）に関してハードウエア異常が発生しているか、この監視対象のノードに至るまでのアンダーレイネットワークに何らかの異常が発生していると考えられる。

　これ以降の説明では、便宜上、他のノード１の監視動作において異常を検出したノード１を「エレメント＿Detecter」と呼ぶ。また、監視対象のノード１のうち、異常が発生したと推定されるノード１を「エレメント＿Err」と呼ぶ。

　上記ステップＳ４でｉｃｍｐに対する応答を受け取れなかった場合（ステップＳ４：Ｎｏ）、エレメント＿Detecterのアンダーレイネットワーク経路探索部１３は、Ｔｒａｃｅｒｏｕｔｅを実行し、アンダーレイネットワークに関する経路（監視対象のノード(エレメント＿Err)に至るまでのネットワークパス）の探索を行う（ステップＳ６）。このＴｒａｃｅｒｏｕｔｅは、一般的なＩＰネットワークにおけるＴｒａｃｅｒｏｕｔｅを指しており、アンダーレイネットワークにおけるネットワークパスを知ることが可能な機能である。このステップＳ６を実行することにより、エレメント＿Detecctorのアンダーレイネットワーク経路探索部１３は、自ノードからエレメント＿Errに至るまでの、アンダーレイネットワークにおける経路（正常範囲の経路）を判別する（ステップＳ７）。すなわち、異常が発生しているルータ等の機器の直前までの、導通可能なアンダーレイネットワーク（正常動作している範囲）を構成している一連の機器（ルータ／スイッチ４）のＩＰアドレスを特定する。さらに、エレメント＿Detecterのアンダーレイネットワーク経路探索部１３は、ステップＳ７を実行して判別した正常範囲を構成しているノードのＩＰアドレスと、エレメント＿Errの識別子と、エレメント＿Detecterの識別子およびＩＰアドレスとを管理装置３に通知する（ステップＳ８）。

　管理装置３は、上記ステップＳ８を実行したノード１（エレメント＿Detecctor）から上記情報の通知を受けると、エレメント＿Errに対してＴｒａｃｅｒｏｕｔｅを実行するように指示を行い、エレメント＿Detecctorまでのアンダーレイネットワークにおける経路探索を実行させる（ステップＳ９）。管理装置３は、ノード一覧テーブル３４を参照することによりエレメント＿Errの識別子が分かるため、エレメント＿Errに対してＴｒａｃｅｒｏｕｔｅを実行するよう指示できる。なお、このステップＳ９における指示は、死活監視部３２が行う。

　エレメント＿Errは、監視装置３からの指示に従ってＴｒａｃｅｒｏｕｔｅを実行し（ステップＳ１０）、この結果判明したパス（アンダーレイネットワークにおけるエレメント＿Detecctorまでの経路上で異常が発生しているルータ等の機器の直前までの経路（パス）を構成している一連の機器のＩＰアドレス）を管理装置３に通知する（ステップＳ１１）。

　管理装置３は、上記のステップＳ８での通知内容とステップＳ１１での通知内容に基づいて、エレメント＿Detecctorとエレメント＿Errとの間の経路上のどこで故障が発生しているのか（故障範囲）を正確に把握できる。この故障範囲は、表示部３３に表示させて外部に通知してもよい。

　このように、本実施の形態の通信システムにおいて、オーバーレイネットワークの各ノード１は、他のノード１との間でヘルスチェックパケットとこれに対する応答パケットの送受信を行うことによりオーバーレイネットワークにおける通信経路上の異常検出を行い、異常（通信障害）を検出した場合には、異常検出時のヘルスチェックパケットの送信先としたノード１に対して、アンダーレイネットワーク上でエコー要求とこれに対する応答の送受信を行うことにより、上記検出した異常の原因がオーバーレイネットワーク側とアンダーレイネットワーク側のどちらにあるのかを判別し、さらに、原因がアンダーレイネットワーク側にある場合には、異常を検出した通信経路の両端のノード１においてＴｒａｃｅｒｏｕｔｅを実行し、この異常を検出した通信経路のうち、正常に動作している範囲を判別することとした。これにより、通信障害が発生した場合に、発生した障害がオーバーレイネットワークの問題によるものであるのか、もしくはアンダーレイネットワークの問題によるもの（機器の故障等に起因するもの）であるのかを切り分けることができる。また、アンダーレイネットワークに問題があるかどうかを外部に通知できる。さらに、アンダーレイネットワークに問題がる場合には故障箇所を特定して外部に通知することができる。

　以上のように、本発明は、アンダーレイネットワーク、およびアンダーレイネットワーク上に構築されたオーバーレイネットワークを含んで構成された通信システムとして有用である。

　１　ノード
　２　ホスト
　３　管理装置
　４　ルータ／スイッチ
　１１，３１　メッセージ送受信部
　１２，３２　死活監視部
　１３　アンダーレイネットワーク経路探索部
　１４　接続中ノードテーブル
　１５　管理装置テーブル
　１６　配下ホストテーブル
　３３　表示部
　３４　ノード一覧テーブル
　３５　ホスト一覧テーブル

Claims

　アンダーレイネットワークと、ノードおよび管理装置を含んで構成されたオーバーレイネットワークとを備えた通信システムであって、
　前記ノードは、
　接続されている他のノードとの間で通信障害検出用の信号を定期的に送信して通信障害検出を行う障害検出手段と、
　前記障害検出手段により通信障害が検出された場合に、通信障害が検出された経路を介して接続されている他のノードとの間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク確認手段と、
　を備え、
　前記管理装置は、
　前記アンダーレイネットワーク確認手段によりアンダーレイネットワークにおける通信経路上での障害が検出された場合、前記他のノードに対して、前記アンダーレイネットワークにおける通信経路上での障害を検出したノードとの間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う指示手段、
　を備えることを特徴とする通信システム。
　前記障害検出手段は、前記通信障害検出用の信号を送信後、当該信号に対する応答信号を規定時間内に受信できなかった場合、通信障害が発生したと判断する
　ことを特徴とする請求項１に記載の通信システム。
　前記アンダーレイネットワーク確認手段は、
　アンダーレイネットワークにおける通信経路上での障害発生を検出した場合、さらに、当該通信経路上で正常に動作している機器を特定する
　ことを特徴とする請求項１に記載の通信システム。
　前記アンダーレイネットワーク確認手段は、
　アンダーレイネットワークにおける通信経路上での障害発生を検出した場合、さらに、Ｔｒａｃｅｒｏｕｔｅを実行することにより、当該通信経路上で、自ノードを起点として、自ノードからの送信信号を正常に処理している各機器を特定し、
　前記指示手段は、
　前記他のノードにＴｒａｃｅｒｏｕｔｅを実行させ、前記通信経路上で、前記他のノードを起点として、前記他のノードからの送信信号を正常に処理している各機器を特定させる
　ことを特徴とする請求項１、２または３に記載の通信システム。
　アンダーレイネットワークと、ノードおよび管理装置を含んで構成されたオーバーレイネットワークとを備えた通信システムにおいて実行するネットワーク障害検出方法であって、
　前記ノードが実行する処理として、
　接続されている他のノードとの間で通信障害検出用の信号を定期的に送信して通信障害が発生しているかどうか確認する通信障害確認ステップと、
　前記通信障害確認ステップで通信障害を検出した場合、さらに、当該通信障害を検出した経路を介して接続されている他のノードとの間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク確認ステップと、
　を含み、
　前記管理装置が実行する処理として、
　前記アンダーレイネットワーク確認ステップで障害が検出された場合に、前記他のノードに対して、当該障害を検出したノードとの間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う指示ステップ、
　を含む
　ことを特徴とするネットワーク障害検出方法。
　前記ノードが実行する処理として、
　さらに、
　前記アンダーレイネットワーク確認ステップで障害を検出した場合に、当該障害を検出した通信経路上で正常に動作している機器を特定する正常動作機器特定ステップ、
　を含む
　ことを特徴とする請求項５に記載のネットワーク障害検出方法。