WO2012070274A1 - 通信システムおよびネットワーク障害検出方法 - Google Patents

通信システムおよびネットワーク障害検出方法 Download PDF

Info

Publication number
WO2012070274A1
WO2012070274A1 PCT/JP2011/064938 JP2011064938W WO2012070274A1 WO 2012070274 A1 WO2012070274 A1 WO 2012070274A1 JP 2011064938 W JP2011064938 W JP 2011064938W WO 2012070274 A1 WO2012070274 A1 WO 2012070274A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
failure
communication
underlay network
detected
Prior art date
Application number
PCT/JP2011/064938
Other languages
English (en)
French (fr)
Inventor
陽輔 西潟
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Publication of WO2012070274A1 publication Critical patent/WO2012070274A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/64Routing or path finding of packets in data switching networks using an overlay routing layer

Definitions

  • the present invention relates to a communication system that transmits and receives packets in an overlay network configured by a plurality of nodes on an underlay network that is a real network, and a network failure detection method that is executed in the communication system.
  • Patent Document 1 describes a technique for detecting a network failure in a network system that performs packet communication in an overlay network.
  • the RTT, the packet loss rate, and the temporal variation of the available bandwidth are monitored as monitoring parameters for performing abnormality detection, and are defined by a certain statistical method. If it is out of range, it is considered abnormal.
  • the calculation of RTT is based on the time stamp of the transmission time given by the transmission node in the routing header on the overlay network, and is based on using the difference between the time stamp and the reception time engraved by the reception node.
  • this method assumes high-accuracy time synchronization of the transmitting and receiving nodes that determine the transmission time and reception time, but this generally requires special synchronization processing or a high-accuracy clock and cannot be realized easily. There is.
  • the network abnormality on the overlay network is not necessarily caused only by some abnormality of the underlay network, but may be caused by an error in the logical setting of the overlay network. Therefore, it is desirable to be able to isolate the problem caused by the overlay network and the problem caused by the underlay network.
  • the present invention has been made in view of the above, and adopts a configuration in which an overlay network is constructed on an underlay network, and when a communication failure occurs, the generated failure is a problem of the overlay network. It is an object of the present invention to obtain a communication system that can determine whether it is caused by a failure of an underlay network or the like. It is another object of the present invention to provide a communication system and a network failure detection method for notifying an administrator when an overlay network setting or the like is incorrect.
  • the present invention is a communication system including an underlay network and an overlay network configured to include a node and a management device, wherein the node is connected.
  • a failure detecting means for periodically detecting a communication failure by transmitting a signal for detecting a communication failure with another node, and a communication failure is detected by the failure detecting means.
  • Underlay network confirmation means for confirming whether a failure has occurred on the communication path in the underlay network with other nodes connected via the detected path, and the management device comprises: When a failure on the communication path in the underlay network is detected by the underlay network confirmation unit, the other Instruction means for instructing a node to identify a device normally operating on a communication path in an underlay network with a node that detects a failure on the communication path in the underlay network; It is characterized by providing.
  • the present invention when a communication failure occurs, it is determined whether the failure is caused by an overlay network problem or an underlay network problem (due to a device failure or the like). In addition to being able to isolate, when a problem occurs in the underlay network, the problem occurrence location can be identified.
  • FIG. 1 is a diagram showing a configuration example of a communication system according to the present invention.
  • FIG. 2 is a diagram illustrating a configuration of a packet to which a routing header is added.
  • FIG. 3 is a diagram illustrating a configuration example of a node.
  • FIG. 4 is a diagram illustrating a configuration example of the management apparatus.
  • FIG. 5 is a flowchart showing an example of a failure monitoring operation in the communication system shown in FIG.
  • FIG. 1 is a diagram showing a configuration example of a communication system according to the present invention.
  • the communication system shown in FIG. 1 includes a node 1, a host 2, a management device 3, and a router / switch 4.
  • a plurality of routers / switches 4 form an underlay network, and a plurality of nodes 1 form an overlay network.
  • the management device 3 manages the node 1, and the host 2 which is a user terminal performs communication on the overlay network.
  • the numbers of nodes 1 and hosts 2 are not limited to those shown in FIG.
  • a plurality of hosts 2 may be connected to one node 1.
  • the host 2 is connected to the node 1 via an I / F (interface, not shown in FIG. 1) for connecting to the node 1. Further, the node 1 is connected to one or more other nodes 1 via an I / F (not shown in FIG. 1) for connecting to the other nodes 1.
  • a packet transmitted from each host 2 to another host 2 or the like via a network formed by the node 1 can be routed on the overlay network by the node 1 that directly receives the packet from the host 2.
  • a routing header is added. The configuration of a packet with a routing header added is as shown in FIG.
  • the packet transferred (transmitted / received) between the nodes 1 has the format shown in FIG. Specifically, the configuration includes an IP, TCP / UDP header, a routing header, and a payload. Further, as illustrated, the routing header includes at least an identifier of a transmission destination device (transmission destination identifier), an identifier of a transmission source device (transmission source identifier), and a message type.
  • the message type is information indicating the type of message (information) transmitted by the packet.
  • Each node 1 that has received the packet can determine whether the information included in the received packet is a control message or user data by confirming the message type in the routing header.
  • each of the node 1, the host 2, and the management device 3 is assigned a unique identifier.
  • FIG. 3 is a diagram illustrating a configuration example of the node 1.
  • the node 1 includes a message transmission / reception unit 11, an alive monitoring unit 12, and an underlay network route search unit 13, and holds a connected node table 14, a management device table 15, and a subordinate host table 16.
  • the message transmission / reception unit 11 transmits / receives messages (packets) to / from other devices (other nodes 1, host 2, management device 3) on the overlay network.
  • the alive monitoring unit 12 that operates as a failure detection means monitors whether or not communication with other nodes 1 is normally performed (whether a failure has occurred on the communication path).
  • the underlay network route search unit 13 that operates as an underlay network confirmation unit searches for a route on the underlay network for another node 1.
  • a map is registered between the identifier of the other node 1 connected to itself (node 1) and the IP address of the host 2 connected to each of the other nodes 1. .
  • the management device table 15 the identifier and IP address of the management device 3 are registered.
  • the subordinate host table 16 an identifier and an IP address of the host 2 directly connected to itself are registered.
  • the node 1 having such a configuration receives a packet from the host 2 connected to itself, the node 1 refers to the connected node table 14 and the subordinate host table 16, and the host 2 that is the destination of the received packet 2 is generated, the packet having the configuration shown in FIG. 2 is generated and transmitted to another node 1 to which the destination host 2 is connected.
  • the identifier of the other node 1 to which the host 2 serving as the destination of the packet received from the host 2 connected to itself is set as the transmission destination identifier of the routing header to be given to the packet.
  • the packet is transferred to the destination host 2.
  • the packet with a routing header When a packet with a routing header is received from another node 1, if the destination identifier of the routing header indicates itself (that is, the received packet is a packet addressed to the host 2 connected to itself). If there is any), the routing header is removed and the data is transferred to the corresponding host 2. If the received packet is not addressed to the host 2 connected to itself, the packet is transferred to another node 1 according to the routing header attached to the packet.
  • FIG. 4 is a diagram illustrating a configuration example of the management apparatus 3.
  • the management device 3 includes a message transmission / reception unit 31, an alive monitoring unit 32, and a display unit 33, and holds a node list table 34 and a host list table 35.
  • the message transmission / reception unit 31 transmits / receives a message (packet) to / from another device (node 1) on the overlay network.
  • the life and death monitoring unit 32 that operates as an instruction unit performs a route search execution instruction for abnormality analysis to the node 1 related to the abnormality occurrence location according to the content of the abnormality detection result notification from the node 1 and is necessary. Collect information.
  • the display unit 33 performs a display for notifying the network administrator or the like of the monitoring result by the alive monitoring unit 32.
  • node list table 34 identifiers of all the nodes 1 in the communication system are registered.
  • host list table 35 a map of identifiers of all hosts connected to the node 1 in the communication system and identifiers of the connected node 1 is registered.
  • the management device 3 communicates with the node 1 by transmitting and receiving the packet having the configuration shown in FIG.
  • FIG. 5 is a flowchart showing an example of a failure monitoring operation in the communication system shown in FIG.
  • each node 1 periodically monitors the state of a communication path with another node 1. Specifically, the alive monitoring unit 12 of each node 1 transmits a health check packet (HealthCheck) at a predetermined time interval to the other nodes 1 connected to itself and sends a response to this for a specified time. (Step S1, S2). When the response is received within the specified time (step S2: Yes), the operation of transmitting the health check packet at a predetermined time interval and waiting for the response is continued. In addition, when the alive monitoring unit 12 receives a health check packet from another node 1, the alive monitoring unit 12 returns a response packet within a specified time.
  • HealthCheck health check packet
  • the alive monitoring unit 12 when transmitting the health check packet, sets a value indicating the health check packet for the message type (see FIG. 2) in the routing header.
  • the message transmission / reception unit 11 of the node 1 determines whether a packet received from another node 1 or the like corresponds to a health check packet based on the message type in the routing header, and the value of the message type indicates the health check packet. If there is, the received packet is passed to the alive monitoring unit 12.
  • the alive monitoring unit 12 sets a value indicating that the packet is a response packet to the health check packet for the message type in the routing header.
  • the source and destination IP addresses can be known from the IP header of the packet, so a response packet to the health check can be transmitted using this information. Is possible.
  • step S2 If the response is not received within the specified time after transmitting the health check packet (step S2: No), the alive monitoring unit 12 cannot receive the response to the underlay network route search unit 13 (returns the response). Notify the node 1's IP address and identifier, and instruct the node 1 that has not received the health check packet to send an icmp (echo request).
  • the underlay network search unit 13 that has received this instruction transmits icmp according to the instruction content from the alive monitoring unit 12 (step S3), and responds to this for a specified time (until the response to the health check packet is received). If it is not received within the predetermined time (step S4: No), the process of step S6 described later is executed to search for a route related to the underlay network.
  • step S4 if the response to icmp is received within the specified time (step S4: Yes), the monitored H / W (node 1 that is the icmp transmission destination in step S3) and the underlay network are normal. This is notified to the management device 3 (step S5).
  • the management device 3 displays the detection result on the display unit 33 according to the notification content in step S5 and notifies an external network administrator or the like.
  • the node 1 that has detected an abnormality in the monitoring operation of the other node 1 is referred to as “element_Detecter”.
  • the node 1 that is estimated to have an abnormality is referred to as “element_Err”.
  • step S6 When the response to icmp is not received in step S4 (step S4: No), the underlay network route searching unit 13 of the element_Detecter executes the traceroute, and the route related to the underlay network (monitored node (element_Err) (Network path leading up to) is searched (step S6).
  • This Traceroute refers to Traceroute in a general IP network, and is a function capable of knowing the network path in the underlay network.
  • the underlay network route search unit 13 of the element_Detecctor determines the route (normal range route) in the underlay network from the self node to the element_Err (step S7).
  • the IP addresses of a series of devices (router / switch 4) that make up a conductive underlay network (range of normal operation) up to the point immediately before the device such as the router in which an abnormality has occurred are specified.
  • the underlay network route searching unit 13 of the element_Detector obtains the IP address of the node constituting the normal range determined by executing Step S7, the identifier of the element_Err, the identifier of the element_Detector, and the IP address.
  • the management device 3 is notified (step S8).
  • the management apparatus 3 When the management apparatus 3 receives the notification of the information from the node 1 (element_Detecctor) that has executed step S8, the management apparatus 3 instructs the element_Err to execute Traceroute, and the path in the underlay network to the element_Detecctor A search is executed (step S9). Since the identifier of the element_Err is known by referring to the node list table 34, the management device 3 can instruct the element_Err to execute Traceroute. The life and death monitoring unit 32 gives the instruction in step S9.
  • Element_Err executes Traceroute according to the instruction from the monitoring device 3 (step S10), and the path found as a result (until just before a device such as a router in which an abnormality has occurred on the route to the element_Detecctor in the underlay network) (IP address of a series of devices constituting the path) is notified to the management apparatus 3 (step S11).
  • the management device 3 Based on the notification content in step S8 and the notification content in step S11, the management device 3 accurately determines where the failure has occurred (failure range) on the path between the element_Detecctor and the element_Err. Can grasp. This failure range may be displayed on the display unit 33 and notified to the outside.
  • each node 1 of the overlay network transmits / receives a health check packet and a response packet to the other node 1, thereby communicating on the communication path in the overlay network.
  • an abnormality is detected and an abnormality (communication failure) is detected
  • an echo request and a response to the response are sent and received on the underlay network to the node 1 that is the transmission destination of the health check packet when the abnormality is detected.
  • the cause of the detected abnormality is on the overlay network side or the underlay network side, and if the cause is on the underlay network side, both ends of the communication path where the abnormality is detected are detected.
  • Run Traceroute on node 1 Of the detected communication path abnormality it was decided to determine the range that is operating normally. As a result, when a communication failure occurs, it is possible to determine whether the failure has occurred due to an overlay network problem or an underlay network problem (due to a device failure, etc.). it can. It can also notify the outside if there is a problem with the underlay network. Furthermore, when there is a problem with the underlay network, it is possible to identify the failure location and notify the outside.
  • the present invention is useful as a communication system including an underlay network and an overlay network constructed on the underlay network.
  • node 2 host 3 management device 4 router / switch 11, 31 message transmission / reception unit 12, 32 alive monitoring unit 13 underlay network route search unit 14 connected node table 15 management device table 16 subordinate host table 33 display unit 34 node list table 35 Host list table

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

 本発明にかかる通信システムでは、ノード1は、通信障害検出を行う死活監視部と、通信障害が検出された場合に、通信障害が検出された経路を介して接続されている他のノード1との間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク経路探索部と、を備え、管理装置3は、アンダーレイネットワークにおける通信経路上での障害が検出された場合、他のノード1に対して、障害を検出したノード1との間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う死活監視部、を備える。

Description

通信システムおよびネットワーク障害検出方法
 本発明は、実ネットワークであるアンダーレイネットワーク上に複数のノードによって構成されたオーバーレイネットワークにおいてパケットの送受信を行う通信システム、およびこの通信システムで実行するネットワーク障害検出方法に関する。
 例えば、特許文献1には、オーバーレイネットワークにおいてパケット通信を行うネットワークシステムにおけるネットワーク障害を検出する技術について記載されている。
 特許文献1に記載された技術によれば、複数のノードから構成されるオーバーレイネットワークがIPルーティングによるネットワーク(=アンダーレイネットワーク)の上に重畳されている場合において、オーバーレイネットワークでルーティングされるトラヒックに関する統計情報(RTT(Round Trip Time)やパケットロス率,利用可能帯域幅)を利用してアンダーレイネットワークのトポロジ変化が発生したことを推定し、これを契機として、経路トレース処理(Tracerouteによる経路探索)を実施し、得られたアンダーレイネットワークの経路情報と事前に取得しておいたアンダーレイネットワークの経路情報を比較し、アンダーレイネットワークでの障害推定を行う。
特開2010-88031号公報
 特許文献1に記載の技術では、異常検出を行うための監視パラメータとして、RTT,パケットロス率,利用可能帯域幅の時間的な変動を監視しておき、それがある統計的な方法で規定される範囲からずれている場合を異常とみなす。RTTの算出は、オーバーレイネットワーク上でのルーティング用ヘッダの中に送信ノードが付与する送信時刻のタイムスタンプに基づくものであり、タイムスタンプと受信ノードが刻む受信時刻との差分を用いることによる。しかしこの方法は送信時刻および受信時刻を決定する送受信ノードの高精度な時刻同期を前提とするがこれは一般に特殊な同期処理もしくは高精度なクロックが必要になってしまい容易には実現できないという問題がある。
 また、経路探索についても、異常を検出したノードが探索を行うのみであるため、故障箇所の推定範囲が広いという問題がある。
 また、オーバーレイネットワーク上のネットワーク異常は、必ずしもアンダーレイネットワークの何らかの異常のみを原因とするものではなく、オーバーレイネットワークの論理的な設定の誤り等も原因と成り得る。そのため、オーバーレイネットワークに起因する問題とアンダーレイネットワークに起因する問題とを切り分けることを可能とすることが望ましい。
 本発明は、上記に鑑みてなされたものであって、アンダーレイネットワーク上にオーバーレイネットワークが構築されている構成を採用し、通信障害が発生した場合に、発生した障害がオーバーレイネットワークの問題であるのか、もしくはアンダーレイネットワークの故障等に起因するものであるのかを切り分けることが可能な通信システムを得ることを目的とする。また、オーバーレイネットワークの設定などに誤りがある場合に、管理者への通知を行う通信システムおよびネットワーク障害検出方法を得ることを目的とする。
 上述した課題を解決し、目的を達成するために、本発明は、アンダーレイネットワークと、ノードおよび管理装置を含んで構成されたオーバーレイネットワークとを備えた通信システムであって、前記ノードは、接続されている他のノードとの間で通信障害検出用の信号を定期的に送信して通信障害検出を行う障害検出手段と、前記障害検出手段により通信障害が検出された場合に、通信障害が検出された経路を介して接続されている他のノードとの間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク確認手段と、を備え、前記管理装置は、前記アンダーレイネットワーク確認手段によりアンダーレイネットワークにおける通信経路上での障害が検出された場合、前記他のノードに対して、前記アンダーレイネットワークにおける通信経路上での障害を検出したノードとの間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う指示手段、を備えることを特徴とする。
 本発明によれば、通信障害が発生した場合に、発生した障害がオーバーレイネットワークの問題によるものであるのか、もしくはアンダーレイネットワークの問題によるもの(機器の故障等に起因するもの)であるのかを切り分けることができるとともに、アンダーレイネットワークで問題が発生している場合には、問題の発生箇所を特定することができる、という効果を奏する。
図1は、本発明にかかる通信システムの構成例を示す図である。 図2は、ルーティングヘッダが付加されたパケットの構成を示す図である。 図3は、ノードの構成例を示す図である。 図4は、管理装置の構成例を示す図である。 図5は、図1に示した通信システムにおける障害監視動作の一例を示したフローチャートである。
 以下に、本発明にかかる通信システムおよびネットワーク障害検出方法の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
実施の形態.
 図1は、本発明にかかる通信システムの構成例を示す図である。図1に示した通信システムは、ノード1、ホスト2、管理装置3およびルータ/スイッチ4を含んで構成されている。複数のルータ/スイッチ4がアンダーレイネットワークを形成し、複数のノード1がオーバーレイネットワークを形成している。管理装置3はノード1を管理し、ユーザ端末であるホスト2はオーバーレイネットワーク上で通信を行う。なお、ノード1およびホスト2の数は図1に示したものに限定されない。また、1つのノード1に対して複数のホスト2が接続される場合もある。
 図1に示した構成の通信システムにおいて、ホスト2は、ノード1と接続するためのI/F(インタフェース、図1では記載を省略している)を介してノード1に接続されている。また、ノード1は、他のノード1と接続するためのI/F(図1では記載を省略している)を介して1つまたは複数の他のノード1と相互に接続されている。各ホスト2からノード1により形成されたネットワークを経由して他のホスト2などに送信されるパケットは、ホスト2からのパケットを直接受信したノード1によって、オーバーレイネットワーク上でのルーティングを可能とするためのルーティングヘッダが付加される。ルーティングヘッダが付加されたパケットの構成は図2に示したものとなる。
 ノード1同士の間で転送される(送受信される)パケットは、図2に示した形式となる。具体的には、IP,TCP/UDPヘッダと、ルーティングヘッダと、ペイロードとを含んだ構成となる。また、図示したように、ルーティングヘッダは、少なくとも、送信先の機器の識別子(送信先識別子)、送信元の機器の識別子(送信元識別子)、およびメッセージ種別を含む。メッセージ種別は、パケットにより送信されるメッセージ(情報)の種別を示す情報である。パケットを受信した各ノード1は、ルーティングヘッダ内のメッセージ種別を確認することにより、受信したパケットに含まれる情報が制御メッセージであるのか、またはユーザーデータであるのかの判別ができる。
 また、ノード1、ホスト2および管理装置3のそれぞれには、一意な識別子が付与されている。
 図3は、ノード1の構成例を示す図である。ノード1は、メッセージ送受信部11、死活監視部12およびアンダーレイネットワーク経路探索部13を備え、また、接続中ノードテーブル14、管理装置テーブル15および配下ホストテーブル16を保持している。
 メッセージ送受信部11は、オーバーレイネットワーク上の他の装置(他のノード1,ホスト2,管理装置3)との間でメッセージ(パケット)の送受信を行う。
 障害検出手段として動作する死活監視部12は、他のノード1との間の通信が正常に行われるかどうか(通信経路上で障害が発生していないかどうか)を監視する。
 アンダーレイネットワーク確認手段として動作するアンダーレイネットワーク経路探索部13は、他のノード1に対するアンダーレイネットワーク上での経路を探索する。
 接続中ノードテーブル14には、自分自身(ノード1)に接続されている他のノード1の識別子と、他のノード1各々に接続されているホスト2のIPアドレスとのマップが登録されている。管理装置テーブル15には、管理装置3の識別子およびIPアドレスが登録されている。配下ホストテーブル16には、自分自身に直接接続されているホスト2の識別子およびIPアドレスが登録されている。
 このような構成のノード1は、自分自身に接続されているホスト2からパケットを受信した場合、接続中ノードテーブル14および配下ホストテーブル16を参照し、受信したパケットの宛先となるホスト2が他のノード1に接続されていれば、図2に示した構成のパケットを生成し、宛先ホスト2が接続されている他のノード1に向けて送信する。このとき、パケットに付与するルーティングヘッダの送信先識別子には、自分自身に接続されているホスト2から受信したパケットの宛先となるホスト2が接続されている他のノード1の識別子を設定する。また、受信したパケットの宛先となるホスト2が自分自身に接続されている場合には、その宛先ホスト2に対してパケットを転送する。他のノード1からルーティングヘッダが付与されたパケットを受信した場合、ルーティングヘッダの送信先識別子が自分自身を示していれば(すなわち、受信パケットが自分自身に接続されているホスト2宛のパケットであれば)、ルーティングヘッダを取り除いた上で、該当するホスト2へ転送する。また、受信パケットが自分自身に接続されているホスト2宛のパケットではない場合には、パケットに付与されているルーティングヘッダに従い、他のノード1へ転送する。
 図4は、管理装置3の構成例を示す図である。管理装置3は、メッセージ送受信部31、死活監視部32および表示部33を備え、また、ノード一覧テーブル34およびホスト一覧テーブル35を保持している。
 メッセージ送受信部31は、オーバーレイネットワーク上の他の装置(ノード1)との間でメッセージ(パケット)の送受信を行う。
 指示手段として動作する死活監視部32は、ノード1からの異常検出結果通知の内容に応じて、異常発生箇所に関連するノード1に対して異常解析のための経路検索実行指示を行い、必要な情報を収集する。
 表示部33は、死活監視部32による監視結果をネットワーク管理者などへ通知するための表示を行う。
 ノード一覧テーブル34には、通信システム内のすべてのノード1の識別子が登録されている。ホスト一覧テーブル35には、通信システム内のノード1に接続しているすべてのホストの識別子と接続しているノード1の識別子とのマップが登録されている。
 管理装置3は、図2に示した構成のパケットを送受信することによりノード1との間で通信を行う。
 つづいて、本実施の形態の通信システムのオーバーレイネットワークにおいて実行する特徴的な動作について、図5を用いて説明する。なお、図5は、図1に示した通信システムにおける障害監視動作の一例を示したフローチャートである。
 本実施の形態の通信システムにおいて、各ノード1は、他のノード1との間の通信経路の状態を定期的に監視している。具体的には、各ノード1の死活監視部12が、自分自身に接続中の他のノード1に対して、所定の時間間隔でヘルスチェックパケット(HealthCheck)を送信し、これに対する応答を規定時間内に受け取ったかどうかを確認する(ステップS1,S2)。規定時間内に応答を受け取った場合(ステップS2:Yes)、所定の時間間隔でヘルスチェックパケットを送信して応答を待つ動作を継続する。なお、死活監視部12は、他のノード1からのヘルスチェックパケットを受信した場合、規定時間内に応答パケットを返送する。また、死活監視部12は、ヘルスチェックパケットを送信する場合、ルーティングヘッダ内のメッセージ種別(図2参照)に対して、ヘルスチェックパケットを示す値を設定する。ノード1のメッセージ送受信部11は、他のノード1などから受信したパケットがヘルスチェックパケットに該当するかどうかをルーティングヘッダ内のメッセージ種別にて判別し、メッセージ種別の値がヘルスチェックパケットを示している場合、受信したパケットを死活監視部12に渡す。死活監視部12は、ヘルスチェックパケットに対する応答パケットを送信する場合、ルーティングヘッダ内のメッセージ種別に対して、ヘルスチェックパケットに対する応答パケットであることを示す値を設定する。ここで、ヘルスチェックパケットとしてIPパケットを使用している場合、パケットのIPヘッダから送信元と送信先のIPアドレスが分かるため、この情報を使用することでヘルスチェックに対する応答パケットを送信することが可能である。
 ヘルスチェックパケットを送信後、規定時間内に応答を受け取れなかった場合(ステップS2:No)、死活監視部12は、アンダーレイネットワーク経路探索部13に対し、応答を受け取れなかった(応答を返送してこなかった)ノード1のIPアドレスおよび識別子を通知するとともに、ヘルスチェックパケットを受け取れなかったノード1に対してicmp(エコー要求)を送信するよう指示する。この指示を受けたアンダーレイネットワーク探索部13は、死活監視部12からの指示内容に従いicmpを送信し(ステップS3)、これに対する応答を規定時間(上記、ヘルスチェックパケットに対する応答を受信するまでの規定時間とは異なる)内に受け取れなかった場合(ステップS4:No)、後述するステップS6の処理を実行してアンダーレイネットワークに関する経路の探索を行う。
 一方、icmpに対する応答を規定時間内に受け取った場合には(ステップS4:Yes)、監視対象のH/W(上記ステップS3でicmpの送信先としたノード1)とアンダーレイネットワークが正常であることを管理装置3に通知する(ステップS5)。
 このようにすることによって、あるノード1がicmpを送信し、その応答が送信されてきた場合には、オーバーレイネットワークを構成する機能がダウンしてはいるものの、icmpの送信先としたノードの機能を動作させるハードウエアおよびアンダーレイネットワーク自体には異常がないということを切り分けることが可能となる。管理装置3は、ステップS5での通知内容に従い、検出結果を表示部33に表示させて外部のネットワーク管理者などに通知する。
 以上のステップ5までを実行した結果、icmpに対する応答が規定の時間以内に返ってこない場合には、監視対象のノード(icmpに対する応答を返送してこないノード1)に関してハードウエア異常が発生しているか、この監視対象のノードに至るまでのアンダーレイネットワークに何らかの異常が発生していると考えられる。
 これ以降の説明では、便宜上、他のノード1の監視動作において異常を検出したノード1を「エレメント_Detecter」と呼ぶ。また、監視対象のノード1のうち、異常が発生したと推定されるノード1を「エレメント_Err」と呼ぶ。
 上記ステップS4でicmpに対する応答を受け取れなかった場合(ステップS4:No)、エレメント_Detecterのアンダーレイネットワーク経路探索部13は、Tracerouteを実行し、アンダーレイネットワークに関する経路(監視対象のノード(エレメント_Err)に至るまでのネットワークパス)の探索を行う(ステップS6)。このTracerouteは、一般的なIPネットワークにおけるTracerouteを指しており、アンダーレイネットワークにおけるネットワークパスを知ることが可能な機能である。このステップS6を実行することにより、エレメント_Detecctorのアンダーレイネットワーク経路探索部13は、自ノードからエレメント_Errに至るまでの、アンダーレイネットワークにおける経路(正常範囲の経路)を判別する(ステップS7)。すなわち、異常が発生しているルータ等の機器の直前までの、導通可能なアンダーレイネットワーク(正常動作している範囲)を構成している一連の機器(ルータ/スイッチ4)のIPアドレスを特定する。さらに、エレメント_Detecterのアンダーレイネットワーク経路探索部13は、ステップS7を実行して判別した正常範囲を構成しているノードのIPアドレスと、エレメント_Errの識別子と、エレメント_Detecterの識別子およびIPアドレスとを管理装置3に通知する(ステップS8)。
 管理装置3は、上記ステップS8を実行したノード1(エレメント_Detecctor)から上記情報の通知を受けると、エレメント_Errに対してTracerouteを実行するように指示を行い、エレメント_Detecctorまでのアンダーレイネットワークにおける経路探索を実行させる(ステップS9)。管理装置3は、ノード一覧テーブル34を参照することによりエレメント_Errの識別子が分かるため、エレメント_Errに対してTracerouteを実行するよう指示できる。なお、このステップS9における指示は、死活監視部32が行う。
 エレメント_Errは、監視装置3からの指示に従ってTracerouteを実行し(ステップS10)、この結果判明したパス(アンダーレイネットワークにおけるエレメント_Detecctorまでの経路上で異常が発生しているルータ等の機器の直前までの経路(パス)を構成している一連の機器のIPアドレス)を管理装置3に通知する(ステップS11)。
 管理装置3は、上記のステップS8での通知内容とステップS11での通知内容に基づいて、エレメント_Detecctorとエレメント_Errとの間の経路上のどこで故障が発生しているのか(故障範囲)を正確に把握できる。この故障範囲は、表示部33に表示させて外部に通知してもよい。
 このように、本実施の形態の通信システムにおいて、オーバーレイネットワークの各ノード1は、他のノード1との間でヘルスチェックパケットとこれに対する応答パケットの送受信を行うことによりオーバーレイネットワークにおける通信経路上の異常検出を行い、異常(通信障害)を検出した場合には、異常検出時のヘルスチェックパケットの送信先としたノード1に対して、アンダーレイネットワーク上でエコー要求とこれに対する応答の送受信を行うことにより、上記検出した異常の原因がオーバーレイネットワーク側とアンダーレイネットワーク側のどちらにあるのかを判別し、さらに、原因がアンダーレイネットワーク側にある場合には、異常を検出した通信経路の両端のノード1においてTracerouteを実行し、この異常を検出した通信経路のうち、正常に動作している範囲を判別することとした。これにより、通信障害が発生した場合に、発生した障害がオーバーレイネットワークの問題によるものであるのか、もしくはアンダーレイネットワークの問題によるもの(機器の故障等に起因するもの)であるのかを切り分けることができる。また、アンダーレイネットワークに問題があるかどうかを外部に通知できる。さらに、アンダーレイネットワークに問題がる場合には故障箇所を特定して外部に通知することができる。
 以上のように、本発明は、アンダーレイネットワーク、およびアンダーレイネットワーク上に構築されたオーバーレイネットワークを含んで構成された通信システムとして有用である。
 1 ノード
 2 ホスト
 3 管理装置
 4 ルータ/スイッチ
 11,31 メッセージ送受信部
 12,32 死活監視部
 13 アンダーレイネットワーク経路探索部
 14 接続中ノードテーブル
 15 管理装置テーブル
 16 配下ホストテーブル
 33 表示部
 34 ノード一覧テーブル
 35 ホスト一覧テーブル

Claims (6)

  1.  アンダーレイネットワークと、ノードおよび管理装置を含んで構成されたオーバーレイネットワークとを備えた通信システムであって、
     前記ノードは、
     接続されている他のノードとの間で通信障害検出用の信号を定期的に送信して通信障害検出を行う障害検出手段と、
     前記障害検出手段により通信障害が検出された場合に、通信障害が検出された経路を介して接続されている他のノードとの間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク確認手段と、
     を備え、
     前記管理装置は、
     前記アンダーレイネットワーク確認手段によりアンダーレイネットワークにおける通信経路上での障害が検出された場合、前記他のノードに対して、前記アンダーレイネットワークにおける通信経路上での障害を検出したノードとの間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う指示手段、
     を備えることを特徴とする通信システム。
  2.  前記障害検出手段は、前記通信障害検出用の信号を送信後、当該信号に対する応答信号を規定時間内に受信できなかった場合、通信障害が発生したと判断する
     ことを特徴とする請求項1に記載の通信システム。
  3.  前記アンダーレイネットワーク確認手段は、
     アンダーレイネットワークにおける通信経路上での障害発生を検出した場合、さらに、当該通信経路上で正常に動作している機器を特定する
     ことを特徴とする請求項1に記載の通信システム。
  4.  前記アンダーレイネットワーク確認手段は、
     アンダーレイネットワークにおける通信経路上での障害発生を検出した場合、さらに、Tracerouteを実行することにより、当該通信経路上で、自ノードを起点として、自ノードからの送信信号を正常に処理している各機器を特定し、
     前記指示手段は、
     前記他のノードにTracerouteを実行させ、前記通信経路上で、前記他のノードを起点として、前記他のノードからの送信信号を正常に処理している各機器を特定させる
     ことを特徴とする請求項1、2または3に記載の通信システム。
  5.  アンダーレイネットワークと、ノードおよび管理装置を含んで構成されたオーバーレイネットワークとを備えた通信システムにおいて実行するネットワーク障害検出方法であって、
     前記ノードが実行する処理として、
     接続されている他のノードとの間で通信障害検出用の信号を定期的に送信して通信障害が発生しているかどうか確認する通信障害確認ステップと、
     前記通信障害確認ステップで通信障害を検出した場合、さらに、当該通信障害を検出した経路を介して接続されている他のノードとの間のアンダーレイネットワークにおける通信経路上で障害が発生しているかどうか確認するアンダーレイネットワーク確認ステップと、
     を含み、
     前記管理装置が実行する処理として、
     前記アンダーレイネットワーク確認ステップで障害が検出された場合に、前記他のノードに対して、当該障害を検出したノードとの間のアンダーレイネットワークにおける通信経路上で正常に動作している機器を特定するよう指示を行う指示ステップ、
     を含む
     ことを特徴とするネットワーク障害検出方法。
  6.  前記ノードが実行する処理として、
     さらに、
     前記アンダーレイネットワーク確認ステップで障害を検出した場合に、当該障害を検出した通信経路上で正常に動作している機器を特定する正常動作機器特定ステップ、
     を含む
     ことを特徴とする請求項5に記載のネットワーク障害検出方法。
PCT/JP2011/064938 2010-11-26 2011-06-29 通信システムおよびネットワーク障害検出方法 WO2012070274A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-264162 2010-11-26
JP2010264162A JP2014033242A (ja) 2010-11-26 2010-11-26 通信システムおよびネットワーク障害検出方法

Publications (1)

Publication Number Publication Date
WO2012070274A1 true WO2012070274A1 (ja) 2012-05-31

Family

ID=46145636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/064938 WO2012070274A1 (ja) 2010-11-26 2011-06-29 通信システムおよびネットワーク障害検出方法

Country Status (2)

Country Link
JP (1) JP2014033242A (ja)
WO (1) WO2012070274A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470116A (zh) * 2015-08-20 2017-03-01 ***通信集团公司 一种网络故障检测与恢复方法及装置
JP2020061685A (ja) * 2018-10-11 2020-04-16 日本電信電話株式会社 故障箇所推定方法及び故障箇所推定装置
WO2020169112A1 (zh) * 2019-02-22 2020-08-27 华为技术有限公司 定位网络故障的方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210037091A1 (en) * 2019-07-30 2021-02-04 Cisco Technology, Inc. Peer discovery process for disconnected nodes in a software defined network

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239618A (ja) * 2008-03-27 2009-10-15 Kddi Corp 光バースト交換ネットワーク間を波長パスにより中継したシステムでの障害検出方法および障害復旧方法
JP2010088031A (ja) * 2008-10-02 2010-04-15 Nec Corp アンダーレイネットワーク障害検知方法及びネットワークシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239618A (ja) * 2008-03-27 2009-10-15 Kddi Corp 光バースト交換ネットワーク間を波長パスにより中継したシステムでの障害検出方法および障害復旧方法
JP2010088031A (ja) * 2008-10-02 2010-04-15 Nec Corp アンダーレイネットワーク障害検知方法及びネットワークシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KENJI TAKAGI ET AL.: "A Study of Multi- Proactive Route Maintenance for Overlay Network", IPSJ SIG NOTES 2007-DPS-131(7), vol. 2007, no. 58, 6 June 2007 (2007-06-06), pages 37 - 42 *
TAISUKE TOMII ET AL.: "A study on multicast streaming using multi-path: Multi-path Transport Protocol M/RTP", IEICE TECHNICAL REPORT NS2003-254 IN2003-209, vol. 103, no. 691, 26 February 2004 (2004-02-26), pages 1 - 6 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470116A (zh) * 2015-08-20 2017-03-01 ***通信集团公司 一种网络故障检测与恢复方法及装置
CN106470116B (zh) * 2015-08-20 2019-06-25 ***通信集团公司 一种网络故障检测与恢复方法及装置
JP2020061685A (ja) * 2018-10-11 2020-04-16 日本電信電話株式会社 故障箇所推定方法及び故障箇所推定装置
WO2020075587A1 (ja) * 2018-10-11 2020-04-16 日本電信電話株式会社 故障箇所推定方法及び故障箇所推定装置
WO2020169112A1 (zh) * 2019-02-22 2020-08-27 华为技术有限公司 定位网络故障的方法和装置
US11876700B2 (en) 2019-02-22 2024-01-16 Huawei Technologies Co., Ltd. Network fault locating method and apparatus

Also Published As

Publication number Publication date
JP2014033242A (ja) 2014-02-20

Similar Documents

Publication Publication Date Title
EP2962429B1 (en) Traffic recovery in openflow networks
JP5530864B2 (ja) ネットワークシステム、管理サーバ、及び、管理方法
US9602374B2 (en) Systems and methods for collecting and analyzing data to determine link quality and stability in layer two networks
CN112311580B (zh) 报文传输路径确定方法、装置及***、计算机存储介质
JP2008263393A (ja) ネットワークシステム及びノード装置
WO2007073649A1 (fr) Procede et systeme pour obtenir une unite de transfert maximale de voie dans un reseau
JP2006352259A (ja) ネットワーク障害検出装置及びネットワーク障害検出方法
JP2011146982A (ja) コンピュータシステム、及びコンピュータシステムの監視方法
EP2517411A1 (en) Failure detection method and device for fcoe virtual link
JP5949035B2 (ja) ネットワーク機器設定装置、設定システム、設定方法及び設定プログラム
JP2009303092A (ja) ネットワーク装置および回線切替方法
EP2712135A1 (en) Network system, transmission device, and fault information delivery method
WO2012070274A1 (ja) 通信システムおよびネットワーク障害検出方法
US9225588B2 (en) Alarm management apparatus and method for managing alarms
JP2006211173A (ja) ネットワーク監視プログラム及びネットワークシステム
JP2007158569A (ja) ネットワーク障害検出装置
JP2009117920A (ja) 通信装置、通信方法および通信プログラム
EP3846385B1 (en) Slow protocol packet processing method and related apparatus
JP5558436B2 (ja) ネットワークシステムおよびネットワーク故障回避方法
JP2006148376A (ja) ネットワーク監視システム、ネットワーク上位監視装置、ネットワーク下位監視装置及びネットワーク監視方法
JP5518771B2 (ja) 冗長ネットワークシステム、終端装置及び中継点隣接装置
KR20180093175A (ko) Sdn 네트워크의 종단간 연결 상태 확인 시스템 및 방법
KR20150050447A (ko) Bgp 라우팅에 대한 장애 처리 방법
JP3914072B2 (ja) ネットワーク障害監視方法、通信システムおよび回線切替装置
JP2012075009A (ja) 冗長化装置及び冗長化プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843631

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11843631

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP