CN108616418A - 检测故障的方法及装置 - Google Patents

检测故障的方法及装置 Download PDF

Info

Publication number
CN108616418A
CN108616418A CN201810279563.7A CN201810279563A CN108616418A CN 108616418 A CN108616418 A CN 108616418A CN 201810279563 A CN201810279563 A CN 201810279563A CN 108616418 A CN108616418 A CN 108616418A
Authority
CN
China
Prior art keywords
equipment
address
probe messages
response message
mac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810279563.7A
Other languages
English (en)
Inventor
韩艳辉
李飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Priority to CN201810279563.7A priority Critical patent/CN108616418A/zh
Publication of CN108616418A publication Critical patent/CN108616418A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/12Arrangements for detecting or preventing errors in the information received by using return channel
    • H04L1/16Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
    • H04L1/1607Details of the supervisory signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4633Interconnection of networks using encapsulation techniques, e.g. tunneling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开涉及检测故障的方法及装置,所述方法应用于网络设备,所述方法包括:创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号;向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;若确定所述对端设备出现故障,则撤销发布的IP路由。通过发起主动性的健康探测,根据本公开实施例的检测故障的方法及装置能够及时发现故障,做出流量切换调整,降低故障断流时间,减少流量丢失。

Description

检测故障的方法及装置
技术领域
本公开涉及网络技术领域,尤其涉及一种检测故障的方法及装置。
背景技术
VXLAN((Virtual Extensible LAN,虚拟可扩展局域网)是基于IP(InternetProtocol,网络协议)网络、采用“MAC in UDP”封装形式的二层VPN(Virtual PrivateNetwork,虚拟专用网络)技术。VXLAN可以基于已有的服务提供商或企业IP网络,为分散的物理站点提供二层互联,并能够为不同的租户提供业务隔离。
VXLAN的数据包封装后是一个普通的IP-UDP(User Datagram Protocol,用户数据包协议)报文。VXLAN可以借用当前现有IP网络的成熟的ECMP(Equal Cost MultipathRouting,等价路由)、链路聚合等技术。
相关技术中,通过BGP(Border Gateway Protocol,边界网关协议)邻居超时判断IP网络的链路是否故障的方式,对IP网络的链路故障的感知需要较长时间。而在感知到IP网络的链路故障之前,流量仍然通过故障链路转发,造成流量丢失。
发明内容
有鉴于此,本公开提出了一种检测故障的方法及装置,能够减少因链路故障而造成的流量丢失。
根据本公开的一方面,提供了一种检测故障的方法,所述方法应用于网络设备,所述方法包括:创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号;向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;若确定所述对端设备出现故障,则撤销发布的IP路由。
根据本公开的另一方面,提供了一种检测故障的装置,所述装置应用于网络设备,所述装置包括:创建模块,用于创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号;发送模块,用于向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;确定模块,用于若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;撤销模块,用于若确定所述对端设备出现故障,则撤销发布的IP路由。
通过创建源MAC地址为本设备的MAC地址且携带有序列号的探测报文;向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;若确定所述对端设备出现故障,则撤销发布的IP路由,根据本公开的各方面实施例的检测故障的方法及装置能够发起主动性的健康探测,通过接收对端设备的应答报文确认对端设备的健康状况,从而及时发现故障,做出流量切换调整,降低故障断流时间,减少流量丢失。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的检测故障的方法的流程图。
图2a示出根据本公开一实施例的VXLAN的组网示意图。
图2b示出根据本公开一实施例的数据中心互联示意图。
图3示出根据本公开一实施例的检测故障的方法的流程图。
图4示出根据本公开一实施例的检测故障的方法的流程图。
图5示出根据本公开一实施例的检测故障的装置的框图。
图6示出根据本公开一实施例的检测故障的装置的框图。
图7示出根据本公开一实施例的检测故障的装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的检测故障的方法的流程图。图2a示出根据本公开一实施例的VXLAN的组网示意图。如图2a所示,VTEP11、VTEP12、VTEP2为VTEP(VXLAN TunnelEnd Point,VXLAN隧道端点)设备,VM1、VM2为VM(Virtual Machine,虚拟机)设备。VTEP11和VTEP12组成一个MLAG(Multi-chassis LAG,跨设备聚合)***,VTEP11和VTEP12之间可以通过IPL链路(InterPeer Link,聚合***内部链路)连接,VTEP11和VTEP12通过聚合口与VM1连接。VTEP11和VTEP12通过路由设备连接VTEP2。VTEP11和VTEP12使用同一个IP地址(聚合地址)和VTEP2建立VXLAN隧道。VTEP2通过AC口(Attachment Circuit,接入电路)连接VM2,VTEP2采用本设备的IP地址和聚合后的VTEP11与VTEP12建立VXLAN隧道。其中,VTEP11、VTEP12、VTEP2的用户侧设备还可以为容器(虚拟化服务器),本公开实施例中以用户侧设备为VM为例进行说明,并不对本公开进行限制。图2b示出根据本公开一实施例的数据中心互联示意图。如图2b所示,DC1、DC2、DC3为DC(Data Center,数据中心),各数据中心内部可以采用图2a所示的VXLAN组网。R1、R2、R3、R4、R5、R6为路由设备,ED11、ED12、ED21、ED22、ED31、ED32为ED(Edge Device,边界设备)。边界设备的一侧连接数据中心,另一侧通过路由设备连接其他边界设备。ED11和ED12组成一个ED组ED1,ED21和ED22组成一个ED组ED2,ED31和ED32组成一个ED组ED3。ED组内的边界设备使用同一个IP地址(组地址)和其他边界设备建立VXLAN隧道。
图1所示的检测故障的方法可以用于网络设备,例如,网络设备可以是图2a所示的VTEP11、VTEP12、VTEP2等连接用户侧设备和隧道侧设备的接入设备,也可以是图2b所示的ED11、ED12、ED21、ED22、ED31、ED32等用于隧道侧设备互连的边界设备。如图1所示,该检测故障的方法可以包括:
步骤S11,创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号。
其中,探测报文可以表示用于检测其他网络设备是否出现故障,确定本设备与其他网络设备是否能够正常通信。
序列号用于区分探测报文,序列号与探测报文一一对应,网络设备在创建探测报文时,为探测报文分配唯一的序列号。序列号可以根据创建探测报文的顺序、创建探测报文的时间等确定,对此本公开不做限制。
在一种可能的实现方式中,本设备可以通过心跳机制定期发送探测报文,以便于及时发现隧道和链路故障。其中,探测报文的发送时间间隔可以根据需要进行设置,本公开对此不做限制。
步骤S12,向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文。
在一种可能的实现方式,对端设备可以为用户侧设备,例如VM设备。举例来说,如图2a所示,网络设备为VTEP11时,对端设备可以为VM1;网络设备为VTEP2时,对端设备可以为VM2。
在一种可能的实现方式中,对端设备可以为隧道侧设备,例如VTEP设备。举例来说,如图2a所示,网络设备为VTEP11或者VTEP12时,对端设备可以为VTEP2;如图2b所示,网络设备为ED11或者ED12时,对端设备可以为ED2组中的ED设备,对端设备还可以是ED3组中的ED设备。
在对端设备为用户侧设备时,本设备可以从本地AC(Attachment circuit,接入电路)口发送所述探测报文至链路对端与本设备直连的用户侧设备。
在对端设备为隧道侧设备时,本设备可以将探测报文封装为VXLAN报文,并通过VXLAN隧道发送所述VXLAN报文到隧道对端的隧道侧设备。
在一个示例中,在对端设备为隧道侧设备时,网络设备发送探测报文的VXLAN隧道可以为专用VXLAN隧道,该专用VXLAN隧道可以用于本设备和VXLAN中的其他隧道侧设备之间探测报文的发送。如此,发送探测报文的VXLAN隧道对应的VXLAN ID可以为任意一个未被占用的VXLAN ID,例如保留VXLAN ID。在另一个示例中,在对端设备为隧道侧设备时,网络设备发送探测报文的VXLAN隧道可以为本设备和VXLAN中其他隧道侧设备之间承载其他业务的VXLAN隧道。如此,发送探测报文的VXLAN隧道对应的VXLAN ID可以为该业务的VXLANID。本公开对于发送探测报文的VXLAN隧道不做限制。需要说明的是,发送探测报文的VXLAN隧道的对端的隧道侧设备,与探测对端设备为同一网络设备。
在一种可能的实现方式中,网络设备可以非链路聚合设备,也可以为链路聚合设备。对于非链路聚合设备,所述VXLAN报文的报头中携带有本设备的IP地址。如图2a所示,网络设备为VTEP2,VTEP2发送的VXLAN报文的报头中携带有VTEP2的IP地址。对于链路聚合设备,所述VXLAN报文的报头中携带有共享IP地址。如图2a所示,网络设备为VTEP11,VTEP11发送的VXLAN报文的报头中携带有VTEP11和VTEP12共享的IP地址。如图2b所示,网络设备为ED11,ED11发送的VXLAN报文的报头中携带有ED11和ED12共享的IP地址。其中,共享IP地址可以用于表示聚合在一起的多个设备共用的IP地址,例如图2a所示的VTEP11和VTEP12与VTEP2建立VXLAN隧道时VTEP11和VTEP12共用的IP地址。
所述应答报文可以用于表示对端设备响应于所述探测报文而产生的报文。对端设备接收到探测报文时,可以创建针对所述探测报文的应答报文,以便于发送探测报文的网络设备确定该对端设备是否出现故障,是否能够与该对端设备进行正常通信。对端设备创建针对探测报文的应答报文的过程包括:对端设备将探测报文的源MAC地址作为应答报文的目的MAC地址,将探测报文携带的序列号添加至应答报文中。
由于探测报文的源MAC地址为发送探测报文的网络设备的MAC地址,因此对端设备将探测报文的源MAC地址作为应答报文的目的MAC地址,可以使应答报文准确达到发送探测报文的网络设备。
由于序列号可以区分探测报文,因此对端设备将探测报文携带的序列号添加至针对探测报文的应答报文中,可以使接收到应答报文的网络设备确定出该应答报文是针对哪个探测报文的应答报文,使接收到应答报文的网络设备能够建立应答报文和探测报文的关联,进而根据关联的应答设备和探测设备确定对端设备是否出现故障。
在一种可能的实现方式中,探测报文的目的MAC地址可以为指定MAC地址,所述指定MAC地址用于表示报文为探测报文。在一个示例中,指定MAC地址可以为组播MAC地址,例如0xa1。指定MAC地址可以为其他相关技术中的标准协议(例如,OSPF标准协议)未占用的组播MAC地址,对此本公开不做限制。在对端设备为用户侧设备,对端设备接收到探测报文后,发现探测报文的目的MAC地址为指定MAC地址时,可以确定该报文为一个探测报文,从而可以直接将探测报文送入探测进程进行处理。在对端设备为隧道侧设备时,对端设备接收到探测报文封装得到的VXLAN报文后,进行解封装,发现解封装后的报文的目的MAC地址为指定MAC地址时,可以确定该报文为一个探测报文,从而可以直接将探测报文送入探测进程进行处理。其中,探测报文在探测进程进行处理的过程如上述的创建针对探测报文的应答报文的过程,这里不再赘述。
步骤S13,若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障。
在发送探测报文之后,网络设备可以启动针对该探测报文的计时器开始计时。在一种可能的实现方式中,本设备可以在接收到针对探测报文的应答报文的情况下,停止计时,消除计时器。
在一种可能的实现方式中,网络设备启动针对探测报文的计时器后,可以将该计时器对应于该探测报文携带的序列号。这样,本设备可以根据应答报文中携带的序列号,确定该应答报文对应的计时器。
指定时间可以根据需要进行设置。本公开对于指定时间的设置不做限制。
目的MAC地址为本设备的MAC地址且携带有探测报文的序列号的应答报文,为对端设备针对本设备发送的探测报文创建的应答报文。
当对端设备为用户侧设备时,若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,表明对端设备与本设备之间的物理链路、对端设备中的VSwitch到VM的逻辑路径中的一者或多者出现故障,本设备无法与对端设备进行通信,本设备可以确定对端设备出现了故障。同理,当对端设备为隧道侧设备时,若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,表明隧道对端的设备与本设备之间的隧道和对端设备内部中的一者或两者出现了故障,本设备无法与对端设备进行通信,本设备可以确定对端设备出现了故障。
步骤S14,若确定所述对端设备出现故障,则撤销发布的IP路由。
网络设备可以通过发布IP路由建立与其他网络设备的通信,通过撤销发布的IP路由断开与其他网络设备的通信。当对端设备出现故障时,表明网络设备无法与对端设备通信,此时网络设备撤销发布的IP路由,可以避免经本设备发往对端设备的流量的丢失。
需要说明的是,在对端设备为链路聚合设备时,本设备撤销发布的共享IP对应的IP路由。
在一个示例中,网络设备连接用户侧设备和隧道侧设备。在用户侧设备出现故障的情况下,网络设备可以撤销发布的IP路由。举例说明,以图2a中的VTEP11为网络设备,VM1为对端设备,VM1出现故障为例。相关技术中,当VTEP11确定VM1出现故障时,VTEP11隧道侧不感知,远端设备(例如VTEP2)仍然将流量发送至VTEP11。此时VTEP11让VTEP12学习的用户侧设备地址同步到IPL接口上,使得远端设备通过隧道转发到本地的流量能够通过IPL链路送到VTEP12(MLAG***的其他设备),再由VTEP12转给VM1。相关技术中这种处理方式存在以下问题:需要占用IPL链路带宽,干扰MLAG心跳报文的处理;对于用隧道实现IPL的方式,存在流量再次通过隧道绕行的问题;对于VTEP11而言,需要感知下联用户侧端口状态做用户侧设备地址的绑定端口切换,当地址规模较大时,处理时间较长且容易出错。根据本公开实施例的检测故障的方法,当VTEP11确定VM1出现故障时,VTEP11自动联动IP发布流程,撤销发布的IP路由(此处为VTEP11和VTEP12的共享IP对应的IP路由)。这样,远端设备可以重新计算underlay(基础架构层,专用于承载用户流量的传统的IP网络)的ECMP(Equal CostMultiPath routing,等价路由),使得流量只能发送到VTEP12,从而避免了通过IPL链路转发流量的过程,避免了上述占用IPL链路带宽等问题。
在一个示例中,网络设备连接两个网络侧设备。在其中一个网络侧设备出现故障的情况下,网络设备可以撤销发布的IP路由。举例说明,以图2b中的ED11为网络设备,ED21和ED22组成的ED2组为对端设备,ED21和ED22组成ED2组出现故障为例。相关技术中,当ED11确定ED21和ED22组成聚合组出现故障时,DC1内的VTEP设备不感知,DC1内的VTEP设备依然通过underlay的ECMP计算路径转发流量至ED11上。ED11需要将本地流量通过ED1组的IPL链路送到ED12上进行转发。同样会存在上述占用IPL链路带宽等问题。根据本公开实施例的检测故障的方法,当ED11确定ED21和ED22组成的ED2组出现故障时,ED11自动联动IP发布流程,撤销发布的IP路由(此处为ED11和ED12共享IP对应的IP路由)这样,ED1内部的VTEP设备可以重新计算underlay的ECMP,使得流量只能发送到ED12,从而避免了通过IPL链路转发流量的过程,避免了上述占用IPL链路带宽等问题。
通过创建源MAC地址为本设备的MAC地址且携带有序列号的探测报文;向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;若确定所述对端设备出现故障,则撤销发布的IP路由,根据本公开实施例的检测故障的方法能够发起主动性的健康探测,通过接收对端设备的应答报文确认对端设备的健康状况,从而及时发现故障,做出流量切换调整,降低故障断流时间,减少流量丢失。
在一种可能的实现方式中,在确定所述探测对象出现故障之后,网络设备可以通过告警方式通知管理员。例如,向WEB端发送故障报告。
在一种可能的实现方式中,若所述对端设备为与本设备连接的隧道侧设备,则网络设备在确定所述对端设备故障时,将与本设备连接的用户侧设备的端口阻塞。
举例说明,以图2a中的VTEP11为网络设备,VTEP2为对端设备,VTEP2出现故障为例。相关技术中,当VTEP11确定VTEP2发生故障时,VM1不感知,VM1到VTEP2的流量仍然可能发送至VTEP11上。VTEP11需要将VM1发送到本地的流量通过IPL链路送到VTEP12上,进而转发至VTEP2。同样会存在上述占用IPL链路带宽等问题。根据本公开实施例的检测故障的方法,当VTEP11确定VTEP2出现故障时,VTEP11将与本设备连接的VM1的端口阻塞。这样,VM1会直接将流量发送至VTEP12,而不是将流量发送至VTEP11上再转发至VTEP12上,从而避免了上述占用IPL链路带宽等问题。
图3示出根据本公开一实施例的检测故障的方法的流程图。如图3所示,所述探测报文还包括所述探测报文的创建时间戳,该检测故障的方法还包括:
步骤S21,接收携带有所述序列号的应答报文,所述应答报文中携带有对应的探测报文的创建时间戳。
步骤S22,若所述应答报文的目的MAC地址为本设备的MAC地址,则从所述应答报文中获取创建时间戳并记录当前时间。
步骤S23,根据所述创建时间戳和当前时间,确定探测时延,并在探测时延大于阈值的情况下,输出时延超长报告。
探测报文包括的创建时间戳可以用于记录探测报文的创建时间。在一种可能的实现方式中,该创建时间戳可以为毫秒级时间戳。对端设备可以在生成应答报文的过程中直接采用从探测报文中获取的创建时间,以便于网络设备确定探测时延。
若所述应答报文的目的MAC地址为本设备的MAC地址,表明该应答报文是响应于的探测报文是本设备发送的探测报文的报文,本设备可以对该应答报文进行处理。
本设备可以从所述应答报文中获取创建时间戳并记录当前时间。根据所述创建时间戳和当前时间,确定探测时延,并在探测时延大于阈值的情况下,输出时延超长报告。其中,探测时延可以为创建时间戳与当前时间的差值。阈值可以为能够接受的探测时延,本公开对此不做限制。当探测时延大于阈值时,表明探测对象不正常,可能存在链路和隧道故障、拥塞等问题。此时,本设备可以发送时延超长报告。在一个示例中,本设备可以将时延超长报告发送至WEB端。
在一种可能的实现方式中,若所述对端设备为与本设备直连的用户侧设备,则所述应答报文由部署在对端设备上的代理服务器发送。其中,代理服务器可以为一个agent脚本,该代理服务器的功能是可以接收处理纯二层的探测报文,并且能够在应答报文中添加创建时间戳和序列号,以便实现精确控制。相较于采用ping报文做探测报文(用户侧直连设备忙时不处理ping报文),根据本公开实施例的检测探测报文的方法通过设置代理服务器使与本设备直连的用户侧设备可以处理ping报文以外的探测报文,从而提高了探测时延的精度。
在一种可能的实现方式中,在对端设备为隧道侧设备时,所述应答报文由隧道对端的隧道侧设备发送。在一个示例中,如图2a所示,网络设备为VTEP11,隧道对端的设备为VTEP2,应答报文可以由VTEP2发送。在一个示例中,如图2b所示,网络设备为ED11,隧道对端的设备为ED21,应答报文可以由ED21发送。
图4示出根据本公开一实施例的检测故障的方法的流程图。如图4所示,该检测故障的方法还包括:
步骤S24,若所述应答报文的目的MAC地址不是本设备的MAC地址,则通过IPL链路将所述应答报文转发至MAC地址为所述目的MAC地址的设备。
探测报文采用的源MAC地址为本设备的MAC地址,应答报文的目的MAC地址为发送探测报文的MAC地址。对于跨设备聚合***中的一个设备,则因为underlay网络的ECMP哈希处理,应答报文可能被发送给跨设备聚合***的任意一个设备。因此,网络设备获取应答报文后,可以根据目的MAC地址判断给应答报文的目的MAC地址是不是本设备的MAC地址。若所述应答报文的目的MAC地址不是本设备的MAC地址,则本设备可以通过IPL链路将所述应答报文转发至MAC地址为所述目的MAC地址的设备,从而将应答报文发送给探测报文发起设备处理。
举例来说,如图2a所示,以VTEP11为网络设备为例,若VTEP11报文获取应答报文后,确定该应答报文的目的MAC地址是VTEP12的MAC地址,则VTEP11可以通过IPL链路将该应答报文发送至VTEP12处理。
应用示例
VTEP11(网络设备)检测VM1是否出现故障。根据本公开一实施例的检测故障的方法的一个示例包括:
在步骤S41中,VTEP11创建探测报文,所述探测报文的源MAC地址为VTEP11的MAC地址,所述探测报文包括所述探测报文的创建时间戳和序列号。
在步骤S42中,VTEP11从本地AC口向VM1发送所述探测报文。
在步骤S43中,VM1接收探测报文。
在步骤S44中,VM1创建针对所述探测报文的应答报文,所述应答报文的目的MAC地址为所述探测报文的源MAC地址,所述应答报文携带有所述探测报文的创建时间戳和序列号。
在步骤S45中,VM1向VTEP11发送所述应答报文。
在步骤S46中,VTEP11接收应答报文。
在步骤S47中,VTEP11确定应答报文的目的地址为本设备的MAC地址,若该应答报文不是在指定时间内接收到的,则VTEP11确定VM1出现故障,VTEP11撤销发布的IP路由,发送故障报告。
在步骤S48中,VTEP11从应答报文中获取创建时间戳并记录当前时间。
在步骤S49中,VTEP11根据所述创建时间戳和当前时间,确定探测时延,并在探测时延大于阈值的情况下,输出时延超长报告。
图5示出根据本公开一实施例的检测故障的装置的框图。所述装置应用于网络设备,如图5所示,所述装置50包括:
创建模块51,用于创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号;
发送模块52,用于向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;
确定模块53,用于若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;
撤销模块54,用于若确定所述对端设备出现故障,则撤销发布的IP路由。
图6示出根据本公开一实施例的检测故障的装置的框图。如图6所示,在一种可能的实现方式中,所述探测报文还包括所述探测报文的创建时间戳,所述装置50包括:
接收模块55,用于接收携带有所述序列号的应答报文,所述应答报文中携带有对应的探测报文的创建时间戳;
获取模块56,用于若所述应答报文的目的MAC地址为本设备的MAC地址,则从所述应答报文中获取创建时间戳并记录当前时间;
输出模块57,用于根据所述创建时间戳和当前时间,确定探测时延,并在探测时延大于阈值的情况下,输出时延超长报告。
在一种可能的实现方式中,所述装置50还包括:
转发模块58,用于若所述应答报文的目的MAC地址不是本设备的MAC地址,则通过聚合***内部IPL链路将所述应答报文转发至MAC地址为所述目的MAC地址的设备。
在一种可能的实现方式中,若所述对端设备为与本设备直连的用户侧设备,则所述应答报文由部署在对端设备上的代理服务器发送。
在一种可能的实现方式中,所述装置50还包括:
阻塞模块59,用于若所述对端设备为与本设备连接的隧道侧设备,则在确定所述对端设备故障时,将与本设备连接的用户侧设备的端口阻塞。
在一种可能的实现方式中,所述探测报文的目的MAC地址为指定MAC地址,所述指定MAC地址用于表示报文为探测报文。
通过创建源MAC地址为本设备的MAC地址且携带有序列号的探测报文;向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;若确定所述对端设备出现故障,则撤销发布的IP路由,根据本公开实施例的检测故障的装置能够发起主动性的健康探测,通过接收对端设备的应答报文确认对端设备的健康状况,从而及时发现故障,做出流量切换调整,降低故障断流时间,减少流量丢失。
图7是根据一示例性实施例示出的一种用于检测故障的装置900的框图。参照图7,该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由***总线903通信。并且,处理器901通过读取机器可读存储介质902中与检测故障的逻辑对应的机器可执行指令以执行上文所述的检测故障的方法。
本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种检测故障的方法,其特征在于,所述方法应用于网络设备,所述方法包括:
创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号;
向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;
若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;
若确定所述对端设备出现故障,则撤销发布的IP路由。
2.根据权利要求1所述的方法,其特征在于,所述探测报文还包括所述探测报文的创建时间戳,所述方法包括:
接收携带有所述序列号的应答报文,所述应答报文中携带有对应的探测报文的创建时间戳;
若所述应答报文的目的MAC地址为本设备的MAC地址,则从所述应答报文中获取创建时间戳并记录当前时间;
根据所述创建时间戳和当前时间,确定探测时延,并在探测时延大于阈值的情况下,输出时延超长报告。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述应答报文的目的MAC地址不是本设备的MAC地址,则通过聚合***内部IPL链路将所述应答报文转发至MAC地址为所述目的MAC地址的设备。
4.根据权利要求1所述的方法,其特征在于,若所述对端设备为与本设备直连的用户侧设备,则所述应答报文由部署在对端设备上的代理服务器发送。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述对端设备为与本设备连接的隧道侧设备,则在确定所述对端设备故障时,将与本设备连接的用户侧设备的端口阻塞。
6.根据权利要求1所述的方法,其特征在于,所述探测报文的目的MAC地址为指定MAC地址,所述指定MAC地址用于表示报文为探测报文。
7.一种检测故障的装置,其特征在于,所述装置应用于网络设备,所述装置包括:
创建模块,用于创建探测报文,所述探测报文的源MAC地址为本设备的MAC地址,所述探测报文携带有序列号;
发送模块,用于向对端设备发送所述探测报文,以使得所述对端设备生成目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文;
确定模块,用于若在指定时间内未接收到目的MAC地址为本设备的MAC地址且携带有所述序列号的应答报文,则确定所述对端设备出现故障;
撤销模块,用于若确定所述对端设备出现故障,则撤销发布的IP路由。
8.根据权利要求7所述的装置,其特征在于,所述探测报文还包括所述探测报文的创建时间戳,所述装置包括:
接收模块,用于接收携带有所述序列号的应答报文,所述应答报文中携带有对应的探测报文的创建时间戳;
获取模块,用于若所述应答报文的目的MAC地址为本设备的MAC地址,则从所述应答报文中获取创建时间戳并记录当前时间;
输出模块,用于根据所述创建时间戳和当前时间,确定探测时延,并在探测时延大于阈值的情况下,输出时延超长报告。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
转发模块,用于若所述应答报文的目的MAC地址不是本设备的MAC地址,则通过聚合***内部IPL链路将所述应答报文转发至MAC地址为所述目的MAC地址的设备。
10.根据权利要求7所述的装置,其特征在于,若所述对端设备为与本设备直连的用户侧设备,则所述应答报文由部署在对端设备上的代理服务器发送。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
阻塞模块,用于若所述对端设备为与本设备连接的隧道侧设备,则在确定所述对端设备故障时,将与本设备连接的用户侧设备的端口阻塞。
12.根据权利要求7所述的装置,其特征在于,所述探测报文的目的MAC地址为指定MAC地址,所述指定MAC地址用于表示报文为探测报文。
CN201810279563.7A 2018-03-30 2018-03-30 检测故障的方法及装置 Pending CN108616418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810279563.7A CN108616418A (zh) 2018-03-30 2018-03-30 检测故障的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810279563.7A CN108616418A (zh) 2018-03-30 2018-03-30 检测故障的方法及装置

Publications (1)

Publication Number Publication Date
CN108616418A true CN108616418A (zh) 2018-10-02

Family

ID=63659424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810279563.7A Pending CN108616418A (zh) 2018-03-30 2018-03-30 检测故障的方法及装置

Country Status (1)

Country Link
CN (1) CN108616418A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109379241A (zh) * 2018-12-27 2019-02-22 新华三技术有限公司 一种路径信息确定方法及装置
CN109728972A (zh) * 2018-12-14 2019-05-07 新华三技术有限公司 网络连接检测方法和装置
CN110266560A (zh) * 2019-06-25 2019-09-20 宁波三星医疗电气股份有限公司 一种通信测试方法、装置、存储介质及电子设备
CN110601888A (zh) * 2019-09-10 2019-12-20 清华大学 一种时间敏感网络中确定性故障检测与定位方法及***
CN110784339A (zh) * 2019-10-09 2020-02-11 杭州迪普科技股份有限公司 Lacp报文超时的故障检测方法、装置、电子设备
CN110912760A (zh) * 2019-12-30 2020-03-24 杭州迪普科技股份有限公司 链路状态检测方法和装置
CN111682927A (zh) * 2020-04-27 2020-09-18 浪潮思科网络科技有限公司 一种基于mlag环境的报文同步方法、装置、设备及介质
CN111786882A (zh) * 2020-06-30 2020-10-16 中国联合网络通信集团有限公司 一种路由处理方法及装置
CN111835735A (zh) * 2020-06-29 2020-10-27 新华三信息安全技术有限公司 一种防攻击方法、装置、设备及机器可读存储介质
CN112152880A (zh) * 2020-09-22 2020-12-29 杭州迪普科技股份有限公司 一种链路健康检测方法及装置
CN112187633A (zh) * 2020-09-14 2021-01-05 锐捷网络股份有限公司 一种链路故障收敛方法、装置、电子设备及存储介质
CN112887185A (zh) * 2019-11-29 2021-06-01 华为技术有限公司 一种叠加网络的通信方法及装置
CN113949649A (zh) * 2021-10-14 2022-01-18 迈普通信技术股份有限公司 故障检测协议的部署方法、装置、电子设备及存储介质
CN114095398A (zh) * 2021-10-22 2022-02-25 深信服科技股份有限公司 探测时延的确定方法、装置、电子设备及存储介质
CN114189471A (zh) * 2021-11-29 2022-03-15 苏州浪潮智能科技有限公司 跨设备链路聚合组主备配置方法、***、终端及存储介质
CN117527637A (zh) * 2023-12-29 2024-02-06 摩尔线程智能科技(北京)有限责任公司 一种链路故障检测的方法、装置、存储介质及电子设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179451A (zh) * 2007-12-13 2008-05-14 杭州华三通信技术有限公司 传输路径连通性检测方法、***、头端设备及尾端设备
CN101267363A (zh) * 2008-04-24 2008-09-17 杭州华三通信技术有限公司 环回测试方法、***及装置
CN101483558A (zh) * 2008-01-10 2009-07-15 华为技术有限公司 网络设备接入分组交换网络的方法、***及装置
CN101710869A (zh) * 2009-12-18 2010-05-19 中兴通讯股份有限公司 二层虚拟专用网故障的检测装置及方法
CN102055525A (zh) * 2010-12-17 2011-05-11 北京格林伟迪科技有限公司 环路检测和控制方法
CN102726091A (zh) * 2012-03-15 2012-10-10 华为技术有限公司 链路性能的测试方法和测试装置
CN103036781A (zh) * 2013-01-04 2013-04-10 杭州华三通信技术有限公司 一种主路径链路故障处理方法及装置
CN103236963A (zh) * 2013-04-25 2013-08-07 西北工业大学 VMWare虚拟机远程检测方法
CN104660469A (zh) * 2015-02-15 2015-05-27 华为技术有限公司 一种二层网络的连通性检测方法及相关设备
US20160211989A1 (en) * 2015-01-16 2016-07-21 Alcatel-Lucent Usa Inc. Bidirectional Forwarding Detection Over a Virtual Extensible Local Area Network
CN106230667A (zh) * 2016-09-30 2016-12-14 锐捷网络股份有限公司 Vtep保活检测方法及装置
CN106330597A (zh) * 2015-07-10 2017-01-11 杭州华三通信技术有限公司 Vxlan隧道端点vtep之间的路径可达检测方法和装置
CN106603346A (zh) * 2017-02-07 2017-04-26 佛山易识科技有限公司 基于虚拟可扩展局域网的网络质量测试工具
CN106878066A (zh) * 2017-01-16 2017-06-20 新华三技术有限公司 故障检测方法及装置
CN106878048A (zh) * 2016-12-13 2017-06-20 新华三技术有限公司 故障处理方法及装置
CN107204885A (zh) * 2016-03-16 2017-09-26 华为技术有限公司 通信方法和设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179451A (zh) * 2007-12-13 2008-05-14 杭州华三通信技术有限公司 传输路径连通性检测方法、***、头端设备及尾端设备
CN101483558A (zh) * 2008-01-10 2009-07-15 华为技术有限公司 网络设备接入分组交换网络的方法、***及装置
CN101267363A (zh) * 2008-04-24 2008-09-17 杭州华三通信技术有限公司 环回测试方法、***及装置
CN101710869A (zh) * 2009-12-18 2010-05-19 中兴通讯股份有限公司 二层虚拟专用网故障的检测装置及方法
CN102055525A (zh) * 2010-12-17 2011-05-11 北京格林伟迪科技有限公司 环路检测和控制方法
CN102726091A (zh) * 2012-03-15 2012-10-10 华为技术有限公司 链路性能的测试方法和测试装置
CN103036781A (zh) * 2013-01-04 2013-04-10 杭州华三通信技术有限公司 一种主路径链路故障处理方法及装置
CN103236963A (zh) * 2013-04-25 2013-08-07 西北工业大学 VMWare虚拟机远程检测方法
US20160211989A1 (en) * 2015-01-16 2016-07-21 Alcatel-Lucent Usa Inc. Bidirectional Forwarding Detection Over a Virtual Extensible Local Area Network
CN104660469A (zh) * 2015-02-15 2015-05-27 华为技术有限公司 一种二层网络的连通性检测方法及相关设备
CN106330597A (zh) * 2015-07-10 2017-01-11 杭州华三通信技术有限公司 Vxlan隧道端点vtep之间的路径可达检测方法和装置
CN107204885A (zh) * 2016-03-16 2017-09-26 华为技术有限公司 通信方法和设备
CN106230667A (zh) * 2016-09-30 2016-12-14 锐捷网络股份有限公司 Vtep保活检测方法及装置
CN106878048A (zh) * 2016-12-13 2017-06-20 新华三技术有限公司 故障处理方法及装置
CN106878066A (zh) * 2017-01-16 2017-06-20 新华三技术有限公司 故障检测方法及装置
CN106603346A (zh) * 2017-02-07 2017-04-26 佛山易识科技有限公司 基于虚拟可扩展局域网的网络质量测试工具

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109728972A (zh) * 2018-12-14 2019-05-07 新华三技术有限公司 网络连接检测方法和装置
CN109728972B (zh) * 2018-12-14 2021-07-23 新华三技术有限公司 网络连接检测方法和装置
CN109379241A (zh) * 2018-12-27 2019-02-22 新华三技术有限公司 一种路径信息确定方法及装置
CN109379241B (zh) * 2018-12-27 2021-12-24 新华三技术有限公司 一种路径信息确定方法及装置
CN110266560A (zh) * 2019-06-25 2019-09-20 宁波三星医疗电气股份有限公司 一种通信测试方法、装置、存储介质及电子设备
CN110601888A (zh) * 2019-09-10 2019-12-20 清华大学 一种时间敏感网络中确定性故障检测与定位方法及***
CN110784339A (zh) * 2019-10-09 2020-02-11 杭州迪普科技股份有限公司 Lacp报文超时的故障检测方法、装置、电子设备
US11310139B2 (en) 2019-10-09 2022-04-19 Hangzhou Dptech Technologies Co., Ltd. Fault detection for LACP packet timeout
CN112887185A (zh) * 2019-11-29 2021-06-01 华为技术有限公司 一种叠加网络的通信方法及装置
CN112887185B (zh) * 2019-11-29 2024-03-15 华为云计算技术有限公司 一种叠加网络的通信方法及装置
CN110912760B (zh) * 2019-12-30 2022-11-01 杭州迪普科技股份有限公司 链路状态检测方法和装置
CN110912760A (zh) * 2019-12-30 2020-03-24 杭州迪普科技股份有限公司 链路状态检测方法和装置
CN111682927A (zh) * 2020-04-27 2020-09-18 浪潮思科网络科技有限公司 一种基于mlag环境的报文同步方法、装置、设备及介质
CN111835735A (zh) * 2020-06-29 2020-10-27 新华三信息安全技术有限公司 一种防攻击方法、装置、设备及机器可读存储介质
CN111835735B (zh) * 2020-06-29 2023-12-29 新华三信息安全技术有限公司 一种防攻击方法、装置、设备及机器可读存储介质
CN111786882A (zh) * 2020-06-30 2020-10-16 中国联合网络通信集团有限公司 一种路由处理方法及装置
CN112187633A (zh) * 2020-09-14 2021-01-05 锐捷网络股份有限公司 一种链路故障收敛方法、装置、电子设备及存储介质
CN112152880A (zh) * 2020-09-22 2020-12-29 杭州迪普科技股份有限公司 一种链路健康检测方法及装置
CN113949649A (zh) * 2021-10-14 2022-01-18 迈普通信技术股份有限公司 故障检测协议的部署方法、装置、电子设备及存储介质
CN113949649B (zh) * 2021-10-14 2023-05-23 迈普通信技术股份有限公司 故障检测协议的部署方法、装置、电子设备及存储介质
CN114095398A (zh) * 2021-10-22 2022-02-25 深信服科技股份有限公司 探测时延的确定方法、装置、电子设备及存储介质
CN114189471B (zh) * 2021-11-29 2023-08-08 苏州浪潮智能科技有限公司 跨设备链路聚合组主备配置方法、***、终端及存储介质
CN114189471A (zh) * 2021-11-29 2022-03-15 苏州浪潮智能科技有限公司 跨设备链路聚合组主备配置方法、***、终端及存储介质
CN117527637A (zh) * 2023-12-29 2024-02-06 摩尔线程智能科技(北京)有限责任公司 一种链路故障检测的方法、装置、存储介质及电子设备
CN117527637B (zh) * 2023-12-29 2024-04-02 摩尔线程智能科技(北京)有限责任公司 一种链路故障检测的方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108616418A (zh) 检测故障的方法及装置
EP2852104B1 (en) Method and device for establishing multi-protocol label switching traffic engineering tunnel
EP2319209B1 (en) Methods for establishing a traffic connection and an associated monitoring connection
CN104168193B (zh) 一种虚拟路由器冗余协议故障检测的方法及路由设备
CN108768788A (zh) 路径故障检测方法及装置
EP2498454A1 (en) Method, device and system for processing service traffic based on pseudo wires
CN107547383A (zh) 路径检测方法及装置
CN107547370A (zh) 流量转发方法、装置及***
US20100246406A1 (en) Route convergence based on ethernet operations, administration, and maintenance protocol
US20090161533A1 (en) Active fault management for metro ethernet service over mpls network
CN109672619A (zh) 一种处理报文的方法、设备及***
KR20140040250A (ko) 포인트 투 멀티포인트 터널을 통한 결함 검출 세션 부트스트래핑
CN103026663B (zh) 分布式连通性验证协议冗余
US20080089330A1 (en) Connectivity outage detection based on a multicast management mpls-vpn group
EP3182645B1 (en) Network protection switching method, network device and storage medium
CN102132524B (zh) 用于建立业务连接及相关监控连接的方法
CN110493069A (zh) 故障检测方法、装置、sdn控制器及转发设备
Geib et al. A scalable and topology-aware MPLS data-plane monitoring system
CN105515816A (zh) 检测层次信息的处理方法及装置
GB2448711A (en) Recovering from a failure in a communications network
CN107682261A (zh) 流量转发方法及装置
CN105592490B (zh) 一种路由切换方法及设备
US20110116384A1 (en) Network connectivity management
EP3588877A1 (en) Performance monitoring support for cfm over evpn
WO2022078338A1 (zh) 路径确定方法及装置、计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181002