CN100505641C - 实现点到点的快速故障检测的方法和装置 - Google Patents

实现点到点的快速故障检测的方法和装置 Download PDF

Info

Publication number
CN100505641C
CN100505641C CNB2006101099096A CN200610109909A CN100505641C CN 100505641 C CN100505641 C CN 100505641C CN B2006101099096 A CNB2006101099096 A CN B2006101099096A CN 200610109909 A CN200610109909 A CN 200610109909A CN 100505641 C CN100505641 C CN 100505641C
Authority
CN
China
Prior art keywords
end points
point
peer
message
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006101099096A
Other languages
English (en)
Other versions
CN1913453A (zh
Inventor
李彬轩
张岩
向海洲
蔡成贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2006101099096A priority Critical patent/CN100505641C/zh
Publication of CN1913453A publication Critical patent/CN1913453A/zh
Application granted granted Critical
Publication of CN100505641C publication Critical patent/CN100505641C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种实现点到点的快速故障检测的方法和装置,该方法主要包括:点到点协议链路的两端端点在完成发现过程后,按照用户设定的时间间隔通过硬件互相发送和接收不携带双方端点的OAM配置信息的OAM检测报文;所述点到点协议链路的端点根据所述OAM检测报文的接收情况来检测对端端点的故障。该装置主要包括:点到点协议链路端点:用于在完成发现过程后,按照选择的时间间隔来互相发送和接收检测报文;并根据所述检测报文的接收情况来检测对端端点的故障。利用本发明,从而可以快速地发现点到点协议(比如802.3ah协议)的链路端点的故障。

Description

实现点到点的快速故障检测的方法和装置
技术领域
本发明涉及网络通信协议,尤其涉及一种实现点到点的快速故障检测的方法和装置。
背景技术
以太网技术由于具有简单易用、价格低廉、且带宽可不断提高的特点,因此,以太网作为一种业务或网络结构在企业网、城域网、广域网范围内得到了广泛应用。但是,传统以太网也具有可维护、可运营能力差的特点,随着以太网推广的范围逐渐扩大,对以太网OAM(操作、管理和维护)功能的需求也越来越强烈。
以太网OAM功能可分为两大部分:故障管理和性能管理。其中如何在故障发生后快速发现故障,尽快地实现保护措施,以减少业务中断损失,是所有运营商和网络供应商提高服务质量的一个关键因数。
目前已经有很多以太网故障管理的方案,如802.1ag协议实现网络端到端的连通性检测,802.3ah协议实现点到点的故障知会,RRPP(以太环网快速保护协议)协议实现以太环网的故障管理等等。
但是,上述802.1ag协议配置复杂,且部署很难覆盖整个CE(用户边缘)到CE的链路。上述802.3ah协议、RRPP协议属于慢速协议,无法满足对整个用户链路进行快速故障监测,及时保护倒换的电信需求。
802.3ah协议是链路层Ethernet OAM功能和实现协议,位于协议栈的链路层。OAM层在OSI(开放***互联)模型中属数据链路层,在以太网模型中位于MAC(媒体接入控制)子层和LLC(逻辑链路控制)子层之间,实现对不同802.3物理层的管理。802.3ah协议是一种点到点的OAM,其主要功能包括:OAM能力发现、OAM链路监控、远端故障通知、OAM远端环回、远端MIB获取(带内网管)等。
OAM能力发现是指发现支持OAM的设备并检测其对OAM支持能力,可以通过互发消息来完成。互发的消息可以包括:OAM配置信息、OAM模式信息和OAMPDU(协议数据单元)信息。
OAM配置信息为OAM相关能力信息,如是否可响应MIB(管理信息库)变量请求,是否支持环回功能等信息。
OAM模式信息是指802.3ah协议实体的模式,802.3ah协议实体的模式分为主动模式或被动模式,不同模式接收/发送的消息是不同的,OAM能力发现过程一般由主动模式一方发起。
OAMPDU信息主要包括设备接收/发送的最大OAMPDU长度,协商之前采用最小长度;平台ID,它可用于做优先级比较,包括一个唯一的OUI(Organization Unique Identifier,组织唯一标识)和一个32bit的自定义信息,IEEE(电气和电子工程协会)分配OUI的值,OUI的值还可以是MAC地址的前三个字节。
OAM链路监控是指通过向对端发送事件通知消息,通知对端各种情况下发现的故障,标准的故障通知事件包括:错误信号周期、错误帧、周期错误帧数和错误帧秒数。
远端故障通知是指设备发生故障时,向对端发送单向OAM报文来通知对端,上述设备的故障类型包括:链路故障、致命故障、紧急事件。具体实现为当由于设备故障或不可用导致流量中断时,应通过OAMPDU中的flag域向对端发送通知消息。
OAM远端环回是指向对端发送消息通知远端进入环回状态,以环回测试链路。具体为本地OAM实体向远端发送环回消息使其进入环回状态,此时除OAMPDU报文外,其它报文都将被对端OAM层原样返回。
远端MIB获取功能是指通过和对端设备交互信息,直接获取对端设备的MIB信息。
现有技术一种802.3ah协议的故障检测的方法为:802.3ah协议的链路两端端点通过互相发送携带OAM配置信息的Information报文来实现discovery过程,完成协商。然后,两端端点定时互相发送jnformation OAMPDU报文,information OAMPDU报文的内容除了一般的OAMPDU结构外,主要包含双方的OAM版本、状态、OAM和OAMPDU配置、OUI和供应商信息等OAM配置信息。
按照802.3ah协议的规定,发送information OAMPDU报文的定时间隔为1秒,如果一端端点在5秒内没有收到来自对端端点的有效informationOAMPDU报文,则认为对端端点出现故障或链路失效,将重新发起discovery过程,尝试再次与对端端点建立OAM检测机制。
为了防止链路单通的情况,information OAMPDU报文中有flag域,该域有一个bit(比特)用来标识一个端口是否能从对端收到有效的与本端配置匹配的information OAMPDU报文。在单通的情况下,收到带有该标识的information OAMPDU报文的端口也需要退出检测状态,重新发起discovery过程。
上述Information报文和information OAMPDU报文都是通过软件来发送和接收的。
上述现有技术的方法的缺点为:
1、从端点发生故障导致收不到Information OAMPDU报文,从而检测到故障,并重新开始discovery过程之间的时间间隔长达5秒钟,对于要求有高可靠性的运营网络来讲,秒级的业务中断是很大的事故。如果802.3ah和802.1ag进行告警功能的绑定,整网的倒换可靠性将受限制于802.3ah协议。
2、802.3ah协议的链路两端端点首先通过发送携带OAM信息的Information报文来实现discovery过程,完成协商,一旦协商通过,这些OAM信息在重新开始discovery过程之前应该是不会改变的,任一端OAM信息改变都会促使802.3ah重新进行discovery过程。因此,该方法中,协商通过后定时发送的Information OAMPDU报文中携带的双方的OAM信息是冗余的信息,增加了Information OAMPDU报文的长度,从而增加了硬件快速发送Information OAMPDU报文的难度,影响了网络带宽效率。
3、802.3ah协议只能通过定时握手的Information OAMPDU报文来监测链路,由于无法区分是配置改变导致(如取消802.3ah协议使能)链路故障,还是真实链路故障,只是全部回到discovery阶段,不能根据不同情况来采取相应的保护动作。
发明内容
鉴于上述现有技术所存在的问题,本发明的目的是提供一种实现点到点的快速故障检测的方法和装置,从而可以快速地发现点到点协议(比如802.3ah协议)的链路端点的故障。
本发明的目的是通过以下技术方案实现的:
一种实现点到点的快速故障检测的方法,包括步骤:
A、点到点协议链路的两端端点在完成发现过程后,按照用户设定的时间间隔来互相发送和接收不携带双方端点的操作、管理和维护OAM配置信息的信息OAM协议数据单元information OAMPDU报文;
B、所述点到点协议链路的端点在设定的时间内未收到对端端点发送的所述information OAMPDU报文,则确定所述对端端点发生了故障。
所述的步骤A具体包括:
点到点协议链路的两端端点通过硬件来互相发送和接收所述informationOAMPDU报文。
所述的用户设定的时间间隔包括:10ms或100ms或1s。
所述的步骤B还包括:
所述点到点协议链路的端点在其OAM配置信息发生变化后,向对端端点发送预先设置的固定格式报文,通知对端端点重新开始进行发现过程;并且,两端端点停止发送所述information OAMPDU报文。
所述的点到点协议包括:802.3ah协议。
一种实现点到点的快速故障检测的装置,包括:
点到点协议链路端点:用于在完成发现过程后,按照用户设定的的时间间隔来互相发送和接收不携带OAM配置信息的information OAMPDU报文;所述点到点协议链路的端点在设定的时间内未收到对端端点发送的所述information OAMPDU报文,则确定所述对端端点发生了故障。
所述点到点协议链路端点具体包括:
时间间隔选择模块:用于选择发送和接收information OAMPDU报文的时间间隔,并将选择的时间间隔传递给检测报文发送和接收模块;
检测报文发送和接收模块:用于按照时间间隔选择模块传递过来的时间间隔信息,通过硬件向对端端点发送和接收information OAMPDU报文;
故障检测模块:用于在设定的时间内未收到对端端点发送的所述information OAMPDU报文,则确定所述对端端点发生了故障。
所述点到点协议链路端点还包括:
固定格式报文发送模块:用于在所述点到点协议链路端点的OAM配置信息发生变化后,向对端端点发送预先设置的固定格式报文,通知对端端点重新开始进行发现过程;并且,两端端点停止发送所述information OAMPDU报文。
由上述本发明提供的技术方案可以看出,本发明通过缩短检测报文的长度,减少检测报文的定时发送间隔,通过硬件来发送和接收该检测报文。从而可以快速地发现点到点协议(比如802.3ah协议)的链路端点的故障,可以使发现端点故障的时间从原来的5秒减少到50ms之内。本发明可以提高网路性能,节约带宽,降低实现的难度和成本。
本发明还通过新增加的一种类型的OAMPDU报文,在一端进行任何OAM相关配置的改变时,可通过该报文来知会对端,使链路两端重新进入discovery阶段。
附图说明
图1为本发明所述方法的实施例的具体处理流程图;
图2为802.3ah协议现有的OAMPDU报文格式示意图;
图3为本发明所述实现点到点的快速故障检测的装置的实施例的具体结构图。
具体实施方式
本发明提供了一种实现点到点的快速故障检测的方法和装置,本发明的核心为:缩短检测报文的长度,减少检测报文的定时发送间隔,通过硬件来发送和接收该检测报文.
下面结合附图来详细描述本发明,本发明所述方法适用于点到点的检测协议,以802.3ah协议为例,本发明所述方法的实施例的具体处理流程如图1所示,包括如下步骤:
步骤1-1、802.3ah协议的链路两端端点通过软件来完成discovery过程。
运行802.3ah协议的链路两端端点首先通过CPU软件来完成慢速的discovery过程。在该discovery过程中,链路两端端点通过互相发送携带OAM配置信息的Information报文进行协商,一旦协商通过后,链路两端端点就完成了discovery过程。并且上述链路两端端点的OAM配置信息在重新开始discovery过程之前是不会改变的。
步骤1-2、802.3ah协议的链路两端端点通过硬件互相发送简短了长度的定时检测报文,来检测端点故障。
802.3ah协议的链路两端端点经过协商完成了discovery过程后,链路两端端点便通过硬件定时互相发送简短了长度的检测报文,来检测端点故障。上述检测报文一般为Information OAMPDU报文。
本发明需要对802.3ah协议进行改进,由用户来设定InformationOAMPDU报文的定时发送时间间隔。
本发明缩短了Information OAMPDU报文的发送时间间隔,考虑到一般运行商要求50ms内实现倒换,以及与802.1ag协议匹配,InformationOAMPDU报文的发送时间间隔一般设置为10ms,当链路的一端在3.5个周期未收到对端发送的Information OAMPDU报文后,则认为对端发生故障,于是,通过Information OAMPDU报文中的flag域通知对端。然后,链路两端退回discovery状态,重新进行discovery过程。
在本发明中,上述Information OAMPDU报文中不再携带双方的OAM配置信息等多余信息,从而简短了Information OAMPDU报文的长度,可以使链路两端端点通过硬件来发送和接收上述Information OAMPDU报文。不依赖于两端端点的主机的软件状态。
本发明通过将OAMPDU报文的发送时间间隔设置为10ms,可以使检测到链路端点发生了故障的时间限制在50ms以内。在实际应用中,InformationOAMPDU报文的发送时间间隔还可以为:100ms和1s等,既可兼容原标准协议,又可选择进行快速的故障发现。
802.3ah协议现有的OAMPDU报文格式示意图如图2所示。为实现快速检测故障,本发明还增加了一种类型的OAMPDU报文类型(05类型),该增加的OAMPDU报文类型的格式如下述表1所示。
表1:本发明增加的一种类型的OAMPDU报文的格式示意表
 
05 RediscoveryNotification Notify partner to re-enterdiscovery OAM client
上述本发明增加的一种类型的OAMPDU报文专门用于在链路一端端点修改了OAM参数后要求重新开始进行discovery过程的场合。在链路检测期间,如果一端端点更改了OAM配置,如取消OAM功能、改变握手周期等,该端点的主机软件将主动构造上述05类型的Rediscovery Notification OAMPDU,连续发送到对端端点,来促使两端端点同时退回到discovery阶段。同时,两端端点的硬件停止发送和接收上述定时检测用的Information OAMPDU报文。
本发明所述改进后的802.3ah协议可以与802.1ag协议进行匹配。在运行商无法控制的CE设备与PE(运行商边缘)设备之间运行802.3ah协议,PE与远端PE之间运行802.1ag协议,将802.3ah协议和802.1ag协议进行告警功能的绑定,就可以快速地实现业务链路的故障发现和通告,从而以最快速度实现业务的保护倒换。
本发明所述实现点到点的快速故障检测的装置的实施例的具体结构如图3所示,包括:
点到点协议链路端点:用于在完成发现过程后,按照选择的时间间隔来互相发送和接收检测报文;并根据所述检测报文的接收情况来检测对端端点的故障。
所述点到点协议链路端点具体包括:
时间间隔选择模块:用于选择发送和接收检测报文的时间间隔,并将选择的时间间隔传递给检测报文发送和接收模块;
检测报文发送和接收模块;用于按照时间间隔选择模块传递过来的时间间隔信息,通过硬件向对端端点发送和接收检测报文;
故障检测模块:用于根据检测报文发送和接收模块接收到的所述检测报文的接收情况,来检测对端端点的故障。
固定格式报文发送模块:用于在所述点到点协议链路端点的OAM配置信息发生变化后,向对端端点发送预先设置的固定格式报文,通知对端端点重新开始进行发现过程;并且,两端端点停止发送所述检测报文。
上述本发明所述实现点到点的快速故障检测的装置中的点到点协议包括:802.3ah协议。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1、一种实现点到点的快速故障检测的方法,其特征在于,包括步骤:
A、点到点协议链路的两端端点在完成发现过程后,按照用户设定的时间间隔来互相发送和接收不携带双方端点的操作、管理和维护OAM配置信息的信息OAM协议数据单元information OAMPDU报文;
B、所述点到点协议链路的端点在设定的时间内未收到对端端点发送的所述information OAMPDU报文,则确定所述对端端点发生了故障。
2、根据权利要求1所述的方法,其特征在于,所述的步骤A具体包括:
点到点协议链路的两端端点通过硬件来互相发送和接收所述informationOAMPDU报文。
3、根据权利要求1所述的方法,其特征在于,所述的用户设定的时间间隔包括:10ms或100ms或1s。
4、根据权利要求1或2或3所述的方法,其特征在于,所述的步骤B还包括:
所述点到点协议链路的端点在其OAM配置信息发生变化后,向对端端点发送预先设置的固定格式报文,通知对端端点重新开始进行发现过程;并且,两端端点停止发送所述information OAMPDU报文。
5、根据权利要求1所述的方法,其特征在于,所述的点到点协议包括:802.3ah协议。
6、一种实现点到点的快速故障检测的装置,其特征在于,包括:
点到点协议链路端点:用于在完成发现过程后,按照用户设定的的时间间隔来互相发送和接收不携带OAM配置信息的information OAMPDU报文;所述点到点协议链路的端点在设定的时间内未收到对端端点发送的所述information OAMPDU报文,则确定所述对端端点发生了故障。
7、根据权利要求6所述的实现点到点的快速故障检测的装置,其特征在于,所述点到点协议链路端点具体包括:
时间间隔选择模块:用于选择发送和接收information OAMPDU报文的时间间隔,并将选择的时间间隔传递给检测报文发送和接收模块;
检测报文发送和接收模块;用于按照时间间隔选择模块传递过来的时间间隔信息,通过硬件向对端端点发送和接收information OAMPDU报文;
故障检测模块:用于在设定的时间内未收到对端端点发送的所述information OAMPDU报文,则确定所述对端端点发生了故障。
8、根据权利要求7所述的实现点到点的快速故障检测的装置,其特征在于,所述点到点协议链路端点还包括:
固定格式报文发送模块:用于在所述点到点协议链路端点的OAM配置信息发生变化后,向对端端点发送预先设置的固定格式报文,通知对端端点重新开始进行发现过程;并且,两端端点停止发送所述information OAMPDU报文。
CNB2006101099096A 2006-08-22 2006-08-22 实现点到点的快速故障检测的方法和装置 Active CN100505641C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006101099096A CN100505641C (zh) 2006-08-22 2006-08-22 实现点到点的快速故障检测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006101099096A CN100505641C (zh) 2006-08-22 2006-08-22 实现点到点的快速故障检测的方法和装置

Publications (2)

Publication Number Publication Date
CN1913453A CN1913453A (zh) 2007-02-14
CN100505641C true CN100505641C (zh) 2009-06-24

Family

ID=37722232

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101099096A Active CN100505641C (zh) 2006-08-22 2006-08-22 实现点到点的快速故障检测的方法和装置

Country Status (1)

Country Link
CN (1) CN100505641C (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101272310B (zh) * 2007-03-22 2013-02-13 华为技术有限公司 以太网环网自动保护倒换方法和装置
CN101094121B (zh) * 2007-07-23 2010-11-24 华为技术有限公司 非直连设备间以太网链路的检测方法、***和设备
CN101355450B (zh) * 2008-09-10 2011-11-30 中兴通讯股份有限公司 一种防止链路频繁切换的方法
CN101707536B (zh) * 2009-11-25 2011-09-07 成都市华为赛门铁克科技有限公司 故障检测方法、线卡及主控卡
CN102547489B (zh) * 2010-12-13 2014-11-26 上海中兴软件有限责任公司 一种识别和处理异常帧的方法和***
CN102355335A (zh) * 2011-09-13 2012-02-15 中兴通讯股份有限公司 单通检测结果的通告方法及装置
CN106130819B (zh) * 2016-07-04 2019-10-25 锐捷网络股份有限公司 Vtep异常的检测方法及装置
CN115118398B (zh) * 2022-07-27 2022-11-22 武汉思普崚技术有限公司 基于以太网的ppp客户端的协议容错性测试方法及***

Also Published As

Publication number Publication date
CN1913453A (zh) 2007-02-14

Similar Documents

Publication Publication Date Title
CN100505641C (zh) 实现点到点的快速故障检测的方法和装置
CN101267363A (zh) 环回测试方法、***及装置
CN102315975B (zh) 一种基于irf***的故障处理方法及其设备
CN101931982A (zh) 一种网络故障定位方法及装置
CN100403698C (zh) 一种以太网连接故障检测方法和装置
CN103430483A (zh) 用于确定通信***中的关联事件的技术
CN101378333B (zh) 实现连续性检查消息报文收发的***、装置及方法
EP3806392A1 (en) Fault management method and related device
CN102651883A (zh) 检测终端连接丢失的方法及装置
EP2925011B1 (en) Apparatus and method for managing inner-network element transmission resources
CN102387524B (zh) Wlan室内分布监控***
CN102307194B (zh) 一种通用协议进程平滑重启方法和装置
AU2010256133B2 (en) Method and apparatus for detecting ethernet operation, administration and maintenance (OAM)
CN101202656B (zh) 资源监控方法和装置
WO2020063833A1 (zh) 网络设备脱管上报方法、设备和***
CN101212346B (zh) 一种网元管理***的软件版本管理方法及装置
CN106059787A (zh) 一种小型机服务器状态的获取方法及装置
CN101232406A (zh) Oam快速检测方法、装置和***
CN102882887A (zh) 软件平滑升级的实现方法及设备
CN110018677A (zh) 一种物联网设备管理***及方法
CN107426755B (zh) 基站问题的排查方法、装置、计算机可读存储介质及计算机设备
CN113810238A (zh) 网络监测方法、电子设备及存储介质
CN103178997B (zh) 一种基于lldp协议的mac地址相同的检测方法和设备
CN207135281U (zh) 一种生产实时信息管理***
WO2021063251A1 (zh) 一种应用于通信***的站点管理方法和相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant