CN103746842A - 一种检测线卡故障重起的方法及*** - Google Patents
一种检测线卡故障重起的方法及*** Download PDFInfo
- Publication number
- CN103746842A CN103746842A CN201310750058.3A CN201310750058A CN103746842A CN 103746842 A CN103746842 A CN 103746842A CN 201310750058 A CN201310750058 A CN 201310750058A CN 103746842 A CN103746842 A CN 103746842A
- Authority
- CN
- China
- Prior art keywords
- line card
- keep
- card
- main control
- alive message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种检测线卡故障重起的方法及***,该方法主要包括:线卡物理***后,主控卡周期的向线卡发送第一保活报文,所述线卡启动后,能够接收到主控卡向所述线卡发送的第一保活报文后,所述线卡向主控卡发送第二保活报文;所述主控卡接收线卡发送的第二保活报文,并对第二保活报文进行处理,判断线卡是否故障重起;若主控卡判断线卡故障重起,则主控卡对线卡进行重新配置。该方法及***实现过程简单易于在实际应用中进行操作,而且能够适用于一张主控卡与多张线卡组成的分布式数据通信设备,可以提高分布式设备的可靠性;并且该方法及***也能够应用于堆叠、集群等计算机***。
Description
技术领域
本发明属于分布式计算机***中线卡故障检测技术领域,具体是一种检测线卡故障重起的方法及***设计。
背景技术
分布式计算机***中,具有相互配合的多个用于线路处理的线卡,它们均由主控卡进行控制,对于数据通信设备而言,线卡就是处理链路层、网络层、路由协议和转发功能的处理单元。在分布式路由交换设备中,如果线卡由于自身软硬件故障重起,而主控卡没有检测到该故障,则线卡重起后由于没有转发表等资源,导致网络通信中断,对于这样的故障,主控卡必须重新加载该线卡才能恢复通信。
在现有技术中,一般使用保活保文检测线卡故障,其判断线卡故障的方法为:若主控卡接收线卡的保活报文超时,则认为线卡发生故障。在实际使用环境中,如果主控卡和线卡之间的通信通道出现故障,则主控卡接收线卡的保活报文可能超时,此时需要对通信通道进行修复;如果线卡上的CPU一段时间比较忙,以后又恢复正常,则主控卡接收线卡保活报文也可能超时,此类故障不需要修复通信通道,也不需要重新加载线卡。因此,超时的方法检测到的不仅仅是主控卡和线卡之间的通信通道故障,还包括CPU自动重起的故障。另外,如果线卡在主控卡接收保活报文未超时就故障重起完成,则保活报文超时的方法就不能检测到线卡故障重起的这类故障。
发明内容
本发明所要解决的技术问题是为了解决现有技术中检测线卡故障重起不准确的问题而提出一种检测线卡故障重起的方法及***。
本发明解决其技术问题采用的技术方案是:一种检测线卡故障重起的方法,包括如下步骤:
S1、线卡物理***后,主控卡周期的向线卡发送第一保活报文;
S2、所述线卡启动后,接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文;
S3、所述主控卡接收到线卡发送的第二保活报文后,对所述第二保活报文进行处理,以判断所述线卡是否故障重起,若判断所述线卡故障重起,则对所述线卡进行重新配置。
进一步的,主控卡根据保存的线卡状态参数、第二保活报文的数量以及所述第二保活报文中线卡启动状态参数来判断对应的线卡是否故障重起。
进一步的,所述主控卡中设置一个线卡状态参数,用于记录线卡的在位状态;当线卡处于不在位状态时,设置线卡状态参数为第一参数值;当线卡处于在位状态时,设置线卡状态参数为第二参数值。
更进一步的,在步骤S2中,所述线卡启动后,主控卡中设置一个对应的保活报文计数器,用于记录主控卡接收到的该线卡发出的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为0;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,所述保活报文计数器的值加1。
更进一步的,所述第二保活报文中包括一个线卡启动状态参数,当所述线卡启动未完成时,设置线卡启动状态参数为第三参数值;当所述线卡启动完成时,设置线卡启动状态参数为第四参数值。
进一步的,所述步骤S3具体为:所述主控卡接收线卡发送的第二保活报文,提取第二保活报文中的线卡启动状态参数,若提取出的线卡启动状态参数为第三参数值,且主控卡中对应的线卡状态参数为第二参数值,并且保活报文计数器的值大于预设值N,则判断线卡为故障重起。
进一步的,所述步骤S3中,若主控卡判断线卡故障重起,则主控卡按照其保存的线卡配置对线卡进行重新配置。
本发明为解决技术问题还提供了一种检测线卡故障重起的***,具体包括:具体包括主控卡和至少一个线卡,所述主控卡包括第一保活报文收发单元和故障重起判断单元;所述至少一个线卡包括第二保活报文收发单元;
所述第一保活收发单元,用于在检测到某一线卡物理***后,周期的向所述线卡发送第一保活报文;并用于接收线卡发送至主控卡的第二保活报文并对接收的第二保活报文进行处理,
所述第二保活报文收发单元,用于在所述线卡启动后,接收主控卡发送的第一保活报文,并在接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文,
所述故障重起判断单元,用于判断线卡是否故障重起。
进一步的,所述故障重起判断单元,还用于通过主控卡中保存的线卡状态参数、保活报文的数量以及所述保活报文中线卡启动状态参数判断线卡是否故障重起。
进一步的,所述主控卡还包括一个保活报文计数单元,所述保活报文计数单元中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为0;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,将所述对应的保活报文计数器的值加1。
本发明的有益效果:本发明提供一种使用保活报文检测线卡故障重起的方法及***通过发送保活报文,并且在主控卡一端对保活报文发送数量进行记录及提取保活报文中携带的线卡启动状态,从而可以准确判断出线卡是否出现故障重起的问题,其实现过程简单易于在实际应用中进行操作,而且能够适用于一张主控卡与多张线卡组成的分布式数据通信设备,可以提高分布式设备的可靠性;并且该方法及***也能够应用于堆叠、集群等计算机***。
附图说明
图1所示为本发明实施例的一种检测线卡故障重起的方法的流程框图;
图2所示为本发明实施例的一种检测线卡故障重起的***的结构框图。
具体实施方式
下面结合附图和具体的实施例对本发明作进一步的阐述。
如图1所示为本发明实施例的一种检测线卡故障重起的方法的流程框图,包括如下步骤:
S1、线卡物理***后,主控卡周期的向线卡发送第一保活报文;
S2、所述线卡启动后,接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文;
S3、所述主控卡接收到线卡发送的第二保活报文后,对所述第二保活报文进行处理,以判断所述线卡是否故障重起;若判断所述线卡故障重起,则对所述线卡进行重新配置。
其中,线卡启动后,在能够接收到主控卡的第一保活报文的基础上,所述线卡通过卡间通信通道向主控卡发送第二保活报文,主控卡根据接收的第二保活报文以及其他状态参数来判断线卡是否故障重起,本发明在现有保活报文检测基础上进行改进,可以准确检测出线卡是否故障重起,以保证主控卡能够及时对线卡进行重新配置,提高了分布式设备的可靠性。为了本领域技术人员能够理解并且实施本发明技术方案,下面将对主控卡如何判断线卡是否故障重起的过程进行详细描述。
为了本领域技术人员能够理解并且实施本发明技术方案,下面将对主控卡如何判断线卡故障重起的过程进行详细阐述:
所述主控卡根据主控卡中保存的线卡状态参数、第二保活报文的数量以及所述第二保活报文中线卡启动状态参数判断线卡是否故障重起。
其中,所述主控卡中设置一个线卡状态参数,用于记录线卡处于在位状态或者不在位状态;当线卡处于不在位状态时,设置线卡状态参数为第一参数值,所述线卡处于不在位状态可以是主控卡初始化或者线卡被拔出时;当线卡处于在位状态时,设置线卡状态参数为第二参数值。所述第一参数值和第二参数值在此不作限定,只要可以唯一确定线卡的状态即可。
所述线卡启动后,主控卡中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量,该保活报文计数器接收到的保活报文的数量采用一变量表示;当所述线卡处于不在位状态时,设置保活报文计数器的值为0;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,保活报文计数器的值加1。
所述保活报文中包括一个线卡启动状态参数的字段,当所述线卡启动未完成时,设置线卡启动状态参数为第三参数值;当所述线卡启动完成时,设置线卡启动状态参数为第四参数值。所述第三参数值和第四参数值在此不作限定,只要可以唯一确定线卡的启动状态即可。
所述步骤S3的具体过程为:所述主控卡接收线卡发送的第二保活报文,提取第二保活报文中的线卡启动状态参数,当主控卡中线卡状态参数为第二参数值,并且保活报文计数器的值大于预设值N,以及接收到的第二保活报文中线卡启动状态参数为第三参数值时,则判断线卡为故障重起。若主控卡判断线卡为故障重起,则主控卡根据其保存的线卡配置对线卡进行重新配置,以使线卡上的配置和主控卡关于该线卡的配置保持一致。
同时,基于上述方法,本发明还提供了一种具体包括主控卡和至少一个线卡,所述主控卡包括第一保活报文收发单元和故障重起判断单元;所述至少一个线卡包括第二保活报文收发单元;所述第一保活收发单元,用于在检测到某一线卡物理***后,周期的向所述线卡发送第一保活报文;并用于接收线卡发送至主控卡的第二保活报文并对接收的第二保活报文进行处理,所述第二保活报文收发单元,用于在所述线卡启动后,接收主控卡发送的第一保活报文,并在接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文,所述故障重起判断单元,用于判断线卡是否故障重起。
其中,所述故障重起判断单元,还用于通过主控卡中保存的线卡状态参数、保活报文的数量以及所述保活报文中线卡启动状态参数判断线卡是否故障重起。所述主控卡还包括一个保活报文计数单元,所述保活报文计数单元中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为0;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,将所述对应的保活报文计数器的值加1。
另外,本发明一种检测线卡故障重起的方法除了能够应用于一张主控卡和一张线卡组成的分布式数据通信设备以外,还能够适用于一张主控卡和多张线卡组成的分布式数据通信设备,能够准确检测出多张线卡中是否有线卡出现了故障重起的问题,其具体过程与上述过程类似,主控卡通过判断接收的保活报文来自哪个对应的保活报文通道,即可判断出对应的线卡是否出现故障重起问题,在本发明方案中不再作详细描述。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种检测线卡故障重起的方法,其特征在于,包括如下步骤:
S1、线卡物理***后,主控卡周期的向线卡发送第一保活报文;
S2、所述线卡启动后,接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文;
S3、所述主控卡接收到线卡发送的第二保活报文后,对所述第二保活报文进行处理,以判断所述线卡是否故障重起;若判断所述线卡故障重起,则对所述线卡进行重新配置。
2.如权利要求1所述的方法,其特征在于,所述步骤S3中,主控卡根据保存的线卡状态参数、第二保活报文的数量以及所述第二保活报文中线卡启动状态参数来判断对应的线卡是否故障重起。
3.如权利要求2所述的方法,其特征在于,所述主控卡中设置一个线卡状态参数,用于记录线卡的在位状态;当线卡处于不在位状态时,设置线卡状态参数为第一参数值;当线卡处于在位状态时,设置线卡状态参数为第二参数值。
4.如权利要求1-3任一项所述的方法,其特征在于,在步骤S2中,所述线卡启动后,主控卡中设置一个对应的保活报文计数器,用于记录主控卡接收到的该线卡发出的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为0;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,所述保活报文计数器的值加1。
5.如权利要求1所述的方法,其特征在于,所述第二保活报文中包括一个线卡启动状态参数,当所述线卡启动未完成时,设置线卡启动状态参数为第三参数值;当所述线卡启动完成时,设置线卡启动状态参数为第四参数值。
6.如权利要求5所述的方法,其特征在于,所述步骤S3具体为:所述主控卡接收线卡发送的第二保活报文,提取第二保活报文中的线卡启动状态参数,若提取出的线卡启动状态参数为第三参数值,且主控卡中对应的线卡状态参数为第二参数值,并且保活报文计数器的值大于预设值N,则判断线卡为故障重起。
7.如权利要求1所述的方法,其特征在于,所述步骤S3中,若主控卡判断线卡故障重起,则主控卡按照其保存的线卡配置对线卡进行重新配置。
8.一种检测线卡故障重起的***,其特征在于,具体包括主控卡和至少一个线卡,所述主控卡包括第一保活报文收发单元和故障重起判断单元;所述至少一个线卡包括第二保活报文收发单元;
所述第一保活收发单元,用于在检测到某一线卡物理***后,周期的向所述线卡发送第一保活报文;并用于接收线卡发送至主控卡的第二保活报文并对接收的第二保活报文进行处理,
所述第二保活报文收发单元,用于在所述线卡启动后,接收主控卡发送的第一保活报文,并在接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文,
所述故障重起判断单元,用于判断线卡是否故障重起。
9.如权利要求8所述的***,其特征在于,所述故障重起判断单元,还用于通过主控卡中保存的线卡状态参数、保活报文的数量以及所述保活报文中线卡启动状态参数判断线卡是否故障重起。
10.如权利要求9所述的***,其特征在于,所述主控卡还包括一个保活报文计数单元,所述保活报文计数单元中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为0;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,将所述对应的保活报文计数器的值加1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310750058.3A CN103746842B (zh) | 2013-12-31 | 2013-12-31 | 一种检测线卡故障重启的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310750058.3A CN103746842B (zh) | 2013-12-31 | 2013-12-31 | 一种检测线卡故障重启的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103746842A true CN103746842A (zh) | 2014-04-23 |
CN103746842B CN103746842B (zh) | 2017-06-06 |
Family
ID=50503833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310750058.3A Active CN103746842B (zh) | 2013-12-31 | 2013-12-31 | 一种检测线卡故障重启的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103746842B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486418A (zh) * | 2014-12-16 | 2015-04-01 | 上海斐讯数据通信技术有限公司 | 一种分布式网络设备及其工作情况监测方法 |
CN105915409A (zh) * | 2016-04-25 | 2016-08-31 | 成都广达新网科技股份有限公司 | 一种通过主控Console端口管理多线卡方法及装置 |
CN106685765A (zh) * | 2017-01-10 | 2017-05-17 | 北京腾凌科技有限公司 | 重启状态的确定方法及装置 |
CN111294228A (zh) * | 2018-12-07 | 2020-06-16 | 迈普通信技术股份有限公司 | 线卡编号检测法、装置及其存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1738264A (zh) * | 2004-08-16 | 2006-02-22 | Ut斯达康通讯有限公司 | 网元重启检测方法 |
US20090262643A1 (en) * | 2008-04-16 | 2009-10-22 | Hangzhou H3C Technologies Co., Ltd. | Method for implementing intersecting ring network with arbitrary topology, node and intersecting ring network |
CN102664755A (zh) * | 2012-04-20 | 2012-09-12 | 杭州华三通信技术有限公司 | 控制通道故障确定方法及其装置 |
CN102694692A (zh) * | 2012-06-18 | 2012-09-26 | 杭州华三通信技术有限公司 | 一种分布式设备的故障检测方法和装置 |
CN102739535A (zh) * | 2012-06-26 | 2012-10-17 | 中兴通讯股份有限公司 | 一种线卡离线的保护方法和*** |
CN102833091A (zh) * | 2011-12-13 | 2012-12-19 | 上海艾泰科技有限公司 | 交换机的远程管理方法 |
-
2013
- 2013-12-31 CN CN201310750058.3A patent/CN103746842B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1738264A (zh) * | 2004-08-16 | 2006-02-22 | Ut斯达康通讯有限公司 | 网元重启检测方法 |
US20090262643A1 (en) * | 2008-04-16 | 2009-10-22 | Hangzhou H3C Technologies Co., Ltd. | Method for implementing intersecting ring network with arbitrary topology, node and intersecting ring network |
CN102833091A (zh) * | 2011-12-13 | 2012-12-19 | 上海艾泰科技有限公司 | 交换机的远程管理方法 |
CN102664755A (zh) * | 2012-04-20 | 2012-09-12 | 杭州华三通信技术有限公司 | 控制通道故障确定方法及其装置 |
CN102694692A (zh) * | 2012-06-18 | 2012-09-26 | 杭州华三通信技术有限公司 | 一种分布式设备的故障检测方法和装置 |
CN102739535A (zh) * | 2012-06-26 | 2012-10-17 | 中兴通讯股份有限公司 | 一种线卡离线的保护方法和*** |
Non-Patent Citations (1)
Title |
---|
郭晓丹,李诚: "基于分布式路由器的LDP优雅重启技术的研究与实现", 《电脑与电信》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486418A (zh) * | 2014-12-16 | 2015-04-01 | 上海斐讯数据通信技术有限公司 | 一种分布式网络设备及其工作情况监测方法 |
CN105915409A (zh) * | 2016-04-25 | 2016-08-31 | 成都广达新网科技股份有限公司 | 一种通过主控Console端口管理多线卡方法及装置 |
CN105915409B (zh) * | 2016-04-25 | 2019-08-16 | 成都广达新网科技股份有限公司 | 一种通过主控Console端口管理多线卡方法及装置 |
CN106685765A (zh) * | 2017-01-10 | 2017-05-17 | 北京腾凌科技有限公司 | 重启状态的确定方法及装置 |
CN111294228A (zh) * | 2018-12-07 | 2020-06-16 | 迈普通信技术股份有限公司 | 线卡编号检测法、装置及其存储介质 |
CN111294228B (zh) * | 2018-12-07 | 2022-10-18 | 迈普通信技术股份有限公司 | 线卡编号检测法、装置及其存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103746842B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110380907B (zh) | 一种网络故障诊断方法、装置、网络设备及存储介质 | |
CN101980171B (zh) | 一种软件***故障自恢复方法及其使用的软件看门狗*** | |
CN102790776A (zh) | 心跳连接归一处理方法、终端、服务器及通信*** | |
CN107948063B (zh) | 一种建立聚合链路的方法和接入设备 | |
CN103746842A (zh) | 一种检测线卡故障重起的方法及*** | |
CN101296135A (zh) | 故障信息的处理方法和装置 | |
WO2016095344A1 (zh) | 链路切换方法、装置及线卡 | |
CN103139818A (zh) | 一种aos中保持长连接的方法、***、aoe、aog及终端 | |
CN109391691A (zh) | 一种单节点故障下nas服务的恢复方法及相关装置 | |
CN104065508A (zh) | 应用服务健康检查方法、装置和*** | |
CN107567107A (zh) | 一种传输数据的方法及装置 | |
CN110912759A (zh) | 一种vpn网络异常自动连接方法及*** | |
CN107688512A (zh) | 一种优化虚拟机数据备份方法和*** | |
CN103034552A (zh) | 一种在软件***中实现软件看门狗的方法 | |
CN101980482B (zh) | 一种网络连接监控方法及其*** | |
CN103347031B (zh) | 一种防范arp报文攻击的方法及设备 | |
CN103338158A (zh) | 一种goose报文传输时延抖动抑制方法 | |
CN102882708A (zh) | 运维审计方法、装置及*** | |
CN105812346A (zh) | 一种串口设备和以太网设备的数据交互方法 | |
CN104410687A (zh) | 一种基于管道的多组进程间数据传递方法 | |
CN101951327B (zh) | 一种iSCSI网络***以及检测网络故障的方法 | |
CN103684897A (zh) | 在客户端中检测网络连通性的方法、***和装置 | |
CN104009956A (zh) | 一种基于嵌入式多核协处理网闸***的通信方法 | |
CN104486443A (zh) | 消息推送***及其方法 | |
CN105376777B (zh) | 一种网络通信功能异常处理方法及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |