CN105959128A - 故障处理方法、装置以及网络设备 - Google Patents

故障处理方法、装置以及网络设备 Download PDF

Info

Publication number
CN105959128A
CN105959128A CN201510490601.XA CN201510490601A CN105959128A CN 105959128 A CN105959128 A CN 105959128A CN 201510490601 A CN201510490601 A CN 201510490601A CN 105959128 A CN105959128 A CN 105959128A
Authority
CN
China
Prior art keywords
control board
main control
fault
described main
malfunction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510490601.XA
Other languages
English (en)
Inventor
余刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN201510490601.XA priority Critical patent/CN105959128A/zh
Publication of CN105959128A publication Critical patent/CN105959128A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障处理方法、装置以及网络设备,所述方法应用在网络设备上,所述网络设备包括主用主控板和备用主控板,包括:当所述主用主控板发生故障时,控制所述主用主控板保持在故障状态;在所述故障状态下,当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位。应用本发明实施例,在主用主控板发生故障时,将主用主控板控制在故障状态下,避免主用主控板故障后立即重启,并在故障状态下将主用主控板存储的数据信息发送给外设设备,从而保障数据信息的完整性,因此,能够为故障定位分析提供完整的数据信息,从而降低故障定位难度,提高故障定位效率。

Description

故障处理方法、装置以及网络设备
技术领域
本发明涉及通信技术领域,尤其涉及一种故障处理方法、装置以及网络设备。
背景技术
在网络的关键关节部署的设备常采用双主控板结构,分别为主用主控板和备用主控板。主用主控板可以将本端的数据信息(比如,内核的函数栈、路由协议计算出的路由、ARP(Address Resolution Protocol,地址解析协议)表项,以及发生故障时的故障类型等信息)进行存储,在主用主控板发生故障时,维护人员可以通过主用主控板保存的数据信息进行故障定位分析。
然而,在相关技术中,为了保障主用主控板和备用主控板之间能够平缓切换,主用主控板故障后会立即重启,这将导致一些数据丢失,从而不能为故障定位分析提供完整的数据信息,加大故障定位的难度、故障定位效率低。
发明内容
有鉴于此,本发明提供一种故障处理方法、装置以及网络设备,以在主用主控板故障状态下获取数据信息,从而为故障定位分析提供完整的数据信息,降低故障定位难度,提高故障定位效率。
具体地,本发明是通过如下技术方案实现的:
本发明一方面,提供一种故障处理方法,所述方法应用在网络设备上,所述网络设备包括主用主控板和备用主控板,包括:
当所述主用主控板发生故障时,控制所述主用主控板保持在故障状态;
在所述故障状态下,当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位。
本发明另一方面,提供一种故障处理装置,所述装置应用在网络设备上,所述网络设备包括主用主控板和备用主控板,包括:
控制单元,用于当所述主用主控板发生故障时,控制所述主用主控板保持在故障状态;
发送单元,用于在所述故障状态下,当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位。
本发明另一方面,提供一种网络设备,所述网络设备包括主用主控板和备用主控板,
所述主用主控板,用于在发生故障时,保持在故障状态;当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位;
所述备用主控板,用于在检测到所述主用主控板发生故障时,切换为主用主控板。
应用本发明实施例,在主用主控板发生故障时,将主用主控板控制在故障状态下,避免主用主控板故障后立即重启,并在故障状态下将主用主控板存储的数据信息发送给外设设备,从而保障数据信息的完整性,因此,能够为故障定位分析提供完整的数据信息,从而降低故障定位难度,提高故障定位效率。
附图说明
图1是本发明一示例性实施例示出的一种应用场景示意图;
图2是本发明一示例性实施例示出的一种故障处理方法的流程示意图;
图3是本发明一示例性实施例示出的一种故障处理装置所在设备的一硬件结构示意图;
图4是本发明一示例性实施例示出的一种故障处理装置的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本发明一示例性实施例示出的一种应用场景示意图。
如图1所示,网络设备(比如,路由器、三层交换机)包括主用主控板和备用主控板,其中,主用主控板可以用于协议策略计算,并将基于计算指引网络流量转发,而备用主控板只备份主用主控板的计算结果,主用主控板和备用主控板之间通过心跳包机制进行通讯,并协商和维持主备关系状态,在主用主控板出现故障(比如,宕机)时,备用主控板将会切换为主用主控板,基于存储的计算结果等信息,替代原来的(已故障的)主用主控板执行协议策略计算等。在本发明实施例中,在主用主控板故障时,可以控制其保持在故障状态,并响应外设设备的请求信息,将主用主控板存储的数据信息发送给外设设备,以使外设设备能够通过这些数据信息进行分析,最终实现故障定位,而备用主控板,可以用于在检测到主用主控板发生故障时,切换为主用主控板。
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,将结合以下附图对本发明实施例中技术方案作进一步详细的说明。
图2是本发明一示例性实施例示出的一种故障处理方法的流程示意图。
如图2所示,一种故障处理方法,该方法应用在网络设备上,该网络设备包括主用主控板和备用主控板,该方法包括如下步骤:
步骤201,当主用主控板发生故障时,控制主用主控板保持在故障状态。
在本发明实施例中,可选地,可以通过主用主控板中的内核调试器KDB(Kernel Debugger)向主用主控板的内核发送预设指令,从而使主用主控板保持在故障状态。举例来说,当主用主控板发生故障时,主用主控板的内核会向KDB发送故障通知,比如,通过调用KdpSendWaitContinue函数向KDB发送寄存器状态信息、故障类型等告知KDB主用主控发生故障,KDB接收到故障通知后,可以通过调用KiDebugRoutine(KdpTrace),从而接管主用主控板的内核,比如,向KdpSendWaitContinue发送预设指令,以指示内核下一步操作,例如,该预设指令用于设置断点阻止内核中程序继续运行,以使主用主控板保持故障状态。
步骤202,在故障状态下,当接收到外设设备的请求信息时,将主用主控板中存储的数据信息发送外设设备,以使外设设备分析数据信息进行故障定位。
根据本发明的可选实施例,数据信息可以包括静态数据和动态数据,其中,静态数据可以包括但不限于故障类型、内核的函数栈以及寄存器状态信息中的至少一个,而动态数据可以包括但不限于主用主控板中路由协议计算的路由和ARP(Address Resolution Protocol,地址解析协议)表中的至少一个。本技术领域人员可以理解的是,主用主控板在故障重启时,其中的静态数据并不会丢失,可以仍旧保存在主用主控板中,然而,其动态数据却会因为初始化主用主控板的内存而丢失,而仅仅靠静态数据进行故障定位将会加大定位难度,比如,通过静态数据可以推测出某一块内存中存储的内存地址数值损坏,导致通过此地址访问内存信息时出现异常,进而推测可能是内存越界存储,导致这个模块的表项被其它模块写坏(也有可能是自己写坏),这种情况下,需要利用动态数据对被写坏的表项内容进行检查,从而判断该写坏的表项内容来自哪个模块,进而确定哪个模块越界访问内存,因此,动态数据若丢失,则将无法确定故障的根源问题,从而加大故障定位难度。
在本步骤中,外设设备用于存储从主用主控板中导出的数据信息,并分析该数据信息,从而实现故障定位。
本技术领域人员可以理解的是,在相关技术中,备用主控板是通过检测主用主控板的重启事件,以进行切换(切换为主用主控板),而在本发明实施例中,主用主控板在故障时不会立即重启,因此,备用主控板将无法通过检测主用主控板的重启事件,从而切换为主用主控板,这样将会影响网络设备的业务处理,为解决这一问题,根据本发明一可选实施例,在控制主用主控板保持在故障状态之前,可以将主用主控板的寄存器的标志位置为故障标识,比如,主用主控板正常工作状态时,该标志位为0x10,当故障时,则置为0x01,备用主控板可以通过实时检测寄存器的标志位,以判断是否切换为主用主控板,具体地,当备用主控板检测到该故障标识时,将立即切换为主用主控板,从而保障网络设备的业务处理不被中断,不影响网络流量的在线转发。进一步地,还可以在备用主控板上设置警示装置,以在备用主控板切换为主用主控板后,提示技术人员或者管理员原来的主用主控板故障,从而使技术人员或者管理员能够及时备份数据信息,进行故障定位。
根据本发明的另一可选实施例,为了防止主用主控板故障后,备用主控板也发生故障,最终导致网络设备的业务处理彻底被中断,本发明实施例,可以设置预设时间,从主用主控板故障时起,当到达预设时间时,将重启主用主控板。
应用本发明实施例,在主用主控板发生故障时,将主用主控板控制在故障状态下,避免主用主控板故障后立即重启,并在故障状态下将主用主控板存储的数据信息发送给外设设备,从而保障数据信息的完整性,因此,能够为故障定位分析提供完整的数据信息,从而降低故障定位难度,提高故障定位效率。
另一方面,当主用主控板故障时,将会将寄存器的标志位置为故障标识,使备用主控板能够实时检测主用主控板的状态,从而及时切换为主用主控板,因此,能够保障网络设备的业务处理不被中断,不影响网络流量的在线转发。
与前述故障处理方法的实施例相对应,本发明还提供了故障处理装置的实施例。
本发明故障处理装置400的实施例可以应用在网络设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在网络设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明故障处理装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的网络设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本发明一示例性实施例示出的一种故障处理装置的结构框图。
如图4所示,一种故障处理装置400,该装置应用在网络设备上,该网络设备包括主用主控板和备用主控板,该装置包括:控制单元401和发送单元402。
控制单元401用于当所述主用主控板发生故障时,控制所述主用主控板保持在故障状态。
根据本发明一可选实施例,控制单元401可以包括控制子单元,用于通过所述主用主控板中的内核调试器KDB向所述主用主控板的内核发送预设指令,以使所述主用主控板保持在故障状态。
发送单元402用于在所述故障状态下,当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位。
根据本发明一可选实施例,一种故障处理装置400还可以包括置位单元,置位单元用于在控制所述主用主控板保持在故障状态之前,将所述主用主控板的寄存器的标志位置为故障标识,当所述备用主控板检测到所述故障标识时,切换为主用主控板。
根据本发明的另一可选实施例,一种故障处理装置400还可以包括重启单元,用于从所述主用主控板故障时起,当到达预设时间时,重启所述主用主控板。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种故障处理方法,其特征在于,所述方法应用在网络设备上,所述网络设备包括主用主控板和备用主控板,包括:
当所述主用主控板发生故障时,控制所述主用主控板保持在故障状态;
在所述故障状态下,当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在控制所述主用主控板保持在故障状态之前,将所述主用主控板的寄存器的标志位置为故障标识;
当所述备用主控板检测到所述故障标识时,切换为主用主控板。
3.根据权利要求1所述的方法,其特征在于,所述控制所述主用主控板保持在故障状态,包括:
通过所述主用主控板中的内核调试器KDB向所述主用主控板的内核发送预设指令,以使所述主用主控板保持在故障状态。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述主用主控板故障时起,当到达预设时间时,重启所述主用主控板。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述数据信息包括静态数据和动态数据,
所述静态数据包括故障类型、内核的函数栈以及寄存器状态信息中的至少一个,
所述动态数据包括主用主控板中路由协议计算的路由和ARP表中的至少一个。
6.一种故障处理装置,其特征在于,所述装置应用在网络设备上,所述网络设备包括主用主控板和备用主控板,包括:
控制单元,用于当所述主用主控板发生故障时,控制所述主用主控板保持在故障状态;
发送单元,用于在所述故障状态下,当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
置位单元,用于在控制所述主用主控板保持在故障状态之前,将所述主用主控板的寄存器的标志位置为故障标识,当所述备用主控板检测到所述故障标识时,切换为主用主控板。
8.根据权利要求6所述的装置,其特征在于,所述控制单元,包括:
控制子单元,用于通过所述主用主控板中的内核调试器KDB向所述主用主控板的内核发送预设指令,以使所述主用主控板保持在故障状态。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
重启单元,用于从所述主用主控板故障时起,当到达预设时间时,重启所述主用主控板。
10.一种网络设备,其特征在于,所述网络设备包括主用主控板和备用主控板,
所述主用主控板,用于在发生故障时,保持在故障状态;当接收到外设设备的请求信息时,将所述主用主控板中存储的数据信息发送给所述外设设备,以使外设设备分析所述数据信息进行故障定位;
所述备用主控板,用于在检测到所述主用主控板发生故障时,切换为主用主控板。
CN201510490601.XA 2015-08-11 2015-08-11 故障处理方法、装置以及网络设备 Pending CN105959128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510490601.XA CN105959128A (zh) 2015-08-11 2015-08-11 故障处理方法、装置以及网络设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510490601.XA CN105959128A (zh) 2015-08-11 2015-08-11 故障处理方法、装置以及网络设备

Publications (1)

Publication Number Publication Date
CN105959128A true CN105959128A (zh) 2016-09-21

Family

ID=56917027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510490601.XA Pending CN105959128A (zh) 2015-08-11 2015-08-11 故障处理方法、装置以及网络设备

Country Status (1)

Country Link
CN (1) CN105959128A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及***
CN108549602A (zh) * 2018-03-30 2018-09-18 深圳市江波龙电子有限公司 一种软件调试方法
CN112311621A (zh) * 2020-10-15 2021-02-02 新华三技术有限公司合肥分公司 通信检测方法及装置
CN114785673A (zh) * 2022-04-26 2022-07-22 杭州迪普科技股份有限公司 多主控vsm环境下主备倒换时获取异常信息的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1321004A (zh) * 2000-04-25 2001-11-07 华为技术有限公司 交换机的主备倒换方法及其实现装置
CN1832417A (zh) * 2005-03-10 2006-09-13 华为技术有限公司 一种数据采集方法及***
CN103036724A (zh) * 2012-12-14 2013-04-10 北京华为数字技术有限公司 状态信息传输方法、网络设备及组合设备
CN203482216U (zh) * 2013-09-24 2014-03-12 浙江大华***工程有限公司 一种网络设备
CN103716186A (zh) * 2013-12-17 2014-04-09 北京佳讯飞鸿电气股份有限公司 具有网络故障容错能力的人工话务***及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1321004A (zh) * 2000-04-25 2001-11-07 华为技术有限公司 交换机的主备倒换方法及其实现装置
CN1832417A (zh) * 2005-03-10 2006-09-13 华为技术有限公司 一种数据采集方法及***
CN103036724A (zh) * 2012-12-14 2013-04-10 北京华为数字技术有限公司 状态信息传输方法、网络设备及组合设备
CN203482216U (zh) * 2013-09-24 2014-03-12 浙江大华***工程有限公司 一种网络设备
CN103716186A (zh) * 2013-12-17 2014-04-09 北京佳讯飞鸿电气股份有限公司 具有网络故障容错能力的人工话务***及其方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及***
CN108549602A (zh) * 2018-03-30 2018-09-18 深圳市江波龙电子有限公司 一种软件调试方法
CN108549602B (zh) * 2018-03-30 2022-03-08 深圳市江波龙电子股份有限公司 一种软件调试方法
CN112311621A (zh) * 2020-10-15 2021-02-02 新华三技术有限公司合肥分公司 通信检测方法及装置
CN112311621B (zh) * 2020-10-15 2022-05-24 新华三技术有限公司合肥分公司 通信检测方法及装置
CN114785673A (zh) * 2022-04-26 2022-07-22 杭州迪普科技股份有限公司 多主控vsm环境下主备倒换时获取异常信息的方法和装置
CN114785673B (zh) * 2022-04-26 2023-08-22 杭州迪普科技股份有限公司 主备倒换时获取异常信息的方法和装置

Similar Documents

Publication Publication Date Title
US7120834B1 (en) Fast port failover in a network switch
EP3142011B1 (en) Anomaly recovery method for virtual machine in distributed environment
US7936666B2 (en) Virtual router with a priority value per port
US9110703B2 (en) Virtual machine packet processing
US7925817B2 (en) Computer system and method for monitoring an access path
US20090172151A1 (en) Dynamic network configuration
US20050210077A1 (en) Managing process state information in an operating system environment
US20190081853A1 (en) Link Handover Method for Service in Storage System, and Storage Device
CN105959128A (zh) 故障处理方法、装置以及网络设备
CN105024879A (zh) 虚拟机故障检测、恢复***及虚拟机检测、恢复、启动方法
US10999131B2 (en) Method and system for detecting abnormalities in network element operation
CN105528373A (zh) 数据库故障处理方法、装置、***及服务器
CN107203443A (zh) 一种基于kvm虚拟化的虚拟机高可用的方法与装置
US20180165156A1 (en) Communication apparatus, system, method, and non-transitory medium
JP2008283608A (ja) 冗長化された通信経路を切り替える計算機、プログラム及び方法
JP6740543B2 (ja) 通信装置、システム、ロールバック方法及びプログラム
US10877834B2 (en) Logging reboots of network devices
CN111224899A (zh) 一种虚拟端口的流量镜像方法、装置、设备及介质
CN106341323A (zh) Vrrp状态同步方法和装置
CN110519098A (zh) 一种异常单板的处理方法及装置
CN115086219B (zh) 一种虚拟路由器确定方法、设备及计算机可读存储介质
CN111984376B (zh) 协议处理方法、装置、设备及计算机可读存储介质
CN104954162A (zh) 一种数据备份、协助数据备份的方法以及装置
WO2018015983A1 (en) Communication apparaus, system, rollback method, and program
CN115225468B (zh) 流量快速切换方法、***及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building

Applicant after: Hangzhou Dipu Polytron Technologies Inc

Address before: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building

Applicant before: Hangzhou Dipu Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921