CN118158067A - 框式设备通信链路异常处理方法、框式设备及介质 - Google Patents

框式设备通信链路异常处理方法、框式设备及介质 Download PDF

Info

Publication number
CN118158067A
CN118158067A CN202211559772.XA CN202211559772A CN118158067A CN 118158067 A CN118158067 A CN 118158067A CN 202211559772 A CN202211559772 A CN 202211559772A CN 118158067 A CN118158067 A CN 118158067A
Authority
CN
China
Prior art keywords
main control
control board
board
standby
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211559772.XA
Other languages
English (en)
Inventor
刘妙阁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202211559772.XA priority Critical patent/CN118158067A/zh
Priority to PCT/CN2023/101886 priority patent/WO2024119777A1/zh
Publication of CN118158067A publication Critical patent/CN118158067A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种框式设备通信链路异常处理方法、框式设备及介质,属于框式设备技术领域。本申请通过引入孤岛检测,根据孤岛状态执行对应单板的恢复通信链路正常的动作,避免由于主备通信链路异常以及当前主控板和业务单板之间的通信链路异常导致整框复位,保证当前业务的正常运行处理。

Description

框式设备通信链路异常处理方法、框式设备及介质
技术领域
本申请涉及框式设备的技术领域,尤其涉及一种框式设备通信链路异常处理方法、框式设备及计算机可读存储介质。
背景技术
目前,在通讯设备和工控设备等框式设备领域,为了达到高性能和高可靠性,往往采用分布式架构设计,由一个主控板对整个框式设备的其他业务单板进行管理并同步每张业务单板的相关信息。框式设备一般包括主控板、背板、交换板以及业务单板等。其中,主控板通过背板和其他所有业务单板连接,对业务单板进行管理;背板提供业务单板的供电、数据、管理、控制平面的各种通道;业务板用来接收和发送数据,主控板控制数据在交换机内部的走向;交换网板用于交换机内部的数据交换。但是,交换芯片硬件问题或者通信链路硬件问题等都可能导致板间通信链路异常,异常场景包括单通和互相不通,而通信链路异常会进一步导致板卡复位或者整框复位。
以主用主控板和备用主控板之间的主备通信链路为例,当前采用软件心跳机制确保***主备可靠性。主控板的主备管理进程中心跳机制线程每秒发送一个L2组播报文,通告自己的身份信息。而主机、备机或背板硬件问题都有可能导致主备通信链路异常,其中一种异常场景是主机无法收到备机发送的心跳组播报文,主机便会发送老化备机报文至备机,备机收到老化报文就复位自身,但是备机复位后之后会产生双主冲突,因为双主冲突主机也会复位自身,进一步导致整框复位,从而影响当前业务。
发明内容
本申请的主要目的在于提供一种框式设备通信链路异常处理方法、框式设备及计算机可读存储介质,旨在解决现有技术中难以避免通信链路异常导致双主冲突、进一步导致整框复位的技术问题。
为实现上述目的,本申请提供一种框式设备通信链路异常处理方法,所述框式设备通信链路异常处理方法应用于主用主控板,包括以下步骤:
计算候选集群列表中最优集群内所有缓存集群的缓存亲和性;其中,缓存亲和性为业务作业所需数据与当前缓存数据之间的耦合关联性;
计算最优缓存集群中所有缓存节点的节点资源评分;其中,资源评分为5表征资源空闲状态的信息;
选择最优缓存集群的最优缓存节点进行调度。
为实现上述目的,本申请提供一种框式设备通信链路异常处理方法,所述框式设备通信链路异常处理方法应用于备用主控板,包括以下步骤:0在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;
在所述备用主控板为孤岛板卡之后,将所述备用主控板设置为非工作待命状态;
在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
为实现上述目的,本申请提供一种框式设备通信链路异常处理方法,所0述框式设备通信链路异常处理方法应用于业务单板,包括以下步骤:
在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;
在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
本申请还提供一种框式设备,所述框式设备包括主用主控板、备主用主控板、业务单板、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上所述的框式设备通信链路异常处理方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述框式设备通信链路异常处理方法的步骤。
本申请还提供一种应用于主用主控板的第一装置,所述第一装置包括:
第一孤岛检测模块,用于在所述主用主控板在预设第一时长内未收到备用主控板的第一心跳报文之后,对所述主用主控板进行孤岛检测,确定所述主用主控板是否为孤岛板卡;
第一状态切换模块,用于在确定所述主用主控板为孤岛板卡之后,将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板;
状态回切模块,用于在预设第二时长内处于所述非工作待命状态的所述主用主控板收到所述备用主控板的所述第一心跳报文之后,将所述主用主控板退出所述非工作待命状态并将所述主用主控板设置为当前主控板。
本申请还提供一种应用于备用主控板的第二装置,所述第二装置包括:
第二孤岛检测模块,用于在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;
第二状态切换模块,用于在所述备用主控板为孤岛板卡之后,将所述备用主控板设置为非工作待命状态;
状态恢复模块,用于在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
本申请还提供一种应用于业务单板的第三装置,所述第三装置包括:
第三孤岛检测模块,用于在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;
复位重启模块,用于在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
本申请公开了一种框式设备通信链路异常处理方法、框式设备及计算机可读存储介质,在所述主用主控板在预设第一时长内未收到备用主控板的第一心跳报文之后,对所述主用主控板进行孤岛检测,确定所述主用主控板是否为孤岛板卡;在确定所述主用主控板为孤岛板卡之后,将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板;在预设第二时长内处于所述非工作待命状态的所述主用主控板收到所述备用主控板的所述第一心跳报文之后,将所述主用主控板退出所述非工作待命状态并将所述主用主控板设置为当前主控板。
在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;在所述备用主控板为孤岛板卡之后,将所述备用主控板设置为非工作待命状态;在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
通过在主用主控板、备用主控板和业务单板中引入孤岛检测,确定板卡是否为孤岛板卡。当当前单板为孤岛状态的主控板时,通过将其设置为非工作待命状态并监听伙伴板的第一心跳报文,若接收到伙伴板的第一心跳报文,则可以确定当前单板为正常单板,主控板可通过退出非工作待命状态的方式自恢复主备通信链路的正常通信而不必通过复位重启恢复正常通信,避免重启复位后的主控板和当前主控板之间的双主冲突导致整框复位。
当当前单板为孤岛状态的业务单板时,直接可以确定当前单板为异常单板,通过复位重启业务单板恢复当前主控板和业务单板之间的正常通信,避免由于当前主控板和业务单板之间的通信链路异常导致当前主控板复位重启、导致整框复位。
从而通过引入孤岛检测,根据孤岛状态执行对应单板的恢复通信链路正常的动作,避免由于主备通信链路异常以及当前主控板和业务单板之间的通信链路异常导致整框复位,保证当前业务的正常运行处理。
附图说明
图1是本申请实施例方案涉及的硬件运行环境的运行设备的结构示意图;
图2为本申请实施例方案涉及的框式设备通信链路异常处理方法一实施例的流程示意图;
图3为本申请实施例方案涉及的框式设备一实施例的***示意图;
图4为本申请实施例方案涉及的框式设备通信链路异常处理方法另一实施例的流程示意图;
图5为本申请实施例方案涉及的框式设备通信链路异常处理方法另一实施例的流程示意图;
图6为本申请实施例方案涉及的第一装置的示意图;
图7为本申请实施例方案涉及的第二装置的示意图;
图8为本申请实施例方案涉及的第三装置的示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,图1为本申请实施例方案涉及的硬件运行环境的运行设备结构示意图。
如图1所示,该运行设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对运行设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及计算机程序。
在图1所示的运行设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请运行设备中的处理器1001、存储器1005可以设置在运行设备中,所述运行设备通过处理器1001调用存储器1005中存储的计算机程序,并执行以下操作:
所述框式设备通信链路异常处理方法应用于主用主控板,包括以下步骤:
在所述主用主控板在预设第一时长内未收到备用主控板的第一心跳报文之后,对所述主用主控板进行孤岛检测,确定所述主用主控板是否为孤岛板卡;
在确定所述主用主控板为孤岛板卡之后,将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板;
在预设第二时长内处于所述非工作待命状态的所述主用主控板收到所述备用主控板的所述第一心跳报文之后,将所述主用主控板退出所述非工作待命状态并将所述主用主控板设置为当前主控板。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板的步骤之后,还包括:
在预设第二时长内处于所述非工作待命状态的所述主用主控板未收到所述备用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述主用主控板。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述框式设备通信链路异常处理方法应用于备用主控板,包括以下步骤:
在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;
在所述备用主控板为孤岛板卡之后,将所述备用主控板设置为非工作待命状态;
在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述将所述备用主控板设置为非工作待命状态的步骤之后,还包括:
在预设第四时长内处于所述非工作待命状态的所述备用主控板未收到所述主用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述备用主控板。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述框式设备通信链路异常处理方法应用于业务单板,包括以下步骤:
在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;
在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述复位重启当前单板的步骤之后,还包括:
对当前单板进行孤岛检测,在复位重启后的当前单板为孤岛板卡之后,进行上报告警。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述进行孤岛检测的步骤,包括:
在当前单板是主控板之后,确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板;
在所述主控板的伙伴板正在运行或所述主控板存在在线的业务单板之后,或者在当前单板不是主控板之后,确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信;
在预设第六时长内当前单板与其它单板之间不存在透明内部进程通信之后,确定当前单板为孤岛板卡。
在一实施例中,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
所述确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板的步骤,包括:
通过背板获取所述伙伴板的运行信号,在所述运行信号为高电平之后,确定所述伙伴板正在运行;
通过读取所述业务单板的在位寄存器状态,并基于所述在位寄存器状态确定所述业务单板是否在线。
本申请实施例提供了一种框式设备通信链路异常处理方法,参照图2,在框式设备通信链路异常处理方法的一实施例中,所述框式设备通信链路异常处理方法应用于主用主控板,包括以下步骤:
步骤A1,在所述主用主控板在预设第一时长内未收到备用主控板的第一心跳报文之后,对所述主用主控板进行孤岛检测,确定所述主用主控板是否为孤岛板卡。
参照图3,框式设备包括主用主控板、备用主控板、业务单板和背板。其中,主控板至少包括:CPU,板间通讯网口,控制面交换芯片(管理板间通讯);业务单板至少包括:CPU,板间通讯网口;背板至少包括:单板的供电、数据、管理、控制平面的各种通道。框式设备***由一个或多个框组成,每个框由两个主控单板和若干个其他单板组成。主控单板包含DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)服务端、板间通讯网口、交换芯片(负责管理与其他单板的通讯网络)和能够访问背板存储信息的通讯通道。整个***都只有一个主用主控,包含版本管理服务端和DHCP服务端,主要负责对整个***的运行版本进行统一管理、本框内其他单板机框信息管理和传递。其他单板包含DHCP客户端、板间通讯网口(与主控板交换芯片端口连接),在正常启动后,主要负责设备业务功能的正常运行。
主用主控板在预设第一时长内未收到备用主控板的第一心跳报文,则说明主备通信链路异常,则说明要么主用主控板出错,要么备用主控板出错,要么主用主控板和备用主控板均出错。因此,在这种情况下,对主用主控板进行孤岛检测,确定主用主控板是否为孤岛板卡、判断主用主控板是否处于孤岛状态,确定是否是主用主控板出错。示例性的,预设第一时长可以设置为120秒。
在本实施例中,主备通信链路异常的原因仅考虑主用主控板和/或备用主用板出错的情况,暂不考虑通信链路出错或者其它装置、部件出错的情况。
步骤A2,在确定所述主用主控板为孤岛板卡之后,将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板。
如果确定主用主控板是孤岛板卡,则说明是因为主用主控板出错导致的主备通信链路异常。当主用主控板为孤岛状态时,通过将其设置为非工作待命状态并监听伙伴板(备用主控板)的第一心跳报文;同时,将当前主控板从主用主控板切换至备用主控板。
需要说明的是,如果处于孤岛状态的主用主控板进行重启复位,则会导致复位后的主用主控板和备用主控板之间存在双主冲突而导致整框复位。所以,在本实施例中,提出主用主控板的一种非工作待命状态,此时整框只有备用主控板一个当前主控板,并不会由于非工作待命状态的主用主控板而产生双主冲突。
步骤A31,在预设第二时长内处于所述非工作待命状态的所述主用主控板收到所述备用主控板的所述第一心跳报文之后,将所述主用主控板退出所述非工作待命状态并将所述主用主控板设置为当前主控板。
若在预设第二时长内处于非工作待命状态的主用主控板接收到备用主控板的第一心跳报文,则可以确定处于孤岛状态的主用主控板通过在非工作待命状态下的自恢复、已恢复正常,主用主控板可通过退出非工作待命状态的方式恢复主备通信链路的正常通信,而不必通过复位重启恢复正常通信;同时,将当前主控板从备用主控板切换至已恢复正常的主用主控板,主用主控板完成主控板的接管。其中,在本实施例中,不限定将当前主控板从备用主控板切换至已恢复正常的主用主控板的时机,不限定确定该时机的方法。示例性的,预设第二时长可以设置为5分钟。
也就是说,预设第二时长内处于非工作待命状态的主用主控板是否收到备用主控板的第一心跳报文,设置该判断条件的目的在于:确定主用主控板是否完成自恢复、主备通信链路是否恢复至正常。如果主用主控板完成自恢复、主备通信链路恢复正常,那么主用主控板就会收到备用主控板的第一心跳报文,主用主控板就可以重新成为当前主控板。
其中,主用主控板和备用主控板互为伙伴板。无论当前主控板是主用主控板还是备用主控板,当前主控板都会向伙伴板定时发送第一心跳报文,用于检测主备通信链路是否正常。
示例性的,所述将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板的步骤之后,还包括:
步骤A32,在预设第二时长内处于所述非工作待命状态的所述主用主控板未收到所述备用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述主用主控板。
若在预设第二时长内处于非工作待命状态的主用主控板并没有接收到备用主控板的第一心跳报文,则可以确定处于孤岛状态的主用主控板通过在非工作待命状态下的自恢复、不能恢复正常,更说明在将确定已出错的主用主控板通过切换至非工作待命状态的方式并不能使其恢复正常,此时就需要复位重启来恢复主用主控板。需要说明的是,在非工作待命状态下的重启并不会跟在工作状态下的重启一样导致与备用主控板之间的双主冲突。所以,复位重启非工作待命状态的主用主控板,尝试恢复主用主控板至正常。
另外,后续可以再通过相关主备竞争策略,在从非工作待命状态恢复正常的主用主控板与备用主控板之间确定新的当前主控板。在本实施例中不限定,从非工作待命状态恢复正常的主用主控板与备用主控板确定新的当前主控板的方式。
在本实施例中,通过在主用主控板中引入孤岛检测,确定板卡是否为孤岛板卡。当当前单板为孤岛状态的主控板时,通过将其设置为非工作待命状态并监听伙伴板的第一心跳报文,若接收到伙伴板的第一心跳报文,则可以确定当前单板为正常单板,主控板可通过退出非工作待命状态的方式自恢复主备通信链路的正常通信而不必通过复位重启恢复正常通信,避免重启复位后的主控板和当前主控板之间的双主冲突导致整框复位。从而通过引入孤岛检测,根据孤岛状态执行对应单板的恢复通信链路正常的动作,避免由于主备通信链路异常导致整框复位,保证当前业务的正常运行处理。
在本申请框式设备通信链路异常处理方法的另一实施例中,参照图4,所述框式设备通信链路异常处理方法应用于备用主控板,包括以下步骤:
步骤B1,在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;
备用主控板在预设第三时长内未收到主用主控板的第一心跳报文,则说明主备通信链路异常,则说明要么主用主控板出错,要么备用主控板出错,要么主用主控板和备用主控板均出错。因此,在这种情况下,对备用主控板进行孤岛检测,确定备用主控板是否为孤岛板卡、判断备用主控板是否处于孤岛状态,确定是否是备用主控板出错。
步骤B2,在所述备用主控板为孤岛板卡之后,将所述备用主控板设置为非工作待命状态;
如果确定备用主控板是孤岛板卡,则说明是因为备用主控板出错导致的主备通信链路异常。当备用主控板为孤岛状态时,通过将其设置为非工作待命状态并监听伙伴板(备用主控板)的第一心跳报文;同时,当前主控板一直保持为主用主控板不变。
需要说明的是,如果处于孤岛状态的备用主控板进行重启复位,则会导致复位后的备用主控板和一直扮演当前主控板的主用主控板之间存在双主冲突而导致整框复位。所以,在本实施例中,提出备用主控板的一种非工作待命状态,此时整框只有主用主控板一个当前主控板,并不会由于非工作待命状态的备用主控板的重启复位而产生双主冲突。
步骤B31,在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
若在预设第四时长内处于非工作待命状态的备用主控板接收到主用主控板的第一心跳报文,则可以确定处于孤岛状态的备用主控板通过在非工作待命状态下的自恢复、已恢复正常,备用主控板可通过退出非工作待命状态的方式恢复主备通信链路的正常通信,而不必通过复位重启恢复正常通信。
也就是说,预设第四时长内处于非工作待命状态的备用主控板是否收到主用主控板的第一心跳报文,设置该判断条件的目的在于:确定备用主控板是否完成自恢复、主备通信链路是否恢复至正常。如果备用主控板完成自恢复、主备通信链路恢复正常,那么备用主控板就会收到主用主控板的第一心跳报文,备用主控板至此恢复正常。
示例性的,所述将所述备用主控板设置为非工作待命状态的步骤之后,还包括:
步骤B32,在预设第四时长内处于所述非工作待命状态的所述备用主控板未收到所述主用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述备用主控板。
若在预设第四时长内处于非工作待命状态的备用主控板并没有接收到主用主控板的第一心跳报文,则可以确定处于孤岛状态的备用主控板通过在非工作待命状态下的自恢复、不能恢复正常,更说明在将确定已出错的备用主控板通过切换至非工作待命状态的方式并不能使其恢复正常,此时就需要复位重启来恢复备用主控板。需要说明的是,在非工作待命状态下的重启并不会跟在工作状态下的重启一样导致与备用主控板之间的双主冲突。所以,可以通过复位重启非工作待命状态的备用主控板,尝试恢复备用主控板至正常。
另外,由于当前主控板一直是主用主控板,当前主控板并没有主备主控板之间切换,所以,后续也无需再通过相关主备竞争策略,在从非工作待命状态恢复正常的备用主控板与主用主控板之间确定新的当前主控板。
在本实施例中,通过在备用主控板中引入孤岛检测,确定板卡是否为孤岛板卡。当当前单板为孤岛状态的主控板时,通过将其设置为非工作待命状态并监听伙伴板的第一心跳报文,若接收到伙伴板的第一心跳报文,则可以确定当前单板为正常单板,主控板可通过退出非工作待命状态的方式自恢复主备通信链路的正常通信而不必通过复位重启恢复正常通信,避免重启复位后的主控板和当前主控板之间的双主冲突导致整框复位。从而通过引入孤岛检测,根据孤岛状态执行对应单板的恢复通信链路正常的动作,避免由于主备通信链路异常导致整框复位,保证当前业务的正常运行处理。
在本申请框式设备通信链路异常处理方法的另一实施例中,参照图5,所述框式设备通信链路异常处理方法应用于业务单板,包括以下步骤:
步骤C1,在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;
业务单板在预设第五时长内未收到当前主控板的第二心跳报文,则说明当前主控板与业务单板之间的通信链路异常,则说明要么当前主控板出错,要么业务单板出错,要么当前主控板和业务单板均出错。因此,在这种情况下,对业务单板进行孤岛检测,确定业务单板是否为孤岛板卡、判断业务单板是否处于孤岛状态,确定是否是业务单板出错。
步骤C2,在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
如果确定业务单板是孤岛板卡,则说明是因为业务单板出错导致的当前主控板与业务单板之间的通信链路异常。由于当前主控板与业务单板之间为一对多的通信关系,一个业务单元仅需要对一个当前主控板负责/通信,所以,当业务单板为孤岛状态时,可以直接复位重启业务单板,而不需要将其也设置为非工作待命状态并监听当前主控板的第二心跳报文。
其中,无论当前主控板是主用主控板还是备用主控板,当前主控板都会向业务单板定时发送第二心跳报文,用于当前主控板与业务单板之间的通信链路是否正常。
在已有框式设备的使用中,一般认为当前主控板与业务单板之间的通信链路不会出现故障,很少有对此类故障进行检测的方法,就更加少有的从业务单板的角度对此类故障进行检测的方法。因此,一般当前主控板没有也不会下发第二心跳报文至业务单板,用于业务单板的前述通信链路故障检测及处理。
而在本实施例中,通过在业务单板中引入孤岛检测,确定板卡是否为孤岛板卡。当当前单板为孤岛状态的业务单板时,直接可以确定当前单板为异常单板,通过复位重启业务单板恢复当前主控板和业务单板之间的正常通信,避免由于当前主控板和业务单板之间的通信链路异常导致当前主控板复位重启、导致整框复位。从而通过引入孤岛检测,根据孤岛状态执行对应单板的恢复通信链路正常的动作,避免由于当前主控板和业务单板之间的通信链路异常导致整框复位,保证当前业务的正常运行处理。
在本申请框式设备通信链路异常处理方法的另一实施例中,所述复位重启当前单板的步骤之后,还包括:
对当前单板进行孤岛检测,在复位重启后的当前单板为孤岛板卡之后,进行上报告警。
在上述实施例中复位重启当前单板之后,重新对当前单板进行孤岛检测,重新确定与当前单板相关的通信链路是否再次出现异常。在复位重启后的当前单板为孤岛板卡之后,则说明其相关通信链路再次出现异常。如果同一个单板恢复正常后重复出现异常,则需要进行上报告警,避免重复恢复正常带来的资源浪费,避免重复恢复却仍无法解决当前单板的通信异常问题,需要提示相关管理人员进行及时处理。
在本申请框式设备通信链路异常处理方法的另一实施例中,所述进行孤岛检测的步骤,包括:
步骤D1,在当前单板是主控板之后,确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板;
步骤D2,在所述主控板的伙伴板正在运行或所述主控板存在在线的业务单板之后,或者在当前单板不是主控板之后,确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信;
如果当前单板是主控板,则确定主控板的伙伴板是否正在运行,并确定主控板是否存在在线的业务单板。如果主控板的伙伴板正在运行,或者,主控板存在在线的业务单板,或者,主控板的伙伴板正在运行且主控板存在在线的业务单板,则确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信(TIPC,Transparent Inter-process Communication)。
通过设置确定主控板的伙伴板是否正在运行以及确定主控板是否存在在线的业务单板的前置条件,提前确定主控板是否存在与之预先建立通信链路的伙伴板或者业务单板。如果不存在建立有通信链路的伙伴板或者业务单板,就可以不通过确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信的方式,而提前确定主控板为孤岛板卡。也就是说,只有在确定主控板存在通信链路时,才需要通过确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信的方式,确定该主控板是否为孤岛板卡。
另外,如果当前单板不是主控板、是业务单板,由于业务板卡与业务板卡之间通过背板直接通信,则可以直接根据同样的确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信的方式,确定业务板卡是否为孤岛板卡。
步骤D3,在预设第六时长内当前单板与其它单板之间不存在透明内部进程通信之后,确定当前单板为孤岛板卡。
如果在预设第六时长内当前单板与其它单板之间不存在透明内部进程通信之后,则可以确定当前单板为孤岛板卡,当前单板处于无法收到其它单板发送的任何消息的状态。
示例性的,所述确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板的步骤,包括:
步骤D11,通过背板获取所述伙伴板的运行信号,在所述运行信号为高电平之后,确定所述伙伴板正在运行;
如果当前单板是主控板,则判断伙伴板的run(运行)信号的电平是否为高电平。ADM管理进程上电后会设置当前单板EPLD(Erasable Programmable Logic Device,可擦除可编辑逻辑器件))上run信号寄存器。run信号电平升高,高电平信号便可以通过背板送到伙伴板,伙伴板据此就可以判断此主控板是否在运行。
伙伴板的run信号电平为高电平则说明伙伴板处于在位运行状态,则继续判断其它条件,如后续的是否存在透明内部进程通信的条件;run信号电平为低电平则说明伙伴板并处于在位运行状态,此时便不需要再进行后续的其他条件的判断。在一实施例中,若某单板被检测出不处于孤岛状态,则说明与该单板相关的通信链路故障原因与之无关,对检测出不处于孤岛状态的单板不进行处理。因此,在run信号电平为低电平时,可以直接判断当前单板不为孤岛状态,对当前单板可以不进行处理。
步骤D12,通过读取所述业务单板的在位寄存器状态,并基于所述在位寄存器状态确定所述业务单板是否在线。
判断***单板(线卡)硬件是否在线。通过读取单板在位寄存器,在一实施例中,bit2:0(第0、1、2比特位)全为1,则认为***单板在线,否则认为***单板离线。所有***单板都离线情况下直接判断本单板不为孤岛状态,检测出单板自身不为孤岛状态则不处理;有***单板在线则继续执行检测。连续130s本cpu节点与其他cpu节点TIPC全部断链,则设置本单板为孤岛状态,记录本单板孤岛状态日志并上传主用主控保存,上报单板为孤岛状态的告警。在位寄存器状态的孤岛状态的判断和处理与前述运行信号的类似,在此不做赘述。
参照图6,此外,本申请实施例还提供一种应用于主用主控板的第一装置,所述第一装置包括:
第一孤岛检测模块M1,用于在所述主用主控板在预设第一时长内未收到备用主控板的第一心跳报文之后,对所述主用主控板进行孤岛检测,确定所述主用主控板是否为孤岛板卡;
第一状态切换模块M2,用于在确定所述主用主控板为孤岛板卡之后,将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板;
状态回切模块M3,用于在预设第二时长内处于所述非工作待命状态的所述主用主控板收到所述备用主控板的所述第一心跳报文之后,将所述主用主控板退出所述非工作待命状态并将所述主用主控板设置为当前主控板。
示例性的,所述第一装置还包括第一复位重启模块,用于:
在预设第二时长内处于所述非工作待命状态的所述主用主控板未收到所述备用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述主用主控板。
参照图7,此外,本申请实施例还提供一种应用于备用主控板的第二装置,所述第二装置包括:
第二孤岛检测模块N1,用于在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;
第二状态切换模块N2,用于在所述备用主控板为孤岛板卡之后,将所述5备用主控板设置为非工作待命状态;
状态恢复模块N3,用于在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
示例性的,所述第二装置还包括第二复位重启模块,用于:0在预设第四时长内处于所述非工作待命状态的所述备用主控板未收到所述主用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述备用主控板。
参照图8,此外,本申请实施例还提供一种应用于业务单板的第三装置,所述第三装置包括:5第三孤岛检测模块P1,用于在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;
复位重启模块P2,用于在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
0示例性的,第一装置、第二装置和第三装置均还包括重复孤岛检测模块,
用于:
所述复位重启当前单板的步骤之后,
对当前单板进行孤岛检测,在复位重启后的当前单板为孤岛板卡之后,进行上报告警。
5示例性的,第一装置、第二装置和第三装置均还包括孤岛检测实现模块,
用于:
在当前单板是主控板之后,确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板;
在所述主控板的伙伴板正在运行或所述主控板存在在线的业务单板之后,0或者在当前单板不是主控板之后,确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信;
在预设第六时长内当前单板与其它单板之间不存在透明内部进程通信之后,确定当前单板为孤岛板卡。
示例性的,孤岛检测实现模块还用于:
通过背板获取所述伙伴板的运行信号,在所述运行信号为高电平之后,确定所述伙伴板正在运行;
通过读取所述业务单板的在位寄存器状态,并基于所述在位寄存器状态确定所述业务单板是否在线。
本申请提供的第一装置、第二装置和第三装置,采用上述实施例中的框式设备通信链路异常处理方法,解决现有技术中难以避免通信链路异常导致双主冲突、进一步导致整框复位的技术问题。与现有技术相比,本申请实施例提供的第一装置、第二装置和第三装置的有益效果与上述实施例提供的框式设备通信链路异常处理方法的有益效果相同,且第一装置、第二装置和第三装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
此外,本申请实施例还提供一种框式设备,所述框式设备包括主用主控板、备主用主控板、业务单板、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上所述的框式设备通信链路异常处理方法的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的框式设备通信链路异常处理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种框式设备通信链路异常处理方法,其特征在于,所述框式设备通信链路异常处理方法应用于主用主控板,包括以下步骤:
在所述主用主控板在预设第一时长内未收到备用主控板的第一心跳报文之后,对所述主用主控板进行孤岛检测,确定所述主用主控板是否为孤岛板卡;
在确定所述主用主控板为孤岛板卡之后,将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板;
在预设第二时长内处于所述非工作待命状态的所述主用主控板收到所述备用主控板的所述第一心跳报文之后,将所述主用主控板退出所述非工作待命状态并将所述主用主控板设置为当前主控板。
2.如权利要求1所述的框式设备通信链路异常处理方法,其特征在于,所述将所述主用主控板设置为非工作待命状态并将所述备用主控板设置为当前主控板的步骤之后,还包括:
在预设第二时长内处于所述非工作待命状态的所述主用主控板未收到所述备用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述主用主控板。
3.一种框式设备通信链路异常处理方法,其特征在于,所述框式设备通信链路异常处理方法应用于备用主控板,包括以下步骤:
在所述备用主控板在预设第三时长内未收到主用主控板的第一心跳报文之后,对所述备用主控板进行孤岛检测,确定所述备用主控板是否为孤岛板卡;
在所述备用主控板为孤岛板卡之后,将所述备用主控板设置为非工作待命状态;
在预设第四时长内处于所述非工作待命状态的所述备用主控板收到所述主用主控板的所述第一心跳报文之后,将所述备用主控板退出所述非工作待命状态。
4.如权利要求3所述的框式设备通信链路异常处理方法,其特征在于,所述将所述备用主控板设置为非工作待命状态的步骤之后,还包括:
在预设第四时长内处于所述非工作待命状态的所述备用主控板未收到所述主用主控板的所述第一心跳报文之后,复位重启当前单板,其中,所述当前单板为所述备用主控板。
5.一种框式设备通信链路异常处理方法,其特征在于,所述框式设备通信链路异常处理方法应用于业务单板,包括以下步骤:
在所述业务单板在预设第五时长内未收到当前主控板的第二心跳报文之后,对所述业务单板进行孤岛检测,确定所述业务单板是否为孤岛板卡;
在所述业务单板为孤岛板卡之后,复位重启当前单板,其中,所述当前单板为所述业务单板。
6.如权利要求2、4或5所述的框式设备通信链路异常处理方法,其特征在于,所述复位重启当前单板的步骤之后,还包括:
对当前单板进行孤岛检测,在复位重启后的当前单板为孤岛板卡之后,进行上报告警。
7.如权利要求1至5任一项所述的框式设备通信链路异常处理方法,其特征在于,所述进行孤岛检测的步骤,包括:
在当前单板是主控板之后,确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板;
在所述主控板的伙伴板正在运行或所述主控板存在在线的业务单板之后,或者在当前单板不是主控板之后,确定在预设第六时长内当前单板与其它单板之间是否存在透明内部进程通信;
在预设第六时长内当前单板与其它单板之间不存在透明内部进程通信之后,确定当前单板为孤岛板卡。
8.如权利要求7所述的框式设备通信链路异常处理方法,其特征在于,所述确定所述主控板的伙伴板是否正在运行,并确定所述主控板是否存在在线的业务单板的步骤,包括:
通过背板获取所述伙伴板的运行信号,在所述运行信号为高电平之后,确定所述伙伴板正在运行;
通过读取所述业务单板的在位寄存器状态,并基于所述在位寄存器状态确定所述业务单板是否在线。
9.一种框式设备,其特征在于,所述框式设备包括主用主控板、备主用主控板、业务单板、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至8中任一项所述的框式设备通信链路异常处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的框式设备通信链路异常处理方法的步骤。
CN202211559772.XA 2022-12-06 2022-12-06 框式设备通信链路异常处理方法、框式设备及介质 Pending CN118158067A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211559772.XA CN118158067A (zh) 2022-12-06 2022-12-06 框式设备通信链路异常处理方法、框式设备及介质
PCT/CN2023/101886 WO2024119777A1 (zh) 2022-12-06 2023-06-21 框式设备通信链路异常处理方法、框式设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211559772.XA CN118158067A (zh) 2022-12-06 2022-12-06 框式设备通信链路异常处理方法、框式设备及介质

Publications (1)

Publication Number Publication Date
CN118158067A true CN118158067A (zh) 2024-06-07

Family

ID=91290874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211559772.XA Pending CN118158067A (zh) 2022-12-06 2022-12-06 框式设备通信链路异常处理方法、框式设备及介质

Country Status (2)

Country Link
CN (1) CN118158067A (zh)
WO (1) WO2024119777A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100364246C (zh) * 2004-09-16 2008-01-23 华为技术有限公司 一种通信网络设备中实现单板备份的方法及装置
CN101483540A (zh) * 2008-01-11 2009-07-15 上海博达数据通信有限公司 一种高端数据通信设备中的主备倒换方法
CN104836679B (zh) * 2014-07-18 2018-11-23 中兴通讯股份有限公司 通信异常处理方法及网元设备
CN109257218B (zh) * 2018-09-19 2021-08-06 上海电子信息职业技术学院 一种基于snmp协议网络***孤岛自愈方法

Also Published As

Publication number Publication date
WO2024119777A1 (zh) 2024-06-13

Similar Documents

Publication Publication Date Title
EP2691859B1 (en) Fault detection and recovery as a service
US5875290A (en) Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
CA2611457C (en) Method and apparatus for facilitating device redundancy in a fault-tolerant system
US9189349B2 (en) Distributed blade server system, management server and switching method
CN103019889A (zh) 分布式文件***及其故障处理方法
US20140372805A1 (en) Self-healing managed customer premises equipment
US8943191B2 (en) Detection of an unresponsive application in a high availability system
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储***及其方法
CN109525434B (zh) 一种基于机载设备板卡的冗余备份方法
CN100362481C (zh) 多处理器设备单元主备保护方法
CN110958151B (zh) 保活检测方法、装置、节点、存储介质及通信***
US7499987B2 (en) Deterministically electing an active node
CN104503861A (zh) 一种异常处理方法及***、代理设备与控制装置
CN102026042A (zh) 一种高级电信计算架构控制面的保活、自愈方法和装置
CN114764380A (zh) 一种基于etcd的分布式集群控制方法和装置
CN107071189B (zh) 一种通讯设备物理接口的连接方法
KR101075462B1 (ko) 서브넷에서 마스터 노드를 선출하는 방법
CN110351122B (zh) 容灾方法、装置、***与电子设备
KR20150104435A (ko) 라우팅 처리기의 동작 모드 천이 방법
CN118158067A (zh) 框式设备通信链路异常处理方法、框式设备及介质
CN116260707A (zh) 基于共识的区块链节点灾备方法、装置、设备及存储介质
CN105550065A (zh) 一种进行数据库服务器通信管理的方法和装置
CN115499294A (zh) 一种分布式存储环境网络亚健康检测及故障自动处理方法
JP2009075710A (ja) 冗長化システム
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication