CN103457792A - 一种故障检测方法和装置 - Google Patents

一种故障检测方法和装置 Download PDF

Info

Publication number
CN103457792A
CN103457792A CN2013103624229A CN201310362422A CN103457792A CN 103457792 A CN103457792 A CN 103457792A CN 2013103624229 A CN2013103624229 A CN 2013103624229A CN 201310362422 A CN201310362422 A CN 201310362422A CN 103457792 A CN103457792 A CN 103457792A
Authority
CN
China
Prior art keywords
control board
resource
peripheral board
board
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103624229A
Other languages
English (en)
Other versions
CN103457792B (zh
Inventor
田舒榕
程岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Mobile Communications Equipment Co Ltd
Original Assignee
Datang Mobile Communications Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Mobile Communications Equipment Co Ltd filed Critical Datang Mobile Communications Equipment Co Ltd
Priority to CN201310362422.9A priority Critical patent/CN103457792B/zh
Publication of CN103457792A publication Critical patent/CN103457792A/zh
Application granted granted Critical
Publication of CN103457792B publication Critical patent/CN103457792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种故障检测方法和装置,该方法包括:当***板检测到本地资源失败时,所述***板更新自身记录的所述本地资源失败的次数;当更新后的所述本地资源失败的次数超过第一门限值时,所述***板确定所述本地资源故障;所述***板判断所述本地资源为独立资源或非独立资源;若为独立资源,所述***板向控制板发送故障报告消息,以通告所述控制板所述独立资源故障;若为非独立资源,所述***板向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障。在本发明中,使主控板能及时发现***板的隐性故障。

Description

一种故障检测方法和装置
技术领域
本发明涉及通信技术领域,尤其是一种故障检测方法和装置。
背景技术
RNC(Radio Network Control,无线网络控制)设备是由多板卡上各种应用软件协同工作的设备,随着现网3G用户的不断增多,RNC设备的负荷日渐增大,RNC设备故障问题呈现多样性,定义RNC设备的某一节点硬件故障或者软件子***故障这类影响RNC正常工作的故障为显性故障,这类故障有成熟的定位方法和处理策略。与之对应的隐性故障定义为***板运行无异常告警,软件运行无明显异常,但设备功能实质已处于不正常工作状态。现网中已经出现多起隐性故障问题而导致KPI(Key Performance Indicator,关键业绩指标)指标大幅下降,对RNC产品造成较大负面影响。
而在现网RNC实际运行中,经常发生这些部署在不同节点单元上的资源之间关联关系是正确的,但某个节点单元已工作不正常而导致业务异常。目前本地资源中***板类资源目前主要依靠心跳监测方式由全局处理板监测***板的运行状态,如果连续心跳监测周期内没有接收到心跳消息,就认为***板出现故障,对于这类显性故障目前RNC设备会触发相应故障流程进行业务恢复,不会引起KPI指标大幅下降现象。而对于***板状态处于正常、心跳坚守正常时,其上承载的业务已经无法正常运行,即对于业务应用而言实际上已经处于故障状态的隐性故障,由于目前RNC设备缺少相关检测、处理流程,一旦部分本地资源发生隐性故障,基于本地资源的负荷分担分配原则,分配到正常本地资源的业务成功、而分配到隐性故障资源的业务失败,使得本地资源隐性故障不能及时发现,直到累计到KPI指标恶化后才能引发关注,而此时已经产生较大负面影响。
发明内容
本发明实施例提供了一种故障检测方法和装置,使控制板能够及时发现***板的隐性故障,并能够判定隐性故障是否由于控制板与***板的连通性故障造成。
为了达到以上目的,本发明实施例提供了一种故障检测方法,应用于机框式设备,所述机框式设备包括至少一块控制板和至少一块***板,所述方法包括:
当***板检测到本地资源失败时,所述***板更新自身记录的所述本地资源失败的次数;
当更新后的所述本地资源失败的次数超过第一门限值时,所述***板确定所述本地资源故障;
所述***板判断所述本地资源为独立资源或非独立资源;
若为独立资源,所述***板向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;
若为非独立资源,所述***板向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测。
本发明实施例还提供一种故障检测方法,应用于机框式设备,所述机框式设备包括至少一块主控板和至少一块***板,所述方法包括:
当控制板接收到***板发送的用于通告所述***板独立资源故障的故障报告消息时,所述控制板向管理***进行告警,并对所述独立资源进行复位操作;其中,所述故障报告消息是所述***板在所述独立资源失败的次数超过第一门限值时向所述控制板发送的;
当所述控制板接收到业务发送用于通告所述***板非独立资源故障的连通性检测请求时,所述控制板对所述控制板与所述***板之间的连通性进行检测;其中,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过所述第一门限值时向所述控制板发送的。
本发明实施例还提供一种***板,应用于机框式设备,所述机框式设备包括至少一块主控板和至少一块***板,所述***板包括:
故障检测模块,用于当检测到本地资源失败时,更新所述***板记录的所述本地资源失败的次数,并当更新后的所述本地资源失败的次数超过第一门限值时,确定所述本地资源故障;
判断模块,用于判断所述本地资源为独立资源或非独立资源;
第一发送模块,用于当所述判断模块的判断结果为独立资源时,向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;
第二发送模块,用于当所述判断模块的判断结果为非独立资源时,向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测。
本发明实施例还提供一种主控板,所述机框式设备包括至少一块主控板和至少一块***板,其特征在于,所述主控板包括:
接收模块,用于接收***板发送的用于通告所述***板独立资源故障的故障报告消息,所述故障报告消息是所述***板在所述独立资源失败的次数超过第一门限值时向所述控制板发送的;以及***板发送的用于通告所述***板非独立资源故障的连通性检测请求,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过所述第一门限值时向所述控制板发送的;
第一处理模块,用于当所述接收模块接收到所述故障报告消息时,向管理***进行告警,并对所述独立资源进行复位操作;
第二处理模块,用于当所述接收模块接收到所述连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测。
本发明实施例还提供一种框式设备,包括至少一块主控板和至少一块***板,其中:
所述***板,用于当检测到本地资源失败时,更新自身记录的所述本地资源失败的次数;当更新后的所述本地资源失败的次数超过第一门限值时,确定所述本地资源故障;判断所述本地资源为独立资源或非独立资源;若该本地资源为独立资源,向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;若该本地资源为非独立资源,向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测;
所述控制板,用于当接收到***板发送的用于通告所述***板独立资源故障的故障报告消息时,向管理***进行告警,并对所述独立资源进行复位操作;当接收到***板发送的用于通告所述***板非独立资源故障的连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测。
本发明的上述实施例中,***板检测到本地资源失败时,更新自身记录的该本地资源失败的次数,当更新后的该本地资源失败的次数超过第一门限值时,***板确定该本地资源故障;若该本地资源为独立资源,***板向控制板发送故障报告消息,以通告控制板该独立资源故障,由控制板向管理***进行告警,并对该独立资源进行复位操作;若该本地资源为非独立资源,***板向控制板发送连通性检测请求,以通告控制板该非独立资源故障,由控制板对控制板与***板之间的连通性进行检测,使主控板及时得知所述***板发生的隐性故障,并能及时判定该隐性故障是否由控制板与***板之间的连通性故障造成。
附图说明
图1为本发明实施例一提供的一种故障检测方法的流程示意图;
图2为本发明实施例二提供的一种故障检测方法的流程示意图;
图3为本发明实施例三提供的一种故障检测方法的流程示意图;
图4为本发明实施例提供的一种***板的结构示意图;
图5为本发明实施例提供的一种控制板的结构示意图;
图6为本发明实施例提供的一种框式设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
在现有技术中,***板会按照预设的周期向控制板发送心跳报文,控制板根据接收到的心跳报文判断自身与所述***板之间正常,即此时控制板不会判定所述***板异常。这样,即使***板承载的业务流程失败,只要控制板能够接收到该***板发送的心跳报文,就不会判定该***板异常。
针对上述技术问题,本发明实施例一提供了一种故障检测方法,应用于机框式设备,所述机框式包括至少一块控制板和至少一块***板,如图1所示,本发明实施例一提供的故障检测方法可以包括如下步骤:
步骤101,当***板检测到本地资源失败时,该***板更新自身记录的该本地资源失败的次数,其中,***板可以包括接口板(如IUB接口板、IU接口板等)、业务板等单板。
具体的,在本发明实施例中,***板可以记录本地资源失败的次数,并当检测到本地资源失败时,更新自身记录的该本地资源失败的次数。
为了实现上述目的,本发明实施例提供的一种实现方式可以为:
***板对应本地资源设置失败次数计数器,并当检测到本地资源失败时,将对应该本地资源的失败次数计数器的数值加1;其中,***板初始化时,需要将上述失败次数计数器的值置为零。
需要注意的是,上述通过设置失败次数计数器的记录本地资源失败的次数的方式仅仅是本发明实施例提供的记录本地资源失败的次数的一种具体实现方式,本发明实施例技术方案中,记录本地资源失败的次数的方式并不限于此,例如,***板还可以通过生成失败记录的方式记录本地资源失败的次数,即***板每次检测到本地资源失败时,均生成一条对应该本地资源的失败记录,并根据该失败记录的条数确定该本地资源失败的次数;此外,***板在更新本地资源失败的次数时,也并不限于每次检测到本地资源失败,就将该本地资源失败的次数加1,例如,***板也可以在每次检测到本地资源失败时,将该本地资源失败的次数加2或其他数值,其仅需保证***板能够根据该记录确定本地资源失败的次数即可,其具体实现在此不再赘述。
步骤102、当更新后的该本地资源失败的次数超过第一门限值时,该***板确定该本地资源故障。
具体的,在本发明实施例中,可以预先设定一个门限值(即第一门限值),当***板根据自身记录的本地资源失败的次数确定某本地资源失败的次数超过该第一门限值时,***板就认为该本地资源发生故障,需要进行相应的故障处理流程。
步骤103、***板判断该本地资源为独立资源或非独立资源;若为独立资源,则转至步骤104;否则,转至步骤106。
实际应用中,由于同一块***板上也可能承载多种不同类型的业务流程,比如对于RNC的***板来说,承载业务流程可能包括:RNC与NodeB(节点B,即基站)进行用户节点同步流程、以及与MSC(Mobile Switching Center,移动交换中心)进行IU UP(IU User Plane,IU用户面)初始化流程等。为了实现业务流程的处理,***板需要通过对应的本地资源进行相应的业务处理。此时,***板还可以针对处理不同的业务流程的本地资源分别进行监测,并在检测到某一本地资源失败,并确定该本地资源故障后,进一步判断该本地资源为独立资源或非独立资源,并根据判断结果进行相应处理。
其中,在本发明实施例中,本地资源可以具体包括以下两类:
一类为单板资源,包括IUB接口板、IU接口板、业务板等,该类本地资源为非独立资源;另一类则为单板内资源,包括业务板的DSP(Digital SignalProcesser,数字信号处理器)/VCPU(Virtual Central Processing Unit,虚拟中央处理器),接口板的ATM Path或者Ip Path等,其中,业务板的DSP/VCPU等资源属于独立资源,接口板的ATM Path或者Ip Path属于非独立资源。
步骤104、***板向控制板发送故障报告消息,以通告控制板该独立资源故障。
步骤105、控制板接收到***板发送的故障报告消息后,向管理***进行告警,并对该独立资源进行复位操作,并结束当前流程。
具体的,当***板判断发生失败的本地资源为独立资源时,该***板可以向控制板发送用于通告该独立资源故障的故障报告消息,该故障报告消息中可以携带有发生失败的独立资源的标识;控制板接收到该故障报告消息后,由于发生失败的为独立资源,则控制板可以直接向管理***进行告警,并对该独立资源进行复位操作。
步骤106、***板向控制板发送连通性检测请求,以通告控制板非独立资源故障。
步骤107、控制板接收到***板发送连通性检测请求后,使用非独立资源对应的数据检测包对控制板与***板之间的连通性进行检测。
具体的,当***板判断发生失败的本地资源为非独立资源时,该***板可以向控制板发送用于通告该非独立资源故障的连通性检测请求,该连通性检测请求中可以携带有发生失败的非独立资源的标识;控制板接收到该连通性检测请求后,根据该非独立资源的标识确定对应的非独立资源发生失败。进一步地,为了确定该非独立资源故障是否是由于控制板与***板之间的连通性异常导致的,控制板可以向该***板发送相应的检测数据包,以进行控制板与***板之间的连通性检测。
实际应用中,为了能够判断该非独立资源故障是不是由于该控制板与该***板之间的连通性异常导致,控制板向***板发送的数据检测包是用于进行连通性检测的数据包,其大小应该和控制板与该非独立资源进行业务流程交互时的数据包的大小一致或相当。
控制板向***板发送该非独立资源对应的数据检测包后,若在预设时间内接收到该***板返回的数据检测包,则判定自身与该***板之间的连通性正常,若在预设时间内未接收到该***板返回的数据检测包,则判定自身与该***板之间的连通性故障。
本申请实施例一中,***板在检测到独立资源故障后,向控制板发送故障报告消息,以通告所述控制板独立资源故障,由控制板向管理***进行告警,并对该独立资源进行复位操作。
***板在检测到非独立资源故障后,还会向控制板发送连通性检测请求。这样,如果***板与控制板之间完全不能连通,虽然控制板不能接收***板发送的连通性检测请求,但是仍能根据心跳机制,即在距上一次接收到***板发送的心跳报文的时间超过预设值时,判定所述***板故障;如果控制板能够接收到连通性检测请求,则直接判定所述***板发生非独立资源故障,此时,虽然控制板仍能够接收到***板发送的心跳报文,控制板也能够根据接收到的连通性检测请求判定***板发生隐性故障。同时,本发明实施例一中,控制板在接收到***板发送的连通性检测请求后,还会使用发生失败的非独立资源对应的数据检测包对自身与该***板之间的连通性进行检测,从而能够判断上述业务流程的失败是否由自身与该***板之间的通道的连通性异常引起。
需要注意的是,在本发明实施例中,对于非独立资源,当***板检测到某非独立资源失败,且确定该非独立资源失败的次数超过第一门限值,即***板确定该非独立资源故障时,***板还可以进一步确定发生故障的该非独立资源的比例,判断发生故障的该非独立资源的比例是否超过预设的门限值(即第二门限值),并当发生故障的该非独立资源的比例超过第二门限值时,该***板向控制板发送连通性检测请求。
例如,对于接口板的ATM Path(非独立资源),当***板检测该ATM Path失败,且根据所设置的对应该ATM Path的失败次数计数器确定该ATM Path失败的次数超过第一门限值(如80次)时,即确定该ATM Path故障时,在向控制板发送连通性检测请求之前,***板还可以统计当前***板上发生失败的ATM Path与该***板上总的ATM Path的比例,并当当前***板上发生失败的ATM Path与该***板上总的ATM Path的比例超过第二门限值(如60%)时,则向控制板发送连通性检测请求。
在本发明实施例中,控制板向***板发送该非独立资源对应的数据检测包后,若***板能够接收到控制板发送的数据检测包,则说明控制板到***板之间的连通性正常,此时,***板需要向控制板返回相应的数据检测包,使所述控制板根据接收到的所述数据检测包判断所述控制板与所述***板之间的连通性正常;若***板没有接收到控制板发送的数据检测包,则说明控制板到***板之间的传输通道异常,则***板也无法向控制板返回相应的数据检测包,控制板在预设时间内没有接收到***板返回的数据检测包后会判定控制板到***板之间的连通性异常。
优选的,本发明实施例中,还可以使控制板在接收到连通检测报文后,向管理***上报故障报告信息,并在故障报告信息中携带发生失败的非独立资源的标识,使管理***根据该非独立资源的标识确定相应的非独立资源故障。
优选的,本发明实施例中,还可以使控制板判定自身与所述***板之间的连通性正常时,向管理***上报故障原因排除消息,通告所述管理***所述控制板与所述***板之间的连通性正常。从而能够使管理***及时得知导致非独立资源故障的原因不在该机框式设备。
优选的,本发明实施例中,还可以使控制板在判定自身与所述***板之间的连通性故障时,对所述***板进行复位操作。通过这种方式,能够使机框式设备自动对自身的故障进行排除,避免了人工排除故障的操作。
下面结合具体应用场景对本发明实施例提供的故障检测方法进行详细说明,假设本发明实施二中,机框式设备为RNC设备,该RNC设备包括一块控制板和一块业务板,业务板对应各本地资源设置有对应的失败次数计数器,且该业务板可以统计发生故障的非独立资源(如Path)与该业务板上该非独立资源的总数的比例,如图2所示,当Path失败时,本发明实施例二提供的故障检测方法可以包括如下步骤:
步骤201,业务板检测到Path失败时,该业务板将对应该Path的失败次数计数器的数值加1。
步骤202,业务板判断该Path失败的次数是否超过第一门限值,若是,则转至步骤203;否则,结束当前流程。
例如,假设预先设定的第一门限值为80次,而业务板设置的对应该Path的失败次数计数器的数值为81,则业务板确定该Path故障。
实际应用中,本领域技术人员可以根据需要任意设定上述第一门限值,如何设定该第一门限值并不会影响本申请的保护范围。
步骤203,业务板确定该Path故障。
步骤204、业务板判断发生故障的Path的比例是否超过第二门限值;若超过,则转至步骤205;否则,结束当前流程。
具体的,当业务板确定该Path故障时,该业务板可以统计发生故障的Path的比例(即发生故障的Path的数量与该业务板上Path的总数的比值),并判断其是否超过第二门限值。
例如,假设预设的第二门限值为60%,该业务板上Path的总数为50,且发生故障的Path的数量为31,则该业务板确定发生故障的Path的比例超过第二门限值,需要进行故障处理流程。
步骤205、业务板向控制板发送连通性检测请求,所述连通性检测请求中携带有Path的标识。
此时,如果业务板与控制板之间的传输通道完全不能连通,不能传输任何类型或大小的报文,则控制板不能接收到业务板发送的连通性检测请求,也无法接收到业务板发送的心跳报文,此时控制板根据心跳机制判定所述业务板发生故障,根据心跳机制判定业务板发生故障的过程与现有技术中一致,在此不再赘述。
如果业务板与控制板之间的传输通道仍能进行心跳报文的传输,则由于心跳报文的大小与连通性检测请求的报文的大小相当,同样也能接收到连通性检测请求。控制板在接收到连通性检测请求后,本发明实施例提供的故障检测方法还可以包括如下步骤:
步骤206,控制板根据连通性检测请求确定业务板上Path故障,并向业务板发送Path对应的数据检测包。
其中,Path对应的数据检测包为一类用于进行连通性检测的,大小和控制板与Path进行业务流程交互时的数据包大小一致或相当的数据包。
如果Path故障不是由于控制板与业务板之间的连通性导致,则控制板发送的数据检测包能被业务板正常接收,此时,本发明提供的故障检测方法还可包括如下步骤:
步骤207,业务板接收到控制板发送的数据检测包后,向控制板返回相应的数据检测包。
步骤208,控制板根据接收到的数据检测包判定自身与业务板之间的连通性正常。
如果Path故障正是由于控制板与业务板之间的连通性异常导致,则控制板发送的数据检测包不能被业务板接收到,此时业务板也不会向控制板返回相应的数据检测包,控制板也就无法接收到相应的数据检测包,此时控制板判定自身与业务板之间的连通性异常。
实施例三
如图3所示,当控制板发送的数据检测包不能被业务板接收到时,本发明提供的故障检测方法可包括如下步骤:
步骤301,控制板判断距发送数据检测包的时间超过预设值时,确定自身与业务板之间的连通性异常。
步骤302,控制板复位业务板。
通过以上描述可以看出,在本发明实施例提供的技术方案中,通过***板检测本地资源,并当检测到本地资源失败时,更新自身记录的该本地资源失败的次数,并当更新后的该本地资源失败的次数超过第一门限值时,该***板确定该本地资源故障;对于独立资源,***板向控制板发送故障报告消息,以通告控制板该独立资源故障,由控制板向管理***进行告警,并对该独立资源进行复位操作;对于非独立资源,***板向控制板发送连通性检测请求;控制板接收到***板发送的连通性检测请求后,对该控制板与该***板之间的连通性进行检测,使设备及时发现本地资源发生的隐性故障,并能够判定隐性故障是否由于自身设备的故障造成。
基于上述方法实施例相同的技术构思,本发明实施例还提供了一种***板,可以应用于上述方法实施例中。
如图4所示,为本发明实施例提供的一种***板的结构示意图,该***板可以应用于包括至少一块控制板和至少一块***板的机框式设备中,该***板可以包括:
故障检测模块41,用于当检测到本地资源失败时,更新所述***板记录的所述本地资源失败的次数,并当更新后的所述本地资源失败的次数超过第一门限值时,确定所述本地资源故障;
判断模块42,用于判断所述本地资源为独立资源或非独立资源;
第一发送模块43,用于当所述判断模块42的判断结果为独立资源时,向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;
第二发送模块44,用于当所述判断模块42的判断结果为非独立资源时,向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测。
其中,所述***板对应本地资源设置有失败次数计数器,用于记录对应的本地资源失败的次数;
所述故障检测模块41具体用于,通过以下方式实现更新所述***板记录的所述本地资源失败的次数:
将对应所述本地资源的失败次数计数器的数值加1。
其中,本发明实施例提供的***板还可以包括:
统计模块45,用于当所述故障检测模块41确定所述本地资源故障,且该本地资源为非独立资源时,统计发生故障的所述非独立资源的比例;
所述第二发送模块44具体用于,当所述统计模块45所统计的发生故障的所述非独立资源的比例超过第二门限值时,向控制板发送连通性检测请求。
优选地,所述第二发送模块44还可用于,在向所述控制板发送连通性检测请求之后,若所述***板接收到所述控制板发送的用于检测所述控制板与所述***板之间的连通性,且与所述非独立资源对应的数据检测包,则向所述控制板返回所述数据检测包,以使所述控制板根据接收到的所述数据检测包判断所述控制板与所述***板之间的连通性正常。
基于上述方法实施例相同的技术构思,本发明实施例还提供了一种控制板,可以应用于上述方法实施例中。
如图5所示,为本发明实施例提供的一种控制板的结构示意图,该***板可以应用于包括至少一块控制板和至少一块***板的机框式设备中,该控制板可以包括:
接收模块51,用于接收***板发送的用于通告所述***板独立资源故障的故障报告消息,所述故障报告消息是所述***板在所述独立资源失败的次数超过第一门限值时向所述控制板发送的;以及***板发送的用于通告所述***板非独立资源故障的连通性检测请求,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过所述第一门限值时向所述控制板发送的;
第一处理模块52,用于当所述接收模块51接收到所述故障报告消息时,向管理***进行告警,并对所述独立资源进行复位操作;
第二处理模块53,用于当所述接收模块51接收到所述连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测。
优选地,所述第二处理模块53可具体用于,当所述接收模块51接收到所述连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测;其中,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过第一门限值,且失败次数超过第一门限值的所述非独立资源的比例超过第二门限值时,向所述控制板发送的。
优选地,所述第二处理模块53可具体用于,向所述***板发送所述非独立资源对应的数据检测包,若所述控制板在预设时间内接收到所述***板返回的数据检测包,则判定所述控制板与所述***板之间的连通性正常;若所述控制板在所述预设时间内未接收到所述***板返回的数据检测包,则判定所述控制板与所述***板之间的连通性故障。
其中,本发明实施例提供的控制板还可以包括:
发送模块54,用于在所述接收模块51接收到所述***板发送的连通性检测请求后,向管理***发送故障报告信息,所述故障报告信息中携带了所述非独立资源的标识,以使所述管理***根据所述非独立资源的标识确定所述非独立资源故障。
优选地,所述发送模块54还可用于,当所述第二处理模块53判定所述控制板与所述***板之间的连通性正常时,向管理***上报故障原因排除消息,通告所述管理***所述控制板与所述***板之间的连通性正常。
优选地,所述第二处理模块53还可用于,当判定所述控制板与所述***板之间的连通性故障时,对所述***板进行复位操作。
基于上述方法实施例相同的技术构思,本发明实施例还提供了一种框式设备,可以应用于上述方法实施例中。
如图6所示,为本发明实施例提供的一种框式设备的结构示意图,该框式设备可以包括至少一块***板61和至少一块控制板62(图中以一块***板和一块控制板为例);其中:
所述***板61,用于当检测到本地资源失败时,更新自身记录的所述本地资源失败的次数;当更新后的所述本地资源失败的次数超过第一门限值时,确定所述本地资源故障;判断所述本地资源为独立资源或非独立资源;若该本地资源为独立资源,向控制板62发送故障报告消息,以通告所述控制板62所述独立资源故障,由所述控制板62向管理***进行告警,并对所述独立资源进行复位操作;若该本地资源为非独立资源,向控制板62发送连通性检测请求,以通告所述控制板62所述非独立资源故障,由所述控制板62对所述控制板62与所述***板61之间的连通性进行检测;
所述控制板62,用于当接收到***板61发送的用于通告所述***板61独立资源故障的故障报告消息时,向管理***进行告警,并对所述独立资源进行复位操作;当接收到***板61发送的用于通告所述***板61非独立资源故障的连通性检测请求时,对所述控制板62与所述***板61之间的连通性进行检测。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (21)

1.一种故障检测方法,应用于机框式设备,所述机框式设备包括至少一块控制板和至少一块***板,其特征在于,所述方法包括:
当***板检测到本地资源失败时,所述***板更新自身记录的所述本地资源失败的次数;
当更新后的所述本地资源失败的次数超过第一门限值时,所述***板确定所述本地资源故障;
所述***板判断所述本地资源为独立资源或非独立资源;
若为独立资源,所述***板向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;
若为非独立资源,所述***板向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测。
2.如权利要求1所述的方法,其特征在于,所述***板对应本地资源设置有失败次数计数器,用于记录对应的本地资源失败的次数;
所述***板更新自身记录的所述本地资源失败的次数,具体为:
所述***板将对应所述本地资源的失败次数计数器的数值加1。
3.如权利要求1所述的方法,其特征在于,若所述本地资源为非独立资源,在所述***板确定所述本地资源故障之后,还包括:
所述***板统计发生故障的所述非独立资源的比例;
所述***板向控制板发送连通性检测请求,具体为:
当发生故障的所述非独立资源的比例超过第二门限值时,所述***板向控制板发送连通性检测请求。
4.如权利要求1所述的方法,其特征在于,所述***板向控制板发送连通性检测请求之后还包括:
若所述***板接收到所述控制板发送的用于检测所述控制板与所述***板之间的连通性,且与所述非独立资源对应的数据检测包,则向所述控制板返回所述数据检测包,以使所述控制板根据接收到的所述数据检测包判断所述控制板与所述***板之间的连通性正常。
5.一种故障检测方法,应用于机框式设备,所述机框式设备包括至少一块控制板和至少一块***板,其特征在于,所述方法包括:
当控制板接收到***板发送的用于通告所述***板独立资源故障的故障报告消息时,所述控制板向管理***进行告警,并对所述独立资源进行复位操作;其中,所述故障报告消息是所述***板在所述独立资源失败的次数超过第一门限值时向所述控制板发送的;
当所述控制板接收到***板发送的用于通告所述***板非独立资源故障的连通性检测请求时,所述控制板对所述控制板与所述***板之间的连通性进行检测;其中,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过所述第一门限值时向所述控制板发送的。
6.如权利要求5所述的方法,其特征在于,所述控制板对所述控制板与所述***板之间的连通性进行检测,具体为:
当所述控制板接收到***板发送的用于通告所述***板非独立资源故障的连通性检测请求时,所述控制板对所述控制板与所述***板之间的连通性进行检测;其中,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过第一门限值,且失败次数超过第一门限值的所述非独立资源的比例超过第二门限值时,向所述控制板发送的。
7.如权利要求5所述的方法,其特征在于,所述控制板对所述控制板与所述***板之间的连通性进行检测,具体为:
所述控制板向所述***板发送所述非独立资源对应的的数据检测包,若在预设时间内接收到所述***板返回的数据检测包,则判定自身与所述***板之间的连通性正常,若在所述预设时间内未接收到所述***板返回的数据检测包,则判定自身与所述***板之间的连通性故障。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
所述控制板接收到所述***板发送的连通性检测请求后,向管理***发送故障报告信息,该故障报告信息中携带了所述非独立资源的标识,以使所述管理***根据所述非独立资源的标识确定所述非独立资源故障。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
当所述控制板判定自身与所述***板之间的连通性正常时,向管理***上报故障原因排除消息,通告所述管理***所述控制板与所述***板之间的连通性正常。
10.如权利要求7所述的方法,其特征在于,所述方法还包括:
当所述控制板判定自身与所述***板之间的连通性故障时,对所述***板进行复位操作。
11.一种***板,应用于机框式设备,所述机框式设备包括至少一块控制板和至少一块所述***板,其特征在于,所述***板包括:
故障检测模块,用于当检测到本地资源失败时,更新所述***板记录的所述本地资源失败的次数,并当更新后的所述本地资源失败的次数超过第一门限值时,确定所述本地资源故障;
判断模块,用于判断所述本地资源为独立资源或非独立资源;
第一发送模块,用于当所述判断模块的判断结果为独立资源时,向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;
第二发送模块,用于当所述判断模块的判断结果为非独立资源时,向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测。
12.如权利要求11所述的***板,其特征在于,所述***板对应本地资源设置有失败次数计数器,用于记录对应的本地资源失败的次数;
所述故障检测模块具体用于,通过以下方式实现更新所述***板记录的所述本地资源失败的次数:
将对应所述本地资源的失败次数计数器的数值加1。
13.如权利要求11所述的***板,其特征在于,所述***板还包括:
统计模块,用于当所述故障检测模块确定所述本地资源故障,且该本地资源为非独立资源时,统计发生故障的所述非独立资源的比例;
所述第二发送模块具体用于,当所述统计模块所统计的发生故障的所述非独立资源的比例超过第二门限值时,向控制板发送连通性检测请求。
14.如权利要求11所述的***板,其特征在于,
所述第二发送模块还用于,在向所述控制板发送连通性检测请求之后,若所述***板接收到所述控制板发送的用于检测所述控制板与所述***板之间的连通性,且与所述非独立资源对应的数据检测包,则向所述控制板返回所述数据检测包,以使所述控制板根据接收到的所述数据检测包判断所述控制板与所述***板之间的连通性正常。
15.一种控制板,应用于机框式设备,所述机框式设备包括至少一块所述控制板和至少一块***板,其特征在于,所述控制板包括:
接收模块,用于接收***板发送的用于通告所述***板独立资源故障的故障报告消息,所述故障报告消息是所述***板在所述独立资源失败的次数超过第一门限值时向所述控制板发送的;以及***板发送的用于通告所述***板非独立资源故障的连通性检测请求,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过所述第一门限值时向所述控制板发送的;
第一处理模块,用于当所述接收模块接收到所述故障报告消息时,向管理***进行告警,并对所述独立资源进行复位操作;
第二处理模块,用于当所述接收模块接收到所述连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测。
16.如权利要求15所述的控制板,其特征在于,
所述第二处理模块具体用于,当所述接收模块接收到所述连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测;其中,所述连通性检测请求是所述***板在所述非独立资源失败的次数超过第一门限值,且失败次数超过第一门限值的所述非独立资源的比例超过第二门限值时,向所述控制板发送的。
17.如权利要求15所述的控制板,其特征在于,
所述第二处理模块具体用于,向所述***板发送所述非独立资源对应的数据检测包,若所述控制板在预设时间内接收到所述***板返回的数据检测包,则判定所述控制板与所述***板之间的连通性正常;若所述控制板在所述预设时间内未接收到所述***板返回的数据检测包,则判定所述控制板与所述***板之间的连通性故障。
18.如权利要求17所述的控制板,其特征在于,所述控制板还包括:
发送模块,用于在所述接收模块接收到所述***板发送的连通性检测请求后,向管理***发送故障报告信息,所述故障报告信息中携带了所述非独立资源的标识,以使所述管理***根据所述非独立资源的标识确定所述非独立资源故障。
19.如权利要求18所述的控制板,其特征在于,
所述发送模块还用于,当所述第二处理模块判定所述控制板与所述***板之间的连通性正常时,向管理***上报故障原因排除消息,通告所述管理***所述控制板与所述***板之间的连通性正常。
20.如权利要求17所述的控制板,其特征在于,
所述第二处理模块还用于,当判定所述控制板与所述***板之间的连通性故障时,对所述***板进行复位操作。
21.一种框式设备,其特征在于,包括至少一块***板和至少一块控制板,其中:
所述***板,用于当检测到本地资源失败时,更新自身记录的所述本地资源失败的次数;当更新后的所述本地资源失败的次数超过第一门限值时,确定所述本地资源故障;判断所述本地资源为独立资源或非独立资源;若该本地资源为独立资源,向控制板发送故障报告消息,以通告所述控制板所述独立资源故障,由所述控制板向管理***进行告警,并对所述独立资源进行复位操作;若该本地资源为非独立资源,向控制板发送连通性检测请求,以通告所述控制板所述非独立资源故障,由所述控制板对所述控制板与所述***板之间的连通性进行检测;
所述控制板,用于当接收到***板发送的用于通告所述***板独立资源故障的故障报告消息时,向管理***进行告警,并对所述独立资源进行复位操作;当接收到***板发送的用于通告所述***板非独立资源故障的连通性检测请求时,对所述控制板与所述***板之间的连通性进行检测。
CN201310362422.9A 2013-08-19 2013-08-19 一种故障检测方法和装置 Active CN103457792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310362422.9A CN103457792B (zh) 2013-08-19 2013-08-19 一种故障检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310362422.9A CN103457792B (zh) 2013-08-19 2013-08-19 一种故障检测方法和装置

Publications (2)

Publication Number Publication Date
CN103457792A true CN103457792A (zh) 2013-12-18
CN103457792B CN103457792B (zh) 2017-02-08

Family

ID=49739777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310362422.9A Active CN103457792B (zh) 2013-08-19 2013-08-19 一种故障检测方法和装置

Country Status (1)

Country Link
CN (1) CN103457792B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793533A (zh) * 2014-02-27 2014-05-14 大唐移动通信设备有限公司 一种分布式数据同步方法和设备
CN105187249A (zh) * 2015-09-22 2015-12-23 华为技术有限公司 一种故障恢复方法及装置
CN112953857A (zh) * 2021-02-24 2021-06-11 迈普通信技术股份有限公司 一种板卡间内部通道测试方法及分布式网络设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514585A (zh) * 2002-10-24 2004-07-21 用于检测连接故障的方法,***和网络实体
CN101483570A (zh) * 2009-02-17 2009-07-15 杭州华三通信技术有限公司 一种防止中继链路的环网临时环路的方法、***及设备
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN102571492A (zh) * 2012-01-06 2012-07-11 华为技术有限公司 检测路由设备故障的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514585A (zh) * 2002-10-24 2004-07-21 用于检测连接故障的方法,***和网络实体
EP1422870B1 (en) * 2002-10-24 2011-06-15 Tellabs Oy Method and system for detecting a connection fault
CN101483570A (zh) * 2009-02-17 2009-07-15 杭州华三通信技术有限公司 一种防止中继链路的环网临时环路的方法、***及设备
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN102571492A (zh) * 2012-01-06 2012-07-11 华为技术有限公司 检测路由设备故障的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793533A (zh) * 2014-02-27 2014-05-14 大唐移动通信设备有限公司 一种分布式数据同步方法和设备
CN105187249A (zh) * 2015-09-22 2015-12-23 华为技术有限公司 一种故障恢复方法及装置
CN105187249B (zh) * 2015-09-22 2018-12-07 华为技术有限公司 一种故障恢复方法及装置
US10601643B2 (en) 2015-09-22 2020-03-24 Huawei Technologies Co., Ltd. Troubleshooting method and apparatus using key performance indicator information
CN112953857A (zh) * 2021-02-24 2021-06-11 迈普通信技术股份有限公司 一种板卡间内部通道测试方法及分布式网络设备
CN112953857B (zh) * 2021-02-24 2022-02-22 迈普通信技术股份有限公司 一种板卡间内部通道测试方法及分布式网络设备

Also Published As

Publication number Publication date
CN103457792B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
US10601643B2 (en) Troubleshooting method and apparatus using key performance indicator information
US10873622B2 (en) Call chain-based concurrency control method and apparatus, and control node
US9680722B2 (en) Method for determining a severity of a network incident
CN101800675B (zh) 故障监控方法、监控设备及通信***
CN105808394B (zh) 一种服务器自愈的方法和装置
CN102299846B (zh) 一种bfd报文传输方法和设备
CN104219107A (zh) 一种通信故障的检测方法、装置及***
CN103797468A (zh) ***异常的自动化检测
CN106789445B (zh) 一种广电网络中网络设备的状态轮询方法和***
CN102571492B (zh) 检测路由设备故障的方法和装置
CN103986604A (zh) 网络故障定位方法和装置
CN107888455A (zh) 一种数据检测方法、装置和***
CN107612754A (zh) 双向转发链路故障检测方法、装置及网络节点设备
CN105071968A (zh) 一种通信设备的业务面和控制面的隐性故障修复方法和装置
CN103167539B (zh) 故障处理方法、设备和***
CN102196472A (zh) 网元异常告警方法、装置及***
JP2021520697A (ja) データ伝送方法及び装置
CN103457792A (zh) 一种故障检测方法和装置
CN103824017A (zh) 监控恶意程序的方法和监控平台
CN102217232A (zh) 确定网元运行状态方法以及相关设备和***
CN103220189A (zh) 一种mad检测备份方法和设备
CN105281927A (zh) 多链路保护倒换的方法及装置
CN103178997A (zh) 一种基于lldp协议的mac地址相同的检测方法和设备
CN102946321B (zh) 一种基于irf网络的故障处理方法和设备
CN103368754B (zh) 一种检测业务故障的方法、装置和***及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant