CN102904778B - 堆叠***可靠性提升方法、监控器及堆叠*** - Google Patents

堆叠***可靠性提升方法、监控器及堆叠*** Download PDF

Info

Publication number
CN102904778B
CN102904778B CN201210417535.XA CN201210417535A CN102904778B CN 102904778 B CN102904778 B CN 102904778B CN 201210417535 A CN201210417535 A CN 201210417535A CN 102904778 B CN102904778 B CN 102904778B
Authority
CN
China
Prior art keywords
score
monitoring
threshold
stacking
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210417535.XA
Other languages
English (en)
Other versions
CN102904778A (zh
Inventor
刘建国
曹同强
龚建新
罗枫
张鹏飞
高红彦
付金成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210417535.XA priority Critical patent/CN102904778B/zh
Publication of CN102904778A publication Critical patent/CN102904778A/zh
Application granted granted Critical
Publication of CN102904778B publication Critical patent/CN102904778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种堆叠***可靠性提升方法,包括如下步骤:监控器监控指定节点与相邻节点之间的堆叠链路的链路指标,其中,相邻节点为与指定节点直接连接的堆叠节点;根据链路指标对堆叠链路进行评估以获得评估结果;向指定节点或堆叠主节点提供评估结果,以使指定节点或堆叠主节点分别根据所述评估结果和各自的调度策略进行调度。上述技术方案能够在故障尚未发生前,通过监控器对指定节点与相邻节点之间的堆叠链路的链路指标进行监控,然后根据链路指标进行评估,以使指定节点和堆叠主节点分别根据评估结果和各自的调度策略进行调度,提升堆叠***的可靠性。

Description

堆叠***可靠性提升方法、监控器及堆叠***
技术领域
本申请涉及通信领域,特别是涉及堆叠***可靠性提升方法、监控器及堆叠***。
背景技术
堆叠技术将每台通信设备作为一个堆叠节点,通过以太、高速以太等数据通道将多个堆叠节点拓扑连接起来组建成一个堆叠***,并选择其中一个堆叠节点作为堆叠主节点。其中,堆叠节点之间的链路称为堆叠链路。堆叠链路是整个堆叠***的通信桥梁,一旦堆叠链路发生故障,将可能导致堆叠***通信的中断,进而影响堆叠***可靠性。
现有技术提供了一种堆叠***故障处理方法,例如,对于环形拓扑结构的堆叠***,当其中两个堆叠节点之间的链路发生故障导致这两个堆叠节点之间不能进行通信时,这两个节点会分别感知故障,并报告堆叠主节点,堆叠主节点接收到报告后,重新计算形成新的拓扑图形,并选择合适的链路使得这两个堆叠节点能够重新进行通信。
但是,这种堆叠***故障处理方法只能在故障发生并导致不能通信时才报告堆叠主节点,具有滞后性,而且,当故障发生后,对故障进行维修需要比较长的时间。
发明内容
本申请主要解决的技术问题是提供堆叠***可靠性提升方法、监控器及堆叠***,能够提升堆叠***的可靠性。
为解决上述技术问题,本申请第一方面提供一种堆叠***可靠性提升方法,包括如下步骤:监控指定节点与相邻节点之间的堆叠链路的链路指标,其中,所述相邻节点为与所述指定节点直接连接的堆叠节点;根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果,其中,
如果所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值,则将所述堆叠链路评估为5级;
如果所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且所述流量监控得分小于第一阈值,则将所述堆叠链路评估为4级;
如果所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分小于第一阈值,则将所述堆叠链路评估为3级;
如果所述介质监控得分大于或等于第二阈值并小于第一阈值,或所述芯片监控得分大于或等于第二阈值并小于第一阈值,则将所述堆叠链路评估为2级;
如果所述介质监控得分小于第二阈值,或所述芯片监控得分小于第二阈值,则将所述堆叠链路评估为1级;向所述指定节点或堆叠主节点提供所述评估结果,以使所述指定节点或所述堆叠主节点分别根据所述评估结果和各自的调度策略进行调度。
其中,所述根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果步骤之前包括:根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算所述介质监控得分。
其中,所述根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果步骤之前包括:根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算所述芯片监控得分。
其中,所述根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果步骤之前包括:根据收到错误报文频率以及丢弃报文频率计算所述报文监控得分。
本申请第二方面提供一种监控器,所述监控器包括监控模块、评估模块以及提供模块;所述监控模块用于监控指定节点与相邻节点之间的堆叠链路的链路指标,所述监控模块将所述链路指标向所述评估模块发送,其中,所述相邻节点为与所述指定节点直接连接的堆叠节点;所述评估模块用于接收链路指标并所述评估模块用于根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果,其中,所述评估模块用于在所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值时,将所述堆叠链路评估为5级;在所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且所述流量监控得分小于第一阈值时,将所述堆叠链路评估为4级;在所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分小于第一阈值时,将所述堆叠链路评估为3级;在所述介质监控得分大于或等于第二阈值并小于第一阈值,或所述芯片监控得分大于或等于第二阈值并小于第一阈值时,将所述堆叠链路评估为2级;在所述介质监控得分小于第二阈值,或所述芯片监控得分小于第二阈值时,将所述堆叠链路评估为1级,所述评估模块将所述评估结果向所述提供模块发送;所述提供模块用于接收所述评估结果并向所述指定节点或堆叠主节点提供所述评估结果,以使所述指定节点或所述堆叠主节点分别根据所述评估结果和各自的调度策略进行调度。
其中,所述评估模块用于根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算所述介质监控得分。
其中,所述评估模块用于根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算所述芯片监控得分。
其中,所述评估模块用于根据收到错误报文频率以及丢弃报文频率计算所述报文监控得分。
为解决上述技术问题,本申请第一方面提供一种堆叠***,包括多个监控器、至少一个堆叠节点,以及堆叠主节点,所述堆叠节点与所述堆叠主节点之间拓扑连接,其中,一个监控器监控一个堆叠节点或一个堆叠主节点,所述监控器为如上述第二方面所述的监控器。
其中,所述监控器设置于堆叠节点和堆叠主节点之外,每个监控器分别连接一个堆叠节点或一个堆叠主节点。
其中,每个堆叠节点和堆叠主节点内均集成至少一个监控器。
上述技术方案能够在故障尚未发生前,通过监控器对指定节点与相邻节点之间的堆叠链路的链路指标进行监控,然后根据链路指标进行评估,以使指定节点和堆叠主节点分别根据评估结果和各自的调度策略进行调度,提升堆叠***的可靠性。
附图说明
图1是本发明堆叠***一实施方式的结构示意图;
图2是本发明堆叠***可靠性提升方法一实施方式的流程图;
图3是本发明堆叠***可靠性提升方法中工作温度和得分的曲线图;
图4是本发明堆叠***可靠性提升方法中误码率和得分的曲线图;
图5是本发明堆叠***可靠性提升方法中收到错误报文频率和得分的曲线图;
图6是本发明堆叠***可靠性提升方法中流量速率与流量监控得分的曲线图;
图7是本发明监控器一实施方式的结构示意图;
图8是本发明监控器另一实施方式的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、接口、技术之类的具体细节,以便透彻理解本申请。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施方式中也可以实现本申请。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
参阅图1,图1是本发明堆叠***一实施方式的结构示意图。本实施方式的堆叠***包括:堆叠主节点110以及至少一个堆叠节点120。将多个交换机通过以太网等首尾相连以构成一个环形的拓扑结构,并将其中一个交换机作为堆叠主节点110,其余的交换机作为堆叠节点120。在其它的实施方式中,堆叠***也可以是总线拓扑、树形拓扑、混合形拓扑、星形拓扑等等,为了陈述方便,文中仅以环形拓扑结构为例进行陈述。在每个堆叠主节点110和堆叠节点120内均集成至少一个监控器(图未示)。或者将监控器设置于堆叠主节点110和堆叠节点120之外,每个监控器分别连接一个堆叠主节点110或一个堆叠节点120。
参阅图2,图2是本发明堆叠***可靠性提升方法一实施方式的流程图。本实施方式的堆叠***可靠性提升方法包括:
S201:监控器监控指定节点与相邻节点之间的堆叠链路的链路指标。
将与监控器直接连接的堆叠节点作为指定节点,并将与指定节点直接连接的堆叠节点作为相邻节点。监控器监控指定节点与相邻节点之间的堆叠链路的链路指标。其中,链路指标包括硬件指标以及软件指标。
S202:监控器根据链路指标对所述堆叠链路进行评估以获得评估结果。
监控器在获得链路指标后,根据链路指标对堆叠链路从包括硬件指标和软件指标的综合指标上进行评估,从而获得评估结果。
S203:监控器向指定节点或堆叠主节点提供评估结果,以使指定节点或堆叠主节点分别根据评估结果和各自的调度策略进行调度。
在获得评估结果后,如果监控器设置在指定节点的内部,则监控器可直接向指定节点提供评估结果,指定节点根据评估结果和指定节点的调度策略进行调度;如果监控器设置在指定节点的外部,则监控器通过传输载体向指定节点提供评估结果,指定节点再根据评估结果和指定节点的调度策略进行调度。此外,监控器也可以将评估结果通过指定节点和多个堆叠节点转发,从而向堆叠主节点提供评估结果,堆叠主节点在接收到评估结果后,根据评估结果和堆叠主节点的调度策略进行调度。
具体地,对于步骤S202,可以根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果。在本步骤之前,必须获得介质监控得分、芯片监控得分、报文监控得分以及流量监控得分。
首先,根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算介质监控得分。其中,工作温度、工作电流、工作电压、工作功率以及接收发送信号每项链路指标的得分范围都在[0,20],因而,工作温度、工作电流、工作电压、工作功率以及接收发送信号五项链路指标加起来的最高得分是100分,最低得分是0分。参阅图3,图3是本发明堆叠***可靠性提升方法中工作温度和得分的曲线图。若工作温度低于横坐标M1或高于横坐标N1时,得分为0分;若工作温度位于在横坐标[M2,N2]区间内,得分为20分;若工作温度位于横坐标(M1,M2)或横坐标(N2,N1)内,得分在(0,20)区间内,其中,横坐标M1<横坐标M2<横坐标N2<横坐标N1。工作电流、工作电压、工作功率以及接收发送信号和得分的曲线图皆与工作温度和得分的曲线图相近,此处不重复赘述。在分别得到工作温度、工作电流、工作电压、工作功率以及接收发送信号所对应的得分后,将得分相加,即可得到介质监控得分。
其次,根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算芯片监控得分。其中,误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性每项链路指标的得分范围都在[0,25],因而,误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性四项链路指标加起来的最高得分是100分,最低得分是0分。参阅图4,图4是本发明堆叠***可靠性提升方法中误码率和得分的曲线图。若误码率小于横坐标M,得分为25分;若误码率大于横坐标N,得分为0分;若误码率位于横坐标(M,N)内,得分在(0,25)区间内,其中,横坐标M<横坐标N。可以理解地,如果不能容忍有误码,可以令横坐标M的数值为零。对于物理层可用性检查存在两个结果,如果物理层可用性检查结果为可用,得分为25分,如果物理层可用性检查结果为不可用,得分为0分。对于端口闪断,端口闪断和得分的曲线图与误码率和得分的曲线图相近,此处不重复赘述。对于以太网转发芯片可用性,以太网转发芯片可用性包括控制平面心跳检测、关键表项检测以及MMU(MemoryManagementUnit)内存故障检测三项。控制平面心跳检测通过选择以太网转发芯片上一个不影响业务的寄存器进行周期性写读操作,如果读出的值与写出的值不一致,则控制平面心跳检测不通过,反之,则控制平面心跳检测通过;关键表项检测采用奇偶错误校验,如果奇偶错误校验的结果为奇偶错误,并向主芯片上报中断时,则关键表项检测检测不通过,反之,则关键表项检测通过;MMU内存故障检测采用奇偶错误校验,如果奇偶错误校验的结果为奇偶错误,并向主芯片上报中断时,则MMU内存故障检测不通过,反之,则MMU内存故障检测通过。只有在控制平面心跳检测、关键表项检测以及MMU内存故障检测同时通过时,以太网转发芯片可用性得分为25分,而只要控制平面心跳检测、关键表项检测以及MMU内存故障检测任一项不通过时,以太网转发芯片可用性得分为0分。在分别得到误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性所对应的得分后,将得分相加,即可得到芯片监控得分。
然后,根据收到错误报文频率以及丢弃报文频率计算报文监控得分。其中,收到错误报文频率以及丢弃报文频率每项链路指标的得分范围都在[0,50],因而,收到错误报文频率以及丢弃报文频率两项链路指标加起来的最高得分是100分,最低得分是0分。参阅图5,图5是本发明堆叠***可靠性提升方法中收到错误报文频率和得分的曲线图。若收到错误报文频率小于横坐标M,得分为50分;若收到错误报文频率大于横坐标N,得分为0分;若收到错误报文频率位于横坐标(M,N)内,得分在(0,50)区间内,其中,横坐标M<横坐标N。可以理解地,如果不能容忍收到错误报文,可以令横坐标M的数值为零。对于丢弃报文频率,丢弃报文频率和得分的曲线图与收到错误报文频率和得分的曲线图相近,此处不重复赘述。在分别得到收到错误报文频率以及丢弃报文频率所对应的得分后,将得分相加,即可得到报文监控得分。
最后,获得流量监控得分。参阅图6,图6是本发明堆叠***可靠性提升方法中流量速率与流量监控得分的曲线图。若流量速率小于横坐标M,流量监控得分为100分;若流量速率大于横坐标N,得分为0分;若流量速率位于横坐标(M,N)内,得分在(0,100)区间内,其中,横坐标M<横坐标N。
在获得介质监控得分、芯片监控得分、报文监控得分以及流量监控得分后,以100分为第一阈值,70分为第二阈值按照下面的标准进行评估:
如果介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值,则将堆叠链路评估为5级;
如果介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分大于或等于第一阈值,且流量监控得分小于第一阈值,则将堆叠链路评估为4级;
如果介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分小于第一阈值,则将堆叠链路评估为3级;
如果介质监控得分大于或等于第二阈值并小于第一阈值,或芯片监控得分大于或等于第二阈值并小于第一阈值,则将堆叠链路评估为2级;
如果介质监控得分小于第二阈值,或芯片监控得分小于第二阈值,则将堆叠链路评估为1级。
可以理解的是,以100分为第一阈值,70分为第二阈值仅作为其中的一个例子进行举例,在实际应用中,可以根据技术指标、客户的要求等等对第一阈值以及第二阈值进行设置。
对于评估为5级的堆叠链路,指定节点或堆叠主节点在调度时可以优先选择该堆叠链路;对于评估为2级的堆叠链路,指定节点或堆叠主节点在调度时可以将该堆叠链路进行隔离,并进行自动诊断,给出故障预警;对于评估为1级的堆叠链路,指定节点在调度时可以直接对该堆叠链路进行隔离,给出故障预警。对于评估为3级或4级的堆叠链路,指定节点或堆叠主节点按照等级的高低选择堆叠链路。
上述技术方案能够在故障尚未发生前,通过监控器对指定节点与相邻节点之间的堆叠链路的链路指标进行监控,然后根据链路指标进行评估,以使指定节点隔离链路指标不良的堆叠链路,或将评估结果提供给堆叠主节点,堆叠主节点根据评估结果优先选择链路指标良好的堆叠链路或隔离链路指标不良的堆叠链路,从而提前规避风险,进而提高堆叠***的可靠性。
参阅图7,图7是本发明监控器一实施方式的结构示意图。本实施方式的监控器包括:监控模块710、评估模块720以及提供模块730。
监控模块710用于监控指定节点与相邻节点之间的堆叠链路的链路指标。监控模块710将链路指标向评估模块720发送,其中,相邻节点为与指定节点直接连接的堆叠节点。比如,将与监控器直接连接的堆叠节点作为指定节点,并将与指定节点直接连接的堆叠节点作为相邻节点。监控模块710监控指定节点与相邻节点之间的堆叠链路的链路指标。其中,链路指标包括硬件指标以及软件指标。
评估模块720用于接收链路指标并根据链路指标对堆叠链路进行评估以获得评估结果,评估模块720将评估结果向提供模块730发送。比如,在获得链路指标后,评估模块720根据链路指标对堆叠链路从包括硬件指标和软件指标的综合指标上进行评估,从而获得评估结果。
提供模块730用于接收评估结果并向指定节点或堆叠主节点提供评估结果,以使指定节点或堆叠主节点分别根据评估结果和各自的调度策略进行调度。比如,在获得评估结果后,如果监控器设置在指定节点的内部,则提供模块730可直接向指定节点提供评估结果,指定节点根据评估结果和指定节点的调度策略进行调度;如果监控器设置在指定节点的外部,则提供模块730首先通过传输载体向指定节点提供评估结果,指定节点再根据评估结果和指定节点的调度策略进行调度。此外,提供模块730也可以将评估结果通过指定节点和多个堆叠节点转发,从而向堆叠主节点提供评估结果,堆叠主节点在接收到评估结果后,根据评估结果和堆叠主节点的调度策略进行调度。
具体地,评估模块720还用于根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果。比如:评估模块720根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算介质监控得分。其中,工作温度、工作电流、工作电压、工作功率以及接收发送信号每项链路指标的得分范围都在[0,20],因而,工作温度、工作电流、工作电压、工作功率以及接收发送信号五项链路指标加起来的最高得分是100分,最低得分是0分。请再次参阅图3,若工作温度低于横坐标M1或高于横坐标N1时,评估模块720评估得分为0分;若工作温度位于在横坐标[M2,N2]区间内,评估模块720评估得分为20分;若工作温度位于横坐标(M1,M2)或横坐标(N2,N1)内,评估模块720评估得分在(0,20)区间内,其中,横坐标M1<横坐标M2<横坐标N2<横坐标N1。工作电流、工作电压、工作功率以及接收发送信号和得分的曲线图皆与工作温度和得分的曲线图相近,此处不重复赘述。评估模块720在分别得到工作温度、工作电流、工作电压、工作功率以及接收发送信号所对应的得分后,将得分相加,得到介质监控得分。
其次,评估模块720根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算芯片监控得分。其中,误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性每项链路指标的得分范围都在[0,25],因而,误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性四项链路指标加起来的最高得分是100分,最低得分是0分。请再次参阅图4,若误码率小于横坐标M,评估模块720评估得分为25分;若误码率大于横坐标N,评估模块720评估得分为0分;若误码率位于横坐标(M,N)内,评估模块720评估得分在(0,25)区间内,其中,横坐标M<横坐标N。可以理解地,如果不能容忍有误码,可以令横坐标M的数值为零。对于物理层可用性检查存在两个结果,如果物理层可用性检查结果为可用,评估模块720评估得分为25分,如果物理层可用性检查结果为不可用,评估模块720评估得分为0分。对于端口闪断,端口闪断和得分的曲线图与误码率和得分的曲线图相近,此处不重复赘述。对于以太网转发芯片可用性,以太网转发芯片可用性包括控制平面心跳检测、关键表项检测以及MMU内存故障检测三项。控制平面心跳检测通过选择以太网转发芯片上一个不影响业务的寄存器进行周期性写读操作,如果读出的值与写出的值不一致,则控制平面心跳检测不通过,反之,则控制平面心跳检测通过;关键表项检测采用奇偶错误校验,如果奇偶错误校验的结果为奇偶错误,并向主芯片上报中断时,则关键表项检测检测不通过,反之,则关键表项检测通过;MMU内存故障检测采用奇偶错误校验,如果奇偶错误校验的结果为奇偶错误,并向主芯片上报中断时,则MMU内存故障检测不通过,反之,则MMU内存故障检测通过。只有在控制平面心跳检测、关键表项检测以及MMU内存故障检测同时通过时,评估模块720评估以太网转发芯片可用性得分为25分,而只要控制平面心跳检测、关键表项检测以及MMU内存故障检测任一项不通过时,评估模块720评估以太网转发芯片可用性得分为0分。评估模块720在分别得到误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性所对应的得分后,将得分相加,得到芯片监控得分。
然后,评估模块720根据收到错误报文频率以及丢弃报文频率计算报文监控得分。其中,收到错误报文频率以及丢弃报文频率每项链路指标的得分范围都在[0,50],因而,收到错误报文频率以及丢弃报文频率两项链路指标加起来的最高得分是100分,最低得分是0分。请再次参阅图5,若收到错误报文频率小于横坐标M,得分为50分;若收到错误报文频率大于横坐标N,得分为0分;若收到错误报文频率位于横坐标(M,N)内,得分在(0,50)区间内,其中,横坐标M<横坐标N。可以理解地,如果不能容忍收到错误报文,可以令横坐标M的数值为零。对于丢弃报文频率,丢弃报文频率和得分的曲线图与收到错误报文频率和得分的曲线图相近,此处不重复赘述。评估模块720在分别得到收到错误报文频率以及丢弃报文频率所对应的得分后,将得分相加,得到报文监控得分。
最后,获得流量监控得分。请再次参阅图6,若流量速率小于横坐标M,评估模块720评估流量监控得分为100分;若流量速率大于横坐标N,评估模块720评估得分为0分;若流量速率位于横坐标(M,N)内,评估模块720评估得分在(0,100)区间内,其中,横坐标M<横坐标N。
评估模块720在获得介质监控得分、芯片监控得分、报文监控得分以及流量监控得分后,以100分为第一阈值,70分为第二阈值按照下面的标准进行评估:
在介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值时,将堆叠链路评估为5级;
在介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分大于或等于第一阈值,且流量监控得分小于第一阈值时,将堆叠链路评估为4级;
在介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分小于第一阈值时,将堆叠链路评估为3级;
在介质监控得分大于或等于第二阈值并小于第一阈值,或芯片监控得分大于或等于第二阈值并小于第一阈值时,将堆叠链路评估为2级;
在介质监控得分小于第二阈值,或芯片监控得分小于第二阈值时,将堆叠链路评估为1级。
可以理解的是,以100分为第一阈值,70分为第二阈值仅作为其中的一个例子进行举例,在实际应用中,可以根据技术指标、客户的要求等等对第一阈值以及第二阈值进行设置。
上述技术方案能够在故障尚未发生前,通过监控器对指定节点与相邻节点之间的堆叠链路的链路指标进行监控,然后根据链路指标进行评估,以使指定节点隔离链路指标不良的堆叠链路,或将评估结果提供给堆叠主节点,堆叠主节点根据评估结果优先选择链路指标良好的堆叠链路或隔离链路指标不良的堆叠链路,从而提前规避风险,进而提高堆叠***的可靠性。
参阅图8,图8是本发明监控器另一实施方式的结构示意图。本实施方式的监控器包括:处理器810、发送机820以及存储器830。其中,处理器810分别与发送机820以及存储器830耦接。
处理器810用于监控指定节点与相邻节点之间的堆叠链路的链路指标,并根据链路指标对堆叠链路进行评估以获得评估结果。处理器810块将评估结果向发送机820发送。比如,将与监控器直接连接的堆叠节点作为指定节点,并将与指定节点直接连接的堆叠节点作为相邻节点。处理器810监控指定节点与相邻节点之间的堆叠链路的链路指标。其中,链路指标包括硬件指标以及软件指标。处理器810根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果。首先,处理器810根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算介质监控得分。其中,工作温度、工作电流、工作电压、工作功率以及接收发送信号每项链路指标的得分范围都在[0,20],因而,工作温度、工作电流、工作电压、工作功率以及接收发送信号五项链路指标加起来的最高得分是100分,最低得分是0分。请再次参阅图3,若工作温度低于横坐标M1或高于横坐标N1时,处理器810评估得分为0分;若工作温度位于在横坐标[M2,N2]区间内,处理器810评估得分为20分;若工作温度位于横坐标(M1,M2)或横坐标(N2,N1)内,处理器810评估得分在(0,20)区间内,其中,横坐标M1<横坐标M2<横坐标N2<横坐标N1。工作电流、工作电压、工作功率以及接收发送信号和得分的曲线图皆与工作温度和得分的曲线图相近,此处不重复赘述。处理器810在分别得到工作温度、工作电流、工作电压、工作功率以及接收发送信号所对应的得分后,将得分相加,得到介质监控得分。
其次,处理器810根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算芯片监控得分。其中,误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性每项链路指标的得分范围都在[0,25],因而,误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性四项链路指标加起来的最高得分是100分,最低得分是0分。请再次参阅图4,若误码率小于横坐标M,处理器810评估得分为25分;若误码率大于横坐标N,处理器810评估得分为0分;若误码率位于横坐标(M,N)内,处理器810评估得分在(0,25)区间内,其中,横坐标M<横坐标N。可以理解地,如果不能容忍有误码,可以令横坐标M的数值为零。对于物理层可用性检查存在两个结果,如果物理层可用性检查结果为可用,处理器810评估得分为25分,如果物理层可用性检查结果为不可用,处理器810评估得分为0分。对于端口闪断,端口闪断和得分的曲线图与误码率和得分的曲线图相近,此处不重复赘述。对于以太网转发芯片可用性,以太网转发芯片可用性包括控制平面心跳检测、关键表项检测以及MMU内存故障检测三项。控制平面心跳检测通过选择以太网转发芯片上一个不影响业务的寄存器进行周期性写读操作,如果读出的值与写出的值不一致,则控制平面心跳检测不通过,反之,则控制平面心跳检测通过;关键表项检测采用奇偶错误校验,如果奇偶错误校验的结果为奇偶错误,并向主芯片上报中断时,则关键表项检测检测不通过,反之,则关键表项检测通过;MMU内存故障检测采用奇偶错误校验,如果奇偶错误校验的结果为奇偶错误,并向主芯片上报中断时,则MMU内存故障检测不通过,反之,则MMU内存故障检测通过。只有在控制平面心跳检测、关键表项检测以及MMU内存故障检测同时通过时,处理器810评估以太网转发芯片可用性得分为25分,而只要控制平面心跳检测、关键表项检测以及MMU内存故障检测任一项不通过时,处理器810评估以太网转发芯片可用性得分为0分。处理器810在分别得到误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性所对应的得分后,将得分相加,得到芯片监控得分。
然后,处理器810根据收到错误报文频率以及丢弃报文频率计算报文监控得分。其中,收到错误报文频率以及丢弃报文频率每项链路指标的得分范围都在[0,50],因而,收到错误报文频率以及丢弃报文频率两项链路指标加起来的最高得分是100分,最低得分是0分。请再次参阅图5,若收到错误报文频率小于横坐标M,得分为50分;若收到错误报文频率大于横坐标N,得分为0分;若收到错误报文频率位于横坐标(M,N)内,得分在(0,50)区间内,其中,横坐标M<横坐标N。可以理解地,如果不能容忍收到错误报文,可以令横坐标M的数值为零。对于丢弃报文频率,丢弃报文频率和得分的曲线图与收到错误报文频率和得分的曲线图相近,此处不重复赘述。处理器810在分别得到收到错误报文频率以及丢弃报文频率所对应的得分后,将得分相加,得到报文监控得分。
最后,获得流量监控得分。请再次参阅图6,若流量速率小于横坐标M,处理器810评估流量监控得分为100分;若流量速率大于横坐标N,处理器810评估得分为0分;若流量速率位于横坐标(M,N)内,处理器810评估得分在(0,100)区间内,其中,横坐标M<横坐标N。
处理器810在获得介质监控得分、芯片监控得分、报文监控得分以及流量监控得分后,以100分为第一阈值,70分为第二阈值按照下面的标准进行评估:
在介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值时,将堆叠链路评估为5级;
在介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分大于或等于第一阈值,且流量监控得分小于第一阈值时,将堆叠链路评估为4级;
在介质监控得分大于或等于第一阈值,且芯片监控得分大于或等于第一阈值,且报文监控得分小于第一阈值时,将堆叠链路评估为3级;
在介质监控得分大于或等于第二阈值并小于第一阈值,或芯片监控得分大于或等于第二阈值并小于第一阈值时,将堆叠链路评估为2级;
在介质监控得分小于第二阈值,或芯片监控得分小于第二阈值时,将堆叠链路评估为1级。
可以理解的是,以100分为第一阈值,70分为第二阈值仅作为其中的一个例子进行举例,在实际应用中,可以根据技术指标、客户的要求等等对第一阈值以及第二阈值进行设置。
发送机820用于接收评估结果并向指定节点或堆叠主节点提供评估结果,以使指定节点或堆叠主节点分别根据评估结果和各自的调度策略进行调度。比如,在获得评估结果后,如果监控器设置在指定节点的内部,则发送机820可直接向指定节点提供评估结果,指定节点根据评估结果和指定节点的调度策略进行调度;如果监控器设置在指定节点的外部,则发送机820首先通过传输载体向指定节点提供评估结果,指定节点再根据评估结果和指定节点的调度策略进行调度。此外,发送机820也可以将评估结果通过指定节点和多个堆叠节点转发,从而向堆叠主节点提供评估结果,堆叠主节点在接收到评估结果后,根据评估结果和堆叠主节点的调度策略进行调度。对于评估为5级的堆叠链路,指定节点或堆叠主节点在调度时可以优先选择该堆叠链路;对于评估为2级的堆叠链路,指定节点或堆叠主节点在调度时可以将该堆叠链路进行隔离,并进行自动诊断,给出故障预警;对于评估为1级的堆叠链路,指定节点在调度时可以直接对该堆叠链路进行隔离,给出故障预警。对于评估为3级或4级的堆叠链路,指定节点或堆叠主节点按照等级的高低选择堆叠链路。
存储器830用于存储相关的例程以及数据。
上述技术方案能够在故障尚未发生前,通过监控器对指定节点与相邻节点之间的堆叠链路的链路指标进行监控,然后根据链路指标进行评估,以使指定节点隔离链路指标不良的堆叠链路,或将评估结果提供给堆叠主节点,堆叠主节点根据评估结果优先选择链路指标良好的堆叠链路或隔离链路指标不良的堆叠链路,从而提前规避风险,进而提高堆叠***的可靠性。
基于上述的监控器,本申请还提出了一种堆叠***,包括多个监控器、多个堆叠节点与至少一个堆叠主节点,堆叠节点与堆叠主节点之间拓扑连接,其中,一个监控器监控一个堆叠节点或一个堆叠主节点。所述堆叠***的具体结构见图1及相关描述,此处不重复赘述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (9)

1.一种堆叠***可靠性提升方法,其特征在于,包括如下步骤:
监控指定节点与相邻节点之间的堆叠链路的链路指标,其中,所述相邻节点为与所述指定节点直接连接的堆叠节点;
根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果,其中,
如果所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值,则将所述堆叠链路评估为5级;
如果所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且所述流量监控得分小于第一阈值,则将所述堆叠链路评估为4级;
如果所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分小于第一阈值,则将所述堆叠链路评估为3级;
如果所述介质监控得分大于或等于第二阈值并小于第一阈值,或所述芯片监控得分大于或等于第二阈值并小于第一阈值,则将所述堆叠链路评估为2级;
如果所述介质监控得分小于第二阈值,或所述芯片监控得分小于第二阈值,则将所述堆叠链路评估为1级;
向所述指定节点或堆叠主节点提供所述评估结果,以使所述指定节点或所述堆叠主节点分别根据所述评估结果和各自的调度策略进行调度。
2.根据权利要求1所述的方法,其特征在于,所述根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果步骤之前包括:
根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算所述介质监控得分。
3.根据权利要求1所述的方法,其特征在于,所述根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果步骤之前包括:
根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算所述芯片监控得分。
4.根据权利要求1所述的方法,其特征在于,所述根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果步骤之前包括:
根据收到错误报文频率以及丢弃报文频率计算所述报文监控得分。
5.一种监控器,其特征在于,所述监控器包括监控模块、评估模块以及提供模块;
所述监控模块用于监控指定节点与相邻节点之间的堆叠链路的链路指标,所述监控模块将所述链路指标向所述评估模块发送,其中,所述相邻节点为与所述指定节点直接连接的堆叠节点;
所述评估模块用于接收链路指标并所述评估模块用于根据介质监控得分、芯片监控得分、报文监控得分以及流量监控得分中的至少一项得分进行评估以获得评估结果,其中,所述评估模块用于在所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且流量监控得分大于或等于第一阈值时,将所述堆叠链路评估为5级;在所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分大于或等于第一阈值,且所述流量监控得分小于第一阈值时,将所述堆叠链路评估为4级;在所述介质监控得分大于或等于第一阈值,且所述芯片监控得分大于或等于第一阈值,且所述报文监控得分小于第一阈值时,将所述堆叠链路评估为3级;在所述介质监控得分大于或等于第二阈值并小于第一阈值,或所述芯片监控得分大于或等于第二阈值并小于第一阈值时,将所述堆叠链路评估为2级;在所述介质监控得分小于第二阈值,或所述芯片监控得分小于第二阈值时,将所述堆叠链路评估为1级,所述评估模块将所述评估结果向所述提供模块发送;
所述提供模块用于接收所述评估结果并向所述指定节点或堆叠主节点提供所述评估结果,以使所述指定节点或所述堆叠主节点分别根据所述评估结果和各自的调度策略进行调度。
6.根据权利要求5所述的监控器,其特征在于,所述评估模块用于根据工作温度、工作电流、工作电压、工作功率以及接收发送信号计算所述介质监控得分。
7.根据权利要求5所述的监控器,其特征在于,所述评估模块用于根据误码率、物理层可用性检查、端口闪断以及以太网转发芯片可用性计算所述芯片监控得分。
8.根据权利要求5所述的监控器,其特征在于,所述评估模块用于根据收到错误报文频率以及丢弃报文频率计算所述报文监控得分。
9.一种堆叠***,其特征在于,包括多个监控器、至少一个堆叠节点,以及堆叠主节点,所述堆叠节点与所述堆叠主节点之间拓扑连接,其中,一个监控器监控一个堆叠节点或一个堆叠主节点,所述监控器为如权利要求5-8任一权利要求所述的监控器。
CN201210417535.XA 2012-10-26 2012-10-26 堆叠***可靠性提升方法、监控器及堆叠*** Active CN102904778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210417535.XA CN102904778B (zh) 2012-10-26 2012-10-26 堆叠***可靠性提升方法、监控器及堆叠***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210417535.XA CN102904778B (zh) 2012-10-26 2012-10-26 堆叠***可靠性提升方法、监控器及堆叠***

Publications (2)

Publication Number Publication Date
CN102904778A CN102904778A (zh) 2013-01-30
CN102904778B true CN102904778B (zh) 2015-12-02

Family

ID=47576826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210417535.XA Active CN102904778B (zh) 2012-10-26 2012-10-26 堆叠***可靠性提升方法、监控器及堆叠***

Country Status (1)

Country Link
CN (1) CN102904778B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1150361A (zh) * 1995-08-03 1997-05-21 西门子公司 用于评估在一多节点网络中通信连接的通信装置和方法
CN1373618A (zh) * 2001-02-28 2002-10-09 株式会社Ntt都科摩 链路管理器及链路管理方法
JP2008022219A (ja) * 2006-07-12 2008-01-31 Kddi R & D Laboratories Inc 通信ルート選択制御装置、無線装置及び通信ルート選択方法
CN101645850A (zh) * 2009-09-25 2010-02-10 杭州华三通信技术有限公司 转发路径确定方法和设备
CN102006184A (zh) * 2010-11-09 2011-04-06 福建星网锐捷网络有限公司 堆叠链路管理方法、装置及网络设备
CN102137425A (zh) * 2011-02-24 2011-07-27 华为技术有限公司 链路质量评估方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1150361A (zh) * 1995-08-03 1997-05-21 西门子公司 用于评估在一多节点网络中通信连接的通信装置和方法
CN1373618A (zh) * 2001-02-28 2002-10-09 株式会社Ntt都科摩 链路管理器及链路管理方法
JP2008022219A (ja) * 2006-07-12 2008-01-31 Kddi R & D Laboratories Inc 通信ルート選択制御装置、無線装置及び通信ルート選択方法
CN101645850A (zh) * 2009-09-25 2010-02-10 杭州华三通信技术有限公司 转发路径确定方法和设备
CN102006184A (zh) * 2010-11-09 2011-04-06 福建星网锐捷网络有限公司 堆叠链路管理方法、装置及网络设备
CN102137425A (zh) * 2011-02-24 2011-07-27 华为技术有限公司 链路质量评估方法和装置

Also Published As

Publication number Publication date
CN102904778A (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN104219107A (zh) 一种通信故障的检测方法、装置及***
KR101575547B1 (ko) 캔 통신 시스템의 에러 분산감지 방법 및 캔 통신 시스템
CN102111310B (zh) Cdn设备状态监控方法
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
JP2010061939A (ja) 多セル電池システム、及び管理番号符番方法
WO2007108407A1 (ja) 端末位置特定方法、端末位置特定システム、測位サーバ及びプログラム
CN102882704B (zh) 一种issu的软重启升级过程中的链路保护方法和设备
CN113132160B (zh) 一种客户端节点的网络亚健康状态的检测方法和***
CN101695175A (zh) 级联设备告警上报方法、***和设备
CN103559124A (zh) 故障快速检测方法及装置
CN102832794B (zh) 变频器***及其故障处理方法
CN103905219A (zh) 一种业务平台中通信信息的监控存储***及方法
CN105379201A (zh) 路径切换的方法和设备
CN101667953B (zh) 一种快速环网物理链路状态的上报方法及装置
CN102170368B (zh) 一种面向大尺寸构件的分布式测量***的智能故障定位方法
CN102904778B (zh) 堆叠***可靠性提升方法、监控器及堆叠***
CN105721232A (zh) 一种实现链路检测的方法和装置
CN104484260A (zh) 一种基于GJB289总线接口SoC的仿真监控电路
CN106534262A (zh) 一种网络信息***故障的切换方法
CN102479143A (zh) 刀锋服务***
CN103178997B (zh) 一种基于lldp协议的mac地址相同的检测方法和设备
CN115543707A (zh) 硬盘故障的检测方法、***和装置、存储介质及电子装置
US10126342B2 (en) Electrical hub including current sensor
CN103885441A (zh) 一种控制器局域网络的自适应故障诊断方法
CN104348641A (zh) 一种故障的检测方法和故障检测装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant