CN113992501A - 一种故障定位***、方法及计算装置 - Google Patents

一种故障定位***、方法及计算装置 Download PDF

Info

Publication number
CN113992501A
CN113992501A CN202010656493.XA CN202010656493A CN113992501A CN 113992501 A CN113992501 A CN 113992501A CN 202010656493 A CN202010656493 A CN 202010656493A CN 113992501 A CN113992501 A CN 113992501A
Authority
CN
China
Prior art keywords
slave
master
slave device
isolation
master device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010656493.XA
Other languages
English (en)
Inventor
谢绍炜
李元有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010656493.XA priority Critical patent/CN113992501A/zh
Publication of CN113992501A publication Critical patent/CN113992501A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40169Flexible bus arrangements
    • H04L12/40176Flexible bus arrangements involving redundancy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种故障定位***、方法及计算装置,用以在短时间内快速定位出总线拓扑上发生故障的设备。该***包括主设备、第一从设备、第二从设备、第一隔离设备以及第二隔离设备,并且,主设备分别与第一从设备以及第二从设备通过总线连接。主设备,可以控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,以及控制所述第二隔离设备连接所述主设备与所述第二从设备,并确定所述主设备与所述第二从设备之间的通信是否正常。由于主设备只与第二从设备连接并通信,从而可以根据与第二从设备的通信情况确定第二从设备是否发生故障,以此可以实现总线拓扑上故障设备的精确定位。

Description

一种故障定位***、方法及计算装置
技术领域
本申请实施例涉及故障定位技术领域,尤其涉及一种故障定位***、方法及计算装置。
背景技术
目前,众多硬件产品,诸如服务器、PC等,通常采用总线与不同现场可更换单元(field replaceable unit,FRU)部件进行通信,并通过总线型拓扑结构实现利用不同FRU部件进行温度检测、单板信息收集、简单控制信息传递等动作。其中,FRU部件,是指在产品维护阶段现场,用户可以进行替换操作的模块,例如可以是电源模块、风扇模块、节点服务器、交换模块、管理模块、机箱数据模块等。
但是,当总线上的多个FRU部件中存在一个FRU部件出现故障时,可能会导致整个总线拓扑处于通信异常状态,无法进行正常通信,通常可以称之为总线拓扑处于挂死状态。由于无法直接定位出总线拓扑上发生故障的FRU部件,用户往往选择一次性更换所有FRU部件的方式,实现在短时间内恢复总线拓扑的正常通信,这使得总线拓扑的维护成本通常较高。
发明内容
本申请实施例提供一种故障定位***、方法及计算装置,实现在短时间内快速定位出总线拓扑上发生故障的设备,从而仅需更换该发生故障的设备即可恢复总线拓扑的正常通信,降低总线拓扑的维护成本。
第一方面,本申请实施例提供一种故障定位***,该***可以包括主设备、第一从设备、第二从设备、第一隔离设备以及第二隔离设备,其中,主设备分别与第一从设备以及第二从设备通过总线连接,而第一隔离设备可以用于控制主设备与第一从设备之间的链路通断,而第二隔离设备可以用于控制主设备与第二从设备之间的链路通断。主设备在进行故障定位时,可以控制第一隔离设备断开主设备与第一从设备之间的连接,并控制第二隔离设备连接主设备与第二从设备。这样,主设备在同一时刻可以基于第二从设备存在连接,并可以基于该连接与第二从设备进行通信,从而确定该主设备与第二从设备之间的通信是否正常。可以理解,当主设备与第二从设备之间的通信异常时,可以确定第二从设备发送故障,而当主设备与第二从设备之间的通信正常时,可以确定第二从设备正常,相应的,可以挂接在总线上的其余从设备发生故障,比如,可以确定是第一从设备发生故障等。其中,主设备是指获得总线控制权的设备,从设备,是指被挂接在总线上并被主设备访问的设备,例如可以是电源模块、风扇模块、节点服务器、交换模块、管理模块、机箱数据模块等FRU部件,当然,也可以是其它部件。
在该实施方式中,由于主设备通过隔离设备实现只与第二从设备进行通信,从而可以根据与第二从设备的通信情况确定第二从设备是否发生故障,而当第二从设备未发生故障时,可以确定是第一从设备发生故障,以此可以实现总线拓扑上故障设备的精确定位。并且,定位故障设备的效率也比维护人员逐个排查故障设备的效率更高,这样,维护人员可以仅需更换发生故障的第一从设备或者第二从设备,即可实现在短时间内恢复总线拓扑的正常通信,无需更换总线上的所有设备,从而可以有效降低总线拓扑的维护成本。
在一种可能的实施方式中,主设备还用于控制第一隔离设备连接主设备与第一从设备,并在确定主设备与第二从设备之间的通信异常时,控制第二隔离设备断开第二从设备与主设备之间的连接,并确定主设备与第一从设备之间的通信是否正常。在该实施方式中,主设备也可以是控制隔离设备来校验第一从设备是否发生故障,以此可以提高判断第一从设备是否发生故障的准确性。
在另一种可能的实施方式中,主设备还用于在确定主设备与第二从设备之间的通信异常时,标记第二从设备异常,同样,主设备在确定主设备与第一从设备之间的通信异常时,标记第一从设备异常。这样,主设备可以根据该标记,从总线上挂接的多个设备中区分出发生故障的第一从设备或第二从设备。示例性的,标识从设备异常,具体可以是记录故障设备的标识,或者为故障从设备添加异常标识等。
在另一种可能的实施方式中,主设备还用于在确定主设备与第二从设备之间的通信异常时,针对第二从设备进行故障告警,或者,在确定主设备与第一从设备之间的通信异常时,针对第一从设备进行故障告警。比如,主设备可以向上层管理设备上报第一从设备或者第二从设备对应的故障告警信息,以通知上层管理设备;或者,主设备也可以是通过第一从设备对应的指示灯/蜂鸣器,或者第二从设备对应的指示灯/蜂鸣器,向用户进行故障告警,如当第一从设备发生故障时,第一从设备对应的指示灯亮红灯或者蜂鸣器发出告警声响等。这样,运维人员在确定主设备针对某个或者某些从设备发出故障告警时,可以对该从设备进行设备更换。
在另一种可能的实施方式中,主设备还用于在确定主设备与第一从设备之间的通信以及主设备与第二从设备之间的通信均出现异常时,针对主设备进行故障告警。由于主设备在与所有的从设备单独进行通信时,均存在通信异常,则可能是因为主设备发生异常,而并非是所有从设备发生异常,此时,主设备可以针对自身设备进行故障告警。
在另一种可能的实施方式中,主设备可以是在主设备经过连续预设次数的复位处理过程中均存在通信故障时,控制第一隔离设备断开主设备与第一从设备之间的连接,并控制第二隔离设备连接主设备与第二从设备。如此,可以尽可能避免主设备因为程序运行错误而误判总线拓扑异常,从而执行不必要的故障定位过程;或者,新的从设备在接入总线拓扑的过程中所产生的干扰信号,导致总线拓扑产生短暂的通信异常,通过一次或者多次的复位处理,可以避免该短暂通信异常而导致主设备执行不必要的故障定位过程。
在另一种可能的实施方式中,第一隔离设备以及第二隔离设备具体可以是包括金属-氧化物半导体场效应晶体管(可以简称为MOS管)或者双极性晶体管(可以简称为BJT)的电路。或者,隔离设备也可以是包括分立电路或者包括开关芯片的电路等,实现对主设备与从设备之间的连接通断控制。
在另一种可能的实施方式中,第一隔离设备以及第二隔离设备具体可以为MOS管,则第一隔离设备以及第二隔离设备的漏极分别与主设备连接,而第一隔离设备的源极可以与第一从设备连接,第二隔离设备的源极可以与第二从设备连接。这样,主设备可以控制第一隔离设备的栅极的电位为第一预设电位(比如为高电位),以使得主设备与第一从设备之间的连接断开;控制第二隔离设备的栅极的电位为第二预设电位(比如为低电位),以使得主设备与第二从设备连接。如此,可以通过控制隔离设备的源极与漏极之间的导通或者断开,来控制隔离设备所在链路的连接或者断开。
在另一种可能的实施方式中,该***可以包括三个以上(包括三个)从设备以及。以该***还可以包括第三从设备以及第三隔离设备为例,并且该第三从设备可以与主设备通过总线连接,则主设备在检测第一从设备是否故障的过程中,可以在控制第一隔离设备断开主设备与第一从设备之间的连接的同时,控制第三隔离设备断开主设备与第三从设备之间的连接;类似的,主设备在检测第二从设备是否故障的过程中,可以在控制第二隔离设备断开主设备与第二从设备之间的连接的同时,控制第三隔离设备断开主设备与第三从设备之间的连接;而主设备在检测第三从设备是否故障的过程中,可以控制第三隔离设备连接主设备与第三从设备,并控制第一隔离设备断开主设备与第一从设备之间的连接,控制第二隔离设备断开主设备与第二从设备之间的连接。
第二方面,本申请实施例还提供了一种故障定位方法,故障定位方法应用于主设备,主设备分别与第一从设备、第二从设备通过总线连接,方法包括:主设备控制第一隔离设备断开主设备与第一从设备之间的连接,并控制第二隔离设备连接主设备与第二从设备;主设备确定主设备与第二从设备之间的通信是否正常。
在一种可能的实施方式中,方法还包括:主设备控制第一隔离设备连接主设备与第一从设备,并在确定主设备与第二从设备之间的通信异常时,控制第二隔离设备断开第二从设备与主设备之间的连接;主设备在与第一从设备连接的情况下,确定主设备与第一从设备之间的通信是否正常。
在另一种可能的实施方式中,方法还包括:主设备确定主设备与第二从设备之间的通信异常时,标记第二从设备异常。
在另一种可能的实施方式中,方法还包括:在确定主设备与第二从设备之间的通信异常时,主设备针对第二从设备进行故障告警。
在一种可能的实施方式中,方法还包括:主设备在确定主设备与第一从设备之间的通信以及主设备与第二从设备之间的通信均异常时,针对主设备进行故障告警。
在另一种可能的实施方式中,主设备控制第一隔离设备断开主设备与第一从设备之间的连接,以及控制第二隔离设备连接主设备与第二从设备,并确定所述主设备与所述第二从设备之间的通信是否正常,包括:在主设备连续预设次数的复位处理过程中均存在通信故障时,主设备控制第一隔离设备断开主设备与第一从设备之间的连接,以及控制第二隔离设备连接主设备与第二从设备,并确定所述主设备与所述第二从设备之间的通信是否正常。
在另一种可能的实施方式中,第一隔离设备以及第二隔离设备包括具有金属-氧化物半导体场效应晶体管MOSFET或者双极性晶体管的电路。
在另一种可能的实施方式中,第一隔离设备以及第二隔离设备为MOSFET,第一隔离设备以及第二隔离设备的漏极分别与主设备连接,第一隔离设备的源极与第一从设备连接,第二隔离设备的源极与第二从设备连接;主设备控制第一隔离设备断开主设备与第一从设备之间的连接,以及控制第二隔离设备连接主设备与第二从设备,包括:主设备控制第一隔离设备的栅极的电位为第一预设电位,以使得主设备与第一从设备之间的连接断开,并控制第二隔离设备的栅极的电位为第二预设电位,以使得主设备与第二从设备连接。
在另一种可能的实施方式中,主设备还与第三从设备通过总线连接,该方法还包括:主设备控制第一隔离设备断开主设备与第一从设备之间的连接,控制第二隔离设备断开主设备与第二从设备之间的连接,并控制第三隔离设备连接主设备与第三从设备。
第三方面,基于与第二方面的方法实施例同样的发明构思,本申请实施例提供了一种计算装置,所述计算装置应用于第二方面所述的主设备,即该计算装置可以是主设备,也可以是能够应用于主设备的芯片或者处理器。该计算装置具有实现上述第二方面的各实施例的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
第四方面,本申请实施例提供一种装置,包括:处理器和存储器;该存储器用于存储指令,当该装置运行时,该处理器执行该存储器存储的该指令,以使该装置执行上述第二方面或第二方面的任一实现方法中的故障定位方法。需要说明的是,该存储器可以集成于处理器中,也可以是独立于处理器之外。装置还可以包括总线。其中,处理器通过总线连接存储器。其中,存储器可以包括可读存储器以及随机存取存储器。
第五方面,本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有程序或指令,当其在计算机上运行时,使得上述各方面的任意的故障定位方法被执行。
第六方面,本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面中的任意故障定位方法。
另外,第二方面至第六方面中任一种实现方式方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为一种总线拓扑的结构示意图;
图2为本申请实施例中一种故障定位***的架构示意图;
图3为本申请实施例中利用MOS管控制主设备与从设备之间的链路通断示意图;
图4为本申请实施例中主设备利用MOS管控制主设备与不同从设备之间的链路通断示意图;
图5为本申请实施例中又一种故障定位***的架构示意图;
图6为本申请实施例中一种故障定位方法的流程示意图;
图7为本申请实施例中一种应用于主设备的计算装置的结构示意图;
图8为本申请实施例中一种装置的结构示意图。
具体实施方式
总线型拓扑结构,是指将总线作为共用的数据(包括指令等)传输介质,网络中的多个节点设备通过相应的硬件接口以及电缆直接连接到该总线上,形成拓扑结构。如图1所示,设备1至设备5可以挂接在总线100上,并且,不同设备之间可以通过总线进行通信。其中,对于能够获得总线控制权的设备,可以称之为主设备(host device),而被主设备选中并通过总线进行通信的设备,可以称之为从设备(slave device)。
实际应用中,挂接在总线上的设备可以是FRU部件,并且可被用户进行现场替换,比如,当该FRU部件发生故障时,用户可以对故障FRU部件进行现场更换,并将新FRU部件挂载至总线上。当然,挂载在总线上的设备也可以是其它部件,本申请对此并不进行限定。
但是,当总线上某个设备发生硬件上的故障时,如,该设备的上拉电阻、串阻、芯片等发生故障,可能会导致整个总线拓扑上的主设备与从设备之间无法进行正常通信,此时,可以称之为总线拓扑处于挂死状态。以图1所示的总线拓扑为例,假设设备1为主设备,设备2至设备4为从设备,设备1可以通过总线向设备5发送控制信号或者数据信号,与设备5进行通信。此时,若设备2至设备4中的任意设备发生故障,该故障设备可能会使得总线的硬件链路阻抗出现异常,则总线上传输的电信号可能会发生异常反射,导致电信号的传输电平不满足总线协议的规定要求,从而造成设备1或者设备5无法从接收到的信号中成功解析出通信数据,设备之间的通信发生异常。
在这种情况下,主设备上的通信管理模块通常仅能检测出总线上存在设备发生硬件上的故障,而无法精确定位出具体是哪些设备发生故障。因此,通常是由维护人员对总线上的多个设备逐个进行故障排查,并对排查确定的故障设备进行现场更换。但是,由维护人员逐个排查故障设备的方式耗时较久,而在部分业务场景中,可能会要求总线拓扑需要在短时间内恢复通信以实现快速恢复业务服务。此时,维护人员通常会选择一次性更换总线上的所有设备来恢复总线的正常通信,这使得总线拓扑的维护成本通常较高,容易降低客户满意度。
为此,本申请实施例提供了一种故障定位***,用以实现在短时间内快速定位出总线拓扑上发生故障的设备,从而仅需更换该发生故障的设备即可恢复总线拓扑的正常通信,降低总线拓扑的维护成本。具体的,该***可以包括主设备、多个隔离设备以及多个从设备,此处以包括第一隔离设备、第二隔离设备、第一从设备以及第二从设备为例。其中,主设备分别与第一从设备、第二从设备通过总线连接。示例性的,第一隔离设备可以连接在主设备与第一从设备的链路中,第二隔离设备可以连接在主设备与第二从设备的链路中。主设备可以控制第一隔离设备断开主设备与第一从设备之间的连接,并控制第二隔离设备连接主设备与第二从设备,这样,主设备可以基于与第二从设备之间的连接确定与第二从设备之间的通信是否正常。可以理解,当主设备与第二从设备之间的通信发生异常时,可以确定第二从设备发生故障。由于主设备只与第二从设备进行通信,从而可以根据与第二从设备的通信情况确定第二从设备是否发生故障,而当第二从设备未发生故障时,可以确定是第一从设备发生故障,以此可以实现总线拓扑上故障设备的精确定位,并且,定位故障设备的效率也比维护人员逐个排查故障设备的效率更高,这样,维护人员可以仅需更换发生故障的第一从设备或者第二从设备,即可实现在短时间内恢复总线拓扑的正常通信,无需更换总线上的所有设备,从而可以有效降低总线拓扑的维护成本。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
参阅图2,示出了本申请实施例中一种故障定位***的架构示意图。如图2所示,该故障定位***可以包括主设备、第一从设备以及第二从设备,并且,主设备分别与第一从设备以及第二从设备通过总线连接。其中,主设备与从设备均为挂载到总线上的设备,并且,主设备具有总线的控制权,可以通过总线访问从设备,从设备可以是挂接在总线上的FRU部件。
示例性的,本实施例中的总线,可以是能够扩展多个从设备的总线,如可以是集成电路总线(Inter-Integrated Circuit,I2C)、***管理总线(System Management Bus,SMBus)以及串行外设接口(Serial Peripheral Interface,SPI)总线等。当然,也可以是其它类型的总线,本实施例对此并不进行限定。
另外,故障定位***,还包括第一隔离设备以及第二隔离设备,该第一隔离设备可以与主设备和第一从设备之间的链路存在连接,并控制主设备与第一从设备之间的链路通断,如第一隔离设备可以串联于主设备和第一从设备之间的链路上,当然,第一隔离设备在实现控制主设备与第一从设备之间的链路通断的基础上,也可以采用其它连接方式与该链路存在连接,本实施例对此并不进行限定;类似的,第二隔离设备可以是与主设备和第二从设备之间的链路存在连接,并控制主设备与第二从设备之间的链路通断,如第二隔离设备可以串联于主设备和第二从设备之间的链路上,或者,第二隔离设备在实现控制主设备与第二从设备之间的链路通断的基础上,也可以采用其它连接方式与该链路存在连接,本实施例对此并不进行限定。作为一种示例,该第一隔离设备以及第二隔离设备可以是具有金属-氧化物半导体场效应晶体管(Metal-Oxide-Semiconductor Field-EffectTransistor,MOSFET,简称为MOS管)或者双极性晶体管(Bipolar Junction Transistor,BJT)的电路,或者可以是包括分立电路或者包括开关芯片的电路等,实现对主设备与从设备之间的连接通断控制。并且,第一隔离设备与第二隔离设备可以是独立的两个设备,也可以是集成在一个设备中,例如,所集成的设备可以包括多个子设备,每个子设备可以连接于一条主设备与从设备之间的链路,不同子设备所连接的链路不同,这样,该集成设备可以通过芯片控制各个子设备的电路通断或者电位高低的方式,控制主设备与各个从设备之间的链路通断。当然,本实施例中对第一隔离设备以及第二隔离设备的具体表现形式并不进行限定。
为便于理解,以隔离设备为具有MOS管的电路为例,对隔离设备控制主设备和从设备之间的链路通断的原理进行示例性说明。如图3所示,MOS管可以串联于主设备和从设备之间的链路,并且,MOS管可以包括漏极(D端)、源极(S端)以及栅极(G端),假设当G端为低电位时,D端与S端可以导通,此时,主设备与从设备处于连接状态,而当G端为高电位时,D端和S端可以断开,此时,主设备与从设备处于连接断开状态。当然,此处仅作为一种示例性说明,本实施例对于利用MOS控制主设备与从设备之间的链路通断的具体实现方式并不进行限定。
本实施例中,主设备可以是通过向隔离设备发送控制信号的方式,控制主设备与多个从设备之间连接的通断。具体的,主设备可以向第一隔离设备发送第一控制信号,该第一控制信号可以用于控制第一隔离设备断开主设备与第一从设备之间的连接,同时,主设备可以向第二隔离设备发送第二控制信号,该第二控制信号可以控制第二隔离设备连接主设备与第二从设备。此时,主设备可以仅与第二从设备之间连接。
以第一隔离设备以及第二隔离设备均为包括MOS管的电路为例,如图4所示,故障定位***至少包括第一MOS管以及第二MOS,分别串联在主设备与第一从设备的链路以及主设备与第二从设备的链路中,每个MOS管的D端和S端位于其所处连接链路。同时,主设备还配置有通用型输入输出(general-purpose input/output,GPIO)接口,该GPIO接口可以至少包括两个引脚,分别为引脚1和引脚2,其中,引脚1与第一MOS管的G端连接,引脚2与第二MOS管的G端连接。则,主设备可以利用GPIO接口输出引脚1为第一预设电位(如高电位)的第一控制信号、引脚2为第二预设电位(如低电位)的第二控制信号。由于第一MOS管的G端的电位与引脚1的电位一致,均为第一预设电位,这使得第一MOS管的D端和S端断开,从而使得主设备与第一从设备之间的连接断开。而第二MOS管的G端电位与引脚2的电位一致,均为第二预设电位,这使得第二MOS管的D端和S端导通,从而使得主设备与第二从设备之间处于连接状态,由此可以实现主设备在同一时刻仅与第二从设备保持连接,与其余从设备断开连接。
需要指出的是,利用GPIO接口以及MOS管实现主设备与从设备的链路通断的实现方式,仅作为一种示例性说明,并不用于限定,比如,在其它可能的实施方式中,隔离设备可以是包括开关芯片的设备,并且主设备也可以通过向开关芯片发送链路控制指令的方式,实现对主设备与不同从设备之间的链路通断控制。
然后,主设备可以基于其与第二从设备之间的连接,和第二从设备进行通信。作为一种示例,主设备在与第二从设备进行通信时,可以是先进行复位处理,使得主设备恢复至初始状态,以尽可能规避主设备上的程序运行错误而导致主设备与第二从设备的通信异常,从而造成主设备误判第二从设备发生故障。然后,主设备可以基于其与第二从设备之间的连接,向第二从设备发送业务数据或者测试数据,并根据数据的收发情况确定主设备与第二从设备之间的通信是否存在异常。
当主设备与第二从设备之间通信异常时,主设备可以确定第二从设备可能存在故障,从而可以定位出总线拓扑中发生故障的第二从设备,而当主设备与第二从设备之间通信正常时,主设备可以确定第二从设备并没有发生故障,此时,主设备可以定位出总线拓扑中发生故障的从设备为第一从设备。可选的,当主设备确定第一从设备或者第二从设备发生故障时,可以对第一从设备或者第二从设备进行异常标记,如可以记录故障设备的标识,或者为故障的从设备添加异常标识等,以便从总线上挂接的多个设备中区分出发生故障的第一从设备或第二从设备。
进一步的,主设备在确定第一从设备发生故障,或者第二从设备发生故障时,可以针对第一从设备进行故障告警,或者针对第二从设备进行故障告警。比如,主设备可以向上层管理设备上报第一从设备或者第二从设备对应的故障告警信息,以通知上层管理设备;或者,主设备也可以是通过第一从设备对应的指示灯/蜂鸣器,或者第二从设备对应的指示灯/蜂鸣器,向用户进行故障告警,如当第一从设备发生故障时,第一从设备对应的指示灯亮红灯或者蜂鸣器发出告警声响等。
实际应用的一些场景中,主设备也有可能会对总线拓扑出现挂死状态造成误判。比如,当主设备可能因为程序运行错误而产生总线拓扑异常的错误判断,或者,当新的从设备通过硬件接口接入总线拓扑时,可能会在接入过程中产生干扰信号,影响总线上传输的信号质量,造成总线拓扑在短时间内出现通信异常,而在该从设备成功接入总线拓扑时,总线拓扑的通信又恢复正常。因此,在一些可能的实施方式中,主设备在检测到总线拓扑出现通信异常时,可以先进行一次或者多次的复位处理,并在主设备连续预设次数的复位处理过程中均存在通信故障时,才确定总线拓扑确实存在通信异常,然后,主设备再通过隔离设备定位故障设备。
本实施例中,由于主设备通过隔离设备实现只与第二从设备进行通信,从而可以根据与第二从设备的通信情况确定第二从设备是否发生故障,而当第二从设备未发生故障时,可以确定是第一从设备发生故障,以此可以实现总线拓扑上故障设备的精确定位,并且,定位故障设备的效率也比维护人员逐个排查故障设备的效率更高,这样,维护人员可以仅需更换发生故障的第一从设备或者第二从设备,即可实现在短时间内恢复总线拓扑的正常通信,无需更换总线上的所有设备,从而可以有效降低总线拓扑的维护成本。
上述实施例中,主设备可以通过控制隔离设备断开主设备与第一从设备之间的连接,以及连接主设备与第二从设备,并以此来确定第二从设备是否发生故障,并且在确定第二从设备未发生故障的情况下,进一步确定第一从设备发生故障,以此实现故障设备的精确定位。而在进一步可能的实施例中,主设备也可以是控制隔离设备来校验第一从设备是否发生故障,以提高判断第一从设备是否发生故障的准确性。
具体的,主设备可以控制第一隔离设备连接主设备与第一从设备,这样,主设备可以与第一从设备连接,以便基于该连接确定第一次从设备是否发生故障。值得注意的是,当在确定主设备与第二从设备之间的通信异常时,控制第二隔离设备断开主设备与第二从设备的连接,以避免第二从设备的故障导致主设备对于第一从设备是否故障造成错误判断。仍以图4为例,隔离设备具体为MOS管,则主设备可以利用GPIO接口输出引脚1为低电位的第三控制信号;第一MOS管的G端的电位与引脚1的电位一致,均为低电位,并且在G端低电位的作用下,第一MOS管的D端与S端导通,从而实现主设备与第一从设备的连接。同时,若主设备之前确定第二从设备发生故障,则主设备可以利用GPIO接口输出引脚2为高电位的第四控制信号,第二MOS管的G端的电位与引脚2的电位一致,均为高电位,并且在G端高电位的作用下,第二MOS管的D端和S端断开,从而实现断开主设备与第二从设备的连接。当然,在其它示例中,若主设备确定第二从设备没有发生故障,则主设备既可以控制第二隔离设备断开主设备与第二从设备之间的连接,也可以保持主设备与第二从设备之间的连接,此时,主设备可以利用GPIO接口输出引脚2为高电位的控制信号,也可以是输出引脚2为低电位的控制信号。
然后,主设备可以基于与第一从设备之间的连接,和第一从设备进行通信。其中,主设备与第一从设备进行通信的过程,和主设备与第二从设备进行通信的过程类似,主设备可以向第一从设备发送业务数据或者测试数据,并根据数据收发情况确定第一从设备是否发生故障;或者,主设备可以在经过复位处理后,向第一从设备发送业务数据或者测试数据,并根据数据收发情况确定第一从设备是否发生故障。
当主设备确定与第一从设备之间的通信正常时,主设备可以确定第一从设备并没有发生故障;而当主设备与第一从设备之间通信异常时,主设备可以确定第一从设备可能存在故障,进一步的,此时,主设备还可以对第一从设备进行异常标记,如可以记录故障设备的标识等,以便从总线上挂接的多个设备中区分出发生故障的第一从设备。
在进一步的实施方式中,当确定主设备与第一从设备之间的通信发生异常,且主设备与第二从设备之间的通信发生异常时,也可能是因为主设备发生故障而导致其与多个从设备之间的通信发生异常,此时,主设备也可以是针对主设备进行故障告警。如向上层管理设备上报该主设备发生故障的告警信息,或者通过指示灯/蜂鸣器进行故障告警灯。
当然,除了可能是主设备发生故障以外,也可能是所有的从设备均发生故障。因此,在一种示例中,当主设备确定所有的从设备发生故障后,可以与可信任的自检设备进行连接,并检测与自检设备之间的通信是否正常。可以理解,当主设备与自检设备之间的通信正常时,表征主设备并没有发生故障,此时,主设备可以确定是挂接在总线上的所有从设备发生故障。而当主设备与自检设备之间的通信存在异常时,表征主设备存在故障,此时,主设备可以确定自身存在故障,并可以进一步作出故障告警。
需要指出的是,上述两个实施例中,是以故障定位***包括两个从设备为例进行示例性说明,在其它实施例中,故障定位***还可以包括三个以上(包括三个)的从设备。下面,以故障定位***包括三个从设备(即第一从设备、第二从设备以及第三从设备)为例对故障定位***实现故障设备的精确定位进行示例性说明。
参阅图5,示出了本申请实施例中又一种故障定位***的结构示意图。在该实施例中,故障定位***包括主设备、第一隔离设备、第二隔离设备、第三隔离设备、第一从设备、第二从设备以及第三从设备。其中,如图5所示,主设备可以分别与第一从设备、第二从设备以及第三从设备通过总线连接,并且各个隔离设备分别连接在主设备与从设备的链路中,例如,隔离设备可以串联在主设备与从设备之间的链路等。
主设备在确定总线拓扑发生通信异常时,可以向各个隔离设备发送控制信号,以控制各个隔离设备对主设备与多个从设备之间的链路通断进行控制,具体控制第一隔离设备断开主设备与第一从设备的连接,控制第三隔离设备断开主设备与第三从设备的连接,并控制第二隔离设备连接主设备与第二从设备,从而使得同一时刻主设备只与第二从设备连接。其中,主设备利用隔离设备实现主设备与不同从设备之间的连接的通断,可以参见前述相关之处,在此不做赘述。
然后,主设备可以基于其与第二从设备之间的连接,和第二从设备进行通信,并确定主设备与第二从设备之间的通信是否发生异常。比如,主设备可以向第二从设备发送业务数据或者测试数据,并根据与第二从设备之间的数据收发情况确定主设备与第二从设备之间的通信是否发生异常。当主设备与第二从设备之间通信异常时,主设备可以确定第二从设备可能存在故障,从而可以实现故障设备的定位。而对于第一从设备以及第三从设备,也可能会发生故障,也可能没有发生故障,因此,主设备可以进一步对第一从设备以及第三从设备进行故障检测和定位。
具体的,主设备可以继续向各个隔离设备发送控制信号,以控制第一隔离设备连接主设备与第一从设备,控制第二隔离设备断开主设备与第二从设备的连接,并控制第三隔离设备断开主设备与第二从设备的连接,从而使得同一时刻主设备只与第一从设备连接。当然,在其它可能的实施方式中,当确定第二从设备未发生故障时,主设备也可以是控制第二设备连接主设备与第二从设备,此时,同一时刻主设备可以分别与第一从设备以及第二从设备连接,本实施例对此并不进行限定。但是,当确定第二从设备发生故障时,为避免故障的第二从设备影响其它从设备的故障检测,主设备可以控制第二隔离设备断开主设备与第二从设备之间的连接。
然后,主设备可以基于其与第一从设备之间的连接,和第一从设备进行通信,并确定主设备与第一从设备之间的通信是否异常。当主设备与第二从设备之间的通信正常时,可以确定总线拓扑中出现的故障的设备为剩余的第三从设备。而当主设备与第一从设备之间的通信异常时,主设备可以确定第一从设备发生故障,从而实现故障设备的精确定位。
同时,第三从设备也有可能为故障设备。因此,在进一步可能的实施方式中,主设备还可以继续检测第三从设备是否发生故障,以控制第一隔离设备断开主设备与第一从设备之间的连接,控制第二隔离设备断开主设备与第二从设备之间的连接,并控制第三隔离设备连接主设备与第二从设备,从而使得同一时刻主设备只与第三从设备连接。当然,若主设备确定其与第一从设备之间的通信正常,则主设备与第一从设备之间的连接可以断开,也可以保持连接状态,本实施例对此并不进行限定;而若主设备确定其与第一从设备之间通信异常,则主设备与第一从设备之间的连接可以断开,以避免故障的第一从设备影响第三从设备的故障检测。类似的,关于第二从设备,若主设备确定其与第二从设备之间的通信正常,,则主设备与第一从设备之间的连接可以断开,也可以保持连接状态,本实施例对此并不进行限定;而若主设备确定其与第二从设备之间通信异常,则主设备与第二从设备之间的连接可以断开,以避免故障的第二从设备影响第三从设备的故障检测。
然后,主设备可以基于其与第三从设备之间的连接,和第三从设备进行通信,并确定主设备与第三从设备之间的通信是否发生异常。当主设备与第三从设备之间通信异常时,主设备可以确定第三从设备可能存在故障,从而可以将故障的第三从设备也定位出来。
可选的,当主设备确定第一从设备、第二从设备以及第三从设备均发生故障时,则也可能是主设备发生故障,从而导致主设备与各个从设备之间的通信出现异常,此时,主设备可以确定自身设备发生故障。
进一步的,主设备在定位出故障设备(包括从设备或者主设备)时,可以针对故障设备进行故障告警,如向上层管理设备发送故障告警信息,或者通过指示灯/蜂鸣器的方式告知维护人员当前发生故障的设备。
需要指出的是,当故障定位***包括更多从设备时,主设备实现总线拓扑中故障设备的精确定位的具体实现,可以参照上述各实施例的相关之处描述,在此不做赘述。
如图6所示,为本申请实施例中一种故障定位方法的流程示意图,该方法具体可以是应用于图2至图4中的主设备,并且,该主设备分别与第一从设备、第二从设备通过总线连接。当存在某个从设备发生硬件失效时,可能导致整个总线拓扑处于挂死状态,此时,主设备可以自动进行故障检测,以定位出当前发生硬件故障的从设备。示例性的,该方法具体包括:
S601:主设备控制第一隔离设备断开主设备与第一从设备之间的连接,并控制第二隔离设备连接主设备与第二从设备。
S602:主设备在与第二从设备连接的情况下,确定主设备与第二从设备之间的通信是否正常。
由于主设备与多个从设备均通过总线存在连接,这使得若总线拓扑出现挂死等故障,则主设备通常难以直接确定具体是挂接在总线上的哪个或者哪些从设备发生故障。为此,本实施例中,主设备在同一时刻,可以仅与一个从设备建立连接,这样,主设备通过测试其与该从设备的通信是否正常,即可确定该从设备是否发生故障。
具体实现时,主设备可以向第一隔离设备发送第一控制信号,以利用该第一控制信号控制第一隔离设备断开主设备与第一从设备之间的连接,同时,主设备还可以向第二隔离发送第二控制信号,以利用该第二控制信号控制第一隔离设备断开主设备与第一从设备之间的连接。这样,同一时刻,主设备可以仅与第二从设备存在连接,从而主设备可以基于该连接向第二从设备发送业务数据或者测试数据,并基于该业务数据或者测试数据的收发情况,确定主设备与第二从设备之间的通信是否出现异常。当通信异常时,很可能是因为第二从主设备发生故障而导致主设备与第二从设备之间的通信出现异常,此时,主设备可以确定第二从设备发生故障。而当通信正常时,表明第二从设备并没有发生故障,此时,引起总线拓扑处于挂死状态的故障设备很可能是第一从设备。
例如,当第一隔离设备以及第二隔离设备均为MOS管时,第一隔离设备以及第二隔离设备的漏极分别与主设备连接,第一隔离设备的源极与第一从设备连接,第二隔离设备的源极与第二从设备连接。这样,主设备在控制第一隔离设备断开主设备与第一从设备之间的连接时,具体可以是控制第一隔离设备的栅极的电位为第一预设电位,以使得第一隔离设备在栅极电位为第一预设电位的作用下,第一隔离设备的漏极以及源极断开,从而实现主设备与第一从设备之间的连接断开。主设备在控制第二隔离设备连接主设备与第二从设备时,具体可以是控制第二隔离设备的栅极的电位为第二预设电位,以使得第二隔离设备在栅极电位为第二预设电位的作用下,第二隔离设备的漏极以及源极导通,从而实现连接主设备与第二从设备。
这样,主设备可以实现对故障从设备的精确定位,并且,定位故障设备的效率也比维护人员逐个排查故障设备的效率更高,而且,维护人员可以仅需更换发生故障的第一从设备或者第二从设备,即可实现在短时间内恢复总线拓扑的正常通信,无需更换总线上的所有设备,从而可以有效降低总线拓扑的维护成本。
实际应用的一些场景中,主设备也有可能会对总线拓扑出现挂死状态造成误判。比如,当主设备可能因为程序运行错误而产生总线拓扑异常的错误判断,或者,当新的从设备通过硬件接口接入总线拓扑时,可能会在接入过程中产生干扰信号,影响总线上传输的信号质量,造成总线拓扑在短时间内出现通信异常,而在该从设备成功接入总线拓扑时,总线拓扑的通信又恢复正常。因此,在一些可能的实施方式中,主设备在检测到总线拓扑出现通信异常时,可以先进行一次或者多次的复位处理,并在主设备连续预设次数的复位处理过程中均存在通信故障时,才确定总线拓扑确实存在通信异常,然后,主设备再通过隔离设备定位故障设备。
本实施例中,主设备可以根据总线拓扑出现通信异常而第二从设备没有发生故障,来确定第一从设备发生故障,但是,在进一步可能的实施方式中,主设备还可以进一步通过测试通信是否正常的方式校验第一从设备是否发生故障。
示例性的,该方法还可以包括:
S603:主设备控制第一隔离设备连接主设备与第一从设备,并控制第二隔离设备断开主设备与第二从设备之间的连接。
S604:主设备在与第一从设备连接的情况下,确定主设备与第二从设备之间的通信是否正常。
本实施例中,主设备可以向第一隔离设备发送第三控制信号,并基于该第三控制信号控制第一隔离设备连接主设备与第一从设备;同时,主设备可以向第二隔离设备发送第四控制信号,并基于该第四控制信号控制第二隔离设备断开主设备与第二从设备的连接。这样,同一时刻主设备可以仅与第一从设备连接;然后,主设备可以通过向第一从设备发送业务数据以及测试数据的方式,确定主设备与第一从设备之间的通信是否正常,从而可以确定第一从设备是否发生故障。
当然,在其它可能的实施方式中,若主设备确定第二从设备没有发生故障,则即使主设备与第二从设备连接,其通常也不会影响主设备与第一从设备之间的通信,因此,在一种示例中,当主设备确定第二从设备没有发生故障时,主设备在校验第一从设备是否发生故障的过程中,也可以控制第二隔离设备保持主设备与第二从设备的连接。当然,当主设备确定主设备与第二从设备之间的通信异常时,为避免第二从设备的故障导致主设备对于第一从设备是否故障造成错误判断,主设备可以控制第二隔离设备断开主设备与第二从设备之间的连接。
可选的,当主设备确定第一从设备或者第二从设备发生故障时,可以对第一从设备或者第二从设备进行异常标记,如可以记录故障设备的标识等,以便从总线上挂接的多个设备中区分出发生故障的第一从设备或第二从设备。
进一步的,主设备在确定第一从设备发生故障,或者第二从设备发生故障时,可以针对第一从设备进行故障告警,或者针对第二从设备进行故障告警。比如,主设备可以向上层管理设备上报第一从设备或者第二从设备对应的故障告警信息,以通知上层管理设备;或者,主设备也可以是通过第一从设备对应的指示灯/蜂鸣器,或者第二从设备对应的指示灯/蜂鸣器,向用户进行故障告警,如当第一从设备发生故障时,第一从设备对应的指示灯亮红灯或者蜂鸣器发出告警声响等。
在进一步的实施方式中,当确定主设备与第一从设备之间的通信发生异常,且主设备与第二从设备之间的通信发生异常时,也可能是因为主设备发生故障而导致其与多个从设备之间的通信发生异常,此时,主设备也可以是针对主设备进行故障告警。
作为一种示例,本实施例中的隔离设备(包括第一隔离设备以及第二隔离设备),可以是包含MOS管或者BJT管的电路,或者可以是包括分立电路或者包括开关芯片的电路等,实现对主设备与从设备之间的连接通断控制。本实施例中的主设备,可以是挂接在总线并且具有总线控制权的设备;本实施例中的从设备,可以是挂接在总线,并且被主设备所访问的设备,例如可以是FRU部件等。
值得注意的是,本实施例中是以主设备与两个从设备为例进行示例性说明。在其它可能的实施例中,总线上可以挂接三个以上(包括三个)的从设备。以主设备与三个从设备通过总线连接为例,主设备可以利用第三隔离设备控制主设备与第三从设备之间的链路通断。
当主设备对第三从设备进行故障检测时,主设备在利用第三隔离设备连接主设备与第三从设备的同时,断开主设备与第一从设备以及第二从设备的连接,以使得同一时刻主设备仅与第三从设备进行连接,并基于该连接对第三从设备进行故障检测。类似的,当主设备对第一从设备或者第二从设备进行故障检测时,可以通过控制相应的隔离设备断开主设备与其余从设备之间的连接,而仅与一个被检测的从设备的进行连接,以便对该从设备进行故障检测,其具体实现过程与上述过程类似,具体可参见前述相关之处描述,在此不做赘述。
值得注意的是,对于主设备已经确定为没有发生故障的从设备,其在后续主设备检测其它从设备是否发生故障的过程中,可以保持主设备与这些没有发生故障的从设备之间的连接;而对于主设备已经确定发生故障的从设备,其在后续检测其它从设备是否发生故障的过程中,主设备与这些故障的从设备之间的连接断开。
此外,本申请实施例还提供了一种可以应用于主设备的计算装置,其中,主设备分别与第一从设备、第二从设备通过总线连接。应用于主设备的装置可以实现图2至图6中所示的主设备所执行的功能。参见图7所示,装置700可以包括:
控制模块701,用于控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,并控制所述第二隔离设备连接所述主设备与所述第二从设备;
确定模块702,用于确定所述主设备与所述第二从设备之间的通信是否正常。
在一种可能的实施方式中,所述控制模块701,还用于控制所述第一隔离设备连接所述主设备与所述第一从设备,并在确定所述主设备与所述第二从设备之间的通信异常时,控制所述第二隔离设备断开所述第二从设备与所述主设备之间的连接;
所述确定模块702,还用于在与所述第一从设备连接的情况下,确定所述主设备与所述第一从设备之间的通信是否正常。
在一种可能的实施方式中,所述装置700还包括标记模块703,用于在确定所述主设备与所述第二从设备之间的通信异常时,标记所述第二从设备异常。
在一种可能的实施方式中,所述装置700还包括故障告警模块704,用于在确定所述主设备与所述第二从设备之间的通信异常时,针对所述第二从设备进行故障告警。
在一种可能的实施方式中,所述故障告警模块704,还用于在确定所述主设备与所述第一从设备之间的通信以及所述主设备与所述第二从设备之间的通信均异常时,针对所述主设备进行故障告警。
在一种可能的实施方式中,所述控制模块701,用于在所述主设备连续预设次数的复位处理过程中均存在通信故障时,控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,以及控制所述第二隔离设备连接所述主设备与所述第二从设备。
在一种可能的实施方式中,所述第一隔离设备以及所述第二隔离设备包括具有金属-氧化物半导体场效应晶体管MOSFET或者双极性晶体管的电路。
在一种可能的实施方式中,所述第一隔离设备以及所述第二隔离设备为所述MOSFET,所述第一隔离设备以及所述第二隔离设备的漏极分别与所述主设备连接,所述第一隔离设备的源极与所述第一从设备连接,所述第二隔离设备的源极与所述第二从设备连接;
所述控制模块701,用于控制所述第一隔离设备的栅极的电位为第一预设电位,以使得所述主设备与所述第一从设备之间的连接断开,并用于控制所述第二隔离设备的栅极的电位为第二预设电位,以使得所述主设备与所述第二从设备连接。
此外,本申请实施例还提供另外一种应用于主设备的计算装置结构,如图8所示,计算装置800中可以包括通信接口810、处理器820。可选的,计算装置800中还可以包括存储器830。其中,存储器830可以设置于计算装置内部,还可以设置于计算装置外部。示例性地,上述图2~图6中各个主设备所执行的动作均可以由处理器820实现。处理器820通过通信接口810发送控制信号以及通信数据,并用于实现图6中所述的主设备所执行的任一方法。在实现过程中,处理流程的各步骤可以通过处理器820中的硬件的集成逻辑电路或者软件形式的指令完成图6中所述主设备所执行的方法。为了简洁,在此不再赘述。处理器820用于实现上述方法所执行的程序代码可以存储在存储器830中。存储器830和处理器820连接,如耦合连接等。
本申请实施例的一些特征可以由处理器820执行存储器830中的程序指令或者软件代码来完成/支持。存储器830上在加载的软件组件可以从功能或者逻辑上进行概括,例如,图7所示的控制模块701、确定模块702、标记模块703以及故障告警模块704。
本申请实施例中涉及到的任一通信接口可以是电路、总线、收发器或者其它任意可以用于进行信息交互的装置。比如计算装置800中的通信接口810,示例性地,该其它装置可以是与该计算装置相连的设备,比如,可以是从设备。
本申请实施例中涉及的处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本申请实施例中的耦合是装置、模块或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、模块或模块之间的信息交互。
处理器可能和存储器协同操作。存储器可以是非易失性存储器,比如硬盘(harddisk drive,HDD)或固态硬盘(solid-state drive,SSD)等,还可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
本申请实施例中不限定上述通信接口、处理器以及存储器之间的具体连接介质。比如存储器、处理器以及通信接口之间可以通过总线连接。所述总线可以分为地址总线、数据总线、控制总线等。当然,处理器与存储器之间的连接总线,并非为前述主设备和从设备之间的连接总线。
基于以上实施例,本申请实施例还提供了一种计算机存储介质,该存储介质中存储软件程序,该软件程序在被一个或多个处理器读取并执行时可实现上述任意一个或多个实施例提供的主设备执行的方法。所述计算机存储介质可以包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
基于以上实施例,本申请实施例还提供了一种芯片,该芯片包括处理器,用于实现上述实施例所涉及的主设备的功能,例如用于实现图6中主设备所执行的方法。可选地,所述芯片还包括存储器,所述存储器,用于处理器所执行必要的程序指令和数据。该芯片,可以由芯片构成,也可以包含芯片和其他分立器件。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (17)

1.一种故障定位***,其特征在于,所述***包括主设备、第一从设备、第二从设备、第一隔离设备以及第二隔离设备,所述主设备分别与所述第一从设备、第二从设备通过总线连接;
所述主设备,用于控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,以及控制所述第二隔离设备连接所述主设备与所述第二从设备,并确定所述主设备与所述第二从设备之间的通信是否正常。
2.根据权利要求1所述的***,其特征在于,所述主设备还用于控制所述第一隔离设备连接所述主设备与所述第一从设备,并在确定所述主设备与所述第二从设备之间的通信异常时,控制所述第二隔离设备断开所述第二从设备与所述主设备之间的连接,并确定所述主设备与所述第一从设备之间的通信是否正常。
3.根据权利要求1或2所述的***,其特征在于,所述主设备,还用于在确定所述主设备与所述第二从设备之间的通信异常时,标记所述第二从设备异常。
4.根据权利要求1至3任一项所述的***,其特征在于,所述主设备,还用于在确定所述主设备与所述第二从设备之间的通信异常时,针对所述第二从设备进行故障告警。
5.根据权利要求2或4任一项所述的***,其特征在于,所述主设备,还用于在确定所述主设备与所述第一从设备之间的通信以及所述主设备与所述第二从设备之间的通信均异常时,针对所述主设备进行故障告警。
6.根据权利要求1至5任一项所述的***,其特征在于,所述主设备用于在所述主设备连续预设次数的复位处理过程中均存在通信故障时,控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,以及控制所述第二隔离设备连接所述主设备与所述第二从设备,并确定所述主设备与所述第二从设备之间的通信是否正常。
7.根据权利要求1至6任一项所述的***,其特征在于,所述第一隔离设备以及所述第二隔离设备包括具有金属-氧化物半导体场效应晶体管MOSFET或者双极性晶体管的电路。
8.根据权利要求7所述的***,其特征在于,所述第一隔离设备以及所述第二隔离设备为所述MOSFET,所述第一隔离设备以及所述第二隔离设备的漏极分别与所述主设备连接,所述第一隔离设备的源极与所述第一从设备连接,所述第二隔离设备的源极与所述第二从设备连接;
所述主设备,用于控制所述第一隔离设备的栅极的电位为第一预设电位,以使得所述主设备与所述第一从设备之间的连接断开,并用于控制所述第二隔离设备的栅极的电位为第二预设电位,以使得所述主设备与所述第二从设备连接。
9.一种故障定位方法,其特征在于,所述故障定位方法应用于主设备,所述主设备分别与第一从设备、第二从设备通过总线连接,所述方法包括:
控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,并控制所述第二隔离设备连接所述主设备与所述第二从设备;
确定所述主设备与所述第二从设备之间的通信是否正常。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
控制所述第一隔离设备连接所述主设备与所述第一从设备,并在确定所述主设备与所述第二从设备之间的通信异常时,控制所述第二隔离设备断开所述第二从设备与所述主设备之间的连接;
在与所述第一从设备连接的情况下,确定所述主设备与所述第一从设备之间的通信是否正常。
11.根据权利要求9或10所述的方法,其特征在于,所述第一隔离设备以及所述第二隔离设备包括具有金属-氧化物半导体场效应晶体管MOSFET或者双极性晶体管的电路。
12.根据权利要求11所述的方法,其特征在于,所述第一隔离设备以及所述第二隔离设备为所述MOSFET,所述第一隔离设备以及所述第二隔离设备的漏极分别与所述主设备连接,所述第一隔离设备的源极与所述第一从设备连接,所述第二隔离设备的源极与所述第二从设备连接;
所述控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,以及控制所述第二隔离设备连接所述主设备与所述第二从设备,包括:
控制所述第一隔离设备的栅极的电位为第一预设电位,以使得所述主设备与所述第一从设备之间的连接断开,并控制所述第二隔离设备的栅极的电位为第二预设电位,以使得所述主设备与所述第二从设备连接。
13.一种计算装置,其特征在于,所述装置应用于主设备,所述主设备分别与第一从设备、第二从设备通过总线连接,所述装置包括:
控制模块,用于控制所述第一隔离设备断开所述主设备与所述第一从设备之间的连接,并控制所述第二隔离设备连接所述主设备与所述第二从设备;
确定模块,用于确定所述主设备与所述第二从设备之间的通信是否正常。
14.根据权利要求13所述的装置,其特征在于,所述控制模块,还用于控制所述第一隔离设备连接所述主设备与所述第一从设备,并在确定所述主设备与所述第二从设备之间的通信异常时,控制所述第二隔离设备断开所述第二从设备与所述主设备之间的连接;
所述确定模块,还用于在与所述第一从设备连接的情况下,确定所述主设备与所述第一从设备之间的通信是否正常。
15.根据权利要求13或14所述的装置,其特征在于,所述第一隔离设备以及所述第二隔离设备包括具有金属-氧化物半导体场效应晶体管MOSFET或者双极性晶体管的电路。
16.根据权利要求15所述的装置,其特征在于,所述第一隔离设备以及所述第二隔离设备为所述MOSFET,所述第一隔离设备以及所述第二隔离设备的漏极分别与所述主设备连接,所述第一隔离设备的源极与所述第一从设备连接,所述第二隔离设备的源极与所述第二从设备连接;
所述控制模块,具体用于控制所述第一隔离设备的栅极的电位为第一预设电位,以使得所述主设备与所述第一从设备之间的连接断开;控制所述第二隔离设备的栅极的电位为第二预设电位,以使得所述主设备与所述第二从设备连接。
17.一种计算装置,其特征在于,所述装置包括存储器和处理器,所述存储器,用于存储软件指令;所述处理器调用所述存储器存储的软件指令,以执行上述权利要求9至12中任一所述的方法。
CN202010656493.XA 2020-07-09 2020-07-09 一种故障定位***、方法及计算装置 Pending CN113992501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010656493.XA CN113992501A (zh) 2020-07-09 2020-07-09 一种故障定位***、方法及计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010656493.XA CN113992501A (zh) 2020-07-09 2020-07-09 一种故障定位***、方法及计算装置

Publications (1)

Publication Number Publication Date
CN113992501A true CN113992501A (zh) 2022-01-28

Family

ID=79731327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010656493.XA Pending CN113992501A (zh) 2020-07-09 2020-07-09 一种故障定位***、方法及计算装置

Country Status (1)

Country Link
CN (1) CN113992501A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115664932A (zh) * 2022-10-17 2023-01-31 厦门海辰储能科技股份有限公司 能量块并联通讯方法及装置
WO2024087661A1 (zh) * 2022-10-26 2024-05-02 华为技术有限公司 一种故障定位方法、装置及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412531A (zh) * 2013-07-30 2013-11-27 华为数字技术(苏州)有限公司 一种总线控制方法及装置
CN108073540A (zh) * 2018-02-11 2018-05-25 云丁网络技术(北京)有限公司 I2c总线***、异常设备排查方法
US20190272252A1 (en) * 2018-01-09 2019-09-05 Shenzhen GOODIX Technology Co., Ltd. Method of processing deadlock of i2c bus, electronic device and communication system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412531A (zh) * 2013-07-30 2013-11-27 华为数字技术(苏州)有限公司 一种总线控制方法及装置
US20190272252A1 (en) * 2018-01-09 2019-09-05 Shenzhen GOODIX Technology Co., Ltd. Method of processing deadlock of i2c bus, electronic device and communication system
CN108073540A (zh) * 2018-02-11 2018-05-25 云丁网络技术(北京)有限公司 I2c总线***、异常设备排查方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115664932A (zh) * 2022-10-17 2023-01-31 厦门海辰储能科技股份有限公司 能量块并联通讯方法及装置
CN115664932B (zh) * 2022-10-17 2024-01-26 厦门海辰储能科技股份有限公司 能量块并联通讯方法及装置
WO2024087661A1 (zh) * 2022-10-26 2024-05-02 华为技术有限公司 一种故障定位方法、装置及***

Similar Documents

Publication Publication Date Title
CN106055438B (zh) 一种快速定位主板上内存条异常的方法及***
WO2021027481A1 (zh) 故障处理方法、装置、计算机设备、存储介质及存储***
US8286034B2 (en) Accurate fault status tracking of variable access sensors
CN104639380A (zh) 服务器监控方法
TW201719436A (zh) 使用基板管理控制器偵測通訊匯流排上錯誤的方法以及用於網路系統的偵錯器
CN105183575A (zh) 处理器故障的诊断方法、装置及***
CN113992501A (zh) 一种故障定位***、方法及计算装置
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
US7953016B2 (en) Method and system for telecommunication apparatus fast fault notification
CN112783703A (zh) 一种sas链路故障定位方法、装置、设备及存储介质
TWI238933B (en) Computer system with dedicated system management buses
CN111176913A (zh) 一种检测服务器中Cable Port的电路和方法
CN112019455B (zh) 一种基于可编程逻辑器件的交换机监控装置及方法
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
WO2024113962A1 (zh) 漏液检测线检测方法、***、装置、服务器及电子设备
CN117527653A (zh) 一种集群的心跳管理方法、***、设备及介质
US7925728B2 (en) Facilitating detection of hardware service actions
CN116137603B (zh) 链路故障的检测方法和装置、存储介质及电子装置
CN114860494A (zh) 一种sas拓展器配置自适应***
CN115543707A (zh) 硬盘故障的检测方法、***和装置、存储介质及电子装置
US20070180329A1 (en) Method of latent fault checking a management network
CN103580953A (zh) 一种故障检测的方法及设备
CN114064401A (zh) 定位硬盘故障的方法、装置、电子设备及存储介质
TWI494754B (zh) 伺服器監控裝置和其操作方法
CN113505045B (zh) 一种硬盘故障展示方法、装置以及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220128