CN108228374A - 一种设备的故障处理方法、装置及*** - Google Patents

一种设备的故障处理方法、装置及*** Download PDF

Info

Publication number
CN108228374A
CN108228374A CN201711452816.8A CN201711452816A CN108228374A CN 108228374 A CN108228374 A CN 108228374A CN 201711452816 A CN201711452816 A CN 201711452816A CN 108228374 A CN108228374 A CN 108228374A
Authority
CN
China
Prior art keywords
equipment
value
fault information
troubleshooting
state parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711452816.8A
Other languages
English (en)
Other versions
CN108228374B (zh
Inventor
朱汇雄
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201711452816.8A priority Critical patent/CN108228374B/zh
Publication of CN108228374A publication Critical patent/CN108228374A/zh
Priority to PCT/CN2018/123740 priority patent/WO2019129022A1/zh
Priority to US16/903,483 priority patent/US11144416B2/en
Application granted granted Critical
Publication of CN108228374B publication Critical patent/CN108228374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/24Resetting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/27Built-in tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种设备的故障处理方法、装置及***。该方法用于对设备进行故障处理,所述设备为快捷外设互联标准设备。所述方法由控制器执行,包括:控制器检测设备故障后,获取第一设备故障信息,所述第一设备故障信息用于指示所述设备故障。所述第一设备故障信息包括所述设备的故障处理状态参数的第一值,所述设备的故障处理状态参数的第一值表示所述设备处于软复位态。控制器获取第一设备故障信息后对所述设备进行热复位处理,避免人为干预对快捷外设互联标准设备所在的可插拔单元进行插拔或者复位,以及避免人为对计算机***进行复位实现对快捷外设互联标准设备的故障处理,提高了快捷外设互联标准设备的故障处理效率。

Description

一种设备的故障处理方法、装置及***
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种设备的故障处理方法、装置及***。
背景技术
计算机***中包括与处理器连接的多个快捷外设互联标准(PeripheralComponent Interconnect Express,PCIE)设备,PCIE设备发生的很多故障是由于软失效导致的。对于这类故障的排除,目前的方法为通过人为干预,将发生故障的PCIE设备所在的可插拔单元进行插拔或者复位。如此会影响所述可插拔单元中的其他未发生故障的PCIE设备的正常工作,且插拔或复位操作需要消耗更多的时间,影响了所述可插拔单元在插拔或复位前其他未发生故障的PCIE设备业务的处理效率。现有的对于这类故障的另一种排除方法为,将计算机***进行复位,如此会影响计算机***正在处理的所有的业务,可能产生更多的软故障。如果等待计算机***的业务处理完成后再进行计算机***的复位,导致发生这类故障的PCIE设备的故障不能尽快处理,降低了故障处理的效率,间接影响了计算机***处理业务的效率。
发明内容
本发明提供一种快捷外设互联标准设备的故障处理方法、装置及***,对故障的单个PCIE设备进行隔离后,对故障的单个PCIE设备进行复位处理,以对故障的单个PCIE设备进行恢复,恢复时避免对包括所述PCIE设备可插拔单元中的其他PCIE设备的正常业务或整个计算机***的所有的正常业务进行影响,提高了故障处理的效率。
第一方面,提供一种设备故障处理方法,所述方法用于对设备进行故障处理,所述设备为快捷外设互联标准设备。所述方法由控制器执行,包括:获取第一设备故障信息,根据所述第一设备故障信息中包括的所述设备的故障处理状态参数的第一值,对所述设备进行热复位处理。所述第一设备故障信息用于指示所述设备故障,所述第一设备故障信息包括所述设备的故障处理状态参数的第一值,所述设备的故障处理状态参数的第一值表示所述设备处于软复位态。
在本发明实施例中,所述控制器获取第一设备故障信息后对所述PCIE设备进行热复位处理,避免人为干预对PCIE设备所在的可插拔单元进行插拔或者复位,以及避免人为对计算机***进行复位实现对PCIE设备的故障处理。
基于第一方面,在第一种实现方式中,所述获取第一设备故障信息之前,还包括:检测所述设备是否发生故障。如果所述设备发生故障,生成第一设备故障信息;查询所述设备的故障处理状态参数的值是否为初始值。如果所述设备的故障处理状态参数的值为初始值,修改所述设备的故障处理状态参数的值为第一值。所述获取第一设备故障信息,包括:更新所述第一设备故障信息,获得更新后的所述第一设备故障信息,所述更新后的所述第一设备故障信息包括所述设备的故障处理状态参数的第一值。
基于第一方面或第一方面的第一种实现方式,在第二种实现方式中,所述对所述设备进行热复位处理之后,还包括:获取第二设备故障信息,所述第二设备故障信息用于指示所述设备故障,所述第二设备故障信息包括所述设备的故障处理状态参数的第二值,所述设备的故障处理状态参数的第二值表示所述设备处于硬复位态;根据所述第二设备故障信息中包括的所述设备的故障处理状态参数的第二值,对所述设备进行冷复位处理。
基于第一方面的第二种实现方式,在第三种实现方式中,所述对所述设备进行热复位处理之后,以及所述获取第二设备故障信息之前,还包括:检测所述设备是否发生故障;如果所述设备发生故障,生成第二设备故障信息;查询所述设备的故障处理状态参数的值是否为第一值;如果所述设备的故障处理状态参数的值为第一值,修改所述设备的故障处理状态参数的值为第二值;所述获取第二设备故障信息,包括:更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述设备的故障处理状态参数的第二值。
基于第一方面或第一方面的第一种实现方式,在第四种实现方式中,所述对所述设备进行热复位处理之后,还包括:检测所述设备是否发生故障;如果所述设备没有发生故障,则对所述设备的故障处理状态的参数的第一值进行修改,将所述设备的故障处理状态的参数的第一值修改为初始值。
基于第一方面的第二种或第三种实现方式,在第五种实现方式中,所述对所述设备进行冷复位处理之后,还包括:获取第三设备故障信息,所述第三设备故障信息用于指示所述设备故障,所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,所述设备的故障处理状态参数的第三值表示所述设备处于故障态;根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,对所述设备进行断电处理。
基于第一方面的第五种实现方式,在第六种实现方式中,所述对所述设备进行冷复位处理之后,以及所述获取第三设备故障信息之前,还包括:检测所述设备是否发生故障;如果所述设备发生故障,生成第三设备故障信息;查询所述设备的故障处理状态参数的值是否为第二值;如果所述设备的故障处理状态参数的值为第二值,修改所述设备的故障处理状态参数的值为第三值;所述获取第二设备故障信息,包括:更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述设备的故障处理状态参数的第三值。
基于第一方面的第二种或第三种实现方式,在第七种实现方式中,所述对所述设备进行冷复位处理之后,还包括:检测所述设备是否发生故障;如果所述设备没有发生故障,则对所述设备的故障处理状态的参数的第二值进行修改,将所述设备的故障处理状态的参数的第二值修改为初始值。
基于第一方面的第一种实现方式或第三种实现方式或第六种实现方式,在第八种实现方式中,检测所述设备是否发生故障之后,还包括:
如果所述设备发生故障,修改所述设备的连接参数,获得修改后的设备的连接参数,所述设备的连接参数用于指示所述设备与所述设备的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述设备与所述设备的上游通信设备的连接状态为未连接状态;所述对所述设备进行热复位处理,包括:发送第一复位指令至复位器,指示所述复位器对所述设备进行热复位。
基于第一方面的第二种实现方式,在第九种实现方式中,所述对所述设备进行冷复位处理,包括:发送下电指令至复位器,所述下电指令用于指示所述复位器对所述设备进行断电;检测所述设备断电后,发送上电指令至所述复位器,所述上电指令用于指示所述复位器对所述设备进行上电。
第二方面,提供一种设备故障处理装置,其特征在于,所述设备故障处理装置用于对设备进行故障处理,所述设备为快捷外设互联标准设备,所述设备故障处理装置包括:用于执行第一方面或第一方面的任一种可能实现方式中的设备故障处理方法的各个模块,所述模块可以通过硬件实现,也可以通过硬件执行相应的软件实现。
第三方面,提供一种设备故障处理***,包括:第二方面所述的设备故障处理装置,所述设备故障处理***还包括与所述设备故障处理装置连接的复位器,所述设备故障处理装置用于对设备进行故障处理,所述设备为快捷外设互联标准设备;
所述设备故障处理装置,用于在获取第一设备故障信息后,根据所述第一设备故障信息中包括的所述设备的故障处理状态参数的第一值,发送第一复位指令至所述复位器,以指示所述复位器对所述设备进行热复位处理,所述第一设备故障信息用于指示所述设备故障,所述设备的故障处理状态参数的第一值表示所述设备处于软复位态。所述复位器,用于在接收到所述第一复位指令后对所述设备进行热复位处理。
基于第三方面,在第一种实现方式中,所述设备故障处理装置,还用于在所述复位器对所述设备进行热复位处理后,获取第二设备故障信息,根据所述第二设备故障信息中包括的所述设备的故障处理状态参数的第二值,发送下电指令至所述复位器,以指示所述复位器对所述设备进行断电处理,所述第二设备故障信息用于指示所述设备故障,所述设备的故障处理状态参数的第二值表示所述设备处于硬复位态,所述下电指令用于指示所述复位器对所述设备进行断电。所述复位器,还用于在接收到所述下电指令后对所述设备进行断电。所述设备故障处理装置,还用于检测所述设备断电后,发送上电指令至所述复位器,以指示所述复位器对所述设备进行上电处理,所述上电指令用于指示所述复位器对所述设备进行上电。所述复位器,还用于在接收到所述上电指令后对所述设备进行上电。
基于第三方面的第一种实现方式,在第二种实现方式中,所述设备故障处理装置,还用于在所述复位器对所述设备进行上电处理后,获取第三设备故障信息,根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,对所述设备进行断电处理,所述第三设备故障信息用于指示所述设备故障,所述设备的故障处理状态参数的第三值表示所述设备处于故障态。
基于第三方面,在第三种实现方式中,所述复位器包括复位监控芯片和热复位控制模块,所述复位监控芯片和所述热复位控制模块连接。所述复位监控芯片,用于在接收到所述第一复位指令后发送复位信号至所述热复位控制模块。所述热复位控制模块在接收到所述复位信号后发送复位通知至所述设备,以通知所述设备进行热复位处理。
基于第三方面的第一种实现方式,在第四种实现方式中,所述复位器包括复位监控芯片和电源控制模块,所述复位监控芯片和所述电源控制模块连接。所述复位监控芯片,用于在接收到所述下电指令后发送下电信号至所述电源控制模块。所述电源控制模块在接收到所述下电信号后关闭与所述设备连通的电信号。所述复位监控芯片,还用于在接收到所述上电指令后发送上电信号至所述电源控制模块,所述电源控制模块在接收到所述下电信号后关闭与所述设备连通的电信号。所述电源控制模块在接收到所述上电信号后打开与所述设备连通的电信号。
基于第三方面的第二种实现方式,在第五种实现方式中,所述复位器包括复位监控芯片和电源控制模块,所述复位监控芯片和所述电源控制模块连接。所述设备故障处理装置,还用于根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,发送下电指令至所述复位监控芯片。所述复位监控芯片,用于在接收到所述下电指令后发送下电信号至所述电源控制模块。所述电源控制模块在接收到所述下电信号后关闭与所述设备连通的电信号。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得所述计算机执行上述第一方面或第一方面的任一种可能实现方式中的方法。
第五方面,提供一种设备故障处理装置,包括存储器和处理器,所述存储器用于存储软件程序,所述处理器通过运行存储在所述存储器中的软件程序,执行第一方面或第一方面的任一种可能实现方式中的方法。
附图说明
图1为本发明实施例提供的一种计算机***的结构示意图;
图2为本发明实施例提供的计算机***中的控制器的结构示意图;
图3为本发明实施例提供的一种设备故障的处理方法的流程图;
图4为本发明实施例提供的另一种设备故障的处理方法的流程图;
图5为本发明实施例提供的另一种设备故障的处理方法的流程图;
图6为本发明实施例提供的一种设备故障处理装置的结构方框图;
图7为本发明实施例提供的另一种设备故障处理装置的结构方框图;
图8为本发明实施例提供的一种设备故障处理***的结构方框图;
图9为本发明实施例提供的另一种设备故障处理***的结构方框图;
图10为本发明实施例提供的另一种设备故障处理***的结构方框图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行描述。
请参见图1,图1为本发明实施例提供的一种计算机***的结构示意图。所述计算机***100包括中央处理器101、控制器110、与控制器110连接的至少一个PCIE设备120,所述至少一个PCIE设备120中的至少部分PCIE设备120与中央处理器101连接。如果PCIE设备120的数量有多个,则所述多个PCIE设备120中的至少两个PCIE设备120可以通过PCIe交换芯片130与控制器110连接。计算机***100可以包括多个PCIe交换芯片130,每个PCIe交换芯片130连接至少两个PCIE设备120。与PCIe交换芯片130连接的至少两个PCIE设备120通过PCIe交换芯片130与控制器110通信。计算机***100的实现结构有多种方式,例如计算机***100中可以包括多个PCIE设备120,每个PCIE设备120直接与控制器110连接。或者,计算机***100中可以包括多个PCIE设备120,所有PCIE设备120中的部分PCIE设备120与控制器110直接连接,部分PCIE设备120与PCIe交换芯片130连接,通过PCIe交换芯片130与控制器110通信。或者,计算机***100中可以包括多个PCIE设备120,每个PCIE设备120连接至PCIe交换芯片130,通过PCIe交换芯片130与控制器110通信,不同PCIE交换芯片130连接的PCIE设备120的数量可以相同也可以不同。
在另一种架构的计算机***100中,控制器110的功能可以通过中央处理器101实现。中央处理器101可以是任何计算器件,可以是通用中央处理器(CPU),微处理器,可编程处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。计算机***100还包括存储器,中央处理器101通过运行或执行存储在存储器内的软件程序和/或应用模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。在具体实现中,作为一种实施例,中央处理器101可以包括一个或多个CPU。存储器还用于存储软件程序以及应用模块。中央处理器101通过运行存储在存储器的软件程序以及应用模块,从而执行各种功能应用。
存储器主要包括存储程序区和存储数据区。其中,存储程序区可存储操作***、至少一个功能所需的应用程序,比如发送响应消息等;存储数据区可存储应用程序待处理的数据。存储器可以包括易失性存储器(Volatile Memory),例如,随机存取存储器(Random-Access Memory,RAM);该存储器也可以包括非易失性存储器(non-volatile memory),例如,只读存储器(Read-Only Memory,ROM),快闪存储器(Flash Memory),硬盘(Hard DiskDrive,HDD)、固态硬盘(Solid-State Drive,SSD)、磁盘存储介质或者其他存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由网络设备存取的任何其他介质,但不限于此。
基于本发明实施例提供的计算机***100,控制器110用于对PCIE设备120进行故障处理。计算机***100可以是平板电脑、笔记本电脑、移动互联网设备、掌上电脑、台式电脑、手机、服务器或者其他产品形态的终端设备。PCIE设备120的故障一般是由于软失效导致的。软失效导致的故障,经过对所述PCIE设备120进行插拔或者复位可以消除,后续不再出现由于这种软失效导致的故障。
现有的PCIE设备120故障处理方法为,通过人为干预,将发生故障的PCIE设备120所在的可插拔单元进行插拔或者复位,如此会影响所述可插拔单元中的其他未发生故障的PCIE设备120的正常工作,且插拔或复位操作需要消耗更多的时间,影响了所述可插拔单元在插拔或复位前其他未发生故障的PCIE设备120业务的处理效率。现有的对于这类故障的另一种排除方法为,将计算机***100进行复位,如此会影响计算机***100正在处理的所有的业务,可能产生更多的软故障。
在本发明实施例提供的设备的故障处理方法中,控制器110检测PCIE设备120故障后,获取第一设备故障信息,所述第一设备故障信息用于指示所述PCIE设备120故障。所述第一设备故障信息包括所述PCIE设备120的故障处理状态参数的第一值,所述PCIE设备120的故障处理状态参数的第一值表示所述PCIE设备120处于软复位态。控制器110获取第一设备故障信息后对所述PCIE设备120进行热复位处理,避免人为干预对PCIE设备120所在的可插拔单元进行插拔或者复位,以及避免人为对计算机***100进行复位实现对PCIE设备120的故障处理。
控制器110对所述PCIE设备120进行热复位处理之后,如果控制器110再次检测PCIE设备120故障,获取第二设备故障信息,所述第二设备故障信息用于指示所述PCIE设备120故障。所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值,所述PCIE设备120的故障处理状态参数的第二值表示所述PCIE设备120处于硬复位态。控制器110获取第二设备故障信息后对所述PCIE设备120进行冷复位处理,避免人为干预对PCIE设备120所在的可插拔单元进行插拔或者复位,以及避免人为对计算机***100进行复位实现对PCIE设备120的故障处理。
控制器110对所述PCIE设备120进行冷复位处理之后,如果控制器110再次检测PCIE设备120故障,获取第三设备故障信息,所述第三设备故障信息用于指示所述PCIE设备120故障。所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,所述PCIE设备120的故障处理状态参数的第三值表示所述PCIE设备120处于故障态。获取第三设备故障信息后对所述PCIE设备120进行断电处理,避免人为干预对PCIE设备120所在的可插拔单元进行插拔或者断电。
控制器110每次获取第一设备故障信息、第二故障设备信息以及第三故障设备信息之前,会检测所述PCIE设备120是否发生故障,如果发生故障则生成对应的第一设备故障信息、第二故障设备信息或第三故障设备信息。然后查询所述PCIE设备120的故障处理状态参数的值是否为对应的初始值、第一值、第二值或第三值。
如果所述PCIE设备120的故障处理状态参数的值为初始值,修改所述PCIE设备120的故障处理状态参数的值为第一值,然后更新所述第一设备故障信息,获得更新后的所述第一设备故障信息,所述更新后的所述第一设备故障信息包括所述PCIE设备120的故障处理状态参数的第一值。
如果所述PCIE设备120的故障处理状态参数的值为第一值,修改所述PCIE设备120的故障处理状态参数的值为第二值,然后更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值。
如果所述PCIE设备120的故障处理状态参数的值为第二值,修改所述PCIE设备120的故障处理状态参数的值为第三值,然后更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值。
所述第一设备故障信息、所述第二设备故障信息、所述第三设备故障信息中的任意两个信息包括的内容可以相同也可以不同。
控制器110对设备进行热复位处理后,会检测所述PCIE设备120是否发生故障,如果没有发生故障则会对所述PCIE设备120的故障处理状态的参数的第一值进行修改,将所述PCIE设备120的故障处理状态的参数的第一值修改为初始值。
控制器110对设备进行冷复位处理后,会检测所述PCIE设备120是否发生故障,如果没有发生故障则对所述PCIE设备120的故障处理状态的参数的第二值进行修改,将所述PCIE设备120的故障处理状态的参数的第二值修改为初始值。
控制器110每次获取第一设备故障信息、第二故障设备信息以及第三故障设备信息之前,会检测所述PCIE设备120是否发生故障,如果发生故障还会对设备进行隔离。具体隔离时,控制器110会修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。
下面基于图1所示的计算机***100架构,详细描述一下本发明实施例提供的计算机***100中的控制器110的结构。
请参见图2,图2为本发明实施例提供的计算机***中的控制器的结构示意图。如图2所示,本发明实施例提供的计算机***100中的控制器110包括故障处理模块111和复位器112。故障处理模块111和复位器112通信连接。
故障处理模块111,用于对PCIE设备120进行故障处理。故障处理模块111用于获取第一设备故障信息,所述第一设备故障信息用于指示所述PCIE设备120故障。故障处理模块111在获取第一设备故障信息之前,还用于检测所述PCIE设备120是否发生故障,如果所述PCIE设备120发生故障,生成第一设备故障信息。查询所述PCIE设备120的故障处理状态参数的值是否为初始值。如果所述PCIE设备120的故障处理状态参数的值为初始值,修改所述PCIE设备120的故障处理状态参数的值为第一值。更新所述第一设备故障信息,获得更新后的所述第一设备故障信息,所述更新后的所述第一设备故障信息包括所述PCIE设备120的故障处理状态参数的第一值。故障处理模块111还用于在获取第一设备故障信息后对所述PCIE设备120进行热复位处理。
故障处理模块111检测设备故障后,对所述PCIE设备120进行隔离,即修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数。所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态。修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。故障处理模块111获取更新后的第一设备故障信息后对所述PCIE设备120进行热复位处理,对所述PCIE设备120进行热复位处理时,会发送第一复位指令至复位器112,以使所述复位器112在接收到所述第一复位指令后对所述PCIE设备120进行热复位处理。
如图2所示,所述复位器112包括复位监控芯片113和热复位控制模块114。所述复位监控芯片113和所述热复位控制模块114连接。所述复位监控芯片113,用于在接收到所述第一复位指令后发送复位信号至所述热复位控制模块114。所述热复位控制模块114在接收到所述复位信号后发送复位通知至所述PCIE设备120,以通知所述PCIE设备120进行热复位处理。
故障处理模块111通过复位器112对设备进行热复位处理后,会检测所述PCIE设备120是否发生故障,如果设备故障消除,会对所述PCIE设备120的故障处理状态的参数的第一值进行修改,将所述PCIE设备120的故障处理状态的参数的第一值修改为初始值。
故障处理模块111通过复位器112对设备进行热复位处理后,如果设备故障未消除或者有新的与上次故障相同的故障或不同的故障,故障处理模块111还用于对所述PCIE设备120进行冷复位处理。
具体的,故障处理模块111,还用于在对所述PCIE设备120进行热复位处理后获取第二设备故障信息,所述第二设备故障信息用于指示所述PCIE设备120故障。所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值,所述PCIE设备120的故障处理状态参数的第二值表示所述PCIE设备120处于硬复位态。故障处理模块111在获取第二设备故障信息之前,还用于在对所述PCIE设备120进行热复位处理之后,检测所述PCIE设备120是否发生故障,如果所述PCIE设备120发生故障,生成第二设备故障信息。查询所述PCIE设备120的故障处理状态参数的值是否为第一值。如果所述PCIE设备120的故障处理状态参数的值为第一值,修改所述PCIE设备120的故障处理状态参数的值为第二值。更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值。故障处理模块111,还用于在获取更新后的第二设备故障信息后,对所述PCIE设备120进行冷复位处理。
热复位处理后,如果故障处理模块111检测到设备故障,会对所述PCIE设备120进行隔离,即修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数。所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态。修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。
故障处理模块111对所述PCIE设备120进行冷复位处理时,会发送下电指令至复位器112。所述下电指令用于指示所述复位器112对所述PCIE设备120进行断电。
故障处理模块111,还用于检测所述PCIE设备120断电后,发送上电指令至所述复位器112。所述上电指令用于指示所述复位器112对所述PCIE设备120进行上电。
如图2所示,所述复位器112还包括电源控制模块115,所述复位监控芯片113和所述电源控制模块115连接。所述复位监控芯片113,用于在接收到所述下电指令后发送下电信号至所述电源控制模块115。所述电源控制模块115在接收到所述下电信号后关闭与所述PCIE设备120连通的电信号。所述复位监控芯片113,还用于在接收到所述上电指令后发送上电信号至所述电源控制模块115,所述电源控制模块115在接收到所述下电信号后关闭与所述PCIE设备120连通的电信号。所述电源控制模块115在接收到所述上电信号后打开与所述PCIE设备120连通的电信号。
故障处理模块111通过复位器112对设备进行冷复位处理后,如果设备故障消除,会检测所述PCIE设备120是否发生故障,如果没有发生故障,则对所述PCIE设备120的故障处理状态的参数的第二值进行修改,将所述PCIE设备120的故障处理状态的参数的第二值修改为初始值。
故障处理模块111通过复位器112对设备进行冷复位处理后,如果设备故障未消除或者有新的与上次故障相同的故障或不同的故障,故障处理模块111还用于对所述PCIE设备120进行断电处理。
具体的,故障处理模块111,还用于在对所述PCIE设备120进行冷复位处理后获取第三设备故障信息。所述第三设备故障信息用于指示所述PCIE设备120故障。所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,所述PCIE设备120的故障处理状态参数的第三值表示所述PCIE设备120处于故障态。故障处理模块111在获取第三设备故障信息之前,还用于检测所述PCIE设备120是否发生故障,如果所述PCIE设备120发生故障,生成第三设备故障信息。查询所述PCIE设备120的故障处理状态参数的值是否为第二值。如果所述PCIE设备120的故障处理状态参数的值为第二值,修改所述PCIE设备120的故障处理状态参数的值为第三值。更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值。
故障处理模块111还用于在获取更新后的第三设备故障信息后,对所述PCIE设备120进行断电处理。
故障处理模块111对设备进行冷复位处理后,如果检测设备故障,对所述PCIE设备120进行隔离,即修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数。所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态。修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。
故障处理模块111对所述PCIE设备120进行断电处理时,会发送下电指令至复位器112。所述下电指令用于指示所述复位器112对所述PCIE设备120进行断电。
在图2所示的控制器110中,故障处理模块111可以是任何计算器件,可以是通用中央处理器(CPU),微处理器,可编程处理器,特定应用集成电路(application-specificintegrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。故障处理模块111通过运行或执行存储在存储器内的软件程序和/或应用模块,以及调用存储在存储器内的数据,执行设备故障处理功能。在具体实现中,作为一种实施例,故障处理模块111可以包括一个或多个CPU。
下面结合图1所示的计算机统,图2所示的控制器110的结构详细描述本发明实施例提供的设备故障的处理方法。请参见图3,图3为本发明实施例提供的一种设备故障的处理方法的流程图。如图3所示,本发明实施例提供的设备故障的处理方法可以由图1所示的控制器110执行。具体的以下步骤300至305可以由控制器110中的故障处理模块111执行,步骤306中发送第一复位指令至复位器112的步骤可由图2所示的控制器110中的故障处理模块111执行,步骤306中的根据第一复位指令对设备进行热复位处理的步骤可由图2所示的控制器110中的复位器112执行。图3所示的设备故障处理的方法具体包括以下步骤:
300、检测所述PCIE设备120是否发生故障。
301、如果所述PCIE设备120发生故障,生成第一设备故障信息,所述第一设备故障信息用于指示所述PCIE设备120故障。第一设备故障信息可以帮助确认所述PCIE设备120故障的类型、故障时间等利于对所述PCIE设备120进行故障恢复时所需的相关信息。
可选的,如果所述PCIE设备120发生故障,修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态,表示该PCIE设备目前不可用。
可选的,修改所述PCIE设备120的连接参数之前,可以读取所述PCIE设备120的基地址寄存器的值,保存所述PCIE设备120的基地址寄存器的值。这样后续对设备进行复位后,为使PCIE设备可以正常运行,可以将保存的基地址寄存器的值恢复至基地址寄存器,保证PCIE设备复位后可以正常运行
可选的,读取所述PCIE设备120的基地址寄存器的空间地址之后,可以调用PCIE设备驱动程序中的资源卸载程序,将所述PCIE设备120在初始化阶段申请的内存空间、中断向量等***资源回收,以防止故障PCIE设备占用计算机***的资源。
302、生成第一设备故障信息后,控制器查询所述PCIE设备120的故障处理状态参数。所述PCIE设备120的故障处理状态参数用于表示所述PCIE设备120的故障状态。所述PCIE设备120的故障状态包括正常态、软复位态、硬复位态和故障态。所述正常态表示所述PCIE设备120没有发生故障或发生故障后已经消除了故障。所述软复位态表示所述PCIE设备120需要进行热复位处理。所述硬复位态表示所述PCIE设备120需要进行冷复位处理。所述故障态表示所述PCIE设备120故障不可用。所述PCIE设备120的故障处理状态的参数的初始值用于表示所述PCIE设备120处于正常态。
303、控制器查询所述PCIE设备120的故障处理状态参数后,确认所述PCIE设备120是否处于正常态。
通过查询所述PCIE设备120的故障处理状态参数的值是否为初始值确认所述PCIE设备120是否处于正常态。如果所述PCIE设备120的故障处理状态参数的值为初始值,则表明所述PCIE设备120处于正常态。
304、如果所述PCIE设备120的故障处理状态参数的值表示所述PCIE设备120处于正常态,则对所述PCIE设备120的故障处理状态的参数的值进行修改,获得修改后的所述PCIE设备120的故障处理状态的参数的第一值。
修改后的所述PCIE设备120的故障处理状态的参数的第一值表示所述PCIE设备120处于软复位状态,需要对所述PCIE设备120进行热复位处理。
305、控制器获得修改后的所述PCIE设备120的故障处理状态的参数的值后,对所述第一设备故障信息进行更新,获得更新后的所述第一设备故障信息。所述更新后的第一设备故障信息包括修改后的所述PCIE设备120的故障处理状态的参数的第一值。所述第一设备故障信息用于指示所述PCIE设备120故障,所述第一设备故障信息包括所述PCIE设备120的故障处理状态参数的第一值,所述PCIE设备120的故障处理状态参数的第一值表示所述PCIE设备120处于软复位态。
306、获取第一设备故障信息后,根据所述第一设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第一值,对所述PCIE设备120进行热复位处理。
在步骤306中,所述对所述PCIE设备120进行热复位处理,包括以下步骤:
故障处理模块111发送第一复位指令至复位器112,以使所述复位器112对所述PCIE设备120进行热复位。
基于步骤306,对所述PCIE设备120进行热复位处理后,一般可以消除软失效带来的故障,控制器110会检测设备是否发生故障,如果没有故障,则对所述PCIE设备120的故障处理状态的参数的第一值进行修改,将所述PCIE设备120的故障处理状态的参数的第一值修改为初始值,表示所述PCIE设备120处于正常态。
基于步骤306,对所述PCIE设备120进行热复位处理后,要将PCIe设备重新上线使用,因此控制器110在检测设备是否发生故障之前,需要扫描所述PCIE设备120,如果扫描到所述PCIE设备120后,再检测所述PCIE设备120是否发生故障。扫描所述PCIE设备的方式为:修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为连接状态,表示该PCIE设备目前可用。修改了所述PCIE设备120的连接参数后,恢复PCIe设备的配置参数,以为该PCIE设备分配计算机***中的资源,完成对PCIe设备的初始化。恢复PCIe设备的配置参数的方式可以是手动恢复或自动恢复,自动恢复时,根据预先保存的所述PCIe设备的配置参数进行恢复,例如可以是预先保存的基地址寄存器的值。
基于步骤306,对所述PCIE设备120进行热复位处理后,如果控制器110检测设备发生故障,则还需要对所述PCIE设备120进行冷复位处理。下面描述如何对所述PCIE设备120进行冷复位处理。请参见图4,图4为本发明实施例提供的另一种设备故障的处理方法的流程图。如图4所示,本发明实施例提供的设备故障的处理方法可以由图1所示的控制器110执行。具体的以下步骤400至405可以由控制器110中的故障处理模块111执行,步骤406中发送下电指令至复位器112的步骤,以及检测所述PCIE设备120断电后,发送上电指令至所述复位器112的步骤可由图2所示的控制器110中的故障处理模块111执行,步骤406中的根据下电指令对设备进行断电,以及根据上电指令对设备进行上电的步骤可由图2所示的控制器110中的复位器112执行。图4所示的设备故障处理的方法具体详见以下步骤400至406。
400、检测所述PCIE设备120是否发生故障。
401、如果所述PCIE设备120发生故障,生成第二设备故障信息。所述第二设备故障信息用于指示所述PCIE设备120故障。
第二设备故障信息可以帮助确认所述PCIE设备120故障的类型、故障时间等利于对所述PCIE设备120进行故障恢复时所需的相关信息。
可选的,如果所述PCIE设备120发生故障,修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。
402、生成第二设备故障信息后,控制器查询所述PCIE设备120的故障处理状态参数。
403、控制器查询所述PCIE设备120的故障处理状态参数后,确认所述PCIE设备120是否处于软复位态。
通过查询所述PCIE设备120的故障处理状态参数的值是否为第一值确认所述PCIE设备120是否处于软复位态。如果所述PCIE设备120的故障处理状态参数的值为第一值,则表明所述PCIE设备120处于软复位态。
404、如果所述PCIE设备120处于软复位态,则对所述PCIE设备120的故障处理状态的参数的值进行修改,获得修改后的所述PCIE设备120的故障处理状态的参数的第二值。
修改后的所述PCIE设备120的故障处理状态的参数的第二值表示所述PCIE设备120处于硬复位状态,需要对所述PCIE设备120进行冷复位处理。
405、更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值。所述第二设备故障信息用于指示所述PCIE设备120故障,所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值,所述PCIE设备120的故障处理状态参数的第二值表示所述PCIE设备120处于硬复位态。
406、根据所述第二设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第二值,对所述PCIE设备120进行冷复位处理。
在步骤406中,所述对所述PCIE设备120进行冷复位处理,包括以下步骤:
发送下电指令至复位器112,所述下电指令用于指示所述复位器112对所述PCIE设备120进行断电;
检测所述PCIE设备120断电后,发送上电指令至所述复位器112,所述上电指令用于指示所述复位器112对所述PCIE设备120进行上电。
基于步骤406,对所述PCIE设备120进行冷复位处理后,一般可以消除软失效带来的故障,控制器110会检测设备是否发生故障,如果没有故障,则对所述PCIE设备120的故障处理状态的参数的第二值进行修改,将所述PCIE设备120的故障处理状态的参数的第二值修改为初始值,表示所述PCIE设备120处于正常态。
基于步骤406,对所述PCIE设备120进行冷复位处理后,要将PCIe设备重新上线使用,因此控制器110在检测设备是否发生故障之前,需要扫描所述PCIE设备120,如果扫描到所述PCIE设备120后,再检测所述PCIE设备120是否发生故障。扫描所述PCIE设备的方式为:修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为连接状态,表示该PCIE设备目前可用。修改了所述PCIE设备120的连接参数后,恢复PCIe设备的配置参数,以为该PCIE设备分配计算机***中的资源,完成对PCIe设备的初始化。恢复PCIe设备的配置参数的方式可以是手动恢复或自动恢复,自动恢复时,根据预先保存的所述PCIe设备的配置参数进行恢复,例如可以是预先保存的基地址寄存器的值。
基于步骤406,对所述PCIE设备120进行冷复位处理后,如果控制器110检测设备还发生故障,则表明所述PCIE设备120极大可能出现硬件失效,需要人工维修,则对所述PCIE设备120进行断电处理,避免所述PCIE设备120占用计算机***100的资源或出现更多的处理错误。下面描述如何对所述PCIE设备120进行断电处理。
请参见图5,图5为本发明实施例提供的另一种设备故障的处理方法的流程图。如图5所示,本发明实施例提供的设备故障的处理方法可以由图1所示的控制器110执行。具体的以下步骤500至505可以由控制器110中的故障处理模块111执行,步骤506中发送下电指令至复位器112的步骤,可由图2所示的控制器110中的故障处理模块111执行,步骤506中的根据下电指令对设备进行断电的步骤可由图2所示的控制器110中的复位器112执行。图5所示的设备故障处理的方法详见以下步骤500-506。
500、检测所述PCIE设备120是否发生故障。
501、如果所述PCIE设备120发生故障,生成第三设备故障信息。所述第三设备故障信息用于指示所述PCIE设备120故障。
第三设备故障信息可以帮助确认所述PCIE设备120故障的类型、故障时间等利于对所述PCIE设备120进行故障恢复时所需的相关信息。
可选的,如果所述PCIE设备120发生故障,修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。
502、生成第三设备故障信息后,控制器查询所述PCIE设备120的故障处理状态参数。
503、控制器查询所述PCIE设备120的故障处理状态参数后,确认所述PCIE设备120是否处于硬复位态。
通过查询所述PCIE设备120的故障处理状态参数的值是否为第二值确认所述PCIE设备120是否处于硬复位态。如果所述PCIE设备120的故障处理状态参数的值为第二值,则表明所述PCIE设备120处于硬复位态。
504、如果所述PCIE设备120处于硬复位态,则对所述PCIE设备120的故障处理状态的参数的值进行修改,获得修改后的所述PCIE设备120的故障处理状态的参数的第三值。
修改后的所述PCIE设备120的故障处理状态的参数的第三值表示所述PCIE设备120处于故障态,需要对所述PCIE设备120进行断电处理。
505、更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值。所述第三设备故障信息用于指示所述PCIE设备120故障,所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,所述PCIE设备120的故障处理状态参数的第三值表示所述PCIE设备120处于故障态。
506、根据所述第三设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第三值,对所述PCIE设备120进行断电处理。
在步骤506中,所述PCIE设备120进行断电处理包括以下步骤:发送下电指令至复位器112。所述下电指令用于指示所述复位器112对所述PCIE设备120进行断电。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。在下述图6和图7实施例中,分别对设备故障处理装置的两种结构进行介绍说明。在下述图8实施例中,对设备故障处理***进行介绍说明。
请参考图6,图6为本发明实施例提供的一种设备故障处理装置的结构方框图。该设备故障处理装置600用于对PCIE设备120进行故障处理,所述PCIE设备120为快捷外设互联标准设备。该设备故障处理装置600具有实现上述方法实例中的控制器110的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。所述设备故障处理装置600包括获取单元610和处理单元620。在本实施方式中,获取单元610以及处理单元620的功能可以由上述实施例中的控制器110中的故障处理模块111实现。
获取单元610,用于获取第一设备故障信息,所述第一设备故障信息用于指示所述PCIE设备120故障,所述第一设备故障信息包括所述PCIE设备120的故障处理状态参数的第一值,所述PCIE设备120的故障处理状态参数的第一值表示所述PCIE设备120处于软复位态;
处理单元620,用于根据所述第一设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第一值,对所述PCIE设备120进行热复位处理。
基于图6所示实施例,在第一个可选实施例中,请参见图7,图7为本发明实施例提供的另一种设备故障处理装置的结构方框图。如图7所示,该设备故障处理装置600还包括检测单元630。在本实施方式中,检测单元630的功能可以由上述实施例中的故障处理模块111实现。检测单元630,用于检测所述PCIE设备120是否发生故障,如果所述PCIE设备120发生故障,生成第一设备故障信息,查询所述PCIE设备120的故障处理状态参数的值是否为初始值,如果所述PCIE设备120的故障处理状态参数的值为初始值,修改所述PCIE设备120的故障处理状态参数的值为第一值。所述获取单元610,还用于更新所述第一设备故障信息,获得更新后的所述第一设备故障信息,所述更新后的所述第一设备故障信息包括所述PCIE设备120的故障处理状态参数的第一值。
基于图6或图7所示实施例,在一个可选实施例中,所述获取单元610,还用于在所述处理单元620对所述PCIE设备120进行热复位处理后获取第二设备故障信息,所述第二设备故障信息用于指示所述PCIE设备120故障,所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值,所述PCIE设备120的故障处理状态参数的第二值表示所述PCIE设备120处于硬复位态。所述处理单元620,还用于根据所述第二设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第二值,对所述PCIE设备120进行冷复位处理。
基于图7所示实施例,在一个可选实施例中,所述检测单元630,还用于在所述处理单元620对所述PCIE设备120进行热复位处理之后,检测所述PCIE设备120是否发生故障,如果所述PCIE设备120发生故障,生成第二设备故障信息,查询所述PCIE设备120的故障处理状态参数的值是否为第一值,如果所述PCIE设备120的故障处理状态参数的值为第一值,修改所述PCIE设备120的故障处理状态参数的值为第二值。所述获取单元610,还用于更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述PCIE设备120的故障处理状态参数的第二值。
在另一个可选实施例中,所述检测单元630在所述处理单元620对所述PCIE设备120进行热复位处理之后,检测所述PCIE设备120是否发生故障,如果所述PCIE设备120没有发生故障,则对所述PCIE设备120的故障处理状态的参数的第一值进行修改,将所述PCIE设备120的故障处理状态的参数的第一值修改为初始值。
在另一个可选实施例中,所述获取单元610,还用于在所述处理单元620对所述PCIE设备120进行冷复位处理后获取第三设备故障信息,所述第三设备故障信息用于指示所述PCIE设备120故障,所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,所述PCIE设备120的故障处理状态参数的第三值表示所述PCIE设备120处于故障态。所述处理单元620,还用于根据所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,对所述PCIE设备120进行断电处理。
在另一个可选实施例中,所述检测单元630,还用于在所述处理单元620对所述PCIE设备120进行冷复位处理之后,检测所述PCIE设备120是否发生故障,如果所述PCIE设备120发生故障,生成第三设备故障信息,查询所述PCIE设备120的故障处理状态参数的值是否为第二值,如果所述PCIE设备120的故障处理状态参数的值为第二值,修改所述PCIE设备120的故障处理状态参数的值为第三值。所述获取单元610,还用于更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值。
在另一个可选实施例中,检测单元630,还用于检测所述PCIE设备120是否发生故障,如果所述PCIE设备120没有发生故障,则对所述PCIE设备120的故障处理状态的参数的第二值进行修改,将所述PCIE设备120的故障处理状态的参数的第二值修改为初始值。
在另一个可选实施例中,所述检测单元630,还用于在检测所述PCIE设备120故障后,修改所述PCIE设备120的连接参数,获得修改后的设备的连接参数,所述PCIE设备120的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述PCIE设备120与所述PCIE设备120的上游通信设备的连接状态为未连接状态。所述处理单元620,还用于发送第一复位指令至复位器112,以使所述复位器112对所述PCIE设备120进行热复位。所述复位器112的结构可由图2所示的复位器112实现。
在另一个可选实施例中,所述处理单元620,还用于发送下电指令至复位器112,所述下电指令用于指示所述复位器112对所述PCIE设备120进行断电。所述处理单元620,还用于检测所述PCIE设备120断电后,发送上电指令至所述复位器112,所述上电指令用于指示所述复位器112对所述PCIE设备120进行上电。所述复位器112的结构可由图2所示的复位器112实现。
请参见图8,图8为本发明实施例提供的一种设备故障处理***的结构方框图。如图8所示,本发明实施例提供的一种设备故障处理***,用于对PCIE设备120进行故障处理,所述PCIE设备120为快捷外设互联标准设备。该设备故障处理***具有实现上述方法实例中的控制器110的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。
设备故障处理***包括基于图6或图7所示的任一实施例实现的设备故障处理装置600,所述设备故障处理***800还包括与所述设备故障处理装置600连接的复位器112,所述设备故障处理装置600用于对PCIE设备120进行故障处理,所述PCIE设备120为快捷外设互联标准设备。
所述设备故障处理装置600,用于在获取第一设备故障信息后,根据所述第一设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第一值,发送第一复位指令至所述复位器112,以指示所述复位器112对所述PCIE设备120进行热复位处理,所述第一设备故障信息用于指示所述PCIE设备120故障,所述PCIE设备120的故障处理状态参数的第一值表示所述PCIE设备120处于软复位态;
所述复位器112,用于在接收到所述第一复位指令后对所述PCIE设备120进行热复位处理。
所述设备故障处理装置600可以由控制器110中的故障处理模块111实现,所述复位器112的结构可由图2所示的复位器112实现。
基于图8所示的设备故障处理***800,在第一种可选的实施方式中,所述设备故障处理装置600,还用于在所述复位器112对所述PCIE设备120进行热复位处理后,获取第二设备故障信息,根据所述第二设备故障信息中包括的所述PCIE设备120的故障处理状态参数的第二值,发送下电指令至所述复位器112,以指示所述复位器112对所述PCIE设备120进行断电处理,所述第二设备故障信息用于指示所述PCIE设备120故障,所述PCIE设备120的故障处理状态参数的第二值表示所述PCIE设备120处于硬复位态,所述下电指令用于指示所述复位器112对所述PCIE设备120进行断电;
所述复位器112,还用于在接收到所述下电指令后对所述PCIE设备120进行断电;
所述设备故障处理装置600,还用于检测所述PCIE设备120断电后,发送上电指令至所述复位器112,以指示所述复位器112对所述PCIE设备120进行上电处理,所述上电指令用于指示所述复位器112对所述PCIE设备120进行上电;
所述复位器112,还用于在接收到所述上电指令后对所述PCIE设备120进行上电。
基于图8所示的设备故障处理***800,结合第一种可选的实施方式,在第二种可选的实施方式中,所述设备故障处理装置600,还用于在所述复位器112对所述PCIE设备120进行上电处理后,获取第三设备故障信息,根据所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,对所述PCIE设备120进行断电处理,所述第三设备故障信息用于指示所述PCIE设备120故障,所述PCIE设备120的故障处理状态参数的第三值表示所述PCIE设备120处于故障态。
基于图8所示的设备故障处理***800,在另一个可选的实施方式中,请参见图9,图9为本发明实施例提供的另一种设备故障处理***的结构方框图。如图9所示,所述复位器112包括复位监控芯片113和热复位控制模块114,所述复位监控芯片113和所述热复位控制模块114连接;
所述复位监控芯片113,用于在接收到所述第一复位指令后发送复位信号至所述热复位控制模块114;
所述热复位控制模块114在接收到所述复位信号后发送复位通知至所述PCIE设备120,以通知所述PCIE设备120进行热复位处理。
基于图9所示的设备故障处理***800,在另一个可选的实施方式中,请参见图10,图10为本发明实施例提供的另一种设备故障处理***的结构方框图。如图10所示,所述复位器112还包括电源控制模块115,所述复位监控芯片113和所述电源控制模块115连接;
所述复位监控芯片113,还用于在接收到所述下电指令后发送下电信号至所述电源控制模块115;
所述电源控制模块115用于在接收到所述下电信号后关闭与所述PCIE设备120连通的电信号;
所述复位监控芯片113,还用于在接收到所述上电指令后发送上电信号至所述电源控制模块115,所述电源控制模块115还用于在接收到所述下电信号后关闭与所述PCIE设备120连通的电信号;
所述电源控制模块115在接收到所述上电信号后打开与所述PCIE设备120连通的电信号。
可选的,所述设备故障处理装置600,还用于根据所述第三设备故障信息包括所述PCIE设备120的故障处理状态参数的第三值,发送下电指令至所述复位监控芯片113;
所述复位监控芯片113,用于在接收到所述下电指令后发送下电信号至所述电源控制模块115;
所述电源控制模块115在接收到所述下电信号后关闭与所述PCIE设备120连通的电信号。
结合本发明实施例公开内容所描述的方法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(ReadOnly Memory,ROM)、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。

Claims (26)

1.一种设备故障处理方法,其特征在于,所述方法用于对设备进行故障处理,所述设备为快捷外设互联标准设备,所述方法由控制器执行,包括:
获取第一设备故障信息,所述第一设备故障信息用于指示所述设备故障,所述第一设备故障信息包括所述设备的故障处理状态参数的第一值,所述设备的故障处理状态参数的第一值表示所述设备处于软复位态;
根据所述第一设备故障信息中包括的所述设备的故障处理状态参数的第一值,对所述设备进行热复位处理。
2.如权利要求1所述的方法,其特征在于,所述获取第一设备故障信息之前,还包括:
检测所述设备是否发生故障;
如果所述设备发生故障,生成第一设备故障信息;
查询所述设备的故障处理状态参数的值是否为初始值;
如果所述设备的故障处理状态参数的值为初始值,修改所述设备的故障处理状态参数的值为第一值;
所述获取第一设备故障信息,包括:
更新所述第一设备故障信息,获得更新后的所述第一设备故障信息,所述更新后的所述第一设备故障信息包括所述设备的故障处理状态参数的第一值。
3.如权利要求1或2所述的方法,其特征在于,所述对所述设备进行热复位处理之后,还包括:
获取第二设备故障信息,所述第二设备故障信息用于指示所述设备故障,所述第二设备故障信息包括所述设备的故障处理状态参数的第二值,所述设备的故障处理状态参数的第二值表示所述设备处于硬复位态;
根据所述第二设备故障信息中包括的所述设备的故障处理状态参数的第二值,对所述设备进行冷复位处理。
4.如权利要求3所述的方法,其特征在于,所述对所述设备进行热复位处理之后,以及所述获取第二设备故障信息之前,还包括:
检测所述设备是否发生故障;
如果所述设备发生故障,生成第二设备故障信息;
查询所述设备的故障处理状态参数的值是否为第一值;
如果所述设备的故障处理状态参数的值为第一值,修改所述设备的故障处理状态参数的值为第二值;
所述获取第二设备故障信息,包括:
更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述设备的故障处理状态参数的第二值。
5.如权利要求1或2所述的方法,其特征在于,所述对所述设备进行热复位处理之后,还包括:
检测所述设备是否发生故障;
如果所述设备没有发生故障,则对所述设备的故障处理状态的参数的第一值进行修改,将所述设备的故障处理状态的参数的第一值修改为初始值。
6.如权利要求3或4所述的方法,其特征在于,所述对所述设备进行冷复位处理之后,还包括:
获取第三设备故障信息,所述第三设备故障信息用于指示所述设备故障,所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,所述设备的故障处理状态参数的第三值表示所述设备处于故障态;
根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,对所述设备进行断电处理。
7.如权利要求6所述的方法,其特征在于,所述对所述设备进行冷复位处理之后,以及所述获取第三设备故障信息之前,还包括:
检测所述设备是否发生故障;
如果所述设备发生故障,生成第三设备故障信息;
查询所述设备的故障处理状态参数的值是否为第二值;
如果所述设备的故障处理状态参数的值为第二值,修改所述设备的故障处理状态参数的值为第三值;
所述获取第二设备故障信息,包括:
更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述设备的故障处理状态参数的第三值。
8.如权利要求3或4所述的方法,其特征在于,所述对所述设备进行冷复位处理之后,还包括:
检测所述设备是否发生故障;
如果所述设备没有发生故障,则对所述设备的故障处理状态的参数的第二值进行修改,将所述设备的故障处理状态的参数的第二值修改为初始值。
9.如权利要求2或4或7所述的方法,其特征在于,检测所述设备是否发生故障之后,还包括:
如果所述设备发生故障,修改所述设备的连接参数,获得修改后的设备的连接参数,所述设备的连接参数用于指示所述设备与所述设备的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述设备与所述设备的上游通信设备的连接状态为未连接状态;
所述对所述设备进行热复位处理,包括:发送第一复位指令至复位器,指示所述复位器对所述设备进行热复位。
10.如权利要求3所述的方法,其特征在于,所述对所述设备进行冷复位处理,包括:
发送下电指令至复位器,所述下电指令用于指示所述复位器对所述设备进行断电;
检测所述设备断电后,发送上电指令至所述复位器,所述上电指令用于指示所述复位器对所述设备进行上电。
11.一种设备故障处理装置,其特征在于,所述设备故障处理装置用于对设备进行故障处理,所述设备为快捷外设互联标准设备,所述设备故障处理装置包括:
获取单元,用于获取第一设备故障信息,所述第一设备故障信息用于指示所述设备故障,所述第一设备故障信息包括所述设备的故障处理状态参数的第一值,所述设备的故障处理状态参数的第一值表示所述设备处于软复位态;
处理单元,用于根据所述第一设备故障信息中包括的所述设备的故障处理状态参数的第一值,对所述设备进行热复位处理。
12.如权利要求11所述的装置,其特征在于,还包括:
检测单元,用于检测所述设备是否发生故障,如果所述设备发生故障,生成第一设备故障信息,查询所述设备的故障处理状态参数的值是否为初始值,如果所述设备的故障处理状态参数的值为初始值,修改所述设备的故障处理状态参数的值为第一值;
所述获取单元,还用于更新所述第一设备故障信息,获得更新后的所述第一设备故障信息,所述更新后的所述第一设备故障信息包括所述设备的故障处理状态参数的第一值。
13.如权利要求11或12所述的装置,其特征在于,
所述获取单元,还用于在所述处理单元对所述设备进行热复位处理后获取第二设备故障信息,所述第二设备故障信息用于指示所述设备故障,所述第二设备故障信息包括所述设备的故障处理状态参数的第二值,所述设备的故障处理状态参数的第二值表示所述设备处于硬复位态;
所述处理单元,还用于根据所述第二设备故障信息中包括的所述设备的故障处理状态参数的第二值,对所述设备进行冷复位处理。
14.如权利要求13所述的装置,其特征在于,所述检测单元,还用于在所述处理单元对所述设备进行热复位处理之后,检测所述设备是否发生故障,如果所述设备发生故障,生成第二设备故障信息,查询所述设备的故障处理状态参数的值是否为第一值,如果所述设备的故障处理状态参数的值为第一值,修改所述设备的故障处理状态参数的值为第二值;
所述获取单元,还用于更新所述第二设备故障信息,获得更新后的所述第二设备故障信息,所述更新后的所述第二设备故障信息包括所述设备的故障处理状态参数的第二值。
15.如权利要求11所述的装置,其特征在于,还包括:
检测单元,所述检测单元在所述处理单元对所述设备进行热复位处理之后,检测所述设备是否发生故障,如果所述设备没有发生故障,则对所述设备的故障处理状态的参数的第一值进行修改,将所述设备的故障处理状态的参数的第一值修改为初始值。
16.如权利要求13或14所述的装置,其特征在于,
所述获取单元,还用于在所述处理单元对所述设备进行冷复位处理后获取第三设备故障信息,所述第三设备故障信息用于指示所述设备故障,所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,所述设备的故障处理状态参数的第三值表示所述设备处于故障态;
所述处理单元,还用于根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,对所述设备进行断电处理。
17.如权利要求16所述的装置,其特征在于,所述检测单元,还用于在所述处理单元对所述设备进行冷复位处理之后,检测所述设备是否发生故障,如果所述设备发生故障,生成第三设备故障信息,查询所述设备的故障处理状态参数的值是否为第二值,如果所述设备的故障处理状态参数的值为第二值,修改所述设备的故障处理状态参数的值为第三值;
所述获取单元,还用于更新所述第三设备故障信息,获得更新后的所述第三设备故障信息,所述更新后的所述第三设备故障信息包括所述设备的故障处理状态参数的第三值。
18.如权利要求13所述的装置,其特征在于,还包括:
检测单元,还用于检测所述设备是否发生故障,如果所述设备没有发生故障,则对所述设备的故障处理状态的参数的第二值进行修改,将所述设备的故障处理状态的参数的第二值修改为初始值。
19.如权利要求12或14或17所述的装置,其特征在于,所述检测单元,还用于在检测所述设备故障后,修改所述设备的连接参数,获得修改后的设备的连接参数,所述设备的连接参数用于指示所述设备与所述设备的上游通信设备的连接状态,修改后的设备的连接参数用于指示所述设备与所述设备的上游通信设备的连接状态为未连接状态;
所述处理单元,还用于发送第一复位指令至复位器,以使所述复位器对所述设备进行热复位。
20.如权利要求13所述的装置,其特征在于,
所述处理单元,还用于发送下电指令至复位器,所述下电指令用于指示所述复位器对所述设备进行断电;
所述处理单元,还用于检测所述设备断电后,发送上电指令至所述复位器,所述上电指令用于指示所述复位器对所述设备进行上电。
21.一种设备故障处理***,其特征在于,包括:权利要求11-20中任一所述的设备故障处理装置,所述设备故障处理***还包括与所述设备故障处理装置连接的复位器,所述设备故障处理装置用于对设备进行故障处理,所述设备为快捷外设互联标准设备;
所述设备故障处理装置,用于在获取第一设备故障信息后,根据所述第一设备故障信息中包括的所述设备的故障处理状态参数的第一值,发送第一复位指令至所述复位器,以指示所述复位器对所述设备进行热复位处理,所述第一设备故障信息用于指示所述设备故障,所述设备的故障处理状态参数的第一值表示所述设备处于软复位态;
所述复位器,用于在接收到所述第一复位指令后对所述设备进行热复位处理。
22.如权利要求21所述的***,其特征在于,所述设备故障处理装置,还用于在所述复位器对所述设备进行热复位处理后,获取第二设备故障信息,根据所述第二设备故障信息中包括的所述设备的故障处理状态参数的第二值,发送下电指令至所述复位器,以指示所述复位器对所述设备进行断电处理,所述第二设备故障信息用于指示所述设备故障,所述设备的故障处理状态参数的第二值表示所述设备处于硬复位态,所述下电指令用于指示所述复位器对所述设备进行断电;
所述复位器,还用于在接收到所述下电指令后对所述设备进行断电;
所述设备故障处理装置,还用于检测所述设备断电后,发送上电指令至所述复位器,以指示所述复位器对所述设备进行上电处理,所述上电指令用于指示所述复位器对所述设备进行上电;
所述复位器,还用于在接收到所述上电指令后对所述设备进行上电。
23.如权利要求22所述的***,其特征在于,所述设备故障处理装置,还用于在所述复位器对所述设备进行上电处理后,获取第三设备故障信息,根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,对所述设备进行断电处理,所述第三设备故障信息用于指示所述设备故障,所述设备的故障处理状态参数的第三值表示所述设备处于故障态。
24.如权利要求21所述的***,其特征在于,所述复位器包括复位监控芯片和热复位控制模块,所述复位监控芯片和所述热复位控制模块连接;
所述复位监控芯片,用于在接收到所述第一复位指令后发送复位信号至所述热复位控制模块;
所述热复位控制模块在接收到所述复位信号后发送复位通知至所述设备,以通知所述设备进行热复位处理。
25.如权利要求22所述的***,其特征在于,所述复位器包括复位监控芯片和电源控制模块,所述复位监控芯片和所述电源控制模块连接;
所述复位监控芯片,用于在接收到所述下电指令后发送下电信号至所述电源控制模块;
所述电源控制模块在接收到所述下电信号后关闭与所述设备连通的电信号;
所述复位监控芯片,还用于在接收到所述上电指令后发送上电信号至所述电源控制模块,所述电源控制模块在接收到所述下电信号后关闭与所述设备连通的电信号;
所述电源控制模块在接收到所述上电信号后打开与所述设备连通的电信号。
26.如权利要求23所述的***,其特征在于,所述复位器包括复位监控芯片和电源控制模块,所述复位监控芯片和所述电源控制模块连接;
所述设备故障处理装置,还用于根据所述第三设备故障信息包括所述设备的故障处理状态参数的第三值,发送下电指令至所述复位监控芯片;
所述复位监控芯片,用于在接收到所述下电指令后发送下电信号至所述电源控制模块;
所述电源控制模块在接收到所述下电信号后关闭与所述设备连通的电信号。
CN201711452816.8A 2017-12-28 2017-12-28 一种设备的故障处理方法、装置及*** Active CN108228374B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711452816.8A CN108228374B (zh) 2017-12-28 2017-12-28 一种设备的故障处理方法、装置及***
PCT/CN2018/123740 WO2019129022A1 (zh) 2017-12-28 2018-12-26 一种设备的故障处理方法、装置及***
US16/903,483 US11144416B2 (en) 2017-12-28 2020-06-17 Device fault processing method, apparatus, and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711452816.8A CN108228374B (zh) 2017-12-28 2017-12-28 一种设备的故障处理方法、装置及***

Publications (2)

Publication Number Publication Date
CN108228374A true CN108228374A (zh) 2018-06-29
CN108228374B CN108228374B (zh) 2021-08-20

Family

ID=62648280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711452816.8A Active CN108228374B (zh) 2017-12-28 2017-12-28 一种设备的故障处理方法、装置及***

Country Status (3)

Country Link
US (1) US11144416B2 (zh)
CN (1) CN108228374B (zh)
WO (1) WO2019129022A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019129022A1 (zh) * 2017-12-28 2019-07-04 华为技术有限公司 一种设备的故障处理方法、装置及***
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN111953753A (zh) * 2020-07-31 2020-11-17 西安广和通无线软件有限公司 通信设备连接方法、装置、计算机设备和存储介质
CN112748677A (zh) * 2019-10-29 2021-05-04 深圳市帝迈生物技术有限公司 一种终端设备及其故障处理方法
CN113722156A (zh) * 2021-11-02 2021-11-30 四川华鲲振宇智能科技有限责任公司 一种PCIe设备N+1冗余备份方法及***
CN114301762A (zh) * 2022-01-06 2022-04-08 云控智行科技有限公司 路侧感知***远程维护方法、装置及设备
WO2023082332A1 (zh) * 2021-11-10 2023-05-19 锐凌无线有限责任公司 一种故障恢复方法、装置、设备及计算机可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11314578B2 (en) * 2019-03-06 2022-04-26 Dell Products L.P. Information handling system and method to detect and recover from spurious resets of PCIe devices
US11175977B2 (en) 2020-01-14 2021-11-16 Nxp Usa, Inc. Method and system to detect failure in PCIe endpoint devices

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299678A (zh) * 2008-07-03 2008-11-05 杭州华三通信技术有限公司 开放应用架构中实现接口板上下电的方法和***
CN103019870A (zh) * 2012-12-14 2013-04-03 大唐移动通信设备有限公司 一种处理复位信号的方法及通信设备
US20140003451A1 (en) * 2012-06-29 2014-01-02 Mahesh Wagh Architected Protocol For Changing Link Operating Mode
CN103532728A (zh) * 2012-07-04 2014-01-22 京信通信***(广州)有限公司 一种对故障dsp芯片复位的方法及装置
CN104391755A (zh) * 2014-10-21 2015-03-04 北京星网锐捷网络技术有限公司 嵌入式多媒体卡eMMC芯片异常的处理方法和装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
US20170192838A1 (en) * 2015-12-30 2017-07-06 Samsung Electronics Co., Ltd. Cpu system including debug logic for gathering debug information, computing system including the cpu system, and debugging method of the computing system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5281942B2 (ja) * 2009-03-26 2013-09-04 株式会社日立製作所 計算機およびその障害処理方法
US8782461B2 (en) * 2010-09-24 2014-07-15 Intel Corporation Method and system of live error recovery
CN104756081B (zh) * 2013-09-11 2016-08-17 华为技术有限公司 一种故障处理的方法、计算机***和装置
US9792171B2 (en) * 2015-10-26 2017-10-17 International Business Machines Corporation Multiple reset modes for a PCI host bridge
CN106201753B (zh) * 2016-06-28 2019-12-31 苏州浪潮智能科技有限公司 一种基于linux中PCIE错误的处理方法及***
CN106201755B (zh) * 2016-07-11 2019-06-14 锐捷网络股份有限公司 网络设备的复位方法及装置
US10146626B2 (en) * 2016-09-29 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Detecting and handling an expansion card fault during system initialization
CN108228374B (zh) * 2017-12-28 2021-08-20 华为技术有限公司 一种设备的故障处理方法、装置及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299678A (zh) * 2008-07-03 2008-11-05 杭州华三通信技术有限公司 开放应用架构中实现接口板上下电的方法和***
US20140003451A1 (en) * 2012-06-29 2014-01-02 Mahesh Wagh Architected Protocol For Changing Link Operating Mode
CN103532728A (zh) * 2012-07-04 2014-01-22 京信通信***(广州)有限公司 一种对故障dsp芯片复位的方法及装置
CN103019870A (zh) * 2012-12-14 2013-04-03 大唐移动通信设备有限公司 一种处理复位信号的方法及通信设备
CN104391755A (zh) * 2014-10-21 2015-03-04 北京星网锐捷网络技术有限公司 嵌入式多媒体卡eMMC芯片异常的处理方法和装置
US20170192838A1 (en) * 2015-12-30 2017-07-06 Samsung Electronics Co., Ltd. Cpu system including debug logic for gathering debug information, computing system including the cpu system, and debugging method of the computing system
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019129022A1 (zh) * 2017-12-28 2019-07-04 华为技术有限公司 一种设备的故障处理方法、装置及***
US11144416B2 (en) 2017-12-28 2021-10-12 Huawei Technologies Co., Ltd. Device fault processing method, apparatus, and system
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN112748677A (zh) * 2019-10-29 2021-05-04 深圳市帝迈生物技术有限公司 一种终端设备及其故障处理方法
CN112748677B (zh) * 2019-10-29 2022-09-30 深圳市帝迈生物技术有限公司 一种终端设备及其故障处理方法
CN111953753A (zh) * 2020-07-31 2020-11-17 西安广和通无线软件有限公司 通信设备连接方法、装置、计算机设备和存储介质
CN113722156A (zh) * 2021-11-02 2021-11-30 四川华鲲振宇智能科技有限责任公司 一种PCIe设备N+1冗余备份方法及***
CN113722156B (zh) * 2021-11-02 2022-02-18 四川华鲲振宇智能科技有限责任公司 一种PCIe设备N+1冗余备份方法及***
WO2023082332A1 (zh) * 2021-11-10 2023-05-19 锐凌无线有限责任公司 一种故障恢复方法、装置、设备及计算机可读存储介质
CN114301762A (zh) * 2022-01-06 2022-04-08 云控智行科技有限公司 路侧感知***远程维护方法、装置及设备

Also Published As

Publication number Publication date
US11144416B2 (en) 2021-10-12
CN108228374B (zh) 2021-08-20
US20200310933A1 (en) 2020-10-01
WO2019129022A1 (zh) 2019-07-04

Similar Documents

Publication Publication Date Title
CN108228374A (zh) 一种设备的故障处理方法、装置及***
CN104281511B (zh) 智能平台管理接口***、基板管理控制器及实现方法
CN107818021A (zh) 使用bmc作为代理nvmeof发现控制器向主机提供nvm子***的方法
CN104077199B (zh) 基于共享磁盘的高可用集群的隔离方法和***
CN106452846A (zh) 故障处理方法、虚拟架构管理***和业务管理***
CN101820359B (zh) 一种网络设备的故障处理方法和设备
US20140075083A1 (en) Concurrent repair of the pcie switch units in a tightly-coupled, multi-switch, multi-adapter, multi-host distributed system
CN107948063B (zh) 一种建立聚合链路的方法和接入设备
US20170024353A1 (en) Dedicated lan interface per ipmi instance on a multiple baseboard management controller (bmc) system with single physical network interface
CN105577408A (zh) 一种vnfm容灾保护的方法、装置和nfvo
CN104170307B (zh) 失效切换方法、装置和***
CN107528829A (zh) Bmc芯片、服务器端及其远程监控管理方法
EP2069934B1 (en) Fault-tolerant medium access control (mac) address assignment in network elements
CN105379192A (zh) 硬件管理通信协议
US8516102B2 (en) Computer managing method
CN115129249A (zh) Sas链路拓扑识别管理方法、***、终端及存储介质
CN103890713B (zh) 用于管理处理***内的寄存器信息的装置及方法
US20150269237A1 (en) Disaster Recovery of Converged Infrastructure Platforms
CN116668283A (zh) 基于PCIe的网络传输配置方法及服务器
CN103873294A (zh) 一种issu升级过程中ppp链路保活的方法和设备
CN106169982B (zh) 扩展端口的处理方法、装置及***
CN106897175A (zh) 热替换nc节点的方法及装置
CN107968718B (zh) 一种确认主备用状态的方法、装置和设备
CN109831326A (zh) 网络设备控制方法及网络设备
CN104486127A (zh) 一种基于可信管理单元的冗余可信服务器管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant