CN117112317A - 故障处理***、方法、电子设备及存储介质 - Google Patents
故障处理***、方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117112317A CN117112317A CN202310919850.0A CN202310919850A CN117112317A CN 117112317 A CN117112317 A CN 117112317A CN 202310919850 A CN202310919850 A CN 202310919850A CN 117112317 A CN117112317 A CN 117112317A
- Authority
- CN
- China
- Prior art keywords
- processor
- management controller
- interrupt
- baseboard management
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000012545 processing Methods 0.000 title abstract description 48
- 230000002093 peripheral effect Effects 0.000 claims description 30
- 238000012544 monitoring process Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 abstract description 9
- 238000003672 processing method Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 53
- 230000008569 process Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 206010063385 Intellectualisation Diseases 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明提供了一种故障处理***、方法、电子设备及存储介质,包括多个处理器,第一处理器和第二处理器互为冗余,***还包括逻辑器件和基板管理控制器,第一处理器与第二处理器上分别设置一对中断接口,第一处理器与第二处理器通过中断接口与基板管理控制器相连,中断接口用于在监测到所在部件出现运行错误时上报错误信息至逻辑器件,基板管理控制器用于记录错误日志,逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。本发明互为冗余的处理器,在当前运行处理器出现故障时,通过中断机制及时上报错误,及时切换故障处理器,实现故障快速上报处理。
Description
技术领域
本发明涉及服务器技术领域,特别是涉及一种故障处理***、方法、电子设备及存储介质。
背景技术
随着人工智能、机器学习、高性能计算等诸多复杂计算场景日新月异的发展,对数据中心架构提出了新的要求,为满足不同场景下不同需求,数据中心正在加速从以计算为中心的架构向以数据为中心的融合架构转变。
融合架构下的服务器处理器CPU常配置有带外接口,基于带外接口服务器中的基板管理控制器(baseboard management controller,BMC)可以监测记录CPU的状态。目前,服务器是通过BMC获取各个部件的传感器信息,通过阈值判断服务器是否出现故障错误,或者通过带外IPMI获取错误报告。
然而,BMC获取到各种错误报告后,并不会对错误进行处理,只会记录显示出来,服务器中出现的故障错误需要人为操作处理,故障处理效率低下,影响服务器的稳定性。
发明内容
有鉴于此,本发明旨在提出一种故障处理***、方法、电子设备及存储介质,解决的问题,实现故障快速上报、及时处理,提高故障处理效率,保证服务器稳定运行。
依据本发明的第一方面,提供了一种故障处理***,所述***包括多个处理器,所述处理器包括第一处理器和第二处理器,所述第一处理器和所述第二处理器互为冗余,所述***还包括逻辑器件和基板管理控制器;
所述第一处理器与所述第二处理器上分别设置一对中断接口,所述第一处理器与所述第二处理器通过所述中断接口与所述基板管理控制器相连;
所述中断接口用于在监测到所在部件出现运行错误时上报错误信息至所述逻辑器件,所述基板管理控制器用于记录错误日志;
所述逻辑器件用于若接收到所述第一处理器的错误信息,将所述第一处理器上的运行数据切换至所述第二处理器,并控制所述第一处理器重启为冗余状态。
进一步的,所述基板管理控制器上也设有一对中断接口,用于接收所述第一处理器和所述第二处理器的中断信号,并通过所述中断接口发送预设频率方波至所述第一处理器与所述第二处理器,以使所述第一处理器和所述第二处理器通过所述方波监控所述基板管理控制器运行状态。
进一步的,所述第一处理器和所述第二处理器用于在监测到所述基板管理控制器运行发生错误,且所述中断接口中断发送方波时,记录错误日志。
进一步的,所述第一处理器和所述第二处理器还用于在所述基板管理控制器中断接口恢复发送方波时,上报所述错误日志至所述逻辑器件,以控制所述基板管理控制器重启。
进一步的,所述***还包括高速外设组件互连标准,所述高速外设组件互连标准连接多个设备,所述高速外设组件互连标准用于监测多个所述设备的运行状态。
进一步的,所述高速外设组件互连标准还用于在监测到所述设备运行出现错误时,控制所述设备的中断接口上报错误信息至所述第一处理器;所述第一处理器通过所述逻辑器件控制所述设备复位;其中,所述设备在复位之前将所述设备的数据切换至正常的设备上。
进一步的,所述高速外设组件互连标准还用于当所述高速外设组件互连标准本身运行出现错误时,通过中断接口上报至所述第一处理器,将所述高速外设组件互连标准的数据切换至正常的高速外设组件互连标准,并通过所述第一处理器控制中断接口复位所述高速外设组件互连标准。
依据本发明的第二方面,提供了一种故障处理方法,应用于上述任一所述的故障处理***,所述方法包括:
监测所述第一处理器的运行状态;其中,所述第一处理器为当前运行的主处理器;
若监测到所述第一处理器器出现运行错误,上报错误信息至所述逻辑器件;
将所述第一处理器上的运行数据切换至所述第二处理器,并控制所述第一处理器重启为冗余状态。
根据本发明的又一方面,还提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上所述的故障处理方法。
根据本发明的又一方面,还提供一种可读存储介质,所述可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的故障处理方法的步骤。
本发明实施例提供的一种故障处理***,包括多个处理器,处理器包括互为冗余的第一处理器和第二处理器,还包括逻辑器件和基板管理控制器;第一处理器与第二处理器上分别设置一对中断接口,第一处理器与第二处理器通过中断接口与基板管理控制器相连,中断接口用于在监测到所在部件出现运行错误时上报错误信息至逻辑器件,基板管理控制器用于记录错误日志,逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。本发明实施例中利用多个处理器互为冗余,在当前运行的处理器出现故障时,通过中断机制及时上报错误,使得逻辑器件及时切换故障处理器,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化,避免无法及时处理故障出现整个***宕机的风险,增加平台的竞争力提高***可用性,进而提高服务器的可靠性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种故障处理***的结构示意图之一;
图2是本发明实施例提供的一种故障处理***的结构示意图之二;
图3是图1提供的本发明实施例的一种故障处理***的处理器连接示意图;
图4是本发明实施例提供的一种故障处理方法的步骤流程图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
现有的服务器架构上,由于涉及多个CPU和其他芯片等部件,当运行出现故障时排查困难,开发人员会在服务器产品开发过程中进行***测试,以及时发现产品设计中存在的问题进行解决,保证服务器新产品的研发质量,然而现有的研发阶段的故障处理主要依靠开发人员人工进行测试日志查找以及诊断资料查找或凭借自身经验进行故障处理,需要耗费大量人力且耗费时间较长,基于上述问题,本发明在多个处理器互为冗余的服务器架构上,在当前运行的处理器出现故障时,通过中断机制及时上报错误,使得逻辑器件及时切换故障处理器,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化。
参照图1,示出了本发明实施例提供的一种故障处理***的结构示意图,如图1所示,所述***包括多个处理器,处理器包括第一处理器和第二处理器,第一处理器和第二处理器互为冗余,所述***还包括逻辑器件和基板管理控制器;
第一处理器与第二处理器上分别设置一对中断接口,第一处理器与第二处理器通过中断接口与基板管理控制器相连;
中断接口用于在监测到所在部件出现运行错误时上报错误信息至逻辑器件,基板管理控制器用于记录错误日志;
逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。
本发明实施例中,故障上报***可以理解为服务器***,服务器包括多个处理器,***还包括逻辑器件和基板管理控制器,本实施例以第一处理器和第二处理器为例进行说明,第一处理器和第二处理器是互为冗余的CPU,默认开机时由第一处理器为主CPU,通过逻辑器件连接至各个设备,第二处理器为副CPU,当第一处理器运行过程中出现致命不可恢复的错误时,将运行在第一处理器上的各种程序切换至第二处理器,实现CPU故障的快速处理。
本实施例中第一处理器与第二处理器上分别设置一对中断接口,第一处理器与第二处理器通过中断接口与基板管理控制器相连。示例的,参照图2,第一处理器与第二处理器及基板管理控制器之间有两个中断GPIO,在图中为CPU INT GPIO X2,分别为第一处理器INT GPI、第一处理器INT GPO、第二处理器INT GPI、第二处理器INT GPO;第一处理器INTGPI与第二处理器INT GPO相连;第二处理器INT GPI与第一处理器INT GPO相连,基板管理控制器接收两个处理器的中断信号。
需要说明的是,本实施例中的中断接口即为GPIO(General-purpose input/output,通用型之输入输出),GPIO是一种均为带中断功能的GPIO,其中断机制是指计算机运行过程中,出现某些意外情况需主机干预时,机器能自动停止正在运行的程序并转入处理新情况的程序,处理完毕后又返回原被暂停的程序继续运行。需要说明的是,中断接口在运行过程中拥有最高优先级,当发现错误故障时,可以最快的通知主机,执行相应指令。中断接口用于在监测到所在部件出现运行错误时上报错误信息至逻辑器件,基板管理控制器用于记录错误日志。
具体的,本实施例中服务器的基板管理控制器(Baseboard ManagementController,BMC)主要负责服务器带外管理、***状态的监视,以及重启、重新供电、断电控制,在本实施例中,基板管理控制器主要作为负责刷新错误日志的功能实现。逻辑器件可以是CPLD,作为该服务器的逻辑器件,负责各板卡的各种逻辑切换和各个芯片、各模块上下电管理,具体负责监控所有部件运行状态,并根据处理命令执行各种故障处理操作。本实施例中,逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。
需要说明的是,正常情况下,第一处理器正常运行,第二处理器处于冗余状态,当第一处理器出现致命错误不可恢复是,由BIOS控制第一处理器的GPO端口,通过中断接口告知第二处理器切换运行状态,第一处理器将运行的数据存储后,发送至第二处理器,第二处理器接管运行;并且第一处理器通过中断接口告知基板管理控制器第一处理器出现致命错误不可以恢复时,将该错误信息记录在BMC日志。待第二处理器切换完后,基板管理控制器通过IIC通知逻辑器件CPLD重启第一处理器,逻辑器件CPLD通过CPLD GPIO管脚通知处理器板卡上的逻辑器件CPLD,使第一处理器处于冗余状态,等待接管第二处理器的运行数据。
示例的,***发生故障时,即当前运行中的第一处理器故障时,通过冗余的第二处理器CPU内的逻辑器件,将当前的控制功能自动切换到冗余第二处理器中,也就是说,当主CPU故障失效时,逻辑器件接到主CPU的故障信息后,在1至2个预设周期内将控制功能切换到备用CPU,备用CPU的输出开启,备用CPU控制***工作,主CPU的输出被禁止,这样使得当一个处理器故障时,不会影响其他部件继续工作,保证服务器的稳定性;需要说明的是,以上仅为具体的举例说明,其中预设周期的时长根据服务器的处理需求预先设置,可以根据实际故障上报要求调整,在此不作具体限定。
另外,第一处理器的故障恢复后,故障恢复的主CPU发信号到备用CPU,逻辑器件接收到主CPU故障恢复的信号后,在1至2个预设周期内将控制功能切换到主CPU中,主CPU控制服务器工作,备用CPU的输出被禁止。
本发明实施例提供的一种故障处理***,包括多个处理器,处理器包括互为冗余的第一处理器和第二处理器,还包括逻辑器件和基板管理控制器;第一处理器与第二处理器上分别设置一对中断接口,第一处理器与第二处理器通过中断接口与基板管理控制器相连,中断接口用于在监测到所在部件出现运行错误时上报错误信息至逻辑器件,基板管理控制器用于记录错误日志,逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。本发明实施例中利用多个处理器互为冗余,在当前运行的处理器出现故障时,通过中断机制及时上报错误,使得逻辑器件及时切换故障处理器,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化,避免无法及时处理故障出现整个***宕机的风险,增加平台的竞争力提高***可用性,进而提高服务器的可靠性。
参照图2,图2是本发明实施例提供的一种故障处理***的结构示意图之二,进一步的,本实施例中按照服务器中各板卡的连接关系,将错误类型按照板卡模块分类,分别为CPU错误、BMC错误、PCIe SW错误、Device错误,每种错误对应了各自的故障上报及处理方式。参照图3,是图1提供的本发明实施例的一种故障处理***的处理器连接示意图之一,基板管理控制器上也设有一对中断接口,用于接收第一处理器和第二处理器的中断信号,并通过中断接口发送预设频率方波至第一处理器与第二处理器,以使第一处理器和第二处理器通过方波监控基板管理控制器运行状态。
具体的,基板管理控制器BMC作为带外管理模块,在出现错误时并不会影响服务器***的正常运行,本实施例中BMC基板管理控制器上也设有一对中断接口,当做BMC的HeartBeat,代表BMC由于代码缺陷出现致命错误不可恢复时的标志,通过Heart Beat可以将资源(IP以及程序服务等资源)从一台已经故障的设备快速转移到另一台正常运转的机器上继续提供服务。
需要说明的是,正常状态下中断接口GPIO发出预设频率的方波,即通过中断接口发送预设频率方波至第一处理器与第二处理器,由第一处理器与第二处理器以及逻辑器件同时通过方波监控基板管理控制器运行状态。
进一步的,第一处理器和第二处理器用于在监测到基板管理控制器运行发生错误,且中断接口中断发送方波时,记录错误日志。
进一步的,第一处理器和第二处理器还用于在基板管理控制器中断接口恢复发送方波时,上报错误日志至逻辑器件,以控制基板管理控制器重启。
具体的,第一处理器和第二处理器若监控到基板管理控制器中断接口GPIO状态不变,即恢复发送方波时,由逻辑器件对基板管理控制器进行复位操作,使基板管理控制器重启,并由第一处理器和第二处理器上报错误日志,即在此故障过程中将原本基板管理控制器进行的记录错误日志功能转移至第一处理器和第二处理器执行,并在BMC正常工作后通过IPMI发送至BMC,由BMC重新记录。
本发明实施例中在当前运行的基板管理控制器出现故障时,通过中断机制及时上报错误,使得逻辑器件及时将故障BMC的运行数据切换至处理器,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化,避免无法及时处理故障出现整个***宕机的风险,增加平台的竞争力提高***可用性,进而提高服务器的可靠性。
进一步的,参照图3,所述***还包括高速外设组件互连标准,高速外设组件互连标准连接多个设备,高速外设组件互连标准用于监测多个设备的运行状态。
具体的,高速外设组件互连标准PCIe SW,用于扩展PCIe通道数量,使处理器上可以挂载更多的PCIe设备,可以通过PCIe带内监控设备状态。并且由于其内嵌入一个小的ARM核心,其SW有一定的数据处理能力,PCIe SW扩展CPU的PCIe通道,通过连接器使之可以下挂更多的PCIe device。
其中,连接器(Mini Cool Edge IO,MCIO)是一种灵活、坚固且具有高性价比的连接器,可帮助产品设计人员提高灵活性、降低整体空间要求并扩展高速信号的覆盖范围,在此不作限定。
进一步的,高速外设组件互连标准还用于在监测到设备运行出现错误时,控制设备的中断接口上报错误信息至所述第一处理器;第一处理器通过所述逻辑器件控制设备复位;其中,设备在复位之前将所述设备的数据切换至正常的设备上。
具体的,本实施例中,高速外设组件互连标准还用于监测设备运行状态,当设备出现错误时,错误信息会通过带内PCIe告知高速外设组件互连标准,高速外设组件互连标准在监测到设备运行出现错误时,控制设备的中断接口上报错误信息至第一处理器,第一处理器通过逻辑器件控制设备复位。
示例的,通过控制对应设备1的中断GPIO告知第一处理器,并同步至第二处理器及基板管理控制器。第一处理器判断错误不可恢复并导致设备运行异常时,第一处理器通过GPIO X5告知CPLD去复位对应故障设备。需要说明的是,GPIO X5代表5位GPIO,组合后可以代表32个状态,正好对应8个高速外设组件互连标准PCIe SW及挂载的24个设备。优选的,复位报错的故障设备前,需要将该故障设备上的数据无缝切换到另外正常设备后,再有第一处理器通过逻辑器件控制设备复位。
进一步的,所述高速外设组件互连标准还用于当所述高速外设组件互连标准本身运行出现错误时,通过中断接口上报至所述第一处理器,将所述高速外设组件互连标准的数据切换至正常的高速外设组件互连标准,并通过所述第一处理器控制中断接口复位所述高速外设组件互连标准。
示例的,当高速外设组件互连标准PCIe SW本身出现致命错误时,PCIe SW去通过GPIO告知处理器后,PCIe SW可以通过Fabric PCIe通道将运行的数据传送至另外一个PCIeSW,之后CPU通过控制GPIO X5来复位出现致命错误的SW。需要说明的是,所有PCIe SW及设备的致命错误都通过SWINT GPIO发送至BMC和CPU,故障的PCIe SW自动切换工作的设备,或者将自身的数据通过fabric PCIe发送至另一个正常的PCIe SW中。
本发明实施例中在当前运行的高速外设组件互连标准PCIe SW本身或者设备出现故障时,通过中断机制及时上报错误,使得逻辑器件及时将故障部件中的运行数据切换至正常部件,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化,避免无法及时处理故障出现整个***宕机的风险,增加平台的竞争力提高***可用性,进而提高服务器的可靠性。
本发明实施例提供的一种故障处理***,包括多个处理器,处理器包括互为冗余的第一处理器和第二处理器,还包括逻辑器件和基板管理控制器;第一处理器与第二处理器上分别设置一对中断接口,第一处理器与第二处理器通过中断接口与基板管理控制器相连,中断接口用于在监测到所在部件出现运行错误时上报错误信息至逻辑器件,基板管理控制器用于记录错误日志,逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。本发明实施例中利用多个处理器互为冗余,在当前运行的处理器出现故障时,通过中断机制及时上报错误,使得逻辑器件及时切换故障处理器,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化,避免无法及时处理故障出现整个***宕机的风险,增加平台的竞争力提高***可用性,进而提高服务器的可靠性。
参照图4,示出了本发明实施例提供的故障处理方法的步骤流程图,应用于图1至图3任一所示的故障处理***,所述方法可以包括:
步骤101,监测第一处理器的运行状态;其中,第一处理器为当前运行的主处理器。
在本发明实施例中,按照服务器中各板卡的连接关系,将错误类型按照板卡模块分类,分别为CPU错误、BMC错误、PCIe SW错误、Device错误,每种错误对应了各自的故障上报及处理方式,本实施例中以CPU错误为例进行说明。
具体的,第一处理器为当前运行的主处理器,服务器的基板管理控制器主要负责服务器带外管理、***状态的监视,以及重启、重新供电、断电控制,在本实施例中,基板管理控制器监测第一处理器的运行状态。
需要说明的是,第一处理器为当前运行的主处理器,当然,需要说明的是,本实施方式所述的第一处理器和第二处理器仅用于将处于运行状态下的主处理器和备份处理器进行区分,两者之间没有先后顺序。本实施方式仅以第一处理器是当前运行的主处理器,第二处理器是等待接管故障第一处理器的运行数据的备份处理器,为例进行说明而已。
步骤102,若监测到第一处理器器出现运行错误,上报错误信息至逻辑器件。
本发明实施例中,若监测到第一处理器器出现运行错误,上报错误信息至逻辑器件,逻辑器件负责各板卡的各种逻辑切换和各个芯片、各模块上下电管理,具体负责监控所有部件运行状态,并根据处理命令执行各种故障处理操作。
本实施例中通过中断接口即通用型之输入输出GPIO进行错误信息上报,其中,GPIO是一种均为带中断功能的GPIO,其中断机制是指计算机运行过程中,出现某些意外情况需主机干预时,机器能自动停止正在运行的程序并转入处理新情况的程序,处理完毕后又返回原被暂停的程序继续运行。需要说明的是,中断接口在运行过程中拥有最高优先级,当发现错误故障时,可以最快的通知主机,执行相应指令。
本实施例中,利用基板管理控制器记录错误日志,利用中断接口在监测到所在部件出现运行错误时上报错误信息至逻辑器件,以便于逻辑器件及时根据错误信息处理故障所在部件,进行数据迁移和设备切换。
步骤103,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。
本发明实施例中,在第一处理器器出现运行错误时,逻辑器件将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。
其中,逻辑器件负责各板卡的各种逻辑切换和各个芯片、各模块上下电管理,具体负责监控所有部件运行状态,并根据处理命令执行各种故障处理操作。本实施例中,逻辑器件用于若接收到第一处理器的错误信息,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。
具体的,本实施例中,第一处理器正常运行,第二处理器处于冗余状态,当第一处理器出现致命错误不可恢复是,由BIOS控制第一处理器的GPO端口,通过中断接口告知第二处理器切换运行状态,第一处理器将运行的数据存储后,发送至第二处理器,第二处理器接管运行;并且第一处理器通过中断接口告知基板管理控制器第一处理器出现致命错误不可以恢复时,将该错误信息记录在BMC日志。待第二处理器切换完后,基板管理控制器通过IIC通知逻辑器件CPLD重启第一处理器,逻辑器件CPLD通过CPLD GPIO管脚通知处理器板卡上的逻辑器件CPLD,使第一处理器处于冗余状态,等待接管第二处理器的运行数据。
本发明实施例提供的一种故障处理方法,本发明实施方式相对于现有技术而言,在实现第一实施方式带来的有益效果基础上,通过监测第一处理器的运行状态;其中,第一处理器为当前运行的主处理器,若监测到第一处理器器出现运行错误,上报错误信息至逻辑器件,将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。本发明实施例中利用多个处理器互为冗余,在当前运行的处理器出现故障时,通过中断机制及时上报错误,使得逻辑器件及时切换故障处理器,实现故障快速上报处理,整个***能够自动快速上报并处理各模块出现的致命性错误,实现故障处理的智能化,避免无法及时处理故障出现整个***宕机的风险,增加平台的竞争力提高***可用性,进而提高服务器的可靠性。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器201、通信接口202、存储器203和通信总线204,其中,处理器201,通信接口202,存储器203通过通信总线204完成相互间的通信,
存储器203,用于存放计算机程序;
处理器201,用于执行存储器203上所存放的程序时,实现如下步骤:
监测第一处理器的运行状态;其中,第一处理器为当前运行的主处理器。
若监测到第一处理器器出现运行错误,上报错误信息至逻辑器件。
将第一处理器上的运行数据切换至第二处理器,并控制第一处理器重启为冗余状态。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的故障处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种故障处理***,其特征在于,所述***包括多个处理器,所述处理器包括第一处理器和第二处理器,所述第一处理器和所述第二处理器互为冗余,所述***还包括逻辑器件和基板管理控制器;
所述第一处理器与所述第二处理器上分别设置一对中断接口,所述第一处理器与所述第二处理器通过所述中断接口与所述基板管理控制器相连;
所述中断接口用于在监测到所在部件出现运行错误时上报错误信息至所述逻辑器件,所述基板管理控制器用于记录错误日志;
所述逻辑器件用于若接收到所述第一处理器的错误信息,将所述第一处理器上的运行数据切换至所述第二处理器,并控制所述第一处理器重启为冗余状态。
2.根据权利要求1所述的故障处理***,其特征在于,所述基板管理控制器上也设有一对中断接口,用于接收所述第一处理器和所述第二处理器的中断信号,并通过所述中断接口发送预设频率方波至所述第一处理器与所述第二处理器,以使所述第一处理器和所述第二处理器通过所述方波监控所述基板管理控制器运行状态。
3.根据权利要求2所述的故障处理***,其特征在于,所述第一处理器和所述第二处理器用于在监测到所述基板管理控制器运行发生错误,且所述中断接口中断发送方波时,记录错误日志。
4.根据权利要求2所述的故障处理***,其特征在于,所述第一处理器和所述第二处理器还用于在所述基板管理控制器中断接口恢复发送方波时,上报所述错误日志至所述逻辑器件,以控制所述基板管理控制器重启。
5.根据权利要求1所述的故障处理***,其特征在于,所述***还包括高速外设组件互连标准,所述高速外设组件互连标准连接多个设备,所述高速外设组件互连标准用于监测多个所述设备的运行状态。
6.根据权利要求5所述的故障处理***,其特征在于,所述高速外设组件互连标准还用于在监测到所述设备运行出现错误时,控制所述设备的中断接口上报错误信息至所述第一处理器;所述第一处理器通过所述逻辑器件控制所述设备复位;其中,所述设备在复位之前将所述设备的数据切换至正常的设备上。
7.根据权利要求5所述的故障处理***,其特征在于,所述高速外设组件互连标准还用于当所述高速外设组件互连标准本身运行出现错误时,通过中断接口上报至所述第一处理器,将所述高速外设组件互连标准的数据切换至正常的高速外设组件互连标准,并通过所述第一处理器控制中断接口复位所述高速外设组件互连标准。
8.一种故障处理方法,其特征在于,应用于上述权利要求1至7任一所述的故障处理***,所述方法包括:
监测所述第一处理器的运行状态;其中,所述第一处理器为当前运行的主处理器;
若监测到所述第一处理器器出现运行错误,上报错误信息至所述逻辑器件;
将所述第一处理器上的运行数据切换至所述第二处理器,并控制所述第一处理器重启为冗余状态。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求8所述的故障处理方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求8所述的故障处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310919850.0A CN117112317A (zh) | 2023-07-25 | 2023-07-25 | 故障处理***、方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310919850.0A CN117112317A (zh) | 2023-07-25 | 2023-07-25 | 故障处理***、方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117112317A true CN117112317A (zh) | 2023-11-24 |
Family
ID=88802953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310919850.0A Pending CN117112317A (zh) | 2023-07-25 | 2023-07-25 | 故障处理***、方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112317A (zh) |
-
2023
- 2023-07-25 CN CN202310919850.0A patent/CN117112317A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8713350B2 (en) | Handling errors in a data processing system | |
EP2510439B1 (en) | Managing errors in a data processing system | |
US8812913B2 (en) | Method and apparatus for isolating storage devices to facilitate reliable communication | |
RU2614569C2 (ru) | Стойка с функцией автоматического восстановления и способ автоматического восстановления для этой стойки | |
CN104679610B (zh) | 计算机***的管理方法和装置 | |
US20130117518A1 (en) | System controller, information processing system and method of saving and restoring data in the information processing system | |
CN111399879A (zh) | 一种cpld的固件升级***和方法 | |
CN113360347A (zh) | 一种服务器及其控制方法 | |
CN115809164A (zh) | 嵌入式设备、嵌入式***和分级复位控制方法 | |
CN115617550A (zh) | 处理设备、控制单元、电子设备、方法和计算机程序 | |
JPH11203157A (ja) | 冗長装置 | |
WO2015135100A1 (zh) | 一种实现处理器切换的方法、计算机和切换装置 | |
US8819484B2 (en) | Dynamically reconfiguring a primary processor identity within a multi-processor socket server | |
CN111880992B (zh) | 一种存储设备中控制器状态的监测及维护方法 | |
CN212541329U (zh) | 基于国产龙芯平台的双冗余计算机设备 | |
CN115220937A (zh) | 存储管理的方法、电子设备和程序产品 | |
CN111147615B (zh) | Ip地址的接管方法、***、计算机可读存储介质及服务器 | |
CN117112317A (zh) | 故障处理***、方法、电子设备及存储介质 | |
CN116340058A (zh) | 主备切换方法及装置 | |
JP6654662B2 (ja) | サーバ装置およびサーバシステム | |
US11954509B2 (en) | Service continuation system and service continuation method between active and standby virtual servers | |
US8745436B2 (en) | Information processing apparatus, information processing system, and control method therefor | |
CN113742142B (zh) | 存储***管理sata硬盘的方法及存储*** | |
JPH11120154A (ja) | コンピュータシステムにおけるアクセス制御装置および方法 | |
CN113190184B (zh) | 一种硬件集群装置及一种存储设备管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |