CN111488233A - 一种处理PCIe设备掉带宽问题的方法及*** - Google Patents

一种处理PCIe设备掉带宽问题的方法及*** Download PDF

Info

Publication number
CN111488233A
CN111488233A CN202010254405.3A CN202010254405A CN111488233A CN 111488233 A CN111488233 A CN 111488233A CN 202010254405 A CN202010254405 A CN 202010254405A CN 111488233 A CN111488233 A CN 111488233A
Authority
CN
China
Prior art keywords
pcie
bandwidth
equipment
restarting
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010254405.3A
Other languages
English (en)
Inventor
孙一心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010254405.3A priority Critical patent/CN111488233A/zh
Publication of CN111488233A publication Critical patent/CN111488233A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种处理PCIe设备掉带宽问题的方法及***,该方法包括:获取PCIe端口速率协商结果;根据该协商结果和PCIe配置信息,判断当前PCIe设备的带宽是否正常,如果否,重新启动服务器上电时序,并记录一次重启次数;返回判断步骤并统计重启次数,当重启次数≥设定的重启次数时,判定为硬故障并停止重启,执行正常开机过程并记录PCIe设备的故障位置。该***包括:协商结果获取模块、判断模块、post模块、重启模块、重启次数存储模块、停止模块以及故障定位模块。该***还包括:该***包括:BIOS、PCH、EEPROM、BMC以及CPLD,EEPROM设置于服务器中,PCH与BMC通信连接,所述PCH通过GPIO信号与CPLD连接。通过本申请,能够有效提高故障处理效率和服务器的稳定性。

Description

一种处理PCIe设备掉带宽问题的方法及***
技术领域
本申请涉及服务器信息传输技术领域,特别是涉及一种处理PCIe(peripheralcomponent interconnect express,一种高速串行计算机扩展总线标准)设备掉带宽问题的方法及***。
背景技术
PCIe协议是服务器的重要***协议,通常应用于X86平台、arm平台、PowerPC平台等,以满足服务器的不同功能需求。但是PCIe设备的高速率容易产生一类常见故障,即:掉带宽故障。掉带宽故障通常包括两种情况:掉lane,即:lane从X16降低为X8,或者从X8降低为X4等;掉速率,即:PCIe速率从Gen3降为Gen2,或者从Gen3将为Gen1等。因此,如何处理PCIe设备掉带宽问题,从而确保PCIe设备运行稳定性,提高服务器运行稳定性,是个重要问题。
目前处理PCIe设备掉带宽问题的方法,通常是发生PCIe设备掉带宽之后,结合掉带宽的信息,根据经验预测可能的原因,然后针对硬件逐一进行验证,最终确定掉带宽原因并进行故障处理。
然而,目前处理PCIe设备掉带宽问题的方法,由于只要发生PCIe设备掉带宽即启动故障处理程序,对硬件进行故障排查,硬件故障排查频率较高。而且,对任何一次掉带宽现象需要对硬件逐一检查,实际原因无法在较短的时间内确定,使得故障处理效率较低。
发明内容
本申请提供了一种处理PCIe设备掉带宽问题的方法及***,以解决现有技术中PCIe设备掉带宽故障处理效率较低的问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种处理PCIe设备掉带宽问题的方法,所述方法包括:
S1:获取PCIe端口速率协商结果;
S2:根据所述PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,所述PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率;
S3:如果当前PCIe设备的带宽正常,执行正常开机过程;
S4:如果当前PCIe设备的带宽不正常,重新启动服务器上电时序,并记录一次重启次数;
S5:返回步骤S2-S4,并统计重启次数;
S6:当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启;
S7:执行正常开机过程并记录PCIe设备的故障位置。
可选地,所述方法还包括:
当重启次数小于设定的重启次数且当前PCIe设备的带宽正常时,将重启次数清零;
当重启次数小于设定的重启次数且当前PCIe设备的带宽不正常时,返回步骤S4。
可选地,所述重新启动服务器上电时序,并记录一次重启次数,包括:
利用BIOS(Basic Input Output System,基本输入输出***)拉低PCH(PlatformController Hub,intel公司的集成南桥)的GPIO(General-purpose input/output,通用输入/输出口)信号,生成低电平GPIO信号;
将所述低电平GPIO信号发送至CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件),同时,将重启次数记录至服务器的EEPROM(Electrically ErasableProgrammable Read-Only Memory,带电可擦可编程只读存储器)中;
CPLD根据所述低电平GPIO信号终止当前上电过程,并重新对服务器进行上电。
可选地,所述执行正常开机过程并记录PCIe设备的故障位置,包括:
BIOS执行正常开机过程直至进入操作***;并且,
将发生故障的PCIe设备的故障槽位BDF(Bus/Device/Function,总线/设备/功能,PCIe总线中的每一个功能的标识符)位置记录至BMC(Baseboard Management Controller,基板管理控制器)中。
可选地,所述设定的重启次数为3。
一种处理PCIe设备掉带宽问题的***,所述***包括:
协商结果获取模块,用于获取PCIe端口速率协商结果;
判断模块,用于根据所述PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,所述PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率;
post模块,用于当前PCIe设备的带宽正常时,执行正常开机过程;
重启模块,用于当前PCIe设备的带宽不正常时,重新启动服务器上电时序;
重启次数存储模块,用于记录和统计重启次数;
停止模块,用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启;
所述post模块,还用于当判定PCIe设备掉带宽为硬故障并停止重启时,执行正常开机过程;
故障定位模块,用于记录PCIe设备的故障位置。
可选地,所述***中还包括重置模块,用于当重启次数小于设定的重启次数且当前PCIe设备的带宽正常时,将重启次数清零。
可选地,所述设定的重启次数为3。
一种处理PCIe设备掉带宽问题的***,所述***包括:BIOS、PCH、EEPROM、BMC以及CPLD,所述EEPROM设置于服务器中,所述PCH与BMC通信连接,所述PCH通过GPIO信号与CPLD连接;
所述BIOS,用于获取PCIe端口速率协商结果,以及,根据所述PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,所述PCIe配置信息包括:PCIe端口、PCIe设备带宽、PCIe设备速率以及PCIe端口与PCIe设备带宽、PCIe设备速率之间的映射关系,任一PCIe端口与一个PCIe设备带宽以及一个PCIe设备速率相匹配;
所述BIOS,还用于当前PCIe设备的带宽正常时,执行正常开机过程,以及当前PCIe设备的带宽不正常时,通过PCH启动CPLD;
所述CPLD,用于当前PCIe设备的带宽不正常时,重新启动服务器上电时序;
所述EEPROM,用于记录和统计重启次数;
所述BIOS,还用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启;
所述BMC,用于记录PCIe设备的故障位置。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供一种处理PCIe设备掉带宽问题的方法,该方法首先获取PCIe端口速率协商结果,然后根据该协商结果和PCIe配置信息判断当前PCIe设备的带宽是否正常,如果不正常重启上电程序并记录一次重启次数,重复执行判断多次并统计重启次数,当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启,继续执行正常开机过程并记录PCIe设备的故障位置。本实施例通过重启上电过程,能够避免非硬故障导致的PCIe设备掉带宽问题,通过重启即可重新建立稳定的链路,从而避免高频率的硬件检测,有利于提高故障处理效率。而且本实施例设置有设定的重启次数,即:对重启次数设定一目标值,当重启次数≥设定的重启次数时不再进行重启,而是继续执行正常开机过程,通过设定的重启次数这一参数,能够有效地区分硬故障与非硬故障导致的PCIe设备掉带宽,既能够充分利用重启这种处理PCIe设备掉带宽的快速方法,又能够避免大量的重复重启,有利于提高故障处理效率。
本申请还提供一种处理PCIe设备掉带宽问题的***,该***主要包括:协商结果获取模块、判断模块、post模块、重启模块、重启次数存储模块、停止模块以及故障定位模块。通过重启模块的设置,能够利用重启的方式解决部分非硬件故障导致的PCIe设备掉带宽问题,有利于提高PCIe设备掉带宽问题的处理效率。判断模块和重启次数存储模块的设置,充分利用设定的重启次数,对重启次数进行限制,既能避免多次无效的重启,又能够相对准确地判断硬件故障和非硬件故障所导致的PCIe设备掉带宽,从而根据不同的原因采用不同的处理方式,有利于提高故障处理效率。
本申请还提供另一种处理PCIe设备掉带宽问题的***,该***包括:BIOS、PCH、EEPROM、BMC以及CPLD,EEPROM设置于服务器中,PCH与BMC通信连接,所述PCH通过GPIO信号与CPLD连接。通过BIOS能够有序采集PCIe端口速率协商结果并判断PCIe设备的带宽是否正常,以及带宽不正常时及时通过PCH启动CPLD,并通过BIOS设置重启次数,利用EEPROM记录和统计重启次数,不会因为断电而使得重启次数清零,有利于提高故障判断的准确性和稳定性。本实施例还采用BMC记录PCIe设备的故障位置,为后续故障处理提供依据,有利于提高故障处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种处理PCIe设备掉带宽问题的方法的流程示意图;
图2为本申请实施例所提供的一种处理PCIe设备掉带宽问题的***的结构示意图;
图3为本申请实施例所提供的另一种处理PCIe设备掉带宽问题的***的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了更好地理解本申请,下面结合附图来详细解释本申请的实施方式。
实施例一
参见图1,图1为本申请实施例所提供的一种处理PCIe设备掉带宽问题的方法的流程示意图。由图1可知,本实施例中处理PCIe设备掉带宽问题的方法,主要包括如下过程:
S1:获取PCIe端口速率协商结果。
本实施例中PCIe端口速率协商也就是PCIe port training。每次上电时,根据PCIe协议的规定,BIOS会控制CPU的PCIe端口与PCIe设备进行速率协商。PCIe端口速率协商过程结束后,获取PCIe端口速率协商结果。
本实施例中的PCIe设备主要包括:Raid卡、SAS卡、网卡、GPU卡以及FPGA卡等。
S2:根据PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常。
当PCIe端口速率协商结果和服务器中存储的PCIe配置信息一致时,判定当前PCIe设备的带宽正常,否则,判定当前PCIe设备的带宽不正常。本实施例中的带宽正常包括:PCIe端口速率协商结果显示当前PCIe设备的速率与PCIe配置信息中的速率一致,且,PCIe端口速率协商结果显示当前PCIe设备的带宽与PCIe配置信息中的带宽一致。带宽不正常包括:PCIe端口速率协商结果显示当前PCIe设备的速率与PCIe配置信息中的速率不一致,和/或,PCIe端口速率协商结果显示当前PCIe设备的带宽与PCIe配置信息中的带宽不一致。
服务器平台中设置有EEPROM,用于存储FRU信息,该FRU信息包括:厂家、型号、SN、制造商、PCIe配置名称等。根据配置名称可以唯一指定服务器的PCIe配置,即:根据配置名称可以确定某个PCIe端口上连接的是哪种带宽和速率的PCIe设备。本实施例中的PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率。此处映射关系,即某个PCIe端口上连接的是哪种带宽和速率的PCIe设备。PCIe带宽又称PCIe lane,即:PCIe X16、PCIe X8、PCIe X4等。
继续参见图1可知,如果当前PCIe设备的带宽正常,执行步骤S3:执行正常开机过程。本实施例中的正常开机过程通常称为post过程。
如果当前PCIe设备的带宽不正常,执行步骤S4:重新启动服务器上电时序,并记录一次重启次数。
具体地,步骤S4包括:
S41:利用BIOS拉低PCH的GPIO信号,生成低电平GPIO信号。
S42:将低电平GPIO信号发送至CPLD,同时,将重启次数记录至服务器的EEPROM中。
S43:CPLD根据低电平GPIO信号终止当前上电过程,并重新对服务器进行上电。
由以上步骤S41-S43可知,当PCIe设备的带宽不正常时即出现掉带宽问题,在BIOS的控制下拉低PCH的GPIO信号,该GPIO信号发送至CPLD,同时将重启次数记录到EEPROM中,用于记录重启次数。当CPLD检测到低电平GPIO信号时,中止当前的上电过程,重新进行上电。
S5:返回步骤S2-S4,并统计重启次数。
以上步骤S2-S4为一次循环,如果当前PCIe设备的带宽正常,继续执行上电后的后续程序,跳出循环。如果当前PCIe设备的带宽不正常,重启,并记录重启次数,进入循环,再次执行步骤S2-S4,并根据步骤S5统计重启次数。
当重启次数≥设定的重启次数时,执行步骤S6:判定PCIe设备掉带宽为硬故障并停止重启。
本实施例中的硬故障指的是:由于硬件设备的老化、失效或损坏带来的一系列故障。主要包括:机械故障、硬件故障以及软件故障等。
S7:执行正常开机过程并记录PCIe设备的故障位置。
具体地,步骤S7包括:
S71:BIOS执行正常开机过程直至进入操作***;同时,
S72:将发生故障的PCIe设备的故障槽位BDF位置记录至BMC中。
后续运维人员可以根据故障槽位的BDF位置进行故障排查。
由以上步骤S6和S7可知,当重启次数达到设定的重启次数时,可以判定当前的PCIe设备掉带宽问题不是重启能够解决的,判定为硬故障,此时停止重启,继续执行正常开机过程,同时,记录PCIe设备的故障位置。通过步骤S6能够避免一直执行步骤S2-S4,从而根据判定的故障原因进行下一步的故障处理,有利于提高故障处理效率。通过设定重启次数,能够对掉带宽的原因进行界定,确定是硬故障还是非硬故障,从而避免多次无效重启,有利于提高故障判断效率。
进一步地,本实施例中设定的重启次数取值为3,当重启次数为3次时或者3次以上时,判定PCIe设备掉带宽为硬故障并停止重启。通常重启3次后PCIe设备带宽还是不正常,即判定为硬故障并停止重启。
相应地,当重启次数小于设定的重启次数时,如果当前PCIe设备的带宽正常,执行步骤S8:将重启次数清零,有利于节省存储空间,且能够避免后续处理PCIe设备掉带宽问题时的计数误差,从而提高故障处理的准确性。
当重启次数小于设定的重启次数时,如果当前PCIe设备的带宽不正常,则返回步骤S4,重新启动服务器上电时序,并记录一次重启次数。
实施例二
在图1所示实施例的基础之上参见图2,图2为本申请实施例所提供的一种处理PCIe设备掉带宽问题的***的结构示意图。由图2可知,本实施例中处理PCIe设备掉带宽问题的***,主要包括:协商结果获取模块、判断模块、post模块、重启模块、重启次数存储模块、停止模块以及故障定位模块。
其中,协商结果获取模块,用于获取PCIe端口速率协商结果。判断模块,用于根据PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率。post模块,用于当前PCIe设备的带宽正常时,执行正常开机过程。重启模块,用于当前PCIe设备的带宽不正常时,重新启动服务器上电时序。重启次数存储模块,用于记录和统计重启次数。停止模块,用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启。post模块,还用于当判定PCIe设备掉带宽为硬故障并停止重启时,执行正常开机过程。故障定位模块,用于记录PCIe设备的故障位置。本实施中设定的重启次数设置为3。
进一步地,该***中还包括重置模块,用于当重启次数小于设定的重启次数且当前PCIe设备的带宽正常时,将重启次数清零。重置模块的设置,有利于节省服务器的空间。还能够避免利用该***处理后续的PCIe设备掉带宽问题时,出现重启次数混淆,有利于提高故障处理的准确性。
该实施例中处理PCIe设备掉带宽问题的***的工作原理和工作方法,在图1所示的实施例中已经详细阐述,在此不再赘述。
实施例三
在图1和图2所示实施例的基础之上参见图3,图3为本申请实施例所提供的另一种处理PCIe设备掉带宽问题的***的结构示意图。由图3可知,该***中主要包括:BIOS、PCH、EEPROM、BMC以及CPLD,其中,EEPROM设置于服务器中,PCH与BMC通信连接,PCH通过GPIO信号与CPLD连接。
其中,BIOS用于获取PCIe端口速率协商结果,以及,根据PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,PCIe配置信息包括:PCIe端口、PCIe设备带宽、PCIe设备速率以及PCIe端口与PCIe设备带宽、PCIe设备速率之间的映射关系,任一PCIe端口与一个PCIe设备带宽以及一个PCIe设备速率相匹配。BIOS还用于当前PCIe设备的带宽正常时,执行正常开机过程,以及当前PCIe设备的带宽不正常时,通过PCH启动CPLD。CPLD用于当前PCIe设备的带宽不正常时,重新启动服务器上电时序。EEPROM用于记录和统计重启次数。BIOS还用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启。BMC用于记录PCIe设备的故障位置。
进一步地,本实施例中BIOS主要包括:协商结果获取模块、判断模块、post模块以及停止模块。其中,协商结果获取模块,用于获取PCIe端口速率协商结果。判断模块,用于根据PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率。post模块,用于当前PCIe设备的带宽正常时,执行正常开机过程。停止模块,用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启。
该实施例中未详细描述的部分可以参见图1-图2所示的实施例,三个实施例之间可以互相参照,在此不再赘述。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种处理PCIe设备掉带宽问题的方法,其特征在于,所述方法包括:
S1:获取PCIe端口速率协商结果;
S2:根据所述PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,所述PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率;
S3:如果当前PCIe设备的带宽正常,执行正常开机过程;
S4:如果当前PCIe设备的带宽不正常,重新启动服务器上电时序,并记录一次重启次数;
S5:返回步骤S2-S4,并统计重启次数;
S6:当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启;
S7:执行正常开机过程并记录PCIe设备的故障位置。
2.根据权利要求1所述的一种处理PCIe设备掉带宽问题的方法,其特征在于,所述方法还包括:
当重启次数小于设定的重启次数且当前PCIe设备的带宽正常时,将重启次数清零;
当重启次数小于设定的重启次数且当前PCIe设备的带宽不正常时,返回步骤S4。
3.根据权利要求1所述的一种处理PCIe设备掉带宽问题的方法,其特征在于,所述重新启动服务器上电时序,并记录一次重启次数,包括:
利用BIOS拉低PCH的GPIO信号,生成低电平GPIO信号;
将所述低电平GPIO信号发送至CPLD,同时,将重启次数记录至服务器的EEPROM中;
CPLD根据所述低电平GPIO信号终止当前上电过程,并重新对服务器进行上电。
4.根据权利要求1所述的一种处理PCIe设备掉带宽问题的方法,其特征在于,所述执行正常开机过程并记录PCIe设备的故障位置,包括:
BIOS执行正常开机过程直至进入操作***;并且,
将发生故障的PCIe设备的故障槽位BDF位置记录至BMC中。
5.根据权利要求1-4中任一所述的一种处理PCIe设备掉带宽问题的方法,其特征在于,所述设定的重启次数为3。
6.一种处理PCIe设备掉带宽问题的***,其特征在于,所述***包括:
协商结果获取模块,用于获取PCIe端口速率协商结果;
判断模块,用于根据所述PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,所述PCIe配置信息包括:PCIe端口、PCIe设备以及PCIe端口与PCIe设备之间的映射关系,任一PCIe设备具有特定的PCIe带宽和PCIe速率;
post模块,用于当前PCIe设备的带宽正常时,执行正常开机过程;
重启模块,用于当前PCIe设备的带宽不正常时,重新启动服务器上电时序;
重启次数存储模块,用于记录和统计重启次数;
停止模块,用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启;
所述post模块,还用于当判定PCIe设备掉带宽为硬故障并停止重启时,执行正常开机过程;
故障定位模块,用于记录PCIe设备的故障位置。
7.根据权利要求6所述的一种处理PCIe设备掉带宽问题的***,其特征在于,所述***中还包括重置模块,用于当重启次数小于设定的重启次数且当前PCIe设备的带宽正常时,将重启次数清零。
8.根据权利要求6或7所述的一种处理PCIe设备掉带宽问题的***,其特征在于,所述设定的重启次数为3。
9.一种处理PCIe设备掉带宽问题的***,其特征在于,所述***包括:BIOS、PCH、EEPROM、BMC以及CPLD,所述EEPROM设置于服务器中,所述PCH与BMC通信连接,所述PCH通过GPIO信号与CPLD连接;
所述BIOS,用于获取PCIe端口速率协商结果,以及,根据所述PCIe端口速率协商结果和服务器中存储的PCIe配置信息,判断当前PCIe设备的带宽是否正常,所述PCIe配置信息包括:PCIe端口、PCIe设备带宽、PCIe设备速率以及PCIe端口与PCIe设备带宽、PCIe设备速率之间的映射关系,任一PCIe端口与一个PCIe设备带宽以及一个PCIe设备速率相匹配;
所述BIOS,还用于当前PCIe设备的带宽正常时,执行正常开机过程,以及当前PCIe设备的带宽不正常时,通过PCH启动CPLD;
所述CPLD,用于当前PCIe设备的带宽不正常时,重新启动服务器上电时序;
所述EEPROM,用于记录和统计重启次数;
所述BIOS,还用于当重启次数≥设定的重启次数时,判定PCIe设备掉带宽为硬故障并停止重启;
所述BMC,用于记录PCIe设备的故障位置。
CN202010254405.3A 2020-04-02 2020-04-02 一种处理PCIe设备掉带宽问题的方法及*** Withdrawn CN111488233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010254405.3A CN111488233A (zh) 2020-04-02 2020-04-02 一种处理PCIe设备掉带宽问题的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254405.3A CN111488233A (zh) 2020-04-02 2020-04-02 一种处理PCIe设备掉带宽问题的方法及***

Publications (1)

Publication Number Publication Date
CN111488233A true CN111488233A (zh) 2020-08-04

Family

ID=71794561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254405.3A Withdrawn CN111488233A (zh) 2020-04-02 2020-04-02 一种处理PCIe设备掉带宽问题的方法及***

Country Status (1)

Country Link
CN (1) CN111488233A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015597A (zh) * 2020-10-26 2020-12-01 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质
CN113391631A (zh) * 2021-05-11 2021-09-14 北京迈格威科技有限公司 移动装置的运行控制方法、装置、存储介质及移动装置
CN113448785A (zh) * 2021-05-28 2021-09-28 山东英信计算机技术有限公司 一种带宽状态异常的处理方法、装置、设备及可读介质
CN113590511A (zh) * 2021-10-08 2021-11-02 苏州浪潮智能科技有限公司 一种带宽降速修复方法、装置及电子设备
CN113626231A (zh) * 2021-06-29 2021-11-09 浪潮电子信息产业股份有限公司 一种基于bios配置sas raid卡的方法及***
CN113688087A (zh) * 2021-10-25 2021-11-23 苏州浪潮智能科技有限公司 一种pcie设备枚举方法、***、存储介质及设备
CN113703850A (zh) * 2021-07-16 2021-11-26 苏州浪潮智能科技有限公司 一种bios程序的启动方法、***及相关组件
CN114003535A (zh) * 2021-10-14 2022-02-01 苏州浪潮智能科技有限公司 一种设备带宽配置方法、***及电子设备和存储介质
WO2022111048A1 (zh) * 2020-11-30 2022-06-02 苏州浪潮智能科技有限公司 一种电源控制方法、装置、服务器及非易失性存储介质
CN115080490A (zh) * 2022-06-17 2022-09-20 苏州浪潮智能科技有限公司 一种自适应调优的spi通信方法及***
CN115756941A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 设备的自动修复方法、装置、电子设备及存储介质
CN115909674A (zh) * 2023-02-13 2023-04-04 成都秦川物联网科技股份有限公司 基于智慧燃气的报警器与燃气表联动方法和物联网***

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015597B (zh) * 2020-10-26 2021-04-13 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质
CN112015597A (zh) * 2020-10-26 2020-12-01 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质
WO2022111048A1 (zh) * 2020-11-30 2022-06-02 苏州浪潮智能科技有限公司 一种电源控制方法、装置、服务器及非易失性存储介质
CN113391631A (zh) * 2021-05-11 2021-09-14 北京迈格威科技有限公司 移动装置的运行控制方法、装置、存储介质及移动装置
CN113448785A (zh) * 2021-05-28 2021-09-28 山东英信计算机技术有限公司 一种带宽状态异常的处理方法、装置、设备及可读介质
CN113626231A (zh) * 2021-06-29 2021-11-09 浪潮电子信息产业股份有限公司 一种基于bios配置sas raid卡的方法及***
CN113703850B (zh) * 2021-07-16 2023-08-04 苏州浪潮智能科技有限公司 一种bios程序的启动方法、***及相关组件
CN113703850A (zh) * 2021-07-16 2021-11-26 苏州浪潮智能科技有限公司 一种bios程序的启动方法、***及相关组件
WO2023056744A1 (zh) * 2021-10-08 2023-04-13 苏州浪潮智能科技有限公司 一种带宽降速修复方法、装置、电子设备及存储介质
CN113590511A (zh) * 2021-10-08 2021-11-02 苏州浪潮智能科技有限公司 一种带宽降速修复方法、装置及电子设备
CN114003535A (zh) * 2021-10-14 2022-02-01 苏州浪潮智能科技有限公司 一种设备带宽配置方法、***及电子设备和存储介质
CN114003535B (zh) * 2021-10-14 2023-07-14 苏州浪潮智能科技有限公司 一种设备带宽配置方法、***及电子设备和存储介质
CN113688087A (zh) * 2021-10-25 2021-11-23 苏州浪潮智能科技有限公司 一种pcie设备枚举方法、***、存储介质及设备
CN115080490A (zh) * 2022-06-17 2022-09-20 苏州浪潮智能科技有限公司 一种自适应调优的spi通信方法及***
CN115080490B (zh) * 2022-06-17 2023-07-18 苏州浪潮智能科技有限公司 一种自适应调优的spi通信方法及***
CN115756941A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 设备的自动修复方法、装置、电子设备及存储介质
WO2024148876A1 (zh) * 2023-01-09 2024-07-18 苏州元脑智能科技有限公司 设备的自动修复方法、装置、电子设备及存储介质
CN115909674A (zh) * 2023-02-13 2023-04-04 成都秦川物联网科技股份有限公司 基于智慧燃气的报警器与燃气表联动方法和物联网***
US11989007B2 (en) 2023-02-13 2024-05-21 Chengdu Qinchuan Iot Technology Co., Ltd. Methods for linkage between alarm based on gas and gas meter and internet of things systems thereof

Similar Documents

Publication Publication Date Title
CN111488233A (zh) 一种处理PCIe设备掉带宽问题的方法及***
CN112948157B (zh) 服务器故障定位方法、装置、***及计算机可读存储介质
CN108228374B (zh) 一种设备的故障处理方法、装置及***
US20230333621A1 (en) Server firmware self-recovery system and server
US8954629B2 (en) Adapter and debugging method using the same
CN114116280B (zh) 交互式bmc自恢复方法、***、终端及存储介质
CN112825011A (zh) PCIe设备的上下电控制方法以及***
CN113360347A (zh) 一种服务器及其控制方法
CN111338698A (zh) 一种bios准确引导服务器启动的方法及***
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、***及介质
WO2024124862A1 (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN116089139A (zh) 一种串口硬盘故障处理方法、装置、介质
CN113220324B (zh) 一种cpld远程更新的方法、***及介质
WO2021169476A1 (zh) 一种服务器扩充***及其电源控制方法
CN114510374A (zh) 一种外设挂载失败自动恢复***及方法
CN108388481B (zh) Olt设备的智能看门狗电路***
CN112052024A (zh) 一种兆芯服务器bios的升级方法、装置、设备及介质
CN111949462A (zh) 一种确定cpu超频范围的方法及***
CN112084049B (zh) 用于监控基板管理控制器的常驻程序的方法
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
CN113312214B (zh) 操作计算机的方法、装置、电子设备和存储介质
TWI726434B (zh) 排除管理引擎運作異常的控制方法
CN112463446B (zh) 一种PCIe设备恢复方法、***及电子设备和存储介质
TWI734357B (zh) 主機板及輔助測試主機板的方法
CN112115000B (zh) ***部件电源的远端重置方法、***及bmc远端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200804