CN112988517A - 一种基于bmc的gpu掉卡监控方法 - Google Patents
一种基于bmc的gpu掉卡监控方法 Download PDFInfo
- Publication number
- CN112988517A CN112988517A CN202110322723.3A CN202110322723A CN112988517A CN 112988517 A CN112988517 A CN 112988517A CN 202110322723 A CN202110322723 A CN 202110322723A CN 112988517 A CN112988517 A CN 112988517A
- Authority
- CN
- China
- Prior art keywords
- gpu
- bmc
- card
- monitoring method
- state information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3031—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/325—Display of status information by lamps or LED's
- G06F11/326—Display of status information by lamps or LED's for error or online/offline status
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于BMC的GPU掉卡监控方法,包括:BMC建立对GPU的轮询检测;BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;BMC对比两种方式分别获取的在位状态信息;BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。本发明直接通过BMC完成监控,无需额外添加检测设备和串口工具,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
Description
技术领域
本发明属于GPU管理技术领域,具体涉及名称替一种基于BMC的GPU掉卡监控方法。
背景技术
随着云计算、大数据、人工智能的广泛应用,对服务器的计算能力提出了更高的挑战,尤其是在针对图像进行计算处理方面,GPU作为服务器的***核心处理单元,掌握图像计算和处理的重要功能,在工作过程中必须与CPU进行实时交互,故关于GPU掉电的监控和上报极其重要,但是服务器空间有限,若格外添加检测设备则会造成空间拥挤和成本上升。
发明内容
针对现有技术的上述不足,本发明提供一种基于BMC的GPU掉卡监控方法,以解决上述技术问题。
第一方面,本发明提供一种基于BMC的GPU掉卡监控方法,包括:
BMC建立对GPU的轮询检测;
BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
BMC对比两种方式分别获取的在位状态信息;
BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
进一步的,所述在位状态信息包括在位数量。
进一步的,所述BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息,包括:
BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;
BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量。
进一步的,所述BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件,包括:
判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡。
进一步的,所述掉卡管理事件包括:在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯。
进一步的,所述方法还包括:
当服务器***重启或关机时,BMC停止掉卡管理事件,并启动新一轮的掉卡检测。
进一步的,所述方法还包括:
设置轮询检测的时间间隔,BMC按照设定的时间间隔执行两种方式获取GPU的在位状态信息。
进一步的,所述可编程器件为FPGA。
本发明的有益效果在于,
本发明提供的一种基于BMC的GPU掉卡监控方法,直接通过BMC完成监控,无需额外添加检测设备和串口工具,BMC将直接命令获取的GPU的在位状态信息和BIOS上报的在位状态信息进行对比,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
BMC:Baseboard Management Controller,基板管理控制器。
BIOS:Basic Input Output System,基本输入输出***。
GPU:Graphics Processing Unit,图形处理单元。
FPGA:Field Programmable Gate Array,现场可编程门阵列。
图1是本发明一个实施例的方法的示意性流程图。
如图1所示,该方法包括:
步骤110,BMC建立对GPU的轮询检测;
步骤120,BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
步骤130,BMC对比两种方式分别获取的在位状态信息;
步骤140,BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
具体的,所述一种基于BMC的GPU掉卡监控方法包括:
1、建立BMC针对GPU的状态信息轮询检测,设置轮询检测的时间间隔针对每个GPU设置根据轮询任务,根据GPU的重要性设置轮询任务的优先级,实现轮询检测的合理调度,在本实施例中,每轮检测之间间隔0.5秒,有利于本方法对多个GPU内进行自动执行;
2、BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息,在本实施例汇总,在本实施例汇总,在位状态信息取在位数量,即通过GPU的在位数量进行掉电的判断;
3、BMC获取GPU的在位状态信息包括通过直接查询和BIOS上报两种方式,其中,BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;在本实施中,可编程器件为FPGA,BMC通过给GPU板的FPGA芯片发送读取命令,获取到当前GPU的第一在位数量N1,无需安装GPU驱动和其他设备BMC直接读取GPU的信息;BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量,在本领域,通常BMC无法直接与BIOS进行交互,一般是BIOS的开机POST信息通过I2C总线传输至PCIE的资产信息中,BMC通过I2C总线连接读取PCIE的资产信息中的信息,所以在本实施例中,BMC从PCIE的资产信息中获取到BIOS POST完成后上报给BMC的GPU的第二在位数量N2;
4、进入对比验证阶段,预设掉电判断的条件,所述预设条件可以修改,判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡;在本实施例中,BMC对比N1和N2的大小,当N1>N2时,则判断为GPU掉卡,并在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯;
5、当服务器***重启或关机时,GPU掉卡问题解决,控制状态灯灭,并启动新一轮的掉卡检测,从而实现轮询检测,保证BMC对GPU监控的实时性。
此外,BMC作为服务器的监控***,其自身的web界面也可以用来显示GPU的掉电情况,充分利用BMC的功能完成本方法,提高BMC的利用率,进而提高服务器产品的竞争力。
本实施例直接通过BMC完成监控,无需额外添加检测设备和串口工具,BMC将直接命令获取的GPU的在位状态信息和BIOS上报的在位状态信息进行对比,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于BMC的GPU掉卡监控方法,其特征在于,包括:
BMC建立对GPU的轮询检测;
BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
BMC对比两种方式分别获取的在位状态信息;
BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
2.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述在位状态信息包括在位数量。
3.根据权利要求2所述的基于BMC的GPU掉卡监控方法,其特征在于,所述BMC通过直接查询和BIOS上报两种方式获取GPU的在位状态信息,包括:
BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;
BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量。
4.根据权利要求3所述的基于BMC的GPU掉卡监控方法,其特征在于,所述BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件,包括:
判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡。
5.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述掉卡管理事件包括:在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯。
6.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述方法还包括:
当服务器***重启或关机时,BMC停止掉卡管理事件,并启动新一轮的掉卡检测。
7.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述方法还包括:
设置轮询检测的时间间隔,BMC按照设定的时间间隔执行两种方式获取GPU的在位状态信息。
8.根据权利要求3所述的基于BMC的GPU掉卡监控方法,其特征在于,所述可编程器件为FPGA。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322723.3A CN112988517A (zh) | 2021-03-26 | 2021-03-26 | 一种基于bmc的gpu掉卡监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322723.3A CN112988517A (zh) | 2021-03-26 | 2021-03-26 | 一种基于bmc的gpu掉卡监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988517A true CN112988517A (zh) | 2021-06-18 |
Family
ID=76333734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110322723.3A Pending CN112988517A (zh) | 2021-03-26 | 2021-03-26 | 一种基于bmc的gpu掉卡监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988517A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349127A (zh) * | 2023-12-05 | 2024-01-05 | 苏州元脑智能科技有限公司 | Gpu掉卡检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111886A (zh) * | 2014-06-25 | 2014-10-22 | 曙光信息产业(北京)有限公司 | 一种兼容不同gpu的管理***及其设计方法 |
CN105302755A (zh) * | 2014-06-27 | 2016-02-03 | 曙光信息产业(北京)有限公司 | 一种具有监控功能的pcie板卡及其监控方法 |
CN108319539A (zh) * | 2018-02-28 | 2018-07-24 | 郑州云海信息技术有限公司 | 一种生成gpu卡槽位信息的方法及*** |
CN110502399A (zh) * | 2019-08-23 | 2019-11-26 | 广东浪潮大数据研究有限公司 | 故障检测方法及装置 |
CN111367764A (zh) * | 2020-03-06 | 2020-07-03 | 苏州浪潮智能科技有限公司 | 一种pcie监控方法、***、设备及计算机存储介质 |
-
2021
- 2021-03-26 CN CN202110322723.3A patent/CN112988517A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111886A (zh) * | 2014-06-25 | 2014-10-22 | 曙光信息产业(北京)有限公司 | 一种兼容不同gpu的管理***及其设计方法 |
CN105302755A (zh) * | 2014-06-27 | 2016-02-03 | 曙光信息产业(北京)有限公司 | 一种具有监控功能的pcie板卡及其监控方法 |
CN108319539A (zh) * | 2018-02-28 | 2018-07-24 | 郑州云海信息技术有限公司 | 一种生成gpu卡槽位信息的方法及*** |
CN110502399A (zh) * | 2019-08-23 | 2019-11-26 | 广东浪潮大数据研究有限公司 | 故障检测方法及装置 |
CN111367764A (zh) * | 2020-03-06 | 2020-07-03 | 苏州浪潮智能科技有限公司 | 一种pcie监控方法、***、设备及计算机存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349127A (zh) * | 2023-12-05 | 2024-01-05 | 苏州元脑智能科技有限公司 | Gpu掉卡检测方法及装置 |
CN117349127B (zh) * | 2023-12-05 | 2024-02-23 | 苏州元脑智能科技有限公司 | Gpu掉卡检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874624B (zh) | 服务器、监控Java进程的方法及存储介质 | |
WO2023115999A1 (zh) | 设备状态监控方法、装置、设备及计算机可读存储介质 | |
US20160261455A1 (en) | Automatic debug information collection | |
US10296434B2 (en) | Bus hang detection and find out | |
CN112286709B (zh) | 一种服务器硬件故障的诊断方法、诊断装置及诊断设备 | |
CN106817243A (zh) | 服务器资源的管理***及其管理方法 | |
CN111966189B (zh) | 一种灵活配置的多计算节点服务器主板结构和程序 | |
WO2021190659A1 (zh) | ***的数据获取方法、装置、介质及电子设备 | |
CN110704228A (zh) | 一种固态硬盘异常处理方法及*** | |
CN115658420A (zh) | 数据库监控方法及*** | |
CN117573455B (zh) | 一种pcie设备检测***、方法、装置及产品 | |
CN104834584A (zh) | 一种监测主机硬件负载的方法和*** | |
CN112988517A (zh) | 一种基于bmc的gpu掉卡监控方法 | |
CN115878356A (zh) | 磁盘故障预测方法及装置 | |
CN113992602B (zh) | 一种电缆监测数据上传方法、装置、设备以及存储介质 | |
CN116820827B (zh) | 一种节点服务器的基板管理控制器的控制方法及其*** | |
CN113325940A (zh) | 智能设备的功耗管控方法、***、终端及存储介质 | |
CN116010156B (zh) | 异常处理*** | |
CN116401109A (zh) | 一种机箱管理***控制方法、装置、介质 | |
CN115981956A (zh) | Spdk服务进程监控方法、装置、设备、存储介质和程序产品 | |
CN112261010B (zh) | 一种特种设备多协议转换***、终端及可读存储介质 | |
CN114201363A (zh) | ***保护方法、装置、设备及存储介质 | |
CN115774645A (zh) | 闪存监控***、方法及其电脑*** | |
CN114090382A (zh) | 超融合集群健康巡检方法和装置 | |
CN110647435A (zh) | 服务器、硬盘远程控制方法及控制组件 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |