CN114138579A - 基于Prometheus的GPU交互测试的方法、装置、设备及可读介质 - Google Patents
基于Prometheus的GPU交互测试的方法、装置、设备及可读介质 Download PDFInfo
- Publication number
- CN114138579A CN114138579A CN202111436978.9A CN202111436978A CN114138579A CN 114138579 A CN114138579 A CN 114138579A CN 202111436978 A CN202111436978 A CN 202111436978A CN 114138579 A CN114138579 A CN 114138579A
- Authority
- CN
- China
- Prior art keywords
- gpu
- test
- prometheus
- data
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000002452 interceptive effect Effects 0.000 title claims description 19
- 238000010998 test method Methods 0.000 title description 5
- 238000012545 processing Methods 0.000 title description 4
- 238000012360 testing method Methods 0.000 claims abstract description 209
- 238000012544 monitoring process Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims abstract description 36
- 230000000007 visual effect Effects 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 5
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 claims abstract 5
- 230000008569 process Effects 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000009530 blood pressure measurement Methods 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 5
- 238000009662 stress testing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012430 stability testing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- UPPMZCXMQRVMME-UHFFFAOYSA-N valethamate Chemical compound CC[N+](C)(CC)CCOC(=O)C(C(C)CC)C1=CC=CC=C1 UPPMZCXMQRVMME-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
- G06F11/2236—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2289—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于Prometheus的GPU交互测试方法、装置、计算机设备和介质,方法包括:配置GPU压力测试环境、安装GPU驱动及CUDA;检测GPU识别情况与实际配置是否一致;检测GPU的FW版本与测试所要求的FW版本是否一致;模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压;通过gpu‑burn‑master工具对GPU进行加压;通过Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率,并监控其他各部件的加压数据;以及通过Grafana进行可视化测试数据输出检测测试。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于Prometheus的GPU交互测试的方法、装置、设备及可读介质。
背景技术
随着人工智能技术的发展,GPU服务器的应用场景也越来越多,而对于GPU服务器来说,GPU的稳定性至关重要,关乎着整台机器在使用时能否保持在高功率的情况下持续稳定的工作,而在测试中通常利用GPU压力测试来衡量GPU的稳定性。
GPU压力测试种类有很多,例如:gpu-burn-master、NVQual工具中的Thermal Test测试、nbody等。
但上述的GPU压力测试通常只是单一的给GPU进行加压,而忽略了GPU服务器实际的工作环境,没有考虑其他各部件对于GPU稳定性的影响。
另外,测试人员在测试时利用GPU加压工具进行加压后,仅关注加压工具产生的日志及***日志有无报错等异常情况,不能很好的分析瞬时数据,以及GPU其他各项指标的波动变化。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于Prometheus的GPU交互测试方法。该方法对于GPU压力的测试方法进行改进,对GPU服务器进行整机加压,在给GPU加压的同时,对CPU、内存、硬盘、网卡进行加压,实现对GPU压力的交互测试方法,来解决通常GPU压力测试时仅对GPU进行加压的问题。在交互测试过程中,引入基于Prometheus的测试监控***监测GPU各项指标的波动情况,利用该***对测试中需要的数据进行实时获取,并搭配Grafana形成可视化数据,方便测试人员进行日志分析处理,及问题的具体定位,来解决之前测试结果测试项不全面及不精准的问题。
本发明实施例的目的还在于提出一种基于Prometheus的GPU交互测试装置。
本发明实施例的目的还在于提出一种计算机设备。
本发明实施例的目的还在于提出一种计算机可读存储介质。
基于上述目的,本发明实施例的一方面提供了一种基于Prometheus的GPU交互测试方法。该方法包括配置GPU压力测试环境、安装GPU驱动及CUDA;检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤;检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤;模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压;通过gpu-burn-master工具对GPU进行加压;通过Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率,并监控其他各部件的加压数据;以及通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
在一些实施方式中,配置GPU压力测试环境、安装GPU驱动及CUDA包括:卸载***自带的GPU驱动nouveau,并安装匹配现有GPU的驱动;以及安装CUDA,并为CUDA配置环境变量。
在一些实施方式中,检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤包括:存储实际配置信息;通过新安装GPU驱动的nvidia-smi命令监测GPU的识别情况;对比两者是否一致,若一致则进行下个步骤,若不一致则利用lspci命令检测实际链路连接情况并继续本步骤。
在一些实施方式中,检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤包括:存储测试要求的FW版本文件;通过nvflash工具检测GPU的FW版本;对比两者是否一致,若一致则进行下个步骤,若不一致则通过nvflash工具及相应的FW版本文件进行刷新并继续本步骤。
在一些实施方式中,模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压包括:通过stress工具对CPU进行加压;通过memtester工具对内存进行加压;通过fio工具对硬盘进行加压;以及通过iperf工具对网卡进行加压。
在一些实施方式中,通过Prometheus监控***进行实时数据获取,并监控其他各部件的加压数据包括:安装DCGM工具,管理和监控GPU;用gpu-monitoring-tools部署监测指标;以及安装Prometheus进行测试过程中测试指标数据的监控。
在一些实施方式中,通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位包括:安装Grafana工具,将Prometheus监控***的数据进行可视化显示;压测过程中,GPU各项测试数据指标正常且整机无hang机、蓝屏、死机、黑屏问题,***日志与BMC日志无fail、error等报错,硬盘smartlog正常,网卡带宽性能正常,则确认通过测试;观察GPU测试数据异常的指标,取出同一时刻及前后一段时间的其他部件的压力测试数据进行具体分析。
本发明实施例的另一方面,还提供了一种基于Prometheus的GPU交互测试装置。该装置包括测试环境配置单元,配置用于GPU压力测试环境的配置与检测;压力环境模拟单元,配置用于模拟GPU的压力环境;GPU压力测试单元,配置用于GPU压力测试;Prometheus监控单元,配置用于测试过程中测试指标数据的监控;以及测试结果输出单元,配置用于测试结果输出及测试结果分析。
在一些实施例中,测试环境配置单元配置用于配置GPU压力测试环境,安装GPU驱动及CUDA,检测GPU识别信息与实际配置是否一致,若不一致则检测链路的连接情况,检测GPU的FW版本与测试所要求的FW版本是否一致,若不一致则进行GPU的FW版本刷新。
在一些实施例中,压力环境模拟单元配置用于模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压。
在一些实施例中,GPU压力测试单元配置用于通过gpu-burn-master对GPU进行加压。
在一些实施例中,Prometheus监控单元配置用于Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率等指标,同时对其他各部件的加压数据进行监控。
在一些实施例中,测试结果输出单元配置用于Grafana可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现方法的步骤包括:配置GPU压力测试环境、安装GPU驱动及CUDA;检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤;检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤;模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压;通过gpu-burn-master工具对GPU进行加压;通过Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率,并监控其他各部件的加压数据;以及通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
在一些实施例中,配置GPU压力测试环境、安装GPU驱动及CUDA包括:卸载***自带的GPU驱动nouveau,并安装匹配现有GPU的驱动;以及安装CUDA,并为CUDA配置环境变量。
在一些实施例中,检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤包括:存储实际配置信息;通过新安装GPU驱动的nvidia-smi命令监测GPU的识别情况;对比两者是否一致,若一致则进行下个步骤,若不一致则利用lspci命令检测实际链路连接情况并继续本步骤。
在一些实施例中,检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤包括:存储测试要求的FW版本文件;通过nvflash工具检测GPU的FW版本;对比两者是否一致,若一致则进行下个步骤,若不一致则通过nvflash工具及相应的FW版本文件进行刷新并继续本步骤。
在一些实施例中,模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压包括:通过stress工具对CPU进行加压;通过memtester工具对内存进行加压;通过fio工具对硬盘进行加压;以及通过iperf工具对网卡进行加压。
在一些实施例中,通过Prometheus监控***进行实时数据获取,并监控其他各部件的加压数据包括:安装DCGM工具,管理和监控GPU;用gpu-monitoring-tools部署监测指标;以及安装Prometheus进行测试过程中测试指标数据的监控。
在一些实施例中,通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位包括:安装Grafana工具,将Prometheus监控***的数据进行可视化显示;压测过程中,GPU各项测试数据指标正常且整机无hang机、蓝屏、死机、黑屏问题,***日志与BMC日志无fail、error等报错,硬盘smartlog正常,网卡带宽性能正常,则确认通过测试;观察GPU测试数据异常的指标,取出同一时刻及前后一段时间的其他部件的压力测试数据进行具体分析。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明至少具有以下有益技术效果:
本发明的基于Prometheus的GPU交互测试方法采用基于Prometheus的GPU交互测试装置对于GPU压力的测试方法进行改进,对GPU服务器进行整机加压,在给GPU加压的同时,对CPU、内存、硬盘、网卡进行加压,实现对GPU压力的交互测试方法,来解决通常GPU压力测试时仅对GPU进行加压的问题。在交互测试过程中,引入基于Prometheus的测试监控***监测GPU各项指标的波动情况,利用该***对测试中需要的数据进行实时获取,并搭配Grafana形成可视化数据,方便测试人员进行日志分析处理,及问题的具体定位,来解决之前测试结果测试项不全面及不精准的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的基于Prometheus的GPU交互测试方法的实施例的示意图;
图2为本发明提供的基于Prometheus的GPU交互测试装置的实施例的示意图;
图3为本发明提供的计算机设备的实施例的示意图;
图4为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了基于Prometheus的GPU交互测试方法的实施例。图1示出的是本发明提供的基于Prometheus的GPU交互测试方法的实施例的示意图。如图1所示,本发明实施例的基于Prometheus的GPU交互测试方法包括如下步骤:
001、配置GPU压力测试环境、安装GPU驱动及CUDA;
002、检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤;
003、检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤;
004、模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压;
005、通过gpu-burn-master工具对GPU进行加压;
006、通过Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率,并监控其他各部件的加压数据;以及
007、通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
在本实施例中,本发明提出的基于Prometheus的GPU服务器的交互测试方法,可使GPU压力测试环境更接近GPU服务器的真实工作环境,Prometheus***收集的实时测试数据指标丰富准确,且搭配Grafana可视化界面,便于测试人员对测试数据进行观察,对于测试中的问题的呈现也较为细致,大大提升了GPU稳定性测试的准确程度。
利用Prometheus监控***对GPU交互测试过程中的测试数据进行监控,使数据更加精准可靠,搭配Grafana可视化界面,便于结果的观察,也为测试出现问题时的分析定位提供思路。
在本发明的一些实施例中,配置GPU压力测试环境、安装GPU驱动及CUDA包括:卸载***自带的GPU驱动nouveau,并安装匹配现有GPU的驱动;以及安装CUDA,并为CUDA配置环境变量。
其中,卸载***自带的GPU驱动nouveau,具体指令如下:
vim/boot/efi/EFI/redhat/gru.cfg
在LANG=en_US.UTF-8后输入modprobe.blacklist=nouveau vga=791并保存退出
echo“blacklist nouveau”>>/etc/modprobe.d/blacklist.conf
yum-y remove xorg-x11-drv-nouveau
重启,用lsmod|grep nouveau检测是否已经卸载成功;
安装GPU驱动,根据实际GPU型号下载相应的驱动,./***.run即可;
安装CUDA,同GPU驱动,./***.run即可,注意不要安装CUDA自带驱动;
CUDA环境变量配置,具体指令如下:
添加以下内容至~/.bashrc中
export
LD_LIBRARY_PATH=/usr/local/cuda-11.1/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-11.1/bin:$PATH
保存退出并执行source~/.bashrc
nvcc-V检测CUDA是否安装成功。
在本发明的一些实施例中,检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤包括:存储实际配置信息;通过新安装GPU驱动的nvidia-smi命令监测GPU的识别情况;对比两者是否一致,若一致则进行下个步骤,若不一致则利用lspci命令检测实际链路连接情况并继续本步骤。
在本实施例中,存储实际配置信息,利用GPU驱动安装后的nvidia-smi命令监测GPU的识别情况,对比两者是否一致,若一致则进行下个步骤,若不一致则利用lspci|grep-i nvidia命令检测实际链路连接情况。
在本发明的一些实施例中,检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤包括:存储测试要求的FW版本文件;通过nvflash工具检测GPU的FW版本;对比两者是否一致,若一致则进行下个步骤,若不一致则通过nvflash工具及相应的FW版本文件进行刷新并继续本步骤。
在本实施例中,存储测试要求的FW版本文件,利用nvflash工具检测GPU FW;对比两者是否一致,若一致则进行下个步骤,若不一致则利用nvflash工具及相应的FW版本文件进行刷新。
在本发明的一些实施例中,模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压包括:通过stress工具对CPU进行加压;通过memtester工具对内存进行加压;通过fio工具对硬盘进行加压;以及通过iperf工具对网卡进行加压。
在本实施例中,安装stress工具,利用stress工具对CPU进行加压,具体指令如下:
nohup stress-c<进程数>-t 172800&
安装memtester工具,利用memtester工具对内存进行加压,具体指令如下:
memtester<申请测试内存的数量><测试次数>
安装fio工具,利用fio工具对硬盘进行加压,将fio测试所需的的各种参数写入fio_parameter.txt,具体指令如下:
nohup fio fio_parameter.txt&
用网线连接测试端机器与辅助端机器,两端安装iperf工具,利用iperf工具对网卡进行加压,具体指令如下:
辅助端:iperf-s
测试端:iperf-c<辅助端ip>-w 512k-i 1-t 172800-P<进程数>
通过gpu-burn-master对GPU进行加压,具体指令如下:
unzip gpu-burn-master.zip
cd gpu-burn-master
make
./gpu-burn-d$((60*60*48))|tee-a gpu-burn-result.log。
在本发明的一些实施例中,通过Prometheus监控***进行实时数据获取,并监控其他各部件的加压数据包括:安装DCGM工具,管理和监控GPU;用gpu-monitoring-tools部署监测指标;以及安装Prometheus进行测试过程中测试指标数据的监控。
在本实施例中,安装DCGM工具,具体指令如下:
dpkg-i datacenter-gpu-manager_1.7.2_amd64.deb
用gpu-monitoring-tools部署监测指标,具体指令如下:
git clone https://gitee.com/JackTpy/gpu-monitoring-tools.git
go env-w GOPROXY=https://goproxy.cn
cd gpu-monitoring-tools/
make binary
make install
dcgm-exporter
vim/etc/systemd/system/dcgm-exporter.service
输入以下内容:
[Unit]
Description=dcgm-exporter service
[Service]
User=root
ExecStart=/usr/bin/dcgm-exporter
TimeoutStopSec=10
Restart=on-failure
RestartSec=5
[Install]
WantedBy=multi-user.target
保存并退出
systemctl daemon-reload
systemctl enable dcgm-exporter
systemctl start dcgm-exporter
systemctl status dcgm-exporter
用node_cpu_seconds_total监控CPU;
用node_memory为前缀找到子集监控内存;
用node_disk_reads_completed_total、node_disk_writes_completed_total监控硬盘;
用node_network_receive_bytes_total监控网卡;
安装Prometheus,具体指令如下:
tar-C/usr/local/-xvf prometheus-2.20.1.linux-amd64.tar.gz
ln-sv/usr/local/prometheus-2.20.1.linux-amd64//usr/local/Prometheu
-s
/usr/local/Prometheus/prometheus--config.file=/usr/local/Prometheus
/prometheus.yml&
服务器IP:9090即为Prometheus监控页面。
在本发明的一些实施例中,通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位包括:安装Grafana工具,将Prometheus监控***的数据进行可视化显示;压测过程中,GPU各项测试数据指标正常且整机无hang机、蓝屏、死机、黑屏问题,***日志与BMC日志无fail、error等报错,硬盘smartlog正常,网卡带宽性能正常,则确认通过测试;观察GPU测试数据异常的指标,取出同一时刻及前后一段时间的其他部件的压力测试数据进行具体分析。
在本实施例中,Grafana可视化测试数据输出,具体指令如下:
rpm-ivh grafana-5.4.2-1.x86_64.rpm--force--nodeps
systemctl daemon-reload
systemctl start grafana-server.service
systemctl enable grafana-server.service
服务器IP:3000即为Grafana页面,用户名密码默认都为admin。
若GPU测试数据正常,***无错误日志产生,则测试通过,包括:
压测过程中,整机无hang机、蓝屏、死机、黑屏问题;
Grafana页面各项GPU测试数据指标均在正常范围内,其他各部件监测正常;
收集***日志及BMC日志,具体指令如下:
ipmitool sel elist>/root/GPU_stress_log/sel.log
cat/var/log/messages>/root/GPU_stress_log/messages
cat/var/log/dmesg>/root/GPU_stress_log/dmesg
cat/var/log/mcelog>/root/GPU_stress_log/mcelog
上述日志无fail、error等报错信息出现,则测试通过。
若GPU测试数据出现异常,则根据测试数据对问题进行分析定位,包括:
观察GPU测试数据异常的指标,取出同一时刻及前后一段时间的其他部件的压力测试数据进行具体分析,便于进行纵向对比,这一时刻或这段时间内那些部件影响了GPU的稳定性,利于问题的定位分析,为解决实际问题提供思路。
基于上述目的,本发明实施例的第二个方面,提出了一种基于Prometheus的GPU交互测试装置。图2示出的是本发明提供的基于Prometheus的GPU交互测试装置的实施例的示意图。如图2所示,本发明实施例的基于Prometheus的GPU交互测试装置包括如下部件:测试环境配置单元011,配置用于GPU压力测试环境的配置与检测;压力环境模拟单元012,配置用于模拟GPU的压力环境;GPU压力测试单元013,配置用于GPU压力测试;Prometheus监控单元014,配置用于测试过程中测试指标数据的监控;以及测试结果输出单元015,配置用于测试结果输出及测试结果分析。
在本发明的一些实施例中,测试环境配置单元011进一步配置为:配置GPU压力测试环境,安装GPU驱动及CUDA,检测GPU识别信息与实际配置是否一致,若不一致则检测链路的连接情况,检测GPU的FW版本与测试所要求的FW版本是否一致,若不一致则进行GPU的FW版本刷新。
在本发明的一些实施例中,压力环境模拟单元012进一步配置为:模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压。
在本发明的一些实施例中,GPU压力测试单元013进一步配置为:通过gpu-burn-master对GPU进行加压。
在本发明的一些实施例中,Prometheus监控单元014进一步配置为:Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率等指标,同时对其他各部件的加压数据进行监控。
在本发明的一些实施例中,测试结果输出单元015进一步配置为:Grafana可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例的计算机设备包括如下装置:至少一个处理器021;以及存储器022,存储器022存储有可在处理器上运行的计算机指令023,指令由处理器执行时实现方法的步骤包括:配置GPU压力测试环境、安装GPU驱动及CUDA;检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤;检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤;模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压;通过gpu-burn-master工具对GPU进行加压;通过Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率,并监控其他各部件的加压数据;以及通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质031存储有被处理器执行时执行如上方法的计算机程序032。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,服务器集中测试的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(D0L)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、D0L或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种基于Prometheus的GPU交互测试方法,其特征在于,包括以下步骤:
配置GPU压力测试环境、安装GPU驱动及CUDA;
检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤;
检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤;
模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压;
通过gpu-burn-master工具对GPU进行加压;
通过Prometheus监控***进行实时数据获取,包括GPU的功耗、温度、性能状态、GPU使用率及显存使用率,并监控其他各部件的加压数据;以及
通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位。
2.根据权利要求1所述的基于Prometheus的GPU交互测试方法,其特征在于,配置GPU压力测试环境、安装GPU驱动及CUDA包括:
卸载***自带的GPU驱动nouveau,并安装匹配现有GPU的驱动;以及
安装CUDA,并为CUDA配置环境变量。
3.根据权利要求1所述的基于Prometheus的GPU交互测试方法,其特征在于,检测GPU识别情况与实际配置是否一致,若一致则进行下个步骤,若不一致则检测链路的连接情况并继续本步骤包括:
存储实际配置信息;
通过新安装GPU驱动的nvidia-smi命令监测GPU的识别情况;
对比两者是否一致,若一致则进行下个步骤,若不一致则利用lspci命令检测实际链路连接情况并继续本步骤。
4.根据权利要求1所述的基于Prometheus的GPU交互测试方法,其特征在于,检测GPU的FW版本与测试所要求的FW版本是否一致,若一致则进行下个步骤,若不一致则进行GPU的FW版本刷新并继续本步骤包括:
存储测试要求的FW版本文件;
通过nvflash工具检测GPU的FW版本;
对比两者是否一致,若一致则进行下个步骤,若不一致则通过nvflash工具及相应的FW版本文件进行刷新并继续本步骤。
5.根据权利要求1所述的基于Prometheus的GPU交互测试方法,其特征在于,模拟GPU服务器实际压力环境,对CPU、内存、硬盘、网卡进行加压包括:
通过stress工具对CPU进行加压;
通过memtester工具对内存进行加压;
通过fio工具对硬盘进行加压;以及
通过iperf工具对网卡进行加压。
6.根据权利要求1所述的基于Prometheus的GPU交互测试方法,其特征在于,通过Prometheus监控***进行实时数据获取,并监控其他各部件的加压数据包括:
安装DCGM工具,管理和监控GPU;
用gpu-monitoring-tools部署监测指标;以及
安装Prometheus进行测试过程中测试指标数据的监控。
7.根据权利要求1所述的基于Prometheus的GPU交互测试方法,其特征在于,通过Grafana进行可视化测试数据输出,若GPU测试数据正常,***无错误日志产生,则测试通过,若GPU测试数据出现异常,则根据测试数据对问题进行分析定位包括:
安装Grafana工具,将Prometheus监控***的数据进行可视化显示;
压测过程中,GPU各项测试数据指标正常且整机无hang机、蓝屏、死机、黑屏问题,***日志与BMC日志无fail、error报错,硬盘smartlog正常,网卡带宽性能正常,则确认通过测试;
观察GPU测试数据异常的指标,取出同一时刻及前后一段时间的其他部件的压力测试数据进行具体分析。
8.一种基于Prometheus的GPU交互测试装置,其特征在于,包括:
测试环境配置单元,配置用于GPU压力测试环境的配置与检测;
压力环境模拟单元,配置用于模拟GPU的压力环境;
GPU压力测试单元,配置用于GPU压力测试;
Prometheus监控单元,配置用于测试过程中测试指标数据的监控;以及
测试结果输出单元,配置用于测试结果输出及测试结果分析。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111436978.9A CN114138579A (zh) | 2021-11-29 | 2021-11-29 | 基于Prometheus的GPU交互测试的方法、装置、设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111436978.9A CN114138579A (zh) | 2021-11-29 | 2021-11-29 | 基于Prometheus的GPU交互测试的方法、装置、设备及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114138579A true CN114138579A (zh) | 2022-03-04 |
Family
ID=80389282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111436978.9A Withdrawn CN114138579A (zh) | 2021-11-29 | 2021-11-29 | 基于Prometheus的GPU交互测试的方法、装置、设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114138579A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391124A (zh) * | 2022-10-27 | 2022-11-25 | 瀚博半导体(上海)有限公司 | 一种面向图形芯片功耗测试的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104407951A (zh) * | 2014-11-05 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种自动化进行服务器整机测试的方法 |
CN107423183A (zh) * | 2017-04-25 | 2017-12-01 | 郑州云海信息技术有限公司 | 一种gtx系列显卡计算性能的加压测试方法 |
CN110413462A (zh) * | 2019-06-29 | 2019-11-05 | 苏州浪潮智能科技有限公司 | 一种服务器压力测试方法与装置 |
CN113392005A (zh) * | 2021-06-16 | 2021-09-14 | 中国工商银行股份有限公司 | 大文件处理测试方法及*** |
-
2021
- 2021-11-29 CN CN202111436978.9A patent/CN114138579A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104407951A (zh) * | 2014-11-05 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种自动化进行服务器整机测试的方法 |
CN107423183A (zh) * | 2017-04-25 | 2017-12-01 | 郑州云海信息技术有限公司 | 一种gtx系列显卡计算性能的加压测试方法 |
CN110413462A (zh) * | 2019-06-29 | 2019-11-05 | 苏州浪潮智能科技有限公司 | 一种服务器压力测试方法与装置 |
CN113392005A (zh) * | 2021-06-16 | 2021-09-14 | 中国工商银行股份有限公司 | 大文件处理测试方法及*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391124A (zh) * | 2022-10-27 | 2022-11-25 | 瀚博半导体(上海)有限公司 | 一种面向图形芯片功耗测试的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704392B (zh) | 一种测试用例的处理方法及服务器 | |
US9183123B2 (en) | Performance tests in a continuous deployment pipeline | |
CN103365770B (zh) | 移动终端软件测试***及软件测试方法 | |
US20030177417A1 (en) | System and method for remote performance analysis and optimization of computer systems | |
US8996928B2 (en) | Devices for indicating a physical layer error | |
CN111309590B (zh) | 一种用于金融交易平台的自动化测试方法和模拟器 | |
CN113760704A (zh) | Web UI的测试方法、装置、设备以及存储介质 | |
CN110750458A (zh) | 大数据平台测试方法、装置、可读存储介质及电子设备 | |
Nguyen et al. | Automated verification of load tests using control charts | |
KR101976629B1 (ko) | 커미트 민감도 테스트들 | |
CN112285586B (zh) | Bms测试方法、装置、***、仿真测试设备及存储介质 | |
US20070168751A1 (en) | Quantitative measurement of the autonomic capabilities of computing systems | |
CN111966587A (zh) | 数据采集方法、装置和设备 | |
CN114138579A (zh) | 基于Prometheus的GPU交互测试的方法、装置、设备及可读介质 | |
CN117009243A (zh) | 芯片性能自动化测试方法、装置、计算机设备及存储介质 | |
US20030177414A1 (en) | Model for performance tuning applications | |
CN117149550A (zh) | 一种固态硬盘性能检测方法、装置以及电子设备 | |
CN115248782B (zh) | 一种自动化测试方法、装置及计算机设备 | |
CN116506007A (zh) | 光模块固件测试***及方法 | |
CN116662197A (zh) | 一种接口自动化测试方法、***、计算机和可读存储介质 | |
CN115373984A (zh) | 代码覆盖率确定方法及装置 | |
CN113127364A (zh) | 一种性能测试方法、装置、电子设备和存储介质 | |
CN113656319A (zh) | 一种回归测试方法、装置、电子设备及存储介质 | |
CN117112398B (zh) | 增量代码覆盖率检测方法、装置、电子设备及存储介质 | |
CN114116291B (zh) | 日志检测方法、日志检测装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220304 |