CN105786669A - 一种测试Rack服务器稳定性的方法 - Google Patents
一种测试Rack服务器稳定性的方法 Download PDFInfo
- Publication number
- CN105786669A CN105786669A CN201610262160.2A CN201610262160A CN105786669A CN 105786669 A CN105786669 A CN 105786669A CN 201610262160 A CN201610262160 A CN 201610262160A CN 105786669 A CN105786669 A CN 105786669A
- Authority
- CN
- China
- Prior art keywords
- test
- linpack
- rack server
- server
- stability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000013112 stability test Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 230000002950 deficient Effects 0.000 abstract 1
- 238000007689 inspection Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明公开一种测试Rack服务器稳定性的方法,属于Rack服务器测试领域;本发明提供测试Rack服务器稳定性的方法,设置测试状态:轻载,中载,重载并利用不同的测试工具用以检测设备性能,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质,并且利用本发明方法在不重启***的情况下,可以切换整机柜的工作状态。大大减少了开机重启等不必要的操作,提高了生产效率。
Description
技术领域
本发明公开一种测试Rack服务器稳定性的方法,属于Rack服务器测试领域。
背景技术
服务器在不同负载状态下会呈现不同的状态,生产测试过程中会尽量的模拟所有的状态以检验设备性能发掘设备潜力。本发明提供测试Rack服务器稳定性的方法,设置测试状态:轻载,中载,重载并利用不同的测试工具用以检测设备性能,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质,并且利用本发明方法在不重启***的情况下,可以切换整机柜的工作状态。大大减少了开机重启等不必要的操作,提高了生产效率。
其中Linpack测试包括三类,Linpack100、Linpack1000和HPL。HPL即HighPerformanceLinpack,也叫高度并行计算基准测试,它对数组大小N没有限制,求解问题的规模可以改变,除基本算法不可改变外,可以采用其它任何优化方法。HPL是针对现代并行计算机提出的测试方式。用户在不修改任意测试程序的基础上,可以调节问题规模大小即矩阵大小、使用到的CPU数目、使用各种优化方法等来执行该测试程序,以获取最佳的性能。随着产品硬件的不断的升级,整个的计算能力也以数量级的速度提升。
发明内容
本发明针对现有技术中的问题,提供一种测试Rack服务器稳定性的方法,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质。
本发明提出的具体方案是:
一种测试Rack服务器稳定性的方法,
设置Rack服务器测试负载状态,根据负载状态,选择测试工具对其稳定性进行测试,具体为:
轻载:不运行任何压力程式,服务器工作在最低的状态下,选择适合无运行压的测试工具进行稳定性测试;
中载:运行在一定的压力状态下,利用YES+DD作为中载压力工具;
重载:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试。
利用Linpack测试工具进行重压测试的步骤为:
安装linpack,选择适合的版本进行安装;
配置linpack运行的环境变量,
编译linpack,编译配置文件和执行文件;
配置HPL.dat,定义相关HPL.dat文件;
运行linpack,进行重压测试。
所述利用YES+DD作为中载压力工具,进行批量脚本的定义,对多节点批量进行中载压力测试。
对所述Rack服务器的所有节点配置SSH互信。
所述Rack服务器测试开始时,所有节点运行在idle状态,保存mcelog,dmesg,rmclog。
所述Rack服务器测试结束时,保存mcelog,dmesg,rmclog。
本发明的有益之处是:
本发明提供测试Rack服务器稳定性的方法,设置测试状态:轻载,中载,重载并利用不同的测试工具用以检测设备性能,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质,提高了生产效率。
具体实施方式
一种测试Rack服务器稳定性的方法,
设置Rack服务器测试负载状态,根据负载状态,选择测试工具对其稳定性进行测试,具体为:
轻载:不运行任何压力程式,服务器工作在最低的状态下,选择适合无运行压的测试工具进行稳定性测试;
中载:运行在一定的压力状态下,利用YES+DD作为中载压力工具;
重载:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试。
根据上述方法及发明内容,对本发明做具体说明。以34个节点的Rack服务器为例。
灌装完***之后,所有节点配置SSH互信以方便后续的操作。
轻载测试:整机柜节点开机,所有节点运行在idle状态,保存mcelog,dmesg,rmclog,选择适合无运行压的测试工具进行稳定性测试,保存***的log的目的是为了后续分析所用;
中载测试:服务器运行在一定的压力状态下,利用YES+DD作为中载压力工具;
其中定义YES+DD脚本:
foriin{a..m}#硬盘编号从a至m按照实际情况填写
do
ddif=/dev/sd$iof=/dev/null&#后台运行DD进程
done
a=`cat/proc/cpuinfo|grepprocessor|wc-l`#计算CPU进程数
for((j=0;j<$a;j++))
do
yes>/dev/null&#后台运行YES进程
done
sleep7200
killall-9dd>/dev/null2>&1#确认停止DD进程
sleep1
killall-9yes>/dev/null2>&1#确认停止YES进程
sleep1
批量脚本:
#!/bin/bash
functionshab()
{
ssh$1$2
}
foriin{1..34}#Rack机柜IP地址范围,本例子是从1-34共34节点
do
echo"------------------$i----------------------------------------"
shab192.168.1.$i"$1"&#ip地址按照实际情况填写,本例网段在192.168.1.X
done
登录要执行进程的节点-运行测试脚本-脚本放置后台,大大简化了测试时间;
在整机柜的第一节点运行批量运行脚本,可以命名为ALL-test.sh,具体运行如下:
shALL-test.sh/opt/yesdd.sh#默认所有节点的运行脚本放置在/opt/目录下;
随机登录几个节点检查后台是否运行yes+dd进程;
可设置测试时间是7200秒即2个小时,时间过后程式自动结束,保存mcelog,dmesg,rmclog;
重载测试:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试;
1)安装linpack,安装IntelC++Compiler\IntelFortranCompiler。本发明采用的是版本如下:
OSRHEL5u3IntelCompiler11.1.072IntelMPI3.2.2.006;
2)配置好环境变量:
默认/opt/为安装目录
source/opt/intel/Compiler/11.1/072/bin/iccvars.shintel64
source/opt/intel/Compiler/11.1/072/bin/ifortvars.shintel64
source/opt/intel/impi/3.2.2.006/bin64/mpivars.sh
source/opt/intel/Compiler/11.1/072/mkl/tools/environment/mklvarsem64t.sh
3)编译linpack:
cd/opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack
makearch=em64t编译完成后,
cd/opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack/bin/em64t
在此可以看到HPL.dat和xhpl2个文件,其中HPL.dat为配置文件,xhpl为可执行程序。
4)配置HPL.dat:
拷贝em64t文件夹到/opt/下修改HPL.dat文件,
HPLinpackbenchmarkinputfileInnovativeComputingLaboratory,UniversityofTennessee
HPL.outoutputfilename(ifany)
6deviceout(6=stdout,7=stderr,file)
1#ofproblemssizes(N)
50760Ns
2#ofNBs
192224NBs
0PMAPprocessmapping(0=Row-,1=Columnmajor)
2#ofprocessgrids(PxQ)
32Ps
46Qs
16.0threshold
1#ofpanelfact
012PFACTs(0=left,1=Crout,2=Right)
2#ofrecursivestoppingcriterium
42NBMINs(>=1)
1#ofpanelsinrecursion
2NDIVs
1#ofrecursivepanelfact.
102RFACTs(0=left,1=Crout,2=Right)
1#ofbroadcast
0BCASTs(0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
1#oflookaheaddepth
0DEPTHs(>=0)
2SWAP(0=bin-exch,1=long,2=mix)
256swappingthreshold
1L1in(0=transposed,1=no-transposed)form
1Uin(0=transposed,1=no-transposed)form
0Equilibration(0=no,1=yes)
8memoryalignmentindouble(>0)
主要注意N,NB,P和Q的值,N是矩阵的大小,其公式为:N*N*8=总内存*80%,在intelNehalem以上的cpu,N*N*8=总内存*90%测试的效果会更好些。NB是求解矩阵分块大小,一般为192,224。P和Q要满足:P*Q=进程数;P<Q这2个关系。
5)运行linpack
mpdboot
mpiexec–machinefilehosts–n12./xhpl
随机登录几个节点检查后台进程,中载测试完成即可运行重载测试;
shALL-test.sh“mpdboot;mpiexec–machinefilehosts–n12./xhpl”
随机登录几个节点检查是否运行了linpack测试进程,根据设备配置不同linpack测试时间也会相应的有变化,等待所有测试自动结束即可,保存mcelog,dmesg,rmclog。
由于Linpack在运行过程中会调用大量的***资源CPU利用率可以达到99%,所以我们在这里把它作为一个压力测试工具使用。
设备性能的分析:
Linpack测试效率:
一台双路服务器配置了2颗Xeonx56502.66GHz的理论峰值为2.66(主频)*4(每个时钟执行4次浮点运算)*2(2颗cpu)*6(每颗cpu有6个核)=127.68GFlops实测的一组输出结果:
输出结果为121Gflops,效率=121/127.68=94.7,
相同配置的设备在相同条件下测试结果差距不大,如果出现个别节点测试结果或者效率比较低可以初步怀疑***问题。
***log分析:
Mcelog:是x86的Linux***上用来检查硬件错误,特别是内存和CPU错误的工具。
Dmesg:用来显示内核环缓冲区内容,内核将各种消息存放在这里。在***引导时,内核将与硬件和模块初始化相关的信息填到这个缓冲区中。内核环缓冲区中的消息对于诊断***问题非常有用。
通过检查上述log中的信息可以判断***在运行过程中是否正常。
Claims (6)
1.一种测试Rack服务器稳定性的方法,其特征是
设置Rack服务器测试负载状态,根据负载状态,选择测试工具对其稳定性进行测试,具体为:
轻载:不运行任何压力程式,服务器工作在最低的状态下,选择适合无运行压的测试工具进行稳定性测试;
中载:运行在一定的压力状态下,利用YES+DD作为中载压力工具;
重载:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试。
2.根据权利要求1所述的方法,其特征是利用Linpack测试工具进行重压测试的步骤为:
安装linpack,选择适合的版本进行安装;
配置linpack运行的环境变量,
编译linpack,编译配置文件和执行文件;
配置HPL.dat,定义相关HPL.dat文件;
运行linpack,进行重压测试。
3.根据权利要求1或2所述的方法,其特征是利用YES+DD作为中载压力工具,进行批量脚本的定义,对多节点批量进行中载压力测试。
4.根据权利要求3所述的方法,其特征是对Rack服务器的所有节点配置SSH互信。
5.根据权利要求4所述的方法,其特征是Rack服务器测试开始时,所有节点运行在idle状态,保存mcelog,dmesg,rmclog。
6.根据权利要求5所述的方法,其特征是Rack服务器测试结束时,保存mcelog,dmesg,rmclog。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610262160.2A CN105786669A (zh) | 2016-04-25 | 2016-04-25 | 一种测试Rack服务器稳定性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610262160.2A CN105786669A (zh) | 2016-04-25 | 2016-04-25 | 一种测试Rack服务器稳定性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105786669A true CN105786669A (zh) | 2016-07-20 |
Family
ID=56398602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610262160.2A Pending CN105786669A (zh) | 2016-04-25 | 2016-04-25 | 一种测试Rack服务器稳定性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105786669A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391330A (zh) * | 2017-07-24 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种安腾平台下计算机性能测试方法及*** |
CN109144669A (zh) * | 2018-08-15 | 2019-01-04 | 郑州云海信息技术有限公司 | 一种mcs***下nas虚拟机***的压力测试方法与*** |
CN111913748A (zh) * | 2020-07-13 | 2020-11-10 | 中国科学院软件研究所 | 一种适合复杂异构***的hpl矩阵更新优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198000A (zh) * | 2013-04-02 | 2013-07-10 | 浪潮电子信息产业股份有限公司 | 一种linux***下的故障内存位置定位方法 |
CN103294579A (zh) * | 2013-06-09 | 2013-09-11 | 浪潮电子信息产业股份有限公司 | 一种高性能计算集群应用性能测试方法 |
CN104375914A (zh) * | 2014-11-24 | 2015-02-25 | 浪潮电子信息产业股份有限公司 | 一种服务器内部压力变化自动测试方法 |
-
2016
- 2016-04-25 CN CN201610262160.2A patent/CN105786669A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198000A (zh) * | 2013-04-02 | 2013-07-10 | 浪潮电子信息产业股份有限公司 | 一种linux***下的故障内存位置定位方法 |
CN103294579A (zh) * | 2013-06-09 | 2013-09-11 | 浪潮电子信息产业股份有限公司 | 一种高性能计算集群应用性能测试方法 |
CN104375914A (zh) * | 2014-11-24 | 2015-02-25 | 浪潮电子信息产业股份有限公司 | 一种服务器内部压力变化自动测试方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391330A (zh) * | 2017-07-24 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种安腾平台下计算机性能测试方法及*** |
CN107391330B (zh) * | 2017-07-24 | 2020-10-20 | 苏州浪潮智能科技有限公司 | 一种安腾平台下计算机性能测试方法及*** |
CN109144669A (zh) * | 2018-08-15 | 2019-01-04 | 郑州云海信息技术有限公司 | 一种mcs***下nas虚拟机***的压力测试方法与*** |
CN111913748A (zh) * | 2020-07-13 | 2020-11-10 | 中国科学院软件研究所 | 一种适合复杂异构***的hpl矩阵更新优化方法 |
CN111913748B (zh) * | 2020-07-13 | 2022-05-24 | 中国科学院软件研究所 | 一种适合复杂异构***的hpl矩阵更新优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10209962B2 (en) | Reconstructing a high level compilable program from an instruction trace | |
US9767005B2 (en) | Metaphor based language fuzzing of computer code | |
US11474932B2 (en) | Source code test consolidation | |
US8683440B2 (en) | Performing dynamic software testing based on test result information retrieved in runtime using test result entity | |
US20230164164A1 (en) | Detecting vulnerabilities in configuration code of a cloud environment utilizing infrastructure as code | |
CN105786669A (zh) | 一种测试Rack服务器稳定性的方法 | |
US20200341887A1 (en) | Device, System, and Method for Automatically Detecting and Repairing a Bug in a Computer Program using a Genetic Algorithm | |
Gu et al. | Deepprof: Performance analysis for deep learning applications via mining gpu execution patterns | |
Van Der Kouwe et al. | HSFI: Accurate fault injection scalable to large code bases | |
US11921604B2 (en) | Evaluating system recovery using emulated production systems | |
US8972784B2 (en) | Method and device for testing a system comprising at least a plurality of software units that can be executed simultaneously | |
Xu et al. | Concolic execution on small-size binaries: Challenges and empirical study | |
US9075921B2 (en) | Error simulation | |
WO2017015955A1 (en) | Application testing | |
Nie et al. | Adaptive combinatorial testing | |
Wang et al. | Test case selection using multi-criteria optimization for effective fault localization | |
US9015673B2 (en) | Method for developing software in a parallel computing environment | |
US11983097B2 (en) | Ranking tests based on code change and coverage | |
Cui et al. | WhirlingFuzzwork: a taint-analysis-based API in-memory fuzzing framework | |
Jiang et al. | Revealing Performance Issues in Server-side WebAssembly Runtimes via Differential Testing | |
Kananizadeh et al. | Development of dynamic protection against timing channels | |
Bhardwaj et al. | Fuzz testing in stack-based buffer overflow | |
Clark | Expanding Fuzzing of Critical Program Configurations via Coverage-Based Differential Testing | |
US20230164174A1 (en) | Techniques for lateral movement detecton in a cloud computing environment | |
Schilling et al. | Modeling the reliability of existing software using static analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |
|
RJ01 | Rejection of invention patent application after publication |