CN105786669A - 一种测试Rack服务器稳定性的方法 - Google Patents

一种测试Rack服务器稳定性的方法 Download PDF

Info

Publication number
CN105786669A
CN105786669A CN201610262160.2A CN201610262160A CN105786669A CN 105786669 A CN105786669 A CN 105786669A CN 201610262160 A CN201610262160 A CN 201610262160A CN 105786669 A CN105786669 A CN 105786669A
Authority
CN
China
Prior art keywords
test
linpack
rack server
server
stability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610262160.2A
Other languages
English (en)
Inventor
肖峰镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610262160.2A priority Critical patent/CN105786669A/zh
Publication of CN105786669A publication Critical patent/CN105786669A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开一种测试Rack服务器稳定性的方法,属于Rack服务器测试领域;本发明提供测试Rack服务器稳定性的方法,设置测试状态:轻载,中载,重载并利用不同的测试工具用以检测设备性能,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质,并且利用本发明方法在不重启***的情况下,可以切换整机柜的工作状态。大大减少了开机重启等不必要的操作,提高了生产效率。

Description

一种测试Rack服务器稳定性的方法
技术领域
本发明公开一种测试Rack服务器稳定性的方法,属于Rack服务器测试领域。
背景技术
服务器在不同负载状态下会呈现不同的状态,生产测试过程中会尽量的模拟所有的状态以检验设备性能发掘设备潜力。本发明提供测试Rack服务器稳定性的方法,设置测试状态:轻载,中载,重载并利用不同的测试工具用以检测设备性能,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质,并且利用本发明方法在不重启***的情况下,可以切换整机柜的工作状态。大大减少了开机重启等不必要的操作,提高了生产效率。
其中Linpack测试包括三类,Linpack100、Linpack1000和HPL。HPL即HighPerformanceLinpack,也叫高度并行计算基准测试,它对数组大小N没有限制,求解问题的规模可以改变,除基本算法不可改变外,可以采用其它任何优化方法。HPL是针对现代并行计算机提出的测试方式。用户在不修改任意测试程序的基础上,可以调节问题规模大小即矩阵大小、使用到的CPU数目、使用各种优化方法等来执行该测试程序,以获取最佳的性能。随着产品硬件的不断的升级,整个的计算能力也以数量级的速度提升。
发明内容
本发明针对现有技术中的问题,提供一种测试Rack服务器稳定性的方法,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质。
本发明提出的具体方案是:
一种测试Rack服务器稳定性的方法,
设置Rack服务器测试负载状态,根据负载状态,选择测试工具对其稳定性进行测试,具体为:
轻载:不运行任何压力程式,服务器工作在最低的状态下,选择适合无运行压的测试工具进行稳定性测试;
中载:运行在一定的压力状态下,利用YES+DD作为中载压力工具;
重载:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试。
利用Linpack测试工具进行重压测试的步骤为:
安装linpack,选择适合的版本进行安装;
配置linpack运行的环境变量,
编译linpack,编译配置文件和执行文件;
配置HPL.dat,定义相关HPL.dat文件;
运行linpack,进行重压测试。
所述利用YES+DD作为中载压力工具,进行批量脚本的定义,对多节点批量进行中载压力测试。
对所述Rack服务器的所有节点配置SSH互信。
所述Rack服务器测试开始时,所有节点运行在idle状态,保存mcelog,dmesg,rmclog。
所述Rack服务器测试结束时,保存mcelog,dmesg,rmclog。
本发明的有益之处是:
本发明提供测试Rack服务器稳定性的方法,设置测试状态:轻载,中载,重载并利用不同的测试工具用以检测设备性能,模拟服务器不同的压力状态并运行一段时间检查设备稳定性,淘汰不良器件完成对产品的检查测试工作以保证产品品质,提高了生产效率。
具体实施方式
一种测试Rack服务器稳定性的方法,
设置Rack服务器测试负载状态,根据负载状态,选择测试工具对其稳定性进行测试,具体为:
轻载:不运行任何压力程式,服务器工作在最低的状态下,选择适合无运行压的测试工具进行稳定性测试;
中载:运行在一定的压力状态下,利用YES+DD作为中载压力工具;
重载:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试。
根据上述方法及发明内容,对本发明做具体说明。以34个节点的Rack服务器为例。
灌装完***之后,所有节点配置SSH互信以方便后续的操作。
轻载测试:整机柜节点开机,所有节点运行在idle状态,保存mcelog,dmesg,rmclog,选择适合无运行压的测试工具进行稳定性测试,保存***的log的目的是为了后续分析所用;
中载测试:服务器运行在一定的压力状态下,利用YES+DD作为中载压力工具;
其中定义YES+DD脚本:
foriin{a..m}#硬盘编号从a至m按照实际情况填写
do
ddif=/dev/sd$iof=/dev/null&#后台运行DD进程
done
a=`cat/proc/cpuinfo|grepprocessor|wc-l`#计算CPU进程数
for((j=0;j<$a;j++))
do
yes>/dev/null&#后台运行YES进程
done
sleep7200
killall-9dd>/dev/null2>&1#确认停止DD进程
sleep1
killall-9yes>/dev/null2>&1#确认停止YES进程
sleep1
批量脚本:
#!/bin/bash
functionshab()
{
ssh$1$2
}
foriin{1..34}#Rack机柜IP地址范围,本例子是从1-34共34节点
do
echo"------------------$i----------------------------------------"
shab192.168.1.$i"$1"&#ip地址按照实际情况填写,本例网段在192.168.1.X
done
登录要执行进程的节点-运行测试脚本-脚本放置后台,大大简化了测试时间;
在整机柜的第一节点运行批量运行脚本,可以命名为ALL-test.sh,具体运行如下:
shALL-test.sh/opt/yesdd.sh#默认所有节点的运行脚本放置在/opt/目录下;
随机登录几个节点检查后台是否运行yes+dd进程;
可设置测试时间是7200秒即2个小时,时间过后程式自动结束,保存mcelog,dmesg,rmclog;
重载测试:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试;
1)安装linpack,安装IntelC++Compiler\IntelFortranCompiler。本发明采用的是版本如下:
OSRHEL5u3IntelCompiler11.1.072IntelMPI3.2.2.006;
2)配置好环境变量:
默认/opt/为安装目录
source/opt/intel/Compiler/11.1/072/bin/iccvars.shintel64
source/opt/intel/Compiler/11.1/072/bin/ifortvars.shintel64
source/opt/intel/impi/3.2.2.006/bin64/mpivars.sh
source/opt/intel/Compiler/11.1/072/mkl/tools/environment/mklvarsem64t.sh
3)编译linpack:
cd/opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack
makearch=em64t编译完成后,
cd/opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack/bin/em64t
在此可以看到HPL.dat和xhpl2个文件,其中HPL.dat为配置文件,xhpl为可执行程序。
4)配置HPL.dat:
拷贝em64t文件夹到/opt/下修改HPL.dat文件,
HPLinpackbenchmarkinputfileInnovativeComputingLaboratory,UniversityofTennessee
HPL.outoutputfilename(ifany)
6deviceout(6=stdout,7=stderr,file)
1#ofproblemssizes(N)
50760Ns
2#ofNBs
192224NBs
0PMAPprocessmapping(0=Row-,1=Columnmajor)
2#ofprocessgrids(PxQ)
32Ps
46Qs
16.0threshold
1#ofpanelfact
012PFACTs(0=left,1=Crout,2=Right)
2#ofrecursivestoppingcriterium
42NBMINs(>=1)
1#ofpanelsinrecursion
2NDIVs
1#ofrecursivepanelfact.
102RFACTs(0=left,1=Crout,2=Right)
1#ofbroadcast
0BCASTs(0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
1#oflookaheaddepth
0DEPTHs(>=0)
2SWAP(0=bin-exch,1=long,2=mix)
256swappingthreshold
1L1in(0=transposed,1=no-transposed)form
1Uin(0=transposed,1=no-transposed)form
0Equilibration(0=no,1=yes)
8memoryalignmentindouble(>0)
主要注意N,NB,P和Q的值,N是矩阵的大小,其公式为:N*N*8=总内存*80%,在intelNehalem以上的cpu,N*N*8=总内存*90%测试的效果会更好些。NB是求解矩阵分块大小,一般为192,224。P和Q要满足:P*Q=进程数;P<Q这2个关系。
5)运行linpack
mpdboot
mpiexec–machinefilehosts–n12./xhpl
随机登录几个节点检查后台进程,中载测试完成即可运行重载测试;
shALL-test.sh“mpdboot;mpiexec–machinefilehosts–n12./xhpl”
随机登录几个节点检查是否运行了linpack测试进程,根据设备配置不同linpack测试时间也会相应的有变化,等待所有测试自动结束即可,保存mcelog,dmesg,rmclog。
由于Linpack在运行过程中会调用大量的***资源CPU利用率可以达到99%,所以我们在这里把它作为一个压力测试工具使用。
设备性能的分析:
Linpack测试效率:
一台双路服务器配置了2颗Xeonx56502.66GHz的理论峰值为2.66(主频)*4(每个时钟执行4次浮点运算)*2(2颗cpu)*6(每颗cpu有6个核)=127.68GFlops实测的一组输出结果:
输出结果为121Gflops,效率=121/127.68=94.7,
相同配置的设备在相同条件下测试结果差距不大,如果出现个别节点测试结果或者效率比较低可以初步怀疑***问题。
***log分析:
Mcelog:是x86的Linux***上用来检查硬件错误,特别是内存和CPU错误的工具。
Dmesg:用来显示内核环缓冲区内容,内核将各种消息存放在这里。在***引导时,内核将与硬件和模块初始化相关的信息填到这个缓冲区中。内核环缓冲区中的消息对于诊断***问题非常有用。
通过检查上述log中的信息可以判断***在运行过程中是否正常。

Claims (6)

1.一种测试Rack服务器稳定性的方法,其特征是
设置Rack服务器测试负载状态,根据负载状态,选择测试工具对其稳定性进行测试,具体为:
轻载:不运行任何压力程式,服务器工作在最低的状态下,选择适合无运行压的测试工具进行稳定性测试;
中载:运行在一定的压力状态下,利用YES+DD作为中载压力工具;
重载:最大压力下运行,用以检验服务器潜力,利用Linpack测试工具进行重压测试。
2.根据权利要求1所述的方法,其特征是利用Linpack测试工具进行重压测试的步骤为:
安装linpack,选择适合的版本进行安装;
配置linpack运行的环境变量,
编译linpack,编译配置文件和执行文件;
配置HPL.dat,定义相关HPL.dat文件;
运行linpack,进行重压测试。
3.根据权利要求1或2所述的方法,其特征是利用YES+DD作为中载压力工具,进行批量脚本的定义,对多节点批量进行中载压力测试。
4.根据权利要求3所述的方法,其特征是对Rack服务器的所有节点配置SSH互信。
5.根据权利要求4所述的方法,其特征是Rack服务器测试开始时,所有节点运行在idle状态,保存mcelog,dmesg,rmclog。
6.根据权利要求5所述的方法,其特征是Rack服务器测试结束时,保存mcelog,dmesg,rmclog。
CN201610262160.2A 2016-04-25 2016-04-25 一种测试Rack服务器稳定性的方法 Pending CN105786669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610262160.2A CN105786669A (zh) 2016-04-25 2016-04-25 一种测试Rack服务器稳定性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610262160.2A CN105786669A (zh) 2016-04-25 2016-04-25 一种测试Rack服务器稳定性的方法

Publications (1)

Publication Number Publication Date
CN105786669A true CN105786669A (zh) 2016-07-20

Family

ID=56398602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610262160.2A Pending CN105786669A (zh) 2016-04-25 2016-04-25 一种测试Rack服务器稳定性的方法

Country Status (1)

Country Link
CN (1) CN105786669A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391330A (zh) * 2017-07-24 2017-11-24 郑州云海信息技术有限公司 一种安腾平台下计算机性能测试方法及***
CN109144669A (zh) * 2018-08-15 2019-01-04 郑州云海信息技术有限公司 一种mcs***下nas虚拟机***的压力测试方法与***
CN111913748A (zh) * 2020-07-13 2020-11-10 中国科学院软件研究所 一种适合复杂异构***的hpl矩阵更新优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux***下的故障内存位置定位方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN104375914A (zh) * 2014-11-24 2015-02-25 浪潮电子信息产业股份有限公司 一种服务器内部压力变化自动测试方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux***下的故障内存位置定位方法
CN103294579A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种高性能计算集群应用性能测试方法
CN104375914A (zh) * 2014-11-24 2015-02-25 浪潮电子信息产业股份有限公司 一种服务器内部压力变化自动测试方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391330A (zh) * 2017-07-24 2017-11-24 郑州云海信息技术有限公司 一种安腾平台下计算机性能测试方法及***
CN107391330B (zh) * 2017-07-24 2020-10-20 苏州浪潮智能科技有限公司 一种安腾平台下计算机性能测试方法及***
CN109144669A (zh) * 2018-08-15 2019-01-04 郑州云海信息技术有限公司 一种mcs***下nas虚拟机***的压力测试方法与***
CN111913748A (zh) * 2020-07-13 2020-11-10 中国科学院软件研究所 一种适合复杂异构***的hpl矩阵更新优化方法
CN111913748B (zh) * 2020-07-13 2022-05-24 中国科学院软件研究所 一种适合复杂异构***的hpl矩阵更新优化方法

Similar Documents

Publication Publication Date Title
US10209962B2 (en) Reconstructing a high level compilable program from an instruction trace
US9767005B2 (en) Metaphor based language fuzzing of computer code
US11474932B2 (en) Source code test consolidation
US8683440B2 (en) Performing dynamic software testing based on test result information retrieved in runtime using test result entity
US20230164164A1 (en) Detecting vulnerabilities in configuration code of a cloud environment utilizing infrastructure as code
CN105786669A (zh) 一种测试Rack服务器稳定性的方法
US20200341887A1 (en) Device, System, and Method for Automatically Detecting and Repairing a Bug in a Computer Program using a Genetic Algorithm
Gu et al. Deepprof: Performance analysis for deep learning applications via mining gpu execution patterns
Van Der Kouwe et al. HSFI: Accurate fault injection scalable to large code bases
US11921604B2 (en) Evaluating system recovery using emulated production systems
US8972784B2 (en) Method and device for testing a system comprising at least a plurality of software units that can be executed simultaneously
Xu et al. Concolic execution on small-size binaries: Challenges and empirical study
US9075921B2 (en) Error simulation
WO2017015955A1 (en) Application testing
Nie et al. Adaptive combinatorial testing
Wang et al. Test case selection using multi-criteria optimization for effective fault localization
US9015673B2 (en) Method for developing software in a parallel computing environment
US11983097B2 (en) Ranking tests based on code change and coverage
Cui et al. WhirlingFuzzwork: a taint-analysis-based API in-memory fuzzing framework
Jiang et al. Revealing Performance Issues in Server-side WebAssembly Runtimes via Differential Testing
Kananizadeh et al. Development of dynamic protection against timing channels
Bhardwaj et al. Fuzz testing in stack-based buffer overflow
Clark Expanding Fuzzing of Critical Program Configurations via Coverage-Based Differential Testing
US20230164174A1 (en) Techniques for lateral movement detecton in a cloud computing environment
Schilling et al. Modeling the reliability of existing software using static analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720

RJ01 Rejection of invention patent application after publication