CN108763005B - 一种内存ecc故障报错方法及*** - Google Patents

一种内存ecc故障报错方法及*** Download PDF

Info

Publication number
CN108763005B
CN108763005B CN201810542788.7A CN201810542788A CN108763005B CN 108763005 B CN108763005 B CN 108763005B CN 201810542788 A CN201810542788 A CN 201810542788A CN 108763005 B CN108763005 B CN 108763005B
Authority
CN
China
Prior art keywords
ecc
bmc
error
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810542788.7A
Other languages
English (en)
Other versions
CN108763005A (zh
Inventor
赵晓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810542788.7A priority Critical patent/CN108763005B/zh
Publication of CN108763005A publication Critical patent/CN108763005A/zh
Application granted granted Critical
Publication of CN108763005B publication Critical patent/CN108763005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

本发明涉及服务器诊断技术领域,提供一种内存ECC故障报错方法及***,方法包括:在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;当确认是本机ECC报错时,控制中断压力测试并报错,从而实现对内存ECC故障的报错检测,而且不需要增加额外的预算,操作简单,经济实用,可有效提高服务器内存ECC报错的的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景。

Description

一种内存ECC故障报错方法及***
技术领域
本发明属于服务器诊断技术领域,尤其涉及一种内存ECC故障报错方法及***。
背景技术
在当前服务器的生产阶段和售后阶段,均需要诊断工具来检测产品质量和发现产品故障,其中,内存压力测试是诊断服务器产品质量和发现故障的其中一种主要的方式。
以往的内存压力测试,只能在内压力测试全部跑完后,通过智能平台管理接口(Intelligent Platform Management Interface,IPMI)指令获取BMC LOG,才能确定本测试机有无内存ECC报错。在内存压力测试过程中,无法在ECC产生后及时中断测试报错,影响诊断和维修的效率。
发明内容
本发明的目的在于提供一种内存ECC故障报错方法,旨在解决现有技术中在内存压力测试过程中,无法在ECC产生后及时中断测试报错,影响诊断和维修的效率的问题。
本发明是这样实现的,一种内存ECC故障报错方法,所述方法包括下述步骤:
在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
当确认是本机ECC报错时,控制中断压力测试并报错。
作为一种改进的方案,所述在内存压力测试开启时,控制开启BMC Trap功能的步骤之前还包括下述步骤:
预先配置服务器诊断测试用的内存压力测试程序;
控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系,同时将所述绑定关系上传至数据库。
作为一种改进的方案,所述同时将所述绑定关系上传至数据库的步骤之后还包括下述步骤:
判断在内存压力测试时,服务器是否开启BMC Trap功能;
若已开启,则执行所述在BMC Trap功能开启时,运行内存压力测试的步骤;
若未开启,则执行通过IPMI指令开启BMC Trap功能。
作为一种改进的方案,所述在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的步骤具体包括下述步骤:
在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
及时获取错误检查和纠正ECC报错信息;
若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
作为一种改进的方案,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
本发明的另一目的在于提供一种内存ECC故障报错***,所述***包括:
内存压力测试控制模块,用于在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
ECC报错信息获取报送模块,用于在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
报错信息确认模块,用于所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
压力测试中断模块,用于当确认是本机ECC报错时,控制中断压力测试并报错。
作为一种改进的方案,所述***还包括:
内存压力测试程序预先配置模块,用于预先配置服务器诊断测试用的内存压力测试程序;
绑定关系建立模块,用于控制获取当前测试面的NET IP和BMC IP,并在所述NETIP和BMC IP之间建立绑定关系;
上传模块,用于将所述绑定关系上传至数据库。
作为一种改进的方案,所述***还包括:
判断模块,用于判断在内存压力测试时,服务器是否开启BMC Trap功能;
Trap功能开启模块,用于若所述判断模块判断BMC Trap功能未开启,则执行通过IPMI指令开启BMC Trap功能;
若所述判断模块判断BMC Trap功能已开启,则执行所述内存压力测试控制模块在BMC Trap功能开启时,运行内存压力测试的步骤。
作为一种改进的方案,所述ECC报错信息获取报送模块具体包括下述步骤:
控台监控程序运行模块,用于在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
ECC报错信息获取模块,用于及时获取错误检查和纠正ECC报错信息;
ECC报错信息广播模块,用于若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
作为一种改进的方案,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
在本发明实施例中,在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;当确认是本机ECC报错时,控制中断压力测试并报错,从而实现对内存ECC故障的报错检测,而且不需要增加额外的预算,操作简单,经济实用,可有效提高服务器内存ECC报错的的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景。
附图说明
图1是本发明提供的内存ECC故障报错方法的实现流程图;
图2是本发明提供的在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的实现流程图;
图3是本发明提供的内存ECC故障报错***的结构框图;
图4是本发明提供的ECC报错信息获取报送模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明提供的内存ECC故障报错方法的实现流程图,其具体包括下述步骤:
在步骤S101中,在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序。
在该步骤中,在服务器的老化测试中有一个内存压力测试环节,各厂家的加压工具可能不同,但目的都是测试内存上的所有BIT。
在步骤S102中,在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机。
在该步骤中,当内存压力测试过程导致运算中的某BIT报错时,及ECC出现报错信息。
在步骤S103中,所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息。
在该步骤中,该确认是否为本机ECC报错信息的具体实现为:通过查询数据库的IP对应关系,获取是否为本机的ECC报错。
在步骤S104中,当确认是本机ECC报错时,控制中断压力测试并报错。
其中,在内存压力测试开启时,控制开启BMC Trap功能的步骤之前还包括下述步骤:
(1)预先配置服务器诊断测试用的内存压力测试程序;
(2)控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系,同时将所述绑定关系上传至数据库。
在该实施例中,同时将所述绑定关系上传至数据库的步骤之后还包括下述步骤:
判断在内存压力测试时,服务器是否开启BMC Trap功能;
若已开启,则执行所述在BMC Trap功能开启时,运行内存压力测试的步骤;
若未开启,则执行通过IPMI指令开启BMC Trap功能。
在本发明实施例中,如图2所示,在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的步骤具体包括下述步骤:
在步骤S201中,在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序。
在步骤S202中,及时获取错误检查和纠正ECC报错信息。
在步骤S203中,若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
图3示出了本发明挺的内存ECC故障报错***的结构框图,为了便于说明,图中仅给出了与本发明实施例相关的部分。
内存ECC故障报错***包括:
内存压力测试控制模块11,用于在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
ECC报错信息获取报送模块12,用于在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
报错信息确认模块13,用于所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
压力测试中断模块14,用于当确认是本机ECC报错时,控制中断压力测试并报错。
其中,内存压力测试程序预先配置模块15,用于预先配置服务器诊断测试用的内存压力测试程序;
绑定关系建立模块16,用于控制获取当前测试面的NET IP和BMC IP,并在所述NETIP和BMC IP之间建立绑定关系;
上传模块17,用于将所述绑定关系上传至数据库。
在本发明实施例中,判断模块18,用于判断在内存压力测试时,服务器是否开启BMC Trap功能;
Trap功能开启模块19,用于若所述判断模块判断BMC Trap功能未开启,则执行通过IPMI指令开启BMC Trap功能;
若所述判断模块18判断BMC Trap功能已开启,则执行所述内存压力测试控制模块在BMC Trap功能开启时,运行内存压力测试的步骤。
在本发明实施例中,如图4所示,ECC报错信息获取报送模块12具体包括下述步骤:
控台监控程序运行模块20,用于在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
ECC报错信息获取模块21,用于及时获取错误检查和纠正ECC报错信息;
ECC报错信息广播模块22,用于若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
在该实施例中,上述各个模块的功能如上述方法实施例所记载,在此不再赘述。
在本发明实施例中,在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;当确认是本机ECC报错时,控制中断压力测试并报错,从而实现对内存ECC故障的报错检测,而且不需要增加额外的预算,操作简单,经济实用,可有效提高服务器内存ECC报错的的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种内存ECC故障报错方法,其特征在于,所述方法包括下述步骤:
在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
当确认是本机ECC报错时,控制中断压力测试并报错;
所述在内存压力测试开启时,控制开启BMC Trap功能的步骤之前还包括下述步骤:
预先配置服务器诊断测试用的内存压力测试程序;
控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系,同时将所述绑定关系上传至数据库;
所述同时将所述绑定关系上传至数据库的步骤之后还包括下述步骤:
判断在内存压力测试时,服务器是否开启BMC Trap功能;
若已开启,则执行所述在BMC Trap功能开启时,运行内存压力测试的步骤;
若未开启,则执行通过IPMI指令开启BMC Trap功能。
2.根据权利要求1所述的内存ECC故障报错方法,其特征在于,所述在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的步骤具体包括下述步骤:
在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
及时获取错误检查和纠正ECC报错信息;
若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
3.根据权利要求2所述的内存ECC故障报错方法,其特征在于,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
4.一种内存ECC故障报错***,其特征在于,所述***包括:
内存压力测试控制模块,用于在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
ECC报错信息获取报送模块,用于在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
报错信息确认模块,用于所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
压力测试中断模块,用于当确认是本机ECC报错时,控制中断压力测试并报错;
所述***还包括:
内存压力测试程序预先配置模块,用于预先配置服务器诊断测试用的内存压力测试程序;
绑定关系建立模块,用于控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系;
上传模块,用于将所述绑定关系上传至数据库;
所述***还包括:
判断模块,用于判断在内存压力测试时,服务器是否开启BMC Trap功能;
Trap功能开启模块,用于若所述判断模块判断BMC Trap功能未开启,则执行通过IPMI指令开启BMC Trap功能;
若所述判断模块判断BMC Trap功能已开启,则执行所述内存压力测试控制模块在BMCTrap功能开启时,运行内存压力测试的步骤。
5.根据权利要求4所述的内存ECC故障报错***,其特征在于,所述ECC报错信息获取报送模块具体包括下述步骤:
控台监控程序运行模块,用于在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
ECC报错信息获取模块,用于及时获取错误检查和纠正ECC报错信息;
ECC报错信息广播模块,用于若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
6.根据权利要求5所述的内存ECC故障报错***,其特征在于,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
CN201810542788.7A 2018-05-30 2018-05-30 一种内存ecc故障报错方法及*** Active CN108763005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810542788.7A CN108763005B (zh) 2018-05-30 2018-05-30 一种内存ecc故障报错方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810542788.7A CN108763005B (zh) 2018-05-30 2018-05-30 一种内存ecc故障报错方法及***

Publications (2)

Publication Number Publication Date
CN108763005A CN108763005A (zh) 2018-11-06
CN108763005B true CN108763005B (zh) 2021-07-27

Family

ID=64004498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810542788.7A Active CN108763005B (zh) 2018-05-30 2018-05-30 一种内存ecc故障报错方法及***

Country Status (1)

Country Link
CN (1) CN108763005B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710501B (zh) * 2018-12-18 2021-10-29 郑州云海信息技术有限公司 一种服务器数据传输稳定性的检测方法和***
CN111625387B (zh) * 2020-05-27 2024-03-29 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN112463481B (zh) * 2020-11-23 2023-01-10 苏州浪潮智能科技有限公司 一种基于远程xdp功能测试bmc故障诊断功能的方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477479A (zh) * 2009-01-08 2009-07-08 浪潮电子信息产业股份有限公司 一种测试内存兼容性和稳定性的方法
CN103970661A (zh) * 2014-05-19 2014-08-06 浪潮电子信息产业股份有限公司 一种利用ipmi工具进行批量服务器内存故障检测的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN107038098A (zh) * 2017-04-28 2017-08-11 郑州云海信息技术有限公司 一种可批量通过网络进行服务器内存诊断的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150721A1 (en) * 2007-12-10 2009-06-11 International Business Machines Corporation Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
US9785570B2 (en) * 2015-03-09 2017-10-10 Samsung Electronics Co., Ltd. Memory devices and modules

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477479A (zh) * 2009-01-08 2009-07-08 浪潮电子信息产业股份有限公司 一种测试内存兼容性和稳定性的方法
CN103970661A (zh) * 2014-05-19 2014-08-06 浪潮电子信息产业股份有限公司 一种利用ipmi工具进行批量服务器内存故障检测的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN107038098A (zh) * 2017-04-28 2017-08-11 郑州云海信息技术有限公司 一种可批量通过网络进行服务器内存诊断的方法

Also Published As

Publication number Publication date
CN108763005A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN110069051B (zh) 家电故障处理方法和装置
CN108763005B (zh) 一种内存ecc故障报错方法及***
CN109361562B (zh) 一种基于关联网络设备接入的自动化测试方法
CN109733238B (zh) 故障检测方法、装置、存储介质及处理器
WO2016082543A1 (zh) 一种设备检测方法及检测设备
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN113783749B (zh) 一种基于网络端口检测设备故障的方法
CN110888776A (zh) 数据库健康状态检测方法、装置及设备
CN114793132A (zh) 一种光模块的检测方法、装置、电子设备及存储介质
CN110059013B (zh) 软件升级后正常运行的确定方法及装置
CN112398672B (zh) 一种报文检测方法及装置
CN107612786B (zh) 一种测试路由器的方法及***
CN107241218B (zh) 一种故障检测方法及装置
JP2009053795A (ja) 生産制御システム
CN116299129A (zh) 一种全光纤电流互感器状态检测分析方法、装置及介质
CN113012410B (zh) 一种晶圆测试预警方法
CN111722997B (zh) 自动化测试的异常检测方法及计算机可读存储介质
CN114036008A (zh) 设备信息检测方法、装置、计算机设备及存储介质
CN109541426B (zh) 一种晶圆测试中测试仪自动读取参数的方法
CN109783263B (zh) 一种服务器老化测试故障的处理方法和***
CN110198249B (zh) 一种配电自动化***测试方法及***
CN113127277B (zh) 一种设备测试方法、装置、电子设备及可读存储介质
CN110636246A (zh) 视频通信云硬件终端的维护方法
CN116991724A (zh) 基于监控日志的接口测试方法、装置、电子设备和存储介质
CN113452580B (zh) 一种自动批量排查网络设备故障的方法及测试主机端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant