CN111190781A - 服务器***的测试自检方法 - Google Patents

服务器***的测试自检方法 Download PDF

Info

Publication number
CN111190781A
CN111190781A CN202010006536.XA CN202010006536A CN111190781A CN 111190781 A CN111190781 A CN 111190781A CN 202010006536 A CN202010006536 A CN 202010006536A CN 111190781 A CN111190781 A CN 111190781A
Authority
CN
China
Prior art keywords
self
detection
hard disk
server system
executing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010006536.XA
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Pudong Technology Corp
Inventec Corp
Original Assignee
Inventec Pudong Technology Corp
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Pudong Technology Corp, Inventec Corp filed Critical Inventec Pudong Technology Corp
Priority to CN202010006536.XA priority Critical patent/CN111190781A/zh
Publication of CN111190781A publication Critical patent/CN111190781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开一种服务器***的测试自检方法,包括执行第一自检程序,检测所述服务器***的中央处理器与存储器;当相应于所述中央处理器与所述存储器的状态的第一自检程序检测结果为正常时,执行第二自检程序,检测所述服务器***的硬盘;当相应于所述硬盘的状态的第二自检程序检测结果为正常时,执行第三自检程序,检测所述服务器的网络通讯部件;当相应于所述网络通讯部件的状态的第三自检程序检测结果为正常时,判断所述服务器***是否通过检测;当通过检测时,结束检测,当未通过检测时,产生未通过检测的提示信息以及检测纪录文档。在本申请的方法中,任一自检程序检测完毕后若有不正常的检测结果,下一个自检程序仍继续进行,避免遗漏。

Description

服务器***的测试自检方法
技术领域
本发明涉及服务器***,尤指一种服务器***的测试自检方法。
背景技术
服务器是计算机的一种,比普通计算机运行更快、负载更高。服务器在网络中为其它客户机(如PC机、智能手机、ATM等终端甚至是火车***等大型设备)提供计算或者应用服务。服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。根据服务器所提供的服务,一般来说服务器都具备承担响应服务请求、承担服务、保障服务的能力。
服务器作为电子设备,其内部的结构十分的复杂,但与普通的计算机内部结构相差不大,如:中央处理器、硬盘、内存,***、***总线等。在现有技术中,并没有一个可以在测试之前,测试进行中,测试后进行自检的方法,例如检查硬盘、网卡、中央处理器、内存等设备以及其他***管理模块。也没有一种方法,可以在测试过程中对***进行实时监测。
发明内容
有鉴于此,如何减轻或消除上述相关领域的缺失,实为有待解决的问题。
本申请公开一种服务器***的测试自检方法,包括执行第一自检程序,检测所述服务器***的中央处理器与存储器;当相应于所述中央处理器与所述存储器的状态的第一自检程序检测结果为正常时,执行第二自检程序,检测所述服务器***的硬盘;当相应于所述硬盘的状态的第二自检程序检测结果为正常时,执行第三自检程序,检测所述服务器的网络通讯部件;当相应于所述网络通讯部件的状态的第三自检程序检测结果为正常时,判断所述服务器***是否通过检测;当通过检测时,结束检测,当未通过检测时,产生未通过检测的提示信息以及检测纪录文档。
在本申请公开的服务器***的测试自检方法中,设置了多个自检程序,每个自检程序检测完都会产生相应检测纪录文档,并且,任一自检程序检测完毕后若有不正常的检测结果,下一个自检程序仍继续进行,如此可以完成所有部件的检测,避免检测的遗漏,确保检测的完整性。因此,不管在测试的那个流程,都能通过一个测试程序实现自检,有问题可以纪录在检测文档并,没问题时也可以显示良好,并且能在测试过程中对***进行实时监测。
本发明的其他优点将配合以下的说明和附图进行更详细的解说。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请公开的服务器***的测试自检方法的流程图。
图2为本申请公开的服务器***的测试自检方法的详细流程图。
图3为本申请公开的服务器***的测试自检方法的详细流程图。
图4为本申请公开的服务器***的测试自检装置的框图。
具体实施方式
以下将配合相关附图来说明本发明的实施例。在这些附图中,相同的标号表示相同或类似的组件或方法流程。
必须了解的是,使用在本说明书中的“包含”、“包括”等词,是用于表示存在特定的技术特征、数值、方法步骤、作业处理、组件和/或组件,但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、组件、组件,或以上的任意组合。
本发明中使用如“第一”、“第二”、“第三”等词是用来修饰权利要求中的组件或方法步骤,并非用来表示这些组件或方法步骤之间具有优先权顺序,先行关系,或者是一个组件先于另一个组件,或者是执行方法步骤时的时间先后顺序,仅用来区别具有相同名字的组件。
一般典型服务器***的主要组成零部件有主板、一个或多个中央处理器、内存、硬盘、网卡等,此外还有独立硬盘冗余阵列(Redundant Array of Independent Disks,RAID)卡、光驱、电源和风扇、显卡、网卡等。主板是计算机最基本的也是最重要的部件之一,安装了组成服务器的主要电路***,一般有基本输入输出***(Basic Input Output System,BIOS)芯片、输入输出(Input/Output,I/O)控制芯片、键盘和面板控制开关接口、指示灯插接件、扩充插槽、主板及插卡的直流电源供电接插件等元件。
参考图1,为本申请公开的服务器***的测试自检方法的流程图,图1所示的步骤由处理器在加载并执行程序代码时实施。
如图1所示,首先执行第一自检程序,检测所述服务器***的中央处理器与存储器(步骤100);当相应于所述中央处理器与所述存储器的状态的第一自检程序检测结果为正常时,执行第二自检程序,检测所述服务器***的硬盘(步骤200);当相应于所述硬盘的状态的第二自检程序检测结果为正常时,执行第三自检程序,检测所述服务器的网络通讯部件(步骤300);当相应于所述网络通讯部件的状态的第三自检程序检测结果为正常时,判断所述服务器***是否通过检测(步骤400);当通过检测时,结束检测,当未通过检测时,产生未通过检测的提示信息以及检测纪录文档(步骤500)。
在本申请公开的服务器***的测试自检方法中,设置了多个自检程序,分别对一个或多个中央处理器、内存、硬盘、网卡等进行自检,每个自检程序检测完都会产生相应检测纪录文档,并且,任一自检程序检测完毕后若有不正常的检测结果,下一个自检程序仍继续进行,如此可以完成所有部件的检测,避免检测的遗漏,确保检测的完整性。因此,不管在测试的那个流程,都能通过一个测试程序实现自检,有问题可以纪录在检测文档并,没问题时也可以显示良好,并且能在测试过程中对***进行实时监测。
参考图2与图3,为本申请公开的服务器***的测试自检方法的详细流程图,说明图1的步骤的详细流程。
在步骤100的执行第一自检程序中,包括检测所述服务器***的中央处理器与存储器(步骤110)以及检测所述中央处理器的功耗及/或频率是否符合规定以及所述存储器是否正常(步骤120)。这里以及前述的存储器指的是***的内存。后续的说明,存储器指的是内存,以与硬盘相区别。
针对步骤110,具体而言,检测所述服务器***的中央处理器是检测中央处理器的在位情况,例如本机安装了一颗中央处理器,待安装数为3。检测所述服务器***的存储器是检测存储器的容量大小以及在位情况。
在更具体的步骤中,可将显示前述的检测结果,亦即将中央处理器的在位情况、存储器的容量大小以及在位情况显示出来。
针对步骤120,可对中央处理器的功耗及/或频率设定安全值,因此检测所述中央处理器的功耗及/或频率是否符合规定是将中央处理器的功耗及/或频率与安全值比较,当中央处理器的功耗及/或频率超过安全值时,将所述处理器的功耗不符合规定不正常的检测信息纪录于所述检测纪录文档。
在步骤120中,检测到存储器不正常时,将所述存储器不正常的检测信息纪录于所述检测纪录文档(步骤130)。
在步骤200的执行第二自检程序中,包括检测所述硬盘是否符合第一规格(步骤210),当所述硬盘符合第一规格时,检测所述符合第一规格的硬盘的运作指标是否正常(步骤220)。当所述符合第一规格的硬盘的运作指标指示所述符合第一规格的硬盘不正常时,将所述符合第一规格的硬盘的不正常的检测信息纪录于所述检测纪录文档(步骤240)。
在具体实施例中,所述符合第一规格的硬盘的运作指标是对硬盘的信息进行检测,包括重映射扇区计数(Reallocated_Sector_Ct)、端对端错误(End-to-End_Error),当前待映射扇区计数(Current_Pending_Sector),以及奇偶校验错误率(UDMA_CRC_Error_Count)等关键参数进行检查。
当所述硬盘不符合第一规格时,将所述硬盘视为符合第二规格,检测所述符合第二规格的硬盘的运作指标是否正常(步骤230)。当所述符合第二规格的硬盘的运作指标指示所述符合第二规格的硬盘不正常时,将所述符合第二规格的硬盘的不正常的检测信息纪录于所述检测纪录文档(步骤240)。
在具体实施例中,所述符合第二规格的硬盘的运作指标是对硬盘的信息进行检测,包括重映射扇区计数(Reallocated_Sector_Ct)、端对端错误(End-to-End_Error),当前待映射扇区计数(Current_Pending_Sector),以及奇偶校验错误率(UDMA_CRC_Error_Count)等关键参数进行检查。
具体而言,第一规格可以是串口(Serial Advanced Technology Attachment,SATA)规格,第二规格可以是非易失性内存主机控制器接口规范(Non-Volatile Memoryexpress,NVMe)规格。符合第一规格的硬盘通常称为串口硬盘。第二规格的硬盘通常是固态硬盘(SSD)。
由于硬盘类型的不一致,所用抓取信息的工具也不一致,在以往的测试方式中,总是要随着硬盘类型的改变进行更改,然而本申请公开的方法可以避免这个问题,本申请公开的方法会根据测试时所安装的硬盘类型进行区分SATA规格或NVMe规格等。在另一实施例中,本申请公开的方法更可以区分不同的厂家。
在具体实施方式中,当识别所所安装的硬盘为串口硬盘时,就会自动使用smartctl对硬盘进行信息的获取,识别到为NVMe规格的硬盘时,则使用工具nvme对硬盘进行信息的获取。通过第二自检程序,不论***所安装的硬盘为哪一种规格,都可以通过第二自检程序自动检测。
在具体实施方式中,本申请公开的方法更在硬盘部分区分开了***盘,因此不会在监测的时候干扰其他盘。
在步骤300的执行第三自检程序中,检测所述服务器的网络通讯部件包括判断所述网络通讯部件的运作是否正常(步骤310),当判断所述网络通讯部件的运作不正常时,将所述网络通讯部件的运作不正常的检测信息纪录于所述检测纪录文档(步骤320)。
在具体的实施方式中,判断所述网络通讯部件的运作是否正常包括检测***能提供的最高频宽以及网卡介面的运作速度。
针对步骤400判断所述服务器***是否通过检测,可以通过标志的纪录状态来进行。本申请公开的方法,使用了三个自检程序,因此可以通过判断纪录所述第一自检程序检测结果、所述第二自检程序检测结果、所述第三自检程序检测结果的标志是否为通过检测(步骤410)来判断所述服务器***是否通过检测;当标志表示为通过检测时,结束检测(步骤420),当标志表示为未通过检测时,产生未通过检测的提示信息以及检测纪录文档(步骤430)。
在另一实施例中,可以在第三自检程序后增加第四自检程序(步骤330),以检测检查功耗及温度,当大于设定的安全值就会产生提示信息进行警告(步骤340)。在另一实施例中,也可以增加第五自检程序,以对***中的其他的部件进行检测(步骤350),例如复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、基本输入输出***(BasicInput Output System,BIOS)与基板管理控制器(Baseboard Manager Controller,BMC)进行检测,将其他的部件的运作不正常的检测信息纪录于所述检测纪录文档(步骤360)。
参考图4,为本申请公开的服务器***的测试自检装置的框图。作为一个实施例,服务器***的测试自检装置500包括:至少一个处理器510以及至少一个存储器520,所述至少一个存储器包括计算机程序代码;所述至少一个存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使用。所述计算机程序代码所述该处理单元执行时实现如上所述的方法步骤。
在另一实施例中,本申请公开一种存储计算机可读指令程序的存储器,所述计算机可读指令程序在由至少一个处理器执行时实现如上所述的方法步骤。
根据本申请公开的测试方法与装置,可以检查中央处理器的在位情况以及中央处理器的功耗和频率,也可以存储器的在位情况以及大小,此外,还可以根据安装的硬盘种类进行测试,同时也对网卡进行测试。
在本申请公开的服务器***的测试自检方法与装置中,设置了多个自检程序,每个自检程序检测完都会产生相应检测纪录文档,并且,任一自检程序检测完毕后若有不正常的检测结果,下一个自检程序仍继续进行,如此可以完成所有部件的检测,避免检测的遗漏,确保检测的完整性。因此,不管在测试的那个流程,都能通过一个测试程序实现自检,有问题可以纪录在检测文档并,没问题时也可以显示良好,并且能在测试过程中对***进行实时监测,使得测试更加高效化,避免了在测试中由于未发现错误导致的时间浪费和人力浪费。
本发明所述的方法中的全部或部分步骤可以计算器程序实现,例如计算机的操作***、计算机中特定硬件的驱动程序、或软件程序。此外,也可实现在如上所示的其他类型程序。所属技术领域具有通常知识者可将本发明实施例的方法撰写成计算器程序,为求简明不再加以描述。依据本发明实施例方法实施的计算器程序可存储在适当的计算机可读取介质,例如DVD、CD-ROM、USB、硬盘,亦可置于可通过网络(例如,互联网,或其他适当载体)存取的网络服务器。
虽然图1、图2的流程图采用指定的顺序来执行,但是在不违反发明精神的情况下,所属技术领域的技术人员可以在达到相同效果的前提下,修改这些步骤间的顺序,所以,本发明并不局限于仅使用如上所述的顺序。此外,所属技术领域的技术人员也可以将若干步骤整合为一个步骤,或者是除了这些步骤外,循序或平行地执行更多步骤,本发明也不因此而局限。
虽然本发明使用以上实施例进行说明,但需要注意的是,这些描述并非用于限缩本发明。相反地,此发明涵盖了所属技术领域中的技术人员显而易见的修改与相似设置。所以,权利要求范围须以最宽广的方式解释来包含所有显而易见的修改与相似设置。

Claims (7)

1.一种服务器***的测试自检方法,由处理器在加载并执行程序代码时实施,其特征在于,包括:
执行第一自检程序,检测所述服务器***的中央处理器与存储器;
当相应于所述中央处理器与所述存储器的状态的第一自检程序检测结果为正常时,执行第二自检程序,检测所述服务器***的硬盘;
当相应于所述硬盘的状态的第二自检程序检测结果为正常时,执行第三自检程序,检测所述服务器的网络通讯部件;
当相应于所述网络通讯部件的状态的第三自检程序检测结果为正常时,判断所述服务器***是否通过检测;
当通过检测时,结束检测,当未通过检测时,产生未通过检测的提示信息以及检测纪录文档。
2.如权利要求1所述的服务器***的测试自检方法,其特征在于,所述执行第一自检程序的步骤中,包括检测所述中央处理器的功耗及/或频率是否符合规定以及所述存储器是否正常。
3.如权利要求2所述的服务器***的测试自检方法,其特征在于,当所述处理器的功耗及/或频率不符合规定或所述存储器不正常时,将所述处理器的功耗/或频率不符合规定或所述存储器不正常的检测信息纪录于所述检测纪录文档。
4.如权利要求1所述的服务器***的测试自检方法,其特征在于,所述执行所述第二自检程序的步骤中,包括:
检测所述硬盘是否符合第一规格;
当所述硬盘符合所述第一规格时,检测所述符合第一规格的硬盘的运作指标是否正常;
当所述符合第一规格的硬盘的运作指标指示所述符合第一规格的硬盘不正常时,将所述符合第一规格的硬盘的不正常的检测信息纪录于所述检测纪录文档。
5.如权利要求4所述的服务器***的测试自检方法,其特征在于,所述检测所述硬盘是否符合第一规格的步骤中,当所述硬盘不符合第一规格时,所述步骤更包括:
将所述硬盘视为符合第二规格,检测所述符合第二规格的硬盘的运作指标是否正常;
当所述符合第二规格的硬盘的运作指标指示所述符合第二规格的硬盘不正常时,将所述符合第二规格的硬盘的不正常的检测信息纪录于所述检测纪录文档。
6.如权利要求1所述的服务器***的测试自检方法,其特征在于,所述执行所述第三自检程序的步骤中,包括判断所述网络通讯部件的运作是否正常。
7.如权利要求6所述的服务器***的测试自检方法,其特征在于,当判断所述网络通讯部件的运作不正常时,将所述网络通讯部件的运作不正常的检测信息纪录于所述检测纪录文档。
CN202010006536.XA 2020-01-03 2020-01-03 服务器***的测试自检方法 Pending CN111190781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010006536.XA CN111190781A (zh) 2020-01-03 2020-01-03 服务器***的测试自检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010006536.XA CN111190781A (zh) 2020-01-03 2020-01-03 服务器***的测试自检方法

Publications (1)

Publication Number Publication Date
CN111190781A true CN111190781A (zh) 2020-05-22

Family

ID=70708631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010006536.XA Pending CN111190781A (zh) 2020-01-03 2020-01-03 服务器***的测试自检方法

Country Status (1)

Country Link
CN (1) CN111190781A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI803296B (zh) * 2022-03-21 2023-05-21 新加坡商鴻運科股份有限公司 板卡檢測控制電路、方法、伺服器系統

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541711A (zh) * 2011-12-31 2012-07-04 曙光信息产业股份有限公司 一种测试x86架构服务器主板的方法
CN107391325A (zh) * 2017-06-30 2017-11-24 郑州云海信息技术有限公司 一种硬盘的测试方法、装置及终端
CN107544883A (zh) * 2017-08-24 2018-01-05 紫光华山信息技术有限公司 服务器的诊断装置、***和方法
CN109669828A (zh) * 2018-12-21 2019-04-23 郑州云海信息技术有限公司 一种硬盘检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541711A (zh) * 2011-12-31 2012-07-04 曙光信息产业股份有限公司 一种测试x86架构服务器主板的方法
CN107391325A (zh) * 2017-06-30 2017-11-24 郑州云海信息技术有限公司 一种硬盘的测试方法、装置及终端
CN107544883A (zh) * 2017-08-24 2018-01-05 紫光华山信息技术有限公司 服务器的诊断装置、***和方法
CN109669828A (zh) * 2018-12-21 2019-04-23 郑州云海信息技术有限公司 一种硬盘检测方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI803296B (zh) * 2022-03-21 2023-05-21 新加坡商鴻運科股份有限公司 板卡檢測控制電路、方法、伺服器系統

Similar Documents

Publication Publication Date Title
TWI317868B (en) System and method to detect errors and predict potential failures
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN109328340B (zh) 内存故障的检测方法、装置和服务器
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
JP2004537787A (ja) コンピュータ・システムにおける電力障害を解析する方法および装置
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
US20150074468A1 (en) SAN Vulnerability Assessment Tool
US7757123B1 (en) Managing faults
CN115640174A (zh) 内存故障预测方法、***、中央处理单元及计算设备
CN103049345A (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN111190781A (zh) 服务器***的测试自检方法
US7457990B2 (en) Information processing apparatus and information processing recovery method
CN110083470B (zh) 磁盘分析方法、装置及计算机可读存储介质
US20210349775A1 (en) Method of data management and method of data analysis
CN112084097B (zh) 一种磁盘告警方法及装置
CN111223516B (zh) Raid卡检测方法以及装置
US9990382B1 (en) Secure erasure and repair of non-mechanical storage media
TW202129499A (zh) 伺服器系統的測試自檢方法
JP2001076422A (ja) 記憶装置の交代処理時間判定試験方法
JP2019160116A (ja) 情報処理装置、試験制御方法、及び試験制御プログラム
US11486926B1 (en) Wearout card use count
JP2013196410A (ja) サーバ装置及び障害管理方法及び障害管理プログラム
US7895493B2 (en) Bus failure management method and system
CN115691636A (zh) 一种慢盘检测方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200522