CN117149490A - 一种服务器内存故障预警方法、装置、设备及存储介质 - Google Patents

一种服务器内存故障预警方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117149490A
CN117149490A CN202311103756.4A CN202311103756A CN117149490A CN 117149490 A CN117149490 A CN 117149490A CN 202311103756 A CN202311103756 A CN 202311103756A CN 117149490 A CN117149490 A CN 117149490A
Authority
CN
China
Prior art keywords
target
funnel
memory
correctable error
correctable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311103756.4A
Other languages
English (en)
Inventor
龚树青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Shandong Computer Technology Co Ltd
Original Assignee
Inspur Shandong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Shandong Computer Technology Co Ltd filed Critical Inspur Shandong Computer Technology Co Ltd
Priority to CN202311103756.4A priority Critical patent/CN117149490A/zh
Publication of CN117149490A publication Critical patent/CN117149490A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种服务器内存故障预警方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;监测目标内存触发的可纠正错误,并将可纠正错误的数量记录至目标漏斗计数器中;基于可纠正错误的数量和目标配置信息计算目标漏斗计数器的当前实际计数值;判断当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是则记录一次可纠正错误风暴事件;统计预设时间内记录的所有可纠正错误风暴事件得到目标风暴事件次数;判断目标风暴事件次数是否大于预设次数阈值,若是则生成相应的内存故障预警信息,以进行故障预警。本申请能够提升服务器内存故障预警的准确性,降低服务器的维护成本。

Description

一种服务器内存故障预警方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种服务器内存故障预警方法、装置、设备及存储介质。
背景技术
随着服务器技术的蓬勃发展,服务器在各个领域得到了广泛的应用,而作为服务器的主要部件之一,内存已经成为了影响***稳定性的故障高发部件,因此,如何在内存发生严重故障之前,提前识别出故障并对故障进行处理是本领域需要解决的技术问题。
目前,为了保证服务器***的稳定性和可靠性,服务器通常通过内存漏斗机制来处理内存中的可纠正错误,如通过ECC(Error Correction Code,纠错码)机制对发生在内存***中可以被纠正的错误(即Correctable Error,CE错误)进行识别,并对其进行纠正。例如,当内存***中的数据出现位翻转或其他硬件故障时,使用ECC机制检测到这些错误并对其进行纠正。具体的,内存漏斗机制的工作原理是通过漏斗计数器来记录每条内存发生的可纠正错误的次数,并定时轮询漏斗计数器,当监测到可纠正错误的次数达到预设阈值时,则触发故障预警,从而提示相关服务器管理人员进行故障处理。
然而,某些服务器,如海光平台的服务器由于寄存器的硬件限制,最高只能支持4095个的内存可纠正错误计数,由于该阈值较低,因此会导致内存故障预警的准确性不高。另一方面,某些内存故障属于软故障(如宇宙射线导致的比特翻转、突发的电磁干扰等),这类故障会在一定时间内自动恢复正常,并非不可纠正错误,此时如果依然采用纯计数的方式进行故障预警,则很容易造成预警误报,导致内存的误更换,进而造成服务器的运行及维护效率低下。
发明内容
有鉴于此,本申请的目的在于提供一种服务器内存故障预警方法、装置、设备及存储介质,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本。其具体方案如下:
第一方面,本申请公开了一种服务器内存故障预警方法,包括:
获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中;
基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件;
统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;
判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
可选的,所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,包括:
从服务器的基本输入输出***中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期、可纠正错误漏斗频率和所述可纠正错误漏斗阈值。
可选的,所述监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中,包括:
通过所述基本输入输出***监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出***的目标漏斗计数器中。
可选的,所述基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,包括:
通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;
计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;
计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值。
可选的,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,包括:
判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间;
将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器;
相应的,所述判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警,包括:
通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值;
如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
可选的,所述将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器之后,还包括:
通过所述基板管理控制器将所述可纠正错误风暴事件、所述记录时间和对应的所述目标内存进行绑定。
可选的,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值之后,还包括:
如果所述当前实际计数值不大于所述可纠正错误漏斗阈值,则将所述目标漏斗计数器的当前实际计数值清零,并重新执行所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息的步骤。
第二方面,本申请公开了一种服务器内存故障预警装置,包括:
信息获取模块,用于获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
监测模块,用于监测所述目标内存触发的可纠正错误;
数量记录模块,用于将所述可纠正错误的数量记录至目标漏斗计数器中;
计算模块,用于基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
第一判断模块,用于判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
事件记录模块,用于如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件;
事件统计模块,用于统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;
第二判断模块,用于判断所述目标风暴事件次数是否大于预设次数阈值;
信息生成模块,用于如果所述目标风暴事件次数大于所述预设次数阈值,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
第三方面,本申请公开了一种电子设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述的服务器内存故障预警方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述的服务器内存故障预警方法。
可见,本申请先获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,并监测所述目标内存触发的可纠正错误,然后将所述可纠正错误的数量记录至目标漏斗计数器中,接着基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,并判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,再统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数,最后判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。本申请综合考虑了时间因素和可纠正错误风暴事件的数量,延长了故障预警的时间,相当于提高了内存可纠正错误计数的阈值,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种服务器内存故障预警方法流程图;
图2为本申请公开的一种具体的服务器内存故障预警方法流程图;
图3为本申请公开的一种服务器内存故障预警装置结构示意图;
图4为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种服务器内存故障预警方法,参见图1所示,该方法包括:
步骤S11:获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息。
本实施例中,首先对服务器中待进行故障预警的目标内存的可纠正错误漏斗参数配置信息,即CE漏斗参数配置信息进行读取,得到相应的目标配置信息。
具体的,所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,可以包括:从服务器的基本输入输出***中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期、可纠正错误漏斗频率和可纠正错误漏斗阈值。也即,内存的可纠正错误漏斗参数配置信息存储在服务器的基本输入输出***(BIOS,Basic Input Output System)中,并且,所述可纠正错误漏斗参数配置信息中具体包括可纠正错误漏斗周期(T)、可纠正错误漏斗频率(F)和可纠正错误漏斗阈值(S)。例如,读取BIOS下内存CE漏斗参数配置信息,得到包括CE漏斗周期T=60s、CE漏斗频率F=60个/s、CE漏斗阈值S=4095的配置信息。
步骤S12:监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中。
本实施例中,实时的对上述目标内存触发的可纠正错误进行监测,并将监测到的上述可纠正错误的数量记录至目标漏斗计数器中。
具体的,所述监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中,可以包括:通过所述基本输入输出***监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出***的目标漏斗计数器中。本实施例中,在服务器的BIOS中增加了一个漏斗计数器,用于实时的记录被监测的内存在CE漏斗周期内产生的CE错误数量N,CE错误数量每增加1个,则N的值加1,即每监测到1次CE错误,则将进入目标漏斗计数器的输入值增加1。
步骤S13:基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值。
本实施例中,将所述可纠正错误的数量记录至目标漏斗计数器中之后,进一步的,可以基于上述可纠正错误的数量和上述目标配置信息计算出所述目标漏斗计数器的当前实际计数值,即目标漏斗计数器的实际显示值。
在一种具体的实施方式中,所述基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,具体可以包括:通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值。本实施例中,在计算目标漏斗计数器的当前实际计数值D时,可以先通过目标漏斗计数器统计出单个可纠正错误漏斗周期内可纠正错误的数量,得到相应的统计结果,然后计算出可纠正错误漏斗周期与可纠正错误漏斗频率的乘积得到目标乘积结果,即单位时间内目标漏斗计数器漏出的数据,接着计算上述统计结果与上述目标乘积结果的差值,从而得到单个所述可纠正错误漏斗周期内目标漏斗计数器的当前实际计数值。具体的计算公式为:每个漏斗周期内的漏斗计数器值D=N-F*T。
步骤S14:判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件。
本实施例中,计算出所述目标漏斗计数器的当前实际计数值之后,判断上述当前实际计数值D是否大于预设的可纠正错误漏斗阈值S,如果上述当前实际计数值D大于上述可纠正错误漏斗阈值S,则记录一次可纠正错误风暴事件,即CE风暴事件。
另外,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值之后,还可以包括:如果所述当前实际计数值不大于所述可纠正错误漏斗阈值,则将所述目标漏斗计数器的当前实际计数值清零,并重新执行所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息的步骤。本实施例中,如果当前实际计数值D不大于可纠正错误漏斗阈值S,则表明当前目标内存处于正常运行状态,无需进行故障预警,则直接将所述目标漏斗计数器的当前实际计数值D清零,并进入下个可纠正错误漏斗周期内T的判断,即重新执行获取服务器中目标内存的可纠正错误漏斗参数配置信息的步骤。
步骤S15:统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数。
进一步的,对预设时间内记录的所有上述可纠正错误风暴事件进行数量统计,得到目标风暴事件次数。需要指出的是,预设时间可以根据实际应用需求进行设置,例如,对目标内存在一个月周期内记录的所有可纠正错误风暴事件进行统计。
步骤S16:判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
本实施例中,统计出预设时间内记录的所有所述可纠正错误风暴事件得到目标风暴事件次数之后,可以进一步的判断上述目标风暴事件次数是否大于预设次数阈值,如果上述目标风暴事件次数大于预设次数阈值,则生成一条内存故障预警信息,以便通过所述内存故障预警信息对上述目标内存进行故障预警。当用户获取到上述内存故障预警信息后便可以对目标内存进行相应的检测,若存在故障则对其进行更换等操作从而解除故障。
可见,本申请实施例先获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,并监测所述目标内存触发的可纠正错误,然后将所述可纠正错误的数量记录至目标漏斗计数器中,接着基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,并判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,再统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数,最后判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。本申请实施例综合考虑了时间因素和可纠正错误风暴事件的数量,延长了故障预警的时间,相当于提高了内存可纠正错误计数的阈值,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本。
本申请实施例公开了一种具体的服务器内存故障预警方法,参见图2所示,该方法包括:
步骤S21:从服务器的基本输入输出***中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期、可纠正错误漏斗频率和可纠正错误漏斗阈值。
步骤S22:通过所述基本输入输出***监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出***的目标漏斗计数器中。
步骤S23:基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值。
步骤S24:判断所述当前实际计数值是否大于预设的所述可纠正错误漏斗阈值。
本实施例中,基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值之后,可以进一步的判断上述当前实际计数值是否大于预设的上述可纠正错误漏斗阈值。
步骤S25:如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间。
本实施例中,如果上述当前实际计数值大于上述可纠正错误漏斗阈值,则进行一次可纠正错误风暴事件的记录,并获取上述可纠正错误风暴事件的记录时间,即可纠正错误风暴事件的发生时间。
步骤S26:将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器。
进一步的,将上述可纠正错误风暴事件和上述记录时间一并上报至基板管理控制器(BMC,Baseboard Management Controller)。
在一种具体的实施方式中,所述将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器之后,还可以包括:通过所述基板管理控制器将所述可纠正错误风暴事件、所述记录时间和对应的所述目标内存进行绑定。也即,在将可纠正错误风暴事件上报至BMC的同时,BMC会记录该事件的时间和对应内存。
步骤S27:统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数。
步骤S28:通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值。
本实施例中,统计出预设时间内记录的所有所述可纠正错误风暴事件得到目标风暴事件次数之后,可以通过BMC判断上述目标风暴事件次数是否大于预设次数阈值。
步骤S29:如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
例如,当目标内存在一个月周期内发生5次CE风暴事件,超过预设次数阈值3时,则判定该内存为可能存在故障的内存,并生成一条内存故障预警信息,以对目标内存进行故障预警。
其中,关于上述步骤S21、S22、S23、S27更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例先从服务器的基本输入输出***中获取目标内存的包括可纠正错误漏斗周期、可纠正错误漏斗频率和可纠正错误漏斗阈值的可纠正错误漏斗参数配置信息,得到目标配置信息,然后通过所述基本输入输出***监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出***的目标漏斗计数器中,接着基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,并判断所述当前实际计数值是否大于预设的所述可纠正错误漏斗阈值,如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间,再将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器,并统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数,最后通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值,如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息。本申请实施例综合考虑了时间因素和可纠正错误风暴事件的数量,延长了故障预警的时间,相当于提高了内存可纠正错误计数的阈值,不仅能够提升服务器内存故障预警的准确性,还可以避免由于故障误报导致的内存误更换,从而降低了服务器的维护成本。
相应的,本申请实施例还公开了一种服务器内存故障预警装置,参见图3所示,该装置包括:
信息获取模块11,用于获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
监测模块12,用于监测所述目标内存触发的可纠正错误;
数量记录模块13,用于将所述可纠正错误的数量记录至目标漏斗计数器中;
计算模块14,用于基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
第一判断模块15,用于判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
事件记录模块16,用于如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件;
事件统计模块17,用于统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;
第二判断模块18,用于判断所述目标风暴事件次数是否大于预设次数阈值;
信息生成模块19,用于如果所述目标风暴事件次数大于所述预设次数阈值,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
其中,关于上述各个模块的具体工作流程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中,先获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,并监测所述目标内存触发的可纠正错误,然后将所述可纠正错误的数量记录至目标漏斗计数器中,接着基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,并判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,再统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数,最后判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。本申请综合考虑了时间因素和可纠正错误风暴事件的数量,延长了故障预警的时间,相当于提高了内存可纠正错误计数的阈值,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本。
在一些具体实施例中,所述信息获取模块11,具体可以包括:
信息获取单元,用于从服务器的基本输入输出***中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期、可纠正错误漏斗频率和所述可纠正错误漏斗阈值。
在一些具体实施例中,所述监测模块12,具体可以包括:
监测单元,用于通过所述基本输入输出***监测所述目标内存触发的可纠正错误。
在一些具体实施例中,所述数量记录模块13,具体可以包括:
数量记录单元,用于将监测到的所述可纠正错误的数量记录至位于所述基本输入输出***的目标漏斗计数器中。
在一些具体实施例中,所述计算模块14,具体可以包括:
数量统计单元,用于通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;
乘积计算单元,用于计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;
差值计算单元,用于计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值。
在一些具体实施例中,所述第一判断模块15,具体可以包括:
第一判断单元,用于判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值。
在一些具体实施例中,所述事件记录模块16,具体可以包括:
事件记录单元,用于如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件;
时间获取单元,用于获取所述可纠正错误风暴事件的记录时间;
信息上报单元,用于将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器;
相应的,所述第二判断模块18,具体可以包括:
第二判断单元,用于通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值;
相应的,所述信息生成模块19,具体可以包括:
故障预警单元,用于如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
在一些具体实施例中,所述信息上报单元之后,还可以包括:
信息绑定单元,用于通过所述基板管理控制器将所述可纠正错误风暴事件、所述记录时间和对应的所述目标内存进行绑定。
在一些具体实施例中,所述第一判断模块15之后,还可以包括:
计数值清零单元,用于如果所述当前实际计数值不大于所述可纠正错误漏斗阈值,则将所述目标漏斗计数器的当前实际计数值清零;
执行单元,用于重新执行所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息的步骤。
进一步的,本申请实施例还公开了一种电子设备,图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的服务器内存故障预警方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作***221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作***221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的服务器内存故障预警方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的服务器内存故障预警方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种服务器内存故障预警方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种服务器内存故障预警方法,其特征在于,包括:
获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中;
基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件;
统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;
判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
2.根据权利要求1所述的服务器内存故障预警方法,其特征在于,所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,包括:
从服务器的基本输入输出***中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期、可纠正错误漏斗频率和所述可纠正错误漏斗阈值。
3.根据权利要求2所述的服务器内存故障预警方法,其特征在于,所述监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中,包括:
通过所述基本输入输出***监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出***的目标漏斗计数器中。
4.根据权利要求2所述的服务器内存故障预警方法,其特征在于,所述基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,包括:
通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;
计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;
计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值。
5.根据权利要求4所述的服务器内存故障预警方法,其特征在于,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,包括:
判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间;
将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器;
相应的,所述判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警,包括:
通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值;
如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
6.根据权利要求5所述的服务器内存故障预警方法,其特征在于,所述将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器之后,还包括:
通过所述基板管理控制器将所述可纠正错误风暴事件、所述记录时间和对应的所述目标内存进行绑定。
7.根据权利要求1至6任一项所述的服务器内存故障预警方法,其特征在于,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值之后,还包括:
如果所述当前实际计数值不大于所述可纠正错误漏斗阈值,则将所述目标漏斗计数器的当前实际计数值清零,并重新执行所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息的步骤。
8.一种服务器内存故障预警装置,其特征在于,包括:
信息获取模块,用于获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
监测模块,用于监测所述目标内存触发的可纠正错误;
数量记录模块,用于将所述可纠正错误的数量记录至目标漏斗计数器中;
计算模块,用于基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
第一判断模块,用于判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
事件记录模块,用于如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件;
事件统计模块,用于统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;
第二判断模块,用于判断所述目标风暴事件次数是否大于预设次数阈值;
信息生成模块,用于如果所述目标风暴事件次数大于所述预设次数阈值,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。
9.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的服务器内存故障预警方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的服务器内存故障预警方法。
CN202311103756.4A 2023-08-30 2023-08-30 一种服务器内存故障预警方法、装置、设备及存储介质 Pending CN117149490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311103756.4A CN117149490A (zh) 2023-08-30 2023-08-30 一种服务器内存故障预警方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311103756.4A CN117149490A (zh) 2023-08-30 2023-08-30 一种服务器内存故障预警方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117149490A true CN117149490A (zh) 2023-12-01

Family

ID=88898183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311103756.4A Pending CN117149490A (zh) 2023-08-30 2023-08-30 一种服务器内存故障预警方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117149490A (zh)

Similar Documents

Publication Publication Date Title
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
US9600394B2 (en) Stateful detection of anomalous events in virtual machines
US9720823B2 (en) Free memory trending for detecting out-of-memory events in virtual machines
CN108388489B (zh) 一种服务器故障诊断方法、***、设备及存储介质
US9015006B2 (en) Automated enablement of performance data collection
JP5088411B2 (ja) システム運用管理支援プログラム,方法及び装置
US7702780B2 (en) Monitoring method, system, and computer program based on severity and persistence of problems
US10248561B2 (en) Stateless detection of out-of-memory events in virtual machines
CN105117301B (zh) 一种内存预警的方法及装置
JP2004348740A (ja) 異常検出のための自己学習方法及びシステム
US20080307273A1 (en) System And Method For Predictive Failure Detection
US20030084376A1 (en) Software crash event analysis method and system
Bovenzi et al. An OS-level framework for anomaly detection in complex software systems
CN110008090B (zh) 一种监控内存错误的方法、装置和计算机可读存储介质
Bauer et al. Practical system reliability
CN113590429A (zh) 一种服务器故障诊断方法、装置及电子设备
CN106201753B (zh) 一种基于linux中PCIE错误的处理方法及***
CN117076186B (zh) 一种内存故障检测方法、***、装置、介质及服务器
CN108899059B (zh) 一种固态硬盘的检测方法和设备
CN117149490A (zh) 一种服务器内存故障预警方法、装置、设备及存储介质
CN115686909A (zh) 内存故障的预测方法和装置、存储介质及电子装置
US8850290B2 (en) Error rate threshold for storage of data
CN115129508B (zh) 一种内存可纠正错误的带外处理方法、装置、设备及介质
CN113917385A (zh) 一种面向电能表的自检测方法及***
Munawar et al. Leveraging many simple statistical models to adaptively monitor software systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination