CN114003461A

CN114003461A - 服务器故障预测方法、***、终端及存储介质

Info

Publication number: CN114003461A
Application number: CN202111131119.9A
Authority: CN
Inventors: 姜守英; 杨少俊
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-02-01

Abstract

本发明提供一种服务器故障预测方法、***、终端及存储介质，包括：定义管理协议统一接口，通过所述管理协议统一接口收集监控对象的运行数据；监控所述运行数据中的错误信息，并统计错误信息数量；根据错误信息数量和错误信息的生成时间计算错误信息的波动值；将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成所述监控对象的故障预警信息。本发明能够准确预估在位的哪块存储设备老化率高，出错率高，及时将这种信息发送给管理员，管理员收到这种信息，及时将盘进行更换，免去了服务器因为设备的损坏或者较高的出错率而出现服务器宕机或者服务器数据丢失等重大问题。

Description

服务器故障预测方法、***、终端及存储介质

技术领域

本发明涉及服务器技术领域，具体涉及一种服务器故障预测方法、***、终端及存储介质。

背景技术

当今时代，科技进步突飞猛进，尤其是服务器产品技术，依靠其强大的CPU运算能力、较好的兼容性，可靠的运行稳定性，以及较强的安全性等等优势，使其在科技领域处于领先地位，尤其是现代服务器产品的高效性和对故障的提前预判的优势，对服务器服务器数据的保驾护航以及避免服务器因为其shebei故障而出现宕机等重大事故至关重要。

然而现有大型服务器通常存在大量器件，例如存在多个网卡、多个显卡、图形处理器以及大量的SATA盘。随着服务器的硬件复杂化，服务器故障预警的难度也随之增大。现有的服务器监管方法大多是由BMC监控硬件状态，一旦出现某个硬件故障则在BMC生成故障提示。这种监管方法存在一定的滞后性，容易造成服务器宕机或正在执行的业务数据丢失等严重问题。

发明内容

针对现有技术的上述不足，本发明提供一种服务器故障预测方法、***、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种服务器故障预测方法，包括：

定义管理协议统一接口，通过管理协议统一接口收集监控对象的运行数据；

监控运行数据中的错误信息，并统计错误信息数量；

根据错误信息数量和错误信息的生成时间计算错误信息的波动值；

将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息。

进一步的，定义管理协议统一接口，通过管理协议统一接口收集监控对象的运行数据，包括：

通过管理协议统一接口收集硬盘运行日志、网卡运行日志、显卡运行日志和图形处理器运行日志。

进一步的，监控运行数据中的错误信息，并统计错误信息数量，包括：

预先为每个监控对象构建一个结构体；

利用关键词检索技术从运行数据中提取错误信息；

累计监控对象的错误信息得到错误信息总量，将错误信息总量存储至相应的结构体中。

进一步的，根据错误信息数量和错误信息的生成时间计算错误信息的波动值，包括：

设定单位时间，并统计监控对象的错误信息的单位时间增长数量，并将单位时间增长数量输出为监控对象的错误信息波动值。

进一步的，将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息，包括：

读取监控对象的结构体中的错误信息总量，若错误信息总量达到设定的累计阈值，则生成故障预警信息；

如果监控对象的错误信息波动值达到设定的波动阈值，则生成故障预警信息。

进一步的，方法还包括：

解析故障预警信息所属的异常监控对象；

采集异常监控对象的业务状态信息，如果异常监控对象存在正在执行的业务则将业务转移至其他正常同类部件；

在业务转移完成之后，生成对异常监控对象的维护提示信息。

第二方面，本发明提供一种服务器故障预测***，包括：

数据收集单元，用于定义管理协议统一接口，通过管理协议统一接口收集监控对象的运行数据；

错误监控单元，用于监控运行数据中的错误信息，并统计错误信息数量；

波动统计单元，用于根据错误信息数量和错误信息的生成时间计算错误信息的波动值；

预警生成单元，用于将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息。

进一步的，数据收集单元用于：

进一步的，错误监控单元用于：

预先为每个监控对象构建一个结构体；

利用关键词检索技术从运行数据中提取错误信息；

进一步的，波动统计单元用于：

进一步的，预警生成单元用于：

进一步的，***还用于：

解析故障预警信息所属的异常监控对象；

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本发明的有益效果在于，本发明提供的服务器故障预测方法、***、终端及存储介质，通过定义管理协议统一接口，由管理协议统一接口收集监控对象的运行数据，然后监控运行数据中的错误信息，并统计错误信息数量，并根据错误信息数量和错误信息的生成时间计算错误信息的波动值，将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息。本发明能够准确预估在位的哪块存储设备老化率高，出错率高，及时将这种信息发送给管理员，管理员收到这种信息，及时将盘进行更换，免去了服务器因为设备的损坏或者较高的出错率而出现服务器宕机或者服务器数据丢失等重大问题。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的***的示意性框图。

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

BMC，执行伺服器远端管理控制器，英文全称为Baseboard ManagementController.为基板管理控制器。它可以在机器未开机的状态下，对机器进行固件升级、查看机器设备、等一些操作。在BMC中完全实现IPMI功能需要一个功能强大的16位元或32位元微控制器以及用于数据储存的RAM、用于非挥发性数据储存的快闪记忆体和韧体，在安全远程重启、安全重新上电、LAN警告和***健康监视方面能提供基本的远程可管理性。除了基本的IPMI功能和***工作监视功能外，通过利用2个快闪记忆体之一储存以前的BIOS，mBMC还能实现BIOS快速元件的选择和保护。例如，在远程BIOS升级後***不能启动时，远程管理人员可以切换回以前工作的BIOS映像来启动***。一旦BIOS升级後，BIOS映像还能被锁住，可有效防止病毒对它的侵害。

I2C总线是由Philips公司开发的一种简单、双向二线制同步串行总线。它只需要两根线即可在连接于总线上的器件之间传送信息。主器件用于启动总线传送数据，并产生时钟以开放传送的器件，此时任何被寻址的器件均被认为是从器件.在总线上主和从、发和收的关系不是恒定的，而取决于此时数据传送方向。如果主机要发送数据给从器件，则主机首先寻址从器件，然后主动发送数据至从器件，最后由主机终止数据传送；如果主机要接收从器件的数据，首先由主器件寻址从器件.然后主机接收从器件发送的数据，最后由主机终止接收过程。在这种情况下.主机负责产生定时时钟和终止数据传送。

BIOS是英文"Basic Input Output System"的缩略词，直译过来后中文名称就是"基本输入输出***"。在IBM PC兼容***上，是一种业界标准的固件接口。它是一组固化到计算机内主板上一个ROM芯片上的程序，它保存着计算机最重要的基本输入输出的程序、开机后自检程序和***自启动程序，它可从CMOS中读写***设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。此外，BIOS还向作业***提供一些***参数。***硬件的变化是由BIOS隐藏，程序使用BIOS功能而不是直接控制硬件。现代作业***会忽略BIOS提供的抽象层并直接控制硬件组件。

CPU中央处理器(central processing unit，简称CPU)作为计算机***的运算和控制核心，是信息处理、程序运行的最终执行单元。

GPU图形处理器。

当今时代，服务器的数据完整性以及高效性是评估服务器性能强大的重要指标，市面上的服务器，OS还未涉及此功能，因此对于后续其他厂商的OS故障预测研究意义重大。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种服务器故障预测***。

如图1所示，该方法包括：

步骤110，定义管理协议统一接口，通过管理协议统一接口收集监控对象的运行数据；

步骤120，监控运行数据中的错误信息，并统计错误信息数量；

步骤130，根据错误信息数量和错误信息的生成时间计算错误信息的波动值；

步骤140，将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息。

为了便于对本发明的理解，下面以本发明服务器故障预测方法的原理，结合实施例中对服务器进行故障预测的过程，对本发明提供的服务器故障预测方法做进一步的描述。

具体的，所述服务器故障预测方法包括：

步骤110，定义管理协议统一接口，通过管理协议统一接口收集监控对象的运行数据。

本实施例在操作***定义一个管理协议统一接口，通过该接口采集各监控对象的运行数据，监控对象可以是硬盘、网卡、显卡、GPU等部件。其中采集运行数据可以包括从监控对象的自身监控模块采集相关数据以及从***日志采集相关数据，将监控对象的数据采集地址写入管理协议统一接口即可。例如，收集网卡的流量、速率等，收集SATA盘的现有流量以及使用寿命。将采集的运行数据与预先设定的标准数据进行比对，若与标准数据不符则生成错误信息并将错误信息写入运行日志，同时采集***日志中的相关错误信息，也写入运行日志。

步骤120，监控运行数据中的错误信息，并统计错误信息数量。

预先为每个监控对象构建一个结构体；利用关键词检索技术从运行数据中提取错误信息；累计监控对象的错误信息得到错误信息总量，将错误信息总量存储至相应的结构体中。

例如为网卡1构建一个结构体，则每次监控到一个网卡1的错误信息则在结构体中累计加1。通过为每个监控对象均创建一个结构体，可有效避免监控数据混乱。

步骤130，根据错误信息数量和错误信息的生成时间计算错误信息的波动值。

本实施例设定单位时间为1min，计算当前1min内的错误信息数量与上一min内的错误信息数量的差值，并将该差值作为最新的波动值。

读取监控对象的结构体中的错误信息总量，若错误信息总量达到设定的累计阈值，则生成故障预警信息。如果监控对象的错误信息波动值达到设定的波动阈值，则生成故障预警信息。

通过将错误信息总量和波动值作为生成故障预警信息的两个触发因素，能够及时将老化的硬件和不稳定的故障硬件筛查出来。

进一步的，在***生成故障预警信息之后，解析故障预警信息所属的异常监控对象；采集异常监控对象的业务状态信息，如果异常监控对象存在正在执行的业务则将业务转移至其他正常同类部件；在业务转移完成之后，生成对异常监控对象的维护提示信息。

通过对异常硬件进行业务转移避免业务数据丢失，在完成业务转移之后及时更换异常硬件，提高服务器的稳定性。

如图2所示，该***200包括：

数据收集单元210，用于定义管理协议统一接口，通过管理协议统一接口收集监控对象的运行数据；

错误监控单元220，用于监控运行数据中的错误信息，并统计错误信息数量；

波动统计单元230，用于根据错误信息数量和错误信息的生成时间计算错误信息的波动值；

预警生成单元240，用于将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息。

可选地，作为本发明一个实施例，数据收集单元用于：

可选地，作为本发明一个实施例，错误监控单元用于：

预先为每个监控对象构建一个结构体；

利用关键词检索技术从运行数据中提取错误信息；

可选地，作为本发明一个实施例，波动统计单元用于：

可选地，作为本发明一个实施例，预警生成单元用于：

可选地，作为本发明一个实施例，***还用于：

解析故障预警信息所属的异常监控对象；

图3为本发明实施例提供的一种终端300的结构示意图，该终端300可以用于执行本发明实施例提供的服务器故障预测方法。

其中，该终端300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

因此，本发明通过定义管理协议统一接口，由管理协议统一接口收集监控对象的运行数据，然后监控运行数据中的错误信息，并统计错误信息数量，并根据错误信息数量和错误信息的生成时间计算错误信息的波动值，将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成监控对象的故障预警信息。本发明能够准确预估在位的哪块存储设备老化率高，出错率高，及时将这种信息发送给管理员，管理员收到这种信息，及时将盘进行更换，免去了服务器因为设备的损坏或者较高的出错率而出现服务器宕机或者服务器数据丢失等重大问题，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，***或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种服务器故障预测方法，其特征在于，包括：

定义管理协议统一接口，通过所述管理协议统一接口收集监控对象的运行数据；

监控所述运行数据中的错误信息，并统计错误信息数量；

将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成所述监控对象的故障预警信息。

2.根据权利要求1所述的方法，其特征在于，定义管理协议统一接口，通过所述管理协议统一接口收集监控对象的运行数据，包括：

3.根据权利要求1所述的方法，其特征在于，监控所述运行数据中的错误信息，并统计错误信息数量，包括：

预先为每个监控对象构建一个结构体；

利用关键词检索技术从运行数据中提取错误信息；

累计监控对象的错误信息得到错误信息总量，将所述错误信息总量存储至相应的结构体中。

4.根据权利要求3所述的方法，其特征在于，根据错误信息数量和错误信息的生成时间计算错误信息的波动值，包括：

设定单位时间，并统计监控对象的错误信息的单位时间增长数量，并将所述单位时间增长数量输出为所述监控对象的错误信息波动值。

5.根据权利要求4所述的方法，其特征在于，将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成所述监控对象的故障预警信息，包括：

读取监控对象的结构体中的错误信息总量，若所述错误信息总量达到设定的累计阈值，则生成故障预警信息；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

解析故障预警信息所属的异常监控对象；

采集异常监控对象的业务状态信息，如果异常监控对象存在正在执行的业务则将所述业务转移至其他正常同类部件；

在所述业务转移完成之后，生成对所述异常监控对象的维护提示信息。

7.一种服务器故障预测***，其特征在于，包括：

数据收集单元，用于定义管理协议统一接口，通过所述管理协议统一接口收集监控对象的运行数据；

错误监控单元，用于监控所述运行数据中的错误信息，并统计错误信息数量；

预警生成单元，用于将错误信息数量和波动值与设定的故障条件进行匹配，若匹配通过则生成所述监控对象的故障预警信息。

8.根据权利要求7所述的***，其特征在于，所述数据收集单元用于：

9.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-6任一项所述的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。