CN108710555A

CN108710555A - 一种基于监督学习的服务器错误诊断方法

Info

Publication number: CN108710555A
Application number: CN201810501684.1A
Authority: CN
Inventors: 梁盛楠
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-10-26

Abstract

本发明公开了一种基于监督学习的服务器错误诊断方法，具体方法为利用海量的故障信息训练监督学习模型，生成故障预测模型，并利用故障预测模型对服务器的错误进行预测分析。本发明的一种基于监督学习的服务器错误诊断方法破除了传统设定阈值来检测故障的方法，利用高效算法自动分析并预测日志内容，解放人工服务器故障的时间成本，完全自动化分析及预测故障等级。

Description

一种基于监督学习的服务器错误诊断方法

技术领域

本发明涉及服务器故障管理技术领域，具体地说是一种基于监督学习的服务器错误诊断方法。

背景技术

一台正在运行的服务器上每时每刻都在承载着无数的业务流量，会产生大量数据。虽然服务器作为一个非常稳定的产品，但是随着运行时间的增加，以及周围物理环境的变化(比如散热等)，不可避免的会给服务器带来一定的影响，严重者甚至可能会给服务器带来宕机的风险，因此能够对服务器上可能出现的各种故障进行预测，成为一个非常有价值的研究方向。

目前对服务器进行故障分析，一般对特定的指标进行性监控，比如温度、风扇转速以及一些其他的硬件活软件指标，设定一定的阈值，进行判断，超出一定的界限后则服务器会自动上报故障。

但是，存在的弊端如下：

1、这种设定固定值来检测故障的方法非常不灵活，适应多种设备，必须针对不同的环境进行不同的配置，比较繁琐。

发明内容

本发明的技术任务是针对以上不足之处，提供一种简单高效的一种基于监督学习的服务器错误诊断方法。

本发明解决其技术问题所采用的技术方案是：一种基于监督学习的服务器错误诊断方法，所述的方法应用在服务器***上，利用海量的故障信息训练监督学习模型，生成故障预测模型，并利用故障预测模型对服务器的错误进行预测分析。

进一步的，优选的方法为：

S1、收集服务器故障信息；

S2、将收集的故障信息进行分类，先按照故障类型进行分类，然后每种类型的故障信息再分为输入组和输出组两部分；

S3、将收集的故障信息分为训练集和测试集；

S4、把输入组和输出组两部分故障信息组织为监督学习模型；

S5、利用训练集对监督学习模型进行训练，利用测试集测试监督学习模型的精度；

S6、筛选精度较高的监督学习模型作为故障预测模型；

S7、利用故障预测模型对服务器的错误进行预测分析。

进一步的，优选的方法为：所述的监督学习模型为最邻近节点算法或逻辑回归算法。

进一步的，优选的方法为：所述的最邻近节点算法的具体步骤如下：

S41、准备数据，对数据进行预处理；

S42、选用合适的数据结构存储训练数据和测试元组；

S43、设定参数为K；

S44、维护一个大小为k的的按距离由大到小的优先级队列，用于存储最近邻训练元组；随机从训练元组中选取k个元组作为初始的最近邻元组，分别计算测试元组到这k个元组的距离，将训练元组标号和距离存入优先级队列；

S45、遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离 L与优先级队列中的最大距离Lmax；

S46、进行比较，若L>＝Lmax，则舍弃该元组，遍历下一个元组；若L<Lmax，删除优先级队列中最大距离的元组，将当前训练元组存入优先级队列；

S47、遍历完毕，计算优先级队列中k个元组的多数类，并将其作为测试元组的类别。

S48、测试元组集测试完毕后计算误差率，继续设定不同的k值重新进行训练，最后取误差率最小的k值。

进一步的，优选的方法为：所述的故障信息的类型包括散热故障、硬盘故障和CPU故障。

进一步的，优选的方法为：所述的散热故障的输入组信息包括CPU温度、内存温度、GPU温度和硬盘温度。

一种服务器错误诊断***的生成装置，包括收集故障信息单元、故障信息分类单元、监督学习模型训练单元、监督学习模型筛选单元；

所述的收集故障信息单元，用于收集服务器故障信息；

所述的故障信息分类单元，用于将收集的故障信息进行分类；

所述的监督学习模型训练单元，用于利用服务器故障信息对监督学习模型进行训练；

所述的监督学习模型筛选单元，用于筛选精度较高的监督学习模型作为故障预测模型。

进一步的，优选的结构为：所述的故障信息分类单元包括故障类型分类装置、输入组和输出组分类装置、训练集和测试集分类装置；

所述的故障类型分类装置，用于将服务器的故障信息进行按照故障类型进行分类；

所述的输入组和输出组分类装置，用于将每一种类型的故障分为输入组和输出组两部分；

所述的训练集和测试集分类装置，用于将故障信息分为训练集和测试集。

本发明的一种基于监督学习的服务器错误诊断方法和现有技术相比，有益效果如下：

1、通过训练监督学习模型，得到故障预测模型，并利用故障预测模型对服务器上可能出现的各种故障进行预测，降低服务器宕机风险；

2、测试方法灵活，并且一种测试模型可以适应多种设备；

3、配置方法简单高效；

4、破除了传统设定阈值来检测故障的方法，利用高效算法自动分析并预测日志内容，解放人工服务器故障的时间成本，完全自动化分析及预测故障等级。

附图说明

下面结合附图对本发明进一步说明。

附图1为一种基于监督学习的服务器错误诊断方法的逻辑框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

其中：KNN最邻近节点算法；Machine Learning机器学习；Supervised Learning监督学习；

监督学习是机器学习的一个分支，简单来讲，就是通过收集一组一直类别的样本书数据，这个数据集可分为两部分，第一部分称之为“输入”，第二部分可称之为“输出”，监督学习就是通过学习每组“输入”与“输出”的关系，从而预测将来遇到一个未知的输入时，能够精准预测到期对应的输出。

本发明为一种基于监督学习的服务器错误诊断方法，通过训练监督学习模型，得到故障预测模型，并利用故障预测模型对服务器上可能出现的各种故障进行预测，降低服务器宕机风险。

实施例1：

一种基于监督学习的服务器错误诊断方法，通过收集大量的已有故障信息，作为监督学习模型的训练集，对其进行训练，然后将此模型部署在待监控的服务器主机上，对未来可能出现的故障错误进行预测分析并自动上报。

具体步骤：

S1、收集服务器故障信息；

S3、将收集的故障信息分为训练集和测试集；

S6、筛选精度较高的监督学习模型作为故障预测模型；

S7、利用故障预测模型对服务器的错误进行预测分析。

其中的监督学习模型为最邻近节点算法或逻辑回归算法。所述的最邻近节点算法的具体步骤如下：

S41、准备数据，对数据进行预处理；

S42、选用合适的数据结构存储训练数据和测试元组；

S43、设定参数为K；

其中，所述的故障信息的类型包括散热故障、硬盘故障和CPU故障。

其中，所述的散热故障的输入组信息包括CPU温度、内存温度、GPU温度和硬盘温度。

所述的收集故障信息单元，用于收集服务器故障信息；

所述的故障信息分类单元包括故障类型分类装置、输入组和输出组分类装置、训练集和测试集分类装置；

具体操作方式：首先对故障信息进行分类，比如散热故障、硬盘故障、cpu 故障等。每种故障总是在满足一定的条件下才会发生，因此要把这些条件进行数字化处理。比如散热故障，可以手机cpu温度、内存温度、GPU温度等一些关键硬件模块的温度信息，然后找到对应温度条件下是否发生故障，以及如果发生故障，其对应的等级是什么，如下表格所示。

数字化后的故障“输入”与“输出”结构表。

表中前四列相当于训练集的“输入”内容(feature)，最后一列故障等级相当于监督学习模型需要预测的“输出”信息(label)。这样，通过大量已存在的feature与label数据对监督学习模型进行训练，从而使其能够对未来可能出现的未知feature进行分析，并预测出一个合理的故障等级。

例如，获得服务器中十万条故障记录信息，从中提取故障feature与故障等级信息，编写程序进行数字化处理，形成数据结构，这个结构中将有十万行数据。然后可以随机的对这十万条数据进行分割，其中九万条作为训练集，剩余一万条作为测试数集，以便测试经过训练的模型精度如何。算法上，由于这是个分类的监督学习场景，可以选择KNN或者逻辑回归等算法作为学习模型，最终选择一个精度较高的模型作为最终方案。

确定最终学习模型后，以后服务器中记录的每条相关信息，先将其分解为feature信息，然后经过模型后预测对应的level，根据level来自动通知维护人员进行后续处理。

本发明的一种基于监督学习的服务器错误诊断方法可应用于任何服务器***，以及需要对一些特定故障信息进行分析预测的场景。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.一种基于监督学习的服务器错误诊断方法，其特征在于，所述的方法应用在服务器***上，利用海量的故障信息训练监督学习模型，生成故障预测模型，并利用故障预测模型对服务器的错误进行预测分析。

2.根据权利要求1所述的一种基于监督学习的服务器错误诊断方法，其特征在于，具体方法如下：

S1、收集服务器故障信息；

S3、将收集的故障信息分为训练集和测试集；

S6、筛选精度较高的监督学习模型作为故障预测模型；

S7、利用故障预测模型对服务器的错误进行预测分析。

3.根据权利要求2所述的一种基于监督学习的服务器错误诊断方法，其特征在于，所述的监督学习模型为最邻近节点算法或逻辑回归算法。

4.根据权利要求3所述的一种基于监督学习的服务器错误诊断方法，其特征在于，所述的最邻近节点算法的具体步骤如下：

S41、准备数据，对数据进行预处理；

S42、选用合适的数据结构存储训练数据和测试元组；

S43、设定参数为K；

S45、遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离L与优先级队列中的最大距离Lmax；

5.根据权利要求2所述的一种基于监督学习的服务器错误诊断方法，其特征在于，所述的故障信息的类型包括散热故障、硬盘故障和CPU故障。

6.根据权利要求5所述的一种基于监督学习的服务器错误诊断方法，其特征在于，所述的散热故障的输入组信息包括CPU温度、内存温度、GPU温度和硬盘温度。

7.一种服务器错误诊断***的生成装置，其特征在于，包括收集故障信息单元、故障信息分类单元、监督学习模型训练单元、监督学习模型筛选单元；

所述的收集故障信息单元，用于收集服务器故障信息；

8.根据权利要求7中所述的一种服务器错误诊断***的生成装置，其特征在于，所述的故障信息分类单元包括故障类型分类装置、输入组和输出组分类装置、训练集和测试集分类装置；