CN107766204A

CN107766204A - 一种检查集群健康状态的方法和***

Info

Publication number: CN107766204A
Application number: CN201710936049.1A
Authority: CN
Inventors: 丛维涛; 况吕林; 迈迪; 姜金良; 蒋海京; 卜景德; 李斌
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2018-03-06

Abstract

本发明公开了一种检查集群健康状态的方法和***，该方法包括：采集多个节点的健康因子的相关信息，其中，健康因子为影响集群健康状态的检测指标；根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集；对多个训练数据集进行训练，从而获得健康检查模型；以及根据健康检查模型，对集群中的节点进行检查。本发明的方法相对于现有技术中的设定阈值进行健康检查的方法，误检率更低，也提高了预警准确性。

Description

一种检查集群健康状态的方法和***

技术领域

本发明涉及计算机技术领域，具体来说，涉及一种检查集群健康状态的方法和***。

背景技术

大规模服务器集群(或集群)在物联网、互联网、高性能计算等领域得到广泛的应用，其中，大规模服务器集群，一般包含服务器、网络通信技术、存储设备和操作***等多种功能部件及其不同架构形式。通常，服务器集群会运行着应用、监控、调度等软件***，集群的运维和管理任务变得越来越艰巨。此外，集群运维和管理涉及到软硬件的稳定性、一致性等的监控和维护。

目前，大规模服务器集群一般都配置了设备、业务监控和预警***，集成了对***静态信息、***性能监控和***硬件信息等的监控和报警功能，其中，报警方式又分为桌面报警、邮件报警、短信报警和拨号报警四种方式。同时，其依据传统报警机制，采用指定固定报警因素的策略，分为预警、一般警报和严重警报，***管理员每天会接收到数千条报警信息，面临巨大工作负担。

然而，由于报警级别和报警因素是由***管理员人为指定，无法准确界定报警因素在集群环境中的级别，也无法准确预测潜在因素对终端用户的影响，从而造成误报警、重复报警，同时，一方面增加了***运维和管理人员的工作负担，另一方面严重影响了用户体验，例如，目前，对大规模服务器集群健康检查时，通常对检查项目(或称之为健康因子，该健康因子为影响服务器集群健康状态的项目或检测指标)，定义一个阈值，低于阈值判为健康，高于阈值判为不健康；每一个健康因子一旦纳入预警检查项目列表，只要高于阈值都会触发预警***，发出预警信息，但是，这种检查方法效率低、预警准确性较差。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种检查集群健康状态的方法和***，该方法相对于现有技术中的设定阈值进行健康检查的方法，误检率更低，预警准确性也就更高。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种检查集群健康状态的方法。

该检查集群健康状态的方法包括：采集多个节点的健康因子的相关信息，其中，健康因子为影响集群健康状态的检测指标；根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集；对多个训练数据集进行训练，从而获得健康检查模型；以及根据健康检查模型，对集群中的节点进行检查。

根据本发明的一个实施例，健康因子至少包括以下之一：CPU的超线程、处理器、平均负载、频率、温度。

根据本发明的一个实施例，根据多个样本数据，构建多个训练数据集包括：获取用户自定义的判断策略；根据判断策略和多个样本数据，构建多个训练数据集。

根据本发明的一个实施例，对多个训练数据集进行训练，从而获得健康检查模型包括：从多个训练数据集随机抽取K个训练数据集，K为正整数；分别计算K个训练数据集的信息增益率，以及根据K个训练数据集的信息增益率，确定所有的健康因子的决策优先级；根据所有的健康因子的决策优先级，构建健康检查模型。

根据本发明的一个实施例，根据健康检查模型，对集群中的节点进行检查包括：根据健康检查模型，确定集群中的节点的健康状态，其中，健康状态包括：健康节点和不健康节点；在集群中的节点为不健康节点的情况下，进行报警。

根据本发明的另一方面，提供了一种检查集群健康状态的***。

该检查集群健康状态的***包括：检查单元，用于采集多个节点的健康因子的相关信息，其中，健康因子为影响集群健康状态的检测指标；检查单元，进一步用于根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集；训练单元，用于对多个训练数据集进行训练，从而获得健康检查模型；以及预警单元，用于根据健康检查模型，对集群中的节点进行检查。

根据本发明的一个实施例，检查单元包括：获取模块，用于获取用户自定义的判断策略；第一构建模块，用于根据判断策略和多个样本数据，构建多个训练数据集。

根据本发明的一个实施例，训练单元包括：随机抽取模块，用于从多个训练数据集随机抽取K个训练数据集，K为正整数；计算确定模块，用于分别计算K个训练数据集的信息增益率，以及根据K个训练数据集的信息增益率，确定所有的健康因子的决策优先级；第二构建模块，用于根据所有的健康因子的决策优先级，构建健康检查模型。

根据本发明的一个实施例，预警单元包括：确定模块，用于根据健康检查模型，确定集群中的节点的健康状态，其中，健康状态包括：健康节点和不健康节点；报警子单元，用于在集群中的节点为不健康节点的情况下，进行报警。

本发明的有益技术效果在于：

本发明通过采集多个节点的健康因子的相关信息，随后根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集，随后对多个训练数据集进行训练，从而获得健康检查模型，最后根据健康检查模型，对集群中的节点进行检查，该方法相对于现有技术中的设定阈值进行健康检查的方法，误检率更低，也提高了预警准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的检查集群健康状态的方法的流程图；

图2是根据本发明具体实施例的检查集群健康状态的方法的流程图；

图3是根据本发明具体实施例的训练数据集的示意图；

图4是根据本发明具体实施例的健康检查模型的示意图；

图5是根据本发明具体实施例的检查集群健康状态的***的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种检查集群健康状态的方法。

如图1所示，根据本发明实施例的检查集群健康状态的方法包括：步骤S101，采集多个节点的健康因子的相关信息，其中，健康因子为影响集群健康状态的检测指标；步骤S103，根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集；步骤S105，对多个训练数据集进行训练，从而获得健康检查模型；步骤S107，根据健康检查模型，对集群中的节点进行检查。

借助于上述区别技术特征，通过采集多个节点的健康因子的相关信息，随后根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集，随后对多个训练数据集进行训练，从而获得健康检查模型，最后根据健康检查模型，对集群中的节点进行检查，该方法相对于现有技术中的设定阈值进行健康检查的方法，误检率更低，也提高了预警准确性。

为了更好的描述本发明的技术方案，下面通过具体的技术方案对本发明的上述技术方案进行详细的描述。

目前，大规模服务器集群运维和管理涉及服务器集群的稳定性和一致性的监控和检查，由于牵扯到的功能部件较多，逐一检查非常困难，加之传统的设定阈值的预警方法，容易造成误报警、重复报警的现象，这不但增加了***运维和管理人员的工作负担，也严重影响了终端用户的体验。

针对上述问题，本发明实施例提供了一种检查集群健康状态的方法，该方法通过采集集群中各节点健康因子的基本信息x_i,1,x_i,2...x_i,j，其中，i和j分别代表待采集信息的节点序号和健康因子的项目序号，随后对数据集进行归一化处理，得到训练数据集s₁,s₂...s_i，其中，i代表待采集信息的节点数，随后结合终端用户自定义的判断策略，生成训练数据集S，再通过对训练数据集S随机抽取的K个训练数据集s₁,s₂...s_k，然后分别计算K个训练数据集的信息熵和信息增益率，进行数据集的划分，确定出健康因子的决策优先级，构建K个健康检查模型，最后将日常自适应检查的数据应用到上述K个健康检查模型，计算判定结果的占比，取最大占比为判定结果，结果为不健康时，发出预警信息，否则，不发布预警。由于终端用户参与检查策略设定，且通过多个健康检查模型进行检查判定，相对于设定阈值进行健康检查的方法，误检率更低，预警准确性也就更高。

以下参照图2，通过具体步骤进行详细说明如下：

步骤21，检查集群中的服务器设备，生成将要检查的节点主机名列表；

步骤22，自定义健康因子P，根据上述节点主机名点列表，采集集群各节点健康因子P的基本信息x_i,1,x_i,2...x_i,j，构建训练样本数据s₁,s₂...s_i，i和j分别代表待采集信息的节点序号和健康因子的项目序号，以及i和j为正整数，此外，1≤i≤M，1≤j≤N，其中，M和N分别代表待采集信息的节点数和健康因子项目数；

步骤23，自定义训练样本数据的判断策略D，构建训练数据集S；

步骤24，训练训练数据集S，从而构建集群健康检查模型；

步骤25，根据上述健康检查模型，进行集群日常健康检查工作，给出决策和预警。

此外，在实际的大规模服务器集群环境中，集群健康检查通常是根据组成功能部件性质，进行分组检查。为了便于理解，在本发明实施例中，以对处理器健康检查为例进行说明，可以理解的是，本发明实施例中的检查集群健康状态的方法还可以应用到与集群健康状况相关的其他功能组件，具体可以参照本发明实施例中对处理器健康检查的相关描述进行实施，此处不再一一赘述。

需要说明的是，用户自定义健康因子P是跟集群环境稳定性、一致性相关的，且符合终端用户实际应用情况的主要因子，可以由终端用户根据实际情况进行设定，通常为了提高预警准确性，可选取尽可能多的健康因子。

下面结合具体的处理器健康检查，对步骤21至步骤25进行详细说明。

如图3所示，终端用户所选取的健康因子有“HYPER THREADING”、“CORES”，“LOADAVG”，“FREQUENCY”，“TEMPERATURE”共5项内容，上述5项分别代表CPU的超线程、处理器的核心数、平均负载、频率、温度的特征信息，采集待检查节点健康因子的基本信息(x_i,1,x_i, ₂...x_i,j)，其中，i和j分别代表待采集信息的节点序号，在作归一化处理后，得到特征信息矩阵。首次采集到的数据将作为样本数据，需要终端用户对每个节点采集的样本数据作自定义判断策略(或自定义的判断决策)D，本实施例定义了判断策略D的两种取值“Healthy(健康)”和“Unhealthy(不健康)”，构建训练数据集S。

需要说明的是，在具体实施中，节点数目要尽量多，该健康因子的选取要跟所要检查的功能部件有直接关联，且对***稳定和性能有直接影响；上述判断策略D，可以由终端用户自定义，不限于本实施例所定义的“Healthy(健康)”和“Unhealthy(不健康)”。

此外，在确定训练数据集之后，需要根据样本训练数据，得到健康检查模型。具体地，计算训练数据集的信息熵：

其中，p_i表示第i个类别在整个训练样本中出现的概率，m表示类别总个数。

将训练数据集以健康因子P划分，计算P对D的期望信息熵：

其中，|D_j|表示健康因子的第j个类别值对应不同判断策略的次数，v表示所选取的健康因子值的类别数目，|D|表示判断策略的总数。

计算信息增益：

IG(P,D)＝H(D)-H_P(D) (3)

计算***信息度量：

计算增益率：

具体地，将训练数据集图3的数据带入上述公式(1)-(5)，可以得到：

信息熵

5个健康因子的信息熵依次为：

5个健康因子的信息增益依次为：

IG(P₁,D)＝0.9403-0.8240＝0.1163

IG(P₂,D)＝0.9403-0.9403＝0

IG(P₃,D)＝0.9403-0.7422＝0.1981

IG(P₄,D)＝0.9403-0.8610＝0.0793

IG(P₅,D)＝0.9403-0.7475＝0.1928

5个健康因子的***信息度量依次为：

5个健康因子的信息增益率依次为：

SI(P₁,D)＝0.1163/0.9852＝0.1180

SI(P₂,D)＝0/∞＝0

SI(P₃,D)＝0.1981/1.5567＝0.1272

SI(P₄,D)＝0.0793/0.7496＝0.1057

SI(P₅,D)＝0.1928/0.8631＝0.2233

从而根据信息增益率的大小，确定健康因子的优先级顺序，选取增益率最大的健康因子作为主要影响因素，根据上述计算结果主要影响因素为“温度”，以此进行***，转化为如图4所示的树形判断结构，即获得健康检查模型。

将上述健康检查模型应用到日常健康检查工作中，首先，如前所述，采集各节点健康因子的基本信息，进行归一化，得到健康因子的特征信息，例如，健康因子的特征信息为(“超线程为关”，“平均负载为低”，“处理器的核心数为28”，“频率为2199”，“温度为高”)，将此特征信息带入健康检查模型(如图4所示)中，主要影响因子“温度”的特征信息为“高”，取分支高，可得出“不健康”的判定结果，再例如，健康因子的特征信息为(“超线程为开”，“平均负载为低”，“处理器的核心数为28”，“频率为800”，“温度为正常”)，将此特征信息带入健康检查模型中，主要影响因子“温度”的特征信息为“正常”，取分支正常，第二影响因子“平均负载”的特征信息为“低”，取分支低，第三影响因子“超线程”的特征信息为“开”，取分支开，可得出“健康”的判定结果。

由上述内容可以看出，通过使用自定义的健康因子获取训练数据样本，以及终端用户自定义判定策略，构建训练数据集，进而进行集群健康检查模型的构建，将健康检查模型用于日常集群健康检查，可以减轻集群运维和管理人员的工作负担，提供检查效率，有效避免了个别影响因子的误报警、重复报警，检查的准确性更高。

根据本发明的实施例，还提供了一种检查集群健康状态的***。

如图5所示，根据本发明实施例的检查集群健康状态的***包括：检查单元52，用于采集多个节点的健康因子的相关信息，其中，健康因子为影响集群健康状态的检测指标；检查单元52，进一步用于根据多个节点的健康因子的相关信息，获取多个样本数据，以及根据多个样本数据，构建多个训练数据集；训练单元53，用于对多个训练数据集进行训练，从而获得健康检查模型；以及预警单元54，用于根据健康检查模型，对集群中的节点进行检查。

根据本发明的一个实施例，检查单元52包括：获取模块(未示出)，用于获取用户自定义的判断策略；第一构建模块(未示出)，用于根据判断策略和多个样本数据，构建多个训练数据集。

根据本发明的一个实施例，训练单元53包括：随机抽取模块(未示出)，用于从多个训练数据集随机抽取K个训练数据集，K为正整数；计算确定模块(未示出)，用于分别计算K个训练数据集的信息增益率，以及根据K个训练数据集的信息增益率，确定所有的健康因子的决策优先级；第二构建模块(未示出)，用于根据所有的健康因子的决策优先级，构建健康检查模型。

根据本发明的一个实施例，预警单元54包括：确定模块(未示出)，用于根据健康检查模型，确定集群中的节点的健康状态，其中，健康状态包括：健康节点和不健康节点；报警子单元(未示出)，用于在集群中的节点为不健康节点的情况下，进行报警。

为了更好的描述本发明的技术方案，下面通过具体的实施例进行详细的描述。

下面参照图5，对***进行详细介绍:

***可以包括：用户单元51、检查单元52、训练单元53、预警单元54、反馈单元55，其中：用户单元51，适于检查集群服务器设备，生成将要检查的节点主机名列表，用户自定义健康因子P；检查单元52，适于根据节点主机名点列表，采集集群各节点健康因子P的基本信息x_i,1,x_i,2...x_i,j，进行数据归一化处理，构建样本数据s₁,s₂...s_i；训练单元53，适于自定义训练样本数据的判断策略D，构建训练数据集S，训练训练数据集S，随机抽取的K个数据集s₁,s₂...s_k，分别计算训练数据子集的信息熵和信息增益率，进行数据集的划分，确定出健康因子P的决策优先级，构建K个健康检查模型；预警单元54，适于将日常检查的归一化数据集应用到K个健康检查模型，获取K个判定结果；反馈单元55，适于对上述决策的响应机制。

需要说明的是，在具体实施中，检查单元19中用户自定义“健康因子”P，是跟集群环境稳定性、一致性相关的，且符合终端用户实际应用情况的主要因子，可以由终端用户根据实际情况进行设定，通常为了提高预警准确性，可选取尽可能多的“健康因子”。

在具体实施中，训练单元53中，首先，自定义训练样本数据的判断策略D，构建训练数据集S，其次，可以采用多种方法训练训练数据集S。在本发明的一实施例中，可以通过对训练数据集S随机抽样，随机抽取的K个数据集s₁,s₂...s_k，参照式(1)-(5)，分别计算训练数据子集的信息熵和信息增益率，进行数据集的划分，确定出健康因子P的决策优先级，构建K个健康检查模型。

在具体实施中，预警单元54是适用于将日常自适应检查的数据应用到K个健康检查模型，可以得到K个判定结果，进行分类统计，计算判定结果的占比，取最大占比为最终判定结果，结果为“不健康”时，发出预警信息，否则，不发布预警。

在具体实施中，反馈单元55是适用于在做出预警之后，用户或运维管理人员所做的响应，例如，查看并处理具体报警信息、解除报警等。

综上所述，借助于本发明的上述技术方案，通过采集集群各节点健康因子的基本信息，对数据集进行归一化处理，得到训练数据集，结合终端用户自定义的判断策略，生成训练数据集，再通过对训练数据集随机抽取的K个数据集，分别计算所述训练数据子集的信息熵和信息增益率，进行数据集的划分，确定出健康因子的决策优先级，构建K个健康检查模型，最后将日常自适应检查的数据应用到这K个健康检查模型，计算判定结果的占比，取最大占比为判定结果，结果为不健康时，发出预警信息，否则，不发布预警，从而由于终端用户参与检查策略设定，且通过多个健康检查模型进行检查判定，相对于设定阈值进行健康检查的方法，误检率更低，预警准确性也就更高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检查集群健康状态的方法，其特征在于，包括：

采集多个节点的健康因子的相关信息，其中，所述健康因子为影响所述集群健康状态的检测指标；

根据所述多个节点的健康因子的相关信息，获取多个样本数据，以及根据所述多个样本数据，构建多个训练数据集；

对所述多个训练数据集进行训练，从而获得健康检查模型；以及

根据所述健康检查模型，对所述集群中的节点进行检查。

2.根据权利要求1所述的方法，其特征在于，所述健康因子至少包括以下之一：CPU的超线程、处理器、平均负载、频率、温度。

3.根据权利要求1所述的方法，其特征在于，根据所述多个样本数据，构建多个训练数据集包括：

获取用户自定义的判断策略；

根据所述判断策略和所述多个样本数据，构建多个训练数据集。

4.根据权利要求3所述的方法，其特征在于，对所述多个训练数据集进行训练，从而获得健康检查模型包括：

从所述多个训练数据集随机抽取K个训练数据集，K为正整数；

分别计算所述K个训练数据集的信息增益率，以及根据所述K个训练数据集的信息增益率，确定所有的健康因子的决策优先级；

根据所有的健康因子的决策优先级，构建健康检查模型。

5.根据权利要求4所述的方法，其特征在于，根据所述健康检查模型，对所述集群中的节点进行检查包括：

根据所述健康检查模型，确定所述集群中的节点的健康状态，其中，所述健康状态包括：健康节点和不健康节点；

在所述集群中的节点为所述不健康节点的情况下，进行报警。

6.一种检查集群健康状态的***，其特征在于，包括：

检查单元，用于采集多个节点的健康因子的相关信息，其中，所述健康因子为影响所述集群健康状态的检测指标；

所述检查单元，进一步用于根据所述多个节点的健康因子的相关信息，获取多个样本数据，以及根据所述多个样本数据，构建多个训练数据集；

训练单元，用于对所述多个训练数据集进行训练，从而获得健康检查模型；以及

预警单元，用于根据所述健康检查模型，对所述集群中的节点进行检查。

7.根据权利要求6所述的***，其特征在于，所述健康因子至少包括以下之一：CPU的超线程、处理器、平均负载、频率、温度。

8.根据权利要求6所述的***，其特征在于，所述检查单元包括：

获取模块，用于获取用户自定义的判断策略；

第一构建模块，用于根据所述判断策略和所述多个样本数据，构建多个训练数据集。

9.根据权利要求8所述的***，其特征在于，所述训练单元包括：

随机抽取模块，用于从所述多个训练数据集随机抽取K个训练数据集，K为正整数；

计算确定模块，用于分别计算所述K个训练数据集的信息增益率，以及根据所述K个训练数据集的信息增益率，确定所有的健康因子的决策优先级；

第二构建模块，用于根据所有的健康因子的决策优先级，构建健康检查模型。

10.根据权利要求9所述的***，其特征在于，所述预警单元包括：

确定模块，用于根据所述健康检查模型，确定所述集群中的节点的健康状态，其中，所述健康状态包括：健康节点和不健康节点；

报警子单元，用于在所述集群中的节点为所述不健康节点的情况下，进行报警。