CN108491302A

CN108491302A - 一种检测spark集群节点状态的方法

Info

Publication number: CN108491302A
Application number: CN201810144628.7A
Authority: CN
Inventors: 田帅; 任睿; 詹剑锋; 王磊
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-09-04
Anticipated expiration: 2038-02-12
Also published as: CN108491302B

Abstract

本发明提供了一种构建spark集群节点状态检测模型的方法。该方法包括：根据spark集群中节点运行特征数据与节点状态的关联性，获得由多组分析数据构成的样本点数据集，其中，每组分析数据包括节点运行特征数据和相应的节点状态；基于所述样本点数据集，以所述节点运行特征数据作为输入训练分类模型，获得spark集群节点状态检测模型。利用本发明提供的建spark集群节点状态检测模型能够准确有效的预测由于性能异常导致处于异常状态的节点。

Description

一种检测spark集群节点状态的方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种检测spark集群节点状态的方法。

背景技术

spark集群是一种分布式计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。随着对大规模实时数据处理的需求日益增加，spark的应用越来越广泛。然而，由于spark可以建立在很多廉价的硬件设备以及spark集群的规模不断扩大，导致集群中的节点很容易出现故障或性能变差，无法保证高性能运行，如果不能及时发现这些潜在威胁，spark集群就不可能稳定的执行作业，从而给用户带来不必要的损失。

目前，spark集群中计算节点直接崩溃是易于检测的，然而，如果仅仅是节点的运行性能出现异常，而没有直接导致故障时是难以直接检测的，例如，某个节点正被其它用户占用、CPU老化导致执行能力降低等，当发生这种性能异常时，仅表现在运行任务缓慢，日志文件中只有极少的错误或者警告信息输出，而不会直接输出节点发生了异常。在现有技术中，一些在线工具能监控***资源的使用情况和状态，但不能直接给出某个节点的性能异常提示，此外，这些检测工具具有资源开销，通常会减慢spark集群的执行效率。简言之，现有技术中还没有针对spark集群节点性能的有效的检测机制，或者仅存在一些简单的检测方法，例如，通过计算任务的平均时间的标准差等信息来判断节点的性能情况，但不能直接给出节点由于性能变差导致异常的提示等。

因此，需要对现有技术进行改进，以提供一种应用广泛、能及时有效地检测spark集群节点运行性能或状态的方法。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种检测spark集群节点状态的有效且快速的方法。

根据本发明的第一方面，提供了一种构建spark集群节点状态检测模型的方法。该方法包括以下步骤：

步骤1：根据spark集群中节点运行特征数据与节点状态的关联性，获得由多组分析数据构成的样本点数据集，其中，每组分析数据包括节点运行特征数据和相应的节点状态；

步骤2：基于所述样本点数据集，以所述节点运行特征数据作为输入训练分类模型，获得spark集群节点状态检测模型。

在一个实施例中，所述分类模型包括基于决策树的分类模型、基于SVM的分类模型或逻辑回归模型。

在一个实施例中，步骤2包括：

步骤21：建立包含m个自变量的逻辑回归模型：

其中，P(y＝1|x)节点运行特征数据x属于正常状态的概率，P(y＝0|x)表示节点特征数据x属于异常状态的概率，θ₀，θ₁，…，θ_m表示逻辑回归模型的参数；

步骤22：利用节点运行特征数据通过迭代更新求解逻辑回归模型的优化系数；

步骤23：根据获得的优化系数构建spark集群节点状态检测模型：

其中，θ是模型的优化系数，δ是sigmoid函数。

在一个实施例中，所述节点运行特征数据包括上一个阶段中运行的任务数、目前运行阶段中已经完成的任务数、目前阶段中已完成任务的平均时间、完成的所有任务的平均完成时间和目前阶段已经运行的时间。

在一个实施例中，步骤1包括：设定与节点状态相关的候选的节点运行特征数据；采用假设检验的方法验证所述候选的节点运行特征数据对所述节点状态的关联程度；筛选出关联程度强的节点运行特征数据构成所述样本点数据集。

根据本发明的第二方面，提供了一种检测spark集群节点状态的方法。该方法包括以下步骤：

步骤61：获取spark集群中待检测节点的运行特征数据；

步骤62：将所述运行特征数据代入到根据本发明的构建spark集群节点状态检测模型的方法获得的spark集群节点状态检测模型，判断待检测节点的状态。

在本发明的检测spark集群节点状态的方法中，步骤62包括：将所述运行特征数据代入到所述spark集群节点状态检测模型；计算获得待测节点属于异常状态的概率；将计算获得的概率值与预定阈值进行比较，如果小于所述预定阈值，则判断待测节点处于异常状态。

在本发明的检测spark集群节点状态的方法中，还包括将判断为异常状态的节点的信息输出spark集群的日志中。

根据本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据本发明的构建spark集群节点状态检测模型的方法或检测spark集群节点状态的方法。

根据本发明的第四方面，提供了一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据本发明的构建spark集群节点状态检测模型的方法或检测spark集群节点状态的方法。

与现有技术相比，本发明的优点在于：通过反复验证提取能够反映spark集群节点运行性能的样本点数据集，通过训练获得检测spark集群节点状态的模型，在节点运行过程中，利用训练获得的模型实时获得各节点的状态，从而及时发现spark集群中节点性能变差导致的潜在威胁。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1示出了根据本发明一个实施例的训练spark集群节点状态检测模型的方法的流程图；

图2示出了根据本发明一个实施例的spark集群节点状态检测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1示出了根据本发明一个实施例的训练spark集群节点状态检测模型的方法的流程图，具体包括以下步骤：

步骤S110，筛选反映spark集群节点运行性能的样本点数据集。

spark集群运行作业时，会根据RDD(弹性分布数据集)之间的宽窄依赖关系把作业分成多个阶段(stage)来顺序执行。例如，当执行K-means聚类算法的作业时，对20G的数据进行K-means聚类通常会划分为20个阶段，这20个阶段会依次执行，每个阶段包含作业执行的基本任务(task)，集群的调度***把每个阶段的任务分配到各个节点。例如，当第一阶段stage0包含200个任务，需由5个节点完成时，调度***会根据节点的计算能力分配执行任务的节点，执行速度快的节点会分配更多的任务。在任务执行过程中，控制台会以任务级别为粒度实时输出执行日志，这些日志包含的信息有时间戳(timestamp)、运行各个任务(task)的节点标识(runhost)、输入的数据量(size)等信息，执行任务的持续时间(duration)等。

日志信息内容的示例如下：

{"timestamp":"17/11/1411:15:59","task":"100.0","stage":"19.0","tid":"3159","runhost":"hw062","partition":"100","locality":"PROCESS_LOCAL","size":"5229"}

{"timestamp":"17/11/1411:15:59","task":"81.0","stage":"19.0","tid":"3141","duration":"12","runhost":"hw062","partition":"29/161"}。

需要说明的是，尽管对于不同的spark集群，输出的日志格式不完全相同，但日志中通常都包含各个任务所处于的阶段，执行每个阶段的节点、各任务的完成时间以及各个节点在一段时间内输入的数据量等运行特征数据，本领域的技术人员可根据需要对spark平台输出的原始日志进行处理并提取或计算所需要的信息。

为了验证运行特征数据与节点状态的关联程度，以筛选出反映节点运行性能的主要因素，发明人进行了反复检验。例如，采用假设检验方法，其主要过程是：首先，设定可能影响节点状态的运行特征数据，例如，对于每个节点，设定阶段的运行时间、节点数据输入量、节点运行作业中任务的平均时间、上一个阶段节点运行的任务数、目前运行阶段已经完成的任务数等中一些特征数据或所有特征数据会对节点的运行性能产生影响；针对设定的运行特征数据，运用假设检验的方法验证各个特征数据的影响力，例如，预先设定检验标准p为0.05，计算设定的特征数据的p值，小于0.05时，则认为这些特征数据与节点的运行性能有较强的关联性。

经过spark集群的反复运行和多次检验，针对spark集群中的各节点，筛选出以下五个维度的运行特征数据：

上一个阶段中运行的任务数(V1)：假设目前作业运行到第四个阶段stage3(从0开始编号)，该任务数表示某节点在stage2阶段总共运行的任务数量；

目前运行阶段中已经完成的任务数(V2)：该任务数表示目前运行阶段中某节点已经完成的任务数；

目前阶段中已完成任务的平均时间(V3)：由于可以收集到执行一个任务的时间，假设某节点正在运行的阶段中完成了5个任务，该平均时间即是指运行5个任务的平均时间；

完成的所有任务的平均完成时间(V4)：某节点到目前为止，完成所有任务的平均时间；

目前阶段已经运行的时间(V5)：某节点到目前运行阶段已经持续运行了多长时间。

按照以上五个维度，提取多组数据，并针对每条数据标记节点状态，例如，将节点状态标记为正常或者异常，正常标记为1，异常标记为0。将所提取的多组数据与对应的节点状态构建为样本点数据集。具体地，在一个示例中，样本点数据集的格式如下：

stage0(即第一个阶段)：

stage4：

其中，HW062、HW072等是节点标识，V1、V2、V3、V4、V5分别对应所提取的五维特征数据(即样本特征数据)，Flag是节点状态标识，1表示正常节点，0表示异常节点。由于上一个阶段中运行的任务数(V1)包含上一阶段的信息，会导致统计第一个阶段的信息时，缺少该维度上的数值，可采用空值补0的方法来应对这种情况。

需要说明的是，上述提取的五维特征数据是本发明的一个优选实施例，本领域的技术人员也可以不同于该五维特征的数据构建样本点数据集，例如，选取其中的四维特征数据或多于该五维特征数据。此外，为了提高后续的模型训练的精度，在收集样本点数据集的过程中，可对某些节点进行异常注入以使收集的信息中有正反例，例如，增加CPU HOG干扰等。

步骤S120，基于样本点数据集训练分类模型，获得spark集群节点状态的检测模型。

在此步骤中，根据样本点数据集来训练分类模型，以获得训练好的模型参数，即模型的优化参数。

分类模型可采用基于决策树的分类、基于SVM的分类、逻辑回归模型(logit模型)等。例如，在节点状态划分为正常状态和异常状态两种情况下，可采用逻辑回归模型进行训练。

以逻辑回归模型为例，假设样本点数据集是{x，y}，x表示样本特征向量，y取值为正常状态1(正类)或者异常状态0(负类)，建立逻辑回归模型：

其中，P(y＝1|x)表示在样本特征向量x属于正类，即y等于1的概率，P(y＝0|x)表示样本特征向量x属于负类，即y等于0的概率，θ₀，θ₁，…，θ_m表示逻辑回归模型的参数，可统一表示为θ。

对于上述公式(1)，样本特征向量x属于正类，也就是y＝1的概率可以通过下面的逻辑函数来表示：

其中，θ是模型参数，δ是sigmoid函数。

例如，对于步骤S110包含五维特征值的样本点数据集，采用逻辑回归模型进行训练的基本过程是：首先，将数据集的五维特征值设为x₀、x₁、x₂、x₃、x₄，建立包含5个自变量的逻辑回归模型，logit(x)＝θ₀+θ₁x₁+θ₂x₂+...+θ₄x₄；然后，求解回归系数θ₀、θ₁、θ₂、θ₃、θ₄。

简言之，求解回归系数的方法就是不断用样本特征值代入回归模型，将公式(1)的计算结果与实际值进行比较，根据差值来修正模型参数θ₀、θ₁、θ₂、θ₃、θ₄，然后代入新的样本值计算，循环往复，直到无需修正或已达到预设的迭代次数。例如，可采用最大似然法、EM参数估计、梯度上升法等更新回归系数直到收敛。在一个示例中，采用spark集群执行K-means聚类算法时，运用逻辑回归训练后获得的参数如下：

	θ₀	θ₁	θ₂	θ₃	θ₄
						K-means	8.461	7.016	-6.375	-3.021	-0.471

根据获得的模型优化参数，可构建spark集群节点状态的检测模型：

其中，θ为训练好的参数，即优化参数，x为新的特征数据向量。

利用spark集群节点状态的检测模型可实时地检测节点属于正常状态或异常状态，参见图2所述，检测节点状态的方法包括：

步骤S210，实时获取spark集群的运行特征数据集

首先，在spark集群执行作业时，收集控制台输出日志，收集待检测节点或所有节点的运行特征数据集，例如，以10秒或20秒为周期进行收集。

步骤S220，利用spark集群节点状态的检测模型判断节点是否异常。

例如，调用spark集群节点状态的检测模型，判断该运行特征数据集下spark集群节点的状态，具体地，对于新采集的运行特征数据集，采用spark集群节点状态的检测模型得出概率值：

将计算得到的概率值与预定阈值进行比较，例如，如果大于0.5，则认为节点处于正常状态，否则节点处于异常状态。

步骤S230，对于判断为异常的节点输出提示告警信息

在此步骤中，对于判断为异常的节点在spark日志中提示相关的告警信息，以避免后续调用该节点执行新的作业。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种构建spark集群节点状态检测模型的方法，包括以下步骤：

2.根据权利要求1所述的方法，其中，所述分类模型包括基于决策树的分类模型、基于SVM的分类模型或逻辑回归模型。

3.根据权利要求2所述的方法，其中，步骤2包括：

步骤21：建立包含m个自变量的逻辑回归模型：

其中，θ是模型的优化系数，δ是sigmoid函数。

4.根据权利要求1至3任一项所述的方法，其中，所述节点运行特征数据包括上一个阶段中运行的任务数、目前运行阶段中已经完成的任务数、目前阶段中已完成任务的平均时间、完成的所有任务的平均完成时间和目前阶段已经运行的时间。

5.根据权利要求1所述的方法，其中，步骤1包括：

设定与节点状态相关的候选的节点运行特征数据；

采用假设检验的方法验证所述候选的节点运行特征数据对所述节点状态的关联程度；

筛选出关联程度强的节点运行特征数据构成所述样本点数据集。

6.一种检测spark集群节点状态的方法，包括以下步骤：

步骤61：获取spark集群中待检测节点的运行特征数据；

步骤62：将所述运行特征数据代入到根据权利要求1至5中任一项所述的spark集群节点状态检测模型，判断待检测节点的状态。

7.根据权利要求6所述的方法，其中，步骤62包括：

将所述运行特征数据代入到所述spark集群节点状态检测模型；

计算获得待测节点属于异常状态的概率；

将计算获得的概率值与预定阈值进行比较，如果小于所述预定阈值，则判断待测节点处于异常状态。

8.根据权利要求7所述的方法，其中，还包括将判断为异常状态的节点的信息输出spark集群的日志中。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至5或6至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5或6至8中任一项所述的方法的步骤。