CN111027591B

CN111027591B - 一种面向大规模集群***的节点故障预测方法

Info

Publication number: CN111027591B
Application number: CN201911107846.4A
Authority: CN
Inventors: 伍卫国; 毛海; 聂世强; 张驰; 董小社; 张兴军
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2022-07-12
Anticipated expiration: 2039-11-13
Also published as: CN111027591A

Abstract

本发明公开了一种面向大规模集群***的节点故障预测方法，收集各节点的资源占用量数据并生成数据集，使用长短期记忆网络构建第一数据预测模型，使用随机森林构建第二故障预测模型，建立第一观察窗口，判断第一观察窗口的大小，如果不满足设定值，返回重新构建；如果满足设定值，使用第一故障预测模型预测提前时间窗口内数据，将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口，判断第二观察窗口的大小，如果不满足设定值，返回重新构建第二观察窗口；如果满足，使用第二故障预测模型预测预测窗口内的故障。本发明在确保有充足的提前时间对节点故障进行处理的前提下，使预测模型的准确率最高。

Description

一种面向大规模集群***的节点故障预测方法

技术领域

本发明属于计算机***可靠性与可用性技术领域，具体涉及一种面向大规模集群***的节点故障预测方法。

背景技术

集群***是用于高性能计算、云计算和数据中心的常见平台。随着这些平台的规模和复杂性的不断增长，***的可靠性成为一个主要问题，因为***的平均故障间隔时间(MTBF)随着***组件数量的增加而减少。最近的研究结果表明，现有数据中心和云计算***的可靠性受到10-100小时平均故障间隔时间的限制。数据中心通常具有很高的故障率，因为它具有许多服务器和组件。此外，长时间运行的应用程序和密集的工作负载在这些设施中很常见。***的性能取决于机器的可用性，如果不能很好地处理故障，机器的可用性很容易受到影响。

为了满足云计算日益增长的需求，诸如谷歌、Facebook和Amazon等互联网公司通常在其数据中心部署大量服务器。这些服务器承受着繁重的工作负载，并处理各种各样的请求。对于这样的高可用性计算环境，当集群中的一台服务器故障时，它的工作负载通常被转移到同一集群中的另一台机器上，这增加了其他服务器故障的可能性。

服务器故障会导致数据丢失，以及由于机器突然不可用而导致的资源阻塞。在最坏的情况下，这些故障可能会使数据中心瘫痪，导致意外停机，恢复数据需要非常高的成本。据Ponemon Institute在2016年发布的数据中心停机报告可知，恢复数据平均需要9000美元/分钟，最高为17000美元/分钟。在微软云***的所有服务器节点中，每天只有不到0.1％的节点遇到故障，但它对目标为99.999％或更高可用性的服务具有重大影响。因此，节点故障是导致服务停机的主要原因之一。

在线故障预测是一种通过分析机器历史故障数据和***当前状态来预测故障，从而避免或减轻故障对集群带来不利影响的技术，是提高存储***的可靠性与可用性的重要手段。虽然预测机器的下一次故障似乎是提高数据中心可靠性的一个可行且有前景的解决方案，但它带来了两个主要挑战：第一个挑战是预测时需要很高的准确性，特别是为了减少误报。第二个挑战是如何选择合适的提前时间。若提前时间太长，则故障前的显著特征无法充分利用，导致模型准确率较低；若提前时间太短，虽预测准确率会提升，但不足以让管理员有充足的时间对节点进行相关操作来避免故障。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种面向大规模集群***的节点故障预测方法，在确保有充足的提前时间对节点故障进行处理的前提下，使预测模型的准确率最高。

本发明采用以下技术方案：

一种面向大规模集群***的节点故障预测方法，收集各节点的资源占用量数据并生成数据集，使用长短期记忆网络构建第一数据预测模型，使用随机森林构建第二故障预测模型，建立第一观察窗口，判断第一观察窗口的大小，如果不满足设定值，返回重新构建；如果满足设定值，使用第一数据预测模型预测提前时间窗口内数据，将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口，判断第二观察窗口的大小，如果不满足设定值，返回重新构建第二观察窗口；如果满足，使用第二故障预测模型预测预测窗口内的故障。

具体的，各节点收集实际运行参数，取n个单位时间窗口大小构成观察窗口并生成数据集，利用观察时间窗口内的各项数据预测出提前时间窗口内的节点各项数据。

进一步的，节点收集实际运行参数的周期为每5分钟。

进一步的，τ时间段内的各项预测数据Y_r,τ为：

Y_r,τ＝f(P(t))

其中，f表示要求解的模型，P(t)为所有数据组成的向量，t∈(1,τ-1)， r∈resources。

具体的，长短期记忆网络的输入包括训练样本数量、时间步长和特征值，特征值用所有数据组成的向量P(t)表示。

进一步的，通过计算皮尔逊相关系数得出各个特征值与故障之间的相关系数，从节点收集到的实际运行参数中选取9个相关性系数大于0.1的特征值作为最终特征值。

更进一步的，特征值数据为：mean CPU usage rate，canonical memory usage，total page cache memory usage，maximum memory usage，mean disk I/O time，meanlocal disk space used，maximum CPU usage，maximum disk IO time，memory accessesper instruction。

具体的，随机森林的输入为第一观察窗口内特征值组成的向量P_(t)以及提前时间窗口内特征值组成的向量Y_(t1)，经过预测行为得出预测窗口内是否发生故障，预测窗口内是否发生故障y表示为：

y＝f(P_(t),Y_(t1))

其中，f表示要求解的模型，1表示故障，0表示非故障。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种面向大规模集群***的节点故障预测方法，能准确地预测节点未来一段时间内的资源占用量变化情况；结合之前预测出的节点资源占用量数据以及真实的资源占用量数据，使用随机森林进行最终的故障预测，对节点的故障预测只需预测下一个时间段的机器状态，因此是一个二分类问题，在分类算法中，随机森林具有较高的准确率。随机森林不容易陷入过拟合，能够处理很高维度的数据，并且不用做特征选择，对数据集的适应能力强。

进一步的，通过第一阶段的数据预测，提前时间窗口内节点的资源占用量数据被预测出来，弥补了传统故障预测方法中提前时间窗口内没有数据的缺陷，进行第二阶段的节点故障预测时，可以充分利用提前时间窗口内的数据，从而提高预测准确率。

进一步的，节点中有关资源占用量的指标有很多，不同的特征值对于故障预测算法有不同的影响，通过计算皮尔逊相关系数，我们得出了各个特征值与故障之间的相关性系数，从而确定预测时所需的特征值，避免了无用特征值对故障预测产生的影响。

综上所述，本发明利用LSTM对处理与时间序列相关度高的数据以及在处理时间序列上距离较远的数据的优势，能够有效地预测出提前时间窗口内的数据。然后，结合真实的数据共同构成观察窗口内的数据，使用随机森林方法进行最终的故障预测。不仅留有提前时间用来应对故障，而且充分利用了提前时间窗口内的数据，使模型的准确率得到保证。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为时间窗口定义图；

图2为新时间窗口定义图；

图3为LSTM内部结构图；

图4为本发明预测流程图。

具体实施方式

请参阅图4，本发明一种面向大规模集群***的节点故障预测方法，首先收集各节点资源占用量数据，进行数据处理生成数据集，使用长短期记忆网络 (LSTM)构建第一数据预测模型，使用随机森林构建第二故障预测模型，建立第一观察窗口数据，判断第一观察窗口的大小是否等于3小时，如果不满足，返回重新构建；如果满足，使用第一数据预测模型预测提前时间窗口内数据，将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口，判断第二观察窗口的大小是否等于4小时，如果不满足，返回重新构建第二观察窗口；如果满足，使用第二故障预测模型预测预测窗口内的故障。

S1、基于长短期记忆网络(LSTM)的节点资源占用量预测；

在进行故障预测时，通常使用观察窗口内的数据来预测预测窗口内是否发生故障。距离故障发生的时刻越近，故障的征兆越明显，即特征值越重要。但是，为了确保管理员有充足的时间应对故障，必须保留一段提前时间，即图1中的提前时间窗口，这样就导致在进行预测时，无法充分利用提前时间窗口内的数据，造成预测准确率的下降。因此，为了利用提前时间窗口内的数据来确保预测准确率，提出了一种基于长短期记忆网络(LSTM)的节点资源占用量预测方法，通过LSTM预测提前时间窗口内的数据，扩大观察窗口的大小，此时，新的时间窗口的示意图如图2所示。

LSTM(Long short-term memory)是一种特殊的RNN(循环神经网络)，能够学习长的依赖关系；LSTM是为了避免长依赖问题而精心设计的。LSTM对处理与时间序列相关度高的数据有优势，并且在处理时间序列上距离较远的节点时有很大的优势。此时，新的时间窗口的示意图如图2所示。

利用节点每5分钟收集到的实际运行参数，将n个单位时间窗口大小构成观察窗口，使用这些数据来生成数据集。

本发明在选取特征值时，通过计算皮尔逊相关系数，得出了各个特征值与故障之间的相关性系数，从节点收集到的实际运行参数中选取了9个相关性系数大于0.1的特征值作为最终特征值，本发明选取的特征值如下：

mean CPU usage rate，canonical memory usage，total page cache memoryusage， maximum memory usage，mean disk I/O time，mean local disk space used，maximum CPU usage，maximum disk IO time，memory accesses per instruction。

在时间段1至τ-1之间，所有特征值按各自的最大值进行标准化，范围从0～1，标准化后的特征值数据组成的向量用P(t)表示：

P(t)＝U_r,t,t∈(1,τ-1),r∈resources

LSTM输入层包括训练样本数量(samples)，时间步长(time_steps)和特征值(features)。时间步长为每个数据与之前多少个时间序列的输入数据有关。特征值用向量P(t)表示。

本发明选取以下数据作为特征值：

测量值按各自的最大值进行标准化，范围从0～1；f表示要求解的模型，Y_r,τ表示τ时间段内的各项预测数据，则预测行为表示为：

Y_r,τ＝f(P(t))

其中，t∈(1,τ-1)，r∈resources。

利用观察时间窗口内的节点各项数据预测出提前时间窗口内的节点各项数据。

LSTM的内部结构如图3所示。门是实现选择性的让信息通过，主要是通过一个sigmoid神经网络层和一个逐点相乘的操作实现的，这就是LSTM有3个乘号的原因，因为其中有3个门，分别为遗忘门(forget gate)，输入门(input gate) 和输出门(output gate)。

遗忘门用来决定哪些信息从单元状态中抛弃。

输入门用来决定单元状态中保存哪些更新信息。实现这个过程需要以下步骤：

首先，sigmoid层决定哪些信息需要更新，tanh层生成一个向量，将值更新到(-1,1)两部分共同构成输入门，接下来会结合这两个向量来创建更新值。

然后，将旧状态与新状态进行叠加，得到新的状态。输出门决定输出什么。基于细胞状态，首先运行一个sigmoid层，决定要输出细胞状态的部分；

最后，将单元格状态通过tanh，将值规范化到-1和1之间，并将其乘以sigmoid 门的输出，至此只输出决定的部分。

LSTM参数设置如下：

时间步长设置为36(每5分钟为一个时间段，共3个小时)，即每个数据与之前36个时间段的数据相关联。

特征值设置为9。

ctivation即激活函数设置为'relu'。

Dropout设置为0.2。

Batch_size设置为196。

隐含层节点数设置为5。

S2、基于随机森林进行故障预测。

故障预测算法对于预测准确率起着至关重要的作用，对于节点的故障预测，一般采用有监督的机器学习方法，因为节点在不同时间段的资源占用量和机器状态不同，采用无监督的学习方法，不能很好的建立资源占用量和机器状态的对应关系，导致模型的准确率降低。

随机森林是一种有监督的学习算法，是以决策树为基学习器的集成学习算法。随机森林不容易陷入过拟合，能够处理很高维度的数据，并且不用做特征选择，对数据集的适应能力强。在分类算法中，随机森林具有较高的准确率。因此，在进行故障预测时，采用随机森林算法。

基于随机森林进行故障预测具体为：

经过第一阶段，提前时间窗口内的节点资源占用量数据被预测出来，此时，结合提前时间窗口前的第一观察窗口，如图1中的观察窗口，构成第二观察窗口，如图2中的观察窗口，使用随机森林来预测未来一段时间内(即预测窗口)是否会发生故障。

随机森林的输入为，第一观察窗口内特征值组成的向量P_(t)以及提前时间窗口内特征值组成的向量Y_(t1)，f表示要求解的模型，y表示预测窗口内是否发生故障，则预测行为表示为：

y＝f(P_(t),Y_(t1))

经过该预测行为后，将会得出预测窗口内是否发生故障，1表示故障，0表示非故障。

随机森林参数设置如下：

n_estimators设置为20。

max_depth设置为50。

min_samples_leaf设置为20。

min_samples_split设置为30。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于LSTM的节点资源占用量预测方法如表1所示：

表1.基于LSTM的节点资源占用量预测方法

基于随机森林的故障预测方法如表2所示。

表2.基于随机森林的故障预测方法

目前国内外对节点故障预测的研究并没有充分考虑提前时间窗口，一般都没有设置提前时间，这样无法给管理员提供充足的时间采取措施来避免故障。其次，故障发生前的数据对故障有明显的征兆，即便设置了提前时间，也无法利用提前时间窗口内的数据，使得预测准确率下降。

本发明利用LSTM对处理与时间序列相关度高的数据以及在处理时间序列上距离较远的数据的优势，能够有效地预测出提前时间窗口内的数据。然后，结合真实的数据共同构成观察窗口内的数据，使用随机森林方法进行最终的故障预测。不仅留有提前时间，而且充分利用了提前时间窗口内的数据，使模型的准确率得到保证。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向大规模集群***的节点故障预测方法，其特征在于，收集各节点的资源占用量数据并生成数据集，使用长短期记忆网络构建第一数据预测模型，使用随机森林构建第二故障预测模型，建立第一观察窗口，判断第一观察窗口的大小，如果不满足设定值，返回重新构建；如果满足设定值，使用第一数据预测模型预测提前时间窗口内数据，将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口，判断第二观察窗口的大小，如果不满足设定值，返回重新构建第二观察窗口；如果满足，使用第二故障预测模型预测预测窗口内的故障；

在进行故障预测时，使用第二观察窗口内的数据预测预测窗口内是否发生故障，故障发生时刻前保留一段时间作为提前时间窗口，提前时间窗口前为第一观察窗口，提前时间窗口后为预测窗口，使用随机森林来预测预测窗口是否会发生故障。

2.根据权利要求1所述的面向大规模集群***的节点故障预测方法，其特征在于，各节点收集实际运行参数，取n个单位时间窗口大小构成观察窗口并生成数据集，利用观察时间窗口内的节点各项数据预测出提前时间窗口内的节点各项数据。

3.根据权利要求2所述的面向大规模集群***的节点故障预测方法，其特征在于，节点收集实际运行参数的周期为每5分钟。

4.根据权利要求2所述的面向大规模集群***的节点故障预测方法，其特征在于，τ时间段内的各项预测数据Y_r,τ为：

Y_r,τ＝f(P(t))

其中，f表示要求解的模型，P(t)为所有数据组成的向量，t∈(1,τ-1)，r∈resources。

5.根据权利要求1所述的面向大规模集群***的节点故障预测方法，其特征在于，长短期记忆网络的输入包括训练样本数量、时间步长和特征值，特征值用所有数据组成的向量P(t)表示。

6.根据权利要求5所述的面向大规模集群***的节点故障预测方法，其特征在于，通过计算皮尔逊相关系数得出各个特征值与故障之间的相关系数，从节点收集到的实际运行参数中选取9个相关性系数大于0.1的特征值作为最终特征值。

7.根据权利要求1所述的面向大规模集群***的节点故障预测方法，其特征在于，随机森林的输入为第一观察窗口内特征值组成的向量P_(t)以及提前时间窗口内特征值组成的向量Y_(t1)，经过预测行为得出预测窗口内是否发生故障，预测窗口内是否发生故障y表示为：

y＝f(P_(t),Y_(t1))

其中，f表示要求解的模型，1表示故障，0表示非故障。