CN111027591B - 一种面向大规模集群***的节点故障预测方法 - Google Patents

一种面向大规模集群***的节点故障预测方法 Download PDF

Info

Publication number
CN111027591B
CN111027591B CN201911107846.4A CN201911107846A CN111027591B CN 111027591 B CN111027591 B CN 111027591B CN 201911107846 A CN201911107846 A CN 201911107846A CN 111027591 B CN111027591 B CN 111027591B
Authority
CN
China
Prior art keywords
data
window
fault
prediction
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911107846.4A
Other languages
English (en)
Other versions
CN111027591A (zh
Inventor
伍卫国
毛海
聂世强
张驰
董小社
张兴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911107846.4A priority Critical patent/CN111027591B/zh
Publication of CN111027591A publication Critical patent/CN111027591A/zh
Application granted granted Critical
Publication of CN111027591B publication Critical patent/CN111027591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向大规模集群***的节点故障预测方法,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一故障预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。本发明在确保有充足的提前时间对节点故障进行处理的前提下,使预测模型的准确率最高。

Description

一种面向大规模集群***的节点故障预测方法
技术领域
本发明属于计算机***可靠性与可用性技术领域,具体涉及一种面向大规模集群***的节点故障预测方法。
背景技术
集群***是用于高性能计算、云计算和数据中心的常见平台。随着这些平台的规模和复杂性的不断增长,***的可靠性成为一个主要问题,因为***的平均故障间隔时间(MTBF)随着***组件数量的增加而减少。最近的研究结果表明,现有数据中心和云计算***的可靠性受到10-100小时平均故障间隔时间的限制。数据中心通常具有很高的故障率,因为它具有许多服务器和组件。此外,长时间运行的应用程序和密集的工作负载在这些设施中很常见。***的性能取决于机器的可用性,如果不能很好地处理故障,机器的可用性很容易受到影响。
为了满足云计算日益增长的需求,诸如谷歌、Facebook和Amazon等互联网公司通常在其数据中心部署大量服务器。这些服务器承受着繁重的工作负载,并处理各种各样的请求。对于这样的高可用性计算环境,当集群中的一台服务器故障时,它的工作负载通常被转移到同一集群中的另一台机器上,这增加了其他服务器故障的可能性。
服务器故障会导致数据丢失,以及由于机器突然不可用而导致的资源阻塞。在最坏的情况下,这些故障可能会使数据中心瘫痪,导致意外停机,恢复数据需要非常高的成本。据Ponemon Institute在2016年发布的数据中心停机报告可知,恢复数据平均需要9000美元/分钟,最高为17000美元/分钟。在微软云***的所有服务器节点中,每天只有不到0.1%的节点遇到故障,但它对目标为99.999%或更高可用性的服务具有重大影响。因此,节点故障是导致服务停机的主要原因之一。
在线故障预测是一种通过分析机器历史故障数据和***当前状态来预测故障,从而避免或减轻故障对集群带来不利影响的技术,是提高存储***的可靠性与可用性的重要手段。虽然预测机器的下一次故障似乎是提高数据中心可靠性的一个可行且有前景的解决方案,但它带来了两个主要挑战:第一个挑战是预测时需要很高的准确性,特别是为了减少误报。第二个挑战是如何选择合适的提前时间。若提前时间太长,则故障前的显著特征无法充分利用,导致模型准确率较低;若提前时间太短,虽预测准确率会提升,但不足以让管理员有充足的时间对节点进行相关操作来避免故障。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种面向大规模集群***的节点故障预测方法,在确保有充足的提前时间对节点故障进行处理的前提下,使预测模型的准确率最高。
本发明采用以下技术方案:
一种面向大规模集群***的节点故障预测方法,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。
具体的,各节点收集实际运行参数,取n个单位时间窗口大小构成观察窗口并生成数据集,利用观察时间窗口内的各项数据预测出提前时间窗口内的节点各项数据。
进一步的,节点收集实际运行参数的周期为每5分钟。
进一步的,τ时间段内的各项预测数据Yr,τ为:
Yr,τ=f(P(t))
其中,f表示要求解的模型,P(t)为所有数据组成的向量,t∈(1,τ-1), r∈resources。
具体的,长短期记忆网络的输入包括训练样本数量、时间步长和特征值,特征值用所有数据组成的向量P(t)表示。
进一步的,通过计算皮尔逊相关系数得出各个特征值与故障之间的相关系数,从节点收集到的实际运行参数中选取9个相关性系数大于0.1的特征值作为最终特征值。
更进一步的,特征值数据为:mean CPU usage rate,canonical memory usage,total page cache memory usage,maximum memory usage,mean disk I/O time,meanlocal disk space used,maximum CPU usage,maximum disk IO time,memory accessesper instruction。
具体的,随机森林的输入为第一观察窗口内特征值组成的向量P(t)以及提前时间窗口内特征值组成的向量Y(t1),经过预测行为得出预测窗口内是否发生故障,预测窗口内是否发生故障y表示为:
y=f(P(t),Y(t1))
其中,f表示要求解的模型,1表示故障,0表示非故障。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种面向大规模集群***的节点故障预测方法,能准确地预测节点未来一段时间内的资源占用量变化情况;结合之前预测出的节点资源占用量数据以及真实的资源占用量数据,使用随机森林进行最终的故障预测,对节点的故障预测只需预测下一个时间段的机器状态,因此是一个二分类问题,在分类算法中,随机森林具有较高的准确率。随机森林不容易陷入过拟合,能够处理很高维度的数据,并且不用做特征选择,对数据集的适应能力强。
进一步的,通过第一阶段的数据预测,提前时间窗口内节点的资源占用量数据被预测出来,弥补了传统故障预测方法中提前时间窗口内没有数据的缺陷,进行第二阶段的节点故障预测时,可以充分利用提前时间窗口内的数据,从而提高预测准确率。
进一步的,节点中有关资源占用量的指标有很多,不同的特征值对于故障预测算法有不同的影响,通过计算皮尔逊相关系数,我们得出了各个特征值与故障之间的相关性系数,从而确定预测时所需的特征值,避免了无用特征值对故障预测产生的影响。
综上所述,本发明利用LSTM对处理与时间序列相关度高的数据以及在处理时间序列上距离较远的数据的优势,能够有效地预测出提前时间窗口内的数据。然后,结合真实的数据共同构成观察窗口内的数据,使用随机森林方法进行最终的故障预测。不仅留有提前时间用来应对故障,而且充分利用了提前时间窗口内的数据,使模型的准确率得到保证。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为时间窗口定义图;
图2为新时间窗口定义图;
图3为LSTM内部结构图;
图4为本发明预测流程图。
具体实施方式
请参阅图4,本发明一种面向大规模集群***的节点故障预测方法,首先收集各节点资源占用量数据,进行数据处理生成数据集,使用长短期记忆网络 (LSTM)构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口数据,判断第一观察窗口的大小是否等于3小时,如果不满足,返回重新构建;如果满足,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小是否等于4小时,如果不满足,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障。
S1、基于长短期记忆网络(LSTM)的节点资源占用量预测;
在进行故障预测时,通常使用观察窗口内的数据来预测预测窗口内是否发生故障。距离故障发生的时刻越近,故障的征兆越明显,即特征值越重要。但是,为了确保管理员有充足的时间应对故障,必须保留一段提前时间,即图1中的提前时间窗口,这样就导致在进行预测时,无法充分利用提前时间窗口内的数据,造成预测准确率的下降。因此,为了利用提前时间窗口内的数据来确保预测准确率,提出了一种基于长短期记忆网络(LSTM)的节点资源占用量预测方法,通过LSTM预测提前时间窗口内的数据,扩大观察窗口的大小,此时,新的时间窗口的示意图如图2所示。
LSTM(Long short-term memory)是一种特殊的RNN(循环神经网络),能够学习长的依赖关系;LSTM是为了避免长依赖问题而精心设计的。LSTM对处理与时间序列相关度高的数据有优势,并且在处理时间序列上距离较远的节点时有很大的优势。此时,新的时间窗口的示意图如图2所示。
利用节点每5分钟收集到的实际运行参数,将n个单位时间窗口大小构成观察窗口,使用这些数据来生成数据集。
本发明在选取特征值时,通过计算皮尔逊相关系数,得出了各个特征值与故障之间的相关性系数,从节点收集到的实际运行参数中选取了9个相关性系数大于0.1的特征值作为最终特征值,本发明选取的特征值如下:
mean CPU usage rate,canonical memory usage,total page cache memoryusage, maximum memory usage,mean disk I/O time,mean local disk space used,maximum CPU usage,maximum disk IO time,memory accesses per instruction。
在时间段1至τ-1之间,所有特征值按各自的最大值进行标准化,范围从0~1,标准化后的特征值数据组成的向量用P(t)表示:
P(t)=Ur,t,t∈(1,τ-1),r∈resources
LSTM输入层包括训练样本数量(samples),时间步长(time_steps)和特征值(features)。时间步长为每个数据与之前多少个时间序列的输入数据有关。特征值用向量P(t)表示。
本发明选取以下数据作为特征值:
mean CPU usage rate,canonical memory usage,total page cache memoryusage, maximum memory usage,mean disk I/O time,mean local disk space used,maximum CPU usage,maximum disk IO time,memory accesses per instruction。
测量值按各自的最大值进行标准化,范围从0~1;f表示要求解的模型,Yr,τ表示τ时间段内的各项预测数据,则预测行为表示为:
Yr,τ=f(P(t))
其中,t∈(1,τ-1),r∈resources。
利用观察时间窗口内的节点各项数据预测出提前时间窗口内的节点各项数据。
LSTM的内部结构如图3所示。门是实现选择性的让信息通过,主要是通过一个sigmoid神经网络层和一个逐点相乘的操作实现的,这就是LSTM有3个乘号的原因,因为其中有3个门,分别为遗忘门(forget gate),输入门(input gate) 和输出门(output gate)。
遗忘门用来决定哪些信息从单元状态中抛弃。
输入门用来决定单元状态中保存哪些更新信息。实现这个过程需要以下步骤:
首先,sigmoid层决定哪些信息需要更新,tanh层生成一个向量,将值更新到(-1,1)两部分共同构成输入门,接下来会结合这两个向量来创建更新值。
然后,将旧状态与新状态进行叠加,得到新的状态。输出门决定输出什么。基于细胞状态,首先运行一个sigmoid层,决定要输出细胞状态的部分;
最后,将单元格状态通过tanh,将值规范化到-1和1之间,并将其乘以sigmoid 门的输出,至此只输出决定的部分。
LSTM参数设置如下:
时间步长设置为36(每5分钟为一个时间段,共3个小时),即每个数据与之前36个时间段的数据相关联。
特征值设置为9。
ctivation即激活函数设置为'relu'。
Dropout设置为0.2。
Batch_size设置为196。
隐含层节点数设置为5。
S2、基于随机森林进行故障预测。
故障预测算法对于预测准确率起着至关重要的作用,对于节点的故障预测,一般采用有监督的机器学习方法,因为节点在不同时间段的资源占用量和机器状态不同,采用无监督的学习方法,不能很好的建立资源占用量和机器状态的对应关系,导致模型的准确率降低。
随机森林是一种有监督的学习算法,是以决策树为基学习器的集成学习算法。随机森林不容易陷入过拟合,能够处理很高维度的数据,并且不用做特征选择,对数据集的适应能力强。在分类算法中,随机森林具有较高的准确率。因此,在进行故障预测时,采用随机森林算法。
基于随机森林进行故障预测具体为:
经过第一阶段,提前时间窗口内的节点资源占用量数据被预测出来,此时,结合提前时间窗口前的第一观察窗口,如图1中的观察窗口,构成第二观察窗口,如图2中的观察窗口,使用随机森林来预测未来一段时间内(即预测窗口)是否会发生故障。
随机森林的输入为,第一观察窗口内特征值组成的向量P(t)以及提前时间窗口内特征值组成的向量Y(t1),f表示要求解的模型,y表示预测窗口内是否发生故障,则预测行为表示为:
y=f(P(t),Y(t1))
经过该预测行为后,将会得出预测窗口内是否发生故障,1表示故障,0表示非故障。
随机森林参数设置如下:
n_estimators设置为20。
max_depth设置为50。
min_samples_leaf设置为20。
min_samples_split设置为30。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于LSTM的节点资源占用量预测方法如表1所示:
表1.基于LSTM的节点资源占用量预测方法
Figure BDA0002271851230000091
Figure BDA0002271851230000101
基于随机森林的故障预测方法如表2所示。
表2.基于随机森林的故障预测方法
Figure BDA0002271851230000102
Figure BDA0002271851230000111
目前国内外对节点故障预测的研究并没有充分考虑提前时间窗口,一般都没有设置提前时间,这样无法给管理员提供充足的时间采取措施来避免故障。其次,故障发生前的数据对故障有明显的征兆,即便设置了提前时间,也无法利用提前时间窗口内的数据,使得预测准确率下降。
本发明利用LSTM对处理与时间序列相关度高的数据以及在处理时间序列上距离较远的数据的优势,能够有效地预测出提前时间窗口内的数据。然后,结合真实的数据共同构成观察窗口内的数据,使用随机森林方法进行最终的故障预测。不仅留有提前时间,而且充分利用了提前时间窗口内的数据,使模型的准确率得到保证。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (7)

1.一种面向大规模集群***的节点故障预测方法,其特征在于,收集各节点的资源占用量数据并生成数据集,使用长短期记忆网络构建第一数据预测模型,使用随机森林构建第二故障预测模型,建立第一观察窗口,判断第一观察窗口的大小,如果不满足设定值,返回重新构建;如果满足设定值,使用第一数据预测模型预测提前时间窗口内数据,将第一观察窗口与提前时间窗口内数据结合构成第二观察窗口,判断第二观察窗口的大小,如果不满足设定值,返回重新构建第二观察窗口;如果满足,使用第二故障预测模型预测预测窗口内的故障;
在进行故障预测时,使用第二观察窗口内的数据预测预测窗口内是否发生故障,故障发生时刻前保留一段时间作为提前时间窗口,提前时间窗口前为第一观察窗口,提前时间窗口后为预测窗口,使用随机森林来预测预测窗口是否会发生故障。
2.根据权利要求1所述的面向大规模集群***的节点故障预测方法,其特征在于,各节点收集实际运行参数,取n个单位时间窗口大小构成观察窗口并生成数据集,利用观察时间窗口内的节点各项数据预测出提前时间窗口内的节点各项数据。
3.根据权利要求2所述的面向大规模集群***的节点故障预测方法,其特征在于,节点收集实际运行参数的周期为每5分钟。
4.根据权利要求2所述的面向大规模集群***的节点故障预测方法,其特征在于,τ时间段内的各项预测数据Yr,τ为:
Yr,τ=f(P(t))
其中,f表示要求解的模型,P(t)为所有数据组成的向量,t∈(1,τ-1),r∈resources。
5.根据权利要求1所述的面向大规模集群***的节点故障预测方法,其特征在于,长短期记忆网络的输入包括训练样本数量、时间步长和特征值,特征值用所有数据组成的向量P(t)表示。
6.根据权利要求5所述的面向大规模集群***的节点故障预测方法,其特征在于,通过计算皮尔逊相关系数得出各个特征值与故障之间的相关系数,从节点收集到的实际运行参数中选取9个相关性系数大于0.1的特征值作为最终特征值。
7.根据权利要求1所述的面向大规模集群***的节点故障预测方法,其特征在于,随机森林的输入为第一观察窗口内特征值组成的向量P(t)以及提前时间窗口内特征值组成的向量Y(t1),经过预测行为得出预测窗口内是否发生故障,预测窗口内是否发生故障y表示为:
y=f(P(t),Y(t1))
其中,f表示要求解的模型,1表示故障,0表示非故障。
CN201911107846.4A 2019-11-13 2019-11-13 一种面向大规模集群***的节点故障预测方法 Active CN111027591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911107846.4A CN111027591B (zh) 2019-11-13 2019-11-13 一种面向大规模集群***的节点故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911107846.4A CN111027591B (zh) 2019-11-13 2019-11-13 一种面向大规模集群***的节点故障预测方法

Publications (2)

Publication Number Publication Date
CN111027591A CN111027591A (zh) 2020-04-17
CN111027591B true CN111027591B (zh) 2022-07-12

Family

ID=70205580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911107846.4A Active CN111027591B (zh) 2019-11-13 2019-11-13 一种面向大规模集群***的节点故障预测方法

Country Status (1)

Country Link
CN (1) CN111027591B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085111B (zh) * 2020-09-14 2024-01-23 南方电网科学研究院有限责任公司 一种负荷辨识方法和装置
CN113076239B (zh) * 2021-04-12 2023-05-23 西安交通大学 一种高性能计算机用混合神经网络故障预测方法及***
CN114462679A (zh) * 2022-01-04 2022-05-10 广州杰赛科技股份有限公司 基于深度学习的网络流量预测方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909989A (zh) * 2017-02-24 2017-06-30 国网河南省电力公司电力科学研究院 一种电网扰动预测方法及装置
CN107679649A (zh) * 2017-09-13 2018-02-09 珠海格力电器股份有限公司 一种电器的故障预测方法、装置、存储介质及电器
WO2018034745A1 (en) * 2016-08-18 2018-02-22 The Regents Of The University Of California Nanopore sequencing base calling
CN107769972A (zh) * 2017-10-25 2018-03-06 武汉大学 一种基于改进的lstm的电力通信网设备故障预测方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108170529A (zh) * 2017-12-26 2018-06-15 北京工业大学 一种基于长短期记忆网络的云数据中心负载预测方法
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储***的节点故障预测***及方法
CN108900546A (zh) * 2018-08-13 2018-11-27 杭州安恒信息技术股份有限公司 基于lstm的时间序列网络异常检测的方法与装置
CN109033450A (zh) * 2018-08-22 2018-12-18 太原理工大学 基于深度学习的电梯设备故障预测方法
CN110198223A (zh) * 2018-02-27 2019-09-03 中兴通讯股份有限公司 网络故障预测方法、装置及设备、存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018034745A1 (en) * 2016-08-18 2018-02-22 The Regents Of The University Of California Nanopore sequencing base calling
CN106909989A (zh) * 2017-02-24 2017-06-30 国网河南省电力公司电力科学研究院 一种电网扰动预测方法及装置
CN107679649A (zh) * 2017-09-13 2018-02-09 珠海格力电器股份有限公司 一种电器的故障预测方法、装置、存储介质及电器
CN107769972A (zh) * 2017-10-25 2018-03-06 武汉大学 一种基于改进的lstm的电力通信网设备故障预测方法
CN108170529A (zh) * 2017-12-26 2018-06-15 北京工业大学 一种基于长短期记忆网络的云数据中心负载预测方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储***的节点故障预测***及方法
CN110198223A (zh) * 2018-02-27 2019-09-03 中兴通讯股份有限公司 网络故障预测方法、装置及设备、存储介质
CN108900546A (zh) * 2018-08-13 2018-11-27 杭州安恒信息技术股份有限公司 基于lstm的时间序列网络异常检测的方法与装置
CN109033450A (zh) * 2018-08-22 2018-12-18 太原理工大学 基于深度学习的电梯设备故障预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting Node failure in cloud service systems;Qingwei Lin 等;《ESEC/FSE 2018》;20181026;第480-490页 *
面向工业大数据的时间序列预测关键技术研究;宋杨;《中国硕士学位论文全文数据库》;20190115;第2019年卷(第1期);A002-1156 *

Also Published As

Publication number Publication date
CN111027591A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111027591B (zh) 一种面向大规模集群***的节点故障预测方法
Yin et al. Wasserstein Generative Adversarial Network and Convolutional Neural Network (WG‐CNN) for Bearing Fault Diagnosis
US20220255817A1 (en) Machine learning-based vnf anomaly detection system and method for virtual network management
CN114297036B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN113900844B (zh) 一种基于服务码级别的故障根因定位方法、***及存储介质
CN113312447A (zh) 基于概率标签估计的半监督日志异常检测方法
WO2020220437A1 (zh) 一种基于AdaBoost-Elman的虚拟机软件老化预测方法
CN117078048B (zh) 基于数字孪生的智慧城市资源管理方法及***
CN110543462A (zh) 微服务可靠性预测方法、预测装置、电子设备及存储介质
CN117234301A (zh) 一种基于人工智能的服务器热管理方法
CN112561119A (zh) 一种使用arima-rnn组合模型的云服务器资源性能预测方法
CN115112372A (zh) 轴承故障诊断方法、装置、电子设备及存储介质
Tuli et al. Deepft: Fault-tolerant edge computing using a self-supervised deep surrogate model
CN114510871A (zh) 基于思维进化和lstm的云服务器性能衰退预测方法
CN113825165B (zh) 基于时间图网络的5g切片网络拥塞预警方法及装置
Sun et al. Aledar: An attentions-based encoder-decoder and autoregressive model for workload forecasting of cloud data center
CN115423041A (zh) 一种基于深度学习的边缘云故障预测方法及***
CN115408182A (zh) 业务***故障定位方法及装置
Georgoulopoulos et al. A survey on hardware failure prediction of servers using machine learning and deep learning
Ashiquzzaman et al. Deep Learning-Guided Production Quality Estimation for Virtual Environment-Based Applications
Ramoliya et al. Advanced techniques to predict and detect cloud system failure: A survey
Montes et al. Grid global behavior prediction
Yu et al. Anomaly Detection for Cloud Systems with Dynamic Spatiotemporal Learning.
CN117560275B (zh) 基于图神经网络模型的微服务***根因定位方法及装置
Alkasem et al. AFDI: a virtualization-based accelerated fault diagnosis innovation for high availability computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant