CN112764994B - 一种容器云存储***的灰色故障检测方法 - Google Patents

一种容器云存储***的灰色故障检测方法 Download PDF

Info

Publication number
CN112764994B
CN112764994B CN202110101191.0A CN202110101191A CN112764994B CN 112764994 B CN112764994 B CN 112764994B CN 202110101191 A CN202110101191 A CN 202110101191A CN 112764994 B CN112764994 B CN 112764994B
Authority
CN
China
Prior art keywords
application
performance
gray
model
interference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110101191.0A
Other languages
English (en)
Other versions
CN112764994A (zh
Inventor
陈宁江
梁碧枘
覃润冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202110101191.0A priority Critical patent/CN112764994B/zh
Publication of CN112764994A publication Critical patent/CN112764994A/zh
Application granted granted Critical
Publication of CN112764994B publication Critical patent/CN112764994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种容器云存储***的灰色故障检测方法。所述方法包括:定义应用性能干扰情境,如内存资源、位置、负载均衡等之间的关联关系,在关联关系条件约束下,通过计算关联关系的性能干扰度确定干扰情境和灰色故障之间关联程度,为故障检测建立关联关系度量;之后利用所有关联度度量关系式组成关联模型。利用收集的应用性能数据,进行模型自动建模和更新。通过长短期记忆网络(Long Short Term Memory,LSTM)和双向长短期记忆网络(Bidriectional Long Short‑Term Memory,BLSTM)结合的方法来对模型进行深度学习训练,提高自学性和精准性。本发明考虑多应用共享资源因素以及部署环境改变与灰色故障的关联性,分析应用性能干扰与灰色故障的关系,以提高灰色故障检测的准确性。

Description

一种容器云存储***的灰色故障检测方法
技术领域
本发明属于计算机技术领域,更具体地,涉及一种容器云存储***的灰色故障检测方法。
背景技术
容器云存储***由于其固有的复杂性和大规模性,使得各种故障情境经常发生,引起应用服务失效。容器云存储出现的故障情境与其应用运行情境有一定关系。应用情境中的主要可用性故障和性能异常往往是由细微的潜在故障引起的,称之为灰色故障。灰色故障是***的故障检测器难以发觉,或忽视过去以至没有异常或者错误通知的,但会在应用运行过程中出现的故障问题。灰色故障通常会带来严重的性能下降、随机数据包丢失、片状I/O、内存抖动等异常情况。灰色故障与应用程序运行故障有一定的逻辑关系。在灰色故障检测和预测方面,现有的研究工作主要集中在研究使用侵入式技术来进行故障定位等方面,不多关注由于资源隔离,带来的应用间性能干扰产生的关联性灰色故障问题,以及部署环境改变带来的灰色故障传播问题。
在容器云存储中运行的应用程序通常作为云服务提供商的黑盒子出现,这使得获取有关应用程序的详细运行场景并应用理想的API侵入式诊断技术是不可行的。容器云存储管理***希望自动预防任何性能异常的发生,以最小化损失。像Docker Swarm、Kubernetes等现有容器调度***的反应性异常管理不足以满足这些要求。
现有的针对灰色故障的检测方法多是在原有的云存储环境下的故障检测方法基础上进行,对灰色故障导致的***和应用程序之间的差异具有较差的可观察性。灰色故障检测方法有代表性的有通过API注入的方法。但是,这种类型的方法在容器云存储中有一定的不适应性,因为容器之间是相互隔离的,容器监控信息的指令依赖于低层的操作***指令。因此侵入式的方法无法通过名称明确标识特定容器(或包含它的容器的节点),也不能明确标识容器正在运行的应用,因为这些容器在应用程序上下文的的生命周期中可能会发生动态变化。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了容器云存储***的灰色故障检测方法方法,其目的在于达到通过应用干扰情境与灰色故障之间的关联,并基于这种关联实现精准检出灰色故障。
为实现上述目的,本发明提供了一种容器云存储***的灰色故障检测方法,包括如下步骤:
(1)通过定义应用性能干扰情境来确定性能干扰度:根据云存储的软硬件故障以及灰色故障与应用之间的性能干扰的关联性,定义基于内存资源、位置、负载均衡的关联关系以及其判断和约束条件;在约束条件下通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间的关联程度,为后续灰色故障检测建立关联关系度量库;
(2)用应用性能干扰度求性能干扰情境与灰色故障的关联关系度:应用之间的关联关系满足某一种约束关系,通过获取灰色故障情境与应用间的性能干扰情境,求得应用干扰情境与灰色故障之间的关联关系度。
(3)建立关联度组成关联模型(Relational Model based on the Relationshipbetween Application Interference Situationcontext and Grey Fault,简称RMAIG):所有的灰色故障利用之前求出来的关联度组成关联模型RMAIG,使用模型RMAIG检测灰色故障的发生场景,同时利用监控收集到的应用性能数据,进行关联模型的自动建模和更新。当当前应用情境模型与所给出的关联模型有很高的相似度时,则认为有灰色故障发生。
(4)LSTM和BLSTM结合方法对关联模型进行深度学习训练:当前时刻的数据输入和过去一个时刻内的RMAG模型作为输入,基于数据和模型,通过BLSTM来决定要保留RMAIG模型向量的哪些部分,之后输入到LSTM中,最终实现RMAIG模型的更新。
与现有技术相比,本发明具有如下有益效果:
通过利用这个模型,得出应用性能干扰环境的关键度量值,并进行自动化应用情境比对,以此来评估应用情境是否发生灰色故障。所建立的模型能通过对容器云***内部的资源性能瓶颈进行监控,来跟踪资源瓶颈带来的故障区域的变化特性,这样能够及时找到遏制故障传播的恢复模式,进行故障检测与预测。
附图说明
图1是本发明实施例中灰色故障检测方法实现的示意图;
图2是本发明实施例中灰色故障概念模型图;
图3是本发明实施例中灰色故障检测方法的应用情境感知机制示意图;
图4是本发明实施例中灰色故障检测方法的关系模型建立算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
灰色故障的出现来源于***与应用程序之间的故障观察差异性。如图2所示。除了***内部自带的故障检测器外,应用程序也会对***的运行状况进行自己的检测。灰色故障包括严重的性能下降、随机数据包丢失、片状I/O内存抖动、容量压力等非致命异常。它的模糊性和时间特性使其与典型的失效模型中的假设明显不同,例如,进程的关键线程可能会被锁住,而其他线程(包括故障检测器)会继续运行。因为灰色故障的发生,容器云***中的节点里的应用在运行过程中可能会遇到随机数据包丢失、慢速硬件失效、静默挂起或状态损坏等故障,灰色故障这种细小的失败是许多现实云存储集群故障的原因。严重的灰色故障可能会延迟服务器中每个前端请求,减少***中的总可用存储量,并对剩余的健康服务器施加压力,导致更多服务器降级并体验相同的故障命运。随着云存储的不断扩展,不被***关注的灰色故障问题会成为***高可用性的一个巨大挑战。因此对于灰色故障的及时检测等处理工作显得非常重要。
如图1所示,本发明提供一种容器云存储***的灰色故障检测方法,包括:
(1)通过定义应用性能干扰情境来确定性能干扰度:根据云存储的软硬件故障以及灰色故障与应用之间的性能干扰的关联性,定义了基于内存资源、位置、负载均衡的关联关系以及其判断和约束条件;在约束条件下通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间的关联程度,为后续灰色故障检测建立关联关系度量库;
(2)用应用性能干扰度求性能干扰情境与灰色故障的关联关系度:应用之间的关联关系满足某一种约束关系,通过获取灰色故障情境与应用间的性能干扰情境,通过绝对差性质,最终可以求得应用干扰情境与灰色故障之间的关联关系度。
(3)关联度组成关联模型RMAIG:所有的灰色故障利用之前求出来的关联度组成关联模型RMAIG,使用RMAIG可以检测灰色故障的发生场景同时利用操作期间监控收集的应用性能数据,来进行关联模型的自动建模和更新。当检测到关联关系达到关联模型的范围时,则认为有灰色故障发生。
(4)LSTM和BLSTM结合方法对关联模型进行深度学习训练:基于RMAIG模型创建一个候选关联状态,再通过关键模型建立算法求出来的关键度度量集计算要保留上一次状态的信息,最后通过输出层门来决定输出新的RMAIG模型向量的部分输入到LSTM层,之后被馈送到聚集层,通过集成前向和后向层的输出来更新输出层,得到新的RMAIG模型。
针对于步骤(1)具体包括:
(1.1)定义应用之间关联关系:两个应用共同竞争共享内存资源,或者共处于同一节点,或者在同一时刻下两个应用都在同一组被***控制器进行负载均衡,并且都拥有特定的判断和约束条件,关联关系被准确的定义;
(1.2)性能干扰度:两个应用之间的性能干扰度定义为在资源受限和不受限的情况下运行性能比值的乘积,引入性能干扰度可以定量地确定应用干扰情境和灰色故障之间关联程度的大小,受限制的运行性能满足由应用CPU、磁盘空间、网络读写带宽、内存的请求率组成的约束条件;
(1.3)应用性能干扰与灰色故障的关系模型:满足特定约束条件的性能干扰度集合就是应用性能干扰情境,通过已有历史数据中应用干扰情境与产生的灰色故障情境进行拟合处理,最终可以得出灰色故障情境与应用性能干扰的关联度,所有的关联度组成关联模型。
针对于步骤(1)中三种关联关系的判断和约束条件具体如下:
(1)对于应用之间由基于内存资源的关联关系触发的性能干扰情境:
memory_requestrate[i]+memory_requestrate[j]>M-M[N] (1)
其中,M是节点N中的内存总量。memory_requestrate[i]和memory_requestrate[j]分别为应用的内存请求率,内存请求率指应用向节点请求内存的次数在应用所有所需资源请求次数的占比。
(2)对于应用之间由基于位置的关联关系触发的性能干扰情境:
AIC[N]={i,j} (2)
其中,AIC[N]是节点N中同节点中运行的应用程序实例。
(3)对于应用之间由基于负载均衡的关联关系触发的性能干扰情境:
LBG[i]=LBG[j] (3)
Applicationavalable[i]=Applicationavalable[j] (4)
其中,LBG[i]和LBG[j]分别为应用i和应用j所属的负载均衡的组;Applicationavaliable[i]和Applicationavailable[j]分别表示应用程序i和j是否在线并且可用,若其值为1,表示可用;若其值为0,表示不可用,当应用i和j同时分在同一个负载均衡的组中,且都在线可用时,发生负载均衡,会触发性能干扰。
在应用之间的关联关系条件约束下,应用间的性能干扰情境可以使用应用之间的性能干扰度来进行描述,性能干扰度可以定义为应用在资源受限情况与资源不受限情况下运行的性能比值的积通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间关联程度的大小,可以能为后面灰色故障检测建立关联关系度量库,计算方法如下式:
Figure BDA0002915709420000061
其中
Figure BDA0002915709420000062
是应用i在资源不受限即所属节点资源足够的情况下的运行时的性能;
Figure BDA0002915709420000063
为应用i被应用j干扰,在节点N的磁盘读写带宽(D[N])、内存(M[N])、容器网络带宽(读带宽IOr[N]和写带宽IOW[N])和CPU的限制CPU[N]下执行时的性能。这个性能干扰度量化了由于同时与其他应用程序共享资源而导致的性能干扰情境。它取决于许多因素,例如应用程序申请资源的时间、应用程序对应用程序间争用的敏感性有多高、消息在***中争用的时间有多长等等。
进一步,针对于步骤(2),应用所需要满足的约束条件通过以下方式得出,设该时刻下应用i的CPU请求率CPUrequestrate[i],内存请求率为memoryrequestrate[i],磁盘空间请求率为diskrequestrate[i],其网络读带宽为IOreadrate[i],网络写带宽为IOwriterate[i],但是其得到的CPU利用率为CPUgetrate[i],内存利用率为memorygetrate[i],磁盘空间请求率为diskgetrate[i],网络读带宽为IOgetreadrate[i],网络写带宽为IOgetwriterate[i];设该时刻下应用j的CPU请求率为CPUrequestrate[j],内存请求率为memoryrequestrate[j],磁盘空间请求率为diskrequestrate[j],其网络读带宽为IOreadrate[j],网络写带宽为IOwriterate[j],但是其得到的CPU利用率为CPU getrate[j],内存利用率为memorygetrate[j],磁盘空间请求率为diskgetrate[j],网络读带宽为IOgetreadrate[j],网络写带宽为IOgetwriterate[j];
Figure BDA0002915709420000071
Figure BDA0002915709420000072
Figure BDA0002915709420000073
Figure BDA0002915709420000074
设当应用i和j互相干扰对方运行时,
Figure BDA0002915709420000075
Figure BDA0002915709420000076
满足条件:
CPUgetrate[i]+CPUgetrate[j]<CPU[N] (10)
memorygetrate[i]+memorygetrate[j]<M[N] (11)
diskgetrate[i]+diskgetrate[j]<D[N] (12)
IOgetreadrate[i]+IOgetreadrate[j]<IOr[N] (13)
IOgetwriterate[i]+IOgetwriterate[j]<IOw[N] (14)
其中,ER[i]和ER[j]是错误率,分别是应用i和j运行日志中出现的错误和异常占应用运行总日志数的比例。pij介于0和1之间。
针对于步骤(3),所求出的应用之间的性能干扰度作为干扰情境与灰色故障之间的关联关系度的度量。把监控以及历史数据转化为数学模型以便进行建模,设已有的历史数据中应用干扰情境产生的灰色故障情境G表示为XG(k)={xc(1),xc(2),...,xc(k)},c=1,2,...,Ni,其中:c为与灰色故障G发生有关的应用干扰情境类别,Ni是应用干扰情境类别总数,k为与灰色故障发生有关的应用情境的特征向量个数,xc(k)是应用i与应用j产生的应用性能干扰情境。应用i与应用j之间的关联关系满足前面三种关系中的某一种关系的约束条件:
xc(k)={ρij|Applicationavailable[i]=Applicationavailable[j],i,j∈(1,N) (15)
设前面XG(k)数列除去xc(k)情境之后的数列为Xb(k),Xb(k)表示为与灰色故障无关的应用干扰情境,b=c-{Ni},则b表示为与灰色故障无关的应用干扰类别总数。Xb(k)={xb(1),xb(2),...,xb(n)}。求xc(k)与Xb(k)之间的关联关系度,可以求出应用干扰情境与灰色故障G之间的关联关系度。记xc(k)对Xb(k)的关联关系度为ηcb(k),计算方法如下:
Figure BDA0002915709420000081
上式中,Δcb(k)为xc(k)与Xb(k)的差的绝对值:
Figure BDA0002915709420000082
表示在Xb(k)上找出各点与xc(k)点的差值的最小值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最小差值;
Figure BDA0002915709420000091
表示在Xb(k)的曲线上找出各点与xc(k)点的差值的最大值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最大差值。ρ为应用情境xc(k)情况下应用性能干扰度与Xb(k)中各个情境的应用性能干扰度的比值,ρ∈(0,1]。
故灰色故障情境G与其有关的应用性能干扰情境的关联度为:
εg={ηcb(k)|c=1,2,...,Ni;b=c-{Ni}} (17)
所有的灰色故障情境利用上面的式子所求出来的关联度组成关联模型RMAIG,设一共有M个灰色故障情境,则关联模型RMAIG可表示为:
θ={εg|g=1,2,...,M} (18)
因为RMAIG反映了在灰色故障发生时,应用之间的性能干扰度,可用它检测灰色故障的发生场景。同时利用操作期间监控收集的应用性能数据,来进行关联模型的自动建模和更新。当检测到关联关系达到关联模型的范围时,则认为有灰色故障发生。
更进一步地,针对步骤(3),所述关联模型RMAIG的具体建模过程为:
首先为模型设立应用情境感知机制,如图2所示。为了进行应用之间的关联关系约束条件判断,应用情境感知机制监控每个存储节点的异构数据,其收集的数据分为以下三种类型:
(1)存储节点时间数据:直接表示节点在某一时刻的状态(例如性能计数器,IO吞吐量,存储资源使用量,存储响应延迟等),以及日志事件、错误/异常事件等数据。
(2)存储节点空间数据:指示各个节点之间的、在***中的显式或隐式的依赖关系。这些功能的示例包括部署段、机架位置、负载平衡组、策略组、更新域等。
(3)应用性能数据:包括平均响应时间、错误率(应用程序中未处理和记录的错误的数量)、应用实例计数、CPU请求率、内存请求率、磁盘空间请求率、I/O请求率等。对集群中应用的性能数据进行监控,基于应用之间的关联关系约束条件来进行初步情境感知判断和处理,感知机制监控每个节点的数据。为了能提取可以求出应用性能干扰和灰色故障环境的有效数据,以提高可处理性和精度,在检测到灰色故障之后,将通过感知机制收集到的时间和空间数据、应用性能数据进行衡量关联关系的主要度量提取,求出故障与干扰情境的关联关系度,更新关联模型,算法流程图如图3所示。
针对于步骤(4),如图4所示,基于RMAIG模型的灰色故障检测方法中采用LSTM(Long Short-Term Memory)和BLSTM(bidirectional long short-term memory)模型结合的方法,来对时间数据和应用性能数据中和关键度量集中数据同类的数据进行深度学习训练,提高方法的自学习性。LSTM可以很好地捕获时间序列数据背后的模式,BLSTM(双向LSTM)模型能处理两个方向上的时间序列变化,因为在BLSTM模型中,在前向和后向层之间的交互之后获得输出的过程很复杂,而且有很大的时间上的开销,所以选择用LSTM层替换BLSTM模型中的流线性单元(ReLU)层,可以减少模型的相互作用和复杂性。所以基于RMAIG模型的灰色故障检测策略使用LSTM和BLSTM结合的方法来进行深度学习训练。
设xi是发生灰色故障的时刻所有时间数据的输入向量,对{x1,x2,...,xn}序列数据使用BLSTM,根据RMAIG模型创建一个候选关联状态Ct
Ct=tanh(WC*[θt-1,xt-1]+bc) (19)
Wc为此时C状态向量的权重,θt-1是过去一个时刻内的关联模型,bc为C状态向量的偏差。在数据中增加一行θt
Figure BDA0002915709420000101
Et为当前时刻的关键度量集。
最后通过输出门层决定输出新的RMAIG模型向量的哪些部分,LSTM层的输入数据是此时刻产生新序列v1,v2,...,vn,其被馈送到聚集层,得到新的RMAIG模型。

Claims (4)

1.一种容器云存储***的灰色故障检测方法,其特征在于,包括如下步骤:
(1)定义应用性能干扰情境来确定性能干扰度:根据云存储的软硬件故障以及灰色故障与应用之间的性能干扰的关联性,定义基于内存资源、位置、负载均衡的关联关系以及其判断和约束条件;在约束条件下通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间的关联程度,为后续灰色故障检测建立关联关系度量库;包括:
(1.1)定义应用之间关联关系:两个应用共同竞争共享内存资源,或者共处于同一节点,或者在同一时刻下两个应用都在同一组被***控制器进行负载均衡,上述的这些关联关系都拥有自己的判断和约束条件;
(1.2)性能干扰度:两个应用之间的性能干扰度定义为在资源受限和不受限的情况下运行性能比值的乘积,引入性能干扰度定量地确定应用干扰情境和灰色故障之间关联程度的大小,计算方法如下:
Figure FDA0003646827430000011
其中,
Figure FDA0003646827430000012
是指应用i在资源不受限的情况下运行时的性能,
Figure FDA0003646827430000013
为应用i被应用j干扰时,在节点的磁盘读写带宽、容器网络带宽和CPU限制下运行的性能;
(1.3)应用性能干扰与灰色故障的关系模型:应用性能干扰情境是满足特定约束条件的性能干扰度集合,通过已有历史数据中应用干扰情境与产生的灰色故障情境进行拟合处理,最终得出灰色故障情境与应用性能干扰的关联度,所有的关联度组成关联模型;
其中,三种关联关系的判断和约束条件具体如下:
(1.3.1)对于应用之间由基于内存资源的关联关系触发的性能干扰情境:
memory_requestrate[i]+memory_requestrate[j]>M-M[N] (2)
其中,M是节点N中的内存总量,memory_requestrate[i]和memory_requestrate[j]分别为应用的内存请求率,内存请求率指应用向节点请求内存的次数在应用所有所需资源请求次数的占比;
(1.3.2)对于应用之间由基于位置的关联关系触发的性能干扰情境:
AIC[N]={i,j} (3)
其中,AIC[N]表示节点N中同节点中运行的应用程序实例,当只有应用i和j都运行在节点N中,会触发性能干扰;
(1.3.3)对于应用之间由基于负载均衡的关联关系触发的性能干扰情境:
LBG[i]=LBG[j] (4)
Applicationavalable[i]=Applicationavalable[j] (5)
其中,LBG[i]和LBG[j]分别表示为应用i和应用j所属的负载均衡的组;Applicationavaliable[i]和Applicationavailable[j]分别表示应用程序i和j是否在线并且可用,若其值为1,表示可用;若其值为0,表示不可用,当应用i和j同时分在同一个负载均衡的组中,且都在线可用时,发生负载均衡,会触发性能干扰;
在应用之间的关联关系条件约束下,应用间的性能干扰情境使用应用之间的性能干扰度来进行描述,性能干扰度定义为应用在资源受限情况与资源不受限情况下运行的性能比值的积通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间关联程度的大小,计算方法如下式:
Figure FDA0003646827430000021
其中,
Figure FDA0003646827430000022
是应用i在资源不受限即所属节点资源足够的情况下的运行时的性能;
Figure FDA0003646827430000023
为应用i被应用j干扰,在节点N的磁盘读写带宽D[N]、内存(M[N])、容器网络带宽,包括读带宽IOr[N]和写带宽IOW[N],和CPU的限制CPU[N]下执行时的性能;
(2)使用应用性能干扰度求性能干扰情境与灰色故障的关联关系度:应用之间的关联关系满足某一种约束条件,通过获取灰色故障情境与应用间的性能干扰情境,求得应用干扰情境与灰色故障之间的关联关系度;
(3)建立关联度组成关联模型(Relational Model based on the Relationshipbetween Application Interference Situationcontext and Grey Fault,RMAIG):所有的灰色故障利用之前求出来的关联度组成关联模型RMAIG,使用模型RMAIG检测灰色故障的发生场景,同时利用监控收集到的应用性能数据,来进行关联模型的自动建模和更新,若当前应用情境模型与所给出的关联模型的相似度超过预设阈值时,则认为有灰色故障发生;包括:
将所求出的应用之间的性能干扰度作为干扰情境与灰色故障之间的关联关系度的度量,把监控以及历史数据转化为数学模型以便进行建模,设已有的历史数据中应用干扰情境产生的灰色故障情境G表示为:
XG(k)={xc(1),xc(2),…,xc(k)},c=1,2,…,Ni (17)
其中:c为与灰色故障G发生有关的应用干扰情境类别,Ni是应用干扰情境类别总数,k为与灰色故障发生有关的应用情境的特征向量个数,xc(k)是应用i与应用j产生的应用性能干扰情境;应用i与应用j之间的关联关系满足前面三种关系中的某一种关系的约束条件:
xc(k)={ρij|Applicationavailable[i]=Applicationavailable[j]},i,j∈(1,N) (18)
设XG(k)数列除去xc(k)情境之后的数列为Xb(k),Xb(k)表示为与灰色故障无关的应用干扰情境,b=c-{Ni},则b表示为与灰色故障无关的应用干扰类别总数;Xb(k)={xb(1),xb(2),…,xb(n)};求xc(k)与Xb(k)之间的关联关系度,求出应用干扰情境与灰色故障G之间的关联关系度;记xc(k)对Xb(k)的关联关系度为ηcb(k),计算方法如下:
Figure FDA0003646827430000031
其中,Δcb(k)为xc(k)与Xb(k)的差的绝对值:
Figure FDA0003646827430000032
表示在Xb(k)上找出各点与xc(k)点的差值的最小值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最小差值;
Figure FDA0003646827430000041
表示在Xb(k)的曲线上找出各点与xc(k)点的差值的最大值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最大差值;ρ为应用情境xc(k)情况下应用性能干扰度与Xb(k)中各个情境的应用性能干扰度的比值,ρ∈(0,1];
故灰色故障情境G与其有关的应用性能干扰情境的关联度为:
εg={ηcb(k)|c=1,2,...,Ni;b=c-{Ni}} (20)
所有的灰色故障情境利用上面的式子所求出来的关联度组成关联模型RMAIG,设一共有M个灰色故障情境,则关联模型RMAIG可表示为:
θ={εg|g=1,2,...,M} (21)
利用操作期间监控收集的应用性能数据,来进行关联模型的自动建模和更新;若当前应用情境模型与所给出的关联模型的相似度超过预设阈值时,则认为有灰色故障发生;
(4)利用长短期记忆网络(Long Short Term Memory,LSTM)和双向长短期记忆网络(Bidriectional Long Short-Term Memor,BLSTM)结合方法对关联模型进行深度学习训练:当前时刻的数据输入和过去一个时刻内的RMAIG模型作为输入,通过BLSTM来决定要保留RMAIG模型向量的哪些部分,之后输入到LSTM中,实现RMAIG模型的更新。
2.如权利要求1所述的容器云存储***的灰色故障检测方法,其特征在于,应用所需要满足的约束条件通过以下方式得出:
设在某时刻,应用i的CPU请求率CPUrequestrate[i],内存请求率为memoryrequestrate[i],磁盘空间请求率为diskrequestrate[i],其网络读带宽为IOreadrate[i],网络写带宽为IOwriterate[i],但是其得到的CPU利用率为CPUgetrate[i],内存利用率为memorygetrate[i],磁盘空间请求率为disk getrate[i],网络读带宽为IOgetreadrate[i],网络写带宽为IOgetwriterate[i];应用j的CPU请求率为CPUrequestrate[j],内存请求率为memoryrequestrate[j],磁盘空间请求率为diskrequestrate[j],其网络读带宽为IOreadrate[j],网络写带宽为IOwriterate[j],但是其得到的CPU利用率为CPUgetrate[j],内存利用率为memorygetrate[j],磁盘空间请求率为diskgetrate[j],网络读带宽为IOgetreadrate[j],网络写带宽为IOgetwriterate[j],应用的运行性能由以下公式表示;
Figure FDA0003646827430000051
Figure FDA0003646827430000052
Figure FDA0003646827430000053
Figure FDA0003646827430000054
设当应用i和j互相干扰对方运行时,
Figure FDA0003646827430000055
Figure FDA0003646827430000056
满足条件:
CPUgetrate[i]+CPUgetrate[j]<CPU[N] (11)
memorygetrate[i]+memorygetrate[j]<M[N] (12)
diskgetrate[i]+diskgetrate[j]<D[N] (13)
IOgetreadrate[i]+IOgetreadrate[j]<IOr[N] (14)
IOgetwriterate[i]+IOgetwriterate[j]<IOw[N] (16)
其中,ER[i]和ER[j]是错误率,分别是应用i和j运行日志中出现的错误和异常占应用运行总日志数的比例,ρij介于0和1之间。
3.如权利要求1所述的容器云存储***的灰色故障检测方法,其特征在于,所述步骤(3)中的关联模型RMAIG的具体建模过程为:
首先为模型设立应用情境感知机制,对集群中应用的性能数据进行监控,基于应用之间的关联关系约束条件来进行初步情境感知判断和处理,感知机制监控每个节点的异构数据,在检测到灰色故障之后,将通过感知机制收集到的时间和空间数据、应用性能数据进行衡量关联关系的主要度量提取,求出故障与干扰情境的关联关系度,更新关联模型。
4.如权利要求1所述的容器云存储***的灰色故障检测方法,其特征在于,所述步骤(4)具体为基于RMAIG模型的灰色故障检测策略使用LSTM和BLSTM结合的方法来进行深度学习训练,包括:
设xi是发生灰色故障的时刻所有时间数据的输入向量,对{x1,x2,...,xn}序列数据使用BLSTM,根据RMAIG模型创建一个候选关联状态Ct
Ct=tanh(WC*[θt-1,xt-1]+bc) (22)
其中,Wc为此时C状态向量的权重,θt-1是过去一个时刻内的关联模型,bc为C状态向量的偏差;
在数据中增加一行θt
Figure FDA0003646827430000061
其中,Et为当前时刻的关键度量集;
最后,通过sigmoid层,即函数
Figure FDA0003646827430000062
来输出新的RMAIG模型向量的哪些部分,LSTM层的输入数据是此时刻产生新序列v1,v2,...,vn,其被馈送到聚集层,通过集成前向和后向层的输出来更新输出层,得到新的RMAIG模型。
CN202110101191.0A 2021-01-26 2021-01-26 一种容器云存储***的灰色故障检测方法 Active CN112764994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110101191.0A CN112764994B (zh) 2021-01-26 2021-01-26 一种容器云存储***的灰色故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110101191.0A CN112764994B (zh) 2021-01-26 2021-01-26 一种容器云存储***的灰色故障检测方法

Publications (2)

Publication Number Publication Date
CN112764994A CN112764994A (zh) 2021-05-07
CN112764994B true CN112764994B (zh) 2022-08-30

Family

ID=75707381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110101191.0A Active CN112764994B (zh) 2021-01-26 2021-01-26 一种容器云存储***的灰色故障检测方法

Country Status (1)

Country Link
CN (1) CN112764994B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生***的多层次的深度学习日志故障检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404409B (zh) * 2017-09-01 2020-01-31 广西大学 面向突变负载的容器云弹性供给容器数量预测方法与***
US11023353B2 (en) * 2018-08-24 2021-06-01 Vmware, Inc. Processes and systems for forecasting metric data and anomaly detection in a distributed computing system
US11823014B2 (en) * 2018-11-21 2023-11-21 Sap Se Machine learning based database anomaly prediction
CN111126824B (zh) * 2019-12-19 2023-11-21 ***通信集团江苏有限公司 多指标关联模型训练方法及多指标异常分析方法
CN111552609B (zh) * 2020-04-12 2022-03-11 西安电子科技大学 一种异常状态检测方法、***、存储介质、程序、服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生***的多层次的深度学习日志故障检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于车辆行为分析的智能车联网关键技术研究;张海霞等;《电子与信息学报》;20200115(第01期);41-54 *

Also Published As

Publication number Publication date
CN112764994A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
Chen et al. Outage prediction and diagnosis for cloud service systems
Meng et al. Localizing failure root causes in a microservice through causality inference
CN103986625B (zh) 一种基于统计监测的云应用故障诊断***
US10318366B2 (en) System and method for relationship based root cause recommendation
CN108306756B (zh) 一种基于电力数据网全息评估***及其故障定位方法
JP5380528B2 (ja) 大規模装置内での問題の決定のための警報の重要性のランク付け
US8593946B2 (en) Congestion control using application slowdown
WO2017167686A1 (en) A method and system for scaling resources, and a computer program product
Chen et al. Semisupervised anomaly detection of multivariate time series based on a variational autoencoder
US8180716B2 (en) Method and device for forecasting computational needs of an application
CN111027591B (zh) 一种面向大规模集群***的节点故障预测方法
Ma et al. An empirical investigation of missing data handling in cloud node failure prediction
Sharma et al. Big data reliability: A critical review
CN112764994B (zh) 一种容器云存储***的灰色故障检测方法
CN113162793A (zh) 一种环境感知的用于网络测量的节点重要性度量方法
Cafaro et al. Parallel mining of time-faded heavy hitters
US10936657B2 (en) Affinity determination using graphs
CN113572639A (zh) 一种载波网络故障的诊断方法、***、设备和介质
CN113076232A (zh) 一种健康数据指标的异常检测方法及***
Leelipushpam et al. Fault tree analysis based virtual machine migration for fault-tolerant cloud data center
CN110322136B (zh) 一种发布/订阅分布式***健康度评价方法
Alkasem et al. AFDI: a virtualization-based accelerated fault diagnosis innovation for high availability computing
Glaub Modeling interferences of CEP operators on limited resources
Shi et al. Carrier network fault diagnosis algorithm based on service characteristics
CN114595000B (zh) 一种面向边缘智能的高弹性多节点协同模型卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant