CN112698975A - 一种微服务架构信息***的故障根因定位方法及*** - Google Patents

一种微服务架构信息***的故障根因定位方法及*** Download PDF

Info

Publication number
CN112698975A
CN112698975A CN202011468424.2A CN202011468424A CN112698975A CN 112698975 A CN112698975 A CN 112698975A CN 202011468424 A CN202011468424 A CN 202011468424A CN 112698975 A CN112698975 A CN 112698975A
Authority
CN
China
Prior art keywords
micro
service
fault
abnormal
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011468424.2A
Other languages
English (en)
Other versions
CN112698975B (zh
Inventor
王平
潘宜城
马萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202011468424.2A priority Critical patent/CN112698975B/zh
Publication of CN112698975A publication Critical patent/CN112698975A/zh
Application granted granted Critical
Publication of CN112698975B publication Critical patent/CN112698975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公布了一种微服务架构信息***的故障根因定位方法及***,包括:指标数据收集模块、异常检测模块、微服务依赖图构建模块、反向追踪模块;通过建立微服务之间的动态关联分析方法,设计基于故障传播链模型的根因定位算法,在定位故障根因服务的同时识别相关故障的传播过程,提高故障定位与诊断的可解释性,可用于微服务架构信息***中,提高对微服务架构信息***中动态关联建模的准确度,并且以微服务性能指标数据驱动的方法提高了微服务架构信息***故障诊断工具使用的简便性,节省部署的时间和精力。

Description

一种微服务架构信息***的故障根因定位方法及***
技术领域
本发明属于信息技术领域,涉及信息***的故障诊断技术,尤其涉及一种微服务架构信息***的故障根因定位方法及***。
背景技术
现有的微服务架构信息***的故障诊断主要采用了构建微服务的依赖图的方法,相关工作包括:ADD[1]、Orion[2]、MonitorRank[3]、Sieve[4]、Microscope[5]、CloudRanger[6]。其中,Orion[2]通过分析服务之间的网络流量延迟分布构造关联关系,诊断***的服务和实例的故障。MonitorRank[3]、Sieve[4]均采用了服务调用记录和性能指标数据,前者使用了相关系数和二阶随机游走诊断服务故障,后者则使用Granger因果检验[7]分析方法。ADD[1]使用主动扰动和回归分析的方法分析服务关联关系,Microscope[5]则分析了网络流量数据,并用PC算法[8]构造关联关系,使用深度搜索进行故障诊断。CloudRanger[6]同样通过PC算法[8]在服务的性能指标数据中提取关联关系,并采用二阶随机游走定位故障根因。
现存的技术都采用了依赖图方法,只能产生静态的服务依赖关系。而现代的微服务架构信息***往往使用了包括负载均衡、自动缩放等技术,服务之间的依赖关系处于动态变化之中,故障传播过程也体现了这一动态性。现有方法基于的静态服务依赖的假设没有考虑服务依赖的动态性,因而无法检测故障在现代的微服务***中的动态传播过程。同时,现有的微服务故障根因定位算法只能定位故障根因服务,而无法发现故障在微服务***中的具体传播过程,可解释性方面存在不足。
参考文献:
[1]Brown,G.Kar,and A.Keller,"An active approach to characterizingdynamic dependencies for problem determination in a distributed environment,"in 2001IEEE/IFIP International Symposium on Integrated Network ManagementProceedings.Integrated Network Management VII.Integrated ManagementStrategies for the New Millennium(Cat.No.01EX470),2001,pp.377-390:IEEE.
[2]X.Chen,M.Zhang,Z.M.Mao,and P.Bahl,"Automating Network ApplicationDependency Discovery:Experiences,Limitations,and New Solutions,"in OSDI,2008,vol.8,pp.117-130.
[3]M.Kim,R.Sumbaly,and S.Shah,"Root cause detection in a service-oriented architecture,"ACM SIGMETRICS Performance Evaluation Review,vol.41,no.1,pp.93-104,2013.
[4]J.Thalheim,A.Rodrigues,I.E.Akkus,P.Bhatotia,R.Chen,B.Viswanath,L.Jiao,C.Fetzer,"Sieve:actionable insights from monitored metrics indistributed systems,"in Proceedings of the 18th ACM/IFIP/USENIX MiddlewareConference,2017:ACM,pp.14-27.
[5]J.Lin,P.Chen,and Z.Zheng,"Microscope:Pinpoint Performance Issueswith Causal Graphs in Micro-service Environments,"in International Conferenceon Service-Oriented Computing,2018:pp.3-20.
[6]Wang,Ping,et al."Cloudranger:Root cause identification for cloudnative systems."2018 18th IEEE/ACM International Symposium on Cluster,Cloudand Grid Computing(CCGRID).IEEE,2018.
[7]C.W.Granger,“Investigating causal relations by econometric modelsand cross-spectral methods,”Econometrica:Journal of the Econometric Society,pp.424–438,1969.
[8]P.Spirtes,C.N.Glymour,and R.Scheines,“Causation,prediction,andsearch”,MIT press,2000.
发明内容
为了克服上述现有技术的不足,本发明提供一种微服务架构信息***的故障根因定位方法及***。方法通过采用新的建模方法,建立微服务之间的动态关联分析方法,克服了现有的微服务架构信息***故障诊断技术中服务依赖关系只能为静态的问题;设计基于故障传播链模型的根因定位算法,在定位故障根因服务的同时提供相关故障的具体的传播过程,提高了故障诊断的可解释性。
本发明的方法可在采用微服务架构的信息***中运作。该***将由一个或多个Linux服务器组成,通过路由器连接在一个网络中,并使用Docker Swarm集群共同管理。其中,本发明将通过Docker部署不同的微服务。部署的微服务是基于Java,Python或Go等各种语言实现的HTTP服务,可以以HTTP的方式访问。并且微服务之间采用HTTP API或消息队列的方式进行通信。该信息***具备指标收集的工具,能够获取各个微服务的性能指标,例如请求延迟等。这些性能指标数据将输入到本发明的方法中进行故障根因定位,找到导致前端微服务异常的根因微服务,进一步可利用微服务的部署信息定位该微服务运行的主机,通过检查主机的状态(CPU占用率,内存占用率,磁盘读写情况)判断导致该微服务异常的原因是否是硬件层面的故障。
针对目前微服务架构信息***故障诊断中服务依赖关系只能为静态的问题,本发明提供了一种基于Granger因果检验和滑动窗口的动态微服务关联分析方法,从微服务的指标数据中挖掘服务之间的动态依赖关系,并设计了基于故障传播链的微服务故障根因定位算法,检测微服务架构信息***故障的根因,并生成解释性的故障传播链。
为方便起见,在本发明内容的描述中使用如下术语定义:
表1术语定义
Figure BDA0002833848170000031
Granger因果检验是一种检测两个时间序列是否存在因果关联的概率方法,下面以通过实例展示其计算过程。假设在采集数据的异常区间内,给定微服务节点集合V中的两个节点vx,vy,分别收集到的指标序列记为X,Y。构造两个线性回归模型Mself,Mfull
Figure BDA0002833848170000041
Figure BDA0002833848170000042
其中Mself的自变量是Yt-1,…,Yt-lag,因变量为Yt,其中Mfull的自变量是Yt-1,…,Yt-lag,Xt-1,…,Xt-lag,因变量为Yt。两个模型的差别就在于是否加入了微服务节点vx的指标序列X作为回归模型的自变量。通过在指标序列X,Y上对两个模型进行最小二乘法拟合后,计算拟合之后的模型的平方和误差
Figure BDA0002833848170000043
记为SSEself,SSEfull。如果时间序列X,Y之间没有因果关联,可以从统计上证明:
Figure BDA0002833848170000044
将会服从一个参数为(dfull-dself,T-dfull-1)的F分布。因此可以依据F分布对它们作假设检验,判断关联关系。这里零假设为没有因果关联,记通过F分布计算出来其成立的概率为p,那么当p小于显著性水平α的时候,可以认为零假设不成立,即微服务vx,vy之间存在关联关系vx→vy,即故障从vx传播至vy,否则vx,vy之间不存在故障关联关系。
考虑到微服务关联关系的动态性,本发明将上述的Granger因果检验扩展为滑动窗口上的多轮检验,对动态的关联关系进行建模。
本发明的技术方案如下:
一种微服务架构信息***的故障根因定位方法,通过建立微服务之间的动态关联分析方法,设计基于故障传播链模型的根因定位算法,在定位故障根因服务的同时识别相关故障的传播过程,提高故障定位与诊断的可解释性,可用于微服务架构信息***中。
具体实施时,本发明将运用在一个微服务架构信息***,该***将由一个或多个Linux服务器组成,通过路由器连接在一个网络中,并使用Docker Swarm集群共同管理。在该***中部署并运行了微服务后,本发明的异常区间检测算法将实时检测微服务的状态。当发现微服务出现故障时,本发明将使用日志分析工具或者Prometheus收集微服务性能指标数据,并发送至运行故障根因定位算法的服务器。该算法首先以Granger因果检验和滑动窗口为基础构造微服务架构信息***的服务依赖图,然后通过反向追踪还原可能的故障传播链,最后定位微服务架构信息***的故障根因,并输出到终端上供运维人员查看。
微服务架构信息***的故障根因定位方法包括如下步骤:
A.微服务架构信息***的微服务性能指标数据收集,性能指标数据包括请求延迟时间序列数据。
实现方法包括两种,一种为日志提取方法。微服务在运行时,会将请求日志发送给Docker管理进程保存。本发明使用脚本提取每个请求的延迟信息,对1秒内的请求延迟进行平均,得到每个微服务每秒的请求延迟时间序列数据。另一种是采用Prometheus工具。本发明在微服务***中部署了Prometheus收集工具,按固定采样间隔收集所有的微服务的性能指标。之后本发明通过Prometheus的接口导出这些指标数据用于故障分析。为了方便后面的计算,本发明对输出的微服务请求延迟时间序列进行了归一化处理。
B.微服务的异常区间检测,识别微服务架构信息***是否出现异常。
异常区间检测采用了基于标准差的方法,通过对每个微服务的异常程度进行衡量并加权求和,即可获得微服务架构信息***整体的异常(程度)区间,当异常区间超过一定值(设定阈值)时,即判断***出现异常。为了方便分析,记收集到的微服务指标数据为时间序列Mi(t),通过如下步骤检测得到微服务的异常区间,如图1所示:
B1.计算每个微服务指标在滑动窗口Lw内的移动标准差σi(t),表示该微服务的异常程度。
B2.对所有微服务按照重要性水平λi进行加权,计算***整体在时刻t的异常水平:
Figure BDA0002833848170000051
其中,Sab(t)为***的异常水平,σi(t)表示微服务vi的异常水平,λi为微服务vi的重要性水平。
B3.当***整体的异常水平Sab(t)超过一个给定的阈值θab·N(θab为异常区间检测的阈值,N为微服务数量)时,判断此刻微服务***为异常状态,需要进行故障诊断。其中重要性水平λi和θab为可根据需求设置的参数,λi取值范围为[0,+∞],θab取值范围为(0,1]。计算所有异常状态时间点中异常水平最高的时刻,记为te,则异常区间为性能指标数据的时间区间[te-Lpre:te+Lpost],其中Lpre,Lpost表示区间大小,取值范围为不超过所有可用数据的范围,该区间的数据用于后续的算法,记为微服务vi的异常区间数据
Figure BDA0002833848170000052
C.微服务架构信息***的微服务依赖图构建。包括如下步骤,如图2所示:
C1.进行时序动态关联分析,得到微服务之间的动态关联关系。
首先分析每对微服务之间的动态关联关系。假设分析目标为微服务关系边vi→vj,在步骤B3中得到的异常区间数据
Figure BDA0002833848170000061
上(时间长度为T),按照最小步长Lb枚举所有的可能的子区间,记为滑动窗口[sb,eb],b=1,…nwin,然后初始化一个长度为T值为0的向量Cij表示vi→vj的动态关联曲线。针对每个滑动窗口[sb,eb],进行Granger因果检验,如果检验得到的零假设概率p小于显著性水平α,则认为在该滑动窗口上微服务vi→vj的关联关系存在,并将动态关联曲线Cij在该滑动窗口区间上的值(Cij[sb:eb])增加1,否则不做任何计算。当对所有成对的微服务、所有的滑动窗口处理完毕之后,向量Cij则表示这些微服务之间的动态关联曲线,并进行下一步的分析。
C2.设置自适应阈值,判断微服务之间是否存在故障关联,生成微服务***的微服务依赖图。
得到微服务之间的动态关联关系之后,为了获得微服务之间是否存在故障关联的定性的描述,本发明采取了阈值化的方法生成具体的关联边。对于微服务vi,为了判断它与其他所有微服务之间是否存在关联关系,本发明通过统计来自微服务vi的所有动态关联曲线Cij,j=1,…,N,其中N为微服务数量,并用长度为N的向量h记录这些统计值,即:
hj=∑tCij(t)
其中Cij(t)为微服务vi到vj的动态关联曲线。然后计算针对微服务vi的自适应阈值τi=θe·max(h)。对于每条边vi→vj,j=1,…,N,如果hj≥τi,则认为这条边上的关联强度足够大,将该边添加到最终生成的微服务依赖图G(V,E,W)中,其中边权重Wij设置为hji
D.采用反向追踪根因分析方法,得到导致前端微服务异常的根因,由此找出故障根因微服务。
在获得了微服务架构信息***的微服务依赖图之后,本发明采用一种反向追踪的根因分析算法,对每个微服务进行异常程度的评分,设置异常评分阈值,并认为异常程度评分高于阈值的微服务是导致前端微服务vfe异常的根因。微服务异常程度的评分包括路径关联强度和相关系数关联强度,按照如下方法计算:
D1.路径关联强度。路径关联强度衡量了该微服务通过微服务***的依赖拓扑导致前端微服务故障的可能性,因此本发明使用从故障的前端微服务vfe反向追踪的算法,具体步骤如下:
步骤1:以故障的前端微服务vfe为终点,在微服务架构***的微服务依赖图G(V,E,W)(V为微服务节点集合,E为微服务之间的关联边集合,W为微服务之间的关联边的权重)进行反向的广度优先搜索,得到一系列可能表示故障在微服务***中传播过程的路径,即故障传播链Pi。为了避免搜索空间***和循环搜索,本发明限制每个服务在每个路径中最多出现1次,同时限制生成的故障传播链的数量在10000以内,或者采用其他用户选择的值。
步骤2:估计每个故障传播链存在概率。例如故障传播链Pi={i1→…→in},本发明使用调和均值平均该故障传播链上的边的权值,即:
Figure BDA0002833848170000071
其中,
Figure BDA0002833848170000072
为该故障传播链上边
Figure BDA0002833848170000073
的权重,n为该故障传播链的长度。
步骤3:将所有故障传播链{Pi}按照存在概率从大到小排序,并选择排序后的前k个故障传播链Pr1,Pr2,…,Prk,统计其中的nlead个前导微服务,计算每个前导微服务的出现次数,并除以knlead,作为该前导微服务的路径关联强度Spath(vi)。
D2.相关系数关联强度。该关联强度通过计算每个微服务与故障的前端微服务vfe的绝对相关系数获得,即:
Figure BDA0002833848170000074
其中
Figure BDA0002833848170000075
表示微服务vi的异常区间指标数据,
Figure BDA0002833848170000076
表示前端微服务vfe的异常区间指标数据。
D3.计算微服务异常程度评分。每个微服务的异常程度评分通过平均路径关联强度和相关系数关联强度得到,即cpathSpath(vi)+ccorrScorr(vi)。最后本发明根据微服务的异常程度评分对微服务从大到小进行排序,生成的微服务列表vγ1,vγ2,…,vγN即为候选故障根因服务,由此实现故障根因定位。候选故障根因服务和生成的故障传播链可用于辅助故障诊断。进一步可利用微服务的部署信息,定位该故障根因微服务运行的主机,通过检查主机的状态(CPU占用率,内存占用率,磁盘读写情况)可以判断是否是硬件层面的故障导致该微服务的异常。
根据与该故障根因微服务关联的故障传播链,可以更加准确地判断该微服务架构信息***的问题。若故障传播链上的微服务都部署于一台主机上,或者部署在一个网络中,则故障可能是该主机的硬件问题或者是网络设备(交换机、路由器)的问题,从而运维人员可以检查这些硬件设备。
本发明还提供一种微服务架构信息***的故障根因定位***,包含如下模块:指标数据收集模块、异常检测模块、微服务依赖图构建模块、反向追踪模块。***架构如图3所示,各模块功能如下:
指标数据收集模块:指标数据收集模块对接需要进行故障诊断的微服务架构信息***,通过分析微服务调用日志或者采用Prometheus监控工具,获取每个微服务的请求延迟指标,并形成对应的时间序列数据,供后续分析使用。
异常检测模块:异常检测模块分析微服务的请求延迟指标数据,检测微服务架构信息***是否处于异常状态。当检测到微服务架构***处于异常状态时,该模块将会收集体现异常的微服务指标数据并形成异常区间数据,提供给后续模块进行进一步的故障分析。
微服务依赖图构建模块:该模块在微服务架构信息***出现异常时开始分析,通过对逐对微服务进行动态关联分析,构造微服务架构信息***在故障发生时的微服务依赖图,还原故障可能的传播模式,供后续模块进行细粒度的故障根因定位和故障链提取。
反向追踪模块:反向追踪模块在微服务架构信息***出现异常时开始分析,在生成的微服务依赖图上,以异常前端微服务为入口进行反向路径搜索,并估计每个路径的概率,形成高可能性的故障传播链,并结合微服务的指标数据相关系数估计微服务的根因概率,产生最后的故障根因列表。
与现有技术相比,本发明的有益效果是:
本发明提供一种微服务架构信息***的故障根因定位方法及***,通过建立动态关联分析方法,提高了对微服务架构信息***中动态关联建模的准确度,并且以微服务性能指标数据驱动的方法提高了微服务架构信息***故障诊断工具使用的简便性,节省了部署的时间和精力,故障诊断生成的故障传播链提高了微服务架构信息***故障诊断的可解释性,提升微服务架构信息***故障诊断的准确性。
附图说明
图1是本发明中的异常区间检测算法的流程示意图;
其中σi表示微服务vi的移动标准差,λi为其重要性权重,N为微服务架构信息***的微服务数量,θab为异常区间检测的阈值参数。
图2是本发明中的微服务依赖图构建的流程示意图。
图3是本发明的故障根因定位***示意图。
图4是本发明具体实施例中归一化之后的4个微服务请求延迟数据。
图5是本发明具体实施例中的***异常程度分数图;
其中,Lpre,Lpost共同表示了异常区间的大小,N为该实施例中的微服务数量,θab为异常区间检测算法的阈值参数。
图6是本发明具体实施例中的微服务架构信息***依赖图,其中带编号的圆为微服务。
图7是本发明具体实施例中的一条故障传播链及其动态关联曲线,这里编号i和API No.i均表示微服务vi,并且动态关联曲线的数值进行了归一化。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种微服务架构信息***的故障根因定位方法及***,通过建立微服务之间的动态关联分析方法,设计基于故障传播链模型的根因定位算法,在定位故障根因服务的同时识别相关故障的传播过程,提高故障定位与诊断的可解释性,可用于微服务架构信息***中。
具体实施时,本发明将运用在一个微服务架构信息***,该***将由一个或多个Linux服务器组成,通过路由器连接在一个网络中,并使用Docker Swarm集群共同管理。在实施时,我们将一个包含多个微服务的分布式软件部署在该微服务架构信息***中,并收集微服务的请求日志数据。本发明建立基于Granger因果检验和滑动窗口的动态微服务关联分析方法,从微服务的指标数据中挖掘微服务之间的动态依赖关系,通过基于故障传播链的微服务故障根因定位算法检测微服务架构信息***故障的根因,并生成解释性的故障传播链。
包括如下步骤:
A.获取微服务架构信息***的微服务性能指标数据;性能指标数据包括请求延迟时间序列数据;在本实施例中采取了从微服务请求日志数据中提取性能指标数据的方法。
B.检测得到微服务异常区间数据,识别微服务架构信息***是否出现异常;微服务vi的异常区间记为
Figure BDA0002833848170000091
C.构建微服务架构信息***的微服务依赖图;包括如下步骤:
C1.分析时序动态关联,得到微服务之间的动态关联关系;
vi、vj为两个微服务;对于微服务关系边vi→vj,将得到的异常区间数据
Figure BDA0002833848170000101
上,时间长度为T,按照最小步长Lb枚举所有的可能的子区间,记为滑动窗口[sb,eb],i=1,…nwin;初始化一个长度为T值为0的向量Cij,表示vi→vj的动态关联曲线;
针对每个滑动窗口[si,ei],进行Granger因果检验,如果检验得到的零假设概率p小于显著性水平α,则在该滑动窗口上微服务vi→vj的关联关系存在,并将动态关联曲线Cij在该滑动窗口区间上的值(Cij[si:ei])增加1,否则不做任何计算;
当对所有成对的微服务、所有的滑动窗口处理完毕之后,得到的向量Cij表示微服务之间的动态关联曲线;
C2.设置自适应阈值,用于判断微服务之间是否存在故障关联,生成微服务***的微服务依赖图;包括:
C21.计算自适应阈值;
对于微服务vi,通过统计来自微服务vi的所有动态关联曲线Cij,j=1,…,N,其中N为微服务数量,并用长度为N的向量h记录统计值,其第j个分量计算为:
Figure BDA0002833848170000102
其中,Cij(t)为微服务vi到vj的动态关联曲线;
然后计算微服务vi自适应阈值τi=θe·max(h);
C22.采取阈值化的方法生成微服务之间的关联边,生成微服务依赖图;
对于每条边vi→vj,j=1,…,N,如果hj≥τi,则边的关联强度足够大,将该边添加到最终生成的微服务依赖图G(V,E,W)中,其中,V为微服务节点集合,E为微服务之间的关联边集合,W为微服务之间的关联边的权重,其中Wij设置为hji
D.采用反向追踪根因分析方法,得到导致前端微服务异常的根因,找出故障根因服务;
采用反向追踪根因分析算法,对每个微服务进行异常程度的评分,包括路径关联强度和相关系数关联强度;设置异常评分阈值,并认为异常程度评分高于阈值的微服务是导致前端微服务vfe异常的根因;微服务异常程度的评分具体按照如下方法进行计算:
D1.使用从故障的前端微服务vfe反向追踪的算法计算路径关联强度;
路径关联强度用于衡量该微服务通过微服务***的依赖拓扑导致前端微服务故障的可能性;具体计算包括如下步骤:
步骤1:以故障的前端微服务vfe为终点,在微服务架构***的微服务依赖图G(V,E,W)进行反向的广度优先搜索,得到一系列可能表示故障在微服务***中传播过程的路径,即故障传播链Pi,Pi={i1→…→in};
步骤2:估计每个故障传播链的存在概率;
存在概率指的是故障采用这条故障传播链的概率。因为真实的故障具体采用哪种方式并不能准确获得,所以通过估计,能够近似地知道故障如何传播。同理,服务依赖图的边的权重是表示故障在这个边上传播的概率,即一个微服务的故障有一定的概率会影响与其相邻的微服务。本发明使用调和均值来平均一个故障传播链上所有边的权值,从而得到整体概率的估计。
使用调和均值平均故障传播链Pi上的边的权值,表示为:
Figure BDA0002833848170000111
其中,
Figure BDA0002833848170000112
为该故障传播链上边
Figure BDA0002833848170000113
的权重,n为该故障传播链的长度;
步骤3:将所有故障传播链{Pi}按照存在概率从大到小排序,并选择排序后的前k个故障传播链Pr1,Pr2,…,Prk,统计其中的nlead个前导微服务,计算每个前导微服务的出现次数,并除以knlead,作为该前导微服务的路径关联强度,记为Spath(vi);
D2.计算相关系数关联强度;
相关系数关联强度通过计算每个微服务与故障的前端微服务vfe的绝对相关系数获得,即:
Figure BDA0002833848170000114
其中,
Figure BDA0002833848170000115
表示微服务vi的异常区间指标数据,
Figure BDA0002833848170000116
表示前端微服务vfe的异常区间指标数据;
D3.计算微服务异常程度评分:将平均路径关联强度和相关系数关联强度进行相加得到,即cpathSpath(vi)+ccorrScorr(vi);
再根据微服务的异常程度评分对微服务从大到小进行排序,生成的微服务列表vγ1,vγ2,…,vγN即为候选故障根因服务,由此实现故障根因定位。
本发明实现了一种微服务架构信息***的故障根因定位方法的***,包括如下模块:指标数据收集模块、异常检测模块、微服务依赖图构建模块、反向追踪模块;其中:指标数据收集模块用于对接需要进行故障诊断的微服务架构信息***,获取每个微服务的请求延迟指标,并形成对应的时间序列数据;异常检测模块用于分析微服务的请求延迟指标数据,检测微服务架构信息***是否处于异常状态;当检测到微服务架构***处于异常状态时,收集体现异常的微服务指标数据并形成异常区间数据,提供给后续模块进行进一步的故障分析;微服务依赖图构建模块用于微服务架构信息***出现异常时进行分析,通过对逐对微服务进行动态关联分析,构造微服务架构信息***在故障发生时的微服务依赖图,还原故障可能的传播模式,供后续模块进行细粒度的故障根因定位和故障链提取;反向追踪模块用于针对生成的微服务依赖图进行分析,以异常前端微服务为入口进行反向路径搜索,并估计每个路径的概率,形成高可能性的故障传播链,并结合微服务的指标数据相关系数估计微服务的根因概率,产生最后的故障根因列表。
下面展示本发明在一个包含33个微服务的商业微服务***上的故障诊断的过程。
根据步骤A,本发明利用请求日志数据获得了该微服务***上每个微服务的请求延迟信息,总共收集了长度为7199秒的数据,图4展示了归一化之后的其中4个微服务的请求延迟数据。
根据步骤B,本发明计算单个微服务的异常程度和***整体的异常程度,这里参数Lw为50秒,λi取1.0,θab取0.3。图5展示了该微服务***在整体的7199秒的异常程度,经过计算,最终选择了4653作为微服务***的异常区间的时间点,并且根据Lpre,Lpost分别设为0,280输出故障区间[4653,4933]。
根据步骤C,本发明在步骤B所产生的故障区间的数据上进行基于滑动窗口的动态关联分析,并最终生成该微服务***的关联图。在本例子中,参数Lb为70,α为0.1,θe为0.5,图6展示该微服务***的依赖图。
根据步骤D,本发明将会依据微服务***依赖图进行反向路径追踪,生成一系列的候选故障传播链,并最终给出故障根因的服务列表。在限制搜索故障传播链数量为10000,参数k为50,nlead为3,cpath,ccorr为1.0的情况下,本样例给出的排名前10故障传播链以及对应的概率如表2所示。最后得到的故障根因服务列表以及对应的异常程度评分如表3所示。
故障传播链 估计存在概率
[14,21,5,17,27] 0.3976
[14,21,5,17,16,20,11,29,2,12,7] 0.3645
[14,21,5,17,16,20,25,29,2,12,7] 0.3645
[14,21,5,17,16,20,25,6,31,30,33] 0.3619
[14,21,5,17,16,20,11,6,31,30,12] 0.3619
[14,21,5,17,16,20,11,6,31,30,33] 0.3619
[14,21,5,17,16,20,25,6,31,30,12] 0.3619
[14,21,5,17,16,20,11,6,30,12,7] 0.3568
[14,21,5,17,16,20,25,6,30,12,7] 0.3568
[14,21,5,17,28,30,12,7,19,29,2] 0.3551
表2示例***中的故障传播链
故障服务 异常程度评分
30 0.5618049
31 0.5271997
6 0.4575075
28 0.4018228
33 0.3257960
12 0.3107594
7 0.2501501
29 0.2021703
19 0.1946196
3 0.1944521
27 0.1828436
17 0.0949014
5 0.0850567
2 0.0765803
表3示例***中的故障根因服务结果列表
为了展示本发明提出的动态关联曲线描述故障传播的能力,图7展示了一条故障传播链上的动态关联曲线。伴随着故障在微服务架构信息***中的传播过程(v27→v22→v21→v14),可以看到动态关联曲线也体现了故障在时间维度上逐渐移动的趋势。
利用微服务的部署信息,可进一步定位该故障根因微服务运行的主机,通过检查主机的状态(CPU占用率,内存占用率,磁盘读写情况)可以判断是否是硬件层面的故障导致该微服务的异常。若微服务运行的硬件没有问题,则进一步***署该微服务的容器管理平台Docker Swarm的参数,确定是否有使其故障的错误配置。若前两者均没有问题,则认为故障出现在该微服务的软件代码中,需要进一步对软件代码进行分析。结合与该故障根因微服务关联的故障传播链可以更加准确地判断该微服务架构信息***的问题。若故障传播链上的微服务都部署于一台主机上,或者部署在一个网络中,则故障可能是该主机的硬件问题或者是网络设备(交换机、路由器)的问题。运维人员从而可以检查这些硬件设备。
经过和该微服务***的企业运维人员进行验证,本发明最终在该***的故障根因诊断上达到了100%的准确度,即实际上的4个故障根因服务均在给出的故障服务结果列表的前4个中。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种微服务架构信息***的故障根因定位方法,通过建立微服务之间的动态关联分析方法,设计基于故障传播链模型的根因定位算法,在定位故障根因服务的同时识别相关故障的传播过程,生成故障传播链,提高故障定位与诊断的可解释性,可用于微服务架构信息***中;包括如下步骤:
A.获取微服务架构信息***的微服务性能指标数据;性能指标数据包括请求延迟时间序列数据;
B.检测得到微服务异常区间数据,识别微服务架构信息***是否出现异常;微服务vi的异常区间数据记为
Figure FDA0002833848160000011
C.构建微服务架构信息***的微服务依赖图;包括如下步骤:
C1.分析时序动态关联,得到微服务之间的动态关联关系;
vi、vj为两个微服务;对于微服务关系边vi→vj,将得到的异常区间数据
Figure FDA0002833848160000012
上,时间长度为T,按照最小步长Lb枚举所有的可能的子区间,记为滑动窗口[sb,eb],b=1,…nwin,其中sb,eb分别为滑动窗口的起始点和结束点,nwin为枚举的滑动窗口总数;初始化一个长度为T值为0的向量Cij,表示vi→vj的动态关联曲线;
针对每个滑动窗口[sb,eb],进行Granger因果检验,如果检验得到的零假设概率p小于显著性水平α,则在该滑动窗口上微服务vi→vj的关联关系存在,并将动态关联曲线Cij在该滑动窗口区间上的值(Cij[sb:eb])增加1,否则不做任何计算;
当对所有成对的微服务、所有的滑动窗口处理完毕之后,得到的向量Cij表示微服务之间的动态关联曲线;
C2.设置自适应阈值,用于判断微服务之间是否存在故障关联,生成微服务***的微服务依赖图;
C21.采取阈值化的方法生成微服务之间的关联边;
对于微服务vi,通过统计来自微服务vi的所有动态关联曲线Cij,j=1,…,N,N为微服务的数量,并用长度为N的向量h记录统计值,表示为:
hj=∑tCij(t)
其中,Cij(t)为微服务vi到vj的动态关联曲线;
C22.计算针对微服务vi的自适应阈值τi=θe·max(h),判断边的关联强度,生成微服务依赖图G;
对于每条边vi→vj,j=1,…,N,如果hj≥τi,则边的关联强度足够大,将该边添加到最终生成的微服务依赖图G(V,E,W)中,其中,V为微服务节点集合,E为微服务之间的关联边集合,W为微服务之间的关联边的权重,Wij设置为hji
D.采用反向追踪根因分析方法,得到导致前端微服务异常的根因,找出故障根因服务;
采用反向追踪根因分析算法,对每个微服务进行异常程度的评分,包括路径关联强度和相关系数关联强度;设置异常评分阈值,并认为异常程度评分高于阈值的微服务是导致前端微服务vfe异常的根因;微服务异常程度的评分具体按照如下方法进行计算:
D1.使用从故障的前端微服务vfe反向追踪的算法计算路径关联强度;
路径关联强度用于衡量该微服务通过微服务***的依赖拓扑导致前端微服务故障的可能性;具体计算包括如下步骤:
步骤1:以故障的前端微服务vfe为终点,在微服务架构***的微服务依赖图G(V,E,W)进行反向的广度优先搜索,得到一系列可能表示故障在微服务***中传播过程的路径,即故障传播链Pi,Pi={i1→…→in};
步骤2:估计每个故障传播链的存在概率;
使用调和均值平均故障传播链Pi上的边的权值,表示为:
Figure FDA0002833848160000021
其中,
Figure FDA0002833848160000022
为该故障传播链上边
Figure FDA0002833848160000023
的权重,n为该故障传播链的长度;
步骤3:将所有故障传播链{Pi}按照存在概率从大到小排序,并选择排序后的前k个故障传播链Pr1,Pr2,…,Prk,其中Prk为第rk个故障传播链,统计其中的nlead个前导微服务,计算每个前导微服务的出现次数,并除以knlead,作为该前导微服务的路径关联强度,记为Spath(vi);
D2.计算相关系数关联强度;
相关系数关联强度通过计算每个微服务与故障的前端微服务vfe的绝对相关系数获得,即:
Figure FDA0002833848160000024
其中,
Figure FDA0002833848160000031
表示微服务vi的异常区间指标数据,
Figure FDA0002833848160000032
表示前端微服务vfe的异常区间指标数据;
D3.计算微服务异常程度评分:将路径关联强度和相关系数关联强度进行相加得到,即cpathSpath(vi)+ccorrScorr(vi);
再根据微服务的异常程度评分对微服务从大到小进行排序,生成的微服务列表vγ1,vγ2,…,vγN即为候选故障根因服务,由此实现故障根因定位。
2.如权利要求1所述微服务架构信息***的故障根因定位方法,其特征是,所述微服务架构信息***中各个微服务通过Docker进行容器化部署,不同的微服务之间采用HTTP API或消息队列的方式进行通信,设置有收集性能指标数据的工具,用于根据用户请求日志或主动采样获取各个微服务的性能指标。
3.如权利要求1所述微服务架构信息***的故障根因定位方法,其特征是,获取微服务架构信息***的微服务性能指标数据的方法包括:
从微服务架构信息***的微服务的请求日志中提取每个访问请求的延迟信息,对1秒内的请求延迟进行平均,得到每个微服务每秒的请求延迟时间序列数据;
或者是采用Prometheus工具,直接从微服务架构信息***的微服务中获得每秒的请求延迟数据,并构造出请求延迟时间序列;
再对获取输出的微服务请求延迟时间序列进行了归一化处理。
4.如权利要求1所述微服务架构信息***的故障根因定位方法,其特征是,记收集到的微服务指标数据为时间序列Mi(t),通过如下步骤检测得到微服务的异常区间:
B1.计算每个微服务指标在滑动窗口Lw内的移动标准差σi(t),表示微服务的异常程度;
B2.对所有微服务按照重要性水平λi进行加权,计算***整体在时刻t的异常水平:
Figure FDA0002833848160000033
其中,Sab(t)为***的异常水平;σi(t)表示微服务vi的异常水平,λi为微服务vi的重要性水平,λi取值范围为[0,+∞];
B3.当***的异常水平Sab(t)超过一个给定的阈值θab·N时,其中θab为异常区间检测的阈值,θab取值范围为(0,1];N为微服务数量;判断此刻微服务***为异常状态,需要进行故障诊断;
计算所有异常状态时间点中异常水平最高的时刻,记为te,则异常区间为性能指标数据的时间区间[te-Lpre:te+Lpost],其中Lpre,Lpost表示区间大小,取值范围为不超过所有可用数据的范围,记为异常区间数据
Figure FDA0002833848160000041
5.一种实现权利要求1所述微服务架构信息***的故障根因定位方法的***,包括如下模块:指标数据收集模块、异常检测模块、微服务依赖图构建模块、反向追踪模块;其中:
指标数据收集模块用于对接需要进行故障诊断的微服务架构信息***,获取每个微服务的请求延迟指标,并形成对应的时间序列数据;
异常检测模块用于分析微服务的请求延迟指标数据,检测微服务架构信息***是否处于异常状态;当检测到微服务架构***处于异常状态时,收集体现异常的微服务指标数据并形成异常区间数据,提供给后续模块进行进一步的故障分析;
微服务依赖图构建模块用于微服务架构信息***出现异常时进行分析,通过对逐对微服务进行动态关联分析,构造微服务架构信息***在故障发生时的微服务依赖图,还原故障可能的传播模式,供后续模块进行细粒度的故障根因定位和故障链提取;
反向追踪模块用于针对生成的微服务依赖图进行分析,以异常前端微服务为入口进行反向路径搜索,并估计每个路径的概率,形成高可能性的故障传播链,并结合微服务的指标数据相关系数估计微服务的根因概率,产生最后的故障根因列表。
6.如权利要求5所述的***,其特征是,指标数据收集模块具体可通过分析微服务调用日志或采用Prometheus监控工具,获取每个微服务的请求延迟指标。
CN202011468424.2A 2020-12-14 2020-12-14 一种微服务架构信息***的故障根因定位方法及*** Active CN112698975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011468424.2A CN112698975B (zh) 2020-12-14 2020-12-14 一种微服务架构信息***的故障根因定位方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011468424.2A CN112698975B (zh) 2020-12-14 2020-12-14 一种微服务架构信息***的故障根因定位方法及***

Publications (2)

Publication Number Publication Date
CN112698975A true CN112698975A (zh) 2021-04-23
CN112698975B CN112698975B (zh) 2022-09-27

Family

ID=75507890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011468424.2A Active CN112698975B (zh) 2020-12-14 2020-12-14 一种微服务架构信息***的故障根因定位方法及***

Country Status (1)

Country Link
CN (1) CN112698975B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113271224A (zh) * 2021-05-17 2021-08-17 中国邮政储蓄银行股份有限公司 节点的定位方法、装置、存储介质及电子装置
CN113391943A (zh) * 2021-06-18 2021-09-14 广东工业大学 一种基于因果推断的微服务故障根因定位方法及装置
CN113392893A (zh) * 2021-06-08 2021-09-14 北京达佳互联信息技术有限公司 业务故障的定位方法、装置、存储介质及计算机程序产品
CN113467421A (zh) * 2021-07-01 2021-10-01 中国科学院计算技术研究所 获取微服务健康状态指标的方法和微服务异常诊断方法
CN113900844A (zh) * 2021-09-26 2022-01-07 北京必示科技有限公司 一种基于服务码级别的故障根因定位方法、***及存储介质
CN114024837A (zh) * 2022-01-06 2022-02-08 杭州大乘智能科技有限公司 一种微服务***的故障根因定位方法
CN114124738A (zh) * 2021-11-04 2022-03-01 昆明理工大学 基于服务交互图的云环境服务故障概率计算方法、***及终端
CN114325232A (zh) * 2021-12-28 2022-04-12 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN115118621A (zh) * 2022-06-27 2022-09-27 浙江大学 一种基于依赖关系图的微服务性能诊断方法及***
CN115278741A (zh) * 2022-06-15 2022-11-01 清华大学 一种基于多模态数据依赖关系的故障诊断方法和装置
CN115333921A (zh) * 2022-08-20 2022-11-11 海南大学 微服务异常根因定位方法及装置
CN115348159A (zh) * 2022-08-09 2022-11-15 国家电网有限公司信息通信分公司 基于自编码器和服务依赖图的微服务故障定位方法及装置
CN115756929A (zh) * 2022-11-23 2023-03-07 北京大学 一种基于动态服务依赖图的异常根因定位方法及***
WO2023109251A1 (zh) * 2021-12-17 2023-06-22 浪潮电子信息产业股份有限公司 一种***故障检测方法、装置、设备及介质
CN116450399A (zh) * 2023-06-13 2023-07-18 西华大学 微服务***故障诊断及根因定位方法
CN117196651A (zh) * 2023-08-09 2023-12-08 首都经济贸易大学 基于数据异步处理的企业异常监控方法、装置及存储介质
CN117520040A (zh) * 2024-01-05 2024-02-06 中国民航大学 一种微服务故障根因确定方法、电子设备及存储介质
WO2024139525A1 (zh) * 2022-12-28 2024-07-04 中移物联网有限公司 根因分析方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018753A1 (en) * 2017-07-12 2019-01-17 Fujitsu Limited Software program fault localization
CN109933452A (zh) * 2019-03-22 2019-06-25 中国科学院软件研究所 一种面向异常传播的微服务智能监测方法
CN111290900A (zh) * 2020-01-16 2020-06-16 中山大学 一种基于微服务日志的软件故障检测方法
CN111694721A (zh) * 2020-06-15 2020-09-22 南方电网科学研究院有限责任公司 一种微服务的故障监测方法和装置
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务***的故障分析方法、***、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018753A1 (en) * 2017-07-12 2019-01-17 Fujitsu Limited Software program fault localization
CN109933452A (zh) * 2019-03-22 2019-06-25 中国科学院软件研究所 一种面向异常传播的微服务智能监测方法
CN111290900A (zh) * 2020-01-16 2020-06-16 中山大学 一种基于微服务日志的软件故障检测方法
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务***的故障分析方法、***、设备和存储介质
CN111694721A (zh) * 2020-06-15 2020-09-22 南方电网科学研究院有限责任公司 一种微服务的故障监测方法和装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113271224A (zh) * 2021-05-17 2021-08-17 中国邮政储蓄银行股份有限公司 节点的定位方法、装置、存储介质及电子装置
CN113392893A (zh) * 2021-06-08 2021-09-14 北京达佳互联信息技术有限公司 业务故障的定位方法、装置、存储介质及计算机程序产品
CN113391943A (zh) * 2021-06-18 2021-09-14 广东工业大学 一种基于因果推断的微服务故障根因定位方法及装置
CN113467421A (zh) * 2021-07-01 2021-10-01 中国科学院计算技术研究所 获取微服务健康状态指标的方法和微服务异常诊断方法
CN113900844A (zh) * 2021-09-26 2022-01-07 北京必示科技有限公司 一种基于服务码级别的故障根因定位方法、***及存储介质
CN114124738A (zh) * 2021-11-04 2022-03-01 昆明理工大学 基于服务交互图的云环境服务故障概率计算方法、***及终端
CN114124738B (zh) * 2021-11-04 2024-03-19 昆明理工大学 基于服务交互图的云环境服务故障概率计算方法、***及终端
WO2023109251A1 (zh) * 2021-12-17 2023-06-22 浪潮电子信息产业股份有限公司 一种***故障检测方法、装置、设备及介质
CN114325232A (zh) * 2021-12-28 2022-04-12 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN114325232B (zh) * 2021-12-28 2023-07-25 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN114024837A (zh) * 2022-01-06 2022-02-08 杭州大乘智能科技有限公司 一种微服务***的故障根因定位方法
CN115278741A (zh) * 2022-06-15 2022-11-01 清华大学 一种基于多模态数据依赖关系的故障诊断方法和装置
CN115118621A (zh) * 2022-06-27 2022-09-27 浙江大学 一种基于依赖关系图的微服务性能诊断方法及***
CN115348159A (zh) * 2022-08-09 2022-11-15 国家电网有限公司信息通信分公司 基于自编码器和服务依赖图的微服务故障定位方法及装置
CN115348159B (zh) * 2022-08-09 2023-06-27 国家电网有限公司信息通信分公司 基于自编码器和服务依赖图的微服务故障定位方法及装置
CN115333921A (zh) * 2022-08-20 2022-11-11 海南大学 微服务异常根因定位方法及装置
CN115333921B (zh) * 2022-08-20 2024-03-29 海南大学 微服务异常根因定位方法及装置
CN115756929A (zh) * 2022-11-23 2023-03-07 北京大学 一种基于动态服务依赖图的异常根因定位方法及***
CN115756929B (zh) * 2022-11-23 2023-06-02 北京大学 一种基于动态服务依赖图的异常根因定位方法及***
WO2024139525A1 (zh) * 2022-12-28 2024-07-04 中移物联网有限公司 根因分析方法、装置、电子设备及可读存储介质
CN116450399B (zh) * 2023-06-13 2023-08-22 西华大学 微服务***故障诊断及根因定位方法
CN116450399A (zh) * 2023-06-13 2023-07-18 西华大学 微服务***故障诊断及根因定位方法
CN117196651A (zh) * 2023-08-09 2023-12-08 首都经济贸易大学 基于数据异步处理的企业异常监控方法、装置及存储介质
CN117196651B (zh) * 2023-08-09 2024-05-03 首都经济贸易大学 基于数据异步处理的企业异常监控方法、装置及存储介质
CN117520040A (zh) * 2024-01-05 2024-02-06 中国民航大学 一种微服务故障根因确定方法、电子设备及存储介质
CN117520040B (zh) * 2024-01-05 2024-03-08 中国民航大学 一种微服务故障根因确定方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112698975B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN112698975B (zh) 一种微服务架构信息***的故障根因定位方法及***
CN109933452B (zh) 一种面向异常传播的微服务智能监测方法
US11500757B2 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
EP3745272B1 (en) An application performance analyzer and corresponding method
US9389946B2 (en) Operation management apparatus, operation management method, and program
US8086708B2 (en) Automated and adaptive threshold setting
US8635498B2 (en) Performance analysis of applications
US20150219530A1 (en) Systems and methods for event detection and diagnosis
Hoffmann et al. Advanced failure prediction in complex software systems
US11250043B2 (en) Classification of log data
CN113852603B (zh) 网络流量的异常检测方法、装置、电子设备和可读介质
US20060293777A1 (en) Automated and adaptive threshold setting
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP6564799B2 (ja) 閾値決定装置、閾値決定方法及びプログラム
JP2005216066A (ja) 異常検出システム及びその方法
CN107426019A (zh) 网络故障确定方法、计算机设备及计算机可读存储介质
US9235463B2 (en) Device and method for fault management of smart device
CN115237717A (zh) 一种微服务异常检测方法和***
Pan et al. Faster, deeper, easier: crowdsourcing diagnosis of microservice kernel failure from user space
JP2016045556A (ja) ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法
CN114201326A (zh) 一种基于属性关系图的微服务异常诊断方法
WO2022059720A1 (ja) 構造物診断システム、構造物診断方法、および構造物診断プログラム
CN115118621A (zh) 一种基于依赖关系图的微服务性能诊断方法及***
CN108989083B (zh) 云环境下基于混合策略的故障检测性能优化方法
Farruggia et al. Probabilistic anomaly detection for wireless sensor networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant