CN109933452A - 一种面向异常传播的微服务智能监测方法 - Google Patents

一种面向异常传播的微服务智能监测方法 Download PDF

Info

Publication number
CN109933452A
CN109933452A CN201910220179.4A CN201910220179A CN109933452A CN 109933452 A CN109933452 A CN 109933452A CN 201910220179 A CN201910220179 A CN 201910220179A CN 109933452 A CN109933452 A CN 109933452A
Authority
CN
China
Prior art keywords
service
interface
abnormal
measurement
micro services
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910220179.4A
Other languages
English (en)
Other versions
CN109933452B (zh
Inventor
王焘
张文博
薛晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201910220179.4A priority Critical patent/CN109933452B/zh
Publication of CN109933452A publication Critical patent/CN109933452A/zh
Application granted granted Critical
Publication of CN109933452B publication Critical patent/CN109933452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种面向异常传播的微服务智能监测方法,基于代理技术监测服务调用信息,建立微服务调用拓扑图以刻画微服务间异常传播关系;采用Lasso回归建模接口调用与度量间关联,通过监测关联模型的变化检测异常微服务;基于PageRank算法评估微服务及其调用接口的异常程度,本发明实现了透明化服务监测,自动化度量值预测以发现异常服务,智能化评估图中节点的异常程度以检测问题根因。

Description

一种面向异常传播的微服务智能监测方法
技术领域
本发明涉及微服务软件***的故障诊断方法,尤其涉及一种面向异常传播的微服务智能监测方法,属于软件技术领域。
背景技术
单体式架构和SOA软件架构是软件公司普遍采用的架构形式,经过十几年的发展,软件***已经变的异常复杂,扩展性与维护性很低,企业背负了沉重的技术债务。当今互联网竞争激烈,用户需求和市场环境时刻处于快速的变化当中,在面对当今的互联网应用时,传统软件架构形式的扩展性与灵活性明显不足,而设计、开发、测试及运维成本却显著增加。因此,微服务的概念被提出,微服务是一种将单个应用程序作为一组软件服务套件的软件架构形式,各个服务运行于独立的进程,彼此通过轻量级协议进行通信。微服务架构的特性非常适合敏捷开发与持续集成,解决了传统软件架构的痛点,获得了学术界和工业界的广泛关注与研究。
当软件***微服务化以后,在提高维护性及灵活性的同时,却使得服务之间的依赖关系错综复杂,增加了故障发生的几率和故障带来的损失。例如在一个高流量的网站中,某个服务组件一旦发生延迟,可能导致所有应用资源被耗尽,造成所谓的雪崩效应,严重时可致整个***瘫痪。因此有效监测***,并快速定位故障原因是保障微服务可靠性与性能的关键技术之一。
针对微服务故障诊断的工作主要有以下几类:(1)基于度量监测的诊断方法。该方法主要是收集***运行指标,比如CPU、内存、网络等,以此反映应用程序当前状态及一段时间内的运行趋势。如果某一度量超过预置的阀值,则表示***出现了问题,并触发报警,然后,管理员以监测数据为依据,结合自身的经验来解决问题(Wang T,Zhang W,Ye C,Wei J,Zhong H,Huang T.FD4C:Automatic Fault Diagnosis Framework for Web Applicationsin Cloud Computing.IEEE Transactions on Systems,Man,and Cybernetics:Systems.2016,46(1):61-75;M.Farshchi,J.G.Schneider,I.Weber,and J.Grundy,“Metric selection and anomaly detection for cloud operations using log andmetric correlation analysis,”Journal of Systems and Software,2018,137,pp.531-549.);(2)基于日志的监测分析方法,日志明确地记录了***的运行情况,便于持久化,并且可以很容易地搜索,通常是查明故障原因和支持更多业务目标的有效手段(ELK.https://www.elastic.co/);(3)基于分布式请求追踪的监测诊断方法,通过基于标注的方法获取请求的执行路径,通过对执行路径的分析或者将路径进行对比,来发现***故障(A.Nandi,A.Mandal,S.Atreja,G.B.Dasgupta,and S.Bhattacharya,"AnomalyDetection Using Program Control Flow Graph Mining From Execution Logs,"22ndACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Francisco,California,USA,2016;T.Jia,P.Chen,L.Yang,Y.Li,F.Meng and J.Xu,"An Approach for Anomaly Diagnosis Based on Hybrid Graph Model with Logs forDistributed Services,"IEEE International Conference on Web Services,Honolulu,HI,2017,pp.25-32.)。其中基于度量、日志的监控故障诊断方式实现简单,但不能反映***的整体状态,无法跟踪业务流,故障定位的级别通常是服务组件,在复杂的微服务交互关系中,管理员将耗费大量的时间来查找和定位问题;而基于分布式请求追踪的监测诊断方法通过日志或者植入代码的方式监测请求的轨迹作为故障诊断的参考,但是此方法监测的扩展性较低,无法做到对应用透明,也没有考虑到异常传播的问题。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种面向微服务的高效故障诊断***。通过对服务透明的调用监测,提高***的扩展性,降低监测对微服务运行的影响;通过分析监测数据,实现接口级别的细粒度故障根因定位。
本发明技术解决方案:一种面向异常传播的微服务智能监测方法,实现步骤如下:
第一步,服务调用监测:基于代理技术监测服务调用信息,用多元组Ni=(requestUID,serviceUID,spanUID,parentUID,info)来记录服务调用关系,其中requestUID为请求标识符,在请求入口处生成;serviceUID为服务标识符;spanUID为服务调用span标识符;parentUID为父span标识符,如果为-1,表示当前span为根span;info包含其他信息,用多元组info=(serviceUID,startTime,endTime,duration)来表示,其中ServiceUID由服务组件和实例编号唯一标识;startTime和endTime是服务调用开始、结束时间;duration为服务调用的执行时间。基于上述监测到的服务调用信息,构建服务调用拓扑图的具体过程如下:
(1)初始阶段,拓扑图G为空,集合S中包含所收集的调用信息;
(2)从集合S中取出属于同一请求的且有调用关系的元组,将元组中的serviceUID所代表的服务实例作为点,调用关系作为有向边加入到G中,如果点或边已经存在,不重复添加;
(3)如果集合S不为空,则继续执行(2)。否则,算法结束。
第二步,异常服务检测:构建服务内接口调用次数与服务监测度量之间的关联模型,具体步骤如下:
(1)收集服务内度量的监测数据以及服务内所有接口调用次数的数据。对于某个服务S内的度量m来说,用向量来表示在时刻t时,服务i对该服务内q个接口的调用次数,其中表示时刻t服务i调用该服务内编号为t1的接口的次数,对其做标准化处理,作为Lasso回归模型的解释变量。用Yt表示度量m在时刻t的监测值,作为Lasso回归模型的响应变量;
(2)基于上述数据构建Lasso回归模型,模型的自变量为通过(1)获得的服务接口调用次数构成的向量,因变量为某个度量m在时刻t的监测值。进一步构建的回归模型为:其中为回归系数,α为随机误差项。在约束条件下,通过坐标下降法求出使得极小化的回归系数和误差项;
(3)采用广义交叉验证法来选择调整参数t,广义交叉验证法的形式为:其中RSS(c)表示残差平方和:p(c)为Lasso回归中有效回归系数的个数;
(4)在服务运行过程中,基于Lasso回归模型对度量值进行预测,计算残差:当残差绝对值大于设定的阈值时,认定度量出现异常,进而认为服务出现异常;
第三步,故障服务诊断:基于前两步得到的数据,将所有出现异常的服务根据其调用关系构建故障传播子图。在子图中,使用PageRank算法对每个服务的异常程度进行打分,具体步骤如下:
(1)初始阶段,用服务内异常度量的比例作为该服务的PR初值,P=[p0,p1,...,pn]T为多个服务的PR初值构成的列向量,其中pi为服务i中异常度量的比例;
(2)计算服务pi的PR值为其中,Pk(pi)为第k次迭代服务pi的得分,I(pj)为指向pj的点的集合,O(pj)为指向pj的点的集合,q为阻尼系数,目的是保证算法的收敛;
(3)如果Pk(pi)满足|Pk-Pk-1|<δ,则迭代结束。否则,继续执行(2)。
(4)根据服务的得分进行排序,认为得分最高的就是引发故障的服务。在服务内部,根据建立的Lasso模型进一步对服务接口调用的异常程度进行打分。具体步骤如下:
(41)对于第j个接口,将与其相关的异常度量的Lasso模型中的参数ωi以及异常度量的预测残差进行归一化,得到新值ai和bi
(42)则第j个接口的异常得分为其中n为与第j个接口相关的异常度量的个数;
(43)根据(2)中计算的接口的异常得分,对接口的异常程度进行排序。
本发明的原理:针对微服务的多语言特性,采用基于代理的机制监测服务之间的调用关系,实现对服务透明的服务调用监测;当服务进行接口调用时,会占用相应的***资源,因此监测的度量值会表现出相应的变化,因此考虑建立接口调用与度量值之间的关联模型来刻画两者之间的影响关系。为了减少模型的复杂度,保留对度量最有影响的接口调用,采用Lasso回归方法构建接口调用次数和度量之间的关联模型,并依据该关联模型找出异常的度量,然后根据服务中异常度量所占的比例,找出出现异常的服务;当某个服务出现异常时,它很有可能会在一段时间内引起与其相关的服务也出现异常。因此用服务调用拓扑图来刻画服务之间异常的传播,采用PageRank算法,对服务的异常程度进行打分,找出引发异常的服务。在故障服务内部,基于接口调用与度量之间的回归模型,对接口的异常程度进行打分,最后定位发生故障的接口。
本发明与现有技术相比具有如下优点:
(1)服务透明监测:基于代理技术实现对服务调用的监测,做到监测对服务透明,业务开发人员无需做任何修改,并且可以最大限度降低调用监测对应用性能的影响。
(2)自动化异常服务检测:基于Lasso回归方法构建度量与接口调用的回归模型,在服务运行时,***可以自动通过回归模型对度量值进行预测,如果残差的绝对值大于阈值,则认为出现异常,从而实现自动化发现异常服务。
(3)故障根因定位:基于检测出的异常服务以及服务调用拓扑图构建故障子图,故障子图可以很好地反映异常的传播过程,进一步采用PageRank算法对图中服务的异常程度进行打分。因为PageRank算法可以反映图中节点的影响程度,因此可以找出最有可能引发异常的服务。
附图说明
图1为本发明方法的实现流程图;
图2为本发明实例方法的使用环境。
具体实施方式
以下结合具体实施实例和附图对本发明进行详细说明。
如图1所示,本发明提出的面向异常传播的微服务故障诊断方法,包括以下步骤,(1)将代理部署在各个服务实例中,以收集服务调用关系以及服务的度量监测数据,并将数据持久化到数据库中;(2)在冷启动阶段,基于收集到的服务调用信息,构建服务调用拓扑图,并基于收集到的度量变化数据以及服务接口调用次数构建Lasso回归模型;(3)在服务运行阶段,基于构建的Lasso回归模型监测服务是否异常;(4)当服务出现异常时,基于PageRank算法找出最有可能引发异常的服务,并在异常服务内部定位异常的接口调用。
如图2所示,作为本发明实施实例方法的使用环境,目标微服务应用是Sock-Shop,采用Kubernetes作为基础运行环境,将服务实例部署在pod上,其中核心的10个服务各自有一个实例,MongoDB服务有三个实例,MySQL有一个实例。每个pod上都部署一个代理Agent,用于监测服务调用信息以及服务内度量变化。负载生成器模拟用户请求,产生负载;故障注入器通过预置的脚本,将故障注入到***中,以测试故障诊断***的诊断效果;故障诊断***基于收集到的数据进行故障诊断。本发明所提出的方法在故障诊断***实现。。
本发明实施实例方法流程:
(1)通过部署在服务实例中的代理Agent收集每个服务实例的度量监测值,包括CPU利用率,内存占用率、磁盘I/O速率、每秒请求数、服务内接口调用次数等多个监测值,以及服务请求调用信息;
(2)在冷启动阶段,通过负载生成器生成负载,收集服务请求调用信息,用多元组Ni=(requestUID,serviceUID,spanUID,parentUID,info)的形式记录下来,加入到集合中S中;
(3)在集合S中,按照requestUID对多元组进行分类,在requestUID相同的多元组中发现同一个请求中服务的调用关系,将有调用关系的服务加入到拓扑图G中,图中的点为服务实例,边表示服务的调用关系,如果图中点或者边已经存在,不重复添加。重复上述过程,直到集合S为空;
(4)收集服务内度量监测值以及服务内接口调用次数,分别作为Lasso回归模型的响应变量和解释变量。其中,用Yt表示度量m在时刻t的监测值,作为Lasso回归模型的响应变量,用向量来表示在时刻t时,服务i对某个服务内q个接口的调用次数,作为解释变量,其中表示时刻t服务i调用该服务内编号为t1的接口的次数,最后对上述数据做标准化处理;
(5)基于上述数据构建Lasso回归模型,其表达式为:其中Yt表示度量m在时刻t的监测值,p为对该服务发起调用的服务的个数,q表示该服务内接口的个数,为回归系数,表示时刻t服务i调用该服务内编号为t1的接口的次数,α为随机误差项;在约束条件下,通过坐标下降法极小化其中c为调整参数;
(6)采用广义交叉验证法来选择调整参数c,广义交叉验证法的形式为:其中RSS(c)表示残差平方和:Yt表示度量m在时刻t的监测值,p(c)为Lasso回归中有效回归系数的个数,N为所监测度量的个数;
(7)在服务运行过程中,基于Lasso回归模型对度量值进行预测,计算残差:其中Yt表示度量m在时刻t的监测值,当残差绝对值大于设定的阈值时,认定度量出现异常,进而认为服务出现异常;
(8)基于(3)得到的服务调用拓扑图以及(7)得到的异常服务集合构建异常传播子图,下面用PageRank算法定位故障服务;
(9)在初始阶段,用服务内异常度量的比例作为该服务的PR初值,P=[p0,p1,...,pn]T为多个服务的PR初值构成的列向量,其中pi为服务i中异常度量的比例;
(10)通过公式计算每个服务的PR值,其中q为阻尼系数,I(pj)为指向pj的点的集合,O(pj)为指向pj的点的集合,Pk(pi)为第k次迭代服务pi的得分;
(11)多次迭代之后,当Pk(pi)满足|Pk-Pk-1|<δ,则迭代结束;
(12)根据服务的异常得分对服务的异常程度进行排序,认为得分最高的就是最有可能引发异常的服务。在异常服务内部,根据(5)构建的Lasso模型对服务内的接口的异常程度进行打分;
(13)对于第j个接口,将与其相关的异常度量的Lasso模型中的参数ωi以及异常度量的预测残差进行归一化,得到新值ai和bi
(14)则第j个接口的异常得分为其中n为与第j个接口相关的异常度量的个数;
(15)根据(14)得到的异常的得分,对接口的异常程度进行排序。最后可以找出本次异常中的故障根因服务以及服务内的异常接口。
总之,本发明基于代理技术监测服务调用信息,建立微服务调用拓扑图以刻画微服务间异常传播关系;采用Lasso回归建模接口调用与度量间关联,通过监测关联模型的变化检测异常微服务;基于PageRank算法评估微服务及其调用接口的异常程度,本发明实现了透明化服务监测,自动化度量值预测以发现异常服务,智能化评估图中节点的异常程度以检测问题根因。

Claims (2)

1.一种面向异常传播的微服务智能监测方法,其特征在于,包括步骤如下:
第一步,服务调用监测:基于代理技术监测服务调用信息,用多元组N=(requestUID,serviceUID,spanUID,parentUID,info)记录服务调用关系,其中requestUID为请求标识符,在请求入口处生成,serviceUID为服务标识符,span表示一次服务调用,spanUID为服务调用span标识符,parentUID为父span标识符,如果为-1,表示当前span为根span,info为包含的其他相关信息,info=(serviceUID,startTime,endTime,duration),其中startTime和endTime是服务调用开始、结束时间,duration为服务调用的执行时间,基于上述监测到的服务调用信息,构建服务调用拓扑图,以刻画异常传播;
第二步,异常服务检测:构建服务接口的调用次数与服务监测度量之间的关联模型,检测得出所有出现异常的服务,具体步骤如下:
(1)服务接口调用监测:表示在时刻t,服务i中q个服务接口的调用次数构成的向量,其中表示时刻t服务i中编号为t1的服务接口次数;
(2)基于Lasso回归的资源建立Lasso回归模型:所述回归模型的自变量为通过步骤(1)中获得的服务接口调用次数构成的向量,因变量为某个度量m在时刻t的监测值,构建的回归模型为:其中为回归系数,α为随机误差项;在约束条件下,通过坐标下降法求解出使得极小的回归系数及误差项,c为调整参数;
(3)异常资源检测:在服务运行过程中,基于步骤(2)中构建的Lasso回归模型预测服务的资源度量值,计算残差:其中,Yi(t)是度量的监测值,是通过Lasso模型对度量的预测值,当残差绝对值大于设定的阈值时,认定度量出现异常,所在服务则检测为异常,最后检测得出所有出现异常的服务;
第三步,故障服务诊断:根据第二步中检测得出的所有出现异常的服务以及第一步中监测到的服务调用拓扑图构建故障传播子图,采用PageRank算法评估每个服务的异常程度;
第四步,在故障服务内部,基于构建的Lasso回归模型的参数以及预测残差Ri(t),进一步找出引发异常的接口调用。
2.根据权利要求1所述的面向异常传播的微服务智能监测方法,其特征在于:所述第四步,在故障服务内部,基于构建的Lasso回归模型的参数以及预测参数,找出引发异常的接口调用,具体如下:
(41)对于第j个接口,将与其相关的异常度量的Lasso模型中的参数ωi以及异常度量的预测残差Ri(t)进行归一化,得到新值ai和bi
(42)则第j个接口的异常得分为其中n为与第j个接口相关的异常度量的个数;
(43)根据步骤(2)中计算的接口的异常得分,对接口的异常程度进行排序,从而找出引发异常的接口调用。
CN201910220179.4A 2019-03-22 2019-03-22 一种面向异常传播的微服务智能监测方法 Active CN109933452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910220179.4A CN109933452B (zh) 2019-03-22 2019-03-22 一种面向异常传播的微服务智能监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910220179.4A CN109933452B (zh) 2019-03-22 2019-03-22 一种面向异常传播的微服务智能监测方法

Publications (2)

Publication Number Publication Date
CN109933452A true CN109933452A (zh) 2019-06-25
CN109933452B CN109933452B (zh) 2020-06-19

Family

ID=66988052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910220179.4A Active CN109933452B (zh) 2019-03-22 2019-03-22 一种面向异常传播的微服务智能监测方法

Country Status (1)

Country Link
CN (1) CN109933452B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427275A (zh) * 2019-07-11 2019-11-08 复旦大学 基于轨迹日志学习的微服务潜在错误与故障根源预测方法
CN110442641A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 一种链路拓扑图展示方法、装置、存储介质及设备
CN110825589A (zh) * 2019-11-07 2020-02-21 字节跳动有限公司 用于微服务***的异常检测方法及其装置和电子设备
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
CN111597070A (zh) * 2020-07-27 2020-08-28 北京必示科技有限公司 一种故障定位方法、装置、电子设备及存储介质
CN112118127A (zh) * 2020-08-07 2020-12-22 中国科学院软件研究所 一种基于故障相似度的服务可靠性保障方法
CN112231187A (zh) * 2019-07-15 2021-01-15 华为技术有限公司 微服务异常分析方法及装置
CN112615743A (zh) * 2020-12-18 2021-04-06 江苏云柜网络技术有限公司 拓扑图绘制方法及装置
CN112667457A (zh) * 2019-10-16 2021-04-16 烽火通信科技股份有限公司 对微服务架构下服务调用进行监控的方法及***
CN112698975A (zh) * 2020-12-14 2021-04-23 北京大学 一种微服务架构信息***的故障根因定位方法及***
CN112817785A (zh) * 2019-11-15 2021-05-18 亚信科技(中国)有限公司 一种微服务***的异常检测方法及装置
WO2021147832A1 (zh) * 2020-01-23 2021-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库***、电子设备及存储介质
CN113190373A (zh) * 2021-05-31 2021-07-30 中国人民解放军国防科技大学 一种基于故障特征比较的微服务***故障根因定位方法
CN113407224A (zh) * 2020-03-17 2021-09-17 北京亿阳信通科技有限公司 一种微服务管理方法和装置
CN113626288A (zh) * 2021-08-12 2021-11-09 杭州朗和科技有限公司 故障处理方法、***、装置、存储介质和电子设备
CN114024837A (zh) * 2022-01-06 2022-02-08 杭州大乘智能科技有限公司 一种微服务***的故障根因定位方法
CN114598742A (zh) * 2022-03-04 2022-06-07 北京北信源软件股份有限公司 微服务重要性判定方法、装置、电子设备及存储介质
CN115314559A (zh) * 2022-08-03 2022-11-08 苏州创意云网络科技有限公司 网络服务***及其异常响应方法
CN115396341A (zh) * 2022-08-16 2022-11-25 度小满科技(北京)有限公司 服务稳定性的评估方法、装置、存储介质及电子装置
CN117520040A (zh) * 2024-01-05 2024-02-06 中国民航大学 一种微服务故障根因确定方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断***
US20170177008A1 (en) * 2015-12-21 2017-06-22 International Business Machines Corporation Topological connectivity and relative distances from temporal sensor measurements of physical delivery system
CN107766205A (zh) * 2017-10-10 2018-03-06 武汉大学 一种面向微服务调用过程跟踪的监控***及方法
CN108322351A (zh) * 2018-03-05 2018-07-24 北京奇艺世纪科技有限公司 生成拓扑图的方法和装置、故障确定方法和装置
CN108762908A (zh) * 2018-05-31 2018-11-06 阿里巴巴集团控股有限公司 ***调用异常检测方法及装置
CN109144724A (zh) * 2018-07-27 2019-01-04 众安信息技术服务有限公司 一种微服务资源调度***及方法
CN109213616A (zh) * 2018-09-25 2019-01-15 江苏润和软件股份有限公司 一种基于调用图分析的微服务软件***异常检测方法
CN109254865A (zh) * 2018-09-25 2019-01-22 江苏润和软件股份有限公司 一种基于统计分析的云数据中心服务异常根因定位方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断***
US20170177008A1 (en) * 2015-12-21 2017-06-22 International Business Machines Corporation Topological connectivity and relative distances from temporal sensor measurements of physical delivery system
CN107766205A (zh) * 2017-10-10 2018-03-06 武汉大学 一种面向微服务调用过程跟踪的监控***及方法
CN108322351A (zh) * 2018-03-05 2018-07-24 北京奇艺世纪科技有限公司 生成拓扑图的方法和装置、故障确定方法和装置
CN108762908A (zh) * 2018-05-31 2018-11-06 阿里巴巴集团控股有限公司 ***调用异常检测方法及装置
CN109144724A (zh) * 2018-07-27 2019-01-04 众安信息技术服务有限公司 一种微服务资源调度***及方法
CN109213616A (zh) * 2018-09-25 2019-01-15 江苏润和软件股份有限公司 一种基于调用图分析的微服务软件***异常检测方法
CN109254865A (zh) * 2018-09-25 2019-01-22 江苏润和软件股份有限公司 一种基于统计分析的云数据中心服务异常根因定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIGELMAN BENJAMIN H.等: "Dapper, a Large-Scale Distributed Systems Tracing Infrastructure", 《GOOGLE TECHNICAL REPORT》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427275B (zh) * 2019-07-11 2022-11-18 复旦大学 基于轨迹日志学习的微服务潜在错误与故障根源预测方法
CN110427275A (zh) * 2019-07-11 2019-11-08 复旦大学 基于轨迹日志学习的微服务潜在错误与故障根源预测方法
CN112231187A (zh) * 2019-07-15 2021-01-15 华为技术有限公司 微服务异常分析方法及装置
CN112231187B (zh) * 2019-07-15 2022-07-26 华为技术有限公司 微服务异常分析方法及装置
CN110442641A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 一种链路拓扑图展示方法、装置、存储介质及设备
CN110442641B (zh) * 2019-08-06 2022-07-12 中国工商银行股份有限公司 一种链路拓扑图展示方法、装置、存储介质及设备
CN112667457A (zh) * 2019-10-16 2021-04-16 烽火通信科技股份有限公司 对微服务架构下服务调用进行监控的方法及***
CN110825589B (zh) * 2019-11-07 2024-01-05 字节跳动有限公司 用于微服务***的异常检测方法及其装置和电子设备
CN110825589A (zh) * 2019-11-07 2020-02-21 字节跳动有限公司 用于微服务***的异常检测方法及其装置和电子设备
CN112817785A (zh) * 2019-11-15 2021-05-18 亚信科技(中国)有限公司 一种微服务***的异常检测方法及装置
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
CN111190756B (zh) * 2019-11-18 2023-04-28 中山大学 一种基于调用链数据的根因定位算法
WO2021147832A1 (zh) * 2020-01-23 2021-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库***、电子设备及存储介质
US12001275B2 (en) 2020-01-23 2024-06-04 Alibaba Group Holding Limited Data processing method, apparatus, database system, electronic device, and storage medium
CN113407224A (zh) * 2020-03-17 2021-09-17 北京亿阳信通科技有限公司 一种微服务管理方法和装置
CN111597070A (zh) * 2020-07-27 2020-08-28 北京必示科技有限公司 一种故障定位方法、装置、电子设备及存储介质
CN112118127B (zh) * 2020-08-07 2021-11-09 中国科学院软件研究所 一种基于故障相似度的服务可靠性保障方法
CN112118127A (zh) * 2020-08-07 2020-12-22 中国科学院软件研究所 一种基于故障相似度的服务可靠性保障方法
CN112698975A (zh) * 2020-12-14 2021-04-23 北京大学 一种微服务架构信息***的故障根因定位方法及***
CN112698975B (zh) * 2020-12-14 2022-09-27 北京大学 一种微服务架构信息***的故障根因定位方法及***
CN112615743A (zh) * 2020-12-18 2021-04-06 江苏云柜网络技术有限公司 拓扑图绘制方法及装置
CN113190373A (zh) * 2021-05-31 2021-07-30 中国人民解放军国防科技大学 一种基于故障特征比较的微服务***故障根因定位方法
CN113190373B (zh) * 2021-05-31 2022-04-05 中国人民解放军国防科技大学 一种基于故障特征比较的微服务***故障根因定位方法
CN113626288A (zh) * 2021-08-12 2021-11-09 杭州朗和科技有限公司 故障处理方法、***、装置、存储介质和电子设备
CN113626288B (zh) * 2021-08-12 2023-08-25 杭州朗和科技有限公司 故障处理方法、***、装置、存储介质和电子设备
CN114024837B (zh) * 2022-01-06 2022-04-05 杭州乘云数字技术有限公司 一种微服务***的故障根因定位方法
CN114024837A (zh) * 2022-01-06 2022-02-08 杭州大乘智能科技有限公司 一种微服务***的故障根因定位方法
CN114598742A (zh) * 2022-03-04 2022-06-07 北京北信源软件股份有限公司 微服务重要性判定方法、装置、电子设备及存储介质
CN115314559B (zh) * 2022-08-03 2023-09-29 苏州创意云网络科技有限公司 网络服务***及其异常响应方法、服务单元、调度处理单元、电子设备及计算机存储介质
CN115314559A (zh) * 2022-08-03 2022-11-08 苏州创意云网络科技有限公司 网络服务***及其异常响应方法
CN115396341B (zh) * 2022-08-16 2023-12-05 度小满科技(北京)有限公司 服务稳定性的评估方法、装置、存储介质及电子装置
CN115396341A (zh) * 2022-08-16 2022-11-25 度小满科技(北京)有限公司 服务稳定性的评估方法、装置、存储介质及电子装置
CN117520040A (zh) * 2024-01-05 2024-02-06 中国民航大学 一种微服务故障根因确定方法、电子设备及存储介质
CN117520040B (zh) * 2024-01-05 2024-03-08 中国民航大学 一种微服务故障根因确定方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN109933452B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN109933452A (zh) 一种面向异常传播的微服务智能监测方法
CN111756582B (zh) 基于nfv日志告警的业务链监控方法
CN105337765B (zh) 一种分布式hadoop集群故障自动诊断修复***
WO2021036229A1 (zh) 一种变更设备业务的方法和业务变更***
CN109213616A (zh) 一种基于调用图分析的微服务软件***异常检测方法
CN111176879A (zh) 设备的故障修复方法及装置
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
Nováczki An improved anomaly detection and diagnosis framework for mobile network operators
CN102111797A (zh) 一种故障的诊断方法和设备
CN108092813A (zh) 数据中心综合管理***服务器硬件管理框架及实现方法
Ehlers et al. A self-adaptive monitoring framework for component-based software systems
CN110032463A (zh) 一种基于贝叶斯网络的***故障定位方法和***
Li et al. Fighting the fog of war: Automated incident detection for cloud systems
Bocciarelli et al. BPMN-based business process modeling and simulation
CN115118621B (zh) 一种基于依赖关系图的微服务性能诊断方法及***
Yu et al. TraceRank: Abnormal service localization with dis‐aggregated end‐to‐end tracing data in cloud native systems
CN114201326A (zh) 一种基于属性关系图的微服务异常诊断方法
CN113010392A (zh) 大数据平台的测试方法、装置、设备、存储介质和***
CN107204868B (zh) 一种任务运行监控信息获取方法和装置
Rios et al. Localizing and explaining faults in microservices using distributed tracing
CN112506802B (zh) 测试数据的管理方法及***
CN111158979A (zh) 服务的拨测方法、***、装置及存储介质
Li et al. Microservice anomaly detection based on tracing data using semi-supervised learning
CN109889258A (zh) 一种光网络故障校验方法和设备
Jha et al. Holistic measurement-driven system assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant