CN116719664A

CN116719664A - 基于微服务部署的应用和云平台跨层故障分析方法及***

Info

Publication number: CN116719664A
Application number: CN202310995361.3A
Authority: CN
Inventors: 王鹏飞; 袁国泉; 程昕云; 杜元翰; 刘喆; 汤铭; 余竞航; 赵新建; 单新文; 宋浒; 陈石; 张颂; 徐晨维; 王智慷; 赵一辰; 李亚乔
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-09-08
Anticipated expiration: 2043-08-09
Also published as: CN116719664B

Abstract

本发明公开了一种基于微服务部署的应用和云平台跨层故障分析方法，包括：将业务应用故障数据和云基础设施的监控告警数据进行匹配关联，获得待分析的目标位置的伪量测数据和量测数据的统计特性之间的相关性，判断应用是否出现异常；依次关联分析业务实例本身的内存和GC日志、主机的性能指标、云平台主机的监测数据，对业务应用、业务应用所在主机和应用组件云平台主机进行故障分析。本发明不仅仅只从应用本身分析故障信息，而是结合应用所使用的云平台组件一起进行高效的故障分析，有效提升基于微服务架构及K8S部署架构的应用服务故障定位效率及可操作性，实现对电力行业云平台的全链路故障分析。

Description

基于微服务部署的应用和云平台跨层故障分析方法及***

技术领域

本发明涉及跨层故障分析技术领域，具体涉及一种基于微服务部署的应用和云平台跨层故障分析方法及***。

背景技术

加速推进企业数字化转型，是电力行业支撑新形势下多变的运营需求，电力行业业务***由传统单体应用架构逐步向轻量化、容器化、微服务化的互联网新架构转变；伴随着业务应用上云以及版本升级迭代，微服务数量正在快速增多，不可避免的会出现应用故障、业务办理异常等问题。如何实现对电力行业云平台的全链路故障分析，成为了亟需解决的技术问题。

目前的APM监控产品更多的是监控业务应用本身的故障分析以及应用性能相关的告警功能，对于云平台监控数据以及关联分析定位无法满足当前企业的需求。

申请号为201711463907.1的发明中公开了一种基于关联分析的云平台故障自动化定位方法，该专利公开了读取策略库中的策略：根据数字化后的故障编码和定义好的故障策略生成故障发生模型；对所述故障发生模型进行推导，得到根故障发生的根原因；收集故障的基础数据并分析，生成当前***存在的故障对应的故障编码；将故障编码与推导出的根原因进行对比分析，并根据故障发生模型，计算故障的故障发生路径，并进行分析得到分析结果；进行未知故障的探测：根据分析结果和当前监控到的故障进行对比，确定是否为未知故障；若为未知故障则将未知故障加入到故障发生模型中，并更新策略库；若不是未知故障，则根据当前故障的信息和所述分析结果完成故障定位。然而，该专利只是利用故障问题数字编码实现故障自动化定位，故障发生的根原因需要基于故障发生模型，在样本较少的情况下，故障发生模型的精度难以满足电力行业的跨层故障分析需求；另外，该专利也无法实现电力行业云平台的全链路故障分析。

发明内容

本发明为了解决电力行业云平台的全链路故障分析技术问题，提出了一种基于微服务部署的应用和云平台跨层故障分析方法及***。

为实现上述技术目的，本发明采取的技术方案为：

本发明公开了一种基于微服务部署的应用和云平台跨层故障分析方法，所述分析方法用于对云平台提供的业务应用组件进行故障分析；所述云平台采用kubernetes部署架构，业务应用基于微服务部署，不同的微服务部署在多个容器部署单元中；

所述分析方法包括以下步骤：

S1，动态更新业务应用列表和应用主机的资源信息，实时采集业务应用故障数据和云基础设施的监控告警数据；

S2，将业务应用故障数据和云基础设施的监控告警数据进行匹配关联，获取待分析的目标位置对应的伪量测数据和量测数据，对待分析的目标位置对应的伪量测数据和量测数据进行统计分析，获得伪量测数据和量测数据的统计特性之间的相关性，判断应用是否出现异常；如果出现异常，转入步骤S3，否则，转入步骤S1；

S3，采集并关联分析业务实例本身的内存和GC日志是否出现异常，如果异常，提示业务实例故障，转入步骤S1，否则，转入步骤S4；

S4，采集业务应用所在云主机的性能指标，将业务实例本身的内存和GC日志与业务应用所在云主机的性能指标进行关联分析，如果异常，提示云主机故障，判断跨层故障的级别，转入步骤S1，否则，转入步骤S5；云主机的性能指标包括云主机的CPU、内存、网络、磁盘的运行指标；

S5，关联云平台组件实例信息，通过云平台组件实例找到其对应的云平台主机，将步骤S3、步骤S4中采集到的数据与云平台主机的监测数据进行关联分析，如果异常，提示云平台故障，判断跨层故障的级别，转入步骤S1，否则，提示本次分析无结果，转入步骤S1；

所述云平台主机的监测数据包括：云平台组件实例信息；云平台主机的CPU、内存、网络、磁盘的运行指标；云平台的流量监测数据。

进一步地，所述分析方法还包括：

将采集到的故障点与推导出的故障发生根原因的集合进行对比，对故障发生模型的树形结构进行推导，获得故障发生路径。

进一步地，步骤S2中，获得伪量测数据和量测数据的统计特性之间的相关性的过程包括以下步骤：

S21，确定待分析的目标位置，获取目标位置相关的特征数据，定义该目标位置对应的广义函数并设定广义函数的分布参数、变化参数和异常参数，将目标位置相关的特殊数据作为广义函数的输入变量，以生成该目标位置的伪量测数据；目标位置相关的特征数据包括资源使用情况、网络负载和错误率；分布参数用于控制生成数据的概率分布特征，变化参数用于控制生成数据的变化趋势，异常参数用于引入异常情况或者故障模式；

S22，收集目标位置的伪量测数据和量测数据，伪量测数据和量测数据在目标位置上具有一致的数据格式和参数设置；其中，伪量测数据是模拟故障数据或由广义函数生成的故障数据，量测数据是实际采集到的数据；

S23，采用基于确定性采样的无迹变换方法，将伪量测数据和量测数据进行变换，将伪量测数据和量测数据映射到一组确定性采样点上；

S24，基于变换后的伪量测数据和量测数据，分别计算得到伪量测数据和量测数据的包括均值、方差、相关系数在内的统计指标，分析得到伪量测数据和量测数据的统计特性；

S25，根据伪量测数据和量测数据的各个统计指标的相关性，分析得到伪量测数据和量测数据的相关性程度，如果相关性程度高于预设相关性阈值，则判断应用发生故障。

进一步地，步骤S3中，采集并关联分析业务实例本身的内存和GC日志是否出现异常，如果异常，提示业务实例故障的过程包括以下步骤：

判断业务应用本身实例本身内存和GC日志是否出现异常，内存异常包括内存使用量异常增长、内存出现泄露、内存溢出，GC日志异常包括频繁的GC事件、GC时间过长，如果异常，采用关联规则挖掘算法，结合业务代码和内存泄露dump文件中存在应用代码的BLOCK日志定位得到故障原因。

进一步地，步骤S4中，采集业务应用所在云主机的性能指标，将业务实例本身的内存和GC日志与业务应用所在云主机的性能指标进行关联分析的过程包括：

S41，采集业务应用所在云主机的性能指标，云主机的性能指标包括云主机的CPU利用率、内存利用率、磁盘I/O和网络带宽；

S42，判断云主机的业务应用是否出现异常，如果异常，选取内存使用增长幅度、CPU利用率、网络带宽占用率、磁盘使用率和并发连接数作为测量指标，判断业务实例内存使用增长幅度是否超过预设的增长幅度峰值，如果超过，判断故障原因为云主机内存故障，结束流程，如果没有超过，转入步骤S43；

S43，分析云主机的CPU利用率是否超过预设的CPU利用率峰值，如果超过，判断故障原因为云主机CPU故障，结束流程，如果没有超过，转入步骤S44；

S44，从云主机的网络带宽占用率、磁盘使用率、并发连接数分析相关性，根据分析结果判断故障原因。

进一步地，步骤S5中，将步骤S3、步骤S4中采集到的数据与云平台主机的监测数据进行关联分析的过程包括以下步骤：

S51，收集云平台组件实例的监测数据，云平台组件实例的监测数据包括云平台组件实例的CPU使用率、内存使用率、磁盘I/O、连接数和流量；

S52，当业务故障出现时，首先对业务实例的监控数据进行分析判断，业务实例的监控数据包括业务实例的内存使用率、CPU使用率和磁盘I/O，如果业务实例的监控数据均未出现异常，则使用关联分析算法，将业务实例信息和业务应用所在主机的性能指标与云平台组件实例进行关联分析，对业务应用使用的云平台组件实例的监控数据进行分析，如果云平台组件实例的任意一个监控数据出现异常，提示云平台组件实例故障，转入步骤S1，否则，转入步骤S53；

S53，通过关联的云平台组件实例数据从云服务厂商侧找到云主机组件实例对应的云主机列表清单，采集云平台主机的性能指标，云平台主机的性能指标包括云平台主机的CPU使用率、内存使用率、磁盘I/O、连接数、流量；使用关联分析算法，将云平台主机的性能指标与业务实例信息、业务应用所在主机的性能指标进行关联分析，如出现一台或多台云平台主机的性能指标出现异常，提示云平台主机性能故障，转入步骤S1，否则，转入步骤S54；云平台组件实例数据包括云平台组件IP、组件实例ID数据；

S55，采集云平台流量监测数据，云平台流量监测数据信息包括入站流程、出站流量、带宽使用率、流量缝制、数据包丢失率；使用关联分析算法，将云平台流量监测数据与业务实例信息、业务应用所在云主机的性能指标、云平台主机的性能指标进行关联分析，当出现包括云平台监测到大量的非法请求、异常数据包导致云平台出现大面积的服务不可用情况在内的特殊场景时，判断云平台网络流量异常，转入步骤S1，否则，提示本次分析无结果，转入步骤S1。

进一步地，所述关联分析的过程包括：扫描数据集并计算每个测量指标的支持度，支持度是指某个测量指标在数据集中出现的频率；选择支持度大于最小支持度阈值的项集作为候选项集；基于候选项集生成候选关联规则；对于候选项集中的每个项集，生成其所有的非空子集作为规则的前提部分，再计算规则的置信度，只保留置信度大于等于给定最小置信度阈值的规则。

本发明还公开了一种基于微服务部署的应用和云平台跨层故障分析***，所述分析***包括应用指标采集***、云平台组件实例数据监控***和微服务全链路故障分析***；

所述应用指标采集***与云平台连接，对业务应用故障数据进行采集；所述云平台还与云平台统一监控***连接，云平台统一监控***用于云平台组件实例数据监控、云平台性能监测和云平台流量统计；云平台包括云服务器ECS、云数据库RDS、运营支撑***OSS；

所述云平台组件实例数据监控***用于采集云基础设施的监控告警数据；

所述微服务全链路故障分析***用于采用如前所述的分析方法对云平台提供的业务应用组件进行故障分析。

进一步地，所述分析***还包括全链路展现单元和可疑故障分析单元；

所述全链路展现单元用于对业务进行全链路展现；

所述可疑故障分析单元用于确定故障类型并提供相应发生故障的应急对策。

与现有技术相比，本发明的有益效果如下：

第一，本发明的基于微服务部署的应用和云平台跨层故障分析方法及***，不仅仅只从应用本身分析故障信息，而是结合应用所使用的云平台组件一起进行高效的故障分析，最终判断告警事件的根本原因，有效提升基于微服务架构及K8S部署架构的应用服务故障定位效率及可操作性；

第二，本发明的基于微服务部署的应用和云平台跨层故障分析方法及***，将应用指标采集***采集到的故障点与推导出的故障发生根原因的集合进行对比，并对故障发生模型的树形结构进行推导，获得故障发生路径，提高故障分析的精准；

第三，本发明的基于微服务部署的应用和云平台跨层故障分析方法及***，获得伪量测的统计特性及其与量测数据之间的相关性，利用目标位置进行过渡，将伪量测抽象为量测的广义函数，采用基于确定性采样的无迹变换来分析伪量测与量测之间的相关性，并判断应用是否出现异常；

第四，本发明的基于微服务部署的应用和云平台跨层故障分析方法及***，通过可疑故障分析单元对所采集的数据以及所存储的数据进行汇总分析和综合判断，从而分析得出应用与云平台跨层故障是否发生、确定故障类型并提供相应发生故障的应急对策，进一步减小了故障发生时庞大的工作量以及紧迫性，故障发生时，首先***会给出相应的应急对策，根据该应急对策处理故障，而后再根据相关数据对故障原因进行详细分析，进而再根据详细分析的结果去调整运行参数；

第五，本发明的基于微服务部署的应用和云平台跨层故障分析方法及***，通过故障状态判断单元，根据数据分析计算的结果，判断跨层故障的级别，并进行报警提醒，及时派遣相关技术人员对故障进行排除。

附图说明

图1为本发明的应用指标采集***的数据采集示意图；

图2为本发明的基于微服务部署的应用和云平台跨层故障分析方法流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

参见图2，本发明公开了一种基于微服务部署的应用和云平台跨层故障分析方法，所述分析方法用于对云平台提供的业务应用组件进行故障分析；所述云平台采用kubernetes部署架构，业务应用基于微服务部署，不同的微服务部署在多个容器部署单元中；云平台本身提供组件能力，包括存储、缓存、日志等。

所述分析方法包括以下步骤：

相应的，本发明还公开了一种基于微服务部署的应用和云平台跨层故障分析***，所述分析***包括应用指标采集***、云平台组件实例数据监控***和微服务全链路故障分析***；

参见图1，所述应用指标采集***与云平台连接，对业务应用故障数据进行采集；所述云平台还与云平台统一监控***连接，云平台统一监控***用于云平台组件实例数据监控、云平台性能监测和云平台流量统计；云平台包括云服务器ECS、云数据库RDS、运营支撑***OSS。优选的，应用指标采集***会对采集到的应用数据进行实时处理，例如采用大数据处理平台对应用采集数据实时分析，未超过设定阈值的数据不进行数据拦截处理，超过设定阈值的数据则进行拦截处理，超过设定阈值的数据，自动生成告警事件，由告警事件触发全链路告警数据分析及展示。在本发明中，应用数据多使用无侵入式探针方式进行采集，获取主机的CPU、内存、磁盘、网络数据。

所述云平台组件实例数据监控***用于采集云基础设施的监控告警数据；基础设施监控告警一般都是在应用创建之初进行配置的，涵盖应用和所有的中间件、网络；基础设施异常包括网络、容量、连接、磁盘、缓存、JVM中间件或者底层硬件设施产生的异常；基础设施的异常分多种，例如程度较轻的仅仅是短期内的负载高，严重的某个中间件不可用、机房断电，光缆被挖断，其异常的严重程度直接决定了影响面，可能错误率飙高、RT飙高、消息阻塞、FullGC频繁，影响到***的持续稳定性，也可能***瘫痪不可用、网络不可用、流量跌零；云平台内外部网络以及运行在云平台服务器上的虚拟化软件组件的运行情况，直接影响应用服务的带宽、时延和可靠性；基于云平台的网络性能测量非常重要，可以通过在网络数据包头增加OAM字段来实现对网络故障检测、路径测量、流量等的监测；业务级监测记录则可以使用Netflow/IPFIX、sFlow基于采样的工具，生成网络资源矩阵和流量矩阵；云故障分析涵盖IT设施基础故障分析和外网网络质量拨测故障分析，是基于事件、自定义指标和日志的业务故障分析，提供全方位更高效、全面、省钱的故障分析服务；云故障分析通过提供跨云服务和跨地域的应用分组管理模型和报警模板，支撑数万实例的高效故障分析报警管理体系；云故障分析用于故障分析各云服务资源的故障分析指标，探测云服务ECS的可用性，并针对指定故障分析指标设置报警，支撑全面了解云上资源的使用情况和业务运行状况，并及时对故障资源进行处理，保证业务正常运行。

所述微服务全链路故障分析***用于采用如前所述分析方法对云平台提供的业务应用组件进行故障分析。在本发明中，应用实时故障分析包括前端故障分析、应用故障分析、云拨测、Prometheus故障分析，覆盖浏览器、小程序、APP、分布式应用、容器不同可观测环境与场景。因此，本发明的微服务全链路故障分析***能够基于前端、应用、业务自定义维度，为企业构建秒级响应的应用故障分析能力。以前端故障分析为例，全面获取Web端性能数据，覆盖Web应用、网站、小程序不同客户端，对前端性能进行多维度可视化分析，通过对页面性能、网络性能、资源加载、JS错误进行分析，实现代码级问题根因定位。

应用故障数据与云平台监控数据匹配关联，应用故障数据，并判断应用是否出现异常，动态更新列表并匹配对应云主机列表，判断云主机是否存在异常、云平台网络性能是否存在异常、云平台流量是否存在异常。电力行业云平台采用kubernetes部署架构，业务应用基于微服务部署，不同的微服务部署在多个pod中；云平台本身提供组件能力，包括存储、缓存、日志功能；在kubernetes环境下，微服务单元的pods将是高度动态的、分散的；IP、网段和物理位置将会随时发生变化；因此直接采用IP等特征进行静态化策略设定将是一件不可能的事情；需要结合应用标签、服务名或命名空间进行静态化策略设定，实施监控云平台kubernetes部署架构，一旦IP、网段和物理位置发生变化实时更新应用主机对应的资源信息更新全链路监控数据，最终达到动态化的感知云平台组件变化。

步骤S2中，针对待分析的目标位置，需要收集足够数量的伪量测数据，并使用统计方法对其进行分析。例如，基于收集到的伪量测数据计算伪量测数据的均值、方差、相关系数等统计指标，分析其统计特性；对出现故障同一时间段内的量测数据进行类似的统计分析，以获得量测数据的统计特性；比较伪量测数据和量测数据的统计特性，例如比较它们的均值、方差、相关系数等，以确定它们之间的相关性程度。伪量测是目标位置估计的函数，确定其统计特性较为简单，然而量测与伪量测之间并不存在直接的映射关系，解析地计算二者之间的互协方差较为困难，因此，需利用目标位置进行过渡,将伪量测抽象为量测的广义函数，采用基于确定性采样的无迹变换来分析伪量测与量测之间的相关性。

具体地，获得伪量测数据和量测数据的统计特性之间的相关性的过程包括以下步骤：

S21，确定待分析的目标位置，获取目标位置相关的特征数据，定义该目标位置对应的广义函数并设定广义函数的分布参数、变化参数和异常参数，将目标位置相关的特殊数据作为广义函数的输入变量，以生成该目标位置的伪量测数据；目标位置相关的特征数据包括资源使用情况、网络负载和错误率；分布参数用于控制生成数据的概率分布特征，变化参数用于控制生成数据的变化趋势，异常参数用于引入异常情况或者故障模式。

S22，收集目标位置的伪量测数据和量测数据，伪量测数据和量测数据在目标位置上具有一致的数据格式和参数设置；其中，伪量测数据是模拟故障数据或由广义函数生成的故障数据，量测数据是实际采集到的数据。

本发明中的广义函数是一个用于生成伪量测数据的函数，该函数的参数可以控制生成数据的分布、变化率、异常情况等。广义函数的参数包括：

（1）分布参数：用于控制生成数据的概率分布特征，如均值、标准差等。根据实际场景和需求选择适当的概率分布，如正态分布、指数分布等。

（2）变化参数：用于控制生成数据的变化趋势，如趋势系数、季节性变化等。根据***的周期性或趋势性特点设置相应的参数，以模拟实际***中的变化。

（3）异常参数：用于引入异常情况或故障模式。通过设置异常参数来模拟***中的异常行为，如突发的高负载、网络中断等。

广义函数的输入变量包括与目标位置相关的特征数据，如资源使用情况、网络负载、错误率等。这些特征数据可以作为输入变量传递给广义函数，以便根据实际情况生成相应的伪量测数据。

S23，采用基于确定性采样的无迹变换方法，将伪量测数据和量测数据进行变换，将伪量测数据和量测数据映射到一组确定性采样点上，可以在保持相关性的同时，对数据进行数学分析和计算；

S25，根据伪量测数据和量测数据的各个统计指标的相关性，分析得到伪量测数据和量测数据的相关性程度，如果相关性程度高，则判断应用发生故障。

所述分析方法还包括：

首先以Apriori算法为例，本申请的关联规则挖掘算法的工作原理为：扫描数据集并计算每个测量指标的支持度（支持度是指某个测量指标在数据集中出现的频率）；根据给定的最小支持度阈值，选择频繁项集（支持度大于等于阈值的项集）作为候选项集；基于候选项集生成候选关联规则；对于候选项集中的每个项集，生成其所有的非空子集作为规则的前提部分，然后计算规则的置信度，仅保留置信度大于等于给定最小置信度阈值的规则。

具体地，步骤S3中，采集并关联分析业务实例本身的内存和GC日志是否出现异常。业务应用本身实例本身内存异常的表现包括内存使用量异常增长、内存出现泄露、内存溢出等；GC日志异常包括频繁的GC事件、GC时间过长等。在步骤S3中，通过关联规则挖掘算法，根据当前故障信息分析是否由于应用实例本身内存、GC导致，例如结合业务代码和内存泄露dump文件中存在应用代码的BLOCK日志则可以直接定位出故障原因。

步骤S4中，采集业务应用所在主机的性能指标，将业务实例本身的内存和GC日志与业务应用所在主机的性能指标进行关联分析。云主机的性能指标包括云主机的CPU利用率、内存利用率、磁盘I/O，网络带宽等。以数据批量下载业务为例，数据批量下载业务涉及业务实例的内存增长、云主机的CPU利用率增长、云主机的网络带宽占用率提高等，如果数据批量下载业务出现异常时首先判断业务实例内存使用增长情况是否超过峰值，进一步分析云主机的CPU利用率情况是否超过峰值，如上述两个指标都未出现明显异常，则可以从云主机的网络带宽占用率、磁盘使用率、并发连接数等情况分析相关性，判断故障原因。

步骤S5中，将步骤S3、步骤S4中采集到的数据与云平台主机的监测数据进行关联分析的过程包括以下步骤：

S51，收集云平台组件实例的监测数据，云平台组件实例的监测数据包括云平台组件的内存、磁盘的运行数据；

S52，使用关联分析算法，将业务实例信息和业务应用所在主机的性能指标与云平台组件实例进行关联分析：业务实例的监控数据包括业务实例的内存使用率、CPU使用率、磁盘I/O等，云平台组件实例的监控指标（如mysql数据库实例指标）包括云平台组件实例的CPU使用率、内存使用率、磁盘I/O、连接数、流量等，当业务故障出现时，首先对业务实例的监控数据进行分析判断，如均未出现异常则使用关联分析算法，将业务实例信息和业务应用所在主机的性能指标与云平台组件实例进行关联分析，对业务应用使用的云平台组件实例的监控数据进行分析，如果云平台组件实例的任意一个监控指标出现异常，提示云平台组件实例故障，转入步骤S1，否则，转入步骤S53；

S53，通过关联的云平台组件实例找到其对应的云平台主机，采集云平台主机的性能指标；云主机组件实例（例如mysql数据库实例）是一种云服务，托管于云主机，关联分析时首先从云服务厂商侧获取云主机组件实例对应的云主机列表清单，从云主机列表中依次获取其监测指标（如云平台主机的CPU使用率、内存使用率、磁盘I/O、连接数、流量等）。使用关联分析算法，将云平台主机的性能指标与业务实例信息、业务应用所在云主机的性能指标进行关联分析，如出现一台或多台云平台主机的性能指标出现异常，提示云平台主机性能故障，转入步骤S1，否则，转入步骤S54；云平台组件实例数据包括云平台组件IP、组件实例ID数据。

S55，采集云平台流量监测数据，应用主机是云平台的组成部分之一，它与其他主机共享同一网络资源和磁盘资源，云平台流量监测数据信息包括入站流程、出站流量、带宽使用率、流量缝制、数据包丢失率等；使用关联分析算法，将云平台流量监测数据与业务实例信息、业务应用所在云主机的性能指标、云平台主机的性能指标进行关联分析，当出现包括云平台监测到大量的非法请求、异常数据包导致云平台出现大面积的服务不可用情况在内的特殊场景时，判断云平台网络流量异常，转入步骤S1，否则，提示本次分析无结果，转入步骤S1。

业务应用发生故障时，首先分析业务实例本身的内存、GC情况，进一步的关联分析应用所在主机的CPU、内存、网络、磁盘情况；业务应用发生故障时，经过关联分析后发现业务实例本身、所在主机都没有异常数据时，进一步关联云平台组件实例信息，如：缓存服务、存储服务，通过云平台组件实例找到其对应的云平台主机，进一步分析云主机的CPU、内存、磁盘等问题；再进一步与云平台性能监测、流量监测数据进行比对分析，判断是否由于云平台本身的性能瓶颈、网络流程峰指导致的网络抖动影响业务应用侧的故障告警信息。

下面通过几个案例对本申请的故障分析过程进行说明：

一、故障定位案例：某个数据生成接口概率性出现报错。通过关联分析算法分析该接口故障与其他因素之间的关联性，分析到某个文件服务器所在的某个云主机的CPU、内存使用率达到特定异常值以上后，数据生成接口会出现大量的报错信息。通过分析这些关联关系，可以快速定位故障的原因，并采取相应的措施进行修复和优化。

二、业务问题与云平台问题的关联分析案例：通过关联分析算法，综合评估故障信息是否为业务问题还是云平台组件服务问题。例如，如果发现某个数据传输业务功能的错误频率与云平台组件的网络波动异常告警之间存在关联性，自动推断该业务功能的错误可能与云平台组件服务有关，进而与云平台团队合作解决问题。

三、例如某一个部署在云平台上的应用出现响应卡顿问题时，可使用如下分析步骤进行分析：

（1）分析业务实例内存和GC情况：

收集业务实例的内存使用情况和GC（垃圾回收）日志数据；

使用关联分析算法，例如关联规则挖掘算法，找到内存使用和GC情况之间的关联关系；

如果业务实例本身内存和GC未出现明显异常情况则继续下一步分析。

（2）关联分析应用所在主机的CPU、内存、网络、磁盘情况：

收集应用所在主机的CPU、内存、网络、磁盘的监测数据；

使用关联分析算法，将业务实例的内存和GC情况与主机的性能指标进行关联分析；

如果业务实例本身所在主机未出现如上异常情况则继续下一步分析。

（3）关联分析云平台组件实例信息：

收集云平台组件实例的监测数据，例如云平台组件的内存、磁盘使用情况；

使用关联分析算法，将业务实例和主机的情况与云平台组件实例进行关联分析；

如果云平台组件实例本身未出现如上异常情况则继续下一步分析。

（4）分析云主机的CPU、内存、磁盘问题：

通过关联分析，确定与云平台组件实例关联的云主机。

收集云主机的CPU、内存、磁盘的监测数据。

使用关联分析算法，将云主机的性能指标与业务实例、主机的情况进行关联分析；

如果云主机未出现如上异常情况则继续下一步分析。

（5）与云平台性能监测、流量监测数据进行比对分析：

收集云平台性能监测和流量监测的数据，例如网络流程、网络抖动等。

使用关联分析算法，将云平台监测数据与业务实例、主机、云主机的情况进行关联分析。

最终发现云平台性能瓶颈或网络流程峰值导致了业务应用侧的故障告警信息。

故障规则设定的方法通常基于运维人员操作经验，分别对主机的CPU、内存、磁盘、网络数据设定对应的阈值参数。

所述分析***还可以根据实际需求设置全链路展现单元、故障发生路径推导单元、可疑故障分析单元、故障状态判断单元等模块。

其中，全链路展现单元用于对业务进行全链路展现，或者接收云平台推送的实时告警数据，由云平台侧告警数据触发全链路数据追踪及展示功能；由于云平台基于K8S部署架构自动扩缩容，当P、网段发生变化后，云平台还可以主动将数据推送至全链路展现单元，全链路展现单元自动更新云服务的数据列表。全链路展现单元基于多语言多环境开发，实时洞察应用性能，监测前端设备到数据库的端到端分布式追踪及代码级实时性能，配合丰富的图表分析与链路追踪功能，帮助运维人员随时掌握应用健康状况，梳理服务依赖关系、减少延迟并消除故障。

在本发明中，所述微服务全链路故障分析***对应用进行全方位故障分析，快速定位出错接口和慢接口、重现调用参数、发现***瓶颈，同时快速关联云平台统一监控***综合评估故障信息是否为业务问题还是云平台组件服务问题；故障发生路径推导单元还可以将应用指标采集***采集到的故障点与推导出的故障发生根原因的集合进行对比，并对故障发生模型的树形结构进行推导。微服务全链路故障分析***根据业务应用和全链路故障分析需求，利用AI能力梳理云平台组件实例级故障分析信息，根据业务需要和组织管理需求自动发现应用拓扑、3D拓扑、捕获异常事务和慢事务、自动发现并故障分析接口、实时诊断、多维排查、同时支持链路追踪为分布式应用的开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑和应用依赖分析工具；链路追踪能够帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈，提高微服务时代下的开发诊断效率。运维人员、开发人员基于业务全链路视图进行线上问题的分析定位，可以查看业务调用请求量数据、查看完整的业务调用链路拓扑图、查看业务直接的调用关系，对线上问题进行全面的综合判断分析；运维人员、开发人员还可以实时查看云平台侧监控数据及告警异常，分析判断是否是云平台组件出现异常而影响的业务侧异常情况；微服务全链路故障分析无需修改代码，只需为应用安装一个探针，微服务全链路故障分析就能够对应用进行全方位故障分析，快速定位出错接口和慢接口、重现调用参数、发现***瓶颈，从而大幅提升线上问题诊断的效率。运维人员、开发人员基于业务全链路视图，可以从云平台组件实例异常进行反向推导，通过服务调用链路结合云平台组件实例监控数据，分析是否存在业务侧代码原因导致云平台实例IO暴增、数据库链接数增高、频繁FullGC情况。

可疑故障分析单元用于对所采集的数据以及所存储的数据进行汇总分析和综合判断，从而分析得出应用与云平台跨层故障是否发生、确定故障类型并提供相应发生故障的应急对策，进一步减小了故障发生时庞大的工作量以及紧迫性，故障发生时，首先***会给出相应的应急对策，根据该应急对策处理故障，而后再根据相关数据对故障原因进行详细分析，进而再根据详细分析的结果去调整运行参数。

故障状态判断单元用于根据数据分析计算的结果，判断跨层故障的级别，并进行报警提醒，及时派遣相关技术人员对故障进行排除。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，所述分析方法用于对云平台提供的业务应用组件进行故障分析；所述云平台采用kubernetes部署架构，业务应用基于微服务部署，不同的微服务部署在多个容器部署单元中；

所述分析方法包括以下步骤：

2.根据权利要求1所述的基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，所述分析方法还包括：

3.根据权利要求1所述的基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，步骤S2中，获得伪量测数据和量测数据的统计特性之间的相关性的过程包括以下步骤：

4.根据权利要求1所述的基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，步骤S3中，采集并关联分析业务实例本身的内存和GC日志是否出现异常，如果异常，提示业务实例故障的过程包括以下步骤：

5.根据权利要求1所述的基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，步骤S4中，采集业务应用所在云主机的性能指标，将业务实例本身的内存和GC日志与业务应用所在云主机的性能指标进行关联分析的过程包括：

6.根据权利要求1所述的基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，步骤S5中，将步骤S3、步骤S4中采集到的数据与云平台主机的监测数据进行关联分析的过程包括以下步骤：

7.根据权利要求1所述的基于微服务部署的应用和云平台跨层故障分析方法，其特征在于，所述关联分析的过程包括：扫描数据集并计算每个测量指标的支持度，支持度是指某个测量指标在数据集中出现的频率；选择支持度大于最小支持度阈值的项集作为候选项集；基于候选项集生成候选关联规则；对于候选项集中的每个项集，生成其所有的非空子集作为规则的前提部分，再计算规则的置信度，只保留置信度大于等于给定最小置信度阈值的规则。

8.一种基于微服务部署的应用和云平台跨层故障分析***，其特征在于，所述分析***包括应用指标采集***、云平台组件实例数据监控***和微服务全链路故障分析***；

所述微服务全链路故障分析***用于采用权利要求1-7任一项中的分析方法对云平台提供的业务应用组件进行故障分析。

9.根据权利要求8所述的基于微服务部署的应用和云平台跨层故障分析***，其特征在于，所述分析***还包括全链路展现单元和可疑故障分析单元；

所述全链路展现单元用于对业务进行全链路展现；