CN112714013B

CN112714013B - 一种在云环境下的应用故障定位方法

Info

Publication number: CN112714013B
Application number: CN202011524063.9A
Authority: CN
Inventors: 王东杰
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-02-03
Anticipated expiration: 2040-12-22
Also published as: CN112714013A

Abstract

本发明提供一种在云环境下的应用故障定位方法，属于云环境下应用运维领域，包括(1)通过对应用***分层，将应用所涉及的所有软硬设备集中统一监控管理，收集展示所有相关组件的性能数据、告警数据(2)应用产生故障时，通过聚合分析对应时刻产生的所有告警数据，快速定位故障产生的根本原因，以便后续的快速恢复(3)对于云租户无法掌控的公共设备，采取对比分析定位，可定位问题范围，结合云服务商技术支持可快速恢复(4)综合分析各层组件性能数据、调用性能数据，可以定位性能瓶颈，给出专业的性能优化策略。

Description

一种在云环境下的应用故障定位方法

技术领域

本发明涉及云环境下应用运维领域，尤其涉及一种在云环境下的应用故障定位方法。

背景技术

随着云计算技术日趋成熟，中小型企业及政务相关行业为了减轻日常服务器运维压力，转而将应用部署在云环境下，云环境下，单个租户无法掌握所有设备的具体情况，比如公用的交换机、防火墙、DDoS等设备；出于安全考虑，云服务商最多只能获取到云服务器的性能数据和公共设备的性能数据；此时，应用的运维问题逐渐凸显，无论云服务商还是租户都无法单独完成应用的运维工作。同时，在全国多家ISP背景之下，由于ISP提供的核心网络具有明显的地域差异，单个组合无力构建遍布全国的应用性能探测***。

云计算在带来便利的同时也带来更高的运维难度，传统的应用运维难以快速定位在复杂的云计算环境下的应用故障，比如由于公用网络设备导致的公网无法访问内网可以访问的故障、存储虚拟化带来的数据访问问题。

发明内容

为了解决以上技术问题，本发明提供了一种在云环境下的应用故障定位方法，实现在复杂网络环境下监控应用整体性能、定位应用故障根因、分析应用性能瓶颈、告警自动化等功能。

本发明的技术方案是：

一种在云环境下的应用故障定位方法，包括：

(1)通过对应用***分层，将应用所涉及的所有软硬设备集中统一监控管理，收集展示所有相关组件的性能数据、告警数据；

(2)应用产生故障时，通过聚合分析对应时刻产生的所有告警数据，快速定位故障产生的根本原因，以便后续的快速恢复

(3)对于云租户无法掌控的公共设备，采取对比分析定位，可定位问题范围，结合云服务商技术支持可快速恢复；

(4)综合分析各层组件性能数据、调用性能数据，可以定位性能瓶颈，给出专业的性能优化策略。

通过在应用所在的虚拟机或云物理机安装采集客户端，结合应用所需的最基本的网络拓扑信息，收集虚拟机性能信息，包括基础的CPU、磁盘、内存、网络、进程状态、防火墙信息等，收集应用所使用的中间件、数据库等组件的性能数据和日志数据，收集应用组件的相互调用的性能数据。

通过在网络不相连的业务子网，复用虚拟机或部署前置机，用于汇总性能、日志、告警数据，监测端口，监测主机网络状态数据，如IP地址、端口存活等

在政务云中心部署网络质量仿真分析***服务端；提供多个Rest API接口，用于采集客户端的注册，以及采集信息的接收存储、分析、告警及展示。通过针对数据库、消息队列、服务等方面的集群化部署，实现服务端的HA高可用特性；并通过负载均衡方式提升服务端Rest API的并发处理性能。

步骤如下：

(1)在应用所使用的所有虚机上部署数据采集agent，用户采集服务器性能、日志、告警数据；

(2)在网络隔离的不同的业务子网内各选定一台虚机，用于汇总整个业务子网内所有数据；

(3)对于规模较大的业务子网(子网内虚机超过200台)，单独创建一台前置机，用于汇总整个业务子网内所有数据；

(4)在政务云中心部署网络质量仿真分析***服务端；各业务子网的agent将数据汇总后，统一推送到服务端进行本地化存储；

(5)前台界面用于展示应用所在虚拟机的网络详情、手动配置监测端口、手动设置虚拟机是否需要监控、告警发送规则、分析告警产生原因；

(6)通过在不同地点，不同的互联网服务提供商提供的网络中部署采集节点，用于模拟用户访问，采集应用性能数据；

(7)应用故障定位***服务端定时分析客户端上送的采集信息，监测采集到的信息，进行告警处理，如果是应用由正常转为异常，则执行步骤(8)；如果是应用由异常恢复正常，则执行(9)；

(8)应用故障定位***服务端将异常信息推送至告警***的消息队列，进行告警；

(9)应用故障定位***服务端将异常解除信息推送至告警***的消息队列，进行告警清除。

(10)监控分为应用层、服务层、网络接口层、服务器层和公共设备层5个层次类别；应用层主要针对业务应用***的状态数据；服务层主要包括平台软件的状态数据；网络接口层主要包括主机网络状态数据，如IP地址、端口存活、上下行流量；服务器层主要包括主机BIOS与操作***状态数据；公共设备层主要包括整个云环境下所有业务子网公用的交换机、防火墙、DDoS设备。

5层组件是依赖关系，当应用发生故障时，通过逐层分析应用组件，快速定位应用故障，当其中一个层次的组件出现故障时，可及时处理，

应用故障的定位方法如下：通过多采集点拨测产生告警数据，对比内外网拨测数据以定位公共设备层问题，外部拨测产生告警而内部拨测正常则为公共设备层故障，都出现问题在可以暂时排除公共设备层问题；通过应用所使用服务层告警，对比网络接口层的端口存活情况，可定位设备问题，端口失活但服务层组件正常，可以定位设备问题，反之定位为服务层组件问题；服务组件故障则需进一步定位服务器层信息，通过判断进程状态、CPU、内存、磁盘、网络的具体信息，可具体定位导致应用故障的服务器故障。

进一步的，

在应用所在的其中一个业务子网内部署应用故障定位***服务端，用于用户自定义配置、应用整体情况信息展示、应用故障告警；

通过针对数据库、消息队列、服务方面的集群化部署，实现服务端的HA高可用特性；并通过负载均衡方式提升服务端Rest API的并发处理性能；

所述服务端需要保证同时与应用所在的不同业务子网的用于数据汇总的虚拟机联通，以收集汇总所有性能、日志、告警数据，实现对应用故障的定位。

进一步的，

应用故障定位***的服务端从部署在公网、不同地区、不同服务商的采集节点获取模拟访问数据，用于快速发现应用故障；

可根据应用的服务范围，动态调整采集节点的数量和位置；所述的采集点向服务端发起注册，注册成功后返回对应的数据上传接口信息；服务端定期发送应用信息，采集点异步完成采集指令返回采集到的性能告警数据；

服务端整合虚拟机性能数据、模拟访问数据、应用内部相互调用数据等多维度数据，通过聚合告警数据快速定位应用故障位置，快速恢复应用。

进一步的，

根据采集点的业务能力说明，进一步包括：

采集点通过部署在不同的地域、不同的ISP网络中，用于监测应用对在不同地域、不通ISP网络中用户提供服务的服务质量，横向对比(这些采集点的性能数据：同一时刻、同一对象、同一指标比对)这些采集点的性能数据，展示不同ISP的网络质量；综合所有告警数据，发现应用故障，快速定位或排除ISP原因。

采集点部署在云环境内部和公网。

进一步的，

根据采集点的能力说明，进一步包括：

采集点具备应用拨测能力，即根据应用访问方式，自动化模拟访问，获取应用性能数据，产生应用故障告警；

采集点具备DNS解析能力，即将URL中的域名自动化转换为IP的能力，用于监测域名是否过期，并产生域名失效告警；

采集点具备端***性探测能力，即探测应用所用端口是否存活，获取TCP连接性能数据，并产生TCP端口失活告警；

采集点具备主机活性探测能力，综合TCP端***性探测、Ping探测、链路探测手段，探测主机活性，产生主机失活告警。

本发明的有益效果是：

通过告警聚合分析，可快速定位应用故障根因；帮助应用运维人员快速恢复故障，在实际测试中，故障定位时长从小时级缩短为分钟级

分层展示应用所用组件的性能数据、调用链性能数据，可直观展示应用性能瓶颈，帮助改善应用性能

通过在虚拟机内部汇总性能、日志等数据，可有效避免网络中出现大量数据包，同时不会因为性能数据采集而降低服务器性能

以虚拟机为粒度动态调整告警策略，可有效避免由于局部网络设备、操作***等其他无关因素导致的无告警，提高告警准确率

长时间存储分析展示性能数据，可以用于动态调整应用所用资源，预测应用故障，动态扩容，从根本预防故障产生。

附图说明

图1：存在多个业务子网的应用故障定位***架构图；

图2：服务端架构图；

图3：应用故障定位流程图；

图4：应用故障定位***逻辑分析架构；

图5：多采集点拨测架构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图1、图2分别对应用故障定位***服务端、前置机和agent继续部署安装、打通调试网络、服务端信息配置、agent信息配置。

按照图1进行***服务端、前置机机和agent进行部署安装,选择一个子网部署服务端，整合较小的业务子网，根据需求部署前置机，并打通网络，保证前置机与服务端的联通性，配置agent信息。

按照图2、图3部署server集群和数据库集群，使用副本方式搭建数据库集群，一台数据库负责写入，两台负责读取；使用三台服务器部署服务端，并在服务端所在的服务器上部署Nginx服务并配置负载均衡，使用Keeplived实现高可用，并向外暴露API提供访问，限制流量。

按照图3对告警进行拟合分析，定位应用故障根因

按照图4进行多采集点探测，整合分析多采集点探测信息，汇总到高密级的子网内，最终对比分析展示给运维人员。

具体步骤如下：

(1)在应用所使用的所有虚机上部署数据采集agent，用户采集服务器性能、日志、告警等数据；

(3)对于规模较大的业务子网，可单独创建一台前置机，用于汇总整个业务子网内所有数据，避免影响应用所在虚拟机的性能；

(7)应用故障定位***服务端定时分析客户端上送的采集信息，使用特定的规则监测采集到的信息，进行告警处理，如果是应用由正常转为异常，则执行(8)；如果是应用由异常恢复正常，则执行(9)；

(10)监控可以分为应用层、服务层、网络接口层、服务器层和公共设备层5个层次类别。应用层主要针对业务应用***的可用性、性能等状态数据；服务层主要包括中间件、数据库等平台软件的状态数据；网络接口层主要包括主机网络状态数据，如IP地址、端口存活、上下行流量等；服务器层主要包括主机BIOS与操作***状态数据，包括CPU负载、内存占用率、磁盘I/O等；公共设备层主要包括整个云环境下所有业务子网公用的交换机、防火墙、DDoS等设备。

通过对多个应用***架构进行分析，可以将应用***分为5个层次，分别为应用层、服务层、网络接口层、服务器层和公共设备层，5层组件是依赖关系。当应用发生故障时时，通过逐层分析应用组件，可快速定位应用故障，当某个层次的组件出现故障时，可及时处理避免影响应用

应用故障的定位方法如下：通过多采集点拨测产生告警数据，对比内外网拨测数据以定位公共设备层问题，外部拨测产生告警而内部拨测正常则为公共设备层故障，都出现问题在可以暂时排除公共设备层问题；通过应用所使用服务层告警，对比网络接口层的端口存活情况，可定位防火墙等设备问题，端口失活但服务层组件正常，可以定位防火墙等设备问题，反之定位为服务层组件问题；服务组件故障则需进一步定位服务器层信息，通过判断进程状态、CPU、内存、磁盘、网络等具体信息，可具体定位导致应用故障的服务器故障

在应用所在的某个业务子网内部署应用故障定位***服务端，用于用户自定义配置、应用整体情况信息展示、应用故障告警。

通过针对数据库、消息队列、服务等方面的集群化部署，实现服务端的HA高可用特性；并通过负载均衡方式提升服务端Rest API的并发处理性能。

所述服务端需要保证同时与应用所在的不同业务子网的用于数据汇总的虚拟机联通，以收集汇总所有性能、日志、告警等数据，实现对应用故障的高效定位

应用故障定位***的服务端可以从部署在公网、不同地区、不同服务商的采集节点获取模拟访问数据，用于快速发现应用故障。

可以根据应用的服务范围，动态调整采集节点的数量和位置。所述的采集点向服务端发起注册，注册成功后返回对应的数据上传接口信息。服务端定期发送应用信息，采集点异步完成采集指令返回采集到的性能告警数据；

服务端整合虚拟机性能数据、模拟访问数据、应用内部相互调用数据等多维度数据，通过聚合告警数据快速定位应用故障位置，快速恢复应用

根据采集点的业务能力说明，进一步包括：

采集点通过部署在不同的地域、不同的ISP网络中，用于监测应用对在不同地域、不通ISP网络中用户提供服务的服务质量，横向对比这些采集点的性能数据，展示不同ISP的网络质量。综合所有告警数据，可快速准确发现应用故障，快速定位或排除ISP原因。

采集点部署在云环境内部和公网，衡量云服务商提供的公共设备的性能，综合比对云环境内部和公网采集点产生的告警信息，可快速定位由云服务商提供的公共设备发生故障导致的应用故障。

根据采集点的能力说明，进一步包括：

采集点要具备应用拨测能力，即根据应用访问方式，自动化模拟访问，获取应用性能数据，产生应用故障告警。

采集点要具备DNS解析能力，即将URL中的域名自动化转换为IP的能力，用于监测域名是否过期，并产生域名失效告警。

采集点要具备端***性探测能力，即探测应用所用端口是否存活，获取TCP连接性能数据，并产生TCP端口失活告警。

采集点要具备主机活性探测能力，综合TCP端***性探测、Ping探测、链路探测手段，探测主机活性，产生主机失活告警。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种在云环境下的应用故障定位方法，其特征在于，包括

1）通过对应用***分层，将应用所涉及的所有软硬设备集中统一监控管理，收集展示所有相关组件的性能数据、告警数据；

2）应用产生故障时，通过聚合分析对应时刻产生的所有告警数据，定位故障产生的根本原因；

3）对于云租户无法掌控的公共设备，采取对比分析定位，定位问题范围，结合云服务商技术支持可快速恢复；

4）综合分析各层组件性能数据、调用性能数据，定位性能瓶颈，给出专业的性能优化策略；

通过在应用所在的虚拟机或云物理机安装采集客户端，结合应用所需的网络拓扑信息，收集虚拟机性能信息，收集应用所使用的组件的性能数据和日志数据，收集应用组件的相互调用的性能数据；

通过在网络不相连的业务子网，复用虚拟机或部署前置机，用于汇总性能、日志、告警数据，监测端口，监测主机网络状态数据；

在政务云中心部署网络质量仿真分析***服务端；提供一个以上的Rest API接口，用于采集客户端的注册，以及采集信息的接收存储、分析、告警及展示；

步骤如下：

（1）在应用所使用的所有虚机上部署数据采集agent，用户采集服务器性能、日志、告警数据；

（2）在网络隔离的不同的业务子网内各选定一台虚机，用于汇总整个业务子网内所有数据；

（3）对于虚机超过200台的业务子网，单独创建一台前置机，用于汇总整个业务子网内所有数据；

（4）在政务云中心部署网络质量仿真分析***服务端；各业务子网的agent将数据汇总后，统一推送到服务端进行本地化存储；

（5）前台界面用于展示应用所在虚拟机的网络详情、手动配置监测端口、手动设置虚拟机是否需要监控、告警发送规则、分析告警产生原因；

（6）通过在不同地点，不同的互联网服务提供商提供的网络中部署采集节点，用于模拟用户访问，采集应用性能数据；

（7）应用故障定位***服务端定时分析客户端上送的采集信息，监测采集到的信息，进行告警处理，如果是应用由正常转为异常，则执行步骤（8）；如果是应用由异常恢复正常，则执行（9）；

（8）应用故障定位***服务端将异常信息推送至告警***的消息队列，进行告警；

（9）应用故障定位***服务端将异常解除信息推送至告警***的消息队列，进行告警清除；

（10）监控分为应用层、服务层、网络接口层、服务器层和公共设备层5个层次类别；应用层主要针对业务应用***的状态数据；服务层主要包括平台软件的状态数据；网络接口层主要包括主机网络状态数据；服务器层主要包括主机BIOS与操作***状态数据；公共设备层主要包括整个云环境下所有业务子网公用的交换机、防火墙、DDoS设备；

应用故障的定位方法如下：通过多采集点拨测产生告警数据，对比内外网拨测数据以定位公共设备层问题，外部拨测产生告警而内部拨测正常则为公共设备层故障，都出现问题在可以暂时排除公共设备层问题；通过应用所使用服务层告警，对比网络接口层的端口存活情况，可定位设备问题，端口失活但服务层组件正常，可定位设备问题，反之定位为服务层组件问题；服务组件故障则需进一步定位服务器层信息，通过判断进程状态、CPU、内存、磁盘、网络的具体信息，可具体定位导致应用故障的服务器故障。

2.根据权利要求1所述的方法，其特征在于：

3.根据权利要求2所述的方法，其特征在于

4.根据权利要求3所述的方法，其特征在于：

根据采集点的业务能力说明，进一步包括：

采集点通过部署在不同的地域、不同的ISP网络中，用于监测应用对在不同地域、不通ISP网络中用户提供服务的服务质量，横向对比这些采集点的性能数据，展示不同ISP的网络质量；综合所有告警数据，发现应用故障，快速定位或排除ISP原因；

采集点部署在云环境内部和公网。

5. 根据权利要求2所述的方法，其特征在于：根据采集点的能力说明，进一步包括：