CN111181767A - 一种面向复杂***的监控和故障自愈***及其方法 - Google Patents
一种面向复杂***的监控和故障自愈***及其方法 Download PDFInfo
- Publication number
- CN111181767A CN111181767A CN201911256239.4A CN201911256239A CN111181767A CN 111181767 A CN111181767 A CN 111181767A CN 201911256239 A CN201911256239 A CN 201911256239A CN 111181767 A CN111181767 A CN 111181767A
- Authority
- CN
- China
- Prior art keywords
- fault
- monitoring
- service
- module
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000003745 diagnosis Methods 0.000 claims abstract description 25
- 238000011084 recovery Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000012423 maintenance Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000010845 search algorithm Methods 0.000 claims description 2
- 238000012827 research and development Methods 0.000 abstract description 6
- 230000002265 prevention Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
- H04L41/0661—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明属于数据中心***运维技术,涉及一种面向复杂***的监控和故障自愈***及其方法。本发明包括资源与应用监控模块、业务关系模型模块、故障诊断分析模块、故障处理模块。本发明根据业务关系模型和监控指标数据,进行诊断分析,依据分析结果自动执行相应故障恢复操作,实现快速故障恢复和预防,提高运维效率,保障研发***良好运行。
Description
技术领域
本发明属于数据中心***运维技术,涉及一种面向复杂***的监控和故障自愈***及其方法。
背景技术
随着航空装备深入迈进数字化、信息化,整个研发体系日益庞大复杂,业务***不断增加,各***中组件扩增,关系日趋复杂。实现研发***的有效监控,问题故障的快速定位处理和预防,保障研发***良好运行十分必要。
传统的监控方式为面向主机、网络、存储及应用软件等进行分类列举,采集相应指标进行监控。故障定位需要多领域知识面广、经验丰富的专家协作完成,故障处理大量依赖人工完成,低效重复,容易遗漏出错。为提高运维效率,通过自动化运维脚本完成一些重复性工作,包括***监控、故障处理、日常巡检等。可以认为自动化运维是一种基于行业领域知识和运维场景的专家***。随着***规模的膨胀,以及服务类型的复杂多样,依赖人工判定的方法常常难以应对运维问题。
为应对数据中心规模扩展面临的运营管理需求,运维监控开始由传统面向基础资源监控转变为以应用为中心进行服务监控,并在问题故障处理中根据依赖关系进行诊断和处理。
现有技术有互联网领域商用***,可实现监控和故障自愈,但是成本高,且多基于微服务和容器化应用,无法在制造业传统专业软件***有效使用。
发明内容
本发明的目的是:提供一种简单有效的面向复杂***的监控和故障自愈***及其方法,可快速进行故障恢复和预防,提高运维效率,保障研发***良好运行。
本发明的技术方案是:
一种面向复杂***的监控和故障自愈***,包括资源与应用监控模块、业务关系模型模块、故障诊断分析模块、故障处理模块,其中:
资源与应用监控模块:负责对主机、中间件、应用服务层及业务日志进行监控指标数据采集;
业务关系模型模块:负责业务服务拓扑关系管理和服务部署信息管理;
故障诊断分析模块:负责业务服务告警处理及故障诊断,诊断完成后,将故障节点依赖的对象入待检测队列,由检测服务进行指标数据分析,判定是否异常,如判定异常,则通知故障处理模块处理;所述故障诊断,依据:a.资源与应用监控模块到的监控指标数据;b.业务关系模型模块中的业务服务拓扑关系和服务部署信息;
故障处理模块:负责启动故障恢复操作作业。
进一步的,所述故障处理模块中,故障恢复操作作业包括服务进程重启、磁盘目录清理、服务器主机重启;故障恢复操作作业通过安装在主机上的远程管控Agent进行执行。
进一步的,所述故障恢复操作作业描述包括作业名、执行对象、作业脚本。
进一步的,所述故障诊断分析模块中,异常的判定方式包括静态阈值、环比、是否可用。
一种基于上述***的方法,包括以下步骤:
步骤一,通过部署在被监控对象上的数据采集Agent,周期性进行监控指标数据采集;所述被监控对象包括主机、中间件、应用服务层;
步骤二,运维人员通过业务关系模型模块,构建各应用***业务服务拓扑关系信息和服务部署信息;
步骤三,故障诊断分析模块定时对应用服务层的业务服务可用性进行探测,如发现服务不可用,启动检测服务作业,依据业务关系模型数据,将故障节点依赖的对象入待检测队列,检测服务依次取队列对象进行监控指标数据分析,判定指标数据是否异常,如判定异常,则发送故障告知消息通知故障处理模块处理;
步骤四,故障处理模块依据故障告知消息,通过远程管控Agent,执行故障恢复操作作业。
进一步的,所述步骤三中,将故障节点依赖的对象入待检测队列的过程如下:针对故障对象节点,在业务服务拓扑关系图中,按广度优先搜索算法搜索依赖应用服务对象节点,入待检测队列,同时依据服务部署信息,将依赖服务对象节点的部署位置对象,也入待检测队列。
进一步的,所述步骤一中,针对不同监控对象,进行预设监控指标数据采集,其中主机监控指标包括CPU利用率、内存利用率、磁盘空间占用率、网络流量、TCP连接数、进程数;中间件监控指标包括进程存活、JVM占用内存大小、会话数、线程池大小;应用服务层监控指标包括服务可用性和响应时间,通过HTTP/TCP对目标服务进行服务拨测。
进一步的,所述步骤一中,采集后的监控数据存入资源与应用监控模块的监控数据库,其数据点格式为:监控数据格式=监控对象名+标签+指标名+监控值+时间戳。
进一步的,所述步骤三中,所述故障告知消息包括故障节点,异常类型和故障恢复操作作业名。
本发明的有益效果是:本发明通过构建业务关系模型,以应用为中心,清晰描述了应用服务之间、应用服务与部署节点的关系;故障诊断分析依据业务关系模型和监控指标数据,自动分析结果并执行相应故障恢复操作,能快速进行故障恢复和预防,避免人工遗漏和误操作,节约人力成本,提高运维效率,保障研发***良好运行。
附图说明
图1为本发明监控及故障自愈***框架图;
图2为本发明具体实施方式中的业务关系模型示意图;
图3为本发明具体实施方式中的待检测队列过程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步描述。
本发明一种面向复杂***的监控和故障自愈***,包括资源与应用监控模块、业务关系模型模块、故障诊断模块、故障处理模块,其中:其***框架如图1。
***各模块功能为:
a)资源与应用监控模块:负责对主机、中间件、应用服务层及业务日志进行监控指标数据采集。
b)业务关系模型模块:负责业务服务拓扑关系管理和服务部署信息管理。
c)故障诊断分析模块:负责业务服务告警处理及故障诊断,诊断过程依据业务关系模型,将故障节点依赖的对象入待检测队列,由检测服务进行指标数据分析,判定是否异常。如判定异常,通知故障处理模块处理。
d)故障处理模块:负责启动故障恢复操作作业,如通过远程管控Agent拉起进程等。
其上述的业务关系模型模块中,其业务服务拓扑关系采用有向无循环图(DAG)进行描述,其服务部署信息采用数据表形式描述,如图2、表1所示。
表1服务部署信息示意表
服务名 | 部署位置对象 |
服务A | 主机A |
服务B | 主机B |
服务C | 主机B |
服务D | 主机C |
服务E | 主机C |
其上述的故障诊断分析模块中,当应用服务不可用时,依据业务关系依赖拓扑DAG图和服务部署信息表,将故障节点依赖的监控对象节点入待检测队列(如图3),由检测服务依次对待检测队列中对象节点的监控指标数据进行分析,判定是否异常,异常判定方式可为静态阈值、环比、是否可用等。当确定监控对象异常时,处理方式包括消息方式通知运维人员和通知故障处理模块自愈处理2种方式。
其上述的故障处理模块中,自愈处理作业包括服务进程重启、磁盘目录清理、服务器主机重启。其作业描述包括作业名、执行对象、作业脚本。通过安装在主机上的远程管控Agent进行执行。
本发明一种基于上述***的方法,包括以下步骤:
步骤一,通过部署在被监控对象上的数据采集Agent,周期性(如T时间)进行监控指标数据采集;针对不同监控对象,进行预设监控指标数据采集,其中主机监控指标包括CPU利用率、内存利用率、磁盘空间占用率、网络流量、TCP连接数、进程数等;中间件监控指标包括进程存活、JVM占用内存大小、会话数、线程池大小等;应用服务监控指标包括服务可用性和响应时间等,通过HTTP/TCP对目标服务进行服务拨测。采集后的监控数据存入资源与应用监控模块的监控数据库,其数据点格式为
监控数据格式=监控对象名+标签+指标名+监控值+时间戳。
步骤二,运维人员通过故障诊断分析模块,构建各应用***业务服务拓扑关系信息和服务部署信息。
步骤三,故障诊断分析模块定时对业务服务可用性进行探测,如发现服务不可用,启动故障检测服务作业,依据业务关系模型数据,将故障节点依赖的对象入待检测队列,检测服务依次取队列对象进行监控指标数据分析,判定指标数据是否异常,如判定异常,则通知故障处理模块处理,告知消息包括故障节点,异常类型和故障恢复操作作业名。
步骤四,故障处理模块依据故障告知消息,通过远程管控Agent,进行故障恢复操作作业执行。
Claims (9)
1.一种面向复杂***的监控和故障自愈***,其特征为:所述***包括资源与应用监控模块、业务关系模型模块、故障诊断分析模块、故障处理模块,其中:
资源与应用监控模块:负责对主机、中间件、应用服务层及业务日志进行监控指标数据采集;
业务关系模型模块:负责业务服务拓扑关系管理和服务部署信息管理;
故障诊断分析模块:负责业务服务告警处理及故障诊断,诊断完成后,将故障节点依赖的对象入待检测队列,由检测服务进行指标数据分析,判定是否异常,如判定异常,则通知故障处理模块处理;所述故障诊断,依据:a.资源与应用监控模块到的监控指标数据;b.业务关系模型模块中的业务服务拓扑关系和服务部署信息;
故障处理模块:负责启动故障恢复操作作业。
2.根据权利要求1所述的监控和故障自愈***,其特征为:所述故障处理模块中,故障恢复操作作业包括服务进程重启、磁盘目录清理、服务器主机重启;故障恢复操作作业通过安装在主机上的远程管控Agent进行执行。
3.根据权利要求2所述的监控和故障自愈***,其特征为:所述故障恢复操作作业描述包括作业名、执行对象、作业脚本。
4.根据权利要求1所述的监控和故障自愈***,其特征为:所述故障诊断分析模块中,异常的判定方式包括静态阈值、环比、是否可用。
5.一种基于权利要求1所述***的监控和故障自愈方法,其特征为所述方法包括以下步骤:
步骤一,通过部署在被监控对象上的数据采集Agent,周期性进行监控指标数据采集;所述被监控对象包括主机、中间件、应用服务层;
步骤二,运维人员通过业务关系模型模块,构建各应用***业务服务拓扑关系信息和服务部署信息;
步骤三,故障诊断分析模块定时对应用服务层的业务服务可用性进行探测,如发现服务不可用,启动检测服务作业,依据业务关系模型数据,将故障节点依赖的对象入待检测队列,检测服务依次取队列对象进行监控指标数据分析,判定指标数据是否异常,如判定异常,则发送故障告知消息通知故障处理模块处理;
步骤四,故障处理模块依据故障告知消息,通过远程管控Agent,执行故障恢复操作作业。
6.根据权利要求5所述的监控和故障自愈方法,其特征为:所述步骤三中,将故障节点依赖的对象入待检测队列的过程如下:针对故障对象节点,在业务服务拓扑关系图中,按广度优先搜索算法搜索依赖应用服务对象节点,入待检测队列,同时依据服务部署信息,将依赖服务对象节点的部署位置对象,也入待检测队列。
7.根据权利要求5所述的监控和故障自愈方法,其特征为:所述步骤一中,针对不同监控对象,进行预设监控指标数据采集,其中主机监控指标包括CPU利用率、内存利用率、磁盘空间占用率、网络流量、TCP连接数、进程数;中间件监控指标包括进程存活、JVM占用内存大小、会话数、线程池大小;应用服务层监控指标包括服务可用性和响应时间,通过HTTP/TCP对目标服务进行服务拨测。
8.根据权利要求7所述的监控和故障自愈方法,其特征为:所述步骤一中,采集后的监控数据存入资源与应用监控模块的监控数据库,其数据点格式为:监控数据格式=监控对象名+标签+指标名+监控值+时间戳。
9.根据权利要求5所述的监控和故障自愈方法,其特征为:所述步骤三中,所述故障告知消息包括故障节点,异常类型和故障恢复操作作业名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256239.4A CN111181767A (zh) | 2019-12-10 | 2019-12-10 | 一种面向复杂***的监控和故障自愈***及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256239.4A CN111181767A (zh) | 2019-12-10 | 2019-12-10 | 一种面向复杂***的监控和故障自愈***及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111181767A true CN111181767A (zh) | 2020-05-19 |
Family
ID=70657200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911256239.4A Pending CN111181767A (zh) | 2019-12-10 | 2019-12-10 | 一种面向复杂***的监控和故障自愈***及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111181767A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858176A (zh) * | 2020-07-22 | 2020-10-30 | 欧冶云商股份有限公司 | 一种远程监控故障自愈***和方法 |
CN111865695A (zh) * | 2020-07-28 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种云环境下自动故障处理的方法及*** |
CN111970168A (zh) * | 2020-08-11 | 2020-11-20 | 北京点众科技股份有限公司 | 全链路服务节点的监控方法、装置和存储介质 |
CN112149975A (zh) * | 2020-09-11 | 2020-12-29 | 杭州东方通信软件技术有限公司 | 一种基于人工智能的apm监控***及监控方法 |
CN112350862A (zh) * | 2020-10-30 | 2021-02-09 | 广州市汇聚支付电子科技有限公司 | 一种监控报警及故障自愈*** |
CN113010331A (zh) * | 2021-03-12 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种异常数据处理方法、设备及计算机可读存储介质 |
CN113342560A (zh) * | 2021-06-04 | 2021-09-03 | 中国工商银行股份有限公司 | 一种故障处理方法、***、电子设备及存储介质 |
CN113590370A (zh) * | 2021-08-06 | 2021-11-02 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
CN114443443A (zh) * | 2022-04-11 | 2022-05-06 | 北京优特捷信息技术有限公司 | 一种故障自愈方法、装置、设备及存储介质 |
WO2022252860A1 (zh) * | 2021-06-01 | 2022-12-08 | 中国民航信息网络股份有限公司 | 一种事件处理方法、装置、计算机设备及存储介质 |
CN116032723A (zh) * | 2022-12-20 | 2023-04-28 | 浪潮云信息技术股份公司 | 一种应用的故障根因组合分析方法 |
WO2023104219A1 (zh) * | 2021-12-07 | 2023-06-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107733941A (zh) * | 2016-08-11 | 2018-02-23 | 南京联成科技发展股份有限公司 | 一种基于大数据的数据采集平台的实现方法及*** |
CN109343987A (zh) * | 2018-08-20 | 2019-02-15 | 科大国创软件股份有限公司 | It***故障诊断及修复方法、装置、设备、存储介质 |
CN109783322A (zh) * | 2018-11-22 | 2019-05-21 | 远光软件股份有限公司 | 一种企业信息***运行状态的监控分析***及其方法 |
CN109787816A (zh) * | 2018-12-28 | 2019-05-21 | 北京奇安信科技有限公司 | 业务故障定位方法、装置、设备及介质 |
CN110428018A (zh) * | 2019-08-09 | 2019-11-08 | 北京中电普华信息技术有限公司 | 一种全链路监控***中的异常预测方法及装置 |
CN110430071A (zh) * | 2019-07-19 | 2019-11-08 | 云南电网有限责任公司信息中心 | 业务节点故障自愈方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-10 CN CN201911256239.4A patent/CN111181767A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107733941A (zh) * | 2016-08-11 | 2018-02-23 | 南京联成科技发展股份有限公司 | 一种基于大数据的数据采集平台的实现方法及*** |
CN109343987A (zh) * | 2018-08-20 | 2019-02-15 | 科大国创软件股份有限公司 | It***故障诊断及修复方法、装置、设备、存储介质 |
CN109783322A (zh) * | 2018-11-22 | 2019-05-21 | 远光软件股份有限公司 | 一种企业信息***运行状态的监控分析***及其方法 |
CN109787816A (zh) * | 2018-12-28 | 2019-05-21 | 北京奇安信科技有限公司 | 业务故障定位方法、装置、设备及介质 |
CN110430071A (zh) * | 2019-07-19 | 2019-11-08 | 云南电网有限责任公司信息中心 | 业务节点故障自愈方法、装置、计算机设备及存储介质 |
CN110428018A (zh) * | 2019-08-09 | 2019-11-08 | 北京中电普华信息技术有限公司 | 一种全链路监控***中的异常预测方法及装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858176A (zh) * | 2020-07-22 | 2020-10-30 | 欧冶云商股份有限公司 | 一种远程监控故障自愈***和方法 |
CN111865695A (zh) * | 2020-07-28 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种云环境下自动故障处理的方法及*** |
CN111970168A (zh) * | 2020-08-11 | 2020-11-20 | 北京点众科技股份有限公司 | 全链路服务节点的监控方法、装置和存储介质 |
CN112149975A (zh) * | 2020-09-11 | 2020-12-29 | 杭州东方通信软件技术有限公司 | 一种基于人工智能的apm监控***及监控方法 |
CN112350862A (zh) * | 2020-10-30 | 2021-02-09 | 广州市汇聚支付电子科技有限公司 | 一种监控报警及故障自愈*** |
CN113010331A (zh) * | 2021-03-12 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种异常数据处理方法、设备及计算机可读存储介质 |
WO2022252860A1 (zh) * | 2021-06-01 | 2022-12-08 | 中国民航信息网络股份有限公司 | 一种事件处理方法、装置、计算机设备及存储介质 |
CN113342560A (zh) * | 2021-06-04 | 2021-09-03 | 中国工商银行股份有限公司 | 一种故障处理方法、***、电子设备及存储介质 |
CN113590370B (zh) * | 2021-08-06 | 2022-06-21 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
CN113590370A (zh) * | 2021-08-06 | 2021-11-02 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
WO2023104219A1 (zh) * | 2021-12-07 | 2023-06-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
CN114443443A (zh) * | 2022-04-11 | 2022-05-06 | 北京优特捷信息技术有限公司 | 一种故障自愈方法、装置、设备及存储介质 |
CN116032723A (zh) * | 2022-12-20 | 2023-04-28 | 浪潮云信息技术股份公司 | 一种应用的故障根因组合分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111181767A (zh) | 一种面向复杂***的监控和故障自愈***及其方法 | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和*** | |
CN106951315B (zh) | 一种基于etl的数据任务调度方法及*** | |
CN110716842B (zh) | 集群故障检测方法和装置 | |
CN106685676B (zh) | 一种节点切换方法及装置 | |
CN106789141B (zh) | 一种网关设备故障处理方法及装置 | |
WO2016188100A1 (zh) | 信息***故障场景信息收集方法及*** | |
CN102479113A (zh) | 异常自适应处理方法及*** | |
CN112000502B (zh) | 海量错误日志的处理方法、装置、电子装置及存储介质 | |
CN109274531A (zh) | 数据采集设备重启方法、***及计算机可读存储介质 | |
CN112769605B (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN103023028A (zh) | 一种基于实体间依赖关系图的电网故障快速定位方法 | |
CN106021070A (zh) | 服务器集群监测方法及装置 | |
CN111092752A (zh) | 跨多个网络切片的故障定位方法及装置 | |
CN107204868B (zh) | 一种任务运行监控信息获取方法和装置 | |
CN105025179A (zh) | 呼叫中心座席的监控方法及*** | |
CN113055203B (zh) | Sdn控制平面的异常恢复方法及装置 | |
CN115766402B (zh) | 服务器故障根因的过滤方法和装置、存储介质及电子装置 | |
CN117194154A (zh) | 一种基于微服务的apm全链路监控***及方法 | |
CN115174350B (zh) | 一种运维告警方法、装置、设备及介质 | |
CN115102838B (zh) | 服务器宕机风险的应急处理方法和装置、电子设备 | |
JP4575020B2 (ja) | 障害解析装置 | |
CN116264541A (zh) | 一种基于多维度的数据库容灾方法及装置 | |
CN115525392A (zh) | 容器监控方法、装置、电子设备及存储介质 | |
CN112000442A (zh) | 一种基于kubernetes平台的集群状态自动获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |
|
RJ01 | Rejection of invention patent application after publication |