CN109800127A - 一种基于机器学习的***故障诊断智能化运维方法及*** - Google Patents

一种基于机器学习的***故障诊断智能化运维方法及*** Download PDF

Info

Publication number
CN109800127A
CN109800127A CN201910010700.1A CN201910010700A CN109800127A CN 109800127 A CN109800127 A CN 109800127A CN 201910010700 A CN201910010700 A CN 201910010700A CN 109800127 A CN109800127 A CN 109800127A
Authority
CN
China
Prior art keywords
data
fault diagnosis
machine learning
labeled
abnormal index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910010700.1A
Other languages
English (en)
Inventor
曾德强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongan Information Technology Service Co Ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201910010700.1A priority Critical patent/CN109800127A/zh
Publication of CN109800127A publication Critical patent/CN109800127A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种基于机器学习的***故障诊断智能化运维方法及***,方法包括:获取***的指标数据和标注数据;根据指标数据以及标注数据分别训练不同使用场景的数据模型;根据采集到的当前指标数据以及数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。本发明通过将机器学习模型应用到自动运维体系中,如监控、故障诊断、运维决策等各个运维环节,能够快速发现故障以及诊断故障产生的原因,同时提供运维决策组件,根据各方诊断结果完成自我修复动作,做到真正无人值守的运维。

Description

一种基于机器学习的***故障诊断智能化运维方法及***
技术领域
本发明涉及智能化运维技术领域,特别涉及一种基于机器学习的***故障诊断智能化运维方法及***。
背景技术
随着互联网迅猛的发展,产品规模和服务器数量成指数级增长,服务器数量从早期的几台到百级,千级,万级数量。运维人员的也从早期的人工运维升级到现在的工具化,半自动化运维。随着业务、服务器数量的快速增长,技术人员面临这巨大的挑战,主要有以下几个方面:
1、监控指标越来越多,使用传统的运维方式从海量指标数据中找出运维需要关注的指标,运维人员需要花费较长的时间;
2、大规模报警会影响到技术人员的决策判断,不能及时响应产生的故障;
3、工具分散,不但增加了学习成本和拥有成本,而且各***之间相互独立,数据共享困难;
4、相同问题的排查处理经验得不到传承,技术人员不停的做着重复劳动
因此,亟需要提出一种新的智能化运维方法,以克服上述一个或多个问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于机器学习的***故障诊断智能化运维方法及***,以克服现有技术中不能快速发现故障以及诊断故障产生的原因、不能自动完成自我修复等问题。
为解决上述技术问题,本发明采用的技术方案是:
一方面,提供了一种基于机器学习的***故障诊断智能化运维方法,所述方法包括如下步骤:
S1:获取***的指标数据和标注数据;
S2:根据所述指标数据以及标注数据分别训练不同使用场景的数据模型;.
S3:根据采集到的当前指标数据以及所述数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;
S4:根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。
进一步的,所述获取标注数据至少包括:
获取所述指标数据中的异常指标数据,对所述异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注所述异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
进一步的,所述步骤S3具体包括:
根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;和/或,
利用所述数据模型计算分析所述当前指标数据,获取***运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
进一步的,所述步骤S4具体包括:
根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;和/或
利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
根据所述自检结果和所述检查结果分析出故障原因。
进一步的,所述步骤S4还包括:
若是不能自动分析出所述故障原因,则人工介入处理,并对所述异常指标数据进行标注后保存至标注库中。
另一方面,提供了一种基于机器学习的***故障诊断智能化运维***,所述***包括:
数据收集模块,用于获取***的指标数据和标注数据;
模型训练模块,用于根据所述指标数据以及标注数据分别训练不同使用场景的数据模型;
计算分析模块,用于根据采集到的当前指标数据以及所述数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;
故障诊断模块,用于根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因;
告警模块,用于根据所述异常指标数据发出相应的告警。
进一步的,所述数据收集模块包括:
标注单元,用于获取所述指标数据中的异常指标数据,对所述异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注所述异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
进一步的,所述计算分析模块包括:
规则分析单元,用于根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;
算法分析单元,用于利用所述数据模型计算分析所述当前指标数据,获取***运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
进一步的,所述故障诊断模块包括:
初步自检单元,用于根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;
应用检查单元,用于利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
故障分析单元,用于根据所述自检结果和所述检查结果分析出故障原因。
进一步的,所述故障诊断模块还包括:
人工标注单元,用于若是不能自动分析出所述故障原因,则人工介入处理,并对所述异常指标数据进行标注后保存至标注库中。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明提供的基于机器学习的***故障诊断智能化运维方法及装置,通过将机器学习模型应用到自动运维体系中,如监控、故障诊断、运维决策等各个运维环节,能够快速发现故障以及诊断故障产生的原因,同时提供运维决策组件,根据各方诊断结果完成自我修复动作,做到真正无人值守的运维;
2、本发明提供的基于机器学习的***故障诊断智能化运维方法及装置,通过利用机器学习算法对将各个维度数据进行整合,建立相应数据模型,解决了单一规则的监控,不能联动判断识别,负载波动不规则、应用阀值过于死板导致错误率高、存在较多的错报、漏报等问题;
3、本发明提供的基于机器学习的***故障诊断智能化运维方法及装置,根据机器学习建立的应用、业务、服务器三者关系图谱快速提取有用异常信息,并跟据标注数据识别故障产生原因,自动触发工具进行修复。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的基于机器学习的***故障诊断智能化运维方法流程图;
图2是根据一示例性实施例示出的基于机器学习的***故障诊断智能化运维***的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于机器学习的***故障诊断智能化运维方法,该方法利用机器学习算法对各个维度数据进行整合,建立起健康的应用模型,解决了单一维度规则的监控,不能联动判断识别,负载波动不规则以及应用阀值过于死板等问题导致监控错误率高,存在较多的错报,漏报等情况。其故障诊断模块帮助技术人自动完成异常应用检测,并通过应用运行指标、业务指标、服务器关系图谱,快速定位异常爆发点,抽取出关键指标,并跟据收集到的异常堆栈数据判断故障原因后通知决策***,解决了大规模告警情况下,海量日志的抽取问题,缩短故障原因定位时间。同时随着时间的推移,故障标注数据库越来越完善,逐渐达到不需要人工介入故障排查,运维***可根据故障诊断原因,自我完成修复动作。
图1是根据一示例性实施例示出的基于机器学习的***故障诊断智能化运维方法流程图,参照图1所示,该方法包括如下步骤:
S1:获取***的指标数据和标注数据。
具体的,指标数据主要包括业务指标,***指标,应用运行指标三大类数据,这些数据反映的是实际生产运行的情况。利用时间序列窗口将各类指标数据分类统计,转化成kpi关建性指标,再将该结果数据推到模型训练模块,模型训练模块利用该指标数据聚类建模,以提供监控引擎实时分析在线指标等。
标注数据是指接收标注服务数据,对数据进行清洗处理,提供AI数据建模***对数据建模。至少分三类模型:1、指标异常波动模型;2、指标异常波动原因模型;3、故障排查决策模型。
除上述两种数据以外,本发明实施例中,需要采集的数据还包括基础平台数据。具体的,将基础资源管理***的资源信息数据抽取出,建立资源实体之间关系图普,提供给故障诊断模块使用。另外,可以采用Neo4j图数据库来存基础数据实体之间关系。这里需要说明的是,基础资源管理***管理整合所有服务器资源信息,应用信息,业务信息。该服务用于日常运维管理。基础平台数据一方面在标注数据时提供依据,另一方面在故障诊断时提供参照。
另外,这里需要说明的是,在本发明实施例中,不同的指标数据的采集工具也不一样。例如,日志类以Filebeat为主,***指标类收集采用open-falcon为主,业务指标通过监听mysql数据binlog等各类技术手段来实现。
作为一种较优的实施方式,本发明实施例中,获取标注数据至少包括:
获取所述指标数据中的异常指标数据,对所述异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注所述异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
具体的,标注数据至少分为以下三类:
指标异常波动标注,将该类标注数据回流到监控指标预测模型,可用于快速发现异常指标。
指标异常波动原因标注,通常导致指标异常波动的原因有很多,大致可以分为以下几类:1、网络层原因;2、***资源占用(包括:磁盘,cpu,io,内存)原因;3、应用Exception日志;4、业务流量波动;5、网络攻击等。根据标注后的指标异常波动原因,可以建立指标波动原因分类库,然后根据指标波动原因分类库,我们可以快速确定故障排查方向。
举个java应用例子来说。Java应用抛出TimeoutException,标注的指标异常波动原因可能为:1、配置不对导致访问不通;2、网络原因。进行该两项指标异常波动原因标注后,可以快速触发网络检测脚本和配置检验脚本,对网络进行检查。
应用异常堆栈关键词标注,很多时候应用异常堆栈可以直接告诉我们故障原因,应用异常堆栈能很好的反应出来应用的问题,标注出异常堆栈的关键key可以帮助快速确认故障原因。也就是说,标注出异常堆栈的关键词可以帮助我们快速抽取有用日志内容,决策下一步故障诊断检查动作。
S2:根据所述指标数据以及标注数据分别训练不同使用场景的数据模型。
具体的,模型训练服务以机器学习引擎(sparkML)为基础引擎,提供各类监督式学习、半监督式学习等。在接收到各类指标数据或是标注数据后,分别建立不同使用场景的数据模型。数据模型包括但不限于以下模型:指标预测模型(如指标类数据模型、指标异常波动模型、指标异常波动分类模型等)、故障检测流程库及决策库、应用、机器、业务关系图谱等。其中,指标预测模型用于监控预警,故障检测流程库及决策库用于后续故障诊断,且该故障检测流程库及决策库都是依赖于收集到的标注数据建立的。
这里需要说明的是,上述数据用于进行机器学习训练获取数据模型前,还需要将数据进行向量化处理,即将文本数据转换为向量数据。
S3:根据采集到的当前指标数据以及所述数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警。
作为一种较优的实施方式,本发明实施例中,步骤S3具体包括:
根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;和/或,
利用所述数据模型计算分析所述当前指标数据,获取***运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
具体的,本发明实施例中,用于计算分析的分析引擎由规则引擎和算法引擎两部分组成,其中规则引擎主要根据时间窗口抓取到各项异常指标后执行两个动作,即触发告警和故障诊断。算法引擎主要利用历史指标数据建立的数据模型计算分析实时获取的当前指标数据,从而获取***运行健康状况,并且对抓取到的异常指标数据进行告擎及触发故障诊断。这里算法引擎主要用到预测模型相关算法(prophet)及随机森林等相关算法。
S4:根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。
作为一种较优的实施方式,本发明实施例中,步骤S4具体包括:
根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;和/或
利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
根据所述自检结果和所述检查结果分析出故障原因。
具体的,故障诊断模块核心部分由推理机组成,接收分析引擎事件,根据据机器学习建立的关系图谱(如业务、应用、机器关***图谱)及异常堆栈标注数据,分别先执行自检,获取自检结果。其中,自检内容包括异常内容、***资源利用情况、业务波动情况等。
同时利用技术人员先前排查问题获取的决策数据计算故障可能存在的原因,并进行下一步检查动作,包括依赖应用检查、业务影响面检查等。举例来说,假设某应用A的异常数量突增,跟据历史Exception关键词模型库找到故障可能原因,识别出来是网络层、应用层、还是服务器资源的问题,决策故障检查的方向。这里假设是网络层的问题,此时需要触发基础的网络通信检查,同时收集网络通信层日志,检查具体网络层的各项指标,获取检查结果。
作为一种较优的实施方式,本发明实施例中,步骤S4还包括:
若是不能自动分析出所述故障原因,则人工介入处理,并对所述异常指标数据进行标注后保存至标注库中。
具体的,在检查各项指标时,会使用到相应问题的标注数据库,在这个标注数据库足够强大的时候,可以自动分析出故障原因,在知识库还不够完善的时候,则不能自动分析出故障原因,此时,需要人介入处理,对异常指标数据进行标注后将其保存至相应的标注数据库中,以进一步完善标注数据库。例如,在检查网络层各项指标时,会使用到网络层问题标注数据库,若这个标注数据库足够强大,则可以自动分析出故障原因,若这个标注数据库还不够完善,则需要人工介入处理,并对网络层异常指标数据进行人工标注,然后将其保存至网络层问题标注数据库中,对网络层问题标注数据库进行补充。
作为一种较优的实施方式,本发明实施例中,所述方法还包括:
S5:根据所述故障原因,确定修复方案并触发故障修复。
具体的,决策模块根据诊断模块诊断出来的故障原因,确定出修复方案,并触发相应的故障修复操作。
图2是根据一示例性实施例示出的基于机器学习的***故障诊断智能化运维***的结构示意图,参照图2所示,该***至少包括:
数据收集模块,用于获取***的指标数据和标注数据。
具体的,在本发明实施例中,数据收集模块包括多个数据采集工具。例如,用于采集日志类数据的Filebeat、用于采集***指标类数据的open-falcon、而业务指标数据则是通过监听mysql数据binlog等各类技术手段来实现的。
模型训练模块,用于根据所述指标数据以及标注数据分别训练不同使用场景的数据模型。
具体的,模型训练模块包括算法库、数据建模可视化工具、数据建模引擎等组件。针对不同的指标数据以及标注数据,通过监督式学习、半监督式学习分别训练不同使用场景的数据模型。
计算分析模块,用于根据采集到的当前指标数据以及所述数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警。
具体的,计算分析模块的分析引擎由规则引擎和算法引擎两部分组成,其中算法引擎主要用到预测模型相关算法(prophet)及随机森林等相关算法。
故障诊断模块,用于根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。
具体的,故障诊断模块核心部分由推理机组成,接收分析引擎事件,结合先前获取的异常堆栈标注数据、指标异常波动原因分类模型、业务、应用、机器关***图谱等,诊断出故障原因。
告警模块,用于根据所述异常指标数据发出相应的告警。
进一步的,数据收集模块包括:
标注单元,用于获取指标数据中的异常指标数据,对异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
进一步的,计算分析模块包括:
规则分析单元,用于根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;
算法分析单元,用于利用数据模型计算分析所述当前指标数据,获取***运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
进一步的,故障诊断模块包括:
初步自检单元,用于根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;
应用检查单元,用于利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
故障分析单元,用于根据自检结果和检查结果分析出故障原因。
进一步的,故障诊断模块还包括:
人工标注单元,用于若是不能自动分析出故障原因,则人工介入处理,并对异常指标数据进行标注后保存至标注库中。
作为一种较优的实施方式,本发明实施例中,所述***还包括:
决策模块,用于根据故障原因,确定修复方案并触发故障修复。
运维工具管理平台,用于根据修复方案进行相应的故障修复。其中,该运维工具管理平台包括运维脚本管理工具、应用部署工具、开发流程管理工具、配置管理工具等。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
1、本发明提供的基于机器学习的***故障诊断智能化运维方法及装置,通过将机器学习模型应用到自动运维体系中,如监控、故障诊断、运维决策等各个运维环节,能够快速发现故障以及诊断故障产生的原因,同时提供运维决策组件,根据各方诊断结果完成自我修复动作,做到真正无人值守的运维;
2、本发明提供的基于机器学习的***故障诊断智能化运维方法及装置,通过利用机器学习算法对将各个维度数据进行整合,建立相应数据模型,解决了单一规则的监控,不能联动判断识别,负载波动不规则、应用阀值过于死板导致错误率高、存在较多的错报、漏报等问题;
3、本发明提供的基于机器学习的***故障诊断智能化运维方法及装置,根据机器学习建立的应用、业务、服务器三者关系图谱快速提取有用异常信息,并跟据标注数据识别故障产生原因,自动触发工具进行修复。
需要说明的是:上述实施例提供的基于机器学习的***故障诊断智能化运维***在触发***故障诊断业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将***的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于机器学习的***故障诊断智能化运维***与基于机器学习的***故障诊断智能化运维方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的***故障诊断智能化运维方法,其特征在于,所述方法包括如下步骤:
S1:获取***的指标数据和标注数据;
S2:根据所述指标数据以及标注数据分别训练不同使用场景的数据模型;.
S3:根据采集到的当前指标数据以及所述数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;
S4:根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。
2.根据权利要求1所述的基于机器学习的***故障诊断智能化运维方法,其特征在于,所述获取标注数据至少包括:
获取所述指标数据中的异常指标数据,对所述异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注所述异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
3.根据权利要求1或2所述的基于机器学习的***故障诊断智能化运维方法,其特征在于,所述步骤S3具体包括:
根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;和/或,
利用所述数据模型计算分析所述当前指标数据,获取***运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
4.根据权利要求1或2所述的基于机器学习的***故障诊断智能化运维方法,其特征在于,所述步骤S4具体包括:
根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;和/或
利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
根据所述自检结果和所述检查结果分析出故障原因。
5.根据权利要求4所述的基于机器学习的***故障诊断智能化运维方法,其特征在于,所述步骤S4还包括:
若是不能自动分析出所述故障原因,则人工介入处理,并对所述异常指标数据进行标注后保存至标注库中。
6.一种基于机器学习的***故障诊断智能化运维***,其特征在于,所述***包括:
数据收集模块,用于获取***的指标数据和标注数据;
模型训练模块,用于根据所述指标数据以及标注数据分别训练不同使用场景的数据模型;
计算分析模块,用于根据采集到的当前指标数据以及所述数据模型,计算分析***运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;
故障诊断模块,用于根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因;
告警模块,用于根据所述异常指标数据发出相应的告警。
7.根据权利要求6所述的基于机器学习的***故障诊断智能化运维***,其特征在于,所述数据收集模块包括:
标注单元,用于获取所述指标数据中的异常指标数据,对所述异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注所述异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
8.根据权利要求6或7所述的基于机器学习的***故障诊断智能化运维***,其特征在于,所述计算分析模块包括:
规则分析单元,用于根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;
算法分析单元,用于利用所述数据模型计算分析所述当前指标数据,获取***运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
9.根据权利要求6或7所述的基于机器学习的***故障诊断智能化运维***,其特征在于,所述故障诊断模块包括:
初步自检单元,用于根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;
应用检查单元,用于利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
故障分析单元,用于根据所述自检结果和所述检查结果分析出故障原因。
10.根据权利要求9所述的基于机器学习的***故障诊断智能化运维***,其特征在于,所述故障诊断模块还包括:
人工标注单元,用于若是不能自动分析出所述故障原因,则人工介入处理,并对所述异常指标数据进行标注后保存至标注库中。
CN201910010700.1A 2019-01-03 2019-01-03 一种基于机器学习的***故障诊断智能化运维方法及*** Pending CN109800127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910010700.1A CN109800127A (zh) 2019-01-03 2019-01-03 一种基于机器学习的***故障诊断智能化运维方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910010700.1A CN109800127A (zh) 2019-01-03 2019-01-03 一种基于机器学习的***故障诊断智能化运维方法及***

Publications (1)

Publication Number Publication Date
CN109800127A true CN109800127A (zh) 2019-05-24

Family

ID=66558466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910010700.1A Pending CN109800127A (zh) 2019-01-03 2019-01-03 一种基于机器学习的***故障诊断智能化运维方法及***

Country Status (1)

Country Link
CN (1) CN109800127A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390027A (zh) * 2019-06-13 2019-10-29 全球能源互联网研究院有限公司 一种基于图数据库的信息***故障模型构建方法及***
CN110428127A (zh) * 2019-06-19 2019-11-08 深圳壹账通智能科技有限公司 自动化分析方法、用户设备、存储介质及装置
CN110504031A (zh) * 2019-08-28 2019-11-26 首都医科大学 用于健康行为干预的云端管理数据库建立方法及***
CN110816589A (zh) * 2019-10-31 2020-02-21 北京英诺威尔科技股份有限公司 一种基于机器学习的ctcs3故障诊断方法
CN110891283A (zh) * 2019-11-22 2020-03-17 超讯通信股份有限公司 一种基于边缘计算模型的小基站监控装置及方法
CN111176872A (zh) * 2019-12-12 2020-05-19 北京邮电大学 面向it运维的监控数据处理方法、***、装置及存储介质
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构***的故障的方法和***
CN111538643A (zh) * 2020-07-07 2020-08-14 宝信软件(成都)有限公司 一种监控***报警信息过滤方法和***
CN111737033A (zh) * 2020-05-26 2020-10-02 复旦大学 一种基于运行时图谱分析的微服务故障定位方法
CN111858231A (zh) * 2020-05-11 2020-10-30 北京必示科技有限公司 一种基于运维监控的单指标异常检测方法
CN111985558A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种电能表异常诊断方法及其***
CN111988167A (zh) * 2020-07-21 2020-11-24 合肥爱和力人工智能技术服务有限责任公司 一种基于工业互联网机理模型的故障分析方法及设备
CN111985561A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种智能电表的故障诊断方法、***及电子装置
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及***
CN112363896A (zh) * 2020-09-02 2021-02-12 大连大学 日志异常检测***
CN112598291A (zh) * 2020-12-25 2021-04-02 中国农业银行股份有限公司 一种基于Prophet的运维智能排班方法及装置
CN112711508A (zh) * 2020-12-21 2021-04-27 航天信息股份有限公司 面向大规模客户端***的智能运维服务***
CN112801316A (zh) * 2021-01-28 2021-05-14 中国人寿保险股份有限公司上海数据中心 基于多指标数据的故障定位方法、***设备及存储介质
CN112860472A (zh) * 2021-02-05 2021-05-28 建信金融科技有限责任公司 ***故障位置确定方法、装置、电子设备及存储介质
CN113033839A (zh) * 2021-03-17 2021-06-25 山东通维信息工程有限公司 一种基于itss的高速公路机电智能运维改进的方法
CN113037365A (zh) * 2021-03-02 2021-06-25 烽火通信科技股份有限公司 一种识别光通道生命周期运维状态的方法与装置
CN113110389A (zh) * 2021-04-21 2021-07-13 东方电气自动控制工程有限公司 一种基于智慧电厂监控***的故障录波数据的处理方法
JP2021170347A (ja) * 2019-06-20 2021-10-28 株式会社Gsユアサ 保守支援方法及びコンピュータプログラム
WO2021232567A1 (zh) * 2020-05-20 2021-11-25 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN113765723A (zh) * 2021-09-23 2021-12-07 深圳市天威网络工程有限公司 一种基于Cable Modem终端设备的健康诊断方法及其***
CN115096627A (zh) * 2022-06-16 2022-09-23 中南大学 一种液压成形智能装备制造过程故障诊断与运维方法及***
CN116047913A (zh) * 2023-02-15 2023-05-02 南京为先科技有限责任公司 一种用于中和真空汽提脱二噁烷工艺的控制***和方法
CN116701652A (zh) * 2023-06-13 2023-09-05 上海沄熹科技有限公司 一种基于机器学习的数据库智能运维***及方法
US11949076B2 (en) 2019-06-20 2024-04-02 Gs Yuasa International Ltd. Maintenance support method, maintenance support system, maintenance support device, and computer program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107222339A (zh) * 2017-05-27 2017-09-29 全球能源互联网研究院 基于图数据库的电力信息通信***的故障分析方法及装置
CN107608862A (zh) * 2017-10-13 2018-01-19 众安信息技术服务有限公司 监控告警方法、监控告警装置及计算机可读存储介质
CN107644256A (zh) * 2017-09-14 2018-01-30 郑州云海信息技术有限公司 一种基于机器学习方式形成故障规则库的方法
CN108446200A (zh) * 2018-02-07 2018-08-24 福建星瑞格软件有限公司 基于大数据机器学习的服务器智能运维方法及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107222339A (zh) * 2017-05-27 2017-09-29 全球能源互联网研究院 基于图数据库的电力信息通信***的故障分析方法及装置
CN107644256A (zh) * 2017-09-14 2018-01-30 郑州云海信息技术有限公司 一种基于机器学习方式形成故障规则库的方法
CN107608862A (zh) * 2017-10-13 2018-01-19 众安信息技术服务有限公司 监控告警方法、监控告警装置及计算机可读存储介质
CN108446200A (zh) * 2018-02-07 2018-08-24 福建星瑞格软件有限公司 基于大数据机器学习的服务器智能运维方法及计算机设备

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390027A (zh) * 2019-06-13 2019-10-29 全球能源互联网研究院有限公司 一种基于图数据库的信息***故障模型构建方法及***
CN110428127A (zh) * 2019-06-19 2019-11-08 深圳壹账通智能科技有限公司 自动化分析方法、用户设备、存储介质及装置
WO2020253135A1 (zh) * 2019-06-19 2020-12-24 深圳壹账通智能科技有限公司 自动化分析方法、用户设备、存储介质及装置
CN110428127B (zh) * 2019-06-19 2022-04-15 深圳壹账通智能科技有限公司 自动化分析方法、用户设备、存储介质及装置
JP7115597B2 (ja) 2019-06-20 2022-08-09 株式会社Gsユアサ 保守支援方法及びコンピュータプログラム
JP2021170347A (ja) * 2019-06-20 2021-10-28 株式会社Gsユアサ 保守支援方法及びコンピュータプログラム
US11949076B2 (en) 2019-06-20 2024-04-02 Gs Yuasa International Ltd. Maintenance support method, maintenance support system, maintenance support device, and computer program
CN112152830B (zh) * 2019-06-28 2023-08-04 中国电力科学研究院有限公司 一种智能的故障根因分析方法及***
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及***
CN110504031B (zh) * 2019-08-28 2022-02-11 首都医科大学 用于健康行为干预的云端管理数据库建立方法及***
CN110504031A (zh) * 2019-08-28 2019-11-26 首都医科大学 用于健康行为干预的云端管理数据库建立方法及***
CN110816589A (zh) * 2019-10-31 2020-02-21 北京英诺威尔科技股份有限公司 一种基于机器学习的ctcs3故障诊断方法
CN110891283A (zh) * 2019-11-22 2020-03-17 超讯通信股份有限公司 一种基于边缘计算模型的小基站监控装置及方法
CN111176872B (zh) * 2019-12-12 2021-05-07 北京邮电大学 面向it运维的监控数据处理方法、***、装置及存储介质
CN111176872A (zh) * 2019-12-12 2020-05-19 北京邮电大学 面向it运维的监控数据处理方法、***、装置及存储介质
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构***的故障的方法和***
CN111209131B (zh) * 2019-12-30 2024-05-14 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构***的故障的方法和***
CN111858231A (zh) * 2020-05-11 2020-10-30 北京必示科技有限公司 一种基于运维监控的单指标异常检测方法
WO2021232567A1 (zh) * 2020-05-20 2021-11-25 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN111737033A (zh) * 2020-05-26 2020-10-02 复旦大学 一种基于运行时图谱分析的微服务故障定位方法
CN111737033B (zh) * 2020-05-26 2024-03-08 复旦大学 一种基于运行时图谱分析的微服务故障定位方法
CN111538643A (zh) * 2020-07-07 2020-08-14 宝信软件(成都)有限公司 一种监控***报警信息过滤方法和***
CN111538643B (zh) * 2020-07-07 2020-10-16 宝信软件(成都)有限公司 一种监控***报警信息过滤方法和***
CN111988167A (zh) * 2020-07-21 2020-11-24 合肥爱和力人工智能技术服务有限责任公司 一种基于工业互联网机理模型的故障分析方法及设备
CN111985561A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种智能电表的故障诊断方法、***及电子装置
CN111985558A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种电能表异常诊断方法及其***
CN111985561B (zh) * 2020-08-19 2023-02-21 安徽蓝杰鑫信息科技有限公司 一种智能电表的故障诊断方法、***及电子装置
CN112363896A (zh) * 2020-09-02 2021-02-12 大连大学 日志异常检测***
CN112363896B (zh) * 2020-09-02 2023-12-05 大连大学 日志异常检测***
CN112711508A (zh) * 2020-12-21 2021-04-27 航天信息股份有限公司 面向大规模客户端***的智能运维服务***
CN112598291A (zh) * 2020-12-25 2021-04-02 中国农业银行股份有限公司 一种基于Prophet的运维智能排班方法及装置
CN112598291B (zh) * 2020-12-25 2023-10-13 中国农业银行股份有限公司 一种基于Prophet的运维智能排班方法及装置
CN112801316A (zh) * 2021-01-28 2021-05-14 中国人寿保险股份有限公司上海数据中心 基于多指标数据的故障定位方法、***设备及存储介质
CN112860472A (zh) * 2021-02-05 2021-05-28 建信金融科技有限责任公司 ***故障位置确定方法、装置、电子设备及存储介质
CN113037365A (zh) * 2021-03-02 2021-06-25 烽火通信科技股份有限公司 一种识别光通道生命周期运维状态的方法与装置
CN113033839A (zh) * 2021-03-17 2021-06-25 山东通维信息工程有限公司 一种基于itss的高速公路机电智能运维改进的方法
CN113110389A (zh) * 2021-04-21 2021-07-13 东方电气自动控制工程有限公司 一种基于智慧电厂监控***的故障录波数据的处理方法
CN113765723A (zh) * 2021-09-23 2021-12-07 深圳市天威网络工程有限公司 一种基于Cable Modem终端设备的健康诊断方法及其***
CN113765723B (zh) * 2021-09-23 2024-05-07 深圳市天威网络工程有限公司 一种基于Cable Modem终端设备的健康诊断方法及其***
CN115096627B (zh) * 2022-06-16 2023-04-07 中南大学 一种液压成形智能装备制造过程故障诊断与运维方法及***
CN115096627A (zh) * 2022-06-16 2022-09-23 中南大学 一种液压成形智能装备制造过程故障诊断与运维方法及***
CN116047913B (zh) * 2023-02-15 2023-10-03 南京为先科技有限责任公司 一种用于中和真空汽提脱二噁烷工艺的控制***和方法
CN116047913A (zh) * 2023-02-15 2023-05-02 南京为先科技有限责任公司 一种用于中和真空汽提脱二噁烷工艺的控制***和方法
CN116701652A (zh) * 2023-06-13 2023-09-05 上海沄熹科技有限公司 一种基于机器学习的数据库智能运维***及方法

Similar Documents

Publication Publication Date Title
CN109800127A (zh) 一种基于机器学习的***故障诊断智能化运维方法及***
CN111209131B (zh) 一种基于机器学习确定异构***的故障的方法和***
CN110717665B (zh) 基于调度控制***故障辨识及趋性分析***和方法
CN110766277B (zh) 用于核工业现场的健康评估及诊断***和移动终端
CN101989087B (zh) 工业化加工渣油的在线实时故障监测与诊断的***装置
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN112817280A (zh) 一种用于火电厂智慧监盘报警***实现方法
CN111162949A (zh) 一种基于Java字节码嵌入技术的接口监测方法
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN112346393B (zh) 基于智能运维的数据全链路异常监测及处理方法和***
CN113962299A (zh) 一种核电设备智能运行监测与故障诊断通用模型
CN114185760A (zh) ***风险评估方法及装置、充电设备运维检测方法
CN112990656A (zh) 一种it设备监测数据的健康评价***及健康评价方法
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN113395182B (zh) 具有故障预测的智能网络设备管理***及方法
CN102929241B (zh) 精对苯二甲酸装置安全运行指导***及其应用
CN111306051B (zh) 一种输油泵机组探针式状态监测预警方法、装置及***
CN117333038A (zh) 一种基于大数据的经济趋势分析***
CN112803587A (zh) 一种基于诊断决策库的自动化设备状态智能巡视方法
CN115438093A (zh) 一种电力通信设备故障判断方法与检测***
CN110188040A (zh) 一种针对软件***故障检测与健康状态评估的软件平台
Wang et al. LSTM-based alarm prediction in the mobile communication network
CN113065001A (zh) 一种故障止损方法及装置
CN118037063B (zh) 基于工业互联网云平台的化工园区安全管理方法及***
CN113037550B (zh) 一种服务故障监控方法、***及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524