CN110428018A - 一种全链路监控***中的异常预测方法及装置 - Google Patents
一种全链路监控***中的异常预测方法及装置 Download PDFInfo
- Publication number
- CN110428018A CN110428018A CN201910733285.2A CN201910733285A CN110428018A CN 110428018 A CN110428018 A CN 110428018A CN 201910733285 A CN201910733285 A CN 201910733285A CN 110428018 A CN110428018 A CN 110428018A
- Authority
- CN
- China
- Prior art keywords
- data
- current monitor
- monitoring data
- dimensionality reduction
- goal systems
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000005856 abnormality Effects 0.000 title claims abstract description 62
- 230000009467 reduction Effects 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004140 cleaning Methods 0.000 claims abstract description 20
- 238000012423 maintenance Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 15
- 230000000007 visual effect Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 17
- 238000003745 diagnosis Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 241001484259 Lacuna Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种全链路监控***中的异常预测方法,包括:当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果。将所述异常预测结果展示给运维人员。上述的预测方法中,可以依据当前监控数据对所述目标***在下一时间区间的异常状态进行预测,实现了从事前分析的视角来分析所述目标***在下一时间区间的异常状态。
Description
技术领域
本发明涉及维保技术领域,尤其涉及一种全链路监控***中的异常预测方法及装置。
背景技术
***运维现在已经是一件非常复杂的工作,再加上***、数据库等应用软件的管理,更是加大对运维人员水平的要求,IT***运维成本的上升显而易见,而智能运维目前处于探索阶段,传统的运维人员对于业务应用的性能与链路调用监控的实现方案有以下两种方式:
(1)通过打印日志,对异常日志进行分析;
(2)被动分析错误堆栈和Dump文件,异常已经发生,瓶颈已经出现时,对***进行扩容等手段,严重的甚至需要应用***和服务器停机。
通常当日志分析出现异常时,按照日志提示查找错误,速度慢,因此难以定位问题所在;被动分析错误堆栈和Dump文件的做法,一般是***已经出现异常或错误的情况下,比如需要对***进行扩容,严重的甚至应用***和服务器需要停机,无法及时准确判定***异常情况。
上述的方法中,对***的运维属于事后分析,随着IT基础平台增加,***复杂度和多样性不断变化,缺乏对***未来趋势预判,从而导致无法从事前分析的视角来分析定位问题。
发明内容
有鉴于此,本发明提供了一种全链路监控***中的异常预测方法及装置,用以解决现有技术中对***的运维属于事后分析,随着IT基础平台增加,***复杂度和多样性不断变化,缺乏对***未来趋势预判,从而导致无法从事前分析的视角来分析定位问题。具体方案如下:
一种全链路监控***中的异常预测方法,包括:
当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;
将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果;
将所述异常预测结果展示给运维人员。
上述的方法,可选的,还包括:
依据所述运维管控模型,对所述目标***的当前状态进行分析。
上述的方法,可选的,还包括:
将所述异常预测结果与实际结果进行比较,当两者的差异值满足预设的第一差异阈值时,将所述当前监控数据和所述实际结果进行保存。
上述的方法,可选的,还包括:
当检测到所述当前监控数据的数据量达到预设的数据量阈值时,将所述当前监控数据的接收模式调整为集群接收模式。
上述的方法,可选的,当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据,包括:
采用主成分分析法,对所述当前监控数据进行降维操作,得到降维监控数据;
筛选出所述降维监控数据中的异常监控数据,对所述异常监控数据进行删除,得到目标监控数据。
上述的方法,可选的,采用预设的训练方法训练得到的运维管控模型,包括:
采用机器学习算法和逻辑回归算法构建初始运维管控模型;
获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果;
将每一个历史监控数据传递给所述初始运维管控模型,将得到的预测结果与其对应的历史结果进行对比;
将预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值达到预设的比例阈值时,得到所述运维管控模型。
一种全链路监控***中的异常预测装置,包括:
降维清理模块,用于当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;
预测模块,用于将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果;
展示模块,用于将所述异常预测结果展示给运维人员。
上述的装置,可选的,还包括:
模式调整模块,用于当检测到所述当前监控数据的数据量达到预设的数据量阈值时,将所述当前监控数据的接收模式调整为集群接收模式。
上述的装置,可选的,所述降维清理模块包括:
降维单元,用于采用主成分分析法,对所述当前监控数据进行降维操作,得到降维监控数据;
筛选删除单元,用于筛选出所述降维监控数据中的异常监控数据,对所述异常监控数据进行删除,得到目标监控数据。
上述的装置,可选的,所述预测模块包括:
构建单元,用于采用机器学习算法和逻辑回归算法构建初始运维管控模型;
获取单元,用于获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果;
传递对比单元,用于将每一个历史监控数据传递给所述初始运维管控模型,将得到的预测结果与其对应的历史结果进行对比;
完成单元,用以将预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值达到预设的比例阈值时,得到所述运维管控模型。
与现有技术相比,本发明包括以下优点:
本发明公开了一种全链路监控***中的异常预测方法,包括:当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果。将所述异常预测结果展示给运维人员。上述的预测方法中,可以依据当前监控数据对所述目标***在下一时间区间的异常状态进行预测,实现了从事前分析的视角来分析所述目标***在下一时间区间的异常状态。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种全链路监控***中的异常预测方法流程图;
图2为本申请实施例公开的一种全链路监控***中的异常预测方法流又一流程图;
图3为本申请实施例公开的一种全链路监控***中的异常预测方法又一流程图;
图4为本申请实施例公开的一种全链路监控***中的异常预测方法整体框图;
图5为本申请实施例公开的一种全链路监控***中的异常预测装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种全链路监控***中的异常预测方法及装置,应用在全链路监控***的运维过程中,传统运维方式对于应用的性能与监控一般是通过日志或者被动分析两种方式,通常属于事后分析,随着IT基础平台增加,***复杂度和多样性不断变化,原有传统运维手段单一的问题越来越明显,而应用性能监控的要求也越来越高,从而导致无法从链路调用及事前分析的视角来分析定位问题,以及对可能出现的问题采取预防措施。为了解决这一问题,全链路监控***通过创新性手段借助于智能运维AIOps(ArtificialIntelligence for IT Operations)的思路,深入对信息***整条链路进行深度诊断,最终结合人工智能AI(ArtificialIntelligence),通过机器学习预测未来信息***的问题,本发明设计全链路监控***中基于机器学习算法的异常预测方法,在业务***运行过程中,可实现***异常位置诊断及预警信息推送。所述预测方法的执行流程如图1所示,包括:
S101、当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;
本发明实施例中,所述目标***为当前正在进行异常预测的全链路监控***,所述当前监控数据是通过在所述目标***中安插Agent,Agent负责从所述目标***的各个应用中搜集监控数据,优选的,每一个Agent对应所述目标***中的一个应用。Agent非常小,仅仅就是一个jar包,安插在对应的应用中,只需在启动脚本中加上一行参数和应用一块运行。Agent端利用Java Agent机制,采用修改应用字节码方式将探针逻辑植入到应用中,对原有的应用无侵入;Agent端预先内置了几十种中间件及数据库的采样点,应用无需修改,直接进行自动监控,基于不同网络环境,通过TCP、UDP等传输方式将Agent数据传递到Collector搜集端。
当所述目标***中Agent搜集的监控数据的数据量达到预设的数据量阈值时,Collector手机端可以开启Zookeeper集群模式,通过多个Collector对搜集的所述当前监控数据进行减压,这种部署模式中,Agent端推送的采样点数据到服务端中,服务端开启采集点接收服务,充当一个Server接收数据的作用。
当接收到所述当前监控数据后,由于所述当前监控数据中存在的不同维度的监控数据,例如:所述维度可以是方法、名称、层数、流量或者其它的维度,而且所述当前监控数据中可能存在错误数据,缺项数据或者其它类型的异常数据,其中,所述当前监控数据中的各个维度对异常预测结果的影响权重是不同的,为了提高预测效率,可以为所述当前监控数据的各个维度进行降维处理并且可以清理掉其中的异常数据,处理完成时,得到所述目标数据。
S102、将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果;
本发明实施例中,在将所述目标监控数据传递给所述预运维管控模型之前,优选的,将所述目标监控数据进行整理、加工、分析处理,将所述目标监控数据转化为符合所述运维管控模型要求的输入数据,其中,转化过程可以为:为所述运维管控模型建立输入数据模板,其中,所述输入数据模板对所述目标监控数据的存在形式、包含的维度信息、维度的先后顺序等进行限制,令所述目标监控数据依据所述输入数据模板进行转换后在传递到所述运维管控模型,其中,所述运维管控模型是采用预设的训练方法进行训练得到,所述运行管控模型的输入为所述目标***的当前监控数据,所述运维管控模型的输出为所述目标***在下一时间区间的异常预测结果,其中,所述下一时间的选取与模型的训练过程有关,所述异常预测结果可以为,不存在异常,正常运行、受检异常、***运行错误等。
S103、将所述异常预测结果展示给运维人员。
本发明实施例中,将所述异常预测结果展示到所述目标***的终端界面中,例如所述终端界面可以为webUI,供运维人员进行处理。其中,可以通过图表的形式直观的反应链路的性能信息,并提供应用***瓶颈与负载预测指标用以预测。
进一步的,运维人员通过查看所述异常预测结果,发现问题出处,进行自动处理或者人工处理。自动处理包括自动执行脚本、调整***参数、弹性扩容。人工处理包括生成解决方案、人工执行脚本、生成故障传播图、并提供应用***瓶颈与负载预测等指标用以异常预测告警。其中,所述自动处理以及人工处理的原则是依据运维知识库进行参考的,所述运维知识库是依据历史的运维处理经验构建的。
本发明公开了一种全链路监控***中的异常预测方法,包括:当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果。将所述异常预测结果展示给运维人员。上述的预测方法中,可以依据当前监控数据对所述目标***在下一时间区间的异常状态进行预测,实现了从事前分析的视角来分析所述目标***在下一时间区间的异常状态。
本发明实施例中,所述运维管控模型不但可以依据当前监控数据对下一时间区间的状态进行预测,还可以通过所述当前监控数据分析所述目标***当前时刻的运行状态,若当前时刻的运行状态存在异常,可以立刻进行处理,提高了运维处理的效率。
本发明实施例中,所述运维管控模型的构建过程如图2所示,包括步骤:
S201、采用机器学习算法和逻辑回归算法构建初始运维管控模型;
本发明实施例中,所述机器学习算法涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;逻辑回归又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。逻辑回归模型是一种强大的统计建模方式,它用一个或多个解释性变量对二值输出结果建模。它用逻辑斯蒂函数估计概率值,以此衡量分类依赖变量和一个或多个独立的变量之间的关系,属于累积的逻辑斯蒂分布。
其中,所述初始运维管控模型中的相关参数都是依据默认值或者经验值构建的,还需要进行调整。
S202、获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果;
本发明实施例中,在内存或者对应的数据库中获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果,历史监控数据和历史结果存在对应关系,所述历史监控数据可以是一段时间的监控数据,所述历史记录中包含多个历史监控数据和与其对应的历史监控结果,各个历史监控数据的时间段之间可以是连续的,也可以是非连续的。
S203、将每一个历史监控数据传递给所述初始运维管控模型,将得到的预测结果与其对应的历史结果进行对比;
本发明实施例中,将每一个历史监控数据传递给所述初始运维管控模型,得到预测结果,其中,所述初始运维模型中的处理过程为:对所述历史监控数据的CPU图像、内存图像、TPS图像、异常图像、调用链路图像、综合图像等采用逻辑回归算法进行监督式学习。将预测结果与其对应的历史结果进行对比,计算两者的差异值,具体的差异值计算方法在本发明实施例中不进行限定。
S204、将预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值达到预设的比例阈值时,得到所述运维管控模型。
本发明实施例中,获取所述历史记录中各个历史监控数据的预测结果与其对应的历史结果的比值,判断预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值是否达到预设的比例阈值,若是,得到所述运维管控模型;若否,对所述初始运维管控模型中的相关参数进行调整后,再次执行S201-S204。其中所述第二差异阈值的选取可以依据经验值或者具体情况进行设定。所述运维管控模型能够判定异常信息并预测出***后续一段时间的***资源与负载使用率、平均响应时间、吞吐率,保证所述目标***的资源使用一直稳定在一个合理水平。同时将生成的所述运维管控模型存储至数据库。
本发明实施例中,由于所述历史记录不可能涵盖所有的异常情况,因此,在实际采用所述运维管控模型进行预测过程中,将所述异常预测结果与实际结果进行比较,当两者的差异值满足预设的第一差异阈值时,将所述当前监控数据和所述实际结果保存在对应的数据库中,当数据库中的数据达到某一预设值或者所述运维管控模型的使用时间达到预设时间值,依据上述的监控数据和对应的实际结果对所述运维管控模型进行优化,其中,所述预设的第一差异阈值可以依据经验或者具体情况进行设定,所述第一差异阈值与所述第二差异阈值可以相同也可以不同。所述预设值和所述预设时间值的选取可以依据经验或者具体情况进行设定。
进一步的,所述运维管控模型的优化更新也可以采用历史监控数据与当前监控数据相结合的方式,其中,处理流程为:所述历史监控数据的处理过程与上述过程相同,其中,所述当前监控数据分两条线流走,这两条线流是同时进行的,也就是说当前监控数据既参与生成所述运维管控模型,也同时根据生成的所述运维管控模型去判定当前监控数据是否出现异常。
本发明实施例中,当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据的方法流程如图3所示,包括步骤:
S301、采用主成分分析法,对所述当前监控数据进行降维操作,得到降维监控数据;
本发明实施例中,主成分又称主分量、主元素。这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。
采用主成分分析算法对所述当前监控数据进行降维,所述当前监控数据包括链路跟踪及***资源数据。主成分分析算法通过线性变换将原始数据变换为一组各维度线性无关的表示,提取数据的主要特征分量,得到降维监控数据
S302、筛选出所述降维监控数据中的异常监控数据,对所述异常监控数据进行删除,得到目标监控数据。
本发明实施例中,筛选出所述降维监控数据中的异常监控数据,其中,所述异常监控数据,包括,缺项数据、噪声数据、冗余数据或者奇特异常数据,对所述异常数据进行删除处理后,得到所述目标监控数据。
本发明实施例中,基于AIOps智能运维和全链路分析理念,所述异常预测方法可以实现自动探测链路并发送链路数据给搜集端,运维用户可以基于不同角色通过工具对***性能进行深入诊断,并根据预测信息提前对应用***瓶颈位置进行处理。包括:
(1)全链路监测,快速精准定位、解决最实际问题
通过构建应用性能全链路监测体系,实现对企业在运行信息***真实运行状态和质量的全面实时监控,***问题出现后,帮助运维人员快速精准的定位和解决问题,提升运维效率。
(2)实时代码级监控
采用插码、网络旁路监听等多种手段自动采集数据并主动上报,某个数据超过设定阀值即自动推送告警给对应负责人,第一时间发现问题并处理,问题的发现及时率提高50%以上。
(3)智能分析与预测
由传统的事后处理变为事前感知予以优化解决,基于全链路数据搜集存储会产生大量有价值的监测数据和预警信息,通过监督式学习,对数据进行清洗、降维及模型生成,能够对目标***运行可能出现的问题提前进行预判和感知,便于***运维人员和厂家提前对***进行优化。
基于上述异常诊断方法的整体诊断流程如图4所示,包括:Agent应用与探针端、Collector搜集端、数据库、链路数据分析端、展现端webUI和问题处理。其中,所述链路分析端包括实时异常诊断、生成学习模型和机器学习,所述实时异常诊断包括异常判定和异常预测,所述机器学习包括数据降维及清理合并和监督学习,所述监督学习包括CPU图像学习、内存图像学习、TPS图像学习、异常图像学习、调用链路图像学习和综合图像学习;所述问题处理中自动处理包括:自动执行脚本、调整***参数和弹性扩容,所述人工处理包括:生成解决方法、人工执行脚本、生成故障传播图和异常警告。
基于上述的一种全链路监控***中的异常预测方法,本发明实施例中,还提供了一种全链路监控***中的异常预测装置,所述预测装置的结构框图如图5所示,包括:
降维清理模块401、预测模块402和展示模块403。
其中,
所述降维清理模块401,用于当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;
所述预测模块402,用于将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果;
所述展示模块403,用于将所述异常预测结果展示给运维人员。
本发明公开了一种全链路监控***中的异常预测装置,包括:当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果。将所述异常预测结果展示给运维人员。上述的预测装置中,可以依据当前监控数据对所述目标***在下一时间区间的异常状态进行预测,实现了从事前分析的视角来分析所述目标***在下一时间区间的异常状态。
本发明实施例中,所述预测模块还包括:模式调整模块404。
其中,
所述模式调整模块404,用于当检测到所述当前监控数据的数据量达到预设的数据量阈值时,将所述当前监控数据的接收模式调整为集群接收模式。
本发明实施例中,所述降维清理模块401包括:
降维单元405和筛选删除单元406。
其中,
所述降维单元405,用于采用主成分分析法,对所述当前监控数据进行降维操作,得到降维监控数据;
所述筛选删除单元406,用于筛选出所述降维监控数据中的异常监控数据,对所述异常监控数据进行删除,得到目标监控数据。
本发明实施例中,所述预测模块402包括:
构建单元407、获取单元408、传递对比单元409和完成单元410。
其中,
所述构建单元407,用于采用机器学习算法和逻辑回归算法构建初始运维管控模型;
所述获取单元408,用于获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果;
所述传递对比单元409,用于将每一个历史监控数据传递给所述初始运维管控模型,将得到的预测结果与其对应的历史结果进行对比;
所述完成单元410,用以将预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值达到预设的比例阈值时,得到所述运维管控模型。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种全链路监控***中的异常预测方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种全链路监控***中的异常预测方法,其特征在于,包括:
当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;
将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果;
将所述异常预测结果展示给运维人员。
2.根据权利要求1所述的方法,其特征在于,还包括:
依据所述运维管控模型,对所述目标***的当前状态进行分析。
3.根据权利要求1所述的方法,其特征在于,还包括:
将所述异常预测结果与实际结果进行比较,当两者的差异值满足预设的第一差异阈值时,将所述当前监控数据和所述实际结果进行保存。
4.根据权利要求1所述的方法,其特征在于,还包括:
当检测到所述当前监控数据的数据量达到预设的数据量阈值时,将所述当前监控数据的接收模式调整为集群接收模式。
5.根据权利要求1所述的方法,其特征在于,当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据,包括:
采用主成分分析法,对所述当前监控数据进行降维操作,得到降维监控数据;
筛选出所述降维监控数据中的异常监控数据,对所述异常监控数据进行删除,得到目标监控数据。
6.根据权利要求1所述的方法,其特征在于,采用预设的训练方法训练得到的运维管控模型,包括:
采用机器学习算法和逻辑回归算法构建初始运维管控模型;
获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果;
将每一个历史监控数据传递给所述初始运维管控模型,将得到的预测结果与其对应的历史结果进行对比;
将预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值达到预设的比例阈值时,得到所述运维管控模型。
7.一种全链路监控***中的异常预测装置,其特征在于,包括:
降维清理模块,用于当接收到目标***的当前监控数据时,对所述当前监控数据进行降维和清理操作,得到目标监控数据;
预测模块,用于将所述目标监控数据传递给采用预设的训练方法训练得到的运维管控模型中进行预测,得到所述目标***在下一时间区间的异常预测结果;
展示模块,用于将所述异常预测结果展示给运维人员。
8.根据权利要求7所述的装置,其特征在于,还包括:
模式调整模块,用于当检测到所述当前监控数据的数据量达到预设的数据量阈值时,将所述当前监控数据的接收模式调整为集群接收模式。
9.根据权利要求7所述的装置,其特征在于,所述降维清理模块包括:
降维单元,用于采用主成分分析法,对所述当前监控数据进行降维操作,得到降维监控数据;
筛选删除单元,用于筛选出所述降维监控数据中的异常监控数据,对所述异常监控数据进行删除,得到目标监控数据。
10.根据权利要求7所述的装置,其特征在于,所述预测模块包括:
构建单元,用于采用机器学习算法和逻辑回归算法构建初始运维管控模型;
获取单元,用于获取所述目标***的各个历史记录,其中,所述历史记录包括:历史监控数据和历史结果;
传递对比单元,用于将每一个历史监控数据传递给所述初始运维管控模型,将得到的预测结果与其对应的历史结果进行对比;
完成单元,用以将预测结果与对应的历史结果的差异值小于预设的第二差异阈值的数量与所述各个历史记录总数量的比值达到预设的比例阈值时,得到所述运维管控模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733285.2A CN110428018A (zh) | 2019-08-09 | 2019-08-09 | 一种全链路监控***中的异常预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733285.2A CN110428018A (zh) | 2019-08-09 | 2019-08-09 | 一种全链路监控***中的异常预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110428018A true CN110428018A (zh) | 2019-11-08 |
Family
ID=68413559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910733285.2A Pending CN110428018A (zh) | 2019-08-09 | 2019-08-09 | 一种全链路监控***中的异常预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428018A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830328A (zh) * | 2019-11-27 | 2020-02-21 | 厦门网宿有限公司 | 一种网络链路的异常检测方法及装置 |
CN110990219A (zh) * | 2019-11-22 | 2020-04-10 | 北京浪潮数据技术有限公司 | 一种基于预测模型的计算机监控方法 |
CN111104880A (zh) * | 2019-12-09 | 2020-05-05 | 北京国网富达科技发展有限责任公司 | 电缆隧道状态数据的处理方法、装置及*** |
CN111125152A (zh) * | 2019-12-26 | 2020-05-08 | 积成电子股份有限公司 | 一种基于数据处理过程模型的全链路数据管控方法 |
CN111181767A (zh) * | 2019-12-10 | 2020-05-19 | 中国航空工业集团公司成都飞机设计研究所 | 一种面向复杂***的监控和故障自愈***及其方法 |
CN111767202A (zh) * | 2020-07-08 | 2020-10-13 | 中国工商银行股份有限公司 | 异常检测方法、装置、电子设备和介质 |
CN112035191A (zh) * | 2020-08-27 | 2020-12-04 | 浪潮云信息技术股份公司 | 基于微服务的apm全链路监控***及方法 |
CN112769646A (zh) * | 2020-12-31 | 2021-05-07 | 网络通信与安全紫金山实验室 | 一种智能网络监控的方法和*** |
CN113535444A (zh) * | 2020-04-14 | 2021-10-22 | ***通信集团浙江有限公司 | 异动检测方法、装置、计算设备及计算机存储介质 |
CN114143221A (zh) * | 2021-11-29 | 2022-03-04 | 重庆富民银行股份有限公司 | 一个基于全链路监控的服务资产管理方法、平台及存储介质 |
CN114357044A (zh) * | 2021-12-28 | 2022-04-15 | 南威软件股份有限公司 | 基于值守追踪的大数据全生命周期管理方法、***及应用 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127595A1 (en) * | 2013-11-01 | 2015-05-07 | Numenta, Inc. | Modeling and detection of anomaly based on prediction |
CN106844161A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种带状态流计算***中的异常监控及预测方法和*** |
CN106844138A (zh) * | 2016-12-14 | 2017-06-13 | 北京奇艺世纪科技有限公司 | 运维报警***及方法 |
CN106909487A (zh) * | 2017-01-18 | 2017-06-30 | 北京盛世全景科技股份有限公司 | 应用于信息***的预警方法及装置 |
EP3312725A2 (en) * | 2016-10-21 | 2018-04-25 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
CN109492826A (zh) * | 2018-12-06 | 2019-03-19 | 远光软件股份有限公司 | 一种基于机器学习的信息***运行状态风险预测方法 |
-
2019
- 2019-08-09 CN CN201910733285.2A patent/CN110428018A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127595A1 (en) * | 2013-11-01 | 2015-05-07 | Numenta, Inc. | Modeling and detection of anomaly based on prediction |
EP3312725A2 (en) * | 2016-10-21 | 2018-04-25 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
CN106844138A (zh) * | 2016-12-14 | 2017-06-13 | 北京奇艺世纪科技有限公司 | 运维报警***及方法 |
CN106909487A (zh) * | 2017-01-18 | 2017-06-30 | 北京盛世全景科技股份有限公司 | 应用于信息***的预警方法及装置 |
CN106844161A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种带状态流计算***中的异常监控及预测方法和*** |
CN109492826A (zh) * | 2018-12-06 | 2019-03-19 | 远光软件股份有限公司 | 一种基于机器学习的信息***运行状态风险预测方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990219B (zh) * | 2019-11-22 | 2022-05-10 | 北京浪潮数据技术有限公司 | 一种基于预测模型的计算机监控方法 |
CN110990219A (zh) * | 2019-11-22 | 2020-04-10 | 北京浪潮数据技术有限公司 | 一种基于预测模型的计算机监控方法 |
CN110830328B (zh) * | 2019-11-27 | 2021-08-03 | 厦门网宿有限公司 | 一种网络链路的异常检测方法及装置 |
CN110830328A (zh) * | 2019-11-27 | 2020-02-21 | 厦门网宿有限公司 | 一种网络链路的异常检测方法及装置 |
CN111104880A (zh) * | 2019-12-09 | 2020-05-05 | 北京国网富达科技发展有限责任公司 | 电缆隧道状态数据的处理方法、装置及*** |
CN111181767A (zh) * | 2019-12-10 | 2020-05-19 | 中国航空工业集团公司成都飞机设计研究所 | 一种面向复杂***的监控和故障自愈***及其方法 |
CN111125152B (zh) * | 2019-12-26 | 2023-10-13 | 积成电子股份有限公司 | 一种基于数据处理过程模型的全链路数据管控方法 |
CN111125152A (zh) * | 2019-12-26 | 2020-05-08 | 积成电子股份有限公司 | 一种基于数据处理过程模型的全链路数据管控方法 |
CN113535444A (zh) * | 2020-04-14 | 2021-10-22 | ***通信集团浙江有限公司 | 异动检测方法、装置、计算设备及计算机存储介质 |
CN113535444B (zh) * | 2020-04-14 | 2023-11-03 | ***通信集团浙江有限公司 | 异动检测方法、装置、计算设备及计算机存储介质 |
CN111767202A (zh) * | 2020-07-08 | 2020-10-13 | 中国工商银行股份有限公司 | 异常检测方法、装置、电子设备和介质 |
CN112035191A (zh) * | 2020-08-27 | 2020-12-04 | 浪潮云信息技术股份公司 | 基于微服务的apm全链路监控***及方法 |
CN112035191B (zh) * | 2020-08-27 | 2024-04-09 | 浪潮云信息技术股份公司 | 基于微服务的apm全链路监控***及方法 |
CN112769646A (zh) * | 2020-12-31 | 2021-05-07 | 网络通信与安全紫金山实验室 | 一种智能网络监控的方法和*** |
CN114143221A (zh) * | 2021-11-29 | 2022-03-04 | 重庆富民银行股份有限公司 | 一个基于全链路监控的服务资产管理方法、平台及存储介质 |
CN114357044A (zh) * | 2021-12-28 | 2022-04-15 | 南威软件股份有限公司 | 基于值守追踪的大数据全生命周期管理方法、***及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428018A (zh) | 一种全链路监控***中的异常预测方法及装置 | |
CN108073497B (zh) | 一种基于数据中心数据采集平台的多指标异动分析方法 | |
CN110209716A (zh) | 智能物联网水务大数据处理方法和*** | |
KR101825881B1 (ko) | 빅 데이터 분석을 이용한 제조 공정 관리 방법 및 이를 이용한 제조 공정 관리 시스템 | |
KR20180108446A (ko) | Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법 | |
Goyal et al. | Optimization of condition-based maintenance using soft computing | |
CN101442561A (zh) | 一种基于支持向量机的网格监控方法 | |
CN101507185A (zh) | 使用贝叶斯网络的电信网络中的故障定位 | |
Chin et al. | Asset maintenance optimisation approaches in the chemical and process industries–A review | |
CN111124852A (zh) | 一种基于bmc健康管理模块的故障预测方法及*** | |
Liu et al. | Identifying resilient-important elements in interdependent critical infrastructures by sensitivity analysis | |
JP6503223B2 (ja) | 運用損失を考慮して障害予測結果を評価する装置、システム、プログラム及び方法 | |
Lin et al. | A general framework for quantitative modeling of dependability in cyber-physical systems: A proposal for doctoral research | |
CN113516244B (zh) | 一种智能运维方法、装置、电子设备及存储介质 | |
CN109800995A (zh) | 一种电网设备故障识别方法及*** | |
Kumaraguru et al. | Integrating real-time analytics and continuous performance management in smart manufacturing systems | |
Kobbacy et al. | New technologies for maintenance | |
Borissova et al. | A concept of intelligent e-maintenance decision making system | |
CN107480703A (zh) | 交易故障检测方法及装置 | |
Zhang et al. | A novel architecture for an integrated fault diagnostic/prognostic system | |
Tanhatalab et al. | Deep ran: A scalable data-driven platform to detect anomalies in live cellular network using recurrent convolutional neural network | |
Lai et al. | Predicting future production system bottlenecks with a graph neural network approach | |
CN114265891A (zh) | 基于多源数据融合的智慧车间***、方法及存储介质 | |
Carlsson et al. | Possibilistic bayes modelling for predictive analytics | |
Harjunkoski et al. | Synergistic and intelligent process optimization: First results and open challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |