CN112543126A - 云平台监控方法、装置、计算机设备和存储介质 - Google Patents

云平台监控方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112543126A
CN112543126A CN202011532006.5A CN202011532006A CN112543126A CN 112543126 A CN112543126 A CN 112543126A CN 202011532006 A CN202011532006 A CN 202011532006A CN 112543126 A CN112543126 A CN 112543126A
Authority
CN
China
Prior art keywords
fault information
fault
information
alarm
hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011532006.5A
Other languages
English (en)
Inventor
鲁成
李春祝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan United Imaging Healthcare Co Ltd
Original Assignee
Wuhan United Imaging Healthcare Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan United Imaging Healthcare Co Ltd filed Critical Wuhan United Imaging Healthcare Co Ltd
Priority to CN202011532006.5A priority Critical patent/CN112543126A/zh
Publication of CN112543126A publication Critical patent/CN112543126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种云平台监控方法、装置、计算机设备和存储介质。所述方法包括:采集多层次***的待监控数据;采用预设的深度学习算法,对多层次***的待监控数据进行故障分析,得到多层次***的故障信息;根据多层次***的故障信息,生成告警信息。采用本方法能够根据得到的多层次***的故障信息,及时地生成多层次***故障的告警信息,对多层次***的故障进行及时有效地处理。

Description

云平台监控方法、装置、计算机设备和存储介质
技术领域
本申请涉及监控技术领域,特别是涉及一种云平台监控方法、装置、计算机设备和存储介质。
背景技术
监控***是度量和管理互联网技术(Internet Technology,IT)的***,监控***可以在业务价值与***或应用程序的产生之间提供转换,监控***将这些指标转换为可度量的参考值为业务提供反馈,供用户进行参考,因此监控***具有极其重要的应用价值。
传统技术中,监控***一般是一个独立的***,开发和运维隔离,监控***缺少与PaaS平台的高度整合乃至于融合,监控***采集例如服务器的资源使用率,应用服务的服务状态等数据,监控***通过设置对应的指标阈值等相关告警测量,当被监控对象达到设置的阈值的时候,监控***生成告警信息。
但是,传统的监控方法,存在无法及时生成告警信息的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够及时生成告警信息的云平台监控方法、装置、计算机设备和存储介质。
一种云平台监控方法,所述方法包括:
采集多层次***的待监控数据;
采用预设的深度学习算法,对所述多层次***的待监控数据进行故障分析,得到所述多层次***的故障信息;
根据所述多层次***的故障信息,生成告警信息。
在其中一个实施例中,所述根据所述多层次***的故障信息,生成告警信息,包括:
在预设的时间窗口内,对各所述故障信息中的相同故障信息进行合并,得到合并后的故障信息;
根据所述合并后的故障信息,生成所述告警信息。
在其中一个实施例中,所述根据所述多层次***的故障信息,生成告警信息,包括:
对各所述故障信息进行关联聚合,得到聚合后的故障信息;
根据所述聚合后的故障信息,生成所述告警信息。
在其中一个实施例中,所述故障信息包括故障产生的层级;所述对各所述故障信息进行关联聚合,得到聚合后的故障信息,包括:
根据各所述故障产生的层级,将层间故障信息中的上层故障信息合并到下层故障信息,得到所述聚合后的故障信息;其中,所述上层故障信息表征的故障为所述下层故障信息表征的故障所引起的。
在其中一个实施例中,所述故障信息包括故障产生的层级;所述对各所述故障信息进行关联聚合,得到聚合后的故障信息,包括:
根据各所述故障产生的层级,将层内故障信息中的多个故障信息合并为单条故障信息,得到所述聚合后的故障信息。
在其中一个实施例中,所述方法还包括:
利用分类模型,对所述告警信息进行分类,得到分类后的告警信息;
按照所述分类后的告警信息对应的类别,下发所述分类后的告警信息。
在其中一个实施例中,所述下发所述分类后的告警信息,包括:
利用预设的通知方式,下发所述分类后的告警信息;所述预设的通知方式包括:短信、邮件、电话和及时通信。
在其中一个实施例中,所述方法还包括:
获取各所述故障信息对应的处理方法,并下发各所述故障信息对应的处理方法。
一种云平台监控装置,所述装置包括:
采集模块,用于采集多层次***的待监控数据;
分析模块,用于采用预设的深度学习算法,对所述多层次***的待监控数据进行故障分析,得到所述多层次***的故障信息;
告警模块,用于根据所述多层次***的故障信息,生成告警信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
采集多层次***的待监控数据;
采用预设的深度学习算法,对所述多层次***的待监控数据进行故障分析,得到所述多层次***的故障信息;
根据所述多层次***的故障信息,生成告警信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集多层次***的待监控数据;
采用预设的深度学习算法,对所述多层次***的待监控数据进行故障分析,得到所述多层次***的故障信息;
根据所述多层次***的故障信息,生成告警信息。
上述云平台监控方法、装置、计算机设备和存储介质,通过预设的深度学习算法能够对采集的多层次***的待监控数据进行统一地故障分析,确保能够发现各层次***的异常,得到多层次***的故障信息,从而可以根据得到的多层次***的故障信息,及时地生成多层次***故障的告警信息,对多层次***的故障进行及时有效地处理。
附图说明
图1为一个实施例中云平台监控方法的流程示意图;
图2为另一个实施例中云平台监控方法的流程示意图;
图3为另一个实施例中云平台监控方法的流程示意图;
图4为另一个实施例中云平台监控方法的流程示意图;
图5为一个实施例中云平台监控装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
传统技术中,对于医疗行业没有特定的监控方法,大多采用被动式的监控方式,基本过程如下:1)监控***采集例如服务器的资源使用率,应用服务的服务状态等数据;2)运维人员通过监控***设置对应的指标阈值等相关的告警策略;3)被监控对象达到设置的阀值的时候,监控***发送告警;4)运维人员收到告警,并通过监控***查看监控数据,分析处理告警。这种监控告警方式在医疗领域的小型IT设施以及简单应用情况下能基本满足监控的要求,但是,随着云计算技术的深入发展以及云原生PaaS平台的出现,医疗行业也正在向云原生架构迁移,需要监控的主机越来越多,常常比往常多一个甚至几个数量级,随着主机数量增多以及基础设施更加复杂,传统的监控方法各方面都开始出现很多问题,跟踪主机状态变得更加困难,应用程序微服务拆分以及业务也变得更加复杂,对可用性和质量的期望变得更高,应用告警通知堆积如山,告警无法得到及时有效的处理。
在一个实施例中,如图1所示,提供了一种云平台监控方法,以该方法应用于PaaS平台为例进行说明,包括以下步骤:
S101,采集多层次***的待监控数据。
具体地,PaaS平台采集多层次***的待监控数据。这里需要说明的是,云计算包括三个层次的服务:基础架构即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS),PaaS则提供了基础架构,软件开发者可以在这个基础架构之上建设新的应用,或者扩展已有的应用,同时却不必购买开发、质量控制或生产服务器,本申请实施例中的PaaS平台为集成有Prometheus组件,按照基础监控、集群监控、服务监控、功能监控、业务指标监控的多维度方式配置监控项目所搭建的平台,其中,基础监控用于监控服务器是否宕机,CPU、磁盘、内存、GPU等资源的使用率以及网络质量等;集群监控用于对kubernetes组件、器运行时环境docker监控、域名监控等;服务监控用于对PaaS中的中间件服务如数据库、缓存、ES等进行监控;功能监控用于对页面以及接口进行监控;业务指标监控用于反应业务运行情况的数据。本实施例中,PaaS平台采集的多层次***的待监控数据可以为多层次***中的基础监控数据、集群监控数据、服务监控数据、功能监控数据、业务指标监控数据中的至少一种监控数据。可选的,PaaS平台可以通过代理模块采集上述多层次***的待监控数据,也可以通过自定义脚本采集上述多层次***的待监控数据。可选的,PaaS平台采集的多层次***的待监控数据可以为各种业务日志,服务器资源等数据。
S102,采用预设的深度学习算法,对多层次***的待监控数据进行故障分析,得到多层次***的故障信息。
具体地,PaaS平台采用预设的深度学***台可以对采集的多层次***的待监控数据进行预处理,使用机器学***台除了采用深度学习的方法,对多层次***的待监控数据进行故障分析外,还可以采用一般分析的方法对多层次***的待监控数据进行故障分析,例如,阈值分析法等。
S103,根据多层次***的故障信息,生成告警信息。
具体地,PaaS平台根据上述得到的多层次***的故障信息,生成告警信息。可选的,PaaS平台可以对得到的多层次***的故障信息进行合并处理、剔除处理等,然后根据处理后的故障信息生成告警信息。可选的,生成的告警信息可以是语音信息,也可以是文字信息。可选的,生成的多层次***的告警信息可以是一个告警信息,也可以是多个告警信息。
上述云平台监控方法中,PaaS平台通过预设的深度学习算法能够对采集多层次***的待监控数据进行统一地故障分析,确保能够发现各层次***的异常,得到多层次***的故障信息,从而可以根据得到的多层次***的故障信息,及时地生成多层次***故障的告警信息,对多层次***的故障进行及时有效地处理。
在一些场景中,上述多层次***的故障信息中可能有相同的故障信息,因此可以对这些相同的故障信息进行合并。在一个实施例中,如图2所示,上述S103,包括:
S201,在预设的时间窗口内,对各故障信息中的相同故障信息进行合并,得到合并后的故障信息。
具体地,PaaS平台在预设的时间窗口内,对上述多层次***的故障信息中的相同故障信息进行合并,得到合并后的故障信息。示例性地,为了兼顾故障信息的合并效果和告警时效性,可以预设的时间窗口为2分钟,同一个监测点在每个监测周期内都会发现异常并发生告警,PaaS平台可以在2分钟内,对多层次***的故障信息中的相同故障信息进行合并,即预设的时间窗口内相同告警最多发送一个告警。这里需要说明的是,多层次***中的相同故障信息可以是同一诱因持续产生的故障,也可以是诱因不同但故障相同的故障信息。
S202,根据合并后的故障信息,生成告警信息。
具体地,PaaS平台根据得到的合并后的故障信息,生成多层次***的告警信息,即PaaS平台对每个合并后的故障信息都对应地生成一个告警信息,从而得到上述多层次***的告警信息。示例性地,如得到的多层次***的故障信息为10个故障信息,其中有3个相同的故障信息,PaaS平台对这10个故障信息中相同的故障信息进行合并后,得到的合并后的故障信息为7个故障信息,则PaaS平台将分别对这7个故障信息,生成告警信息。
本实施例中,PaaS平台在预设的时间窗口内,能够对多层次***的故障信息中的相同故障信息进行合并,得到合并后的故障信息,这样在保证了故障信息的准确度的情况下,减少了多层次***的故障信息,从而可以根据合并后的故障信息,快速准确地生成多层次***的告警信息,提高了对多层次***的故障信息的处理效率,进而提高了生成多层次***的告警信息的效率。
在一些场景中,上述多层次***的故障信息中可能有相关联的故障信息,在一个实施例中,如图3所示,上述S103,包括:
S301,对各故障信息进行关联聚合,得到聚合后的故障信息。
具体地,PaaS平台对多层次***的故障信息进行关联聚合,得到聚合后的故障信息。可以理解的是,由于多层次***的故障维度多,故障信息量大,但是异常事件具有相关性,对多层***的故障信息进行关联聚合,能够将具有相关性的故障信息进行聚合,减少了故障信息的数量。可选的,PaaS平台可以对多层次***中层间的故障信息进行关联聚合,得到聚合后的故障信息,也可以对多层次***中各层内的故障信息进行关联聚合,得到聚合后的故障信息。
S302,根据聚合后的故障信息,生成告警信息。
具体地,PaaS平台根据得到的聚合后的故障信息,生成多层次***的告警信息,即PaaS平台对多层次***中的具有相关性的故障信息,只生成一个告警信息。例如,得到的多层次***中的故障信息有两个故障信息具有相关性,则PaaS平台对这两个故障信息将只生成一个告警信息。
本实施例中,PaaS平台对多层次***的故障信息进行关联聚合,能够将具有相关性的故障信息进行聚合,减少了故障信息的数量,从而也减少了根据聚合后的故障信息生成的告警信息的数量,进而提高了PaaS平台生成多层次***的告警信息的效率。
在上述对多层次***的故障信息进行关联聚合的场景中,可以对多层次***中的层间故障信息进行关联聚合。在上述实施例的基础上,上述故障信息包括故障产生的层级,在一个实施例中,上述S301,包括:根据各故障产生的层级,将层间故障信息中的上层故障信息合并到下层故障信息,得到聚合后的故障信息;其中,上层故障信息表征的故障为下层故障信息表征的故障所引起的。
具体地,PaaS平台根据多层次***中各故障产生的层级,将层间故障信息中的上层故障信息合并到下层故障信息,得到上述聚合后的故障信息,其中,上层故障信息表征的故障为下层故障信息表征的故障所引起的。也就是说,多层次***的底层故障常常引起上层故障,而上层业务告警具有高优先级,底层如基础资源故障具有低优先级;服务之间存在依赖关系,被依赖的服务故障拥有高优先级,依赖的服务故障拥有低优先级,在相同事件范围内,先“假定”认为,底层故障已经引起上层故障,可以将上层告警忽略合并到下层告警,待下一个时间窗口底层告警处理后,如果上层告警仍然出现,说明与下层告警没有关联性,继续处理当前告警。
本实施例中,PaaS平台根据多层次***中各故障产生的层级,将层间故障信息中的上层故障信息合并到下层故障信息,减少了故障信息的数量,从而也减少了根据聚合后的故障信息生成的告警信息的数量,进而提高了PaaS平台生成多层次***的告警信息的效率。
在上述对多层次***的故障信息进行关联聚合的场景中,可以对多层次***中的层内故障信息进行关联聚合。在上述实施例的基础上,上述故障信息包括故障产生的层级,在一个实施例中,上述S301,包括:根据各故障产生的层级,将层内故障信息中的多个故障信息合并为单条故障信息,得到聚合后的故障信息。
具体地,PaaS平台根据多层次***中各故障产生的层级,将层内故障信息中的多个故障信息合并为单条故障信息,得到上述聚合后的故障信息。例如,对于层内告警,可以将多实例的告警合并成单条告警,比如IP1、IP2…IPn虚拟机异常可以合并成节点异常,附带IP1、IP2…IPn信息。
本实施例中,PaaS平台根据多层次***中各故障产生的层级,将层内故障信息中的多个故障信息合并为单条故障信息,减少了故障信息的数量,从而也减少了根据聚合后的故障信息生成的告警信息的数量,进而提高了PaaS平台生成多层次***的告警信息的效率。
在一些场景中,PaaS平台还可以对生成的告警信息进行分类,以便开发人员和运维人员能够根据分类后的告警信息,快速地对多层次***的故障进行处理。在上述实施例的基础上,如图4所示,上述方法还包括:
S401,利用分类模型,对告警信息进行分类,得到分类后的告警信息。
具体地,PaaS平台利用分类模型,对上述得到的告警信息进行分类,得到分类后的告警信息。可选的,分类后的告警信息的标签可以为处理、忽略、也可以为误报等。需要说明的是,在训练分类模型的过程中,可以采用K紧邻(KNN)算法验证分类模型的学习效果。
S402,按照分类后的告警信息对应的类别,下发分类后的告警信息。
具体地,PaaS平台按照上述得到的分类后的告警信息对应的类别,下发分类后的告警信息。可选的,PaaS平台可以利用预设的通知方式,下发该分类后的告警信息,其中,预设的通知方式包括:短信、邮件、电话和及时通信。可选的,PaaS平台也可以通过插件或者自定义脚本来下发分类后的告警信息。
本实施例中,PaaS平台利用分类模型,对多层次***的告警信息进行分类,能够得到分类后的告警信息,从而可以按照分类后的告警信息对应的类别,下发分类后的告警信息,这样能够快速准确地下发多层次***的告警信息,从而提高了下发告警信息的效率和准确度,另外,按照分类后的告警信息对应的类别,下发分类后的告警信息开发人员和运维人员能够根据分类后的告警信息,快速地对多层次***的故障进行处理,提高了对多层次***故障的处理效率。
在上述下发了告警信息的场景中,还需要对下发的告警信息对应的故障进行处理。在上述实施例的基础上,在一个实施例中,上述方法还包括:获取各故障信息对应的处理方法,并下发各故障信息对应的处理方法。
具体地,PaaS平台获取多层次***的各故障信息对应的处理方法,并下发各故障信息对应的处理方法。可选的,PaaS平台可以也通过短信、邮件、电话和及时通信等方式,下发各故障信息对应的处理方法。
本实施例中,PaaS平台通过获取多层次***的各故障信息对应的处理方法,并下发各故障信息对应的处理方法,能够使开发人员和运维人员根据各故障信息对应的处理方法及时地对多层次***的各故障进行及时地处理,从而提高了处理多层次***各个故障的效率。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种云平台监控装置,包括:采集模块、分析模块和告警模块,其中:
采集模块,用于采集多层次***的待监控数据。
分析模块,用于采用预设的深度学习算法,对多层次***的待监控数据进行故障分析,得到多层次***的故障信息。
告警模块,用于根据多层次***的故障信息,生成告警信息。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,可选的,上述告警模块,包括:合并单元和第一告警单元,其中:
合并单元,用于在预设的时间窗口内,对各故障信息中的相同故障信息进行合并,得到合并后的故障信息。
第一告警单元,用于根据合并后的故障信息,生成告警信息。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,可选的,上述告警模块,包括:聚合单元和第二告警单元,其中:
聚合单元,用于对各故障信息进行关联聚合,得到聚合后的故障信息。
第二告警单元,用于根据聚合后的故障信息,生成告警信息。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,故障信息包括故障产生的层级;可选的,上述聚合单元,具体用于根据各故障产生的层级,将层间故障信息中的上层故障信息合并到下层故障信息,得到聚合后的故障信息;其中,上层故障信息表征的故障为下层故障信息表征的故障所引起的。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,故障信息包括故障产生的层级;可选的,上述聚合单元,具体用于根据各故障产生的层级,将层内故障信息中的多个故障信息合并为单条故障信息,得到聚合后的故障信息。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,可选的,上述装置还包括:分类模块和第一下发模块,其中:
分类模块,用于利用分类模型,对告警信息进行分类,得到分类后的告警信息。
第一下发模块,用于按照分类后的告警信息对应的类别,下发分类后的告警信息。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,可选的,上述第一下发模块包括:下发单元,其中:
下发单元,用于利用预设的通知方式,下发分类后的告警信息;预设的通知方式包括:短信、邮件、电话和及时通信。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,可选的,上述装置还包括:第二下发模块,其中:
第二下发模块,用于获取各故障信息对应的处理方法,并下发各故障信息对应的处理方法。
本实施例提供的云平台监控装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
关于云平台监控装置的具体限定可以参见上文中对于云平台监控方法的限定,在此不再赘述。上述云平台监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种云平台监控方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
采集多层次***的待监控数据;
采用预设的深度学习算法,对多层次***的待监控数据进行故障分析,得到多层次***的故障信息;
根据多层次***的故障信息,生成告警信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集多层次***的待监控数据;
采用预设的深度学习算法,对多层次***的待监控数据进行故障分析,得到多层次***的故障信息;
根据多层次***的故障信息,生成告警信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种云平台监控方法,其特征在于,所述方法包括:
采集多层次***的待监控数据;
采用预设的深度学习算法,对所述多层次***的待监控数据进行故障分析,得到所述多层次***的故障信息;
根据所述多层次***的故障信息,生成告警信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多层次***的故障信息,生成告警信息,包括:
在预设的时间窗口内,对各所述故障信息中的相同故障信息进行合并,得到合并后的故障信息;
根据所述合并后的故障信息,生成所述告警信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多层次***的故障信息,生成告警信息,包括:
对各所述故障信息进行关联聚合,得到聚合后的故障信息;
根据所述聚合后的故障信息,生成所述告警信息。
4.根据权利要求3所述的方法,其特征在于,所述故障信息包括故障产生的层级;所述对各所述故障信息进行关联聚合,得到聚合后的故障信息,包括:
根据各所述故障产生的层级,将层间故障信息中的上层故障信息合并到下层故障信息,得到所述聚合后的故障信息;其中,所述上层故障信息表征的故障为所述下层故障信息表征的故障所引起的。
5.根据权利要求3所述的方法,其特征在于,所述故障信息包括故障产生的层级;所述对各所述故障信息进行关联聚合,得到聚合后的故障信息,包括:
根据各所述故障产生的层级,将层内故障信息中的多个故障信息合并为单条故障信息,得到所述聚合后的故障信息。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
利用分类模型,对所述告警信息进行分类,得到分类后的告警信息;
按照所述分类后的告警信息对应的类别,下发所述分类后的告警信息。
7.根据权利要求6所述的方法,其特征在于,所述下发所述分类后的告警信息,包括:
利用预设的通知方式,下发所述分类后的告警信息;所述预设的通知方式包括:短信、邮件、电话和及时通信。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取各所述故障信息对应的处理方法,并下发各所述故障信息对应的处理方法。
9.一种云平台监控装置,其特征在于,所述装置包括:
采集模块,用于采集多层次***的待监控数据;
分析模块,用于采用预设的深度学习算法,对所述多层次***的待监控数据进行故障分析,得到所述多层次***的故障信息;
告警模块,用于根据所述多层次***的故障信息,生成告警信息。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202011532006.5A 2020-12-22 2020-12-22 云平台监控方法、装置、计算机设备和存储介质 Pending CN112543126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011532006.5A CN112543126A (zh) 2020-12-22 2020-12-22 云平台监控方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011532006.5A CN112543126A (zh) 2020-12-22 2020-12-22 云平台监控方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112543126A true CN112543126A (zh) 2021-03-23

Family

ID=75017462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011532006.5A Pending CN112543126A (zh) 2020-12-22 2020-12-22 云平台监控方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112543126A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035678A (zh) * 2010-12-16 2011-04-27 中国电子科技集团公司第三十研究所 一种基于关联度的多维综合态势呈现***
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息***有限公司 神经网络的智能化告警监控方法
CN104518905A (zh) * 2013-10-08 2015-04-15 华为技术有限公司 一种故障定位方法及装置
CN106603317A (zh) * 2017-02-20 2017-04-26 山东浪潮商用***有限公司 一种基于数据挖掘技术的告警监控策略的分析方法
CN108632057A (zh) * 2017-03-17 2018-10-09 华为技术有限公司 一种云计算服务器的故障恢复方法、装置及管理***
CN109818795A (zh) * 2019-01-31 2019-05-28 烽火通信科技股份有限公司 一种智能业务动态倒换的故障分析方法及***
CN109991951A (zh) * 2019-04-28 2019-07-09 齐鲁工业大学 多源故障检测与诊断方法和装置
TW201933828A (zh) * 2018-01-17 2019-08-16 威力工業網絡股份有限公司 城市物聯網控制系統
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035678A (zh) * 2010-12-16 2011-04-27 中国电子科技集团公司第三十研究所 一种基于关联度的多维综合态势呈现***
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息***有限公司 神经网络的智能化告警监控方法
CN104518905A (zh) * 2013-10-08 2015-04-15 华为技术有限公司 一种故障定位方法及装置
CN106603317A (zh) * 2017-02-20 2017-04-26 山东浪潮商用***有限公司 一种基于数据挖掘技术的告警监控策略的分析方法
CN108632057A (zh) * 2017-03-17 2018-10-09 华为技术有限公司 一种云计算服务器的故障恢复方法、装置及管理***
TW201933828A (zh) * 2018-01-17 2019-08-16 威力工業網絡股份有限公司 城市物聯網控制系統
CN109818795A (zh) * 2019-01-31 2019-05-28 烽火通信科技股份有限公司 一种智能业务动态倒换的故障分析方法及***
CN109991951A (zh) * 2019-04-28 2019-07-09 齐鲁工业大学 多源故障检测与诊断方法和装置
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器

Similar Documents

Publication Publication Date Title
EP2871574B1 (en) Analytics for application programming interfaces
US10929217B2 (en) Multi-variant anomaly detection from application telemetry
US8595564B2 (en) Artifact-based software failure detection
US9710122B1 (en) Customer support interface
US11610136B2 (en) Predicting the disaster recovery invocation response time
US11314609B2 (en) Diagnosing and remediating errors using visual error signatures
US11704185B2 (en) Machine learning-based techniques for providing focus to problematic compute resources represented via a dependency graph
US11362902B2 (en) Techniques for correlating service events in computer network diagnostics
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
Ali et al. [Retracted] Classification and Prediction of Software Incidents Using Machine Learning Techniques
WO2022042126A1 (en) Fault localization for cloud-native applications
CN114338684A (zh) 一种能源管理***及方法
Meng et al. Driftinsight: detecting anomalous behaviors in large-scale cloud platform
CN113242148B (zh) 监控告警相关信息的生成方法、装置、介质及电子设备
CN112543126A (zh) 云平台监控方法、装置、计算机设备和存储介质
CN115098326A (zh) 一种***异常检测方法及装置、存储介质及电子设备
US20220107858A1 (en) Methods and systems for multi-resource outage detection for a system of networked computing devices and root cause identification
Rouf et al. InstantOps: A Joint Approach to System Failure Prediction and Root Cause Identification in Microserivces Cloud-Native Applications
CN114281586A (zh) 故障确定方法及装置、电子设备和计算机可读存储介质
US10805180B2 (en) Enterprise cloud usage and alerting system
CN116450465B (zh) 数据处理方法、装置、设备及介质
US11929867B1 (en) Degradation engine execution triggering alerts for outages
US20230236922A1 (en) Failure Prediction Using Informational Logs and Golden Signals
US20240179044A1 (en) Monitoring service health statuses to raise alerts
Alkasem et al. Cloudpt: Performance testing for identifying and detecting bottlenecks in iaas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination