CN115599620A - 监控告警方法及终端设备 - Google Patents

监控告警方法及终端设备 Download PDF

Info

Publication number
CN115599620A
CN115599620A CN202110717838.2A CN202110717838A CN115599620A CN 115599620 A CN115599620 A CN 115599620A CN 202110717838 A CN202110717838 A CN 202110717838A CN 115599620 A CN115599620 A CN 115599620A
Authority
CN
China
Prior art keywords
monitoring
responsibility
objects
alarm
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110717838.2A
Other languages
English (en)
Inventor
张良
胡爱纯
毛艳清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Fulian Fugui Precision Industry Co Ltd
Original Assignee
Shenzhen Fugui Precision Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Fugui Precision Industrial Co Ltd filed Critical Shenzhen Fugui Precision Industrial Co Ltd
Priority to CN202110717838.2A priority Critical patent/CN115599620A/zh
Priority to TW110134117A priority patent/TWI778787B/zh
Publication of CN115599620A publication Critical patent/CN115599620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种监控告警方法及终端设备,监控告警方法包括:根据多个监控对象的重要性、所在层级以及所对应的项目,对多个监控对象分配优先级;从多个监控对象采集监控数据;当多个监控数据异常时,根据优先级确定责任对象,并将对应的告警状态更新为开放状态;调用知识图谱,对责任对象的故障根因进行确定,其中,知识图谱用于存储与多个责任对象对应的故障根因和处理方法;确定故障根因是否对应有无需人为干预进行的处理方法;若存在无需人为干预进行的处理方法,则根据处理方法自动修复责任对象;若不存在无需人为干预进行的处理方法,则通知运维人员修复责任对象。通过在多个异常的监控对象中仅对责任对象进行告警,减少了告警冗杂的情况。

Description

监控告警方法及终端设备
技术领域
本申请涉及故障监控领域,更具体地涉及一种监控告警方法及终端设备。
背景技术
随着互联网应用的普及,企业级的海量稳定性在线服务的需求日趋强烈,目前应用于在线服务的在线***在运行的同时需要进行监控,完善的监控***是维护在线***稳定运行的关键。
目前的监控***在发现采集的监控数据异常时,会针对与监控数据对应的模块发出警报,提醒工作人员该模块出现异常,应及时对异常进行排查。但在监控***发出警报时,监控***每当检测到一处数据异常即根据该异常发出一个警报,当同时出现多个数据异常时将同时发出多个警报,而多个监控数据异常的原因可能仅为一个模块的故障而引起的连锁反应,因此存在告警冗杂的情况。
发明内容
鉴于以上内容,有必要提供一种监控告警方法及终端设备,当多个监控数据异常时,可以仅对作为在线***异常的主要诱因的模块进行告警,减少了告警冗杂的情况。
第一方面,本申请的实施例提供一种监控告警方法,包括:根据多个监控对象的重要性、所在层级以及所对应的项目,对多个所述监控对象分配优先级;从多个所述监控对象采集监控数据;当多个所述监控数据异常时,根据所述优先级确定责任对象,并将所述责任对象对应的告警状态更新为开放状态;调用知识图谱,对所述责任对象的故障根因进行确定,其中,所述知识图谱用于存储与多个所述责任对象对应的所述故障根因和处理方法;确定所述故障根因是否对应有无需人为干预进行的所述处理方法;若存在无需人为干预进行的所述处理方法,则根据所述处理方法自动修复所述责任对象;若不存在无需人为干预进行的所述处理方法,则通知运维人员修复所述责任对象。
可选地,所述从多个监控对象采集监控数据,根据多个所述监控对象的所在层级以及所对应的项目,对所述监控对象分配优先级包括:根据所述监控对象的关键性的所述监控对象分配首选优先级;根据所述监控对象所在的层级对所述监控对象分配层级优先级;对于对应于同一项目且位于同一层级的多个所述监控对象,根据多个所述监控对象之间的依赖关系对所述监控对象分配依赖优先级。
可选地,所述当多个所述监控数据异常时,根据所述优先级确定责任对象,并将所述责任对象对应的告警状态更新为开放状态包括:当多个所述监控数据异常时,根据所述首选优先级确定是否存在于异常的所述监控数据对应的关键性的所述监控对象;若存关键性的所述监控对象,确定关键性的所述监控对象为所述责任对象;若不存关键性的所述监控对象,则通过所述层级优先级确定所述责任对象所在的层级;在确定的所述责任对象所在的层级中,根据所述依赖优先级确定所述责任对象。
可选地,所述监控告警方法还包括:根据所述监控对象所在层级,对所述监控对象标记层级标签信息。
可选地,所述监控告警方法还包括:根据所述监控对象对应的项目,对所述监控对象标记项目标签信息。
可选地,所述监控告警方法还包括:根据所述层级标签信息、所述项目标签信息和所述层级优先级,生成项目资源架构列表;根据所述项目资源列表和故障知识库,组合生成所述知识图谱,其中,所述故障知识库中存储有与多种所述责任对象对应的所述故障根因、所述处理方法。
可选地,所述监控告警方法还包括:当一个所述监控数据异常时,确定所述监控数据对应的所述监控对象为所述责任对象,并将所述责任对象对应的告警状态更新为开放状态。
可选地,所述监控告警方法还包括:获取运维反馈信息,并将所述告警状态更新为进行中状态;获取运维完成信息,并将所述告警状态更新为已解决状态。
可选地,所述监控告警方法还包括:确定所述责任对象是否修复;若所述责任对象完成修复,则将告警状态更新为关闭状态。
第二方面,本申请的实施例提供一种终端设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器存储的所述计算机程序,当所述计算机程序被执行时,所述处理器用于执行如上述任一项所述的监控告警方法。
本申请实现方式提供的监控告警方法及终端设备,通过对监控对象分配优先级,并根据优先级确定出对在线***故障起主要诱因作用的责任对象,可以仅对责任对象进行告警,减少了告警冗杂的情况,同时可以通过调用知识图谱对部分责任对象进行即时自动修复,缩短了平均故障修复时间,提高了所述在线***运行的稳定性。
附图说明
图1是本申请实施例中的监控告警方法的流程图。
图2是本申请实施例中的监控告警方法的另一流程图。
图3是本申请实施例中的监控告警方法的另一流程图。
图4是本申请实施例中的项目资源架构列表的示意图。
图5是本申请实施例中的知识图谱的示意图。
图6是本申请实施例中的监控告警方法的另一流程图。
图7是本申请实施例中的监控告警***的示意图。
图8是本申请实施例中的终端设备的示意图。
主要元件符号说明
监控告警*** 100
终端设备 200
控制模块 10
采集模块 20
确定模块 30
告警模块 40
通知模块 50
处理器 60
存储器 70
通信接口 80
如下具体实现方式将结合上述附图进一步说明本申请。
具体实施方式
下面将结合本申请实现方式中的附图,对本申请实现方式中的技术方案进行清楚、完整地描述,显然,所描述的实现方式仅是本申请一部分实现方式,而不是全部的实现方式。
在一些可能的场景中,对于在线***,例如ERP***、OA***等,需要通过监控***进行数据监控,当在线***出现数据异常时,监控***可以发出警报,通知运维人员及时进行异常处理,减少在线***的故障时间,维护在线***的稳定。
在该场景中,在线***中出现一处数据异常时,易导致其他数据同步发生异常,例如当虚拟机(Virtual Machine)出现故障导致虚拟机数据发生异常时,虚拟机内的数据库(Database)的数据将同步发生故障,虚拟机内运行的应用(Application)的数据将同步发生故障。但在监控***发出警报时,监控***每当检测到一处数据异常即根据该异常发出一个警报,当同时出现多个数据异常时将同时发出多个警报,而多个警报产生的原因可能仅为一个模块的故障,例如虚拟机故障会导致虚拟机及位于虚拟机内的应用和数据库的数据异常,导致了告警冗杂的情况。
为了应对上述情况,本申请的实施例提供一种监控告警方法,该方法可以在发现数据异常后先对异常情况进行优先级筛选,再对优先级高的异常情况进行告警,减少了当一个模块发生故障导致多组数据异常时出现的警报冗杂现象。
请参阅图1,图1为本申请的一个实施例提供的监控告警方法的流程图。
本实施例的监控告警方法可以包括以下步骤:
步骤S11:根据监控对象所在的层级和对应的项目,对所述监控对象进行标记。
在本申请的实施例中,在监控告警***100(图7中示出)初始化阶段,可以先对多个所述监控对象进行确定,例如可以确定对多个虚拟机、多个数据库以及多个应用的数据进行监控,即确定进行数据监控的多个虚拟机、多个数据库和多个应用为所述监控对象。
可以理解,所述监控告警***100在对所述监控对象进行数据采集前,可以先在监控对象上添加采集器进行埋点,采集器具体可以包括但不局限于agent采集器、export采集器等。
可以理解,在所述在线***中,根据所述在线***的虚拟架构,多个所述监控对象可以位于不同的层级,例如,在所述在线***中可以存在第一层级、第二层级和第三层级,其中第一层级为最低层级,第三层级为最高层级,所述在线***中的虚拟机可以位于第一层级,位于该虚拟机内的数据库可以位于第二层级,运行于该虚拟机内且调用数据库的数据运行的应用可以位于第三层级。
可以理解,对于一个所述在线***的多个功能可以分别对应有多个项目,例如用户登录功能可以对应于项目A,关键词搜索功能可以对应于项目B,而所述在线***的每个功能均对应有多个模块,故每个项目均对应有多个所述监控对象。
请参阅图2,在一种可能的实现方法中,对所述监控对象进行标记的具体方法可以包括一下步骤:
步骤S21:根据多个所述监控对象的层级对所述监控对象标记层级标签信息。
举例说明,多个所述监控对象可以包括位于第一层级的多个虚拟机、位于第二层级的多个数据库和位于第三层级的多个应用,则对多个虚拟机标记的所述层级标签信息可以是VM标签,如VM1、VM2等,对多个数据库标记的所述层级标签信息的可以是DB标签,如DB1、DB2等,对多个应用标记的所述层级标签信息可以是APP标签,如APP1、APP2等。
步骤S22:根据多个所述监控对象对应的项目对所述监控对象标记项目标签信息。
在一种可能的场景中,对所述监控对象标记的所述项目标签信息可以是项目卷标,例如项目A、项目B等。
举例说明,多个所述监控对象可以包括位于第一层级的多个虚拟机、位于第二层级的多个数据库和位于第三层级的多个应用,当虚拟机1、虚拟机2、数据库1和应用1与项目A对应时,对虚拟机1、虚拟机2、数据库1和应用1标记项目A卷标;当虚拟机3、数据库2、数据库3和应用2与项目B对应时,对虚拟机3、数据库2、数据库3和应用2标记项目B卷标。
步骤S12:对多个所述监控对象分配优先级。
在一种可能的场景中,所述优先级的分配可以考量所述监控对象的多种要素,例如所述监控对象在虚拟架构中的所述层级、所述监控对象对应的项目以及所述监控对象对于所述在线***的重要性等。
请参阅图3,在一种可能的实现方法中,对多个监控对象分配优先级的具体方法可以包括以下步骤:
步骤S31:根据所述监控对象的关键性的对所述监控对象分配首选优先级。
可以理解,在所述在线***运行的过程中,所述在线***的部分模块与多个其他模块相关联,此部分模块出现故障后会导致多个所述监控对象出现异常,同时可能导致所述在线***部分关键性功能的丧失,因此当这部分模块作为所述监控对象时,可以对所述监控对象分配高的首选优先级,则当监控到多个所述监控对象出现故障时,可以优先对分配了高首选优先级的所述监控对象的故障进行告警。
举例说明,例如存储有关键性数据的数据库,在该数据库出现故障时在线***无法调用关键性数据,进而导致所述在线***的部分功能丧失,则该数据库作为所述监控对象时,可分配高的首选优先权。
举例说明,分配所述首选优先级的具体形式可以是分配1%和99%的首选权重,即对关键性所述监控对象分配99%的所述首选权重,而对非关键性所述监控对象分配1%的所述首选权重。
步骤S32:根据所述监控对象所在的层级对所述监控对象分配层级优先级。
可以理解,在所述在线***中,各个模块所处层级各不相同,位于低层级的模块出现故障后可以引起与之对应的高层级的模块出现异常。
举例说明,在所述在线***中可以存在第一层级、第二层级和第三层级,其中第一层级为最低层级,第三层级为最高层级,在线***中的虚拟机可以位于第一层级,位于该虚拟机内的数据库可以位于第二层级,运行与该虚拟机内切调用数据库的数据运行的应用可以位于第三层级,则当虚拟机出现故障时,将导致位于第二层级的数据库和第三层级的应用出现异常,当数据库出现故障时,将导致位于第三层级的应用出现异常,而位于第一层级的虚拟机保持正常运行。
可以理解,由于层级低的所述监控对象出现故障时易导致层级高的所述监控对象的异常,因此可以对层级低的所述监控对象分配高优先级,而对层级高的所述监控对象分配低优先级。
举例说明,分配所述层级优先级的具体形式可以是分配层级权重,例如,可以对第一层级分配40%的所述层级权重,对第二层级分配35%的所述层级权重,对第三层级分配25%的所述层级权重。
步骤S33:对于对应同一项目且位于同一层级的多个所述监控对象,根据多个所述监控对象的依赖关系对所述监控对象分配依赖优先级。
可以理解,对于一个在线***的多个功能可以分别对应有多个项目,例如用户登录功能可以对应于项目A,关键词搜索功能可以对应于项目B。每个项目在不同的层级均可以对应有多个所述监控对象,当位于同一层级的多个所述监控对象之间存在依赖关系时,可以对多个所述监控对象盘匹配所述依赖优先级,若多个所述监控对象之间不存在依赖关系或是位于同一层级的仅有一个所述监控对象时,不进行所述依赖优先级的分配。
可以理解,在于同一项目对应且位于同一层级的多个所述监控对象可能存在依赖关系,例如,与用户登录功能对应的项目,在第三层级对应有应用1、应用2和应用3,应用3用于显示用户登录界面,应用2用于显示验证码,应用1用于更换验证码,由于当用户登录界面无法显示时,验证码无法显示且无法对验证码进行更换;当验证码无法显示时,验证码更换的操作无法实现,因此,应用1、应用2和应用3的依赖关系为应用1依赖于应用2,且应用2依赖于应用3。当应用1、应用2和应用3作为所述监控对象时,可以对应用1匹配最高的依赖优先级,对应用3匹配最低的依赖优先级。
举例说明,分配所述依赖优先级的具体形式可以是分配依赖权重,例如,当一个项目在第三层级对应有应用1、应用2和应用3三个所述监控对象,且应用1、应用2和应用3的依赖关系为应用1依赖于应用2,且应用2依赖于应用3时,可以对应用1分配25%的所述依赖权重,对应用2分配35%的所述依赖权重,对应用3分配40%的所述依赖权重。
步骤S13:根据所述监控对象及其相关信息生成项目资源架构列表。
如图4所示,在本申请的实施例中,与所述监控对象相关的信息可以包括所述层级标签信息、所述项目标签信息和所述层级优先级等。
可以理解,所述项目资源架构列表可以在所述监控告警***100初始化时生成,相同地,作为所述项目资源架构列表生成的根据的所述层级优先级、所述层级标签信息和所述项目标签信息等可以在所述监控告警***100初始化时确定。
步骤S14:根据所述资源架构列表和故障知识库组合生成知识图谱。
如图5所述,在本实施例中,所述故障知识库中存储了与多个故障的所述监控对象对应的故障根因、实体资源、处理方法和负责人信息等,所述知识图谱中存储了与多个故障的所述监控对象对应的所述故障根因、所述层级标签信息、所述项目标签信息、所述层级优先级、所述依赖优先级、所述实体资源、所述处理方法所述负责人信息等。随着所述在线***的更新,所述监控对象发生变化,所述知识图谱可以进行更新,对所述知识图谱的更新可以是人为进行的,也可以是***自动更新,在本申请的实施例中对此不作限定。
可以理解,所述监控对象对应的所述故障根因,可以是当确定某异常的所述监控对象为所述在线***出现故障的主要诱因时,该所述监控对象出现异常的根本原因所在。例如,所述监控对象异常的根本原因可以是所述监控对象运行的程序中某一段代码的赋值错误,所述故障根因记载的内容可以是所述监控对象运行的程序中该段代码赋值错误。
可以理解,所述实体资源可以是所述监控对象运行所依托的硬件设备,例如实体服务器、存储硬盘等。
可以理解,所述故障根因可以是软件***上的根本原因,也可以是所述实体资源上的根本原因,例如,所述监控对象异常的原因可以是所述监控对象运行所依托的实体服务器宕机。
可以理解,所述处理方法可以是用于解决所述故障根因的***自修复方法或者是需要人为干预的修复方法,在一种可能的场景中,所述在线***可以通过所述处理方法对所述故障根因进行自动修复,例如当所述故障根因是所述监控对象运行的程序中某段代码赋值错误时,所述处理方法可以是将该段代码赋值更正为指定正确值,所述在线***可以在无人为干预的情况下自动将该段代码复制更正为指定的正确值,从而解决所述故障根因;在另一种可能的场景中,所述处理方法需要运维人员进行人为操作才能实现,此时可以将所述处理方法通知给所述运维人员,通过所述运维人员的人为操作解决所述故障根因。
在本申请的实施例中,对于不同的所述故障根因,对应的所述处理方法可以是相同的,也可以是不同的,且对于部分所述故障根因,在所述知识图谱中可能不存在与之对应的所述处理方法。
在一种可能的场景中,所述知识图谱存储的对于一个所述监控对象对应的所述故障根因可以存在多个,且每个所述故障根因对应有一种***表象或一个数据范围。
可以理解,所述***表象可以是在部分所述监控数据异常后所述在线***的一些异常表象,例如无法实现搜索功能、无法输入密码等。
可以理解,所述数据范围可以是出现异常的所述监控数据数值的范围,对于一个所述监控对象而言,当所述监控对象出现不同情况的异常时,其所述故障根因、所述解决方法不同,其所述监控数据的数值所在的区间也可能不同,因此通过确定所述监控数据数值所在的范围可以在确定所述监控对象异常之余,更准确地得知所述监控对象具体的所述故障根因及所述处理方法。
在一种可能的场景中,异常的所述监控对象出现异常的根本原因是未知的,例如所述监控对象对应的所述监控数据数值不在所述知识图谱中记载的任何所述数据范围内,此时该所述监控对象在所述知识图谱中仍对应有所述故障根因,所述故障根因记载的内容可以是“其他原因”。在此场景中,在所述知识图谱中不存在与内容为“其他原因”的所述故障根因对应的所述处理方法。
可以理解,对于每一个所述监控对象可以设置有对应的负责人,所述负责人信息可以记载负责人的个人信息、联系方式等,当所述监控对象异常时可以通过所述负责人信息确定对应的负责人,可以根据所述负责人信息记载的负责人联系方式联系对应的负责人,对所述监控对象进行维护。
在一种可能的场景中,所述知识图谱可以以列表结构呈现;在另一种可能的场景中,所述知识图谱可以以图案结构存储。
步骤S15:从多个所述监控对象采集监控数据,并确定所述监控数据是否存在异常,若存在异常则进入步骤S16,若不存在异常则重新确定所述监控数据是否存在异常。
可以理解,可以根据所述监控数据是否异常判断所述监控对象是否异常。
在一种可能的场景中,判断所述监控对象是否存在异常的标准可以是判断所述监控数据是否移出预设的额定范围,若所述监控数据移出预设的额定范围,则判定所述监控对象存在异常。
可以理解,当确定不存在所述监控数据不存在异常时,重新进行如步骤S15中对所述监控数据是否异常的判定,即对所述监控对象是否存在异常的判定是持续进行的。
步骤S16:确定是否仅为单一所述监控数据异常,若是单一所述监控数据异常,则进行步骤S17,若并非单一所述监控数据异常则进行步骤S18。
可以理解,当仅为单一所述监控数据发生异常时,可以精确地确认发生故障的所述监控对象即为与所述监控数据对应的监控对象,可以排除该所述监控对象被其他故障的所述监控对象影响而导致所述监控数据异常的可能性,此时可以直接对该所述监控对象进行故障根本原因的确认和修复。
步骤S17:确定与所述监控数据对应的所述监控对象为责任对象,并进入步骤S111。
可以理解,在多个所述监控对象中,作为对当前所述在线***出现的异常的主要诱因的所述监控对象,定义为所述责任对象。
可以理解,当出现异常的所述监控数据仅为单一数据时,可以精确地确认发生故障的所述监控对象即为与所述监控数据对应的监控对象,故可以直接定义与异常的所述监控数据对应的所述监控对象为所述责任对象。
步骤S18:确定异常的多个所述监控数据对应的多个所述监控对象中,是否存在关键性的所述监控对象,若存在关键性的所述监控对象,则进入步骤S19,若不存在关键性的所述监控对象,则进入步骤S110。
在本申请的实施例中,确认多个所述监控对象中是否存在关键性的所述监控对象,具体可以通过确定所述监控对象的所述首选优先级来实现。
举例说明,分配所述首选优先级的具体形式可以是分配首选权重,对于关键性所述监控对象可以分配99%的首选权重,对于非关键性所述监控对象可以分配1%的首选权重,当出现异常的所述监控数据对应的所述监控对象中,存在首选权重为99%的所述监控对象时,可以确定该所述监控对象为关键性的监控对象。
步骤S19:确定关键性的所述监控对象为所述责任对象,并进入步骤S111。
可以理解,在所述在线***运行的过程中,关键性的所述监控对象与多个其他所述监控对象相关联,在所述在线***中起关键性作用,当关键性的所述监控对象出现故障后会导致多个所述监控对象出现异常,同时可能导致在线***部分关键性功能的丧失,因此当关键性的所述监控对象异常时,可以优先确定关键性的所述监控对象为所述责任对象,而不需再对其他异常的所述监控对象进行评测。
步骤S110:根据对所述监控数据异常的多个所述监控对象分配的所述层级优先级和所述依赖优先级,确定多个所述监控对象中的所述责任对象,并进入步骤S111。
可以理解,基于在所述监控告警***100初始化阶段对多个所述监控对象对应的所述层级优先级和所述依赖优先级的分配,在确定对所述在线***故障其主要诱因作用的所述监控对象时,可以通过分配好的所述层级优先级和所述依赖优先级进行确认。
在本申请的实施例中,所述层级优先级和所述依赖优先级可以组成根本原因分析规则库,所述根本原因分析规则库通过以下规则对多个所述监控对象中的所述责任对象进行确认:
与同一项目对应的所述监控对象中,可以先确定所述责任对象位于所述层级优先级最高的层级中,再在该层级中选择所述依赖优先级高的所述监控对象,所选的所述监控对象即为所述责任对象。
可以理解,在确认所述责任对象所在层级时,需要先确认所述监控数据异常的所述监控对象所位于的层级,再在存在异常的监控对象的所在层级中选出所述层级优先权最高的层级。
在一种可能的场景中,确定所述监控对象所在层级的具体方法可以是确认所述监控对象上标记的所述层级标签信息,确定所述监控对象对应的项目的具体方法可以是确认所述监控对象上标记的所述项目标签信息。
举例说明,分配所述层级优先级的具体形式可以是分配层级权重,出现异常的所述监控数据的对应的所述监控对象分别为虚拟机1、运行于虚拟机1内的应用1和应用2,其中虚拟机1位于第一层级,应用1和应用2位于第三层级,虚拟机1、应用1和应用2均与项目A对应,而第一层级分配的层级权重为40%,第三层级分配的层级权重为25%,因此所述责任对象位于第一层级中,而在第一层级中异常的所述监控对象仅有虚拟机1,因此虚拟机1即为所述责任对象。
举例说明,分配所述依赖优先级的具体形式可以是分配依赖权重,出现异常的所述监控数据对应的所述监控对象分别为位于第三层级且均与项目A对应的应用1、应用2和应用3,其中应用1的依赖权重为25%,应用2的依赖权重为30%,应用3的依赖权重为40%,应用3分配的依赖权重最大,因此可以确定应用3为所述责任对象。
在本申请的实施例中,根据出现异常的所述监控对象所对应的项目的不同,所述责任对象可以是一个或多个,在本申请的实施例中对此不作限定。
在本申请实施例中,当确认了所述责任对象时,可以将所述责任对象的告警状态从关闭状态更新为开放状态。
可以理解,当所述监控对象无异常时,其所述告警状态为关闭状态;当确认所述监控对象异常且所述监控对象为所述责任对象时,在将所述告警状态调节至开放状态,仅对所述责任对象的异常进行告警,减少了告警冗杂的情况,也使监控人员更直接地获知导致所述在线***故障的主要诱因所在。
步骤S111:调用所述知识图谱,确定所述故障根因。
可以理解,在所述监控告警***100初始化阶段生成的所述知识图谱中,存储有当所述监控对象异常时与所述监控对象对应的所述故障根因,因此可以通过所述知识图谱确定所述责任对象对应的所述故障根因。
在一种可能的场景中,在确定所述故障根因时,可以参考所述责任对象对应的所述监控数据数值,根据所述监控数据数值所在的所述数据范围确定所述责任对象当前对应的所述故障根因。
在另一种可能的场景中,在确定所述故障根因时,可以参考所述在线***当前的所述***表象,可以根据所述在线***当前具体的异常表象和所述责任对象,在所述知识图谱中确定所述故障根因。
请参阅图6,步骤S112:确定是否存在与所述故障根因对应的所述处理方法,若存在对应的所述处理方法,则进入步骤S113,若不存在对应的所述处理方法,则进入步骤S116。
可以理解,在所述知识图谱中存储有与各种所述故障根因对应的已知的所述处理方法,也仍有部分所述故障根因不存在对应的所述处理方法。
步骤S113:确定所述处理方法可否在无人为干预的情况下由所述在线***自动完成,若可以,则进入步骤S114;若不可以,则进入步骤S116。
可以理解,所述知识图谱中的所述处理方法可以是需要人为干预进行的方法,也可以是所述在线***自动完成的方法,对两种所述处理方法进行区分后,可以对两种所述处理方法进行分别处理。
步骤S114:所述在线***根据所述处理方法对所述故障根因进行自修复,并进入步骤S115。
可以理解,当存在与所述故障根因对应的所述处理方法时,所述在线***可以在无人为干预的情况下通过所述处理方法对所述故障根因进行解决。
步骤S115:确定所述责任对象是否修复,若已修复则结束流程,若未修复则进入步骤S116。
在本申请的实施例中,确定所述责任对象是否修复的方法可以是确定所述责任对象对应的所述监控数据是否位于预设的额定范围中,若是则确定所述责任对象已经修复。
可以理解,当所述处理方法无法修复所述责任对象时,可以对所述责任对象进行人为干预处理,从而使所述在线***恢复正常运行。
在本申请的实施例中,当所述责任对象通过所述处理方法修复后,对应的所述责任对象的告警状态从开放状态变更为关闭状态。
步骤S116:通知所述运维人员对所述责任对象进行修复。
可以理解,所述知识图谱中不存在与所述故障根因对应的所述处理方法时,用于解决所述故障根因的方法是未知的或不确定的;而当所述知识图谱中存在与所述故障根因对应的所述处理方法,但所述处理方法可能需要通过人为干预实现此时需要通知所述运维人员进行人为操作,实现对所述责任对象的修复。
可以理解,当所述监控告警***100无法通过所述处理方法对所述故障根因进行自修复时,也需要通知所述运维人员对进行人为干预,对所述责任对象进行人为修复。
可以理解,当所述知识图谱中存在于所述故障根因对应的所述处理方法,但该所述处理方法需要人为干预进行时,在通知运维人员对所述责任对象进行修复的同时,可以将所述处理方法同步发送给所述运维人员。
可以理解,所述知识图谱可以存储有所述负责人信息,在一种可能的场景中,所述运维人员可以是所述责任对象的负责人,因此可以通过所述负责人信息中记载的联系方式通知所述运维人员对所述责任对象进行修复;在另一种可能的场景中,所述运维人员并非负责人,可以通过所述负责人信息联系负责人,再通过负责人通知所述运维人员对所述责任对象进行修复。
可以理解,通知所述运维人员的方式可以是但不局限于短信、电子邮件等无线通讯方式,且所述运维人员接收到通知并确定将负责对所述责任对象进行修复时,所述运维人员可以输出运维反馈信息,且当所述运维人员完成了对所述责任对象的修复时,所述运维人员可以输出运维完成信息,输出所述运维反馈信息和所述运维完成信息的具体方式可以是但不局限于短信、电子邮件等无线通讯方式。所述监控告警***100可以对所述运维反馈信息和所述运维完成信息进行获取。
在本申请的实施例中,当所述监控告警***100获取所述运维反馈信息,确定所述运维人员负责对所述责任对象进行修复时,与所述故障根因对应的所述责任对象的告警状态从开放状态变更为进行中状态;当所述监控告警***100获取所述运维完成信息,确定所述运维人员完成了对所述责任对象的修复时,与所述故障根因对应的所述责任对象的告警状态从进行中状态变更为已解决状态。
步骤S117:确定所述责任对象是否及时修复,若未及时修复则进入步骤S118,若已及时修复,则进入步骤S119。
可以理解,确定所述责任对象是否及时修复的具体方法,可以是确定所述责任对象的告警状态保持开放状态的时间是否大于预设的阈值,若大于则确定所述责任对象出现异常的时间较长且未被修复,可以提高所述责任对象的修复优先级。
步骤S118:提高所述责任对象的修复优先级,并进入步骤S119。
可以理解,当通知所述运维人员对所述责任对象进行修复,而所述运维人员并未对所述责任对象及时修复时,所述监控告警***100可以再次向所述运维人员发出通知,通知所述运维人员对长时间未修复的所述责任对象的修复工作优先处理。所述监控告警***100通知所述运维人员的方式可以是但不局限于短信、电子邮件等无线通讯方式。
步骤S119:当所述责任对象修复完成后,对所述知识图谱进行更新。
可以理解,通过所述运维人员的人为干预,最终可以实现对所述责任对象的修复。在修复过程中,所述运维人员可能发现了新的所述故障根因、所述处理方法,可能发现了所述故障根因对应有新的所述***表象、所述数据范围,也可能是所述责任对象更换了新的负责人,对于这些情况,可以对所述知识图谱中的对应内容进行及时更新,提高后续监控告警的准确性。
在本申请的实施例中,当确定所述责任对象经过所述运维人员的人为干预后完成修复时,所述责任对象的告警状态由已解决状态更新为关闭状态。
请参阅图7,图7是本申请实施例公开的一种监控告警***100的示意图。本申请实施例提供的监控告警***100可以包括:控制模块10、采集模块20、确定模块30、告警模块40和通知模块50。
所述控制模块10用于对多个所述监控对象分配所述首选优先级、所述层级优先级和所述依赖优先级。
所述采集模块20用于从多个所述监控对象采集所述监控数据。
所述确定模块30用于通过所述监控数据确定是否存在异常的所述监控对象,并确定所述责任对象。
所述控制模块10还用于调用所述知识图谱,并对所述责任对象的所述故障根因进行确定。
所述控制模块10还用于确定所述故障根因是否对应有所述处理方法,以及所述处理方法是否为无需人为干预即可使所述在线***自行运行的所述处理方法。
所述告警模块40用于改变所述责任对象的告警状态,具体的告警状态可以包括开放状态、进行中状态、已解决状态和关闭状态。
所述通知模块50用于通知所述运维人员对所述责任对象进行修复。
可以理解的是,上述的监控告警***100中各个模块的划分仅用于举例说明,在其他的实施例中,可将监控告警***100按照需要划分为不同的模块,以完成上述监控告警***100的全部或部分功能。
在本申请实施例中各个模块的具体实现还可以对应参照图1至图6所示的方法实施例的相应描述。
在图7所描述的监控告警***100中,可以仅对为所述在线***故障起主要诱因作用的所述责任对象进行告警,减少了告警冗杂的情况,同时可以通过调用所述知识图谱对部分所述责任对象进行即时自动修复,缩短了平均故障修复时间,提高了所述在线***运行的稳定性。具体内容可以参见上述监控告警方法的具体实施例,在此不再详述。
请参阅图8,图8为本申请实施例提供的一种终端设备200的结构示意图。
本申请实施例提供一种终端设备200,所述终端设备200可以包括上述的监控告警***100,该监控告警***100具体请参见图7示出的实施例的具体描述,在此不再赘述。
如图8所述,所述终端设备200可以包括处理器60、存储器70和通信接口80。
所述处理器60、所述存储器70和所述通信接口80可以通过通信总线连接并完成相互间的通信。
所述处理器60可以是通用中央处理器(CPU)、微处理器、特定应用集成电路(application-specific integrated circuit,ASIC)、或一个或多个用于控制以上方案程序执行的集成电路。
所述存储器70可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。所述存储器70可以是独立存在,通过总线与所述处理器60相连接。所述存储器70也可以和所述处理器60集成在一起。
所述通信接口80用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
其中,所述存储器70用于存储执行以上方案的应用程序代码,并由所述处理器60来控制执行。所述处理器60用于执行所述存储器70中存储的应用程序代码。所述存储器70存储的代码可执行图1至图6中所描述的影像标记存证方法的部分或全部步骤。
图8所示的终端设备200,可以仅对为所述在线***故障起主要诱因作用的所述责任对象进行告警,减少了告警冗杂的情况,同时可以通过调用所述知识图谱对部分所述责任对象进行即时自动修复,缩短了平均故障修复时间,提高了所述在线***运行的稳定性。
基于同一构思,本申请实施例还提供一种存储介质,所述存储介质包括计算机指令,当所述计算机指令在所述终端设备200上运行时,使得所述终端设备200执行本申请实施例提供的所述的监控告警方法。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将本申请上述的实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。

Claims (10)

1.一种监控告警方法,其特征在于,包括:
根据多个监控对象的重要性、所在层级以及所对应的项目,对多个所述监控对象分配优先级;
从多个所述监控对象采集监控数据;
当多个所述监控数据异常时,根据所述优先级确定责任对象,并将所述责任对象对应的告警状态更新为开放状态;
调用知识图谱,对所述责任对象的故障根因进行确定,其中,所述知识图谱用于存储与多个所述责任对象对应的所述故障根因和处理方法;
确定所述故障根因是否对应有无需人为干预进行的所述处理方法;
若存在无需人为干预进行的所述处理方法,则根据所述处理方法自动修复所述责任对象;
若不存在无需人为干预进行的所述处理方法,则通知运维人员修复所述责任对象。
2.根据权利要求1所述的监控告警方法,其特征在于,所述从多个监控对象采集监控数据,根据多个所述监控对象的所在层级以及所对应的项目,对所述监控对象分配优先级包括:
根据所述监控对象的关键性的所述监控对象分配首选优先级;
根据所述监控对象所在的层级对所述监控对象分配层级优先级;
对于对应于同一项目且位于同一层级的多个所述监控对象,根据多个所述监控对象之间的依赖关系对所述监控对象分配依赖优先级。
3.根据权利要求2所述的监控告警方法,其特征在于,所述当多个所述监控数据异常时,根据所述优先级确定责任对象,并将所述责任对象对应的告警状态更新为开放状态包括:
当多个所述监控数据异常时,根据所述首选优先级确定是否存在于异常的所述监控数据对应的关键性的所述监控对象;
若存关键性的所述监控对象,确定关键性的所述监控对象为所述责任对象;
若不存关键性的所述监控对象,则通过所述层级优先级确定所述责任对象所在的层级;
在确定的所述责任对象所在的层级中,根据所述依赖优先级确定所述责任对象。
4.根据权利要求2所述的监控告警方法,其特征在于,所述监控告警方法还包括:
根据所述监控对象所在层级,对所述监控对象标记层级标签信息。
5.根据权利要求4所述的监控告警方法,其特征在于,所述监控告警方法还包括:
根据所述监控对象对应的项目,对所述监控对象标记项目标签信息。
6.根据权利要求5所述的监控告警方法,其特征在于,所述监控告警方法还包括:
根据所述层级标签信息、所述项目标签信息和所述层级优先级,生成项目资源架构列表;
根据所述项目资源列表和故障知识库,组合生成所述知识图谱,其中,所述故障知识库中存储有与多种所述责任对象对应的所述故障根因、所述处理方法。
7.根据权利要求1所述的监控告警方法,其特征在于,所述监控告警方法还包括:
当一个所述监控数据异常时,确定所述监控数据对应的所述监控对象为所述责任对象,并将所述责任对象对应的告警状态更新为开放状态。
8.根据权利要求1所述的监控告警方法,其特征在于,所述监控告警方法还包括:
获取运维反馈信息,并将所述告警状态更新为进行中状态;
获取运维完成信息,并将所述告警状态更新为已解决状态。
9.根据权利要求1所述的监控告警方法,其特征在于,所述监控告警方法还包括:
确定所述责任对象是否修复;
若所述责任对象完成修复,则将告警状态更新为关闭状态。
10.一种终端设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器存储的所述计算机程序,当所述计算机程序被执行时,所述处理器用于执行如权利要求1-9任一项所述的监控告警方法。
CN202110717838.2A 2021-06-28 2021-06-28 监控告警方法及终端设备 Pending CN115599620A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110717838.2A CN115599620A (zh) 2021-06-28 2021-06-28 监控告警方法及终端设备
TW110134117A TWI778787B (zh) 2021-06-28 2021-09-13 監控告警方法及終端設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110717838.2A CN115599620A (zh) 2021-06-28 2021-06-28 监控告警方法及终端设备

Publications (1)

Publication Number Publication Date
CN115599620A true CN115599620A (zh) 2023-01-13

Family

ID=84840894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110717838.2A Pending CN115599620A (zh) 2021-06-28 2021-06-28 监控告警方法及终端设备

Country Status (2)

Country Link
CN (1) CN115599620A (zh)
TW (1) TWI778787B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI233008B (en) * 2002-09-30 2005-05-21 Tokyo Electron Ltd Method and apparatus for the monitoring and control of a semiconductor manufacturing process
WO2012077210A1 (ja) * 2010-12-09 2012-06-14 三菱電機株式会社 産業用自動診断装置
US11150635B2 (en) * 2017-10-02 2021-10-19 Fisher-Rosemount Systems, Inc. Projects within a process control asset management system
WO2019182913A1 (en) * 2018-03-20 2019-09-26 Tokyo Electron Limited Self-aware and correcting heterogenous platform incorporating integrated semiconductor processing modules and method for using same
EP3640760B1 (en) * 2018-10-17 2024-02-14 Solaredge Technologies Ltd. Photovoltaic system failure and alerting

Also Published As

Publication number Publication date
TWI778787B (zh) 2022-09-21
TW202301123A (zh) 2023-01-01

Similar Documents

Publication Publication Date Title
US11042476B2 (en) Variability system and analytics for continuous reliability in cloud-based workflows
RU2682018C2 (ru) Идентификация вариантов выявления неисправностей для устранения отказов сети
US6697791B2 (en) System and method for systematic construction of correlation rules for event management
US20220206898A1 (en) Method and apparatus for predicting hard disk fault occurrence time, and storage medium
US6675128B1 (en) Methods and apparatus for performance management using self-adjusting model-based policies
US8984108B2 (en) Dynamic CLI mapping for clustered software entities
JP4494330B2 (ja) ポリシ制御方法、装置及びプログラム
US11645172B1 (en) Managing data center failure events
JP2022100301A (ja) ソフトウェア・アップグレードがコンピューティング・デバイスに与える潜在的な影響を判定するための方法、コンピュータ・プログラム、および更新推奨コンピュータ・サーバ(ソフトウェア・アップグレードの安定性の推奨)
US20170257297A1 (en) Computational node adaptive correction system
CN115080436A (zh) 测试指标确定方法、装置、电子设备及存储介质
CN113055246B (zh) 异常服务节点识别方法、装置、设备及存储介质
WO2021101918A1 (en) Recovery maturity index (rmi) - based control of disaster recovery
CN115599620A (zh) 监控告警方法及终端设备
CN116643906A (zh) 云平台故障的处理方法、装置、电子设备及存储介质
CN114500249B (zh) 一种根因定位方法和装置
CN109857629B (zh) 一种扫描检测方法及装置
RU128741U1 (ru) Система формирования решения проблем функционирования компьютерных систем
US10324821B2 (en) Oracle cemli analysis tool
CN110493326B (zh) 基于zookeeper管理集群配置文件的***和方法
CN110008098B (zh) 评估业务流程中的节点的运行状况的方法和装置
CN113377606A (zh) 用于存储器内***的自动管理和监控的平台
US11792215B1 (en) Anomaly detection system for a data monitoring service
US11816496B2 (en) Managing containers using attribute/value pairs
CN112765188A (zh) 配置信息处理方法、配置管理***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination