CN113037550B - 一种服务故障监控方法、***及计算机可读存储介质 - Google Patents

一种服务故障监控方法、***及计算机可读存储介质 Download PDF

Info

Publication number
CN113037550B
CN113037550B CN202110241842.6A CN202110241842A CN113037550B CN 113037550 B CN113037550 B CN 113037550B CN 202110241842 A CN202110241842 A CN 202110241842A CN 113037550 B CN113037550 B CN 113037550B
Authority
CN
China
Prior art keywords
service
host
interface
fault
peripheral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110241842.6A
Other languages
English (en)
Other versions
CN113037550A (zh
Inventor
苏君福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Icsoc Beijing Communication Technology Co ltd
Original Assignee
Icsoc Beijing Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Icsoc Beijing Communication Technology Co ltd filed Critical Icsoc Beijing Communication Technology Co ltd
Priority to CN202110241842.6A priority Critical patent/CN113037550B/zh
Publication of CN113037550A publication Critical patent/CN113037550A/zh
Application granted granted Critical
Publication of CN113037550B publication Critical patent/CN113037550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供的本发明提供了一种服务故障监控方法、***及计算机可读存储介质,服务故障监控方法包括:获取服务发生故障报警的信息;获取主机与周边主机之间的关联信息;获取主机上接口与周边主机上接口的关联信息;根据服务发生故障报警的信息以及主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息对与服务关联的主机以及与服务关联的接口进行聚类分析,得到第一分析结果,第一分析结果包括主机服务功能与服务范围;根据服务发生故障报警的信息与主机上接口与周边主机上接口的关联信息对主机上接口与周边主机上接口进行遍历分析,得到第二分析结果,根据第一分析结果与第二分析结果确定故障影响范围。

Description

一种服务故障监控方法、***及计算机可读存储介质
技术领域
本发明属于互联网技术领域,特别涉及一种服务故障监控方法、***及计算机可读存储介质。
背景技术
近年来,随着互联网技术的迅猛发展,网络服务***的规模和内部模块间的复杂度不断增加,由此导致对于服务故障的诊断难度也在不断增加。对云计算下庞大且复杂的网络环境,在避免影响客户使用的前提下,应用服现故障时的及时发现变得尤为重要。因此,亟需一种及时、有效地进行故障诊断并止损的故障监控方法。
以往只有当客户无法正常使用出现问题时进行反馈,相关人员才进行排查处理。
但是这种排障过程相对复杂,耗费较多的人力成本和时间成本,并且部分故障诊断过程耗时过长,很难及时、有效的进行故障诊断并止损。
发明内容
为了解决上述排障过程相对复杂,耗费较多的人力成本和时间成本,并且部分故障诊断过程耗时过长,很难及时、有效的进行故障诊断并止损技术问题,本发明提供了一种服务故障监控方法、***及计算机可读存储介质。
本发明具体技术方案如下:
本发明提供了一种服务故障监控方法,所述服务故障监控方法包括:
获取服务发生故障报警的信息;
获取主机与周边主机之间的关联信息;
获取所述主机上接口与所述周边主机上接口的关联信息;
根据所述服务发生故障报警的信息以及所述主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息对与所述服务关联的主机以及与所述服务关联的接口进行聚类分析,得到第一分析结果,所述第一分析结果包括主机服务功能与服务范围;
根据所述服务发生故障报警的信息与所述主机上接口与所述周边主机上接口的关联信息对主机上接口与周边主机上接口进行遍历分析,得到第二分析结果,其中,所述服务与所述主机上接口的关系为一一对应;
根据所述第一分析结果与所述第二分析结果确定故障影响范围。
在一种可选地实施例中,所述对主机上接口与周边主机上接口进行遍历分析,包括:
获取所述主机上接口与所述周边主机上接口之间的权重;
对所述权重按照由大到小的顺序进行排序;
对所述主机上接口与周边主机上接口按照权重由大到小的顺序进行遍历分析。
在一种可选地实施例中,所述对所述主机上接口与周边主机上接口按照权重由大到小的顺序进行遍历分析,包括:
获取发生故障服务的服务功能与服务范围;
获取发生故障主机上接口与周边主机上接口的服务功能与服务范围;
根据所述发生故障服务的服务功能与服务范围、所述发生故障主机上接口与周边主机上接口的服务功能与服务范围按照所述权重由大到小的顺序进行遍历分析。
在一种可选地实施例中,所述根据所述发生故障服务的服务功能与服务范围、所述发生故障主机上接口与周边主机上接口的服务功能与服务范围按照所述权重由大到小的顺序进行遍历分析,包括:
比较所述发生故障服务的服务功能与服务范围、发生故障服务主机上接口与周边主机上接口的服务功能与服务范围,得到比较结果;
根据所述比较结果获取所述服务发生故障的时间序列;
获取所述主机上接口与周边主机上接口发生故障的时间序列权重;
根据所述服务发生故障的时间序列与所述主机上接口与周边主机上接口发生故障的时间序列权重对所述主机上接口与周边主机上接口进行遍历分析。
在一种可选地实施例中,所述根据所述比较结果获取所述服务发生故障的时间序列,包括:
当发生故障服务的服务功能与服务范围与所述发生故障服务主机上接口与周边主机上接口的服务功能与服务范围相同时,获取所述服务发生故障的时间序列。
在一种可选地实施例中,所述根据所述服务发生故障的时间序列与所述主机上接口与周边主机上接口发生故障的时间序列权重对所述主机上接口与周边主机上接口进行遍历分析,包括:
比较所述服务发生故障的时间序列与所述主机上接口与周边主机上接口发生故障的时间序列,得到比较结果;
根据所述比较结果得到目标故障接口。
在一种可选地实施例中,所述根据所述比较结果得到目标故障接口,包括:
将位于所述服务发生故障时间之前且与所述服务发生故障具有前置因果关系的接口作为目标故障接口;
优选的,对位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口按照时间序列权重由大到小进行排序,将权重最大的接口作为目标故障接口。
在一种可选地实施例中,所述根据所述第一分析结果与所述第二分析结果确定故障影响范围之后,所述方法还包括:根据主机服务功能与服务范围、主机上接口与周边主机上接口的服务功能与服务范围确定故障影响种类与影响等级;
根据所述故障影响种类与影响等级生成故障处理动作。
另一方面,提供了一种服务故障监控***,所述***包括:存储器、处理器以及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述任一所述的方法。
还一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一所述的服务故障监控方法。
本发明的有益效果如下:本申请实施例提供的方法不需要通过人工逐一排查每个主机和与之关联的接口,并且可以通过服务器对主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息的分析,且服务与主机之间的关系为一一对应,在排查时可以减少排查时间,提高排查效率,提高排查的准确率。
附图说明
图1为本申请实施例提供的服务模块调用关系图;
图2为本申请实施例提供的服务故障监控方法流程示意图;
图3为本申请实施例提供的服务在运行时调用接口的示例示意图;
图4为本申请一实施例提供的服务发生故障后监控的流程示意图;
图5为采用本实施例提供的方法后故障处理速度和时间示意图。
具体实施方式
下面结合附图和以下实施例对本发明作进一步详细说明。
目前,现有技术主要通过人工诊断故障。具体地,运维人员根据模块调用关系图来排查网络服务***,其中,模块调用关系图例如图1所示。大多数情况下,故障都是由于在最上游的前端模块(图1所示的模块A)上出现了很多失败的请求发现的。这时,运维人员就会沿着模块A往下査。由于模块A调用了模块B,所以需要查看模块B的指标,如果模块B的指标异常,则怀疑是模块B导致故障。然后再检査模块B的直接下游模块C,以此类推。在这个过程中,怀疑通过模块的调用关系不断往下传递,直到传不下去为止。在图1所示的例子中,怀疑最后就停在了模块G。当然,真实的场景要更加复杂一些,并不是只要下游模块有异常就可以,还需要考察异常的程度,这里仅为示例说明,以便于理解。比如,如果模块G的异常程度比模块E的异常程度小很多,故障产生的根因就更有可能在模块E。
确定故障根因模块之后,再分析故障根因,所以寻找故障根因模块是故障诊断中很重要的步骤。由于大型的服务部署在成千上万个服务器上,每个服务器上又有几十个到上百个服务监控指标,通过人工分析排查来诊断故障会耗费大量的时间和人力,很难及时、有效的进行故障诊断并止损。基于上述问题,本申请实施例提供一种服务故障监控方法及装置,旨在解决上述技术问题。
请参见图1,图1为本申请实施例提供的服务故障监控方法流程示意图。该服务故障监控方法包括:
S101、获取服务发生故障报警的信息。
S102、获取主机与周边主机之间的关联信息。
S103、获取主机上接口与周边主机上接口的关联信息。
S104、根据服务发生故障报警的信息以及主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息对与服务关联的主机以及与服务关联的接口进行聚类分析,得到第一分析结果,第一分析结果包括主机服务功能与服务范围。
S105、根据服务发生故障报警的信息与主机上接口与周边主机上接口的关联信息对主机上接口与周边主机上接口进行遍历分析,得到第二分析结果,其中,服务与主机上接口的关系为一一对应。
S106、根据第一分析结果与第二分析结果确定故障影响范围。
本申请实施例提供的方法,通过将主机与周边主机进行关联,得到主机与周边主机的关联信息,将主机上接口与周边主机上接口进行关联,得到主机与周边主机接口的关联信息。当服务发生报警时,对与服务关联的主机以及与服务关联的接口进行聚类分析,得到第一分析结果,第一分析结果包括主机服务功能与服务范围;对主机上接口与周边主机上接口进行遍历分析,得到第二分析结果,第二分析结果包括服务接口的服务功能与服务范围;根据第一分析结果与第二分析结果确定故障影响范围。本申请实施例提供的方法,不需要通过人工逐一排查每个主机和与之关联的接口,并且可以通过服务器对主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息的分析,且服务与主机之间的关系为一一对应,在排查时可以减少排查时间,提高排查效率,提高排查的准确率。
以下将通过可选地实施例进一步描述本申请实施例提供的方法。
需要说明的是,本申请实施例提供的方法的主体可以为服务器,该服务器可以安装在手机、平板电脑、上位机等终端上,本申请实施例对此不做限定。
S101、获取服务发生故障报警的信息。
当服务故障时会发生报警,此时可以通过服务器获取报警信息。该报警信息可以为通过终端屏幕显示的报警提示,也可以是通过报警器发出的报警声音等,只要能被服务器获取即可,本申请实施例对报警的形式不限于此。
S102、获取主机与周边主机之间的关联信息。
可以理解的是,一个服务和一个主机连接,但是当本服务启用时可能需要调用周边主机完成任务或者调用其他主机的数据,此时,就需要通过关联信息调用与本主机关联的主机,以分析判断是哪一个主机发生了故障。在一种可选地实施例中,主机与周边主机之间的关联信息可以包括主机与主机之间的关联关系,例如,主机A使用时会调用主机B,主机B会调用主机C,则主机A、B与C之间会产生一个关联关系A->B->C的关联关系;主机与主机之间的身份信息,例如主机A、B与C的ID;主机的服务功能、服务范围和服务参数等。
S103、获取主机上接口与周边主机上接口的关联信息。
可以理解的是,当一个服务发生故障报警时,有可能导致该服务发生报警的原因并非是与该服务连接的主机或该主机上的接口发生故障,而是与其相关联的周边主机或其上的接口发生故障。因此通过获取主机上接口与周边主机上接口的关联信息,以更好的查找导致服务报警的原因。
作为一种示例,本申请实施例中服务主机有编号为01和编号为02的两台主机,编号为01的主机服务功能为登陆服务,编号为02的主机服务功能为统计服务,用户在使用时,需要通过编号为01的主机登陆,并将数据传输给编号为02的主机进行统计,编号为01的主机上具有三个登陆接口a、b、c,编号为02的主机上具有统计接口d。当主机02发生报警时,不仅需要查看d接口,还需要查看与d接口有关联关系位于主机01上的a、b、c接口。例如,当检查发现登陆接口a向统计接口d传输的数据没问题时,说明登陆接口a正常,则检查其余登陆接口,直到找到故障接口位置。
进一步的,本申请实施例提供的主机上的每一个接口都具有唯一的ID,检查时可以根据每个接口的ID对已经检查过的接口进行标记,避免已经被检查过的接口进行重复检查。且可以根据每个接口的ID进行精确快速查找故障位置所在。
在一种可选地实施例中,本申请实施例采用APM断点的方式在每个主机接口中嵌入探针代码,当服务调用主机和接口时,通过APM探针可以获取主机与主机之间、主机上接口与周边被调用接口之间的关联关系,并搜集该关联关系。当服务报警时,即可以获取主机上接口与周边接口之间的关联关系,并通过关联关系找到故障位置所在。
需要说明的是,本申请实施例提供的主机上接口和周边主机上接口包括新建立的接口以及原有的接口。可以理解的是,对于原有的接口已经无法改变,因此可以通过网络连接的方式获取接口与接口之间的关系;对于新开发的接口可以在开发接口时就在接口内嵌入APM探针代码,当接口被调用时即可以通过APM探针获取接口之间的关联关系,并在需要时将该关联关系传递给监控***的服务器。
采用APM方式可以实现每个服务与一个主机对应,每个服务与一个主机上的一个接口对应,即可以实现服务与主机一一对应的关系,以及服务与主机上接口的一一对应关系,在服务发生故障时可以迅速及时发现故障发生位置,提高了监控效率。
可以理解的是,本实施例中关联信息包括主机上接口与周边主机接口的关联关系、主机上接口与周边主机上接口的身份信息,如此,当服务报警时通过该关联关系和身份信息可以很快的找到发生故障的位置,提高监控效率。
在一种可选地实施例中,本申请实施例提供的主机上接口与周边主机上接口的关联信息包括主机上接口与周边主机上接口的距离权重信息,主机与周边主机上接口时间权重信息。
权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。在本申请实施例中,通过获取与服务关联的主机的距离权重信息,根据与服务关联的主机以及与服务关联的接口的距离权重大小对聚类后与服务关联的主机以及与服务关联的接口进行排序,当服务报警后按照距离权重大小的排序进行查找,相比在无序的主机中查找提高了效率。
请参见图3,图3为本申请实施例提供的服务在运行时调用接口的示例。作为一种示例,服务A虽然与一个主机上的一个接口连接,但是服务A在使用时可能会调用服务B,而服务B又会调用服务C,服务C又会调用服务D。在上述过程中,服务A与服务C之间的距离大于服务A与服务B之间的距离,也就是说服务A调用服务C要经过服务B,则服务B对于A的距离权重大于服务C对于服务A的距离权重。
同理,每个接口都具有不同的服务功能和范围,其服务功能和范围与服务之间的重要性都具有高低,根据其对服务的权重,在查找时相比在无序的接口中查找提高效率。
作为一种示例,服务A虽然与一个主机上的一个接口连接,但是服务A在使用时可能会通过接口a调用接口b,而接口b又会调用接口c,接口c又会调用接口d。在上述过程中,接口a与接口b之间的距离大于接口a与接口c之间的距离,也就是说接口a调用接口c要经过接口b,则接口b对于接口a的距离权重大于接口c对于接口a的距离权重。
需要说明的是,每个服务在运行时会有时间序列,该时间序列存储了该服务在每个时间点运行的状态和属性等,当该服务出现故障报警时,在该服务的时间序列中也会出现其报警的记录,即在该时间序列中会显示报警时间。可以理解的是,该报警结果的产生会有一个导致该报警产生的因素,也就是说,每个接口出现故障也会在该时间序列中体现,基于此可以得到导致该服务故障的原因是哪一个。因此,通过设定主机上接口与周边主机上接口的关联信息包括主机与周边主机上接口时间权重信息可以提高对故障的查找效率。
在一种可选地实施例中,本申请实施例对实现上述监控方法时,可以定义主机及服务接口功能模块字典库,通过主机及服务接口串联并将关联信息存放到字典库中,用于快速遍历分析使用。
定义主机及服务接口模块影响范围字典库,每个主机及服务接口分别对应一个业务功能模块说明及影响范围。
本申请实施例提供的方法,被监控***在使用过程中会不断的更新存储在主机及服务接口模块影响范围字典库中主机与周边主机的关联信息,主机上接口与周边主机上接口的关联信息,并且再每次对服务进行监控时以更新过后的数据为基础对故障服务进行监控。如此,保证了在对***中服务故障进行监控时都能以实时最新的数据为准,提高了监控效率。
S104、根据服务发生故障报警的信息以及主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息对与服务关联的主机以及与服务关联的接口进行聚类分析,得到第一分析结果,第一分析结果包括主机服务功能与服务范围。
当服务报警后,服务器根据该报警信息以及得到的主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息对与服务关联的主机以及与服务关联的接口进行聚类分析。可以理解的是,一个服务与一个主机上的接口连接,也就是说每个主机上的接口都具有不同的服务范围和功能,本申请实施例对与服务关联的主机以及与服务关联的接口进行聚类分析,例如将服务范围相同或者服务功能相同的主机以及主机接口进行汇聚分类,再对分类后的主机以及主机上接口进行排查,如此可以提高监控的效率。
第一分析结果包括主机服务功能与服务范围,上述提及,每个主机都具有不同的服务功能与服务范围,一个服务与一个主机上的一个接口连接,每个接口的功能和范围也不相同。根据主机的服务范围与服务功能排查故障置位置所在。
S105、根据服务发生故障报警的信息与主机上接口与周边主机上接口的关联信息对主机上接口与周边主机上接口进行遍历分析,得到第二分析结果,其中,服务与主机上接口的关系为一一对应。
遍历是指沿着某条搜索路线,依次对树(或图)中每个节点均做一次访问。访问结点所做的操作依赖于具体的应用问题,具体的访问操作可能是检查节点的值、更新节点的值等。在本申请实施例中,遍历分析是指对每个与服务相关的主机上接口以及周边主机上接口均做一次访问。
在一种可选地实施例中,S105中对主机上接口与周边主机上接口按照权重由大到小的顺序进行遍历分析,包括:
获取发生故障服务的服务功能与服务范围。
上述提及每个接口对应特定的服务功能与服务范围,作为一种示例,微信具有很多种服务功能,例如好友服务、支付服务、定位服务等,好友服务的服务范围包括对好友进行分类服务、对分类的好友进行排序服务等。通过获取发生故障服务的服务功能与服务范围可以更好的对与之对应的服务功能和服务范围内的服务接口进行检查,减少不必要的工作量,提高工作效率。
获取发生故障主机上接口与周边主机上接口的服务功能与服务范围。
通过服务报警以及主机与周边主机的关联信息可以判断是哪个主机出现了故障,通过获取主机上接口与周边主机上接口的服务功能与服务范围,将与发生故障服务的服务功能以及服务范围不同的接口排除,避免对没有关联任何关系的接口也进行排查,提高了监控效率。
根据发生故障服务的服务功能与服务范围与发生故障主机上接口与周边主机上接口的服务功能与服务范围按照权重由大到小的顺序进行遍历分析。
可以理解的是,发生故障主机上接口与周边主机上接口的服务功能与服务范围对于发生故障服务的意义也具有大小之分,也就是说,发生故障主机上接口与周边主机上接口导致于该服务发生故障的可能性大小不同,此处通过权重来表示,通过权重由大到小的顺序对接口进行排序,然后按照该由大到小的顺序进行遍历分析,如此,可以提高遍历分析的效率。
在一种可选地实施例中,根据发生故障服务的服务功能与服务范围与发生故障主机上接口与周边主机上接口的服务功能与服务范围按照权重由大到小的顺序进行遍历分析,包括:
比较发生故障服务的服务功能与服务范围、发生故障服务主机上接口与周边主机上接口的服务功能与服务范围,得到比较结果。
可以理解的是,当发生故障服务的服务功能与服务范围、发生故障服务主机上接口与周边主机上接口的服务功能与服务范围不同时,则说明他们之间不存在任何关系,也就不需要对其进行分析,因此,先对接口的服务功能与服务范围进行比较,当具有相关性时再对其进行遍历分析,减少了不必要的工作量。
根据比较结果获取服务发生故障的时间序列。
获取主机上接口与周边主机上接口发生故障的时间序列。
根据服务发生故障的时间序列与主机上接口与周边主机上接口发生故障的时间序列进行遍历分析。
当具有当发生故障服务的服务功能与服务范围、发生故障服务主机上接口与周边主机上接口的服务功能与服务范围相同时,获取服务发生故障的时间序列。作为一种示例,服务器通过遍历分析发现微信好友服务发生故障的时间为12.05分。支付功能发生故障的时间为15.05分。该主机上接口与周边主机上接口发生故障的时间序列分别为11.45、11.59、12.04、12.50、15.00、15.04等。根据上述获取的服务发生故障的时间序列与主机上接口与周边主机上接口发生故障的时间序列进行遍历分析。
在一种可选地实施例中,根据比较结果获取服务发生故障的时间序列,包括:
当发生故障服务的服务功能与服务范围与发生故障服务主机上接口与周边主机上接口的服务功能与服务范围相同时,获取服务发生故障的时间序列。
在一种可选地实施例中,根据服务发生故障的时间序列与主机上接口与周边主机上接口发生故障的时间序列进行遍历分析,包括:
比较服务发生故障的时间序列与主机上接口与周边主机上接口发生故障的时间序列,得到比较结果;
根据比较结果得到目标故障接口。
在一种可选地实施例中,根据比较结果得到目标故障接口,包括:
将位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口作为目标故障接口。
可以理解的是,故障发生前肯定有与该服务连接的接口出现了故障,因此,通过获取主机上接口与周边主机上接口发生故障的时间序列,并将其与服务发生故障的时间序列进行比较,得到比较结果。作为一种示例,该比较结果可以包括三种情况,第一种:主机上接口与周边主机上接口发生故障的时间位于服务发生故障的时间之前;第二种:主机上接口与周边主机上接口发生故障的时间位于服务发生故障的时间之后;第三种:主机上接口与周边主机上接口发生故障的时间位于服务发生故障的时间相同。可以理解的是,基于前置因果关系可以得知,只有主机上接口与周边主机上接口发生故障的时间位于服务发生故障的时间之前才可以导致该服务发生故障。因此,将位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口作为目标故障接口。
在一种可选地实施例中,将位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口作为目标故障接口,包括对位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口按照时间序列权重由大到小的顺序进行排序,将权重最大的接口作为目标故障接口。
作为一种示例,服务器通过遍历分析发现微信好友服务发生故障的时间为12.05分。该主机上接口与周边主机上接口发生故障的时间序列分别为a:11.45、b:11.59、c:12.04、d:12.50、e:15.00、f:15.04等,即上述一个时间点对应一个接口。很显然位于12.05分之前的具有三个接口a、b、c,但是最接近12.05分的接口为时间点为12.04的c接口,因此将该时间点下发生故障的c接口作为目标故障接口。
S106、根据第一分析结果与第二分析结果确定故障影响范围。
在一种可选地实施例中,根据第一分析结果与第二分析结果确定故障影响范围之后,方法还包括:根据故障影响范围生成故障处理动作。
本申请实施例可以预先存储对各种故障所对应的事故,当确定影响范围之后,根据该影响范围选择相适应的处理动作。
在一种可选地实施例中,根据故障影响范围生成故障处理动作,包括:
根据主机服务功能与服务范围、接口的服务功能与服务范围确定故障影响种类与影响等级;
根据故障影响种类与影响等级生成故障处理动作。
作为一种示例,本申请实施例监控的对象为微信程序,当用户登陆微信后发现好友功能显示不全,此时可以直接锁定是好友服务的范围出现了问题,而不是支付、发消息等服务出现问题,因此可以直接根据该问题在好友显示的范围内查找故障位置。进一步地,可以判断好友显示是全部出现问题还是部分出现问题,如果是部分出现问题,则只需要对部分好友服务进行排查给处理动作。
在一种可选地实施例中,根据第一分析结果与第二分析结果确定故障影响范围之前,方法还包括:
获取故障影响范围历史数据,将本次故障影响范围数据与故障影响范围历史数据进行比较,得到第一比较结果,根据第一比较结果确定故障目标故障影响范围。
可以理解的是,由于服务的数目较多,每个服务涉及的主机和接口也众多,通过将本次故障影响范围数据与历史故障范围数据进行比较,当本次故障影响范围数据与历史故障范围数据相同或者相近时,表明本次获取的故障影响范围数据准确,可以根据该数据生成处理动作。
在一种可选地实施例中,故障影响范围历史数据包括故障发生的时间点及故障点记录情况。按照故障处理的三四三法则,故障被分成三个时段,即故障发现时长、故障响应时长、故障处理时长;障有四个时间点,即故障发生时刻、故障发现时刻、故障开始处理时刻、故障恢复时刻;处理故障需要做三件事情,即决策、恢复、通报。通过对故障的历史数据进行记录,在下次发生故障时可以参考历史故障发生以及处理情况。
在一种可选地实施例中,根据故障影响范围生成故障处理动作,包括:
获取故障影响范围生成的故障历史处理动作,将本次处理动作与历史处理动作按照预设模式进行比较,得到第二比较结果,根据第二比较结果生成本次处理动作。
本申请实施例还可以将故障影响范围历史数据进行存储,将本次故障影响范围与故障影响范围历史数据进行比较,当本次故障影响范围与历史故障影响范围相同时,即第二比较结果为本次故障影响范围与故障影响范围历史数据相同时,可以采用与历史故障影响范围相同的处理动作。当第二比较结果为本次故障影响范围与故障影响范围历史数据不同时,可以采用与历史故障相似的处理动作,如此,提高了对故障处理的效率。
在一种可选地实施例中,本申请实施例对实现上述监控方法时,可以编写事故处理动作模块,通过事故关联的遍历分析,捕获与事故相关的主机接口服务。
编写事故通知接口模块,将遍历捕获的主机接口服务信息推送到事故通知接口模块,并通知事故处理工程师。
编写事故记录模块,将事故的三个时间段,四个时间点,三件事情处理记录到事故管理平台。
在一种可选地实施例中,方法还包括:采用无向图的方式获取主机与主机之间的关联信息、主机上接口与周边主机上接口。
无向图是指没有方向的图,本申请实施例采用无向图的方式标识主机与主机之间的关联信息、主机上接口与周边主机上接口,可以很好的表示主机与主机之间,主机上接口与周边主机上接口之间的关联关系,清楚简明。
请参见图4,图4为本申请实施例提供的服务发生故障后监控的流程示意图。
从图4可以看出当服务发生报警之后,可以将与该故障服务关联的主机进行汇聚,将与该故障服务关联的接口进行汇聚,然后对关联主机与关联接口进行业务分析,也就是本申请实施例中的服务功能和服务范围分析。由于在新开发的接口中嵌入了APM探针,对嵌入APM探针的接口进行APM分析,即采用APM探针形式获取新开发接口与服务之间的关联关系,并对该接口进行分析。对于旧接口通过网络形式获取主机上接口与周边主机上接口的关联信息。通过对上述关联主机业务分析、关联接口业务分析以及APM接口关联分析后确定故障影响范围,根据故障影响范围确定故障等级并生成故障处理动作;将上述故障影响等级和故障处理动作通知值班工程师以及通知核心部门。值班工程师或核心部门根据故障响应等级和故障处理动作创建事故记录模块,对历史故障数据进行记录,同时根据处理动作响应事故处理。
采用上述实施例提供的方法对服务进行监控后故障处理的速度及时间有很大的提升。请参见图5,图5为本申请实施例提供的采用本实施例提供的方法后故障处理速度和时间示意图。其中图5中,横坐标是每个服务产生故障的ID名称,纵坐标标识处理每个事故所花费的时间;故障ID命名规则为时间+产品线名称,以区分故障的唯一性。作为一种示例,横坐标代表2019年2月到2019年8月,处理故障的时间呈下降趋势,说明采用本申请实施例提供的方法后处理服务故障的效果越来越好。
另一方面,提供了一种服务故障监控***,该***包括:存储器、处理器以及存储在存储器上的计算机程序,其特征在于,处理器执行计算机程序以实现上述任一的方法。
还一方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一的服务故障监控方法。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种服务故障监控方法,其特征在于,所述服务故障监控方法包括:
获取服务发生故障报警的信息;
获取主机与周边主机之间的关联信息;
获取所述主机上接口与所述周边主机上接口的关联信息;
根据所述服务发生故障报警的信息以及所述主机与主机之间的关联信息、主机上接口与周边主机上接口的关联信息对与所述服务关联的主机以及与所述服务关联的接口进行汇聚,然后对汇聚后的与服务关联的主机以及汇聚后的与服务关联的接口进行业务分析,得到第一分析结果,所述第一分析结果包括主机服务功能与服务范围;
根据所述服务发生故障报警的信息与所述主机上接口与所述周边主机上接口的关联信息对主机上接口与周边主机上接口进行遍历分析,得到第二分析结果,所述第二分析结果包括服务接口的服务功能与服务范围,在遍历分析中获得目标故障接口,其中,将位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口作为目标故障接口;所述服务与所述主机上接口的关系为一一对应;
定义主机及服务接口模块影响范围字典库,每个主机及服务接口分别对应一个业务功能模块说明及影响范围;
根据所述第一分析结果与所述第二分析结果确定故障影响范围。
2.如权利要求1所述的服务故障监控方法,其特征在于,所述对主机上接口与周边主机上接口进行遍历分析,包括:
获取所述主机上接口与所述周边主机上接口之间的权重;
对所述权重按照由大到小的顺序进行排序;
对所述主机上接口与周边主机上接口按照权重由大到小的顺序进行遍历分析。
3.如权利要求2所述的服务故障监控方法,其特征在于,所述对所述主机上接口与周边主机上接口按照权重由大到小的顺序进行遍历分析,包括:
获取发生故障服务的服务功能与服务范围;
获取发生故障主机上接口与周边主机上接口的服务功能与服务范围;
根据所述发生故障服务的服务功能与服务范围、所述发生故障主机上接口与周边主机上接口的服务功能与服务范围按照所述权重由大到小的顺序进行遍历分析。
4.如权利要求3所述的服务故障监控方法,其特征在于,所述根据所述发生故障服务的服务功能与服务范围、所述发生故障主机上接口与周边主机上接口的服务功能与服务范围按照所述权重由大到小的顺序进行遍历分析,包括:
比较所述发生故障服务的服务功能与服务范围、发生故障服务主机上接口与周边主机上接口的服务功能与服务范围,得到比较结果;
根据所述比较结果获取所述服务发生故障的时间序列;
获取所述主机上接口与周边主机上接口发生故障的时间序列权重;
根据所述服务发生故障的时间序列与所述主机上接口与周边主机上接口发生故障的时间序列权重对所述主机上接口与周边主机上接口进行遍历分析。
5.如权利要求4所述的服务故障监控方法,其特征在于,所述根据所述比较结果获取所述服务发生故障的时间序列,包括:
当发生故障服务的服务功能与服务范围与所述发生故障服务主机上接口与周边主机上接口的服务功能与服务范围相同时,获取所述服务发生故障的时间序列。
6.如权利要求4所述的服务故障监控方法,其特征在于,所述根据所述服务发生故障的时间序列与所述主机上接口与周边主机上接口发生故障的时间序列权重对所述主机上接口与周边主机上接口进行遍历分析,包括:
比较所述服务发生故障的时间序列与所述主机上接口与周边主机上接口发生故障的时间序列,得到比较结果;
根据所述比较结果得到目标故障接口。
7.如权利要求6所述的服务故障监控方法,其特征在于,所述根据所述比较结果得到目标故障接口,包括:
对位于服务发生故障时间之前且与服务发生故障具有前置因果关系的接口按照时间序列权重由大到小进行排序,将权重最大的接口作为目标故障接口。
8.如权利要求1-7任一所述的服务故障监控方法,其特征在于,所述根据所述第一分析结果与所述第二分析结果确定故障影响范围之后,所述方法还包括:根据主机服务功能与服务范围、主机上接口与周边主机上接口的服务功能与服务范围确定故障影响种类与影响等级;
根据所述故障影响种类与影响等级生成故障处理动作。
9.一种服务故障监控***,所述***包括:存储器、处理器以及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一所述的服务故障监控方法。
CN202110241842.6A 2021-03-04 2021-03-04 一种服务故障监控方法、***及计算机可读存储介质 Active CN113037550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110241842.6A CN113037550B (zh) 2021-03-04 2021-03-04 一种服务故障监控方法、***及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110241842.6A CN113037550B (zh) 2021-03-04 2021-03-04 一种服务故障监控方法、***及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113037550A CN113037550A (zh) 2021-06-25
CN113037550B true CN113037550B (zh) 2022-07-26

Family

ID=76467654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110241842.6A Active CN113037550B (zh) 2021-03-04 2021-03-04 一种服务故障监控方法、***及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113037550B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013058818A (ja) * 2011-09-06 2013-03-28 Fujitsu Ltd 監視補助装置、監視補助方法および監視補助プログラム
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013058818A (ja) * 2011-09-06 2013-03-28 Fujitsu Ltd 監視補助装置、監視補助方法および監視補助プログラム
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113037550A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构***的故障的方法和***
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US9672085B2 (en) Adaptive fault diagnosis
CN111176879A (zh) 设备的故障修复方法及装置
CN111756582B (zh) 基于nfv日志告警的业务链监控方法
CN108599977B (zh) 基于统计方法监控***可用性的***及方法
US11799748B2 (en) Mitigating failure in request handling
CN109034423B (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN115357418A (zh) 微服务故障检测方法、装置、存储介质及计算机设备
CN106951360B (zh) 数据统计完整度计算方法和***
CN116010456A (zh) 设备的处理方法、服务器和轨道交通***
CN116719664A (zh) 基于微服务部署的应用和云平台跨层故障分析方法及***
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN116204386B (zh) 应用服务关系自动识别及监控方法、***、介质和设备
CN113037550B (zh) 一种服务故障监控方法、***及计算机可读存储介质
CN114500178B (zh) 一种自运维的智慧物联网关
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及***
CN114881112A (zh) 一种***异常检测方法、装置、设备及介质
CN111835566A (zh) 一种***故障管理方法、装置及***
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
Jagannathan et al. REFORM: Increase alerts value using data driven approach
CN115190039A (zh) 一种设备健康评测方法、***、设备以及存储介质
CN114328195A (zh) 一种快速统计接口缺陷率、估算开发质量的方法
CN117194188A (zh) 服务器健康诊断的方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant