CN111010291B - 业务流程异常告警方法、装置、电子设备及存储介质 - Google Patents

业务流程异常告警方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111010291B
CN111010291B CN201911169771.2A CN201911169771A CN111010291B CN 111010291 B CN111010291 B CN 111010291B CN 201911169771 A CN201911169771 A CN 201911169771A CN 111010291 B CN111010291 B CN 111010291B
Authority
CN
China
Prior art keywords
monitoring
server
parameter value
data packet
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911169771.2A
Other languages
English (en)
Other versions
CN111010291A (zh
Inventor
李扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike Beijing Data Technology Co ltd
Original Assignee
Enyike Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike Beijing Data Technology Co ltd filed Critical Enyike Beijing Data Technology Co ltd
Priority to CN201911169771.2A priority Critical patent/CN111010291B/zh
Publication of CN111010291A publication Critical patent/CN111010291A/zh
Application granted granted Critical
Publication of CN111010291B publication Critical patent/CN111010291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了业务流程异常告警方法、装置、电子设备及存储介质,其中,该方法包括以下步骤:每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息;提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***判断总结果;根据所述判断总结果生成告警信息。本申请通过将多个监控数据包按照预设规则进行排序处理,可以按照需求优先处理重要的监控数据包,有利于快速找到故障或者异常的根因,便于提高工作人员对业务***的维护效率。

Description

业务流程异常告警方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机网络技术领域,具体而言,涉及一种业务流程异常告警方法、装置、电子设备及存储介质。
背景技术
随着软件技术的发展,软件的功能越来越丰富强大。相应的软件后台的业务流程也越来越长越来越复杂,往往一个功能需要调用多个业务***。这导致当业务流程出现异常或故障时,运营或者开发人员无法快速有效地定位出发生异常或故障的环节。
针对上述问题,目前尚未有有效的技术解决方案。
发明内容
本申请实施例的目的在于提供一种业务流程异常告警方法、装置、电子设备及存储介质,可以对业务***的故障或异常进行快速定位,提高故障或异常的维护速度。
第一方面,本申请实施例提供了一种业务流程异常告警方法,用于业务***的监控,所述业务***包括级联的多级服务器,所述方法包括以下步骤:
每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息;
提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;
根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***判断总结果;
根据所述判断总结果生成告警信息。
本申请实施例通过采集各级服务器的埋点返回的监控数据包并对每一监控数据包中的监控参数值与对应预设的监控阈值进行比较,从而实现对业务***的异常判断,可以快速定位异常或者故障位置,便于工作人员快速进行维护,提高业务***的运行流畅度。
可选地,在本申请实施例所述的业务流程异常告警方法中,所述提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值的步骤包括:
按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列;
依次从所述数据包队列提取每一所述监控数据包的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值。
本申请实施例通过将多个监控数据包按照预设规则进行排序处理,可以按照需求优先处理重要的监控数据包,有利于快速找到故障或者异常的根因。
可选地,在本申请实施例所述的业务流程异常告警方法中,所述按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列的步骤包括:
按照多级服务器的级联次序以及所述监控数据包的采集时间对各个埋点返回的监控数据包进行排序,以生成数据包队列;其中,在同一时间采集的监控数据包中,上级服务器的监控数据包排在下级服务器的监控数据包之前;不同时间采集的监控数据包中,采集时间早的监控数据包排在采集时间晚的监控数据包之前。
可选地,在本申请实施例所述的业务流程异常告警方法中,所述根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成判断结果的步骤包括:
按照所述数据包队列的次序将每一服务器的监控参数值与对应的监控阈值进行比较,以判断所述监控参数值对应的服务器是否业务异常;
根据各级服务器的监控参数值的异常判断结果生成判断总结果,所述判断总结果包括每一级服务器的异常信息以及异常根源。
本申请实施例通过综合分析各个服务器的异常判断结果对整个业务***的异常根因进行判断,可以实现快速定位故障源头。
可选地,在本申请实施例所述的业务流程异常告警方法中,所述监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;
所述根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成判断结果的步骤包括:
按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;
若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的监控数据包中的第二监控参数值;
将所述第二监控参数值与第二预设阈值进行比较,以判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器;
根据对各级服务器的异常判断结果生成所述业务***判断总结果。
本申请实施例通过结合上级服务器中的第二监控参数值来判断自身异常的根因是自身运行问题还是源自上级服务器,可以实现快速且准确地找到异常源头,便于提高业务***的维护效率。
可选地,在本申请实施例所述的业务流程异常告警方法中,所述监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;
所述根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成判断结果的步骤包括:
按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;
若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的多个监控数据包中的第二监控参数值,所述上级服务器对应的多个监控数据包包括所述第一监控参数值对应的时间点的监控数据包以及对应的时间点之前预设时间段内的各个时间点的多个监控数据包;
根据所获取的多个第二监控参数值的波动情况判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器。
本申请实施例通过结合上级服务器中的第二监控参数值来判断自身异常的根因是自身运行问题还是源自上级服务器,可以实现快速且准确地找到异常源头,便于提高业务***的维护效率。
第二方面,本申请实施例还提供了一种业务流程异常告警装置,用于业务***的监控,所述业务***包括级联的多级服务器,所述装置包括:
采集模块,用于每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息;
获取模块,用于提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;
第一生成模块,用于根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***判断总结果;
第二生成模块,用于根据所述判断总结果生成告警信息。
可选地,在本申请实施例所述的业务流程异常告警装置中,所述获取模块包括:
排序单元,用于按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列;
获取单元,用于依次从所述数据包队列提取每一所述监控数据包的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的业务流程异常告警方法及装置的实施场景示意图。
图2为本申请实施例提供的业务流程监控理方法的一种流程图。
图3为本申请实施例提供的业务流程异常告警装置的一种结构示意图。
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请提供的业务流程异常告警方法及装置的场景示意图,该业务流程异常告警方法及装置以计算机程序的形式集成在电脑或者监控服务器等电子设备中。该业务流程异常告警方法及装置主要应用于对业务***进行异常监控,以便于快速定位异常的服务器。业务***包括多个依次级联的服务器,例如,多个依次级联的服务器包括第一级服务器C1…第n-1级服务器Cn-1以及第n级服务器n,其中n为大于2的自然数。第一级服务器C1接收用户的业务请求,然后进行第一步运行处理,并将运行处理得到的业务数据传输给第二级服务器,第二级服务器再对该业务数据进行处理,处理完成后继续上传,直至在第n级服务器上完成整个业务流程。该监控服务器100分别与各级服务器连接,其通过每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息;提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***判断总结果;根据所述判断总结果生成告警信息;以便于维护人员可以快速定位固定服务器,便于进行快速维护。
下面结合具体实施例对本申请进行详细说明。
请参照图2,图2是本申请一些实施例中的一种业务流程异常告警方法的流程图。该方法用于业务***的监控,所述业务***包括级联的多级服务器,其中,上级服务器将本级的运算得到数据发送给下级服务器进行业务运算。该业务流程异常告警方法包括以下步骤:
S101、每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息。
S102、提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值。
S103、根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***的判断总结果。
S104、根据所述判断总结果生成告警信息。
在该步骤S101中,可以通过flume组件来实现对各级服务器的埋点采集的监控数据的收集。其中,该埋点内设置有预设的采集规则,以实现对对应服务器内的对应监控参数值的进行定向采集。该各级服务器可以统一采集一种监控参数值,也可以基于各级服务器的业务情况,选择对应维度的参数作为监控参数值。例如,可以采集各级服务器的业务完成的成功率、业务平均耗时或者各个子业务的运行状态参数等。
在该步骤S102中,由于对应不同级的服务器,其处理的业务是不相同的,因此,其所需要监控的监控参数是不相同的,不同的监控参数所对应的监控阈值也是不同的。在执行该步骤之前,需要先对应建立一套服务器-监控参数以及监控阈值的映射关系。当获取该监控数据包时,可以提取数据包中的监控参数值,并基于监控数据包的标识信息查询预先针对该级服务器的对应类型的监控参数值所设置监控阈值。
在一些实施例中,由于监控服务器采集的监控数据包很多,且监控服务器在每间隔预设时间不断对各级服务器上的埋点数据进行采集。因此,需要建立队列来进行依次处理,避免出现混乱。
具体地,该步骤S102包括以下子步骤:S1021、按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列;S1022、依次从所述数据包队列提取每一所述监控数据包的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值。
其中,在该步骤S1021中,按照多级服务器的级联次序以及所述监控数据包的采集时间对各个埋点返回的监控数据包进行排序,以生成数据包队列;其中,在同一时间采集的监控数据包中,上级服务器的监控数据包排在下级服务器的监控数据包之前;不同时间采集的监控数据包中,采集时间早的监控数据包排在采集时间晚的监控数据包之前。由于服务器的业务数据流向是从上级流向下级,因此,先对上级的服务器的监控数据包进行处理,便于更快发现故障根源。
当然,可以理解地,针对各级服务器的监控数据包的排序在服务器级别上还可以倒置过来,下级的服务器排在前面,上级的服务器排在后面。
在该步骤S103中,该监控服务器可以基于每一个服务器的监控参数值以及对应的监控阈值的比较来对服务器的进行异常判断。当该监控参数值未处在该监控阈值的范围内时,说明该服务器发生异常,当该监控参数值处在该监控阈值的范围内时,说明该服务器正常运行。最后,在对各级服务器判断完成后,监控服务器统计所有服务器的异常情况生成总判断结果。
可以理解地,在一些实施例中,该步骤S103包括以下步骤:S1031、按照所述数据包队列的次序将每一服务器的监控参数值与对应的监控阈值进行比较,以判断所述监控参数值对应的服务器是否业务异常;S1032、根据各级服务器的监控参数值的异常判断结果生成判断总结果,所述判断总结果包括每一级服务器的异常信息以及异常根源。例如,如果经过统计发现第一级服务器至第三级服务器均为出现任何异常,而从第四级服务器开始出现异常,且根据异常信息的分析发现,第四级服务器及其下级的服务器出现的异常情况类似,因此,即可判断该第四级服务器为故障根源。第二级服务器出现异常,而第三级服务器至第五级服务器均正常,而第六级服务器出现异常,则可以判定第二级服务器和第六级服务器均出现异常,而且二者关联度不大,属于各自***本身BUG导致的异常。
可以理解地,在一些实施例中,该监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,第一监控参数值为用于判断本级服务器的是否异常的参数值,第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值。对应地,该步骤S103包括:
S1033、按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;S1034、若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的监控数据包中的第二监控参数值;S1035、将所述第二监控参数值与第二预设阈值进行比较,以判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器;S1036、根据对各级服务器的异常判断结果生成所述业务***判断总结果。
其中,由于有些服务器在运行过程中,其中某些业务运行波动并不会导致本级服务器的异常,但是,该波动传输到下一级服务器时,会在下一级服务器引起异常,因此,则可以判定产生该种波动的服务器为下一级服务器产生故障的根因。
例如,服务器A对上级服务器发送的多份业务数据进行运算,得到多份经过处理的多份业务数据A,而在服务器A中进行业务运算时,由于其丢包率或者网络故障,导致接收的业务数据丢失了一份或者两份,而在该服务器A中的业务处理并不涉及该多份业务数据的关联,但是在该服务器A的下级服务器B进行业务运算时,由于其需要根据一定的算法来对各个业务数据进行整合运算,而由于在服务器A出现的业务数据的丢失,使得业务数据链不完整,因此,在服务器B运行时出现严重故障。实际检测过程中,在对服务器A的监控数据包中的第一监控参数值进行判断时,判断该服务器A是没有故障的,其业务运行正常。而在服务器B基于该第一监控参数值进行故障判断时,发现服务器B出现异常,这时候就需要返回去对服务器A的第二监控参数值进行提取以及分析,看该第二监控参数值是否处于预设的阈值范围内,例如该服务器A的第二监控参数值为丢包率,丢包率的阈值范围为99-100%,如果丢包率不在这个范围内,则说明是由于服务器B的隐性异常(未表现在本身的业务运算上的异常)导致了服务器B的故障,由于丢包有一定随机性,即使丢包率没有在这个范围内,可能丢失的数据为无关数据,也不会引起服务器B的异常。通过在本级服务器发现异常时,对上级服务器的相关的监控参数值进行判定可以判定故障根因是源自自身还是上级服务器,从而可以实现真正故障或者异常的快速定位。
可以理解地,在一些实施例中监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;对应地,该步骤S103包括以下子步骤:S1037、按照数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断第一监控参数值对应的服务器是否业务异常;S1038、若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的多个监控数据包中的第二监控参数值,该上级服务器对应的多个监控数据包包括采集该第一监控参数值的时间点的监控数据包以及该时间点之前预设时间段内的各个时间点的多个监控数据包;S1039、根据所获取的多个第二监控参数值的波动情况判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器。在一些服务器中,有些监控参数值的异常可能会引起下一级服务器的异常,也可能不会引起,且这些监控参数值异常并不会导致服务器本身的业务数据处理的异常。而在某一级服务器出现异常时,需要对上一级服务器的对应的第二监控参数值进行走势判断,如果在该级服务器出现异常时,而上一级服务器的第二监控参数刚好出现异常波动,则说明本级服务器出现异常的原因在其上一级服务器。
在该步骤S104中,根据判断总结果生成告警信息,提醒运营商进行维护,并且根据异常或者故障的情况,进行告警分级。例如,对于单个服务器的不影响下级服务器业务运行的异常可以生成初级告警信息。对于一级服务器引起下级或者后续多级服务器异常或者故障的情况,生成高级告警信息。对于多个服务器的相互不影响的异常或者故障生成中级告警信息。
由上可知,本申请实施例提供的业务流程异常告警方法通过采集各级服务器的埋点返回的监控数据包并对每一监控数据包中的监控参数值与对应预设的监控阈值进行比较,从而实现对业务***的异常判断,可以快速定位异常或者故障位置,便于工作人员快速进行维护,提高业务***的运行流畅度。
请参照图3,图3是本申请一些实施例中的一种业务流程异常告警装置的结构图。该装置用于业务***的监控,所述业务***包括级联的多级服务器,所述装置包括:采集模块201、获取模块202、第一生成模块203以及第二生成模块204。
其中,该采集模块201用于每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息。该采集模块201可以通过flume组件来实现对各级服务器的埋点采集的监控数据的收集。其中,该埋点内设置有预设的采集规则,以实现对对应服务器内的对应监控参数值的进行定向采集。该各级服务器可以统一采集一种监控参数值,也可以基于各级服务器的业务情况,选择对应维度的参数作为监控参数值。例如,可以采集各级服务器的业务完成的成功率、业务平均耗时或者各个子业务的运行状态参数等。
其中,该获取模块202用于提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;由于对应不同级的服务器,其处理的业务是不相同的,因此,其所需要监控的监控参数是不相同的,不同的监控参数所对应的监控阈值也是不同的。在执行该步骤之前,需要先对应建立一套服务器-监控参数以及监控阈值的映射关系。当获取该监控数据包时,可以提取数据包中的监控参数值,并基于监控数据包的标识信息查询预先针对该级服务器的对应类型的监控参数值所设置监控阈值。
在一些实施例中,由于监控服务器采集的监控数据包很多,且监控服务器在每间隔预设时间不断对各级服务器上的埋点数据进行采集。因此,需要建立队列来进行依次处理,避免出现混乱。
具体地,该获取模块202包括排序单元以及获取单元。该排序单元用于按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列;该获取单元用于依次从所述数据包队列提取每一所述监控数据包的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值。
其中,该第一生成模块203用于根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***判断总结果。该监控服务器可以基于每一个服务器的监控参数值以及对应的监控阈值的比较来对服务器的进行异常判断。当该监控参数值未处在该监控阈值的范围内时,说明该服务器发生异常,当该监控参数值处在该监控阈值的范围内时,说明该服务器正常运行。最后,在对各级服务器判断完成后,监控服务器统计所有服务器的异常情况生成总判断结果。
可以理解地,在一些实施例中,该第一生成模块203具体用于按照所述数据包队列的次序将每一服务器的监控参数值与对应的监控阈值进行比较,以判断所述监控参数值对应的服务器是否业务异常;并根据各级服务器的监控参数值的异常判断结果生成判断总结果,所述判断总结果包括每一级服务器的异常信息以及异常根源。例如,如果经过统计发现第一级服务器至第三级服务器均为出现任何异常,而从第四级服务器开始出现异常,且根据异常信息的分析发现,第四级服务器及其下级的服务器出现的异常情况类似,因此,即可判断该第四级服务器为故障根源。第二级服务器出现异常,而第三级服务器至第五级服务器均正常,而第六级服务器出现异常,则可以判定第二级服务器和第六级服务器均出现异常,而且二者关联度不大,属于各自***本身BUG导致的异常。
可以理解地,在一些实施例中,该监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,第一监控参数值为用于判断本级服务器的是否异常的参数值,第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值。对应地,该第一生成模块203用于按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的监控数据包中的第二监控参数值;将所述第二监控参数值与第二预设阈值进行比较,以判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器;根据对各级服务器的异常判断结果生成所述业务***判断总结果。
其中,由于有些服务器在运行过程中,其中某些业务运行波动并不会导致本级服务器的异常,但是,该波动传输到下一级服务器时,会在下一级服务器引起异常,因此,则可以判定产生该种波动的服务器为下一级服务器产生故障的根因。
例如,服务器A对上级服务器发送的多份业务数据进行运算,得到多份经过处理的多份业务数据A,而在服务器A中进行业务运算时,由于其丢包率或者网络故障,导致接收的业务数据丢失了一份或者两份,而在该服务器A中的业务处理并不涉及该多份业务数据的关联,但是在该服务器A的下级服务器B进行业务运算时,由于其需要根据一定的算法来对各个业务数据进行整合运算,而由于在服务器A出现的业务数据的丢失,使得业务数据链不完整,因此,在服务器B运行时出现严重故障。实际检测过程中,在对服务器A的监控数据包中的第一监控参数值进行判断时,判断该服务器A是没有故障的,其业务运行正常。而在服务器B基于该第一监控参数值进行故障判断时,发现服务器B出现异常,这时候就需要返回去对服务器A的第二监控参数值进行提取以及分析,看该第二监控参数值是否处于预设的阈值范围内,例如该服务器A的第二监控参数值为丢包率,丢包率的阈值范围为99-100%,如果丢包率不在这个范围内,则说明是由于服务器B的隐性异常(未表现在本身的业务运算上的异常)导致了服务器B的故障,由于丢包有一定随机性,即使丢包率没有在这个范围内,可能丢失的数据为无关数据,也不会引起服务器B的异常。通过在本级服务器发现异常时,对上级服务器的相关的监控参数值进行判定可以判定故障根因是源自自身还是上级服务器,从而可以实现真正故障或者异常的快速定位。
可以理解地,在一些实施例中监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;对应地,该第一生成模块203具体用于按照数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断第一监控参数值对应的服务器是否业务异常;若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的多个监控数据包中的第二监控参数值,该上级服务器对应的多个监控数据包包括采集该第一监控参数值的时间点的监控数据包以及该时间点之前预设时间段内的各个时间点的多个监控数据包;根据多个监控数据包中的第二监控参数值的波动情况判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器。在一些服务器中,有些监控参数值的异常可能会引起下一级服务器的异常,也可能不会引起,且这些监控参数值异常并不会导致服务器本身的业务数据处理的异常。而在某一级服务器出现异常时,需要对上一级服务器的对应的第二监控参数值进行走势判断,如果在该级服务器出现异常时,而上一级服务器的第二监控参数刚好出现异常波动,则说明本级服务器出现异常的原因在其上一级服务器。
其中,该第二生成模块204用于根据所述判断总结果生成告警信息。第二生成模块204根据判断总结果生成告警信息,提醒运营商进行维护,并且根据异常或者故障的情况,进行告警分级。例如,对于单个服务器的不影响下级服务器业务运行的异常可以生成初级告警信息。对于一级服务器引起下级或者后续多级服务器异常或者故障的情况,生成高级告警信息。对于多个服务器的相互不影响的异常或者故障生成中级告警信息。
由上可知,本申请实施例提供的业务流程异常告警装置通过采集各级服务器的埋点返回的监控数据包并对每一监控数据包中的监控参数值与对应预设的监控阈值进行比较,从而实现对业务***的异常判断,可以快速定位异常或者故障位置,便于工作人员快速进行维护,提高业务***的运行流畅度。
请参照图4,图4为本申请实施例提供的一种电子设备的结构示意图,本申请提供一种电子设备3,包括:处理器301和存储器302,处理器301和存储器302通过通信总线303和/或其他形式的连接机构(未标出)互连并相互通讯,存储器302存储有处理器301可执行的计算机程序,当计算设备运行时,处理器301执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法。
本申请实施例提供一种存储介质,所述计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种业务流程异常告警方法,其特征在于,用于业务***中,所述业务***包括级联的多级服务器,所述方法包括以下步骤:
每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息;
提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;
根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***的判断总结果;
根据所述判断总结果生成告警信息;
其中,所述提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值的步骤包括:
按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列;
依次从所述数据包队列提取每一所述监控数据包的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;
所述监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的业务是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;
而所述根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成判断结果的步骤包括:
按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;
若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的监控数据包中的第二监控参数值;
将所述第二监控参数值与第二预设阈值进行比较,以判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器;
根据对各级服务器的异常判断结果生成所述业务***判断总结果。
2.根据权利要求1所述的业务流程异常告警方法,其特征在于,所述按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列的步骤包括:
按照多级服务器的级联次序以及所述监控数据包的采集时间对各个埋点返回的监控数据包进行排序,以生成数据包队列;其中,在同一时间采集的监控数据包中,上级服务器的监控数据包排在下级服务器的监控数据包之前;不同时间采集的监控数据包中,采集时间早的监控数据包排在采集时间晚的监控数据包之前。
3.根据权利要求2所述的业务流程异常告警方法,其特征在于,所述根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成判断结果的步骤包括:
按照所述数据包队列的次序将每一服务器的监控参数值与对应的监控阈值进行比较,以判断所述监控参数值对应的服务器是否业务异常;
根据各级服务器的异常判断结果生成判断总结果,所述判断总结果包括每一级服务器的异常信息以及异常根源。
4.根据权利要求1所述的业务流程异常告警方法,其特征在于,所述监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的业务是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;
而所述根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成判断结果的步骤包括:
按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;
若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的多个监控数据包中的第二监控参数值,所述上级服务器对应的多个监控数据包包括所述第一监控参数值对应的时间点的监控数据包以及对应的时间点之前预设时间内的各个时间点的监控数据包;
根据所获取的多个第二监控参数值的波动情况判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器。
5.一种业务流程异常告警装置,其特征在于,用于业务***中,所述业务***包括级联的多级服务器,所述装置包括:
采集模块,用于每隔预设时间段采集设置于各级服务器的埋点返回的监控数据包,每一所述监控数据包携带有数据来源的服务器的标识信息;
获取模块,用于提取每一所述监控数据包中的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;
第一生成模块,用于根据每一所述监控参数值及对应所述监控阈值对所述业务***进行异常判断,生成所述业务***的判断总结果;
第二生成模块,用于根据所述判断总结果生成告警信息;
其中,所述获取模块包括排序单元和获取单元;
所述排序单元,用于按照预设规则对各个埋点返回的监控数据包进行排序,以生成数据包队列;
所述获取单元,用于依次从所述数据包队列提取每一所述监控数据包的监控参数值,并根据所述监控数据包携带的标识信息获取对应的监控阈值;
所述监控数据包包括一个第一监控参数值以及至少一个第二监控参数值,所述第一监控参数值为用于判断本级服务器的业务是否异常的参数值,所述第二监控参数值为对本级服务器的下级的各级服务器的业务具有影响的参数值;
所述第一生成模块,还用于按照所述数据包队列的次序将每一服务器的第一监控参数值与对应的第一监控阈值进行比较,以判断所述第一监控参数值对应的服务器是否业务异常;若第一监控参数值对应的服务器业务异常,则获取出现异常的服务器的上级服务器对应的监控数据包中的第二监控参数值;将所述第二监控参数值与第二预设阈值进行比较,以判断该出现异常的服务器的异常根源是源自自身或者源自其上级服务器;根据对各级服务器的异常判断结果生成所述业务***判断总结果。
6.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-4任一所述方法中的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-4任一所述方法中的步骤。
CN201911169771.2A 2019-11-25 2019-11-25 业务流程异常告警方法、装置、电子设备及存储介质 Active CN111010291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911169771.2A CN111010291B (zh) 2019-11-25 2019-11-25 业务流程异常告警方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911169771.2A CN111010291B (zh) 2019-11-25 2019-11-25 业务流程异常告警方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111010291A CN111010291A (zh) 2020-04-14
CN111010291B true CN111010291B (zh) 2022-08-09

Family

ID=70112120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911169771.2A Active CN111010291B (zh) 2019-11-25 2019-11-25 业务流程异常告警方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111010291B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205237A (zh) * 2020-12-15 2021-08-03 格创东智(深圳)科技有限公司 玻璃生产信息处理方法、装置、电子设备及其存储介质
CN112597203A (zh) * 2020-12-28 2021-04-02 恩亿科(北京)数据科技有限公司 基于大数据平台的通用数据监控方法和***
CN112685256B (zh) * 2020-12-30 2023-05-09 上海掌门科技有限公司 服务端监控方法、设备和介质
CN112857450A (zh) * 2021-01-20 2021-05-28 武汉新泽安科技有限公司 一种环境空气质量自动监测***
CN113033671A (zh) * 2021-03-29 2021-06-25 武汉艺洁环保科技有限公司 一种实验室流程管理辅助***
CN113377627B (zh) * 2021-06-10 2023-12-05 广州朗国电子科技股份有限公司 一种业务服务器异常检测方法、***、设备、存储介质
TWI836263B (zh) * 2021-09-02 2024-03-21 大陸商鼎捷軟件股份有限公司 接口控制系統以及方法
CN114328139A (zh) * 2021-12-17 2022-04-12 江苏银承网络科技股份有限公司 大厅接口的监控方法、装置、存储介质及服务器
CN114710401B (zh) * 2022-04-29 2024-02-06 北京达佳互联信息技术有限公司 异常定位方法和装置
CN115514678B (zh) * 2022-09-23 2023-09-26 四川新网银行股份有限公司 一种互联网金融业务的连续性监控方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075369A (zh) * 2011-02-28 2011-05-25 杭州华三通信技术有限公司 一种监控设备的管理方法和设备
CN105451036A (zh) * 2014-09-18 2016-03-30 中国电信股份有限公司 一种视频质量的监测方法、装置及cdn***
CN107886242A (zh) * 2017-11-10 2018-04-06 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN108092836A (zh) * 2016-11-21 2018-05-29 深圳市蓝希领地科技有限公司 一种服务器的监控方法及装置
WO2018176496A1 (zh) * 2017-04-01 2018-10-04 华为技术有限公司 Iptv业务质量检测的方法、装置及***
CN109828883A (zh) * 2017-11-23 2019-05-31 腾讯科技(北京)有限公司 任务数据处理方法和装置、存储介质及电子装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868736B2 (en) * 2012-04-27 2014-10-21 Motorola Mobility Llc Estimating a severity level of a network fault

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075369A (zh) * 2011-02-28 2011-05-25 杭州华三通信技术有限公司 一种监控设备的管理方法和设备
CN105451036A (zh) * 2014-09-18 2016-03-30 中国电信股份有限公司 一种视频质量的监测方法、装置及cdn***
CN108092836A (zh) * 2016-11-21 2018-05-29 深圳市蓝希领地科技有限公司 一种服务器的监控方法及装置
WO2018176496A1 (zh) * 2017-04-01 2018-10-04 华为技术有限公司 Iptv业务质量检测的方法、装置及***
CN107886242A (zh) * 2017-11-10 2018-04-06 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN109828883A (zh) * 2017-11-23 2019-05-31 腾讯科技(北京)有限公司 任务数据处理方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN111010291A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111010291B (zh) 业务流程异常告警方法、装置、电子设备及存储介质
EP3882773B1 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US9672085B2 (en) Adaptive fault diagnosis
US7779467B2 (en) N grouping of traffic and pattern-free internet worm response system and method using N grouping of traffic
US8635498B2 (en) Performance analysis of applications
US10346744B2 (en) System and method for visualisation of behaviour within computer infrastructure
US11348023B2 (en) Identifying locations and causes of network faults
CN110928718A (zh) 一种基于关联分析的异常处理方法、***、终端及介质
JP5098821B2 (ja) 監視対象システムの障害等の予兆を検出する監視装置及び監視方法
CN106104496A (zh) 用于任意时序的不受监督的异常检测
US9547545B2 (en) Apparatus and program for detecting abnormality of a system
CN109670690A (zh) 数据信息中心监控预警方法、***及设备
CN111814999A (zh) 一种故障工单生成方法、装置、设备
US20190265088A1 (en) System analysis method, system analysis apparatus, and program
CN113271224A (zh) 节点的定位方法、装置、存储介质及电子装置
CN115865649A (zh) 一种智能运维管理控制方法、***和存储介质
CN110469461A (zh) 一种风机齿带的断裂预估方法、其装置及可读存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
KR101281460B1 (ko) 통계적 공정 관리도를 이용하여 이상증후를 탐지하는 방법
Zhu et al. Automatic fault diagnosis in cloud infrastructure
Rafique et al. TSDN-enabled network assurance: A cognitive fault detection architecture
CN117240527A (zh) 一种网络安全风险防范***及方法
CN114327988B (zh) 一种可视化网络故障关系确定方法和装置
CN110838940A (zh) 地下电缆巡检任务配置方法和装置
US20210027254A1 (en) Maintenance management apparatus, system, method, and non-transitory computer readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant