CN112416724A - 告警处理方法、***、计算机设备和存储介质 - Google Patents

告警处理方法、***、计算机设备和存储介质 Download PDF

Info

Publication number
CN112416724A
CN112416724A CN202011401568.6A CN202011401568A CN112416724A CN 112416724 A CN112416724 A CN 112416724A CN 202011401568 A CN202011401568 A CN 202011401568A CN 112416724 A CN112416724 A CN 112416724A
Authority
CN
China
Prior art keywords
alarm
data
baseline
information
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011401568.6A
Other languages
English (en)
Other versions
CN112416724B (zh
Inventor
李小波
李琪
赵子健
刘伯松
高昊阳
王�琦
耿金伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011401568.6A priority Critical patent/CN112416724B/zh
Publication of CN112416724A publication Critical patent/CN112416724A/zh
Application granted granted Critical
Publication of CN112416724B publication Critical patent/CN112416724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种告警处理方法、***、计算机设备和存储介质。所述告警处理方法包括:定时加载预定时间段内的基线数据;读取消息中间件中的交易明细数据,并根据所述交易明细数据获取明细信息;基于业务规则和所述明细信息提取指标数据;基于所述指标数据计算业务指标统计数据;针对所述业务指标统计数据,基于预设告警规则和所述基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警;基于所述告警信息定位异常对象并进行处理。本公开提供的告警处理方法通过灵活配置的告警规则和基线数据自动触发告警和异常分析处理,能够减少运维人员对问题的分析排查时间,进而实现快速的异常处理,以提高***的稳定性。

Description

告警处理方法、***、计算机设备和存储介质
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种告警处理方法、***、计算机设备和存储介质。
背景技术
在银行业、保险行业、电商等大数据领域,各个应用***每天生成海量的交易数据,对于重要的业务***要求***保持高可靠性,针对***出现的异常情况,需要快速定位和修复,避免由于业务***的失败造成重大损失。
随着业务对实时计算需求的提出,开源社区开发了两套主流的流式计算框架Spark Streaming和Flink。Spark Streaming是采用微批的方式处理流式数据,对接的外部数据流按照时间切分,批处理一个个切分后的文件。Flink是分布式处理流数据的计算引擎,Flink以数据并行和流水线方式执行流数据程序。流式框架的出现解决流式计算问题,但是在计算过程中出现错误或者监控指标出现异常时,需要运维人员进行科学分析及排查,然而由于引起问题原因通常很多,比如物理条件、人为因素、***行为、或者流程因素等等,人为排查的方法效率低,无法保证***的稳定性。
目前在流式计算领域并没有提供一套统一的根因自动处理方案,而是在流式计算过程出现异常情况时记录“案发”现场,同时保持计算不中断,然后通过离线(线下)的方式进行根因分析。如果一种异常情况出现频繁,那么就会消耗大量的资源去记录“案发”现场,从而影响流计算的吞吐量,并加重***的延迟,导致***运行效率降低,影响关联业务处理。
因此,需要一套全流程的线上根因自动处理***,降低人工参与的程度,支持大数据流式处理根因自动触发,并通过灵活的配置支持多维度的扩展。
发明内容
为解决上述现有技术存在的问题或部分问题,本发明实施方式提供了一种告警处理方法、***、计算机设备和存储介质,通过灵活配置的告警规则和基线数据自动触发告警和异常分析处理,能够减少运维人员对问题的分析排查时间,进而实现快速的异常处理,以提高***的稳定性。
根据本发明的第一方面,本发明实施方式提供了一种告警处理方法,其包括:定时加载预定时间段内的基线数据;读取消息中间件中的交易明细数据,并根据所述交易明细数据获取明细信息;基于业务规则和所述明细信息提取指标数据;基于所述指标数据计算业务指标统计数据;针对所述业务指标统计数据,基于预设告警规则和所述基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警;基于所述告警信息定位异常对象并进行处理。
本发明上述实施方式根据预设告警规则和基线数据自动确定是否触发告警,并根据生成的告警信息进行告警和异常分析处理,能够自动触发告警和根因分析,减少了运维人员对问题的分析排查时间,提高部门工作效率。
在本发明的一些实施方式中,所述告警处理方法还包括:将所述业务指标统计数据存入所述消息中间件;将所述消息中间件中的业务指标统计数据存入数据存储器。
本发明上述实施方式通过消息中间件和数据存储器实现对业务指标统计数据的缓冲和存储。
在本发明的一些实施方式中,所述告警处理方法还包括:基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据。
本发明上述实施方式根据一段时间内的历史业务指标统计数据计算基线数据,能够根据历史数据更新基线数据,进而根据基线数据实现更加有效的告警。
在本发明的一些实施方式中,所述告警处理方法还包括:根据采集规则和采集频率获取交易数据文件;对所述交易数据文件进行格式校验、数据解析、数据过滤和关联信息补充后得到所述交易明细数据;将所述交易明细数据存入所述消息中间件。
在本发明的一些实施方式中,所述业务指标统计数据包括:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。
本发明上述实施方式通过获取多种业务指标统计数据,可以对***进行多维度的监控及告警处理。
在本发明的一些实施方式中,基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据包括:剔除所述预定时间段内的历史业务指标统计数据中的异常数据;对所述剔除异常数据后的历史业务指标统计数据采用平均值算法计算所述基线数据。
本发明上述实施方式通过剔除异常数据能够得到更加准确的基线数据,进而使得基于基线数据产生的告警更加准确。
在本发明的一些实施方式中,所述预设告警规则包括:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值。
本发明上述实施方式通过设置各项告警规则,能够实现各类告警需求。
在本发明的一些实施方式中,基于所述告警信息定位异常对象包括:从所述告警信息中获取告警指标和告警时间;基于所述告警指标定位异常的物理机;根据所述告警时间检索日志信息确定异常信息。
本发明上述实施方式根据告警信息自动定位异常的物理机,并通过检索日志确定异常信息,能够实现及时的异常根因分析,进而使运维人员进行异常处理,以保证***的稳定性和运行效率。
根据本发明的第二方面,本发明实施方式提供了一种告警处理***,其包括:基线加载模块,用于定时加载预定时间段内的基线数据;流式计算模块,用于读取消息中间件中的交易明细数据,并根据所述交易明细数据获取明细信息;所述流式计算模块还用于基于业务规则和所述明细信息提取指标数据,并基于所述指标数据计算业务指标统计数据;告警触发模块,用于针对所述业务指标统计数据,基于预设告警规则和所述基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警;根因分析模块,用于基于所述告警信息定位异常对象并进行处理。
本发明上述实施方式根据预设告警规则和基线数据自动确定是否触发告警,并根据生成的告警信息进行告警和异常分析处理,能够自动触发告警和根因分析,减少了运维人员对问题的分析排查时间,提高部门工作效率。
在本发明的一些实施方式中,所述告警处理***还包括:所述消息中间件,用于存储所述业务指标统计数据;数据存储器,用于存储所述消息中间件发送的业务指标统计数据。
本发明上述实施方式通过消息中间件和数据存储器实现对业务指标统计数据的缓冲和存储。
在本发明的一些实施方式中,所述告警处理***还包括:基线计算模块,用于基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据。
本发明上述实施方式根据一段时间内的历史业务指标统计数据计算基线数据,能够根据历史数据更新基线数据,进而根据基线数据实现更加有效的告警。
在本发明的一些实施方式中,所述告警处理***还包括:数据采集器,用于根据采集规则和采集频率获取交易数据文件,并发送至数据转发器;所述数据转发器,用于接收所述数据采集器发送的所述交易数据文件,并对所述交易数据文件进行格式校验、数据解析、数据过滤和关联信息补充后得到所述交易明细数据,并将所述交易明细数据存入所述消息中间件。
在本发明的一些实施方式中,所述业务指标统计数据包括:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。
本发明上述实施方式通过获取多种业务指标统计数据,可以对***进行多维度的监控及告警处理。
在本发明的一些实施方式中,基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据包括:剔除所述预定时间段内的历史业务指标统计数据中的异常数据;对所述剔除异常数据后的历史业务指标统计数据采用平均值算法计算所述基线数据。
本发明上述实施方式通过剔除异常数据能够得到更加准确的基线数据,进而使得基于基线数据产生的告警更加准确。
在本发明的一些实施方式中,所述预设告警规则包括:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值。
本发明上述实施方式通过设置各项告警规则,能够实现各类告警需求。
在本发明的一些实施方式中,基于所述告警信息定位异常对象包括:从所述告警信息中获取告警指标和告警时间;基于所述告警指标定位异常的物理机;根据所述告警时间检索日志信息确定异常信息。
本发明上述实施方式根据告警信息自动定位异常的物理机,并通过检索日志确定异常信息,能够实现及时的异常根因分析,进而使运维人员进行异常处理,以保证***的稳定性和运行效率。
根据本发明的第三方面,本发明实施方式提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述告警处理方法所包含的步骤。
根据本发明的第四方面,本发明实施方式提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的告警处理方法。
由上述可知,本发明实施方式提供的告警处理方法、***、存储介质和计算机设备,根据预设告警规则和基线数据自动确定是否触发告警,并根据生成的告警信息进行告警和异常分析处理,能够自动触发告警和根因分析,减少了运维人员对问题的分析排查时间,快速定位和修复,避免由于业务***的失败造成重大损,保证了***的高可靠性。
附图说明
图1是根据本发明一种实施方式的告警处理方法的流程示意图;
图2是根据本发明一种实施方式的告警处理方法中整体数据流转的流程示意图;
图3是根据图2中流式计算方法的一种流程示意图;
图4是根据本发明一种实施方式的告警处理***的架构图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
下面对本文中使用的术语进行简要说明。
实时数据:在某事发生、发展过程中同一时间中所得信息的载体、用于表示客观事物未经加工的原始素材。
流式处理:对于无边界数据集进行连续不断地处理、聚合和分析。其中,无边界数据是一种不断增长,没有边界的数据集合,这类数据无法判断何时终止,也称为流数据。
根因分析:当某个宏观指标发生异常时,快速定位到具体哪个细粒度的指标发生异常而导致的。
Baseline:基线,历史数据计算出结果作为比较的基准。
Apdex:Application Performance Index,应用性能指数,用于反映应用的整体健康状态。
鲁棒性:Robust的音译,指控制***在一定参数摄动下,维持其它某些性能的特性。
Elasticsearch:一个搜索服务器,提供分布式多用户能力的全文搜索引擎。
Kibana:一个开源的分析与可视化平台,用于和Elasticsearch一起使用的。
图1是根据本发明一种实施方式的告警处理方法的流程示意图。
如图1所示,在本发明的一种实施方式中,所述方法可包括:步骤S11、步骤S12、步骤S13、步骤S14、步骤S15和步骤S16,下面对上述步骤进行具体的描述。
在步骤S11中,定时加载预定时间段内的基线数据。
在步骤S12中,读取消息中间件中的交易明细数据,并根据所述交易明细数据获取明细信息。
在步骤S13中,基于业务规则和所述明细信息提取指标数据。
在步骤S14中,基于所述指标数据计算业务指标统计数据。在可选的实施方式中,业务指标统计数据可以包括但不限于以下几种:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。
本发明根据上述可选的实施方式,对示例性的几种业务指标统计数据进行如下说明:
(1)交易量:交易量是统计1分钟(或者10秒)内的业务交易的数量;
(2)业务成功率:在1分钟(或者10秒)的统计时间内,业务交易成功的数量在总交易量的占比;
(3)***成功率:在1分钟(或者10秒)的统计时间内,***交易成功的数量在总交易量的占比;
(4)平均响应时间:在1分钟(或者10秒)的统计时间内,***响应时间在总交易时间的占比;
(5)平均处理时间:在1分钟(或者10秒)的统计时间内,业务处理时间在总交易时间的占比;
(6)长交易量:长交易是指一笔交易的处理时间大于一个阈值,长交易量是指1分钟(或者10秒)的统计时间内,长交易的数量;
(7)长交易率:在1分钟(或者10秒)的统计时间内,长交易量在总交易量的占比;
(8)应用性能指数(Apdex):在1分钟(或者10秒)内统计时间内,统计交易的平均交易质量值。其中,通过下述方法定义交易质量:
首先,对每个***定义一个Apdex阈值,则交易质量如下:
处理时间大于Apdex阈值,质量值等于0;
处理时间处于75%-100%Apdex阈值,质量值为50;
处理时间处于25%-75%Apdex阈值,质量值为75;
处理时间处于0%-25%Apdex阈值,质量值100。
在步骤S15中,针对所述业务指标统计数据,基于预设告警规则和所述基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警。
可选的,预设告警规则包括但不限于:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值。其中,上基线阈值和下基线阈值是基于两种算法生成的基线数据来确定的,一种算法得到的基线数据较大,对应确定上基线阈值,另一种算法得到的基线数据较小,对应确定下基线阈值。
在步骤S16中,基于所述告警信息定位异常对象并进行处理。在可选的实施方式中,基于所述告警信息定位异常对象可以具体包括:从所述告警信息中获取告警指标和告警时间;基于所述告警指标定位异常的物理机;根据所述告警时间检索日志信息确定异常信息。
采用本发明实施方式的上述方法,根据预设告警规则和基线数据自动确定是否触发告警,并根据生成的告警信息进行告警和异常分析处理,能够自动触发告警和根因分析,减少了运维人员对问题的分析排查时间,快速定位和修复,避免由于业务***的失败造成重大损,保证了***的高可靠性。
在一种可选的实施方式中,将所述业务指标统计数据存入所述消息中间件;将所述消息中间件中的业务指标统计数据存入数据存储器。通过消息中间件和数据存储器实现对业务指标统计数据的缓冲和存储。可选的,基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据。根据一段时间内的历史业务指标统计数据计算基线数据,能够根据历史数据更新基线数据,进而根据基线数据实现更加有效的告警。
在其他可选的实施方式中,基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据可以包括:剔除所述预定时间段内的历史业务指标统计数据中的异常数据;对所述剔除异常数据后的历史业务指标统计数据采用平均值算法计算所述基线数据。可选的,为了***的鲁棒性,不仅可以剔除历史业务指标统计数据中的异常数据,还可以采用多种算法融合的方式计算Baseline(基线数据)。其中,基线数据的计算方法需要根据业务场景来确定,例如,通过计算过去15天内同一时间段内的交易量的平均值,作为该时间段内的交易量baseline(基线)值。此外,由于baseline随着时间不断变换,且baseline的数据量巨大,所以在实施本发明时需要首先在步骤S11中定时加载预定时间段内的基线数据。
在另一种可选的实施方式中,根据采集规则和采集频率获取交易数据文件;对所述交易数据文件进行格式校验、数据解析、数据过滤和关联信息补充后得到所述交易明细数据;将所述交易明细数据存入所述消息中间件。
本发明根据上述告警处理方法提供一种实现告警处理时整体数据流转的示例,图2是根据本发明一种实施方式的告警处理方法中整体数据流转的流程示意图。
如图2所示,本发明实施方式的告警处理方法包含数据采集器、数据转发器、消息队列、流式计算、数据存储器对数据的处理过程。
其中,数据采集器通过配置采集规则和采集频率实时获取采集符合条件的数据文件,并将符合条件的数据文件内容发送至数据转发器。可选的,数据采集器部署在各个业务应用的客户端,用于采集/收集业务应用生成的交易数据。
数据转发器接收数据采集器发送过来的数据文件,并进行文件格式的校验、数据解析、数据过滤、数据相关信息的补充,然后,将处理后的交易明细数据发送到消息中间件。
在一种可选的实施方式中,文件格式的校验可以包括:将数据文件每一行作为一笔交易明细记录,采用键值对方式:key<value>实现校验。例如,针对全局事件事件跟踪号trn的校验为:trn<1020011011386988024816667>,则全局事件事件跟踪号trn的值为1020011011386988024816667。如果数据文件内容不符合这个格式,则丢弃该条交易明细记录。
在另一种可选的实施方式中,数据解析可以包括:将每行交易明细数据解析成为程序可识别的对象。
在其他可选的实施方式中,数据过滤可以包括:判断交易明细数据中每个属性的值是否合法。例如:日期要求全部为数字且合法;电话要求为数字;坐标要求是浮点数字;必填字段不能为空。
在其他可选的实施方式中,数据相关信息的补充可以包括:补充部署单元和物理子***等信息。其中,目前若干台AP(虚拟机)组成一个部署单元,若干部署单元组成一个物理子***,当以部署单元或者物理子***维度统计的时候,将这部分配置信息存在数据库中。
消息中间件一般采用架构都是高吞吐的分布式发布订阅消息***,用于缓冲数据,主流的消息中间件有kafka、rocketmq等。
流式计算:通过流式计算框架(例如Flink、Spark Streaming等)处理核心的业务逻辑,并将计算结果推送到消息中间件。
数据存储器,用于将消息中间件中的流式计算结果存储起来。常用分布式全文搜索引擎进行数据存储,例如采用ElasticSearch,通过kibana配合数据查询。
图3是根据图2中流式计算方法的一种流程示意图。
如图3所示,在本发明的一种实施方式中,所述流式计算方法可包括:步骤S301、步骤S302、步骤S303、步骤S304、步骤S305、步骤S306、步骤S307、步骤S308、步骤S309、步骤S310、步骤S311、步骤S312、步骤S313、步骤S314、步骤S315和步骤S316,下面对上述步骤进行具体的描述。
在步骤S301中,定时加载baseline。在可选的实施方式中,baseline是通过对数据存储器中预定历史时间段内的数据计算得到,因此baseline会随着时间不断变换,且baseline的数据量巨大,需要定时加载预定时间段内的baseline。
在步骤S302中,读取交易明细数据。在可选的实施方式中,从消息中间件的消息队列中读取交易明细数据。
在步骤S303中,交易明细数据解析。在可选的实施方式中,对交易明细数据进行解析并补充关联信息,以供各个维度指标的统计。
在步骤S304中,判断交易明细数据是否为合法数据,若为合法数据,执行步骤S305,否则,剔除该条交易明细数据。
在步骤S305中,将交易明细数据存储入消息中间件。
在步骤S306中,业务指标数据提取。在可选的实施方式中,基于交易明细数据获取的明细信息和业务规则进行业务指标数据的提取。
在步骤S307中,基于所述指标数据计算业务指标统计数据。在可选的实施方式中,所述业务指标数据可以包括但不限于以下几种:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。
在步骤S308中,将业务指标统计数据存储至消息中间件。在可选的实施方式中,存入消息中间件中的业务指标统计数据最终会存储至数据存储器(分布式全文搜索引擎),提供历史查询和基线计算使用。
在步骤S309中,告警规则加载。在可选的实施方式中,通过网页的方式配置各种各样的告警规则,告警规则可以包括但不限于:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值等。可选的,对于不同***配置相同告警规则,可以采用套餐的方式统一配置管理。极大减少配置的工作量。
可选的,告警信息是在告警触发时,基于告警指标、告警子***、告警时间生成的告警信息。
在步骤S310中,针对当前的业务指标统计数据判断是否存在对应的指标告警规则,当存在对应的指标告警规则时,执行步骤S311,否则,退出对该业务指标统计数据的告警判断。
在步骤S311中,针对当前的业务指标统计数据判断是否存在对应指标baseline,当存在对应的baseline时,执行步骤S312,否则,退出对该业务指标统计数据的告警判断.
在步骤S312中,基于指标告警规则和baseline判断是否触发告警,当触发告警时,执行步骤S313,否则,退出对该业务指标统计数据的告警判断。
在步骤S313中,推送告警通知。
在步骤S314中,是否触发根因分析,当触发根因分析时,执行步骤S315,否则,不对该业务指标统计数据进行处理。
在步骤S315中,根因分析。在一种可选的实施方式中,根据告警信息,分析该告警产生的原因,并定位问题日志。
在另一种可选的实施方式中,根因分析可以包括下述步骤:首先,分析告警信息,以获取告警对象和告警时间;其次,定位出现异常的物理子***和机器信息;再次,检索告警时段存储在分布式文件上的日志,获取异常日志信息;最后,记录定位结果信息。由此,可以自动触发根因分析,实现问题快速定位。
本发明根据上述根因分析方法提供一种定位问题的示例:
通过总览视图发现某个***的业务成功率只有89%时,由于其低于正常要求(例如:99%),***自动钻取二级视图(交易码视图),根据业务成功率进行倒序排列,获取业务成功率低的交易码,进而钻取三级视图(AP视图,虚拟机的视图),根据业务成功率倒序排列,定位到是具体哪些AP的业务成功率低,进而通过检索对应AP上的日志,查询错误关键词定位问题。
在步骤S316中,基于定位结果信息生成根因分析结果。
采用本发明实施方式的上述方法,根据预设告警规则和基线数据自动确定是否触发告警,并根据生成的告警信息进行告警和异常分析处理,能够自动触发告警和根因分析,减少了运维人员对问题的分析排查时间,快速定位和修复,避免由于业务***的失败造成重大损,保证了***的高可靠性。
图4是根据本发明一种实施方式的告警处理***的架构图。
如图4所示,所述告警***包括:
数据采集器410,用于根据采集规则和采集频率获取交易数据文件,并发送至数据转发器420。
数据转发器420,用于接收数据采集器410发送的交易数据文件,并对所述交易数据文件进行格式校验、数据解析、数据过滤和关联信息补充后得到所述交易明细数据,并将所述交易明细数据存入消息中间件430。
消息中间件430,用于存储数据转发器420发送的交易明细数据和流式计算模块440发送的业务指标统计数据。
流式计算模块440,用于读取消息中间件430中的交易明细数据,并根据所述交易明细数据获取明细信息。此外,流式计算模块440还用于基于业务规则和明细信息提取指标数据,并基于所述指标数据计算业务指标统计数据,以及将所述业务指标统计数据存入消息中间件430。
在可选的实施方式中,业务指标统计数据可以包括但不限于以下几种:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。通过获取多种业务指标统计数据,可以对***进行多维度的监控及告警处理。
数据存储器450,用于存储消息中间件430发送的业务指标统计数据。
基线计算模块460,用于基于数据存储器450中预定时间段内的历史业务指标统计数据计算基线数据。在一种可选的实施方式中,基于数据存储器450中预定时间段内的历史业务指标统计数据计算基线数据可以包括:剔除所述预定时间段内的历史业务指标统计数据中的异常数据;对所述剔除异常数据后的历史业务指标统计数据采用平均值算法计算所述基线数据。可选的,为了***的鲁棒性,不仅可以剔除历史业务指标统计数据中的异常数据,还可以采用多种算法融合的方式计算Baseline(基线数据)。其中,基线数据的计算方法需要根据业务场景来确定,例如,通过计算过去15天内同一时间段内的交易量的平均值,作为该时间段内的交易量baseline(基线)值。此外,由于baseline随着时间不断变换,且baseline的数据量巨大,所以在实施本发明时需要通过基线加载模块470定时加载预定时间段内的基线数据。
基线加载模块470,用于定时加载预定时间段内的基线数据。
告警触发模块480,用于针对业务指标统计数据,基于预设告警规则和基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警。其中,上基线阈值和下基线阈值是基于两种算法生成的基线数据来确定的,一种算法得到的基线数据较大,对应确定上基线阈值,另一种算法得到的基线数据较小,对应确定下基线阈值。
在可选的实施方式中,预设告警规则包括但不限于:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值。通过设置各项告警规则,能够实现各类告警需求。
根因分析模块490,用于基于所述告警信息定位异常对象并进行处理。在可选的实施方式中,基于所述告警信息定位异常对象可以具体包括:从所述告警信息中获取告警指标和告警时间;基于所述告警指标定位异常的物理机;根据所述告警时间检索日志信息确定异常信息。
采用本发明实施方式的***,根据预设告警规则和基线数据自动确定是否触发告警,并根据生成的告警信息进行告警和异常分析处理,能够自动触发告警和根因分析,减少了运维人员对问题的分析排查时间,快速定位和修复,以保证***的稳定性和运行效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
对应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令或程序,所述计算机可读指令或程序被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述告警处理方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。
另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令或程序,其中,所述一条或多条计算机指令或程序被所述处理器执行时能够实现如上任意一种实施方式所述的告警处理方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机等。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。因此本发明的保护范围应以权利要求为准。

Claims (18)

1.一种告警处理方法,其特征在于,所述告警处理方法包括:
定时加载预定时间段内的基线数据;
读取消息中间件中的交易明细数据,并根据所述交易明细数据获取明细信息;
基于业务规则和所述明细信息提取指标数据;
基于所述指标数据计算业务指标统计数据;
针对所述业务指标统计数据,基于预设告警规则和所述基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警;
基于所述告警信息定位异常对象并进行处理。
2.如权利要求1所述的告警处理方法,其特征在于,所述告警处理方法还包括:
将所述业务指标统计数据存入所述消息中间件;
将所述消息中间件中的业务指标统计数据存入数据存储器。
3.如权利要求2所述的告警处理方法,其特征在于,所述告警处理方法还包括:
基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据。
4.如权利要求1所述的告警处理方法,其特征在于,所述告警处理方法还包括:
根据采集规则和采集频率获取交易数据文件;
对所述交易数据文件进行格式校验、数据解析、数据过滤和关联信息补充后得到所述交易明细数据;
将所述交易明细数据存入所述消息中间件。
5.如权利要求4所述的告警处理方法,其特征在于,所述业务指标统计数据包括:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。
6.如权利要求3所述的告警处理方法,其特征在于,基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据包括:
剔除所述预定时间段内的历史业务指标统计数据中的异常数据;
对所述剔除异常数据后的历史业务指标统计数据采用平均值算法计算所述基线数据。
7.如权利要求1所述的告警处理方法,其特征在于,所述预设告警规则包括:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值。
8.如权利要求1所述的告警处理方法,其特征在于,基于所述告警信息定位异常对象包括:
从所述告警信息中获取告警指标和告警时间;
基于所述告警指标定位异常的物理机;
根据所述告警时间检索日志信息确定异常信息。
9.一种告警处理***,其特征在于,所述告警处理***包括:
基线加载模块,用于定时加载预定时间段内的基线数据;
流式计算模块,用于读取消息中间件中的交易明细数据,并根据所述交易明细数据获取明细信息;
所述流式计算模块还用于基于业务规则和所述明细信息提取指标数据,并基于所述指标数据计算业务指标统计数据;
告警触发模块,用于针对所述业务指标统计数据,基于预设告警规则和所述基线数据自动确定是否触发告警,当告警被触发时,生成告警信息并进行告警;
根因分析模块,用于基于所述告警信息定位异常对象并进行处理。
10.如权利要求9所述的告警处理***,其特征在于,所述告警处理***还包括:
所述消息中间件,用于存储所述业务指标统计数据;
数据存储器,用于存储所述消息中间件发送的业务指标统计数据。
11.如权利要求10所述的告警处理***,其特征在于,所述告警处理***还包括:
基线计算模块,用于基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据。
12.如权利要求9所述的告警处理***,其特征在于,所述告警处理***还包括:
数据采集器,用于根据采集规则和采集频率获取交易数据文件,并发送至数据转发器;
所述数据转发器,用于接收所述数据采集器发送的所述交易数据文件,并对所述交易数据文件进行格式校验、数据解析、数据过滤和关联信息补充后得到所述交易明细数据,并将所述交易明细数据存入所述消息中间件。
13.如权利要求12所述的告警处理***,其特征在于,所述业务指标统计数据包括:交易量、业务成功率、***成功率、平均响应时间、平均处理时间、长交易量、长交易率、应用性能指数。
14.如权利要求11所述的告警处理***,其特征在于,基于所述数据存储器中所述预定时间段内的历史业务指标统计数据计算所述基线数据包括:
剔除所述预定时间段内的历史业务指标统计数据中的异常数据;
对所述剔除异常数据后的历史业务指标统计数据采用平均值算法计算所述基线数据。
15.如权利要求9所述的告警处理***,其特征在于,所述预设告警规则包括:告警时段、告警等级、是否发送告警信息、告警压制次数、上基线阈值、下基线阈值。
16.如权利要求9所述的告警处理***,其特征在于,基于所述告警信息定位异常对象包括:
从所述告警信息中获取告警指标和告警时间;
基于所述告警指标定位异常的物理机;
根据所述告警时间检索日志信息确定异常信息。
17.一种计算机存储介质,所述计算机存储介质储存计算机软件指令,其特征在于,所述计算机软件指令由处理器执行以实现如权利要求1-8中任一项所述的告警处理方法。
18.一种计算机设备,其包括存储器和处理器;
其特征在于,所述存储器用于存储一条或多条计算机指令,所述处理器执行所述一条或多条计算机指令以实现如权利要求1-8中任一项所述的告警处理方法。
CN202011401568.6A 2020-12-04 2020-12-04 告警处理方法、***、计算机设备和存储介质 Active CN112416724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011401568.6A CN112416724B (zh) 2020-12-04 2020-12-04 告警处理方法、***、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011401568.6A CN112416724B (zh) 2020-12-04 2020-12-04 告警处理方法、***、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112416724A true CN112416724A (zh) 2021-02-26
CN112416724B CN112416724B (zh) 2024-05-07

Family

ID=74830030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011401568.6A Active CN112416724B (zh) 2020-12-04 2020-12-04 告警处理方法、***、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112416724B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190415A (zh) * 2021-05-27 2021-07-30 北京京东拓先科技有限公司 互联网医院***监控方法、设备、存储介质及程序产品
CN113590615A (zh) * 2021-07-15 2021-11-02 福建星云检测技术有限公司 一种易损件管理方法及***
CN113590427A (zh) * 2021-08-09 2021-11-02 中国建设银行股份有限公司 一种监控指标异常的告警方法、装置、存储介质和设备
CN113590437A (zh) * 2021-08-03 2021-11-02 上海浦东发展银行股份有限公司 一种告警信息处理方法、装置、设备和介质
CN115080366A (zh) * 2022-08-22 2022-09-20 深圳依时货拉拉科技有限公司 告警方法、装置、计算机设备和存储介质
CN117151658A (zh) * 2023-10-31 2023-12-01 智业软件股份有限公司 实现危急值处理措施推荐和触发范围校准的方法
CN117692302A (zh) * 2024-02-02 2024-03-12 深圳感臻智能股份有限公司 一种数据收集存储和智能监控告警的方法及***
CN118068789A (zh) * 2024-02-22 2024-05-24 浙江机至数字科技有限公司 一种智慧工厂数据采集方法、***
CN118068789B (zh) * 2024-02-22 2024-07-26 浙江机至数字科技有限公司 一种智慧工厂数据采集方法、***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610647A (zh) * 2015-12-30 2016-05-25 华为技术有限公司 一种探测业务异常的方法和服务器
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质
CN110275815A (zh) * 2019-06-30 2019-09-24 深圳前海微众银行股份有限公司 一种***异常告警处理方法及装置
US10445738B1 (en) * 2018-11-13 2019-10-15 Capital One Services, Llc Detecting a transaction volume anomaly
CN110389989A (zh) * 2019-07-15 2019-10-29 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN111192130A (zh) * 2019-12-11 2020-05-22 中国建设银行股份有限公司 交易监控中确定故障根源的方法、***、装置及存储介质
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN111639011A (zh) * 2020-06-11 2020-09-08 支付宝(杭州)信息技术有限公司 一种数据监控方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610647A (zh) * 2015-12-30 2016-05-25 华为技术有限公司 一种探测业务异常的方法和服务器
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质
US10445738B1 (en) * 2018-11-13 2019-10-15 Capital One Services, Llc Detecting a transaction volume anomaly
CN110275815A (zh) * 2019-06-30 2019-09-24 深圳前海微众银行股份有限公司 一种***异常告警处理方法及装置
CN110389989A (zh) * 2019-07-15 2019-10-29 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN111192130A (zh) * 2019-12-11 2020-05-22 中国建设银行股份有限公司 交易监控中确定故障根源的方法、***、装置及存储介质
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN111639011A (zh) * 2020-06-11 2020-09-08 支付宝(杭州)信息技术有限公司 一种数据监控方法、装置及设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190415A (zh) * 2021-05-27 2021-07-30 北京京东拓先科技有限公司 互联网医院***监控方法、设备、存储介质及程序产品
CN113590615A (zh) * 2021-07-15 2021-11-02 福建星云检测技术有限公司 一种易损件管理方法及***
CN113590437B (zh) * 2021-08-03 2024-04-30 上海浦东发展银行股份有限公司 一种告警信息处理方法、装置、设备和介质
CN113590437A (zh) * 2021-08-03 2021-11-02 上海浦东发展银行股份有限公司 一种告警信息处理方法、装置、设备和介质
CN113590427A (zh) * 2021-08-09 2021-11-02 中国建设银行股份有限公司 一种监控指标异常的告警方法、装置、存储介质和设备
CN113590427B (zh) * 2021-08-09 2024-05-03 中国建设银行股份有限公司 一种监控指标异常的告警方法、装置、存储介质和设备
CN115080366A (zh) * 2022-08-22 2022-09-20 深圳依时货拉拉科技有限公司 告警方法、装置、计算机设备和存储介质
CN115080366B (zh) * 2022-08-22 2022-11-15 深圳依时货拉拉科技有限公司 告警方法、装置、计算机设备和存储介质
CN117151658A (zh) * 2023-10-31 2023-12-01 智业软件股份有限公司 实现危急值处理措施推荐和触发范围校准的方法
CN117151658B (zh) * 2023-10-31 2024-02-23 智业软件股份有限公司 实现危急值处理措施推荐和触发范围校准的方法
CN117692302A (zh) * 2024-02-02 2024-03-12 深圳感臻智能股份有限公司 一种数据收集存储和智能监控告警的方法及***
CN117692302B (zh) * 2024-02-02 2024-05-28 深圳感臻智能股份有限公司 一种数据收集存储和智能监控告警的方法及***
CN118068789A (zh) * 2024-02-22 2024-05-24 浙江机至数字科技有限公司 一种智慧工厂数据采集方法、***
CN118068789B (zh) * 2024-02-22 2024-07-26 浙江机至数字科技有限公司 一种智慧工厂数据采集方法、***

Also Published As

Publication number Publication date
CN112416724B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN112416724B (zh) 告警处理方法、***、计算机设备和存储介质
CN110661659B (zh) 一种告警方法、装置、***及电子设备
US10733149B2 (en) Template based data reduction for security related information flow data
JP4859558B2 (ja) コンピュータシステムの制御方法及びコンピュータシステム
CN110708204A (zh) 一种基于运维知识库的异常处理方法、***、终端及介质
CN110166290A (zh) 基于日志文件的告警方法及装置
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
JP2022118108A (ja) ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム
JP4506520B2 (ja) 管理サーバ、メッセージの抽出方法、及び、プログラム
CN108809734B (zh) 网络告警根源分析方法、***、存储介质及计算机设备
CN113590556A (zh) 一种基于数据库的日志处理方法、装置及设备
CN112463834A (zh) 流式处理中自动实现根因分析的方法、装置及电子设备
WO2021236278A1 (en) Automatic tuning of incident noise
CN112988509A (zh) 一种告警消息过滤方法、装置、电子设备及存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
US11822578B2 (en) Matching machine generated data entries to pattern clusters
CN113472582B (zh) 用于信息技术监控中的警报关联和警报聚合的***和方法
US20140149524A1 (en) Information processing apparatus and information processing method
CN109522349B (zh) 跨类型数据计算及共享方法、***、设备
CN116489005A (zh) 一种日志服务***及日志处理方法
CN111737242A (zh) 一种监控海量数据处理过程的方法
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
Chen et al. The exploration of machine learning for abnormal prediction model of telecom business support system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant