CN112395156A - 故障的告警方法和装置、存储介质和电子设备 - Google Patents

故障的告警方法和装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112395156A
CN112395156A CN202011233566.0A CN202011233566A CN112395156A CN 112395156 A CN112395156 A CN 112395156A CN 202011233566 A CN202011233566 A CN 202011233566A CN 112395156 A CN112395156 A CN 112395156A
Authority
CN
China
Prior art keywords
keyword
log
alarm
target
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011233566.0A
Other languages
English (en)
Inventor
王强
陈秀升
钟志雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimin Insurance Agency Co Ltd
Original Assignee
Weimin Insurance Agency Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimin Insurance Agency Co Ltd filed Critical Weimin Insurance Agency Co Ltd
Priority to CN202011233566.0A priority Critical patent/CN112395156A/zh
Publication of CN112395156A publication Critical patent/CN112395156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种故障的告警方法和装置、存储介质和电子设备,其中,该方法包括:获取应用***的日志变化信息,其中,日志变化信息用于表示第一错误日志在目标时间段内发生变化;将第一错误日志中的第一关键字与第二关键字进行匹配,其中,第二关键字为需要排除告警的关键字;在第一错误日志中不存在与第二关键字匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制。本申请通过获取应用***内的日志变化信息,确定第一错误日志,并根据第一错误日志中的第一关键字与第二关键字进行匹配,根据匹配结果触发相应的日志告警机制,能够在问题出现的第一时间感知和发现问题,提高告警效率。

Description

故障的告警方法和装置、存储介质和电子设备
技术领域
本申请涉及互联网领域,尤其涉及一种故障的告警方法和装置、存储介质和电子设备。
背景技术
在生产环境中,各种应用***会被部署在众多的服务器或容器(后统称“服务器”)上,这些***在运行过程中,会输出各种日志,来反映***状态、反馈业务执行情况等,采集和分析这些日志信息,可以做到对一个应用***从业务层面上的数据进行分析与监控告警。
相关技术中,可以基于服务器硬件资源、***性能进行监控告警,其缺点是:需要问题积累到一定程度以后才能识别出故障并发出告警,在时效性方面有一些滞后;还可以基于客户端埋点上报,得到故障告警消息,但是采用埋点上报的方式通常需要提前预判埋点,而埋点对代码有一定的侵入性;另外,当前的监控告警***普遍存在告警轰炸的问题,导致有效告警的敏感度不够高。
因此,相关技术中存在告警时效性差、有效告警的敏感度不够高的问题。
发明内容
本申请提供了一种故障的告警方法和装置、存储介质和电子设备,以至少解决相关技术中存在告警时效性差的问题。
根据本申请实施例的一个方面,提供了一种故障的告警方法,所述方法包括:
获取应用***的日志变化信息,其中,所述日志变化信息用于表示第一错误日志在目标时间段内发生变化;
将所述第一错误日志中的第一关键字与第二关键字进行匹配,其中,所述第二关键字为需要排除告警的关键字;
在所述第一错误日志中不存在与所述第二关键字匹配的第一关键字的情况下,根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制。
根据本申请实施例的一个方面,提供了一种故障的告警装置,所述装置包括:
第一获取模块,用于获取应用***的日志变化信息,其中,所述日志变化信息用于表示第一错误日志在时间段内发生变化;
第一匹配模块,用于将所述第一错误日志中的第一关键字与第二关键字进行匹配,其中,所述第二关键字为需要排除告警的关键字;
触发模块,用于在所述第一错误日志中不存在与所述第二关键字匹配的第一关键字的情况下,根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制。
可选地,所述第一获取模块包括:
第一获取单元,用于获取多个所述应用***的日志变化子信息,其中,所述日志变化子信息用于表示第一错误子日志在目标时间窗口内发生变化,所述第一错误子日志属于所述第一错误日志,所述目标时间窗口为所述目标时间段内的一个时间窗口;
分类单元,用于将与存在相同关键字的日志变化子信息对应的所述应用***归为同一应用类型,其中,所述应用类型用于指示所述应用***所属类别;
汇总单元,用于将同一应用类型下的应用***的日志变化子信息汇总为所述日志变化信息。
可选地,所述装置还包括:
第二获取单元,用于在将与存在相同关键字的日志变化子信息对应的所述应用***归为同一应用类型之后,获取多个应用中每个应用类型下的报错统计信息,其中,所述报错统计信息包括报错类型、错误来源以及报警时间;
展示单元,用于将每个应用类型下的报错统计信息推送至与多个信息窗口中与该应用类型匹配的目标信息窗口进行展示,其中,所述多个信息窗口中的一个信息窗口用于展示一个应用类型下的报错统计信息。
可选地,所述触发模块包括:
第一发送单元,用于在所述第一关键字在所述目标时间窗口内出现的频率大于或等于预设频率的情况下,发送第一告警消息至告警接收端,其中,所述目标频率用于表征发送所述第一告警消息的频率数值。
可选地,所述触发模块还包括:
第一确定单元,用于确定所述目标时间窗口的时长;
存储单元,用于将在所述时长内出现的每个所述第一关键字存储至分布式缓存内;
统计单元,用于统计所述分布式缓存内所述第一关键字的个数;
第二发送单元,用于将所述个数作为第二告警消息,发送至告警接收端。
可选地,所述存储单元包括:
生成子单元,用于按照所述第一关键字所在应用***的应用名、所述第一关键字包含的子关键字、当前时间、所述第一关键字所在的所述目标时间窗口长度,以及结束时间的顺序生成所述第一关键字;
存储子单元,用于将所述第一关键字存储至分布式缓存内。
可选地,所述装置还包括:
第一确定模块,用于将所述第一错误日志中的第一关键字与第二关键字进行匹配之前,确定所述第一错误日志中存在一目标错误日志,其中,所述目标错误日志中不包含所述关键字;
第一发送模块,用于根据所述目标错误日志内表示的故障数据发送第三告警消息。
可选地,所述装置还包括:
第二发送模块,用于根据所述目标错误日志内表示的故障数据发送第三告警消息之后,在所述第三告警消息的数量大于或等于目标告警阈值的情况下,发送第四告警消息至告警接收端,其中,所述第四告警消息用于指示日志监控平台停止发送所述第三告警消息,所述目标告警阈值为所述告警接收端所接收的最大告警消息数值。
可选地,所述装置还包括:
第三发送模块,用于在所述停止发送所述第三告警消息之后,在距离停止发送所述第三告警消息的时间达到目标时长的情况下,再次获取所述第三告警消息的数量,其中,所述目标时长用于触发执行再次获取所述第三告警消息的数量的步骤;
第四发送模块,用于在再次获取的所述第三告警消息的数量小于所述目标告警阈值的情况下,根据所述目标错误日志内表示的故障数据发送所述第三告警消息。
可选地,所述装置还包括:
第二匹配模块,用于在根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制之后,在所述第一错误日志中存在与所述第二关键字匹配的第一关键字的情况下,不生成告警消息。
可选地,所述装置还包括:
第二获取模块,用于在获取应用***的日志变化信息之前,获取到对目标故障开关进行的触发操作;
控制模块,用于根据所述触发操作和所述目标故障开关对应的功能,控制对所述告警消息执行发送操作或关闭操作。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述故障的告警方法中任一实施例的步骤。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述故障的告警方法中任一实施例的步骤。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述故障的告警方法中任一实施例的步骤。
在本申请实施例中,通过获取应用***内的日志变化信息,确定第一错误日志,并根据第一错误日志中的第一关键字与第二关键字进行匹配,在不存在与第二关键字相匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制,而不用进行问题积累,仅需进行关键字比对即可确定是否故障,故而能够在问题出现的第一时间感知和发现问题,进而解决了相关技术中存在告警时效性差的问题;同时无需提前预判埋点,减少了对代码的侵入性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的故障的告警方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的故障的告警方法的流程示意图;
图3是根据本申请实施例的一种可选的监控日志的告警配置页面示意图;
图4是根据本申请实施例的一种可选的故障的告警***部署架构示意图;
图5是根据本申请实施例的一种可选的同一类型下的应用***告警界面示意图;
图6是根据本申请实施例的一种可选的日志故障的告警数据趋势示意图;
图7是根据本申请实施例的一种可选的故障的告警处理流程示意图;
图8是根据本申请实施例的一种可选的故障的告警装置的结构框图;
图9是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供了一种故障的告警方法,该故障的告警方法可以应用在对日志进行实时监控告警的业务场景中,比如在日志记录的内容发生变化的情况下,通常会引起报告错误、警告等信息,此时可以采用短信和邮件的告警方式发送至代码工程师以提示当前日志记录的状态发生了变化,便于代码工程师在程序异常时准确定位问题,提高业务分析效率。
可选地,在本申请实施例中,上述故障的告警方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述故障的告警方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述故障的告警方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
在本申请实施例中,上述故障的告警方法可以运行在服务器,具体地,如图2所示,图2是根据本申请实施例的一种可选的故障的告警方法的流程示意图,该方法的流程可以包括以下步骤:
步骤S201,服务器获取应用***的日志变化信息,日志变化信息用于表示第一错误日志在目标时间段内发生变化。
本申请实施例以LogMonitor作为日志监控告警平台,对日志进行实时监控并对错误日志执行及时告警,需要说明的是,LogMonitor可以监控电脑中的文件或者资料夹,检查它们是否有变更的纪录,当有变化时,该平台就会发出告警通知。下面对上述故障的告警方法展开解释说明。
可选地,开发人员或运维人员在LogMonitor平台配置监控告警应用的相关信息,该相关信息可以包括:应用名称、告警群id、告警类型、匹配字段、频率条件、告警数、触发时间段等,具体可参考图3。
如图4,在本申请实施例提供的LogMonitor平台的各个应用服务器内,包含有应用***、日志信息、日志监控告警客户端,其中,应用***、日志信息、日志监控告警客户端三者之间的关系是:应用***用于输出日志信息,日志监控告警客户端监测该日志信息的变化情况。
在日志监控告警客户端获取到应用***的日志变化信息后,说明当前日志信息内存在错误日志信息,需要发出告警消息。其中,日志变化信息用于表示第一错误日志在目标时间段内发生变化。
步骤S202,将第一错误日志中的第一关键字与第二关键字进行匹配,其中,第二关键字为需要排除告警的关键字。
可选地,本申请实施例提供的LogMonitor平台的客户端监测到错误日志以后,支持上报到服务端进行规则解析和处理,该规则解析和处理的方法是一种基于错误关键字出现频率控制告警上报的方式。在本申请实施例中是指,获取上述第一错误日志中的第一关键字,该第一关键字为触发产生所述第一错误日志的关键字,该第一关键字可以是一个子关键字,例如,404Not Found(无法找到)或是一个包含该子关键字的关键字集合,例如,第一关键字包含子关键字、应用名等,其中,该第一关键字包含上述子关键字。
查看当前第一关键字内是否存在与预设的第二关键相匹配的关键字,该第二关键字可以是一个关键字,例如,404Not Found(无法找到)或是一个包含多个关键字,例如,404Not Found(无法找到),502Bad Gateway(网页错误),500-13Server is too busy(服务器太忙)的关键字集合,并且该第二关键字是需要排除告警的关键字,也即,若匹配到与第二关键字相同的第一关键字后,该第一关键字是不会触发告警消息的。
步骤S203,在第一错误日志中不存在与第二关键字匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制。
可选地,在上述关键字匹配过程中,在第一错误日志中不存在与第二关键字匹配的第一关键字的情况下,则根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制。这里的日志告警机制就是基于错误关键字出现频率控制告警上报的方式。
可选地,在故障的告警***部署架构图中,如图4,还包含日志监控告警服务端集群,其中,日志监控告警服务端集群主要包含告警配置和告警处理两大功能,告警处理可包含日志收集、规则解析、日志分析和发送告警四种处理逻辑,更具体地,在日志监控告警服务端集群中的日志收集模块收集到错误日志后,将该错误日志传输到规则解析模块,根据解析结果进行日志分析,确定该错误日志内的关键字在目标时间段内的出现频率,然后触发相应的告警机制,可以发送告警消息至开发人员的客户端应用程序,并以界面展示的方式呈现在客户端;也可以通过电话报警的方式通知到开发人员,其中,发送告警时也会判断是否触发电话告警规则,如果满足电话告警条件,会以电话告警的方式通知相关开发人员,这里的电话告警规则是日志监控告警服务端集群单独设置的一个告警规则,用于在事态紧急且比较严重的情况下才利用电话告警的方式进行告警通知。
在本申请实施例中,通过获取应用***内的日志变化信息,确定第一错误日志,并根据第一错误日志中的第一关键字与第二关键字进行匹配,在不存在与第二关键字相匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制,而不用进行问题积累,仅需进行关键字比对即可确定是否故障,故而能够在问题出现的第一时间感知和发现问题,进而解决了相关技术中存在告警时效性差的问题;同时无需提前预判埋点,减少了对代码的侵入性。
作为一种可选的实施例,获取应用***的日志变化信息包括:
获取多个应用***的日志变化子信息,日志变化子信息用于表示第一错误子日志在目标时间窗口内发生变化,第一错误子日志属于第一错误日志,目标时间窗口为目标时间段内的一个时间窗口;
将日志变化子信息中存在相同关键字的应用***归为同一应用类型,其中,应用类型用于指示应用***所属类别;
将同一应用类型下的应用***的日志变化子信息汇总为日志变化信息。
可选地,在LogMonitor平台上包含多个应用服务器,每个应用服务器对应多个应用***,所以为了能够更好地收集应用***内的错误日志,以及对成百上千的告警消息进行更优化地管理,本申请实施例提出可对多个应用***进行分类,将同类型的应用***归类到一起,在后期上传告警消息时,在应用***所属群里进行发布即可。
在本申请实施例中,以时间窗口(即滑动窗口)为单位,收集在同一个时间窗口下,存在相同关键字的应用***归为同一类型,这里的相同关键字可以是一个关键字或多个关键字,本申请实施例不对相同关键字的个数做具体限定。
该关键字将会被存储在分布式缓存中,按照该关键字所在应用***的应用名、包含的子关键字、当前时间、关键字所在的目标时间窗口长度和结束时间的格式依次存储至分布式缓存内,例如,存在第一关键字,其存储格式为:logcount#kfp#xxxx#2019-03-1911:03#600#2019-03-19 11:13#404Not Found,这里的logcount#kfp表示日志统计名,xxxx表示应用名,2019-03-1911:03表示当前时间,600表示目标时间窗口长度,2019-03-19 11:13表示结束时间,404Not Found(无法找到)表示子关键字。需要说明的是,在本申请实施例中第一关键字可以是只包含子关键字的关键字,也可以是包含子关键字和其他信息(如应用名或目标时间窗口长度)等。
示例性地,LogMonitor平台的应用服务器获取多个应用***的日志变化子信息,该日志变化子信息用于表示第一错误子日志在目标时间窗口内发生变化,其中,日志变化信息包含日志变化子信息,第一错误日志包含第一错误子日志,目标时间窗口为目标时间段内的一个时间窗口。例如,目标时间段可以设置为14:00-16:00,目标时间窗口可以是目标时间段内的任意一个时间窗口,可以设置一时间窗口步长为30分钟,此时可以选取14:00-16:00时间段内的15:00-15:30作为目标时间窗口,然后获取在15:00-15:30的时间段内多个应用***的日志变化情况,由于日志发生了变化必然会出现错误的日志信息,此时获取日志变化子信息中的关键字信息,将存在相同关键字的应用***归为同一应用类型,然后获取在同一应用类型下的应用***的日志变化子信息,又由于日志变化信息包含日志变化子信息,所以对多个日志变化子信息进行拼接和去重等操作能够得到日志变化信息。
示例性地,获取多个应用中每个应用类型下的报错统计信息,其中,报错统计信息包括报错类型、错误来源以及报警时间;将每个应用类型下的报错统计信息推送至与多个信息窗口中与该应用类型匹配的目标信息窗口进行展示,其中,多个信息窗口中的一个信息窗口用于展示一个应用类型下的报错统计信息。如图5所示,图5是用户接收到企业通信应用程序内显示的告警消息的截图界面,当前的应用***属于“合作业务PRD”业务类型,在获取到合作业务PRD业务类型下的日志变化子信息后,将得到的第一错误子日志根据关键字匹配情况和关键字出现频率选取相应的日志告警机制,然后同一应用类型下的告警消息发送到建立的对应业务群内,这样便于告警消息的归类,减少了其它无关业务类型发送告警消息的情况,给后台人员减轻查看各个告警消息的负担。
本申请实施例将在目标时间窗口内获取到相同关键字的应用***归为同一应用类型,这样在获取到的同一应用类型下的错误日志通常具有相似的特征,有利于后期对错误日志的特征统计,同时可以将同一应用类型下的应用***发出的告警消息放到同一告警提示群内,便于对告警消息的查看和管理。
作为一种可选的实施例,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制包括:
在第一关键字在目标时间窗口内出现的频率大于或等于目标频率的情况下,发送第一告警消息至告警接收端,目标频率用于表征发送第一告警消息的频率数值。
可选地,在本申请实施例中,会提前设置一目标频率,通过统计第一关键字在目标时间窗口内出现的频率数值,并将该数值与该目标频率进行数值大小的比较,在第一关键字在目标时间窗口内出现的频率大于或等于目标频率的情况下,发送第一告警消息至应用服务器的告警接收端,其中,目标频率用于表征发送第一告警消息的频率数值。例如,在目标时间窗口为15:00-15:30的时间段内(即30分钟内),当出现第一关键字A的频率为9次(9次即是目标频率)或超过9次时,就会发送告警消息(第一告警消息)至告警接收端。
本申请实施例为了减少发送告警消息的次数,可以提前设置告警消息次数的目标阈值,在满足第一关键字在目标时间窗口内出现的频率数值大于或等于该目标阈值时,才发送一条告警消息至服务器,这样减轻了服务器的存储压力,减少了通信交互,节约网络流量消耗。
作为一种可选的实施例,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制还包括:
确定目标时间窗口的时长;
将在时长内出现的每个第一关键字存储至分布式缓存内;
统计分布式缓存内第一关键字的个数;
将个数作为第二告警消息,发送至告警接收端。
可选地,如图6所示,纵坐标上的数值代表发送告警消息的数量,比如0、50、100、150、200等,横坐标上的数值代表发送告警消息的各个时间点,比如00:00、02:00、04:00、06:00等,从图中可以得出各个应用***在不同时间段内发送告警消息的数量,根据图中显示的多个线条也可以得出告警消息的整个数据发展趋势,用于后期的错误日志分析和回溯。进一步地,由于各个应用***根据应用类型进行了分组,所以支持按应用***维度查看统计视图。
在本申请实施例中,根据目标时间窗口内第一关键字的出现频率触发相应的日志告警机制,示例性地,首先设置目标时间窗口的步长(即时长),比如一个小时,那么在检测到关键字出现的第一时间开始计时,当前的第一时间就是目标时间窗口的开始时间点,然后根据步长一个小时,确定目标时间窗口的结束时间点,例如,检测到关键字(即第一关键字)出现的开始节点是14:00,则根据设置的步长一个小时,确定出当前目标时间窗口的结束时间点落在15:00,然后统计在14:00-15:00时间段内出现的该关键字的总个数,将总个数存储在分布式缓存内,并将该个数作为告警消息(即第二告警消息)发送至告警接收端。
本申请实施例将在目标时间窗口时间段内的关键字出现总个数作为一告警消息发送到平台服务器,这样既能够清晰地获知关键字出现频率又能够减少发送告警消息的次数,避免出现告警轰炸的情况,节约网络流量消耗。
作为一种可选的实施例,在将第一错误日志中的第一关键字与第二关键字进行匹配之前,该方法还包括:
确定第一错误日志中存在一目标错误日志,其中,目标错误日志中不包含关键字;
根据目标错误日志内表示的故障数据发送第三告警消息。
可选地,如果在获取到的第一错误日志中存在一目标错误日志,该目标错误日志中不包含任何错误关键字,其中,第一错误日志可以是一个错误日志或是一个错误日志集合,当第一错误日志是一个错误日志时,本申请实施例是指该第一错误日志(即目标错误日志)中不包含任何错误关键字,当第一错误日志是一个错误日志集合时,本申请实施例是指该第一错误日志中存在一错误日志(即目标错误日志)不包含任何错误关键字,那么将该目标错误日志内表示故障数据的情况均作为一条告警消息(第三告警消息)发送至平台服务器。
本申请实施例将不包含关键字的目标错误日志中存在的每个故障数据均作为一条告警消息发送至平台服务器,能够在问题出现的第一时间感知和发现问题,提高告警敏感度。
作为一种可选的实施例,在根据目标错误日志内表示的故障数据发送第三告警消息之后,该方法还包括:
在第三告警消息的数量大于或等于预设告警阈值的情况下,发送第四告警消息至告警接收端,其中,第四告警消息用于指示日志监控平台停止发送第三告警消息,目标告警阈值为告警接收端所接收的最大告警消息数值。
可选地,在上述实施例中,连续发送第三告警消息的数量过大时,通常会给平台服务器造成接收和存储的压力,所以本申请实施例设置一目标告警阈值,该目标告警阈值用于控制该第三告警消息的发送数量,其中,目标告警阈值的数值即为告警接收端所接收的最大告警消息数值。
示例性地,比较该第三告警消息的数量与目标告警阈值间的数值大小,在第三告警消息的数量大于或等于目标告警阈值的情况下,发送第四告警消息至告警接收端,其中,第四告警消息用于指示日志监控平台停止发送该第三告警消息。例如,目标错误日志内表示故障的数据过多,在1分钟内发送的第三告警消息超过目标告警阈值的情况下,需要向平台的日志监控告警服务端集群发送一停止发送第三告警消息的告知通知,可以是第四告警消息,使得日志监控告警服务端集群不再发送第三告警消息。
本申请实施例通过设置一目标告警阈值来控制发送第三告警消息的数量,能够减轻日志监控平台接收告警消息的压力。
作为一种可选的实施例,在停止发送第三告警消息之后,该方法还包括:
在距离停止发送第三告警消息的时间达到目标时长的情况下,再次获取第三告警消息的数量,其中,目标时长用于触发执行再次获取第三告警消息的数量的步骤;
在再次获取的第三告警消息的数量小于目标告警阈值的情况下,根据目标错误日志内表示的故障数据发送第三告警消息。
可选地,在距离停止发送第三告警消息的时间达到目标时长的情况下,再次获取第三告警消息的数量,在再次获取的第三告警消息的数量小于目标告警阈值的情况下,若第三告警消息的数量降低到目标告警阈值的数值,即可正常发送第三告警消息。其中,目标时长用于触发执行再次获取第三告警消息的数量的步骤。
本申请实施例通过实时获取告警接收端的第三告警消息数量,及时调整第三告警消息的发送方式,既能平衡平台服务器接收能力,又能及时反馈告警情况,做到提高告警时效性的目的。
作为一种可选的实施例,在根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制之后,该方法还包括:
在第一错误日志中存在与第二关键字匹配的第一关键字的情况下,不生成告警消息。
可选地,本申请实施例利用关键字排除的方法,在第一错误日志中存在与第二关键字匹配的第一关键字的情况下,不生成告警消息。
示例性地,第一关键字的存储格式为:logcount#kfp#xxxx#2019-03-1911:03#600#2019-03-19 11:13#404Not Found,第二关键字可以是触发服务器告警的关键字中的一部分,例如,404Not Found(无法找到),502Bad Gateway(网页错误),500-13Server istoo busy(服务器太忙)等。第二关键字的类型可以根据需要进行配置,本申请实施例中对此不作限定。
在将第一错误日志中的第一关键字与第二关键字进行匹配时,由于第一关键字的子关键字与和第二关键字都存在相同的关键字:404Not Found,所以此时不为第一错误日志生成告警消息。
需要说明的是,本申请实施例设置的第二关键字通常是导致日志发生错误概率较高的多个关键字,所以为了减少告警消息数量,减轻后台工作人员对告警消息的统计压力,在匹配到与第二关键字存在相同关键字的错误日志时,不再生成告警消息。
本申请实施例通过设置匹配到第二关键字进行排除告警的方式,减少告警消息数量,减轻后台工作人员对告警消息的统计压力。
作为一种可选的实施例,在获取应用***的日志变化信息之前,该方法还包括:
获取到对目标故障开关进行的触发操作;
根据触发操作和目标故障开关对应的功能,控制对告警消息执行发送操作或关闭操作。
可选地,如图3所示,在监控日志的告警配置页面设置有一全局控制开关(即目标故障开关),用于对整个LogMonitor平台进行告警控制,在关闭了该全局控制开关后就将不会发送任何告警消息。
示例性地,在用户对该全局控制开关进行按钮的左右滑动操作时,LogMonitor平台将会获取用户对该全局控制开关执行的操作,根据滑动方向触发该全局控制开关对应的功能,例如,当获取到用户向左滑动全局控制开关按钮时,则不再发送任何告警消息,只有用户向右滑动全局控制开关按钮时,LogMonitor平台才能执行发送告警消息的操作。
另外,在上述各个实施例中,提及的平台、LogMonitor平台、日志监控平台均是同一个平台。
本申请实施例通过设置一全局控制开关,能够满足用户对接收告警消息的全局控制需求,提高用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
作为一种可选实施例,如图7,图7是根据本申请实施例的一种可选的故障的告警处理流程示意图,具体步骤如下:
步骤S701,接收错误日志;
步骤S702,获取告警配置;
步骤S703,解析错误日志;
步骤S704,判断错误日志中的关键字(即,第一关键字)是否能与预设关键字(即,第二关键字)相匹配;若不匹配,则执行步骤S705,否则,不做处理;
步骤S705,判断错误日志中的关键字是否符合关键字频率收敛规则;若不满足,则执行步骤S706,否则,执行步骤S707;
步骤S706,判断告警数量是否超过目标告警阈值;若超过,则发送一停止发送告警的通知,否则,发送普通告警;
步骤S707,判断当前错误日志中的关键字是否是首次出现,若是,则发送首次出现告警,否则,执行步骤S708;
需要说明的是,在本申请实施例会将错误日志中的每个关键字都存储至分布式缓存中,故根据分布式缓存内已存储的关键字即可判断当前错误日志中的关键字是否是首次出现。
步骤S708,判断当前错误日志中的关键字出现频率是否超过目标频率阈值,若是,则发送关键字出现频率总次数步骤,否则,正常发送告警。
需要说明的是,上述关键字频率收敛规则是指错误日志中是否存在关键字,若存在,则可以按照关键字频率执行相应的日志告警机制,若不存在,则正常发送告警,并根据告警数量与目标告警阈值进行比较,对告警的发送数量进行控制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例故障的告警方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述故障的告警方法的故障的告警装置。图8是根据本申请实施例的一种可选的故障的告警装置的示意图,如图8所示,该装置可以包括:
第一获取模块801,用于获取应用***的日志变化信息,其中,日志变化信息用于表示第一错误日志在时间段内发生变化;
第一匹配模块802,与第一获取模块801连接,用于将第一错误日志中的第一关键字与第二关键字进行匹配,其中,第二关键字为需要排除告警的关键字;
触发模块803,与第一匹配模块802连接,用于在第一错误日志中不存在与第二关键字匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制。
需要说明的是,该实施例中的第一获取模块801可以用于执行上述步骤S201,该实施例中的第一匹配模块802可以用于执行上述步骤S202,该实施例中的触发模块803可以用于执行上述步骤S203。
通过上述模块,通过获取应用***内的日志变化信息,确定第一错误日志,并根据第一错误日志中的第一关键字与第二关键字进行匹配,在不存在与第二关键字相匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制,而不用进行问题积累,仅需进行关键字比对即可确定是否故障,故而能够在问题出现的第一时间感知和发现问题,进而解决了相关技术中存在告警时效性差的问题;同时无需提前预判埋点,减少了对代码的侵入性。
作为一种可选的实施例,第一获取模块包括:
第一获取单元,用于获取多个应用***的日志变化子信息,其中,日志变化子信息用于表示第一错误子日志在目标时间窗口内发生变化,第一错误子日志属于第一错误日志,目标时间窗口为目标时间段内的一个时间窗口;
分类单元,用于与存在相同关键字的日志变化子信息对应的应用***归为同一应用类型,其中,应用类型用于指示应用***所属类别;
汇总单元,用于将同一应用类型下的应用***的日志变化子信息汇总为日志变化信息。
作为一种可选的实施例,该装置还包括:
第二获取单元,用于在将与存在相同关键字的日志变化子信息对应的应用***归为同一应用类型之后,获取多个应用中每个应用类型下的报错统计信息,其中,报错统计信息包括报错类型、错误来源以及报警时间;
展示单元,用于将每个应用类型下的报错统计信息推送至与多个信息窗口中与该应用类型匹配的目标信息窗口进行展示,其中,多个信息窗口中的一个信息窗口用于展示一个应用类型下的报错统计信息。
作为一种可选的实施例,触发模块包括:
第一发送单元,用于在第一关键字在目标时间窗口内出现的频率大于或等于预设频率的情况下,发送第一告警消息至告警接收端,其中,目标频率用于表征发送第一告警消息的频率数值。
作为一种可选的实施例,触发模块还包括:
第一确定单元,用于确定目标时间窗口的时长;
存储单元,用于将在时长内出现的每个第一关键字存储至分布式缓存内;
统计单元,用于统计分布式缓存内第一关键字的个数;
第二发送单元,用于将个数作为第二告警消息,发送至告警接收端。
作为一种可选的实施例,存储单元包括:
生成子单元,用于按照第一关键字所在应用***的应用名、第一关键字包含的子关键字、当前时间、第一关键字所在的目标时间窗口长度,以及结束时间的顺序生成第一关键字;
存储子单元,用于将第一关键字存储至分布式缓存内。
作为一种可选的实施例,该装置还包括:
第一确定模块,用于将第一错误日志中的第一关键字与第二关键字进行匹配之前,确定第一错误日志中存在一目标错误日志,其中,目标错误日志中不包含关键字;
第一发送模块,用于根据目标错误日志内表示的故障数据发送第三告警消息。
作为一种可选的实施例,该装置还包括:
第二发送模块,用于根据目标错误日志内表示的故障数据发送第三告警消息之后,在第三告警消息的数量大于或等于目标告警阈值的情况下,发送第四告警消息至告警接收端,其中,第四告警消息用于指示日志监控平台停止发送第三告警消息,目标告警阈值为告警接收端所接收的最大告警消息数值。
作为一种可选的实施例,该装置还包括:
第三发送模块,用于在停止发送第三告警消息之后,在距离停止发送第三告警消息的时间达到目标时长的情况下,再次获取第三告警消息的数量,其中,目标时长用于触发执行再次获取第三告警消息的数量的步骤;
第四发送模块,用于在再次获取的第三告警消息的数量小于目标告警阈值的情况下,根据目标错误日志内表示的故障数据发送第三告警消息。
作为一种可选的实施例,该装置还包括:
第二匹配模块,用于在根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制之后,在第一错误日志中存在与第二关键字匹配的第一关键字的情况下,不生成告警消息。
作为一种可选的实施例,该装置还包括:
第二获取模块,用于在获取应用***的日志变化信息之前,获取到对目标故障开关进行的触发操作;
控制模块,用于根据触发操作和目标故障开关对应的功能,控制对告警消息执行发送操作或关闭操作。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述故障的告警方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图9是根据本申请实施例的一种可选的电子设备的结构框图,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901、通信接口902和存储器903通过通信总线904完成相互间的通信,其中,
存储器903,用于存储计算机程序;
处理器901,用于执行存储器903上所存放的计算机程序时,实现如下步骤:
S1,获取应用***的日志变化信息,其中,日志变化信息用于表示第一错误日志在目标时间段内发生变化;
S2,将第一错误日志中的第一关键字与第二关键字进行匹配,其中,第二关键字为需要排除告警的关键字;
S3,在第一错误日志中不存在与第二关键字匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图9所示,上述存储器903中可以但不限于包括上述故障的告警装置中的第一获取模块801、第一匹配模块802、触发模块803。此外,还可以包括但不限于上述故障的告警装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示故障告警结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图9所示的结构仅为示意,实施上述故障的告警方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行故障的告警方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取应用***的日志变化信息,其中,日志变化信息用于表示第一错误日志在目标时间段内发生变化;
S2,将第一错误日志中的第一关键字与第二关键字进行匹配,其中,第二关键字为需要排除告警的关键字;
S3,在第一错误日志中不存在与第二关键字匹配的第一关键字的情况下,根据第一关键字在目标时间段内的出现频率触发相应的日志告警机制。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述故障的告警方法中任一实施例的步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种故障的告警方法,其特征在于,所述方法包括:
获取应用***的日志变化信息,其中,所述日志变化信息用于表示第一错误日志在目标时间段内发生变化;
将所述第一错误日志中的第一关键字与第二关键字进行匹配,其中,所述第二关键字为需要排除告警的关键字;
在所述第一错误日志中不存在与所述第二关键字匹配的第一关键字的情况下,根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制。
2.根据权利要求1所述的方法,其特征在于,所述获取应用***的日志变化信息包括:
获取多个所述应用***的日志变化子信息,其中,所述日志变化子信息用于表示第一错误子日志在目标时间窗口内发生变化,所述第一错误子日志属于所述第一错误日志,所述目标时间窗口为所述目标时间段内的一个时间窗口;
将与存在相同关键字的日志变化子信息对应的所述应用***归为同一应用类型,其中,所述应用类型用于指示所述应用***所属类别;
将同一应用类型下的应用***的日志变化子信息汇总为所述日志变化信息。
3.根据权利要求2所述的方法,其特征在于,在所述将与存在相同关键字的日志变化子信息对应的所述应用***归为同一应用类型之后,所述方法还包括:
获取多个应用中每个应用类型下的报错统计信息,其中,所述报错统计信息包括报错类型、错误来源以及报警时间;
将每个应用类型下的报错统计信息推送至与多个信息窗口中与该应用类型匹配的目标信息窗口进行展示,其中,所述多个信息窗口中的一个信息窗口用于展示一个应用类型下的报错统计信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制,包括:
在所述第一关键字在所述目标时间窗口内出现的频率大于或等于目标频率的情况下,发送第一告警消息至告警接收端,其中,所述目标频率用于表征发送所述第一告警消息的频率数值。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制,还包括:
确定所述目标时间窗口的时长;
将在所述时长内出现的每个所述第一关键字存储至分布式缓存内;
统计所述分布式缓存内所述第一关键字的个数;
将所述个数作为第二告警消息,发送至告警接收端。
6.根据权利要求5所述的方法,其特征在于,所述将在所述时长内出现的每个所述第一关键字存储至分布式缓存内包括:
按照所述第一关键字所在应用***的应用名、所述第一关键字包含的子关键字、当前时间、所述第一关键字所在的所述目标时间窗口长度,以及结束时间的顺序生成所述第一关键字;
将所述第一关键字存储至分布式缓存内。
7.根据权利要求1所述的方法,其特征在于,在所述将所述第一错误日志中的第一关键字与第二关键字进行匹配之前,所述方法还包括:
确定所述第一错误日志中存在目标错误日志,其中,所述目标错误日志中不包含所述关键字;
根据所述目标错误日志内表示的故障数据发送第三告警消息。
8.根据权利要求7所述的方法,其特征在于,在所述根据所述目标错误日志内表示的故障数据发送第三告警消息之后,所述方法还包括:
在所述第三告警消息的数量大于或等于目标告警阈值的情况下,发送第四告警消息至告警接收端,其中,所述第四告警消息用于指示日志监控平台停止发送所述第三告警消息,所述目标告警阈值为所述告警接收端所接收的最大告警消息数值。
9.根据权利要求8所述的方法,其特征在于,在所述停止发送所述第三告警消息之后,所述方法还包括:
在距离停止发送所述第三告警消息的时间达到目标时长的情况下,再次获取所述第三告警消息的数量,其中,所述目标时长用于触发执行再次获取所述第三告警消息的数量的步骤;
在再次获取的所述第三告警消息的数量小于所述目标告警阈值的情况下,根据所述目标错误日志内表示的故障数据发送所述第三告警消息。
10.根据权利要求1所述的方法,其特征在于,在根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制之后,所述方法还包括:
在所述第一错误日志中存在与所述第二关键字匹配的第一关键字的情况下,不生成告警消息。
11.根据权利要求1所述的方法,其特征在于,在获取应用***的日志变化信息之前,所述方法还包括:
获取到对目标故障开关进行的触发操作;
根据所述触发操作和所述目标故障开关对应的功能,控制对所述告警消息执行发送操作或关闭操作。
12.一种故障的告警装置,其特征在于,所述装置包括:
第一获取模块,用于获取应用***的日志变化信息,其中,所述日志变化信息用于表示第一错误日志在目标时间段内发生变化;
第一匹配模块,用于将所述第一错误日志中的第一关键字与第二关键字进行匹配,其中,所述第二关键字为需要排除告警的关键字;
触发模块,用于在所述第一错误日志中不存在与所述第二关键字匹配的第一关键字的情况下,根据所述第一关键字在所述目标时间段内的出现频率触发相应的日志告警机制。
13.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至11中任一项中所述故障的告警方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至11中任一项中所述的故障的告警方法。
CN202011233566.0A 2020-11-06 2020-11-06 故障的告警方法和装置、存储介质和电子设备 Pending CN112395156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011233566.0A CN112395156A (zh) 2020-11-06 2020-11-06 故障的告警方法和装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011233566.0A CN112395156A (zh) 2020-11-06 2020-11-06 故障的告警方法和装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN112395156A true CN112395156A (zh) 2021-02-23

Family

ID=74599094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011233566.0A Pending CN112395156A (zh) 2020-11-06 2020-11-06 故障的告警方法和装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112395156A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297183A (zh) * 2021-07-21 2021-08-24 国网汇通金财(北京)信息科技有限公司 一种时间窗口的告警分析方法及装置
CN113449196A (zh) * 2021-07-16 2021-09-28 北京天眼查科技有限公司 信息生成方法及装置、电子设备和可读存储介质
CN113900902A (zh) * 2021-10-21 2022-01-07 挂号网(杭州)科技有限公司 日志处理方法、装置、电子设备及存储介质
CN114666210A (zh) * 2022-05-23 2022-06-24 江苏金融租赁股份有限公司 基于大数据日志分析的告警方法及装置
CN115348161A (zh) * 2022-08-16 2022-11-15 中国电信股份有限公司 日志告警信息生成方法、装置、电子设备及存储介质
CN116634205A (zh) * 2023-07-19 2023-08-22 深圳市华曦达科技股份有限公司 智能电视盒及其日志管理方法、装置和***
CN116737516A (zh) * 2023-06-12 2023-09-12 无锡摩芯半导体有限公司 一种车规芯片预警的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852158A (zh) * 2005-11-29 2006-10-25 华为技术有限公司 一种电信网络告警的实现方法及其***
CN101222361A (zh) * 2008-01-22 2008-07-16 中兴通讯股份有限公司 一种告警频率监控器及告警处理方法
CN109359026A (zh) * 2018-08-15 2019-02-19 中国平安人寿保险股份有限公司 日志上报方法、装置、电子设备及计算机可读存储介质
CN109460341A (zh) * 2018-10-23 2019-03-12 郑州云海信息技术有限公司 一种日志数据的告警方法及装置
CN110362545A (zh) * 2019-05-27 2019-10-22 平安科技(深圳)有限公司 日志监控方法、装置、终端与计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852158A (zh) * 2005-11-29 2006-10-25 华为技术有限公司 一种电信网络告警的实现方法及其***
CN101222361A (zh) * 2008-01-22 2008-07-16 中兴通讯股份有限公司 一种告警频率监控器及告警处理方法
CN109359026A (zh) * 2018-08-15 2019-02-19 中国平安人寿保险股份有限公司 日志上报方法、装置、电子设备及计算机可读存储介质
CN109460341A (zh) * 2018-10-23 2019-03-12 郑州云海信息技术有限公司 一种日志数据的告警方法及装置
CN110362545A (zh) * 2019-05-27 2019-10-22 平安科技(深圳)有限公司 日志监控方法、装置、终端与计算机可读存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449196A (zh) * 2021-07-16 2021-09-28 北京天眼查科技有限公司 信息生成方法及装置、电子设备和可读存储介质
CN113449196B (zh) * 2021-07-16 2024-04-19 北京金堤科技有限公司 信息生成方法及装置、电子设备和可读存储介质
CN113297183A (zh) * 2021-07-21 2021-08-24 国网汇通金财(北京)信息科技有限公司 一种时间窗口的告警分析方法及装置
CN113900902A (zh) * 2021-10-21 2022-01-07 挂号网(杭州)科技有限公司 日志处理方法、装置、电子设备及存储介质
CN114666210A (zh) * 2022-05-23 2022-06-24 江苏金融租赁股份有限公司 基于大数据日志分析的告警方法及装置
CN114666210B (zh) * 2022-05-23 2022-08-16 江苏金融租赁股份有限公司 基于大数据日志分析的告警方法及装置
CN115348161A (zh) * 2022-08-16 2022-11-15 中国电信股份有限公司 日志告警信息生成方法、装置、电子设备及存储介质
CN116737516A (zh) * 2023-06-12 2023-09-12 无锡摩芯半导体有限公司 一种车规芯片预警的方法
CN116737516B (zh) * 2023-06-12 2024-01-30 无锡摩芯半导体有限公司 一种车规芯片预警的方法
CN116634205A (zh) * 2023-07-19 2023-08-22 深圳市华曦达科技股份有限公司 智能电视盒及其日志管理方法、装置和***

Similar Documents

Publication Publication Date Title
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
CN110661659B (zh) 一种告警方法、装置、***及电子设备
US11586972B2 (en) Tool-specific alerting rules based on abnormal and normal patterns obtained from history logs
CN110224858B (zh) 基于日志的告警方法及相关装置
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
CN103220173B (zh) 一种报警监控方法及监控***
CN103001824B (zh) 一种监控多台服务器的监控***及监控方法
CN112311617A (zh) 一种配置化数据监控告警方法及***
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN112152823B (zh) 网站运行错误监控方法、装置及计算机存储介质
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
CN112231271A (zh) 数据迁移完整性校验方法、装置、设备及计算机可读介质
CN105743730A (zh) 为移动终端的网页服务提供实时监控的方法及其***
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN112751711A (zh) 告警信息处理方法和装置、存储介质和电子设备
CN110908910B (zh) 一种基于区块链的测试监控方法、装置及可读存储介质
CN110677304A (zh) 一种分布式问题追踪***及设备
CN111130944B (zh) ***监控方法及***
CN109818808B (zh) 故障诊断方法、装置和电子设备
CN108984362A (zh) 日志采集方法及装置、存储介质、电子设备
CN105825641A (zh) 一种业务报警方法和装置
CN112416896A (zh) 数据异常的报警方法和装置、存储介质、电子装置
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN105827447A (zh) 一种业务报警方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination