CN116991661A - 软件***的问题告警***及方法 - Google Patents

软件***的问题告警***及方法 Download PDF

Info

Publication number
CN116991661A
CN116991661A CN202310895691.5A CN202310895691A CN116991661A CN 116991661 A CN116991661 A CN 116991661A CN 202310895691 A CN202310895691 A CN 202310895691A CN 116991661 A CN116991661 A CN 116991661A
Authority
CN
China
Prior art keywords
log data
data
information
alarm
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310895691.5A
Other languages
English (en)
Inventor
刘华
于泳洋
刘晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiketong Technology Co ltd
Original Assignee
Beijing Zhiketong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiketong Technology Co ltd filed Critical Beijing Zhiketong Technology Co ltd
Priority to CN202310895691.5A priority Critical patent/CN116991661A/zh
Publication of CN116991661A publication Critical patent/CN116991661A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种软件***的问题告警***及方法,通过安装在客户端的filebeat采集日志数据;通过第一Kafka数据分发集群将日志数据分发至Storm数据分析集群;Storm数据分析集群对接收到的日志数据进行流式计算处理得到已处理日志数据;通过第二Kafka数据分发集群将已处理日志数据分发至文档式存储引擎进行数据存储;将已存储的已处理日志数据进行图形化处理,判断已处理日志数据是否存在异常值,若是,基于异常值和日志数据获取***问题信息;基于***问题信息发出告警提示信息。该软件***的问题告警方法解决现有技术无法快速发现、定位并解决软件***运行过程中出现的故障的问题。

Description

软件***的问题告警***及方法
技术领域
本发明涉及计算机技术领域,具体涉及一种软件***的问题告警***、方法、电子设备及存储介质。
背景技术
软件***在线运行过程会出现一系列问题,若对无法及时获取软件***运行过程中出现的问题情况,可能会造成巨大的商业损失。现有的一些软件***的监控业务功能比较单一,更多的是对软件***硬件方面的监控,如cpu、内存和网络等,无法兼顾接口性能监控、异常监控、告警、日志追踪等综合能力,快速的发现问题,定位问题,从而方便快速去解决问题。
亟需一种能够快速的发现问题,定位问题,从而方便快速去解决问题的软件业务监控方法。
发明内容
本发明实施例的目的在于提供一种软件***的问题告警***、方法、电子设备及存储介质,用以解决现有技术中无法快速发现、定位并解决软件***运行过程中出现的故障的问题。
为实现上述目的,本发明实施例提供一种软件***的问题告警方法,所述方法具体包括:
通过安装在客户端的filebeat采集日志数据;
将所述日志数据传入第一Kafka数据分发集群,通过第一Kafka数据分发集群将所述日志数据分发至Storm数据分析集群;
所述Storm数据分析集群对接收到的所述日志数据进行流式计算处理得到已处理日志数据;
将所述已处理日志数据传入第二Kafka数据分发集群,通过所述第二Kafka数据分发集群将所述已处理日志数据分发至文档式存储引擎进行数据存储;
将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;
基于所述***问题信息发出告警提示信息。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述通过安装在客户端的filebeat采集日志数据,包括:
获取用户信息,将用户信息和用户配置的日志采集参数写入filebeat默认配置文件中;
filebeat安装于所述客户端时,对用户信息进行验证。
进一步地,所述通过安装在客户端的filebeat采集日志数据,还包括:
所述filebeat成功启动后,携带用户信息与所述第一Kafka数据分发集***互,以进行数据传输。
进一步地,所述通过安装在客户端的filebeat采集日志数据,还包括:
基于应用场景对所述日志数据进行分级,所日志数据包括应用日志数据和性能日志数据;
通过所述应用日志数据记录业务应用信息,基于所述业务应用信息监控业务异常;
通过所述性能日志数据记录接口访问的性能信息,基于所述性能信息监控***异常。
进一步地,所述将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息,还包括:
确定各异常类型对应的异常码,监控每个异常码对应的异常情况,以确定***问题对应的异常类型。
进一步地,所述基于所述***问题信息发出告警提示信息,包括:
配置告警规则;
所述告警规则包括:当前分钟请求量大于第一预设值开始报警;
当前***异常率大于第二预设值开始预警;
当前业务异常率大于第三预设值开始预警;
当前平均执行时间大于第四预设值开始预警;
当前响应时间大于第五预设值开始报警;
当前分钟请求量上周同比增长率大于第六预设值开始报警;
当前响应时间上周同比增长率大于第七预设值开始报警;
当前分钟请求量环比增长率大于第八预设值开始报警。
进一步地,所述基于所述***问题信息发出告警提示信息,还包括:
配置告警提示信息的发送渠道,其中,所述发送渠道包括短信提示、邮件提示和微信提示;
所述告警提示信息包括告警产品线信息、告警应用名信息、告警方法信息、告警值信息、告警描述信息和触发时间信息。
一种软件***的问题告警***,包括:
filebeat模块,安装在客户端,用于采集日志数据;
第一Kafka数据分发集群,用于将所述日志数据分发至Storm数据分析集群;
Storm数据分析集群,用于对接收到的所述日志数据进行流式计算处理得到已处理日志数据;
第二Kafka数据分发集群,用于将所述已处理日志数据分发至文档式存储引擎进行数据存储;
异常值获取模块,用于将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;
告警提示模块,用于基于所述***问题信息发出告警提示信息。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
本发明实施例具有如下优点:
本发明中软件***的问题告警方法,通过安装在客户端的filebeat采集日志数据;将所述日志数据传入第一Kafka数据分发集群,通过第一Kafka数据分发集群将所述日志数据分发至Storm数据分析集群;所述Storm数据分析集群对接收到的所述日志数据进行流式计算处理得到已处理日志数据;将所述已处理日志数据传入第二Kafka数据分发集群,通过所述第二Kafka数据分发集群将所述已处理日志数据分发至文档式存储引擎进行数据存储;将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;基于所述***问题信息发出告警提示信息,解决了现有技术中无法快速发现、定位并解决软件***运行过程中出现的故障的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明软件***的问题告警方法的流程图;
图2为本发明软件***的问题告警***的第一架构图;
图3为本发明软件***的性能对比图;
图4为本发明软件***的流量监控图;
图5为本发明软件***的异常监控图;
图6为本发明软件***的细分异常监控图;
图7为本发明提供的电子设备实体结构示意图。
其中附图标记为:
filebeat模块10,第一Kafka数据分发集群20,Storm数据分析集群30,第二Kafka数据分发集群40,异常值获取模块50,告警提示模块60,电子设备70,处理器701,存储器702,总线703。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1为本发明软件***的问题告警方法实施例流程图,如图1所示,本发明实施例提供的一种软件***的问题告警方法包括以下步骤:
S101,通过安装在客户端的filebeat采集日志数据;
具体的,Filebeat是用于转发和集中日志数据的轻量级传送工具。Filebeat监视您指定的日志文件或位置,收集日志事件,并将它们转发到Elasticsearch或Logstash进行索引。
Filebeat的工作方式如下:启动Filebeat时,它将启动一个或多个输入,这些输入将在为日志数据指定的位置中查找。对于Filebeat所找到的每个日志,Filebeat都会启动收集器。每个收集器都读取单个日志以获取新内容,并将新日志数据发送到libbeat,libbeat将聚集事件,并将聚集的数据发送到为Filebeat配置的输出。
获取用户信息,将用户信息和用户配置的日志采集参数写入filebeat默认配置文件中;
filebeat安装于所述客户端时,对用户信息进行验证。
所述filebeat成功启动后,携带用户信息与所述第一Kafka数据分发集群20交互,以进行数据传输。
基于应用场景对所述日志数据进行分级,所日志数据包括应用日志数据和性能日志数据;
通过所述应用日志数据记录业务应用信息,基于所述业务应用信息监控业务异常,便于开发者进行问题调查和日志追踪,通过日志中记录的参数信息快速定位执行过程,发现问题;
通过所述性能日志数据记录接口访问的性能信息,基于所述性能信息监控***异常。方便后续对性能进行分析。
日志格式采用统一的日志处理框架,在框架中自动化处理应用日志和性能日志,无需业务开发关注实现细节,具有业务无侵入性。开发人员只需要按照固定的方法打印应用日志即可。
每一个应用服务都会记录自己的日志,包含了applicationlog,standard,biglog,performancelog,nginx,这些日志都会被记录到服务器特定的日志路径下,以便每个服务器上的filebeat监控采集。
相关日志路径规范/home/eyelog/{service_name},每个服务创建一个根目录,每个服务根目录下都放了3个子目录,applicationlog:新版应用程序日志,对应kibana中的applicationlog-*索引,biglog:新版的gateway日志,对kibana中的biglog-*索引,performancelog:千里眼性能日志,对应performancelog-*日志,已经关闭;
nginx访问日志,位于每台服务器的/home/wwwlogs/下,对应kibana中的索引为nginx-*;老版php,nodejs日志,位于目录/home/nodeLogs/下,分为2类:普通的日志记录为*-out-0.log,对应kibana中的索引为standard-out-*.log;
php,nodejs错误日志记录为*-err-0.log,对应kibana中的索引为standard-errlog-*;
本方法的java框架已经封装了千里眼相关日志的工具类。对应kibana中的索引分别为:
applicationlog-*;standard-out-*;standard-errlog-*;
记录各个站点nginx的访问日志,日志存储在nginx-*索引中;
一般在网关层记录请求日志目前主要包括gateway日志和javamobileapi的gateway日志,日志存贮在biglog-*索引中;
查找日志时,确定要查什么日志,定位日志位于哪个索引中,开发和测试公用一套测试;预发和生产公用一套,选择对应的索引,尽量缩短查询时间范围,关键字查找:{filedname}:"关键字";当查询速度较慢时,精确到具体索引:比如查applicationlog-*,每个索引名的规则是applicationlog-{product_line}-{app_name}-{yyyy.MM.dd}.log,索引选择自己对应的product_line及app_name的索引,会大大缩小查询的范围;尽量缩短查询范围,比如时间,服务器host等。
S102,将日志数据传入第一Kafka数据分发集群20,通过第一Kafka数据分发集群20将日志数据分发至Storm数据分析集群30;
具体的,Kafka是一种高吞吐量的分布式发布订阅消息***(消息引擎***),它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析***,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
***A发送消息给kafka(消息引擎***),***B从kafka中读取A发送的消息。而kafka就是个中间商。
一个消息***负责将数据从一个应用传递到另外一个应用,应用只需关注于数据,无需关注数据在两个或多个应用间是如何传递的。分布式消息传递基于可靠的消息队列,在客户端应用和消息***之间异步传递消息。有两种主要的消息传递模式:点对点传递模式、发布-订阅模式。大部分的消息***选用发布-订阅模式。Kafka就是一种发布-订阅模式。
S103,Storm数据分析集群30对接收到的日志数据进行流式计算处理得到已处理日志数据;
具体的,Storm是一个用于处理实时数据流的开源分布式计算***。在Storm中进行数据分析主要涉及到以下几个步骤:
定义数据源(Spouts),Spouts在Storm中是数据流的来源,可以是任何数据源,如Kafka、RabbitMQ等。需要定义一个Spout来从数据源中读取数据。
定义数据处理单元(Bolts),Bolts是Storm中处理数据的主要单元。你可以定义一个或多个Bolts来处理从Spouts接收到的数据。Bolts可以执行过滤、函数、聚合、连接、数据库交互等任何你需要的操作。
定义拓扑(Topology),拓扑是Spouts和Bolts的网络,定义了数据如何在***中流动。你需要定义一个拓扑来指定哪个Bolt从哪个Spout接收数据,以及数据如何在Bolts之间传递。
部署和执行拓扑,一旦定义了拓扑,就可以在Storm集群上部署并执行它。Storm会自动分发数据并处理它们。
分析结果,根据需求信息,将处理结果存储到数据库中,或者通过实时仪表板进行可视化,以便进行进一步的分析。
S104,将已处理日志数据传入第二Kafka数据分发集群40,通过第二Kafka数据分发集群40将已处理日志数据分发至文档式存储引擎进行数据存储。
S105,将已存储的已处理日志数据进行图形化处理,判断已处理日志数据是否存在异常值,若是,基于异常值和日志数据获取***问题信息。
具体的,将计算之后的性能数据进行持久化存储之后,就可以通过图形化的方式进行对比,通过图形化直观的展示出性能什么时候发生变化,快速发现性能的变化节点,从而有利于去驱动优化。
如图3所示:6月18日初期性能要优于6月16日,在第一个红圈处2点的时候有一个突然的耗时上升,表明这个时点一定有一个事件使得该服务的性能降低。在第二个红圈处3点30分,耗时恢复。因此能得出结论在2点到3点30分这段期间内,有一个事件对性能产生了影响。
如图4所示,流量监控可进行多日期对比,通过图形化界面直观感受流量变化,快速发现流量峰谷值,给问题定位提供流量维度的参考。同时用于进行大促活动期间流量预估提供数据支撑,便于评估服务容量。
***提供对于异常值的监控,用于发现异常变化。异常分为业务异常和***异常,业务异常指业务上需要进行监控的异常,如库存不足、频繁登录等。***异常指***级的异常,如网络异常、服务不可用异常等。
通过该异常监控可以快速发现一段时间之内的异常变化,通过异常值并结合日志可以快速定位到***问题。
如图5所示,可以发现在2:06到3:36期间***异常和业务异常都突然增高并持续1.5小时。
确定各异常类型对应的异常码,监控每个异常码对应的异常情况,以确定***问题对应的异常类型。
如图6所示,通过异常监控可以发现***和业务异常,但是无法看出具体是什么异常类型。那么就需要细化异常类型以便于更加细粒度的发现异常点。因此提供了异常细分的监控。可以根据异常码做异常的区分,从而监控每个异常码对应的异常情况。
S106,基于***问题信息发出告警提示信息;
具体的,配置告警提示信息的发送渠道,其中,所述发送渠道包括短信提示、邮件提示和微信提示;
配置告警规则;
所述告警规则包括:当前分钟请求量大于第一预设值开始报警;当前***异常率大于第二预设值开始预警;当前业务异常率大于第三预设值开始预警;当前平均执行时间大于第四预设值开始预警;当前响应时间大于第五预设值开始报警;当前分钟请求量上周同比增长率大于第六预设值开始报警;当前响应时间上周同比增长率大于第七预设值开始报警;当前分钟请求量环比增长率大于第八预设值开始报警。优选的,第一预设值至第八预设值为150%。
所述告警提示信息包括告警产品线信息、告警应用名信息、告警方法信息、告警值信息、告警描述信息和触发时间信息。
控界面可以直观的看到流量、异常等变化及对比情况,然而发生异常时如何能够快速感知就需要用到告警能力了。该方案提供多维度的监控告警规则,如分钟请求量、响应时间、***异常率、业务异常率、500、404异常率、以及相应的周同比、环比等,同时支持灵活的配置规则以及通知方式。通知方式包括邮件、企微、短信等。
该软件***的问题告警方法,通过安装在客户端的filebeat采集日志数据;将所述日志数据传入第一Kafka数据分发集群20,通过第一Kafka数据分发集群20将所述日志数据分发至Storm数据分析集群30;所述Storm数据分析集群30对接收到的所述日志数据进行流式计算处理得到已处理日志数据;将所述已处理日志数据传入第二Kafka数据分发集群40,通过所述第二Kafka数据分发集群40将所述已处理日志数据分发至文档式存储引擎进行数据存储;将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;基于所述***问题信息发出告警提示信息。解决了现有技术中无法快速发现、定位并解决软件***运行过程中出现的故障的问题。
图2为本发明软件***的问题告警***实施例流程图;如图2所示,本发明实施例提供的一种软件***的问题告警***,包括以下步骤:
filebeat模块10,安装在客户端,用于采集日志数据;
第一Kafka数据分发集群20,用于将所述日志数据分发至Storm数据分析集群30;
Storm数据分析集群30,用于对接收到的所述日志数据进行流式计算处理得到已处理日志数据;
第二Kafka数据分发集群40,用于将所述已处理日志数据分发至文档式存储引擎进行数据存储;
异常值获取模块50,用于将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;
告警提示模块60,用于基于所述***问题信息发出告警提示信息。
所述filebeat模块10还用于:
获取用户信息,将用户信息和用户配置的日志采集参数写入filebeat默认配置文件中;
filebeat安装于所述客户端时,对用户信息进行验证。
所述filebeat成功启动后,携带用户信息与所述第一Kafka数据分发集群20交互,以进行数据传输。
基于应用场景对所述日志数据进行分级,所日志数据包括应用日志数据和性能日志数据;
通过所述应用日志数据记录业务应用信息,基于所述业务应用信息监控业务异常;
通过所述性能日志数据记录接口访问的性能信息,基于所述性能信息监控***异常。
所述告警提示模块60还用于:
配置告警规则;
所述告警规则包括:当前分钟请求量大于第一预设值开始报警;
当前***异常率大于第二预设值开始预警;
当前业务异常率大于第三预设值开始预警;
当前平均执行时间大于第四预设值开始预警;
当前响应时间大于第五预设值开始报警;
当前分钟请求量上周同比增长率大于第六预设值开始报警;
当前响应时间上周同比增长率大于第七预设值开始报警;
当前分钟请求量环比增长率大于第八预设值开始报警。
确定各异常类型对应的异常码,监控每个异常码对应的异常情况,以确定***问题对应的异常类型。
所述告警提示模块60还用于;
配置告警提示信息的发送渠道,其中,所述发送渠道包括短信提示、邮件提示和微信提示;
所述告警提示信息包括告警产品线信息、告警应用名信息、告警方法信息、告警值信息、告警描述信息和触发时间信息。
本发明的一种软件***的问题告警***,通过安装在客户端的filebeat模块10采集日志数据;通过第一Kafka数据分发集群20将所述日志数据分发至Storm数据分析集群30;通过Storm数据分析集群30对接收到的所述日志数据进行流式计算处理得到已处理日志数据;通过第二Kafka数据分发集群40将所述已处理日志数据分发至文档式存储引擎进行数据存储;通过异常值获取模块50将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;通过告警提示模块60基于所述***问题信息发出告警提示信息。该软件***的问题告警方法解决现有技术中无法快速发现、定位并解决软件***运行过程中出现的故障的问题。
图7为本发明实施例提供的电子设备实体结构示意图,如图7所示,电子设备70包括:处理器701(processor)、存储器702(memory)和总线703;
其中,处理器701、存储器702通过总线703完成相互间的通信;
处理器701用于调用存储器702中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:通过安装在客户端的filebeat采集日志数据;将所述日志数据传入第一Kafka数据分发集群20,通过第一Kafka数据分发集群20将所述日志数据分发至Storm数据分析集群30;所述Storm数据分析集群30对接收到的所述日志数据进行流式计算处理得到已处理日志数据;将所述已处理日志数据传入第二Kafka数据分发集群40,通过所述第二Kafka数据分发集群40将所述已处理日志数据分发至文档式存储引擎进行数据存储;将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;基于所述***问题信息发出告警提示信息。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:通过安装在客户端的filebeat采集日志数据;将所述日志数据传入第一Kafka数据分发集群,通过第一Kafka数据分发集群将所述日志数据分发至Storm数据分析集群;所述Storm数据分析集群对接收到的所述日志数据进行流式计算处理得到已处理日志数据;将所述已处理日志数据传入第二Kafka数据分发集群,通过所述第二Kafka数据分发集群将所述已处理日志数据分发至文档式存储引擎进行数据存储;将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;基于所述***问题信息发出告警提示信息。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各实施例或者实施例的某些部分的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种软件***的问题告警方法,其特征在于,所述方法具体包括:
通过安装在客户端的filebeat采集日志数据;
将所述日志数据传入第一Kafka数据分发集群,通过第一Kafka数据分发集群将所述日志数据分发至Storm数据分析集群;
所述Storm数据分析集群对接收到的所述日志数据进行流式计算处理得到已处理日志数据;
将所述已处理日志数据传入第二Kafka数据分发集群,通过所述第二Kafka数据分发集群将所述已处理日志数据分发至文档式存储引擎进行数据存储;
将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;
基于所述***问题信息发出告警提示信息。
2.根据权利要求1所述软件***的问题告警方法,其特征在于,所述通过安装在客户端的filebeat采集日志数据,包括:
获取用户信息,将用户信息和用户配置的日志采集参数写入filebeat默认配置文件中;
filebeat安装于所述客户端时,对用户信息进行验证。
3.根据权利要求1所述软件***的问题告警方法,其特征在于,所述通过安装在客户端的filebeat采集日志数据,还包括:
所述filebeat成功启动后,携带用户信息与所述第一Kafka数据分发集***互,以进行数据传输。
4.根据权利要求1所述软件***的问题告警方法,其特征在于,所述通过安装在客户端的filebeat采集日志数据,还包括:
基于应用场景对所述日志数据进行分级,所日志数据包括应用日志数据和性能日志数据;
通过所述应用日志数据记录业务应用信息,基于所述业务应用信息监控业务异常;
通过所述性能日志数据记录接口访问的性能信息,基于所述性能信息监控***异常。
5.根据权利要求4所述软件***的问题告警方法,其特征在于,所述将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息,包括:
确定各异常类型对应的异常码,监控每个异常码对应的异常情况,以确定***问题对应的异常类型。
6.根据权利要求1所述软件***的问题告警方法,其特征在于,所述基于所述***问题信息发出告警提示信息,包括:
配置告警规则;
所述告警规则包括:当前分钟请求量大于第一预设值开始报警;
当前***异常率大于第二预设值开始预警;
当前业务异常率大于第三预设值开始预警;
当前平均执行时间大于第四预设值开始预警;
当前响应时间大于第五预设值开始报警;
当前分钟请求量上周同比增长率大于第六预设值开始报警;
当前响应时间上周同比增长率大于第七预设值开始报警;
当前分钟请求量环比增长率大于第八预设值开始报警。
7.根据权利要求6所述软件***的问题告警方法,其特征在于,所述基于所述***问题信息发出告警提示信息,还包括:
配置告警提示信息的发送渠道,其中,所述发送渠道包括短信提示、邮件提示和微信提示;
所述告警提示信息包括告警产品线信息、告警应用名信息、告警方法信息、告警值信息、告警描述信息和触发时间信息。
8.一种软件***的问题告警***,其特征在于,包括:
filebeat模块,安装在客户端,用于采集日志数据;
第一Kafka数据分发集群,用于将所述日志数据分发至Storm数据分析集群;
Storm数据分析集群,用于对接收到的所述日志数据进行流式计算处理得到已处理日志数据;
第二Kafka数据分发集群,用于将所述已处理日志数据分发至文档式存储引擎进行数据存储;
异常值获取模块,用于将已存储的所述已处理日志数据进行图形化处理,判断所述已处理日志数据是否存在异常值,若是,基于所述异常值和日志数据获取***问题信息;
告警提示模块,用于基于所述***问题信息发出告警提示信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中的任一项所述的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中的任一项所述的方法的步骤。
CN202310895691.5A 2023-07-20 2023-07-20 软件***的问题告警***及方法 Pending CN116991661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310895691.5A CN116991661A (zh) 2023-07-20 2023-07-20 软件***的问题告警***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310895691.5A CN116991661A (zh) 2023-07-20 2023-07-20 软件***的问题告警***及方法

Publications (1)

Publication Number Publication Date
CN116991661A true CN116991661A (zh) 2023-11-03

Family

ID=88527710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310895691.5A Pending CN116991661A (zh) 2023-07-20 2023-07-20 软件***的问题告警***及方法

Country Status (1)

Country Link
CN (1) CN116991661A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309030A (zh) * 2019-07-05 2019-10-08 亿玛创新网络(天津)有限公司 基于ELK和Zabbix的日志分析监控***和方法
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN113157545A (zh) * 2021-05-20 2021-07-23 京东方科技集团股份有限公司 业务日志的处理方法、装置、设备及存储介质
US20220309053A1 (en) * 2021-06-25 2022-09-29 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method and apparatus of auditing log, electronic device, and medium
CN116414795A (zh) * 2023-04-04 2023-07-11 中国民航信息网络股份有限公司 一种票务数据的处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN110309030A (zh) * 2019-07-05 2019-10-08 亿玛创新网络(天津)有限公司 基于ELK和Zabbix的日志分析监控***和方法
CN113157545A (zh) * 2021-05-20 2021-07-23 京东方科技集团股份有限公司 业务日志的处理方法、装置、设备及存储介质
US20220309053A1 (en) * 2021-06-25 2022-09-29 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method and apparatus of auditing log, electronic device, and medium
CN116414795A (zh) * 2023-04-04 2023-07-11 中国民航信息网络股份有限公司 一种票务数据的处理方法及装置

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、***及电子设备
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
CN108365985A (zh) 一种集群管理方法、装置、终端设备及存储介质
CN110888783A (zh) 微服务***的监测方法、装置以及电子设备
CN111274094B (zh) 接口预警方法、***、设备及存储介质
CN114528175A (zh) 一种微服务应用***根因定位方法、装置、介质及设备
CN113220534A (zh) 集群多维度异常监控方法、装置、设备及存储介质
CN111782477B (zh) 异常日志监控方法、装置、计算机设备及存储介质
CN114124655A (zh) 网络监控方法、***、装置、计算机设备和存储介质
NL2030719B1 (en) Microservice application observability system
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理***
CN115545452B (zh) 运维方法、运维***、设备及存储介质
CN112260902A (zh) 网络设备监控方法、装置、设备及存储介质
CN116991661A (zh) 软件***的问题告警***及方法
CN116594840A (zh) 基于elk的日志故障采集与分析方法、***、设备及介质
CN116566873A (zh) 一种基于elk的自动化日志分析方法、***及存储介质
CN116431324A (zh) 一种基于Kafka高并发数据采集与分发的边缘***
CN114090382B (zh) 超融合集群健康巡检方法和装置
CN114866606A (zh) 一种微服务管理***
Yuan et al. Design and implementation of accelerator control monitoring system
CN110896545B (zh) 在线计费漫游故障定位方法及相关装置、存储介质
CN112416638A (zh) 一种消息中间件故障自愈***
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群***
CN116431872B (zh) 可观测***及基于可观测***的服务观测方法
US20240077866A1 (en) Information management apparatus, information management method, and computer-readable recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination