CN108039956A - 应用监控方法、***和计算机可读存储介质 - Google Patents

应用监控方法、***和计算机可读存储介质 Download PDF

Info

Publication number
CN108039956A
CN108039956A CN201711039424.9A CN201711039424A CN108039956A CN 108039956 A CN108039956 A CN 108039956A CN 201711039424 A CN201711039424 A CN 201711039424A CN 108039956 A CN108039956 A CN 108039956A
Authority
CN
China
Prior art keywords
stream process
process application
application
management platform
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711039424.9A
Other languages
English (en)
Inventor
李元
李晶
汪亚男
兰冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201711039424.9A priority Critical patent/CN108039956A/zh
Publication of CN108039956A publication Critical patent/CN108039956A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Cardiology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种应用监控方法,应用于应用监控***,所述应用监控***包括流处理应用、分布式存储数据库、以及与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,所述方法包括以下步骤:在流处理应用管理平台中接收流处理应用定时上报的心跳信息;将接收到的心跳信息存储到分布式存储数据库中;若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。本发明还公开了一种应用监控***和计算机可读存储介质。本发明提高了流处理应用监控的准确性。

Description

应用监控方法、***和计算机可读存储介质
技术领域
本发明涉及大数据领域,尤其涉及一种应用监控方法、***和计算机可读存储介质。
背景技术
现有的流数据应用较为广泛,流数据处理的特点是持续生成数据和消费数据,一般通过流处理应用来实现流数据的处理过程。
目前,流处理应用的监控一般是监控流处理应用的进程,以确定流处理应用的进程是否正常,若是异常,流处理应用才进行写日志或者告警。而流处理应用的进程级监控的问题在于,只能监控进程是否存在,若进程存在,则不上报异常,但是由于进程发生故障无法运行时,该流处理应用也无法处理数据,这种情况下,该流处理应用应当是异常应用,但是由于进程仍然存在,按照现有的监控方式,无法检测该流处理应用是否异常,即使能监测到,也有一定的时延性,导致流处理应用监控的准确性低。
发明内容
本发明的主要目的在于提供一种应用监控方法、***和计算机可读存储介质,旨在解决现有的流处理应用监控的准确性低的技术问题。
为实现上述目的,本发明提供一种应用监控方法,应用于应用监控***,所述应用监控***包括流处理应用、分布式存储数据库、以及与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,所述应用监控方法包括:
在流处理应用管理平台中接收流处理应用定时上报的心跳信息;
将接收到的心跳信息存储到分布式存储数据库中;
若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。
可选地,所述应用监控***还包含与所述流处理应用管理平台通信连接的代理节点,所述在流处理应用管理平台中接收流处理应用定时上报的心跳信息的步骤之前,所述方法还包括:
通过所述流处理应用管理平台发送应用启动指令至所述代理节点,由所述代理节点发布流处理应用数据包至流处理应用,以启动所述流处理应用。
可选地,所述方法还包括:
在应用监控***的***页面中接收到针对流处理应用的控制指令时,通过所述流处理应用管理平台确定所述控制指令的类型;
基于所述控制指令的类型控制流处理应用执行相应的操作,其中,控制流处理应用执行相应的操作包括:控制流处理应用的重启、关闭和/或新版本发布。
可选地,所述若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面的步骤之后,所述方法还包括:
发送检测命令至所述代理节点,由所述代理节点获取所述流处理应用的运行状态,以将获取的运行状态反馈至流处理应用管理平台;
在流处理应用管理平台接收到代理节点反馈的运行状态,且检测该运行状态是异常状态,则重新启动所述流处理应用。
可选地,在流处理应用的个数为多个时,所述方法包括:
若在流处理应用管理平台中接收到各个流处理应用上报的日志信息或告警信息,将接收的日志信息或告警信息存储至分布式存储数据库中;
在接收到数据分析指令时,从所述分布式存储数据库中提取数据进行统计分析。
可选地,所述分布式存储数据库中存储的日志信息或告警信息还可以由流处理应用直接上报,其中,流处理应用接收到用户输入的日志信息或告警信息时,直接写入到分布式存储数据库中。
可选地,所述流处理应用管理平台与流处理应用通过心跳协议进行交互,以接收流处理应用上报的心跳信息;
所述心跳信息包括注册信息、运行状态信息和/或运行告警信息。
可选地,所述流式应用监控***包括分布式***基础架构Hadoop,所述分布式存储数据库包括分布式存储***Hbase。
此外,为实现上述目的,本发明还提供一种应用监控***,所述应用监控***包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的应用监控程序,所述应用监控程序被所述处理器执行时实现如上文所述的应用监控方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有应用监控程序,所述应用监控程序应用于应用监控***,所述应用监控程序被处理器执行时实现如上文所述的应用监控方法的步骤。
本发明提出的应用监控方法,应用于应用监控***,所述应用监控***包括流处理应用和分布式存储数据库,以及与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,该方法包括:先在流处理应用管理平台中接收流处理应用定时上报的心跳信息,然后将接收到的心跳信息存储到分布式存储数据库中,后续若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面,实现了对流处理应用的监控,是由流处理应用管理平台实现,在预设时间间隔内未接收到流处理应用上报的心跳信息时,即可确定该流处理应用异常,并输出报警信息,由于流处理应用正常运行时就会发送心跳信息,通过心跳信息进行流处理应用的监控,相比于进程监控的方式,提高了流处理应用监控的准确性。
附图说明
图1是本发明应用监控***的组成示意图;
图2是本发明应用监控***的硬件架构图;
图3为本发明应用监控方法第一实施例的流程示意图;
图4为本发明应用监控方法第二实施例的流程示意图;
图5为本发明应用监控方法第三实施例的流程示意图;
图6为本发明应用监控方法第四实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:先在流处理应用管理平台中接收流处理应用定时上报的心跳信息,然后将接收到的心跳信息存储到分布式存储数据库中,后续若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面,实现了对流处理应用的监控,是由流处理应用管理平台实现。以解决现有的流处理应用监控的方式,准确性低的问题。
本发明的专业术语介绍:
Hadoop:是一个分布式***基础架构,能够让用户架构和使用的分布式计算平台,可以在Hadoop上开发和运行处理海量数据的应用程序。
HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储***,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。属于Hadoop生态圈。用于海量数据的存储与查询。
参照图1,本发明搭建一个应用监控***。
该应用监控***包括流处理应用和分布式存储数据库,其中,流处理应用可包括一个或多个,面对海量数据和数据的差异化需要,需要多个流处理应用处理多种类型的数据,因此,本发明中,所述应用监控***中包含的流处理应用包括多个,其中,每一个流处理应用包括一个控制节点和若干个工作节点。
此外,该应用监控***还包括与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,即流处理应用管理平台与流处理应用交互,还与分布式存储数据库进行交互。
此外,该应用监控***还包括与所述流处理应用管理平台通信连接的代理节点。
需要说明的是,图1所示的应用监控***可选应用在hadoop平台中,流处理应用、分布式存储数据库为hadoop平台的节点。
在本方案中,流处理应用的控制节点负责流处理应用的总体运行状态,具体地,控制节点获取一个流处理应用的所有运行状态,包含运行延迟情况,工作节点是否有异常等,通过与流处理应用管理平台的心跳机制,上报正常的运行情况,例如延迟,也可以上报异常情况,例如有工作节点失败,或者处理的数据有异常;流处理应用的工作节点为流处理应用的实际工作节点。
流处理应用管理平台负责接受流处理应用的心跳信息,包含注册信息、告警信息、监控状态信息;此外,还负责流处理应用的注册,发布,启动和关闭,并将流处理应用的相关信息记录到流处理应用管理平台的本地日志和分布式存储数据库中;以及通过获取的心跳信息,进行汇总再存储到分布式存储数据库中。
分布式存储数据库用于存储流处理应用的注册信息,心跳上报的状态运行信息,以及告警信息,并汇总所有的流处理应用的信息,以用于数据分析。
代理节点是部署在hadoop的客户端节点,负责在该节点发布流处理应用包,向hadoop集群启动流处理应用,发布部署流处理应用。需要说明的是,流处理应用管理平台与代理节点无管理关系,无心跳,流处理应用管理平台只负责通过http协议发送部署流处理命令,发送启动命令,代理节点只负责执行命令。
如图2所示,图2是本发明实施例方案涉及的硬件运行环境的应用监控***的结构示意图。
本发明实施例的应用监控***可以是PC,也可以是服务器、智能手机、平板电脑、便携计算机或虚拟机设备等具有显示功能的设备。
如图2所示,该应用监控***可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口(例如用于连接有线键盘、有线鼠标等)、无线接口(例如用于连接无线键盘、无线鼠标)。网络接口1004可选的可以包括标准的有线接口(用于连接有线网络)、无线接口(如WI-FI接口、蓝牙接口、红外线接口等,用于连接无线网络)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的应用监控***结构并不构成对应用监控***的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图2所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及应用监控程序。其中,操作***是管理和控制应用监控***与软件资源的程序,支持网络通信模块、用户接口模块、应用监控程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图2所示的应用监控***中,网络接口1004主要用于连接上述各个器件,实现各个器件的数据通信;用户接口1003主要用于连接应用监控***的***页面;所述应用监控***通过处理器1001调用存储器1005中存储的应用监控程序,以实现以下步骤:
在流处理应用管理平台中接收流处理应用定时上报的心跳信息;
将接收到的心跳信息存储到分布式存储数据库中;
若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。
进一步地,所述应用监控***还包含与所述流处理应用管理平台通信连接的代理节点,所述在流处理应用管理平台中接收流处理应用定时上报的心跳信息的步骤之前,所述应用监控***通过处理器1001调用存储器1005中存储的应用监控程序,以实现以下步骤:
通过所述流处理应用管理平台发送应用启动指令至所述代理节点,由所述代理节点发布流处理应用数据包至流处理应用,以启动所述流处理应用。
进一步地,所述应用监控***通过处理器1001调用存储器1005中存储的应用监控程序,以实现以下步骤:
在应用监控***的***页面中接收到针对流处理应用的控制指令时,通过所述流处理应用管理平台确定所述控制指令的类型;
基于所述控制指令的类型控制流处理应用执行相应的操作,其中,控制流处理应用执行相应的操作包括:控制流处理应用的重启、关闭和/或新版本发布。
进一步地,所述若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面的步骤之后,所述应用监控***通过处理器1001调用存储器1005中存储的应用监控程序,以实现以下步骤:
发送检测命令至所述代理节点,由所述代理节点获取所述流处理应用的运行状态,以将获取的运行状态反馈至流处理应用管理平台;
在流处理应用管理平台接收到代理节点反馈的运行状态,且检测该运行状态是异常状态,则重新启动所述流处理应用。
进一步地,在流处理应用的个数为多个时,所述应用监控***通过处理器1001调用存储器1005中存储的应用监控程序,以实现以下步骤:
若在流处理应用管理平台中接收到各个流处理应用上报的日志信息或告警信息,将接收的日志信息或告警信息存储至分布式存储数据库中;
在接收到数据分析指令时,从所述分布式存储数据库中提取数据进行统计分析。
进一步地,所述分布式存储数据库中存储的日志信息或告警信息还可以由流处理应用直接上报,其中,流处理应用接收到用户输入的日志信息或告警信息时,直接写入到分布式存储数据库中。
进一步地,所述流处理应用管理平台与流处理应用通过心跳协议进行交互,以接收流处理应用上报的心跳信息;
所述心跳信息包括注册信息、运行状态信息和/或运行告警信息。
进一步地,所述流式应用监控***包括分布式***基础架构Hadoop,所述分布式存储数据库包括分布式存储***Hbase。
本实施例提出的技术方案,处理器1001调用存储器1005中存储的应用监控程序,以实现步骤:在流处理应用管理平台中接收流处理应用定时上报的心跳信息,然后将接收到的心跳信息存储到分布式存储数据库中,后续若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面,实现了对流处理应用的监控,是由流处理应用管理平台实现,在预设时间间隔内未接收到流处理应用上报的心跳信息时,即可确定该流处理应用异常,并输出报警信息,由于流处理应用正常运行时就会发送心跳信息,通过心跳信息进行流处理应用的监控,相比于进程监控的方式,提高了流处理应用监控的准确性。
基于上述应用监控***的硬件结构,提出本发明应用监控方法各个实施例。
参照图3,图3为本发明应用监控方法第一实施例的流程示意图。
在本实施例中,所述应用监控方法应用于应用监控***,所述应用监控***包括流处理应用和分布式存储数据库,还包括与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,所述应用监控方法包括以下步骤:
步骤S10,在流处理应用管理平台中接收流处理应用定时上报的心跳信息;
步骤S20,将接收到的心跳信息存储到分布式存储数据库中;
步骤S30,若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。
在本实施例中,所述应用监控***可选为图1和图2所述的应用监控***,所述应用监控***包括流处理应用和分布式存储数据库,还包括与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,以及与所述流处理应用管理平台通信连接的代理节点。本实施例中,在所述步骤S10之前,所述方法还包括:
步骤A,通过所述流处理应用管理平台发送应用启动指令至所述代理节点,由所述代理节点发布流处理应用数据包至流处理应用,以启动所述流处理应用。
即,在通过流处理应用管理平台对流处理应用进行监控之前,先开启流处理应用,具体地,该流处理应用管理平台在应用监控***的***页面检测到用户点击或触控预设的应用启动按键时,该按键可为实体按键,也可以为虚拟按键,在应用启动按键中接收到点击或触控操作时,确定接收到应用启动指令,然后将该应用启动指令发送到所述代理节点,当代理节点接收到该启动指令时,根据该启动指令发布流处理应用数据包至流处理应用,以启动流处理应用。
在启动流处理应用之后,流处理应用建立与流处理应用管理平台的通信连接关系,以便后续基于建立的通信连接关系,向流处理应用管理平台周期性上报心跳信息。本实施例中,心跳信息是流处理应用向流处理应用管理平台周期性发送的消息,用于让流处理应用管理平台确定流处理应用是否以及何时出现故障或终止。
以下是本实施例中逐步实现应用监控的各个步骤:
步骤S10,在流处理应用管理平台中接收流处理应用定时上报的心跳信息;
即,流处理应用建立与流处理应用管理平台的通信连接关系之后,流处理应用定时上报心跳信息至流处理应用管理平台,该定时的时间间隔不做限定,可根据实际需要设置。流处理应用管理平台同样基于通信连接关系,接收流处理应用定时上报的心跳信息。
在本发明实施例中,所述流处理应用管理平台与流处理应用通过心跳协议进行交互,以接收流处理应用上报的心跳信息,所述心跳信息的类型包括注册信息、运行状态信息和/或运行告警信息。
步骤S20,将接收到的心跳信息存储到分布式存储数据库中;
流处理应用管理平台接收到流处理应用上报的心跳信息之后,将接收到的心跳信息存储到本地日志和分布式存储数据库中,其中,将接收到的心跳信息存储到本地日志中,便于查看该心跳信息,将接收到的心跳信息存储到分布式存储数据库中,便于后续进行数据分析时,从所述分布式存储数据库中提取数据进行分析。
步骤S30,若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。
应当理解,当流处理应用管理平台定时接收到的流处理应用上报的心跳信息,则说明流处理应用当前是正常处理数据的,此时不做处理,若该流处理应用管理平台在预设时间间隔内未接收到流处理应用上报的心跳信息,说明流处理应用发生故障了,有可能是流处理应用的进程发生故障,或者是流处理应用出现夯死,此时,流处理应用管理平台可确定该流处理应用出现异常,并及时输出告警信息至告警界面,以防止流处理应用的故障出现延时才感应到。进一步地,可选在预设时间间隔到达时都接收到流处理应用上报的心跳信息,才输出告警信息至告警界面。
本实施例提出的应用监控方法,先在流处理应用管理平台中接收流处理应用定时上报的心跳信息,然后将接收到的心跳信息存储到分布式存储数据库中,后续若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面,实现了对流处理应用的监控,是由流处理应用管理平台实现,在预设时间间隔内未接收到流处理应用上报的心跳信息时,即可确定该流处理应用异常,并输出报警信息,由于流处理应用正常运行时就会发送心跳信息,通过心跳信息进行流处理应用的监控,相比于进程监控的方式,提高了流处理应用监控的准确性。
进一步地,参照图4,基于第一实施例提出本发明应用监控方法的第二实施例。
应用监控方法的第二实施例与应用监控方法的第一实施例的区别在于,所述应用监控方法还包括:
步骤S40,在应用监控***的***页面中接收到针对流处理应用的控制指令时,通过所述流处理应用管理平台确定所述控制指令的类型;
步骤S50,基于所述控制指令的类型控制流处理应用执行相应的操作,其中,控制流处理应用执行相应的操作包括:控制流处理应用的重启、关闭和/或新版本发布。
在本实施例中,所述步骤S40和步骤S50可选应用于步骤S10之前,也可选应用于步骤S30之后,具体的执行顺序不做限定。
需要说明的是,本发明实施例中的应用监控方法可在终端设备中实现,因此,本实施例所提及的***页面即可为运行应用监控方法的终端设备对应的页面,该***页面显示有多个按键,包含但不限于应用启动按键,应用关闭按键、版本更新按键等等,各个按键可以为虚拟按键,也可以为实体按键。基于按键接收到点击操作或触摸操作时,确定接收到控制指令,进一步地确定该控制指令的类型,本实施例中,确定控制指令的类型,可根据按键所在区域接收到的点击操作或触摸操作确定,即点击哪个按键,就触发该按键对应的功能。在确定控制指令的类型之后,流处理应用管理平台根据控制指令的类型控制流处理应用执行相应的操作,例如,控制指令是重启应用,则流处理应用管理平台控制流处理应用的重启,若控制指令是关闭应用,则流处理应用管理平台控制流处理应用关闭,若控制指令是更新应用版本,则流处理应用管理平台控制流处理应用更新版本。
当所述控制指令是关闭应用时,该流处理应用管理平台直接控制流处理应用关闭;当所述控制指令是更新版本时,接收新版本的应用内容,并根据新版本的应用内容控制流处理应用的版本更新;在控制指令为应用重启指令时,流处理应用管理平台发送应用重启指令给代理节点,由代理节点发布流处理应用数据包至流处理应用,以重新启动所述流处理应用。
在本实施例中,通过流处理应用管理平台管理流处理应用的发布、重启和关闭,实现了对流处理应用的管理。
进一步地,参照图5,基于第一实施例提出本发明应用监控方法的第三实施例。
应用监控方法的第三实施例与应用监控方法的第一实施例的区别在于,所述步骤S30之后,所述应用监控方法还包括:
步骤S60,发送检测命令至所述代理节点,由所述代理节点获取所述流处理应用的运行状态,以将获取的运行状态反馈至流处理应用管理平台;
步骤S70,在流处理应用管理平台接收到代理节点反馈的运行状态,且检测该运行状态是异常状态,则重新启动所述流处理应用。
在本实施例中,未接收到流处理应用上报的心跳信息并输出告警信息至告警界面之后,该流处理应用管理平台可发送检测命令给所述代理节点,由该代理节点在hadoop平台中获取流处理应用的运行状态,并将获取的运行状态反馈至流处理应用管理平台。当所述流处理应用管理平台接收到代理节点反馈的运行状态,若检测到该运行状态异常,则可重新启动流处理应用,或者在***页面中输出提示信息,以接收到用户基于所述***界面输入的确定重启指令时,重新启动该流处理应用。
在本实施例中,流处理应用管理平台未接收到流处理应用上报的心跳信息时,可通过代理节点检测该流处理应用是否发生异常,若发生异常,则进行流处理应用的重启,提高了流处理应用重启的准确性。
需要说明的是,第二实施例的方案也可应用于本实施例中。
进一步地,参照图6,基于第一实施例提出本发明应用监控方法的第四实施例。
应用监控方法的第四实施例与应用监控方法的第一实施例的区别在于,在流处理应用的个数为多个时,所述方法还包括:
步骤S80,若在流处理应用管理平台中接收到各个流处理应用上报的日志信息或告警信息,将接收的日志信息或告警信息存储至分布式存储数据库中;
步骤S90,在接收到数据分析指令时,从所述分布式存储数据库中提取数据进行统计分析。
需要说明的是,分布式的流处理应用在不间断的应用监控过程中,可能碰到数据本身的问题,这些问题通常可通过发送日志或告警的方式发送到应用监控***。因为分布式的原因,通常这些日志或告警信息不容易收集和不容易定位。本发明实施例中,流处理应用及时获取日志或告警消息,再通过流处理应用和流处理应用管理平台的心跳机制,统一上报日志或告警信息到流处理应用管理平台,利于定位相关问题和异常日志,由于收集的告警或日志信息可以聚合,有利于进行数据的统计分析。
因此,在本实施例中,在流处理应用的个数为多个时,流处理应用管理平台中接收到各个流处理应用上报的日志信息或告警信息,再将接收的日志信息或告警信息存储至分布式存储数据库中,后续若基于***界面接收到数据分析指令时,从所述分布式存储数据库中提取数据进行统计分析。
进一步地,本发明实施例中,所述分布式存储数据库中存储的日志信息或告警信息还可以由流处理应用直接上报,其中,流处理应用接收到用户输入的日志信息或告警信息时,直接写入到分布式存储数据库中。
综上,本发明通过流处理应用管理平台,统一管理流处理应用的运行状态,以及加入监控,性能等指标,更好的管理流处理应用的启动,停止,新版本发布,对分布式的各个流处理应用的管理更加方便。
需要说明的是,第二或第三实施例的方案也可应用于本实施例中。
本发明进一步提供一种计算机可读存储介质。
所述计算机可读存储介质上存储有应用监控程序,所述应用监控程序被处理器执行时实现以下步骤:
在流处理应用管理平台中接收流处理应用定时上报的心跳信息;
将接收到的心跳信息存储到分布式存储数据库中;
若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。
进一步地,所述应用监控***还包含与所述流处理应用管理平台通信连接的代理节点,所述在流处理应用管理平台中接收流处理应用定时上报的心跳信息的步骤之前,所述应用监控程序被处理器执行时,还实现以下步骤:
通过所述流处理应用管理平台发送应用启动指令至所述代理节点,由所述代理节点发布流处理应用数据包至流处理应用,以启动所述流处理应用。
进一步地,所述应用监控程序被处理器执行时,还实现以下步骤:
在应用监控***的***页面中接收到针对流处理应用的控制指令时,通过所述流处理应用管理平台确定所述控制指令的类型;
基于所述控制指令的类型控制流处理应用执行相应的操作,其中,控制流处理应用执行相应的操作包括:控制流处理应用的重启、关闭和/或新版本发布。
进一步地,所述若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面的步骤之后,所述应用监控程序被处理器执行时,还实现以下步骤:
发送检测命令至所述代理节点,由所述代理节点获取所述流处理应用的运行状态,以将获取的运行状态反馈至流处理应用管理平台;
在流处理应用管理平台接收到代理节点反馈的运行状态,且检测该运行状态是异常状态,则重新启动所述流处理应用。
进一步地,在流处理应用的个数为多个时,所述应用监控程序被处理器执行时,还实现以下步骤:
若在流处理应用管理平台中接收到各个流处理应用上报的日志信息或告警信息,将接收的日志信息或告警信息存储至分布式存储数据库中;
在接收到数据分析指令时,从所述分布式存储数据库中提取数据进行统计分析。
进一步地,所述分布式存储数据库中存储的日志信息或告警信息还可以由流处理应用直接上报,其中,流处理应用接收到用户输入的日志信息或告警信息时,直接写入到分布式存储数据库中。
进一步地,所述流处理应用管理平台与流处理应用通过心跳协议进行交互,以接收流处理应用上报的心跳信息;
所述心跳信息包括注册信息、运行状态信息和/或运行告警信息。
进一步地,所述流式应用监控***包括分布式***基础架构Hadoop,所述分布式存储数据库包括分布式存储***Hbase。
本实施例提出的技术方案,应用监控程序被处理器执行时,实现以下步骤:在流处理应用管理平台中接收流处理应用定时上报的心跳信息,然后将接收到的心跳信息存储到分布式存储数据库中,后续若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面,实现了对流处理应用的监控,是由流处理应用管理平台实现,在预设时间间隔内未接收到流处理应用上报的心跳信息时,即可确定该流处理应用异常,并输出报警信息,由于流处理应用正常运行时就会发送心跳信息,通过心跳信息进行流处理应用的监控,相比于进程监控的方式,提高了流处理应用监控的准确性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种应用监控方法,应用于应用监控***,其特征在于,所述应用监控***包括流处理应用、分布式存储数据库、以及与所述流处理应用和分布式存储数据库通信连接的流处理应用管理平台,所述应用监控方法包括:
在流处理应用管理平台中接收流处理应用定时上报的心跳信息;
将接收到的心跳信息存储到分布式存储数据库中;
若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面。
2.如权利要求1所述的应用监控方法,其特征在于,所述应用监控***还包含与所述流处理应用管理平台通信连接的代理节点,所述在流处理应用管理平台中接收流处理应用定时上报的心跳信息的步骤之前,所述方法还包括:
通过所述流处理应用管理平台发送应用启动指令至所述代理节点,由所述代理节点发布流处理应用数据包至流处理应用,以启动所述流处理应用。
3.如权利要求1所述的应用监控方法,其特征在于,所述方法还包括:
在应用监控***的***页面中接收到针对流处理应用的控制指令时,通过所述流处理应用管理平台确定所述控制指令的类型;
基于所述控制指令的类型控制流处理应用执行相应的操作,其中,控制流处理应用执行相应的操作包括:控制流处理应用的重启、关闭和/或新版本发布。
4.如权利要求1所述的应用监控方法,其特征在于,所述若在预设时间间隔内未接收到流处理应用上报的心跳信息,则输出告警信息至告警界面的步骤之后,所述方法还包括:
发送检测命令至所述代理节点,由所述代理节点获取所述流处理应用的运行状态,以将获取的运行状态反馈至流处理应用管理平台;
在流处理应用管理平台接收到代理节点反馈的运行状态,且检测该运行状态是异常状态,则重新启动所述流处理应用。
5.如权利要求1所述的应用监控方法,其特征在于,在流处理应用的个数为多个时,所述方法包括:
若在流处理应用管理平台中接收到各个流处理应用上报的日志信息或告警信息,将接收的日志信息或告警信息存储至分布式存储数据库中;
在接收到数据分析指令时,从所述分布式存储数据库中提取数据进行统计分析。
6.如权利要求5所述的应用监控方法,其特征在于,所述分布式存储数据库中存储的日志信息或告警信息还可以由流处理应用直接上报,其中,流处理应用接收到用户输入的日志信息或告警信息时,直接写入到分布式存储数据库中。
7.如权利要求1-6任一项所述的应用监控方法,其特征在于,所述流处理应用管理平台与流处理应用通过心跳协议进行交互,以接收流处理应用上报的心跳信息;
所述心跳信息包括注册信息、运行状态信息和/或运行告警信息。
8.如权利要求1-6任一项所述的应用监控方法,其特征在于,所述流式应用监控***包括分布式***基础架构Hadoop,所述分布式存储数据库包括分布式存储***Hbase。
9.一种应用监控***,其特征在于,所述应用监控***包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的应用监控程序,所述应用监控程序被所述处理器执行时实现如权利要求1至8中任一项所述的应用监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有应用监控程序,所述应用监控程序被处理器执行时实现如权利要求1至8任一项所述的应用监控方法的步骤。
CN201711039424.9A 2017-10-30 2017-10-30 应用监控方法、***和计算机可读存储介质 Pending CN108039956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711039424.9A CN108039956A (zh) 2017-10-30 2017-10-30 应用监控方法、***和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711039424.9A CN108039956A (zh) 2017-10-30 2017-10-30 应用监控方法、***和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108039956A true CN108039956A (zh) 2018-05-15

Family

ID=62093614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711039424.9A Pending CN108039956A (zh) 2017-10-30 2017-10-30 应用监控方法、***和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108039956A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660426A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 监控方法及***、计算机可读介质和电子设备
CN111193586A (zh) * 2018-11-14 2020-05-22 ***通信有限公司研究院 一种信息处理方法、分组传送网设备及量子密钥设备
CN113595815A (zh) * 2021-07-14 2021-11-02 上海淇玥信息技术有限公司 一种检测应用存活的方法、装置及电子设备
CN114268721A (zh) * 2021-12-22 2022-04-01 成都九洲电子信息***股份有限公司 一种低流量网络视频监控***、方法及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197714A (zh) * 2007-12-13 2008-06-11 ***通信集团湖北有限公司 一种移动数据业务状态集中采集的方法
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN103152352A (zh) * 2013-03-15 2013-06-12 北京邮电大学 一种基于云计算环境的全信息安全取证监听方法和***
US20160094356A1 (en) * 2014-09-30 2016-03-31 Vmware, Inc. Optimized message retransmission mechanism for distributed storage virtualization directory system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197714A (zh) * 2007-12-13 2008-06-11 ***通信集团湖北有限公司 一种移动数据业务状态集中采集的方法
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN103152352A (zh) * 2013-03-15 2013-06-12 北京邮电大学 一种基于云计算环境的全信息安全取证监听方法和***
US20160094356A1 (en) * 2014-09-30 2016-03-31 Vmware, Inc. Optimized message retransmission mechanism for distributed storage virtualization directory system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111193586A (zh) * 2018-11-14 2020-05-22 ***通信有限公司研究院 一种信息处理方法、分组传送网设备及量子密钥设备
CN111193586B (zh) * 2018-11-14 2023-01-13 ***通信有限公司研究院 一种信息处理方法、分组传送网设备及量子密钥设备
CN109660426A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 监控方法及***、计算机可读介质和电子设备
CN113595815A (zh) * 2021-07-14 2021-11-02 上海淇玥信息技术有限公司 一种检测应用存活的方法、装置及电子设备
CN114268721A (zh) * 2021-12-22 2022-04-01 成都九洲电子信息***股份有限公司 一种低流量网络视频监控***、方法及存储介质

Similar Documents

Publication Publication Date Title
CN108959000B (zh) 一种服务器压力测试方法、***及终端
US8914504B2 (en) End user performance monitoring for mobile applications
US10200506B2 (en) Method, system and device for monitoring data
US9893963B2 (en) Dynamic baseline determination for distributed transaction
US10963040B2 (en) Generating storyboard for a knowledge base in virtual mobile management
CN108039956A (zh) 应用监控方法、***和计算机可读存储介质
US10230611B2 (en) Dynamic baseline determination for distributed business transaction
US11032126B2 (en) Diagnostic traffic generation for automatic testing and troubleshooting
US20210306235A1 (en) Automating 5G slices using real-time analytics
US9141509B2 (en) Mobile device remote control session activity pattern recognition
US20090207749A1 (en) User-initiated reporting of mobile communication system errors
WO2016150153A1 (zh) 一种用于软件发布的方法和装置
CN111124609B (zh) 数据采集方法、装置、数据采集设备及存储介质
CN112583898A (zh) 业务流程编排方法、装置、以及可读介质
CN109684155A (zh) 监控配置方法、装置、设备及可读存储介质
CN108566317A (zh) 业务监控方法、云服务器、存储介质及装置
CN107168850A (zh) 一种url页面监控方法和装置
CN114726789A (zh) 流量管理、配置流量管理策略的方法、装置、设备及介质
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备
US10432472B1 (en) Network operation center (NOC) tool pattern detection and trigger to real-time monitoring operation mode
CN112135302B (zh) 基站拓扑信息的控制方法、装置及计算机可读存储介质
CN116260747A (zh) 终端测试设备的监测方法、装置及电子设备
CN112799910A (zh) 层次化监控方法及装置
CN112835780A (zh) 一种业务检测方法及装置
CN117097635B (zh) 调用链路采样方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515