CN107992398A - 一种业务***的监控方法和监控*** - Google Patents

一种业务***的监控方法和监控*** Download PDF

Info

Publication number
CN107992398A
CN107992398A CN201711404987.3A CN201711404987A CN107992398A CN 107992398 A CN107992398 A CN 107992398A CN 201711404987 A CN201711404987 A CN 201711404987A CN 107992398 A CN107992398 A CN 107992398A
Authority
CN
China
Prior art keywords
monitoring
data
operation system
monitored
system data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711404987.3A
Other languages
English (en)
Other versions
CN107992398B (zh
Inventor
张现双
薛菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pleasant Sunny Technology Development (beijing) Co Ltd
Original Assignee
Pleasant Sunny Technology Development (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pleasant Sunny Technology Development (beijing) Co Ltd filed Critical Pleasant Sunny Technology Development (beijing) Co Ltd
Priority to CN201711404987.3A priority Critical patent/CN107992398B/zh
Publication of CN107992398A publication Critical patent/CN107992398A/zh
Application granted granted Critical
Publication of CN107992398B publication Critical patent/CN107992398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种业务***的监控方法,该方法包括:采集业务***的日志数据,对获取的数据进行过滤和标准化预处理,从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据,并进行标准化和验证,再根据对应于被监控服务的监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元,根据监控规则生成监控异常报警,选择相应的监控策略通过一种或多种媒介发出报警信息等,能够实现对被监控***0侵入,大大降低被监控***的改造成本以及实时、到达率高等技术效果。此外,本发明的实施方式还提供了一种监控***、电子设备和一种计算机可读存储介质。

Description

一种业务***的监控方法和监控***
技术领域
本发明涉及计算机领域,尤其涉及一种业务***的监控方法、监控***、电子设备和一种计算机可读存储介质。
背景技术
随着公司业务的快速发展,通常在现有业务***的基础上进行功能迭代,从而快速抢占市场。在这个过程中,通常技术人员来不及完善对业务***各个分支的实时监控,导致监控平台等基础设施的缺失,为后续业务的进一步增长带来了制约。为了弥补监控***的缺失,现有的解决方案通常是对中间件、机器、磁盘、cpu等进行后续监控,这些监控方式对被监控***的侵入性很强,需要对***做较大的改造,无形中增加了更多的成本。比如,通过对一贷款业务***进行评估,如果对其中300多个子***进行改造,需要大概2400人天,其为巨大投入,而且无法保障改造的质量,无法保障业务连续性,需要停机。
目前业内相关的监控产品都属于从应用程序性能监控(APM)角度进行设计和实现,如大众点评公司开源的分布式监控产品CAT,该***对被监控***的侵入性太强,而且性能有一定的损耗。
然而,随着现在软硬件可靠性和可用性的极大提高,应用程序的性能较稳定,发生故障的概率较小。以贷款业务***为例,每年由应用程序性能监控所发出的***故障:如内存溢出、死锁、CPU使用率过高、内存告警的比例,还不到业务***异常:如用户提现失败、用户交易失败、短信到达率过低等故障的5%。因此,业务***的业务异常监控和报警成为重中之重。
另一方面,如果不加控制的将所监控到的业务***出现的每个异常都生成报警,则会导致报警***的压力巨大。比如,有些非***故障的异常监控项比如用户操作失误导致的业务异常,若每次异常都进行报警,也会造成后台维护人员的浪费。因此,需要提供一种灵活可配置的监控和报警方法,并能够通过多种发送方式使得维护人员随时随地接收到报警提醒。
上述的描述不因为包括在背景技术中就承认是现有技术。
发明内容
为解决现有技术不能实时监控***的业务异常,应用程序性能监控对被监控***侵入性强、性能损耗大,以及报警过于频繁和模式单一的技术问题,本发明的主要目的在于提供一种业务***的监控方法、***、电子设备和计算机可读存储介质。
为实现上述目的,本发明提供一种业务***的监控方法,用于同时监控多个业务***,包括:
采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
获取预处理后的业务***数据并进行再处理;
基于再处理后的业务***数据进行监控项分析,判断异常单元;
根据监控规则生成监控异常报警;
采用相应的监控策略发出报警信息。
可选地,所述业务***数据还包括应用程序性能监控数据。
可选地,所述预处理业务***数据包括对业务***数据进行过滤和标准化。
可选地,所述预处理业务***数据还包括对业务***数据进行分发控制。
可选地,所述再处理是从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据。
可选地,所述再处理还包括对预处理后的业务***数据进行标准化和验证。
可选地,所述监控项分析根据对应于被监控服务的所述监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元。
可选地,所述监控规则包括***级异常合并和/或应用级异常合并,其中所述***级异常合并为定义监控异常报警的次数阈值,所述应用级异常合并为用户可自定义监控异常合并的优先级。
可选地,所述监控策略包括节点监控策略、节点阈值监控策略、节点阈值比例监控策略、定点数据阈值监控策略、标准异常监控策略以及标准APM监控策略中的任意一种或多种。
可选地,所述发出报警信息通过邮件、短信或者微信的一种或多种媒介实现。
另外,为实现上述目的,本发明还提供一种监控***,用于同时监控多个业务***,其特征在于,包括:
数据采集预处理模块,用于采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
监控模块,包括:再处理单元,用于获取预处理后的业务***数据并进行再处理;判断单元,用于基于再处理后的业务***数据进行监控项分析,判断异常单元;报警信息生成单元,用于根据监控规则生成监控异常报警;
报警信息发出模块,用于采用相应的监控策略发出报警信息;
监控配置模块,用于配置可视化界面的监控项、监控策略、预定报警方式、值班人、***配置、报警信息查询的任意一项或多项。
可选地,所述业务***数据还包括应用程序性能监控数据。
可选地,所述预处理业务***数据包括对业务***数据进行过滤和标准化。
可选地,所述预处理业务***数据还包括对业务***数据进行分发控制。
可选地,所述再处理是从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据。
可选地,所述再处理还包括对预处理后的业务***数据进行标准化和验证。
可选地,监控项分析根据对应于被监控服务的所述监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元。
可选地,所述监控规则包括***级异常合并和/或应用级异常合并,其中所述***级异常合并为定义监控异常报警的次数阈值,所述应用级异常合并为用户可自定义监控异常合并的优先级。
可选地,所述监控策略包括节点监控策略、节点阈值监控策略、节点阈值比例监控策略、定点数据阈值监控策略、标准异常监控策略以及标准APM监控策略中的任意一种或多种。
可选地,所述发出报警信息可以通过邮件、短信或者微信的一种或多种媒介实现。
此外,为实现上述目的,本发明还提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,当所述计算机程序被执行时,执行如上文所述监控方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,执行如上文所述监控方法的步骤。
本发明提供的技术方案,通过采集业务***的日志数据,对获取的数据进行过滤和标准化预处理,从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据,并进行标准化和验证,再根据对应于被监控服务的监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元,根据监控规则生成监控异常报警,监控模块选择相应的监控策略通过一种或多种媒介发出报警信息。
与现有技术相比,本发明通过采集IT业务***采集日志数据,以实时监控出现异常概率较高的业务异常数据,通过预先设定对应于被监控服务监控项的关键词,判断再处理后的业务***日志是否为所述异常单元,实现对被监控***0侵入,对应用程序0改造,整体服务***可伸缩性强,大大降低被监控***的改造成本,还提供了多种可选的监控策略,以及多种灵活可配置的报警模式,实现实时、廉价、到达率高等技术效果。
附图说明
在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明一实施方式的一种监控***的结构示意图;
图2示意性地示出了根据本发明一实施方式的接入层数据采集预处理的流程图;
图3示意性地示出了根据本发明一实施例的监控模块工作流程图;
图4示意性地示出了根据本发明一实施例的监控项和被监控服务实体关系图;
图5示意性地示出了根据本发明一实施例的数据采集预处理模块的内部结构示意图;
图6示意性地示出了根据本发明一实施例的监控模块结构示意图;
图7示意性地示出了根据本发明一实施例的监控&报警整体模型图;
图8示意性地示出了根据本发明一实施例的监控配置模块用户可视化界面示意图;
图9示意性地示出了根据本发明一实施例的监控配置模块用户可视化界面示意图;
图10示意性地示出了根据本发明一实施例的一种电子设备的结构示意图。
具体实施方式
下面将参考若干具体实施例来描述本发明的原理和精神。应当理解,这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,并非以任何方式限制本发明的范围。
本发明提出了一种业务***的监控方法、一种监控***、一种电子设备和一种计算机可读存储介质。本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
如图1所示,图1是本发明实施例方案涉及的监控***的结构示意图。数据采集预处理模块101通过采集业务***日志数据1011,在接入层1013对获取的数据进行过滤和标准化预处理,监控模块102中的再处理单元1021从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据,并进行标准化和验证,判断单元1022再根据对应于被监控服务的监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元,报警生成单元1023根据监控规则生成监控异常报警,报警信息发出模块103选择相应的监控策略通过一种或多种媒介发出报警信息。
本发明实施例提供的技术方案使用开源流式计算平台作为工具,结合流式计算技术,以各业务***的日志为监控对象,通过多种监控策略和报警策略,辅助以分布式同步、分布式锁技术、流式计算时间窗口和流水线技术等多种措施,对日志中的相关监控点进行实时分析计算,从而进行监控和报警。
本发明的一实施例提供一种业务***的监控方法,用于同时监控多个业务***,包括:
采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
获取预处理后的业务***数据并进行再处理;
基于再处理后的业务***数据进行监控项分析,判断异常单元;
根据监控规则生成监控异常报警;
采用相应的监控策略发出报警信息。
进一步地,所述采集业务***数据,包括业务***日志以及应用程序性能监控数据1012(APM),从业务***采集日志服务执行以下步骤:
基于开源数据采集工具日志收集组件(logstash),由其数据采集器(agent)采集被服务***的日志,将其推送至统一的日志接入层;日志收集组件(Logstash)在推送日志时,需要携带监控***提供的准入认证信息,在通信协议头部(header)中携带监控***为被服务***分配的唯一的ID标识ARGUS_ID,监控***在日志接入时校验其携带的ID标识是否和***中配置的主机地址(host)一致,若校验一致,则进行日志包的过滤处理,否则丢弃。
进一步地,如图2所示,所述采集并预处理业务***数据包括对业务***数据进行过滤和标准化。图2是接入层数据采集预处理流程图,日志的预处理执行如下步骤:
S201:监控***提供统一的http接入服务地址,多个http服务节点使用反向代理服务器(nginx)进行负载均衡(lb),由日志收集组件(logstash)往该地址推送日志信息,由反向代理服务器(nginx)转发至接入层;在反向代理服务器(nginx)进行ARGUS_ID标识校验的拦截处理,以减少后端控制模块处理的流量压力;
S202:设置白名单规则进行监控准入校验,根据被接入服务器的IP地址设置白名单规则,防止由于ARGUS_ID的明文传输,某服务截获该ARGUS_ID,可能伪造身份接入服务器;
如果被接入服务器的IP地址不在所述白名单内,则执行步骤S203:直接拒绝响应;
如果被接入服务器的IP地址在所述白名单内,则通过校验,执行步骤S204:;
S204:配置过滤规则,接入层获取到日志数据后,进行数据的过滤,如过滤debug的日志,或者过滤mybatis的日志等,以尽量减少日志流入后端***的流量;具体过滤规则结合具体日志来确定,例如以下列举几类:
S205:进行日志标准化,结合实际日志的结构,采用统一的模型进行存储,以处理日志文本包含的各种信息,如日志级别、时间戳、调用类、包名、具体的基础信息等,该模型定义如下:
由于不同的接入***日志打印的规则都不同,如LogId,定义灵活能适应各种情况下的解析规则,如果能解析到则生成,解析不到则为空。
S206:进行日志统一模型实体信息的分发,如分发到相应的处理队列,由下游***进行处理,监控队列的状态;
如果队列满,则执行步骤S207:发出报警;
S208:进行接入服务降级,采取包丢弃策略和拒绝服务,或者对下游处理***资源进行调度,以保护监控***防止洪泛;
S210:结束该日志数据处理;
如果队列不满,则执行步骤S209:将日志数据进行分发入队处理;
S211:结束该日志数据处理。
进一步地,步骤S206进行日志数据的分发控制具体包括:
日志标准化之后,则推送到日志队列中,供后续任务来进行分析、处理;
由接入层获取监控配置***的所有缓存服务器(redis)的服务器配置,初始化至分布式应用程序协调服务(zookeeper)的节点;
日志入队后,要将队列及时注册至对应缓存服务器(redis)节点下,通知数据抽取器(spout)对该队列抽取日志流,由监控***的数据抽取器(spout)获取队列列表;
每个接入***以主机地址(HOST)为维度,每个HOST使用一个队列,使用多台缓存服务器redis进行分片(shared);
以ARGUS_ID标识为识别对象,采用一致性哈希(HASH)算法来决定日志进入哪个分片;
当redis节点宕机后,即时重新采用HASH算法动态调整。
进一步地,如图3所示,图3是监控模块工作流程图,日志经过接入层的清洗、处理、标准化之后,将获取预处理后的业务***数据并进行再处理,包括步骤S301:
采用多个数据抽取器(spout)获取分布于各个缓存服务器的所有分片的所有队列;
数据抽取器(spout)初始时从分布式应用程序协调服务(zookeeper)获取分片列表、分片下的队列列表和本地高速缓冲存储器(cache),并在分布式应用程序协调服务(zookeeper)上注册一个***(listener)节点;
如果节点没有变化,则后续抽取每次从本地高速缓冲存储器(cache)中获取队列列表抽取日志发射出去;
当接入层注册、摘掉和监控配置模块维护触发等引起注册节点变化,会主动获取最新的队列列表抽取日志流。
进一步地,所述再处理是从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据,具体包括步骤S302:
加载监控配置,在进行日志流的监控处理前配置目标监控项,生成运行时规则供***分析运用;
过滤监控项,通过监控配置信息统一管理所监控对象的识别和过滤;目标***为本***的监控对象,相关信息采集服务即运行在本***上,通过服务和所在的机器ip地址或域名来唯一标识;每当新接入一个被监控***,该***即在本***中注册,生成唯一标识,该标识需要和信息采集服务一致。
进一步地,所述监控项分析根据对应于被监控服务的所述监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元,该异常单元还要经过监控规则和报警规则的双重过滤才决定是否生成报警信息,具体包括:
步骤S303通过定义监控项,识别欲报警的目标日志,根据预设定的关键词,例如日志中出现的“放款失败”关键词,即“放款失败“为一个监控项;
如果出现“放款失败”关键词,则执行步骤S304,认为业务***发生了一个业务异常,定义为异常单元;根据日志包的ARGUS_ID、HOST等信息,获取对应的配置监控项,进行监控项的查找或者正则匹配,生成异常单元,然后组装异常单元的body报文,发射出去;
异常单元的报文格式如下:
如果没有业务异常则执行步骤S305结束。
进一步地,每个监控项在配置时,必须要和某个被监控服务对应,二者的实体关系如图4所示,每个监控项唯一的属于一个被监控服务,每个被监控服务可以有多个监控项。
进一步地,执行步骤S306,选择相应的监控异常合并规则,决定生成监控异常的数量;所述监控规则包括***级异常合并和/或应用级异常合并,其中所述***级异常合并为定义监控异常报警的次数阈值,所述应用级异常合并为用户可自定义监控异常合并的优先级,以生成监控异常报警,具体包括:
***级异常合并规则会自动应用到所有的被服务***,为整个监控***设置需要报警的监控异常数目的上限阈值,如某应用***的某监控项在10秒内发生1000多次报警,这种情况下,每个报警的详情是什么其实已经不重要,重要的是产生了大量报警的事实,因此,将该报警合并后发送更为合理,这样下游的报警***原本需要处理1000次报警信息,现在只需要发送1条,大大减轻了资源占有量;
应用级异常合并规则为根据应用在配置监控策略时提供的自定义异常合并规则,该规则的阈值要低于***级异常合并策略;
以上的合并对象均为每个主机地址HOST,生成的监控异常对象进入消息队列MQ。
进一步地,执行步骤S308根据选择的监控策略,由报警生成模块处理生成报警信息;所述监控策略包括节点监控策略、节点阈值监控策略、节点阈值比例监控策略、定点数据阈值监控策略、标准异常监控策略以及标准APM监控策略中的任意一种或多种,根据相关业务场景和***监控场景的需求,配置多种监控策略进行选择,具体包括:
节点监控策略:该种策略适合此类场景,即,当被监控日志出现了期望的节点关键词后,即引发报警单元的生成,例如在***日志监控过程中,如果出现了“交易失败”关键词,即是一个报警,也可以为“交易失败且银行卡限额或交易失败且支付密码错误”等方式,支持正则匹配;该种监控策略可以用来报警,还可以用来统计,如统计某些操作或者请求的次数,结合一些时间窗口定义,可以输出一些频次的值,如统计登录请求的页面浏览量pv,或者交易请求的每秒查询率qps等;
节点阈值监控:某类监控策略在某个时间窗口内发生的次数同配置的阈值相比,达到某个条件即报警;例如,某渠道用户的注册量半小时内小于100w即报警;或者,某用户5天之内购买行为小于10次即报警等场景;
节点阈值比例监控:某类监控类型发生的次数占据全部类型中发生的比例和预设的阈值相比,达到某个条件即报警;例如,用户注册都会产生发送短信行为,如果在10分钟内,***产生了1000次发送短信请求,而只有900次发送成功,那么发送成功比例为90%,如果低于95%即报警;或者,在12小时内,***共处理了1000比交易请求,而只有900比返回成功,那么支付成功率为90%,如果低于95%则产生报警等场景;
定点数据阈值监控:对某些监控数据来源中的特定数据进行监控,例如在日志监控中,***响应前端请求时会返回数据,假如返回JSON格式的数据,如下表:
如上表中JSON格式的数据,如果“e5a05b6d03ee45589f5704ba7210e3dd”对应的productDetailId的JSON对象中的minMobileAmt的值大于1000即产生报警;
***可以自动对不同类型的数据自动解析,这样在配置时,配置一个锚点数据,配置描述该锚点数据代表的是哪个key的值,如productDetailId,***通过这两个数据定位到数据对象,即JSON的对象Object,然后获取该Object中的minMobileAmt的值。无论何种数据格式,应用***前端都是根据一定的规则去解析,存在于日志中的数据也遵循这种规则,这样监控***根据这种规则去解析。对于常见的JSON以及KEY-Value的表示方式***可以支持;
标准异常监控:该种监控策略旨在对日志源中的一些标准的异常进行监控,这样用户可以无需输入异常,只需要选择即可,如NullpointerException,ClassCastException等等。可以维护异常的列表以及根据不同的语言类型来区分;
标准APM监控:该种监控策略旨在对一些如Java虚拟机JVM、数据库的运行时参数、redis实例状态等进行监控;例如,可以配置中间件周期性打印GC日志log,log中出现了Full GC时即报警;或者JMX周期性打印出当前Java虚拟机JVM实例的各参数状态,监控日志中的某些参数,获取参数值通过和阈值对比报警;或者redis,可以周期性的获取消息info指令的输出打印到日志中,对日志中某些参数值进行监控。
进一步地,执行步骤S309发出报警信息,所述发出报警信息通过邮件、短信或者微信的一种或多种消息通知媒介实现。
进一步地,对于生成的监控异常,不应该不加处理的直接生成报警推送给相关人,如在一些业务依赖的服务器宕机的极端情况下,会导致监控异常洪泛,如果异常不加处理,会导致报警***压力巨大,从而导致短信、邮件***压力飙升,带来雪崩效应,因此,需要根据应用需要,选择不同的报警策略发出报警信息,比如,“交易失败”的监控异常,可以定义为在10s内发生3次才发短信,也可以定义为1分钟内最多报警2次,1天内最多报警100次,每报警2次之后,隔900s再重新提醒期间总共发生的报警次数;虽然报警信息得到了合并,但是在数据存储上,仍然记录每一条报警,如900s内发生了300次报警,虽然只发了一条短信,但是后台仍然记录300条报警记录,即步骤S310。
根据报警策略的定义以及要解决的问题,现给出几个基本的报警策略:
进一步地,本发明实施例还支持报警屏蔽,关闭可预期的报警发送动作,屏蔽策略如下:
时间维度:包括一个连续的时间段,如连续1小时不再执行报警发送动作;一个固定的时间段,如每天的0点到6点不再报警;节假日不报警;周末不报警等;
屏蔽粒度:如某个监控项不产生报警;特定的应用服务不报警,不支持全部关闭,粒度最大到应用级别;
报警对象:屏蔽特定的报警接收人。
此外,本发明一实施例还提供了一种监控***,如图1所示,本发明实施例的监控***,其由四个模块构成,分别是数据采集预处理模块101、监控模块102、报警信息发出模块103、监控配置模块104,其总体架构如下:
数据采集预处理模块101,用于采集并预处理业务***数据,其中所述业务***数据包括业务***日志数据1011;
监控模块102,包括:再处理单元1021,用于获取预处理后的业务***数据并进行再处理;判断单元1022,用于基于再处理后的业务***数据进行监控项分析,判断异常单元;报警信息生成单元1023,用于根据监控规则生成监控异常报警;
报警信息发出模块103,用于采用相应的监控策略发出报警信息;
监控配置模块104,用于配置可视化界面的监控项、监控策略、预定报警方式、值班人、***配置、报警信息查询的任意一项或多项。
进一步地,所述业务***数据还包括应用程序性能监控数据1012(APM)。
进一步地,如图5所示,图5是本发明一实施例的数据采集预处理模块101的内部结构示意图。由于进行的是线上日志的实时分析,所以数据量会很大,如果直接进入监控***,会给***带来冲击,所以接入层1013(buffer)作为数据进入监控***前的缓冲,同时允许一定的数据丢弃策略,如将非com.creditease.service*的包产生的日志丢弃掉,所述预处理业务***数据包括对业务***数据进行过滤和标准化,具体包括:
进行日志的初步过滤、清洗,如过滤掉无意义的文本,支持规则配置的过滤;
进行日志的标准化处理,按照***预定义的日志实体模型进行规范化。
进一步地,所述预处理业务***数据还包括对业务***数据进行分发控制,具体包括:
进行日志统一模型实体信息的分发,如分发到相应的处理队列,由下游***进行处理;
监控队列的状态,如果队列满,则发出报警并进行接入服务降级;
采取包丢弃策略和拒绝服务,或者对下游处理***资源进行调度,以保护监控***防止洪泛。
进一步地,如图6所示,图6是本发明一实施例的监控模块结构示意图,本发明实施例监控***的核心为监控模块102,根据预先设定的监控项,对于采集到的日志,进行实时分析,对于触发的监控项,应用监控策略,决定是否生成报警,提供可扩展、灵活配置的服务;对于生成的报警信息一方面进行持久化存储,另一方面推送至报警***,给预定的值班人发送报警信息。
进一步地,所述再处理是从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据,具体包括:
目标***即是本***的监控对象,相关信息采集服务即运行在该***上,通过服务和所在的机器ip地址或域名来唯一标识;
每当新接入一个被监控***,该***即在本***中注册,生成唯一标识,该标识需要和信息采集服务一致。
进一步地,所述再处理还包括对预处理后的业务***数据进行标准化和验证。
进一步地,监控项分析根据对应于被监控服务的所述监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元,具体包括:
根据预设定的关键词,定义监控项,识别欲报警的目标日志,如日志中出现“放款失败”的关键词,则认为业务***发生了一个业务异常,定义为异常单元,则“放款失败“为一个监控项;
每个监控项唯一的属于一个被监控服务,每个被监控服务可以有多个监控项。
监控项具有以下基本属性:
进一步地,所述监控规则包括***级异常合并和/或应用级异常合并,所述***级异常合并为定义监控异常报警的次数阈值,所述应用级异常合并为用户可自定义监控异常合并的优先级,以生成监控异常报警。
进一步地,所述监控策略是指节点监控策略、节点阈值监控策略、节点阈值比例监控策略、定点数据阈值监控策略、标准异常监控策略以及标准APM监控策略中的任意一种或多种。
进一步地,对于直接命中监控项的异常单元并不直接生成监控异常,而是通过一定的策略去生成,如“交易失败”的监控项触发了异常单元,该异常单元在10s内发生了三次,则生成监控异常,以方便小概率发生的业务异常更加灵活、细分的策略去进行定义;
进一步地,只有监控项触发的异常单元满足预定的监控策略才会生成监控异常,监控项、异常单元、监控策略、监控异常的模型间逻辑关系如图7所示,图7是监控&报警整体模型:
进一步地,报警信息发出模块103,用于采用相应的监控策略发出报警信息,具体包括:
监控模块102和报警信息发出模块103之间通过一个分布式双端队列进行解耦,采用分布式锁做同步;
每个监控模块102的监控策略对应一个队列;
监控的报警信息生成单元1023进入队列,报警信息发出模块维护一线程池;
报警信息发出模块103实时获取队列列表,每当有新的队列产生即动态发起一个处理线程去处理报警信息;
若队列长时间空闲,则线程终结,以节省资源;
接收监控模块102的报警信息生成单元1023生成的报警信息,应用预定的监控策略,向值班人发送报警,支持多种报警方式;
报警信息发出模块103设置有重试机制。
进一步地,所述发出报警信息可以通过短信1031、邮件1032或者微信1033的一种或多种媒介实现。
进一步地,如图8和图9所示,图8和图9分别是本发明一实施例的监控配置模块用户可视化界面示意图,监控配置模块104用于配置可视化界面的监控项1041、监控策略1042、报警查询1043、值班人1044、报警方式1045、统计分析1046等***配置的任意一项或多项,具体包括:
监控配置模块104,作为整个平台的管理、配置***,以及一些参数监控,监控整个平台的运行状态;
用户根据自身需求通过该模块进行设置和选择相应的功能和参数,包括以下设置和选择:
监控项1041、监控策略1042配置;
报警查询1043,报警Web页面查看,短网址跳转,附在报警短信和邮件中,查看报警详情;
值班人1044等配置;
报警方式1045配置,包括报警、报警策略配置;
***参数配置,队列、storm运行状态监控;
队列列表维护、加载,运行时接入新的被监控应用。
进一步地,监控配置模块还用于应用级信息统计分析1046,具体包括:
***的qps、tps统计,pv、uv的实时统计;
访问路径、响应时间统计;
监控特定用户访问痕迹,请求追踪等;
其他涉及日志数据的相关业务应用场景。
进一步地,该监控***还包括存储模块105,对生成的报警信息进行持久化存储,用于查询、统计分析。如果进行了报警合并,如某监控项产生了10次报警,报警***将10次报警合并为一条报警短信,那么仍然存储10条报警信息。
此外,本发明一实施例还提供一种电子设备40,如图10所示,该实施例的电子设备40可以包括但不限于:一个或者多个处理器或者处理器401,存储器402,连接不同组件(包括存储器402和处理器401)的总线403,与外部设备404(如键盘、指向设备、显示器等)进行数据传输的I/O接口405。该实施例电子设备40可以是PC(PersonalComputer,个人计算机),也可以是平板电脑、便携计算机或者其他带有处理器的显示设备。
进一步地,处理器401通过运行存储在存储器402中的计算机程序,从而执行各种功能应用以及数据处理,例如,执行用于实现上述方法实施例中的各步骤的指令;具体而言,处理器401可以执行存储器402中存储的计算机程序,且该计算机程序被执行时,下述指令被运行:采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
获取预处理后的业务***数据并进行再处理;
基于再处理后的业务***数据进行监控项分析,判断异常单元;
根据监控规则生成监控异常报警;
采用相应的监控策略发出报警信息。
进一步地,存储器402可以包括易失性存储器形式的计算机***可读介质,例如,随机存取存储器(RAM)4021和/或高速缓存存储器4022;监控设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,ROM 4023可以用于读写不可移动的、非易失性磁介质(图10中未显示,通常称为“硬盘驱动器”)。尽管未在图10中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。
进一步地,***存储器402中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能,其具有一组(至少一个)程序模块4024的程序/实用工具4025,可以存储在例如***存储器402中,且这样的程序模块4024包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4024通常执行本发明所描述的实施例中的功能和/或方法。
如图10所示,网络适配器406通过总线403与监控设备40的其它如处理器401等模块通信。
此外,本发明的一实施例还提供一种计算机可读存储介质,其上存储有计算机程序。该程序被处理器执行时,会实现上述方法实施方式中所记载的各步骤,例如:
采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
获取预处理后的业务***数据并进行再处理;
基于再处理后的业务***数据进行监控项分析,判断异常单元;
根据监控规则生成监控异常报警;
采用相应的监控策略发出报警信息。
进一步地,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考上述具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (22)

1.一种业务***的监控方法,用于同时监控多个业务***,其特征在于,包括:
采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
获取预处理后的业务***数据并进行再处理;
基于再处理后的业务***数据进行监控项分析,判断异常单元;
根据监控规则生成监控异常报警;
采用相应的监控策略发出报警信息。
2.如权利要求1所述的监控方法,其特征在于,所述业务***数据还包括应用程序性能监控数据。
3.如权利要求1所述的监控方法,其特征在于,所述预处理业务***数据包括对业务***数据进行过滤和标准化。
4.如权利要求3所述的监控方法,其特征在于,所述预处理业务***数据还包括对业务***数据进行分发控制。
5.如权利要求1-4任一项所述的监控方法,其特征在于,所述再处理是从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据。
6.如权利要求5所述的监控方法,其特征在于,所述再处理还包括对预处理后的业务***数据进行标准化和验证。
7.如权利要求1-4任一项所述的监控方法,所述监控项分析包括根据对应于被监控服务的所述监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元。
8.如权利要求1-4任一项所述的监控方法,所述监控规则包括***级异常合并和/或应用级异常合并,其中所述***级异常合并为定义监控异常报警的次数阈值,所述应用级异常合并为用户可自定义监控异常合并的优先级。
9.如权利要求1-4任一项所述的监控方法,其特征在于,所述监控策略包括节点监控策略、节点阈值监控策略、节点阈值比例监控策略、定点数据阈值监控策略、标准异常监控策略以及标准应用程序性能监控数据监控策略中的任意一种或多种。
10.如权利要求1所述的监控方法,其特征在于,所述发出报警信息通过邮件、短信或者微信的一种或多种媒介实现。
11.一种监控***,用于同时监控多个业务***,其特征在于,包括:
数据采集预处理模块,用于采集并预处理业务***数据,其中所述业务***数据包括业务***日志;
监控模块,包括:再处理单元,用于获取预处理后的业务***数据并进行再处理;判断单元,用于基于再处理后的业务***数据进行监控项分析,判断异常单元;报警信息生成单元,用于根据监控规则生成监控异常报警;
报警信息发出模块,用于采用相应的监控策略发出报警信息;
监控配置模块,用于配置可视化界面的监控项、监控策略、预定报警方式、值班人、***配置、报警信息查询的任意一项或多项。
12.如权利要求11所述的监控***,其特征在于,所述业务***数据还包括应用程序性能监控数据。
13.如权利要求11所述的监控***,其特征在于,所述预处理业务***数据包括对业务***数据进行过滤和标准化。
14.如权利要求13所述的监控***,其特征在于,所述预处理业务***数据还包括对业务***数据进行分发控制。
15.如权利要求11-14任一项所述的监控***,其特征在于,所述再处理是从预处理后的业务***数据中筛选出源于特定IP地址和/或特定主机和/或特定***的数据。
16.如权利要求15所述的监控***,其特征在于,所述再处理还包括对预处理后的业务***数据进行标准化和验证。
17.如权利要求11-14任一项所述的监控***,其特征在于,监控项分析包括根据对应于被监控服务的所述监控项所预先设定的关键词,判断再处理后的业务***日志是否为所述异常单元。
18.如权利要求11-14任一项所述的监控***,其特征在于,所述监控规则包括***级异常合并和/或应用级异常合并,其中所述***级异常合并为定义监控异常报警的次数阈值,所述应用级异常合并为用户可自定义监控异常合并的优先级。
19.如权利要求11-14任一项所述的监控***,其特征在于,所述监控策略包括节点监控策略、节点阈值监控策略、节点阈值比例监控策略、定点数据阈值监控策略、标准异常监控策略以及标准应用程序性能监控数据监控策略中的任意一种或多种。
20.如权利要求11所述的监控***,其特征在于,所述发出报警信息通过邮件、短信或者微信的一种或多种媒介实现。
21.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,其中当所述计算机程序被执行时,执行权利要求1-10中任一项所述监控方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其中当计算机程序被处理器执行时,执行上述权利要求1-10中任一项所述监控方法的步骤。
CN201711404987.3A 2017-12-22 2017-12-22 一种业务***的监控方法和监控*** Active CN107992398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711404987.3A CN107992398B (zh) 2017-12-22 2017-12-22 一种业务***的监控方法和监控***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711404987.3A CN107992398B (zh) 2017-12-22 2017-12-22 一种业务***的监控方法和监控***

Publications (2)

Publication Number Publication Date
CN107992398A true CN107992398A (zh) 2018-05-04
CN107992398B CN107992398B (zh) 2021-04-27

Family

ID=62041439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711404987.3A Active CN107992398B (zh) 2017-12-22 2017-12-22 一种业务***的监控方法和监控***

Country Status (1)

Country Link
CN (1) CN107992398B (zh)

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108845910A (zh) * 2018-05-31 2018-11-20 康键信息技术(深圳)有限公司 大规模微服务***的监控方法、装置及存储介质
CN108959054A (zh) * 2018-07-16 2018-12-07 郑州云海信息技术有限公司 一种基于Logstash的日志处理方法和装置
CN108984376A (zh) * 2018-05-31 2018-12-11 阿里巴巴集团控股有限公司 一种***异常检测方法、装置及设备
CN109413063A (zh) * 2018-10-23 2019-03-01 中国平安人寿保险股份有限公司 一种基于大数据的白名单更新方法、装置及电子设备
CN109491873A (zh) * 2018-11-05 2019-03-19 网易无尾熊(杭州)科技有限公司 缓存监控方法、介质、装置和计算设备
CN109582533A (zh) * 2018-10-31 2019-04-05 深圳壹账通智能科技有限公司 数据分析方法、装置、电子设备及存储介质
CN109739724A (zh) * 2018-12-29 2019-05-10 携程旅游网络技术(上海)有限公司 数据监控方法、***、电子设备和存储介质
CN109766323A (zh) * 2018-12-17 2019-05-17 深圳壹账通智能科技有限公司 贷款交易全链路监控方法、装置、计算机设备和存储介质
CN109871380A (zh) * 2019-01-14 2019-06-11 深圳市东信时代信息技术有限公司 一种基于Redis的人群包应用方法及***
CN109960635A (zh) * 2019-04-18 2019-07-02 江苏满运软件科技有限公司 实时计算平台的监控和报警方法、***、设备及存储介质
CN110072251A (zh) * 2019-04-23 2019-07-30 贵阳朗玛通信科技有限公司 一种分析用户通讯行为与管理用户的方法及装置
CN110138634A (zh) * 2019-04-03 2019-08-16 福建天泉教育科技有限公司 一种重点数据的监控方法及终端
CN110147405A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 一种基于基架运维的监控方法、装置、设备和存储介质
CN110335142A (zh) * 2019-06-28 2019-10-15 苏宁消费金融有限公司 一种基于联合贷款的智能流转业务的实现***
CN110598199A (zh) * 2018-06-12 2019-12-20 百度在线网络技术(北京)有限公司 数据流式处理方法、装置、计算机设备和存储介质
CN110688173A (zh) * 2019-09-29 2020-01-14 北京金山安全软件有限公司 一种跨平台界面框架中组件的定位方法、装置及电子设备
WO2020015098A1 (zh) * 2018-07-18 2020-01-23 平安科技(深圳)有限公司 数据管理方法、终端设备及介质
CN110795315A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 监控业务的方法和装置
CN110808993A (zh) * 2019-11-08 2020-02-18 京东数字科技控股有限公司 数据传输控制方法、装置、计算机***和介质
CN110858170A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 沙盒组件、数据异常监控方法、设备和存储介质
CN110928716A (zh) * 2019-10-24 2020-03-27 江苏苏宁物流有限公司 调度任务异常处理方法及装置
CN111274095A (zh) * 2020-02-24 2020-06-12 深圳前海微众银行股份有限公司 日志数据处理方法、装置、设备及计算机可读存储介质
CN111290927A (zh) * 2018-12-06 2020-06-16 北京京东尚科信息技术有限公司 一种数据监控方法和装置
CN111324374A (zh) * 2018-12-17 2020-06-23 顺丰科技有限公司 基于应用性能管理***的应用程序的注册方法和装置
WO2020147264A1 (zh) * 2019-01-14 2020-07-23 平安科技(深圳)有限公司 多***日志数据的监控方法、装置、设备及可读存储介质
CN111447202A (zh) * 2020-03-24 2020-07-24 江苏易安联网络技术有限公司 一种安全策略可视化编排***
CN111694715A (zh) * 2020-04-14 2020-09-22 新华三大数据技术有限公司 一种异常告警方法、装置、设备及机器可读存储介质
CN111770002A (zh) * 2020-06-12 2020-10-13 南京领行科技股份有限公司 测试数据转发控制方法、装置、可读存储介质和电子设备
CN111782481A (zh) * 2020-07-15 2020-10-16 五色石(杭州)数据技术有限公司 一种通用数据接口监控***和监控方法
CN111796984A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN111815449A (zh) * 2020-07-13 2020-10-23 上证所信息网络有限公司 一种基于流计算的多主机行情***的异常检测方法及***
CN111858250A (zh) * 2020-07-22 2020-10-30 平安证券股份有限公司 监控问题检查方法、装置、计算机设备和存储介质
CN112039936A (zh) * 2019-06-03 2020-12-04 杭州海康威视***技术有限公司 数据传输方法、第一数据处理设备及监控***
CN112187511A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种定位微服务熔断异常的方法、***、设备及介质
CN112256516A (zh) * 2019-07-22 2021-01-22 广州酷旅旅行社有限公司 一种酒店直连***用数据分析处理方法
WO2021012481A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 ***性能监控方法、装置、设备及存储介质
CN112333188A (zh) * 2020-11-04 2021-02-05 成都中科大旗软件股份有限公司 数据服务接口、日志监管方法、***、存储介质及终端
CN112492632A (zh) * 2020-11-09 2021-03-12 厦门亿联网络技术股份有限公司 一种基于漫游***的异常监控方法、***
CN112685256A (zh) * 2020-12-30 2021-04-20 上海掌门科技有限公司 服务端监控方法、设备和介质
CN112799903A (zh) * 2019-11-14 2021-05-14 北京沃东天骏信息技术有限公司 一种业务***健康状态的评估方法和装置
CN113064797A (zh) * 2021-04-22 2021-07-02 平安国际智慧城市科技股份有限公司 前端监控方法、装置、电子设备及存储介质
CN113138898A (zh) * 2021-04-26 2021-07-20 上海淇玥信息技术有限公司 对业务***异常进行识别预警的方法、装置和电子设备
CN113485891A (zh) * 2021-06-30 2021-10-08 中国民航信息网络股份有限公司 业务日志监控方法、装置、存储介质及电子设备
CN113656243A (zh) * 2021-07-28 2021-11-16 连连(杭州)信息技术有限公司 一种业务指标监控方法、装置、设备及存储介质
CN113760640A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 监控日志处理方法、装置、设备及存储介质
CN113760641A (zh) * 2021-01-08 2021-12-07 北京沃东天骏信息技术有限公司 业务监控方法、装置、计算机***和计算机可读存储介质
CN113837868A (zh) * 2021-09-30 2021-12-24 重庆富民银行股份有限公司 一种客群分层***及方法
CN114091698A (zh) * 2021-11-15 2022-02-25 广东电网有限责任公司 一种业务数据三维可视化方法、***、设备及计算机介质
CN114615169A (zh) * 2020-12-03 2022-06-10 腾讯科技(深圳)有限公司 路径监控方法、装置和计算机可读存储介质
CN114637656A (zh) * 2022-05-13 2022-06-17 飞狐信息技术(天津)有限公司 基于Redis的监控方法、装置、存储介质和设备
CN116895046A (zh) * 2023-07-21 2023-10-17 北京亿宇嘉隆科技有限公司 基于虚拟化的异常运维数据处理方法
TWI836263B (zh) * 2021-09-02 2024-03-21 大陸商鼎捷軟件股份有限公司 接口控制系統以及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317231A1 (en) * 2010-03-31 2015-11-05 Cloudera, Inc. Collecting and aggregating log data with fault tolerance
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件***的实时监控***及方法
CN105847083A (zh) * 2016-03-22 2016-08-10 乐视云计算有限公司 一种业务集中监控方法及***
CN106294066A (zh) * 2016-08-01 2017-01-04 北京百度网讯科技有限公司 报警数据处理方法及装置
CN106407077A (zh) * 2016-09-21 2017-02-15 广州华多网络科技有限公司 一种实时告警方法及***
CN106776780A (zh) * 2016-11-23 2017-05-31 中国科学院软件研究所 一种云环境中数据交换与共享方法及***
CN106897614A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种ssr上主动防御日志告警方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317231A1 (en) * 2010-03-31 2015-11-05 Cloudera, Inc. Collecting and aggregating log data with fault tolerance
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件***的实时监控***及方法
CN105847083A (zh) * 2016-03-22 2016-08-10 乐视云计算有限公司 一种业务集中监控方法及***
CN106294066A (zh) * 2016-08-01 2017-01-04 北京百度网讯科技有限公司 报警数据处理方法及装置
CN106407077A (zh) * 2016-09-21 2017-02-15 广州华多网络科技有限公司 一种实时告警方法及***
CN106776780A (zh) * 2016-11-23 2017-05-31 中国科学院软件研究所 一种云环境中数据交换与共享方法及***
CN106897614A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种ssr上主动防御日志告警方法

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984376B (zh) * 2018-05-31 2021-11-19 创新先进技术有限公司 一种***异常检测方法、装置及设备
CN108984376A (zh) * 2018-05-31 2018-12-11 阿里巴巴集团控股有限公司 一种***异常检测方法、装置及设备
CN108845910B (zh) * 2018-05-31 2024-02-06 康键信息技术(深圳)有限公司 大规模微服务***的监控方法、装置及存储介质
CN108845910A (zh) * 2018-05-31 2018-11-20 康键信息技术(深圳)有限公司 大规模微服务***的监控方法、装置及存储介质
CN110598199B (zh) * 2018-06-12 2023-07-25 百度在线网络技术(北京)有限公司 数据流式处理方法、装置、计算机设备和存储介质
CN110598199A (zh) * 2018-06-12 2019-12-20 百度在线网络技术(北京)有限公司 数据流式处理方法、装置、计算机设备和存储介质
CN108959054A (zh) * 2018-07-16 2018-12-07 郑州云海信息技术有限公司 一种基于Logstash的日志处理方法和装置
WO2020015098A1 (zh) * 2018-07-18 2020-01-23 平安科技(深圳)有限公司 数据管理方法、终端设备及介质
CN110795315A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 监控业务的方法和装置
CN110858170B (zh) * 2018-08-23 2023-06-30 阿里巴巴集团控股有限公司 数据异常监控方法和装置
CN110858170A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 沙盒组件、数据异常监控方法、设备和存储介质
CN109413063B (zh) * 2018-10-23 2022-01-18 中国平安人寿保险股份有限公司 一种基于大数据的白名单更新方法、装置及电子设备
CN109413063A (zh) * 2018-10-23 2019-03-01 中国平安人寿保险股份有限公司 一种基于大数据的白名单更新方法、装置及电子设备
CN109582533A (zh) * 2018-10-31 2019-04-05 深圳壹账通智能科技有限公司 数据分析方法、装置、电子设备及存储介质
CN109491873A (zh) * 2018-11-05 2019-03-19 网易无尾熊(杭州)科技有限公司 缓存监控方法、介质、装置和计算设备
CN111290927A (zh) * 2018-12-06 2020-06-16 北京京东尚科信息技术有限公司 一种数据监控方法和装置
CN111324374A (zh) * 2018-12-17 2020-06-23 顺丰科技有限公司 基于应用性能管理***的应用程序的注册方法和装置
CN109766323A (zh) * 2018-12-17 2019-05-17 深圳壹账通智能科技有限公司 贷款交易全链路监控方法、装置、计算机设备和存储介质
CN111324374B (zh) * 2018-12-17 2024-04-16 顺丰科技有限公司 基于应用性能管理***的应用程序的注册方法和装置
CN109739724A (zh) * 2018-12-29 2019-05-10 携程旅游网络技术(上海)有限公司 数据监控方法、***、电子设备和存储介质
CN109739724B (zh) * 2018-12-29 2022-07-08 携程旅游网络技术(上海)有限公司 数据监控方法、***、电子设备和存储介质
CN109871380A (zh) * 2019-01-14 2019-06-11 深圳市东信时代信息技术有限公司 一种基于Redis的人群包应用方法及***
WO2020147264A1 (zh) * 2019-01-14 2020-07-23 平安科技(深圳)有限公司 多***日志数据的监控方法、装置、设备及可读存储介质
CN109871380B (zh) * 2019-01-14 2022-11-11 深圳市东信时代信息技术有限公司 一种基于Redis的人群包应用方法及***
CN110138634A (zh) * 2019-04-03 2019-08-16 福建天泉教育科技有限公司 一种重点数据的监控方法及终端
CN110147405A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 一种基于基架运维的监控方法、装置、设备和存储介质
CN109960635A (zh) * 2019-04-18 2019-07-02 江苏满运软件科技有限公司 实时计算平台的监控和报警方法、***、设备及存储介质
CN110072251A (zh) * 2019-04-23 2019-07-30 贵阳朗玛通信科技有限公司 一种分析用户通讯行为与管理用户的方法及装置
CN112039936B (zh) * 2019-06-03 2023-07-14 杭州海康威视***技术有限公司 数据传输方法、第一数据处理设备及监控***
CN112039936A (zh) * 2019-06-03 2020-12-04 杭州海康威视***技术有限公司 数据传输方法、第一数据处理设备及监控***
CN110335142A (zh) * 2019-06-28 2019-10-15 苏宁消费金融有限公司 一种基于联合贷款的智能流转业务的实现***
CN110335142B (zh) * 2019-06-28 2022-04-08 苏宁消费金融有限公司 一种基于联合贷款的智能流转业务的实现***
CN112256516A (zh) * 2019-07-22 2021-01-22 广州酷旅旅行社有限公司 一种酒店直连***用数据分析处理方法
WO2021012481A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 ***性能监控方法、装置、设备及存储介质
CN110688173B (zh) * 2019-09-29 2023-01-20 北京金山安全软件有限公司 一种跨平台界面框架中组件的定位方法、装置及电子设备
CN110688173A (zh) * 2019-09-29 2020-01-14 北京金山安全软件有限公司 一种跨平台界面框架中组件的定位方法、装置及电子设备
CN110928716B (zh) * 2019-10-24 2022-09-06 江苏苏宁物流有限公司 调度任务异常处理方法及装置
CN110928716A (zh) * 2019-10-24 2020-03-27 江苏苏宁物流有限公司 调度任务异常处理方法及装置
CN110808993A (zh) * 2019-11-08 2020-02-18 京东数字科技控股有限公司 数据传输控制方法、装置、计算机***和介质
CN112799903A (zh) * 2019-11-14 2021-05-14 北京沃东天骏信息技术有限公司 一种业务***健康状态的评估方法和装置
CN111274095A (zh) * 2020-02-24 2020-06-12 深圳前海微众银行股份有限公司 日志数据处理方法、装置、设备及计算机可读存储介质
CN111274095B (zh) * 2020-02-24 2023-01-24 深圳前海微众银行股份有限公司 日志数据处理方法、装置、设备及计算机可读存储介质
CN111447202B (zh) * 2020-03-24 2021-03-30 江苏易安联网络技术有限公司 一种安全策略可视化编排***
CN111447202A (zh) * 2020-03-24 2020-07-24 江苏易安联网络技术有限公司 一种安全策略可视化编排***
CN111694715A (zh) * 2020-04-14 2020-09-22 新华三大数据技术有限公司 一种异常告警方法、装置、设备及机器可读存储介质
CN111770002A (zh) * 2020-06-12 2020-10-13 南京领行科技股份有限公司 测试数据转发控制方法、装置、可读存储介质和电子设备
CN111796984A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN111815449A (zh) * 2020-07-13 2020-10-23 上证所信息网络有限公司 一种基于流计算的多主机行情***的异常检测方法及***
CN111815449B (zh) * 2020-07-13 2023-12-19 上证所信息网络有限公司 一种基于流计算的多主机行情***的异常检测方法及***
CN111782481B (zh) * 2020-07-15 2023-11-07 五色石(杭州)数据技术有限公司 一种通用数据接口监控***和监控方法
CN111782481A (zh) * 2020-07-15 2020-10-16 五色石(杭州)数据技术有限公司 一种通用数据接口监控***和监控方法
CN111858250A (zh) * 2020-07-22 2020-10-30 平安证券股份有限公司 监控问题检查方法、装置、计算机设备和存储介质
CN111858250B (zh) * 2020-07-22 2022-11-01 平安证券股份有限公司 监控问题检查方法、装置、计算机设备和存储介质
CN112187511A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种定位微服务熔断异常的方法、***、设备及介质
CN112333188A (zh) * 2020-11-04 2021-02-05 成都中科大旗软件股份有限公司 数据服务接口、日志监管方法、***、存储介质及终端
CN112333188B (zh) * 2020-11-04 2022-11-18 成都中科大旗软件股份有限公司 数据服务接口、日志监管方法、***、存储介质及终端
CN112492632B (zh) * 2020-11-09 2023-02-17 厦门亿联网络技术股份有限公司 一种基于漫游***的异常监控方法、***
CN112492632A (zh) * 2020-11-09 2021-03-12 厦门亿联网络技术股份有限公司 一种基于漫游***的异常监控方法、***
CN113760640A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 监控日志处理方法、装置、设备及存储介质
CN114615169B (zh) * 2020-12-03 2023-10-20 腾讯科技(深圳)有限公司 路径监控方法、装置和计算机可读存储介质
CN114615169A (zh) * 2020-12-03 2022-06-10 腾讯科技(深圳)有限公司 路径监控方法、装置和计算机可读存储介质
CN112685256A (zh) * 2020-12-30 2021-04-20 上海掌门科技有限公司 服务端监控方法、设备和介质
CN113760641A (zh) * 2021-01-08 2021-12-07 北京沃东天骏信息技术有限公司 业务监控方法、装置、计算机***和计算机可读存储介质
CN113064797A (zh) * 2021-04-22 2021-07-02 平安国际智慧城市科技股份有限公司 前端监控方法、装置、电子设备及存储介质
CN113138898A (zh) * 2021-04-26 2021-07-20 上海淇玥信息技术有限公司 对业务***异常进行识别预警的方法、装置和电子设备
CN113485891A (zh) * 2021-06-30 2021-10-08 中国民航信息网络股份有限公司 业务日志监控方法、装置、存储介质及电子设备
CN113656243B (zh) * 2021-07-28 2024-05-31 连连(杭州)信息技术有限公司 一种业务指标监控方法、装置、设备及存储介质
CN113656243A (zh) * 2021-07-28 2021-11-16 连连(杭州)信息技术有限公司 一种业务指标监控方法、装置、设备及存储介质
TWI836263B (zh) * 2021-09-02 2024-03-21 大陸商鼎捷軟件股份有限公司 接口控制系統以及方法
CN113837868A (zh) * 2021-09-30 2021-12-24 重庆富民银行股份有限公司 一种客群分层***及方法
CN114091698A (zh) * 2021-11-15 2022-02-25 广东电网有限责任公司 一种业务数据三维可视化方法、***、设备及计算机介质
CN114637656B (zh) * 2022-05-13 2022-09-20 飞狐信息技术(天津)有限公司 基于Redis的监控方法、装置、存储介质和设备
CN114637656A (zh) * 2022-05-13 2022-06-17 飞狐信息技术(天津)有限公司 基于Redis的监控方法、装置、存储介质和设备
CN116895046A (zh) * 2023-07-21 2023-10-17 北京亿宇嘉隆科技有限公司 基于虚拟化的异常运维数据处理方法
CN116895046B (zh) * 2023-07-21 2024-05-07 北京亿宇嘉隆科技有限公司 基于虚拟化的异常运维数据处理方法

Also Published As

Publication number Publication date
CN107992398B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN107992398A (zh) 一种业务***的监控方法和监控***
EP2411927B1 (en) Monitoring of distributed applications
US8892960B2 (en) System and method for determining causes of performance problems within middleware systems
US20120311562A1 (en) Extendable event processing
CN107229556A (zh) 基于elastic组件的日志分析***
CN107273267A (zh) 基于elastic组件的日志分析方法
US8589343B2 (en) Systems and methods for digital file change monitoring
CN111092786B (zh) 网络设备安全认证服务可靠性增强***
CN101321084A (zh) 在计算机环境中利用关联规则挖掘为计算实体产生配置规则的方法和装置
US20200341868A1 (en) System and Method for Reactive Log Spooling
CN107544832A (zh) 一种虚拟机进程的监控方法、装置和***
CN109495291B (zh) 调用异常的定位方法、装置和服务器
US9600523B2 (en) Efficient data collection mechanism in middleware runtime environment
Tang et al. Optimizing system monitoring configurations for non-actionable alerts
CN112954031B (zh) 一种基于云手机的设备状态通知方法
CN112596975A (zh) 对网络设备进行监控处理的方法、***、设备和存储介质
CN113190417A (zh) 微服务状态检测方法、模型的训练方法、设备及存储介质
CN113505044A (zh) 数据库告警方法、装置、设备和存储介质
CN112969172B (zh) 一种基于云手机的通讯流量控制方法
CN110865866A (zh) 一种基于自省技术的虚拟机安全检测方法
CN104794040B (zh) 业务监控方法、装置及***
Liu et al. A framework for database auditing
Meng et al. Driftinsight: detecting anomalous behaviors in large-scale cloud platform
CN113961414A (zh) 一种日志数据的处理方法、装置、设备及存储介质
CN110401582B (zh) 云计算***存储健康度窘迫的检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant