CN103701657A - 用于不间断运行的数据处理***的异常监控及处理装置和方法 - Google Patents

用于不间断运行的数据处理***的异常监控及处理装置和方法 Download PDF

Info

Publication number
CN103701657A
CN103701657A CN201210368459.8A CN201210368459A CN103701657A CN 103701657 A CN103701657 A CN 103701657A CN 201210368459 A CN201210368459 A CN 201210368459A CN 103701657 A CN103701657 A CN 103701657A
Authority
CN
China
Prior art keywords
monitoring
abnormal
goal systems
report information
processing logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210368459.8A
Other languages
English (en)
Inventor
戚跃民
胡文斌
程军
陈根
吴正中
黄明雄
王昊
冀乃庚
杨燕明
蒋群华
张凉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201210368459.8A priority Critical patent/CN103701657A/zh
Publication of CN103701657A publication Critical patent/CN103701657A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提出了用于不间断运行的数据处理***的异常监控及处理装置和方法。其中,所述方法包括:监控目标***的基础环境,并且生成基础环境报告信息;周期性地向所述目标***发送应用处理逻辑监控测试消息,并且生成应用处理逻辑报告信息;基于监控规则以及所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质,并基于判断结果自动地执行与所述异常相关联的异常处理操作。本发明所公开的异常监控及处理装置和方法能够实时准确地监控异常并自动地实施相关联的应急预案。

Description

用于不间断运行的数据处理***的异常监控及处理装置和方法
技术领域
本发明涉及异常监控及处理装置和方法,更具体地,涉及用于不间断运行的数据处理***的异常监控及处理装置和方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,对不间断运行的数据处理***(即7×24小时连续运行的数据处理***,例如金融领域中的交易处理服务器)的异常进行监控和处理变得越来越重要。
现有的用于不间断运行的数据处理***的异常监控***及方法仅针对目标***的状态进行监控,并且对于监控发现的异常和告警通常需要人工介入处理。
由上可见,现有的用于不间断运行的数据处理***的异常监控***及方法存在如下问题:(1)由于需要人工介入处理,故会导致人工误差,并且时效性较低;(2)由于常规的监控***不监控目标***的业务逻辑,即相对独立并具有通用性,故无法建立特定的监控规则以监控目标***的业务逻辑;(3)由于在进行异常处理时缺乏综合判断并且需要人工介入处理,故不能快速的应对异常以及准确实施应急预案。
因此,存在如下需求:提供能够实时准确地监控异常并自动地实施相关联的应急预案的用于不间断运行的数据处理***的异常监控及处理装置和方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够实时准确地监控异常并自动地实施相关联的应急预案的用于不间断运行的数据处理***的异常监控及处理装置和方法。
本发明的目的是通过以下技术方案实现的:
一种异常监控及处理装置,所述异常监控及处理装置包括:
第一监控单元,所述第一监控单元监控目标***的基础环境,并且生成基础环境报告信息,以及将所述基础环境报告信息发送到主控制器;
第二监控单元,所述第二监控单元周期性地向所述目标***发送应用处理逻辑监控测试消息,并且生成应用处理逻辑报告信息,以及将所述应用处理逻辑报告信息传送到所述主控制器;
主控制器,所述主控制器基于监控规则以及接收到的所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质,并基于判断结果自动地执行与所述异常相关联的异常处理操作,以使所述目标***恢复正常;
存储器,所述存储器存储所述监控规则。
在上面所公开的方案中,优选地,所述第一监控单元监控所述目标***的基础环境包括执行下列操作中的至少一个:监控网络状态、监控主机运行状态、监控进程状态、监控应用日志。
在上面所公开的方案中,优选地,所述第一监控单元基于至少一个监控指标监控所述目标***的基础环境。
在上面所公开的方案中,优选地,所述第二监控单元基于至少一个应用业务维度上的至少一个业务应用监控指标监控所述目标***的应用处理逻辑。
在上面所公开的方案中,优选地,所述第二监控单元通过所述应用处理逻辑监控测试消息从所述目标***的应用数据中获取信息并关注所述目标***的输出,以及根据所述目标***历史行为建立基线,从而监控所述目标***的应用处理逻辑。
在上面所公开的方案中,优选地,所述主控制器在基于所述监控规则执行判断操作前基于过滤规则对接收到的所述基础环境报告信息和应用处理逻辑报告信息执行过滤操作,以去除无关的信息,其中,所述存储器存储所述过滤规则。
在上面所公开的方案中,优选地,用户通过所述异常监控及处理装置的用户接口或通过配置文件设置所述监控规则、和/或过滤规则、和/或异常与异常处理操作之间的关联关系。
在上面所公开的方案中,优选地,所述存储器进一步存储异常与异常处理操作之间的关联关系。
在上面所公开的方案中,优选地,所述主控制器在执行完所述异常处理操作后监控所述异常处理操作的实施结果。
本发明的目的也可以通过以下技术方案实现:
一种异常监控及处理方法,所述异常监控及处理方法包括下列步骤:
(A1)监控目标***的基础环境,并且生成基础环境报告信息;
(A2)周期性地向所述目标***发送应用处理逻辑监控测试消息,并且生成应用处理逻辑报告信息;
(A3)基于监控规则以及所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质,并基于判断结果自动地执行与所述异常相关联的异常处理操作,以使所述目标***恢复正常。
本发明所公开的用于不间断运行的数据处理***的异常监控及处理装置和方法具有以下优点:(1)由于异常处理操作自动地执行而无需人工介入,故不会引入人工误差,并且异常处理的时效性较高;(2)由于监控目标***的应用处理逻辑,故可以通过建立特定的监控规则而监控目标***的应用处理逻辑是否发生异常;(3)由于基于基础环境报告信息和应用处理逻辑报告信息综合判断,故可以快速的应对异常并准确地实施应急预案。    
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的异常监控及处理装置的示意性结构图;
图2是根据本发明的实施例的异常监控及处理方法的流程图。
具体实施方式
图1是根据本发明的实施例的异常监控及处理装置的示意性结构图。如图1所示,本发明所公开的异常监控及处理装置包括主控制器1、第一监控单元2、第二监控单元3和存储器4。其中,所述第一监控单元2监控目标***(即需要被监控的数据处理***)的基础环境,并且生成基础环境报告信息,以及将所述基础环境报告信息发送到主控制器1。所述第二监控单元3周期性地(例如每分钟)向所述目标***发送应用处理逻辑监控测试消息(例如用于检测交易处理服务器的业务表现行为是否正常的交易探针),并且生成应用处理逻辑报告信息,以及将所述应用处理逻辑报告信息传送到所述主控制器1。所述主控制器1基于监控规则以及接收到的所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质(示例性地,该判断操作在几秒内完成),并基于判断结果自动地执行与所述异常相关联的异常处理操作(例如应急预案),以使所述目标***恢复正常。所述存储器4存储所述监控规则。
优选地,在本发明所公开的异常监控及处理装置中,所述第一监控单元2监控所述目标***的基础环境包括执行下列中的至少一个:监控网络状态、监控主机运行状态、监控进程状态、监控应用日志。
优选地,在本发明所公开的异常监控及处理装置中,所述第一监控单元2基于至少一个监控指标监控所述目标***的基础环境。
优选地,在本发明所公开的异常监控及处理装置中,所述第二监控单元3基于至少一个应用业务维度(即应用业务)上的至少一个业务应用监控指标监控所述目标***的应用处理逻辑。
示例性地,在本发明所公开的异常监控及处理装置中,所述第二监控单元3通过所述应用处理逻辑监控测试消息从所述目标***的应用数据(例如交易数据)中获取信息并关注所述目标***的输出,以及根据所述目标***历史行为建立基线(即用于随后的判断操作的基础),从而监控所述目标***的应用处理逻辑(例如交易处理逻辑)。
优选地,在本发明所公开的异常监控及处理装置中,所述主控制器1在基于所述监控规则执行判断操作前基于过滤规则对接收到的所述基础环境报告信息和应用处理逻辑报告信息执行过滤操作,以去除无关的信息,其中,所述存储器4存储所述过滤规则。
优选地,在本发明所公开的异常监控及处理装置中,用户通过所述异常监控及处理装置的用户接口(未示出)或通过配置文件设置所述监控规则、和/或过滤规则、和/或异常与异常处理操作之间的关联关系。
优选地,在本发明所公开的异常监控及处理装置中,所述存储器4进一步存储异常与异常处理操作之间的关联关系(即异常与异常处理操作之间的一一对应的关系)。
优选地,在本发明所公开的异常监控及处理装置中,所述主控制器1在执行完所述异常处理操作后监控所述异常处理操作的实施结果。
示例性地,在本发明所公开的异常监控及处理装置中,所述主控制器1通过telnet协议或HTTP协议执行所述异常处理操作。
由上可见,本发明所公开的异常监控及处理装置具有如下优点:(1)由于异常处理操作自动地执行而无需人工介入,故不会引入人工误差,并且异常处理的时效性较高;(2)由于监控目标***的应用处理逻辑,故可以通过建立特定的监控规则而监控目标***的应用处理逻辑是否发生异常;(3)由于基于基础环境报告信息和应用处理逻辑报告信息综合判断,故可以快速的应对异常并准确地实施应急预案。
图2是根据本发明的实施例的异常监控及处理方法的流程图。如图2所示,本发明所公开的异常监控及处理方法包括下列步骤:(A1)监控目标***(即需要被监控的数据处理***)的基础环境,并且生成基础环境报告信息;(A2)周期性地(例如每分钟)向所述目标***发送应用处理逻辑监控测试消息(例如用于检测交易处理服务器的业务表现行为是否正常的交易探针),并且生成应用处理逻辑报告信息;(A3)基于监控规则以及所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质(示例性地,该判断操作在几秒内完成),并基于判断结果自动地执行与所述异常相关联的异常处理操作(例如应急预案),以使所述目标***恢复正常。
优选地,在本发明所公开的异常监控及处理方法中,所述步骤(A1)进一步包括:执行下列操作中的至少一个:监控网络状态、监控主机运行状态、监控进程状态、监控应用日志。
优选地,在本发明所公开的异常监控及处理方法中,所述步骤(A1)进一步包括:基于至少一个监控指标监控所述目标***的基础环境。
优选地,在本发明所公开的异常监控及处理方法中,所述步骤(A2)进一步包括:基于至少一个应用业务维度(即应用业务)上的至少一个业务应用监控指标监控所述目标***的应用处理逻辑。
示例性地,在本发明所公开的异常监控及处理方法中,所述步骤(A2)进一步包括:通过所述应用处理逻辑监控测试消息从所述目标***的应用数据(例如交易数据)中获取信息并关注所述目标***的输出,以及根据所述目标***历史行为建立基线(即用于随后的判断操作的基础),从而监控所述目标***的应用处理逻辑(例如交易处理逻辑)。
优选地,在本发明所公开的异常监控及处理方法中,所述步骤(A3)进一步包括:在基于所述监控规则执行判断操作前基于过滤规则对所述基础环境报告信息和应用处理逻辑报告信息执行过滤操作,以去除无关的信息。
优选地,在本发明所公开的异常监控及处理方法中,用户通过用户接口或配置文件设置所述监控规则、和/或过滤规则、和/或异常与异常处理操作之间的关联关系。
优选地,在本发明所公开的异常监控及处理方法中,所述步骤(A3)进一步包括:在执行完所述异常处理操作后监控所述异常处理操作的实施结果。
示例性地,在本发明所公开的异常监控及处理方法中,通过telnet协议或HTTP协议执行所述异常处理操作。
由上可见,本发明所公开的异常监控及处理方法具有如下优点:(1)由于异常处理操作自动地执行而无需人工介入,故不会引入人工误差,并且异常处理的时效性较高;(2)由于监控目标***的应用处理逻辑,故可以通过建立特定的监控规则而监控目标***的应用处理逻辑是否发生异常;(3)由于基于基础环境报告信息和应用处理逻辑报告信息综合判断,故可以快速的应对异常并准确地实施应急预案。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (10)

1.一种异常监控及处理装置,所述异常监控及处理装置包括:
第一监控单元,所述第一监控单元监控目标***的基础环境,并且生成基础环境报告信息,以及将所述基础环境报告信息发送到主控制器;
第二监控单元,所述第二监控单元周期性地向所述目标***发送应用处理逻辑监控测试消息,并且生成应用处理逻辑报告信息,以及将所述应用处理逻辑报告信息传送到所述主控制器;
主控制器,所述主控制器基于监控规则以及接收到的所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质,并基于判断结果自动地执行与所述异常相关联的异常处理操作,以使所述目标***恢复正常;
存储器,所述存储器存储所述监控规则。
2.根据权利要求1所述的异常监控及处理装置,其特征在于,所述第一监控单元监控所述目标***的基础环境包括执行下列操作中的至少一个:监控网络状态、监控主机运行状态、监控进程状态、监控应用日志。
3.根据权利要求2所述的异常监控及处理装置,其特征在于,所述第一监控单元基于至少一个监控指标监控所述目标***的基础环境。
4.根据权利要求3所述的异常监控及处理装置,其特征在于,所述第二监控单元基于至少一个应用业务维度上的至少一个业务应用监控指标监控所述目标***的应用处理逻辑。
5.根据权利要求4所述的异常监控及处理装置,其特征在于,所述第二监控单元通过所述应用处理逻辑监控测试消息从所述目标***的应用数据中获取信息并关注所述目标***的输出,以及根据所述目标***历史行为建立基线,从而监控所述目标***的应用处理逻辑。
6.根据权利要求5所述的异常监控及处理装置,其特征在于,所述主控制器在基于所述监控规则执行判断操作前基于过滤规则对接收到的所述基础环境报告信息和应用处理逻辑报告信息执行过滤操作,以去除无关的信息,其中,所述存储器存储所述过滤规则。
7.根据权利要求6所述的异常监控及处理装置,其特征在于,用户通过所述异常监控及处理装置的用户接口或通过配置文件设置所述监控规则、和/或过滤规则、和/或异常与异常处理操作之间的关联关系。
8.根据权利要求7所述的异常监控及处理装置,其特征在于,所述存储器进一步存储异常与异常处理操作之间的关联关系。
9.根据权利要求8所述的异常监控及处理装置,其特征在于,所述主控制器在执行完所述异常处理操作后监控所述异常处理操作的实施结果。
10.一种异常监控及处理方法,所述异常监控及处理方法包括下列步骤:
(A1)监控目标***的基础环境,并且生成基础环境报告信息;
(A2)周期性地向所述目标***发送应用处理逻辑监控测试消息,并且生成应用处理逻辑报告信息;
(A3)基于监控规则以及所述基础环境报告信息和应用处理逻辑报告信息判断所述目标***是否异常以及异常的性质,并基于判断结果自动地执行与所述异常相关联的异常处理操作,以使所述目标***恢复正常。
CN201210368459.8A 2012-09-28 2012-09-28 用于不间断运行的数据处理***的异常监控及处理装置和方法 Pending CN103701657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210368459.8A CN103701657A (zh) 2012-09-28 2012-09-28 用于不间断运行的数据处理***的异常监控及处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210368459.8A CN103701657A (zh) 2012-09-28 2012-09-28 用于不间断运行的数据处理***的异常监控及处理装置和方法

Publications (1)

Publication Number Publication Date
CN103701657A true CN103701657A (zh) 2014-04-02

Family

ID=50363060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210368459.8A Pending CN103701657A (zh) 2012-09-28 2012-09-28 用于不间断运行的数据处理***的异常监控及处理装置和方法

Country Status (1)

Country Link
CN (1) CN103701657A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104363113A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种业务连续性检测方法
CN104980962A (zh) * 2014-04-03 2015-10-14 ***通信集团设计院有限公司 一种外场测试周期的确定方法及装置
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN108073499A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 应用程序的测试方法及装置
CN108509321A (zh) * 2017-02-24 2018-09-07 北京京东尚科信息技术有限公司 生成数据立方体的监控方法和***
CN108683639A (zh) * 2018-04-23 2018-10-19 丙申南京网络技术有限公司 一种计算机网络异常检测及自动修复***、方法及移动终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153704A1 (en) * 2001-02-09 2004-08-05 Jurgen Bragulla Automatic startup of a cluster system after occurrence of a recoverable error
CN101482849A (zh) * 2009-02-24 2009-07-15 北京星网锐捷网络技术有限公司 测试监控方法和装置
CN101556679A (zh) * 2009-05-21 2009-10-14 中国建设银行股份有限公司 一种综合前端***故障处理方法及计算机设备
CN102043682A (zh) * 2011-01-27 2011-05-04 中国农业银行股份有限公司 一种工作流异常处理方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153704A1 (en) * 2001-02-09 2004-08-05 Jurgen Bragulla Automatic startup of a cluster system after occurrence of a recoverable error
CN101482849A (zh) * 2009-02-24 2009-07-15 北京星网锐捷网络技术有限公司 测试监控方法和装置
CN101556679A (zh) * 2009-05-21 2009-10-14 中国建设银行股份有限公司 一种综合前端***故障处理方法及计算机设备
CN102043682A (zh) * 2011-01-27 2011-05-04 中国农业银行股份有限公司 一种工作流异常处理方法和***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104980962A (zh) * 2014-04-03 2015-10-14 ***通信集团设计院有限公司 一种外场测试周期的确定方法及装置
CN104980962B (zh) * 2014-04-03 2019-04-30 ***通信集团设计院有限公司 一种外场测试周期的确定方法及装置
CN104363113A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种业务连续性检测方法
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN108073499A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 应用程序的测试方法及装置
CN108073499B (zh) * 2016-11-10 2020-09-29 腾讯科技(深圳)有限公司 应用程序的测试方法及装置
CN108509321A (zh) * 2017-02-24 2018-09-07 北京京东尚科信息技术有限公司 生成数据立方体的监控方法和***
CN108683639A (zh) * 2018-04-23 2018-10-19 丙申南京网络技术有限公司 一种计算机网络异常检测及自动修复***、方法及移动终端

Similar Documents

Publication Publication Date Title
CN103701657A (zh) 用于不间断运行的数据处理***的异常监控及处理装置和方法
CN104639380B (zh) 服务器监控方法
CN105659528B (zh) 一种实现故障定位的方法及装置
CN103490917B (zh) 故障处理情况的检测方法及装置
CN108092836A (zh) 一种服务器的监控方法及装置
CN104022904A (zh) 分布式机房it设备统一管理平台
US10931533B2 (en) System for network incident management
CN103713981A (zh) 一种数据库服务器性能检测和预警方法
CN103490919A (zh) 故障管理***和故障管理方法
CN104461820A (zh) 一种设备监控的方法及装置
CN104065526A (zh) 一种服务器故障报警的方法和装置
CN102404141A (zh) 一种告警抑制的方法及装置
CN102609350A (zh) 一种服务器内存故障报警方法
CN110784352A (zh) 一种基于Oracle Goldengate的数据同步监控告警方法及装置
US20210287523A1 (en) Method, apparatus, and system for managing alarms
CN111679950B (zh) 接口级动态数据采样方法及装置
CN105025179A (zh) 呼叫中心座席的监控方法及***
CN112817827A (zh) 运维方法、装置、服务器、设备、***及介质
TWI591489B (zh) Intelligent monitoring and warning device and method for distributed software defined storage system
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN111147542A (zh) 一种免密访问的设置方法、装置、设备及介质
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
CN104346233A (zh) 一种用于计算机***的故障恢复方法及装置
CN103457755A (zh) 一种iec 61850***通信故障检测的方法及***
CN116074180A (zh) 故障定位方法、故障修复方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140402

RJ01 Rejection of invention patent application after publication