CN107666399A - 一种监控数据的方法和装置 - Google Patents

一种监控数据的方法和装置 Download PDF

Info

Publication number
CN107666399A
CN107666399A CN201610602150.9A CN201610602150A CN107666399A CN 107666399 A CN107666399 A CN 107666399A CN 201610602150 A CN201610602150 A CN 201610602150A CN 107666399 A CN107666399 A CN 107666399A
Authority
CN
China
Prior art keywords
data
monitoring
message queue
abnormal data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610602150.9A
Other languages
English (en)
Inventor
李冬峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610602150.9A priority Critical patent/CN107666399A/zh
Publication of CN107666399A publication Critical patent/CN107666399A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种监控数据的方法和装置,由于对监控源进行了分类,因而分散了监控***压力;同时采用消息队列以及实时数据处理***对数据进行处理,不仅提升了监控***的容错性;另外,由于采用双消息队列,因而避免压力波动产生的运行风险,提升了***的稳定性。本发明的方法包括:采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的输入消息队列中;将所述输入消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果;根据所述计算结果确定所述待监控数据中的异常数据,然后输出该异常数据。

Description

一种监控数据的方法和装置
技术领域
本发明涉及计算机及其软件技术领域,特别涉及一种监控数据的方法和装置。
背景技术
随着互联网的快速发展,数据呈现***式的增长模式;随之而来的是,数据监控***通常需负责监控几万多台服务器运行情况、负责监控几十万调度任务的执行情况、以及负责监控海量数据的采集、搬运、计算、存储工作,因此,一个能够稳定并且高效运行的监控***对于一些企业或者电商平台来讲至关重要。
现有技术中,无论是收费、开源、还是自主开发的监控***,其本质都是:采集***运行数据与用户设定的阀值进行比对。将异常数据进行时时展现或者以告警信息的方式反馈相关人员。但是,由于现有的监控***由于受到技术能力、硬件资源等条件限制,通常都会存在数据处理上限,在对数据进行处理的过程中,一旦超出***上限,***轻则运行缓慢、重则***宕机、更有甚者将面临数据丢失的风险。
综上所述,现有的数据监控***通常由于技术能力以及硬件资源的限制,从而使得对数据的处理能力受到影响,特别是在需要处理海量数据时,通常会超出***处理上限,不仅无法对及时处理数据,而且可能会因为一些问题导致***运行缓慢,甚至监控***宕机,最终导致数据丢失以及企业无法正常运行。
发明内容
有鉴于此,本发明提供一种监控数据的方法和装置,由于对监控源进行了分类,因而能够在数据处理过程中分散监控***压力;同时采用消息队列以及实时数据处理***对数据进行处理,不仅提升了监控***的容错性;并且由于将实时计算***拆分为多个独立子***,使各子***可不依赖于***环境独立运行、可以支持热插拔,提升了***的扩展性,提升了监控***的运行效率;另外,由于采用双消息队列,因而避免压力波动产生的运行风险,提升了***的稳定性。
为实现上述目的,根据本发明的一个方面,提供了一种监控数据的方法。
本发明的监控数据的方法包括:采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的输入消息队列中;将所述输入消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果;所述子***是用于实现监控***不同功能的计算分支;根据所述计算结果确定所述待监控数据中的异常数据,然后输出该异常数据。
可选地,所述根据所述计算结果确定所述待监控数据中的异常数据的步骤包括:将所述计算结果与用户预设的监控阈值范围进行比对,将不符合所述监控阈值范围的监控数据作为异常数据。
可选地,输出该异常数据的步骤包括:将所述异常数据存入输出消息队列中;将输出消息队列中的所述异常数据输出。
可选地,所述输出该异常数据的步骤之后,还包括:将所述异常数据以图表和列表形式展现给用户。
可选地,所述子***为插件式子***。
根据本发明的另一个方面,提供了一种监控数据的装置。
本发明的监控数据的装置包括:采集模块,用于采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的输入消息队列中;计算模块,用于将所述输入消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果;所述子***是用于实现监控***不同功能的计算分支;输出模块,用于根据所述计算结果确定所述待监控数据中的异常数据,然后输出该异常数据。
可选地,所述输出模块还用于:将所述计算结果与用户预设的监控阈值范围进行比对,将不符合所述监控阈值范围的监控数据作为异常数据。
可选地,所述输出模块还用于:将所述异常数据存入输出消息队列中,然后将输出消息队列中的所述异常数据输出。
可选地,还包括:展示模块,用于将所述异常数据以图表和列表形式展现给用户。
可选地,所述子***为插件式子***。
根据本发明的技术方案,由于对监控源进行了分类,因而能够在数据处理过程中分散监控***压力;同时采用消息队列以及实时数据处理***对数据进行处理,不仅提升了监控***的容错性;并且由于将实时计算***拆分为多个独立子***,使各子***可不依赖于***环境独立运行、可以支持热插拔,提升了***的扩展性,提升了监控***的运行效率;另外,由于采用双消息队列,因而避免压力波动产生的运行风险,提升了***的稳定性。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种监控数据的方法的示意图;
图2是根据本发明实施例的一种监控数据的装置的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种监控数据的方法的示意图。如图1所示,本发明实施例的监控数据的方法主要包括如下的步骤S10至S12。
步骤S10:采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的输入消息队列中。在该步骤中,所提到的监控源分组可以根据不同的分类方法进行分组,例如:按照业务类型进行分类,将监控源分为:服务器监控源、调度任务监控源、数据质量监控源、以及集群监控源等;按照数据量级进行分类,将服务器分为:核心节点服务器、计算类服务器、以及存储服务器;除了所举例的两种分类方法,也可以按标签、时间等维度对监控源进行分组;该步骤中所提到的输入消息队列与监控源分组一一对应,例如:按服务器监控源、调度任务监控源、数据质量监控源、集群监控五个类型分组,那么对应的消息队列分别为:服务器消息队列、调度任务消息队列、数据质量消息队列、集群消息队列五个消息队列。
本发明实施例的技术方案中,将输入消息队列分组后,能够有效的分散压力,使不同类别的监控源数据运行在不同的消息队列中,即使个别消息队列因故障无法运行也不会影响其他消息队列正常运行,并且采用消息队列分组的方法有利于故障定位、故障隔离;可以采用Apache Kafka***作为输入消息队列,因为Apache Kafka***提供了稳定的消息队列分组功能(topic)。
步骤S11:将所述输入消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果。在该步骤中,所提到的子***是用于实现监控***不同功能的计算分支;并且子***采用插件式子***,支持热插拔,同时各子***相互可独立;能够支持监控***快速横向扩展。例如:当某个子***运行压力过大时,可立即启用多个同样的子***进行横向扩展,保证了计算***在压力波动情况的正常运行。例如,可以将计算***拆分为:核心子***、阈值子***、存活子***、以及波及子***;
其中,核心子***:负责监控资源、监控节点、监控指标、监控数据的存储;
阀值子***:负责监控指标的比对;
存活子***:负责轮询监控源是否存活;
波及子***:负责异常结果的状态更新以及相关信息更新;
除了上述所提到的子***外,也可以分成负责其他独立功能的子***;
在本发明实施例技术方案中采用Storm实时计算***,Storm开源免费、性能稳定、部署简单;同时为Storm实时计算***配备Hbase列式数据库,用于满足Storm实时计算***需求。
步骤S12:根据所述计算结果确定所述待监控数据中的异常数据,然后将该异常数据输出。在该步骤中,将步骤S11所得到的计算结果与用户预设的监控阈值范围进行比对,然后将不符合所述监控阈值的监控数据作为异常数据;例如:用户预设的监控阈值范围为小于5,那么,当所述计算结果为8时,则判定该待监控数据为异常数据;当然,用户所设定的阈值范围为(3,10),那么,当计算结果为不在用户所设定的阈值范围内,则确定该待监控数据为异常数据;再将所述异常数据存入输出消息队列中输出。本发明实施例技术方案中,输入消息队列和输出消息队列采用同一种消息队列技术,不仅便于维护,而且不会因技术差异而产生风险。
本发明实施例的技术方案中,在计算***的输入和输出端都采用了消息队列的模式,将监控源的数据以及异常数据按照消息队列进行输入和输出;监控数据存入输入消息队列时,各输入消息队列独立运行、互不影响,提升了***的容错性;另外,由于在监控源的压力情况的波动,因此产生异常数据的量级也是波动的,在异常数据输出时,将异常数据放入输出消息队列逐步输出,有效的避免在异常数据暴增几十倍、几百倍的情况下导致的***崩溃。
在步骤S12之后将所述异常数据以图表和列表形式展现给用户;并根据所述异常数据确定对应的报警信息,并将该报警信息以短信、邮件、以及/或者客户端消息推送形式通知用户,以达到及时发现、及时处理的目标。
图2是根据本发明实施例的一种监控数据的装置的示意图。如图2所示,本发明实施例的监控数据的装置20主要包括采集模块21、计算模块22、以及输出模块23;采集模块21用于采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的消息队列中;计算模块22用于将所述消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果;所述子***是用于实现监控***不同功能的计算分支;输出模块23用于根据所述计算结果确定所述待监控数据中的异常数据,然后将该异常数据输出;其中所述子***为插件式子***。
输出模块23还可用于:将所述计算结果与用户预设的监控阈值范围进行比对,将不符合所述监控阈值范围的监控数据作为异常数据。
输出模块23还可用于:将所述异常数据存入输出消息队列中,然后将输出消息队列中的所述异常数据输出。
监控数据的装置20还可包括通知模块(图中未示出),用于根据所述异常数据确定对应的报警信息,并将该报警信息以短信、邮件、以及/或者客户端消息推送形式通知用户。
根据本发明实施例的技术方案,由于对监控源进行了分类,因而能够在数据处理过程中分散监控***压力;同时采用消息队列以及实时数据处理***对数据进行处理,不仅提升了监控***的容错性;并且由于将实时计算***拆分为多个独立子***,使各子***可不依赖于***环境独立运行、可以支持热插拔,提升了***的扩展性,提升了监控***的运行效率;另外,由于采用双消息队列,因而避免压力波动产生的运行风险,提升了***的稳定性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种监控数据的方法,其特征在于,包括:
采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的输入消息队列中;
将所述输入消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果;所述子***是用于实现监控***不同功能的计算分支;
根据所述计算结果确定所述待监控数据中的异常数据,然后输出该异常数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述计算结果确定所述待监控数据中的异常数据的步骤包括:将所述计算结果与用户预设的监控阈值范围进行比对,将不符合所述监控阈值范围的监控数据作为异常数据。
3.根据权利要求1所述的方法,其特征在于,输出该异常数据的步骤包括:
将所述异常数据存入输出消息队列中;
将输出消息队列中的所述异常数据输出。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述输出该异常数据的步骤之后,还包括:将所述异常数据以图表和列表形式展现给用户。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述子***为插件式子***。
6.一种监控数据的装置,其特征在于,包括:
采集模块,用于采集待监控数据,然后将该监控数据存入不同监控源分组所分别对应的输入消息队列中;
计算模块,用于将所述输入消息队列中的数据输入计算***的各个子***,然后获取所述各个子***根据所述数据进行计算从而得到的计算结果;所述子***是用于实现监控***不同功能的计算分支;
输出模块,用于根据所述计算结果确定所述待监控数据中的异常数据,然后输出该异常数据。
7.根据权利要求6所述的装置,其特征在于,所述输出模块还用于:将所述计算结果与用户预设的监控阈值范围进行比对,将不符合所述监控阈值范围的监控数据作为异常数据。
8.根据权利要求6所述的装置,其特征在于,所述输出模块还用于:将所述异常数据存入输出消息队列中,然后将输出消息队列中的所述异常数据输出。
9.根据权利要求6至8中任一项所述的装置,其特征在于,还包括:展示模块,用于将所述异常数据以图表和列表形式展现给用户。
10.根据利要求6至8中任一项所述的装置,其特征在于,所述子***为插件式子***。
CN201610602150.9A 2016-07-28 2016-07-28 一种监控数据的方法和装置 Pending CN107666399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610602150.9A CN107666399A (zh) 2016-07-28 2016-07-28 一种监控数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610602150.9A CN107666399A (zh) 2016-07-28 2016-07-28 一种监控数据的方法和装置

Publications (1)

Publication Number Publication Date
CN107666399A true CN107666399A (zh) 2018-02-06

Family

ID=61113966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610602150.9A Pending CN107666399A (zh) 2016-07-28 2016-07-28 一种监控数据的方法和装置

Country Status (1)

Country Link
CN (1) CN107666399A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558789A (zh) * 2018-10-09 2019-04-02 珠海亿联德源信息技术有限公司 一种基于分布式计算的生物特征快速识别***
CN110716832A (zh) * 2019-09-24 2020-01-21 腾讯科技(深圳)有限公司 业务运行的监控告警方法、***、电子设备及存储介质
CN111105314A (zh) * 2018-10-29 2020-05-05 中国人民财产保险股份有限公司 一种保险数据清分***
CN111435350A (zh) * 2019-01-14 2020-07-21 北京京东尚科信息技术有限公司 海量数据的实时监控方法、***、设备及存储介质
CN112859769A (zh) * 2020-12-31 2021-05-28 广东工业大学 一种智能生产设备中能耗监控装置及其运行方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1881899A (zh) * 2006-04-30 2006-12-20 国家数字交换***工程技术研究中心 一种网络流量监控的***和方法
CN101877656A (zh) * 2010-06-11 2010-11-03 武汉虹信通信技术有限责任公司 一种网管监控***及其实现并行处理故障告警的方法
CN101945407A (zh) * 2010-10-22 2011-01-12 东南大学 一种应用于移动业务内容监控的负载均衡方法
CN103237045A (zh) * 2013-02-22 2013-08-07 北方工业大学 大规模实时交通数据的并行处理***和并行处理方法
CN103491190A (zh) * 2013-09-30 2014-01-01 国家电网公司 一种面向大规模实时并发的充电机监控数据处理方法
CN103532739A (zh) * 2013-09-25 2014-01-22 上海斐讯数据通信技术有限公司 一种基于网络服务与应用的监控分析***
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理***
CN105653427A (zh) * 2016-03-04 2016-06-08 上海交通大学 基于行为异常检测的日志监控方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1881899A (zh) * 2006-04-30 2006-12-20 国家数字交换***工程技术研究中心 一种网络流量监控的***和方法
CN101877656A (zh) * 2010-06-11 2010-11-03 武汉虹信通信技术有限责任公司 一种网管监控***及其实现并行处理故障告警的方法
CN101945407A (zh) * 2010-10-22 2011-01-12 东南大学 一种应用于移动业务内容监控的负载均衡方法
CN103237045A (zh) * 2013-02-22 2013-08-07 北方工业大学 大规模实时交通数据的并行处理***和并行处理方法
CN103532739A (zh) * 2013-09-25 2014-01-22 上海斐讯数据通信技术有限公司 一种基于网络服务与应用的监控分析***
CN103491190A (zh) * 2013-09-30 2014-01-01 国家电网公司 一种面向大规模实时并发的充电机监控数据处理方法
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理***
CN105653427A (zh) * 2016-03-04 2016-06-08 上海交通大学 基于行为异常检测的日志监控方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558789A (zh) * 2018-10-09 2019-04-02 珠海亿联德源信息技术有限公司 一种基于分布式计算的生物特征快速识别***
CN111105314A (zh) * 2018-10-29 2020-05-05 中国人民财产保险股份有限公司 一种保险数据清分***
CN111435350A (zh) * 2019-01-14 2020-07-21 北京京东尚科信息技术有限公司 海量数据的实时监控方法、***、设备及存储介质
CN110716832A (zh) * 2019-09-24 2020-01-21 腾讯科技(深圳)有限公司 业务运行的监控告警方法、***、电子设备及存储介质
CN110716832B (zh) * 2019-09-24 2022-06-07 腾讯科技(深圳)有限公司 业务运行的监控告警方法、***、电子设备及存储介质
CN112859769A (zh) * 2020-12-31 2021-05-28 广东工业大学 一种智能生产设备中能耗监控装置及其运行方法

Similar Documents

Publication Publication Date Title
US10108411B2 (en) Systems and methods of constructing a network topology
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
CN107666399A (zh) 一种监控数据的方法和装置
US10075474B2 (en) Notification subsystem for generating consolidated, filtered, and relevant security risk-based notifications
WO2019133763A1 (en) System and method of application discovery
CN109714192A (zh) 一种监控云平台的监控方法及***
CN111459763B (zh) 跨kubernetes集群监控***及方法
CN105095056A (zh) 一种数据仓库数据监控的方法
CN104468282B (zh) 集群监控处理***及方法
CN109150635B (zh) 故障影响分析方法及装置
JP2022118108A (ja) ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム
US11042525B2 (en) Extracting and labeling custom information from log messages
WO2017080161A1 (zh) 云计算中报警信息的处理方法及装置
JP5933463B2 (ja) ログ生起異常検知装置及び方法
US20210366268A1 (en) Automatic tuning of incident noise
US10466686B2 (en) System and method for automatic configuration of a data collection system and schedule for control system monitoring
CN102857371A (zh) 一种面向集群***的动态配置管理方法
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN114938376B (zh) 基于优先级处理数据的工业物联网及其控制方法
WO2017037801A1 (ja) 監視システムおよび監視方法
CN111240936A (zh) 一种数据完整性校验的方法及设备
US10432647B2 (en) Malicious industrial internet of things node activity detection for connected plants
CN115941441A (zh) ***链路自动化监控运维方法、***、设备以及介质
US20210092159A1 (en) System for the prioritization and dynamic presentation of digital content
CN114706893A (zh) 故障检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180206