CN105553766A - 异常节点动态追踪集群节点状态的监测方法 - Google Patents

异常节点动态追踪集群节点状态的监测方法 Download PDF

Info

Publication number
CN105553766A
CN105553766A CN201510927404.XA CN201510927404A CN105553766A CN 105553766 A CN105553766 A CN 105553766A CN 201510927404 A CN201510927404 A CN 201510927404A CN 105553766 A CN105553766 A CN 105553766A
Authority
CN
China
Prior art keywords
module
abnormal
cluster
node
clustered node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510927404.XA
Other languages
English (en)
Inventor
崔维力
武新
寇韦韦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201510927404.XA priority Critical patent/CN105553766A/zh
Publication of CN105553766A publication Critical patent/CN105553766A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/103Active monitoring, e.g. heartbeat, ping or trace-route with adaptive polling, i.e. dynamically adapting the polling rate

Landscapes

  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种异常节点动态追踪集群节点状态的监测方法,包括集群节点状态服务模块、集群节点模块、集群异常节点检测模块、集群异常节点队列模块,具体方法步骤为:A、集群节点模块向集群节点状态服务模块发送节点汇报,并自检是否有离线异常;B、集群异常节点检测模块对集群节点模块进行异常节点检测,并将此异常节点向集群异常节点队列模块传送;C、集群异常节点队列模块按先后顺序向集群节点状态服务模块发送队列中异常节点,并调节用长异常判断;D、集群节点状态服务模块接收集群异常节点队列模块的异常判断完成对集群节点状态的监测。本发明节省了监测的成本且提高了监测的灵敏度,保证了监测服务的稳定性,适用性好,实用性强。

Description

异常节点动态追踪集群节点状态的监测方法
技术领域
本发明属于分布式数据库技术领域,具体涉及一种异常节点动态追踪集群节点状态的监测方法。
背景技术
随着数据量的增加,大规模集群的节点数量往往要达到100节点以上,传统的秒级别按序轮询或者被监测点的定时汇报的方式由于会对网络等资源过多消耗的原因已不能适应大规模集群的监测,那么就需一种新的监测方法即要保证一定监测灵敏度也要做到多网络等资源的较小的消耗,在此要求下就可采用主动轮询与异常节点追踪结合方式,即采用较长轮询间隔保证不频发地消耗集群资源,又建立追踪队列,对出现离线异常的节点做重点追踪,该追踪做到秒级别以保证灵敏度。
目前存在的很多方案中,只采用主动轮询的方式来作监控,但是最大的缺点就是间隔时间不好设定,***开销过大,间隔时间太长的话,***敏感度太低,如果间隔时间过短则需要反复创建大量socket,试想在一个300个计算节点的超大集群上,不断的创建删除tcp连接对整个***会造成多么大的冲击。还有些方案中只采用异常节点动态追踪的方式,这种方式是只对异常节点进行追踪,虽然***开销比较小,***灵敏度高,但是在没有人发socket的情况下无法发现问题节点,有时还会造成死锁等问题。
发明内容
为了解决上述技术问题,本发明是提供一种使用稳定性好且大大提高灵敏度的异常节点动态追踪集群节点状态的监测方法。
实现本发明目的的技术方案是:一种异常节点动态追踪集群节点状态的监测方法,包括集群节点状态服务模块、集群节点模块、集群异常节点检测模块、集群异常节点队列模块,具体方法步骤为:
A、集群节点模块向集群节点状态服务模块发送节点汇报,并自检是否有离线异常;
B、集群异常节点检测模块对集群节点模块进行异常节点检测,并结合集群节点模块的自检离线异常进行异常确认判断,当确认存在异常节点时,将此异常节点向集群异常节点队列模块传送;
C、集群异常节点队列模块按先后顺序向集群节点状态服务模块发送队列中异常节点,并调节用长异常判断;
D、集群节点状态服务模块接收集群异常节点队列模块的异常判断,并根据需要判断启动或停止秒级别异常追踪,从而完成对集群节点状态的监测。
在步骤D中,当集群异常节点队列模块检测为长异常状态时,集群节点状态服务模块启动或继续秒级别异常追踪;当集群异常节点队列模块检测不是长异常状态时,集群节点状态服务模块暂停秒级别异常追踪同时恢复异常节点轮询。
所述集群节点状态服务模块的数量至少两个且集群节点状态服务模块之间设有切换模块。
所述集群异常节点检测模块的数量至少两个且集群异常节点检测模块均与集群异常节点队列模块相连接。
本发明具有积极的效果:本发明采用主动轮源询和异常节点动态追踪的集群节点进行监测,从而大大节省了监测的成本且大大提高了监测的灵敏度,保证了监测服务的稳定性,适用性好,实用性强。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1为本发明的结构框图;
图2为本发明的具体步骤框图;
图3为本发明的长异常判断流程框图。
具体实施方式
(实施例1)
图1至图3显示了本发明的一种具体实施方式,其中图1为本发明的结构框图;图2为本发明的具体步骤框图;图3为本发明的长异常判断流程框图。
见图1至图3,一种异常节点动态追踪集群节点状态的监测方法,包括集群节点状态服务模块1、集群节点模块2、集群异常节点检测模块3、集群异常节点队列模块4,具体方法步骤为:
A、集群节点模块向集群节点状态服务模块发送节点汇报,并自检是否有离线异常;
B、集群异常节点检测模块对集群节点模块进行异常节点检测,并结合集群节点模块的自检离线异常进行异常确认判断,当确认存在异常节点时,将此异常节点向集群异常节点队列模块传送;
C、集群异常节点队列模块按先后顺序向集群节点状态服务模块发送队列中异常节点,并调节用长异常判断;
D、集群节点状态服务模块接收集群异常节点队列模块的异常判断,并根据需要判断启动或停止秒级别异常追踪,从而完成对集群节点状态的监测。
在步骤D中,当集群异常节点队列模块检测为长异常状态时,集群节点状态服务模块启动或继续秒级别异常追踪;当集群异常节点队列模块检测不是长异常状态时,集群节点状态服务模块暂停秒级别异常追踪同时恢复异常节点轮询。
所述集群节点状态服务模块的数量至少两个且集群节点状态服务模块之间设有切换模块5。
所述集群异常节点检测模块的数量至少两个且集群异常节点检测模块均与集群异常节点队列模块相连接。
本发明采用主动轮源询和异常节点动态追踪的集群节点进行监测,从而大大节省了监测的成本且大大提高了监测的灵敏度,保证了监测服务的稳定性,适用性好,实用性强。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。

Claims (4)

1.一种异常节点动态追踪集群节点状态的监测方法,包括集群节点状态服务模块、集群节点模块、集群异常节点检测模块、集群异常节点队列模块,其特征在于:具体方法步骤为:
A、集群节点模块向集群节点状态服务模块发送节点汇报,并自检是否有离线异常;
B、集群异常节点检测模块对集群节点模块进行异常节点检测,并结合集群节点模块的自检离线异常进行异常确认判断,当确认存在异常节点时,将此异常节点向集群异常节点队列模块传送;
C、集群异常节点队列模块按先后顺序向集群节点状态服务模块发送队列中异常节点,并调节用长异常判断;
D、集群节点状态服务模块接收集群异常节点队列模块的异常判断,并根据需要判断启动或停止秒级别异常追踪,从而完成对集群节点状态的监测。
2.根据权利要求1所述的异常节点动态追踪集群节点状态的监测方法,其特征在于:在步骤D中,当集群异常节点队列模块检测为长异常状态时,集群节点状态服务模块启动或继续秒级别异常追踪;当集群异常节点队列模块检测不是长异常状态时,集群节点状态服务模块暂停秒级别异常追踪同时恢复异常节点轮询。
3.根据权利要求2所述的异常节点动态追踪集群节点状态的监测方法,其特征在于:所述集群节点状态服务模块的数量至少两个且集群节点状态服务模块之间设有切换模块。
4.根据权利要求3所述的异常节点动态追踪集群节点状态的监测方法,其特征在于:所述集群异常节点检测模块的数量至少两个且集群异常节点检测模块均与集群异常节点队列模块相连接。
CN201510927404.XA 2015-12-12 2015-12-12 异常节点动态追踪集群节点状态的监测方法 Pending CN105553766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510927404.XA CN105553766A (zh) 2015-12-12 2015-12-12 异常节点动态追踪集群节点状态的监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510927404.XA CN105553766A (zh) 2015-12-12 2015-12-12 异常节点动态追踪集群节点状态的监测方法

Publications (1)

Publication Number Publication Date
CN105553766A true CN105553766A (zh) 2016-05-04

Family

ID=55832705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510927404.XA Pending CN105553766A (zh) 2015-12-12 2015-12-12 异常节点动态追踪集群节点状态的监测方法

Country Status (1)

Country Link
CN (1) CN105553766A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130761A (zh) * 2016-06-22 2016-11-16 北京百度网讯科技有限公司 数据中心的故障网络设备的识别方法和装置
CN106817700A (zh) * 2017-03-02 2017-06-09 中国人民解放军信息工程大学 基于多重完整性远程证明的异常节点检测方法
CN107231359A (zh) * 2017-06-08 2017-10-03 山东超越数控电子有限公司 一种高可用集群节点安全状态监控方法及***
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640610A (zh) * 2009-09-02 2010-02-03 中兴通讯股份有限公司 一种以太网链路自动发现方法及***
CN101938504A (zh) * 2009-06-30 2011-01-05 深圳市融创天下科技发展有限公司 集群服务器智能调度的方法及***
CN102404390A (zh) * 2011-11-07 2012-04-04 广东电网公司电力科学研究院 高速实时数据库的智能化动态负载均衡方法
CN104460650A (zh) * 2014-10-24 2015-03-25 中国科学院遥感与数字地球研究所 遥感卫星接收***的故障诊断装置及其故障诊断方法
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及***
KR101572672B1 (ko) * 2012-01-05 2015-12-04 한국전자통신연구원 통신망에서 노드 감시 방법 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101938504A (zh) * 2009-06-30 2011-01-05 深圳市融创天下科技发展有限公司 集群服务器智能调度的方法及***
CN101640610A (zh) * 2009-09-02 2010-02-03 中兴通讯股份有限公司 一种以太网链路自动发现方法及***
CN102404390A (zh) * 2011-11-07 2012-04-04 广东电网公司电力科学研究院 高速实时数据库的智能化动态负载均衡方法
KR101572672B1 (ko) * 2012-01-05 2015-12-04 한국전자통신연구원 통신망에서 노드 감시 방법 및 시스템
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及***
CN104460650A (zh) * 2014-10-24 2015-03-25 中国科学院遥感与数字地球研究所 遥感卫星接收***的故障诊断装置及其故障诊断方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130761A (zh) * 2016-06-22 2016-11-16 北京百度网讯科技有限公司 数据中心的故障网络设备的识别方法和装置
CN106130761B (zh) * 2016-06-22 2019-06-18 北京百度网讯科技有限公司 数据中心的故障网络设备的识别方法和装置
CN106817700A (zh) * 2017-03-02 2017-06-09 中国人民解放军信息工程大学 基于多重完整性远程证明的异常节点检测方法
CN106817700B (zh) * 2017-03-02 2019-06-28 中国人民解放军信息工程大学 基于多重完整性远程证明的异常节点检测方法
CN107231359A (zh) * 2017-06-08 2017-10-03 山东超越数控电子有限公司 一种高可用集群节点安全状态监控方法及***
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN110716842B (zh) * 2019-10-09 2023-11-21 北京小米移动软件有限公司 集群故障检测方法和装置

Similar Documents

Publication Publication Date Title
CN109274557B (zh) 一种云环境下的智能cmdb管理及云主机监控方法
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和***
US9141491B2 (en) Highly available server system based on cloud computing
CN105553766A (zh) 异常节点动态追踪集群节点状态的监测方法
CN106357469B (zh) 一种资源监控模式的动态调整方法和装置
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN104022904A (zh) 分布式机房it设备统一管理平台
CN107360239A (zh) 一种客户端连接状态检测方法及***
WO2015188553A1 (zh) 链路备份、电源备份方法、装置及***、存储介质
CN103986604A (zh) 网络故障定位方法和装置
US11539609B2 (en) Method and apparatus for reporting power down events in a network node without a backup energy storage device
CN105739668A (zh) 一种笔记本电脑的电源管理方法及电源管理***
CN104468201A (zh) 一种网络设备离线的自动删除方法和设备
CN104320285A (zh) 一种网站运行状态监控方法及装置
CN112069166B (zh) 一种电站设备数据采集方法和***
CN103684897A (zh) 在客户端中检测网络连通性的方法、***和装置
CN105530145A (zh) 一种基于zabbix框架的无代理设备监控网络、组网方法以及监控方法
CN109639640B (zh) 消息发送方法和装置
CN103841047A (zh) 一种链路聚合的方法装置
CN103825765A (zh) 一种设备状态轮询的方法及其装置
CN103941843A (zh) 模式切换方法及装置
CN107682906B (zh) 机房内巡检数据通信方法及***
EP4072106A1 (en) Dynamic environment monitoring
CN106034036B (zh) 服务器状态实时侦测方法及***、终端装置
CN204731725U (zh) 一种集群掉电自检自保护***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160504