CN106301895A - 一种获取集群监控数据的容灾方法及装置 - Google Patents

一种获取集群监控数据的容灾方法及装置 Download PDF

Info

Publication number
CN106301895A
CN106301895A CN201610627210.2A CN201610627210A CN106301895A CN 106301895 A CN106301895 A CN 106301895A CN 201610627210 A CN201610627210 A CN 201610627210A CN 106301895 A CN106301895 A CN 106301895A
Authority
CN
China
Prior art keywords
cluster
host node
monitoring
monitoring data
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610627210.2A
Other languages
English (en)
Inventor
周龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610627210.2A priority Critical patent/CN106301895A/zh
Publication of CN106301895A publication Critical patent/CN106301895A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种获取集群监控数据的容灾方法及装置,每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;通过设置的集群主节点获取集群的监控数据;当检测到集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过当前集群主节点获取监控数据。本发明打破了原有低效、缺乏容灾方案或等待容灾时间过长的管理软件获取监控信息的方式,考虑了集群环境的特殊性,将监控信息的收集、容灾方案变为1+N的模式,将管理软件获取数据的容灾等待时间省略。可以在保证监控信息安全的同时,节省了监控信息收集时间以及带宽资源的消耗,并达到无缝切换数据获取对象的目的。

Description

一种获取集群监控数据的容灾方法及装置
技术领域
本发明涉及数据容灾技术领域,特别是涉及一种获取集群监控数据的容灾方法及装置。
背景技术
一般集群监控信息的收集,都采用单独的数据收集服务器,对各个集群节点的监控信息进行收集,然后额外增加备份设备。或者采用广播方式在每个集群节点上收集所有节点监控信息,再由单独的数据收集服务器对单一节点进行监控信息读取,最后由管理软件到数据收集服务器进行数据获取。
让每个节点都收集所有节点监控信息的方式,在时间消耗上投入较大。而将监控信息放入数据库,对数据库进行容灾保护的方式,则对容灾投入消耗较大。而一对一的管理软件获取监控数据的方式也增加了容灾时用户等待数据切换的成本。
发明内容
本发明的目的是提供一种获取集群监控数据的容灾方法及装置,目的在于在保证监控信息容灾可靠性的前提下,减少***带宽消耗,减少数据容灾成本。
为解决上述技术问题,本发明提供一种获取集群监控数据的容灾方法,包括:
每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;
通过设置的集群主节点获取集群的监控数据;
当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过所述当前集群主节点获取监控数据。
可选地,所述通过设置的集群主节点获取集群的监控数据包括:
通过telnet根据设置的集群主节点IP进行监控数据获取。
可选地,所述当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点包括:
当检测到所述集群主节点发生宕机时,通过telnet根据指定的当前集群主节点的IP进行监控数据获取。
可选地,所述获取集群内其他所有节点的监控信息包括:
通过预先配置的所有集群节点广播路径,获取集群内其他所有节点的监控信息。
可选地,在所述获取集群内其他所有节点的监控信息之后还包括:
将获取到的所有监控信息保存至本节点数据库中。
本发明还提供了一种获取集群监控数据的容灾装置,包括:
收集模块,用于每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;
获取模块,用于通过设置的集群主节点获取集群的监控数据;
容灾模块,用于当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过所述当前集群主节点获取监控数据。
可选地,所述获取模块具体用于:
通过telnet根据设置的集群主节点IP进行监控数据获取。
可选地,所述容灾模块具体用于:
当检测到所述集群主节点发生宕机时,通过telnet根据指定的当前集群主节点的IP进行监控数据获取。
可选地,所述收集模块具体用于
通过预先配置的所有集群节点广播路径,获取集群内其他所有节点的监控信息。
可选地,还包括:
存储模块,用于在获取集群内其他所有节点的监控信息之后,将获取到的所有监控信息保存至本节点数据库中。
本发明所提供的获取集群监控数据的容灾方法及装置,每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;通过设置的集群主节点获取集群的监控数据;当检测到集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过当前集群主节点获取监控数据。本发明打破了原有低效、缺乏容灾方案或等待容灾时间过长的管理软件获取监控信息的方式,考虑了集群环境的特殊性,将监控信息的收集、容灾方案变为1+N的模式,将管理软件获取数据的容灾等待时间省略。可以在保证监控信息安全的同时,节省了监控信息收集时间以及带宽资源的消耗,并达到无缝切换数据获取对象的目的。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的获取集群监控数据的容灾方法的一种具体实施方式的流程图;
图2为本发明所提供的获取集群监控数据容灾方法的另一种实施方式中集群初始状态的示意图;
图3为本发明所提供的获取集群监控数据容灾方法的另一种实施方式中节点监控信息广播发送、监控数据保存的过程示意图:
图4为本发明所提供的获取集群监控数据容灾方法的另一种实施方式中管理软件获取集群监控数据的过程示意图;
图5为本发明所提供的获取集群监控数据容灾方法的另一种实施方式中灾备过程示意图;
图6为本发明实施例提供的获取集群监控数据的容灾装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的获取集群监控数据的容灾方法的一种具体实施方式的流程图如图1所示,该方法包括:
步骤S101:每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;
步骤S102:通过设置的集群主节点获取集群的监控数据;
步骤S103:当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过所述当前集群主节点获取监控数据。
本发明所提供的获取集群监控数据的容灾方法,每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;通过设置的集群主节点获取集群的监控数据;当检测到集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过当前集群主节点获取监控数据。本发明打破了原有低效、缺乏容灾方案或等待容灾时间过长的管理软件获取监控信息的方式,考虑了集群环境的特殊性,将监控信息的收集、容灾方案变为1+N的模式,将管理软件获取数据的容灾等待时间省略。可以在保证监控信息安全的同时,节省了监控信息收集时间以及带宽资源的消耗,并达到无缝切换数据获取对象的目的。
在上述实施例的基础上,本发明所提供的获取集群监控数据的容灾方法中,通过设置的集群主节点获取集群的监控数据的过程可以具体包括:
通过telnet根据设置的集群主节点IP进行监控数据获取。
进一步地,当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点的过程可以具体为:
当检测到所述集群主节点发生宕机时,通过telnet根据指定的当前集群主节点的IP进行监控数据获取。
在上述任一实施例的基础上,本申请中各节点获取集群内其他所有节点的监控信息的过程为:
通过预先配置的所有集群节点广播路径,获取集群内其他所有节点的监控信息。
作为一种具体实施方式,在上述获取集群内其他所有节点的监控信息之后还可以进一步包括:
将获取到的所有监控信息保存至本节点数据库中。
具体地,本发明所提供的获取集群监控数据的容灾方法可通过集群健康监测、IP配置模块、监控广播配置模块以及监控数据代理模块实现。
本申请硬件环境是处在集群环境中,因此,在集群环境搭建完成后,由监控广播配置模块配置所有集群节点广播路径。在集群所有节点上初始监控信息数据库到同一状态。监控广播配置模块配置其他节点广播路径。每个集群节点将只单独收集本机监控信息,然后通过广播方式将监控信息发送到其他所有节点上,然后由每个子节点的监控数据代理模块将所有监控信息保存到本节点的数据库中。
由集群健康监测和IP配置模块指定某一集群节点为集群主节点,并设置管理软件获取监控数据的主集群节点IP,管理软件将通过telnet等方式获取主集群节点上数据库中的监控数据。当主节点发生宕机时,由集群健康监测和IP配置模块重新选择其他节点提升为主集群节点,并设置管理软件获取监控数据的节点IP,转换管理软件获取监控数据的节点对象。
下面结合附图对本发明所提供的获取集群监控数据容灾方法的另一种实施方式的实施过程进行进一步详细描述。请参照图2至图5,图2为集群初始状态的示意图,图3为节点监控信息广播发送、监控数据保存的过程示意图,图4为管理软件获取集群监控数据过程示意图;图5为灾备过程示意图。
如图2所示,集群节点1为主节点,各个节点收集本机监控信息。
如图3所示,所有集群节点广播发送本机监控信息到其他所有节点,监控数据代理模块将整个集群所有监控信息保存到本节点数据库。
如图4所示,管理软件通过telnet等方法,根据集群健康监测和IP配置模块指定的主节点IP进行监控数据获取。
如图5所示,当主节点宕机后,集群健康监测和IP配置模块从集群其他节点选择一个提升为主节点。管理软件通过telnet根据集群健康监测和IP配置模块指定的新的主节点IP进行监控数据获取,达到无缝切换。
下面对本发明实施例提供的获取集群监控数据的容灾装置进行介绍,下文描述的获取集群监控数据的容灾装置与上文描述的获取集群监控数据的容灾方法可相互对应参照。
图6为本发明实施例提供的获取集群监控数据的容灾装置的结构框图,参照图6获取集群监控数据的容灾装置可以包括:
收集模块100,用于每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;
获取模块200,用于通过设置的集群主节点获取集群的监控数据;
容灾模块300,用于当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过所述当前集群主节点获取监控数据。
在上述实施例的基础上,本发明所提供的获取集群监控数据的容灾装置中,上述获取模块200具体用于:
通过telnet根据设置的集群主节点IP进行监控数据获取。
进一步地,上述容灾模块300可以具体用于:
当检测到所述集群主节点发生宕机时,通过telnet根据指定的当前集群主节点的IP进行监控数据获取。
在上述任一实施例的基础上,本发明所提供的获取集群监控数据的容灾装置中,收集模块100可以具体用于:
通过预先配置的所有集群节点广播路径,获取集群内其他所有节点的监控信息。
此外,本申请所提供的获取集群监控数据的容灾装置还可以进一步包括:
存储模块,用于在获取集群内其他所有节点的监控信息之后,将获取到的所有监控信息保存至本节点数据库中。
本发明所提供的获取集群监控数据的容灾装置,每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;通过设置的集群主节点获取集群的监控数据;当检测到集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过当前集群主节点获取监控数据。本发明打破了原有低效、缺乏容灾方案或等待容灾时间过长的管理软件获取监控信息的方式,考虑了集群环境的特殊性,将监控信息的收集、容灾方案变为1+N的模式,将管理软件获取数据的容灾等待时间省略。可以在保证监控信息安全的同时,节省了监控信息收集时间以及带宽资源的消耗,并达到无缝切换数据获取对象的目的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的获取集群监控数据的容灾方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种获取集群监控数据的容灾方法,其特征在于,包括:
每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;
通过设置的集群主节点获取集群的监控数据;
当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过所述当前集群主节点获取监控数据。
2.如权利要求1所述的获取集群监控数据的容灾方法,其特征在于,所述通过设置的集群主节点获取集群的监控数据包括:
通过telnet根据设置的集群主节点IP进行监控数据获取。
3.如权利要求2所述的获取集群监控数据的容灾方法,其特征在于,所述当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点包括:
当检测到所述集群主节点发生宕机时,通过telnet根据指定的当前集群主节点的IP进行监控数据获取。
4.如权利要求1至3任一项所述的获取集群监控数据的容灾方法,其特征在于,所述获取集群内其他所有节点的监控信息包括:
通过预先配置的所有集群节点广播路径,获取集群内其他所有节点的监控信息。
5.如权利要求4所述的获取集群监控数据的容灾方法,其特征在于,在所述获取集群内其他所有节点的监控信息之后还包括:
将获取到的所有监控信息保存至本节点数据库中。
6.一种获取集群监控数据的容灾装置,其特征在于,包括:
收集模块,用于每个集群节点收集本机监控信息,并获取集群内其他所有节点的监控信息;
获取模块,用于通过设置的集群主节点获取集群的监控数据;
容灾模块,用于当检测到所述集群主节点发生宕机时,重新选择其他节点作为当前集群主节点,通过所述当前集群主节点获取监控数据。
7.如权利要求6所述的获取集群监控数据的容灾装置,其特征在于,所述获取模块具体用于:
通过telnet根据设置的集群主节点IP进行监控数据获取。
8.如权利要求7所述的获取集群监控数据的容灾装置,其特征在于,所述容灾模块具体用于:
当检测到所述集群主节点发生宕机时,通过telnet根据指定的当前集群主节点的IP进行监控数据获取。
9.如权利要求6至8任一项所述的获取集群监控数据的容灾装置,其特征在于,所述收集模块具体用于:
通过预先配置的所有集群节点广播路径,获取集群内其他所有节点的监控信息。
10.如权利要求9所述的获取集群监控数据的容灾装置,其特征在于,还包括:
存储模块,用于在获取集群内其他所有节点的监控信息之后,将获取到的所有监控信息保存至本节点数据库中。
CN201610627210.2A 2016-08-03 2016-08-03 一种获取集群监控数据的容灾方法及装置 Pending CN106301895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610627210.2A CN106301895A (zh) 2016-08-03 2016-08-03 一种获取集群监控数据的容灾方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610627210.2A CN106301895A (zh) 2016-08-03 2016-08-03 一种获取集群监控数据的容灾方法及装置

Publications (1)

Publication Number Publication Date
CN106301895A true CN106301895A (zh) 2017-01-04

Family

ID=57664960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610627210.2A Pending CN106301895A (zh) 2016-08-03 2016-08-03 一种获取集群监控数据的容灾方法及装置

Country Status (1)

Country Link
CN (1) CN106301895A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221700A (zh) * 2019-10-31 2020-06-02 北京浪潮数据技术有限公司 一种集群节点状态监控方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309167A (zh) * 2008-06-27 2008-11-19 华中科技大学 基于集群备份的容灾***及方法
CN101667034A (zh) * 2009-09-21 2010-03-10 北京航空航天大学 一种易扩展的、支持异构集群的监控***
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控***及方法
CN104539689A (zh) * 2014-12-23 2015-04-22 西安电子科技大学 一种云平台下的资源监控方法
CN105007193A (zh) * 2015-08-19 2015-10-28 浪潮(北京)电子信息产业有限公司 一种多层信息处理方法、***及集群管理节点
US20150347523A1 (en) * 2012-05-15 2015-12-03 Splunk Inc. Managing data searches using generation identifiers
WO2016063114A1 (en) * 2014-10-23 2016-04-28 Telefonaktiebolaget L M Ericsson (Publ) System and method for disaster recovery of cloud applications

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309167A (zh) * 2008-06-27 2008-11-19 华中科技大学 基于集群备份的容灾***及方法
CN101667034A (zh) * 2009-09-21 2010-03-10 北京航空航天大学 一种易扩展的、支持异构集群的监控***
US20150347523A1 (en) * 2012-05-15 2015-12-03 Splunk Inc. Managing data searches using generation identifiers
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控***及方法
WO2016063114A1 (en) * 2014-10-23 2016-04-28 Telefonaktiebolaget L M Ericsson (Publ) System and method for disaster recovery of cloud applications
CN104539689A (zh) * 2014-12-23 2015-04-22 西安电子科技大学 一种云平台下的资源监控方法
CN105007193A (zh) * 2015-08-19 2015-10-28 浪潮(北京)电子信息产业有限公司 一种多层信息处理方法、***及集群管理节点

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221700A (zh) * 2019-10-31 2020-06-02 北京浪潮数据技术有限公司 一种集群节点状态监控方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11615115B2 (en) Systems and methods for managing distributed database deployments
US11544288B2 (en) Systems and methods for managing distributed database deployments
US8582466B2 (en) Flow statistics aggregation
US20170344618A1 (en) Systems and methods for managing distributed database deployments
CN111464585B (zh) 一种基于多云的高可用cdn服务***
CN109218349A (zh) 一种管理服务器集群的方法及装置
Huang et al. Software-defined QoS provisioning for fog computing advanced wireless sensor networks
CN105991497A (zh) 数据传输方法和站点
CN103260011A (zh) 一种利用网络硬盘录像机实现更多路数的监视***及方法
CN107404394A (zh) 一种iptv***容灾方法及iptv容灾***
CN105187548A (zh) 一种集群监控信息收集方法与***
CN103517292B (zh) 一种移动终端信息上报方法和装置
CN109981377A (zh) 一种分布式数据中心链路监控方法及***
CN106301895A (zh) 一种获取集群监控数据的容灾方法及装置
CN106656522A (zh) 跨数据中心的数据计算方法及***
JP5684748B2 (ja) ネットワーク品質監視装置及びネットワーク品質監視方法
CN106209680A (zh) 信息处理装置以及方法
US20240015790A1 (en) System and method of enabling a self organizing network in open ran
CN105591787B (zh) 一种网络中的根本原因分析方法、装置和***
CN106254103A (zh) 一种rtmp集群***可动态配置方法及装置
CN109120443A (zh) 一种网络附加存储nas设备的管理方法和装置
CN106571938B (zh) 一种基于访问链路的告警检测方法和装置
CN107005424A (zh) 用于云部署中的网络元件的网络过程的分布式追踪
CN108737378A (zh) 一种基于介质访问控制层的双模通信组网方法及***
EP3416453B1 (en) Method of troubleshooting using customizable troubleshooting indicators over buckets of variable time

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication