CN111343016B - 云服务器集群管理方法和装置 - Google Patents

云服务器集群管理方法和装置 Download PDF

Info

Publication number
CN111343016B
CN111343016B CN202010107840.3A CN202010107840A CN111343016B CN 111343016 B CN111343016 B CN 111343016B CN 202010107840 A CN202010107840 A CN 202010107840A CN 111343016 B CN111343016 B CN 111343016B
Authority
CN
China
Prior art keywords
cloud server
information
product service
cloud
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010107840.3A
Other languages
English (en)
Other versions
CN111343016A (zh
Inventor
韩楚怡
刘辰
都海峰
雷茂晟
王俊
韩志鹏
白石
沈伯伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010107840.3A priority Critical patent/CN111343016B/zh
Publication of CN111343016A publication Critical patent/CN111343016A/zh
Application granted granted Critical
Publication of CN111343016B publication Critical patent/CN111343016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提出一种云服务器集群管理方法和装置,涉及云技术领域。本公开从基础信息维度、运行状态维度、实例关联关系维度等多个维度对云服务器集群进行相对全面的管理,各维度之间相辅相成,可组合使用又不过度耦合,可适用于公有云、专有云等云集群的全面管理。

Description

云服务器集群管理方法和装置
技术领域
本公开涉及云技术领域,特别涉及一种云服务器集群管理方法和装置。
背景技术
专有云部署环境的特点之一是灵活多变,根据不同的客户需求所部署的云服务器集群也是不同的。
一些相关技术中的云服务器集群管理方式是对集群的某一方面进行单一管理,例如,对云服务器的物理位置和IP地址等进行管理,或,对云服务器所运行服务的可用性进行管理等。
发明内容
发明人发现,相关技术仅从某一维度出发对云服务器集群进行单一管理,对于复杂多变的云环境(特别是专有云环境)而言具有一定的管理局限性。
本公开从基础信息维度、运行状态维度、实例关联关系维度等多个维度对云服务器集群进行相对全面的管理,各维度之间相辅相成,可组合使用又不过度耦合,可以适用于公有云、专有云等云集群的全面管理。
本公开的一些实施例提出一种云服务器集群管理方法,包括:获取云服务器集群中每个云服务器的基础信息、运行状态信息、实例关联关系信息;根据各个云服务器的基础信息、运行状态信息、实例关联关系信息中的至少两项信息,对所述云服务器集群进行管理。
在一些实施例中,对所述云服务器集群进行管理包括:根据各个云服务器的基础信息和运行状态信息,对所述云服务器集群进行管理;或者,根据各个云服务器的基础信息和实例关联关系信息,对所述云服务器集群进行管理;或者,根据各个云服务器的实例关联关系信息和运行状态信息,对所述云服务器集群进行管理;或者,根据各个云服务器的基础信息、运行状态信息和实例关联关系信息,对所述云服务器集群进行管理。
在一些实施例中,根据各个云服务器的基础信息和运行状态信息,对所述云服务器集群进行管理包括:根据各个云服务器的运行状态信息发现宕机的第一云服务器;并且,对所述云服务器集群进行管理还包括以下中的一项或多项:
根据第一云服务器的基础信息,将宕机的第一云服务器上部署的产品服务确定为受影响的产品服务;
根据各个云服务器的运行状态信息发现云服务器集群中是否同时存在宕机的第二云服务器,根据第一云服务器和第二云服务器的基础信息,如果存在宕机的第二云服务器且第二云服务器上部署的产品服务与第一云服务器上部署的产品服务不相关,或者如果不存在宕机的第二云服务器,确定第二云服务器不受第一云服务器的影响;
利用第一云服务器的基础信息记录的带外管理IP地址,输入开机命令,如果第一云服务器开机成功,第一云服务器上部署的产品服务恢复,如果第一云服务器开机失败,将第一云服务器的基础信息记录的第一云服务器所在的机架位置通知运维人员。
在一些实施例中,根据各个云服务器的基础信息和实例关联关系信息,对所述云服务器集群进行管理包括:
根据每个云服务器的实例关联关系信息,确定指定产品服务所在的云服务器;
根据云服务器的基础信息,确定指定产品服务所在的云服务器所在的机架位置;
如果指定产品服务对应多个云服务器和多个机架,判定所述指定产品服务的可用性等级高。
在一些实施例中,根据各个云服务器的实例关联关系信息和运行状态信息,对所述云服务器集群进行管理包括:
根据每个云服务器的实例关联关系信息,确定指定产品服务所在的云服务器;
根据云服务器的运行状态信息,确定指定产品服务所在的云服务器的运行状态。
在一些实施例中,根据各个云服务器的基础信息、运行状态信息和实例关联关系信息,对所述云服务器集群进行管理包括:如果第一云服务器开机失败,根据第一云服务器的实例关联关系信息,确定第一云服务器上联的交换机,以便对所述交换机进行检查。
在一些实施例中,获取云服务器集群中每个云服务器的运行状态信息包括以下的一项或多项:
通过部署的代理自动收集云服务器的心跳包,并根据云服务器的心跳包确定云服务器的存活状态;
通过网络连接探测命令,定期探测云服务器的存活状态;
通过部署的代理定期自动获取云服务器的基线信息。
在一些实施例中,基础信息包括硬件信息和软件信息中的一项或多项;或者,运行状态信息包括存活状态和基线状态中的一项或多项;或者,实例关联关系信息包括云服务器与产品服务的关联关系、云服务器与其所在机架的关联关系、云服务器与上联的交换机的关联关系、云服务器与其基础信息的关联关系中的一项或多项。
在一些实施例中,所述硬件信息包括云服务器的名称、IP地址、介质访问控制MAC地址和所在的机架位置;或者,所述软件信息包括部署的产品信息和基线信息;其中,所述基线信息包括软件包管理器安装包、运行进程、传输控制协议TCP端口、用户数据报协议UDP端口、***服务。
本公开的一些实施例提出一种云服务器集群管理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一个实施例所述的云服务器集群管理方法。
本公开的一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例所述的云服务器集群管理方法。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开云服务器集群的管理内容示意图。
图2示出本公开云服务器集群的管理内容的树形结构示意图。
图3为本公开云服务器集群管理方法一些实施例的流程示意图。
图4为本公开根据各个云服务器的基础信息和运行状态信息,对云服务器集群进行管理的一些实施例的流程示意图。
图5为本公开根据各个云服务器的基础信息和实例关联关系信息,对云服务器集群进行管理的示意图。
图6为本公开根据各个云服务器的实例关联关系信息和运行状态信息,对云服务器集群进行管理的示意图。
图7为本公开根据各个云服务器的基础信息、运行状态信息和实例关联关系信息,对云服务器集群进行管理一些实施例的流程示意图。
图8为本公开云服务器的基础信息的获取过程示意图。
图9A为本公开运行状态信息获取过程示意图。
图9B为本公开管理装置通过fping命令定期探测云服务器的存活状态的过程示意图。
图10为本公开的基线数据获取过程示意图。
图11示出了本公开的实例关联关系信息的示意图。
图12为本公开云服务器集群管理装置一些实施例的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
本公开从基础信息维度、运行状态维度、实例关联关系维度等多个维度对云服务器集群进行相对全面的管理,各维度之间相辅相成,可组合使用又不过度耦合,可以适用于公有云、专有云等云集群的全面管理。
图1示出本公开云服务器集群的管理内容示意图。
如图1所示,云服务器集群管理装置(简称“管理装置”)对云服务器集群中各个云服务器的基础信息、运行状态信息、实例关联关系信息等进行综合管理。基础信息包括硬件信息和软件信息中的一项或多项。运行状态信息包括存活状态和基线状态(即基线变化情况)中的一项或多项。
图2示出本公开云服务器集群的管理内容的树形结构示意图。
如图2所示,硬件信息包括云服务器的名称、IP(Internet Protocol,网际互连协议)地址、MAC(Media Access Control,介质访问控制)地址和所在的机架位置。IP地址包括带内IP地址和带外管理IP地址,带内IP地址是云服务器在业务网络的IP地址,带外管理IP地址是用于云服务器的远程配置和控制的管理IP地址,与业务网络无关。软件信息包括部署的产品信息和基线信息。产品信息例如包括产品线、产品服务及其组件。例如,云数据库产品线中的MySQL数据库产品服务包括数据库组件、监控组件等。基线信息包括rpm(RedHat Package Manager,一种开放的软件包管理器)安装包、运行进程、传输控制协议(TCP,Transmission Control Protocol)端口、用户数据报协议(UDP,User Datagram Protocol)端口、***服务。在云服务器部署相应产品服务之后,把产品服务运行正常时的各项基线数据设置为基线基准。实例关联关系信息包括云服务器与产品服务的关联关系、云服务器与其所在机架的关联关系、云服务器与上联的交换机的关联关系、云服务器与其基础信息的关联关系等中的一项或多项。
在云服务器上机架后,管理装置收集云服务器的硬件和软件等基础信息。基础信息收集完毕后,可以通过管理装置安装云服务器的操作***(Operating System,OS),从而来判断基础信息正确与否。
在云服务器集群启动后,管理装置实时监控集群中各个云服务器的存活状态和基线变化情况。存活状态即云服务器开机与否,如果开机表明存活,如果未开机表明未存活。基线信息在云服务器运行过程中会发生变化,基线变化情况能够反映云服务器的健康状况。对云服务器存活状态和基线数据变化状态进行综合处理后,再通过管理装置可视化云服务器的运行状态,即可监控到集群的总体和细节情况。
在集群监控过程中,实例关联关系信息也是管理集群的一个重要维度。例如,运维人员通过管理装置发现某云服务器运行状态异常,那么在服务可用性层面,运维人员需要立刻知道云服务器所部署的是什么服务,从而定位主机异常原因;从机房基地人员的角度出发,则需要迅速发现是哪个交换机的哪个端口出现了问题。这些都需要通过实例关联关系信息实现。
图3为本公开云服务器集群管理方法一些实施例的流程示意图。
如图3所示,该实施例的管理方法例如可以由云服务器集群管理装置(简称“管理装置”)执行,管理方法包括:
在步骤31,获取云服务器集群中每个云服务器的基础信息、运行状态信息、实例关联关系信息。
在步骤32,根据各个云服务器的基础信息、运行状态信息、实例关联关系信息中的至少两项信息,对云服务器集群进行管理。
具体的,根据各个云服务器的基础信息和运行状态信息,对云服务器集群进行管理;或者,根据各个云服务器的基础信息和实例关联关系信息,对云服务器集群进行管理;或者,根据各个云服务器的实例关联关系信息和运行状态信息,对云服务器集群进行管理;或者,根据各个云服务器的基础信息、运行状态信息和实例关联关系信息,对云服务器集群进行管理。下面分别介绍各种管理方法。
图4为本公开根据各个云服务器的基础信息和运行状态信息,对云服务器集群进行管理的一些实施例的流程示意图。
运维人员在日常工作中如果通过管理装置的运行状态监控,发现某台云服务器宕机了,那么需要关注的内容包括:
1.宕机云服务器有可能导致哪些服务不可用?即确认影响面。
2.从软件层面是否可以恢复服务?
3.从硬件层面是否可以恢复服务?如果服务器开机失败,需要机房人员检查云服务器的状态,则如何快速确认云服务器的位置在哪里?
以上三个问题,可以通过组合使用基础信息维度和运行状态信息维度来快速解决。
如图4所示,根据各个云服务器的基础信息和运行状态信息,对云服务器集群进行管理包括:
在步骤41,监控集群中各个云服务器的运行状态。
在步骤42,根据各个云服务器的运行状态信息,如果第一云服务器未开机,在认为其宕机,从而发现宕机的第一云服务器。
接下来,确认影响面。
在步骤43,根据第一云服务器的基础信息(产品信息),将宕机的第一云服务器上部署的产品服务确定为受影响的产品服务。
在步骤441,根据各个云服务器的运行状态信息发现云服务器集群中是否同时存在宕机的其他云服务器(设为第二云服务器);
如果存在宕机的第二云服务器,根据第一云服务器和第二云服务器的基础信息,判断第二云服务器上部署的产品服务与第一云服务器上部署的产品服务是否相关(步骤442),如果不相关,确定第二云服务器不受第一云服务器的影响(步骤443),即基于服务的高可用机制不受影响。
如果不存在宕机的第二云服务器,确定第二云服务器不受第一云服务器的影响(步骤443),即基于服务的高可用机制不受影响。
在步骤451,利用第一云服务器的基础信息记录的带外管理IP地址,进入集群环境跳板机,输入开机命令(如Linux开机命令);
如果第一云服务器开机成功,第一云服务器上部署的产品服务恢复(步骤452);
如果第一云服务器开机失败,问题可能出现在服务器硬件层面,将第一云服务器的基础信息记录的第一云服务器所在的机架位置通知运维人员,使其快速找到云服务器且手动开机(步骤453),如果手动开机成功,第一云服务器上部署的产品服务恢复(步骤452)。
图5为本公开根据各个云服务器的基础信息和实例关联关系信息,对云服务器集群进行管理的示意图。
专有云集群服务大多存在高可用机制,可以从服务的部署规划层面来验证其是否满足高可用。
根据各个云服务器的基础信息和实例关联关系信息,对云服务器集群进行管理例如包括:根据每个云服务器的实例关联关系信息,确定指定产品服务所在的云服务器;根据云服务器的基础信息,确定指定产品服务所在的云服务器所在的机架位置;如果指定产品服务对应多个云服务器和多个机架,判定指定产品服务的可用性等级高。
例如,如图5所示,根据每个云服务器的实例关联关系信息通过“产品服务-云服务器IP地址-机架位置”,确定MySQL产品服务所在的三台云服务器(Host1、Host2、Host3),再看这三台云服务器是否处于不同的机架上,若这三台云服务器是处于不同的机架上(分别为Rack1、Rack2、Rack3),则认为MySQL产品服务符合多云服务器多机架,满足高可用性。反之,如果Redis产品服务部署在一台云服务器Host12,且处于一个机架Rack4上,则认为Redis产品服务不满足高可用性。
图6为本公开根据各个云服务器的实例关联关系信息和运行状态信息,对云服务器集群进行管理的示意图。
根据各个云服务器的实例关联关系信息和运行状态信息,对云服务器集群进行管理例如包括:根据每个云服务器的实例关联关系信息,确定指定产品服务所在的云服务器;根据云服务器的运行状态信息,确定指定产品服务所在的云服务器的运行状态。
例如,假设用户反馈MySQL产品服务突然不可用,运维人员通过实例关联关系信息(如产品服务与云服务器的关联关联),找到MySQL产品服务所在的云服务器(如找到IP地址为IP1和IP2的两台云服务器),然后,通过运行状态信息查看这些云服务器的存活状态、基线变化情况(即基线状态),以查找MySQL产品服务不可用的原因。如果发现原因是某个云服务器宕机,可以继续用图4实施例中的方法排查云服务器不可用的原因。
图7为本公开根据各个云服务器的基础信息、运行状态信息和实例关联关系信息,对云服务器集群进行管理一些实施例的流程示意图。
组合基础信息、运行状态信息和实例关联关系信息三个维度,可以实现:
(1)利用基础信息中的任意一个子维度,查询实例关联关系信息,可以查到云服务器的其他子维度的信息。
(2)根据实例关联关系信息中的产品服务与云服务器的关联关系,可以查询产品服务部署到了哪些云服务器上以及这些云服务器的基本信息。
(3)如果找到了相关的云服务器,就可以实时监控云服务器的运行状态,当服务运行状态出现异常情况的时候,又可以利用反推的云服务器的基本信息、实例关联关系信息等排查故障原因。
如图7所示,根据各个云服务器的基础信息、运行状态信息和实例关联关系信息,对云服务器集群进行管理例如包括:
在步骤71,监控集群中各个云服务器的运行状态。
在步骤72,根据各个云服务器的运行状态信息,如果第一云服务器未开机,在认为其宕机,从而发现宕机的第一云服务器。
接下来,确认影响面。
在步骤73,根据第一云服务器的基础信息(产品信息),将宕机的第一云服务器上部署的产品服务确定为受影响的产品服务。
在步骤741,根据各个云服务器的运行状态信息发现云服务器集群中是否同时存在宕机的其他云服务器(设为第二云服务器);
如果存在宕机的第二云服务器,根据第一云服务器和第二云服务器的基础信息,判断第二云服务器上部署的产品服务与第一云服务器上部署的产品服务是否相关(步骤742),如果不相关,确定第二云服务器不受第一云服务器的影响(步骤743),即基于服务的高可用机制不受影响。
如果不存在宕机的第二云服务器,确定第二云服务器不受第一云服务器的影响(步骤743),即基于服务的高可用机制不受影响。
在步骤751,利用第一云服务器的基础信息记录的带外管理IP地址,进入集群环境跳板机,输入开机命令(如Linux开机命令);
如果第一云服务器开机成功,第一云服务器上部署的产品服务恢复(步骤752);
如果第一云服务器开机失败,问题可能出现在服务器硬件层面,将第一云服务器的基础信息记录的第一云服务器所在的机架位置通知运维人员,使其快速找到云服务器且手动开机(步骤753)。
如果第一云服务器手动开机成功,第一云服务器上部署的产品服务恢复(步骤752)。
如果第一云服务器手动开机失败,根据第一云服务器的实例关联关系信息(如云服务器与其上联的交换机的关联关系),确定第一云服务器上联的交换机,以便对交换机进行检查,例如,定位是上联的交换机的哪个端口出现问题(步骤754)。
下面描述云服务器的基础信息、运行状态信息和实例关联关系信息等维度信息的获取方法。
图8为本公开云服务器的基础信息的获取过程示意图。
如图8所示,该过程包括:
在步骤81,配置云服务器ILO(Integrated Light-Out,一种远程管理接口)地址,并上机架、加电。使得带外管理装置能够直接使用,不需要配置IP地址。
在步骤82,通过带外管理装置给云服务器安装一个最基本的操作***,即利用带外管理装置启动预启动执行环境(Preboot eXecution Environment,PXE)装机,例如可以选择CentOS(Community Enterprise Operating System,社区企业操作***)的最小化安装。
在步骤83,云服务器获取本机架指定范围内的临时IP地址,并开始装机,该步骤不需要IP地址和MAC地址一一对应。
在步骤84,云服务器完成基本操作***安装后,云服务器eth0(即物理网卡)的MAC地址、临时IP地址的信息就会被记录在交换机的地址解析协议(Address ResolutionProtocol,ARP)表中。
在步骤85,根据从交换机处获取到的云服务器的临时IP地址、交换机端口、MAC地址之间的对应信息,结合云服务器的带外管理IP地址、交换机端口等信息,可获取到云服务器(如序列号)和eth0MAC地址的对应关系,最终形成云服务器定制化装机信息。
在步骤86,修改DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)的配置,将IP地址和云服务器的MAC地址一一对应,然后对云服务器进行PXE装机操作,即能实现定制化操作***安装。如果定制化操作***安装成功,即可认为收集的基础信息无误。
通过上述实施例,可以全面、准确地收集云服务器的例如IP地址和MAC地址等基础信息。
无论是在专有云集成过程还是专有云交付后,掌握集群的“健康”状况都显得尤为重要。专有云要想稳定可靠的提供服务,那么云服务器是否宕机、运行的服务是否正常,这些问题就需要清楚的掌握。因此,集群的运行状态可以表征集群的“健康”状况。下面从云服务器的存活状态和基线状态来描述云服务器的运行状态。
云服务器的存活状态,指的是云服务器宕机与否,可用的服务器是非宕机状态的。假设云服务器上架之后由基础信息的收集过程已经确定了云服务器是开机状态的,但是云服务器的开机状态不一定是持久稳定的。由于环境、设备、人为操作等各种不确定因素,云服务器可能宕机,一旦云服务器宕机,则云服务器上所部署的服务就是不可用的。所以,云服务器的存活状态是集群管理必须掌握的重点之一。
本公开通过代理收集云服务器的心跳包和/或网络探测的方式来探测云服务器的存活状态,探测过程如图9A所示。
代理(agent)收集云服务器的心跳包,通过websocket(一种服务器推送技术)链接将心跳包给管理装置,频率例如为每秒一次。管理装置接收到各个代理传来的心跳包后,将发送心跳包的云服务器IP地址和收到心跳包的时间存入内存(cache),每次收到新的心跳包后更新时间。此外,管理装置通过网络连接探测命令(如fping命令),定期(如每秒)探测云服务器的存活状态,并将探测结果存入内存。
接着,可起一个协程每秒轮询这片内存,将当前时间的存活状态与内存中存储的最新存活状态进行比较,如果存活状态有变化,则将最新的存活状态加入事件列表,并推送给消息总线,以使得管理装置及时知道存活状态发生变化的云服务器。
其中,云服务器的存活状态变化情况见下表:
Figure BDA0002388985410000121
如图9B所示,管理装置通过fping命令定期探测云服务器的存活状态,如果fping成功,说明云服务器是存活的;对fping未成功的云服务器,下一次执行fping命令的间隔时间会变为上一次等待时间的两倍,直到达到设置的最大等待时间,则被认为超时。从而,得到各个云服务器当前fping命令执行结果。
通过存活状态可掌握云服务器是否可用。通过基线状态可判断云服务器部署的产品服务是否可用。
如前所述,把产品服务运行正常时的各项基线数据设置为基线基准。实时监控云服务器的基线数据,并与基线基准进行比较,如果基线数据发生变化,且差异超过了一定范围,则提醒产品服务可能异常。
通过ansible(一种自动化运维工具)统一将代理(一种自定义程序)部署到各个云服务器上,通过代理收集宿云服务器的基线信息,然后通过websocket与服务端建立长连接,并将监控到的基线数据发送给管理装置。
如图10所示,基线数据获取过程如下:
(1)设置定时器,如时间间隔设置为10s,以便基于定时器触发定时采集云服务器的基线数据。
(2)采集基线数据,包括:
(2-1)初始状态检测:检测本云服务器的IP地址是否已获取;执行数据采集命令的查找表是否已建立。
其中,数据采集命令列表如下:
Figure BDA0002388985410000131
(2-2)采集本地基线数据,包括rmp包列表、运行进程、TCP端口、UDP端口、正在运行的***服务等。本地采集的数据可以保留一段时间,例如保留1小时。
(2-3)将采集的基线数据写入发送队列。
(3)将基线数据推送至管理装置。
例如,发送队列的消息每次都会全部发送,如果成功发送,会清空缓存队列,发送失败的消息会保存在发送队列中,尝试继续发送。
图11示出了实例关联关系信息的示意图。
如前所述,实例关联关系信息包括云服务器与上联的交换机的关联关系。利用链路层发现协议(Link Layer Discovery Protocol,LLDP)来发现集群的网络连接信息,侧重于发现云服务器的上联交换机信息,由此可方便运维人员迅速排障,从硬件层面解决问题。针对集群中的每个云服务器,利用其带内IP地址调用自动化应用程序接口获取其LLDP信息,例如,本地端口、远端端口、远端主机名等,整合这些信息,确定云服务器上联的交换机,并记录云服务器与其上联的交换机的关联关系。
如前所述,实例关联关系信息包括云服务器与产品服务/其所在机架等基础信息的关联关系。在收集到云服务器的机架位置、产品信息、IP地址等基础信息时,就构建这些实例关联关系。从而,帮助运维人员确认产品服务部署在哪些云服务器上,或者,宕机的云服务器部署在哪个机架上。
图12为本公开云服务器集群管理装置一些实施例的结构示意图。
如图12所示,该实施例的管理装置包括:存储器121以及耦接至该存储器121的处理器122,处理器122被配置为基于存储在存储器121中的指令,执行前述任意一些实施例中的云服务器集群管理方法。
其中,存储器121例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。
管理装置还可以包括输入输出接口123、网络接口124、存储接口125等。这些接口123,124,125以及存储器121和处理器122之间例如可以通过总线126连接。其中,输入输出接口123为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口124为各种联网设备提供连接接口。存储接口125为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种云服务器集群管理方法,其特征在于,包括:
获取云服务器集群中每个云服务器的基础信息、运行状态信息、实例关联关系信息;
根据各个云服务器的基础信息、运行状态信息、实例关联关系信息中的至少两项信息,对所述云服务器集群进行管理;
其中,对所述云服务器集群进行管理包括:
根据各个云服务器的运行状态信息发现宕机的第一云服务器;
根据各个云服务器的运行状态信息发现云服务器集群中是否同时存在宕机的第二云服务器;
根据第一云服务器和第二云服务器的基础信息,如果存在同时宕机的第二云服务器且第二云服务器上部署的产品服务与第一云服务器上部署的产品服务不相关,或者如果不存在同时宕机的第二云服务器,确定第二云服务器不受第一云服务器宕机的影响。
2.根据权利要求1所述的方法,其特征在于,对所述云服务器集群进行管理还包括:
根据各个云服务器的运行状态信息发现宕机的第一云服务器;
并且,对所述云服务器集群进行管理还包括以下中的一项或多项:
根据第一云服务器的基础信息,将宕机的第一云服务器上部署的产品服务确定为受影响的产品服务;
利用第一云服务器的基础信息记录的带外管理IP地址,输入开机命令,如果第一云服务器开机成功,第一云服务器上部署的产品服务恢复,如果第一云服务器开机失败,将第一云服务器的基础信息记录的第一云服务器所在的机架位置通知运维人员。
3.根据权利要求1所述的方法,其特征在于,对所述云服务器集群进行管理还包括:
根据每个云服务器的实例关联关系信息,确定指定产品服务所在的云服务器;
根据云服务器的基础信息,确定指定产品服务所在的云服务器所在的机架位置;
如果指定产品服务对应多个云服务器和多个机架,判定所述指定产品服务的可用性等级高。
4.根据权利要求1所述的方法,其特征在于,对所述云服务器集群进行管理还包括:
根据每个云服务器的实例关联关系信息,确定指定产品服务所在的云服务器;
根据云服务器的运行状态信息,确定指定产品服务所在的云服务器的运行状态。
5.根据权利要求2所述的方法,其特征在于,对所述云服务器集群进行管理还包括:
如果第一云服务器开机失败,根据第一云服务器的实例关联关系信息,确定第一云服务器上联的交换机,以便对所述交换机进行检查。
6.根据权利要求1所述的方法,其特征在于,获取云服务器集群中每个云服务器的运行状态信息包括以下的一项或多项:
通过部署的代理自动收集云服务器的心跳包,并根据云服务器的心跳包确定云服务器的存活状态;
通过网络连接探测命令,定期探测云服务器的存活状态;
通过部署的代理定期自动获取云服务器的基线信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,
基础信息包括硬件信息和软件信息中的一项或多项;
或者,运行状态信息包括存活状态和基线状态中的一项或多项;
或者,实例关联关系信息包括云服务器与产品服务的关联关系、云服务器与其所在机架的关联关系、云服务器与上联的交换机的关联关系、云服务器与其基础信息的关联关系中的一项或多项。
8.根据权利要求7所述的方法,其特征在于,
所述硬件信息包括云服务器的名称、IP地址、介质访问控制MAC地址和所在的机架位置;
或者,所述软件信息包括部署的产品信息和基线信息;
其中,所述基线信息包括软件包管理器安装包、运行进程、传输控制协议TCP端口、用户数据报协议UDP端口、***服务。
9.一种云服务器集群管理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-8中任一项所述的云服务器集群管理方法。
10.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8中任一项所述的云服务器集群管理方法。
CN202010107840.3A 2020-02-21 2020-02-21 云服务器集群管理方法和装置 Active CN111343016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010107840.3A CN111343016B (zh) 2020-02-21 2020-02-21 云服务器集群管理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010107840.3A CN111343016B (zh) 2020-02-21 2020-02-21 云服务器集群管理方法和装置

Publications (2)

Publication Number Publication Date
CN111343016A CN111343016A (zh) 2020-06-26
CN111343016B true CN111343016B (zh) 2021-01-26

Family

ID=71187094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010107840.3A Active CN111343016B (zh) 2020-02-21 2020-02-21 云服务器集群管理方法和装置

Country Status (1)

Country Link
CN (1) CN111343016B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333242B (zh) * 2020-10-13 2022-08-12 北京京东尚科信息技术有限公司 一种基于状态迁移的专有云重建及校验方法及装置
CN112333003B (zh) * 2020-10-13 2022-11-08 北京京东尚科信息技术有限公司 一种获取专有云容器集群基因信息的方法及装置
CN112668882B (zh) * 2020-12-29 2024-04-16 浙江科钛机器人股份有限公司 一种移动机器人集群自主存活检测与分布式协调方法
CN113934707A (zh) * 2021-10-09 2022-01-14 京东科技信息技术有限公司 云原生数据库、数据库扩容方法、数据库缩容方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262690A (zh) * 2011-06-07 2011-11-30 中国石油大学(北京) 一种混合故障预警模型的建模方法及混合故障预警模型
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质
CN109656213A (zh) * 2018-12-26 2019-04-19 西门子电站自动化有限公司 具有失电保护机制的人机接口***及分布式控制***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067344B (zh) * 2011-10-24 2016-03-30 国际商业机器公司 在云环境中自动分发安全规则的非侵入性方法和设备
CN108667666A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种基于可视化技术的智能运维方法及其***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262690A (zh) * 2011-06-07 2011-11-30 中国石油大学(北京) 一种混合故障预警模型的建模方法及混合故障预警模型
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质
CN109656213A (zh) * 2018-12-26 2019-04-19 西门子电站自动化有限公司 具有失电保护机制的人机接口***及分布式控制***

Also Published As

Publication number Publication date
CN111343016A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111343016B (zh) 云服务器集群管理方法和装置
JP5416156B2 (ja) 統合監視システム及び統合監視プログラム
US7016955B2 (en) Network management apparatus and method for processing events associated with device reboot
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
US20070118654A1 (en) Method and apparatus for provisioning heterogeneous operating systems onto heterogeneous hardware systems
CN108628716B (zh) 信息纳管***、方法及装置
CN104363117A (zh) 一种基于ipmi实现串口重定向的方法
JP2009205687A (ja) 複数装置管理の方法およびシステム
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN107517110B (zh) 一种分布式***中单板配置自恢复方法及装置
WO2016014803A1 (en) Node discovery and cluster formation for a secondary storage appliance
US8266301B2 (en) Deployment of asynchronous agentless agent functionality in clustered environments
US7519069B2 (en) Internet protocol address updating system and related method
CN104486125A (zh) 配置文件的备份方法及装置
US8819200B2 (en) Automated cluster node configuration
CN108429656A (zh) 一种监控物理机网卡连接状态的方法
CN113422692A (zh) 一种K8s集群内节点故障检测及处理方法、装置及存储介质
CN111694707A (zh) 一种小型服务器集群管理***及方法
JP2003233512A (ja) 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法
CN111784179A (zh) 服务器基础信息管理***及方法
CN115934464A (zh) 一种信息化平台监控采集***
US11762741B2 (en) Storage system, storage node virtual machine restore method, and recording medium
JP2012208736A (ja) フィルタリング装置、フィルタリング方法、フィルタリングプログラム
EP1654653B1 (en) Active storage area network discovery system and method
CN114363150A (zh) 服务器集群的网卡连通性监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant