CN116248484B - 云原生一体机的管理方法和装置、电子设备和存储介质 - Google Patents

云原生一体机的管理方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116248484B
CN116248484B CN202310221964.8A CN202310221964A CN116248484B CN 116248484 B CN116248484 B CN 116248484B CN 202310221964 A CN202310221964 A CN 202310221964A CN 116248484 B CN116248484 B CN 116248484B
Authority
CN
China
Prior art keywords
node
network connection
state
connection state
storage service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310221964.8A
Other languages
English (en)
Other versions
CN116248484A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anchao Cloud Software Co Ltd
Original Assignee
Anchao Cloud Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anchao Cloud Software Co Ltd filed Critical Anchao Cloud Software Co Ltd
Priority to CN202310221964.8A priority Critical patent/CN116248484B/zh
Publication of CN116248484A publication Critical patent/CN116248484A/zh
Application granted granted Critical
Publication of CN116248484B publication Critical patent/CN116248484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种云原生一体机的管理方法,所述云原生一体机包括第一节点和第二节点,所述第一节点和所述第二节点包括联网的集群模式以及离网的单机模式,所述管理方法包括;在所述第一节点处于所述集群模式时,所述第一节点获取自身到所述第二节点的心跳网络连接状态;所述第一节点在自身到所述第二节点的心跳网络连接状态为正常时,获取所述第二节点的***工作状态和存储服务工作状态;所述第一节点基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式。本申请理方法能够在节点出现故障时,自动切换节点的工作模式,实现存储故障切换,保证存储服务的高可用。

Description

云原生一体机的管理方法和装置、电子设备和存储介质
技术领域
本申请属于计算机技术领域,具体涉及一种云原生一体机的管理方法和装置、电子设备和存储介质。
背景技术
两节点云原生容器一体机由两台计算机组成,每个计算机都称为集群中的一个节点(Node)。当网络存在故障时,例如网络中某一个交换机存在故障,一个集群可能***为两个组(Node Group),这种现象叫做脑裂(Brain Split)。当集群发生脑裂后,***的两个节点组中的每一个节点组都无法通过心跳信息或者租约信息检测到对方的存在,会认为其他节点组的节点发生了故障,这样在同一时间段,这些节点组中的节点可能会发起对某一共享存储资源访问,例如对存储磁盘的访问,这样就会导致数据访问错误的发生。
发明内容
本申请的目的在于提供一种云原生一体机的管理方法和装置、电子设备和存储介质,以解决现有技术中存在的云原生一体机集群发生脑裂后,节点组中的节点可能会发起对共享存储资源访问,导致数据访问错误的发生的问题。
为实现上述目的,本申请采用的一个技术方案是:
提供一种云原生一体机的管理方法,所述云原生一体机包括第一节点和第二节点,所述第一节点和所述第二节点包括联网的集群模式以及离网的单机模式,所述管理方法包括;
在所述第一节点处于所述集群模式时,所述第一节点获取自身到所述第二节点的心跳网络连接状态;
所述第一节点在自身到所述第二节点的心跳网络连接状态为正常时,获取所述第二节点的***工作状态和存储服务工作状态;
所述第一节点基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式。
在一个或多个实施方式中,与所述获取所述第二节点的***工作状态和存储服务工作状态的步骤同步的还包括:
所述第一节点在自身到所述第二节点的心跳网络连接状态为故障时,获取自身分别到所述第二节点和第三方网关的管理网络连接状态;
所述第一节点在自身到所述第二节点的管理网络连接状态为正常时,判断自身是否为默认节点;若是,
所述第一节点将自身切换至单机模式。
在一个或多个实施方式中,与所述获取自身分别到所述第二节点和第三方网关的管理网络连接状态的步骤同步的还包括:
所述第一节点在自身到所述第二节点的管理网络连接状态为故障,自身到所述第三方网关的管理网络连接状态为正常时,将自身切换至单机模式。
在一个或多个实施方式中,所述所述第一节点基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式的步骤包括:
所述第一节点在自身的存储网络连接状态为故障时,判断自身是否为默认节点;若是,
所述第一节点将自身切换至单机模式。
在一个或多个实施方式中,所述所述第一节点基于自身的存储网络连接状态、所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式的步骤包括:
所述第一节点在所述第二节点的***工作状态为故障时和/或所述第二节点的存储服务工作状态为故障时,将自身切换至单机模式。
在一个或多个实施方式中,还包括:
所述第一节点在处于所述单机模式时,判断自身是否能与所述第二节点联网;若是,
所述第一节点加入所述第二节点中组成集群。
在一个或多个实施方式中,所述所述第一节点在处于所述单机模式时,判断自身是否能与所述第二节点联网的步骤包括:
所述第一节点获取所述第二节点的工作模式、自身的存储服务状态以及自身的管理网络连接状态;
在所述第二节点处于单机模式、以及自身的存储服务状态和管理网络连接状态均为正常时,所述第一节点确定自身能与所述第二节点联网。
在一个或多个实施方式中,所述所述第一节点在处于所述单机模式时,判断自身是否能与所述第二节点联网的步骤还包括:
在所述第二节点不处于所述单机模式、和/或自身的存储服务状态为故障、和/或自身的管理网络连接状态为故障时,所述第一节点等待预设时间后重新获取所述第二节点的工作模式、自身的存储服务状态以及自身的管理网络连接状态。
在一个或多个实施方式中,所述所述第一节点加入所述第二节点中组成集群,所述第一节点和所述第二节点分别将自身切换至所述集群模式的步骤之后还包括:
所述第一节点判断是否成功与所述第二节点组成集群;若否,
所述第一节点等待预设时间后重新判断自身是否能与所述第二节点联网。
在一个或多个实施方式中,还包括:
所述第一节点读写自身的***磁盘;
若读写失败,所述第一节点触发***kdump服务转存运行内存并重启***。
在一个或多个实施方式中,还包括:
所述第一节点获取自身的管理平台工作状态;
所述第一节点在自身的管理平台处于启动状态时,获取自身的业务网络连接状态以及所述第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态;
在自身的业务网络连接状态以及所述第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态中的一个或多个为故障时,所述第一节点对所述第二节点进行故障疏散。
在一个或多个实施方式中,所述所述第一节点对所述第二节点进行故障疏散的步骤包括:
所述第一节点获取所述第二节点的管理网络连接状态、业务网络连接状态和存储服务工作状态;
当所述第二节点的存储服务工作状态为故障时,所述第一节点将所述第二节点关机疏散,并发送告警信息;
当所述第二节点的存储服务工作状态为正常,且所述第二节点的管理网络连接状态和业务网络连接状态均为故障时,将所述第二节点关机疏散,并发送告警信息;
当所述第二节点的存储服务工作状态和管理网络连接状态均为正常,且所述第二节点的业务网络连接状态为故障时,所述第一节点将所述第二节点的业务POD关闭冷迁至自身,并发送告警信息;
当所述第二节点的存储服务工作状态和业务网络连接状态均为正常,且所述第二节点的管理网络连接状态为故障时,所述第一节点不对所述第二节点做处理。
为实现上述目的,本申请采用的另一个技术方案是:
提供一种云原生一体机的管理装置,所述云原生一体机包括第一节点和第二节点,所述第一节点和所述第二节点包括联网的集群模式以及离网的单机模式,所述管理装置应用于所述第一节点,且管理装置包括;
第一获取模块,用于在所述第一节点处于所述集群模式时,获取自身到所述第二节点的心跳网络连接状态;
第二获取模块,用于在自身到所述第二节点的心跳网络连接状态为正常时,获取所述第二节点的***工作状态和存储服务工作状态;
管理模块,用于基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式。
为实现上述目的,本申请采用的又一个技术方案是:
提供一种电子设备,其特征在于,包括:
至少一个处理器;以及,
存储器,所述存储器存储有指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上述任一实施方式所述的云原生一体机的管理方法。
为实现上述目的,本申请采用的又一个技术方案是:
提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上述任一实施方式所述的云原生一体机的管理方法。
区别于现有技术,本申请的有益效果是:
本申请管理方法能够在节点出现故障时,自动切换节点的工作模式,实现存储故障切换,保证存储服务的高可用;
本申请管理方法在故障恢复后可以控制节点重新联网构建集群,实现存储故障恢复,保证高可用;
本申请管理方法能够在节点出现故障时,进行故障疏散,保证***高可用。
附图说明
图1是本申请云原生一体机一实施方式的结构框图;
图2是本申请云原生一体机的管理方法中存储故障切换一实施方式的流程示意图;
图3是本申请云原生一体机的管理方法中存储故障恢复一实施方式的流程示意图;
图4是图3中步骤S100b对应的一实施方式的流程示意图;
图5是本申请云原生一体机的管理方法中故障疏散一实施方式的流程示意图;
图6是图5中步骤S300c对应的一实施方式的流程示意图;
图7是本申请云原生一体机的管理装置一实施方式的结构框图;
图8是本申请电子设备一实施方式的结构示意图。
具体实施方式
以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请,本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。
云原生容器一体机是一款集容器平台和存储功能的软硬件一体化解决方案,灵活满足不同业务对计算、存储和I/O的弹性配置需求,提供安全可控、经济有效的数据中心基础架构。云原生容器一体机集成容器技术,可轻松实现对应用的承托,具有良好的可扩展性和业务敏捷性,帮助客户从容应对多云部署和混合云管理的复杂场景。
两节点云原生容器一体机由两台计算机组成,每个计算机都称为集群中的一个节点(Node),每个节点内运行存储服务,和对方组成分布式存储。
当网络存在故障时,例如网络中某一个交换机存在故障,一个集群可能***为两个组(Node Group),这种现象叫做脑裂(Brain Split)。当集群发生脑裂后,***的两个节点组中的每一个节点组都无法通过心跳信息或者租约信息检测到对方的存在,会认为其他节点组的节点发生了故障,这样在同一时间段,这些节点可能会发起对某一共享存储资源访问,例如对存储磁盘的访问,这样就会导致数据访问错误的发生。
为了保证云原生容器一体机的分布式存储服务的正常运行,保证存储服务的高可用,本申请提供了一种云原生一体机的管理方法,该管理方法能够在发生存储故障时进行节点状态的切换,保证存储服务的高可用。
请参阅图1,图1是本申请云原生一体机一实施方式的结构框图,该云原生一体机包括第一节点和第二节点,每一节点内均部署有存储服务和业务POD,第一节点和第二节点之间通过心跳线连接,同时心跳线还复用为节点与存储网络提供连接,第一节点和第二节点还通过管理网连接至第三方网关。
第三方网关用于通过管理网向第一节点和第二节点下发指令以管理第一节点和第二节点提供的服务。
第一节点和第二节点包括联网的集群模式以及离网的单机模式。
请参阅图2,图2是本申请云原生一体机的管理方法中存储故障切换一实施方式的流程示意图。
存储故障切换包括:
S100a、在第一节点处于集群模式时,第一节点获取自身到第二节点的心跳网络连接状态。
当第一节点和第二节点处于联网的集群模式时,第一节点可以获取自身通过心跳网与第二节点的连接状态,由于心跳网复用为存储网络,因此即同步获取第一节点与存储网络的连接状态。
S200a、第一节点在自身到第二节点的心跳网络连接状态为正常时,获取第二节点的***工作状态和存储服务工作状态。
当第一节点到第二节点的心跳网络连接状态为正常时,可以判定第一节点自身与存储网络连接正常,即第一节点可以正常提供存储服务。
此时为了避免第二节点出现故障影响集群的存储服务,保证存储服务的高可用,第一节点可以进一步获取第二节点的***工作状态和存储服务工作状态。
具体地,在一个实施方式中,第一节点可以通过SSH安全协议至第二节点中获取第二节点的***工作状态和存储服务工作状态。
S300a、第一节点基于第二节点的***工作状态和存储服务工作状态,管理自身的工作模式。
基于步骤S200a获取的状态信息,第一节点能够确定此时集群的存储服务是否运行正常,即至少存在一个节点正常提供存储服务,基于当前集群的存储服务的状态可以对第一节点工作模式的管理,以保证集群存储服务的高可用。
具体地,在一个实施方式中,第一节点管理自身的工作模式的步骤可以包括:
第一节点在第二节点的***工作状态为故障时和/或第二节点的存储服务工作状态为故障时,将自身切换至单机模式。
当第二节点的***存在故障时,或者第二节点的存储服务无法正常工作时,第一节点可以直接将自身切换至单机模式,从而以单机形式提供存储服务,保证存储服务的高可用。
与步骤S200a同步的步骤还包括:
S200a’、第一节点在自身到第二节点的心跳网络连接状态为故障时,获取自身分别到第二节点和第三方网关的管理网络连接状态。
当第一节点到第二节点的心跳网络连接状态为故障时,此时第一节点无法与存储网络连接,第一节点和第二节点的存储服务之间也无法连接,第一节点和第二节点的存储服务无法检测到对方的存在,此时两个节点的存储服务会导致数据访问错误的发生。
因此,需要进一步基于第一节点和第二节点的管理网络连接状态以及第一节点和第三方网关的管理网络连接状态判定此时集群的状态。
S300a’、第一节点在自身到第二节点的管理网络连接状态为正常时,判断自身是否为默认节点。
S400a’、若第一节点为默认节点,第一节点将自身切换至单机模式。
当第一节点与第二节点的心跳网络连接状态为故障,第一节点到第二节点的管理网络连接状态为正常时,可以判定第一节点和第二节点均处于正常工作状态,仅心跳网出现故障,第一节点和第二节点的存储服务由于无法检测到对方的存在出现脑裂现象,导致数据访问错误的发生。
因此,需要将默认节点切换为单机模式,防止两个节点相互冲突。其中,默认节点即***认定的主节点,可以通过节点的配置文件来定义。
第一节点可以通过读取配置文件以及自身的节点信息来判断自身是否为默认节点。当第一节点为***配置文件预设的默认节点时,第一节点可以直接将自身作为主节点切换至单机模式,此时单机模式的第一节点提供的存储服务能够正常运行,保证存储服务的高可用。
可以理解的,当第一节点并非默认节点时,第一节点可以不做相关动作,等待默认节点将其自身切换至单机模式,也能够实现存储服务的正常运行。
与步骤S300a’同步的步骤还包括:
S300a”、第一节点在自身到第二节点的管理网络连接状态为故障,自身到第三方网关的管理网络连接状态为正常时,将自身切换至单机模式。
当第一节点到第二节点的心跳网络连接状态和管理网络连接状态均为故障时,并且第一节点到第三方网关的管理网络连接状态为正常时,可以判定第一节点处于正常工作状态,第二节点处于异常工作状态,且心跳网出现故障,为了保证存储服务的高可用,第一节点可以直接将自身切换至单机模式。
可以理解的,当第一节点到第二节点的管理网络连接状态、心跳网络连接状态以及第一节点到第三方网关的管理网络连接状态均为故障时,可以判定第一节点出现故障,第二节点的状态未知,网络全部断开了,此时由于第一节点和第二节点均无法提供服务,可以不做任何动作。
通过采用上述方案,可以在一个节点的存储服务或***存在故障时,自动将另一个节点切换至单机模式提供存储服务;同时,在存储网络故障时,也可以自动将默认节点切换为单机模式提供存储服务,实现存储故障切换,保证存储服务的高可用。
当故障修复后,为了实现集群的重新构建,管理方法还包括存储故障恢复。具体地,请参阅图3,图3是本申请云原生一体机的管理方法中存储故障恢复一实施方式的流程示意图。
S100b、第一节点在处于单机模式时,判断自身是否能与第二节点联网。
S200b、若是第一节点确定自身能与第二节点联网,第一节点加入第二节点中组成集群。
当第一节点处于单机模式时,第一节点能够判断自身能否和第二节点联网。当第一节点确定能够和第二节点联网时,两个节点可以重新连接形成集群,同时两个节点切换至集群模式。
具体地,请参阅图4,图4是图3中步骤S100b对应的一实施方式的流程示意图。
第一节点判断自身是否能与第二节点联网的步骤包括:
S101b、第一节点获取第二节点的工作模式、自身的存储服务状态以及自身的管理网络连接状态。
S102b、在第二节点处于单机模式、以及自身的存储服务状态和管理网络连接状态均为正常时,第一节点确定自身能与第二节点联网。
首先,第一节点可以判断第二节点是否处于单机模式,仅在第二节点也处于单机模式时,第一节点才能够和第二节点连接构成集群。
在第二节点也处于单机模式时,第一节点可以获取自身的存储服务是否正常以及自身与管理网络连接是否正常;若均正常,第一节点既可以确定能够与第二节点联网。
在一个实施方式中,与步骤S102b同步的还包括:
S102b’、在第二节点不处于单机模式、和/或自身的存储服务状态为故障、和/或自身的管理网络连接状态为故障时,第一节点等待预设时间后重新获取第二节点的工作模式、自身的存储服务状态以及自身的管理网络连接状态。
可以理解的,仅当同时满足第二节点处于单机模式,第一节点的存储服务正常,集群的管理网络正常的条件时,第一节点才能够与第二节点重新连接形成集群;任意一个条件不满足时,第一节点可以等待预设时间后重新判断是否能够与第二节点联网,实现周期性检查,保证在满足联网条件时可以第一时间构建集群。
其中,预设时间可以基于实际工况选择,可以通过节点的配置文件设定,例如可以为5s。
为了保证集群构建成功,在步骤S200b之后还包括:
S300b、第一节点判断是否成功与第二节点组成集群。
S400b、若未成功组成集群,第一节点等待预设时间后重新判断自身是否能与第二节点联网。
在第一节点加入第二节点组成集群后,第一节点能够判断是否成功与第二节点组成集群,若未成功组成集群,第一节点可以等待预设时间后重新判断是否能够与第二节点联网。
其中,预设时间可以基于实际工况选择,可以通过节点的配置文件设定,例如可以为5s。
为了防止***磁盘损坏,影响存储服务的运行,云原生一体机的管理方法还可以包括对***磁盘的周期性检查,具体地,管理方法可以包括:
第一节点读写自身的***磁盘;若读写失败,第一节点触发***kdump服务转存运行内存并重启***。
第一节点可以周期性的读写自身的***磁盘,判断***磁盘是否工作,当***磁盘无法读写时,第一节点可以立即触发***的kdump服务,kdump是在***崩溃、死锁或者死机的时候用来转储内存运行参数的一个工具和服务,通过触发kdump服务能够将运行内存转存并重启***,防止***假死造成存储不可用,保证运行参数的存储以及存储服务的高可用。
在一个实施方式中,如图1所示,第一节点和第二节点内还部署了管理平台服务,管理平台服务可以部署在容器内,且管理平台服务可以包括故障疏散服务。
云原生一体机的管理方法还可以包括故障疏散,具体地,请参阅图5,图5是本申请云原生一体机的管理方法中故障疏散一实施方式的流程示意图。
故障疏散包括:
S100c、第一节点获取自身的管理平台工作状态;
S200c、第一节点在自身的管理平台处于启动状态时,获取自身的业务网络连接状态以及第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态。
S300c、在自身的业务网络连接状态以及第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态中的一个或多个为故障时,第一节点对第二节点进行故障疏散。
具体地,第一节点首先获取自身的管理平台状态,即判断第一节点内的故障疏散服务是否处于启用状态。
当第一节点的故障疏散服务处于启用状态时,第一节点可以进一步获取两个节点的业务POD与业务网络的连接状态,即业务网络连接状态,业务网络用于用户向节点下达业务指令,业务POD接收到业务指令后执行相应指令。
第一节点还可以进一步获取第二节点的***工作状态、存储服务工作状态和第二节点与管理网络的连接状态;基于上述状态,能够判断是否需要对第二节点进行故障疏散,通过对第二节点进行故障疏散保证存储服务的高可用。
下面具体介绍故障疏散的方法和匹配规则,请参阅图6,图6是图5中步骤S300c对应的一实施方式的流程示意图。
第一节点对第二节点进行故障疏散的方法包括:
S301c、第一节点获取第二节点的管理网络连接状态、业务网络连接状态和存储服务工作状态。
在确定需要对第二节点进行故障疏散后,第一节点获取第二节点与管理网络、业务网络的连接状态以及第二节点的存储服务的工作状态。
S302c、当第二节点的存储服务工作状态为故障时,第一节点将第二节点关机疏散,并发送告警信息。
若第二节点的存储服务存在故障,即第二节点无法提供存储服务,为了保证存储服务的高可用,第一节点可以将第二节点直接关机疏散,避免集群模式下第二节点影响第一节点的存储服务运行,同时第一节点可以发送告警信息,提醒内网管理员第二节点已经关机。
S303c、当第二节点的存储服务工作状态为正常,且第二节点的管理网络连接状态和业务网络连接状态均为故障时,第一节点将第二节点关机疏散,并发送告警信息。
当第二节点的存储服务正常工作时,但第二节点与管理网络和业务网络的连接均故障,此时管理员和用户均无法正常访问第二节点,此时第二节点的存储服务虽然工作正常,但由于内网的管理指令和外网的用户业务指令均无法传达至第二节点内,因此第一节点可以将第二节点关机疏散,并发送告警信息,提醒内网管理员第二节点已经关机。
S304c、当第二节点的存储服务工作状态和管理网络连接状态均为正常,且第二节点的业务网络连接状态为故障时,第一节点将第二节点的业务POD关闭冷迁至自身,并发送告警信息。
当第二节点的存储服务正常工作,第二节点与管理网络的连接正常,但第二节点与业务网络的连接状态为故障时,外网的用户业务指令无法传达至第二节点内,此时第一节点可以将第二节点的业务POD关闭并冷迁至第一节点内,从而使第一节点可以执行第二节点的业务指令,并发送告警信息,提醒内网管理员第二节点的业务POD已迁移至第一节点。
S305c、当第二节点的存储服务工作状态和业务网络连接状态均为正常,且第二节点的管理网络连接状态为故障时,第一节点不对第二节点做处理。
当第二节点的存储服务正常工作,第二节点与业务网络的连接正常,当第二节点与管理网络的连接状态为故障时,外网的用户业务指令能够传达至第二节点内,内网的管理指令无法传达至第二节点内,此时第二节点仍能够执行业务指令,第一节点可以不对第二节点做迁移和关机处理。
本申请还提供了一种云原生一体机的管理装置,云原生一体机包括第一节点和第二节点,第一节点和第二节点包括联网的集群模式以及离网的单机模式。请参阅图7,图7是本申请云原生一体机的管理装置一实施方式的结构框图。
该管理装置应用于第一节点,包括第一获取模块21、第二获取模块22和管理模块23。
其中,第一获取模块21用于在第一节点处于集群模式时,获取自身到第二节点的心跳网络连接状态;第二获取模块22用于在自身到第二节点的心跳网络连接状态为正常时,获取第二节点的***工作状态和存储服务工作状态;管理模块23用于基于第二节点的***工作状态和存储服务工作状态,管理自身的工作模模式。
一实施方式中,管理装置还包括判断模块24和集群模块25。
其中,判断模块24用于在第一节点在处于单机模式时判断自身是否能与第二节点联网;
集群模块25用于在确定自身能与第二节点联网时,加入第二节点中组成集群。
一实施方式中,管理装置还包括读写模块26和重启模块27。
其中,读写模块26用于读写自身的***磁盘;重启模块27在读写失败时触发***kdump服务转存运行内存并重启***。
一实施方式中,管理装置还包括第三获取模块28、第四获取模块29和故障疏散模块30。
其中,第三获取模块28用于获取自身的管理平台工作状态;第四获取模块29用于在自身的管理平台处于启动状态时,获取自身的业务网络连接状态以及第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态;故障疏散模块30用于在自身的业务网络连接状态以及第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态中的一个或多个为故障时,对第二节点进行故障疏散。
如上参照图1到图6,对根据本说明书实施例云原生一体机的管理方法进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本说明书实施例的云原生一体机的管理装置。上面的云原生一体机的管理装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图8是本申请电子设备一实施方式的结构示意图。如图8所示,电子设备40可以包括至少一个处理器41、存储器42(例如非易失性存储器)、内存43和通信接口44,并且至少一个处理器41、存储器42、内存43和通信接口44经由总线45连接在一起。至少一个处理器41执行在存储器42中存储或编码的至少一个计算机可读指令。
应该理解,在存储器42中存储的计算机可执行指令当执行时使得至少一个处理器41进行本说明书的各个实施例中以上结合图1-图7描述的各种操作和功能。
在本说明书的实施例中,电子设备40可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
根据一个实施例,提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图7描述的各种操作和功能。具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本说明书的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各***结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理客户实现,或者,有些单元可能分由多个物理客户实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所对应的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (12)

1.一种云原生一体机的管理方法,其特征在于,所述云原生一体机包括第一节点和第二节点,所述第一节点和所述第二节点包括联网的集群模式以及离网的单机模式,所述管理方法包括;
在所述第一节点处于所述集群模式时,所述第一节点获取自身到所述第二节点的心跳网络连接状态;
所述第一节点在自身到所述第二节点的心跳网络连接状态为正常时,获取所述第二节点的***工作状态和存储服务工作状态;
所述第一节点基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式;
所述第一节点获取自身的管理平台工作状态;
所述第一节点在自身的管理平台处于启动状态时,获取自身的业务网络连接状态以及所述第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态;
在自身的业务网络连接状态以及所述第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态中的一个或多个为故障时,所述第一节点对所述第二节点进行故障疏散;
其中,所述所述第一节点对所述第二节点进行故障疏散的步骤包括:
所述第一节点获取所述第二节点的管理网络连接状态、业务网络连接状态和存储服务工作状态;
当所述第二节点的存储服务工作状态为故障时,所述第一节点将所述第二节点关机疏散,并发送告警信息;
当所述第二节点的存储服务工作状态为正常,且所述第二节点的管理网络连接状态和业务网络连接状态均为故障时,将所述第二节点关机疏散,并发送告警信息;
当所述第二节点的存储服务工作状态和管理网络连接状态均为正常,且所述第二节点的业务网络连接状态为故障时,所述第一节点将所述第二节点的业务POD关闭冷迁至自身,并发送告警信息;
当所述第二节点的存储服务工作状态和业务网络连接状态均为正常,且所述第二节点的管理网络连接状态为故障时,所述第一节点不对所述第二节点做处理。
2.根据权利要求1所述的管理方法,其特征在于,与所述获取所述第二节点的***工作状态和存储服务工作状态的步骤同步的还包括:
所述第一节点在自身到所述第二节点的心跳网络连接状态为故障时,获取自身分别到所述第二节点和第三方网关的管理网络连接状态;
所述第一节点在自身到所述第二节点的管理网络连接状态为正常时,判断自身是否为默认节点;若是,
所述第一节点将自身切换至单机模式。
3.根据权利要求2所述的管理方法,其特征在于,与所述获取自身分别到所述第二节点和第三方网关的管理网络连接状态的步骤同步的还包括:
所述第一节点在自身到所述第二节点的管理网络连接状态为故障,自身到所述第三方网关的管理网络连接状态为正常时,将自身切换至单机模式。
4.根据权利要求1所述的管理方法,其特征在于,所述所述第一节点基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式的步骤包括:
所述第一节点在所述第二节点的***工作状态为故障时和/或所述第二节点的存储服务工作状态为故障时,将自身切换至单机模式。
5.根据权利要求1所述的管理方法,其特征在于,还包括:
所述第一节点在处于所述单机模式时,判断自身是否能与所述第二节点联网;若是,
所述第一节点加入所述第二节点中组成集群。
6.根据权利要求5所述的管理方法,其特征在于,所述所述第一节点在处于所述单机模式时,判断自身是否能与所述第二节点联网的步骤包括:
所述第一节点获取所述第二节点的工作模式、自身的存储服务状态以及自身的管理网络连接状态;
在所述第二节点处于单机模式、以及自身的存储服务状态和管理网络连接状态均为正常时,所述第一节点确定自身能与所述第二节点联网。
7.根据权利要求6所述的管理方法,其特征在于,所述所述第一节点在处于所述单机模式时,判断自身是否能与所述第二节点联网的步骤还包括:
在所述第二节点不处于所述单机模式、和/或自身的存储服务状态为故障、和/或自身的管理网络连接状态为故障时,所述第一节点等待预设时间后重新获取所述第二节点的工作模式、自身的存储服务状态以及自身的管理网络连接状态。
8.根据权利要求5所述的管理方法,其特征在于,所述所述第一节点加入所述第二节点中组成集群,所述第一节点和所述第二节点分别将自身切换至所述集群模式的步骤之后还包括:
所述第一节点判断是否成功与所述第二节点组成集群;若否,
所述第一节点等待预设时间后重新判断自身是否能与所述第二节点联网。
9.根据权利要求1所述的管理方法,其特征在于,还包括:
所述第一节点读写自身的***磁盘;
若读写失败,所述第一节点触发***kdump服务转存运行内存并重启***。
10.一种云原生一体机的管理装置,其特征在于,所述云原生一体机包括第一节点和第二节点,所述第一节点和所述第二节点包括联网的集群模式以及离网的单机模式,所述管理装置应用于所述第一节点,且管理装置包括;
第一获取模块,用于在所述第一节点处于所述集群模式时,获取自身到所述第二节点的心跳网络连接状态;
第二获取模块,用于在自身到所述第二节点的心跳网络连接状态为正常时,获取所述第二节点的***工作状态和存储服务工作状态;
管理模块,用于基于所述第二节点的***工作状态和存储服务工作状态,管理自身的工作模式;
第三获取模块,用于获取自身的管理平台工作状态;
第四获取模块,用于在自身的管理平台处于启动状态时,获取自身的业务网络连接状态以及所述第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态;
故障疏散模块,用于在自身的业务网络连接状态以及所述第二节点的***工作状态、存储服务工作状态、管理网络连接状态和业务网络连接状态中的一个或多个为故障时,对所述第二节点进行故障疏散;
其中,所述对所述第二节点进行故障疏散包括:
获取所述第二节点的管理网络连接状态、业务网络连接状态和存储服务工作状态;
当所述第二节点的存储服务工作状态为故障时,将所述第二节点关机疏散,并发送告警信息;
当所述第二节点的存储服务工作状态为正常,且所述第二节点的管理网络连接状态和业务网络连接状态均为故障时,将所述第二节点关机疏散,并发送告警信息;
当所述第二节点的存储服务工作状态和管理网络连接状态均为正常,且所述第二节点的业务网络连接状态为故障时,将所述第二节点的业务POD关闭冷迁至自身,并发送告警信息;
当所述第二节点的存储服务工作状态和业务网络连接状态均为正常,且所述第二节点的管理网络连接状态为故障时,不对所述第二节点做处理。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
存储器,所述存储器存储有指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至9任一所述的云原生一体机的管理方法。
12.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至9任一所述的云原生一体机的管理方法。
CN202310221964.8A 2023-03-09 2023-03-09 云原生一体机的管理方法和装置、电子设备和存储介质 Active CN116248484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310221964.8A CN116248484B (zh) 2023-03-09 2023-03-09 云原生一体机的管理方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310221964.8A CN116248484B (zh) 2023-03-09 2023-03-09 云原生一体机的管理方法和装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116248484A CN116248484A (zh) 2023-06-09
CN116248484B true CN116248484B (zh) 2024-03-22

Family

ID=86631075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310221964.8A Active CN116248484B (zh) 2023-03-09 2023-03-09 云原生一体机的管理方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116248484B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050078931A (ko) * 2004-02-03 2005-08-08 엘지엔시스(주) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
CN107147528A (zh) * 2017-05-23 2017-09-08 郑州云海信息技术有限公司 一种存储网关智能防脑裂***及方法
CN111274135A (zh) * 2020-01-18 2020-06-12 苏州浪潮智能科技有限公司 一种openstack的计算节点高可用测试方法
CN113377702A (zh) * 2021-07-06 2021-09-10 安超云软件有限公司 两节点集群启动的方法及装置、电子设备和存储介质
CN115269248A (zh) * 2022-07-28 2022-11-01 江苏安超云软件有限公司 双节点集群下防止脑裂方法和装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050078931A (ko) * 2004-02-03 2005-08-08 엘지엔시스(주) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
CN107147528A (zh) * 2017-05-23 2017-09-08 郑州云海信息技术有限公司 一种存储网关智能防脑裂***及方法
CN111274135A (zh) * 2020-01-18 2020-06-12 苏州浪潮智能科技有限公司 一种openstack的计算节点高可用测试方法
CN113377702A (zh) * 2021-07-06 2021-09-10 安超云软件有限公司 两节点集群启动的方法及装置、电子设备和存储介质
CN115269248A (zh) * 2022-07-28 2022-11-01 江苏安超云软件有限公司 双节点集群下防止脑裂方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN116248484A (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
US9052935B1 (en) Systems and methods for managing affinity rules in virtual-machine environments
CN107526659B (zh) 用于失效备援的方法和设备
CN109151045B (zh) 一种分布式云***及监控方法
CN102355369B (zh) 虚拟化集群***及其处理方法和设备
EP3210367B1 (en) System and method for disaster recovery of cloud applications
CN102394914A (zh) 集群脑裂处理方法和装置
EP3550436A1 (en) Method and apparatus for detecting and recovering fault of virtual machine
CN101908980A (zh) 一种网管升级的方法及***
CN104158707A (zh) 一种检测并处理集群脑裂的方法和装置
CN104036043A (zh) 一种mysql高可用的方法及管理节点
US11223515B2 (en) Cluster system, cluster system control method, server device, control method, and non-transitory computer-readable medium storing program
CN114138732A (zh) 一种数据处理方法及装置
CN105389231A (zh) 一种数据库双机备份方法及***
CN111342986B (zh) 分布式节点管理方法及装置、分布式***、存储介质
CN114840495A (zh) 一种数据库集群防脑裂的方法、存储介质与设备
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN109617716B (zh) 数据中心异常处理方法及装置
CN111488247B (zh) 一种管控节点多次容错的高可用方法及设备
CN107181608B (zh) 一种恢复服务及性能提升的方法及运维管理***
CN116248484B (zh) 云原生一体机的管理方法和装置、电子设备和存储介质
CN117201507A (zh) 云平台切换方法、装置、电子设备及存储介质
CN107526652B (zh) 一种数据同步方法及存储设备
CN102073523A (zh) 实现软件版本同步的方法及装置
US20180107502A1 (en) Application continuous high availability solution
CN114584459B (zh) 一种实现容器云平台主备高可用的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant