CN110519112A - 一种实现集群存储***中动态连续高可用的方法 - Google Patents

一种实现集群存储***中动态连续高可用的方法 Download PDF

Info

Publication number
CN110519112A
CN110519112A CN201810491763.9A CN201810491763A CN110519112A CN 110519112 A CN110519112 A CN 110519112A CN 201810491763 A CN201810491763 A CN 201810491763A CN 110519112 A CN110519112 A CN 110519112A
Authority
CN
China
Prior art keywords
high availabitity
server
cluster
availabitity
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810491763.9A
Other languages
English (en)
Inventor
李元骅
朱云
樊笑冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Shudun Information Technology Co Ltd
Original Assignee
Shandong Shudun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Shudun Information Technology Co Ltd filed Critical Shandong Shudun Information Technology Co Ltd
Priority to CN201810491763.9A priority Critical patent/CN110519112A/zh
Publication of CN110519112A publication Critical patent/CN110519112A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1048Departure or maintenance mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现集群存储***中动态连续高可用的方法,通过定期发送心跳包检测集群服务器状态,当服务器出现故障切换破坏高可用时,触发高可用重构***从集群剩余可用服务器节点中自动重构出一个新的高可用***,同时同步高可用服务器间的数据状,保持高可用服务器间状态同步,使集群达到一个稳定的高可用新态。本发明在集群出现故障高可用破坏时,自动重构出一个高可用新态,使高可用一直持续下去。

Description

一种实现集群存储***中动态连续高可用的方法
技术领域
本发明涉及一种存储***,具体是一种实现集群存储***中动态连续高可用的方法。
背景技术
随着数据的快速增长,以及云技术,大数据的广泛应用,服务器需要处理的数据越来越多,用于数据存储和计算所需的服务器成直线性增长。集群技术保证了可以统一提供高性能服务,但是随着集群中服务器节点越来越多,且需要处理的数据快速增长,集群及服务器出现故障的概率也越来越高,如何保证集群连续的高可用性并且持续不断稳定的对外提供服务,成为急需解决的问题。尤其是提供重要信息资料存储的集群***,能否提供持久连续不断的高可用性成为影响集群稳定性和安全性的重要因素。可以说高可用影响着一个集群的成败。
目前主要的高可用包括主备模式,多主一备。无论哪种模式都存在需要人工部署,一旦破坏高可用环境便不可逆或者无法多次提供高可用的缺陷。
针对目前市场上已有集群高可用单一,不可逆问题,集群只能实施已经部署好的高可用或者只可以自动构建一次高可用。集群高可用出现故障切换后无法连续多次自动重构出新的高可用***保证集群的安全,一旦集群遭到二次以上破坏,集群***也面临着无法正常运行或者数据丢失的巨大风险。通过本方法在集群出现故障高可用破坏时,自动重构出一个高可用新态,使高可用一直持续下去。
发明内容
本发明的目的在于提供一种实现集群存储***中动态连续高可用的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种实现集群存储***中动态连续高可用的方法,通过定期发送心跳包检测集群服务器状态,当服务器出现故障切换破坏高可用时,触发高可用重构***从集群剩余可用服务器节点中自动重构出一个新的高可用***,同时同步高可用服务器间的数据状,保持高可用服务器间状态同步,使集群达到一个稳定的高可用新态。
作为本发明进一步的方案:采用监控模块负责使用心跳检测高可用服务器是否处于正常状态,如果心跳不能正常通信表明当前高可用出现故障,服务会被切换到备用服务器继续提供服务。
作为本发明进一步的方案:服务器切换后会给触发模块一个信号,触发模块在收到信号后,开始准备重构高可用所需要的环境,包括调用策略模块选择重构高可用所包含服务器,调用同步模块同步主服务器与备用服务器之间的数据,保持数据的一致性。
作为本发明进一步的方案:采用策略模块负责从集群中无故障的服务器中按照预定的策略选出需要组建新高可用所需服务器,并关闭所有出现故障服务器的高可用服务,确定之后不再被选中为高可用服务器。
作为本发明再进一步的方案:采用同步模块负责在选出新的服务器后,同步服务器之间的数据库数据,配置文件。
与现有技术相比,本发明的有益效果是:本发明在集群出现故障高可用破坏时,自动重构出一个高可用新态,使高可用一直持续下去。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,一种实现集群存储***中动态连续高可用的方法,通过定期发送心跳包检测集群服务器状态,当服务器出现故障切换破坏高可用时,会触发高可用重构***从集群剩余可用服务器节点中自动重构出一个新的高可用***,同时同步高可用服务器间的数据状,保持高可用服务器间状态同步,使集群达到一个稳定的高可用新态。确保集群时刻处于高可用的状态。
本发明可以在不影响提供对外业务的前提下,每次在高可用遭到破坏时,会触发从剩余服务器中选择一台服务器与备用服务器自动重构新的高可用态,并且同步服务器之间的数据,保持高可用服务器间的数据状态时刻同步,全过程不需要人工进行干预。即使高可用遭到多次破坏也能保证连续的高可用状态,直到集群中没有可用服务器。
本发明实现集群提供可靠稳定的高可用,尽最大努力为用户提供稳定服务,保护用户数据安全。
一、组成模块:
本发明组成:监控模块,触发模块,同步模块,重构模块
1.监控模块
监控模块负责使用心跳检测高可用服务器是否处于正常状态。如果心跳不能正常通信表明当前高可用出现故障,服务会被切换到备用服务器继续提供服务。
2.触发模块
服务器切换后会给触发模块一个信号。触发模块在收到信号后,开始准备重构高可用所需要的环境。包括调用策略模块选择重构高可用所包含服务器,调用同步模块同步主服务器与备用服务器之间的数据,保持数据的一致性。
3.策略模块
策略模块负责从集群中无故障的服务器中按照预定的策略选出需要组建新高可用所需服务器。并关闭所有出现故障服务器的高可用服务。确定之后不再被选中为高可用。
4.同步模块
同步模块负责在选出新的服务器后,同步服务器之间的数据库数据,配置文件等,确保服务器间保持一致性。使构建高可用的服务器处于同一状态。防止服务器间的差异导致高可用异常。
5.重构模块
在之前的所有环境都准备好后,重构模块负责使用选择好的服务器构建新的高可用状态。重构高可用后对外提供所有服务不变。对用户不产生任何影响。
二、实现原理:
动态连续高可用构建是在通用高可用基础上做的改进及优化。并完全实现自动化,不需要人工干预配置。高可用服务器间会有心跳进行通信检测,心跳无法正常通信,***认为此时服务器出现故障,高可用遭到破坏,所有服务便会切换到备用服务器上,***发现服务器切换后会从现有正常服务器中选择一台IP地址与备用服务器相近的服务器构建新的高可用。构建过程需要通过远程通信控制修改新服务器高可用配置,将现有提供服务器作为主服务器,新选择的服务器作为备用服务器。并同步数据到新备用服务器上。将出现故障服务器高可用服务器关闭,并将其标识为不可作为高可用使用。再次重构高可用时此服务器不在选择中。多次重构高可用采用相同的机制,直到所有服务器标识为不可作高可用使用为止。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种实现集群存储***中动态连续高可用的方法,其特征在于,通过定期发送心跳包检测集群服务器状态,当服务器出现故障切换破坏高可用时,触发高可用重构***从集群剩余可用服务器节点中自动重构出一个新的高可用***,同时同步高可用服务器间的数据状,保持高可用服务器间状态同步,使集群达到一个稳定的高可用新态。
2.根据权利要求1所述的实现集群存储***中动态连续高可用的方法,其特征在于,采用监控模块负责使用心跳检测高可用服务器是否处于正常状态,如果心跳不能正常通信表明当前高可用出现故障,服务会被切换到备用服务器继续提供服务。
3.根据权利要求1或2所述的实现集群存储***中动态连续高可用的方法,其特征在于,服务器切换后会给触发模块一个信号,触发模块在收到信号后,开始准备重构高可用所需要的环境,包括调用策略模块选择重构高可用所包含服务器,调用同步模块同步主服务器与备用服务器之间的数据,保持数据的一致性。
4.根据权利要求1或2所述的实现集群存储***中动态连续高可用的方法,其特征在于,采用策略模块负责从集群中无故障的服务器中按照预定的策略选出需要组建新高可用所需服务器,并关闭所有出现故障服务器的高可用服务,确定之后不再被选中为高可用服务器。
5.根据权利要求4所述的实现集群存储***中动态连续高可用的方法,其特征在于,采用同步模块负责在选出新的服务器后,同步服务器之间的数据库数据,配置文件。
CN201810491763.9A 2018-05-22 2018-05-22 一种实现集群存储***中动态连续高可用的方法 Pending CN110519112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810491763.9A CN110519112A (zh) 2018-05-22 2018-05-22 一种实现集群存储***中动态连续高可用的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810491763.9A CN110519112A (zh) 2018-05-22 2018-05-22 一种实现集群存储***中动态连续高可用的方法

Publications (1)

Publication Number Publication Date
CN110519112A true CN110519112A (zh) 2019-11-29

Family

ID=68621865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810491763.9A Pending CN110519112A (zh) 2018-05-22 2018-05-22 一种实现集群存储***中动态连续高可用的方法

Country Status (1)

Country Link
CN (1) CN110519112A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112134933A (zh) * 2020-09-04 2020-12-25 苏州浪潮智能科技有限公司 一种OpenStack高可用缓存集群的实现方法、装置及存储介质
US10949192B2 (en) 2016-02-12 2021-03-16 Nutanix, Inc. Virtualized file server data sharing
US11086826B2 (en) 2018-04-30 2021-08-10 Nutanix, Inc. Virtualized server systems and methods including domain joining techniques
US20210349858A1 (en) * 2020-05-08 2021-11-11 Nutanix, Inc. Managing incremental snapshots for fast leader node bring-up
US11194680B2 (en) 2018-07-20 2021-12-07 Nutanix, Inc. Two node clusters recovery on a failure
US11218418B2 (en) 2016-05-20 2022-01-04 Nutanix, Inc. Scalable leadership election in a multi-processing computing environment
US11281484B2 (en) 2016-12-06 2022-03-22 Nutanix, Inc. Virtualized server systems and methods including scaling of file system virtual machines
US11288239B2 (en) 2016-12-06 2022-03-29 Nutanix, Inc. Cloning virtualized file servers
US11294777B2 (en) 2016-12-05 2022-04-05 Nutanix, Inc. Disaster recovery for distributed file servers, including metadata fixers
US11310286B2 (en) 2014-05-09 2022-04-19 Nutanix, Inc. Mechanism for providing external access to a secured networked virtualization environment
US11562034B2 (en) 2016-12-02 2023-01-24 Nutanix, Inc. Transparent referrals for distributed file servers
US11568073B2 (en) 2016-12-02 2023-01-31 Nutanix, Inc. Handling permissions for virtualized file servers
US11770447B2 (en) * 2018-10-31 2023-09-26 Nutanix, Inc. Managing high-availability file servers

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机***及其故障处理方法
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策***及切换方法
US9450852B1 (en) * 2014-01-03 2016-09-20 Juniper Networks, Inc. Systems and methods for preventing split-brain scenarios in high-availability clusters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机***及其故障处理方法
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策***及切换方法
US9450852B1 (en) * 2014-01-03 2016-09-20 Juniper Networks, Inc. Systems and methods for preventing split-brain scenarios in high-availability clusters

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11310286B2 (en) 2014-05-09 2022-04-19 Nutanix, Inc. Mechanism for providing external access to a secured networked virtualization environment
US11966730B2 (en) 2016-02-12 2024-04-23 Nutanix, Inc. Virtualized file server smart data ingestion
US11550559B2 (en) 2016-02-12 2023-01-10 Nutanix, Inc. Virtualized file server rolling upgrade
US10949192B2 (en) 2016-02-12 2021-03-16 Nutanix, Inc. Virtualized file server data sharing
US11966729B2 (en) 2016-02-12 2024-04-23 Nutanix, Inc. Virtualized file server
US11669320B2 (en) 2016-02-12 2023-06-06 Nutanix, Inc. Self-healing virtualized file server
US11579861B2 (en) 2016-02-12 2023-02-14 Nutanix, Inc. Virtualized file server smart data ingestion
US11947952B2 (en) 2016-02-12 2024-04-02 Nutanix, Inc. Virtualized file server disaster recovery
US11922157B2 (en) 2016-02-12 2024-03-05 Nutanix, Inc. Virtualized file server
US11106447B2 (en) 2016-02-12 2021-08-31 Nutanix, Inc. Virtualized file server user views
US11645065B2 (en) 2016-02-12 2023-05-09 Nutanix, Inc. Virtualized file server user views
US11544049B2 (en) 2016-02-12 2023-01-03 Nutanix, Inc. Virtualized file server disaster recovery
US11537384B2 (en) 2016-02-12 2022-12-27 Nutanix, Inc. Virtualized file server distribution across clusters
US11550557B2 (en) 2016-02-12 2023-01-10 Nutanix, Inc. Virtualized file server
US12014166B2 (en) 2016-02-12 2024-06-18 Nutanix, Inc. Virtualized file server user views
US11550558B2 (en) 2016-02-12 2023-01-10 Nutanix, Inc. Virtualized file server deployment
US11218418B2 (en) 2016-05-20 2022-01-04 Nutanix, Inc. Scalable leadership election in a multi-processing computing environment
US11888599B2 (en) 2016-05-20 2024-01-30 Nutanix, Inc. Scalable leadership election in a multi-processing computing environment
US11562034B2 (en) 2016-12-02 2023-01-24 Nutanix, Inc. Transparent referrals for distributed file servers
US11568073B2 (en) 2016-12-02 2023-01-31 Nutanix, Inc. Handling permissions for virtualized file servers
US11775397B2 (en) 2016-12-05 2023-10-03 Nutanix, Inc. Disaster recovery for distributed file servers, including metadata fixers
US11294777B2 (en) 2016-12-05 2022-04-05 Nutanix, Inc. Disaster recovery for distributed file servers, including metadata fixers
US11288239B2 (en) 2016-12-06 2022-03-29 Nutanix, Inc. Cloning virtualized file servers
US11922203B2 (en) 2016-12-06 2024-03-05 Nutanix, Inc. Virtualized server systems and methods including scaling of file system virtual machines
US11281484B2 (en) 2016-12-06 2022-03-22 Nutanix, Inc. Virtualized server systems and methods including scaling of file system virtual machines
US11954078B2 (en) 2016-12-06 2024-04-09 Nutanix, Inc. Cloning virtualized file servers
US11675746B2 (en) 2018-04-30 2023-06-13 Nutanix, Inc. Virtualized server systems and methods including domain joining techniques
US11086826B2 (en) 2018-04-30 2021-08-10 Nutanix, Inc. Virtualized server systems and methods including domain joining techniques
US11194680B2 (en) 2018-07-20 2021-12-07 Nutanix, Inc. Two node clusters recovery on a failure
US11770447B2 (en) * 2018-10-31 2023-09-26 Nutanix, Inc. Managing high-availability file servers
US11768809B2 (en) 2020-05-08 2023-09-26 Nutanix, Inc. Managing incremental snapshots for fast leader node bring-up
US20210349858A1 (en) * 2020-05-08 2021-11-11 Nutanix, Inc. Managing incremental snapshots for fast leader node bring-up
CN112134933A (zh) * 2020-09-04 2020-12-25 苏州浪潮智能科技有限公司 一种OpenStack高可用缓存集群的实现方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110519112A (zh) 一种实现集群存储***中动态连续高可用的方法
CN102739775B (zh) 物联网数据采集服务器集群的监控和管理方法
US11360854B2 (en) Storage cluster configuration change method, storage cluster, and computer system
CN111371696B (zh) 一种在Kubernetes中实现Pod网络流控的方法
US11075795B2 (en) Arbitration method, apparatus, and system used in active-active data centers
CN102739799B (zh) 一种分布式应用中的分布式通讯方法
CN106375342A (zh) 一种基于zookeeper技术的***集群方法及***
CN103744809A (zh) 基于vrrp的车辆信息管理***双机热备方法
CN102231677B (zh) Iptv***中一种基于双中心容灾的切换方法及其装置
CN103152434A (zh) 一种分布式云***中的领导节点更替方法
CN107911238A (zh) 一种基于ipsan服务器双机备份方法和***
CN105095008B (zh) 一种适用于集群***的分布式任务故障冗余方法
CN104468651B (zh) 分布式多副本数据存储方法及装置
CN101009598A (zh) 告警同步方法
CN108173959A (zh) 一种集群存储***
CN108228393A (zh) 一种可扩展的大数据高可用的实现方法
CN102480489A (zh) 一种用于分布式环境下的日志记录方法和设备
CN106302569A (zh) 处理虚拟机集群的方法和计算机***
CN109639773A (zh) 一种动态构建的分布式数据集群控制***及其方法
CN109391691A (zh) 一种单节点故障下nas服务的恢复方法及相关装置
CN108710550B (zh) 一种用于公安交管稽查布控***的双数据中心容灾***
CN112631764A (zh) 任务调度方法、装置、计算机设备和计算机可读介质
CN110765203A (zh) 一种容器MySQL主从同步及性能采集实现方法及***
CN101741635A (zh) 一种同步告警信息的方法、***及设备
CN103281384A (zh) 一种无中心节点的消息服务集群的管理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication