CN102035862B - Svc集群中配置节点的故障移交方法和*** - Google Patents

Svc集群中配置节点的故障移交方法和*** Download PDF

Info

Publication number
CN102035862B
CN102035862B CN2009101741289A CN200910174128A CN102035862B CN 102035862 B CN102035862 B CN 102035862B CN 2009101741289 A CN2009101741289 A CN 2009101741289A CN 200910174128 A CN200910174128 A CN 200910174128A CN 102035862 B CN102035862 B CN 102035862B
Authority
CN
China
Prior art keywords
event
configuration node
memory device
client
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101741289A
Other languages
English (en)
Other versions
CN102035862A (zh
Inventor
张俊伟
贺皓
孙翎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2009101741289A priority Critical patent/CN102035862B/zh
Priority to US12/888,258 priority patent/US8296600B2/en
Publication of CN102035862A publication Critical patent/CN102035862A/zh
Priority to US13/563,089 priority patent/US8495414B2/en
Priority to US13/925,102 priority patent/US8868966B2/en
Priority to US13/925,087 priority patent/US8868965B2/en
Application granted granted Critical
Publication of CN102035862B publication Critical patent/CN102035862B/zh
Priority to US14/459,890 priority patent/US9286169B2/en
Priority to US15/002,520 priority patent/US9940209B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/0816Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种存储区域网络卷控制器SVC集群中的配置节点故障的移交方法和***,所述SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的SVC,每个SVC作为一个节点,方法包括:响应于原配置节点故障,启动新的配置节点;新的配置节点从存储部件获得客户端订阅该SVC集群管理的存储设备事件的订阅信息;响应于该SVC集群管理的存储设备发生存储设备事件,新的配置节点从存储设备事件监控部件获得存储设备事件;新的配置节点根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端;其中,所述存储部件不在原配置节点中。该方法在配置节点故障移交时,对客户端是透明的。

Description

SVC集群中配置节点的故障移交方法和***
技术领域
本发明一般涉及计算机领域,具体涉及存储区域网络卷控制器(SVC)集群中配置节点的故障移交方法和***。
背景技术
存储***网络平台已经成为数字化技术的一个核心平台,各种应用对该平台的要求也越来越高,不仅对存储容量,还对数据访问性能、数据传输性能、数据管理能力、存储扩展能力等等多个方面提出越来越高的要求。可以说,存储网络平台的综合性能的优劣,将直接影响到整个***的正常运行。为达到这些要求,虚拟存储技术正越来越受到大家的关注。
所谓虚拟存储,就是把多个存储模块(如硬盘、磁带等)通过一定的手段集中管理起来,所有的存储模块在一个存储池(Storage Pool)中得到统一管理,从主机和工作站的角度,看到的就不是多个硬盘,而是一个分区或者卷,就好象访问的是一个超大容量的硬盘。
虚拟化技术并不是一个很新的技术,在70年代,限于当时的内存容量和成本大型应用程序或多程序应用就采用了虚拟存储的技术,最典型的应用就是虚拟内存技术。随着计算机技术以及相关信息处理技术的不断发展,人们对存储的需求越来越大。这种需求刺激了虚拟存储技术的发展,首先是磁盘条带集(RAID,可带容错)技术,该技术将多个物理磁盘通过一定的逻辑关系集合起来,成为一个大容量的虚拟磁盘。而随着数据量不断增加和对数据可用性要求的不断提高,存储区域网络(SAN)技术开始流行。SAN的广域化旨在将存储设备实现为一种公用设施,任何人员、任何主机都可以随时随地获取各自想要的数据。存储设备公用化、存储网络广域化是一个不可逆转的潮流。
从拓扑结构角度来看,目前的虚拟存储分为对称式与非对称式两种虚拟存储方案,对称式虚拟存储技术是指虚拟存储控制设备与存储软件***、交换设备集成为一个整体,内嵌在网络数据传输路径中;非对称式虚拟存储技术是指虚拟存储控制设备独立于数据传输路径之外。在对称式虚拟存储结构中,存储控制设备与存储池子***集成在一起,组成存储区域网络设备。在该方案中存储控制设备在主机与存储池数据交换的过程中起到核心作用。该方案的虚拟存储过程是这样的:由存储控制设备内嵌的存储管理***将存储池中的物理硬盘虚拟为逻辑存储单元,并进行端口映射,主机端将各可见的存储单元映射为操作***可识别的盘符。当主机向存储区域网络设备写入数据时,用户只需要将数据写入位置指定为自己映射的盘符,数据经过存储控制设备的高速并行端口,先写入高速缓存,存储控制设备中的存储管理***自动完成目标位置由逻辑存储单元到物理硬盘的转换,在此过程中用户见到的只是虚拟逻辑单元,而不关心每个逻辑存储单元的具体物理组织结构。
图1示出了一般的对称式虚拟存储***的结构图。从图1可以看到,经过每种设备的控制器,原先的物理磁盘被转化成虚拟的逻辑磁盘,从而可以被主机使用。但是组成每一个虚拟逻辑磁盘的物理块必须来自于同一个存储设备的物理磁盘,不可以来自不同的存储设备。所以一般的对称式虚拟存储技术还不是完全虚拟化的方案。在图1所示的一般的对称式虚拟存储***中,在存储设备中,已经使用故障移交的技术,主要有两个控制器,其中一个控制器为主控制器,另外一个控制器为从控制器。从控制器保留所有主控制器发送和接收的信息,当主控制器故障时,从控制器可以接管,由于其保留所有主控制器发送和接收的消息,因此,接管后不会发生任何移交问题。
基于现有虚拟存储技术的SAN卷控制器(SAN Volume Controller,简称SVC),与一般的对称式虚拟存储***相比,可以实现完全虚拟化的方案。该技术方案由I BM提出,图2示意性地示出该技术方案的结构图。根据图2,经过SVC集群的进一步虚拟化后,所有的磁盘都变成全虚拟化的逻辑磁盘,而组成每个虚拟逻辑磁盘的块可以来自不同存储设备的物理磁盘。同时,图2还示出,各SVC通过集群的组织方式进行连接,一个SVC集群中通常有8台SVC设备,每个SVC设备称为一个节点,一个SVC集群中的每一个SVC节点都是同构的,即其上运行的对内服务是完全相同的;同时,一个SVC集群中在某一时刻只有一个节点作为配置节点(configuration node),该配置节点上运行对外的服务,例如:接受并分发配置命令等,其它任何节点上都不会同步运行对外服务程序。当配置节点发生某些问题,需要故障移交(failover)其服务角色的时候,使用的技术方案与存储设备中的故障移交技术不同:这里其它节点会通过协商的方式来选出新的配置节点,启动其上的服务程序,开始担当配置节点的角色。这样的结构可以实现高可用性,并且可以很大程度地节约运行所需的资源。
发明内容
SVC集群中使用的故障移交技术与主从控制器进行故障移交的技术相比,由于新选出的配置节点并没有存储原配置节点的所有信息,可能会存在移交问题。具体来说,SVC集群的配置节点使用静态的IP地址与外界通信,当发生故障时,其他节点通过协商选出的新的配置节点会接管该静态IP地址,原来配置节点上的服务会移交到新的配置节点,原来的配置节点重新启动后成为一般的节点。现有的SVC集群中,所有的客户端订阅存储设备事件的订阅信息由于存储在原来的配置节点中,会因为原来配置节点的故障而丢失,这意味着原来订阅消息的客户端将不能收到其订阅过的消息。
因此,本发明提出了一种存储区域网络卷控制器(SVC)集群中的配置节点故障移交方法和***,通过使用本发明的方法和***,在配置节点发生故障移交时,不影响客户端继续收到原来订阅的消息。
根据本发明的一个方面,提供了一种存储区域网络卷控制器SVC集群中配置节点故障的移交***,所述SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的SVC,每个SVC作为一个节点,所述SVC集群中某一时刻只有一个节点作为配置节点运行对外的服务,该***包括:
启动部件,用于响应于原配置节点故障,启动新的配置节点;
存储部件,用于存储客户端订阅该SVC集群管理的存储设备事件的订阅信息,并且该存储部件不在原配置节点中;
存储设备事件监控部件,用于对该SVC集群管理的存储设备进行监控;
第一获得部件,用于使新的配置节点从所述存储部件获得所述订阅信息;
第二获得部件,用于使新的配置节点从所述存储设备事件监控部件获得存储设备事件;
发送部件,用于使新的配置节点根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端。
根据本发明的另一个方面,提供了一种存储区域网络卷控制器SVC集群中配置节点的故障移交方法,所述SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的SVC,每个SVC作为一个节点,所述SVC集群中某一时刻只有一个节点作为配置节点运行对外的服务,该方法包括:
响应于原配置节点故障,启动新的配置节点;
新的配置节点从存储部件获得客户端订阅该SVC集群管理的存储设备事件的订阅信息,该存储部件不在原配置节点中;
响应于该SVC集群管理的存储设备发生存储设备事件,新的配置节点从存储设备事件监控部件获得存储设备事件;
新的配置节点根据获得的客户端订阅信息将客户端订阅的存储设备事件发送给订阅的客户端。
附图说明
通过对附图中本发明示例实施例方式的更详细描述,本发明的上述、以及其它目的、特征和优势将变得更加明显,其中,相同的参考标号通常代表本发明示例实施例方式中的相同部件。
图1示出了一般的对称式虚拟存储***的结构图;
图2示意性地示出了基于现有虚拟存储技术的SAN卷控制器技术方案的结构图;
图3示出了现有SVC集群中与订阅信息相关的结构图;
图4示出了现有SVC集群中与订阅信息相关的方法流程;
图5示意性地示出了根据本发明的一种实施方式的SVC集群中的配置节点故障移交***相关的结构图;
图6示意性地示出了根据本发明的一种实施方式的SVC集群中的配置节点故障移交方法的流程图;
图7示意性示出另外一个方法实施例的流程图;以及
图8示意性示出又一个方法实施例的流程图。
具体实施方式
将参照附图更加详细地描述本发明的优选实施方式,在附图中显示了本发明的优选实施例。然而,本发明可以以各种形式实现而不应该理解为被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且,完全将本发明的范围传达给本领域的技术人员。
图3示出了现有SVC集群中与订阅消息相关的结构图,现有的SVC集群的配置节点使用静态的IP地址与外界通信,该配置节点中,具有与客户端相连的配置接口和通知接口,配置接口用于使客户端向配置节点发送订阅信息,该订阅信息为用户订阅该SVC集群管理的存储设备事件,包括用户ID或IP地址,订阅的信息等,并且将客户端的订阅信息存储在配置节点中;通知接口用于当发生客户端订阅的存储设备事件时,向客户端发送该客户端订阅的消息。并且,该配置节点中还有存储设备事件监控部件,用于和SVC集群管理的存储设备中的控制器通信,获得存储设备上发生的事件。新配置节点上也有同样的接口部件,但是目前无法获取原配置节点上存储的客户端订阅的其感兴趣的存储设备事件的原订阅信息;必须在新配置节点启动完成后才能重新对设备进行监控,而且必须由客户端重新订阅其感兴趣的存储设备事件,这样新配置节点启动后才能收到以后的存储设备事件。
图4示出了现有SVC集群中与订阅消息相关的方法流程。根据图4,在步骤S401,SVC集群建立后,接收客户端订阅该SVC集群管理的存储设备事件的订阅信息;在步骤S402,将接收的订阅信息存储在配置节点中;在步骤S403,配置节点上的存储设备事件监控部件开始对后端存储设备进行监控,步骤S403与步骤S401和S402可以同时进行,或先后进行;在步骤S404,响应于后端存储设备发生事件,比如有一块硬盘坏了,某个硬盘的电源不正常等等,配置节点上的存储设备事件监控部件获得这类存储设备的事件;在步骤S405,存储设备事件监控部件将该事件发送到通知接口;在步骤S406,通知接口查询存储的订阅信息,获得订阅该事件的客户端;在步骤S407,通知接口将该事件发送到相应的客户端。
显然,根据现有SVC集群中与订阅消息相关的方法流程,配置节点是整个集群中最重要的节点,其通信量相对其它节点而言,是很高的。由于过多通讯所造成的资源消耗过大,配置节点可能会出现故障,这时,整个集群就会故障,从而使虚拟存储***故障。因此,现有技术中,可以在其它节点上监控配置节点是否正常运行,当配置节点发生故障时,从其它节点中协商选举出一个节点,作为新的配置节点。该新的配置节点会接管原来配置节点的静态IP地址,原来的配置节点重新启动后成为一般的节点。但是,现有的SVC集群中,配置节点上会同时负责监控和通知的功能,即所有的客户端订阅记录由于存储在原来的配置节点中,会因为原来配置节点的故障而丢失,这意味着原来订阅消息的客户端将不能收到其订阅过的消息;而且必须在新配置节点启动完成后才能重新对设备进行监控,所以在故障移交期间发生的事件都会丢失,并且这些事件也无法发送给订阅的客户端。这样,就需要一种新的对应故障移交的集群结构,来克服上述问题。
图5示意性地示出了根据本发明的一种实施方式的SVC集群中的配置节点故障移交***相关的结构图。该SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的存储区域网络卷控制器(SVC),每个SVC作为一个节点,所述SVC集群中某一时刻只有一个节点作为配置节点运行对外的服务。本发明的用于存储客户端的订阅信息的部件将不放置在原配置节点中,可以放置到新的配置节点中,甚至可以放置在SVC集群外的任何地方,只要新的配置节点能够访问到该存储部件即可。该***包括:启动部件501,用于响应于原配置节点故障,启动新的配置节点;该启动部件可以位于SVC集群中非原配置节点的任何节点处,该启动部件可以通过多种方式监视原配置节点是否发生故障,一种简单的方式是监视原配置节点的心跳,就是通过网络操作中最简单的ping操作,判断原配置节点是否故障。还可以采用更为复杂的方式,例如监控其CPU,内存等。此外,该***还包括存储部件502,用于存储客户端订阅该SVC集群管理的存储设备事件的订阅信息;存储设备事件监控部件503,用于对该SVC集群管理的存储设备进行监控;第一获得部件504,用于从存储部件502获得客户端订阅信息;第二获得部件505,用于从存储设备事件监控部件获得存储设备事件;以及通知接口506,用于根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端。使用该技术方案,当新的配置节点启动完成后,原来订阅消息的客户端将可以继续收到其订阅过的消息,对订阅的客户端是透明的。另外,新的配置节点启动后,如果发现该配置节点恰好包含存储部件502,还可以将存储部件502的内容迁移到新的节点或者其它存储区域,以保证客户端订约信息始终可以获得。优选地,可以将存储设备事件监控部件放置在SVC集群中非原配置节点的任何节点处,这样,就可以避免由于原配置节点的故障,故障移交期间发生的事件丢失的问题。同理,新的配置节点启动后,如果发现该配置节点恰好包含存储设备事件监控部件503,还可以将存储设备事件监控部件503的内容迁移到新的节点或者其它存储区域,以保证客户端订约信息始终可以获得。
另外,从原配置节点故障,到新的配置节点启动,这段时间存储设备也可能发生存储设备事件,新的配置节点启动后才能接收存储设备事件,这期间的事件就会丢失,客户端也无法接收到。因此,在本发明的一个实施方式中,以图5的***结构为基础,在SVC集群的非配置节点的某个或某多个节点中,还存储着原配置节点的存储设备事件处理日志,事件处理日志可以和订阅信息存储在同一个存储部件中,也可以使用单独的存储部件。事件处理日志至少包括如下信息:事件编号,事件是否已经处理,优选地,还包括事件发生的时间以及事件的简单描述。事件处理日志可以采用文本文件进行存储,也可以采用数据库存储。原配置节点的存储设备事件监控部件每接收一个存储设备事件,就在该处理日志中加入一条记录,并使该记录的条目“事件是否已经处理”设置为“否”,原配置节点的通知接口每次将该事件通知给相应的客户端时,通知部件将该条目设置为“是”,这样,当新的配置节点启动后,该配置节点查询存储设备事件处理日志中条目“事件是否已经处理”设置为“否”的所有记录,根据所述存储部件存储的客户端订阅信息,查询到这些记录对应的事件的订阅客户端,将所述对应的事件发送给订阅该事件的客户端。使用该技术方案,不仅原来订阅消息的客户端将可以继续收到其订阅过的消息,而且在故障移交期间发生的事件都不会丢失,并且可以发送到订阅其的客户端。
在另外一种实施方式中,仍然以图5的***结构为基础,也使用原配置节点的存储设备事件处理日志,但是事件处理日志的一个条目至少包括如下信息:事件编号,事件描述以及事件发生时间。原配置节点的存储设备事件监控部件每接收一个存储设备事件,就在该处理日志中加入一条记录,并在该记录的事件发生时间条目中记录该事件发生的时间。当所述启动部件监控原配置节点故障时,该启动部件记录原配置节点故障时间;新的配置节点启动成功后,新的配置节点根据原配置节点的故障时间和该新的配置节点启动成功时间,判断所述存储设备事件处理日志中哪些事件的发生时间位于这两个时间间隔内,根据所述存储部件存储的客户端订阅信息,查询到位于这两个时间间隔内的事件的订阅客户端,将所述对应的事件发送给订阅该事件的客户端。使用该技术方案,同样不仅原来订阅消息的客户端将可以继续收到其订阅过的消息,而且在故障移交期间发生的事件都不会丢失,并且可以发送到订阅其的客户端。
在同一个发明构思下,图6示意性地示出了根据本发明的一种实施方式的SVC集群中的配置节点故障移交方法的流程图。该SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的存储区域网络卷控制器(SVC),每个SVC作为一个节点,所述SVC集群中某一时刻只有一个节点作为配置节点运行对外的服务,该方法包括:在步骤S601,响应于原配置节点故障,启动新的配置节点;在步骤S602,新的配置节点从存储部件获得客户端订阅该SVC集群管理的存储设备事件的订阅信息;在步骤S603,响应于该SVC集群管理的存储设备发生存储设备事件,新的配置节点从存储设备事件监控部件获得存储设备事件;在步骤S604,新的配置节点根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端;其中,所述存储部件不在原配置节点中。使用该技术方案,当新的配置节点启动完成后,原来订阅消息的客户端将可以继续收到其订阅过的消息,对订阅的客户端是透明的。优选地,可以将存储设备事件监控部件放置在SVC集群中非原配置节点的任何节点处,这样,就可以避免由于原配置节点的故障,故障移交期间发生的事件丢失的问题。
在本发明的另一个实施方式中,在SVC集群的非配置节点的某个或某多个节点中,存储着原配置节点的存储设备事件处理日志,该存储设备事件处理日志的一个记录至少包括如下信息:事件编号,事件描述,以及事件是否已经处理。图7示意性示出另外一个方法实施例的流程图。根据图7,在步骤S701,原配置节点每接收一个存储设备事件,在该处理日志中加入一条事件记录,并将该事件记录的条目“事件是否已经处理”设置为否;在步骤S702,原配置节点每次将接收的存储设备事件通知给相应的客户端后,将该事件记录的条目“事件是否已经处理”设置为“是”;在步骤S703,响应于原配置节点故障,启动新的配置节点;在步骤S704,新的配置节点从存储部件获得客户端订阅该SVC集群管理的存储设备事件的订阅信息;在步骤S705新的配置节点启动后,查询存储设备事件处理日志中条目“事件是否已经处理”设置为“否”的所有记录;步骤S704和步骤S705没有必须的时序关系,那一个先执行都可以,但是它们都必须在步骤S705之前执行;在步骤S706,根据所述存储的客户端订阅信息,查询到这些记录对应的事件的订阅客户端;在步骤S707,将所述对应的事件发送给订阅该事件的客户端;在步骤S708,响应于该SVC集群管理的存储设备发生存储设备事件,新的配置节点从存储设备事件监控部件获得存储设备事件;在步骤S709,新的配置节点根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端。这样故障移交期间发生的事件都可以发送到订阅其的客户端。
在本发明的又一个实施方式中,在SVC集群的非配置节点的某个或某多个节点中,也存储着原配置节点的存储设备事件处理日志,该存储设备事件处理日志的一个记录至少包括如下信息:事件编号,事件描述以及事件发生时间。图8示意性示出又一个方法实施例的流程图。根据图8,在步骤S801,原配置节点的每接收一个存储设备事件,就在该处理日志中加入一条事件记录,并在该事件记录的条目“事件发生时间”中记录该事件发生的时间;在步骤S802,响应于原配置节点故障,记录原配置节点故障时间;在步骤S803,启动新的配置节点;在步骤S804,响应于新的配置节点启动成功,记录新的配置节点启动成功时间;在步骤S805,新的配置节点根据原配置节点的故障时间和该新的配置节点启动成功时间,判断所述存储设备事件处理日志中哪些事件的发生时间位于这两个时间间隔内;在步骤S806,新的配置节点从存储部件获得客户端订阅该SVC集群管理的存储设备事件的订阅信息;在步骤S807,根据所述存储部件存储的客户端订阅信息,查询到位于这两个时间间隔内的事件的订阅客户端;在步骤S808,将所述对应的事件发送给订阅该事件的客户端;在步骤S809,响应于该SVC集群管理的存储设备发生存储设备事件,新的配置节点从存储设备事件监控部件获得存储设备事件;在步骤S810,新的配置节点根据获得的客户端订制信息将客户端订阅的存储设备事件发送给订阅的客户端。这样故障移交期间发生的事件都可以发送到订阅其的客户端。
虽然这里参照附图描述了本发明的示例性实施例,但是应该理解本发明不限于这些精确的实施例,并且在不背离本发明的范围和宗旨的情况下,本领域普通技术人员能对实施例进行各种变化的修改。所有这些变化和修改意欲包含在所附权利要求中限定的本发明的范围中。
并且根据上述描述,所属技术领域的技术人员知道,本发明可以体现为装置、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“***”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的***、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质,这是因为,例如可以通过电扫描这种纸张或其它介质,以电子方式获得程序,然后以适当的方式加以编译、解释或处理,并且必要的话在计算机存储器中存储。在本文件的语境中,计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行***、装置或器件使用的或与指令执行***、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言——诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
此外,本发明的流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置(means)。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品,
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (12)

1.一种存储区域网络卷控制器SVC集群中配置节点故障的移交***,所述SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的SVC,每个SVC作为一个节点,所述SVC集群中某一时刻只有一个节点作为配置节点运行对外的服务,该***包括:
启动部件,用于响应于原配置节点故障,启动新的配置节点;
存储部件,用于存储客户端订阅该SVC集群管理的存储设备事件的订阅信息以及存储原配置节点的存储设备事件处理日志,并且该存储部件不在原配置节点中;
存储设备事件监控部件,用于对该SVC集群管理的存储设备进行监控;
第一获得部件,用于使新的配置节点从所述存储部件获得所述订阅信息;
第二获得部件,用于使新的配置节点从所述存储设备事件监控部件获得存储设备事件;
发送部件,用于使新的配置节点根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端;
存储设备事件处理日志的一个记录至少包括如下信息:事件编号,事件描述,以及事件是否已经处理;并且其中所述原配置节点的存储设备事件监控部件每接收一个存储设备事件,在该处理日志中加入一条事件记录,并将该事件记录的条目“事件是否已经处理”设置为“否”;原配置节点的通知接口每次将该事件通知给相应的客户端后,将该事件记录的条目“事件是否已经处理”设置为“是”。
2.根据权利要求1所述的故障移交***,其中所述存储设备事件监控部件在该SVC集群的非原配置节点的节点中。
3.根据权利要求1所述的故障移交***,其中新的配置节点启动后,该新的配置节点查询存储设备事件处理日志中条目“事件是否已经处理”设置为“否”的所有记录,根据所述存储部件存储的订阅信息,查询到这些记录对应的事件的订阅客户端,将所述对应的事件发送给订阅该事件的客户端。
4.根据权利要求1所述的故障移交***,其中存储设备事件处理日志的一个记录至少包括如下信息:事件编号,事件描述以及事件发生时间。
5.根据权利要求4所述的故障移交***,其中原配置节点的存储设备事件监控部件每接收一个存储设备事件,就在该处理日志中加入一条记录,并在该记录的条目“事件发生时间”中记录该事件发生的时间。
6.根据权利要求5所述的故障移交***,其中当所述启动部件监控原配置节点故障时,该启动部件记录原配置节点故障时间;新的配置节点启动成功后,新的配置节点记录新的配置节点启动成功时间,新的配置节点并且根据原配置节点的故障时间和该新的配置节点启动成功时间,判断所述存储设备事件处理日志中哪些事件的发生时间位于这两个时间间隔内,根据所述存储部件存储的订阅信息,查询到位于这两个时间间隔内的事件的订阅客户端,将所述对应的事件发送给订阅该事件的客户端。
7.一种存储区域网络卷控制器SVC集群中配置节点的故障移交方法,所述SVC集群用于管理多个存储设备,该SVC集群包括多个通过网络互联的SVC,每个SVC作为一个节点,所述SVC集群中某一时刻只有一个节点作为配置节点运行对外的服务,该方法包括:
响应于原配置节点故障,启动新的配置节点;
新的配置节点从存储部件获得客户端订阅该SVC集群管理的存储设备事件的订阅信息,该存储部件不在原配置节点中;
响应于该SVC集群管理的存储设备发生存储设备事件,新的配置节点从存储设备事件监控部件获得存储设备事件;
新的配置节点根据获得的订阅信息将客户端订阅的存储设备事件发送给订阅的客户端;
原配置节点在所述存储部件中存储存储设备事件处理日志,其中存储设备事件处理日志的一个记录至少包括如下信息:事件编号,事件描述,以及事件是否已经处理,该步骤包括:
原配置节点每接收一个存储设备事件,在该处理日志中加入一条事件记录,并将该事件记录的条目“事件是否已经处理”设置为否;
原配置节点每次将接收的存储设备事件通知给相应的客户端后,将该事件记录的条目“事件是否已经处理”设置为“是”。
8.根据权利要求7所述的方法,其中所述存储设备事件监控部件在该SVC集群的非原配置节点的节点中。
9.根据权利要求7所述的方法,其中还包括:
新的配置节点启动后,查询存储设备事件处理日志中条目“事件是否已经处理”设置为“否”的所有记录;
根据所述存储的订阅信息,查询到上述所有记录对应的事件的订阅客户端;
将所述对应的事件发送给订阅该事件的客户端。
10.根据权利要求7所述的方法,其中存储设备事件处理日志的一个记录至少包括如下信息:事件编号,事件描述以及事件发生时间。
11.根据权利要求10所述的方法,其中还包括:
原配置节点的每接收一个存储设备事件,就在该处理日志中加入一条事件记录,并在该事件记录的条目“事件发生时间”中记录该事件发生的时间。
12.根据权利要求11所述的方法,其中还包括:
响应于原配置节点故障,记录原配置节点故障时间;
响应于新的配置节点启动成功,记录新的配置节点启动成功时间;
根据原配置节点的故障时间和该新的配置节点启动成功时间,判断所述存储设备事件处理日志中哪些事件的发生时间位于这两个时间间隔内;
根据所述存储部件存储的订阅信息,查询到位于这两个时间间隔内的事件的订阅客户端;
将所述对应的事件发送给订阅该事件的客户端。
CN2009101741289A 2009-09-30 2009-09-30 Svc集群中配置节点的故障移交方法和*** Active CN102035862B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2009101741289A CN102035862B (zh) 2009-09-30 2009-09-30 Svc集群中配置节点的故障移交方法和***
US12/888,258 US8296600B2 (en) 2009-09-30 2010-09-22 SVC cluster configuration node failover system and method
US13/563,089 US8495414B2 (en) 2009-09-30 2012-07-31 SVC cluster configuration node failover system and method
US13/925,102 US8868966B2 (en) 2009-09-30 2013-06-24 SVC cluster configuration node failover
US13/925,087 US8868965B2 (en) 2009-09-30 2013-06-24 SVC cluster configuration node failover
US14/459,890 US9286169B2 (en) 2009-09-30 2014-08-14 SVC cluster configuration node failover
US15/002,520 US9940209B2 (en) 2009-09-30 2016-01-21 SVC cluster configuration node failover

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101741289A CN102035862B (zh) 2009-09-30 2009-09-30 Svc集群中配置节点的故障移交方法和***

Publications (2)

Publication Number Publication Date
CN102035862A CN102035862A (zh) 2011-04-27
CN102035862B true CN102035862B (zh) 2013-11-06

Family

ID=43781633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101741289A Active CN102035862B (zh) 2009-09-30 2009-09-30 Svc集群中配置节点的故障移交方法和***

Country Status (2)

Country Link
US (6) US8296600B2 (zh)
CN (1) CN102035862B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145838B1 (en) 2009-03-10 2012-03-27 Netapp, Inc. Processing and distributing write logs of nodes of a cluster storage system
US8327186B2 (en) * 2009-03-10 2012-12-04 Netapp, Inc. Takeover of a failed node of a cluster storage system on a per aggregate basis
US8069366B1 (en) 2009-04-29 2011-11-29 Netapp, Inc. Global write-log device for managing write logs of nodes of a cluster storage system
CN102347934B (zh) * 2010-07-30 2015-05-27 国基电子(上海)有限公司 调制解调器及其网络注册方法
US9552160B2 (en) * 2011-06-27 2017-01-24 International Business Machines Corporation Preserving data availability and I/O performance when creating virtual raid volumes
CN102495815B (zh) * 2011-11-15 2015-03-11 华为数字技术(成都)有限公司 I/o数据访问中断的处理方法和***以及设备
US9116862B1 (en) 2012-01-17 2015-08-25 Amazon Technologies, Inc. System and method for data replication using a single master failover protocol
US9069827B1 (en) 2012-01-17 2015-06-30 Amazon Technologies, Inc. System and method for adjusting membership of a data replication group
US8843441B1 (en) 2012-01-17 2014-09-23 Amazon Technologies, Inc. System and method for maintaining a master replica for reads and writes in a data store
CN103297396B (zh) 2012-02-28 2016-05-18 国际商业机器公司 群集***中管理故障转移的装置和方法
US9438674B2 (en) * 2013-06-07 2016-09-06 International Business Machines Corporation Appliance interconnection architecture
GB2520343A (en) 2013-11-19 2015-05-20 Ibm A system having a cluster of communication controllers and a method for modification of the latter
US9348713B2 (en) * 2013-12-13 2016-05-24 Netapp, Inc. Techniques for importation of information to a storage system
US9514010B2 (en) * 2014-09-19 2016-12-06 Netapp, Inc Cluster-wide service agents
CN104283950B (zh) * 2014-09-29 2019-01-08 杭州华为数字技术有限公司 一种业务请求处理的方法、装置及***
US9836345B2 (en) * 2014-10-17 2017-12-05 Netapp, Inc. Forensics collection for failed storage controllers
CN105306545B (zh) * 2015-09-28 2018-09-07 浪潮(北京)电子信息产业有限公司 一种集群对外服务节点失效接管的方法及***
CN105511805B (zh) * 2015-11-26 2019-03-19 深圳市中博科创信息技术有限公司 集群文件***的数据处理方法和装置
US10120715B2 (en) * 2015-12-10 2018-11-06 Automotive Research & Testing Center Distributed network management system and method for a vehicle
US10346270B2 (en) * 2016-05-25 2019-07-09 Arista Networks, Inc. High-availability network controller
CN106131106B (zh) * 2016-06-07 2019-04-12 北京邮电大学 一种基于组件的微云、微云的组网方法及装置
US10621145B2 (en) 2016-10-18 2020-04-14 Arista Networks, Inc. Cluster file replication
CN107276828A (zh) * 2017-07-26 2017-10-20 郑州云海信息技术有限公司 一种集群中节点的调度方法及装置
CN110099084B (zh) * 2018-01-31 2021-06-15 北京易真学思教育科技有限公司 一种保证存储服务可用性的方法、***及计算机可读介质
CN108776696B (zh) * 2018-06-05 2023-04-18 平安科技(深圳)有限公司 节点配置方法及装置、存储介质和电子设备
CN111865631A (zh) * 2019-04-28 2020-10-30 普天信息技术有限公司 故障信息上报方法、装置、电子设备与可读存储介质
CN110297609A (zh) * 2019-06-14 2019-10-01 天津科技大学 一种精确信息***的数据存储方法
CN115344197A (zh) * 2019-06-24 2022-11-15 华为技术有限公司 一种数据访问方法、网卡及服务器
CN110445662B (zh) * 2019-08-29 2022-07-12 上海仪电(集团)有限公司中央研究院 OpenStack控制节点自适应切换为计算节点的方法及装置
CN111897625B (zh) * 2020-06-23 2023-10-20 新浪技术(中国)有限公司 一种基于Kubernetes集群的资源事件回溯方法、***及电子设备
US11683273B2 (en) * 2020-12-01 2023-06-20 International Business Machines Corporation Endpoint notification of storage area network congestion
CN113259167B (zh) * 2021-05-28 2023-07-18 贵州电网有限责任公司 一种基于事件触发机制的配电终端数据传输方法
CN114827017B (zh) * 2022-03-31 2024-01-30 北京声智科技有限公司 Kafka集群的通信方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272386B1 (en) * 1998-03-27 2001-08-07 Honeywell International Inc Systems and methods for minimizing peer-to-peer control disruption during fail-over in a system of redundant controllers
CN101026541A (zh) * 2006-01-12 2007-08-29 国际商业机器公司 用于传输数据的方法与装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553401B1 (en) * 1999-07-09 2003-04-22 Ncr Corporation System for implementing a high volume availability server cluster including both sharing volume of a mass storage on a local site and mirroring a shared volume on a remote site
US6859834B1 (en) * 1999-08-13 2005-02-22 Sun Microsystems, Inc. System and method for enabling application server request failover
EP1370947A4 (en) * 2001-02-13 2009-05-27 Candera Inc STORAGE VIRTUALIZATION SERVER SILICON BASE
US7043663B1 (en) * 2001-11-15 2006-05-09 Xiotech Corporation System and method to monitor and isolate faults in a storage area network
US6883065B1 (en) * 2001-11-15 2005-04-19 Xiotech Corporation System and method for a redundant communication channel via storage area network back-end
US7003688B1 (en) * 2001-11-15 2006-02-21 Xiotech Corporation System and method for a reserved memory area shared by all redundant storage controllers
US7853643B1 (en) * 2001-11-21 2010-12-14 Blue Titan Software, Inc. Web services-based computing resource lifecycle management
US7739393B2 (en) * 2002-01-28 2010-06-15 Cisco Technology, Inc. Apparatus and method for restoring traffic during failover in a cable head end
US6934826B2 (en) * 2002-03-26 2005-08-23 Hewlett-Packard Development Company, L.P. System and method for dynamically allocating memory and managing memory allocated to logging in a storage area network
US6895461B1 (en) * 2002-04-22 2005-05-17 Cisco Technology, Inc. Method and apparatus for accessing remote storage using SCSI and an IP network
US7415535B1 (en) * 2002-04-22 2008-08-19 Cisco Technology, Inc. Virtual MAC address system and method
US7130899B1 (en) * 2002-06-14 2006-10-31 Emc Corporation Robust indication processing
JP2004102374A (ja) * 2002-09-05 2004-04-02 Hitachi Ltd データ移行装置を有する情報処理システム
US7320084B2 (en) * 2003-01-13 2008-01-15 Sierra Logic Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers
US7418633B1 (en) * 2004-05-13 2008-08-26 Symantec Operating Corporation Method and apparatus for immunizing applications on a host server from failover processing within a switch
US7383465B1 (en) * 2004-06-22 2008-06-03 Symantec Operating Corporation Undoable volume using write logging
US8126843B2 (en) * 2004-11-30 2012-02-28 International Business Machines Corporation Cluster-wide read-copy update system and method
US7715308B2 (en) * 2004-12-09 2010-05-11 Honeywell International Inc. Fault tolerance in a wireless network
US20070079234A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Modeling XML from binary data
US8046626B2 (en) * 2006-08-25 2011-10-25 Cisco Technology, Inc. System and method for maintaining resiliency of subscriptions to an event server
US7734947B1 (en) * 2007-04-17 2010-06-08 Netapp, Inc. System and method for virtual interface failover within a cluster
US9104323B2 (en) * 2007-08-16 2015-08-11 International Business Machines Corporation Apparatus and method for storage cluster control
US7793140B2 (en) * 2007-10-15 2010-09-07 International Business Machines Corporation Method and system for handling failover in a distributed environment that uses session affinity
US7836185B2 (en) * 2008-06-27 2010-11-16 International Business Machines Corporation Common resource management in a server cluster
US20100162032A1 (en) * 2008-12-23 2010-06-24 David Dodgson Storage availability using cryptographic splitting
TWI514249B (zh) * 2009-01-23 2015-12-21 Infortrend Technology Inc 遠端非同步資料卷複製的方法及執行該方法的儲存系統

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272386B1 (en) * 1998-03-27 2001-08-07 Honeywell International Inc Systems and methods for minimizing peer-to-peer control disruption during fail-over in a system of redundant controllers
CN101026541A (zh) * 2006-01-12 2007-08-29 国际商业机器公司 用于传输数据的方法与装置

Also Published As

Publication number Publication date
US9286169B2 (en) 2016-03-15
US20140359344A1 (en) 2014-12-04
US20110078490A1 (en) 2011-03-31
US8495414B2 (en) 2013-07-23
US20130290774A1 (en) 2013-10-31
US20160140000A1 (en) 2016-05-19
US9940209B2 (en) 2018-04-10
US8868965B2 (en) 2014-10-21
US20130297966A1 (en) 2013-11-07
US20120297243A1 (en) 2012-11-22
US8868966B2 (en) 2014-10-21
US8296600B2 (en) 2012-10-23
CN102035862A (zh) 2011-04-27

Similar Documents

Publication Publication Date Title
CN102035862B (zh) Svc集群中配置节点的故障移交方法和***
JP6317856B2 (ja) クラスタ間冗長構成におけるスムーズな制御部交代
CN106331098B (zh) 一种服务器集群***
CA2783452C (en) Migrating virtual machines among networked servers upon detection of degrading network link operation
EP3338186B1 (en) Optimal storage and workload placement, and high resiliency, in geo-distributed cluster systems
US9639437B2 (en) Techniques to manage non-disruptive SAN availability in a partitioned cluster
US7562247B2 (en) Providing independent clock failover for scalable blade servers
CN102473157A (zh) 共享i/o环境中的虚拟热***功能
CN107666493B (zh) 一种数据库配置方法及其设备
CN102402395A (zh) 基于仲裁磁盘的高可用***不间断运行方法
CN113783765B (zh) 一种实现云内网和云外网互通的方法、***、设备和介质
US20090190581A1 (en) Overhead reduction for multi-link networking environments
CN104750428A (zh) 块储存存取和网关模块、储存***和方法与内容递送装置
CN112084007A (zh) 基于虚拟机技术的nas存储升级方法和装置
US11372702B2 (en) Optimized high availability management using cluster-wide view
US10305987B2 (en) Method to syncrhonize VSAN node status in VSAN cluster
US8565067B2 (en) Apparatus, system, and method for link maintenance
CN103309774A (zh) 一种虚拟化集群双层冗余架构搭建方法
US8935695B1 (en) Systems and methods for managing multipathing configurations for virtual machines
US6496863B1 (en) Method and system for communication in a heterogeneous network
US9798633B2 (en) Access point controller failover system
CN105515667A (zh) 一种高可用性计算机***
CN115048048A (zh) 数据存储***、数据存储方法、存储介质及电子装置
Coarasa et al. The CMS Online Cluster: Setup, Operation and Maintenance of an Evolving Cluster
CN115834362A (zh) 一种网络链路保护方法以及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant