CN100470494C - 集群可用性管理方法和*** - Google Patents
集群可用性管理方法和*** Download PDFInfo
- Publication number
- CN100470494C CN100470494C CNB2006100753124A CN200610075312A CN100470494C CN 100470494 C CN100470494 C CN 100470494C CN B2006100753124 A CNB2006100753124 A CN B2006100753124A CN 200610075312 A CN200610075312 A CN 200610075312A CN 100470494 C CN100470494 C CN 100470494C
- Authority
- CN
- China
- Prior art keywords
- logical partition
- recombiner
- partitioned resources
- standby mode
- activity pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2046—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行以及使该处理复合器中的第二逻辑分区在备用模式下运行。一旦检测到服务器集群的第二处理复合器中的故障,就将第一处理复合器中的备用模式逻辑分区激活到活动模式。在一个实施例中,将分区资源从活动模式逻辑分区转移到从备用模式激活的逻辑分区。描述和要求保护了其它实施例。
Description
技术领域
本发明涉及故障情况下的集群(cluster)管理。
背景技术
在某些计算环境中,多个主机***可以为了存储设备中的数据而与控制单元诸如IBM企业存储服务器通信,该存储设备由接收请求、提供到存储设备(诸如通过一个或多个逻辑路径互联的硬盘驱动器)的访问的ESS管理(IBM和ESS是IBM的注册商标)。互联的驱动器可以被配置为直接存取存储设备(DASD)、冗余独立磁盘阵列(RAID)、磁盘捆绑(Just a Bunch ofDisks,JBOD)等等。控制单元,也称作集群,可以包括重复冗余处理结点(也称作处理复合器(processing complexes)),以允许在一个处理复合器失效的情况下允许故障切换(failover)到幸存的处理复合器。处理复合器可以访问共享资源,诸如输入/输出(I/O)适配器、存储适配器和存储设备。
在处理复合器由于硬件或软件故障而失效的情况下,幸存的处理复合器检测该故障并且取得对该集群所有共享资源的控制。曾由失效的处理复合器执行的处理职责由幸存的处理复合器接管。
可以将每个处理复合器的资源划分成多个逻辑分区(LPAR),其中,将计算机处理器、存储器、和硬件资源划分成多个环境。可以利用其自身操作***和应用程序而独立操作每个环境。由于具有将单个机器分区成多个具有他们自己的***资源集合的逻辑服务器的能力,处理复合器的逻辑分区增加了单个服务器上工作负荷管理的灵活性。可以以各种数量和组合方式来组合每个分区中的资源。此外,可以创建的逻辑硬件分区的数目取决于硬件***。
动态逻辑分区(DLPAR)通过提供在无需重新启动的条件下向及从逻辑分区的操作***逻辑地添加及卸下处理复合器的资源的能力,而扩展LPAR的性能。该资源分配不仅可以在激活逻辑分区时发生,而且可以在分区正运行时发生。处理器、存储器、I/O适配器和其它分区资源可以以各种数量或组合释放到“自由池”中、从该自由池中获取、或者在处理复合器内直接从一个分区移动到另一个分区。但是,每个分区通常具有至少一个处理器、存储器、与引导设备相关联的I/O适配器、和网络适配器。
处理复合器内的LPAR资源从一个硬件分区到另一硬件分区的移动可以由监督模块管理。为了转移分区资源,监督模块可以向“拥有”该分区资源的逻辑分区发出网络请求,请求该源逻辑分区释放该特定分区资源并且将其置于停顿(quiesced)状态。通过这种方式,该分区资源被停止,并且被置于***管理程序(hypervisor)模块的控制之下。监督模块可以向***管理程序发出命令,指示其将分区资源从源逻辑分区重新分配到目标逻辑分区。此外,监督模块可以向目标逻辑分区发出网络请求,指示其从***管理程序模块获取分区资源,并且配置其以供目标逻辑分区使用。
发明内容
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行以及使该处理复合器中的第二逻辑分区在备用模式下运行。一旦检测到服务器集群的第二处理复合器中的故障,就将第一处理复合器中的备用模式逻辑分区激活到活动模式。在一个实施例中,将分区资源从活动模式逻辑分区转移到从备用模式激活的逻辑分区。输入/输出或者其它处理操作可以由幸存处理复合器中的两个逻辑分区执行以提供冗余,直到另一处理复合器被修复并重新激活为止。描述和要求保护了其它实施例。
附图说明
图1图示了可以实现实施例的计算环境。
图2图示了操纵处理复合器故障的操作的一个示例。
图3是处于备用模式的逻辑分区和处于活动模式的逻辑分区的一个示例的示意图。
图4是从备用模式激活到活动模式的逻辑分区和分区资源被减少的处于活动模式的逻辑分区的一个示例的示意图。
具体实施方式
图1图示了其中可以采用本说明书的各个方面的计算环境的一个示例。一个或多个主机2将针对存储***4的输入/输出(I/O)请求传送到控制单元或集群6,其中集群6管理对存储***4的访问。在一个实施例中,集群6包括两个处理结点或复合器8a、8b,每个包括处理器10a、10b和存储器12a、12b。每个处理器10a、10b可以包括作为处理资源可用于相关联的处理复合器8a、8b的多个中央处理单元。
每个处理复合器8a、8b包括监督模块14a、14b。监督模块14a、14b包括管理并且协调在处理复合器8a、8b中执行的一个或多个逻辑分区16a、16b的操作的代码。每个逻辑分区16a、16b单独运行操作***18a、18b和设备驱动器20a、20b。逻辑分区包括将处理器10a、10b划分为多个逻辑独立的处理***,每个逻辑独立的处理***具有其自身的操作***18a、18b和设备驱动器20a、20b。多个逻辑分区可以在每个处理复合器中运行,由用于该复合器的监督模块管理。
每个设备驱动器20a、20b提供设备驱动器20a、20b在其中运行的逻辑分区16a、16b中的操作***18a、18b与外部设备(诸如主机适配器22a、22b...22n和设备适配器24a、24b...24n)之间的接口。主机适配器22a、22b...22n使得处理复合器8a、8b能够与主机2通信,而设备适配器24a、24b...24n使得处理复合器8a、8b能够与存储***4通信。这样,处理复合器8a、8b共享诸如适配器22a、22b...22n,24a、24b...24n的设备。变量“n”用于表示元件的整数实例,并且当用于不同元件时可以指示不同或相同的整数值。例如,22n和24n可以指示相同或不同数目的主机适配器22n和设备适配器24n。
处理复合器8a、8b通过通信网络(fabric)30a与主机适配器22a、22b...22n通信,以及通过通信网络30b与设备适配器24a、24b...24n通信。通信网络30a、30b可以包括提供处理复合器8a、8b与适配器之间的通信路径的一个或多个接口。路径包括使能通过通信网络与共享适配器通信的通信网络30a、30b中的硬件。在一个实施例中,通信网络可以包括光纤信道仲裁环配置、串行环架构或总线接口,诸如***组件互联(PCI)接口。可以为每个处理复合器8a、8b分配适配器22a、22b...22n,24a、24b...24n的一部分,并且在初始化期间,处理复合器8a、8b负责初始化提供到分配给该处理复合器的适配器的通信路径的通信网络30a、30b的一部分。例如,如果为处理复合器8a分配了适配器22a、22b、24a、24b,则处理复合器8a将初始化和配置提供处理复合器8a与适配器22a、22b、24a、24b之间的通信路径的通信网络30a、30b的一部分。类似地,如果为处理复合器8b分配了适配器22n和24n,则处理复合器8b将初始化和配置使能处理复合器8b与适配器22n和24n之间的通信路径的通信网络30a、30b的一部分。配置通信网络30a、30b的步骤包括设置通信网络硬件例如光纤信道环硬件、串行环架构硬件或总线接口硬件中的寄存器,以及执行其它与初始化和发现相关的操作。每个单独适配器22a、22b...22n、24a、24b...24n可以由处理复合器8a、8b共享。
与***管理程序模块26a、26b相关的监督模块14a、14b维持设备/逻辑分区(LPAR)分配,该设备/逻辑分区(LPAR)分配标识适配器22a、22b...22n,24a、24b...24n到每个处理复合器8a、8b中逻辑分区16a、16b的每个分配,从而特定适配器22a、22b...22n,24a、24b...24n与处理复合器8a、8b之间的通信由在分配给特定适配器22a、22b...22n,24a、24b...24n的逻辑分区16a、16b中运行的设备驱动器20a、20b操纵。
每个处理复合器8a、8b可以在单独的功率边界(power boundary)上。处理复合器8a、8b可以被分配来操纵针对在存储***4中所配置的特定卷(volume)的I/O请求。处理复合器8a、8b在设备网络(未示出)上经由设备适配器24a、24b...24n与存储***4通信,该设备网络可以包括局域网(LAN)、存储区域网(storage area network;SAN)、总线接口、串行接口等等。此外,处理复合器8a、8b在使能处理器之间互相通信的连接28上通信,以管理关于共享设备诸如共享适配器22a、22b...22n,24a、24b...24n所执行的配置操作。在替代性实施例中,可以仅存在连接所有适配器22a、22b...22n,24a、24b...24n的一个通信网络,即,通信网络30a和30b可以是单个互联通信网络的一部分、或者所示的两个通信网络30a、30b、或者多于两个通信网络。
集群6可以包括任何类型的服务器,诸如企业存储服务器、存储控制器等等,或者用于管理对所附着的一个或多个存储***4的I/O请求的其它设备,其中该存储***可以包括本领域公知的一个或多个存储设备,诸如互联的硬盘驱动器(例如,被配置为DASD、RAID、JBOD等等)、磁带、电子存储器等等。主机2可以在诸如局域网(LAN)、存储区域网(SAN)、广域网(WAN)、无线网等等的网络(未示出)上经由适配器22a、22b...22n而与集群6通信。或者,主机2可以通过总线接口诸如***组件互联(PCI)总线或串行接口与集群6通信。还应该理解,集群6还可以是例如通用服务器集群,而不仅仅是存储子***或存储控制器。例如,这两个服务器可以是运行高可用性集群应用程序诸如的IBM p系列服务器。
根据本描述的一个方面,图2图示了在硬件或软件故障的情况下增加冗余的集群操作的一个示例。在一个操作中,在集群的第一结点或处理复合器中,集群使第一逻辑分区在活动模式下运行以及使第二逻辑分区在备用模式下运行(框200)。图3是示意性地图示了使处理复合器8a的第一逻辑分区16a1在活动模式下运行的集群6的示例的图。此外,使处理复合器8a的第二逻辑分区16a2在备用模式下运行。类似地,可以使处理复合器8b的第一逻辑分区16b1在活动模式下运行,以及可以使处理复合器8b的第二逻辑分区16b2在备用模式下运行。
在所图示的实施例中,在活动模式下,逻辑分区16a1、16b1代表主机2执行输入/输出操作。例如,活动模式逻辑分区16a1可以从/向存储***4读/写数据,如图3的共享资源300所示。每个活动逻辑分区16a1、16b1具有到附加共享资源300(包括主机适配器22a、22b...22n)的访问路径,以接收来自主机2的输入/输出任务。这些输入/输出任务及其相关联的输入/输出数据被临时存储在分配给活动模式逻辑分区的存储器中。尽管活动逻辑分区所执行的处理操作被描述为代表主机2的输入/输出操作,但是应该理解,活动逻辑分区可以执行其它类型的处理操作。
逻辑分区16a1、16b1的每个都具有到附加共享资源300(包括设备适配器24a、24b...24n)的访问路径,以根据正执行的特定输入/输出操作而将来自主机2的输出数据写到存储***4中以及从存储***4接收读取的输入数据以转发给主机2。为了执行这些输入/输出操作或者其它的处理操作,为活动模式逻辑分区的每个分配相关联的处理复合器8a、8b的分区资源的相当大的部分。这样,例如,可以为活动模式逻辑分区16a1分配处理复合器8a的大部分CPU资源、存储器资源和其它动态可分配分区资源。分配给任一活动模式逻辑分区的动态可分配分区资源的百分比可以依赖于处理复合器中的活动模式和备用模式的逻辑分区的数目以及每个活动模式逻辑分区的相对工作负荷。
作为比较,在图示的实施例中,在备用模式下,逻辑分区16a2、16b2并不代表主机2执行输入/输出操作并且不具有到共享资源300的访问路径。这样,例如,备用模式逻辑分区16a2并不从/向图3的共享资源的存储***4读/写数据。由于备用模式逻辑分区16a2、16b2并不从主机2接收输入/输出任务,所以每个备用模式逻辑分区16a2、16b2并不具有到共享的主机适配器22a、22b...22n的访问路径。这样,输入/输出任务及其相关联的输入/输出数据并不存储在分配给备用模式逻辑分区的存储器中。
类似地,在图示的实施例中,备用模式逻辑分区16a2、16b2并不具有到共享资源300的设备适配器24a、24b...24n的访问路径,并且并不向存储***4写入来自主机2的输出数据。备用模式的逻辑分区16a2、16b2并不从存储***4接收读取的输入数据以转发到主机2。
由于备用模式的逻辑分区在本示例中并不执行输入/输出操作,所以为备用模式逻辑分区16a2、16b2的每个分配相关联的处理复合器8a、8b的分区资源的相对小的部分。这样,例如,可以为活动模式逻辑分区16a1分配适于维持备用模式的处理复合器8a的单个CPU(或单个CPU的一小部分)、少量存储器资源和其它动态可分配分区资源。例如,可以为备用模式逻辑分区16a2分配足以维持操作***运行的存储器,但是可能需要很少的或者不需要附加的运行(operational)存储器。
在图示的实施例中,关于集群6的各种状态机的各种状态,活动模式逻辑分区16a1在数据结构302a中维持状态信息。由活动模式逻辑分区16b1在数据结构302b中类似地维持集群状态信息的同步拷贝。该状态信息利于控制正由集群6的活动逻辑分区16a1、16b1代表主机2执行的输入/输出操作或其它处理操作。活动逻辑分区16a1、16b1可以彼此交换状态信息,以利于每个活动分区维持关于集群操作的当前状态信息。此外,活动模式逻辑分区维持这样的数据结构,其利于响应于从主机2接收的输入/输出任务而执行输入/输出操作。活动模式逻辑分区所维持的这些附加数据结构包括缓冲器、表、存储区域等等。
作为比较,备用模式逻辑分区16a2、16b2并不执行主机2的I/O操作并且不维持关于这些I/O操作的数据结构。备用模式逻辑分区16a2、16b2并不与其它逻辑分区交换集群状态信息。
应该理解,在一些实施例中,备用模式逻辑分区16a2、16b2可以执行有限的I/O操作,并且可以具有到共享资源300的有限访问路径。在一些实施例中,备用模式逻辑分区16a2、16b2可以维持有限的集群状态数据结构和有限的I/O操作数据结构。这些有限量的数量可以依赖于特定应用而变化。但是,在许多实施例中,备用模式逻辑分区16a2、16b2所承担的操作或所维持的数据结构可能大大少于活动模式逻辑分区所承担的操作或所维持的数据结构。
在另一操作中,检测集群的第二处理复合器中的故障(框202,图2)。例如,活动模式逻辑分区16a1可以检测到处理复合器8b已经失效,如图4中的删去符号400所表示的。在一个实施例中,活动模式逻辑分区16a1、16b1可以周期性地交换消息(有时称之为“心跳”)以通知另一处理复合器其在运转。如果活动模式逻辑分区16a1未能从活动模式逻辑分区16b1接收到这样的心跳消息,则逻辑分区16a1可以推断处理复合器8b已遭受了故障。在另一处理复合器8b失效的情况下,幸存的处理器复合器8a可以执行故障切换操作,其中处理器复合器8b未完成的I/O操作将由幸存的处理器复合器8a接管并且完成。此外,来自主机2的所有新I/O操作都将由处理器复合器8a执行,直到另一处理器复合器8b可以被修复并且恢复为在线为止。
在处理复合器8b不能运行的情况下,集群6可能缺少处理复合器8b所提供的冗余。因而,幸存处理复合器8a中的硬件或软件故障可能导致集群6中的I/O操作停止或者可能导致数据丢失。
根据本描述的另一方面,幸存处理复合器8a的活动模式逻辑分区16a1可以激活(框204)例如幸存处理器复合器8a的第二逻辑分区(诸如备用模式逻辑分区16a2),从而也可以使逻辑分区16a2在活动模式下运行。如下面更详细解释的,将备用模式逻辑分区激活到活动模式可以提供增加的冗余度。这样,如果例如在活动模式逻辑分区16a1、16a2之一中发生软件故障,则包括数据结构的运行软件可以保存在幸存处理器复合器8a的幸存活动模式逻辑分区中。
在所示实施例中,通过逻辑分区16a1、16a2交换适当的心跳消息,可使活动模式逻辑分区16a1知晓运行在备用模式下的逻辑分区,诸如逻辑分区16a2。一旦检测到另一处理复合器8b的故障,活动模式逻辑分区16a1可以通过向逻辑分区16a2发出适当消息使得备用模式逻辑分区16a2将自身激活到活动模式。
为了从备用模式切换到活动模式,逻辑分区16a2可以向活动模式分区16a1请求集群状态信息302a的拷贝,并且开始在数据结构302c中维持其自身的集群状态信息的同步拷贝(图4)。备用模式逻辑分区16a2可以从活动模式逻辑分区16a1获得的附加信息包括不运行的主机2的列表、以及正由集群6为其执行I/O操作的主机2的列表。备用模式逻辑分区16a2还可以从活动模式逻辑分区16a1获得用于配置共享资源300(包括主机适配器22a,22b...22n和设备适配器24a、24b...24n)的信息。
一旦逻辑分区16a2接收到了适当信息的同步拷贝,逻辑分区16a2就可以配置共享资源300以允许由逻辑分区16a2使用共享资源300。此外,逻辑分区16a2可以维持在集群6执行I/O操作中所使用的I/O操作数据结构的同步拷贝。一旦逻辑分区16a2准备好从主机2接收I/O操作,则其可以成为集群6的活动成员。
当逻辑分区16a2在活动模式下运行时,为了促进处于活动模式的逻辑分区16a2的操作,可以减少(框206)处理复合器8a的另一逻辑分区诸如逻辑分区16a1的分区资源,以使得附加分区资源可用于逻辑分区16a2。在所示的实施例中,可以由模块14a、26a实现分区资源的动态重新分配,作为到活动模式逻辑分区16a1的故障切换的一部分。
这样,在本示例中,一旦检测到另一处理复合器8b的故障,活动模式逻辑分区16a1可以向监督模块14a发送消息,作为故障切换操作的一部分,由此活动模式逻辑分区接管先前由处理复合器8b执行的I/O操作。作为响应,监督模块14a可以向“拥有”特定分区资源的活动模式逻辑分区16a发出网络请求,请求活动模式逻辑分区16a1释放该特定分区资源并且将其置于停顿状态。通过这种方式,可以停止分区资源,并且将其置于***管理程序模块26a的控制之下。
在另一操作中,可以扩展(框208)分配给被激活的逻辑分区的分区资源。在本示例中,监督模块26a可以向***管理程序模块26a发出命令,指示其将来自活动逻辑分区16a1的停顿分区资源重新分配到从备用模式被激活到活动模式的逻辑分区16a2。此外,监督模块14a可以向逻辑分区16a2发出网络请求,指示逻辑分区16a2从***管理程序模块26a获取停顿分区资源,并且配置其以供转变为活动模式的逻辑分区16a2使用。
合适的时候,可以对于适于平衡逻辑分区16a1、16a2之间的I/O工作负荷那么多的分区资源,而执行这些操作,即减少分配给逻辑分区(诸如逻辑分区16a1)的分区资源以及扩展分配给转变为活动模式的逻辑分区(诸如逻辑分区16a2)的分区资源的操作。例如,当逻辑分区16a2获取诸如附加处理和存储器资源的分区资源时,逻辑分区16a2可以承担的输入/输出或其它处理运行工作负荷量增加。
在本描述的一个方面,从操作的备用模式被激活到活动模式的逻辑分区16a2在故障的情况下提供了冗余度。例如,如果逻辑分区16a1经历了软件故障,则集群6的输入/输出操作可以继续进行,这是因为所激活的逻辑分区16a2已维持了输入/输出操作所需的数据和数据结构的同步拷贝,包括集群状态信息、输入/输出操作数据等等。
在另一操作中,在本示例中经历初始故障的处理复合器8b可以被修复(框210)。一旦一个或多个逻辑分区16b1、16b2返回到活动模式并且能够执行用于一个或多个主机2的输入/输出操作,则可以使处理复合器8a的逻辑分区16a1、16a2之一返回到备用模式。应该理解,出于其它目的和在其它情况下,可以使逻辑分区返回到备用模式。
为了使逻辑分区返回到备用模式,可以减少该逻辑分区的分区资源(框212)。在本示例中,可以使逻辑分区16a2返回到备用模式。应该理解,在其它应用中,逻辑分区16a2可以继续保持在活动模式下,而另一逻辑分区例如逻辑分区16a1可以采取备用模式。
在本示例中,活动模式逻辑分区16a1一旦接收到指示一个或多个逻辑分区16b1、16b2处于活动模式并且能够进行用于主机2的输入/输出操作的、来自处理复合器8b的数据结构同步信息和其它通信,就执行故障回复(failback)操作,将输入/输出操作向回传输到处理复合器8b。关于故障回复操作,逻辑分区16a1可以向监督模块14a传送消息。作为响应,监督模块14a可以向“拥有”特定分区资源的活动模式逻辑分区16a2发出网络请求,指示活动模式逻辑分区16a2释放该特定分区资源并且将其置于停顿状态。通过这种方式,可以停止分区资源,并且将其置于***管理程序模块26a的控制之下。
在另一操作中,可以扩展(框214)分配给剩余逻辑分区的分区资源。在本示例中,监督模块26a可以向***管理程序模块26a发出命令,指示其将来自逻辑分区16a2的停顿分区资源重新分配回将继续保持为活动模式的逻辑分区16a1。此外,监督模块14a可以向逻辑分区16a1发出网络请求,指示逻辑分区16a1从***管理程序模块26a获取停顿分区资源,并且配置其以供逻辑分区16a1使用。
可以针对适于这些相应模式的那么多的分区资源而执行这些操作,即减少分配给转变到备用模式的逻辑分区(诸如逻辑分区16a2)的分区资源、以及扩展分配给继续保持在活动模式的逻辑分区(诸如逻辑分区16a1)的分区资源的操作。例如,当逻辑分区16a1获取诸如处理和存储器资源的分区资源时,逻辑分区16a1可以承担的输入/输出或其它处理运行工作负荷量增加。
在另一操作中,可以使逻辑分区16a2停顿(框216)到备用模式,从而可以以备用模式运行(框218)逻辑分区16a2而以活动模式运行逻辑分区16a1。在该备用模式下,如上面所提到的,可以将备用模式下的逻辑分区16a2所利用的分区资源减少到最小值。此外,可以减少或者去除处于备用模式的逻辑分区16a2所要执行的操作。一个这样的最小化操作可以包括周期性地向活动模式逻辑分区诸如逻辑分区16a1发布心跳消息,向该活动模式逻辑分区通知该备用模式分区16a2的存在。应该理解,分配给备用模式的逻辑分区的操作和分区资源的量可以依据特定应用而变化。
其它实施例细节
可以使用标准编程和/或工程技术将上述操作实现为方法、装置或制品以产生软件、固件、硬件或者其任意组合。这里所使用的术语“制品”指以有形介质实现的代码或逻辑,其中这样的有形介质可以包括硬件逻辑(例如,集成电路芯片、可编程门阵列(PGA)、特定用途集成电路(ASIC)等等)或计算机可读介质,诸如磁存储介质(例如,硬盘驱动器、软盘、磁带等等)、光存储器(CD-ROM、光盘等等)、易失和非易失存储设备(例如,EEPROM、ROM、PROM、RAM、DRAM、SRAM、固件、可编程逻辑等等)。由处理器访问和执行计算机可读介质中的代码。将代码或逻辑编码于其中的有形介质还可以包括通过空间传播的传输信号或传输介质,诸如光纤、铜线等等。将代码或逻辑编码于其中的传输信号还可以包括无线信号、卫星传输、无线电波、红外信号、蓝牙等等。将代码或逻辑编码于其中的传输信号能够由发送站发送并且由接收站接收,其中被编码在传输信号中的代码或逻辑可以被解码并且存储在接收和发送站或设备处的硬件或计算机可读介质中。此外,“制品”可以包括其中包含、处理、和运行代码的硬件和软件组件的组合。当然,本领域技术人员将认识到,在不背离本发明范围的条件下,可以对该配置进行许多修改,并且该制品可以包括本领域公知的任何信息承载介质。
除非特别指出,否则术语“一实施例”、“实施例”、“多个实施例”、“该实施例”、“所述多个实施例”、“一个或多个实施例”、“一些实施例”、和“一个实施例”都意味着“一个或多个本发明的一个或多个(但不是全部)实施例”。
除非特别指出,否则术语“包括”、“包含”、“具有”及其各种变形都意味着“包括但不限于”。
除非特别指出,否则所枚举的项目列表并不意味着任意或所有项目互斥。
除非特别指出,否则术语“a”、“an”、“the”都意味着“一个或多个”。
除非特别指出,否则相互通信的设备并不需要相互连续通信。此外,相互通信的设备可以直接地或者间接地通过一个或多个媒介通信。
具有相互通信的几个组件的实施例的描述并不意味着需要所有这些组件。相反,描述各种可选组件以说明本发明各种可能实施例。
此外,尽管可能顺序描述了处理操作、方法操作、算法等等,但是这样的处理、方法和算法可以被配置来以别的顺序工作。换言之,可能描述的操作的任何次序或顺序并不必然指示要求以该顺序执行该操作。可以以任何实际顺序执行这里所述的处理操作。此外,可以同时执行一些操作。
当这里描述单个设备或物件时,很清楚,可以代替单个设备/物件而使用不止一个设备/物件(无论它们合作与否)。类似地,对于这里描述了不止一个设备或物件(无论它们合作与否)的情况,很清楚,可以替代所述不止一个设备或组件而使用单个设备/物件。
某设备的功能和/或特征可以替代地由未明确描述为具有这样的功能/特征的一个或多个其它设备实现。这样,本发明的其它实施例不必要包括该设备本身。
在所描述的实施例中,集群6包括两个处理复合器8a、8b。在另外的实施例中,可以存在访问共享设备的不止两个***。在这样的实施例中,一个或多个处理复合器可能维持处于备用模式并且准备被激活的逻辑分区,以在另一处理复合器失效的情况下提供冗余。
某些实施例可以针对一种由人或在计算***中集成计算机可读代码的自动化处理来部署计算指令的方法,其中使得与计算***结合的代码能够执行所述实施例的操作。
图2的所示操作示出了以某顺序发生的某些事件。在替代性实施例中,可以以不同(经修改或经删除)的顺序执行某些操作。此外,可以向上述逻辑添加步骤,并且仍符合所述实施例。此外,这里所描述的操作可以顺序发生或者某些操作可以被并行处理。此外,可以由单个处理单元或者由分布式处理单元执行操作。
某些操作已被描述为以对等方式在逻辑分区之间发生。其它操作已被描述为利用监督硬件或软件实现。应该理解,这些操作可以以对等方案或者以监督方案或者以各方案的组合实现。
所执行的处理操作已被描述为包括例如输入/输出操作。应该理解,可以代表主机或者作为服务器而执行其它类型的处理操作。
服务器集群在上面已被描述为具有两个处理复合器,每个处理复合器在常规操作中具有活动模式逻辑分区和备用模式逻辑分区。应该理解,在其它实施例中,服务器集群可以具有单个处理复合器或者不止两个处理复合器,并且每个处理复合器可以具有不止一个活动或备用模式逻辑分区。
出于说明和描述目的,已给出了各种实施例的前述描述。该描述并不意欲是穷举式的或者将本描述局限于所公开的确切形式。根据上述教导的各种修改和改变都是可能的。
Claims (20)
1.一种服务器集群管理方法,包括:
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行,并使该处理复合器中的第二逻辑分区在备用模式下运行,其中,该第一逻辑分区和第二逻辑分区是该第一处理复合器的资源的划分,所划分到逻辑分区的资源是该逻辑分区的分区资源;
检测该服务器集群的第二处理复合器中的故障;以及
响应于所述故障检测,激活该第一处理复合器中的备用逻辑分区以在活动模式下运行。
2.如权利要求1所述的服务器集群管理方法,还包括:
修复所述第二处理复合器;以及
响应于所述修复,使该第二逻辑分区停顿以在备用模式下运行。
3.如权利要求1所述的服务器集群管理方法,还包括:
在激活该第二逻辑分区之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
4.如权利要求1所述的服务器集群管理方法,还包括:
减少该第一逻辑分区的分区资源;以及
在激活该第二逻辑分区之后,增加该第二逻辑分区的分区资源。
5.如权利要求2所述的服务器集群管理方法,还包括:
在修复该第二处理复合器之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
6.如权利要求1所述的服务器集群管理方法,还包括:
减少该第二逻辑分区的分区资源;以及
在修复该第二处理复合器之后,增加该第一逻辑分区的分区资源。
7.如权利要求1所述的服务器集群管理方法,还包括:
将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;
修复所述第二处理复合器;
在修复该第二处理复合器之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及
使第二逻辑分区停顿以回到备用模式下运行。
8.如权利要求1所述的服务器集群管理方法,其中,所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到所述共享资源的访问。
9.如权利要求8所述的服务器集群管理方法,其中所述共享资源包括数据存储盘驱动器。
10.如权利要求3所述的服务器集群管理方法,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
11.一种服务器集群管理***,包括:
具有第一处理复合器和第二处理复合器的服务器集群,所述第一处理复合器具有第一逻辑分区和第二逻辑分区,,其中,该第一逻辑分区和第二逻辑分区是该第一处理复合器的资源的划分,所划分到逻辑分区的资源是该逻辑分区的分区资源,所述服务器集群具有适于下述操作的服务器集群逻辑:
使所述第一逻辑分区在活动模式下运行以及使所述第二逻辑分区在备用模式下运行;
检测所述第二处理复合器中的故障;以及
响应于所述故障检测,将所述第二逻辑分区从所述备用模式激活,以在活动模式下运行。
12.如权利要求11所述的服务器集群管理***,其中,所述服务器集群逻辑还适于:响应于该第二处理复合器的修复,使该第二逻辑分区从活动模式停顿,以在备用模式下运行。
13.如权利要求11所述的服务器集群管理***,其中,所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于:在该第二逻辑分区的激活之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
14.如权利要求11所述的服务器集群管理***,其中,所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于:
减少该第一逻辑分区的分区资源;以及
在该第二逻辑分区的激活之后,增加该第二逻辑分区的分区资源。
15.如权利要求12所述的服务器集群管理***,其中所述第二逻辑分区具有分区资源,以及其中所述服务器集群逻辑还适于:在该第二处理复合器的修复之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
16.如权利要求11所述的服务器集群管理***,其中所述第二逻辑分区具有分区资源,以及其中所述服务器集群逻辑还适于:
减少该第二逻辑分区的分区资源;以及
在该第二处理复合器的修复之后,增加该第一逻辑分区的分区资源。
17.如权利要求11所述的服务器集群管理***,其中所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于:
将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;
在该第二处理复合器的修复之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及
使第二逻辑分区从活动模式停顿,以回到备用模式下运行。
18.如权利要求11所述的服务器集群管理***,其中所述第一处理复合器具有共享资源,以及其中所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到共享资源的访问。
19.如权利要求18所述的服务器集群管理***,其中所述共享资源包括数据存储盘驱动器。
20.如权利要求13所述的服务器集群管理***,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/168,973 | 2005-06-28 | ||
US11/168,973 US7937616B2 (en) | 2005-06-28 | 2005-06-28 | Cluster availability management |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1892612A CN1892612A (zh) | 2007-01-10 |
CN100470494C true CN100470494C (zh) | 2009-03-18 |
Family
ID=37597497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100753124A Active CN100470494C (zh) | 2005-06-28 | 2006-04-12 | 集群可用性管理方法和*** |
Country Status (2)
Country | Link |
---|---|
US (3) | US7937616B2 (zh) |
CN (1) | CN100470494C (zh) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060168214A1 (en) * | 2004-10-29 | 2006-07-27 | International Business Machines Corporation | System for managing logical partition preemption |
US7937616B2 (en) * | 2005-06-28 | 2011-05-03 | International Business Machines Corporation | Cluster availability management |
JP4831599B2 (ja) | 2005-06-28 | 2011-12-07 | ルネサスエレクトロニクス株式会社 | 処理装置 |
US7814495B1 (en) | 2006-03-31 | 2010-10-12 | V Mware, Inc. | On-line replacement and changing of virtualization software |
JP4923990B2 (ja) | 2006-12-04 | 2012-04-25 | 株式会社日立製作所 | フェイルオーバ方法、およびその計算機システム。 |
CN101227315B (zh) * | 2007-01-17 | 2011-04-20 | 上海市医疗保险信息中心 | 动态服务器集群及其控制方法 |
US7941657B2 (en) | 2007-03-30 | 2011-05-10 | Lenovo (Singapore) Pte. Ltd | Multi-mode mobile computer with hypervisor affording diskless and local disk operating environments |
US8140822B2 (en) * | 2007-04-16 | 2012-03-20 | International Business Machines Corporation | System and method for maintaining page tables used during a logical partition migration |
US7849347B2 (en) * | 2007-04-16 | 2010-12-07 | International Business Machines Corporation | System and method for updating a time-related state of a migrating logical partition |
US8019962B2 (en) * | 2007-04-16 | 2011-09-13 | International Business Machines Corporation | System and method for tracking the memory state of a migrating logical partition |
US20080256530A1 (en) * | 2007-04-16 | 2008-10-16 | William Joseph Armstrong | System and Method for Determining Firmware Compatibility for Migrating Logical Partitions |
US7730365B1 (en) * | 2007-04-30 | 2010-06-01 | Hewlett-Packard Development Company, L.P. | Workload management for maintaining redundancy of non-data computer components |
US9207990B2 (en) * | 2007-09-28 | 2015-12-08 | Hewlett-Packard Development Company, L.P. | Method and system for migrating critical resources within computer systems |
JP5234115B2 (ja) * | 2008-11-27 | 2013-07-10 | 富士通株式会社 | 情報処理装置,処理部切換方法及び処理部切換プログラム |
US8489797B2 (en) * | 2009-09-30 | 2013-07-16 | International Business Machines Corporation | Hardware resource arbiter for logical partitions |
US8285915B2 (en) * | 2010-01-13 | 2012-10-09 | International Business Machines Corporation | Relocating page tables and data amongst memory modules in a virtualized environment |
US8458517B1 (en) | 2010-04-30 | 2013-06-04 | Amazon Technologies, Inc. | System and method for checkpointing state in a distributed system |
JP5548647B2 (ja) * | 2011-04-25 | 2014-07-16 | 株式会社日立製作所 | 計算機システムでの部分障害処理方法 |
US9772784B2 (en) | 2011-08-10 | 2017-09-26 | Nutanix, Inc. | Method and system for maintaining consistency for I/O operations on metadata distributed amongst nodes in a ring structure |
CN102594596B (zh) * | 2012-02-15 | 2014-08-20 | 华为技术有限公司 | 识别集群网络中可用分区的方法、装置及集群网络*** |
US20130304901A1 (en) * | 2012-05-11 | 2013-11-14 | James Malnati | Automated integration of disparate system management tools |
US9578130B1 (en) | 2012-06-20 | 2017-02-21 | Amazon Technologies, Inc. | Asynchronous and idempotent distributed lock interfaces |
US10630566B1 (en) | 2012-06-20 | 2020-04-21 | Amazon Technologies, Inc. | Tightly-coupled external cluster monitoring |
US10754710B1 (en) | 2012-06-20 | 2020-08-25 | Amazon Technologies, Inc. | Transactional watch mechanism |
US10191959B1 (en) | 2012-06-20 | 2019-01-29 | Amazon Technologies, Inc. | Versioned read-only snapshots of shared state in distributed computing environments |
US9632828B1 (en) | 2012-09-24 | 2017-04-25 | Amazon Technologies, Inc. | Computing and tracking client staleness using transaction responses |
CN103118121B (zh) * | 2013-02-19 | 2017-05-17 | 浪潮电子信息产业股份有限公司 | 一种高可用集群在虚拟化技术中的应用方法 |
US9171019B1 (en) | 2013-02-19 | 2015-10-27 | Amazon Technologies, Inc. | Distributed lock service with external lock information database |
CN105144138B (zh) * | 2013-04-16 | 2018-04-24 | 慧与发展有限责任合伙企业 | 分布式事件关联*** |
US9553951B1 (en) | 2013-04-24 | 2017-01-24 | Amazon Technologies, Inc. | Semaphores in distributed computing environments |
US9210032B2 (en) | 2013-05-06 | 2015-12-08 | International Business Machines Corporation | Node failure management |
US9887889B1 (en) | 2013-07-15 | 2018-02-06 | Amazon Technologies, Inc. | State reconciliation using event tracking and polling |
US9450700B1 (en) * | 2013-08-05 | 2016-09-20 | Amazon Technologies, Inc. | Efficient network fleet monitoring |
US9298516B2 (en) * | 2013-10-01 | 2016-03-29 | Globalfoundries Inc. | Verification of dynamic logical partitioning |
US9262289B2 (en) * | 2013-10-11 | 2016-02-16 | Hitachi, Ltd. | Storage apparatus and failover method |
US9990258B2 (en) * | 2014-01-31 | 2018-06-05 | Hitachi, Ltd. | Management computer and management program |
EP3140734B1 (en) | 2014-05-09 | 2020-04-08 | Nutanix, Inc. | Mechanism for providing external access to a secured networked virtualization environment |
US9740472B1 (en) * | 2014-05-15 | 2017-08-22 | Nutanix, Inc. | Mechanism for performing rolling upgrades in a networked virtualization environment |
US9733958B2 (en) * | 2014-05-15 | 2017-08-15 | Nutanix, Inc. | Mechanism for performing rolling updates with data unavailability check in a networked virtualization environment for storage management |
US9588853B2 (en) * | 2014-06-05 | 2017-03-07 | International Business Machines Corporation | Automatic management of server failures |
US9760529B1 (en) | 2014-09-17 | 2017-09-12 | Amazon Technologies, Inc. | Distributed state manager bootstrapping |
WO2016056140A1 (ja) * | 2014-10-10 | 2016-04-14 | 株式会社日立製作所 | インターフェースデバイス、及びインターフェースデバイスを含む計算機システム |
US9672123B2 (en) | 2014-12-31 | 2017-06-06 | Oracle International Corporation | Deploying services on application server cloud with high availability |
US10642507B2 (en) | 2015-01-30 | 2020-05-05 | Nutanix, Inc. | Pulsed leader consensus management |
US9852221B1 (en) | 2015-03-26 | 2017-12-26 | Amazon Technologies, Inc. | Distributed state manager jury selection |
US20170255506A1 (en) * | 2016-03-07 | 2017-09-07 | Dell Software, Inc. | Monitoring, analyzing, and mapping of computing resources |
US11218418B2 (en) | 2016-05-20 | 2022-01-04 | Nutanix, Inc. | Scalable leadership election in a multi-processing computing environment |
US10362092B1 (en) | 2016-10-14 | 2019-07-23 | Nutanix, Inc. | Entity management in distributed systems |
US11194680B2 (en) | 2018-07-20 | 2021-12-07 | Nutanix, Inc. | Two node clusters recovery on a failure |
US11770447B2 (en) | 2018-10-31 | 2023-09-26 | Nutanix, Inc. | Managing high-availability file servers |
US11768809B2 (en) | 2020-05-08 | 2023-09-26 | Nutanix, Inc. | Managing incremental snapshots for fast leader node bring-up |
Family Cites Families (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4371754A (en) * | 1980-11-19 | 1983-02-01 | Rockwell International Corporation | Automatic fault recovery system for a multiple processor telecommunications switching control |
US4907229A (en) * | 1988-06-23 | 1990-03-06 | The United States Of America As Represented By The Secretary Of The Navy | Selective multimode/multiconfigurable data acquisition and reduction processor system |
DE69113181T2 (de) * | 1990-08-31 | 1996-05-02 | Ibm | Verfahren und Gerät zur Querteilungssteuerung in einer verteilten Verarbeitungsumgebung. |
US5446904A (en) * | 1991-05-17 | 1995-08-29 | Zenith Data Systems Corporation | Suspend/resume capability for a protected mode microprocessor |
US5283549A (en) * | 1991-05-31 | 1994-02-01 | Intellitech Industries, Inc. | Infrared sentry with voiced radio dispatched alarms |
CA2100540A1 (en) * | 1992-10-19 | 1994-04-20 | Jonel George | System and method for performing resource reconfiguration in a computer system |
US5359730A (en) * | 1992-12-04 | 1994-10-25 | International Business Machines Corporation | Method of operating a data processing system having a dynamic software update facility |
US5495606A (en) * | 1993-11-04 | 1996-02-27 | International Business Machines Corporation | System for parallel processing of complex read-only database queries using master and slave central processor complexes |
US5455525A (en) * | 1993-12-06 | 1995-10-03 | Intelligent Logic Systems, Inc. | Hierarchically-structured programmable logic array and system for interconnecting logic elements in the logic array |
US5592173A (en) * | 1994-07-18 | 1997-01-07 | Trimble Navigation, Ltd | GPS receiver having a low power standby mode |
US5696895A (en) * | 1995-05-19 | 1997-12-09 | Compaq Computer Corporation | Fault tolerant multiple network servers |
US5940612A (en) * | 1995-09-27 | 1999-08-17 | International Business Machines Corporation | System and method for queuing of tasks in a multiprocessing system |
US6421679B1 (en) | 1995-10-27 | 2002-07-16 | International Business Machines Corporation | Concurrent patch to logical partition manager of a logically partitioned system |
US6412017B1 (en) * | 1996-07-01 | 2002-06-25 | Microsoft Corporation | Urgent replication facility |
US5919247A (en) * | 1996-07-24 | 1999-07-06 | Marimba, Inc. | Method for the distribution of code and data updates |
US6754656B1 (en) | 1996-10-22 | 2004-06-22 | International Business Machines Corporation | System and method for selective partition locking |
US6189145B1 (en) * | 1997-05-28 | 2001-02-13 | International Business Machines Corporation | Concurrent patch to logical partition manager of a logically partitioned system |
US5996086A (en) * | 1997-10-14 | 1999-11-30 | Lsi Logic Corporation | Context-based failover architecture for redundant servers |
US6199179B1 (en) * | 1998-06-10 | 2001-03-06 | Compaq Computer Corporation | Method and apparatus for failure recovery in a multi-processor computer system |
US6542926B2 (en) * | 1998-06-10 | 2003-04-01 | Compaq Information Technologies Group, L.P. | Software partitioned multi-processor system with flexible resource sharing levels |
US6381682B2 (en) * | 1998-06-10 | 2002-04-30 | Compaq Information Technologies Group, L.P. | Method and apparatus for dynamically sharing memory in a multiprocessor system |
US6260068B1 (en) * | 1998-06-10 | 2001-07-10 | Compaq Computer Corporation | Method and apparatus for migrating resources in a multi-processor computer system |
JP3794151B2 (ja) * | 1998-02-16 | 2006-07-05 | 株式会社日立製作所 | クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法 |
DE19810814B4 (de) * | 1998-03-12 | 2004-10-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Rechnersystem und Zustandskopierverfahren zur skalierbaren Software-Aktualisierung |
US6209051B1 (en) * | 1998-05-14 | 2001-03-27 | Motorola, Inc. | Method for switching between multiple system hosts |
US6247109B1 (en) * | 1998-06-10 | 2001-06-12 | Compaq Computer Corp. | Dynamically assigning CPUs to different partitions each having an operation system instance in a shared memory space |
JP3360719B2 (ja) * | 1998-06-19 | 2002-12-24 | 日本電気株式会社 | ディスクアレイクラスタリング通報方法およびシステム |
US6622265B1 (en) * | 1998-08-28 | 2003-09-16 | Lucent Technologies Inc. | Standby processor with improved data retention |
US6363495B1 (en) | 1999-01-19 | 2002-03-26 | International Business Machines Corporation | Method and apparatus for partition resolution in clustered computer systems |
US6378027B1 (en) * | 1999-03-30 | 2002-04-23 | International Business Machines Corporation | System upgrade and processor service |
US6279046B1 (en) * | 1999-05-19 | 2001-08-21 | International Business Machines Corporation | Event-driven communications interface for logically-partitioned computer |
US6715099B1 (en) * | 1999-06-02 | 2004-03-30 | Nortel Networks Limited | High-availability architecture using high-speed pipes |
US6598069B1 (en) | 1999-09-28 | 2003-07-22 | International Business Machines Corporation | Method and apparatus for assigning resources to logical partition clusters |
US6643843B1 (en) * | 1999-11-23 | 2003-11-04 | Ellenby Technologies Inc. | Methods and apparatus for optical communication update of program memory in embedded systems |
US6460039B1 (en) | 1999-12-09 | 2002-10-01 | International Business Machines Corporation | Middleware support for primary component in a partitionable cluster environment |
US7234126B2 (en) | 2000-08-23 | 2007-06-19 | Interuniversitair Microelektronica Centrum | Task concurrency management design method |
EP1327191B1 (en) * | 2000-09-22 | 2013-10-23 | Lumension Security, Inc. | Non-invasive automatic offsite patch fingerprinting and updating system and method |
US6976079B1 (en) * | 2000-09-29 | 2005-12-13 | International Business Machines Corporation | System and method for upgrading software in a distributed computer system |
US6590961B1 (en) * | 2000-10-12 | 2003-07-08 | Nortel Networks Limited | Call protect systems with handoff redundancy |
US7065761B2 (en) * | 2001-03-01 | 2006-06-20 | International Business Machines Corporation | Nonvolatile logical partition system data management |
US20020129172A1 (en) * | 2001-03-08 | 2002-09-12 | International Business Machines Corporation | Inter-partition message passing method, system and program product for a shared I/O driver |
US6957435B2 (en) | 2001-04-19 | 2005-10-18 | International Business Machines Corporation | Method and apparatus for allocating processor resources in a logically partitioned computer system |
US6711700B2 (en) * | 2001-04-23 | 2004-03-23 | International Business Machines Corporation | Method and apparatus to monitor the run state of a multi-partitioned computer system |
US6957251B2 (en) * | 2001-05-07 | 2005-10-18 | Genworth Financial, Inc. | System and method for providing network services using redundant resources |
US7051327B1 (en) * | 2001-05-08 | 2006-05-23 | Gateway Inc. | System for providing data backup and restore with updated version by creating data package based upon configuration data application data and user response to suggestion |
US7380001B2 (en) * | 2001-05-17 | 2008-05-27 | Fujitsu Limited | Fault containment and error handling in a partitioned system with shared resources |
US20020184290A1 (en) * | 2001-05-31 | 2002-12-05 | International Business Machines Corporation | Run queue optimization with hardware multithreading for affinity |
US6898705B2 (en) * | 2001-05-31 | 2005-05-24 | International Business Machines Corporation | Automatic appliance server re-provision/re-purposing method |
US20030005350A1 (en) * | 2001-06-29 | 2003-01-02 | Maarten Koning | Failover management system |
US6944785B2 (en) * | 2001-07-23 | 2005-09-13 | Network Appliance, Inc. | High-availability cluster virtual server system |
US7055149B2 (en) * | 2001-07-25 | 2006-05-30 | Lenovo (Singapore) Pte Ltd. | Method and apparatus for automating software upgrades |
JP2003131900A (ja) * | 2001-10-24 | 2003-05-09 | Hitachi Ltd | サーバシステム運用管理方式 |
US6820217B2 (en) | 2001-10-29 | 2004-11-16 | International Business Machines Corporation | Method and apparatus for data recovery optimization in a logically partitioned computer system |
US7213065B2 (en) * | 2001-11-08 | 2007-05-01 | Racemi, Inc. | System and method for dynamic server allocation and provisioning |
US7146306B2 (en) | 2001-12-14 | 2006-12-05 | International Business Machines Corporation | Handheld computer console emulation module and method of managing a logically-partitioned multi-user computer with same |
WO2003063009A1 (en) * | 2002-01-18 | 2003-07-31 | Bea Systems, Inc. | System, method and interface for controlling server lifecycle |
US7158248B2 (en) * | 2002-02-07 | 2007-01-02 | Hewlett-Packard Development Company, L.P. | Control of software via bundling |
US6944788B2 (en) * | 2002-03-12 | 2005-09-13 | Sun Microsystems, Inc. | System and method for enabling failover for an application server cluster |
US7490206B2 (en) | 2002-03-15 | 2009-02-10 | International Business Machines Corporation | Method and structure for low memory relocation for dynamic memory reconfiguration |
JP2003280915A (ja) * | 2002-03-22 | 2003-10-03 | Toshiba Corp | 情報機器、記憶媒体、及びシステム起動方法 |
US6931568B2 (en) * | 2002-03-29 | 2005-08-16 | International Business Machines Corporation | Fail-over control in a computer system having redundant service processors |
US6694419B1 (en) | 2002-04-12 | 2004-02-17 | Barsa Consulting Group, Llc | Method and system for automatically measuring partition memory needs in a partitioned computer system |
JP4119162B2 (ja) * | 2002-05-15 | 2008-07-16 | 株式会社日立製作所 | 多重化計算機システム、論理計算機の割当方法および論理計算機の割当プログラム |
US7203159B2 (en) * | 2002-06-11 | 2007-04-10 | Adtran, Inc. | Line card-sourced ESF framing protection switch FDL signaling |
JP4054616B2 (ja) * | 2002-06-27 | 2008-02-27 | 株式会社日立製作所 | 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム |
FR2843209B1 (fr) * | 2002-08-02 | 2006-01-06 | Cimai Technology | Procede de replication d'une application logicielle dans une architecture multi-ordinateurs, procede pour realiser une continuite de fonctionnement mettant en oeuvre ce procede de replication, et systeme multi-ordinateurs ainsi equipe. |
US7237239B1 (en) * | 2002-08-26 | 2007-06-26 | Network Appliance, Inc. | Availability and consistent service semantics in a load balanced collection of services running different instances of an application |
US20040043797A1 (en) * | 2002-08-30 | 2004-03-04 | Shostak Robert E. | Method and apparatus for power conservation in a wireless communication system |
US7076689B2 (en) * | 2002-10-29 | 2006-07-11 | Brocade Communication Systems, Inc. | Use of unique XID range among multiple control processors |
US6957443B2 (en) | 2002-11-27 | 2005-10-18 | Sunonwealth Electric Machine Industry Co., Ltd. | Holding device for an optical disk drive |
JP4119239B2 (ja) * | 2002-12-20 | 2008-07-16 | 株式会社日立製作所 | 計算機資源割当方法、それを実行するための資源管理サーバおよび計算機システム |
US20040158834A1 (en) * | 2003-02-06 | 2004-08-12 | International Business Machines Corporation | Apparatus and method for dynamically allocating resources of a dead logical partition |
US7290260B2 (en) * | 2003-02-20 | 2007-10-30 | International Business Machines Corporation | Dynamic processor redistribution between partitions in a computing system |
US7302609B2 (en) * | 2003-03-12 | 2007-11-27 | Vladimir Matena | Method and apparatus for executing applications on a distributed computer system |
US7073002B2 (en) * | 2003-03-13 | 2006-07-04 | International Business Machines Corporation | Apparatus and method for controlling resource transfers using locks in a logically partitioned computer system |
US7085862B2 (en) * | 2003-03-13 | 2006-08-01 | International Business Machines Corporation | Apparatus and method for controlling resource transfers in a logically partitioned computer system by placing a resource in a power on reset state when transferring the resource to a logical partition |
US7698700B2 (en) * | 2003-04-17 | 2010-04-13 | International Business Machines Corporation | System quiesce for concurrent code updates |
US7275180B2 (en) * | 2003-04-17 | 2007-09-25 | International Business Machines Corporation | Transparent replacement of a failing processor |
US7139855B2 (en) * | 2003-04-24 | 2006-11-21 | International Business Machines Corporation | High performance synchronization of resource allocation in a logically-partitioned system |
US7496915B2 (en) * | 2003-04-24 | 2009-02-24 | International Business Machines Corporation | Dynamic switching of multithreaded processor between single threaded and simultaneous multithreaded modes |
US7103763B2 (en) * | 2003-04-24 | 2006-09-05 | International Business Machines Corporation | Storage and access of configuration data in nonvolatile memory of a logically-partitioned computer |
US7076570B2 (en) * | 2003-04-25 | 2006-07-11 | International Business Machines Corporation | Method and apparatus for managing service indicator lights in a logically partitioned computer system |
US7395334B2 (en) * | 2003-04-25 | 2008-07-01 | International Business Machines Corporation | System for determining unreturned standby resource usage |
US7299468B2 (en) * | 2003-04-29 | 2007-11-20 | International Business Machines Corporation | Management of virtual machines to utilize shared resources |
US7530067B2 (en) * | 2003-05-12 | 2009-05-05 | International Business Machines Corporation | Filtering processor requests based on identifiers |
US6973654B1 (en) * | 2003-05-27 | 2005-12-06 | Microsoft Corporation | Systems and methods for the repartitioning of data |
US7222339B2 (en) * | 2003-06-13 | 2007-05-22 | Intel Corporation | Method for distributed update of firmware across a clustered platform infrastructure |
US7475218B2 (en) * | 2003-07-22 | 2009-01-06 | International Business Machines Corporation | Apparatus and method for autonomically detecting resources in a logically partitioned computer system |
US8055838B2 (en) * | 2003-07-22 | 2011-11-08 | International Business Machines Corporation | Apparatus and method for autonomically suspending and resuming logical partitions when I/O reconfiguration is required |
US7398432B2 (en) * | 2003-07-24 | 2008-07-08 | International Business Machines Corporation | Identify indicators in a data processing system |
JP4415610B2 (ja) * | 2003-08-26 | 2010-02-17 | 株式会社日立製作所 | 系切替方法、レプリカ作成方法、及びディスク装置 |
US7606140B2 (en) * | 2003-08-28 | 2009-10-20 | Alcatel Lucent | Distributed and disjoint forwarding and routing system and method |
US7254652B2 (en) * | 2003-09-30 | 2007-08-07 | International Business Machines Corporation | Autonomic configuration of port speeds of components connected to an interconnection cable |
JP2005107803A (ja) * | 2003-09-30 | 2005-04-21 | Hitachi Ltd | システム更新方法、および、それを実行するための計算機システム |
US20070067366A1 (en) * | 2003-10-08 | 2007-03-22 | Landis John A | Scalable partition memory mapping system |
WO2005036806A2 (en) * | 2003-10-08 | 2005-04-21 | Unisys Corporation | Scalable partition memory mapping system |
US7225356B2 (en) * | 2003-11-06 | 2007-05-29 | Siemens Medical Solutions Health Services Corporation | System for managing operational failure occurrences in processing devices |
US7587723B2 (en) * | 2003-11-13 | 2009-09-08 | International Business Machines Corporation | Restarting a shared virtual resource |
US7454502B2 (en) * | 2003-12-04 | 2008-11-18 | International Business Machines Corporation | System for transferring standby resource entitlement |
JP2005190057A (ja) * | 2003-12-25 | 2005-07-14 | Hitachi Ltd | ディスクアレイ装置及びディスクアレイ装置のリモートコピー制御方法 |
US7246256B2 (en) * | 2004-01-20 | 2007-07-17 | International Business Machines Corporation | Managing failover of J2EE compliant middleware in a high availability system |
JP2005309553A (ja) * | 2004-04-19 | 2005-11-04 | Hitachi Ltd | 計算機 |
US7117334B2 (en) * | 2004-05-14 | 2006-10-03 | International Business Machines Corporation | Dynamic node partitioning utilizing sleep state |
US20050283658A1 (en) * | 2004-05-21 | 2005-12-22 | Clark Thomas K | Method, apparatus and program storage device for providing failover for high availability in an N-way shared-nothing cluster system |
US7827063B2 (en) * | 2004-05-24 | 2010-11-02 | Digipos Store Solutions Group Limited | Point of sale systems and methods |
JP4353005B2 (ja) * | 2004-06-29 | 2009-10-28 | 株式会社日立製作所 | クラスタ構成コンピュータシステムの系切替方法 |
US7412545B2 (en) * | 2004-07-22 | 2008-08-12 | International Business Machines Corporation | Apparatus and method for updating I/O capability of a logically-partitioned computer system |
US7305530B2 (en) * | 2004-11-02 | 2007-12-04 | Hewlett-Packard Development Company, L.P. | Copy operations in storage networks |
JP4462024B2 (ja) * | 2004-12-09 | 2010-05-12 | 株式会社日立製作所 | ディスク引き継ぎによるフェイルオーバ方法 |
US20060155912A1 (en) * | 2005-01-12 | 2006-07-13 | Dell Products L.P. | Server cluster having a virtual server |
US7953703B2 (en) * | 2005-02-17 | 2011-05-31 | International Business Machines Corporation | Creation of highly available pseudo-clone standby servers for rapid failover provisioning |
US7444350B1 (en) * | 2005-03-31 | 2008-10-28 | Emc Corporation | Method and apparatus for processing management information |
JP2006285808A (ja) * | 2005-04-04 | 2006-10-19 | Hitachi Ltd | ストレージシステム |
US7992144B1 (en) * | 2005-04-04 | 2011-08-02 | Oracle America, Inc. | Method and apparatus for separating and isolating control of processing entities in a network interface |
US7933966B2 (en) * | 2005-04-26 | 2011-04-26 | Hewlett-Packard Development Company, L.P. | Method and system of copying a memory area between processor elements for lock-step execution |
US7774785B2 (en) * | 2005-06-28 | 2010-08-10 | International Business Machines Corporation | Cluster code management |
US7743372B2 (en) * | 2005-06-28 | 2010-06-22 | Internatinal Business Machines Corporation | Dynamic cluster code updating in logical partitions |
US7937616B2 (en) * | 2005-06-28 | 2011-05-03 | International Business Machines Corporation | Cluster availability management |
US20070094659A1 (en) * | 2005-07-18 | 2007-04-26 | Dell Products L.P. | System and method for recovering from a failure of a virtual machine |
US7478272B2 (en) * | 2005-09-30 | 2009-01-13 | International Business Machines Corporation | Replacing a failing physical processor |
JP5068056B2 (ja) * | 2006-10-11 | 2012-11-07 | 株式会社日立製作所 | 障害回復方法、計算機システム及び管理サーバ |
US7934121B2 (en) * | 2006-11-21 | 2011-04-26 | Microsoft Corporation | Transparent replacement of a system processor |
KR100930576B1 (ko) * | 2006-12-04 | 2009-12-09 | 한국전자통신연구원 | 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법 |
JP4923990B2 (ja) * | 2006-12-04 | 2012-04-25 | 株式会社日立製作所 | フェイルオーバ方法、およびその計算機システム。 |
US7849347B2 (en) * | 2007-04-16 | 2010-12-07 | International Business Machines Corporation | System and method for updating a time-related state of a migrating logical partition |
US7730365B1 (en) * | 2007-04-30 | 2010-06-01 | Hewlett-Packard Development Company, L.P. | Workload management for maintaining redundancy of non-data computer components |
JP4842210B2 (ja) * | 2007-05-24 | 2011-12-21 | 株式会社日立製作所 | フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法 |
EP2510437A1 (en) * | 2009-12-11 | 2012-10-17 | Deutsche Telekom AG | Computer cluster and method for providing a disaster recovery functionality for a computer cluster |
US8495418B2 (en) * | 2010-07-23 | 2013-07-23 | Brocade Communications Systems, Inc. | Achieving ultra-high availability using a single CPU |
US9742676B2 (en) * | 2012-06-06 | 2017-08-22 | International Business Machines Corporation | Highly available servers |
-
2005
- 2005-06-28 US US11/168,973 patent/US7937616B2/en not_active Expired - Fee Related
-
2006
- 2006-04-12 CN CNB2006100753124A patent/CN100470494C/zh active Active
-
2011
- 2011-03-25 US US13/072,307 patent/US10394672B2/en not_active Expired - Fee Related
-
2019
- 2019-06-18 US US16/445,084 patent/US11755435B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10394672B2 (en) | 2019-08-27 |
US20070011495A1 (en) | 2007-01-11 |
US11755435B2 (en) | 2023-09-12 |
US7937616B2 (en) | 2011-05-03 |
US20190303255A1 (en) | 2019-10-03 |
US20110173493A1 (en) | 2011-07-14 |
CN1892612A (zh) | 2007-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100470494C (zh) | 集群可用性管理方法和*** | |
CN100478894C (zh) | 集群代码管理的方法和*** | |
EP2281240B1 (en) | Maintaining data integrity in data servers across data centers | |
US7536586B2 (en) | System and method for the management of failure recovery in multiple-node shared-storage environments | |
CN101776983B (zh) | 磁盘阵列中双控制器信息的同步方法、及磁盘阵列*** | |
CN100478893C (zh) | 用于动态群集代码管理的方法和*** | |
US6601138B2 (en) | Apparatus system and method for N-way RAID controller having improved performance and fault tolerance | |
CN102308273B (zh) | 存储*** | |
CN101667181B (zh) | 一种数据容灾的方法、装置及*** | |
CN110807064B (zh) | Rac分布式数据库集群***中的数据恢复装置 | |
CN100547558C (zh) | 并行计算***中的冗余保护的方法和*** | |
CN1972312A (zh) | 用于选择存储群集以用来存取存储装置的方法和*** | |
CN103019889A (zh) | 分布式文件***及其故障处理方法 | |
JP2007156679A (ja) | サーバの障害回復方法及びデータベースシステム | |
CN112477919A (zh) | 一种适用于列车控制***平台的动态冗余备份方法及*** | |
CN101482829A (zh) | 集群***、处理装置及集群***冗余方法 | |
CN103384882A (zh) | 在服务器的共享组中管理使用权的方法 | |
CN112543922A (zh) | 一种提高存储***可靠性的方法和相关装置 | |
EP3167372B1 (en) | Methods for facilitating high availability storage services and corresponding devices | |
JP2006058960A (ja) | 冗長構成のサーバシステムにおける同期化方法及びシステム | |
JP2007334668A (ja) | メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム | |
CN100499387C (zh) | 一种通信***中单板的n+1备份的方法 | |
CN100490343C (zh) | 一种通讯设备中主备用单元倒换的实现方法和装置 | |
JPH09288589A (ja) | システム・バックアップ方法 | |
CN117827544B (zh) | 热备份***、方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |