CN100470494C - 集群可用性管理方法和*** - Google Patents

集群可用性管理方法和*** Download PDF

Info

Publication number
CN100470494C
CN100470494C CNB2006100753124A CN200610075312A CN100470494C CN 100470494 C CN100470494 C CN 100470494C CN B2006100753124 A CNB2006100753124 A CN B2006100753124A CN 200610075312 A CN200610075312 A CN 200610075312A CN 100470494 C CN100470494 C CN 100470494C
Authority
CN
China
Prior art keywords
logical partition
recombiner
partitioned resources
standby mode
activity pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100753124A
Other languages
English (en)
Other versions
CN1892612A (zh
Inventor
威廉·J·阿姆斯特朗
迈克尔·H·哈通
许育诚
格伦·R·怀特威克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1892612A publication Critical patent/CN1892612A/zh
Application granted granted Critical
Publication of CN100470494C publication Critical patent/CN100470494C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行以及使该处理复合器中的第二逻辑分区在备用模式下运行。一旦检测到服务器集群的第二处理复合器中的故障,就将第一处理复合器中的备用模式逻辑分区激活到活动模式。在一个实施例中,将分区资源从活动模式逻辑分区转移到从备用模式激活的逻辑分区。描述和要求保护了其它实施例。

Description

集群可用性管理方法和***
技术领域
本发明涉及故障情况下的集群(cluster)管理。
背景技术
在某些计算环境中,多个主机***可以为了存储设备中的数据而与控制单元诸如IBM企业存储服务器
Figure C200610075312D0005091332QIETU
通信,该存储设备由接收请求、提供到存储设备(诸如通过一个或多个逻辑路径互联的硬盘驱动器)的访问的ESS管理(IBM和ESS是IBM的注册商标)。互联的驱动器可以被配置为直接存取存储设备(DASD)、冗余独立磁盘阵列(RAID)、磁盘捆绑(Just a Bunch ofDisks,JBOD)等等。控制单元,也称作集群,可以包括重复冗余处理结点(也称作处理复合器(processing complexes)),以允许在一个处理复合器失效的情况下允许故障切换(failover)到幸存的处理复合器。处理复合器可以访问共享资源,诸如输入/输出(I/O)适配器、存储适配器和存储设备。
在处理复合器由于硬件或软件故障而失效的情况下,幸存的处理复合器检测该故障并且取得对该集群所有共享资源的控制。曾由失效的处理复合器执行的处理职责由幸存的处理复合器接管。
可以将每个处理复合器的资源划分成多个逻辑分区(LPAR),其中,将计算机处理器、存储器、和硬件资源划分成多个环境。可以利用其自身操作***和应用程序而独立操作每个环境。由于具有将单个机器分区成多个具有他们自己的***资源集合的逻辑服务器的能力,处理复合器的逻辑分区增加了单个服务器上工作负荷管理的灵活性。可以以各种数量和组合方式来组合每个分区中的资源。此外,可以创建的逻辑硬件分区的数目取决于硬件***。
动态逻辑分区(DLPAR)通过提供在无需重新启动的条件下向及从逻辑分区的操作***逻辑地添加及卸下处理复合器的资源的能力,而扩展LPAR的性能。该资源分配不仅可以在激活逻辑分区时发生,而且可以在分区正运行时发生。处理器、存储器、I/O适配器和其它分区资源可以以各种数量或组合释放到“自由池”中、从该自由池中获取、或者在处理复合器内直接从一个分区移动到另一个分区。但是,每个分区通常具有至少一个处理器、存储器、与引导设备相关联的I/O适配器、和网络适配器。
处理复合器内的LPAR资源从一个硬件分区到另一硬件分区的移动可以由监督模块管理。为了转移分区资源,监督模块可以向“拥有”该分区资源的逻辑分区发出网络请求,请求该源逻辑分区释放该特定分区资源并且将其置于停顿(quiesced)状态。通过这种方式,该分区资源被停止,并且被置于***管理程序(hypervisor)模块的控制之下。监督模块可以向***管理程序发出命令,指示其将分区资源从源逻辑分区重新分配到目标逻辑分区。此外,监督模块可以向目标逻辑分区发出网络请求,指示其从***管理程序模块获取分区资源,并且配置其以供目标逻辑分区使用。
发明内容
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行以及使该处理复合器中的第二逻辑分区在备用模式下运行。一旦检测到服务器集群的第二处理复合器中的故障,就将第一处理复合器中的备用模式逻辑分区激活到活动模式。在一个实施例中,将分区资源从活动模式逻辑分区转移到从备用模式激活的逻辑分区。输入/输出或者其它处理操作可以由幸存处理复合器中的两个逻辑分区执行以提供冗余,直到另一处理复合器被修复并重新激活为止。描述和要求保护了其它实施例。
附图说明
图1图示了可以实现实施例的计算环境。
图2图示了操纵处理复合器故障的操作的一个示例。
图3是处于备用模式的逻辑分区和处于活动模式的逻辑分区的一个示例的示意图。
图4是从备用模式激活到活动模式的逻辑分区和分区资源被减少的处于活动模式的逻辑分区的一个示例的示意图。
具体实施方式
图1图示了其中可以采用本说明书的各个方面的计算环境的一个示例。一个或多个主机2将针对存储***4的输入/输出(I/O)请求传送到控制单元或集群6,其中集群6管理对存储***4的访问。在一个实施例中,集群6包括两个处理结点或复合器8a、8b,每个包括处理器10a、10b和存储器12a、12b。每个处理器10a、10b可以包括作为处理资源可用于相关联的处理复合器8a、8b的多个中央处理单元。
每个处理复合器8a、8b包括监督模块14a、14b。监督模块14a、14b包括管理并且协调在处理复合器8a、8b中执行的一个或多个逻辑分区16a、16b的操作的代码。每个逻辑分区16a、16b单独运行操作***18a、18b和设备驱动器20a、20b。逻辑分区包括将处理器10a、10b划分为多个逻辑独立的处理***,每个逻辑独立的处理***具有其自身的操作***18a、18b和设备驱动器20a、20b。多个逻辑分区可以在每个处理复合器中运行,由用于该复合器的监督模块管理。
每个设备驱动器20a、20b提供设备驱动器20a、20b在其中运行的逻辑分区16a、16b中的操作***18a、18b与外部设备(诸如主机适配器22a、22b...22n和设备适配器24a、24b...24n)之间的接口。主机适配器22a、22b...22n使得处理复合器8a、8b能够与主机2通信,而设备适配器24a、24b...24n使得处理复合器8a、8b能够与存储***4通信。这样,处理复合器8a、8b共享诸如适配器22a、22b...22n,24a、24b...24n的设备。变量“n”用于表示元件的整数实例,并且当用于不同元件时可以指示不同或相同的整数值。例如,22n和24n可以指示相同或不同数目的主机适配器22n和设备适配器24n。
处理复合器8a、8b通过通信网络(fabric)30a与主机适配器22a、22b...22n通信,以及通过通信网络30b与设备适配器24a、24b...24n通信。通信网络30a、30b可以包括提供处理复合器8a、8b与适配器之间的通信路径的一个或多个接口。路径包括使能通过通信网络与共享适配器通信的通信网络30a、30b中的硬件。在一个实施例中,通信网络可以包括光纤信道仲裁环配置、串行环架构或总线接口,诸如***组件互联(PCI)接口。可以为每个处理复合器8a、8b分配适配器22a、22b...22n,24a、24b...24n的一部分,并且在初始化期间,处理复合器8a、8b负责初始化提供到分配给该处理复合器的适配器的通信路径的通信网络30a、30b的一部分。例如,如果为处理复合器8a分配了适配器22a、22b、24a、24b,则处理复合器8a将初始化和配置提供处理复合器8a与适配器22a、22b、24a、24b之间的通信路径的通信网络30a、30b的一部分。类似地,如果为处理复合器8b分配了适配器22n和24n,则处理复合器8b将初始化和配置使能处理复合器8b与适配器22n和24n之间的通信路径的通信网络30a、30b的一部分。配置通信网络30a、30b的步骤包括设置通信网络硬件例如光纤信道环硬件、串行环架构硬件或总线接口硬件中的寄存器,以及执行其它与初始化和发现相关的操作。每个单独适配器22a、22b...22n、24a、24b...24n可以由处理复合器8a、8b共享。
与***管理程序模块26a、26b相关的监督模块14a、14b维持设备/逻辑分区(LPAR)分配,该设备/逻辑分区(LPAR)分配标识适配器22a、22b...22n,24a、24b...24n到每个处理复合器8a、8b中逻辑分区16a、16b的每个分配,从而特定适配器22a、22b...22n,24a、24b...24n与处理复合器8a、8b之间的通信由在分配给特定适配器22a、22b...22n,24a、24b...24n的逻辑分区16a、16b中运行的设备驱动器20a、20b操纵。
每个处理复合器8a、8b可以在单独的功率边界(power boundary)上。处理复合器8a、8b可以被分配来操纵针对在存储***4中所配置的特定卷(volume)的I/O请求。处理复合器8a、8b在设备网络(未示出)上经由设备适配器24a、24b...24n与存储***4通信,该设备网络可以包括局域网(LAN)、存储区域网(storage area network;SAN)、总线接口、串行接口等等。此外,处理复合器8a、8b在使能处理器之间互相通信的连接28上通信,以管理关于共享设备诸如共享适配器22a、22b...22n,24a、24b...24n所执行的配置操作。在替代性实施例中,可以仅存在连接所有适配器22a、22b...22n,24a、24b...24n的一个通信网络,即,通信网络30a和30b可以是单个互联通信网络的一部分、或者所示的两个通信网络30a、30b、或者多于两个通信网络。
集群6可以包括任何类型的服务器,诸如企业存储服务器、存储控制器等等,或者用于管理对所附着的一个或多个存储***4的I/O请求的其它设备,其中该存储***可以包括本领域公知的一个或多个存储设备,诸如互联的硬盘驱动器(例如,被配置为DASD、RAID、JBOD等等)、磁带、电子存储器等等。主机2可以在诸如局域网(LAN)、存储区域网(SAN)、广域网(WAN)、无线网等等的网络(未示出)上经由适配器22a、22b...22n而与集群6通信。或者,主机2可以通过总线接口诸如***组件互联(PCI)总线或串行接口与集群6通信。还应该理解,集群6还可以是例如通用服务器集群,而不仅仅是存储子***或存储控制器。例如,这两个服务器可以是运行高可用性集群应用程序诸如
Figure C200610075312D00091
的IBM p系列服务器。
根据本描述的一个方面,图2图示了在硬件或软件故障的情况下增加冗余的集群操作的一个示例。在一个操作中,在集群的第一结点或处理复合器中,集群使第一逻辑分区在活动模式下运行以及使第二逻辑分区在备用模式下运行(框200)。图3是示意性地图示了使处理复合器8a的第一逻辑分区16a1在活动模式下运行的集群6的示例的图。此外,使处理复合器8a的第二逻辑分区16a2在备用模式下运行。类似地,可以使处理复合器8b的第一逻辑分区16b1在活动模式下运行,以及可以使处理复合器8b的第二逻辑分区16b2在备用模式下运行。
在所图示的实施例中,在活动模式下,逻辑分区16a1、16b1代表主机2执行输入/输出操作。例如,活动模式逻辑分区16a1可以从/向存储***4读/写数据,如图3的共享资源300所示。每个活动逻辑分区16a1、16b1具有到附加共享资源300(包括主机适配器22a、22b...22n)的访问路径,以接收来自主机2的输入/输出任务。这些输入/输出任务及其相关联的输入/输出数据被临时存储在分配给活动模式逻辑分区的存储器中。尽管活动逻辑分区所执行的处理操作被描述为代表主机2的输入/输出操作,但是应该理解,活动逻辑分区可以执行其它类型的处理操作。
逻辑分区16a1、16b1的每个都具有到附加共享资源300(包括设备适配器24a、24b...24n)的访问路径,以根据正执行的特定输入/输出操作而将来自主机2的输出数据写到存储***4中以及从存储***4接收读取的输入数据以转发给主机2。为了执行这些输入/输出操作或者其它的处理操作,为活动模式逻辑分区的每个分配相关联的处理复合器8a、8b的分区资源的相当大的部分。这样,例如,可以为活动模式逻辑分区16a1分配处理复合器8a的大部分CPU资源、存储器资源和其它动态可分配分区资源。分配给任一活动模式逻辑分区的动态可分配分区资源的百分比可以依赖于处理复合器中的活动模式和备用模式的逻辑分区的数目以及每个活动模式逻辑分区的相对工作负荷。
作为比较,在图示的实施例中,在备用模式下,逻辑分区16a2、16b2并不代表主机2执行输入/输出操作并且不具有到共享资源300的访问路径。这样,例如,备用模式逻辑分区16a2并不从/向图3的共享资源的存储***4读/写数据。由于备用模式逻辑分区16a2、16b2并不从主机2接收输入/输出任务,所以每个备用模式逻辑分区16a2、16b2并不具有到共享的主机适配器22a、22b...22n的访问路径。这样,输入/输出任务及其相关联的输入/输出数据并不存储在分配给备用模式逻辑分区的存储器中。
类似地,在图示的实施例中,备用模式逻辑分区16a2、16b2并不具有到共享资源300的设备适配器24a、24b...24n的访问路径,并且并不向存储***4写入来自主机2的输出数据。备用模式的逻辑分区16a2、16b2并不从存储***4接收读取的输入数据以转发到主机2。
由于备用模式的逻辑分区在本示例中并不执行输入/输出操作,所以为备用模式逻辑分区16a2、16b2的每个分配相关联的处理复合器8a、8b的分区资源的相对小的部分。这样,例如,可以为活动模式逻辑分区16a1分配适于维持备用模式的处理复合器8a的单个CPU(或单个CPU的一小部分)、少量存储器资源和其它动态可分配分区资源。例如,可以为备用模式逻辑分区16a2分配足以维持操作***运行的存储器,但是可能需要很少的或者不需要附加的运行(operational)存储器。
在图示的实施例中,关于集群6的各种状态机的各种状态,活动模式逻辑分区16a1在数据结构302a中维持状态信息。由活动模式逻辑分区16b1在数据结构302b中类似地维持集群状态信息的同步拷贝。该状态信息利于控制正由集群6的活动逻辑分区16a1、16b1代表主机2执行的输入/输出操作或其它处理操作。活动逻辑分区16a1、16b1可以彼此交换状态信息,以利于每个活动分区维持关于集群操作的当前状态信息。此外,活动模式逻辑分区维持这样的数据结构,其利于响应于从主机2接收的输入/输出任务而执行输入/输出操作。活动模式逻辑分区所维持的这些附加数据结构包括缓冲器、表、存储区域等等。
作为比较,备用模式逻辑分区16a2、16b2并不执行主机2的I/O操作并且不维持关于这些I/O操作的数据结构。备用模式逻辑分区16a2、16b2并不与其它逻辑分区交换集群状态信息。
应该理解,在一些实施例中,备用模式逻辑分区16a2、16b2可以执行有限的I/O操作,并且可以具有到共享资源300的有限访问路径。在一些实施例中,备用模式逻辑分区16a2、16b2可以维持有限的集群状态数据结构和有限的I/O操作数据结构。这些有限量的数量可以依赖于特定应用而变化。但是,在许多实施例中,备用模式逻辑分区16a2、16b2所承担的操作或所维持的数据结构可能大大少于活动模式逻辑分区所承担的操作或所维持的数据结构。
在另一操作中,检测集群的第二处理复合器中的故障(框202,图2)。例如,活动模式逻辑分区16a1可以检测到处理复合器8b已经失效,如图4中的删去符号400所表示的。在一个实施例中,活动模式逻辑分区16a1、16b1可以周期性地交换消息(有时称之为“心跳”)以通知另一处理复合器其在运转。如果活动模式逻辑分区16a1未能从活动模式逻辑分区16b1接收到这样的心跳消息,则逻辑分区16a1可以推断处理复合器8b已遭受了故障。在另一处理复合器8b失效的情况下,幸存的处理器复合器8a可以执行故障切换操作,其中处理器复合器8b未完成的I/O操作将由幸存的处理器复合器8a接管并且完成。此外,来自主机2的所有新I/O操作都将由处理器复合器8a执行,直到另一处理器复合器8b可以被修复并且恢复为在线为止。
在处理复合器8b不能运行的情况下,集群6可能缺少处理复合器8b所提供的冗余。因而,幸存处理复合器8a中的硬件或软件故障可能导致集群6中的I/O操作停止或者可能导致数据丢失。
根据本描述的另一方面,幸存处理复合器8a的活动模式逻辑分区16a1可以激活(框204)例如幸存处理器复合器8a的第二逻辑分区(诸如备用模式逻辑分区16a2),从而也可以使逻辑分区16a2在活动模式下运行。如下面更详细解释的,将备用模式逻辑分区激活到活动模式可以提供增加的冗余度。这样,如果例如在活动模式逻辑分区16a1、16a2之一中发生软件故障,则包括数据结构的运行软件可以保存在幸存处理器复合器8a的幸存活动模式逻辑分区中。
在所示实施例中,通过逻辑分区16a1、16a2交换适当的心跳消息,可使活动模式逻辑分区16a1知晓运行在备用模式下的逻辑分区,诸如逻辑分区16a2。一旦检测到另一处理复合器8b的故障,活动模式逻辑分区16a1可以通过向逻辑分区16a2发出适当消息使得备用模式逻辑分区16a2将自身激活到活动模式。
为了从备用模式切换到活动模式,逻辑分区16a2可以向活动模式分区16a1请求集群状态信息302a的拷贝,并且开始在数据结构302c中维持其自身的集群状态信息的同步拷贝(图4)。备用模式逻辑分区16a2可以从活动模式逻辑分区16a1获得的附加信息包括不运行的主机2的列表、以及正由集群6为其执行I/O操作的主机2的列表。备用模式逻辑分区16a2还可以从活动模式逻辑分区16a1获得用于配置共享资源300(包括主机适配器22a,22b...22n和设备适配器24a、24b...24n)的信息。
一旦逻辑分区16a2接收到了适当信息的同步拷贝,逻辑分区16a2就可以配置共享资源300以允许由逻辑分区16a2使用共享资源300。此外,逻辑分区16a2可以维持在集群6执行I/O操作中所使用的I/O操作数据结构的同步拷贝。一旦逻辑分区16a2准备好从主机2接收I/O操作,则其可以成为集群6的活动成员。
当逻辑分区16a2在活动模式下运行时,为了促进处于活动模式的逻辑分区16a2的操作,可以减少(框206)处理复合器8a的另一逻辑分区诸如逻辑分区16a1的分区资源,以使得附加分区资源可用于逻辑分区16a2。在所示的实施例中,可以由模块14a、26a实现分区资源的动态重新分配,作为到活动模式逻辑分区16a1的故障切换的一部分。
这样,在本示例中,一旦检测到另一处理复合器8b的故障,活动模式逻辑分区16a1可以向监督模块14a发送消息,作为故障切换操作的一部分,由此活动模式逻辑分区接管先前由处理复合器8b执行的I/O操作。作为响应,监督模块14a可以向“拥有”特定分区资源的活动模式逻辑分区16a发出网络请求,请求活动模式逻辑分区16a1释放该特定分区资源并且将其置于停顿状态。通过这种方式,可以停止分区资源,并且将其置于***管理程序模块26a的控制之下。
在另一操作中,可以扩展(框208)分配给被激活的逻辑分区的分区资源。在本示例中,监督模块26a可以向***管理程序模块26a发出命令,指示其将来自活动逻辑分区16a1的停顿分区资源重新分配到从备用模式被激活到活动模式的逻辑分区16a2。此外,监督模块14a可以向逻辑分区16a2发出网络请求,指示逻辑分区16a2从***管理程序模块26a获取停顿分区资源,并且配置其以供转变为活动模式的逻辑分区16a2使用。
合适的时候,可以对于适于平衡逻辑分区16a1、16a2之间的I/O工作负荷那么多的分区资源,而执行这些操作,即减少分配给逻辑分区(诸如逻辑分区16a1)的分区资源以及扩展分配给转变为活动模式的逻辑分区(诸如逻辑分区16a2)的分区资源的操作。例如,当逻辑分区16a2获取诸如附加处理和存储器资源的分区资源时,逻辑分区16a2可以承担的输入/输出或其它处理运行工作负荷量增加。
在本描述的一个方面,从操作的备用模式被激活到活动模式的逻辑分区16a2在故障的情况下提供了冗余度。例如,如果逻辑分区16a1经历了软件故障,则集群6的输入/输出操作可以继续进行,这是因为所激活的逻辑分区16a2已维持了输入/输出操作所需的数据和数据结构的同步拷贝,包括集群状态信息、输入/输出操作数据等等。
在另一操作中,在本示例中经历初始故障的处理复合器8b可以被修复(框210)。一旦一个或多个逻辑分区16b1、16b2返回到活动模式并且能够执行用于一个或多个主机2的输入/输出操作,则可以使处理复合器8a的逻辑分区16a1、16a2之一返回到备用模式。应该理解,出于其它目的和在其它情况下,可以使逻辑分区返回到备用模式。
为了使逻辑分区返回到备用模式,可以减少该逻辑分区的分区资源(框212)。在本示例中,可以使逻辑分区16a2返回到备用模式。应该理解,在其它应用中,逻辑分区16a2可以继续保持在活动模式下,而另一逻辑分区例如逻辑分区16a1可以采取备用模式。
在本示例中,活动模式逻辑分区16a1一旦接收到指示一个或多个逻辑分区16b1、16b2处于活动模式并且能够进行用于主机2的输入/输出操作的、来自处理复合器8b的数据结构同步信息和其它通信,就执行故障回复(failback)操作,将输入/输出操作向回传输到处理复合器8b。关于故障回复操作,逻辑分区16a1可以向监督模块14a传送消息。作为响应,监督模块14a可以向“拥有”特定分区资源的活动模式逻辑分区16a2发出网络请求,指示活动模式逻辑分区16a2释放该特定分区资源并且将其置于停顿状态。通过这种方式,可以停止分区资源,并且将其置于***管理程序模块26a的控制之下。
在另一操作中,可以扩展(框214)分配给剩余逻辑分区的分区资源。在本示例中,监督模块26a可以向***管理程序模块26a发出命令,指示其将来自逻辑分区16a2的停顿分区资源重新分配回将继续保持为活动模式的逻辑分区16a1。此外,监督模块14a可以向逻辑分区16a1发出网络请求,指示逻辑分区16a1从***管理程序模块26a获取停顿分区资源,并且配置其以供逻辑分区16a1使用。
可以针对适于这些相应模式的那么多的分区资源而执行这些操作,即减少分配给转变到备用模式的逻辑分区(诸如逻辑分区16a2)的分区资源、以及扩展分配给继续保持在活动模式的逻辑分区(诸如逻辑分区16a1)的分区资源的操作。例如,当逻辑分区16a1获取诸如处理和存储器资源的分区资源时,逻辑分区16a1可以承担的输入/输出或其它处理运行工作负荷量增加。
在另一操作中,可以使逻辑分区16a2停顿(框216)到备用模式,从而可以以备用模式运行(框218)逻辑分区16a2而以活动模式运行逻辑分区16a1。在该备用模式下,如上面所提到的,可以将备用模式下的逻辑分区16a2所利用的分区资源减少到最小值。此外,可以减少或者去除处于备用模式的逻辑分区16a2所要执行的操作。一个这样的最小化操作可以包括周期性地向活动模式逻辑分区诸如逻辑分区16a1发布心跳消息,向该活动模式逻辑分区通知该备用模式分区16a2的存在。应该理解,分配给备用模式的逻辑分区的操作和分区资源的量可以依据特定应用而变化。
其它实施例细节
可以使用标准编程和/或工程技术将上述操作实现为方法、装置或制品以产生软件、固件、硬件或者其任意组合。这里所使用的术语“制品”指以有形介质实现的代码或逻辑,其中这样的有形介质可以包括硬件逻辑(例如,集成电路芯片、可编程门阵列(PGA)、特定用途集成电路(ASIC)等等)或计算机可读介质,诸如磁存储介质(例如,硬盘驱动器、软盘、磁带等等)、光存储器(CD-ROM、光盘等等)、易失和非易失存储设备(例如,EEPROM、ROM、PROM、RAM、DRAM、SRAM、固件、可编程逻辑等等)。由处理器访问和执行计算机可读介质中的代码。将代码或逻辑编码于其中的有形介质还可以包括通过空间传播的传输信号或传输介质,诸如光纤、铜线等等。将代码或逻辑编码于其中的传输信号还可以包括无线信号、卫星传输、无线电波、红外信号、蓝牙等等。将代码或逻辑编码于其中的传输信号能够由发送站发送并且由接收站接收,其中被编码在传输信号中的代码或逻辑可以被解码并且存储在接收和发送站或设备处的硬件或计算机可读介质中。此外,“制品”可以包括其中包含、处理、和运行代码的硬件和软件组件的组合。当然,本领域技术人员将认识到,在不背离本发明范围的条件下,可以对该配置进行许多修改,并且该制品可以包括本领域公知的任何信息承载介质。
除非特别指出,否则术语“一实施例”、“实施例”、“多个实施例”、“该实施例”、“所述多个实施例”、“一个或多个实施例”、“一些实施例”、和“一个实施例”都意味着“一个或多个本发明的一个或多个(但不是全部)实施例”。
除非特别指出,否则术语“包括”、“包含”、“具有”及其各种变形都意味着“包括但不限于”。
除非特别指出,否则所枚举的项目列表并不意味着任意或所有项目互斥。
除非特别指出,否则术语“a”、“an”、“the”都意味着“一个或多个”。
除非特别指出,否则相互通信的设备并不需要相互连续通信。此外,相互通信的设备可以直接地或者间接地通过一个或多个媒介通信。
具有相互通信的几个组件的实施例的描述并不意味着需要所有这些组件。相反,描述各种可选组件以说明本发明各种可能实施例。
此外,尽管可能顺序描述了处理操作、方法操作、算法等等,但是这样的处理、方法和算法可以被配置来以别的顺序工作。换言之,可能描述的操作的任何次序或顺序并不必然指示要求以该顺序执行该操作。可以以任何实际顺序执行这里所述的处理操作。此外,可以同时执行一些操作。
当这里描述单个设备或物件时,很清楚,可以代替单个设备/物件而使用不止一个设备/物件(无论它们合作与否)。类似地,对于这里描述了不止一个设备或物件(无论它们合作与否)的情况,很清楚,可以替代所述不止一个设备或组件而使用单个设备/物件。
某设备的功能和/或特征可以替代地由未明确描述为具有这样的功能/特征的一个或多个其它设备实现。这样,本发明的其它实施例不必要包括该设备本身。
在所描述的实施例中,集群6包括两个处理复合器8a、8b。在另外的实施例中,可以存在访问共享设备的不止两个***。在这样的实施例中,一个或多个处理复合器可能维持处于备用模式并且准备被激活的逻辑分区,以在另一处理复合器失效的情况下提供冗余。
某些实施例可以针对一种由人或在计算***中集成计算机可读代码的自动化处理来部署计算指令的方法,其中使得与计算***结合的代码能够执行所述实施例的操作。
图2的所示操作示出了以某顺序发生的某些事件。在替代性实施例中,可以以不同(经修改或经删除)的顺序执行某些操作。此外,可以向上述逻辑添加步骤,并且仍符合所述实施例。此外,这里所描述的操作可以顺序发生或者某些操作可以被并行处理。此外,可以由单个处理单元或者由分布式处理单元执行操作。
某些操作已被描述为以对等方式在逻辑分区之间发生。其它操作已被描述为利用监督硬件或软件实现。应该理解,这些操作可以以对等方案或者以监督方案或者以各方案的组合实现。
所执行的处理操作已被描述为包括例如输入/输出操作。应该理解,可以代表主机或者作为服务器而执行其它类型的处理操作。
服务器集群在上面已被描述为具有两个处理复合器,每个处理复合器在常规操作中具有活动模式逻辑分区和备用模式逻辑分区。应该理解,在其它实施例中,服务器集群可以具有单个处理复合器或者不止两个处理复合器,并且每个处理复合器可以具有不止一个活动或备用模式逻辑分区。
出于说明和描述目的,已给出了各种实施例的前述描述。该描述并不意欲是穷举式的或者将本描述局限于所公开的确切形式。根据上述教导的各种修改和改变都是可能的。

Claims (20)

1.一种服务器集群管理方法,包括:
使服务器集群的第一处理复合器中的第一逻辑分区在活动模式下运行,并使该处理复合器中的第二逻辑分区在备用模式下运行,其中,该第一逻辑分区和第二逻辑分区是该第一处理复合器的资源的划分,所划分到逻辑分区的资源是该逻辑分区的分区资源;
检测该服务器集群的第二处理复合器中的故障;以及
响应于所述故障检测,激活该第一处理复合器中的备用逻辑分区以在活动模式下运行。
2.如权利要求1所述的服务器集群管理方法,还包括:
修复所述第二处理复合器;以及
响应于所述修复,使该第二逻辑分区停顿以在备用模式下运行。
3.如权利要求1所述的服务器集群管理方法,还包括:
在激活该第二逻辑分区之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
4.如权利要求1所述的服务器集群管理方法,还包括:
减少该第一逻辑分区的分区资源;以及
在激活该第二逻辑分区之后,增加该第二逻辑分区的分区资源。
5.如权利要求2所述的服务器集群管理方法,还包括:
在修复该第二处理复合器之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
6.如权利要求1所述的服务器集群管理方法,还包括:
减少该第二逻辑分区的分区资源;以及
在修复该第二处理复合器之后,增加该第一逻辑分区的分区资源。
7.如权利要求1所述的服务器集群管理方法,还包括:
将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;
修复所述第二处理复合器;
在修复该第二处理复合器之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及
使第二逻辑分区停顿以回到备用模式下运行。
8.如权利要求1所述的服务器集群管理方法,其中,所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到所述共享资源的访问。
9.如权利要求8所述的服务器集群管理方法,其中所述共享资源包括数据存储盘驱动器。
10.如权利要求3所述的服务器集群管理方法,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
11.一种服务器集群管理***,包括:
具有第一处理复合器和第二处理复合器的服务器集群,所述第一处理复合器具有第一逻辑分区和第二逻辑分区,,其中,该第一逻辑分区和第二逻辑分区是该第一处理复合器的资源的划分,所划分到逻辑分区的资源是该逻辑分区的分区资源,所述服务器集群具有适于下述操作的服务器集群逻辑:
使所述第一逻辑分区在活动模式下运行以及使所述第二逻辑分区在备用模式下运行;
检测所述第二处理复合器中的故障;以及
响应于所述故障检测,将所述第二逻辑分区从所述备用模式激活,以在活动模式下运行。
12.如权利要求11所述的服务器集群管理***,其中,所述服务器集群逻辑还适于:响应于该第二处理复合器的修复,使该第二逻辑分区从活动模式停顿,以在备用模式下运行。
13.如权利要求11所述的服务器集群管理***,其中,所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于:在该第二逻辑分区的激活之后,将分区资源从该第一逻辑分区转移到该第二逻辑分区。
14.如权利要求11所述的服务器集群管理***,其中,所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于:
减少该第一逻辑分区的分区资源;以及
在该第二逻辑分区的激活之后,增加该第二逻辑分区的分区资源。
15.如权利要求12所述的服务器集群管理***,其中所述第二逻辑分区具有分区资源,以及其中所述服务器集群逻辑还适于:在该第二处理复合器的修复之后,将分区资源从该第二逻辑分区转移到该第一逻辑分区。
16.如权利要求11所述的服务器集群管理***,其中所述第二逻辑分区具有分区资源,以及其中所述服务器集群逻辑还适于:
减少该第二逻辑分区的分区资源;以及
在该第二处理复合器的修复之后,增加该第一逻辑分区的分区资源。
17.如权利要求11所述的服务器集群管理***,其中所述第一逻辑分区具有分区资源,以及所述服务器集群逻辑还适于:
将分区资源从该第一逻辑分区转移到被激活的第二逻辑分区;
在该第二处理复合器的修复之后,将分区资源从第二逻辑分区转移到该第一逻辑分区;以及
使第二逻辑分区从活动模式停顿,以回到备用模式下运行。
18.如权利要求11所述的服务器集群管理***,其中所述第一处理复合器具有共享资源,以及其中所述活动模式运行包括为活动模式下运行的逻辑分区提供到共享资源的访问,以及其中所述备用模式运行包括为备用模式下运行的逻辑分区拒绝到共享资源的访问。
19.如权利要求18所述的服务器集群管理***,其中所述共享资源包括数据存储盘驱动器。
20.如权利要求13所述的服务器集群管理***,其中所述分区资源包括处理、存储器和输入/输出适配器资源。
CNB2006100753124A 2005-06-28 2006-04-12 集群可用性管理方法和*** Active CN100470494C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/168,973 2005-06-28
US11/168,973 US7937616B2 (en) 2005-06-28 2005-06-28 Cluster availability management

Publications (2)

Publication Number Publication Date
CN1892612A CN1892612A (zh) 2007-01-10
CN100470494C true CN100470494C (zh) 2009-03-18

Family

ID=37597497

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100753124A Active CN100470494C (zh) 2005-06-28 2006-04-12 集群可用性管理方法和***

Country Status (2)

Country Link
US (3) US7937616B2 (zh)
CN (1) CN100470494C (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060168214A1 (en) * 2004-10-29 2006-07-27 International Business Machines Corporation System for managing logical partition preemption
US7937616B2 (en) * 2005-06-28 2011-05-03 International Business Machines Corporation Cluster availability management
JP4831599B2 (ja) 2005-06-28 2011-12-07 ルネサスエレクトロニクス株式会社 処理装置
US7814495B1 (en) 2006-03-31 2010-10-12 V Mware, Inc. On-line replacement and changing of virtualization software
JP4923990B2 (ja) 2006-12-04 2012-04-25 株式会社日立製作所 フェイルオーバ方法、およびその計算機システム。
CN101227315B (zh) * 2007-01-17 2011-04-20 上海市医疗保险信息中心 动态服务器集群及其控制方法
US7941657B2 (en) 2007-03-30 2011-05-10 Lenovo (Singapore) Pte. Ltd Multi-mode mobile computer with hypervisor affording diskless and local disk operating environments
US8140822B2 (en) * 2007-04-16 2012-03-20 International Business Machines Corporation System and method for maintaining page tables used during a logical partition migration
US7849347B2 (en) * 2007-04-16 2010-12-07 International Business Machines Corporation System and method for updating a time-related state of a migrating logical partition
US8019962B2 (en) * 2007-04-16 2011-09-13 International Business Machines Corporation System and method for tracking the memory state of a migrating logical partition
US20080256530A1 (en) * 2007-04-16 2008-10-16 William Joseph Armstrong System and Method for Determining Firmware Compatibility for Migrating Logical Partitions
US7730365B1 (en) * 2007-04-30 2010-06-01 Hewlett-Packard Development Company, L.P. Workload management for maintaining redundancy of non-data computer components
US9207990B2 (en) * 2007-09-28 2015-12-08 Hewlett-Packard Development Company, L.P. Method and system for migrating critical resources within computer systems
JP5234115B2 (ja) * 2008-11-27 2013-07-10 富士通株式会社 情報処理装置,処理部切換方法及び処理部切換プログラム
US8489797B2 (en) * 2009-09-30 2013-07-16 International Business Machines Corporation Hardware resource arbiter for logical partitions
US8285915B2 (en) * 2010-01-13 2012-10-09 International Business Machines Corporation Relocating page tables and data amongst memory modules in a virtualized environment
US8458517B1 (en) 2010-04-30 2013-06-04 Amazon Technologies, Inc. System and method for checkpointing state in a distributed system
JP5548647B2 (ja) * 2011-04-25 2014-07-16 株式会社日立製作所 計算機システムでの部分障害処理方法
US9772784B2 (en) 2011-08-10 2017-09-26 Nutanix, Inc. Method and system for maintaining consistency for I/O operations on metadata distributed amongst nodes in a ring structure
CN102594596B (zh) * 2012-02-15 2014-08-20 华为技术有限公司 识别集群网络中可用分区的方法、装置及集群网络***
US20130304901A1 (en) * 2012-05-11 2013-11-14 James Malnati Automated integration of disparate system management tools
US9578130B1 (en) 2012-06-20 2017-02-21 Amazon Technologies, Inc. Asynchronous and idempotent distributed lock interfaces
US10630566B1 (en) 2012-06-20 2020-04-21 Amazon Technologies, Inc. Tightly-coupled external cluster monitoring
US10754710B1 (en) 2012-06-20 2020-08-25 Amazon Technologies, Inc. Transactional watch mechanism
US10191959B1 (en) 2012-06-20 2019-01-29 Amazon Technologies, Inc. Versioned read-only snapshots of shared state in distributed computing environments
US9632828B1 (en) 2012-09-24 2017-04-25 Amazon Technologies, Inc. Computing and tracking client staleness using transaction responses
CN103118121B (zh) * 2013-02-19 2017-05-17 浪潮电子信息产业股份有限公司 一种高可用集群在虚拟化技术中的应用方法
US9171019B1 (en) 2013-02-19 2015-10-27 Amazon Technologies, Inc. Distributed lock service with external lock information database
CN105144138B (zh) * 2013-04-16 2018-04-24 慧与发展有限责任合伙企业 分布式事件关联***
US9553951B1 (en) 2013-04-24 2017-01-24 Amazon Technologies, Inc. Semaphores in distributed computing environments
US9210032B2 (en) 2013-05-06 2015-12-08 International Business Machines Corporation Node failure management
US9887889B1 (en) 2013-07-15 2018-02-06 Amazon Technologies, Inc. State reconciliation using event tracking and polling
US9450700B1 (en) * 2013-08-05 2016-09-20 Amazon Technologies, Inc. Efficient network fleet monitoring
US9298516B2 (en) * 2013-10-01 2016-03-29 Globalfoundries Inc. Verification of dynamic logical partitioning
US9262289B2 (en) * 2013-10-11 2016-02-16 Hitachi, Ltd. Storage apparatus and failover method
US9990258B2 (en) * 2014-01-31 2018-06-05 Hitachi, Ltd. Management computer and management program
EP3140734B1 (en) 2014-05-09 2020-04-08 Nutanix, Inc. Mechanism for providing external access to a secured networked virtualization environment
US9740472B1 (en) * 2014-05-15 2017-08-22 Nutanix, Inc. Mechanism for performing rolling upgrades in a networked virtualization environment
US9733958B2 (en) * 2014-05-15 2017-08-15 Nutanix, Inc. Mechanism for performing rolling updates with data unavailability check in a networked virtualization environment for storage management
US9588853B2 (en) * 2014-06-05 2017-03-07 International Business Machines Corporation Automatic management of server failures
US9760529B1 (en) 2014-09-17 2017-09-12 Amazon Technologies, Inc. Distributed state manager bootstrapping
WO2016056140A1 (ja) * 2014-10-10 2016-04-14 株式会社日立製作所 インターフェースデバイス、及びインターフェースデバイスを含む計算機システム
US9672123B2 (en) 2014-12-31 2017-06-06 Oracle International Corporation Deploying services on application server cloud with high availability
US10642507B2 (en) 2015-01-30 2020-05-05 Nutanix, Inc. Pulsed leader consensus management
US9852221B1 (en) 2015-03-26 2017-12-26 Amazon Technologies, Inc. Distributed state manager jury selection
US20170255506A1 (en) * 2016-03-07 2017-09-07 Dell Software, Inc. Monitoring, analyzing, and mapping of computing resources
US11218418B2 (en) 2016-05-20 2022-01-04 Nutanix, Inc. Scalable leadership election in a multi-processing computing environment
US10362092B1 (en) 2016-10-14 2019-07-23 Nutanix, Inc. Entity management in distributed systems
US11194680B2 (en) 2018-07-20 2021-12-07 Nutanix, Inc. Two node clusters recovery on a failure
US11770447B2 (en) 2018-10-31 2023-09-26 Nutanix, Inc. Managing high-availability file servers
US11768809B2 (en) 2020-05-08 2023-09-26 Nutanix, Inc. Managing incremental snapshots for fast leader node bring-up

Family Cites Families (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4371754A (en) * 1980-11-19 1983-02-01 Rockwell International Corporation Automatic fault recovery system for a multiple processor telecommunications switching control
US4907229A (en) * 1988-06-23 1990-03-06 The United States Of America As Represented By The Secretary Of The Navy Selective multimode/multiconfigurable data acquisition and reduction processor system
DE69113181T2 (de) * 1990-08-31 1996-05-02 Ibm Verfahren und Gerät zur Querteilungssteuerung in einer verteilten Verarbeitungsumgebung.
US5446904A (en) * 1991-05-17 1995-08-29 Zenith Data Systems Corporation Suspend/resume capability for a protected mode microprocessor
US5283549A (en) * 1991-05-31 1994-02-01 Intellitech Industries, Inc. Infrared sentry with voiced radio dispatched alarms
CA2100540A1 (en) * 1992-10-19 1994-04-20 Jonel George System and method for performing resource reconfiguration in a computer system
US5359730A (en) * 1992-12-04 1994-10-25 International Business Machines Corporation Method of operating a data processing system having a dynamic software update facility
US5495606A (en) * 1993-11-04 1996-02-27 International Business Machines Corporation System for parallel processing of complex read-only database queries using master and slave central processor complexes
US5455525A (en) * 1993-12-06 1995-10-03 Intelligent Logic Systems, Inc. Hierarchically-structured programmable logic array and system for interconnecting logic elements in the logic array
US5592173A (en) * 1994-07-18 1997-01-07 Trimble Navigation, Ltd GPS receiver having a low power standby mode
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
US5940612A (en) * 1995-09-27 1999-08-17 International Business Machines Corporation System and method for queuing of tasks in a multiprocessing system
US6421679B1 (en) 1995-10-27 2002-07-16 International Business Machines Corporation Concurrent patch to logical partition manager of a logically partitioned system
US6412017B1 (en) * 1996-07-01 2002-06-25 Microsoft Corporation Urgent replication facility
US5919247A (en) * 1996-07-24 1999-07-06 Marimba, Inc. Method for the distribution of code and data updates
US6754656B1 (en) 1996-10-22 2004-06-22 International Business Machines Corporation System and method for selective partition locking
US6189145B1 (en) * 1997-05-28 2001-02-13 International Business Machines Corporation Concurrent patch to logical partition manager of a logically partitioned system
US5996086A (en) * 1997-10-14 1999-11-30 Lsi Logic Corporation Context-based failover architecture for redundant servers
US6199179B1 (en) * 1998-06-10 2001-03-06 Compaq Computer Corporation Method and apparatus for failure recovery in a multi-processor computer system
US6542926B2 (en) * 1998-06-10 2003-04-01 Compaq Information Technologies Group, L.P. Software partitioned multi-processor system with flexible resource sharing levels
US6381682B2 (en) * 1998-06-10 2002-04-30 Compaq Information Technologies Group, L.P. Method and apparatus for dynamically sharing memory in a multiprocessor system
US6260068B1 (en) * 1998-06-10 2001-07-10 Compaq Computer Corporation Method and apparatus for migrating resources in a multi-processor computer system
JP3794151B2 (ja) * 1998-02-16 2006-07-05 株式会社日立製作所 クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
DE19810814B4 (de) * 1998-03-12 2004-10-28 Telefonaktiebolaget Lm Ericsson (Publ) Rechnersystem und Zustandskopierverfahren zur skalierbaren Software-Aktualisierung
US6209051B1 (en) * 1998-05-14 2001-03-27 Motorola, Inc. Method for switching between multiple system hosts
US6247109B1 (en) * 1998-06-10 2001-06-12 Compaq Computer Corp. Dynamically assigning CPUs to different partitions each having an operation system instance in a shared memory space
JP3360719B2 (ja) * 1998-06-19 2002-12-24 日本電気株式会社 ディスクアレイクラスタリング通報方法およびシステム
US6622265B1 (en) * 1998-08-28 2003-09-16 Lucent Technologies Inc. Standby processor with improved data retention
US6363495B1 (en) 1999-01-19 2002-03-26 International Business Machines Corporation Method and apparatus for partition resolution in clustered computer systems
US6378027B1 (en) * 1999-03-30 2002-04-23 International Business Machines Corporation System upgrade and processor service
US6279046B1 (en) * 1999-05-19 2001-08-21 International Business Machines Corporation Event-driven communications interface for logically-partitioned computer
US6715099B1 (en) * 1999-06-02 2004-03-30 Nortel Networks Limited High-availability architecture using high-speed pipes
US6598069B1 (en) 1999-09-28 2003-07-22 International Business Machines Corporation Method and apparatus for assigning resources to logical partition clusters
US6643843B1 (en) * 1999-11-23 2003-11-04 Ellenby Technologies Inc. Methods and apparatus for optical communication update of program memory in embedded systems
US6460039B1 (en) 1999-12-09 2002-10-01 International Business Machines Corporation Middleware support for primary component in a partitionable cluster environment
US7234126B2 (en) 2000-08-23 2007-06-19 Interuniversitair Microelektronica Centrum Task concurrency management design method
EP1327191B1 (en) * 2000-09-22 2013-10-23 Lumension Security, Inc. Non-invasive automatic offsite patch fingerprinting and updating system and method
US6976079B1 (en) * 2000-09-29 2005-12-13 International Business Machines Corporation System and method for upgrading software in a distributed computer system
US6590961B1 (en) * 2000-10-12 2003-07-08 Nortel Networks Limited Call protect systems with handoff redundancy
US7065761B2 (en) * 2001-03-01 2006-06-20 International Business Machines Corporation Nonvolatile logical partition system data management
US20020129172A1 (en) * 2001-03-08 2002-09-12 International Business Machines Corporation Inter-partition message passing method, system and program product for a shared I/O driver
US6957435B2 (en) 2001-04-19 2005-10-18 International Business Machines Corporation Method and apparatus for allocating processor resources in a logically partitioned computer system
US6711700B2 (en) * 2001-04-23 2004-03-23 International Business Machines Corporation Method and apparatus to monitor the run state of a multi-partitioned computer system
US6957251B2 (en) * 2001-05-07 2005-10-18 Genworth Financial, Inc. System and method for providing network services using redundant resources
US7051327B1 (en) * 2001-05-08 2006-05-23 Gateway Inc. System for providing data backup and restore with updated version by creating data package based upon configuration data application data and user response to suggestion
US7380001B2 (en) * 2001-05-17 2008-05-27 Fujitsu Limited Fault containment and error handling in a partitioned system with shared resources
US20020184290A1 (en) * 2001-05-31 2002-12-05 International Business Machines Corporation Run queue optimization with hardware multithreading for affinity
US6898705B2 (en) * 2001-05-31 2005-05-24 International Business Machines Corporation Automatic appliance server re-provision/re-purposing method
US20030005350A1 (en) * 2001-06-29 2003-01-02 Maarten Koning Failover management system
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7055149B2 (en) * 2001-07-25 2006-05-30 Lenovo (Singapore) Pte Ltd. Method and apparatus for automating software upgrades
JP2003131900A (ja) * 2001-10-24 2003-05-09 Hitachi Ltd サーバシステム運用管理方式
US6820217B2 (en) 2001-10-29 2004-11-16 International Business Machines Corporation Method and apparatus for data recovery optimization in a logically partitioned computer system
US7213065B2 (en) * 2001-11-08 2007-05-01 Racemi, Inc. System and method for dynamic server allocation and provisioning
US7146306B2 (en) 2001-12-14 2006-12-05 International Business Machines Corporation Handheld computer console emulation module and method of managing a logically-partitioned multi-user computer with same
WO2003063009A1 (en) * 2002-01-18 2003-07-31 Bea Systems, Inc. System, method and interface for controlling server lifecycle
US7158248B2 (en) * 2002-02-07 2007-01-02 Hewlett-Packard Development Company, L.P. Control of software via bundling
US6944788B2 (en) * 2002-03-12 2005-09-13 Sun Microsystems, Inc. System and method for enabling failover for an application server cluster
US7490206B2 (en) 2002-03-15 2009-02-10 International Business Machines Corporation Method and structure for low memory relocation for dynamic memory reconfiguration
JP2003280915A (ja) * 2002-03-22 2003-10-03 Toshiba Corp 情報機器、記憶媒体、及びシステム起動方法
US6931568B2 (en) * 2002-03-29 2005-08-16 International Business Machines Corporation Fail-over control in a computer system having redundant service processors
US6694419B1 (en) 2002-04-12 2004-02-17 Barsa Consulting Group, Llc Method and system for automatically measuring partition memory needs in a partitioned computer system
JP4119162B2 (ja) * 2002-05-15 2008-07-16 株式会社日立製作所 多重化計算機システム、論理計算機の割当方法および論理計算機の割当プログラム
US7203159B2 (en) * 2002-06-11 2007-04-10 Adtran, Inc. Line card-sourced ESF framing protection switch FDL signaling
JP4054616B2 (ja) * 2002-06-27 2008-02-27 株式会社日立製作所 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
FR2843209B1 (fr) * 2002-08-02 2006-01-06 Cimai Technology Procede de replication d'une application logicielle dans une architecture multi-ordinateurs, procede pour realiser une continuite de fonctionnement mettant en oeuvre ce procede de replication, et systeme multi-ordinateurs ainsi equipe.
US7237239B1 (en) * 2002-08-26 2007-06-26 Network Appliance, Inc. Availability and consistent service semantics in a load balanced collection of services running different instances of an application
US20040043797A1 (en) * 2002-08-30 2004-03-04 Shostak Robert E. Method and apparatus for power conservation in a wireless communication system
US7076689B2 (en) * 2002-10-29 2006-07-11 Brocade Communication Systems, Inc. Use of unique XID range among multiple control processors
US6957443B2 (en) 2002-11-27 2005-10-18 Sunonwealth Electric Machine Industry Co., Ltd. Holding device for an optical disk drive
JP4119239B2 (ja) * 2002-12-20 2008-07-16 株式会社日立製作所 計算機資源割当方法、それを実行するための資源管理サーバおよび計算機システム
US20040158834A1 (en) * 2003-02-06 2004-08-12 International Business Machines Corporation Apparatus and method for dynamically allocating resources of a dead logical partition
US7290260B2 (en) * 2003-02-20 2007-10-30 International Business Machines Corporation Dynamic processor redistribution between partitions in a computing system
US7302609B2 (en) * 2003-03-12 2007-11-27 Vladimir Matena Method and apparatus for executing applications on a distributed computer system
US7073002B2 (en) * 2003-03-13 2006-07-04 International Business Machines Corporation Apparatus and method for controlling resource transfers using locks in a logically partitioned computer system
US7085862B2 (en) * 2003-03-13 2006-08-01 International Business Machines Corporation Apparatus and method for controlling resource transfers in a logically partitioned computer system by placing a resource in a power on reset state when transferring the resource to a logical partition
US7698700B2 (en) * 2003-04-17 2010-04-13 International Business Machines Corporation System quiesce for concurrent code updates
US7275180B2 (en) * 2003-04-17 2007-09-25 International Business Machines Corporation Transparent replacement of a failing processor
US7139855B2 (en) * 2003-04-24 2006-11-21 International Business Machines Corporation High performance synchronization of resource allocation in a logically-partitioned system
US7496915B2 (en) * 2003-04-24 2009-02-24 International Business Machines Corporation Dynamic switching of multithreaded processor between single threaded and simultaneous multithreaded modes
US7103763B2 (en) * 2003-04-24 2006-09-05 International Business Machines Corporation Storage and access of configuration data in nonvolatile memory of a logically-partitioned computer
US7076570B2 (en) * 2003-04-25 2006-07-11 International Business Machines Corporation Method and apparatus for managing service indicator lights in a logically partitioned computer system
US7395334B2 (en) * 2003-04-25 2008-07-01 International Business Machines Corporation System for determining unreturned standby resource usage
US7299468B2 (en) * 2003-04-29 2007-11-20 International Business Machines Corporation Management of virtual machines to utilize shared resources
US7530067B2 (en) * 2003-05-12 2009-05-05 International Business Machines Corporation Filtering processor requests based on identifiers
US6973654B1 (en) * 2003-05-27 2005-12-06 Microsoft Corporation Systems and methods for the repartitioning of data
US7222339B2 (en) * 2003-06-13 2007-05-22 Intel Corporation Method for distributed update of firmware across a clustered platform infrastructure
US7475218B2 (en) * 2003-07-22 2009-01-06 International Business Machines Corporation Apparatus and method for autonomically detecting resources in a logically partitioned computer system
US8055838B2 (en) * 2003-07-22 2011-11-08 International Business Machines Corporation Apparatus and method for autonomically suspending and resuming logical partitions when I/O reconfiguration is required
US7398432B2 (en) * 2003-07-24 2008-07-08 International Business Machines Corporation Identify indicators in a data processing system
JP4415610B2 (ja) * 2003-08-26 2010-02-17 株式会社日立製作所 系切替方法、レプリカ作成方法、及びディスク装置
US7606140B2 (en) * 2003-08-28 2009-10-20 Alcatel Lucent Distributed and disjoint forwarding and routing system and method
US7254652B2 (en) * 2003-09-30 2007-08-07 International Business Machines Corporation Autonomic configuration of port speeds of components connected to an interconnection cable
JP2005107803A (ja) * 2003-09-30 2005-04-21 Hitachi Ltd システム更新方法、および、それを実行するための計算機システム
US20070067366A1 (en) * 2003-10-08 2007-03-22 Landis John A Scalable partition memory mapping system
WO2005036806A2 (en) * 2003-10-08 2005-04-21 Unisys Corporation Scalable partition memory mapping system
US7225356B2 (en) * 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
US7587723B2 (en) * 2003-11-13 2009-09-08 International Business Machines Corporation Restarting a shared virtual resource
US7454502B2 (en) * 2003-12-04 2008-11-18 International Business Machines Corporation System for transferring standby resource entitlement
JP2005190057A (ja) * 2003-12-25 2005-07-14 Hitachi Ltd ディスクアレイ装置及びディスクアレイ装置のリモートコピー制御方法
US7246256B2 (en) * 2004-01-20 2007-07-17 International Business Machines Corporation Managing failover of J2EE compliant middleware in a high availability system
JP2005309553A (ja) * 2004-04-19 2005-11-04 Hitachi Ltd 計算機
US7117334B2 (en) * 2004-05-14 2006-10-03 International Business Machines Corporation Dynamic node partitioning utilizing sleep state
US20050283658A1 (en) * 2004-05-21 2005-12-22 Clark Thomas K Method, apparatus and program storage device for providing failover for high availability in an N-way shared-nothing cluster system
US7827063B2 (en) * 2004-05-24 2010-11-02 Digipos Store Solutions Group Limited Point of sale systems and methods
JP4353005B2 (ja) * 2004-06-29 2009-10-28 株式会社日立製作所 クラスタ構成コンピュータシステムの系切替方法
US7412545B2 (en) * 2004-07-22 2008-08-12 International Business Machines Corporation Apparatus and method for updating I/O capability of a logically-partitioned computer system
US7305530B2 (en) * 2004-11-02 2007-12-04 Hewlett-Packard Development Company, L.P. Copy operations in storage networks
JP4462024B2 (ja) * 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
US20060155912A1 (en) * 2005-01-12 2006-07-13 Dell Products L.P. Server cluster having a virtual server
US7953703B2 (en) * 2005-02-17 2011-05-31 International Business Machines Corporation Creation of highly available pseudo-clone standby servers for rapid failover provisioning
US7444350B1 (en) * 2005-03-31 2008-10-28 Emc Corporation Method and apparatus for processing management information
JP2006285808A (ja) * 2005-04-04 2006-10-19 Hitachi Ltd ストレージシステム
US7992144B1 (en) * 2005-04-04 2011-08-02 Oracle America, Inc. Method and apparatus for separating and isolating control of processing entities in a network interface
US7933966B2 (en) * 2005-04-26 2011-04-26 Hewlett-Packard Development Company, L.P. Method and system of copying a memory area between processor elements for lock-step execution
US7774785B2 (en) * 2005-06-28 2010-08-10 International Business Machines Corporation Cluster code management
US7743372B2 (en) * 2005-06-28 2010-06-22 Internatinal Business Machines Corporation Dynamic cluster code updating in logical partitions
US7937616B2 (en) * 2005-06-28 2011-05-03 International Business Machines Corporation Cluster availability management
US20070094659A1 (en) * 2005-07-18 2007-04-26 Dell Products L.P. System and method for recovering from a failure of a virtual machine
US7478272B2 (en) * 2005-09-30 2009-01-13 International Business Machines Corporation Replacing a failing physical processor
JP5068056B2 (ja) * 2006-10-11 2012-11-07 株式会社日立製作所 障害回復方法、計算機システム及び管理サーバ
US7934121B2 (en) * 2006-11-21 2011-04-26 Microsoft Corporation Transparent replacement of a system processor
KR100930576B1 (ko) * 2006-12-04 2009-12-09 한국전자통신연구원 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법
JP4923990B2 (ja) * 2006-12-04 2012-04-25 株式会社日立製作所 フェイルオーバ方法、およびその計算機システム。
US7849347B2 (en) * 2007-04-16 2010-12-07 International Business Machines Corporation System and method for updating a time-related state of a migrating logical partition
US7730365B1 (en) * 2007-04-30 2010-06-01 Hewlett-Packard Development Company, L.P. Workload management for maintaining redundancy of non-data computer components
JP4842210B2 (ja) * 2007-05-24 2011-12-21 株式会社日立製作所 フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
EP2510437A1 (en) * 2009-12-11 2012-10-17 Deutsche Telekom AG Computer cluster and method for providing a disaster recovery functionality for a computer cluster
US8495418B2 (en) * 2010-07-23 2013-07-23 Brocade Communications Systems, Inc. Achieving ultra-high availability using a single CPU
US9742676B2 (en) * 2012-06-06 2017-08-22 International Business Machines Corporation Highly available servers

Also Published As

Publication number Publication date
US10394672B2 (en) 2019-08-27
US20070011495A1 (en) 2007-01-11
US11755435B2 (en) 2023-09-12
US7937616B2 (en) 2011-05-03
US20190303255A1 (en) 2019-10-03
US20110173493A1 (en) 2011-07-14
CN1892612A (zh) 2007-01-10

Similar Documents

Publication Publication Date Title
CN100470494C (zh) 集群可用性管理方法和***
CN100478894C (zh) 集群代码管理的方法和***
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
US7536586B2 (en) System and method for the management of failure recovery in multiple-node shared-storage environments
CN101776983B (zh) 磁盘阵列中双控制器信息的同步方法、及磁盘阵列***
CN100478893C (zh) 用于动态群集代码管理的方法和***
US6601138B2 (en) Apparatus system and method for N-way RAID controller having improved performance and fault tolerance
CN102308273B (zh) 存储***
CN101667181B (zh) 一种数据容灾的方法、装置及***
CN110807064B (zh) Rac分布式数据库集群***中的数据恢复装置
CN100547558C (zh) 并行计算***中的冗余保护的方法和***
CN1972312A (zh) 用于选择存储群集以用来存取存储装置的方法和***
CN103019889A (zh) 分布式文件***及其故障处理方法
JP2007156679A (ja) サーバの障害回復方法及びデータベースシステム
CN112477919A (zh) 一种适用于列车控制***平台的动态冗余备份方法及***
CN101482829A (zh) 集群***、处理装置及集群***冗余方法
CN103384882A (zh) 在服务器的共享组中管理使用权的方法
CN112543922A (zh) 一种提高存储***可靠性的方法和相关装置
EP3167372B1 (en) Methods for facilitating high availability storage services and corresponding devices
JP2006058960A (ja) 冗長構成のサーバシステムにおける同期化方法及びシステム
JP2007334668A (ja) メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム
CN100499387C (zh) 一种通信***中单板的n+1备份的方法
CN100490343C (zh) 一种通讯设备中主备用单元倒换的实现方法和装置
JPH09288589A (ja) システム・バックアップ方法
CN117827544B (zh) 热备份***、方法、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant