CN100478894C

CN100478894C - 集群代码管理的方法和***

Info

Publication number: CN100478894C
Application number: CN200610073649.1A
Authority: CN
Inventors: 迈克尔·H·哈通; 许育诚; 格伦·R·怀特威克
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-06-28
Filing date: 2006-04-13
Publication date: 2009-04-15
Anticipated expiration: 2026-04-13
Also published as: CN1892606A; US20060294337A1; US7774785B2

Abstract

服务器集群的第一处理综合体中的第一逻辑分区***作于软件代码的第一等级。在同一处理综合体中的第二逻辑分区中的软件代码被转变为第二等级。处理操作被从第一处理综合体中的第一逻辑分区转移到服务器集群的第二处理综合体中的第三逻辑分区。另一方面，处理操作的转移包括静默第一逻辑分区以导致处理操作从第一处理综合体中的第一逻辑分区到第二处理综合体中的第三逻辑分区的故障转移。另一方面，故障恢复操作被执行并且处理操作的第一部分被从第二处理综合体中的第三逻辑分区转移到第一处理综合体中的第二逻辑分区。另一方面，处理操作的第二部分可被从第二处理综合体中的第三逻辑分区转移到服务器集群的第一处理综合体中的第二逻辑分区。

Description

集群代码管理的方法和***

技术领域

本发明涉及集群中对于代码更新的管理。

背景技术

在特定的计算环境中，多主机***可与控制单元通信，例如IBM企业存储服务器(ESS，Enterprise Storage Server)

，它提供对存储设备的访问权，诸如通过一条或多条逻辑路径访问互联硬盘驱动器(IBM和ESS是IBM的注册商标)。将互联驱动器可以配置为直接访问存储设备(DASD，DirectAccess Storage Device)、独立磁盘冗余阵列(RAID，Redundant Array ofIndependent Disks)、简单磁盘捆绑(JBOD，Just a Bunch of Disks)等。控制单元(也被认为是集群)可包括完全一致的且冗余的处理节点(也被认为是处理综合体)，以顾及如果一个发生故障，则向剩余的无故障的处理综合体的故障转移(failover)。处理综合体可访问诸如输入/输出(I/O)适配器、存储适配器和存储设备一样的共享资源。

处理综合体可执行各种处理操作，例如，诸如输入/输出操作或其它计算。故障转移操作可以自动地将输入/输出或其它处理操作从故障的或者因维修而关闭的处理综合体切换到另一个处理综合体。一旦故障的或者正被维修的处理综合体即将恢复操作，操作可在故障恢复(failback)操作之后被转移回来。

为了更新软件或是其它正被服务器集群的处理综合体运行的代码，可静默(quiesce)一个处理综合体，导致在故障转移操作中该处理综合体的输入/输出或者其它处理操作被服务器集群的其它的一个或多个处理综合体接管。之后，可更新被静默的处理综合体的代码。在对特定处理综合体的代码更新之后，该处理综合体可在故障恢复操作之后恢复(resume)执行处理操作，在故障恢复操作中处理操作被从另一个处理综合体中转移。这个更新过程可对于服务器节点的剩余的处理综合体而被重复。

每一个处理综合体的资源可被分成多个逻辑分区(LPAR，LogicalPartition)，在其中计算机的处理器、存储器和硬件资源被分成多重环境。可以独立地操作每一个环境，它具有自己的操作***和应用程序。处理综合体的逻辑分区增加了单个服务器上工作负荷管理的灵活性，它具有将单机划分成多个具有其自己的成套***资源的逻辑服务器的能力。每一个分区的资源可以各种数量和组合被组合。同样，逻辑硬件分区的数量可以根据硬件***而创建。

动态逻辑分区(DLPAR，Dynamic Logical Partitioning)，通过提供不用重新启动在逻辑上将处理综合体的资源连接到逻辑分区的操作***和从其上释放的能力，扩展了LPAR的能力。这种资源分配不仅可以在激活逻辑分区时，而且可以在分区正在运行时发生。可以将处理器、存储器、I/O适配器和其它分区资源释放到一个“空闲池”、从该空闲池获得、或以各种数量或组合直接地从一个分区移动到处理综合体中的另一个分区。尽管如此，每一个分区通常具有至少一个处理器、存储器、与启动设备关联的I/O适配器、以及网络适配器。

LPAR资源从一个硬件分区到处理综合体中的另一个的移动可由一个监管模块管理。为转移分区资源，监管模块可以向“拥有”该分区资源的逻辑分区发送网络请求，要求该逻辑分区释放这个特定的分区资源并使它进入静默状态。以这种方式，停止该分区资源，并置于在管理程序模块的控制下。监管模块可以向管理程序发送命令，指令它重新分配分区资源从之前的逻辑分区到另一个逻辑分区。另外，监管模块可以向两者中的另一个逻辑分区发送网络请求，指令它从管理程序模块获得分区资源并为该逻辑分区的使用而配置它。

发明内容

服务器集群的第一处理综合体中的第一逻辑分区***作于软件代码的第一等级。在同一处理综合体中的第二逻辑分区中的软件代码被转变为第二等级。处理操作被从第一处理综合体中的第一逻辑分区转移到服务器集群的第二处理综合体中的第三逻辑分区。

另一方面，处理操作的转移包括静默第一逻辑分区以导致处理操作从第一处理综合体中的第一逻辑分区到第二处理综合体中的第三逻辑分区的故障转移。

仍是另一方面，分区资源在静默第一逻辑分区之后被从第一逻辑分区转移到第二逻辑分区。该分区资源可包括，例如，处理、存储器和高速缓冲存储器资源。

另一方面，故障恢复操作被执行并且处理操作的第一部分被从第二处理综合体中的第三逻辑分区转移到第一处理综合体中的第二逻辑分区。该故障恢复可在第二逻辑分区中的软件改变之后被执行，在其中第二逻辑分区使用处于第二等级的软件代码来操作。

依然是另一方面，处理操作的第二部分可被从第二处理综合体中的第三逻辑分区转移到服务器集群的第一处理综合体中的第二逻辑分区。在一个例子中，处理操作的第二部分的转移包括静默第三逻辑分区以导致处理操作从第二处理综合体中的第三逻辑分区到第一处理综合体中的第二逻辑分区的故障转移。其它实施例被描述和要求。

附图说明

图1图解了实施例可实现于其中的计算环境的一个例子。

图2图解了处理综合体的逻辑分区中更新软件代码的操作的一个例子。

图3是处理综合体中的源逻辑分区和目标逻辑分区的一个例子的原理图。

具体实施方式

图1图解了在其中采用本说明书的某些方面的计算环境的例子。一个或多个主机2向控制单元或集群6传达输入/输出(I/O)任务或其它被指向存储***4的处理请求，其中集群6管理对存储***4的访问权。在一个实施例中，集群6由两个处理节点或综合体8a、8b组成，其中每一个包含处理器10a、10b和存储器12a、12b。每一个处理器10a、10b可以包含对于相关的处理综合体8a、8b来说可作为处理资源使用的一个或多个中央处理器(CPU，Central Processing Unit)。

每一个处理综合体包含监管模块14a、14b。监管模块14a、14b包含代码，所述代码管理和协调在处理综合体8a、8b中运行的一个或多个逻辑分区16a、16b的操作。每一个逻辑分区16a、16b分别运行操作***18a、18b和设备驱动程序20a、20b。逻辑分区包含将由处理器10a、10b划分为各自具有其自己的操作***18a、18b和设备驱动程序20a、20b的逻辑独立处理***。多重逻辑分区可在每一个处理综合体中运行，并由该综合体的监管模块管理。

在图解的实施例中，逻辑分区16a在存储于处理综合体8a的非易失性存储器21a中的数据结构中维持状态信息。这个状态信息标识集群6的各种状态机的各种状态。集群状态信息的同步副本由逻辑分区16b相似地维持于存储在处理综合体8b的非易失性存储器21b中的数据结构中。这个状态信息促进对处理操作的控制，所述处理操作包含由集群6的逻辑分区16a、16b代表主机2来执行的输入/输出操作。逻辑分区16a、16b可相互之间交换状态信息以促进每一个活动的分区维持当前涉及集群操作的状态信息。另外，逻辑分区在非易失性存储器21a、21b中维持其它数据结构，其促进响应于从主机2所接收的处理任务的处理操作的执行，例如诸如输入/输出任务。每一个逻辑分区16a、16b也有权访问高速缓冲存储器23a、23b，以使为了执行从主机2接收的处理任务而存储数据。

每一个设备驱动程序20a、20b在设备驱动程序20a、20b运行于其中的逻辑分区16a、16b中的操作***18a、18b和诸如主机适配器22a、22b、......、22n和设备适配器24a、24b、......、24n一样的外部设备之间提供一个接口。主机适配器22a、22b、......、22n使处理综合体8a、8b能够与主机2通信，而设备适配器24a、24b、......、24n使处理综合体8a、8b能够与存储***4通信。因此，处理综合体8a、8b共享诸如适配器22a、22b、......、22n、24a、24b、......、24n一样的设备。变量“n”用于表示元件的整数实例，并当用于不同的元件时可代表不同或相同的整数值。例如，22n和24n可代表主机适配器22n和设备适配器24n的相同或不同的号码。

处理综合体8a、8b与主机适配器22a、22b、......、22n通过光纤网30a通信，而与设备适配器24a、24b、......、24n通过光纤网(fabric)30b通信。光纤网30a、30b可包含一个或多个在处理综合体8a、8b与适配器之间提供通信路径的接口。路径包含光纤网30a、30b中的硬件，所述硬件允许通过光纤网与共享的适配器进行通信。在一个实施例中，所述光纤网可包含光纤信道仲裁环路构造、串行环路体系结构或总线诸如外设部件互连(PCI，Peripheral Component Interconnect)接口一样的接口。每一个处理综合体8a、8b可被分配适配器22a、22b、......、22n、24a、24b、......、24n中的一部分并且在初始化期间，处理综合体8a、8b有责任初始化部分的光纤网30a、30b，这部分的光纤网30a、30b为分配给该处理综合体的适配器提供通信路径。例如，如果处理综合体8a被分配了适配器22a、22b、24a、24b，那么处理综合体8a要初始化和配置光纤网30a、30b中在处理综合体8a与适配器22a、22b、24a、24b之间提供通信路径的那部分。同样地，如果处理综合体8b被分配了适配器22c(未显示)、......、22n和24c(未显示)、......、24n，那么处理综合体8b要初始化和配置光纤网30a、30b和路径中的使得处理综合体8b与适配器22c、......22n和24c、......、24n之间通信的那部分。配置光纤网30a、30b包含设置光纤网硬件中的寄存器，所述硬件例如光纤信道环路硬件、串行环路体系结构硬件或总线接口硬件，以及执行其它初始化和恢复相关的操作。每一个独立的适配器22a、22b、......、22n、24a、24b、......、24n可由处理综合体8a、8b所共享。

与管理程序模块26a、26b有关的监管模块14a、14b维持设备/逻辑分区(LPAR)的分配，这些分配标识了适配器22a、22b、......、22n、24a、24b、......、24n到每一个处理综合体8a、8b中的逻辑分区16a、16b的每一个分配，如此以致特定的适配器22a、22b、......、22n、24a、24b、......、24n与处理综合体8a、8b之间的通信由设备驱动程序20a、20b来处理，所述驱动程序20a、20b在逻辑分区16a、16b中运行，所述逻辑分区16a、16b被分配给特定的适配器22a、22b、......、22n、24a、24b、......、24n。

每一个处理综合体8a、8b可处于分离的电功率边界。可分配处理综合体8a、8b去处理指向存储***4中被配置的特定卷的I/O请求。处理综合体8a、8b经过设备适配器24a、24b、......、24n通过设备网络(未显示)与存储***4通信，其可包含局域网(LAN，Local Area Network)、存储区域网络(SAN，Storage Area Network)、总线接口、串行接口等。此外，处理综合体8a、8b通过使得处理器互相通信的连接28进行通信以管理关于共享设备而被执行的配置操作，所述共享设备诸如共享适配器22a、22b、......、22n、24a、24b、......、24n。在备选的实施例中，可只有一个光纤网连接所有的适配器22a、22b、......、22n、24a、24b、......、24n，即光纤网30a、30b可以是单个互连光纤网的一部分，或是两个光纤网，诸如所显示的30a、30b，或是多于两个光纤网。

集群6可包含任何类型的服务器，诸如企业存储服务器、存储控制器等，或者其它用以管理对被附接的存储***4的I/O请求的设备，其中存储***可包含一个或多个本领域已知的存储设备，诸如互连硬盘驱动器(例如配置为DASD、RAID、JBOD等)、磁带、电子存储器等。主机2可经过适配器22a、22b、......、22n、通过网络(未显示)与集群6通信，所述网络诸如局域网(LAN)、本地存储网络(SAN)、广域网(WAN)、无线网络等。或者，主机2可通过总线接口，诸如外设部件互连(PCI)接口或串行接口，与集群6通信。进一步理解为例如集群6也可以是一般的服务器集群，而不仅仅是存储子***或存储控制器。例如，两个服务器可以是运行诸如Lotus Notes的高度有效的集群应用程序的IBM pSeries服务器。

根据本说明书的一个方面，图2图解了集群的操作的一个例子，其中所述集群的处理综合体的代码可用一种方式更新，该方式可以减少处理综合体因代码更新而服务中止的时间长度。在一项操作中，集群在集群的第一节点或处理综合体中操作(方框200)第一逻辑分区和第二逻辑分区。另外，在这个实施例中，集群在集群的第二节点或处理综合体中操作(方框202)第三逻辑分区和第四逻辑分区。

图3是原理性地图解将处理综合体8a的第一逻辑分区16a1作为源逻辑分区来操作的集群6的例子的视图。另外，该处理综合体8a的第二逻辑分区16a2作为目标逻辑分区来操作。如这里使用的，源逻辑分区是功能上可操作的逻辑分区，该逻辑分区至少最初有能力执行处理从主机2接收的任务。另外，源逻辑分区是资源可从其上移除的逻辑分区。相反地，目标逻辑分区是资源可分配到其上的逻辑分区。在图3的实施例中，处理综合体8b的第三逻辑分区16b1可作为源逻辑分区而***作，而处理综合体8b的第四逻辑分区16b2可作为目标逻辑分区而***作。

在图解的实施例中，源逻辑分区16a1、16b1代表主机2执行输入/输出或其它处理操作。例如，逻辑分区16a1可从诸如存储***4的共享资源读取数据或向其写入数据。每一个活动的逻辑分区16a1、16b1有权访问诸如一个或多个输入/输出适配器300a、300b、......、300n的共享资源，所述的输入/输出适配器包含主机适配器22a、22b、......、22n以接收来自主机2的处理任务。这些处理任务和其相关的处理数据可临时地存储在非易失性存储器21a、21b和高速缓冲存储器23a、23b中，它们被分配给各自的逻辑分区16a1、16b1。

逻辑分区16a1、16b1有权访问的输入/输出适配器300a、300b、......、300n也包含设备适配器24a、24b、......、24n以根据正被执行的具体的输入/输出操作向存储***4写入来自主机2的输出数据和从存储***4接收要转发给主机2的所读取的输入数据。为执行这些处理操作，逻辑分区16a1、16b1可各自被分配相关的处理综合体8a、8b的分区资源的实质部分。因此，例如，源逻辑分区16a1可被分配处理综合体8a大部分的CPU资源、存储器资源和其它动态可分配的分区资源。将动态可分配分区资源分配给任何一个源逻辑分区的百分比可取决于处理综合体中源和目标逻辑分区的数量和每一个源逻辑分区的相对工作负荷。

为了诸如输入/输出操作的处理操作的执行，每一个源逻辑分区16a1、16a2也包含软件代码302a1、302b1。软件代码302a1、302b1代表操作***代码、应用程序软件代码、固件代码或任何为指导逻辑分区的一个或多个部分的操作的其它代码。在这个例子中，软件代码302a1、302b1是代码的一个特殊版本或等级，由标记“等级1.0”代表。

在另一项操作中，新的软件代码302a2、302b2可安装(方框204)在目标逻辑分区上，诸如目标逻辑分区16a2、16b2。在这个例子中，新的软件代码302a2、302b2是代码等级1.0的一个更新后的或较新的版本或等级。这个代码的更新后的或较新的版本或等级由标记“等级1.1”代表。代码在目标逻辑分区16a2、16b2上的更新可独立地执行，不影响逻辑分区16a1、16b1正在进行的输入/输出或其它操作的处理。

在图解的实施例中，当软件代码302a2、302b2正被更新时，目标逻辑分区16a2、16b2可不代表主机2执行处理操作。因此，目标逻辑分区16a2、16b2可无权访问包含相关处理综合体8a、8b的高速缓冲存储器23a、23b和非易失性存储器21a、21b在内的共享资源。例如，在代码更新期间，每一个目标逻辑分区16a2、16b2可无权访问共享主机适配器22a、22b、......、22n，其原因是目标逻辑分区16a2、16b2可不接收来自主机2的处理任务。因此，处理任务和其相关的处理数据可不存储在被分配给目标逻辑分区的存储器中。

同样地，在图解的实施例中，目标逻辑分区16a2、16b2可无权访问共享资源输入/输出适配器300a、300b、......、300n的设备适配器24a、24b、......、24n，并且可不向存储***4写入来自主机2的输出数据。目标逻辑分区16a2、16b2可不从存储***4接收要转发给主机2所读取的输入数据。

由于在这个例子中，在代码更新期间目标逻辑分区可不执行输入/输出或其它处理操作，所以先于更新代码，目标逻辑分区16a2、16b2可各自被分配有关的处理综合体8a、8b的分区资源中相对小的部分。因此，例如，目标逻辑分区16a2可被适当地分配单个CPU或一个CPU的一部分以及少量的存储器资源和处理综合体8a的其它动态可分配的分区资源，以维持目标逻辑分区。例如，目标逻辑分区16a2可被分配充足的存储器以维持操作***的操作而只需要少量或不需要附加的可操作的存储器。

在图解的实施例中，源逻辑分区16a1在非易失性存储器21a的数据结构中维持状态信息。该状态信息涉及集群6的各种状态机的各种状态。集群状态信息的同步副本可由源逻辑分区16b1同样地维持于非易失性存储器21b中的数据结构中。这个状态信息的集合促进对由集群6的活动的逻辑分区16a1、16b1代表主机2正执行的处理操作的控制。逻辑分区16a1、16b1可相互之间交换状态信息以促进每一个活动的分区维持当前涉及集群操作的状态信息。另外，源逻辑分区可维持数据结构，其促进处理操作的执行，以响应从主机2接收的处理任务。

比较起来，在代码更新期间，目标逻辑分区16a2、16b2可不为主机2执行I/O操作，并可不维持涉及那些I/O操作的数据结构。同样地，在代码更新期间，目标逻辑分区16a2、16b2可不与其它逻辑分区交换集群状态信息。

应当注意，在一些实施例中，目标逻辑分区16a2、16b2可执行有限的I/O操作并共享资源300可具有有限的访问权。在一些实施例中，目标逻辑分区16a2、16b2可维持有限的集群状态数据结构和有限的I/O操作数据结构。根据特定的应用，这些有限的数量的量值可不同。尽管如此，在很多实施例中，由目标逻辑分区16a2、16b2承担的操作、维持的数据结构、利用的分区或共享资源可充分地少于更活跃的源逻辑分区。

在为目标逻辑分区16a2更新代码302a2之前或之后，可将对诸如高速缓冲存储器23a和非易失性存储器21a一样的处理综合体8a的节点资源的控制扩展到目标逻辑分区16a2和源逻辑分区16a1。可将诸如由I/O适配器300a、......、300b代表的共享资源一样的其它节点资源扩展到目标逻辑分区16a2。

在图解的实施例中，目标逻辑分区16a2可从源逻辑分区16a1获得对高速缓冲存储器23a、非易失性存储器21a和包括主机适配器22a、22b、......、22n和设备适配器24a、24b、......、24n在内的共享资源300a、......、300b的配置数据。一旦逻辑分区16a2接收到适当信息的同步副本，逻辑分区16a2可配置高速缓冲存储器23a、非易失性存储器21a和共享资源300a、......、300b以允许由目标逻辑分区16a2使用这些资源。以同样方式，一旦逻辑分区16b2接收到适当信息的同步副本，逻辑分区16b2可配置高速缓冲存储器23b、非易失性存储器21b和共享资源300c、......、300n以允许由目标逻辑分区16b2使用这些资源。

在另一项操作中，可静默(方框206)源逻辑分区16a1到待机模式以导致输入/输出或其它的处理操作从源逻辑分区16a1到第二处理综合体8b的源逻辑分区16b1的故障转移。此时，集群6的处理操作正由处理综合体8b的一个或多个逻辑分区执行。另外，分配给源分区16a1或由其控制的分区资源被静默。因此，这些分区资源被停止并被置于管理程序模块26a的控制之下。

当更新了目标逻辑分区16a2到软件代码302a2的更高等级(等级1.1)并静默了源逻辑分区16a1，可将之前分配给源逻辑分区16a1的资源转移(方框206)到目标逻辑分区16a2以使目标逻辑分区16a2准备承担输入/输出或其它处理操作。应当理解在故障转移操作之前或之后或在代码更新操作之前或之后，可将分区资源从源逻辑分区16a1转移到目标逻辑分区16a2。

在图解的实施例中，分区资源的动态重新分配可由模块14a、26a完成。因此，在这个例子中，目标逻辑分区16a2可在软件代码302a2更新完成时向监管模块14a传送消息。作为响应，监管模块14a可向管理程序模块26a发送命令，指令它将静默的分区资源从源逻辑分区16a1重新分配到目标逻辑分区16a2以扩展目标逻辑分区的性能。另外，监管模块14a可向逻辑分区16a2发送网络请求，指令它从管理程序模块26a获得静默的分区资源并为了逻辑分区16a2的使用而配置它。

将分配给诸如逻辑分区16a1的源逻辑分区的分区资源转移到诸如逻辑分区16a2的目标逻辑分区的操作，可对适当的多个分区资源执行以在逻辑分区16a1、16a2之间适当地重新分配I/O工作负荷。由于逻辑分区16a2得到诸如附加的处理和存储器资源一样的分区资源，例如，可由逻辑分区16a2承担的处理操作上的工作负荷的数量增加。

一旦目标逻辑分区获得充足的资源，可将一部分处理操作工作负荷可从第二处理综合体8b的源逻辑分区16b1转移(方框212)到第一处理综合体8a的目标逻辑分区16a2。在这种转移的一个实施例中，第二处理综合体8b的源逻辑分区16b1的处理操作的第一部分，可在故障恢复操作之后被转移到第一处理综合体8a的目标逻辑分区16a2。在这种故障恢复操作中，可将集群状态信息的副本转移到目标逻辑分区16a2以致目标逻辑分区16a2可以在非易失性存储器21a的数据结构中维持属于自己的集群状态信息的同步副本。目标逻辑分区16a2可从源逻辑分区16b1获得的附加信息包括不运行的主机2的列表，以及I/O操作由集群6根据其执行的主机2的列表。另外，逻辑分区16a2可以维持在由集群6执行I/O操作中使用的数据结构的同步副本。当收到这个信息时，处理操作可以由目标逻辑分区16a2恢复。根据特定的应用，这可涉及目标逻辑分区16a2的功能性代码302a2的热启动。处理操作从处理综合体8b的源逻辑分区16b1转移到逻辑分区16a2之后，诸如输入/输出操作的处理操作可由处理综合体8b的源逻辑分区16b1和处理综合体8a的目标逻辑分区16a2两者执行。

根据这里提供的说明的一个方面，处理操作由第二处理综合体8b单独执行的时间的长度可减少，其原因为目标逻辑分区16a2的代码更新先于故障转移和故障恢复操作。尽管如此，应当理解在其它实施例和其它应用中，可实现其它方面。

在另一项操作中，可静默(方框214)处理综合体8b的源逻辑分区16b1到待机模式以导致处理操作的第二部分从源逻辑分区16b1到第一处理综合体8a的目标逻辑分区16a2的故障转移。在这时，集群6的处理操作正由处理综合体8a的一个或多个逻辑分区执行。采用更新后的处于更高等级1.1的代码302a2，正由目标逻辑分区16a2执行的那些操作被执行。另外，分配给源分区16b1或由其控制的分区资源被静默。因此，这些分区资源被停止并被置于管理程序模块26b的控制之下。

当更新了目标逻辑分区16b2到软件代码302a2的更高等级(等级1.1)并静默了源逻辑分区16b1，可将之前分配给源逻辑分区16b1的资源转移(方框218)到目标逻辑分区16b2以使目标逻辑分区16b2准备承担处理操作。

在图解的实施例中，分区资源的动态重新分配可由模块14b、26b完成。因此，在这个例子中，目标逻辑分区16b2可在软件代码302b2更新完成时向监管模块14b传送消息。作为响应，监管模块14b可以向管理程序模块26b发送命令，指令它将静默的分区资源从源逻辑分区16b1重新分配到目标逻辑分区16b2以扩展目标逻辑分区16b2的性能。另外，监管模块14b可向逻辑分区16b2发送网络请求，指令它从管理程序模块26b获得静默的分区资源并为逻辑分区16b2的使用而配置它。

将分配给诸如逻辑分区16b1的源逻辑分区的分区资源转移到诸如逻辑分区16b2的目标逻辑分区的操作，可对适当的多个分区资源执行以在逻辑分区之间适当地重新分配I/O工作负荷。由于逻辑分区16b2得到诸如附加的处理和存储器资源一样的分区资源，例如，可由逻辑分区16b2承担的处理操作上的工作负荷的数量增加。

一旦目标逻辑分区16b2获得充足的资源，可将一部分处理操作工作负荷从第一处理综合体8a的目标逻辑分区16a2转移(方框220)到第二处理综合体8b的目标逻辑分区16b2。在这种转移的一个实施例中，目标逻辑分区16a2的处理操作的第一部分，可在故障恢复操作中被转移到目标逻辑分区16b2。

在这种故障恢复操作中，可将集群状态信息的副本转移到目标逻辑分区16b2以致目标逻辑分区16b2可以在非易失性存储器21b的数据结构中维持属于自己的集群状态信息的同步副本。目标逻辑分区16b2可从目标逻辑分区16a 2获得的附加信息包括不运行的主机2的列表，以及I/O操作由集群6根据其执行的主机2的列表。另外，逻辑分区16b2可以维持在由集群6执行I/O操作中使用的数据结构的同步副本。

当收到这个信息时，处理操作可以由目标逻辑分区16b2恢复。根据特定的应用，这可涉及目标逻辑分区16b2的功能性代码302b2的热启动。处理操作从处理综合体8a的目标逻辑分区16a2转移到处理综合体8b的目标逻辑分区16b2之后，处理操作可由处理综合体8a、8b的目标逻辑分区16a2、16b2两者分别地执行。而且，正被逻辑分区16a2、16b2执行的代码处于更新后的等级1.1。

另一方面，通过依照相似的操作次序，如果适当，则逻辑分区的代码更新可容易地被退回到原始的等级。因此，例如，可静默(方框206)操作处于更新后的等级1.1的代码302a2的逻辑分区16a2以导致从逻辑分区16a2到处理综合体8b的逻辑分区16b2的故障转移。资源可从逻辑分区16a2被转移(方框208)到处理综合体8a的逻辑分区16a1。可将处理综合体8b的逻辑分区16b2的一部分工作负荷转移(方框212)到操作处于原始等级1.0的代码302a1的逻辑分区16a1。静默(方框214)处理综合体8b的逻辑分区16b2以导致处理综合体8b的逻辑分区16b2的剩余工作负荷到处理综合体8a的逻辑分区16a1的故障转移。资源可从逻辑分区16b2被转移(方框218)到处理综合体8b的逻辑分区16b1。可将处理综合体8a的逻辑分区16a1的一部分工作负荷转移(方框220)到操作处于原始等级1.0的代码302b1的逻辑分区16b1。因此，在处理操作从处理综合体8a的逻辑分区16a1转移到处理综合体8b的逻辑分区16b1之后，处理操作可由处理综合体8a、8b的逻辑分区16a1、16b1两者分别地执行。此外，正由逻辑分区16a1、16b1执行的代码处于原始的等级1.0。

附加的实施例详述

已描述的操作可作为方法、装置或使用标准编程与/或工程技术产生软件、固件、硬件、或任何它们的组合的产品来实现。如这里使用的术语“产品”指的是在有形的介质中实现的代码或逻辑，这种有形的介质可包含硬件逻辑(例如集成电路芯片、可编程门阵列(PGA，Programmable Gate Array)、专用集成电路(ASIC，Application Specific Integrated Circuit)等)或计算机可读介质，诸如磁存储介质(例如硬盘驱动器、软盘、磁带等)、光学存储器(CD-ROM、光盘等)、易失的和非易失存储器器件(例如EEPROM、ROM、PROM、RAM、DRAM、SRAM、固件、可编程逻辑等)。计算机可读介质中的代码由处理器访问和执行。代码或逻辑被编码于其中的有形的介质也可包含在空间传播的传输信号或传输介质，诸如光纤、铜线等。代码或逻辑被编码于其中的传输信号可进一步包含无线信号、卫星传输、无线电波、红外信号、蓝牙等。代码或逻辑被编码于其中的传输信号可以由传送站传送和由接收站接收，在接收和传送站或设备处在传输信号中编码的代码或逻辑可被解码和存储在硬件或计算机可读介质中。另外，“产品”可包含硬件和软件组件的组合，在这些组件中代码被具体表达、处理和运行。当然，本领域的技术人员将认识到在不脱离本发明的范围的情况下可对这个配置做出很多修改，并且所述产品可包含本领域已知的任何信息承载介质。

术语“一个实施例”、“实施例”、“该实施例”、“多个实施例”、“一个或多个实施例”、“一些实施例”意思是“本发明的一个或多个(但不是所有的)实施例”，否则除非特殊说明。

术语“包括”、“包含”、“具有”和它们的变形意思是“包括但不限于”，否则除非特殊说明。

列举的条目列表不意味着任何或所有的条目相互排斥，否则除非特殊说明。

术语“一个”意思是“一个或多个”，否则除非特殊说明。

相互通信中的设备不必相互连续通信，否则除非特殊说明。另外，相互通信中的设备可直接通信或通过一个或多个中介物间接通信。

具有数个组件相互通信的实施例的描述不意味着所有的这种组件是必要的。正相反，描述多种可选的组件以阐明本发明可能的实施例的广泛种类。

进一步，尽管处理操作、方法操作、算法等可以次序的顺序被描述，这种处理、方法和算法可被配置以交替顺序来工作。换句话说，操作的任何次序或顺序可以被描述，但不必表示操作需要以那种顺序来执行。这里描述的处理的操作可以任何实际的顺序来执行。进一步，一些操作可同时被执行。

当单个设备或物品在这里被描述时，显而易见的是一个以上的设备/物品(无论他们是否协作)可被用以替代单个设备/物品。同样地，当在这里描述一个以上的设备或物品(无论他们是否协作)时，显而易见的是单个设备/物品可被周以替代一个以上的设备/物品。

设备的功能性与/或特征可由一个或多个其它设备可替换地来体现，它们没有被明确地描述具有这样的功能性/特征。因此，本发明的其它实施例不需要包括设备本身。

特定实施例可被指向由人部署计算指令或是自动地处理将计算机可读代码集成到计算***的方法，在其中与计算***结合的代码被赋能于执行已述实施例的操作。

图2图解的操作显示特定的事件以特定的顺序发生。在备选的实施例中，特定的操作可以不同的顺序被执行、修改或移除。此外，一些步骤可被增加到已述逻辑并仍符合已述实施例。进一步，这里已述的操作可顺序地发生或是特定的操作可并行地被处理。再进一步，操作可由单个处理单元或由分布的处理单元来执行。

特定操作已描述为以对等方式发生在逻辑分区之间。其它操作已被描述为以管理硬件或软件来完成。应当理解操作可以对等方法或是以管理的方法或是以组合的方式被完成。

服务器集群在上面已被描述具有两个处理综合体，其中每一个在常见操作中具有一个源逻辑分区和一个目标逻辑分区。应当理解在其它实施例中，服务器集群可具有单个处理综合体或两个以上的处理综合体，并且每个处理综合体可具有一个以上的源或目标逻辑分区。

前述的各种实施例的说明已为阐明和说明的目标而被呈现。它不意味着是没有遗漏的或是将说明局限在已公开的精确形式上。按照上面的示教很多修改和变化是可能发生的。

Claims

1.一种集群代码管理的方法，包含：

在服务器集群的第一处理综合体中的第一逻辑分区中执行处理操作，其中所述第一逻辑分区使用处于第一等级的软件代码来操作；

在所述第一处理综合体的第二逻辑分区中将软件代码从所述第一等级转变为第二等级同时继续在第一逻辑分区执行处理操作；以及

将处理操作从所述第一处理综合体中的所述第一逻辑分区第一转移到所述服务器集群的第二处理综合体中的第三逻辑分区。

2.如权利要求1所述的方法，其中，所述的处理操作的第一转移包括静默所述第一逻辑分区以导致处理操作从所述第一处理综合体中的所述第一逻辑分区到所述第二处理综合体中的所述第三逻辑分区的故障转移。

3.如权利要求2所述的方法，进一步包含在静默所述第一逻辑分区之后，从所述第一逻辑分区转移分区资源到所述第二逻辑分区。

4.如权利要求3所述的方法，其中，所述分区资源包括处理器资源、存储器资源和高速缓冲存储器资源。

5.如权利要求4所述的方法，进一步包含执行故障恢复操作，所述故障恢复操作包括在所述第二逻辑分区中将所述软件代码从第一等级转变到第二等级之后，将处理操作的第一部分从所述第二处理综合体中的所述第三逻辑分区转移到所述第一处理综合体中的所述第二逻辑分区，其中所述第二逻辑分区使用处于所述第二等级的软件代码来操作。

6.如权利要求5所述的方法，进一步包含：

将所述第二处理综合体中的第四逻辑分区中的软件代码从所述第一等级转变为第二等级，同时继续在第三逻辑分区中执行处理操作；以及

将处理操作的第二部分从所述第二处理综合体中的所述第三逻辑分区转移到所述服务器集群的所述第一处理综合体中的所述第二逻辑分区。

7.如权利要求6所述的方法，其中，所述处理操作的第二部分的转移包括静默所述第三逻辑分区以导致处理操作从所述第二处理综合体中的所述第三逻辑分区到所述第一处理综合体中的所述第二逻辑分区的故障转移。

8.如权利要求6所述的方法，进一步包含在静默所述第三逻辑分区之后，从所述第三逻辑分区转移分区资源到所述第四逻辑分区。

9.如权利要求8所述的方法，进一步包含在所述第四逻辑分区中的将所述软件代码从第一等级转变为第二等级之后，将一部分处理操作从所述第一处理综合体中的所述第二逻辑分区转移到所述第二处理综合体中的所述第四逻辑分区，其中所述第四逻辑分区使用处于所述第二等级的软件代码来操作。

10.一种集群代码管理的***，包含：

具有第一处理综合体的服务器集群，其中所述第一处理综合体具有第一逻辑分区，所述第一逻辑分区具有适合于存储处于第一等级的软件代码的存储器和适合于在所述第一逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路，所述第一处理综合体进一步具有第二逻辑分区，所述第二逻辑分区具有适合于存储处于所述第一等级的软件代码的存储器和适合于在所述第二逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路，所述服务器集群进一步具有第二处理综合体，所述第二处理综合体具有第三逻辑分区，所述第三逻辑分区具有适合于存储处于第一等级的软件代码的存储器和适合于在所述第三逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路，所述第二处理综合体进一步具有第四逻辑分区，所述第四逻辑分区具有适合于存储处于所述第一等级的软件代码的存储器和适合于在所述第四逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路；

其中，所述第一处理综合体具有逻辑电路以适合于：

1)将所述第一处理综合体的所述第二逻辑分区中的软件代码从所述第一等级转变为第二等级，同时所述第一逻辑分区的逻辑电路继续执行第一逻辑分区中的处理操作；以及

2)将处理操作从所述第一处理综合体中的所述第一逻辑分区转移到所述服务器集群的第二处理综合体中的第三逻辑分区。

11.如权利要求10所述的***，其中，所述处理操作的转移包括静默所述第一逻辑分区以导致处理操作从所述第一处理综合体中的所述第一逻辑分区到所述第二处理综合体中的所述第三逻辑分区的故障转移。

12.如权利要求11所述的***，其中，所述处理综合体的逻辑电路进一步适合于在静默所述第一逻辑分区之后，将分区资源从所述第一逻辑分区转移到所述第二逻辑分区。

13.如权利要求12所述的***，其中，所述分区资源包括处理器资源、存储器资源和高速缓冲存储器资源。

14.如权利要求13所述的***，其中，所述第二处理综合体具有适合于执行故障恢复操作的逻辑电路，所述故障恢复操作包括将处理操作的第一部分从所述第二处理综合体中的所述第三逻辑分区转移到所述第一处理综合体中的所述第二逻辑分区，其中所述第二逻辑分区使用处于所述第二等级的软件代码来操作。

15.如权利要求14所述的***，其中，所述第二处理综合体的逻辑电路进一步适合于：

将所述第二处理综合体的所述第四逻辑分区中的软件代码从所述第一等级转变为第二等级，同时所述第三逻辑分区的逻辑电路继续执行第三逻辑分区中的处理操作；以及

将处理操作的第二部分从所述第二处理综合体中的所述第三逻辑分区转移到所述服务器集群的第一处理综合体中的第二逻辑分区。

16.如权利要求15所述的***，其中，处理操作的第二部分的所述转移包括静默所述第三逻辑分区以导致处理操作从所述第二处理综合体中的所述第三逻辑分区到所述第一处理综合体中的所述第二逻辑分区的故障转移。

17.如权利要求15所述的***，其中，所述第二处理综合体的逻辑电路进一步适合于在静默所述第三逻辑分区之后，将分区资源从所述第三逻辑分区转移到所述第四逻辑分区。

18.如权利要求17所述的***，其中，所述第二处理综合体的逻辑电路进一步适合于在所述第四逻辑分区中将所述软件代码从第一等级转变为第二等级之后将一部分处理操作从所述第一处理综合体中的所述第二逻辑分区转移到所述第二处理综合体中的所述第四逻辑分区，其中所述第四逻辑分区使用处于所述第二等级的软件代码来操作。