CN100478894C - 集群代码管理的方法和*** - Google Patents

集群代码管理的方法和*** Download PDF

Info

Publication number
CN100478894C
CN100478894C CN200610073649.1A CN200610073649A CN100478894C CN 100478894 C CN100478894 C CN 100478894C CN 200610073649 A CN200610073649 A CN 200610073649A CN 100478894 C CN100478894 C CN 100478894C
Authority
CN
China
Prior art keywords
logical partition
synthesis
handling
processing
logical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200610073649.1A
Other languages
English (en)
Other versions
CN1892606A (zh
Inventor
迈克尔·H·哈通
许育诚
格伦·R·怀特威克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1892606A publication Critical patent/CN1892606A/zh
Application granted granted Critical
Publication of CN100478894C publication Critical patent/CN100478894C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

服务器集群的第一处理综合体中的第一逻辑分区***作于软件代码的第一等级。在同一处理综合体中的第二逻辑分区中的软件代码被转变为第二等级。处理操作被从第一处理综合体中的第一逻辑分区转移到服务器集群的第二处理综合体中的第三逻辑分区。另一方面,处理操作的转移包括静默第一逻辑分区以导致处理操作从第一处理综合体中的第一逻辑分区到第二处理综合体中的第三逻辑分区的故障转移。另一方面,故障恢复操作被执行并且处理操作的第一部分被从第二处理综合体中的第三逻辑分区转移到第一处理综合体中的第二逻辑分区。另一方面,处理操作的第二部分可被从第二处理综合体中的第三逻辑分区转移到服务器集群的第一处理综合体中的第二逻辑分区。

Description

集群代码管理的方法和***
技术领域
本发明涉及集群中对于代码更新的管理。
背景技术
在特定的计算环境中,多主机***可与控制单元通信,例如IBM企业存储服务器(ESS,Enterprise Storage Server)
Figure C20061007364900051
,它提供对存储设备的访问权,诸如通过一条或多条逻辑路径访问互联硬盘驱动器(IBM和ESS是IBM的注册商标)。将互联驱动器可以配置为直接访问存储设备(DASD,DirectAccess Storage Device)、独立磁盘冗余阵列(RAID,Redundant Array ofIndependent Disks)、简单磁盘捆绑(JBOD,Just a Bunch of Disks)等。控制单元(也被认为是集群)可包括完全一致的且冗余的处理节点(也被认为是处理综合体),以顾及如果一个发生故障,则向剩余的无故障的处理综合体的故障转移(failover)。处理综合体可访问诸如输入/输出(I/O)适配器、存储适配器和存储设备一样的共享资源。
处理综合体可执行各种处理操作,例如,诸如输入/输出操作或其它计算。故障转移操作可以自动地将输入/输出或其它处理操作从故障的或者因维修而关闭的处理综合体切换到另一个处理综合体。一旦故障的或者正被维修的处理综合体即将恢复操作,操作可在故障恢复(failback)操作之后被转移回来。
为了更新软件或是其它正被服务器集群的处理综合体运行的代码,可静默(quiesce)一个处理综合体,导致在故障转移操作中该处理综合体的输入/输出或者其它处理操作被服务器集群的其它的一个或多个处理综合体接管。之后,可更新被静默的处理综合体的代码。在对特定处理综合体的代码更新之后,该处理综合体可在故障恢复操作之后恢复(resume)执行处理操作,在故障恢复操作中处理操作被从另一个处理综合体中转移。这个更新过程可对于服务器节点的剩余的处理综合体而被重复。
每一个处理综合体的资源可被分成多个逻辑分区(LPAR,LogicalPartition),在其中计算机的处理器、存储器和硬件资源被分成多重环境。可以独立地操作每一个环境,它具有自己的操作***和应用程序。处理综合体的逻辑分区增加了单个服务器上工作负荷管理的灵活性,它具有将单机划分成多个具有其自己的成套***资源的逻辑服务器的能力。每一个分区的资源可以各种数量和组合被组合。同样,逻辑硬件分区的数量可以根据硬件***而创建。
动态逻辑分区(DLPAR,Dynamic Logical Partitioning),通过提供不用重新启动在逻辑上将处理综合体的资源连接到逻辑分区的操作***和从其上释放的能力,扩展了LPAR的能力。这种资源分配不仅可以在激活逻辑分区时,而且可以在分区正在运行时发生。可以将处理器、存储器、I/O适配器和其它分区资源释放到一个“空闲池”、从该空闲池获得、或以各种数量或组合直接地从一个分区移动到处理综合体中的另一个分区。尽管如此,每一个分区通常具有至少一个处理器、存储器、与启动设备关联的I/O适配器、以及网络适配器。
LPAR资源从一个硬件分区到处理综合体中的另一个的移动可由一个监管模块管理。为转移分区资源,监管模块可以向“拥有”该分区资源的逻辑分区发送网络请求,要求该逻辑分区释放这个特定的分区资源并使它进入静默状态。以这种方式,停止该分区资源,并置于在管理程序模块的控制下。监管模块可以向管理程序发送命令,指令它重新分配分区资源从之前的逻辑分区到另一个逻辑分区。另外,监管模块可以向两者中的另一个逻辑分区发送网络请求,指令它从管理程序模块获得分区资源并为该逻辑分区的使用而配置它。
发明内容
服务器集群的第一处理综合体中的第一逻辑分区***作于软件代码的第一等级。在同一处理综合体中的第二逻辑分区中的软件代码被转变为第二等级。处理操作被从第一处理综合体中的第一逻辑分区转移到服务器集群的第二处理综合体中的第三逻辑分区。
另一方面,处理操作的转移包括静默第一逻辑分区以导致处理操作从第一处理综合体中的第一逻辑分区到第二处理综合体中的第三逻辑分区的故障转移。
仍是另一方面,分区资源在静默第一逻辑分区之后被从第一逻辑分区转移到第二逻辑分区。该分区资源可包括,例如,处理、存储器和高速缓冲存储器资源。
另一方面,故障恢复操作被执行并且处理操作的第一部分被从第二处理综合体中的第三逻辑分区转移到第一处理综合体中的第二逻辑分区。该故障恢复可在第二逻辑分区中的软件改变之后被执行,在其中第二逻辑分区使用处于第二等级的软件代码来操作。
依然是另一方面,处理操作的第二部分可被从第二处理综合体中的第三逻辑分区转移到服务器集群的第一处理综合体中的第二逻辑分区。在一个例子中,处理操作的第二部分的转移包括静默第三逻辑分区以导致处理操作从第二处理综合体中的第三逻辑分区到第一处理综合体中的第二逻辑分区的故障转移。其它实施例被描述和要求。
附图说明
图1图解了实施例可实现于其中的计算环境的一个例子。
图2图解了处理综合体的逻辑分区中更新软件代码的操作的一个例子。
图3是处理综合体中的源逻辑分区和目标逻辑分区的一个例子的原理图。
具体实施方式
图1图解了在其中采用本说明书的某些方面的计算环境的例子。一个或多个主机2向控制单元或集群6传达输入/输出(I/O)任务或其它被指向存储***4的处理请求,其中集群6管理对存储***4的访问权。在一个实施例中,集群6由两个处理节点或综合体8a、8b组成,其中每一个包含处理器10a、10b和存储器12a、12b。每一个处理器10a、10b可以包含对于相关的处理综合体8a、8b来说可作为处理资源使用的一个或多个中央处理器(CPU,Central Processing Unit)。
每一个处理综合体包含监管模块14a、14b。监管模块14a、14b包含代码,所述代码管理和协调在处理综合体8a、8b中运行的一个或多个逻辑分区16a、16b的操作。每一个逻辑分区16a、16b分别运行操作***18a、18b和设备驱动程序20a、20b。逻辑分区包含将由处理器10a、10b划分为各自具有其自己的操作***18a、18b和设备驱动程序20a、20b的逻辑独立处理***。多重逻辑分区可在每一个处理综合体中运行,并由该综合体的监管模块管理。
在图解的实施例中,逻辑分区16a在存储于处理综合体8a的非易失性存储器21a中的数据结构中维持状态信息。这个状态信息标识集群6的各种状态机的各种状态。集群状态信息的同步副本由逻辑分区16b相似地维持于存储在处理综合体8b的非易失性存储器21b中的数据结构中。这个状态信息促进对处理操作的控制,所述处理操作包含由集群6的逻辑分区16a、16b代表主机2来执行的输入/输出操作。逻辑分区16a、16b可相互之间交换状态信息以促进每一个活动的分区维持当前涉及集群操作的状态信息。另外,逻辑分区在非易失性存储器21a、21b中维持其它数据结构,其促进响应于从主机2所接收的处理任务的处理操作的执行,例如诸如输入/输出任务。每一个逻辑分区16a、16b也有权访问高速缓冲存储器23a、23b,以使为了执行从主机2接收的处理任务而存储数据。
每一个设备驱动程序20a、20b在设备驱动程序20a、20b运行于其中的逻辑分区16a、16b中的操作***18a、18b和诸如主机适配器22a、22b、......、22n和设备适配器24a、24b、......、24n一样的外部设备之间提供一个接口。主机适配器22a、22b、......、22n使处理综合体8a、8b能够与主机2通信,而设备适配器24a、24b、......、24n使处理综合体8a、8b能够与存储***4通信。因此,处理综合体8a、8b共享诸如适配器22a、22b、......、22n、24a、24b、......、24n一样的设备。变量“n”用于表示元件的整数实例,并当用于不同的元件时可代表不同或相同的整数值。例如,22n和24n可代表主机适配器22n和设备适配器24n的相同或不同的号码。
处理综合体8a、8b与主机适配器22a、22b、......、22n通过光纤网30a通信,而与设备适配器24a、24b、......、24n通过光纤网(fabric)30b通信。光纤网30a、30b可包含一个或多个在处理综合体8a、8b与适配器之间提供通信路径的接口。路径包含光纤网30a、30b中的硬件,所述硬件允许通过光纤网与共享的适配器进行通信。在一个实施例中,所述光纤网可包含光纤信道仲裁环路构造、串行环路体系结构或总线诸如外设部件互连(PCI,Peripheral Component Interconnect)接口一样的接口。每一个处理综合体8a、8b可被分配适配器22a、22b、......、22n、24a、24b、......、24n中的一部分并且在初始化期间,处理综合体8a、8b有责任初始化部分的光纤网30a、30b,这部分的光纤网30a、30b为分配给该处理综合体的适配器提供通信路径。例如,如果处理综合体8a被分配了适配器22a、22b、24a、24b,那么处理综合体8a要初始化和配置光纤网30a、30b中在处理综合体8a与适配器22a、22b、24a、24b之间提供通信路径的那部分。同样地,如果处理综合体8b被分配了适配器22c(未显示)、......、22n和24c(未显示)、......、24n,那么处理综合体8b要初始化和配置光纤网30a、30b和路径中的使得处理综合体8b与适配器22c、......22n和24c、......、24n之间通信的那部分。配置光纤网30a、30b包含设置光纤网硬件中的寄存器,所述硬件例如光纤信道环路硬件、串行环路体系结构硬件或总线接口硬件,以及执行其它初始化和恢复相关的操作。每一个独立的适配器22a、22b、......、22n、24a、24b、......、24n可由处理综合体8a、8b所共享。
与管理程序模块26a、26b有关的监管模块14a、14b维持设备/逻辑分区(LPAR)的分配,这些分配标识了适配器22a、22b、......、22n、24a、24b、......、24n到每一个处理综合体8a、8b中的逻辑分区16a、16b的每一个分配,如此以致特定的适配器22a、22b、......、22n、24a、24b、......、24n与处理综合体8a、8b之间的通信由设备驱动程序20a、20b来处理,所述驱动程序20a、20b在逻辑分区16a、16b中运行,所述逻辑分区16a、16b被分配给特定的适配器22a、22b、......、22n、24a、24b、......、24n。
每一个处理综合体8a、8b可处于分离的电功率边界。可分配处理综合体8a、8b去处理指向存储***4中被配置的特定卷的I/O请求。处理综合体8a、8b经过设备适配器24a、24b、......、24n通过设备网络(未显示)与存储***4通信,其可包含局域网(LAN,Local Area Network)、存储区域网络(SAN,Storage Area Network)、总线接口、串行接口等。此外,处理综合体8a、8b通过使得处理器互相通信的连接28进行通信以管理关于共享设备而被执行的配置操作,所述共享设备诸如共享适配器22a、22b、......、22n、24a、24b、......、24n。在备选的实施例中,可只有一个光纤网连接所有的适配器22a、22b、......、22n、24a、24b、......、24n,即光纤网30a、30b可以是单个互连光纤网的一部分,或是两个光纤网,诸如所显示的30a、30b,或是多于两个光纤网。
集群6可包含任何类型的服务器,诸如企业存储服务器、存储控制器等,或者其它用以管理对被附接的存储***4的I/O请求的设备,其中存储***可包含一个或多个本领域已知的存储设备,诸如互连硬盘驱动器(例如配置为DASD、RAID、JBOD等)、磁带、电子存储器等。主机2可经过适配器22a、22b、......、22n、通过网络(未显示)与集群6通信,所述网络诸如局域网(LAN)、本地存储网络(SAN)、广域网(WAN)、无线网络等。或者,主机2可通过总线接口,诸如外设部件互连(PCI)接口或串行接口,与集群6通信。进一步理解为例如集群6也可以是一般的服务器集群,而不仅仅是存储子***或存储控制器。例如,两个服务器可以是运行诸如Lotus Notes的高度有效的集群应用程序的IBM pSeries服务器。
根据本说明书的一个方面,图2图解了集群的操作的一个例子,其中所述集群的处理综合体的代码可用一种方式更新,该方式可以减少处理综合体因代码更新而服务中止的时间长度。在一项操作中,集群在集群的第一节点或处理综合体中操作(方框200)第一逻辑分区和第二逻辑分区。另外,在这个实施例中,集群在集群的第二节点或处理综合体中操作(方框202)第三逻辑分区和第四逻辑分区。
图3是原理性地图解将处理综合体8a的第一逻辑分区16a1作为源逻辑分区来操作的集群6的例子的视图。另外,该处理综合体8a的第二逻辑分区16a2作为目标逻辑分区来操作。如这里使用的,源逻辑分区是功能上可操作的逻辑分区,该逻辑分区至少最初有能力执行处理从主机2接收的任务。另外,源逻辑分区是资源可从其上移除的逻辑分区。相反地,目标逻辑分区是资源可分配到其上的逻辑分区。在图3的实施例中,处理综合体8b的第三逻辑分区16b1可作为源逻辑分区而***作,而处理综合体8b的第四逻辑分区16b2可作为目标逻辑分区而***作。
在图解的实施例中,源逻辑分区16a1、16b1代表主机2执行输入/输出或其它处理操作。例如,逻辑分区16a1可从诸如存储***4的共享资源读取数据或向其写入数据。每一个活动的逻辑分区16a1、16b1有权访问诸如一个或多个输入/输出适配器300a、300b、......、300n的共享资源,所述的输入/输出适配器包含主机适配器22a、22b、......、22n以接收来自主机2的处理任务。这些处理任务和其相关的处理数据可临时地存储在非易失性存储器21a、21b和高速缓冲存储器23a、23b中,它们被分配给各自的逻辑分区16a1、16b1。
逻辑分区16a1、16b1有权访问的输入/输出适配器300a、300b、......、300n也包含设备适配器24a、24b、......、24n以根据正被执行的具体的输入/输出操作向存储***4写入来自主机2的输出数据和从存储***4接收要转发给主机2的所读取的输入数据。为执行这些处理操作,逻辑分区16a1、16b1可各自被分配相关的处理综合体8a、8b的分区资源的实质部分。因此,例如,源逻辑分区16a1可被分配处理综合体8a大部分的CPU资源、存储器资源和其它动态可分配的分区资源。将动态可分配分区资源分配给任何一个源逻辑分区的百分比可取决于处理综合体中源和目标逻辑分区的数量和每一个源逻辑分区的相对工作负荷。
为了诸如输入/输出操作的处理操作的执行,每一个源逻辑分区16a1、16a2也包含软件代码302a1、302b1。软件代码302a1、302b1代表操作***代码、应用程序软件代码、固件代码或任何为指导逻辑分区的一个或多个部分的操作的其它代码。在这个例子中,软件代码302a1、302b1是代码的一个特殊版本或等级,由标记“等级1.0”代表。
在另一项操作中,新的软件代码302a2、302b2可安装(方框204)在目标逻辑分区上,诸如目标逻辑分区16a2、16b2。在这个例子中,新的软件代码302a2、302b2是代码等级1.0的一个更新后的或较新的版本或等级。这个代码的更新后的或较新的版本或等级由标记“等级1.1”代表。代码在目标逻辑分区16a2、16b2上的更新可独立地执行,不影响逻辑分区16a1、16b1正在进行的输入/输出或其它操作的处理。
在图解的实施例中,当软件代码302a2、302b2正被更新时,目标逻辑分区16a2、16b2可不代表主机2执行处理操作。因此,目标逻辑分区16a2、16b2可无权访问包含相关处理综合体8a、8b的高速缓冲存储器23a、23b和非易失性存储器21a、21b在内的共享资源。例如,在代码更新期间,每一个目标逻辑分区16a2、16b2可无权访问共享主机适配器22a、22b、......、22n,其原因是目标逻辑分区16a2、16b2可不接收来自主机2的处理任务。因此,处理任务和其相关的处理数据可不存储在被分配给目标逻辑分区的存储器中。
同样地,在图解的实施例中,目标逻辑分区16a2、16b2可无权访问共享资源输入/输出适配器300a、300b、......、300n的设备适配器24a、24b、......、24n,并且可不向存储***4写入来自主机2的输出数据。目标逻辑分区16a2、16b2可不从存储***4接收要转发给主机2所读取的输入数据。
由于在这个例子中,在代码更新期间目标逻辑分区可不执行输入/输出或其它处理操作,所以先于更新代码,目标逻辑分区16a2、16b2可各自被分配有关的处理综合体8a、8b的分区资源中相对小的部分。因此,例如,目标逻辑分区16a2可被适当地分配单个CPU或一个CPU的一部分以及少量的存储器资源和处理综合体8a的其它动态可分配的分区资源,以维持目标逻辑分区。例如,目标逻辑分区16a2可被分配充足的存储器以维持操作***的操作而只需要少量或不需要附加的可操作的存储器。
在图解的实施例中,源逻辑分区16a1在非易失性存储器21a的数据结构中维持状态信息。该状态信息涉及集群6的各种状态机的各种状态。集群状态信息的同步副本可由源逻辑分区16b1同样地维持于非易失性存储器21b中的数据结构中。这个状态信息的集合促进对由集群6的活动的逻辑分区16a1、16b1代表主机2正执行的处理操作的控制。逻辑分区16a1、16b1可相互之间交换状态信息以促进每一个活动的分区维持当前涉及集群操作的状态信息。另外,源逻辑分区可维持数据结构,其促进处理操作的执行,以响应从主机2接收的处理任务。
比较起来,在代码更新期间,目标逻辑分区16a2、16b2可不为主机2执行I/O操作,并可不维持涉及那些I/O操作的数据结构。同样地,在代码更新期间,目标逻辑分区16a2、16b2可不与其它逻辑分区交换集群状态信息。
应当注意,在一些实施例中,目标逻辑分区16a2、16b2可执行有限的I/O操作并共享资源300可具有有限的访问权。在一些实施例中,目标逻辑分区16a2、16b2可维持有限的集群状态数据结构和有限的I/O操作数据结构。根据特定的应用,这些有限的数量的量值可不同。尽管如此,在很多实施例中,由目标逻辑分区16a2、16b2承担的操作、维持的数据结构、利用的分区或共享资源可充分地少于更活跃的源逻辑分区。
在为目标逻辑分区16a2更新代码302a2之前或之后,可将对诸如高速缓冲存储器23a和非易失性存储器21a一样的处理综合体8a的节点资源的控制扩展到目标逻辑分区16a2和源逻辑分区16a1。可将诸如由I/O适配器300a、......、300b代表的共享资源一样的其它节点资源扩展到目标逻辑分区16a2。
在图解的实施例中,目标逻辑分区16a2可从源逻辑分区16a1获得对高速缓冲存储器23a、非易失性存储器21a和包括主机适配器22a、22b、......、22n和设备适配器24a、24b、......、24n在内的共享资源300a、......、300b的配置数据。一旦逻辑分区16a2接收到适当信息的同步副本,逻辑分区16a2可配置高速缓冲存储器23a、非易失性存储器21a和共享资源300a、......、300b以允许由目标逻辑分区16a2使用这些资源。以同样方式,一旦逻辑分区16b2接收到适当信息的同步副本,逻辑分区16b2可配置高速缓冲存储器23b、非易失性存储器21b和共享资源300c、......、300n以允许由目标逻辑分区16b2使用这些资源。
在另一项操作中,可静默(方框206)源逻辑分区16a1到待机模式以导致输入/输出或其它的处理操作从源逻辑分区16a1到第二处理综合体8b的源逻辑分区16b1的故障转移。此时,集群6的处理操作正由处理综合体8b的一个或多个逻辑分区执行。另外,分配给源分区16a1或由其控制的分区资源被静默。因此,这些分区资源被停止并被置于管理程序模块26a的控制之下。
当更新了目标逻辑分区16a2到软件代码302a2的更高等级(等级1.1)并静默了源逻辑分区16a1,可将之前分配给源逻辑分区16a1的资源转移(方框206)到目标逻辑分区16a2以使目标逻辑分区16a2准备承担输入/输出或其它处理操作。应当理解在故障转移操作之前或之后或在代码更新操作之前或之后,可将分区资源从源逻辑分区16a1转移到目标逻辑分区16a2。
在图解的实施例中,分区资源的动态重新分配可由模块14a、26a完成。因此,在这个例子中,目标逻辑分区16a2可在软件代码302a2更新完成时向监管模块14a传送消息。作为响应,监管模块14a可向管理程序模块26a发送命令,指令它将静默的分区资源从源逻辑分区16a1重新分配到目标逻辑分区16a2以扩展目标逻辑分区的性能。另外,监管模块14a可向逻辑分区16a2发送网络请求,指令它从管理程序模块26a获得静默的分区资源并为了逻辑分区16a2的使用而配置它。
将分配给诸如逻辑分区16a1的源逻辑分区的分区资源转移到诸如逻辑分区16a2的目标逻辑分区的操作,可对适当的多个分区资源执行以在逻辑分区16a1、16a2之间适当地重新分配I/O工作负荷。由于逻辑分区16a2得到诸如附加的处理和存储器资源一样的分区资源,例如,可由逻辑分区16a2承担的处理操作上的工作负荷的数量增加。
一旦目标逻辑分区获得充足的资源,可将一部分处理操作工作负荷可从第二处理综合体8b的源逻辑分区16b1转移(方框212)到第一处理综合体8a的目标逻辑分区16a2。在这种转移的一个实施例中,第二处理综合体8b的源逻辑分区16b1的处理操作的第一部分,可在故障恢复操作之后被转移到第一处理综合体8a的目标逻辑分区16a2。在这种故障恢复操作中,可将集群状态信息的副本转移到目标逻辑分区16a2以致目标逻辑分区16a2可以在非易失性存储器21a的数据结构中维持属于自己的集群状态信息的同步副本。目标逻辑分区16a2可从源逻辑分区16b1获得的附加信息包括不运行的主机2的列表,以及I/O操作由集群6根据其执行的主机2的列表。另外,逻辑分区16a2可以维持在由集群6执行I/O操作中使用的数据结构的同步副本。当收到这个信息时,处理操作可以由目标逻辑分区16a2恢复。根据特定的应用,这可涉及目标逻辑分区16a2的功能性代码302a2的热启动。处理操作从处理综合体8b的源逻辑分区16b1转移到逻辑分区16a2之后,诸如输入/输出操作的处理操作可由处理综合体8b的源逻辑分区16b1和处理综合体8a的目标逻辑分区16a2两者执行。
根据这里提供的说明的一个方面,处理操作由第二处理综合体8b单独执行的时间的长度可减少,其原因为目标逻辑分区16a2的代码更新先于故障转移和故障恢复操作。尽管如此,应当理解在其它实施例和其它应用中,可实现其它方面。
在另一项操作中,可静默(方框214)处理综合体8b的源逻辑分区16b1到待机模式以导致处理操作的第二部分从源逻辑分区16b1到第一处理综合体8a的目标逻辑分区16a2的故障转移。在这时,集群6的处理操作正由处理综合体8a的一个或多个逻辑分区执行。采用更新后的处于更高等级1.1的代码302a2,正由目标逻辑分区16a2执行的那些操作被执行。另外,分配给源分区16b1或由其控制的分区资源被静默。因此,这些分区资源被停止并被置于管理程序模块26b的控制之下。
当更新了目标逻辑分区16b2到软件代码302a2的更高等级(等级1.1)并静默了源逻辑分区16b1,可将之前分配给源逻辑分区16b1的资源转移(方框218)到目标逻辑分区16b2以使目标逻辑分区16b2准备承担处理操作。
在图解的实施例中,分区资源的动态重新分配可由模块14b、26b完成。因此,在这个例子中,目标逻辑分区16b2可在软件代码302b2更新完成时向监管模块14b传送消息。作为响应,监管模块14b可以向管理程序模块26b发送命令,指令它将静默的分区资源从源逻辑分区16b1重新分配到目标逻辑分区16b2以扩展目标逻辑分区16b2的性能。另外,监管模块14b可向逻辑分区16b2发送网络请求,指令它从管理程序模块26b获得静默的分区资源并为逻辑分区16b2的使用而配置它。
将分配给诸如逻辑分区16b1的源逻辑分区的分区资源转移到诸如逻辑分区16b2的目标逻辑分区的操作,可对适当的多个分区资源执行以在逻辑分区之间适当地重新分配I/O工作负荷。由于逻辑分区16b2得到诸如附加的处理和存储器资源一样的分区资源,例如,可由逻辑分区16b2承担的处理操作上的工作负荷的数量增加。
一旦目标逻辑分区16b2获得充足的资源,可将一部分处理操作工作负荷从第一处理综合体8a的目标逻辑分区16a2转移(方框220)到第二处理综合体8b的目标逻辑分区16b2。在这种转移的一个实施例中,目标逻辑分区16a2的处理操作的第一部分,可在故障恢复操作中被转移到目标逻辑分区16b2。
在这种故障恢复操作中,可将集群状态信息的副本转移到目标逻辑分区16b2以致目标逻辑分区16b2可以在非易失性存储器21b的数据结构中维持属于自己的集群状态信息的同步副本。目标逻辑分区16b2可从目标逻辑分区16a 2获得的附加信息包括不运行的主机2的列表,以及I/O操作由集群6根据其执行的主机2的列表。另外,逻辑分区16b2可以维持在由集群6执行I/O操作中使用的数据结构的同步副本。
当收到这个信息时,处理操作可以由目标逻辑分区16b2恢复。根据特定的应用,这可涉及目标逻辑分区16b2的功能性代码302b2的热启动。处理操作从处理综合体8a的目标逻辑分区16a2转移到处理综合体8b的目标逻辑分区16b2之后,处理操作可由处理综合体8a、8b的目标逻辑分区16a2、16b2两者分别地执行。而且,正被逻辑分区16a2、16b2执行的代码处于更新后的等级1.1。
另一方面,通过依照相似的操作次序,如果适当,则逻辑分区的代码更新可容易地被退回到原始的等级。因此,例如,可静默(方框206)操作处于更新后的等级1.1的代码302a2的逻辑分区16a2以导致从逻辑分区16a2到处理综合体8b的逻辑分区16b2的故障转移。资源可从逻辑分区16a2被转移(方框208)到处理综合体8a的逻辑分区16a1。可将处理综合体8b的逻辑分区16b2的一部分工作负荷转移(方框212)到操作处于原始等级1.0的代码302a1的逻辑分区16a1。静默(方框214)处理综合体8b的逻辑分区16b2以导致处理综合体8b的逻辑分区16b2的剩余工作负荷到处理综合体8a的逻辑分区16a1的故障转移。资源可从逻辑分区16b2被转移(方框218)到处理综合体8b的逻辑分区16b1。可将处理综合体8a的逻辑分区16a1的一部分工作负荷转移(方框220)到操作处于原始等级1.0的代码302b1的逻辑分区16b1。因此,在处理操作从处理综合体8a的逻辑分区16a1转移到处理综合体8b的逻辑分区16b1之后,处理操作可由处理综合体8a、8b的逻辑分区16a1、16b1两者分别地执行。此外,正由逻辑分区16a1、16b1执行的代码处于原始的等级1.0。
附加的实施例详述
已描述的操作可作为方法、装置或使用标准编程与/或工程技术产生软件、固件、硬件、或任何它们的组合的产品来实现。如这里使用的术语“产品”指的是在有形的介质中实现的代码或逻辑,这种有形的介质可包含硬件逻辑(例如集成电路芯片、可编程门阵列(PGA,Programmable Gate Array)、专用集成电路(ASIC,Application Specific Integrated Circuit)等)或计算机可读介质,诸如磁存储介质(例如硬盘驱动器、软盘、磁带等)、光学存储器(CD-ROM、光盘等)、易失的和非易失存储器器件(例如EEPROM、ROM、PROM、RAM、DRAM、SRAM、固件、可编程逻辑等)。计算机可读介质中的代码由处理器访问和执行。代码或逻辑被编码于其中的有形的介质也可包含在空间传播的传输信号或传输介质,诸如光纤、铜线等。代码或逻辑被编码于其中的传输信号可进一步包含无线信号、卫星传输、无线电波、红外信号、蓝牙等。代码或逻辑被编码于其中的传输信号可以由传送站传送和由接收站接收,在接收和传送站或设备处在传输信号中编码的代码或逻辑可被解码和存储在硬件或计算机可读介质中。另外,“产品”可包含硬件和软件组件的组合,在这些组件中代码被具体表达、处理和运行。当然,本领域的技术人员将认识到在不脱离本发明的范围的情况下可对这个配置做出很多修改,并且所述产品可包含本领域已知的任何信息承载介质。
术语“一个实施例”、“实施例”、“该实施例”、“多个实施例”、“一个或多个实施例”、“一些实施例”意思是“本发明的一个或多个(但不是所有的)实施例”,否则除非特殊说明。
术语“包括”、“包含”、“具有”和它们的变形意思是“包括但不限于”,否则除非特殊说明。
列举的条目列表不意味着任何或所有的条目相互排斥,否则除非特殊说明。
术语“一个”意思是“一个或多个”,否则除非特殊说明。
相互通信中的设备不必相互连续通信,否则除非特殊说明。另外,相互通信中的设备可直接通信或通过一个或多个中介物间接通信。
具有数个组件相互通信的实施例的描述不意味着所有的这种组件是必要的。正相反,描述多种可选的组件以阐明本发明可能的实施例的广泛种类。
进一步,尽管处理操作、方法操作、算法等可以次序的顺序被描述,这种处理、方法和算法可被配置以交替顺序来工作。换句话说,操作的任何次序或顺序可以被描述,但不必表示操作需要以那种顺序来执行。这里描述的处理的操作可以任何实际的顺序来执行。进一步,一些操作可同时被执行。
当单个设备或物品在这里被描述时,显而易见的是一个以上的设备/物品(无论他们是否协作)可被用以替代单个设备/物品。同样地,当在这里描述一个以上的设备或物品(无论他们是否协作)时,显而易见的是单个设备/物品可被周以替代一个以上的设备/物品。
设备的功能性与/或特征可由一个或多个其它设备可替换地来体现,它们没有被明确地描述具有这样的功能性/特征。因此,本发明的其它实施例不需要包括设备本身。
特定实施例可被指向由人部署计算指令或是自动地处理将计算机可读代码集成到计算***的方法,在其中与计算***结合的代码被赋能于执行已述实施例的操作。
图2图解的操作显示特定的事件以特定的顺序发生。在备选的实施例中,特定的操作可以不同的顺序被执行、修改或移除。此外,一些步骤可被增加到已述逻辑并仍符合已述实施例。进一步,这里已述的操作可顺序地发生或是特定的操作可并行地被处理。再进一步,操作可由单个处理单元或由分布的处理单元来执行。
特定操作已描述为以对等方式发生在逻辑分区之间。其它操作已被描述为以管理硬件或软件来完成。应当理解操作可以对等方法或是以管理的方法或是以组合的方式被完成。
服务器集群在上面已被描述具有两个处理综合体,其中每一个在常见操作中具有一个源逻辑分区和一个目标逻辑分区。应当理解在其它实施例中,服务器集群可具有单个处理综合体或两个以上的处理综合体,并且每个处理综合体可具有一个以上的源或目标逻辑分区。
前述的各种实施例的说明已为阐明和说明的目标而被呈现。它不意味着是没有遗漏的或是将说明局限在已公开的精确形式上。按照上面的示教很多修改和变化是可能发生的。

Claims (18)

1.一种集群代码管理的方法,包含:
在服务器集群的第一处理综合体中的第一逻辑分区中执行处理操作,其中所述第一逻辑分区使用处于第一等级的软件代码来操作;
在所述第一处理综合体的第二逻辑分区中将软件代码从所述第一等级转变为第二等级同时继续在第一逻辑分区执行处理操作;以及
将处理操作从所述第一处理综合体中的所述第一逻辑分区第一转移到所述服务器集群的第二处理综合体中的第三逻辑分区。
2.如权利要求1所述的方法,其中,所述的处理操作的第一转移包括静默所述第一逻辑分区以导致处理操作从所述第一处理综合体中的所述第一逻辑分区到所述第二处理综合体中的所述第三逻辑分区的故障转移。
3.如权利要求2所述的方法,进一步包含在静默所述第一逻辑分区之后,从所述第一逻辑分区转移分区资源到所述第二逻辑分区。
4.如权利要求3所述的方法,其中,所述分区资源包括处理器资源、存储器资源和高速缓冲存储器资源。
5.如权利要求4所述的方法,进一步包含执行故障恢复操作,所述故障恢复操作包括在所述第二逻辑分区中将所述软件代码从第一等级转变到第二等级之后,将处理操作的第一部分从所述第二处理综合体中的所述第三逻辑分区转移到所述第一处理综合体中的所述第二逻辑分区,其中所述第二逻辑分区使用处于所述第二等级的软件代码来操作。
6.如权利要求5所述的方法,进一步包含:
将所述第二处理综合体中的第四逻辑分区中的软件代码从所述第一等级转变为第二等级,同时继续在第三逻辑分区中执行处理操作;以及
将处理操作的第二部分从所述第二处理综合体中的所述第三逻辑分区转移到所述服务器集群的所述第一处理综合体中的所述第二逻辑分区。
7.如权利要求6所述的方法,其中,所述处理操作的第二部分的转移包括静默所述第三逻辑分区以导致处理操作从所述第二处理综合体中的所述第三逻辑分区到所述第一处理综合体中的所述第二逻辑分区的故障转移。
8.如权利要求6所述的方法,进一步包含在静默所述第三逻辑分区之后,从所述第三逻辑分区转移分区资源到所述第四逻辑分区。
9.如权利要求8所述的方法,进一步包含在所述第四逻辑分区中的将所述软件代码从第一等级转变为第二等级之后,将一部分处理操作从所述第一处理综合体中的所述第二逻辑分区转移到所述第二处理综合体中的所述第四逻辑分区,其中所述第四逻辑分区使用处于所述第二等级的软件代码来操作。
10.一种集群代码管理的***,包含:
具有第一处理综合体的服务器集群,其中所述第一处理综合体具有第一逻辑分区,所述第一逻辑分区具有适合于存储处于第一等级的软件代码的存储器和适合于在所述第一逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路,所述第一处理综合体进一步具有第二逻辑分区,所述第二逻辑分区具有适合于存储处于所述第一等级的软件代码的存储器和适合于在所述第二逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路,所述服务器集群进一步具有第二处理综合体,所述第二处理综合体具有第三逻辑分区,所述第三逻辑分区具有适合于存储处于第一等级的软件代码的存储器和适合于在所述第三逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路,所述第二处理综合体进一步具有第四逻辑分区,所述第四逻辑分区具有适合于存储处于所述第一等级的软件代码的存储器和适合于在所述第四逻辑分区中使用处于所述第一等级的软件代码来执行处理操作的逻辑电路;
其中,所述第一处理综合体具有逻辑电路以适合于:
1)将所述第一处理综合体的所述第二逻辑分区中的软件代码从所述第一等级转变为第二等级,同时所述第一逻辑分区的逻辑电路继续执行第一逻辑分区中的处理操作;以及
2)将处理操作从所述第一处理综合体中的所述第一逻辑分区转移到所述服务器集群的第二处理综合体中的第三逻辑分区。
11.如权利要求10所述的***,其中,所述处理操作的转移包括静默所述第一逻辑分区以导致处理操作从所述第一处理综合体中的所述第一逻辑分区到所述第二处理综合体中的所述第三逻辑分区的故障转移。
12.如权利要求11所述的***,其中,所述处理综合体的逻辑电路进一步适合于在静默所述第一逻辑分区之后,将分区资源从所述第一逻辑分区转移到所述第二逻辑分区。
13.如权利要求12所述的***,其中,所述分区资源包括处理器资源、存储器资源和高速缓冲存储器资源。
14.如权利要求13所述的***,其中,所述第二处理综合体具有适合于执行故障恢复操作的逻辑电路,所述故障恢复操作包括将处理操作的第一部分从所述第二处理综合体中的所述第三逻辑分区转移到所述第一处理综合体中的所述第二逻辑分区,其中所述第二逻辑分区使用处于所述第二等级的软件代码来操作。
15.如权利要求14所述的***,其中,所述第二处理综合体的逻辑电路进一步适合于:
将所述第二处理综合体的所述第四逻辑分区中的软件代码从所述第一等级转变为第二等级,同时所述第三逻辑分区的逻辑电路继续执行第三逻辑分区中的处理操作;以及
将处理操作的第二部分从所述第二处理综合体中的所述第三逻辑分区转移到所述服务器集群的第一处理综合体中的第二逻辑分区。
16.如权利要求15所述的***,其中,处理操作的第二部分的所述转移包括静默所述第三逻辑分区以导致处理操作从所述第二处理综合体中的所述第三逻辑分区到所述第一处理综合体中的所述第二逻辑分区的故障转移。
17.如权利要求15所述的***,其中,所述第二处理综合体的逻辑电路进一步适合于在静默所述第三逻辑分区之后,将分区资源从所述第三逻辑分区转移到所述第四逻辑分区。
18.如权利要求17所述的***,其中,所述第二处理综合体的逻辑电路进一步适合于在所述第四逻辑分区中将所述软件代码从第一等级转变为第二等级之后将一部分处理操作从所述第一处理综合体中的所述第二逻辑分区转移到所述第二处理综合体中的所述第四逻辑分区,其中所述第四逻辑分区使用处于所述第二等级的软件代码来操作。
CN200610073649.1A 2005-06-28 2006-04-13 集群代码管理的方法和*** Expired - Fee Related CN100478894C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/169,251 US7774785B2 (en) 2005-06-28 2005-06-28 Cluster code management
US11/169,251 2005-06-28

Publications (2)

Publication Number Publication Date
CN1892606A CN1892606A (zh) 2007-01-10
CN100478894C true CN100478894C (zh) 2009-04-15

Family

ID=37568983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610073649.1A Expired - Fee Related CN100478894C (zh) 2005-06-28 2006-04-13 集群代码管理的方法和***

Country Status (2)

Country Link
US (1) US7774785B2 (zh)
CN (1) CN100478894C (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937616B2 (en) * 2005-06-28 2011-05-03 International Business Machines Corporation Cluster availability management
US7937617B1 (en) * 2005-10-28 2011-05-03 Symantec Operating Corporation Automatic clusterwide fail-back
US8078907B2 (en) * 2006-01-19 2011-12-13 Silicon Graphics, Inc. Failsoft system for multiple CPU system
US7814495B1 (en) * 2006-03-31 2010-10-12 V Mware, Inc. On-line replacement and changing of virtualization software
US7783813B2 (en) * 2007-06-14 2010-08-24 International Business Machines Corporation Multi-node configuration of processor cards connected via processor fabrics
US8060775B1 (en) 2007-06-14 2011-11-15 Symantec Corporation Method and apparatus for providing dynamic multi-pathing (DMP) for an asymmetric logical unit access (ALUA) based storage system
US8898653B2 (en) 2007-06-27 2014-11-25 International Business Machines Corporation Non-disruptive code update of a single processor in a multi-processor computing system
EP2510437A1 (en) * 2009-12-11 2012-10-17 Deutsche Telekom AG Computer cluster and method for providing a disaster recovery functionality for a computer cluster
JP5548647B2 (ja) * 2011-04-25 2014-07-16 株式会社日立製作所 計算機システムでの部分障害処理方法
CN103297396B (zh) * 2012-02-28 2016-05-18 国际商业机器公司 群集***中管理故障转移的装置和方法
US8943490B1 (en) * 2012-09-28 2015-01-27 Juniper Networks, Inc. Intelligent non-stop software upgrade
US9158477B2 (en) * 2012-10-15 2015-10-13 International Business Machines Corporation Preventing access loss when device adapter affinity to a node changes
CN105335217B (zh) * 2014-06-26 2018-11-16 华为技术有限公司 一种服务器静默方法与***
US10725770B2 (en) * 2015-01-19 2020-07-28 Vmware, Inc. Hot-swapping operating systems using inter-partition application migration
US10445123B2 (en) 2015-01-19 2019-10-15 Vmware, Inc. Hypervisor exchange with virtual-machine consolidation
US9767028B2 (en) * 2015-10-30 2017-09-19 Advanced Micro Devices, Inc. In-memory interconnect protocol configuration registers
US10664364B2 (en) * 2016-10-18 2020-05-26 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Transferring a server configuration parameter along with a workload
US10572355B2 (en) 2017-07-27 2020-02-25 International Business Machines Corporation Transfer track format information for tracks in cache at a primary storage system to a secondary storage system to which tracks are mirrored to use after a failover or failback
US10540246B2 (en) * 2017-07-27 2020-01-21 International Business Machines Corporation Transfer track format information for tracks in cache at a first processor node to a second process node to which the first processor node is failing over
US10579296B2 (en) 2017-08-01 2020-03-03 International Business Machines Corporation Providing track format information when mirroring updated tracks from a primary storage system to a secondary storage system
US10403351B1 (en) 2018-02-22 2019-09-03 Advanced Micro Devices, Inc. Save and restore scoreboard

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359730A (en) * 1992-12-04 1994-10-25 International Business Machines Corporation Method of operating a data processing system having a dynamic software update facility
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
US5940612A (en) * 1995-09-27 1999-08-17 International Business Machines Corporation System and method for queuing of tasks in a multiprocessing system
US6421679B1 (en) * 1995-10-27 2002-07-16 International Business Machines Corporation Concurrent patch to logical partition manager of a logically partitioned system
US6412017B1 (en) * 1996-07-01 2002-06-25 Microsoft Corporation Urgent replication facility
US5919247A (en) * 1996-07-24 1999-07-06 Marimba, Inc. Method for the distribution of code and data updates
US6754656B1 (en) * 1996-10-22 2004-06-22 International Business Machines Corporation System and method for selective partition locking
US6189145B1 (en) * 1997-05-28 2001-02-13 International Business Machines Corporation Concurrent patch to logical partition manager of a logically partitioned system
US6199179B1 (en) * 1998-06-10 2001-03-06 Compaq Computer Corporation Method and apparatus for failure recovery in a multi-processor computer system
US6381682B2 (en) * 1998-06-10 2002-04-30 Compaq Information Technologies Group, L.P. Method and apparatus for dynamically sharing memory in a multiprocessor system
JP3794151B2 (ja) * 1998-02-16 2006-07-05 株式会社日立製作所 クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
DE19810814B4 (de) * 1998-03-12 2004-10-28 Telefonaktiebolaget Lm Ericsson (Publ) Rechnersystem und Zustandskopierverfahren zur skalierbaren Software-Aktualisierung
US6363495B1 (en) * 1999-01-19 2002-03-26 International Business Machines Corporation Method and apparatus for partition resolution in clustered computer systems
US6279046B1 (en) * 1999-05-19 2001-08-21 International Business Machines Corporation Event-driven communications interface for logically-partitioned computer
US6598069B1 (en) * 1999-09-28 2003-07-22 International Business Machines Corporation Method and apparatus for assigning resources to logical partition clusters
US6643843B1 (en) * 1999-11-23 2003-11-04 Ellenby Technologies Inc. Methods and apparatus for optical communication update of program memory in embedded systems
US6460039B1 (en) * 1999-12-09 2002-10-01 International Business Machines Corporation Middleware support for primary component in a partitionable cluster environment
US7234126B2 (en) * 2000-08-23 2007-06-19 Interuniversitair Microelektronica Centrum Task concurrency management design method
EP1327191B1 (en) * 2000-09-22 2013-10-23 Lumension Security, Inc. Non-invasive automatic offsite patch fingerprinting and updating system and method
US6976079B1 (en) * 2000-09-29 2005-12-13 International Business Machines Corporation System and method for upgrading software in a distributed computer system
US6957435B2 (en) * 2001-04-19 2005-10-18 International Business Machines Corporation Method and apparatus for allocating processor resources in a logically partitioned computer system
US7051327B1 (en) * 2001-05-08 2006-05-23 Gateway Inc. System for providing data backup and restore with updated version by creating data package based upon configuration data application data and user response to suggestion
US6898705B2 (en) * 2001-05-31 2005-05-24 International Business Machines Corporation Automatic appliance server re-provision/re-purposing method
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7055149B2 (en) * 2001-07-25 2006-05-30 Lenovo (Singapore) Pte Ltd. Method and apparatus for automating software upgrades
US6820217B2 (en) * 2001-10-29 2004-11-16 International Business Machines Corporation Method and apparatus for data recovery optimization in a logically partitioned computer system
US7213065B2 (en) * 2001-11-08 2007-05-01 Racemi, Inc. System and method for dynamic server allocation and provisioning
US7146306B2 (en) * 2001-12-14 2006-12-05 International Business Machines Corporation Handheld computer console emulation module and method of managing a logically-partitioned multi-user computer with same
US7158248B2 (en) * 2002-02-07 2007-01-02 Hewlett-Packard Development Company, L.P. Control of software via bundling
US6944788B2 (en) * 2002-03-12 2005-09-13 Sun Microsystems, Inc. System and method for enabling failover for an application server cluster
US7490206B2 (en) * 2002-03-15 2009-02-10 International Business Machines Corporation Method and structure for low memory relocation for dynamic memory reconfiguration
JP2003280915A (ja) * 2002-03-22 2003-10-03 Toshiba Corp 情報機器、記憶媒体、及びシステム起動方法
US6694419B1 (en) * 2002-04-12 2004-02-17 Barsa Consulting Group, Llc Method and system for automatically measuring partition memory needs in a partitioned computer system
US7237239B1 (en) * 2002-08-26 2007-06-26 Network Appliance, Inc. Availability and consistent service semantics in a load balanced collection of services running different instances of an application
US20040158834A1 (en) * 2003-02-06 2004-08-12 International Business Machines Corporation Apparatus and method for dynamically allocating resources of a dead logical partition
US7290260B2 (en) * 2003-02-20 2007-10-30 International Business Machines Corporation Dynamic processor redistribution between partitions in a computing system
US7302609B2 (en) * 2003-03-12 2007-11-27 Vladimir Matena Method and apparatus for executing applications on a distributed computer system
US7698700B2 (en) * 2003-04-17 2010-04-13 International Business Machines Corporation System quiesce for concurrent code updates
US7275180B2 (en) * 2003-04-17 2007-09-25 International Business Machines Corporation Transparent replacement of a failing processor
US6973654B1 (en) * 2003-05-27 2005-12-06 Microsoft Corporation Systems and methods for the repartitioning of data
US7222339B2 (en) * 2003-06-13 2007-05-22 Intel Corporation Method for distributed update of firmware across a clustered platform infrastructure
JP4415610B2 (ja) * 2003-08-26 2010-02-17 株式会社日立製作所 系切替方法、レプリカ作成方法、及びディスク装置
JP2005107803A (ja) * 2003-09-30 2005-04-21 Hitachi Ltd システム更新方法、および、それを実行するための計算機システム
US7225356B2 (en) * 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
US7246256B2 (en) * 2004-01-20 2007-07-17 International Business Machines Corporation Managing failover of J2EE compliant middleware in a high availability system
US20050283658A1 (en) * 2004-05-21 2005-12-22 Clark Thomas K Method, apparatus and program storage device for providing failover for high availability in an N-way shared-nothing cluster system
JP4353005B2 (ja) * 2004-06-29 2009-10-28 株式会社日立製作所 クラスタ構成コンピュータシステムの系切替方法
US7412545B2 (en) * 2004-07-22 2008-08-12 International Business Machines Corporation Apparatus and method for updating I/O capability of a logically-partitioned computer system
JP2006285808A (ja) * 2005-04-04 2006-10-19 Hitachi Ltd ストレージシステム
US7743372B2 (en) * 2005-06-28 2010-06-22 Internatinal Business Machines Corporation Dynamic cluster code updating in logical partitions

Also Published As

Publication number Publication date
CN1892606A (zh) 2007-01-10
US20060294337A1 (en) 2006-12-28
US7774785B2 (en) 2010-08-10

Similar Documents

Publication Publication Date Title
CN100478894C (zh) 集群代码管理的方法和***
CN100478893C (zh) 用于动态群集代码管理的方法和***
CN100470494C (zh) 集群可用性管理方法和***
CN100461121C (zh) 把存储单元和相关元数据复制到存储器的方法和***
US6601138B2 (en) Apparatus system and method for N-way RAID controller having improved performance and fault tolerance
CN102308273B (zh) 存储***
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
CN101401073B (zh) 跨存储子***的一致更新
US6892316B2 (en) Switchable resource management in clustered computer system
CN102402395B (zh) 基于仲裁磁盘的高可用***不间断运行方法
CN101776983B (zh) 磁盘阵列中双控制器信息的同步方法、及磁盘阵列***
CN101662495B (zh) 备份方法、主服务器、备份服务器以及备份***
CN104081353A (zh) 可缩放环境中的动态负载平衡
CN104081354A (zh) 在可缩放环境中管理分区
CN1987804A (zh) 并行计算***中的冗余保护的方法和***
CN101578586A (zh) 在故障转移和故障回复环境中使用虚拟拷贝
JPH11506556A (ja) データベースフラグメントレプリカの共通部分が最小の複数のノードのグループを有する連続的に使用可能なデータベースサーバ
CN103329105B (zh) 文件***中的应用恢复
CN102521073B (zh) 在故障恢复期间增加数据库的可用性
CN105843713B (zh) 一种双机***无共享存储实现Oracle RAC的方法
CN107291821A (zh) 一种同城双活架构快速切换的方法
CN101482829A (zh) 集群***、处理装置及集群***冗余方法
US7904663B2 (en) Secondary path for coherency controller to interconnection network(s)
US9323475B2 (en) Control method and information processing system
CN103164384A (zh) 多机***共享内存的同步实现方法及其***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090415

Termination date: 20150413

EXPY Termination of patent right or utility model