CN1983202A - 用于管理故障的方法和*** - Google Patents

用于管理故障的方法和*** Download PDF

Info

Publication number
CN1983202A
CN1983202A CNA2006101373141A CN200610137314A CN1983202A CN 1983202 A CN1983202 A CN 1983202A CN A2006101373141 A CNA2006101373141 A CN A2006101373141A CN 200610137314 A CN200610137314 A CN 200610137314A CN 1983202 A CN1983202 A CN 1983202A
Authority
CN
China
Prior art keywords
storage locations
primary storage
group
memory location
copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101373141A
Other languages
English (en)
Other versions
CN100543690C (zh
Inventor
罗伯特·弗雷德里克·科恩
戴维·B.·彼德森
盖尔·安德列·斯皮尔
格里高里·艾德华·迈克布里奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1983202A publication Critical patent/CN1983202A/zh
Application granted granted Critical
Publication of CN100543690C publication Critical patent/CN100543690C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2064Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring while ensuring consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2082Data synchronisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

提供了一种用于在镜像***中对故障进行管理的方法、***、以及程序。主次存储位置中间存在拷贝关系,其中将对主存储位置的更新拷贝到次存储位置。对阻止应用写入对主存储位置的更新的故障进行检测。响应于检测到故障,接收对于该应用的故障消息,其中不将故障消息提供给应用程序。中止将对主存储位置的更新拷贝到次存储位置。响应于中止拷贝,将故障消息提供给所述应用。

Description

用于管理故障的方法和***
技术领域
本发明涉及一种用于在镜像***中对故障进行管理的方法、***、以及程序。
背景技术
灾难恢复***通常可解决两类故障,即,在单时间点上的突发的灾难性故障或者一定时间段内的数据丢失。在第二类渐近式灾难中,可能会丢失对卷的更新。为了帮助对数据更新进行恢复,可以在远程位置上提供数据拷贝。当应用***将新数据写入到主存储设备中时,通常进行这种双拷贝或映像拷贝(shadow copy)。可以使用不同拷贝技术以保持次站点上的远程数据拷贝,诸如国际商业机器公司(“IBM”)的扩展远程拷贝(Extended Remote Copy,XRC)、耦合的XRC(Coupled XRC,CXRC)、全局拷贝(Global Copy)、以及全局镜像拷贝(Global Mirror Copy)。在IBM文档号为SG24-6783-00(2005年9月)的IBM出版物“The IBM Total StorageDS6000 Series:Copy Services in Open Environments”、以及IBM文档号为SG24-5680-04(2004年7月)的IBM出版物“IBMTotal Storage Enterprise Storage Server:Implementing ESS CopyServices with IBM eServer zSeries”中描述了这些不同的拷贝技术。
在数据镜像***中,成卷对地保持数据。卷对(volumn pair)是由主存储设备中的卷和次存储设备中的相应卷组成的,其中所述次存储设备包括保持在主卷中的数据的相同拷贝。可以使用主次存储控制器来控制对主次存储设备的存取。在某些备份***中,sysplex计时器用于向***提供统一时间,以便使不同应用写入到不同主存储设备的更新使用日时(time-of-day,TOD)值作为时间戳。应用***时间戳数据设置何时将这种数据集写入到主存储设备的卷中。数据更新的完整性与确保按照与在主卷上进行更新相同的顺序来在卷对中的次卷中进行更新有关。应用程序提供的时间戳确定数据更新的逻辑次序。
在诸如数据库***这样的许多应用程序中,除非进行了先前的写入,否则不进行某些写入;否则将会危害数据完整性。这种其完整性取决于先前数据写入的出现的数据写入被称为依赖性写入(dependentwrite)。当已按照其逻辑顺序传送了所有写入时,也就是说,所有依赖性写入在取决于其的写入之前首先传送时,主次存储设备中的卷是一致的。一致性组对于具有与一致性时间戳相等的或比其更早的时间戳的一致性组中的所有数据写入具有一致性时间。一致性组是对主卷的更新的集合,以便按照一致的方式保障依赖性写入。一致性时间是***保证对次卷的更新是一致的最近时间。一致性组保持卷和存储设备中的数据一致性。因此,当从次卷中恢复出数据时,所恢复的数据将会是一致的。
在会话内形成一致性组。分配给会话的所有卷对具有它们的、保持在相同一致性组中的更新。因此,该会话用于确定将被集合在一个一致性组中的卷。在日志设备或卷内形成一致性组。将从一致性组中所集聚的更新从日志中应用到次卷上。如果在将来自于日志的更新应用到次卷上的同时***出现了故障,那么在恢复操作期间,可从日志中恢复未完成到次卷的写入的更新并将其应用到次卷上。
诸如数据库应用这样的某些应用可将用户数据在一个会话中写入到一组主卷中,并且将异常信息在另一会话或相同会话中写入到另一组主卷中。如果出现了故障以致于应用无法继续写入到包括有用户数据的主卷,那么该应用仍可将与故障有关的异常信息写入到具有该异常信息的不同主卷,并且还可将该故障异常信息传播到对异常信息进行镜像的次卷中。在这种情况下,次卷具有无错误的用户数据,然而次卷中的用户数据的异常信息则表明出现了故障。在故障恢复操作期间,管理员必须在次站点上执行详尽的恢复操作以对镜像拷贝中的这个数据不一致进行校正,因为异常信息的次拷贝表明在镜像的用户数据中所未反映出的故障或错误。
为此,本领域中需要用于在镜像环境中对故障进行处理的改善了的技术。
发明内容
提供了一种用于在镜像***中对故障进行管理的方法、***、以及程序。主次存储位置间存在拷贝关系,其中将对主存储位置的更新拷贝到次存储位置。对阻止应用写入对主存储位置的更新的故障进行检测。响应于检测到故障,接收对于该应用的故障消息,其中不将故障消息提供给所述应用。中止将对主存储位置的更新拷贝到次存储位置。响应于中止拷贝,将故障消息提供给所述应用。
在又一个实施例中,数据移动器异步地将对主存储位置的更新拷贝到相关的次存储位置。
在又一个实施例中,所检测到的故障包括配置了主存储位置的存储设备、提供对存储设备的存取的控制单元、或者提供应用与存储设备之间的通信这样的结构的部件中的至少一个的故障。
在又一个实施例中,通过包括所述应用的主机操作***、或者用于对主存储位置的存取进行管理的控制单元操作***产生故障消息。
在又一个实施例中,主次存储位置包括第一主次存储位置。所述应用进一步将异常信息写入到第二主存储位置,其中该第二主存储位置被拷贝到第二次存储位置。所检测到的故障包括与第一主存储位置的可存取性有关的故障,并且其中,中止对更新的拷贝可防止与写入到第二主存储位置中的异常信息上的所检测故障有关的信息被拷贝到第二次存储位置。
在又一个实施例中,将中止期间未从主存储位置拷贝到次存储位置的更新记入日志。通过将次存储位置的数据拷贝到主存储位置来执行数据恢复操作,并且响应于将次存储位置的数据拷贝到主存储位置,将记入日志的更新应用到主存储位置。
在又一个实施例中,对第一组主存储位置检测故障。第一组主存储位置和第二组主存储位置位于一个一致性组中。中止对更新的拷贝适用于将对第一组和第二组主存储位置的更新拷贝到相应的第一组和第二组次存储位置。
在又一个实施例中,拷贝的中止不适用于将对第三组主存储位置的更新拷贝到相应的第三组次存储位置。第三组主存储位置不在包括有第一组和第二组主存储位置的一致性组中。
在又一个实施例中,第一组和第二组主次存储位置包括不同的会话。第一数据移动器用于将对第一组主存储位置的更新拷贝到第一组次存储位置,并且第二数据移动器用于将对第二组主存储位置的更新拷贝到第二组次存储位置。
在又一个实施例中,响应于检测到故障,停止对主存储位置的I/O请求。响应于中止对更新的拷贝,允许继续进行对主存储位置的I/O请求。在中止对更新的拷贝时,响应于允许继续进行I/O请求,指示对主存储位置的更新。
在又一个实施例中,在中止期间将与故障消息有关的信息写入到主存储位置但不将其拷贝到次存储位置。次存储位置不包括与写入到主存储位置的故障消息有关的信息。
附图说明
图1说明了网络计算环境的实施例。
图2说明了数据库应用怎样按照本领域中已知的方式将用户数据和异常信息写入到两个不同的主存储设备中的示例。
图3说明了将主存储设备镜像到次存储设备的操作的实施例。
图4和5说明了将所检测到的故障传送到监控***的操作的实施例。
图6说明了对所检测到的故障进行处理的操作的实施例。
图7说明了执行从镜像的次存储设备中恢复数据的操作的实施例。
具体实施方式
图1说明了网络计算环境的实施例。网络2包括:多个主控制单元4a、...、4n;主存储设备6a、...、6n;数据移动器8a、...、8n,用于管理将对主存储设备6a、...、6n的更新拷贝到次控制单元10a、...、10n以及相应的次存储设备12a、...、12n;主机14,用于写入对主存储设备6a、...、6n的更新;监控***16,用于对主存储设备6a、...、6n对于主机14而言的可用性的故障进行监控;***计时器18;以及主数据集20。部件4a、...、4n、6a、...、6n、8a、...、8n、10a、...、10n、12a、...、12n、14、16、18以及20与网络2相连,并且网络2允许在这些部件之间进行通信。网络2可以包括一个或多个交换机,以提供网络2的不同元件之间的一个或多个通信路径。
***数据移动器(SDM)程序8a、...、8n从主存储设备6a、...、6n中读取更新,并且形成来自主存储设备6a、...、6n的更新的一致性组,以将其写入到相应的次存储设备12a、...、12n。在主控制单元4a...4n中,可以将更新写入到高速缓冲存储器中的端文件(side file)中。此后将更新传送到由SDM 8a...、8n所保持的日志22a、...、22n。在每个日志22a、...、22n内,更新被排列成一致性组。日志14a、...、14n可存储一个或多个一致性组。一致性组对于具有与一致性时间戳相等的或比其更早的时间戳的一致性组中的所有数据写入具有一致性时间。一致性组是对主卷的更新的集合,以便按照一致性方式保障依赖性写入。一致性时间是***保证对次卷的更新是一致的最近时间。一致性组保持卷和存储设备上的数据一致性。因此,当从次卷中恢复出数据时,所恢复的数据将会是一致的。
在一个会话内形成一致性组。会话包括对由一个或多个SDM8a、...、8n所管理的主次卷对以及由镜像程序4所管理的卷对的操作。分配给一个会话的所有卷对具有它们的、保持在相同一致性组中的更新。因此,会话可用于确定将被集合在一个一致性组中的卷。如果在将来自日志22a、...、22n的更新应用到次卷上的同时***出现了故障,那么在恢复操作期间,可以从日志中恢复未完成到次卷的写入的更新,并且可将该更新应用到次卷上。
SDM 8a、...、8n可以包括在***中实现的程序。SDM 8a、...、8n可以在主控制单元4a、...、4n、次控制单元10a、...、10n、或独立的站点和***上实现。
主数据集20包括正被管理的会话的列表,以及对于每个被管理的会话而言,还包括在这种会话中对卷进行最近更新的时间。主数据集20可以驻留在存储设备6a、...、6n、12a、...、12n的卷中。用于主/次控制对的日志数据集可驻留在任何设备中。在图1中,每个SDM8a、...、8n是在主数据集20中指示出了其信息的一个会话的一部分。可向每个会话分配一个或多个SDM 8a、...、8n。
***计时器18提供用于更新的时间戳,以确保在所有SDM8a、...、8n上使用公共时间以向用于写入对卷的更新的应用程序提供公共时间参考,从而确保更新不会被无序地镜像。一旦在一致性组内组织了日志22a、...、22n中的更新后,就将一致性组之内的更新应用到次存储设备12a、...、12n上。一致性组的创建可保证***利用任何类型数据的更新序列完整性而实时地将数据映像(shadow)到远程站点。利用一致性组,可确保在一个会话之内应用到次存储设备12a、...、12n的更新与一致性组的一致性时间是一致的并且在会话之间是一致的。如果在将更新从日志22a、...、22n写入到次存储设备12a、...、12n中的次卷的同时出现了故障,那么在恢复期间,可从日志中恢复在***故障期间被中断的更新,并且将其重新应用到次卷上。按照这种方式,可确保自某一时间点起的恢复期间在会话之内和横跨会话之上的数据是一致的。拷贝操作使用主数据集20,以保持横跨会话之上的一致性,诸如国际商业机器公司(“IBM”)扩展远程拷贝(XRC)、耦合XRC(CXRC)、全局拷贝、全局镜像拷贝、以及诸如对等远程拷贝(Peer-to-Peer Remote Copy,PPRC)这样的同步镜像。
网络2可以包括存储区网络(SAN)、局域网(LAN)、企业内部网、互联网、广域网(WAN)、对等网络、仲裁环状网络等。存储设备6a、...、6n、12a、...、12n可以包括诸如简单磁盘束(Just a BunchOf Disks,JBOD)、直接存取存储设备(DASD)、独立盘片冗余阵列(RAID)、虚拟化设备、磁带存储设备、闪速存储器等这样的存储设备阵列。
在某些实施例中,主机操作***26和主控制单元操作***28a、...、28n包括这样的代码,该代码用于在将错误通知发送到应用24之前将某些预定错误通知传送到监控***16。按照这种方式,监控***16在应用24之前对与操作***26和28a、...、28n所检测到的故障有关的信息进行处理。次控制单元10a、...、10n也包括操作***30a、...、30n。
诸如图1所示,监控***16可以在控制单元之一内或在独立的***中实现。
主机4包括用于将I/O请求传送到主控制单元4a、...、4n的一个或多个应用24。图2说明了现有技术中已知的、主机4包括数据库应用40的这样一个实施例。数据库应用通过主控制单元4a将用户数据、即数据库记录写入到主存储设备6a,以更新用于存储数据库的表格和记录的数据库表格空间42。如果主机4接收到或检测到与主存储设备4a的连接的故障,或者不能完成写入并且向数据库应用40通知这种错误,那么数据库应用40通过主控制单元4b将与该错误有关的信息写入到主存储设备6b中的异常表格44中。
图3说明了由SDM 8a、...、8n所执行的、利用诸如XRC、CXRC等这样的异步远程拷贝技术来对不同会话的数据进行拷贝的操作的实施例。响应于初始化远程拷贝操作(块100),SDM 8a、...、8n形成具有对主存储位置的更新的一致性组(块102)。如所讨论的,SDM8a、...、8n可以通过将更新从主存储设备6a、...、6n读出到形成有一致性组的日志22a、...、22n中,而形成一致性组。SDM 8a、...、8n在主数据集20中指明添加到日志22a、...、22n中的一致性组上的更新的时间(块104)。SDM 8a、...、8n可以定期地轮询主数据集20以确定参考时间(最大会话更新时间的最小值)(块106)。SDM 8a、...、8n将其日志26a、...、26n中的一致性组拷贝到其时间戳小于或等于所确定的参考时间的次存储设备22a、...、22n(块108)。在替换实施例中,数据移动器可同步地拷贝数据。
图4说明了主机操作***26为响应于检测到下述故障(块120)所执行的操作的实施例,其中所述故障是将由监控***16首先处理的所识别到的触发事件。响应于这种检测,主机操作***26将故障传送到监控***16(块122)。主机操作***26可对主机14与主控制单元4a、...、4n之间的诸如交换机、电缆等这样的网络2的连接中的故障进行检测。
图5说明了主控制单元操作***28a、...、28n为响应于检测到下述故障(块130)所执行的操作的实施例,其中所述故障是将由监控***16首先处理的所识别到的触发事件。响应于这种检测,控制单元操作***28a、...、28n将故障传送到监控***16(块132)。主控制单元操作***28a、...、28n对网络2中的到主机14的连接中的故障、或者诸如盘、阵列、或磁带故障这样的主存储设备6a、...、6n资源故障、或者主存储设备6a、...、6n与其相应的主控制单元4a、...、4n之间的连接中的故障进行检测。
就图4和5的实施例而言,监控***16拦截所检测到的故障,以便在向应用通知该故障之前,监控***16对该故障消息进行处理。例如,就数据库应用40而言,拦截该故障并使其路由到监控***16,可防止数据库应用40将与该故障有关的信息写入到异常表格44,这接着可防止与错误/异常有关的信息被传播到对具有异常表格44的主存储设备4b进行镜像的次存储设备12b。按照这种方式,监控***16对在网络2中所产生的许多不同类型的故障通知进行监控。
图6说明了监控***16所执行的、用于对由主机26或主控制单元28a、...、28n操作***所传送的故障进行处理的操作的实施例。在从主机26或控制单元28a、...、28n操作***接收到主站点(例如主控制单元或存储设备)的故障信息(块150)时,监控***16发出用于停止对主存储设备6a、...、6n卷的I/O请求的命令(块152)。可以将用于停止的命令提供给主控制单元4a、...、4n和/或主机14。此后,监控***16中止将对所有主存储位置的更新拷贝到下述一致性组中的次存储位置,其中所述一致性组包括受到故障影响的存储位置。监控***16可以通过将命令发送到SDM 8a、...、8n以中止形成下述一致性组而导致中止,其中所述一致性组包括检测到其故障的主存储设备6a的卷或者数据集,从而,在检测到故障之后出现的任何更新不会被传播到次存储设备12a、...、12n。然而,可以将日志22a、...、22n中的已形成的一致性组拷贝到次存储设备12a、...、12n上。
在某些实施例中,中止可以应用到下述所有数据上,其中所述数据取决于经历故障状态的主存储设备6a、...、6n卷,或者经历故障的主存储设备6a、...、6n卷取决于所述数据。该依赖性数据可以包括处于包括有经历故障状态的主卷的一致性组中的所有数据,即,包括处于由于将主机14与主存储设备6a、...、6n相连的部件故障而造成其本身出故障或不能被存取的主卷的一致性组中的所有数据。此外,依赖性数据可以包括通过主数据集20来保持其一致性的其他会话中的卷。因此,可以针对用发生故障的卷、通过主数据集20来保持其一致性的所有会话中的所有卷发出中止。在其他卷受到中止时,可针对不取决于经历故障状态的卷的一致性组或不在上述一致性组之内的卷继续执行镜像操作。
在中止了对包括有经历故障状态的卷的一致性组中的卷的I/O之后,监控***16可以向主控制单元4a、...、4n和主机14发出命令(块156)以允许继续进行对主存储设备6a、...、6n位置的I/O请求。此时,可以将故障消息提供给应用24(块158)。然而,因为更新的镜像已被中止,因此,应用24写入到主存储设备6a、...、6n的任何错误状态、例如数据库应用40写入到异常表格44(图2)的任何错误状态不会被传播到次存储设备12a、...、12n。此时,主控制单元4a、...、4n保持每个卷的位图,以跟踪对所中止的主存储设备6a、...、6n位置的更新。
图7说明了在解决了下述故障之后将未反映出异常的次存储设备12a、...、12na中的数据拷贝到主存储设备6a、...、6n的操作,其中所述故障发起了会导致图5中的操作的故障消息。在块200,确定故障的原因,它可能涉及对网络2中的部件、主机14、主控制单元4a、...、4n、主存储设备6a、...、6n等进行检修。在解决了故障之后,监控***16或管理员可以开始(块202)恢复操作,以将中止过程中所涉及的所有次卷或数据集拷贝到相应的主存储设备6a、...、6n位置。这可能涉及对由不同次控制单元所管理的和/或在不同会话中的不同次存储设备中的次卷的数据进行拷贝。在从次站点恢复数据之后,将对所中止的主存储设备6a、...、6n位置的任何记入日志的更新应用到(块204)已更新的主存储位置上(即未被包括在形成的一致性组内之内的更新)。这可能包括未被包括在一致性组之内的日志22a、...、22n中的更新、或者保持在主控制单元4a、...、4n的端文件(side file)中的更新。结束对镜像和形成被中止的卷的一致性组的中止(块206),并且继续镜像操作。
利用所描述的实施例,诸如写入到主存储设备6b中的异常表格44中的异常这样的故障的指示不会被传播到次存储设备6b,在次存储设备6b中,诸如镜像表格空间42这样的另一次存储设备6a中的相关用户数据未必具有任何错误。如果异常被传播到被镜像在相应的次存储设备12b中的异常表格,那么管理员将在次存储设备12b中执行错误恢复操作,以在从次存储设备12a中恢复主存储设备6a中的表格空间42(图2)之前清除错误。然而,因为所描述的实施例可防止异常被传播到镜像的异常表格44,因此不需要在次站点上执行恢复操作以清除所传播的异常。按照这种方式,所描述的实施例可降低停机时间并简化故障恢复处理。
其他实施例的细节
所述操作可作为被实现为利用标准的编程和/或工程技术来生成软件、固件、硬件、或其任何组合的方法、装置、或制品。所述操作可被实现作为保持在“计算机可读介质”中的代码,其中处理器可从计算机可读介质中读取并执行该代码。计算机可读介质可以包括诸如磁存储介质(例如硬盘驱动器、软盘、磁带等)、光学存储器(CD-ROM、DVD、光盘等)、易失性和非易失性存储器设备(例如EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪速存储器、固件、可编程序逻辑等)等这样的介质。用于实现所述操作的代码可在硬件逻辑(例如集成电路芯片、可编程门阵列(PGA)、专用集成电路(ASIC)等)中实现。更进一步,用于实现所述操作的代码可在“传输信号”中实现,其中传输信号可以通过空间或通过诸如光纤、铜线等这样的传输介质而传播。其中编码了代码或逻辑的传输信号可以进一步包括无线信号、卫星传输、无线电波、红外信号、蓝牙等。其中编码了代码或逻辑的传输信号可通过发送站来传送并由接收站来接收,其中可对传输信号中所编码的代码或逻辑进行解码并将其存储在接收站和发送站或设备的硬件或计算机可读介质中。“制品”包括其内可实现代码的计算机可读介质、硬件逻辑、和/或传输信号。其中编码了用于实现所述操作实施例的代码的设备可以包括计算机可读介质或硬件逻辑。当然,本领域普通技术人员可以知晓的是,在不脱离本发明的范围的情况下可对该配置做出多种修改,并且制品可包括现有技术中已知的适当的信息承载介质。
除非另有明确规定,否则术语“一实施例”、“实施例”、“多个实施例”、“所述实施例”、“所述多个实施例”、“一个或多个实施例”、“某些实施例”、以及“一个实施例”是指“本发明的一个或多个(并非所有)实施例”。
除非另有明确规定,否则术语“包括”、“包含”、“具有”、以及其变体是指“包括但并不局限于”。
除非另有明确规定,否则所列举的术语的列表不意味着任何或所有术语是互斥的。
除非另有明确规定,否则术语“一”、“一个”、“所述”是指“一个或多个”。
除非另有明确规定,否则彼此进行通信的设备不必是彼此进行连续的通信。此外,彼此进行通信的设备可直接进行通信或通过一个或多个中间设备进行间接通信。
对具有彼此进行通信的若干部件的实施例的描述并不意味着需要所有这些部件。相反地,对各种可选部件进行了描述以说明本发明的多种可能的实施例。
此外,虽然按照相继次序对处理步骤、方法步骤、算法等进行了描述,但是可将这种处理、方法、以及算法配置成以可替换的次序进行工作。换句话说,所描述的步骤的任何次序或顺序不一定表示必需按照这种顺序执行所述步骤。在这里所描述的处理步骤实际上可按照任何顺序执行。此外,可同时执行一些步骤。
当在这里对单个设备或制品进行描述时,显而易见的是可使用多于一个的设备/制品(不管它们是否进行协作)代替单个设备/制品。类似地,在这里对多于一个的设备或制品进行描述的情况下(不管它们是否进行协作),显而易见的是,可使用单个设备/制品代替所述多于一个的设备或制品,或者可使用不同数目的设备/制品代替所示数目的设备或程序。作为选择,通过未明确描述为具有这种功能/特征的一个或多个其他设备可实现设备的功能和/或特征。因此,本发明的其他实施例不必包括设备本身。
图3、4、5、6、以及7中所说明的操作给出了按照某个顺序出现的某些事件。在替换实施例中,可以不同顺序来执行某些操作,可对其进行改进或删除。此外,可将步骤添加到上述逻辑上并且仍符合所描述的实施例。此外,在这里所描述的操作是顺序地进行的,或者可对某些操作进行并行处理。更进一步地,操作可以是由单处理单元或分布式处理单元来执行。
为了说明和描述的目的,上面已对本发明的各个实施例进行了描述。这并不是详尽的,并且也并不打算将本发明局限于所公开的精确形式。按照上述教导,可做出多种修改和变化。本发明的范围并不局限于该详细说明,而是受到附加到这里的权利要求的限制。上述说明书、示例、以及数据提供了对制造和使用本发明的结构的完整说明。因为在不脱离本发明的精神和范围的情况下可做出本发明的许多实施例,所以本发明由附加到下文的权利要求限定。

Claims (20)

1、一种方法,包括:
保持主次存储位置之间的拷贝关系,其中将对主存储位置的更新拷贝到次存储位置;
对阻止应用写入对主存储位置的更新的故障进行检测;
响应于检测到故障,接收对于该应用的故障消息,其中,不将故障消息提供给所述应用;
中止将对主存储位置的更新拷贝到次存储位置;以及
响应于中止拷贝,将故障消息提供给所述应用。
2、根据权利要求1的方法,其中,数据移动器异步地将对主存储位置的更新拷贝到相关的次存储位置。
3、根据权利要求1的方法,其中,所检测到的故障包括配置了主存储位置的存储设备、提供对存储设备的存取的控制单元、或者提供应用与存储设备之间的通信的结构的部件中的至少一个的故障。
4、根据权利要求1的方法,其中,由包括所述应用的主机操作***或者用于管理对主存储位置的存取的控制单元操作***产生故障消息。
5、根据权利要求1的方法,其中,主次存储位置包括第一主次存储位置,其中所述应用进一步将异常信息写入到被拷贝到第二次存储位置的第二主存储位置,其中所检测到的故障包括与第一主存储位置的可存取性有关的故障,并且其中中止对更新的拷贝可防止与写入到第二主存储位置中的异常信息上的所检测故障有关的信息被拷贝到第二次存储位置。
6、根据权利要求1的方法,其中,在中止期间将未从主存储位置拷贝到次存储位置的更新记入日志,所述方法进一步包括:
通过将次存储位置上的数据拷贝到主存储位置来执行数据恢复操作;以及
响应于将次存储位置上的数据拷贝到主存储位置,将记入日志的更新应用到主存储位置。
7、根据权利要求1的方法,其中,针对第一组主存储位置检测故障,其中第一组主存储位置和第二组主存储位置位于一个一致性组中,其中对更新的拷贝的中止适用于将对第一组和第二组主存储位置的更新拷贝到相应的第一组和第二组次存储位置。
8、根据权利要求7的方法,其中,拷贝的中止不适用于将对第三组主存储位置的更新拷贝到相应的第三组次存储位置,其中第三组主存储位置不在包括有第一组和第二组主存储位置的一致性组中。
9、根据权利要求7的方法,其中,第一组和第二组主次存储位置包括不同的会话,其中第一数据移动器用于将对第一组主存储位置的更新拷贝到第一组次存储位置,并且其中第二数据移动器用于将对第二组主存储位置的更新拷贝到第二组次存储位置。
10、根据权利要求1的方法,进一步包括:
响应于检测到故障,停止对主存储位置的I/O请求;
响应于中止对更新的拷贝,允许继续进行对主存储位置的I/O请求;以及
在中止对更新的拷贝时,响应于允许继续进行I/O请求,指示对主存储位置的更新。
11、根据权利要求1的方法,其中,在中止期间将与故障消息有关的信息写入到主存储位置但不将其拷贝到次存储位置,其中次存储位置不包括与写入到主存储位置的故障消息有关的信息。
12、一种与主次存储位置进行通信的***,其中拷贝关系表明对主存储位置的更新被拷贝到次存储位置,所述***包括:
处理器;以及
计算机可读介质,该计算机可读介质包括处理器所执行的用于执行操作的代码,该操作包括:
接收与阻止应用写入对主存储位置的更新的故障有关的故障消息,其中不将故障消息提供给所述应用;
中止将对主存储位置的更新拷贝到次存储位置;以及
响应于中止拷贝,将故障消息提供给所述应用。
13、根据权利要求12的***,其中,所接收到的故障消息是由配置了主存储位置的存储设备、提供对存储设备的存取的控制单元、或者提供所述应用与存储设备之间的通信的结构的部件中的至少一个的故障引起的。
14、根据权利要求12的***,其中,由包括所述应用的主机操作***或者用于管理对主存储位置的存取的控制单元操作***产生故障消息。
15、根据权利要求12的***,其中,主次存储位置包括第一主次存储位置,其中所述应用进一步将异常信息写入到被拷贝到第二次存储位置的第二主存储位置,其中所检测到的故障包括与第一主存储位置的可存取性有关的故障,并且其中中止对更新的拷贝可防止与写入到第二主存储位置中的异常信息上的所检测故障有关的信息被拷贝到第二次存储位置。
16、根据权利要求12的***,其中,故障与第一组主存储位置有关,其中第一组主存储位置和第二组主存储位置位于一个一致性组中,其中对更新的拷贝的中止适用于将对第一组和第二组主存储位置的更新拷贝到相应的第一组和第二组次存储位置。
17、根据权利要求16的***,其中,拷贝的中止不适用于将对第三组主存储位置的更新拷贝到相应的第三组次存储位置,其中第三组主存储位置不在包括有第一组和第二组主存储位置的一致性组中。
18、根据权利要求12的***,其中,所述操作进一步包括:
响应于接收到故障消息,停止对主存储位置的I/O请求;
响应于中止对更新的拷贝,允许继续进行对主存储位置的I/O请求;以及
在中止对更新的拷贝时,响应于允许继续进行I/O请求,指示对主存储位置的更新。
19、根据权利要求12的***,其中,在中止期间将与故障消息有关的信息写入到主存储位置但不将其拷贝到次存储位置,其中次存储位置不包括与写入到主存储位置的故障消息有关的信息。
20、一种制品,该制品包括能够与主次存储位置进行通信的代码,其中拷贝关系表明对主存储位置的更新被拷贝到次存储位置,并且其中所述代码可导致执行根据前述方法权利要求中的任何一种方法的操作。
CNB2006101373141A 2005-12-13 2006-10-17 用于管理故障的方法和*** Expired - Fee Related CN100543690C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/302,348 2005-12-13
US11/302,348 US7627775B2 (en) 2005-12-13 2005-12-13 Managing failures in mirrored systems

Publications (2)

Publication Number Publication Date
CN1983202A true CN1983202A (zh) 2007-06-20
CN100543690C CN100543690C (zh) 2009-09-23

Family

ID=38165755

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101373141A Expired - Fee Related CN100543690C (zh) 2005-12-13 2006-10-17 用于管理故障的方法和***

Country Status (4)

Country Link
US (1) US7627775B2 (zh)
JP (1) JP4939174B2 (zh)
CN (1) CN100543690C (zh)
TW (1) TWI416318B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015010543A1 (en) * 2013-07-22 2015-01-29 International Business Machines Corporation Moving objects in primary computer based on memory errors in secondary computer
CN107272669A (zh) * 2017-08-14 2017-10-20 中国航空无线电电子研究所 一种机载故障管理***
CN108228481A (zh) * 2016-12-21 2018-06-29 伊姆西Ip控股有限责任公司 用于保证数据一致性的方法和设备

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788231B2 (en) * 2006-04-18 2010-08-31 International Business Machines Corporation Using a heartbeat signal to maintain data consistency for writes to source storage copied to target storage
JP4818843B2 (ja) * 2006-07-31 2011-11-16 株式会社日立製作所 リモートコピーを行うストレージシステム
US7793148B2 (en) * 2007-01-12 2010-09-07 International Business Machines Corporation Using virtual copies in a failover and failback environment
US7904682B2 (en) * 2007-07-19 2011-03-08 International Business Machines Corporation Copying writes from primary storages to secondary storages across different networks
US7822892B2 (en) 2007-07-19 2010-10-26 International Business Machines Corporation Managing the copying of writes from primary storages to secondary storages across different networks
US20090150721A1 (en) * 2007-12-10 2009-06-11 International Business Machines Corporation Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
US8069345B2 (en) * 2008-10-29 2011-11-29 Netapp, Inc. Methods and systems for recovering a computer system using boot volume data from a storage area network
US8583887B1 (en) 2008-10-31 2013-11-12 Netapp, Inc. Non-disruptive restoration of a storage volume
US20120254124A1 (en) * 2011-03-30 2012-10-04 International Business Machines Corporation System, method, and computer program product for disaster recovery using asynchronous mirroring
US9021179B2 (en) 2011-06-10 2015-04-28 International Business Machines Corporation Store storage class memory information command
US9323668B2 (en) 2011-06-10 2016-04-26 International Business Machines Corporation Deconfigure storage class memory command
US9058243B2 (en) 2011-06-10 2015-06-16 International Business Machines Corporation Releasing blocks of storage class memory
US9058275B2 (en) 2011-06-10 2015-06-16 International Business Machines Corporation Data returned responsive to executing a start subchannel instruction
US9116789B2 (en) 2011-06-10 2015-08-25 International Business Machines Corporation Chaining move specification blocks
US9021226B2 (en) 2011-06-10 2015-04-28 International Business Machines Corporation Moving blocks of data between main memory and storage class memory
US9116634B2 (en) 2011-06-10 2015-08-25 International Business Machines Corporation Configure storage class memory command
US9021180B2 (en) 2011-06-10 2015-04-28 International Business Machines Corporation Clearing blocks of storage class memory
US9116788B2 (en) 2011-06-10 2015-08-25 International Business Machines Corporation Using extended asynchronous data mover indirect data address words
US8898515B1 (en) * 2012-06-28 2014-11-25 Emc International Company Synchronous replication using multiple data protection appliances across multiple storage arrays
US8909985B2 (en) 2012-07-12 2014-12-09 International Business Machines Corporation Multiple hyperswap replication sessions
US9251018B2 (en) * 2012-12-19 2016-02-02 International Business Machines Corporation Enhanced recovery of highly available computing systems
US9497266B2 (en) * 2013-02-22 2016-11-15 International Business Machines Corporation Disk mirroring for personal storage
US10133510B2 (en) 2017-01-19 2018-11-20 International Business Machines Corporation Apparatus, method, and program product for data integrity during asynchronous remote copy
US10572357B2 (en) 2017-03-29 2020-02-25 International Business Machines Corporation Switching over from using a first primary storage to using a second primary storage when the first primary storage is in a mirror relationship
JP6901677B2 (ja) * 2017-04-17 2021-07-14 富士通株式会社 管理プログラム、管理装置および管理方法
US10642701B2 (en) * 2018-09-07 2020-05-05 International Business Machines Corporation Releasing space on secondary storage device for resynchronization
US11023609B2 (en) 2018-11-26 2021-06-01 International Business Machines Corporation Fault prevention shell for preventing system disruption
JP7409700B2 (ja) * 2022-03-03 2024-01-09 Necプラットフォームズ株式会社 ストレージシステム、サーバ、パス切替方法、およびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544347A (en) * 1990-09-24 1996-08-06 Emc Corporation Data storage system controlled remote data mirroring with respectively maintained data indices
GB9317436D0 (en) * 1993-08-03 1993-10-06 Plessey Telecomm Telecommunications system
US5764903A (en) * 1994-09-26 1998-06-09 Acer America Corporation High availability network disk mirroring system
JP3741345B2 (ja) * 1999-03-24 2006-02-01 株式会社日立製作所 ネットワーク接続ディスク装置
US6871271B2 (en) * 2000-12-21 2005-03-22 Emc Corporation Incrementally restoring a mass storage device to a prior state
US6820098B1 (en) * 2002-03-15 2004-11-16 Hewlett-Packard Development Company, L.P. System and method for efficient and trackable asynchronous file replication
US7225204B2 (en) * 2002-03-19 2007-05-29 Network Appliance, Inc. System and method for asynchronous mirroring of snapshots at a destination using a purgatory directory and inode mapping
JP2003296205A (ja) * 2002-04-04 2003-10-17 Hitachi Ltd ネットワーク構成機器特定方法及びその実施システム並びにその処理プログラム
US7024586B2 (en) * 2002-06-24 2006-04-04 Network Appliance, Inc. Using file system information in raid data reconstruction and migration
US7069465B2 (en) * 2002-07-26 2006-06-27 International Business Machines Corporation Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system
JP2004227445A (ja) * 2003-01-27 2004-08-12 Hitachi Ltd 記憶装置サブシステムにおけるコピー方法および記憶装置サブシステム
JP4559046B2 (ja) * 2003-08-04 2010-10-06 株式会社日立製作所 仮想テープライブラリ装置
US20050050286A1 (en) * 2003-08-28 2005-03-03 International Busines Machines Corporation Apparatus and method for asynchronous logical mirroring
US7278049B2 (en) * 2003-09-29 2007-10-02 International Business Machines Corporation Method, system, and program for recovery from a failure in an asynchronous data copying system
US7412464B2 (en) * 2003-09-29 2008-08-12 International Business Machines Corporation Asynchronous data mirroring with look-ahead synchronization record
US7188272B2 (en) * 2003-09-29 2007-03-06 International Business Machines Corporation Method, system and article of manufacture for recovery from a failure in a cascading PPRC system
GB0326293D0 (en) * 2003-11-12 2003-12-17 Ibm Data storage systems
JP4551096B2 (ja) * 2004-02-03 2010-09-22 株式会社日立製作所 ストレージサブシステム
JP4728031B2 (ja) * 2005-04-15 2011-07-20 株式会社日立製作所 リモートコピーペアの移行を行うシステム
JP2006309506A (ja) * 2005-04-28 2006-11-09 Fujitsu Ltd リモートコピー処理方法、プログラム及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015010543A1 (en) * 2013-07-22 2015-01-29 International Business Machines Corporation Moving objects in primary computer based on memory errors in secondary computer
US9235485B2 (en) 2013-07-22 2016-01-12 International Business Machines Corporation Moving objects in a primary computer based on memory errors in a secondary computer
GB2531678A (en) * 2013-07-22 2016-04-27 Ibm Moving objects in primary computer based on memory errors in secondary computer
GB2531678B (en) * 2013-07-22 2016-12-07 Ibm Moving objects in primary computer based on memory errors in secondary computer
CN108228481A (zh) * 2016-12-21 2018-06-29 伊姆西Ip控股有限责任公司 用于保证数据一致性的方法和设备
CN107272669A (zh) * 2017-08-14 2017-10-20 中国航空无线电电子研究所 一种机载故障管理***

Also Published As

Publication number Publication date
CN100543690C (zh) 2009-09-23
TW200801928A (en) 2008-01-01
JP2007164769A (ja) 2007-06-28
US20070168713A1 (en) 2007-07-19
TWI416318B (zh) 2013-11-21
US7627775B2 (en) 2009-12-01
JP4939174B2 (ja) 2012-05-23

Similar Documents

Publication Publication Date Title
CN100543690C (zh) 用于管理故障的方法和***
CN100570574C (zh) 用于管理存储***之间的数据拷贝的***和方法
US7793060B2 (en) System method and circuit for differential mirroring of data
CN101578586B (zh) 在故障转移和故障回复环境中使用虚拟拷贝
EP1639470B1 (en) Method, system and program for handling a failover to a remote storage location
US7188222B2 (en) Method, system, and program for mirroring data among storage sites
US7467168B2 (en) Method for mirroring data at storage locations
US6463501B1 (en) Method, system and program for maintaining data consistency among updates across groups of storage areas using update times
US7734883B2 (en) Method, system and program for forming a consistency group
US7278049B2 (en) Method, system, and program for recovery from a failure in an asynchronous data copying system
US20060182050A1 (en) Storage replication system with data tracking
JP2004343776A (ja) カスケード式再同期を利用する障害回復システム
US20070083641A1 (en) Using a standby data storage system to detect the health of a cluster of data storage servers
US7797571B2 (en) System, method and circuit for mirroring data
CN106331166B (zh) 一种存储资源的访问方法及装置
CN101021806A (zh) 在耦合会话环境内合并一簇会话的会话信息的方法和***
CN103136070A (zh) 一种数据容灾处理的方法和装置
US8903766B2 (en) Data mirroring using a virtual connection
US7647357B2 (en) Data transfer management in consistency group formation
US9582384B2 (en) Method and system for data replication
JP2008009660A (ja) データ管理システム,データ管理方法及びデータ管理用プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090923

CF01 Termination of patent right due to non-payment of annual fee