CN101390336A - 灾难恢复体系结构 - Google Patents

灾难恢复体系结构 Download PDF

Info

Publication number
CN101390336A
CN101390336A CNA2005800496542A CN200580049654A CN101390336A CN 101390336 A CN101390336 A CN 101390336A CN A2005800496542 A CNA2005800496542 A CN A2005800496542A CN 200580049654 A CN200580049654 A CN 200580049654A CN 101390336 A CN101390336 A CN 101390336A
Authority
CN
China
Prior art keywords
website
server
recovery
produces
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800496542A
Other languages
English (en)
Other versions
CN101390336B (zh
Inventor
路卡·卡萨尔
菲勒普·法瑞纳
尤戈尼奥·M·马费奥尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
Telecom Italia SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia SpA filed Critical Telecom Italia SpA
Publication of CN101390336A publication Critical patent/CN101390336A/zh
Application granted granted Critical
Publication of CN101390336B publication Critical patent/CN101390336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

基于分组的网络中的灾难恢复方法和***。***(50)包括由基于分组的网络(56)耦接的产生站点(52)和恢复站点(54)。产生站点(52)上的镜像软件(68)使恢复站点(54)保持与在产生站点上发生的最后事务一致。恢复控制服务器(84)轮询产生站点,以便检测灾难条件或者其它故障。当在产生站点(52)上检测到问题时,恢复控制服务器(84)重新配置网络(56),以致访问产生站点(52)的尝试被路由到恢复站点(54)。

Description

灾难恢复体系结构
技术领域
本发明涉及电信网络,更具体地说,涉及电信网络中使用的灾难恢复技术。
背景技术
随着连网计算机***的普及和日益方便,在许多商业环境中,通过数据库的用户间数据共享已变得常见。通过数据库提供对信息的集中访问需要仔细考虑数据库维护和管理。此外,对于在硬件/设备故障或应用逻辑故障之后保证数据库连贯性来说,恢复技术是必不可少的。
一般来说,在损害之后,恢复技术把***或保存在***中的数据复位到可操作状态,并提供通过恢复备份副本来重建数据库的处理。
在任意数据恢复***中,所考虑的有两点:
·首先,恢复点目标(RPO),它定义原始数据和备份副本之间的最大计划变化。
·其次,恢复时间目标(RTO),它定义重建服务的最长时间。
***备份的最简单形式之一包括把在磁带上产生的数据的副本物理运输到远程存档地。通常,这要求用户在制作备份磁带的时候,暂停所有的数据库活动。从而,灾难恢复处理涉及使用备份磁带来恢复数据库。
一种更现代形式的***备份使用网络互连来执行产地的定期备份。进行这种备份的时间由网络管理员控制。恢复应用服务器的方法包括从硬件开始安装具有和旧***类似特性的新***,并从恢复站点恢复***的备份映像。
Veritas提供的另一种现有***(在本专利申请的提交日期,可通过URL: http://www.veritas.com/Products/www?c=product&refID=140从因特网下载获得)设想一种用于控制正确执行备份程序所必需的各个阶段,以及随后的恢复客户端阶段的软件模块的体系结构。具体地说,Veritas解决方案对每个独立的功能方面使用不同的服务器,包括控制和管理备份操作的服务器,控制客户端恢复阶段的服务器,向客户端提供恢复所必需的程序和配置的服务器,最后,管理远程引导的服务器。
另一种现有解决方案是在因特网上供通过URL: http://www.cisco.com/en/US/products/hw/ps4159/ps2160/products_installation_and_configuration_guide_book09186a00801a45b0.html下载(在本专利申请的提交日)的题为“Cisco Network Boot Installation andConfiguration Guide,Release 3.1”中描述的Cisco网络引导***,它产生包括操作***,服务器上的应用程序和数据在内的整个***映像的副本。备份由网络管理员手动进行。Cisco解决方案提供了通过网络远程执行引导程序的可能性,只要它具有和从其进行复制的主服务器相同的硬件特性。恢复服务器于是能够从网络恢复***映像的远程副本,并重新提供先前由主服务器保证的服务。
在US专利公开US2004/0153698 A1中,提供一种受损或被毁电信网络元件的服务的灾难准备和恢复的***和方法。计算机实现的网络元件的灾难备份方法包括建立与多个网络元件的连接。主计算机可向网络元件传送一个或多个命令,以便把产生多个计算机可读服务连续性数据的计算机例程调用到网络元件的本地存储器中。用于网络元件的灾难恢复的计算机可执行组件的自动化***包括一个被配置成选择为灾难备份操作指定的多个网络元件的计算机可执行控制器组件。配置成建立与多个网络元件的连接,以及向网络元件传送一个或多个命令,以便为每个所述网络元件复制服务连续性数据的计算机可执行引擎组件。
在美国专利公开US2004/0078397 A1中,一种文件***灾难恢复技术提供自动化监视,故障检测和从主要指定目标到指定的一组次要指定目标之一的多步故障修复。次要指定目标可被区分优先次序,以致按照规定的进行故障修复。主要指定目标和次要指定目标之间的信息复制允许按照使操作的连续性达到最大程度的方式的故障修复。另外,可在故障检测和/或在故障修复操作和/或在故障回复(failback)时开始用户指定的操作。
发明内容
申请人注意到在灾难事件之后恢复***时,存在不取决于网络元件的恢复,以及在客户端不必手动改变他们的配置以与位于恢复站点的恢复服务器取得联系的情况下,保证客户端可以获得服务,同时最好保持良好的RPO和RTO值的问题。
申请人发现借助按照权利要求1所述的执行灾难恢复的方法,能够解决上述问题。
具体地说,申请人发现通过提供把客户端路由到恢复服务器的自动重新路由机制,可解决上述问题。此外,通过借助镜像程序为数据复制阶段提供自动化控制和管理机制,能够解决上述问题,所述镜像程序使服务器的数据和配置总是与最后的事务一致。
本发明的另一方面涉及按照权利要求12所述的执行灾难恢复的***。
本发明的其它方面涉及可装入至少一个计算机的存储器中的计算机程序产品,所述计算机程序产品包括当所述产品在计算机上运行时,执行本发明的方法的各个步骤的软件代码部分。这里使用的对这种计算机程序产品的引用意图等同于对计算机可读介质的引用,所述计算机可读介质包含控制计算机***协调本发明的方法的性能的指令。对“至少一个计算机”的引用显然意图突出按照分布式/模块化方式实现本发明的可能性。
在从属权利要求和下面的描述中说明了本发明的其它优选方面。
附图说明
为了更好地理解本发明,下面将参考附图说明一个优选实施例,所述优选实施例只是一个例子,而不应被理解为对本发明的限制,其中:
图1是按照本发明执行灾难恢复的***图。
图2是图1的产生站点的详细***图。
图3是广域网的详图。
图4是恢复控制服务器的详图。
图5表示正常操作状态期间的网络通信量的流动。
图6表示在灾难恢复情况下的网络通信量的流动。
图7表示在故障回复情况下的网络通信量的流动。
图8是实现本发明的方法的流程图。
具体实施方式
图1是包括产生站点52,恢复站点54,耦接在产生站点和恢复站点之间的网络56,和外联网客户端58的***50的示图。产生站点可包括与一个或多个应用服务器62耦接的存储器60。一个或多个内联网客户端64被用于通过网络66访问应用服务器62,网络66可包括例如以太网交换机和IP路由器。另外方框66中所示的是安全装置,所述安全装置可包括验证***、防火墙或者阻挡对应用服务器的访问的入侵检测***。镜像软件模块68被用于在远程存储卷上进行应用服务器的本地映像的同步复制。这种同步复制保证直到最后的事务,存放在存储器60上的数据与保存在恢复站点54上的副本一致。另外可取的是镜像软件模块保存与***的稳定操作条件对应的***的映像,以致在最后的事务导致对服务器配置的损害的情况下,能够回到先前保存的稳定映像。
恢复站点54可包括一个或多个恢复服务器78,网络和安全装置80,存储区域网(SAN)装置82和恢复控制服务器84。恢复服务器78用于在灾难情况下模拟应用服务器62。可取的是向恢复服务器池提供不断变化的硬件特性,以致在灾难情况下,可以使用服务器池中与应用服务器62最密切相关的服务器。SAN装置82保存从镜像软件模块68提供的镜像数据。网络和安全装置80为恢复站点54执行与位于产生站点的网络和安全装置66相同的功能。恢复控制服务器84对被管理的每个应用服务器62进行定期请求(保活),从而监视它们的可访问性。这样,恢复控制服务器84能够监视在产生站点52是否存在问题。另外,恢复控制服务器84能够监视通过镜像软件68,从一个或多个应用服务器62到位于恢复站点54的SAN存储单元82的存储流。许多技术可被用于从恢复控制服务器84监视产生站点52,例如通过轮询。如下进一步所述,恢复控制服务器84还控制在产生站点检测到问题的情况下,从产生站点52到恢复站点54的自动切换。这样做时,必须从可用服务器池中选择与其上发现问题的应用服务器62最密切相关的一个恢复服务器78。另外,恢复控制服务器84自动重新配置必需的网络56、66,以允许外联网客户端58和内联网客户端64自动并且无缝地访问恢复服务器78。最后,恢复控制服务器84能够自动管理故障回复条件,在所述故障回复条件下,应用服务器62被恢复,并且来自SAN装置82的数据需要被复制回产生站点52。
图2表示可能的产生站点52的更详细例子。应用服务器62包括***映像100。***映像100包括操作***102,一组应用程序104和操作***及应用对其进行处理的数据106。大容量存储器60包括保存数据106的本地存储装置。存储启动程序110也存在于应用服务器62上,是允许数据被传给可通过网络基础结构(例如LAN、WAN等)访问的远程存储卷的软件模块。软件镜像68是执行应用服务器62中的本地映像的同步复制的软件模块。本地映像随后通过存储启动程序模块110被保存在恢复站点54。软件镜像模块68还可获得***映像的瞬象,以便保持间隔不同时间的多个***映像。从而,除具有最后的事务之外,还可具有***的间隔不同时间的多个稳定副本。这允许***具有在不同的时间获得的一个或多个稳定副本,便于***回到先前已知的稳定状态。通过利用软件镜像68,实现***映像的远程复制,这使该体系结构不含属于特定制造商的专有解决方案。上述这种类型的软件镜像模块可通过URL:http://www.veritas.com /Products/www?c=product&refID=3从因特网上下载(在本专利申请的提交日)。
内联网客户端64可通过网络装置112访问应用服务器62,这种情况下,所述网络装置112被表示成2级和3级装置。从而,网络装置112是用于产生站点的基于分组的网络的装置,并允许与第三方基于分组的网络的连接,以便实现大城市级、国家级或者国际级访问。网络装置112可以是LAN/MAN技术,IP路由器等。安全装置114提供对于来自外部客户端的未经授权访问的安全性。例如,安全装置可包括防火墙、入侵检测***等。可通过任何所需的标准(例如SNMP)或者经由命令行界面监视和配置安全装置。
图3更详细地表示WAN 56。WAN 56允许外联网58、产生站点52和恢复站点54之间的互连。可以使用各种各样的协议。例如,多协议标签交换(MPLS)协议可被用于允许使用虚拟专用网(VPN)服务互连两个站点。WAN 56包括在120概括表示的多个网络交换装置。具体地说,用户边缘装置(例如,用于连接网络与客户端计算机的网络设备,比如路由器或交换机)122、124分别位于产生站点52和恢复站点54,并且允许与位于提供商的存在点(PoP)的提供商边缘(PE)网络装置126、128(例如作为允许与用户边缘装置的连接的服务提供商网络的一部分的路由器)通信。其它提供商网络装置130(简单地用P标明)允许提供商边缘126、128和外联网58之间的通信。为了向预先存在的VPN中增加一个新站点,通过利用供应平台,提供商可在CE和PE装置上增加正确的配置。MPLS VPN允许向属于相同VPN的站点提供IP级连接。更加创新的解决方案,比如(虚拟专用LNA服务)允许在属于相同VPN的站点之间建立以太网连接。和MPLS VPN解决方案中一样,为了向VPLS中增加一个新的站点,提供商可对CE和PE装置采取行动。这两种解决方案之间的主要差别在于就VPLS服务来说,提供商并不管理用户产生的路由。
如下进一步所述,恢复站点的恢复控制服务器84具有重新路由网络装置120的能力,以致在灾难情况下,外联网58和内联网客户端64能够访问恢复站点54。恢复控制服务器84自动设立属于其工作范围(产生站点和恢复站点)的***中的操作规则,并且当需要时,通过与一般由第三方,比如网络运营商运行的其它控制***对接,能够与在其直接控制之外的***交互作用。
图4表示恢复控制服务器84的更多细节。为了便于举例说明,下面的说明涉及的是其中结合MPLS功能使用WAN的情况,不过也可以使用允许如上所述的专用虚拟网络解决方案的配置的其它基于分组的网络。用户信息管理器模块150(CIMM)是涉及管理储存库模块152内的元数据,和详述位于产生站点52的应用服务器62的特性的软件模块。保存在储存库模块150中的信息可包括:
·应用服务器路由计划。
·用于内联网/外联网客户端的应用服务器访问规则。
·关于产生站点网络布局和产生站点与恢复站点之间的互连的信息。
·应用服务器的硬件特性。
·操作***、安装的软件包等的映像特性。
·关于服务商定的服务级协定。
·在恢复站点的,具有与位于产生站点的应用服务器兼容的特性的服务器的可用性。
应用服务器控制模块(ASCM)154是检查在产生站点52的应用服务器可访问性的软件模块。通过轮询服务器的IP地址,或者通过核实安装在服务器62中的应用程序是否在使用,进行所述检查。通过能够在本地存储器和远程存储器之间实现同步镜像处理的软件,能够实现额外级别的控制。如果超过可配置阈值(例如,30秒,不过该时间可随着特定应用而变化)的一段时间不能访问应用服务器62,那么ASCM模块154将请求激活灾难恢复程序。
存储网关控制模块(SGCM)156向存储网关管理***发出请求,并且能够实现下述功能:
·应用服务器62对位于恢复站点54的存储装置的访问。通过访问控制列表(ACL)的配置,管理存储器访问,访问控制列表指定哪些服务器获得访问指定存储装置的许可。
·释放或分配资源的请求。这种功能允许发出释放预先分配的资源的请求,因为已决定停止对于指定应用服务器的灾难恢复服务,或者相反,分配新的存储资源。这种功能更新关于用户签名(undersign)的SLA的信息,并被保持在储存库152中。
·故障回复条件下复制处理的管理。在灾难恢复程序之后,这种功能允许在位于产生站点52的存储卷上进行位于恢复站点54的恢复服务器78本地使用的数据的复制。在数据在产生站点被一致地恢复之后,能够回到初始操作条件,其中内联网和外联网客户端访问的服务由位于产生站点的应用服务器公布。
·检查所分配资源的使用状态。借助这种功能,能够获得与存储装置的有效利用有关的统计信息,预先评估新设备(恢复站点池的处理和存储资源)的获取。
供应平台控制模块(PPCM)158是处理对供应平台的请求的软件模块。网络装置的厂商提供允许把以编程元语言接收的请求翻译成将被添加到网络装置中的配置的供应平台。PPCM 158按照互连产生站点52和恢复站点54网络的布局执行这些请求。供应***根据它们掌握的网络基础结构的布局描述,以及网络的所需最终状态的描述,自动产生将被加入到网络装置中的配置命令。可按照下述方式产生这些请求:
静态模式-在用户储存库内,预先分配向供应平台发出请求所必需的信息。如果发生故障,那么从数据库提取所述信息,简明陈述所述信息并将其发给供应平台。
动态模式-通过供应***和控制模块之间的交互作用,动态地获得向供应***发出请求所必需的信息。这种情况下,不必在数据库中预先配置信息。
灾难恢复控制模块(DRCM)160是涉及响应应用服务器控制模块154用信号通信的故障事件,自动进行灾难恢复处理的软件模块。按照包含在用户储存库152中的信息,该模块能够启动下述过程:
·与用户信息管理器模块150交互作用,以便收集关于产生站点52的网络布局和产生站点52与恢复站点54之间的互连的信息。
·向供应平台控制模块158传送消息,以致在产生站点52配置的路由计划被迁移到恢复站点54。该阶段涉及对存在于用户站点和存在于提供商站点的CE装置的配置以及对应PE装置的配置的修改。
·与存储网关控制模块156交互作用,以便识别保存在恢复站点54内的SAN装置上的最新***映像。
·位于恢复站点的DHCP(动态主机配置协议)服务器的配置,以致当进行无磁盘引导时,位于恢复站点54的服务器池中的指定恢复服务器接收和位于产生站点52的应用服务器62相同的IP地址。
·与用户信息管理器模块150交互作用,以便识别属于位于恢复站点54的资源池、具有与应用服务器62兼容的特征的硬件***。
·能够在恢复服务器72上实现无磁盘引导程序。例如,可以使用可通过URL:http//www.cisco.com/en/US/products/hw/ps4159/ps2160/products_installation_and_configuration_guide_book09186a00801a45b0.html(在本专利申请的提交日)从因特网上下载的那种无磁盘引导程序。
模块150、154、156、158和160由位于恢复控制服务器84中的CPU 172执行。另外,这些模块与接口模块162交互作用,以便通信。接口模块162包括各种适配器,包括保活模块164、存储网关适配器166、供应平台适配器168和存储平台适配器170。
当在产生站点52恢复应用服务器2时,可手动或者自动地启动故障回复程序,以使网络配置回到故障之前的状态,并释放分配的资源。故障回复程序遵循与恢复程序类似的逻辑,明显相对于恢复模式对称。
为了一开始配置***,软件镜像68被安装在应用服务器62上,以便进行同步或异步镜像或定期复制。恢复控制服务器84进行许多配置活动。例如,SGCM 156执行关于位于产生站点52的存储器60和应用服务器62的IP地址之间的关联的配置。PPCM 158向供应***请求将被装入储存库模块152内的网络配置。装入的信息包括下述的信息:
用于保证产生站点52和恢复站点54的连通性的CE-PE网络装置ID。用于保证从卷入灾难恢复的所有站点对恢复站点的可访问性的CE-PE网络装置ID。在产生站点使用的、在灾难恢复情况下迁移到恢复站点的路由计划。在位于产生站点的CE装置上配置的访问控制列表,所述访问控制列表定义对于应用服务器可通过外联网连通性得到的服务的访问规则。
恢复控制服务器84中的CIMM把关于应用服务器62和产生站点的信息加入储存库模块152中。这样的信息包括服务器的硬件特性(例如,***映像的大小,网络接口的数目等等),应用服务器的软件特性,和来源于PPCM 158的信息。
最后,ASCM 154启动定期轮询,以便检查服务器的可用性。如果服务器没有应答,那么它将启动灾难恢复程序。
图5表示正常操作状态下的***。ASCM 154检查应用服务器是否处于运行状态,如箭头180所示。另外可取的是应用服务器的***管理员把在应用服务器平台上产生的硬件变化告知灾难恢复服务的管理员。目的是使保存在储存库152中的信息保持最新,并且在启动灾难恢复程序的情况下,允许选择正确的恢复服务器。如箭头182所示,在正常操作期间,外联网客户端58访问位于产生站点52上的应用服务器62。当在服务器62上更新信息时,软件镜像68确保该信息也被保存在恢复站点54上,如箭头180所示。
当ASCM 154持续超过可配置阈值的一段时间未收到来自应用服务器62的ACK消息时,启动灾难恢复程序。通过利用DRCM 160,恢复控制服务器84能够启动下述程序:
1)与CIMM 150交互作用,以便收集关于产生站点的网络布局和产生站点与恢复站点之间的互连的信息。
2)向PPCM传送消息(MigrateNetwork),以致在产生站点配置的路由计划被迁移到恢复站点。该阶段涉及对位于用户站点和提供商站点的CE-PE装置的配置的修改。
3)与SGCM交互作用,以便识别保存在恢复站点内的存储***上的最新***映像(在使用复制机制的情况下,它可与最新的相符)。
4)位于恢复站点的DHCP服务器的配置,以便当恢复服务器被引导(无盘引导)时,使恢复服务器能够接收和位于产生站点的应用服务器相同的IP地址。
5)与CIMM交互作用,以识别属于位于恢复站点的资源池的具有与应用服务器兼容的特性的硬件***。
6)无盘引导程序的启动:在该阶段,GUI通知操作人员从处于待机状态的硬件资源池选择的恢复服务器可被加电。
可能没有内部存储器(无盘)的恢复服务器向DHCP服务器发出请求,以获得IP地址和与访问包含应用服务器的***映像的存储***有关的信息(IP地址,卷名、LUN等)。一旦收到该信息,恢复服务器就能够通过网络执行无盘引导。当引导结束时,恢复服务器一直到最后一次事务与初始应用服务器一致。通过利用灾难恢复程序的连通性建立(connectivity set up),每个内联网、外联网或因特网客户端能够借助TCP/IP访问恢复服务器的恢复的服务。
图6表示在启动灾难恢复程序之后的数据流动。如箭头188所示,当外联网客户端试图访问产生站点52时,请求被自动重新路由到恢复站点54。对于外联网用户来说这是透明发生的,外联网用户不必键入恢复站点的不同网络地址。从而,从外联网客户端的观点来看,产生站点仍然正被访问,尽管实际上恢复站点正被访问。
图7表示故障回复情况。故障回复程序允许在灾难恢复程序之后回到初始状态。在位于产生站点52的应用服务器62已被恢复之后,仍然存在由恢复站点提供所有服务的一段时间。
故障回复程序可包括返回先前说明的正常操作条件的下述阶段:
1)SGCM 156启动反向复制程序,在产生站点上产生恢复站点的数据的一致副本,如箭头190所示。
2)DRCM把消息(MigrateNetwork)传给PPCM,以致在恢复站点配置的路由计划被迁移到产生站点。该阶段涉及对位于用户站点和提供商站点的CE-PE装置的配置的修改。
3)产生站点的服务被重新启动,客户端访问初始的应用服务器62。
4)位于恢复站点54的恢复服务器78使用的硬件资源被释放(归还自由资源池)。
5)同步/异步镜像(或者复制)程序被重新启动。
图8表示实现本发明的方法的流程图。在处理方框210,恢复站点通过轮询检测产生站点的问题。在处理方框212,恢复站点自动执行网络的重新配置,以致访问产生站点的尝试被路由到恢复站点。这样的请求来自于外联网或者内联网请求。
根据前面的说明,本发明的优点是显然的。
特别地,一个优点在于通过借助镜像处理进行复制,RPO和RTO参数被优化。
另一优点在于本发明与在产生站点或恢复站点采用的软件/硬件解决方案无关。
另一优点在于把客户端路由到恢复服务器的自动重新路由。
最后,显然可对本发明做出众多的修改和变化,所有这些修改和变化在本发明的范围之内。
例如,通过作用于实现该解决方案的单个组件,或者集成该领域内的控制体系结构中的现有组件,可扩展和修改该解决方案。
具体地说,在产生站点,提供同步/异步镜像软件的组件并不局限于任何特定技术。它们可利用基于主机的、基于网络的或者基于阵列的虚拟化机构以及利用软件模块或者利用特定的硬件组件来实现。
此外,这里描述的“灾难”意味着产生站点由于任何原因而不起作用。并不意味着必须发生真实的灾难。
另外,对于产生站点和恢复站点之间的互连网络来说,用于到远程站点的镜像/复制流的协议可以是标准协议或者专有协议,只要它在恢复站点的存储器上执行再现在产生站点的存储器上产生的相同写入的功能(例如SCSI)。
另外,在恢复站点,通过网络进行引导的机制可相对于用于访问在产生站点的数据的那些协议在恢复站点本地,或者在产生站点和恢复站点之间的互连中使用不同的传输协议(Fiber Channel或者iSCSI)。此外,恢复控制服务器可被全部设置在相同装置内,或者可按照利用实现所需基本功能的其它装置的特性或功能的分布方式构建恢复控制服务器。这些功能的控制逻辑可在独立的***上实现,或者作为附加功能被集成在提及的装置之一中。特别地,在恢复站点重新启动应用服务器之后提供的服务的网络重新路由可由独立的***部分或者完全管理,所述独立***与手头的***的智能模块结合,并被委托动态管理关于连接提供商的外联网/内联网VPN站点。按照在产生站点和恢复站点之间以及在客户端和产生站点之间利用的具体连接,这种重新路由机制可使用各种备选方案(MPLS VPN或者可堆叠VLAN/dotlq等等)。类似地,通过集成已存在于商用产品内的基本模块,比如网关或存储交换机,能够实现恢复控制服务器内的存储网关的组件。
为了进一步优化使主站点恢复到正常条件(故障回复),该解决方案的恢复和复原机制可参考能够减小恢复活动时间窗口、向这两个站点之间的互连提供比在正常操作条件下可得到的传输频带更宽的传输频带、从而加速恢复和复原阶段中的操作的特定的动态的或其它形式的QoS机制。
如同预期的那样,为了优化由位于恢复站点的恢复服务器形成的处理硬件资源,尤其是在单个的恢复服务器上,可以安装特定的软件模块来虚拟化物理资源,以便使受该解决方案保护的应用服务器的硬件特性与构成资源池的***的那些硬件特性解耦。
这使得更易于使这样的恢复服务器与产生站点的主服务器的硬件兼容,并且保证资源的更高效分配。这样,由于虚拟化***的物理驱动器(1:1虚拟化)的功能(这种虚拟化允许在相同的物理结构上模拟不同的硬件),可使先进的灾难恢复服务免于采用硬件配置与位于产生站点的应用服务器的硬件配置相同的服务器。另外,还可使用虚拟化软件同时把相同的硬件资源用于一个以上的应用服务器映像(n:1虚拟化)。

Claims (17)

1、一种在包括适合于由基于分组的网络(56)耦接的产生站点(52)和恢复站点(54)的体系结构中执行灾难恢复的方法,其特征在于包括:
检测产生站点(52)的问题;
响应于问题的检测,自动重新配置基于分组的网络(56),从而通过基于分组的网络(56)将访问产生站点(52)的尝试路由到恢复站点(54)。
2、按照权利要求1所述的方法,还包括镜像(180)至少一部分的产生站点(52),以致对于所述至少一部分的产生站点(52)发生的变化被自动复制到恢复站点(54)。
3、按照前述任意权利要求所述的方法,还包括每隔预定时间,从恢复站点(54)轮询(184)产生站点(52)。
4、按照前述任意权利要求所述的方法,检测在产生站点的问题的解决,并通过把恢复数据从恢复站点(54)复制(190)到产生站点(52),自动恢复产生站点。
5、按照权利要求4所述的方法,在恢复产生站点之后,自动重新配置网络(56),以允许访问产生站点(52)。
6、按照前述任意权利要求所述的方法,包括利用在产生站点的服务器(62)的网络地址,从内联网(64)和外联网(58)计算机访问位于恢复站点(54)的恢复服务器(78)。
7、按照前述任意权利要求所述的方法,其中检测问题包括:
轮询位于产生站点的服务器(62);
持续预定的一段时间等待来自服务器(62)的响应;和
响应于所述预定一段时间的满期,启动灾难恢复程序。
8、按照前述任意权利要求所述的方法,还包括从恢复服务器池中选择位于恢复站点(54)的恢复服务器(78)。
9、按照权利要求8所述的方法,其中所述选择包括取回与位于产生站点(52)的服务器(62)相关的硬件特性,并尽可能接近地匹配这些硬件特性与位于恢复站点的恢复服务器池中的恢复服务器(78)的硬件特性。
10、按照前述任意权利要求所述的方法,其中重新配置网络(56)包括把具有产生站点(52)的网络地址的请求重新路由到恢复站点(54)。
11、按照前述任意权利要求所述的方法,还包括在恢复站点上保存一直到最后事务为止的位于产生站点(52)的服务器(62)的状态的稳定副本,和位于产生站点的服务器(62)的副本。
12、一种在分组通信网络(56)中进行灾难恢复的***(50),所述***包括适合于由网络(56)耦接的产生站点(52)和恢复站点(54),其特征在于包括:
位于恢复站点(54)的恢复控制服务器(84),包括:
能够检测产生站点(52)的问题的第一模块(154);
能够依据问题的检测,自动重新配置网络,从而将访问产生站点(52)的尝试路由到恢复站点(54)的第二模块(160)。
13、按照权利要求12所述的***,还包括位于产生站点(52)的应用服务器(62),应用服务器(62)包括把产生站点上的应用服务器的映像同步复制到恢复站点(54)的镜像模块(68)。
14、按照权利要求13所述的***,还包括保存在恢复站点(54)上的数据库(152),所述数据库(152)保存和位于产生站点的应用服务器(62)有关的信息。
15、按照权利要求14所述的***,其中和应用服务器(62)有关的信息包括下述一个或多个:
·应用服务器路由计划;
·关于内联网和外联网客户端的应用服务器访问规则;
·应用服务器的硬件特性;
·映像特性。
16、一种包括适合于由基于分组的通信网络(56)耦接的产生站点(52)和恢复站点(54)的体系结构,其特征在于包括按照权利要求12-16所述的执行灾难恢复的***(50)。
17、一种适合于通过基于分组的通信网络(56)与产生站点(52)耦接的恢复站点(54),其特征在于包括:
恢复控制服务器(84),所述恢复控制服务器(84)包括:
能够检测产生站点(52)的问题的第一模块(154);
能够依据问题的检测,自动重新配置网络,从而将访问产生站点(52)的尝试路由到恢复站点(54)的第二模块(160)。
CN2005800496542A 2005-03-10 2005-03-10 灾难恢复体系结构 Active CN101390336B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2005/002535 WO2006094527A1 (en) 2005-03-10 2005-03-10 Disaster recovery architecture

Publications (2)

Publication Number Publication Date
CN101390336A true CN101390336A (zh) 2009-03-18
CN101390336B CN101390336B (zh) 2011-11-02

Family

ID=34962970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800496542A Active CN101390336B (zh) 2005-03-10 2005-03-10 灾难恢复体系结构

Country Status (5)

Country Link
US (1) US8266473B2 (zh)
EP (1) EP1867097B1 (zh)
JP (1) JP2008533573A (zh)
CN (1) CN101390336B (zh)
WO (1) WO2006094527A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393828A (zh) * 2011-07-13 2012-03-28 北京邮电大学 一种信息***灾难恢复点目标的计算方法
CN102480521A (zh) * 2010-11-28 2012-05-30 上海浦东软件园信息技术股份有限公司 web应用安全综合防御保障***
CN103222253A (zh) * 2010-11-17 2013-07-24 阿尔卡特朗讯 用于网络单元服务恢复的方法和***
CN111382436A (zh) * 2018-12-28 2020-07-07 卡巴斯基实验室股份制公司 检测用于异常***的兼容***的方法
CN113678106A (zh) * 2019-04-10 2021-11-19 Emc Ip控股有限公司 为云中的灾难恢复动态选择最佳实例类型

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818393B1 (en) 2005-06-02 2010-10-19 United States Automobile Association System and method for outage avoidance
US20070199044A1 (en) * 2006-02-17 2007-08-23 Samsung Electronics Co., Ltd. Systems and methods for distributed security policy management
US20070250626A1 (en) * 2006-04-21 2007-10-25 Electronic Data Systems Corporation System and method for uniform disaster recovery system access
US7725764B2 (en) * 2006-08-04 2010-05-25 Tsx Inc. Failover system and method
EP1953995A1 (en) * 2007-01-30 2008-08-06 Seiko Epson Corporation Application execution system, computer, application execution device, and control method and program for an application execution system
US20080205265A1 (en) * 2007-02-22 2008-08-28 Verizon Services Organization Inc. Traffic routing
KR101495369B1 (ko) * 2007-03-30 2015-02-24 톰슨 라이센싱 모바일 tv를 위한 로버스트 파일 캐스팅
US7757111B2 (en) * 2007-04-05 2010-07-13 International Business Machines Corporation Method and system for insuring data integrity in anticipation of a disaster
US7644300B1 (en) * 2007-04-20 2010-01-05 3Par, Inc. Fast resynchronization of data from a remote copy
US8914540B1 (en) * 2008-07-01 2014-12-16 Cisco Technology, Inc. Multi-fabric SAN based data migration
US7954002B2 (en) * 2008-08-07 2011-05-31 Telefonaktiebolaget L M Ericsson (Publ) Systems and methods for bulk release of resources associated with node failure
JP5304359B2 (ja) * 2009-03-17 2013-10-02 日本電気株式会社 通信制御装置、データ同期方法およびデータ同期用プログラム
US8112657B2 (en) * 2010-06-14 2012-02-07 At&T Intellectual Property I, L.P. Method, computer, and computer program product for hardware mapping
US8694822B2 (en) 2010-11-09 2014-04-08 International Business Machines Corporation Disaster recovery in a networked computing environment
US10585766B2 (en) 2011-06-06 2020-03-10 Microsoft Technology Licensing, Llc Automatic configuration of a recovery service
GB2496377B (en) 2011-11-02 2014-07-30 Ibm Message reconciliation during disaster recovery
JP5891890B2 (ja) * 2012-03-26 2016-03-23 富士通株式会社 ストレージシステム、ストレージ装置およびデータ復元方法
JP5494710B2 (ja) * 2012-04-10 2014-05-21 セイコーエプソン株式会社 アプリケーション実行システム、アプリケーション実行システムのアプリケーション実行方法およびプログラム
TWI610166B (zh) 2012-06-04 2018-01-01 飛康國際網路科技股份有限公司 自動災難復原和資料遷移系統及方法
US9170845B2 (en) * 2012-08-28 2015-10-27 Vce Company, Llc Deployed application factory reset
US9251018B2 (en) 2012-12-19 2016-02-02 International Business Machines Corporation Enhanced recovery of highly available computing systems
US9805104B2 (en) 2013-02-15 2017-10-31 Microsoft Technology Licensing, Llc Recovery point objective enforcement
EP3084617A4 (en) * 2013-12-19 2018-01-10 Intel Corporation Elastic virtual multipath resource access using sequestered partitions
US9971658B2 (en) * 2015-01-09 2018-05-15 Vmware, Inc. Client deployment with disaster recovery considerations
JP6623692B2 (ja) * 2015-11-02 2019-12-25 富士通株式会社 ログ情報採取システム、ログ情報採取プログラムおよびログ情報採取方法
US9477555B1 (en) * 2015-11-16 2016-10-25 International Business Machines Corporation Optimized disaster-recovery-as-a-service system
CN108111529A (zh) * 2017-12-29 2018-06-01 中国铁路设计集团有限公司 一种新型线网城市轨道交通门禁***
EP4062278A4 (en) * 2019-11-22 2023-08-16 Hewlett-Packard Development Company, L.P. DATA MANAGEMENT
CN111600846B (zh) * 2020-04-22 2022-03-25 烽火通信科技股份有限公司 一种网关设备的恢复方法和恢复***

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01195544A (ja) * 1988-01-29 1989-08-07 Nec Corp デュプレックス構成システムのダウン監視方式
US5513314A (en) * 1995-01-27 1996-04-30 Auspex Systems, Inc. Fault tolerant NFS server system and mirroring protocol
JPH08235132A (ja) * 1995-02-22 1996-09-13 Hitachi Ltd マルチサーバシステムのホットスタンバイ制御方法
US5630047A (en) * 1995-09-12 1997-05-13 Lucent Technologies Inc. Method for software error recovery using consistent global checkpoints
US5923850A (en) * 1996-06-28 1999-07-13 Sun Microsystems, Inc. Historical asset information data storage schema
US6185601B1 (en) * 1996-08-02 2001-02-06 Hewlett-Packard Company Dynamic load balancing of a network of client and server computers
JPH10105423A (ja) * 1996-09-27 1998-04-24 Nec Corp ネットワークサーバの障害監視方式
US6292905B1 (en) * 1997-05-13 2001-09-18 Micron Technology, Inc. Method for providing a fault tolerant network using distributed server processes to remap clustered network resources to other servers during server failure
US6597658B1 (en) 1998-12-28 2003-07-22 At&T Corp. Hierarchical telecommunications network with fault recovery
JP4189076B2 (ja) * 1999-03-26 2008-12-03 株式会社東芝 耐障害コンピュータシステム
JP3768775B2 (ja) 2000-04-27 2006-04-19 三菱電機株式会社 バックアップ装置及びバックアップ方法
JP3968207B2 (ja) * 2000-05-25 2007-08-29 株式会社日立製作所 データ多重化方法およびデータ多重化システム
US6694447B1 (en) * 2000-09-29 2004-02-17 Sun Microsystems, Inc. Apparatus and method for increasing application availability during a disaster fail-back
US7065767B2 (en) * 2001-06-29 2006-06-20 Intel Corporation Managed hosting server auditing and change tracking
JP4686677B2 (ja) * 2001-12-27 2011-05-25 株式会社ブロードリーフ 代替サーバ切り替え方法
US7814050B2 (en) 2002-10-22 2010-10-12 Brocade Communications Systems, Inc. Disaster recovery
US20040153698A1 (en) 2002-12-30 2004-08-05 At&T Corporation Concept of zero -dense wave division multiplex disaster recovery process
US7231544B2 (en) * 2003-02-27 2007-06-12 Hewlett-Packard Development Company, L.P. Restoring data from point-in-time representations of the data
JP3848290B2 (ja) * 2003-04-28 2006-11-22 株式会社東芝 コンピュータ名引継ぎ時の名前解決方法、クラスタサーバ計算機及びクラスタサービスプログラム
JP3737810B2 (ja) * 2003-05-09 2006-01-25 株式会社東芝 計算機システム及び故障計算機代替制御プログラム
CN100414916C (zh) * 2003-09-03 2008-08-27 华为技术有限公司 网络灾难时的优先级报文流量保证方法
US7383463B2 (en) * 2004-02-04 2008-06-03 Emc Corporation Internet protocol based disaster recovery of a server
US7483926B2 (en) * 2005-04-01 2009-01-27 Microsoft Corporation Production server to data protection server mapping

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103222253A (zh) * 2010-11-17 2013-07-24 阿尔卡特朗讯 用于网络单元服务恢复的方法和***
US9130967B2 (en) 2010-11-17 2015-09-08 Alcatel Lucent Method and system for network element service recovery
CN103222253B (zh) * 2010-11-17 2016-03-16 阿尔卡特朗讯 用于网络单元服务恢复的方法和***
CN102480521A (zh) * 2010-11-28 2012-05-30 上海浦东软件园信息技术股份有限公司 web应用安全综合防御保障***
CN102480521B (zh) * 2010-11-28 2014-07-23 上海浦东软件园信息技术股份有限公司 web应用安全综合防御保障***
CN102393828A (zh) * 2011-07-13 2012-03-28 北京邮电大学 一种信息***灾难恢复点目标的计算方法
CN102393828B (zh) * 2011-07-13 2013-09-25 北京邮电大学 一种信息***灾难恢复点目标的计算方法
CN111382436A (zh) * 2018-12-28 2020-07-07 卡巴斯基实验室股份制公司 检测用于异常***的兼容***的方法
CN111382436B (zh) * 2018-12-28 2023-06-23 卡巴斯基实验室股份制公司 检测用于异常***的兼容***的方法
CN113678106A (zh) * 2019-04-10 2021-11-19 Emc Ip控股有限公司 为云中的灾难恢复动态选择最佳实例类型
CN113678106B (zh) * 2019-04-10 2022-08-09 Emc Ip控股有限公司 为云中的灾难恢复动态选择最佳实例类型

Also Published As

Publication number Publication date
US8266473B2 (en) 2012-09-11
US20080209258A1 (en) 2008-08-28
CN101390336B (zh) 2011-11-02
JP2008533573A (ja) 2008-08-21
EP1867097A1 (en) 2007-12-19
WO2006094527A1 (en) 2006-09-14
EP1867097B1 (en) 2016-11-02

Similar Documents

Publication Publication Date Title
CN101390336B (zh) 灾难恢复体系结构
US8903963B2 (en) Method and apparatus for web based storage on demand
CN104487960B (zh) 自动灾难恢复和数据迁移
CN102597955B (zh) 数据存储***的智能滚动升级
US7370336B2 (en) Distributed computing infrastructure including small peer-to-peer applications
CN102214128B (zh) 多用途恢复环境
CN108270726B (zh) 应用实例部署方法及装置
EP3210367B1 (en) System and method for disaster recovery of cloud applications
CN108206847A (zh) Cdn管理***、方法及装置
US10387279B2 (en) System and method for providing failovers for a cloud-based computing environment
CN104503965A (zh) PostgreSQL高弹性的高可用及负载均衡实现方法
CN112311646B (zh) 基于超融合***的混合云及部署方法
JP2008517358A (ja) ストレージ管理を容易にするための装置、システム、および方法
CN106972970A (zh) 一种避免oVirt云平台管理节点单点故障的方法
US7228344B2 (en) High availability enhancement for servers using structured query language (SQL)
CN101535979A (zh) 存储资源装置的管理
CN109799998A (zh) OpenStack集群配置及批量部署方法及***
CN112035062B (zh) 云计算的本地存储的迁移方法、计算机设备及存储介质
CN105468446A (zh) 一种基于Linux的HPC作业调度实现高可用的方法
CN112882771A (zh) 应用***的服务器切换方法及装置、存储介质及电子设备
CN116820686B (zh) 物理机的部署方法、虚拟机和容器统一监控的方法及装置
CN114915545B (zh) 基于dhcp网络集群的应用调度部署管理方法
JP5307223B2 (ja) 障害回復アーキテクチャ
KR100771915B1 (ko) 디지털 보호 계전기 및 통신 이중화 방법
CN106156086A (zh) Hadoop平台***及其主节点日志备份方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant