JP2008537203A - 障害復旧フレームワーク - Google Patents

障害復旧フレームワーク Download PDF

Info

Publication number
JP2008537203A
JP2008537203A JP2007557046A JP2007557046A JP2008537203A JP 2008537203 A JP2008537203 A JP 2008537203A JP 2007557046 A JP2007557046 A JP 2007557046A JP 2007557046 A JP2007557046 A JP 2007557046A JP 2008537203 A JP2008537203 A JP 2008537203A
Authority
JP
Japan
Prior art keywords
server
failover
computer network
internal computer
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007557046A
Other languages
English (en)
Inventor
アレクサンダー・ラーゼン
フィリップ・ジェイ・ブランデンバーガー
ロバート・エス・アドラー
ロドニー・エヌ・ブラウン
マイケル・チャン
Original Assignee
リーマン・ブラザーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by リーマン・ブラザーズ・インコーポレーテッド filed Critical リーマン・ブラザーズ・インコーポレーテッド
Publication of JP2008537203A publication Critical patent/JP2008537203A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

内部コンピュータネットワークに対してサービスを提供するサーバーのフェイルオーバー操作を編成するシステム及び方法は、フェイルオーバー操作を実行する制御スクリプトを実行するように構成されるDRサーバーを具備する。フェイルオーバー操作を実行するために必要な情報は、前記DRサーバー上に格納し、それによって、各アプリケーションのプライマリ及びバックアップサーバーの各々がエージェントを格納する必要をなくしている。前記DRサーバーは、前記内部ネットワークの冗長化されたサービスのフェイルオーバー手順のメンテナンス及び更新のための中央位置を提供しても良い。フェイルオーバー操作は、前記内部コンピュータネットワークと通信して、権限を有するユーザーによって開始しても良い。

Description

本発明は、コンピュータシステムのネットワーク内部のサービス管理のためのシステム及び方法に関するとともに、より具体的には、そのようなシステム内部でのサーバーフェイルオーバーのためのサービスに関する。
組織は、前記組織のミッションを支援する特定のサービスが1日を通じて利用可能であることを常時必要とする。例えばイントラネットのような、前記組織内部のネットワークに接続されているサーバー上で実行されているアプリケーションを介してサービスを提供しても良い。前記サービスの中断は、前記組織の運営に悪影響を与える。サービスの中断を最小化するために、冗長化されたサーバーシステムを使用しても良い。冗長化されたサーバーシステムは、両者とも前記サービスを提供するアプリケーションを実行するように構成されている、プライマリサーバーと、バックアップサーバーとを具備する。正常動作時は、前記プライマリサーバー上で実行されているアプリケーションによって前記サービスを提供する。もし前記サービスが中断されると、前記アプリケーションを前記バックアップサーバー上で開始することによって、前記バックアップサーバーが前記サービスを提供しうる。この前記プライマリサーバーから前記バックアップサーバーへの切り替え処理は、通常フェイルオーバーといわれる。前記プライマリサーバー及びバックアップサーバーの間の切り替え処理は、それぞれのサーバーでフェイルオーバー処理を実行するプライマリ及びバックアップサーバー上にソフトウェアエージェントをインストールすることによって、自動化しても良い。
高可用性を有さなければならないとともに、バックアップサーバーと、必要なときに切り替えを実行する手順とを必要とする、数十又は数百のサービスを、大規模な組織は具備しうる。さらには、それぞれが異なるシャットダウン又は開始手順を必要とする種々のサーバー及びアプリケーションを使用しうる。従って、前記ネットワーク上のどこからでも組織のネットワークを跨いでフェイルオーバー操作を管理可能な、システム及び方法に対する需要は引き続き存在する。
内部コンピュータネットワークに対してサービスを提供するサーバーのフェイルオーバー操作を編成するためのシステム及び方法は、フェイルオーバー操作を実行する制御スクリプトを実行するように構成されているDRサーバーを具備する。前記フェイルオーバー操作を実行するのに必要な情報を、前記DRサーバーに格納し、それによって、前記アプリケーションの各プライマリ及びバックアップサーバー上にエージェントを格納する必要性をなくしている。前記DRサーバーは、前記内部ネットワークの冗長化されたサービスのためのフェイルオーバー手順のメンテナンス及び更新のために、中央位置を提供しても良い。フェイルオーバー操作は、前記内部コンピュータネットワークと通信する、権限を有するユーザーによって起動しても良い。
本発明の一実施態様は、内部コンピュータネットワークと通信するプライマリサーバーと、前記内部コンピュータネットワークと通信するバックアップサーバーと、前記内部コンピュータネットワークと通信するDRサーバーと、前記DRサーバーに格納されたフェイルオーバースクリプトとを具備し、前記プライマリサーバーは、前記内部コンピュータネットワークに対してサービスを提供するアプリケーションを実行し、前記バックアップサーバーは、前記アプリケーションを実行することが可能であるとともに実行するように構成され、前記フェイルオーバースクリプトは、前記DRサーバーで実行される際に前記バックアップサーバー上でフェイルオーバー操作を実行することを特徴とするシステムを対象とする。
本発明の他の実施態様は、内部コンピュータネットワークと、プライマリサーバーと、バックアップサーバーと通信するDRサーバーからのフェイルオーバー操作の編成方法であって、前記プライマリサーバー及びバックアップサーバーは、前記内部コンピュータネットワークに対してサービスを提供するアプリケーションを実行するように構成され、前記内部コンピュータネットワークを通して、前記アプリケーションに対するフェイルオーバー操作を実行するコマンドをユーザーから受信する段階と、前記ユーザーに基づくセキュリティチケットを前記プライマリサーバーから回収する段階と、前記DRサーバー上に格納された設定ファイルを読み込む段階と、前記設定ファイルから読み込まれた情報に基づいて前記アプリケーションのフェイルオーバー操作を実行する段階とを具備し、前記設定ファイルは、前記アプリケーションのフェイルオーバー操作の情報を具備することを特徴とする方法を対象とする。
添付図面と関連付けて、その好ましい実施形態と、変形例とを参照することによって、本発明を説明する。
本発明の実施形態は、組織内部のコンピュータネットワークで提供されるサービスの障害復旧活動の編成を構成する。前記復旧処理の状態を後に再検討するために、前記復旧処理のログを生成するとともに格納する。前記復旧動作は、対象サーバー上で復旧処理の部分を実行するサブルーチンを具備する制御スクリプトによって編成するのが好ましい。ターゲット特有の復旧処理の情報は、設定ファイル内に格納しても良い。前記制御スクリプトは、コマンドラインインターフェースを介して、又は前記組織の内部コンピュータネットワークを通してアクセスするWEBフロントエンドを介して開始しても良い。本発明の実施形態は、前記サービスを提供するアプリケーションの修正も、前記対象サーバー上でのエージェントのインストールも必要としない。
図1は、本発明のある実施形態で使用するコンピュータネットワークを説明する図である。好ましい実施形態では、外部コンピュータ115は、例えばインターネットのような、外部通信ネットワーク110を介して、組織のコンピュータネットワーク120にアクセスしても良い。ゲートウェイサーバー130は、外部ネットワーク110と、前記組織の内部コンピュータネットワーク150との間にブリッジを構成する。好ましい実施形態では、前記内部コンピュータネットワーク150は、イントラネットである。ネットワーク120への権限を付与されていないアクセスを阻止することによって、ゲートウェイサーバー130は、コンピュータネットワーク120にセキュリティも提供する。コンピュータネットワークの構成及び運用は、公知であるとともに、例えばCraig Zackerの“Networking: The Complete Reference, The McGraw−Hill Companies, Berkeley, California(2001)”のような数多くの出版物で説明されており、引用によって本明細書に組み込まれる。
ユーザーは、イントラネット150又はインターネット110を介して外部のコンピュータ115を通して直接に接続されているコンピュータ140を通して、前記コンピュータネットワーク120の資源及びサービスにアクセスしても良い。1つ又は複数のサーバー上で実行されているアプリケーションによって、サービスを提供する。図1の例示的な実施例では、プライマリサーバー172・174によってサービス170を提供する。各プライマリサーバー172・174は、サービス170を提供するアプリケーションの一部を実行しても良い。前記組織は、もしプライマリサーバーからのサービスが中断されたら前記サービスを提供可能である、バックアップサーバー182・184を設けるのに値するほど、サービス170が充分重要なものであると考えうる。ある実施形態では、バックアップサーバー182・184の位置は、異なる地理的地域にあるとともに、通常フェイルオーバーサイト180と言われる。
サービスを提供するサーバーの切り替え処理は、一般的にはフェイルオーバー処理と言われる。本発明のある実施形態では、前記フェイルオーバー処理は、それぞれが発生しうる障害状況を守備する3つのタイプのフェイルオーバー操作を具備しても良い。
第1状況では、ここではマイグレーションと言い、プライマリ及びフェイルオーバーサイトの両者が利用可能であるとともに、前記サービスを、前記プライマリサイトから前記フェイルオーバーサイトに切り替える。マイグレーション動作の間、前記プライマリサイトで前記サービスを提供している前記アプリケーションを先ずシャットダウンして、続けて、前記フェイルオーバーサイトで前記アプリケーションが開始される前に、必要なデータの複製を行う。
第2状況では、ここではテイクオーバーと言い、プライマリサイトは利用不可能であり、それによって、前記プライマリサイトでのアプリケーションの正常なシャットダウン、又は前記フェイルオーバーサイトへの必要なデータ複製が阻止される。例えばプライマリサイトでの電力減少や、前記プライマリサイト及び前記組織のイントラネット間の通信リンクの切断や、前記プライマリサイトのサーバー又はデータストレージ機器への物理的ダメージなどの、種々の理由によってプライマリサイトは、利用不可能となりうる。テイクオーバー動作の間に、前記アプリケーションを、フェイルオーバーサイトで開始する。
第3状況では、ここではフェイルバックと言い、前記サービスを、フェイルオーバーサイトによって提供しているとともに、前記サービスがプライマリサイトにスイッチバックされる。マイグレーション動作の間に、前記フェイルオーバーサイトで前記サービスを提供している前記アプリケーションが先ずシャットダウンされ、続いて前記プライマリサイトで前記アプリケーションが開始される前に、必要なデータの複製が行われる。
フェイルオーバーを起動するための権限は、厳格に制御するとともに、通常は、2,3の権限を有する管理者に限って授与する。前記権限を有する管理者の1人が、フェイルオーバーが必要であると判断したならば、その管理者は、前記フェイルオーバー処理を達成するために必要なコマンドを入力する。エラーを低減するために、前記権限を有する管理者がアクセス可能な障害復旧マニュアル内の一連のコマンドをプリントする。前記フェイルオーバー操作を完了するために、前記フェイルオーバー操作では、前記権限を有する管理者がいくつかの異なるサーバーにログオンすることを必要としうる。プライマリ及びバックアップサーバーにログオンすることに加えて、例えば、前記権限を有する管理者は、前記組織のコンピュータネットワークのドメインネームサーバー(DNS)を管理するサーバーと、前記組織のコンピュータネットワークのストレージエリアネットワーク(SAN)を管理するサーバーとに対するアクセスを要求しても良い。
好ましい実施形態では、一連のコマンドを、DRサーバー160上で、スクリプトとして格納する。フェイルオーバーサイトを具備する各サービスのためのフェイルオーバースクリプトを格納するのが好ましい。ある実施形態では、DRサーバー160は、地域の回復スクリプトの中央デポジトリとして振舞い、それによって前記回復スクリプトのより容易であるメンテナンス及び更新を提供しても良い。
図2は、前記フェイルオーバー処理を説明するフローチャートである。好ましい実施形態では、制御スクリプトが、前記フェイルオーバー処理を管理するとともに、対象サーバー上で、対象サーバー特有の手順を実行する他のスクリプト又はサブルーチンを呼び出す。前記制御スクリプトが、権限を有する管理者によって開始された後に、段階210は、正当な対象ホスト又はサーバー上で、正当なユーザーによって前記スクリプトが実行されていることを確認するために検査する。ある実施形態では、特定のユーザー/ホストの組み合わせに限って、前記フェイルオーバー手順を実行することを許可する。もし前記ユーザー/ホストの組み合わせが無効であれば、前記スクリプトは終了し、ログファイルに結果を記録するとともに、前記権限を有する管理者に対して前記結果を表示する。もし、前ユーザー/ホストの組み合わせが有効であれば、前記スクリプトは、前記制御スクリプトが起動される際に指定された引数又はオプションの有効性を検査する。例えば、前記制御スクリプトが起動される際に、アクションオプションを指定しても良い。アクションオプションは、前記制御スクリプトによって実行されるべき動作を特定するとともに、従って有効な動作を指定するべきである。前記制御スクリプトは、段階210で、前記アクションオプションが有効な動作の1つを指定していることを確認する。もし前記アクションオプションが無効であれば、前記スクリプトは終了し、結果をログファイルに記録するとともに、前記権限を有する管理者に対して前記結果を表示する。
段階220では、前記アプリケーションの設定ファイルを読み込むとともに検査する。前記設定ファイルと、有効な設定データに対するルールを反映したテンプレートファイルとを比較することによって、前記設定ファイルを検査する。もし、前記設定ファイルが無効なデータを具備していたら、前記スクリプトは終了し、ログファイルに結果を記録するとともに、前記権限を有する管理者に対して前記結果を表示する。
もし、前記設定ファイルが、有効なデータを具備していれば、対象ホスト上で制御スクリプトコマンドが実行される前に、段階230で認証及び権限付与手順を実行する。認証及び権限付与は、ネットワークの公知であるセキュリティ手順に従っても良い。好ましい実施形態では、http://www.freesoft.org/CIE/RFC/1510/から利用可能(1993年9月)である、RFC1510で説明されるKerberosプロトコルを使用して、認証及び権限付与を達成しても良く、その内容は引用によって本明細書に組み込まれる。前記サービスを提供する前記アプリケーションに対するKerberosチケットを、権限を有する各ユーザーのために前記DRサーバー上に格納する。各プライマリ及びバックアップサーバーは、自分が受け入れるKerberosチケットの一覧表を具備したファイルを格納する。各Kerberosチケットは、特定のユーザー/ホスト/アプリケーションの組み合わせに対してのみ、前記対象ホストとのセキュアなチャネルの確立を許可する。
前記セキュアなチャネルが前記対象ホスト及び前記DRサーバーの間で一度確立されると、前記DRサーバーは、段階240で、前記対象ホスト上で実行するためのスクリプトコマンドを前記対象ホストに送信する。前記対象ホストは、実行したコマンドの状態、即ち前記スクリプトコマンドの実行が成功したか又は失敗したかを示す信号を、前記DRサーバーに返す。前記DRサーバーは、段階250で、返された前記信号を検査する。もし返された前記信号が、前記コマンドの実行成功を示すならば、前記DRサーバーは、段階255で、実行された前記コマンドが、前記スクリプト内の最後のコマンドかどうかを判断する。もし実行された前記コマンドが、前記最後のコマンドであるならば、前記DRサーバーは、結果を記録し、前記結果を前記ユーザーに対して表示するとともに、前記スクリプトを終了する。もし、実行された前記コマンドが、前記最後のコマンドでないならば、前記スクリプトは段階240に戻り、次のスクリプトコマンドを実行する。
もし、前記戻された信号が、前記コマンドの実行失敗を示すならば、前記DRサーバーは、段階260で、前記コマンドに関連付けられたonFailオプションを調べる。もし前記onFailオプションがDIEに設定されているならば、前記DRサーバーは、段階280で前記ログファイルにエラーメッセージをプリントし、前記ユーザーに対して前記エラーメッセージを表示するとともに、段階290で前記スクリプトを終了する。もし前記onFailオプションがWARNに設定されているならば、前記DRサーバーは、段階290で前記ログファイルにエラーメッセージをプリントするとともに、段階240に戻って次のスクリプトコマンドを実行する。 もし前記onFailオプションがRETRYに設定されているならば、前記DRサーバーは、再実行したコマンドが実行成功したかどうかを判断する段階250に分岐する前に、段階265で前記コマンドを再実行する。前記RETRYフラグに、反復回数及びDIR又はWARNフラグが続いても良い。例えば、もしonFail=RETRY,2 DIEならば、前記DRサーバーは、前記対象ホストに対して、再実行するコマンドを2回再送信するとともに、もし前記コマンドが第2再試行の後でも実行失敗ならば、前記DRサーバーは、前記DIEフラグに従って分岐する。
図3は、本発明のある実施形態で使用しうる設定ファイルの一部を図示している。好ましい実施形態では、前記設定ファイルは、ターゲット312と、キー314と、対になる値316とを具備するキー−値フォーマットのプレーンテキストファイルである。各ターゲットは、前記ターゲット用のサブルーチンが失敗したならば行うべきアクションを記述するonFailキーを具備している。図3では、フェイルオーバー処理のためにマイグレーション動作が選択された際に実行するスクリプト段階に対応する整数キーとともに、MIGRATEターゲット350が図示されている。図3で図示される実施例では、権限を有する管理者が、マイグレーション動作を選択していると仮定するとともに、セキュアなチャネルが確立された後に、前記DRサーバーは、前記MIGRATEターゲット内で第1スクリプトコマンドを実行する、この実施例では、前記第1スクリプトコマンドはcname−>delete(CNAME1)である。cnameモジュールは、前記プライマリホストと、前記フェイルオーバーホストと、エイリアスと、ユーザー名と、パスワードとを特定する5つのパラメータを要求する。図3で図示された実施例では、段階1−4は、先ずプライマリ及びフェイルオーバーサーバーからエイリアスを削除する(段階1−2)とともに、新規エイリアスを前記プライマリ及びフェイルオーバーサーバーに追加する(段階3−4)ことによって、前記プライマリサーバー及びフェイルオーバーサーバーの間のエイリアス名を切り替える。CNAME1 310及びCNAME2 320内で指定されたユーザー名及びパスワードはによって、権限を有する管理者が、前記組織のサーバーのドメイン名を管理する、前記組織のDNSサーバーにログオンすることが可能になる。CNAME1 310及びCNAME2 320の両者は、onFail=WARNを指定している。これは、前記コマンドが実行成功しなかったならば、アクションを決定する前記制御スクリプトが使用する。
段階5で、前記DRサーバーは、前記プライマリサーバーに対して、前記アプリケーションのファイルシステムディレクトリをディスマウントするコマンドを送信するとともに、段階6で、前記DRサーバーは、前記プライマリサーバーに対して、前記アプリケーションのディスクグループをデポートするコマンドを送信する。段階7で、前記DRサーバーは、セカンダリストレージを前記フェイルオーバーホストにマウントすることを許可するために、プライマリストレージ及び前記セカンダリストレージの状態を切り替えるコマンドsrdf−>failover(SRDF)を実行する。プライマリ及びフェイルオーバーストレージ機器を管理するとともに、切り替えられる特定のストレージ機器を定義するゲートキーパーホストを特定するSRDFモジュール330内で定義されている2つのパラメータを、前記srdfモジュールは使用する。前記srdfモジュール内の特定のコマンドは、プライマリ及びフェイルオーバーストレージ機器を制御するのに使用するSANマネージャーに依存する。段階6で、前記DRサーバーは、前記フェイルオーバーサーバーに対して、前記フェイルオーバーサーバー上のアプリケーションのディスクグループをポートするコマンドを送信する。段階7で、前記DRサーバーは、前記フェイルオーバーサーバーに対して、前記アプリケーションのファイルシステムを前記フェイルオーバーサーバー上にマウントするコマンドを送信する。
本発明の少なくとも例示的である実施形態をこのように説明してきたが、当業者は、様々な修正例及び改善例を容易に想到可能であり、かつそれらも本発明の範囲内であると解される。従って、前述の説明は、実施例を使用したに過ぎず、かつ限定を意図したものではない。本発明は、本願特許請求の範囲及びその均等物として限定されるに過ぎない。
図1は、本発明のある実施形態で使用するコンピュータネットワークを説明する図である。 図2は、本発明の一実施形態を説明するフローダイアグラムである。 図3は、本発明のある実施形態で使用する設定ファイルの一部を図示している。
符号の説明
110 イントラネット
115 外部コンピュータ
120 コンピュータネットワーク
130 ゲートウェイサーバー
140 コンピュータ
150 イントラネット
160 DRサーバー
170 サービス
172 プライマリサーバー
174 プライマリサーバー
180 フェイルオーバーサイト
182 バックアップサーバー
184 バックアップサーバー

Claims (13)

  1. 内部コンピュータネットワークと通信するプライマリサーバーと、
    前記内部コンピュータネットワークと通信するバックアップサーバーと、
    前記内部コンピュータネットワークと通信するDRサーバーと、
    前記DRサーバー上に格納されるフェイルオーバースクリプトとを具備し、
    前記プライマリサーバーは、前記内部コンピュータネットワークに対してサービスを提供するアプリケーションを実行し、
    前記バックアップサーバーは、前記アプリケーションを実行するように構成され、
    前記フェイルオーバースクリプトは、前記DRサーバー上で実行される際に、前記バックアップサーバー上でフェイルオーバー操作を実行することを特徴とするシステム。
  2. 前記内部コンピュータネットワークは、イントラネットであることを特徴とする請求項1に記載のシステム。
  3. 前記フェイルオーバー操作は、前記プライマリサーバーから前記バックアップサーバーへの前記サービスのマイグレーションを具備することを特徴とする請求項1に記載のシステム。
  4. 前記フェイルオーバー操作は、前記バックアップサーバーによる前記サービスのテイクオーバーを具備することを特徴とする請求項1に記載のシステム。
  5. 前記フェイルオーバー操作は、前記バックアップサーバーから前記プライマリサーバーへの前記サービスのフェイルバックを具備することを特徴とする請求項1に記載のシステム。
  6. 前記内部コンピュータネットワークと通信するコンピュータから、前記フェイルオーバースクリプトを起動して、前記DRサーバー上で実行を開始することを特徴とする請求項1に記載のシステム。
  7. 内部コンピュータネットワークと、プライマリサーバーと、バックアップサーバーと通信してDRサーバーからフェイルオーバー操作を編成する方法であって、前記プライマリサーバー及びバックアップサーバーは、前記内部コンピュータネットワークに対してサービスを提供するアプリケーションを実行するように構成され、
    内部コンピュータネットワークを通して、前記アプリケーションのフェイルオーバー操作を実行するコマンドをユーザーから受信する段階と、
    前記ユーザーに基づくセキュリティチケットを前記プライマリサーバーから回収する段階と、
    前記DRサーバー上に格納されている設定ファイルを読み込む段階と、
    前記設定ファイルから読み込まれた情報に基づいて、前記アプリケーションのフェイルオーバー操作を実行する段階とを具備し、
    前記設定ファイルは、前記アプリケーションの前記フェイルオーバー操作の情報を具備することを特徴とする方法。
  8. 前記実行する段階は、
    前記内部コンピュータネットワークに対してドメインネームサービスを提供しているDNSサーバーにログオンする段階と、
    前記プライマリサーバーのDNSエイリアス及び前記バックアップサーバーのDNSエイリアスを切り替える段階とをさらに具備することを特徴とする請求項7に記載の方法。
  9. 前記実行する段階は、
    前記内部コンピュータネットワークに対して、ストレージエリアネットワーク管理サービスを提供するゲートキーパーホストにログオンする段階と、
    前記バックアップサーバーのセカンダリストレージのマウントを可能にするために、プライマリストレージの状態及びセカンダリストレージの状態を切り替える段階とをさらに具備することを特徴とする請求項7に記載の方法。
  10. 前記実行する段階が、前記設定ファイルからスクリプトコマンドを実行する段階をさらに具備することを特徴とする請求項7に記載の方法。
  11. 前記実行する段階は、
    実行された前記スクリプトコマンドの状態を示すリターンシグナルを受信する段階と、
    ログファイルに前記状態を記録する段階と、前記ステータスを前記ユーザーに対して表示する段階とをさらに具備することを特徴とする請求項10に記載の方法。
  12. もし、実行された前記スクリプトコマンドの状態が失敗を示しているならば、前記スクリプトコマンドを再実行することを特徴とする請求項11に記載の方法。
  13. もし、実行された前記スクリプトコマンドの状態が失敗を示しているならば、前記設定ファイルから次のスクリプトコマンドを実行することを特徴とする請求項11に記載の方法。
JP2007557046A 2005-02-23 2006-02-10 障害復旧フレームワーク Pending JP2008537203A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/063,492 US8572431B2 (en) 2005-02-23 2005-02-23 Disaster recovery framework
PCT/US2006/004806 WO2006091400A2 (en) 2005-02-23 2006-02-10 Disaster recovery framework

Publications (1)

Publication Number Publication Date
JP2008537203A true JP2008537203A (ja) 2008-09-11

Family

ID=36914246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007557046A Pending JP2008537203A (ja) 2005-02-23 2006-02-10 障害復旧フレームワーク

Country Status (6)

Country Link
US (2) US8572431B2 (ja)
EP (1) EP1851632B1 (ja)
JP (1) JP2008537203A (ja)
ES (1) ES2439731T3 (ja)
HK (1) HK1111238A1 (ja)
WO (1) WO2006091400A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186609A (ja) * 2010-03-05 2011-09-22 Nippon Telegr & Teleph Corp <Ntt> 高可用性システム、サーバ、高可用性維持方法及びプログラム
WO2012073686A1 (ja) * 2010-11-30 2012-06-07 独立行政法人科学技術振興機構 ディペンダビリティ維持装置、ディペンダビリティ維持システム、障害対応システム、ディペンダビリティ維持装置の制御方法、制御プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007061440A2 (en) * 2005-11-15 2007-05-31 Bea Systems, Inc. System and method for providing singleton services in a cluster
US7447940B2 (en) * 2005-11-15 2008-11-04 Bea Systems, Inc. System and method for providing singleton services in a cluster
US7702947B2 (en) * 2005-11-29 2010-04-20 Bea Systems, Inc. System and method for enabling site failover in an application server environment
US8799446B2 (en) * 2006-08-18 2014-08-05 Microsoft Corporation Service resiliency within on-premise products
JP4819644B2 (ja) * 2006-10-12 2011-11-24 株式会社日立製作所 情報処理システム、情報処理方法、情報処理装置
US8554981B2 (en) * 2007-02-02 2013-10-08 Vmware, Inc. High availability virtual machine cluster
JP4727614B2 (ja) * 2007-03-30 2011-07-20 シャープ株式会社 画像処理装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理装置の制御方法
US8276208B2 (en) * 2007-12-31 2012-09-25 Intel Corporation Security-level enforcement in virtual-machine fail-over
US8930497B1 (en) * 2008-10-31 2015-01-06 Netapp, Inc. Centralized execution of snapshot backups in a distributed application environment
US8266433B1 (en) * 2009-04-30 2012-09-11 Netapp, Inc. Method and system for automatically migrating encryption keys between key managers in a network storage system
US8751878B1 (en) * 2010-03-30 2014-06-10 Emc Corporation Automatic failover during online data migration
US8438418B2 (en) * 2010-06-30 2013-05-07 Oracle International Corporation Simplifying automated software maintenance of data centers
US10581763B2 (en) 2012-09-21 2020-03-03 Avago Technologies International Sales Pte. Limited High availability application messaging layer
US9967106B2 (en) 2012-09-24 2018-05-08 Brocade Communications Systems LLC Role based multicast messaging infrastructure
US9092395B2 (en) 2012-12-20 2015-07-28 International Business Machines Corporation Provide an appliance like test vehicle for IT disaster recovery
US9225595B2 (en) * 2013-06-28 2015-12-29 Arista Networks, Inc. Method and system for zero touch replacement of network infrastructure
US9317380B2 (en) 2014-05-02 2016-04-19 International Business Machines Corporation Preserving management services with self-contained metadata through the disaster recovery life cycle
US9846624B2 (en) * 2014-09-26 2017-12-19 Microsoft Technology Licensing, Llc Fast single-master failover
US9619349B2 (en) * 2014-10-14 2017-04-11 Brocade Communications Systems, Inc. Biasing active-standby determination
KR102264992B1 (ko) 2014-12-31 2021-06-15 삼성전자 주식회사 무선 통신 시스템에서 서버 할당 방법 및 장치
US9519553B2 (en) 2014-12-31 2016-12-13 Servicenow, Inc. Failure resistant distributed computing system
US10185637B2 (en) 2015-02-16 2019-01-22 International Business Machines Corporation Preserving management services with distributed metadata through the disaster recovery life cycle
US11223537B1 (en) * 2016-08-17 2022-01-11 Veritas Technologies Llc Executing custom scripts from the host during disaster recovery
US10180881B2 (en) 2016-08-19 2019-01-15 Bank Of America Corporation System for increasing inter-application processing efficiency by transmitting failed processing work over a processing recovery network for resolution
US10270654B2 (en) 2016-08-19 2019-04-23 Bank Of America Corporation System for increasing computing efficiency of communication between applications running on networked machines
US10459811B2 (en) 2016-08-19 2019-10-29 Bank Of America Corporation System for increasing intra-application processing efficiency by transmitting failed processing work over a processing recovery network for resolution
DE102016225424A1 (de) * 2016-12-19 2018-06-21 Siemens Aktiengesellschaft Eisenbahnanlage sowie Verfahren zu deren Betrieb
US10416986B2 (en) * 2017-07-20 2019-09-17 Vmware, Inc. Automating application updates in a virtual computing environment
US10838776B2 (en) 2017-07-20 2020-11-17 Vmware, Inc. Provisioning a host of a workload domain of a pre-configured hyper-converged computing device
US10705830B2 (en) 2017-07-20 2020-07-07 Vmware, Inc. Managing hosts of a pre-configured hyper-converged computing device
US10705831B2 (en) 2017-07-20 2020-07-07 Vmware, Inc. Maintaining unallocated hosts of a pre-configured hyper-converged computing device at a baseline operating system version
US10977274B2 (en) 2017-10-05 2021-04-13 Sungard Availability Services, Lp Unified replication and recovery
US11847479B2 (en) 2018-03-23 2023-12-19 Vmware, Inc. Allocating a host of a pre-configured hyper-converged computing device to a workload domain
US10769174B2 (en) 2018-05-31 2020-09-08 International Business Machines Corporation Site-consolidated disaster-recovery with synchronous-to-asynchronous traffic conversion
US10776394B2 (en) 2018-05-31 2020-09-15 International Business Machines Corporation Synchronous site-consolidated data backup with synchronous-to-asynchronous traffic conversion
US11748206B2 (en) 2019-08-28 2023-09-05 International Business Machines Corporation Data recovery modification based on performance data exhibited by a network of data centers and data recovery requirement
US10802868B1 (en) 2020-01-02 2020-10-13 International Business Machines Corporation Management of transactions from a source node to a target node through intermediary nodes in a replication environment
US20230393957A1 (en) * 2020-11-05 2023-12-07 Telefonaktiebolaget Lm Ericsson (Publ) Methods and Apparatuses for Providing a Back-Up Service
US11347601B1 (en) * 2021-01-28 2022-05-31 Wells Fargo Bank, N.A. Managing data center failure events
US11762743B2 (en) * 2021-06-28 2023-09-19 International Business Machines Corporation Transferring task data between edge devices in edge computing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099359A (ja) * 1998-09-08 2000-04-07 Stc Internatl Computers Ltd マルチコンピュ―タ・システムでの復元
JP2004032103A (ja) * 2002-06-21 2004-01-29 Ntt Docomo Tokai Inc ネットワークシステム及びサーバ切り替え方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3885896D1 (de) * 1988-09-12 1994-01-05 Siemens Ag Einrichtung zum Betrieb eines redundanten Mehrrechnersystems für die Steuerung eines elektronischen Stellwerkes in der Eisenbahnsignaltechnik.
US5938732A (en) 1996-12-09 1999-08-17 Sun Microsystems, Inc. Load balancing and failover of network services
US5951695A (en) 1997-07-25 1999-09-14 Hewlett-Packard Company Fast database failover
US6477663B1 (en) 1998-04-09 2002-11-05 Compaq Computer Corporation Method and apparatus for providing process pair protection for complex applications
US6144999A (en) 1998-05-29 2000-11-07 Sun Microsystems, Incorporated Method and apparatus for file system disaster recovery
US20020138389A1 (en) * 2000-02-14 2002-09-26 Martone Brian Joseph Browser interface and network based financial service system
US7143167B2 (en) * 2000-05-02 2006-11-28 Sun Microsystems, Inc. Method and system for managing high-availability-aware components in a networked computer system
EP1292871A4 (en) * 2000-05-17 2007-10-17 Interwoven Inc METHOD AND APPARATUS FOR AUTOMATICALLY DEPLOYING DATA AND SIMULTANEOUSLY EXECUTING PROGRAM SEQUENCES IN A COMPUTER NETWORK
US20020078182A1 (en) * 2000-12-15 2002-06-20 International Business Machines Corporation Failover service method and system
US7594024B2 (en) * 2001-02-13 2009-09-22 Netapp, Inc. Silicon-based storage virtualization
JP2002247619A (ja) 2001-02-19 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> コールデータ引き継ぎ装置
GB0112781D0 (en) * 2001-05-25 2001-07-18 Global Continuity Plc Method for rapid recovery from a network file server failure
JP3883452B2 (ja) * 2002-03-04 2007-02-21 富士通株式会社 通信システム
US7260737B1 (en) * 2003-04-23 2007-08-21 Network Appliance, Inc. System and method for transport-level failover of FCP devices in a cluster
US20050215128A1 (en) * 2004-03-10 2005-09-29 Intel Corporation Remote device probing for failure detection
US7523341B2 (en) * 2004-05-13 2009-04-21 International Business Machines Corporation Methods, apparatus and computer programs for recovery from failures in a computing environment
US7383405B2 (en) * 2004-06-30 2008-06-03 Microsoft Corporation Systems and methods for voluntary migration of a virtual machine between hosts with common storage connectivity
WO2006026402A2 (en) * 2004-08-26 2006-03-09 Availigent, Inc. Method and system for providing high availability to computer applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099359A (ja) * 1998-09-08 2000-04-07 Stc Internatl Computers Ltd マルチコンピュ―タ・システムでの復元
JP2004032103A (ja) * 2002-06-21 2004-01-29 Ntt Docomo Tokai Inc ネットワークシステム及びサーバ切り替え方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186609A (ja) * 2010-03-05 2011-09-22 Nippon Telegr & Teleph Corp <Ntt> 高可用性システム、サーバ、高可用性維持方法及びプログラム
WO2012073686A1 (ja) * 2010-11-30 2012-06-07 独立行政法人科学技術振興機構 ディペンダビリティ維持装置、ディペンダビリティ維持システム、障害対応システム、ディペンダビリティ維持装置の制御方法、制御プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
JP5280587B2 (ja) * 2010-11-30 2013-09-04 独立行政法人科学技術振興機構 ディペンダビリティ維持システム、変化対応サイクル実行装置、障害対応サイクル実行装置、ディペンダビリティ維持システムの制御方法、制御プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
CN103339612A (zh) * 2010-11-30 2013-10-02 日本科学技术振兴机构 可靠性维持装置、可靠性维持***、障碍处理***、可靠性维持装置的控制方法、控制程序以及记录该程序用的电脑可读取记录介质
US8806272B2 (en) 2010-11-30 2014-08-12 Japan Science And Technology Agency Dependability maintenance system, change accommodation cycle execution device, failure response cycle execution device, method for controlling dependability maintenance system, control program, and computer-readable storage medium storing the control program

Also Published As

Publication number Publication date
EP1851632A2 (en) 2007-11-07
US20140040658A1 (en) 2014-02-06
US20060190766A1 (en) 2006-08-24
EP1851632B1 (en) 2013-10-02
EP1851632A4 (en) 2012-07-11
HK1111238A1 (en) 2008-08-01
ES2439731T3 (es) 2014-01-24
WO2006091400A2 (en) 2006-08-31
US8572431B2 (en) 2013-10-29
WO2006091400A3 (en) 2009-04-16

Similar Documents

Publication Publication Date Title
JP2008537203A (ja) 障害復旧フレームワーク
CN102105867B (zh) 维护跨数据中心的数据服务器中的数据完整性的方法和***
US9940208B2 (en) Generating reverse installation file for network restoration
US8667096B2 (en) Automatically generating system restoration order for network recovery
US6959331B1 (en) System and method for operating a client network computer in a disconnected mode by establishing a connection to a fallover server implemented on the client network computer
US7191357B2 (en) Hybrid quorum/primary-backup fault-tolerance model
US9906578B2 (en) System and method for providing an enterprise deployment topology
US10003458B2 (en) User key management for the secure shell (SSH)
EP1374056B1 (en) Storage area network (san) security
US20070083917A1 (en) Apparatus system and method for real-time migration of data related to authentication
JP2009258917A (ja) プロキシサーバ、認証サーバおよび通信システム
CN108600156B (zh) 一种服务器及安全认证方法
JP6977740B2 (ja) コンピュータシステム、コンピュータ装置およびライセンス管理方法
CN117131493A (zh) 权限管理***构建方法、装置、设备及存储介质
CN108376055B (zh) 通过可信通道技术保护磁盘阵列数据安全的方法和***
US11405222B2 (en) Methods and systems for enrolling device identifiers (DEVIDs) on redundant hardware
CN114546427A (zh) 一种基于DNS和MGR的MySQL高可用实现方法
US20220329435A1 (en) METHODS AND SYSTEMS FOR ENROLLING DEVICE IDENTIFIERS (DEVIDs) ON REDUNDANT HARDWARE
US20230305886A1 (en) Automatic update management in a computing infrastructure
TWI717457B (zh) 環境隔離方法及設備
CN114915545B (zh) 基于dhcp网络集群的应用调度部署管理方法
KR100793446B1 (ko) 이중화 통신 시스템의 페일 오버 및 원복 처리 방법
CN116132453A (zh) 一种网络服务间的数据同步方法及设备
CN113836544A (zh) 一种基于工作流的分布式异构处理***的安全控制方法
Vargas et al. Sun Cluster Environment: Sun Cluster 2.2

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100810

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101215

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120113

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120329