JP2015510201A - クラウドネットワークにおける迅速な災害回復準備のための方法および装置 - Google Patents

クラウドネットワークにおける迅速な災害回復準備のための方法および装置 Download PDF

Info

Publication number
JP2015510201A
JP2015510201A JP2014557677A JP2014557677A JP2015510201A JP 2015510201 A JP2015510201 A JP 2015510201A JP 2014557677 A JP2014557677 A JP 2014557677A JP 2014557677 A JP2014557677 A JP 2014557677A JP 2015510201 A JP2015510201 A JP 2015510201A
Authority
JP
Japan
Prior art keywords
disaster
network
recovery
resource
alert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014557677A
Other languages
English (en)
Inventor
バウアー,エリック・ジェイ
アダムス,ランディー・エス
ユースタス,ダニエル・ダブリュ
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2015510201A publication Critical patent/JP2015510201A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • H04L41/5012Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF] determining service availability, e.g. which services are available at a certain point in time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

様々な実施形態は、クラウドネットワークにおいて迅速な災害回復準備を行う方法および装置を提供し、これは災害事象をプロアクティブに検出し、クラウドリソースを迅速に割り当てる。迅速な災害回復準備は、回復トラフィックの急激な増加が(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースに到達する前に、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソース上の能力をプロアクティブに拡大することによって、目標回復時間(RTO)を短縮することができる。さらにその上、迅速な災害回復準備は、「通常動作」中よりもさらに急速に能力を拡大することによってRTOを短縮することができ、通常動作では、ある期間のあいだに負荷が利用しきい値を超えた後で、能力は、緩やかな拡大によって増加する。

Description

本発明は、一般にクラウドネットワークにおいて災害回復を行うための方法および装置に関する。
この項では、本発明をより良く理解することを容易にするうえで有用となり得る態様を紹介する。したがって、この項の記述は、この観点から読まれるべきであり、何が従来技術にあるかまたは何が従来技術にないかに関して自ら認めるものとして理解されるべきではない。
地理的に重複するデータセンタに対するサービス回復は、プライマリデータセンタサイトのサービスを利用できないようにする不可抗力または災害事象に続く業務の継続性を確保することができる。いくつかの知られたクラウドネットワーク災害回復スキームでは、アプリケーション用のクラウドリソースは、従来型のリソース割り当てスキームに基づいて割り当てられる。これらのスキームは、従来、災害事象に起因する新しいパターンの着信アプリケーション要求に応じて、割り当てられたアプリケーションリソースを拡大させ縮小させる。
いくつかの他の知られた災害回復スキームでは、システムのいくつかの部分は、予測される災害回復リソースの必要性を満足させるために過剰なリソースを含むことができる。
様々な実施形態は、クラウドネットワークにおいて迅速な災害回復準備を行う方法および装置を提供し、これは災害事象をプロアクティブに検出し、クラウドリソースを迅速に割り当てる。迅速な災害回復準備は、回復トラフィックの急激な増加が(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースに到達する前に、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースについての能力をプロアクティブに拡大することによって、目標回復時間(RTO)−災害事象に続いて回復データセンタにおいてユーザサービスを回復させるためにかかる時間−を短縮することができる。さらにその上、迅速な災害回復準備は、「通常動作」中よりもさらに急速に能力を拡大することによってRTOを短縮することができ、通常動作では、ある期間のあいだに負荷が利用しきい値を超えた後で、能力は、緩やかな拡大によって増加する。有利には、災害事象を検出することおよび回復サイトへのクラウドネットワークリソースを迅速に拡大させるように手配することは、過剰なリソースを確保せずにネットワーク輻輳、飽和、または過負荷のリスクを低減し、これによって、影響を受けたユーザへのサービス回復を加速する。
一実施形態では、迅速な災害回復準備を行うために装置が提供される。本装置は、データストレージと、データストレージに通信可能に結合されたプロセッサとを含む。プロセッサは、第1のネットワークリソースからネットワークメトリックスをモニタし、受信したネットワークメトリックスに基づいて第2のネットワークリソースの利用可能性に影響を与える災害条件が生じたと判定し、第3のネットワークリソースに災害警戒警報メッセージを送るように構成される。ここでは、第1、第2および第3のネットワークリソースは、異なるリソースである。
上記の実施形態のいくつかでは、モニタしたネットワークメトリックスは、モニタしたトラフィックフローを含む。モニタしたトラフィックフローは、1つまたは複数のトラフィックフロー値を含む。
上記の実施形態のいくつかでは、災害条件が生じたという判定は、モニタしたトラフィックフローが中断されているという検出に基づく。
上記の実施形態のいくつかでは、災害条件が生じたという判定は、モニタしたトラフィックフローが異常なトラフィックパターンを有するという検出に基づく。
上記の実施形態のいくつかでは、モニタしたネットワークメトリックスは、警告機構情報を含む。
上記の実施形態のいくつかでは、警告機構情報は、外部由来のセンサ情報である。
上記の実施形態のいくつかでは、災害条件が生じたという判定は、確信レベルに基づく。
上記の実施形態のいくつかでは、災害条件が生じたという判定は、災害重大性レベルを判定するようにプロセッサをさらにプログラミングすることを含む。
上記の実施形態のいくつかでは、プロセッサは:複数のネットワークリソースを解析し、複数のネットワークリソースに基づいて災害回復勧告を決定し、災害回復勧告に基づいて第3のネットワークリソースを選択するようにさらにプログラミングされる。
上記の実施形態のいくつかでは、プロセッサは、災害回復勧告に基づいて第3のネットワークリソースを選択するようにさらにプログラミングされる。
上記の実施形態のいくつかでは、プロセッサは、災害回復勧告に基づいて災害警戒警報メッセージを作成するようにさらにプログラミングされる。
第2の実施形態では、装置は、迅速な災害回復準備を行うために提供される。本装置は、データストレージと、データストレージに通信可能に結合されたプロセッサとを含む。プロセッサは:災害警戒警報メッセージを受信し、迅速な弾力的(elastic)拡大動作を実行するようにプログラミングされ、迅速な弾力的拡大動作は:利用しきい値を超える前にネットワークリソースの拡大を含む。
上記の実施形態のいくつかでは、迅速な弾力的拡大動作は、利用しきい値を超えたときに割り当てられるリソースの通常の速度拡大の2倍よりも大きい速度拡大をさらに含む。
上記の実施形態のいくつかでは、迅速な弾力的拡大動作は、受信した災害警戒警報メッセージに基づく速度拡大をさらに含む。
上記の実施形態のいくつかでは、プロセッサは:トラフィック負荷をモニタし、モニタしたトラフィック負荷に基づいて災害条件が存在しないと判定し、災害条件が存在しないという判定に応答して、弾力的縮小動作を実行するようにさらにプログラミングされ、弾力的縮小動作は、ネットワークリソースの拡大部の少なくとも一部を解放する。
第3の実施形態では、システムは、迅速な災害回復準備を行うために提供される。本システムは:少なくとも1つのネットワークリソースと、複数のデータセンタと、少なくとも1つのネットワークリソースおよび複数のデータセンタに通信可能に結合されたリソースモニタとを含む。複数のデータセンタは、災害の影響を受けたデータセンタおよび回復データセンタを含む。リソースモニタは:少なくとも1つのネットワークリソースからネットワークメトリックスを受信し、受信したネットワークメトリックスに基づいて災害の影響を受けたデータセンタの利用可能性に影響を与える災害条件が生じたと判定し、回復データセンタへ災害警戒警報メッセージを送るようにプログラミングされる。回復データセンタは:災害警戒警報メッセージを受信し、迅速な弾力的拡大動作を実行するようにプログラミングされ、迅速な弾力的拡大動作は:利用しきい値を超える前にネットワークリソースの拡大を含む。
上記の実施形態のいくつかでは、迅速な弾力的拡大動作は、利用しきい値を超えたときに割り当てられるリソースの通常の速度拡大の2倍よりも大きい速度拡大をさらに含む。
上記の実施形態のいくつかでは、迅速な弾力的拡大動作は、受信した災害警戒警報メッセージに基づく速度拡大をさらに含む。
第4の実施形態では、方法は、迅速な災害回復準備を行うために提供される。本方法は:第1のネットワークリソースからネットワークメトリックスを受信するステップと、受信したネットワークメトリックスに基づいて第2のネットワークリソースの利用可能性に影響を与える災害条件が生じたと判定するステップと、第3のネットワークリソースへ災害警戒警報メッセージを送るステップとを含む。ここでは、第1、第2および第3のネットワークリソースは、異なるリソースである。
上記の実施形態のいくつかでは、受信したネットワークメトリックスは、モニタしたトラフィックフローを含み、モニタしたトラフィックフローは、1つまたは複数のトラフィックフロー値を含む。
上記の実施形態のいくつかでは、災害条件が生じたと判定するステップは、モニタしたトラフィックフローが中断されていると検出するステップに基づく。
上記の実施形態のいくつかでは、災害条件が生じたと判定するステップは、確信レベルに基づく。
上記の実施形態のいくつかでは、本方法は:災害警戒警報メッセージを受信するステップと、迅速な弾力的拡大動作を実行するステップをさらに含み、迅速な弾力的拡大動作は:利用しきい値を超える前にネットワークリソースを拡大するステップを含む。
様々な実施形態が、添付した図面に図示される。
迅速な災害回復準備アーキテクチャ110の実施形態を含むクラウドネットワークの図である。 クラウドネットワークにおいて迅速な災害回復準備を行うための方法200の実施形態を図示する流れ図である。 図2のステップ230に図示したような、クラウドネットワークメトリックスに基づいて災害を検出するためのリソースモニタ(例えば、図1のリソーモニタ150)のための方法300の実施形態を図示する流れ図である。 図2のステップ240に図示したような、迅速な災害回復準備を実行するための回復リソース(例えば、図1のデータセンタ180内のアプリケーションまたはネットワーク130内のリソース)のための方法400の実施形態を図示する流れ図である。 図1のリソースモニタ150、データセンタ180のうちの1つの仮想マシン、または図1のネットワーク130のリソースのうちの1つなどの様々な装置500の実施形態の模式図である。
理解することを容易にするために、同一の参照番号が、実質的に同じもしくは類似の構造または実質的に同じもしくは類似の機能を有する要素を明示するために使用された。
本明細書および図面は、本発明の原理を単に例示する。したがって、本明細書において明確に記述されていないまたは示されていないにも拘わらず、本発明の原理を取り込んでおり、かつ本発明の範囲内に含まれる様々な配置を、当業者なら考案することが可能であろうことが理解されよう。さらにその上、本明細書において列挙したすべての例は、本技術をさらに進めるために本発明の原理および(1人または複数の)発明者によって提供された概念を理解する際に読者を助けるために、明確に教育上の目的のためだけであるように原理的に意図され、このような具体的に列挙した例および条件に限定されないように解釈されるものである。加えて、本明細書において使用するように「または(or)」という用語は、別段示されていない限り、排他的でないことを指す。また、いくつかの実施形態は、新しい実施形態を形成するために1つまたは複数の他の実施形態と組み合わせられることが可能であるので、本明細書において説明する様々な実施形態は、必ずしも相互に排他的である必要はない。
様々な実施形態は、クラウドネットワークにおいて迅速な災害回復準備を行う方法および装置を提供し、これは、災害事象をプロアクティブに検出し、クラウドリソースを迅速に割り当てる。迅速な災害回復準備は、回復トラフィックの急激な増加が(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースに到達する前に、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースの能力をプロアクティブに拡大することによってRTOを短縮することができる。さらにその上、迅速な災害回復準備は、「通常動作」中よりもさらに迅速に能力を拡大することによってRTOを短縮することができ、通常動作では、ある期間のあいだに負荷が利用しきい値を超えた後で、能力は、緩やかな拡大によって増加する。
図1は、迅速な災害回復準備アーキテクチャの実施形態を含むクラウドネットワーク100を図示する。クラウドネットワーク100は、通信パスを介してデータセンタ180−a−180−c(一括して、データセンタ180)内のアプリケーションへアプリケーション要求を送る1つまたは複数のクライアント120−a−120−c(一括して、クライアント120)を含む。通信パスは、クライアント通信チャネル125−a、125−b、および125−c(一括して、クライアント通信チャネル125)のうちの1つ、ネットワーク130、ならびにデータセンタ通信チャネル185−a、185−b、および185−c(一括して、データセンタ通信チャネル185)のうちの1つを含むことができる。クラウドネットワーク100は、クラウドネットワークリソースをモニタし、かつリソースモニタ通信チャネル155を介して(1つまたは複数の)災害警戒警報メッセージを送るリソースモニタ150をやはり含む。
本明細書において使用するように「クラウドネットワークリソース」という用語は、すべての割り当てられたリソースを含むように広く理解されるべきである。例えば、クラウドネットワークリソースは、装置(例えば、ルータおよびワイヤレス基地局)または設備(例えば、光ファイバおよび同軸ケーブル)を含むことができる。
クライアント120は、データセンタ180上にインスタンス化されたアプリケーションインスタンスのうちの1つに向けられた(1つまたは複数の)アプリケーション要求を開始する任意のタイプのまたは任意の数の(1つまたは複数の)クライアントマシンであってもよい。例えば、クライアントは:サーバ、携帯電話、タブレット、コンピュータ、携帯情報端末(PDA)、イーリーダ(e−reader)、ネットワークデバイス(例えば、スイッチまたはルータ)、等、であってもよい。
通信チャネル125および185は:ワイヤレス通信(例えば、LTE、GSM(登録商標)、CDMA、ブルートゥース)、フェムトセル通信(例えば、WiFi)、パケットネットワーク通信(例えば、IP)、ブロードバンド通信(例えば、DOCSISおよびDSL)、ストレージ通信(例えば、ファイバチャネル、iSCSI)、等、などの1つまたは複数の通信チャネルを介してアプリケーション要求を検索することまたは応答することをサポートすることができる。単一接続として示されているが、通信チャネル125および185は、クライアント120とデータセンタ180上にインスタンス化されたアプリケーションインスタンスとの間の通信をサポートする任意の数の通信チャネルまたは通信チャネルの組合せであってもよいことを理解されたい。
ネットワーク130は、クライアント120とデータセンタ180上にインスタンス化されたアプリケーションインスタンスとの間の通信を容易にするための任意の適切な(1つまたは複数の)ネットワークであってもよい。例えば、ネットワーク130は:(1つまたは複数の)ローカルエリアネットワーク(LAN)、(1つまたは複数の)ワイヤレスローカルエリアネットワーク(WLAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、等、の組合せであってもよい。
リソースモニタ150は、クラウドネットワークリソースまたは警告機構をモニタする。特に、リソースモニタ150がデータセンタ(例えば、データセンタ180−a)に影響を及ぼす災害を示している(1つまたは複数の)条件を検出すると、リソースモニタ150は、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソース(例えば、データセンタ180−b上にインスタンス化されたアプリケーションインスタンスまたはネットワーク130内のルータ)へ(1つまたは複数の)災害警戒警報メッセージを送る。リソースモニタ150がネットワーク130の外に示されているが、リソースモニタ150は、ネットワーク130内に存在してもよいことを理解されたい。
リソースモニタ通信チャネル155は:ワイヤレス通信(例えば、LTE、GSM、CDMA、ブルートゥース)、フェムトセル通信(例えば、WiFi)、パケットネットワーク通信(例えば、IP)、ブロードバンド通信(例えば、DOCSISおよびDSL)、ストレージ通信(例えば、ファイバチャネル、iSCSI)、等、などの1つもしくは複数の通信チャネルを介してクライアント120、ネットワーク130のリソース(図示せず)、またはデータセンタ180内のアプリケーションへのメッセージを受信することまたは送信することをサポートすることができる。単一接続として示されているが、リソースモニタ通信チャネル155は、リソースモニタ150とクライアント120、ネットワーク130のリソース(図示せず)、またはデータセンタ180内のアプリケーションとの間の通信をサポートする任意の数の通信チャネルまたは通信チャネルの組合せであってもよいことを理解されたい。
データセンタ180は、地理的に分散され、任意の構成を含むことができる。データセンタ180は、クライアント120からのアプリケーション要求のサービスを提供するように作成されたアプリケーションを実行させる仮想マシンを備えるリソースを含む。特に、データセンタ180内の少なくとも1つのアプリケーションは、リソースモニタ150から(1つまたは複数の)災害警戒警報メッセージを受信するように構成される。受信した災害警戒警報メッセージに応じて、データセンタ180は、影響を受けたクライアント120のサービス回復を加速するために(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースをプロアクティブに割り当てる。
(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースをプロアクティブにかつ迅速に割り当てることによって、回復を必要とするクライアント120の大部分が(1つまたは複数の)回復行為を開始する前には、能力の弾力的サージ(elastic surge)がオンラインであることを理解されたい。例えば、災害事象は、多数のクライアント120が短時間のウィンドウ内に回復サイトへ回復する(例えば、接続し、ログオンしおよび認証され、ならびにセッションを確立する)ように試みさせることがあり、これは、回復データセンタを過負荷にすることがある。したがって、急速に増加する負荷は、輻輳制御(これは顧客サービス品質を低下させることがある)を用いて過負荷をトリガせずに効果的に扱われることが可能である。
リソースモニタ150のいくつかの実施形態では、災害を示す条件(すなわち、災害条件)は、トラフィックフローの劇的な変化、異常なトラフィックパターンまたは信号消失指標などの明白なアラーム/故障指示を含むことができる。さらなる実施形態では、リソースモニタ150は、しきい数の信号消失指標を受信した後で、災害条件があると判定するであろう。いくつかの信号消失指標が、光ファイバなどの伝送媒体の破壊を示すことがあることを理解されたい。
リソースモニタ150のいくつかの実施形態では、警告機構は、外部由来のセンサまたはモニタしたデータ供給部からの入力部を含むことができる。これらの実施形態のいくつかでは、外部由来のセンサは、地震計モニタである。これらの実施形態のいくつかでは、モニタしたデータ供給部は、国家的/国際的津波警告機構または他の災害警告機構へのインターネット接続である。
いくつかの実施形態では、データセンタ180は、プロセッサ/CPUコア、ネットワークインターフェース、メモリデバイスまたはデータストレージデバイスなどのリソースを含むことができる。その上、データセンタ180は:1つまたは複数のサーバ、プロセッサ、メモリ、ネットワークインターフェースまたはストレージデバイスなどの構成要素からなるブレードなどの任意の適切な物理ハードウェア構成であってもよい。これらの実施形態のいくつかでは、データセンタは、互いに遠く離れたクラウドネットワークリソースを含むことができる。プロセッサ、ネットワークインターフェース、メモリデバイスまたはデータストレージなどのリソースを割り当てることによって、データセンタは、アプリケーションインスタンスまたは仮想マシンの処理能力、帯域幅能力、RAMおよび固定ストレージ能力をスケーリングすることができることを理解されたい。
図2は、クラウドネットワークにおいて迅速な災害回復準備を行うための方法200の実施形態を図示する流れ図を示す。
方法200では、ステップ220は、(例えば、図1のネットワーク130のリソース(図示せず)もしくは図1のデータセンタ180内のアプリケーションによって)クラウドネットワークリソースからまたは警告機構からクラウドネットワークメトリックスをモニタするステップを含む。クラウドネットワークメトリックスは、災害条件の存在を判定するためまたは災害条件から回復させることを容易にするためにネットワーク条件を判定するために使用されることが可能な任意の適切なメトリックスであってもよい。例えば、クラウドネットワークメトリックスは:トラフィックフロー値、ローディング/能力値、ネットワーク提供、健全性メッセージ(例えば、ハートビートメッセージ)、ネットワークアラーム(例えば、複数のファイバ断線)、外部由来のアラーム、データフィード、等、を含むことができる。
方法200では、ステップ230は、(例えば、図1のリソースモニタ150によって)クラウドネットワークメトリックスに基づいて災害条件を判定するステップを含む。特に、集めたクラウドネットワークメトリックスの特性が、災害条件が生じていることを示すかどうかを判定するために、クラウドネットワークメトリックスは解析される。災害条件が生じている場合には、方法を実行している装置は、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースへ災害警戒警報メッセージを送り、ステップ240に進み、それ以外では装置はステップ220に戻る。災害条件の検出は、実際の災害が生じたことまたは生じるであろうことを必要としないことを理解されたい。むしろ、災害条件検出は、災害が生じた可能性があることをモニタしたクラウドネットワークメトリックスが示すことを示すにすぎない。災害の絶対的な確認の前に災害警戒警報メッセージを送ることによって長くなった時間の合間を、回復トラフィックの可能性のある急激な増加の前に回復準備を終わらせるために(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースに与えることができるので有利である。
方法200では、ステップ240は、(例えば、図1のネットワーク130のリソース(図示せず)または図1のデータセンタ180上で実行しているアプリケーションインスタンスによって)迅速な災害回復準備を実行するステップを含む。特に、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースは、災害警戒警報メッセージを受信し、(1つまたは複数の)災害の影響を受けたアプリケーション/(1つまたは複数の)リソースから転じられることが予想される回復トラフィックの予想される急激な増加を取り扱うためにクラウドネットワークリソースをプロアクティブに(再び)割り当てる。
いくつかの実施形態では、ステップ220は、図1のリソースモニタ150によって実行される。
図3は、図2のステップ230に図示したように、クラウドネットワークメトリックスに基づいて災害を検出するためのリソースモニタ(例えば、図1のリソーモニタ150)のための方法300の実施形態を図示する流れ図を示す。本方法は、図2のステップ220中に取り込んだようなクラウドネットワークメトリックスをモニタするステップ(ステップ320)を含む。本方法を実行する装置は、次に、受信したクラウドネットワークメトリックスが災害事象を示しているかどうかを判定し(ステップ330)、そうである場合には、任意選択で緩和方策を決定し(ステップ340)、図2のステップ240および図4で説明するように、1つまたは複数の災害警戒警報メッセージを作成し(ステップ350)、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースへ送る(ステップ360)。
方法300では、ステップ320は、1つまたは複数のソースから(例えば、リソースモニタ通信チャネル155を介してまたは直接リソースモニタ150から)1つまたは複数のクラウドネットワークメトリックスをモニタするステップを含む。いくつかの実施形態では、リソースモニタは、モニタすべきクラウドネットワークメトリックスを選択するまたは準備することができる。例えば、リソースモニタは、データセンタ(例えば、図1のデータセンタ180)のうちの1つまたは複数へのまたはからの(1つまたは複数の)トラフィックフローをモニタすることができる。
方法300では、ステップ330は、受信したクラウドメトリックスに基づいて災害を検出するステップを含む。特に、集めたクラウドネットワークメトリックスの特性が、災害条件が生じていることを示すかどうかを判定するために、クラウドネットワークメトリックスは解析される。
方法300は、任意選択でステップ340を含む。ステップ340は、緩和方策を決定するステップを含む。特に、リソースモニタは、クラウドネットワークリソース(例えば、図1のネットワーク130またはデータセンタ180内のアプリケーション)のネットワーク準備、ステータス、性能または損傷の知識を有することができる。この知識に基づいて、リソースマネージャは、災害回復勧告を行うことができる。
方法300では、ステップ350は、災害警戒警報メッセージを作成するステップを含む。特に、メッセージは、災害条件が検出されているかまたは回復準備情報を提供する指標を含む。
方法300では、ステップ360は、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースへ1つまたは複数の災害警戒警報メッセージを送るステップを含む。特に(1つまたは複数の)災害警戒警報メッセージのうちの1つまたは複数は、本方法を実行する装置が決定する(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースへ向けられ、図2のステップ240および図4に説明するように、迅速な災害回復準備を実行するために(1つまたは複数の)災害警戒警報メッセージを使用するであろう。
方法300は、任意選択でステップ370を含む。ステップ370は、災害解除メッセージを送るステップを含む。特に、災害警告または災害事象が終わった後で、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースは、可能性のある災害に対処するために確保されていた回復クラウドネットワークリソースを解放するメッセージを送られる。
いくつかの実施形態では、ステップ320は、リソースモニタ自体からクラウドネットワークメトリックスを収集するリソースモニタ(例えば、図1のリソースモニタ150)を含む。例えば、リソースモニタがキャリアのネットワークとデータセンタとの間のネットワーク内のルータ/IPネットワーク網接続として設置される場合である。
いくつかの実施形態では、ステップ320は、ネットワーク内のリソース(例えば、図1のネットワーク130の一部であるキャリアのネットワーク(図示せず)内のルータ)からデータセンタ(例えば、図1のデータセンタ180−b)へのIPネットワーク網接続をモニタするステップを含む。これらの実施形態のいくつかでは、ステップ330は、IPトラフィックのフローが即座に低下するまたはデータセンタへのアクセス接続が失敗するもしくは切断されると、モニタしたデータセンタが災害を被っているはずであることを検出するステップを含む。IPトラフィックフローだけでなく任意のトラフィックフローがモニタされてもよいことを理解されたい。
いくつかの実施形態では、ステップ330は、災害条件が存在するかどうかを判定するために1つよりも多くのクラウドネットワークメトリックスを集合させるステップを含む。
いくつかの実施形態では、ステップ330は、災害が生じたことの「確信レベル」に基づいて災害条件が存在すると判定するステップを含む。これらの実施形態のいくつかでは、確信レベルは、意欲的であってもよい。例えば、実際の災害の「確信レベル」が50パーセント(50%)以下である時に、災害条件の判定はトリガされてもよい。サービスプロバイダは、誤検出(false positive)(すなわち、決して生じない災害に対して準備すること)よりも誤不検出(false negative)(すなわち、実際の災害に対してプロアクティブに準備しないこと)に関心がある場合があることを理解されたい。
ステップ330の第1の実施形態では、ステップ320で受信したクラウドネットワークメトリックスが災害事象を示すかどうかを検出するために、ルールに基づくモデリングが使用される。例えば、モニタしたトラフィックフローのトラフィックレベルが限界期間のあいだずっとトラフィックしきい値まで低下するまたはトラフィックしきい値よりも下である(例えば、トラフィックフローが1分間0まで低下する)場合には、災害が検出される。
ステップ330の第2の実施形態では、ステップ320で受信したクラウドネットワークメトリックスが災害事象を示すかどうかを検出するために、従来型の予測解析プログラムが使用される。例えば、モニタしたトラフィックフローが、従来型の予測解析プログラムへと入力されことがある。このような予測解析プログラムは、次に、災害が検出されているかどうかの判定を下すために、格納されたトレーニングトラフィックフローパターンに対して入力したトラフィックフローパターンを分類することができる。これらの実施形態のいくつかでは、予測解析プログラムは、確信レベルに基づいて災害検出分類を行うために学習することができる。
いくつかの実施形態では、ステップ340は、ネットワークステータス/性能/損傷情報に基づいて緩和方策を決定するステップを含む。これらの実施形態のいくつかでは、緩和方策の決定は、下記のうちの1つまたは複数を含む:
1)どの(1つまたは複数の)データセンタ/(1つまたは複数の)アプリケーションインスタンスが影響を受けた可能性があるかを推定するステップ(例えば、サンノゼの地震は、シリコンバレー地域内のデータセンタに強い影響を与えた可能性がある)、
2)(1つまたは複数の)災害警戒警報メッセージをどの(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソース(例えば、図1のネットワーク130内のルータまたはデータセンタ180−b内のアプリケーション)に向けるかを決定するステップ、
3)影響を受けたユーザのサービスを効率的に回復させるために、決定した(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースに準備を行わせるために、回復リソースのサージングまたは回復ポリシなどの回復準備を決定するステップ(例えば、図1のネットワーク130内のルータにおいてQoSポリシを変更するステップ、またはデータセンタ180−b内のアプリケーションにおいて回復リソースをサージングするステップ)。
いくつかの実施形態では、ステップ340は、複数の災害重大性レベルを設定するステップを含む。これらの実施形態のいくつかでは、災害重大性レベルは、災害条件の確信レベルに基づく。これらの実施形態のいくつかでは、災害重大性レベルは、災害の可能性のある強い影響に基づく。例えば、断線したファイバは、1つのデータセンタに影響を与えるだけであり得るが一方で、地震または津波は、複数のデータセンタを含む全体の領域に影響を与えることがある。複数のデータセンタと比較して1つのデータセンタに影響を与える災害への対応が異なる場合があることを理解されたい。例えば、異なるQoSポリシが適用されることがある、またはリソースが本質的でないカスタマサービスの前に緊急サービスに対して割り当てられることがある。これらの実施形態のいくつかでは、災害警戒警報メッセージは、災害重大性レベルに基づくであろう。
いくつかの実施形態では、ステップ340は、対応する複数の災害重大性レベルへの複数の災害応答を設定するステップを含む。例えば、赤、黄色、および緑の災害重大性レベルが設定される場合には、適用するQoSポリシについての勧告または各災害レベルに対して確保するリソースの量は、異なってもよい。
いくつかの実施形態では、ステップ340は、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースについての地理的情報を決定するステップ、およびさらに、緩和方策を地理的情報に基づくものにするステップを含む。例えば、災害の影響を受けたデータセンタの境界が、ある地理的地域内で検出されたと判定された場合、リソースモニタは、影響を受けた地理的地域の外にある回復データセンタを選択することができる。
ステップ340のいくつかの実施形態では、緩和方策は、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースへの回復負荷の配分を決定するステップを含む。例えば、災害の影響を受けたデータセンタ(例えば、図1のデータセンタ180−a)からの負荷は、分散され、回復データセンタ(例えば、図1のデータセンタ180−aおよび180−b)に負荷バランスさせるであろう。
いくつかの実施形態では、ステップ340は、1つまたは複数のクラウドネットワークリソース(例えば、図1のデータセンタ180のアプリケーションのうちの1つもしくは複数またはネットワーク130の1つもしくは複数のリソース(図示せず))とメッセージを交換するステップを含む。例えば、リソースモニタ(例えば、図1のリソースモニタ150)は、(1つまたは複数の)リソース能力を勧告することまたは回復データセンタがメッセージ要求に含まれる指定された(1つまたは複数の)リソース能力を取り扱うことが可能であるかどうかを要求することのいずれかを可能性のある回復データセンタ(例えば、データセンタ180−b)上のアプリケーションへメッセージを送ることができる。これらの実施形態では、緩和方策勧告は、このメッセージ交換に基づくことがある。
いくつかの実施形態では、ステップ340は、トラフィックを自律的に向け直すステップを含む(例えば、災害の影響を受けたデータセンタから離れた回復データセンタへトラフィックをシフトさせるためにDNSを自律的に変更する)。
いくつかの実施形態では、ステップ340は、災害の影響を受けたデータセンタ上で実行している(1つまたは複数の)アプリケーションの必要条件を収集するステップを含む。特に、アプリケーションの必要条件およびいくつの仮想マシンが存在するか、仮想マシンがどのようにして接続されるか、アプリケーションのデータアクセスパターン、またはアプリケーションのサービス必要条件などの情報を含むアプリケーションの様々なリソースのトポロジが、収集されることがある。例えば、リソースモニタ150が災害の検出の直前に使用されているデータセンタ180−aのリソースの知識を有する場合には、リソースモニタ150は、これらの必要条件の少なくともあるサブセットに基づいて回復データセンタ(例えば、180−b)への回復勧告(例えば、予想される負荷値)を作成し、渡すことができる。
ステップ340のいくつかの実施形態では、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースのうちの1つまたは複数についての回復勧告が、決定されることがある。これらの実施形態のさらなる実施形態では、災害警戒警報メッセージは、災害回復勧告を含む。
ステップ340のいくつかの実施形態では、回復勧告は:リソース割り当て勧告、リソース必要条件または回復パラメータ(例えば、予想される負荷またはRTO必要条件)、を含むことができる。
いくつかの実施形態では、ステップ350は、ネットワークステータス/性能/損傷/勧告情報または(1つまたは複数の)災害警戒警報メッセージのうちの1つまたは複数内のステップ340からのアプリケーション必要条件に基づく情報を取り込むステップを含む。
いくつかの実施形態では、ステップ370は、後で受信されるクラウドネットワークメトリックスに基づいて、災害警告または事象が終了すると判定するステップを含む。例えば、データセンタ(例えば、データセンタ180−a)からのモニタされるトラフィックフローがドロップしていることに基づいて、災害警告が決定される場合には、モニタしたトラフィックフローが回復していることを後で受信するクラウドネットワークメトリックスが示すのであれば、災害警告は終了されてもよい。
いくつかの実施形態では、ステップ370は、時間しきい値に基づいて、災害警告または事象が終了すると判定するステップを含む。例えば、実際の災害が30分以内に記録されない場合には、システムは、災害警告を終了することができる。
さらなる実施形態では、ステップ370は、ステップ330の災害条件判定を修正するステップを含むことがある。例えば、モニタされるトラフィックフローが11:30PMにドロップしようとしているが、トラフィックが再開すると災害警告は12:00PMに常に終了することに基づいて、システムが災害警告を繰り返し送る場合には、ステップ330は、これらの誤検出を多少なりとも解消する試みで修正されることがある。もう1つの例では、災害警告が時間しきい値の終了に基づいて終了する場合には、災害警告終了の直ぐ後に別のアラームをトリガしないように、ステップ330は、より厳しい判定特性を含むように修正されることがある。
ステップ350では、災害警戒警報メッセージの作成を他の方法ステップのうちのいずれかからの情報に基づくものにすることは、任意の形式の情報の包含物を含むことができ、そして災害警戒警報メッセージ内の情報を「コピーすること」を必要としないことを理解されたい。
図4は、図2のステップ240に図示したように、迅速な災害回復準備を実行するための回復リソース(例えば、図1のデータセンタ180内のアプリケーションまたはネットワーク130内のリソース)のための方法400の実施形態を図示する流れ図を示す。本方法は、図3のステップ360のあいだに送られたような、1つまたは複数の災害警戒警報メッセージを受信するステップ(ステップ420)を含む。本方法を実行する装置は、次に、受信した災害警戒警報メッセージを構文解析し(ステップ430)、その後:(i)迅速なエラスティシティ(elasticity)を実行する(ステップ440)、(ii)動作回復ポリシを事前調整する(ステップ450)、または(iii)ネットワークを事前調整する(ステップ460)。最後に、本方法は、装置を通常動作に戻すステップを含む(ステップ470)。
方法400では、ステップ420は、(例えば、データセンタ通信チャネル185を介して、ネットワーク130内の通信チャネル(図示せず)を介して、またはそれ自体から直接)1つまたは複数の災害警戒警報メッセージを受信するステップを含む。
方法400では、ステップ430は、(1つまたは複数の)受信した災害警戒警報メッセージを構文解析するステップを含む。特に、災害警戒警報メッセージは、もしあるならば、ステップ440、450、または460のどれが実行されるべきであるかを判定するために構文解析される。装置が1つのステップ(例えば、ステップ440)だけを実行することができ、災害警戒警報メッセージが単に災害警告指標であってもよいことを理解されたい。
方法400は、ステップ440を任意選択で含む。ステップ440は、迅速なエラスティシティを実行するステップを含む。特に、本方法を実行する装置は、装置が輻輳状態をまだ検出していない場合でさえ、災害警戒警報メッセージの受信に基づいて迅速な弾力的拡大を始める。迅速な弾力的拡大は、通常の弾力的拡大とは異なる。通常の弾力的拡大では、負荷がある期間にわたって利用しきい値を超えた後で、能力は、定常状態で拡大される。迅速な弾力的拡大では、能力は、予測されるトラフィックの急激な増加への準備で(すなわち、負荷が利用しきい値を超えたという判定に基づかないで)増加される。
方法400は、ステップ450を任意選択で含む。ステップ450は、回復ポリシを事前調整するステップを含む。特に、本方法を実行する装置は、災害警戒警報メッセージの受信に基づいて装置のクラウドネットワークリソースのうちの1つまたは複数についての装置の動作ポリシを修正することができる。動作ポリシを修正するステップは:(i)サービス品質のパラメタを構成するサブステップ、(ii)低優先度/オフラインタスクを区別するサブステップ、または(iii)類似のサブステップ、を含むことができる。
方法400は、ステップ460を任意選択で含む。ステップ460は、ネットワークを事前調整するステップを含む。特に、本方法を実行する装置は、トラフィックフローを再構成すること、(1つまたは複数の)回復アプリケーション/(1つまたは複数の)リソースの帯域幅を増加させること、等ができる。
方法400は、ステップ470を任意選択で含む。ステップ470は、通常モードの動作に装置を戻すステップを含む。特に、ステップ440、450および460のうちの1つまたは複数において取られた準備は、「ロールバック」されることがある。
いくつかの実施形態では、ステップ440は、大きな弾力的拡大を含む。大きな弾力的拡大は、通常拡大と比較して2倍よりも大きい倍率の回復クラウドネットワークリソースの拡大である。これらの実施形態のいくつかでは、大きな弾力的拡大は、通常拡大よりも10倍大きい。
いくつかの実施形態では、ステップ440は、格納された値に基づいて弾力的拡大動作を開始する。例えば、格納した値は、回復データセンタ上のアプリケーションが、認証サーバなどの回復クリティカルパス内の要素に対して100%以上能力を増加させることを規定することができる。さらなる実施形態では、複数の値が、時間または日、曜日、等の動的な情報に基づいて格納されることがある。
いくつかの実施形態では、ステップ440は、装置に利用可能な情報に基づいて弾力的拡大動作を開始するステップを含む。特に、装置は、個々のアプリケーションの予想される負荷またはRTO必要条件のうちの1つまたは複数を満足させるために十分なリソースを割り当てることができる/十分なアプリケーションインスタンスを開始することができる。例えば、情報が、あるアプリケーションに対して15分のRTOを指定する場合には、ユーザ資格をホストする回復装置上の認証データベースは、弾力的拡大動作を、15分未満の時間枠内にすべてのユーザ(例えば、図1のクライアント120)についての資格を有効にするための能力に基づくものにすることができる。災害事象に続く回復データセンタへのユーザ認証要求の急激な増加に適応させるために、弾力的拡大動作が、通常動作に対して要求されるものよりさらに積極的に能力を拡大させることができることを理解されたい。
いくつかの実施形態では、ステップ440は、(1つまたは複数の)災害警戒警報メッセージに含まれる情報に基づいて弾力的拡大動作を開始するステップを含む。(1つまたは複数の)災害警戒警報メッセージは、弾力的拡大動作を、:(i)受けるであろう予想される負荷、(ii)RTO必要条件、(iii)QoSポリシ、(iv)ネットワーク構成、(v)などに基づくものにするように任意の適切な情報を含むことができる。予想される負荷は、弾力的拡大動作を:負荷、リソース必要条件、影響を受けたユーザの数、または影響を受けたデータセンタのサイズなどのいずれかの他の関連する二次情報、などに基づくものにするように任意の適切な情報を含むことができる。例えば、災害警戒警報メッセージが災害の影響を受けたデータセンタのサイズについての情報を含む場合には、回復データセンタ(例えば、図1のデータセンタ180−b)内のアプリケーションは、小さい災害の影響を受けたデータセンタに対して50パーセント(50%)および大きい災害の影響を受けたデータセンタに対して100パーセント(100%)だけリソースを拡大することができる。
いくつかの実施形態では、ステップ440は、「ちょうどよい(just right)」弾力的拡大動作を模倣するステップを含む。「ちょうどよい」弾力的拡大動作は、ほぼ予想される瞬間的なトラフィック拡大まで能力を急激に増加させる。例えば、災害警戒警報メッセージが移動されるであろう負荷の推定を含む場合には、本方法を実行している装置は、予測される負荷を取り扱うために十分に能力を急激に増加させることができる。これらの実施形態のいくつかでは、アプリケーションは、バッファゾーンを与えるために予測される負荷よりも大きく能力を急激に増加させることができる。いくつかの実施形態では、安全ゾーンは、10パーセント(10%)以下であってもよい。
いくつかの実施形態では、ステップ450は、動作ポリシを修正するステップを含む。これらの実施形態のいくつかでは、本方法を実行する装置は、低優先度タスクまたはオフラインタスクを延期することができる。これらの実施形態のいくつかでは、本方法を実行する装置は、影響を受けたユーザを扱うためにより多くのリソースを利用可能にさせるように、QoSを修正することができる。
いくつかの実施形態では、ステップ450は、(1つまたは複数の)災害警戒警報メッセージに含まれた情報に基づいて(例えば、HTTPアダプティブビットレートストリーミングを使用して)アダプティブビットレートを設定するステップを含む。例えば、ビデオ配信アプライアンスなどの回復リソースは、ビデオ用のビットレートがある期間のあいだ削減されることを勧告する情報を有する災害警戒警報メッセージを送られることがある。ビデオ帯域幅のこのような削減は、システムが災害に続いて直ちにトラフィック(例えば、認証トラフィック)の急激な増加を取り扱うことを可能にすることができる。
いくつかの実施形態では、ステップ450は、QoSトラフィック管理ポリシを設定するステップを含む。1つのさらなる実施形態では、ルータなどの回復リソースは、ある期間のあいだ厳しい優先度キューに設定されるキューイングポリシを勧告する情報を有する災害警戒警報メッセージを送られることがある。例えば、高優先度パケットまたはリアルタイムパケットの配信を容易にすることに役立つように−他のパケットタイプを待たせることを代償にしてである。第2のさらなる実施形態では、ルータなどの回復リソースは、あるタイプのパケット(例えば、ビデオ)がドロップされることを勧告する情報を有する災害警戒警報メッセージを送られることがある。第3のさらなる実施形態では、データセンタ内のアプリケーションなどの回復アプリケーションは、バックアップポリシが処理オーバーヘッドを軽くするためにある期間のあいだ軽くされる、または直ぐのバックアップが強要される(例えば、データセンタがリスク地域内にあると、リソースモニタが判定した場合には、遠隔地へのバックアップが、データストアの完全性を保護するために強要されることがある)ことを勧告する情報を有する災害警戒警報メッセージを送られることがある。
いくつかの実施形態では、ステップ470は、トラフィックスパイクがある時間間隔のあいだに起きない場合には、ロールバックするステップを含む。いくつかの実施形態では、ロールバック間隔は、30分未満であってもよい。これらの実施形態のいくつかでは、ロールバック間隔は、インフラストラクチャ−アズ−ア−サービス(infrastructure−as−a−service)がどのようにして料金請求されるかに基づく。例えば、サービスプロバイダは、サービスプロバイダがそのアプリケーションのために使用しているリソースの量に対して1時間単位で料金請求されることがある。この例では、サービスプロバイダは、1時間単位の増分でロールバック間隔を設定することができる。
いくつかの実施形態では、ステップ470は、装置が後で「すべてクリア」を受信する場合には、ロールバックするステップを含む。例えば、リソースモニタ(例えば、図10のリソースモニタ150)は、条件が誤検出であるまたは災害が通り過ぎたことによって、災害条件が終了したと判定することができる。この実施形態では、リソースモニタは、災害条件が終了したことを装置に通知する装置への後続のメッセージを送ることができる。
特定のシーケンスで主に示し説明したが、方法200、300および400において示したステップが、任意の適切なシーケンスで実行されてもよいことを理解されたい。その上、1つのステップによって特定されるステップはまた、シーケンス内の1つまたは複数の他のステップで実行されることがある、または1つのステップよりも多くの通常の行為が、1回だけ実行されることがある。
様々な上記の方法のステップは、プログラミングされたコンピュータによって実行されることが可能であることを理解されたい。ここでは、いくつかの実施形態は、プログラムストレージデバイス、例えば、データ記録媒体もやはりカバーするものとし、ストレージデバイスは、マシン可読またはコンピュータ可読であり、命令のマシン実行可能なプログラムもしくはコンピュータ実行可能なプログラムをエンコードし、ここでは、前記命令が、前記上記の方法のステップのうちの一部またはすべてを実行する。プログラムストレージデバイスは、例えば、ディジタルメモリ、磁気ディスクおよび磁気テープなどの磁気記録媒体、ハードドライブ、または光学式可読データ記録媒体であってもよい。本実施形態はまた、上記の方法の前記ステップを実行するようにプログラミングされたコンピュータをカバーするものとする。
図5は、図1のリソースモニタ150、データセンタ180のうちの1つの仮想マシン、または図1のネットワーク130のリソースのうちの1つなどの様々な装置500の実施形態を模式的に図示する。装置500は、プロセッサ510、データストレージ511、およびI/Oインターフェース530を含む。
プロセッサ510は、装置500の動作を制御する。プロセッサ510は、データストレージ511と協働する。
データストレージ511は、(例えば、図3のステップ320からの)クラウドネットワークメトリックス、(例えば、図3のステップ340からの)収集したクラウドネットワークリソース特性、(例えば、図4のステップ450からの)QoS必要条件、または(例えば、図4のステップ460からの)必要に応じて新しいデータ、などのプログラムデータを格納することができる。データストレージ511は、プロセッサ510により実行可能なプログラム520をやはり格納する。
プロセッサ実行可能プログラム520は、I/Oインターフェースプログラム521、災害条件検出プログラム523、または迅速な災害回復準備プログラム525を含むことができる。プロセッサ510は、プロセッサ実行可能なプログラム520と協働する。
I/Oインターフェース530は、上に説明したように(例えば、図3のステップ320においてクラウドネットワークメトリックスをモニタする際に、図3のステップ360において(1つまたは複数の)災害警戒警報メッセージを送る際に、および図4のステップ420において(1つまたは複数の)災害警戒警報メッセージを受信する際に)図1の通信チャネル125、155または185を介して通信をサポートするために、プロセッサ510およびI/Oインターフェースプログラム521と協働する。
災害条件検出プログラム523は、上に説明したように図2のステップ230および図3の方法300の複数のステップを実行する。
迅速な災害回復準備プログラム525は、上に説明したように図2のステップ240および図4の方法400の複数のステップを実行する。
いくつかの実施形態では、装置500は、仮想マシンであってもよい。これらの実施形態のいくつかでは、仮想マシンは、異なるマシンからの構成要素を含んでもよい、または地理的に分散されてもよい。例えば、データストレージ511およびプロセッサ510は、2つの異なる物理マシン内にあってもよい。
プロセッサ実行可能なプログラム520がプロセッサ510上に実装されると、プログラムコードセグメントは、特定の論理回路と同様に動作する特有のデバイスを形成するためにプロセッサと結合する。
例えば、プログラムおよび論理がデータストレージ内に格納され、メモリがプロセッサに通信可能に接続される実施形態に関して本明細書において示し、説明したが、このような情報が:任意の適切な配置のデバイスに通信可能に結合された任意の適切な配置のメモリ、ストレージもしくはデータベースを使用して、(1つもしくは複数の)メモリ、(1つもしくは複数の)ストレージもしくは(1つもしくは複数の)内部もしくは外部データベースの任意の適切な組み合わせ内に情報を格納して、または任意の適切な数のアクセス可能な外部メモリ、ストレージもしくはデータベースを使用して、任意の他の適切な方式で(例えば、任意の適切な数のメモリ、ストレージもしくはデータベースを使用して)格納されてもよいことを理解されたい。そのようなものとして、本明細書において呼ばれるデータストレージという用語は、(1つまたは複数の)メモリ、(1つまたは複数の)ストレージ、および(1つまたは複数の)データベースのすべての適切な組み合わせを包括的に含むことを意味する。
本明細書および図面は、単に本発明の原理を図示する。したがって、本明細書において明示的に記述しなかったまたは示さなかったにも拘わらず、本発明の原理を取り込んであり、かつ本発明の精神および範囲内に含まれる様々な配置を、当業者なら考案することが可能であろうことが理解されよう。さらにその上、本明細書において列挙したすべての例は、本発明の原理および本技術をさらに進めるために(1人または複数の)発明者によって提供された概念を理解する際に読者を助けるために、明確に教育的な目的のためだけであるように原理的に意図され、このような具体的に列挙した例および条件に限定されないように解釈されるべきである。その上、本発明の原理、態様および実施形態ならびにこれらの具体的な例を列挙している本明細書中のすべての記述は、これらの等価物を包括的に含むものとする。
「プロセッサ」として名付けた任意の機能ブロックを含む図に示した様々な要素の機能は、専用のハードウェアならびに適切なソフトウェアと協働してソフトウェアを実行することが可能なハードウェアの使用を通して実現されてもよい。プロセッサによって実現されるときには、機能は、1つの専用プロセッサによって、1つの共有プロセッサによって、またはプロセッサのいくつかが共有されることがある複数の個別のプロセッサによって実現されてもよい。その上、「プロセッサ」または「コントローラ」という用語の明示的な使用は、ソフトウェアを実行することが可能なハードウェアだけを指すように解釈されるべきではなく、限定ではなく、ディジタル信号プロセッサ(DSP)ハードウェア、ネットワークプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ソフトウェアを格納するための読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性ストレージを暗に含むことができる。従来型および/またはカスタムの他のハードウェアも、やはり含まれてもよい。同様に、図に示したいずれかのスイッチは、単に概念的なものである。これらの機能は、プログラムロジックの動作を介して、専用ロジックを介して、プログラム制御および専用ロジックの相互作用を介して、または手作業でさえ実行されることがあり、特定の技術が、コンテキストからより具体的に理解されるように実施者によって選択可能である。
本明細書内のいずれかのブロック図は、本発明の原理を具体化する例示的な回路の概念的な図を表すことを理解されたい。同様に、いずれかのフローチャート、フローダイアグラム、状態遷移図、疑似コード、等が、コンピュータ可読媒体内に実質的に表現されることがあり、コンピュータまたはプロセッサが明示的に示されているか否かに拘わらず、このようなコンピュータまたはプロセッサによってそのように実行されることがあり得る様々なプロセスを表すことを理解されたい。

Claims (10)

  1. 迅速な災害回復準備を行うための装置であって、
    データストレージと、
    データストレージに通信可能に結合されたプロセッサとを備え、プロセッサが、
    第1のネットワークリソースからネットワークメトリックスをモニタし、
    受信したネットワークメトリックスに基づいて第2のネットワークリソースの利用可能性に影響を与える災害条件が生じたと判定し、
    第3のネットワークリソースへ災害警戒警報メッセージを送る
    ように構成され、
    第1、第2および第3のネットワークリソースが、異なるリソースである、
    装置。
  2. モニタしたネットワークメトリックスが、モニタしたトラフィックフローを含み、モニタしたトラフィックフローが、1つまたは複数のトラフィックフロー値を含み、災害条件が生じたという判定は、モニタしたトラフィックフローが中断されていることの検出またはモニタしたトラフィックフローが異常なトラフィックパターンを有することの検出のうちの少なくとも1つに基づく、請求項1に記載の装置。
  3. モニタしたネットワークメトリックスが、外部由来のセンサ情報を含む、請求項1に記載の装置。
  4. 災害条件が生じたという判定が、確信レベルに基づく、請求項1に記載の装置。
  5. プロセッサが、
    複数のネットワークリソースを解析し、
    複数のネットワークリソースに基づいて災害回復勧告を決定し、
    災害回復勧告に基づいて第3のネットワークリソースを選択する
    ようにさらに構成される、請求項1に記載の装置。
  6. 迅速な災害回復準備を行うための装置であって、
    データストレージと、
    データストレージに通信可能に結合されたプロセッサとを備え、プロセッサが、
    災害警戒警報メッセージを受信し、
    迅速な弾力的拡大動作を実行するように構成され、迅速な弾力的拡大動作が、利用しきい値を超える前にネットワークリソースの拡大を含む、装置。
  7. 迅速な弾力的拡大動作が、受信した災害警戒警報メッセージに基づく速度拡大をさらに含む、請求項6に記載の装置。
  8. プロセッサが、
    トラフィック負荷をモニタし、
    モニタしたトラフィック負荷に基づいて災害条件が存在しないと判定し、
    災害条件が存在しないという判定に応答して、弾力的縮小動作を実行するようにさらに構成され、弾力的縮小動作が、ネットワークリソースの拡大の少なくとも一部を解除する、請求項6に記載の装置。
  9. 迅速な災害回復準備のための方法であって、
    データストレージに通信可能に結合されたプロセッサにおいて、第1のネットワークリソースからネットワークメトリックスを受信するステップと、
    データストレージと協働するプロセッサによって、受信したネットワークメトリックスに基づいて第2のネットワークリソースの利用可能性に影響を与える災害条件が生じたと判定するステップと、
    第3のネットワークリソースへ災害警戒警報メッセージを、データストレージと協働するプロセッサにより送るステップと
    を含み、
    第1、第2および第3のネットワークリソースが、異なるリソースである、
    方法。
  10. 災害警戒警報メッセージを、第3のネットワークリソースによって受信するステップと、
    迅速な弾力的拡大動作を、第3のネットワークリソースによって実行するステップとをさらに含み、迅速な弾力的拡大動作が、利用しきい値を超える前にネットワークリソースを拡大させる、請求項9に記載の方法。
JP2014557677A 2012-02-14 2013-02-01 クラウドネットワークにおける迅速な災害回復準備のための方法および装置 Pending JP2015510201A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/372,630 2012-02-14
US13/372,630 US8977886B2 (en) 2012-02-14 2012-02-14 Method and apparatus for rapid disaster recovery preparation in a cloud network
PCT/US2013/024335 WO2013122755A2 (en) 2012-02-14 2013-02-01 Method and apparatus for rapid disaster recovery preparation in a cloud network

Publications (1)

Publication Number Publication Date
JP2015510201A true JP2015510201A (ja) 2015-04-02

Family

ID=47716174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014557677A Pending JP2015510201A (ja) 2012-02-14 2013-02-01 クラウドネットワークにおける迅速な災害回復準備のための方法および装置

Country Status (6)

Country Link
US (1) US8977886B2 (ja)
EP (1) EP2815538B1 (ja)
JP (1) JP2015510201A (ja)
KR (1) KR20140116498A (ja)
CN (1) CN104126285A (ja)
WO (1) WO2013122755A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898359B2 (en) 2016-04-26 2018-02-20 International Business Machines Corporation Predictive disaster recovery system
JP2022123018A (ja) * 2016-04-22 2022-08-23 マーベル アジア ピーティーイー、リミテッド 動的仮想システム・オン・チップのための方法および装置
US11601380B2 (en) 2019-02-26 2023-03-07 Nippon Telegraph And Telephone Corporation Communication network control system, central communication control device, communication control method, and communication control program

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8935561B2 (en) * 2012-02-23 2015-01-13 City University Of Hong Kong Progressive network recovery
US8862948B1 (en) * 2012-06-28 2014-10-14 Emc Corporation Method and apparatus for providing at risk information in a cloud computing system having redundancy
US9716746B2 (en) 2013-07-29 2017-07-25 Sanovi Technologies Pvt. Ltd. System and method using software defined continuity (SDC) and application defined continuity (ADC) for achieving business continuity and application continuity on massively scalable entities like entire datacenters, entire clouds etc. in a computing system environment
US20150169353A1 (en) * 2013-12-18 2015-06-18 Alcatel-Lucent Usa Inc. System and method for managing data center services
GB2524951A (en) * 2014-03-13 2015-10-14 Vodafone Ip Licensing Ltd Management of resource allocation in a mobile telecommunication network
WO2015136308A1 (en) * 2014-03-13 2015-09-17 Vodafone Ip Licensing Limited Management of resource allocation in a mobile telecommunication network
US9483299B2 (en) 2014-06-30 2016-11-01 Bmc Software, Inc. Capacity risk management for virtual machines
JP6413517B2 (ja) * 2014-09-04 2018-10-31 富士通株式会社 管理装置、マイグレーション制御プログラム、情報処理システム
US10061833B2 (en) * 2014-09-25 2018-08-28 Senslytics Corporation Data insight and intuition system for tank storage
CN105592127B (zh) * 2014-11-20 2019-10-25 ***股份有限公司 用于云计算环境的应用管理***
KR102296903B1 (ko) * 2015-02-25 2021-09-01 에스케이플래닛 주식회사 클라우드 스트리밍 서비스 시스템의 에러 복구 장치 및 방법
US10270668B1 (en) * 2015-03-23 2019-04-23 Amazon Technologies, Inc. Identifying correlated events in a distributed system according to operational metrics
US11226856B2 (en) 2015-04-24 2022-01-18 Senslytics Corporation Methods and systems correlating hypotheses outcomes using relevance scoring for intuition based forewarning
US10073724B2 (en) * 2015-04-24 2018-09-11 Senslytics Corporation Method of intuition generation
US9923965B2 (en) 2015-06-05 2018-03-20 International Business Machines Corporation Storage mirroring over wide area network circuits with dynamic on-demand capacity
US10509704B2 (en) * 2015-08-24 2019-12-17 Acronis International Gmbh System and method for automatic data backup based on multi-factor environment monitoring
US10031807B2 (en) 2015-11-04 2018-07-24 International Business Machines Corporation Concurrent data retrieval in networked environments
US9923784B2 (en) 2015-11-25 2018-03-20 International Business Machines Corporation Data transfer using flexible dynamic elastic network service provider relationships
US10216441B2 (en) 2015-11-25 2019-02-26 International Business Machines Corporation Dynamic quality of service for storage I/O port allocation
US10057327B2 (en) 2015-11-25 2018-08-21 International Business Machines Corporation Controlled transfer of data over an elastic network
US10581680B2 (en) 2015-11-25 2020-03-03 International Business Machines Corporation Dynamic configuration of network features
US9923839B2 (en) 2015-11-25 2018-03-20 International Business Machines Corporation Configuring resources to exploit elastic network capability
US10177993B2 (en) 2015-11-25 2019-01-08 International Business Machines Corporation Event-based data transfer scheduling using elastic network optimization criteria
US11070395B2 (en) 2015-12-09 2021-07-20 Nokia Of America Corporation Customer premises LAN expansion
US9798635B2 (en) * 2015-12-11 2017-10-24 International Business Machines Corporation Service level agreement-based resource allocation for failure recovery
US10528433B2 (en) * 2016-04-01 2020-01-07 Acronis International Gmbh Systems and methods for disaster recovery using a cloud-based data center
WO2018079867A1 (ko) * 2016-10-24 2018-05-03 주식회사 아이티스테이션 지능형 지속위협 환경의 네트워크 복구 시스템을 이용한 복구 방법
US10223218B2 (en) * 2016-11-29 2019-03-05 International Business Machines Corporation Disaster recovery of managed systems
KR101868115B1 (ko) * 2017-02-06 2018-07-18 경기엔지니어링(주) 재난발생 자동 검지 및 피난 관제 통신 시스템
US10303573B2 (en) 2017-06-19 2019-05-28 International Business Machines Corporation Scaling out a hybrid cloud storage service
US10379964B2 (en) 2017-07-10 2019-08-13 International Business Machines Corporation Integrating resources at a backup site
US10970174B2 (en) 2017-12-04 2021-04-06 International Business Machines Corporation Pre-emptive data production site swap
US10797940B2 (en) * 2018-02-02 2020-10-06 Storage Engine, Inc. Methods, apparatuses and systems for cloud-based disaster recovery
US10776394B2 (en) 2018-05-31 2020-09-15 International Business Machines Corporation Synchronous site-consolidated data backup with synchronous-to-asynchronous traffic conversion
US10769174B2 (en) 2018-05-31 2020-09-08 International Business Machines Corporation Site-consolidated disaster-recovery with synchronous-to-asynchronous traffic conversion
US11068351B2 (en) 2018-11-19 2021-07-20 International Business Machines Corporation Data consistency when switching from primary to backup data storage
US20200159638A1 (en) * 2018-11-20 2020-05-21 International Business Machines Corporation Collaborative Decision Making to Enhance Resiliency of Workloads in Data Center Environments
US11063907B2 (en) * 2019-01-18 2021-07-13 Cobalt Iron, Inc. Data protection automatic optimization system and method
US11768740B2 (en) 2019-03-29 2023-09-26 International Business Machines Corporation Restoring operation of data storage systems at disaster recovery sites
US11656959B2 (en) * 2019-08-01 2023-05-23 Druva Inc. Disaster recovery region recommendation system and method
US11677582B2 (en) * 2020-12-09 2023-06-13 Raytheon Company Detecting anomalies on a controller area network bus
US20230022959A1 (en) * 2021-07-20 2023-01-26 Cisco Technology, Inc. Detecting critical regions and paths in the core network for application-driven predictive routing
CN113499648B (zh) * 2021-09-13 2021-11-19 江苏中科机械有限公司 一种蓄热式废气氧化炉的分离预处理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312783A (ja) * 2000-04-28 2001-11-09 Japan Science & Technology Corp 災害推定システム及び方法
JP2010081030A (ja) * 2008-09-24 2010-04-08 Hitachi Systems & Services Ltd 緊急災害警報転送システム
JP2010237926A (ja) * 2009-03-31 2010-10-21 Fujitsu Fip Corp コンピュータ機能の災害対応移行システムと方法、同方法を実行させるコンピュータプログラムおよび同コンピュータプログラムを格納した記憶媒体
JP2010245702A (ja) * 2009-04-02 2010-10-28 Ntt Docomo Inc 通信システム、通信装置、およびデータ伝送制御方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870540A (en) * 1995-11-20 1999-02-09 Ncr Corporation Low overhead method for detecting communication failures on a network
US5913036A (en) 1996-06-28 1999-06-15 Mci Communications Corporation Raw performance monitoring correlated problem alert signals
US7167860B1 (en) * 1999-03-25 2007-01-23 Nortel Networks Limited Fault tolerance for network accounting architecture
US6848062B1 (en) * 2001-12-21 2005-01-25 Ciena Corporation Mesh protection service in a communications network
US7580994B1 (en) 2004-01-21 2009-08-25 Nortel Networks Limited Method and apparatus for enabling dynamic self-healing of multi-media services
US8738760B2 (en) 2005-04-14 2014-05-27 Verizon Business Global Llc Method and system for providing automated data retrieval in support of fault isolation in a managed services network
US9418040B2 (en) * 2005-07-07 2016-08-16 Sciencelogic, Inc. Dynamically deployable self configuring distributed network management system
CN101507182B (zh) * 2006-06-26 2013-03-13 艾利森电话股份有限公司 用于快速通信量测量和监控的网络节点和方法
CN1921409A (zh) * 2006-07-27 2007-02-28 上海交通大学 可共享带宽的预置网络保护方法
US20080102772A1 (en) 2006-10-26 2008-05-01 Gandhi Asif D Carrier growth planning based on measured airlink transmission latency in 1x-EVDO wireless network
JP4764810B2 (ja) * 2006-12-14 2011-09-07 富士通株式会社 異常トラヒック監視装置、エントリ管理装置およびネットワークシステム
US20080165685A1 (en) * 2007-01-09 2008-07-10 Walter Weiss Methods, systems, and computer program products for managing network bandwidth capacity
US8385194B2 (en) 2007-03-13 2013-02-26 Alcatel Lucent Quality of service admission control network
CN101106789B (zh) * 2007-07-10 2010-09-29 ***通信集团江苏有限公司 Gsm网络智能小区自适应调整***及其方法
US9106800B2 (en) * 2007-08-31 2015-08-11 At&T Intellectual Property I, L.P. System and method of monitoring video data packet delivery
US7660893B2 (en) * 2007-09-04 2010-02-09 International Business Machines Corporation Method and system for monitoring and instantly identifying faults in data communication cables
US7860023B2 (en) 2008-10-21 2010-12-28 At&T Intellectual Property I, L.P. Layer 2 network rule-based non-intrusive testing verification methodology
GB2466207B (en) * 2008-12-11 2013-07-24 Advanced Risc Mach Ltd Use of statistical representations of traffic flow in a data processing system
US8429453B2 (en) * 2009-07-16 2013-04-23 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure
CN201800737U (zh) * 2010-09-21 2011-04-20 中国铁道科学研究院电子计算技术研究所 铁路防灾安全监控***
CN102299970A (zh) * 2011-09-27 2011-12-28 惠州紫旭科技有限公司 基于云计算的数据黑匣子***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312783A (ja) * 2000-04-28 2001-11-09 Japan Science & Technology Corp 災害推定システム及び方法
JP2010081030A (ja) * 2008-09-24 2010-04-08 Hitachi Systems & Services Ltd 緊急災害警報転送システム
JP2010237926A (ja) * 2009-03-31 2010-10-21 Fujitsu Fip Corp コンピュータ機能の災害対応移行システムと方法、同方法を実行させるコンピュータプログラムおよび同コンピュータプログラムを格納した記憶媒体
JP2010245702A (ja) * 2009-04-02 2010-10-28 Ntt Docomo Inc 通信システム、通信装置、およびデータ伝送制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015033524; 西村 豪生 Hideo NISHIMURA: '高可用ネットワークサーバの資源運用柔軟化に向けた高速リモートブート機構 Rapid Network Boot System to' 電子情報通信学会技術研究報告 Vol.110 No.372 IEICE Technical Report 第110巻, 20110113, P.37〜42, 社団法人電子情報通信学会 The Institute of Electro *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022123018A (ja) * 2016-04-22 2022-08-23 マーベル アジア ピーティーイー、リミテッド 動的仮想システム・オン・チップのための方法および装置
JP7334396B2 (ja) 2016-04-22 2023-08-29 マーベル アジア ピーティーイー、リミテッド 動的仮想システム・オン・チップのための方法および装置
US9898359B2 (en) 2016-04-26 2018-02-20 International Business Machines Corporation Predictive disaster recovery system
US10613921B2 (en) 2016-04-26 2020-04-07 International Business Machines Corporation Predictive disaster recovery system
US11601380B2 (en) 2019-02-26 2023-03-07 Nippon Telegraph And Telephone Corporation Communication network control system, central communication control device, communication control method, and communication control program

Also Published As

Publication number Publication date
US8977886B2 (en) 2015-03-10
WO2013122755A3 (en) 2013-10-24
US20130212422A1 (en) 2013-08-15
EP2815538B1 (en) 2016-08-24
CN104126285A (zh) 2014-10-29
KR20140116498A (ko) 2014-10-02
EP2815538A2 (en) 2014-12-24
WO2013122755A2 (en) 2013-08-22

Similar Documents

Publication Publication Date Title
JP2015510201A (ja) クラウドネットワークにおける迅速な災害回復準備のための方法および装置
US10432533B2 (en) Automatic detection and prevention of network overload conditions using SDN
US10965558B2 (en) Method and system for effective data collection, aggregation, and analysis in distributed heterogeneous communication network
US10601643B2 (en) Troubleshooting method and apparatus using key performance indicator information
JP5877429B2 (ja) ネットワーク解析のための方法および装置
JP5418250B2 (ja) 異常検出装置、プログラム、及び異常検出方法
US20170155560A1 (en) Management systems for managing resources of servers and management methods thereof
Cotroneo et al. A fault correlation approach to detect performance anomalies in virtual network function chains
CN111459750A (zh) 基于非扁平网络的私有云监控方法、装置、计算机设备及存储介质
US20160080248A1 (en) Network service restoration-on-demand
US11671332B2 (en) Adjusting triggers for automatic scaling of virtual network functions
US8305911B2 (en) System and method for identifying and managing service disruptions using network and systems data
US11582154B2 (en) Method, apparatus, and system for adjusting routing of network traffic or utilization of network nodes
US20150381498A1 (en) Network system and its load distribution method
JP2017506847A (ja) マルチネットワークルータにおけるフェイルオーバーとフェイルバックを提供する方法とシステム
US11843545B1 (en) Method and system for containerized network function management service
US20100153543A1 (en) Method and System for Intelligent Management of Performance Measurements In Communication Networks
US11943284B2 (en) Overload protection for edge cluster using two tier reinforcement learning models
JP5456921B1 (ja) 障害復旧装置、障害復旧方法、及び障害復旧プログラム
US11178256B2 (en) Business service providing system, business service recovery method, and business service recovery program
US9893958B2 (en) Method and system for service assurance and capacity management using post dial delays
CN117221138A (zh) 核心网仿真方法、装置、设备及存储介质
Tairaku et al. Application specific traffic control using network virtualization node in large-scale disasters
Tairaku et al. Application specific traffic control in large-scale disasters
CN115088237A (zh) 用于客户控制网络事件的方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160209