JP6856574B2 - サービス継続システムおよびサービス継続方法 - Google Patents
サービス継続システムおよびサービス継続方法 Download PDFInfo
- Publication number
- JP6856574B2 JP6856574B2 JP2018090437A JP2018090437A JP6856574B2 JP 6856574 B2 JP6856574 B2 JP 6856574B2 JP 2018090437 A JP2018090437 A JP 2018090437A JP 2018090437 A JP2018090437 A JP 2018090437A JP 6856574 B2 JP6856574 B2 JP 6856574B2
- Authority
- JP
- Japan
- Prior art keywords
- service
- virtual server
- standby
- server
- restart
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000012544 monitoring process Methods 0.000 claims description 64
- 238000011084 recovery Methods 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 44
- 210000004556 brain Anatomy 0.000 description 20
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000006378 damage Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
- G06F11/1484—Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45575—Starting, stopping, suspending or resuming virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/815—Virtual
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Hardware Redundancy (AREA)
Description
図1は、従来技術における高可用クラスタ構成を説明するための図である。図1を参照して、データベースサービスを提供する物理サーバの高可用クラスタ構成を説明する。サーバ910は、運用系のサーバであり、サーバ920は、待機系のサーバである。サーバ910とサーバ920とは、インターコネクト940で相互に接続されており、ハートビートを送信し合うことで、相手のサーバが動作していることを確認する。インターコネクト940は、通常2つ以上のネットワークで構成される。また、サーバ910とサーバ920とは、外部のネットワークNETに接続されており、サービスを要求する端末(不図示)と通信することができる。
サービス監視部912は、データベースサービス部911が動作していることを監視するプロセス(エージェント)である。サービス監視部912は、データベースサービス部911にクエリを定期的に送信するなどして、データベースサービス部911が動作していることを確認して監視する。データベースサービス部911の動作が確認できない場合、サービス監視部912は、故障が発生したと判断して後記するサービス復旧部914に通知する。
サービス復旧部914は、故障が発生した場合に、後記するサーバの切替えを実行する。
ノード監視部923は、インターコネクト940を介してハートビートを送受信し、サーバ910が動作していることを確認する。また、ノード監視部923は、ハートビートを受信しない場合には、サーバ910に故障が発生したと判断して後記するサービス復旧部924に通知する。
ストレージ930は、運用系のサーバ910に接続されており、データベースサービスのデータを記憶する装置である。
以下に、データベースサービス部911または運用系のサーバ910に故障が発生した場合の切替え処理(フェイルオーバ)を説明する。
図2は、従来技術における、運用系のデータベースサービス部911に故障が発生した場合に、運用系のサーバ910から待機系のサーバ920へ切り替える処理のシーケンス図である。図2を参照して、サービス故障時の切替え処理を説明する。
図3は、従来技術における、運用系のサーバ910に故障が発生した場合に、運用系のサーバ910から待機系のサーバ920へ切り替える処理のシーケンス図である。図3を参照して、サーバ故障時の切替え処理を説明する。
続いて、インターコネクト940に故障が発生した場合に発生するスプリットブレイン問題を説明する。インターコネクト940に故障が発生すると、図3で説明したように待機系のサーバ920は、運用系のサーバ910が故障したと判断して(ステップS921参照)、サービスを開始する(ステップS925参照)。しかしながら、運用系のサーバ910でもサービスは稼働しているため、二重にデータベースのサービスが稼働していることになり、ストレージ930にサーバ910,920の双方から書き込みが発生してデータが破壊されるという、スプリットブレイン問題が発生する。これは、ストレージ930に対するサーバ910とサーバ920と間の排他制御ができていないという問題でもある。
次に、図2を参照しながら、サービス(リソース)停止故障を説明する。データベースサービス部911に故障が発生すると、サービス復旧部914はサービスを停止する(ステップS903〜S904参照)。しかしながら、故障したデータベースサービス部911が停止せず(サービス停止が不可能)、ハングアップした状態に陥る場合がある。これがサービス停止故障である。サービス停止故障が発生すると、サーバ910がストレージ930に接続したままの状態になる。このため、待機系のサーバ920への切替えができず、サービスが停止した状態になってしまう。
仮想マシンの提供サービスではIPMIのような物理マシンを操作するインタフェースが、卸サービスのAPIとしては提供されていないため、スプリットブレインの問題やサービス停止故障に対処できないという問題が生じる。仮にAPIが提供されるとしても、仮想マシンサービスを提供するクラウド事業者に依存することになる。
以下に、本発明を実施するための形態(実施形態)におけるサービス継続システムを説明する。図4は、本実施形態に係るサービス継続システム10の全体構成を示す図である。サービス継続システム10は、連携装置100、運用系のサーバ(運用系仮想サーバ)310および待機系のサーバ(待機系仮想サーバ)320を含んで構成される。
ストレージ330は、運用系のサーバ310に接続されているデータベースサービスのデータを記憶する装置ないしはストレージのサービスである。
運用系のサーバ310は、仮想的なCPU(制御部)で動作するデータベースサービス部311、サービス監視部312、ノード監視部313およびサービス復旧部314を備える。
データベースサービス部(運用系サービス部)311は、図1記載のデータベースサービス部911と同様である。
サービス復旧部(運用系サービス復旧部)314は、図1記載のサービス復旧部914と同様に、故障が発生した場合に、サーバの切替えを実行する。また、連携装置100からの指示により、データベースサービス部311やサーバ310のOS(Operating System、不図示)を停止する。
続いて、待機系のサーバ320の構成を説明する。サーバ320は、仮想的なCPU(制御部)で動作するデータベースサービス部(待機系サービス部)321、サービス監視部(待機系サービス監視部)322、ノード監視部(待機系ノード監視部)323およびサービス復旧部(待機系サービス復旧部)324を備え、図1記載のデータベースサービス部921、サービス監視部922、ノード監視部923およびサービス復旧部924とそれぞれ同様の構成である。但し、サービス復旧部324は、連携装置100からの指示により、データベースサービス部321を再起動する機能を有する。
上記では、データベースサービスを提供するサーバの高可用クラスタ構成を示したが、Webサーバや仮想端末サーバなど、他のサービスのサーバにおいてもデータベースサービス部311,321が入れ替わることを除いて同様の構成となる。また、サーバ310とサーバ320とは、ネットワークNETを監視して障害発生時にサービス復旧部314,324に通知するネットワーク監視部を備えてもよい。また、ストレージについても同様の機能を有するストレージ監視部を備えてもよい。
連携装置100は、サーバ310,320から故障の通知を受信し、サービスやサーバの停止または再起動を指示する。連携装置100は、物理サーバとは限らず、仮想マシンであってもよい。また、連携装置100は、サーバ310,320と同じクラウド事業者の仮想マシンであってもよいし、別のクラウド事業者にあってもよい。
サービス状態管理部110は、サーバ310,320から故障の通知を受信したり、サービスの動作状況をサーバ310,320に問い合わせたりする。さらに、動作状況に応じてAPIオーダ実行管理部120にサーバやサービスの停止または再起動を指示する。
APIオーダ実行管理部120は、サービス状態管理部110の指示を受けて、サーバ310,320にサーバやサービスの停止または再起動を指示する。
スプリットブレイン問題やサービス停止故障が発生しない場合のサービス継続システム10における切替え処理は、図2と図3とで説明した従来技術における切替え処理と同様である。以下では、スプリットブレイン問題が発生した場合の処理(後記する図5参照)およびサービス停止故障が発生した場合の切替え処理(後記する図6参照)を説明する。
図5は、本実施形態に係るサービス継続システム10のスプリットブレイン問題発生時の対応処理を示すシーケンス図である。図5を参照して、運用系のサーバ310と待機系のサーバ320との間でハートビートが送受信されるインターコネクト340(図4参照)に故障が発生して、ハートビートが停止した後の処理の流れを説明する。
ステップS102において、ノード監視部313は、故障が発生したことを連携装置100に通知する。
ステップS103において、連携装置100のサービス状態管理部110は、通知を受信し、サービスの状態をサーバ310に問い合わせる。
ステップS105において、サービス状態管理部110は、データベースサービス部311が正常稼働であれば(ステップS105→OK)ステップS107に進み、正常稼働でなければ(ステップS105→NG)ステップS106に進む。
ステップS108において、APIオーダ実行管理部120は、待機系のサーバ320にサービスの再起動を指示する。
ステップS110において、データベースサービス部321が再起動する。
ハートビートが停止していて、運用系のサービスが稼働中である場合には、サービス継続システム10は、待機系のサービスを再起動する。これにより、サービス継続システム10は、運用系と待機系との双方でサービスが二重に稼働することを防ぐことができ、延いてはストレージ330上のデータ破壊を防ぐことができる。
運用系のサービス監視部312は、連携装置100の問い合わせ(ステップS103)に対してデータベースサービス部311の状態を報告している(ステップS104)。これに対して、サービス監視部312は、ノード監視部313の故障発生の通知(ステップS102)とともに、データベースサービス部311の状態を報告するようにしてもよい。こうすることにより、サービス継続システム10は、より速やかにステップS105以下の処理を実行することができる。
図6は、本実施形態に係るサービス継続システム10のサービス停止故障発生時の対応処理を示すシーケンス図である。図6を参照して、運用系のサーバ310でサービスに故障が発生し、さらにサービス停止故障が発生(後記するステップS204参照)する場合の処理の流れを説明する。
ステップS204において、データベースサービス部311に、サービスが停止不能となるサービス停止故障が発生する。
ステップS205において、サービス監視部312は、サービス停止故障を検知する。
ステップS206において、サービス監視部312は、サービス停止故障を連携装置100に通知する。
ステップS208において、APIオーダ実行管理部120は、運用系のサーバ310にOS停止を指示する。
ステップS210において、待機系のサーバ320が切替え処理を実行する。この切替え処理は、図3記載のステップS921〜S925と同様である。
運用系でサービスに故障が発生し、さらにサービス停止故障が発生した場合には、サービス継続システム10は、運用系のサーバ310のOSを停止する。これにより、サービス継続システム10は、運用系から待機系へ切り替えることができ、サービス提供を継続することができる。
サービス停止故障が発生した場合、連携装置100は、運用系のサーバ310にOSの停止を指示する。指示後の所定時間内に停止しない場合には、連携装置100は、仮想マシンサービスのAPIを用いて(仮想化環境の管理システムに指示して)サーバ310を停止するようにしてもよい。なお、運用系のサーバ310が停止したか否かは、仮想マシンサービスのAPIを用いてサーバ310の稼働状況を監視することで判定できる。さらに、サーバ310の仮想マシンが所定時間内に停止しない場合であって、クラウド事業者がハイパーバイザの再起動のAPIを提供している場合には、このAPIを用いてサーバ310の仮想マシンが稼働しているハイパーバイザを再起動するようにしてもよい。
上記した実施形態では、クラスタを構成するサーバは1ペアであった。1つの連携装置が、複数の運用系と待機系とのペアに対応するようにしてもよい。この場合、連携装置は、ペアごとに、サーバの識別情報やネットワークアドレスなどを関連付けて、クラスタ構成情報として記憶部(不図示)に記憶する。連携装置は、運用系のサーバから故障の通知を受信した場合には、このクラスタ構成情報を参照して、通知した運用系のサーバに対応する待機系のサーバに、サービスの再起動を指示する(図5のS108参照)。
上記した実施形態では、連携装置100は1つの物理サーバまたはクラウド上の仮想マシンとしていたが、連携装置自体をクラスタ構成にして、運用系と待機系とに二重化して高可用化してもよい。この場合、連携装置であるクラスタ構成に対する連携装置を設けてもよいし、連携装置におけるスプリットブレイン問題やサービス停止故障を無視してクラスタ構成に対する連携装置を設けなくてもよい。また、連携装置と待機系を1つの仮想マシンに同居させてもよい。
サーバ310,320および連携装置100は、同一クラウド事業者が提供する仮想マシンであってもよいし、同一クラウド事業者の異なるリージョン(またはアベイラビリティゾーン)の仮想マシンであってもよいし、異なるクラウド事業者が提供する仮想マシンであってもよい。待機系のサーバと運用系のサーバとを異なるリージョン、異なるアベイラビリティゾーンまたは異なるクラウド事業者に設置することで、電源断、通信断、災害などによる運用系と待機系との同時の障害発生のリスクを削減することができる。
100 連携装置
110 サービス状態管理部(連携制御部)
120 APIオーダ実行管理部(連携制御部)
310 サーバ(運用系仮想サーバ)
311 データベースサービス部(運用系サービス部)
312 サービス監視部(運用系サービス監視部)
313 ノード監視部(運用系ノード監視部)
314 サービス復旧部(運用系サービス復旧部)
320 サーバ(待機系仮想サーバ)
321 データベースサービス部(待機系サービス部)
322 サービス監視部(待機系サービス監視部)
323 ノード監視部(待機系ノード監視部)
324 サービス復旧部(待機系サービス復旧部)
Claims (6)
- ネットワークを介してサービスを提供する運用系仮想サーバ、前記運用系仮想サーバとハートビートを相互に送信し、前記運用系仮想サーバからのハートビートが停止した場合に前記サービスを提供する待機系仮想サーバ、および前記運用系仮想サーバと前記待機系仮想サーバと通信可能に接続された連携装置から構成されるサービス継続システムであって、
前記運用系仮想サーバは、
前記サービスを提供する運用系サービス部と、
前記待機系仮想サーバからのハートビートを所定時間受信しない場合、前記連携装置にハートビート停止を通知する運用系ノード監視部と、
前記運用系サービス部が稼働中であるか非稼働であるかを前記連携装置に報告する運用系サービス監視部とを備え、
前記待機系仮想サーバは、
前記サービスを提供する待機系サービス部と、
前記連携装置からシステム再起動の指示を受信した場合、前記待機系サービス部の再起動と、前記待機系仮想サーバのオペレーティングシステムの再起動と、前記待機系サービス部の再起動および当該再起動に失敗した後の前記待機系仮想サーバのオペレーティングシステムの再起動との何れか1つを実行する待機系サービス復旧部とを備え、
前記連携装置は、
前記運用系仮想サーバから前記ハートビート停止を受信し、かつ前記稼働中であるとの報告を受信した場合、前記待機系仮想サーバに前記システム再起動を指示する連携制御部を備える
ことを特徴とするサービス継続システム。 - 前記待機系サービス復旧部が前記待機系仮想サーバのオペレーティングシステムの再起動に失敗した場合、前記連携装置が、前記待機系仮想サーバが稼働する仮想化環境の管理システムに前記待機系仮想サーバの再起動を指示する
ことを特徴とする請求項1に記載のサービス継続システム。 - 前記運用系仮想サーバは、さらに運用系サービス復旧部を備えており、
前記運用系サービス監視部は、前記運用系サービス部が、サービス停止が不可能なことを示すサービス停止故障を検知して前記連携装置に通知し、
前記連携制御部は、前記運用系仮想サーバから前記サービス停止故障を受信した場合、前記運用系仮想サーバにシステム停止を指示し、
前記運用系サービス復旧部は、前記連携装置から前記システム停止の指示を受信した場合、前記運用系仮想サーバのオペレーティングシステムの停止を実行する
ことを特徴とする請求項1に記載のサービス継続システム。 - 前記運用系サービス復旧部が前記運用系仮想サーバのオペレーティングシステムの停止に失敗した場合、前記連携装置が、前記運用系仮想サーバが稼働する仮想化環境の管理システムに前記運用系仮想サーバの停止を指示する
ことを特徴とする請求項3に記載のサービス継続システム。 - ネットワークを介してサービスを提供する運用系仮想サーバ、および、前記運用系仮想サーバとハートビートを相互に送信し、前記運用系仮想サーバからのハートビートが停止した場合に前記サービスを提供する待機系仮想サーバから構成されるサービス継続システムであって、
前記運用系仮想サーバは、
前記待機系仮想サーバからのハートビートを所定時間受信せず、前記サービスが稼働中である場合、前記待機系仮想サーバへのシステム再起動の指示と、前記待機系仮想サーバが稼働する仮想化環境の管理システムへの前記待機系仮想サーバの再起動の指示と、前記待機系仮想サーバへのシステム再起動および当該システム再起動が失敗した後の前記待機系仮想サーバが稼働する仮想化環境の管理システムへの前記待機系仮想サーバの再起動の指示との何れか1つを実行する制御部を備え、
前記待機系仮想サーバは、
前記システム再起動の指示を受信した場合、前記サービスを提供するプロセスの再起動と、前記待機系仮想サーバのオペレーティングシステムの再起動と、前記サービスを提供するプロセスの再起動および当該再起動に失敗した後の前記待機系仮想サーバのオペレーティングシステムの再起動との何れか1つを実行する制御部を備える
ことを特徴とするサービス継続システム。 - ネットワークを介してサービスを提供する運用系仮想サーバ、前記運用系仮想サーバとハートビートを相互に送信し、前記運用系仮想サーバからのハートビートが停止した場合に前記サービスを提供する待機系仮想サーバ、および前記運用系仮想サーバと前記待機系仮想サーバと通信可能に接続された連携装置から構成されるサービス継続システムのサービス継続方法であって、
前記運用系仮想サーバは、
前記サービスを提供するステップと、
前記待機系仮想サーバからのハートビートを所定時間受信しない場合、前記連携装置にハートビート停止を通知するステップと、
前記サービスが稼働中であるか非稼働であるかを前記連携装置に報告するステップとを実行し、
前記待機系仮想サーバは、
前記連携装置からシステム再起動の指示を受信した場合、前記待機系仮想サーバのサービスの再起動と、前記待機系仮想サーバのオペレーティングシステムの再起動と、前記待機系仮想サーバのサービスの再起動および当該再起動に失敗した後の前記待機系仮想サーバのオペレーティングシステムの再起動との何れか1つを実行するステップを実行し、
前記連携装置は、
前記運用系仮想サーバから前記ハートビート停止を受信し、かつ前記稼働中であるとの報告を受信した場合、前記待機系仮想サーバに前記システム再起動を指示するステップを実行する
ことを特徴とするサービス継続方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090437A JP6856574B2 (ja) | 2018-05-09 | 2018-05-09 | サービス継続システムおよびサービス継続方法 |
US17/053,628 US11954509B2 (en) | 2018-05-09 | 2019-04-23 | Service continuation system and service continuation method between active and standby virtual servers |
PCT/JP2019/017292 WO2019216210A1 (ja) | 2018-05-09 | 2019-04-23 | サービス継続システムおよびサービス継続方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090437A JP6856574B2 (ja) | 2018-05-09 | 2018-05-09 | サービス継続システムおよびサービス継続方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019197352A JP2019197352A (ja) | 2019-11-14 |
JP6856574B2 true JP6856574B2 (ja) | 2021-04-07 |
Family
ID=68468039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018090437A Active JP6856574B2 (ja) | 2018-05-09 | 2018-05-09 | サービス継続システムおよびサービス継続方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11954509B2 (ja) |
JP (1) | JP6856574B2 (ja) |
WO (1) | WO2019216210A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113867815B (zh) * | 2021-09-17 | 2023-08-11 | 杭州当虹科技股份有限公司 | 服务器挂起监测和自动重启方法以及应用其的服务器 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000324121A (ja) * | 1999-05-11 | 2000-11-24 | Kyushu Nippon Denki Tsushin System Kk | ネットワーク管理システムにおける系切り替え装置および方法 |
GB2353113B (en) * | 1999-08-11 | 2001-10-10 | Sun Microsystems Inc | Software fault tolerant computer system |
JP2004171370A (ja) * | 2002-11-21 | 2004-06-17 | Nec Corp | 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法 |
JP4599435B2 (ja) * | 2008-07-17 | 2010-12-15 | 株式会社東芝 | クラスタシステムを構成する計算機及びプログラム |
US8201169B2 (en) * | 2009-06-15 | 2012-06-12 | Vmware, Inc. | Virtual machine fault tolerance |
US10228959B1 (en) * | 2011-06-02 | 2019-03-12 | Google Llc | Virtual network for virtual machine communication and migration |
JP5707355B2 (ja) * | 2012-03-13 | 2015-04-30 | 株式会社東芝 | ホットスタンバイ方式によるクライアントサーバシステム |
JP5855724B1 (ja) * | 2014-09-16 | 2016-02-09 | 日本電信電話株式会社 | 仮想機器管理装置、仮想機器管理方法及び仮想機器管理プログラム |
US11025483B1 (en) * | 2016-09-27 | 2021-06-01 | Amazon Technologies, Inc. | Fault tolerant virtual private network endpoint node |
-
2018
- 2018-05-09 JP JP2018090437A patent/JP6856574B2/ja active Active
-
2019
- 2019-04-23 US US17/053,628 patent/US11954509B2/en active Active
- 2019-04-23 WO PCT/JP2019/017292 patent/WO2019216210A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20210247996A1 (en) | 2021-08-12 |
JP2019197352A (ja) | 2019-11-14 |
US11954509B2 (en) | 2024-04-09 |
WO2019216210A1 (ja) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8615578B2 (en) | Using a standby data storage system to detect the health of a cluster of data storage servers | |
CA2339783C (en) | Fault tolerant computer system | |
US7076691B1 (en) | Robust indication processing failure mode handling | |
EP3210367B1 (en) | System and method for disaster recovery of cloud applications | |
US7146532B2 (en) | Persistent session and data in transparently distributed objects | |
US7093013B1 (en) | High availability system for network elements | |
CN111327467A (zh) | 一种服务器***及其容灾备份方法和相关设备 | |
JP2005209191A (ja) | 高可用性システムの遠隔エンタープライズ管理 | |
JP2003022258A (ja) | サーバーのバックアップシステム | |
CN112181660A (zh) | 一种基于服务器集群的高可用方法 | |
CA2616229A1 (en) | Redundant systems management frameworks for network environments | |
CN110109772B (zh) | 一种cpu的重启方法、通信设备及可读存储介质 | |
CN101442437B (zh) | 一种实现高可用性的方法、***及设备 | |
JP5285045B2 (ja) | 仮想環境における故障復旧方法及びサーバ及びプログラム | |
JP2005301436A (ja) | クラスタシステムおよびクラスタシステムにおける障害回復方法 | |
JP6856574B2 (ja) | サービス継続システムおよびサービス継続方法 | |
CN113438111A (zh) | 基于Raft分布式恢复RabbitMQ网络分区的方法及应用 | |
JP2001022709A (ja) | クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
JP2015114952A (ja) | ネットワークシステム、監視制御装置およびソフトウェア検証方法 | |
US20240028611A1 (en) | Granular Replica Healing for Distributed Databases | |
CN112948177A (zh) | 一种容灾备份方法、装置、电子设备及存储介质 | |
CN116668269A (zh) | 一种用于双活数据中心的仲裁方法、装置及*** | |
JP5691248B2 (ja) | タスク引継プログラム、処理装置及びコンピュータ・システム | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
JP2005339525A (ja) | クラスタ制御方法、クラスタ制御プログラム、クラスタシステムおよび待機サーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6856574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |