JP3640349B2 - クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法 - Google Patents

クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法 Download PDF

Info

Publication number
JP3640349B2
JP3640349B2 JP2001208998A JP2001208998A JP3640349B2 JP 3640349 B2 JP3640349 B2 JP 3640349B2 JP 2001208998 A JP2001208998 A JP 2001208998A JP 2001208998 A JP2001208998 A JP 2001208998A JP 3640349 B2 JP3640349 B2 JP 3640349B2
Authority
JP
Japan
Prior art keywords
server
management data
server machine
failure
clustering system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001208998A
Other languages
English (en)
Other versions
JP2003044310A (ja
Inventor
恒宏 梶田
明宏 小倉
光宏 西田
篤也 竹内
伸宜 田中
浩 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001208998A priority Critical patent/JP3640349B2/ja
Publication of JP2003044310A publication Critical patent/JP2003044310A/ja
Application granted granted Critical
Publication of JP3640349B2 publication Critical patent/JP3640349B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Power Sources (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数のサーバマシンが切替スイッチに接続されて協調的に動作されることにより、1台のサーバマシンが故障してもクライアントへのサービスを継続できるクラスタリング・システムに関する。
【0002】
【従来の技術】
従来から、複数のサーバマシンが通信線で切替スイッチに接続されて協調的に動作されることにより、1台のサーバマシンが故障してもクライアントへのサービスを継続できるクラスタリング・システムが知られている。このクラスタリング・システムでは、クライアントからは、複数のサーバマシンがあたかも1台のサーバであるように見える。また、クラスタリングの機能は、UNIX(登録商標)やウインドウズNT(登録商標)等のようなOSによりサポートされている。
【0003】
また、クラスタリング・システムは、例えば、クライアントの増加によるサーバマシンの増設やメンテナンス時にもシステムの機能を停止させることなく、サービスの提供が可能となるため、フォールト・トレラント・システムの一種と考えられる。
【0004】
フォールト・トレラント・システムは、一般的には、各種構成要素を2重化する等の冗長性を持たせて、通常はデータのバックアップ等を除いては片方の構成要素のみを用いて他方の構成要素は休ませておき、片方の構成に障害が発生した時には、すぐに他方の構成要素を用いるように切り替えることにより、障害発生時に自動的にデータ復旧して処理を継続できるようにしている。
【0005】
一般的にクラスタリング・システムは、2台以上のサーバマシンが通信線で切替スイッチに接続されて、複数のクライアントが要求するサービスを個別のサーバマシンが実施しつつ、各サーバマシンで必要となるジャーナルデータ等のフェイルオーバー用(データ復旧用)の管理データについては、サービスの合間に、各サーバマシン毎に割り振られる予備サーバマシンに各サーバマシンから転送している。
【0006】
図5は、従来のクラスタリング・システムの構成を示すブロック図である。
【0007】
図5のクラスタリング・システム100は、複数のサーバマシン(第1サーバ101、第2サーバ102、第3サーバ103、・・・、第nサーバ104)と、クライアントからのサービス要求、各サーバマシン間の多種の指示や要求、あるいは、各サーバマシンにおける処理結果の履歴を示すジャーナルデータ等のフェイルオーバー用の管理データの送受信先を切り替える管理データ用切替スイッチ105と、各サーバマシンで処理される例えば音声データや画像データ等の一般的に大容量であるメインデータの送受信先を切り替えるメインデータ用切替スイッチ106と、メインデータを多重化して保存するメインデータ記憶部107と、上記した各部に商用電源から得た電力を供給する電源部108と、各サーバマシンと管理データ用切替スイッチ105とを接続する、例えばイーサバスである通信線110と、各サーバマシンとメインデータ用切替スイッチ106とを大容量かつ高速に接続する、例えば、光ファイババスである高速通信線120と、電源部108から各部へ電力を供給する電源ライン130により構成される。
【0008】
各サーバマシンと管理データ用切替スイッチ105との間で扱われるデータの種類としては、例えば、システムダウン時のフェイルオーバー用の管理データ(ジャーナル情報等)のみでなく、負荷分散用のデータも扱われる。従って、そのデータ量は、画像データや音声データを扱うメインデータほどではないが多く、例えば、システムが大規模になるほど高速な通信速度が要求される。この各サーバマシンと管理データ用切替スイッチ105との間では、一般的にイーサバスによる接続が用いられている。
【0009】
一方、各サーバマシンとメインデータ用切替スイッチ106との間で扱われるデータの種類としては、例えば、音声データや画像データである。従って、そのデータ量は、管理データ等に比較して圧倒的に大容量であるので、通信線110で使用される通常のイーサバス等による接続より高速な光ファイババス等による接続となる。
【0010】
また、各サーバマシンの中には、各サーバ内部の管理データをイーサバスによる通信に適したデータ形態に変換あるいは調整したり、逆にイーサバスの通信データを各サーバ内部の管理データとして適したデータ形態に変換あるいは調整する管理データ用インターフェース部150〜153と、各サーバマシン毎に要求される処理内容あるいは処理結果を示すジャーナルデータ等の管理データを保存する管理データ記憶部160〜163を各々が有しており、さらに、各管理データ用インターフェース部150〜153と各管理データ記憶部160〜163との間は、各サーバマシンの内部バス140〜143により接続されている。
【0011】
また、電源ライン130のうちで、特に第1サーバ101に電力を供給する電源ラインを130aとし、第2サーバ102に電力を供給する電源ラインを130bとし、第3サーバ103に電力を供給する電源ラインを130cとし、第nサーバ104に電力を供給する電源ラインを130dとする。
【0012】
次に、図5に示したクラスタリング・システム100の通常動作時における管理データをバックアップする(二重化保存する)動作について説明する。
【0013】
図6は、従来のクラスタリング・システム100における管理データの二重化保存動作のフローチャートである。
【0014】
ここでは、例えば、第1サーバ101でクライアントからの要求により処理が実施される場合とする。
【0015】
まず、第1サーバ101では、クライアントからの処理の要求が発生しているか否かを確認しており(S1)、処理要求がない場合(S1:NO)には、ステップS1の確認が繰り返されることにより常時クライアントからの要求が監視される。処理要求がある場合(S1:YES)には、第1サーバ101では、要求内容が管理データ(例えばジャーナルデータ)の保存であるか否かを確認する(S2)。管理データの保存ではない場合(S2:NO)には、その要求内容に従って通常処理が実施される(S5)。管理データの保存である場合(S2:YES)には、第1サーバ101で、管理データを保存するための割り込み処理が実施される(S3)。
【0016】
このステップS3の管理データを保存するための割り込み処理は、第1サーバ101の図示しないCPUにおける処理を基本に考えた場合、例えば、第1サーバ101で現在実行中の処理(ジョブ)が終わったら、次のジョブの開始を一時的に保留しておき、メインデータ記憶部107中でジョブ結果として格納されたメインデータのアドレス位置等についての管理データを生成し、メインメモリ等の一部に設けられた管理データ記憶部160に格納する。
【0017】
また、従来の割り込み処理では、管理データが二重化されて格納(保存)されることから、管理データ記憶部160に保存されたジャーナルデータ等の管理データは、管理用インターフェース部150から第2サーバ102内の管理用インターフェース部151に向けて送出(転送T1)される。
【0018】
そのため、図6(b)に示す別サーバへの転送プロセスにおいて、まず第1サーバ101から第2サーバ102に管理データ転送要求が送られる(S6)。次に、転送先の第2サーバ102がビジーであるか否かの確認が実施され(S7)、第2サーバ102がビジーであれば(S7:YES)、管理データを転送できないので、第1サーバ101は第2サーバ102がビジーでなくなるまで待機する。第2サーバ102がビジーでなくなる(S7:NO)と、第1サーバ101の管理データ記憶部160に保存されている管理データが第2サーバ102に転送される(S8)。その後、管理データが第2サーバ内の管理データ記憶部161に保存されたという結果が確認されてから、次の処理(ジョブ)が再スタートされる。
【0019】
次いで、ステップS3の割り込み処理が終了したか否かが確認され(S4)、終了した場合(S4:YES)には、ステップS1に戻り、終了していない場合(S4:NO)には、ステップS3に戻って割り込み処理が継続される。
【0020】
通常動作時中には、例えば、第1サーバ101における1個のジョブが終了する度に管理データの保存要求が発生して、アップデートされた管理データの内容が管理データ記憶部160に保存されると共に、管理データの保存の二重化のため、第2サーバ102へも転送される。すなわち、第1サーバ101における処理中には、頻繁に上記の割り込み処理が発生して、第1サーバ101から第2サーバ102への管理データの転送T1が実行されることになる。
【0021】
以上のように通常処理が実施されている途中で、例えば、第1サーバ101への電源ライン130aに障害が発生した場合について以下に説明する。これは、実際には、サーバマシンにおける障害は様々な箇所で発生する可能性があるが、電源ラインを障害発生箇所とした場合が最も理解しやすく且つ説明しやすいと考えられるため、便宜上から電源ラインを障害発生箇所とした。
【0022】
図7は、従来のクラスタリング・システム100における障害検出時の動作のフローチャートである。
【0023】
まず、例えば、クラスタリング・システム100中の障害が発生した第1サーバ101から管理データを受信していた第2サーバ102が、処理実行中の第1サーバ101に障害が発生したか否かを確認する(S11)。
【0024】
このステップS11で障害が発生したことの確認は、例えば、電源ライン130aに障害が発生した場合(S11:YES)には、第1サーバ101への電源電力供給が無くなるので、第2サーバ102では、第1サーバ101から頻繁に転送(T1)されてくる管理データが正常な終了手続を経ずに突然に受信しなくなることになる。従って、第2サーバ102は、突然に受信データが無くなったか否かを確認することで、第1サーバ101に障害が発生したか否かを確認することができる。また、第2サーバ102では、障害が発生しない場合(S11:NO)には、再度、ステップS11を繰り返すことにより、障害の発生を常時監視することができる。
【0025】
第1サーバ101における障害の発生を検出した第2サーバ102は、管理データ用切替スイッチ105に対して、管理データが出力される供給元が、例えば、第1サーバ101から第2サーバ102になるように切り替え、管理データの送信先となる受信側が、例えば、第2サーバ102から第3サーバ103になるように切り替えさせる(S12)。すなわち、当初の設定ではバックアップの管理データを保存するだけの予備側サーバマシンであった第2サーバ102が、障害発生時には管理データの供給元である主処理側サーバマシンになることから、管理データ用切替スイッチ105における第2サーバ102との接続部が管理データの出力側になるように切り替えられると共に、管理データの受信側として新たに第3サーバ103(予備側サーバマシン)が接続できるように新たな接続部が設定される。
【0026】
また、第1サーバ101に障害が発生したことを検出した第2サーバ102は、メインデータ用切替スイッチ106も切り替えて、メインデータ記憶部107とクライアント間のメインデータの送受信が第2サーバ102を経由するように設定させる(S12)。
【0027】
第2サーバ102は、障害発生時には、保存されていた管理データの内容を確認し(S13)、最も最近保存された内容(最終保存内容)の次のジョブから処理を開始することにより、第1サーバ101が途中まで実施した処理について第2サーバ102で継続して処理を実施する(S14)。
【0028】
従来のクラスタリング・システムでは、上記の構成および方法を用いることにより、一つのサーバマシンに障害が発生した場合であっても、クライアントから要求された処理を他のサーバマシンにより継続して実施できるようにしたので、要求された処理を自動的にデータ復旧することができた。
【0029】
【発明が解決しようとする課題】
しかしながら、上記したように、第1サーバ101から第2サーバ102への管理データの転送T1は、例えば、1つのジョブが終了する度等に頻繁に実施されるため、第1サーバ101におけるCPUの処理効率を悪化させていた。さらに、イーサバス等である通信線110の通信速度は第1サーバ101内の内部バス140等に比べて遅いことから、第1サーバ101全体としての処理効率も低下させていた。
【0030】
また、通信線110は、上記したジャーナルデータ等のフェイルオーバー用の管理データの他に、例えば、負荷分散等にも使用されるため、頻繁に通信線110を用いて第1サーバ101の管理データが第2サーバ102へ転送T1されることは、クラスタリング・システム100全体としての処理効率も低下させていた。
【0031】
本発明は、上述した如き従来の問題を解決するためになされたものであって、通常動作時に、各サーバマシン間のフェイルオーバー用管理データのサーバ間転送を無くすことにより、処理効率が改善されたクラスタリング・システムを提供することを目的とする。
【0032】
【課題を解決するための手段】
上述の目的を達成するため、請求項1に記載した本発明のクラスタリング・システムは、複数のサーバマシンが通信線で切替スイッチに接続されて協調的に動作されることにより、1台のサーバマシンが故障してもクライアントへのサービスを継続できるクラスタリング・システムであって、各サーバマシンは、該サーバマシンにおいて実施される処理の管理データを保存する管理データ記憶部と、該サーバマシンに障害が発生した場合に、少なくとも管理データ記憶部、および、該サーバマシンと通信線とを電気的および機械的に接続するインターフェース部に対して電源電力を供給する電池を備え、該サーバマシンは、通常動作時には、前記管理データの他のサーバマシンへの転送を実施せず、各サーバマシン中の第1のサーバマシンに障害が発生した場合には、第1のサーバマシン中の電池により電源電力供給を受けたインターフェース部が、管理データ記憶部から読み出した管理データを第2のサーバマシンに転送し、第2のサーバマシンが受信した管理データに基づいてクライアントへのサービスを継続することを特徴とする。
【0033】
また、請求項2の本発明は、請求項1に記載のクラスタリング・システムにおいて、各サーバマシンのインターフェース部には、通常動作時中に発生する障害を検出して電源を電池に切り替えた後、第2のサーバマシンへの管理データの転送処理を制御する障害時動作制御回路を備えることを特徴とする。
【0034】
また、請求項3の本発明は、請求項1に記載のクラスタリング・システムにおいて、各サーバマシンのインターフェース部には、通常動作時のクロック信号の周波数よりも低い周波数のクロック信号を発生させる低周波数クロック発生回路と、第1のサーバマシンに障害が発生した場合に、インターフェース部で利用するクロック信号を、通常動作時に利用される比較的高い周波数のクロック信号から低周波数のクロック信号に切り替えるクロック切替回路を備えることを特徴とする。
【0035】
また、請求項4の本発明は、請求項1〜3の何れかに記載のクラスタリング・システムにおいて、各サーバマシンのインターフェース部は、標準化された所定スロットにて接続可能なボード形式あるいはカード形式であって、電池および管理データ記憶部を内蔵して一体化されることを特徴とする。
【0036】
また、請求項5に記載した本発明のクラスタリング・システムにおける障害発生時のデータ復旧方法は、複数のサーバマシンが通信線で切替スイッチに接続されて協調的に動作されることにより、1台のサーバマシンが故障してもクライアントへのサービスを継続できるクラスタリング・システムにおける障害発生時のデータ復旧方法であって、クライアントの要求するサービスを制御する第1のサーバマシンは、通常動作時には、該第1のサーバマシンの内部に管理データを保存し、前記管理データの他のサーバマシンへの転送を実施せず、該第1のサーバマシンに障害が発生したことを検出した場合には、第1のサーバマシンは、該第1のサーバマシン内部の少なくとも前記管理データを保存する記憶部および前記通信線と接続するためのインターフェース部に供給される電源を、内蔵された電池に切り替え、第1のサーバマシンは、インターフェース部から管理データを第2のサーバマシンに転送し、第2のサーバマシンは、受信した管理データを用いて前記クライアントの要求するサービスを継続することを特徴とする。
【0037】
また、請求項6の本発明は、請求項5に記載のクラスタリング・システムにおける障害発生時のデータ復旧方法において、第1のサーバマシンは、障害が発生したことを検出した場合には、電源を、内蔵する電池に切り替えた後に、クロック信号を低周波数のものに切り替えて、障害発生時における管理データを第2のサーバマシンへ転送する処理を通常動作時よりも低速で実施することを特徴とする。
【0038】
【発明の実施の形態】
以下、本発明を図示した実施形態に基づいて説明する。
【0039】
図1は、本発明の第1の実施形態のクラスタリング・システムの構成を示すブロック図である。
【0040】
なお、図1中で、図5に示した従来のクラスタリング・システムと同様な機能を有する部分には、同じ符号を付与して重複する説明を省略する。
【0041】
図1のクラスタリング・システム1は、複数のサーバマシンを有している点では従来と同様であるが、各サーバマシンが第1サーバ11、第2サーバ12、第3サーバ13、・・・、第nサーバ14となって従来のものとは内部構成が異なっている。その他の構成である管理データ用切替スイッチ105、メインデータ用切替スイッチ106、メインデータ記憶部107、電源部108、通信線110、高速通信線120、および、電源ライン130については、図5に示した従来の構成と同様である。
【0042】
本実施形態の各サーバマシンでは、各サーバ内部の管理データ用インターフェース部50〜53が、従来と同様に管理データをイーサバスによる通信に適したデータ形態に変換あるいは調整したり、逆にイーサバスの通信データを各サーバ内部の管理データとして適したデータ形態に変換あるいは調整する機能を有しているだけでなく、各サーバマシン毎に要求される処理内容あるいは処理結果を示すジャーナルデータ等の管理データを保存する管理データ記憶部60〜63さらに、それらの管理データ記憶部60〜63への電源電力供給に障害が発生した場合に電源電力を供給する電池70〜73をその内部に有している。
【0043】
電池70〜73は、管理データ記憶部60〜63のメモリーバックアップ用に必要となる電力容量に加えて、管理データ記憶部60〜63の記憶内容を他のサーバマシンに転送するために必要となる電力容量も有している。
【0044】
また、従来の管理データ記憶部160〜163は、一般的には、各サーバマシンで主作業領域となるメインメモリ内の一部が用いられる場合が多いため、図5に示したように管理データ用インターフェース部150〜153とは別構成となり、各サーバマシンの内部バス140により接続されている。しかし、本実施形態では、管理データ記憶部60〜63は、管理データ用インターフェース部50〜53の内部に配置されている。また、管理データ記憶部60〜63としては、例えば、揮発性メモリである64Mbit(1Mword×16bit×4bank)SDRAMを4個(合計32Mバイト)使用する。
【0045】
図2は、図1中の第1サーバ11の内部構成を示す図である。
【0046】
なお、以下には第1サーバ11の内部構成のみを説明し、図1中の第2サーバ12〜第nサーバ14については第1サーバ11と同様な内部構成であるので説明を省略する。
【0047】
図2の第1サーバ11中には、管理データ用インターフェース部50の他に、クライアントの希望するメインデータに関する処理を実行するサーバ用主制御部150、および、図1のメインデータ記憶部107にメインデータを格納したり読み出したりするためのメインデータ用インターフェース部160を有している。本サーバとクライアントとの入出力部、あるいは、サーバとしての他の構成については、本発明の主要な構成との関係が少なく、従来の構成との相違が少ないため、記載を省略している。また、上記各部には、電源部108から電源ライン130を介して電源電力が供給されている。
【0048】
管理データ用インターフェース部50中には、前記した管理データ記憶部60および電池70の他に、通信線110を介した管理データ用切替スイッチ105との通信を制御する通信制御回路64と、サーバ用主制御部150との信号送受信により第1サーバ11に発生した障害を検出して、障害が検出された場合に管理データ記憶部60内に保存されたデータを別サーバに転送する制御を実施する障害時動作制御回路65と、その障害時動作制御回路65の制御により通常動作時と障害時で使用するクロック信号を切り替えるクロック切替回路66と、通信線110を第1サーバ11に接続するためのコネクタ等からなる通信線用接続部67と、障害時用の比較的低周波数のクロック信号を供給する低周波数クロック発生回路68と、管理データ用インターフェース部50を内部バス140に接続するためのコネクタ等からなるサーバ内部用接続部74と、障害時動作制御回路65の制御により通常動作時と障害時で電源部108から供給される外部電源電力と電池70から供給される内部電源電力とを切り替える電源切替回路75と、通常動作時用の比較的高周波数のクロック信号を供給する高周波数クロック発生回路78とを有している。
【0049】
また、障害時に電池70から電源電力が供給される障害時電池動作範囲56には、管理データ記憶部60、通信制御回路64、障害時動作制御回路65、クロック切替回路66、通信線用接続部67、および、低周波数クロック発生回路68が含まれている。
【0050】
上記した管理データ用インターフェース部50は、一般的にイーサネット(登録商標)等の標準化されたバス形式に対応するように設計されることから、その構成もイーサネット(登録商標)のインターフェース回路を内蔵するボード形式あるいはカード形式であって、そのボード形式あるいはカード形式のインターフェースを接続可能な所定スロットに挿入されることにより、電気的接続および機械的接続が行われる。そのため、電池70および管理データ記憶部60は、そのボード形式あるいはカード形式のインターフェース上に配置されて、すなわち、インターフェースに内蔵され、一体化される。
【0051】
通常動作時用にクロック信号を供給する高周波数クロック発生回路78による動作周波数と、障害時用にクロック信号を供給する低周波数クロック発生回路68による動作周波数とでは、10倍程度の差があるものとする。すなわち、高周波数クロック発生回路78から低周波数クロック発生回路68に切り替わることで、動作周波数は1/10になる。具体的に通信速度を例にすると、通常動作時の全2重通信で1Gbpsの通信速度から100Mbpsの通信速度となる。
【0052】
電池70の容量としては、通常動作時の通信方式では、消費電力が10W程度必要になることから3000mAh程度が必要となる。これは、一般的な乾電池(ニッケル水素電池)に換算すると、市販されている最も大きい寸法である単1サイズの乾電池が3個分となる。この寸法の電池をボードあるいはカードに実装することは非現実的である。ところが、上記した本実施形態の低周波数を用いる方法では、消費電力を600mW程度に抑制することができるので、消費電力も200mAh程度となる。これは、乾電池(ニッケル水素電池)に換算すると、市販されている最も小さい寸法(乾電池中:ボタン電池を除く)である単5サイズの乾電池が1個分となる。
【0053】
本実施形態では、上記のように小さい寸法の電池を用いることができることから、例えば、インターフェースをPCIアダプタカード等のカード形式にして、その中にバッテリーを内蔵させることができる。
【0054】
上記のボード形式あるいはカード形式のインターフェースを利用することにより、従来のクラスタリング・システムを本実施形態のシステムに変更する場合には、インターフェースカードを変更するだけで良いので、新たなクラスタリング・システムを購入する必要がなくなり、わずかな設置コストで、且つ、わずかな変更工数で、従来のクラスタリング・システムを本実施形態のクラスタリング・システムに変更することができる。
【0055】
次に、図1および図2に示したクラスタリング・システム1の通常動作時における管理データを保存する動作について説明する。なお、本実施形態では、通常動作時には、電池によりバックアップされた管理データ記憶部に管理データが保存されるのみであり、従来のように、通常動作時において管理データを他のサーバマシンにも保存するという管理データの二重化保存処理については実施されない。
【0056】
図3は、本実施形態のクラスタリング・システム1における管理データの保存動作のフローチャートである。
【0057】
ここでは、例えば、第1サーバ11でクライアントからの要求により処理が実施される場合とする。
【0058】
まず、第1サーバ11では、クライアントからの処理の要求が発生しているか否かを確認しており(S21)、処理要求がない場合(S21:NO)には、ステップS21の確認が繰り返されることにより常時クライアントからの要求が監視される。
【0059】
処理要求がある場合(S21:YES)には、第1サーバ11では、要求内容が管理データ(例えばジャーナルデータ)の保存であるか否かを確認する(S22)。管理データの保存ではない場合(S22:NO)には、その要求内容に従って通常処理が実施される(S25)。管理データの保存である場合(S22:YES)には、第1サーバ11で、管理データを保存するための割り込み処理が実施される(S23)。
【0060】
このステップS23の管理データを保存するための割り込み処理は、例えば、第1サーバ11のサーバ用主制御部150で現在実行中の処理(ジョブ)が終了したら、次のジョブの開始を一時的に保留しておき、メインデータ記憶部107中でジョブ結果として格納されたメインデータのアドレス位置等についての管理データを生成し、管理データ用インターフェース部50内に設けられた管理データ記憶部60に格納する。本実施形態では、通常動作時は、このようにメインデータについての処理を実施するサーバマシン内部の処理のみで、他のサーバマシンへの管理データを二重化するための転送は実施されない。従って、次の処理(ジョブ)が再スタートするタイミングが早くなる。
【0061】
次いで、ステップS23の割り込み処理が終了したか否かが確認され(S24)、終了した場合(S24:YES)には、ステップS21に戻り、終了していない場合(S24:NO)には、ステップS23に戻って割り込み処理が継続される。
【0062】
通常動作時中には、例えば、第1サーバ11における1個のジョブが終了する度に管理データの保存要求が発生して、アップデートされた管理データの内容が管理データ記憶部60に保存される。これは、通信線110等に比べて比較的高速な内部バス140等のみによる処理であるので、ジョブを実行する間の保留時間、すなわち、割り込み処理が実施される時間が従来のものよりも減少する。
【0063】
以上のように通常処理が実施されている途中で、例えば、第1サーバ11への電源ライン130aに障害が発生した場合について以下に説明する。
【0064】
図4は、本実施形態のクラスタリング・システム1における障害検出時の動作のフローチャートである。
【0065】
まず、例えば、クラスタリング・システム1中の障害が発生した第1サーバ11では、障害時動作制御回路65がサーバ用主制御部150等を常時監視しており、この障害時動作制御回路65が、処理実行中の第1サーバ11に障害が発生したか否かを確認する(S31)。
【0066】
このステップS31における障害が発生したことの確認は、例えば、電源ライン130aに障害が発生した場合(S31:YES)には、第1サーバ11への電源電力の供給が無くなるので、障害時動作制御回路65では、電圧レベルの異常低下を検知する。従って、障害動作検出回路65は、通常動作時とは異なる突然な電圧レベルの異常を確認することで、第1サーバ11に障害が発生したか否かを確認することができる。また、障害時操作制御回路65では、障害が発生しない場合(S31:NO)には、再度、ステップS31を繰り返すことにより、障害の発生を常時監視することができる。
【0067】
第1サーバ11における障害の発生を検出した障害時動作制御回路65は、電源切替回路75に対して、通常動作時の電源部108から供給される電源電力から、障害発生時の電池70から供給される電源電力に切り替えるよう制御を実施する(S32)。また、障害時動作制御回路65は、障害発生時の誤動作等を避けるために、サーバ内部用接続部74あるいはその先のサーバ用主制御部150等の内部回路を回路的に切り離して、サーバ内部からの信号が受信できないようにする(S33)。
【0068】
さらに、障害時動作制御回路65は、クロック切替回路66を通常動作時の高周波数クロック発生回路78から障害発生時の低周波数クロック発生回路68側に切り替えるように制御を実施する。
【0069】
以上の制御により、管理データ用インターフェース部50内の少なくとも障害時電池動作範囲56の内部になる各部は、障害発生時に電池70による電源電力の供給を受けて、通常動作時よりも低周波数のクロック信号で動作する。このため、電池70は、高速動作に必要となる高電力が必要ではなくなるので、電池容量を小さくすることができる。
【0070】
電池容量を小さくできることで、インターフェースカードに実装される電池の外形寸法を小さくすることができることから、所定寸法以内に設計する必要があるインターフェースカードの設計を容易にすることができる。
【0071】
その後、障害時動作制御回路65は、低周波数のクロック信号による動作環境下で、通信制御回路64を制御して管理データ記憶部60に保存された管理データを読み出して、通信線110および管理データ用切替スイッチ105を介して第2サーバ12に転送T2を実施する(S35)。
【0072】
また、その際に、通信制御回路64は、低周波数のクロック信号に基づく通信速度で第2サーバ12との間の同期を確立し、管理データ記憶部60から保存された管理データをシングルバンクでバースト転送させてから、第2サーバ12に転送する。
【0073】
この低周波数のクロック信号に基づく通信速度に切り替えることでは、通常動作時の転送時間と比較して、転送時間が8倍程度に増加し、例えば、32Mバイトの転送に3秒程度が必要になる。しかし、一般的なクラスタリング・システムによるフェイルオーバー処理には、最低でも1分程度は必要であることから、本実施形態における通信速度の低下は、フェイルオーバー処理全体の遅延の中では割合が小さいため問題になるとは考えられない。
【0074】
転送T2された管理データを受信した第2サーバ12は、管理データ用切替スイッチ105に対して、障害発生時の管理データの出力元が、第1サーバ11から第2サーバ12になるように切り替え、障害発生時の管理データの送信先を、第2サーバ12から第3サーバ13に切り替えさせる(S36)。すなわち、当初の設定では障害発生時に管理データを受信してクライアントの要求する処理を継続する予備側サーバマシンであった第2サーバ12が、障害発生時には管理データを内部に保存する主処理側サーバマシンになることから、管理データ用切替スイッチ105における第2サーバ12との接続部が、障害発生時における管理データの出力側になるように切り替えられると共に、第2サーバ12に障害が発生した場合の管理データの受信側として新たに第3サーバ13(新たな予備側サーバマシン)が接続されるように、第3サーバ13との接続部が設定される。
【0075】
また、管理データを受信した第2サーバ12は、メインデータ用切替スイッチ106も切り替えて、メインデータ記憶部107とクライアント間のメインデータの送受信が第2サーバ12を経由するように設定する(S36)。
【0076】
第2サーバ12は、第1サーバ11に障害が発生したことから、第1サーバ11の管理データを受信した場合、受信した管理データの内容を確認し(S37)、最後に受信した内容(最終受信内容)の次のジョブから処理を開始することにより、第1サーバ11が途中まで実施した処理について第2サーバ12で継続して処理を実施できることになる(S38)。
【0077】
本実施形態のクラスタリング・システム1では、上記の構成および方法を用いることにより、一つのサーバマシンに障害が発生した場合であっても、クライアントから要求された処理を他のサーバマシンにより継続して実施できるようにしたので、要求された処理を自動的にデータ復旧することができる。
【0078】
このように、本実施形態の第1サーバ11では、第2サーバ12への管理データの転送T2は、通常動作時には実施されず、第1サーバ11に障害が発生した場合のみである。従って、通常動作時には、第1サーバ11では、別サーバへ管理データを転送することによる処理の遅延が発生しないため、CPUの処理効率の悪化が少なくなる。
【0079】
また、本実施形態の第1サーバ11では、管理データは電池によりバックアップされ、第1サーバ11内部の管理データ記憶部60に格納されるため、イーサバス等である通信線110の通信速度が第1サーバ11内の内部バス140等に比べて遅いことから低下するサーバの処理効率も改善できる。
【0080】
また、通信線110は、障害発生時以外は上記したジャーナルデータ等のフェイルオーバー用の管理データが送受信されなくなるので、例えば、負荷分散等に通信線110が使用される場合のクライアント・システムの処理効率を改善することができる。
【0081】
なお、上記した実施形態では、第1サーバ11に障害が発生した場合に、第2サーバ12に管理データを転送する実施形態について記載しているが、本発明はこれに限られるものではなく、例えば、n個のサーバ中の任意のサーバに障害が発生した場合に、残りのサーバ中から任意のサーバを指定して管理データを転送する場合に適用することができる。
【0082】
また、上記した実施形態では、管理データ用インターフェース部を、標準化されたイーサネット(登録商標)で、インターフェースカード形式としたので、クラスタリング・システム全体を変更する必要がなくし、設置コストおよび変更工数をわずかにしたが、本発明は、これに限られるものではなく、例えば、他の標準化されたバス形式あるいはインターフェースカード形式を適用しても実施することができ、インターフェースカードの設計を容易にすることができる。
【0083】
なお、上記した実施形態では、各サーバマシンと管理データ用切替スイッチ105との間ではイーサバスによる接続を用い、各サーバマシンとメインデータ用切替スイッチ106との間では光ファイババスによる接続を用いたが、例えば、イーサバスによる接続を省略して、全ての接続を光ファイババスにより実施するようにシステムを構成しても良い。
【0084】
また、本実施形態の通信速度を低下させることにより消費電力を減少させて管理データを転送する方法は、上記した通常のイーサネット(登録商標)による接続だけではなく、他のネットワーク接続方式、例えば、ギガビットイーサネット(登録商標)等にも適用することができる。
【0085】
また、上記した実施形態では、障害発生時には、管理データを転送するためのクロック信号を低速(低周波数)のものに切り替えて使用したが、電池容量に余裕がある場合、あるいは、元々のクロック信号の周波数が低速であることから、管理データの転送に必要な電力が少ない場合には、クロック信号を切り替えないで実施しても良い。
【0086】
また、上記した実施形態では、障害が電源ラインに発生した場合を説明したが、本発明はこれに限られるものではなく、各サーバに発生する全ての種類の障害、例えば、信号線や内部処理回路等の障害に対して適用することができる。
【0087】
また、上記した実施形態における障害発生時の電池動作範囲には、図示していない他の回路を含ませるように構成しても良い。
【0088】
【発明の効果】
上記のように本発明のクラスタリング・システムおよびその障害発生時のデータ復旧方法は、メインデータの処理を実施中の第1のサーバマシンから予備の第2のサーバマシンへの管理データの転送が、通常動作時には実施されず、第1のサーバマシンに障害が発生した場合のみに実施されるので、通常動作時の第1のサーバマシンにおける管理データの転送処理による遅延が発生せず、処理効率の低下を改善できる。
【0089】
また、本発明のクラスタリング・システムおよびその障害発生時のデータ復旧方法は、管理データが電池によりバックアップされ、サーバマシン内部にのみ格納されるため、イーサバス等の転送用の通信線と内部バスとの処理時間差により発生するサーバマシンの内部処理効率の低下も改善できる。
【0090】
また、本発明のクラスタリング・システムの通信線には、障害発生時以外はジャーナルデータ等のフェイルオーバー用の管理データが送受信されなくなるので、負荷分散等に通信線を使用できる頻度が多くなり、クラスタリング・システムの処理効率を改善することができる。
【0091】
また、管理データ用インターフェース部を標準化されたカード形式とした場合には、従来のクラスタリング・システムから本発明のクラスタリング・システムに変更する際に、システム全体を変更する必要がなく、設置コストおよび変更工数をわずかにすることができ、電池の寸法を小さくできるので、インターフェースカードの設計を容易にすることができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施形態のクラスタリング・システムの構成を示すブロック図である。
【図2】 図1中の第1サーバの内部構成を示す図である。
【図3】 本実施形態のクラスタリング・システムにおける管理データの保存動作のフローチャートである。
【図4】 本実施形態のクラスタリング・システムにおける障害検出時の動作のフローチャートである。
【図5】 従来のクラスタリング・システムの構成を示すブロック図である。
【図6】 (a)、(b)は従来のクラスタリング・システムにおける管理データの二重化保存動作のフローチャートである。
【図7】 従来のクラスタリング・システムにおける障害検出時の動作のフローチャートである。
【符号の説明】
1、100 クラスタリング・システム、 11、101 第1サーバ、 12、102 第2サーバ、 13、103 第3サーバ、 14、104 第nサーバ、 50〜53、150〜153 管理データ用インターフェース部、 56 障害時電池動作範囲、 60〜63、160〜163 管理データ記憶部、 64 通信制御回路、 65 障害時動作制御回路、 66 クロック切替回路、 67 通信線用接続部、 68 低周波数クロック発生回路、 70〜73 電池、 74 サーバ内部用接続部、 75 電源切替回路、 78 高周波数クロック発生回路、 105 管理データ用切替スイッチ、 106 メインデータ用切替スイッチ、 107 メインデータ記憶部、 108 電源部、 110 通信線、 120 高速通信線、 130 電源ライン、 140〜143 内部バス、 150 サーバ用主制御部、 160 メインデータ用インターフェース部。

Claims (6)

  1. 複数のサーバマシンが通信線で切替スイッチに接続されて協調的に動作されることにより、1台のサーバマシンが故障してもクライアントへのサービスを継続できるクラスタリング・システムであって、
    前記各サーバマシンは、該サーバマシンにおいて実施される処理の管理データを保存する管理データ記憶部と、
    該サーバマシンに障害が発生した場合に、少なくとも前記管理データ記憶部、および、該サーバマシンと前記通信線とを電気的および機械的に接続するインターフェース部に対して電源電力を供給する電池を備え、
    該サーバマシンは、通常動作時には、前記管理データの他のサーバマシンへの転送を実施せず、
    前記各サーバマシン中の第1のサーバマシンに障害が発生した場合には、第1のサーバマシン中の電池により電源電力供給を受けたインターフェース部が、管理データ記憶部から読み出した管理データを第2のサーバマシンに転送し、第2のサーバマシンが受信した管理データに基づいてクライアントへのサービスを継続する
    ことを特徴とするクラスタリング・システム。
  2. 前記各サーバマシンのインターフェース部には、通常動作時中に発生する障害を検出して電源を前記電池に切り替えた後、前記第2のサーバマシンへの管理データの転送処理を制御する障害時動作制御回路を備える
    ことを特徴とする請求項1に記載のクラスタリング・システム。
  3. 前記各サーバマシンのインターフェース部には、通常動作時のクロック信号の周波数よりも低い周波数のクロック信号を発生させる低周波数クロック発生回路と、
    前記第1のサーバマシンに障害が発生した場合に、前記インターフェース部で利用するクロック信号を、通常動作時に利用される比較的高い周波数のクロック信号から前記低周波数のクロック信号に切り替えるクロック切替回路を備える
    ことを特徴とする請求項1に記載のクラスタリング・システム。
  4. 前記各サーバマシンのインターフェース部は、標準化された所定スロットにて接続可能なボード形式あるいはカード形式であって、前記電池および前記管理データ記憶部を内蔵して一体化される
    ことを特徴とする請求項1〜3の何れかに記載のクラスタリング・システム。
  5. 複数のサーバマシンが通信線で切替スイッチに接続されて協調的に動作されることにより、1台のサーバマシンが故障してもクライアントへのサービスを継続できるクラスタリング・システムにおける障害発生時のデータ復旧方法であって、
    クライアントの要求するサービスを制御する第1のサーバマシンは、通常動作時には、該第1のサーバマシンの内部に管理データを保存し、前記管理データの他のサーバマシンへの転送を実施せず、
    該第1のサーバマシンに障害が発生したことを検出した場合には、第1のサーバマシンは、該第1のサーバマシン内部の少なくとも前記管理データを保存する記憶部および前記通信線と接続するためのインターフェース部に供給される電源電力を、内蔵された電池から供給される電源電力に切り替え、
    前記第1のサーバマシンは、前記インターフェース部から前記管理データを第2のサーバマシンに転送し、
    第2のサーバマシンは、受信した前記管理データを用いて前記クライアントの要求するサービスを継続する
    ことを特徴とするクラスタリング・システムにおける障害発生時のデータ復旧方法。
  6. 前記第1のサーバマシンは、障害が発生したことを検出した場合には、前記電源を、内蔵する電池に切り替えた後に、クロック信号を低周波数のものに切り替えて、前記障害発生時における前記管理データを第2のサーバマシンへ転送する処理を通常動作時よりも低速で実施する
    ことを特徴とする請求項5に記載のクラスタリング・システムにおける障害発生時のデータ復旧方法。
JP2001208998A 2001-07-10 2001-07-10 クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法 Expired - Fee Related JP3640349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001208998A JP3640349B2 (ja) 2001-07-10 2001-07-10 クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001208998A JP3640349B2 (ja) 2001-07-10 2001-07-10 クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法

Publications (2)

Publication Number Publication Date
JP2003044310A JP2003044310A (ja) 2003-02-14
JP3640349B2 true JP3640349B2 (ja) 2005-04-20

Family

ID=19044722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001208998A Expired - Fee Related JP3640349B2 (ja) 2001-07-10 2001-07-10 クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法

Country Status (1)

Country Link
JP (1) JP3640349B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085886B2 (en) 2003-05-28 2006-08-01 International Buisness Machines Corporation Autonomic power loss recovery for a multi-cluster storage sub-system
JP4371321B2 (ja) 2006-03-10 2009-11-25 富士通株式会社 Nfsサーバ、nfsサーバ制御プログラム、nfsサーバ制御方法
JP2011008419A (ja) * 2009-06-24 2011-01-13 Nec System Technologies Ltd 分散型情報処理システム及び制御方法並びにコンピュータプログラム

Also Published As

Publication number Publication date
JP2003044310A (ja) 2003-02-14

Similar Documents

Publication Publication Date Title
EP2053780B1 (en) A distributed master and standby managing method and system based on the network element
CN101102177B (zh) 一种主备控制器倒换的实现方法及设备
US6378021B1 (en) Switch control method and apparatus in a system having a plurality of processors
EP2224341B1 (en) Node system, server switching method, server device, and data transfer method
JP3537281B2 (ja) 共有ディスク型多重系システム
JP2004185199A (ja) メモリシステム及びその制御方法
CN101645915A (zh) 一种磁盘阵列主机通道子卡、在线切换***及其切换方法
CN111585835B (zh) 一种带外管理***的控制方法、装置和存储介质
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
JP3640349B2 (ja) クラスタリング・システムおよびクラスタリング・システムにおける障害発生時のデータ復旧方法
JPH1185644A (ja) 冗長構成システムの系切替制御方法
JP2002073221A (ja) 無停電電源システム
JPH11224207A (ja) マルチクラスタシステムを構成する計算機
JP2002136000A (ja) 無停電電源システム
JP3441264B2 (ja) 多重系システム
JP5176914B2 (ja) 伝送装置及び冗長構成部の系切替え方法
JP3377457B2 (ja) クラスタシステムならびにその運転管理装置および方法
JP2606107B2 (ja) プロセッサ冗長化方式
JP2002055840A (ja) 冗長構成切替システム
US6550016B1 (en) Protection bus and method for a telecommunications device
CN114189547B (zh) 一种集群下ssl隧道快速切换方法
CN112445311B (zh) 一种多控***管理板备电方法及装置
JPH09288637A (ja) 周辺装置の再接続方式およびインタフェース装置
CN115378557B (zh) 热备实现方法、装置、***、电子设备及存储介质
JP2003178046A (ja) クラスタシステムならびにその運転管理装置および方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041224

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20041224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050114

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090128

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees