JP6183931B2 - クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 - Google Patents
クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 Download PDFInfo
- Publication number
- JP6183931B2 JP6183931B2 JP2015554749A JP2015554749A JP6183931B2 JP 6183931 B2 JP6183931 B2 JP 6183931B2 JP 2015554749 A JP2015554749 A JP 2015554749A JP 2015554749 A JP2015554749 A JP 2015554749A JP 6183931 B2 JP6183931 B2 JP 6183931B2
- Authority
- JP
- Japan
- Prior art keywords
- communication path
- determined
- server
- server device
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/82—Solving problems relating to consistency
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Computer And Data Communications (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Description
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とする。
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
以下、本発明の実施の形態における、クラスタシステム、サーバ装置、サーバ装置の管理方法、及びプログラムについて、図1〜図5を参照しながら説明する。
最初に、図1を用いて、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成について説明する。図1は、本発明の実施の形態におけるクラスタシステムの概略構成を示す図である。
次に、本発明の実施の形態におけるクラスタシステム100の動作について図3を用いて説明する。図3は、本発明の実施の形態におけるクラスタシステムを構成するサーバ装置の動作を示すフロー図である。
ここで、図4を用いて具体例について説明する。図4は、本発明の実施の形態におけるクラスタシステムを構成する各サーバ装置での信頼性判定の結果を示す図である。
本形態におけるプログラムは、コンピュータに、図3に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、クラスタシステム、サーバ装置、クラスタシステムの管理方法を実現することができる。この場合、サーバ装置10となるコンピュータのCPU(Central Processing Unit)は、信号送信部11、信頼性判定部12、処理管理部13、信号受信部14、及び自動停止部15として機能し、処理を行なう。また、サーバ装置20となるコンピュータのCPU(Central Processing Unit)は、信号送信部21、信頼性判定部22、処理管理部23、信号受信部24、及び自動停止部25として機能し、処理を行なう。
上述した例では、各サーバ装置において、信頼性判定部は、全ての通信経路について信頼性を判定しているが、本実施の形態は、この態様に限定される趣旨ではない。本実施の形態は、信頼性判定部が、一部の通信経路についてのみ、信頼性を有しているかどうかを判定する態様であっても良い。
ここで、本実施の形態におけるプログラムを実行することによって、サーバ装置を実現するコンピュータについて図5を用いて説明する。図5は、本発明の実施の形態におけるサーバ装置を実現するコンピュータの一例を示すブロック図である。
通信経路によって接続された複数のサーバ装置を備え、
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするクラスタシステム。
前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記1に記載のクラスタシステム。
前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
各サーバ装置の処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記2に記載のクラスタシステム。
前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記3に記載のクラスタシステム。
前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記4に記載のクラスタシステム。
前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
付記1に記載のクラスタシステム。
通信経路によって他のサーバ装置と接続されるサーバ装置であって、
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするサーバ装置。
前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記7に記載のサーバ装置。
2つ以上の通信経路によって前記他のサーバ装置と接続されており、
前記処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記8に記載のサーバ装置。
サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
付記9に記載のサーバ装置。
前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記10に記載のサーバ装置。
前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
付記7に記載のサーバ装置。
通信経路によって接続された複数のサーバ装置を用い、
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とするクラスタシステムの管理方法。
前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記13に記載のクラスタシステムの管理方法。
前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記14に記載のクラスタシステムの管理方法。
前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記15に記載のクラスタシステムの管理方法。
前記(b)のステップにおいて、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記16に記載のクラスタシステムの管理方法。
前記複数のサーバ装置それぞれによって実行される、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
付記13に記載のクラスタシステムの管理方法。
通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる、プログラム。
前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のコンピュータに異常が発生していると判断して、当該コンピュータで実行中にある処理を継続して実行し、又は、前記他のコンピュータが実行している処理を代わりに実行する、
付記19に記載のプログラム。
前記コンピュータが、2つ以上の通信経路によって前記他のコンピュータと接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のコンピュータに異常が発生していると判断する、付記20に記載のプログラム。
前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
付記21に記載のプログラム。
前記(b)のステップにおいて、
前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記22に記載のプログラム。
前記コンピュータに、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを更に実行させる、
付記19に記載のプログラム。
11 信号送信部
12 信頼性判定部
13 処理管理部
14 信号受信部
15 自動停止部
16、17、18 通信インターフェイス
19 業務処理実行部
20 サーバ装置
21 信号送信部
22 信頼性判定部
23 処理管理部
24 信号受信部
25 自動停止部
26、27、28 通信インターフェイス
29 業務処理実行部
30 通信経路
31 ネットワーク
32 ルーター
40 通信経路
50 通信経路
51 記憶装置
100 クラスタシステム
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
Claims (16)
- 2つ以上の通信経路によって接続された複数のサーバ装置を備え、
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、
信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、処理管理部と、
を備えている、ことを特徴とするクラスタシステム。 - 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
請求項1に記載のクラスタシステム。 - 前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項2に記載のクラスタシステム。 - 前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
請求項1〜3のいずれかに記載のクラスタシステム。 - 2つ以上の通信経路によって他のサーバ装置と接続されるサーバ装置であって、
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、処理管理部と、
を備えている、ことを特徴とするサーバ装置。 - サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
請求項5に記載のサーバ装置。 - 前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項6に記載のサーバ装置。 - 前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
請求項5〜7のいずれかに記載のサーバ装置。 - 2つ以上の通信経路によって接続された複数のサーバ装置を用い、
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、ステップと、
を有する、ことを特徴とするクラスタシステムの管理方法。 - 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
請求項9に記載のクラスタシステムの管理方法。 - 前記(b)のステップにおいて、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項10に記載のクラスタシステムの管理方法。 - 前記複数のサーバ装置それぞれによって実行される、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
請求項9〜11のいずれかに記載のクラスタシステムの管理方法。 - 2つ以上の通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、ステップと、
を実行させる、プログラム。 - 前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
請求項13に記載のプログラム。 - 前記(b)のステップにおいて、
前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
請求項14に記載のプログラム。 - 前記コンピュータに、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを更に実行させる、
請求項13〜15のいずれかに記載のプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013267038 | 2013-12-25 | ||
JP2013267038 | 2013-12-25 | ||
PCT/JP2014/083085 WO2015098589A1 (ja) | 2013-12-25 | 2014-12-15 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015098589A1 JPWO2015098589A1 (ja) | 2017-03-23 |
JP6183931B2 true JP6183931B2 (ja) | 2017-08-23 |
Family
ID=53478453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015554749A Active JP6183931B2 (ja) | 2013-12-25 | 2014-12-15 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10102088B2 (ja) |
JP (1) | JP6183931B2 (ja) |
CN (1) | CN105849702A (ja) |
WO (1) | WO2015098589A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6409812B2 (ja) * | 2016-04-01 | 2018-10-24 | 横河電機株式会社 | 冗長化装置、冗長化システム、及び冗長化方法 |
JP6662185B2 (ja) | 2016-04-28 | 2020-03-11 | 横河電機株式会社 | 処理装置、代替処理装置、中継装置、処理システム及び処理方法 |
JP6623996B2 (ja) | 2016-09-26 | 2019-12-25 | 横河電機株式会社 | 処理装置、ネットワーク装置、処理装置の制御方法、ネットワーク装置の制御方法、処理装置の制御プログラム、ネットワーク装置の制御プログラム及び記録媒体 |
CN106452952B (zh) * | 2016-09-29 | 2019-11-22 | 华为技术有限公司 | 一种检测集群***通信状态的方法及网关集群 |
CN110377487A (zh) * | 2019-07-11 | 2019-10-25 | 无锡华云数据技术服务有限公司 | 一种处理高可用集群脑裂的方法及装置 |
JP7328907B2 (ja) * | 2020-01-31 | 2023-08-17 | 株式会社日立製作所 | 制御システム、制御方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08171507A (ja) | 1994-12-16 | 1996-07-02 | Mitsubishi Electric Corp | 異常監視方法 |
US6785840B1 (en) * | 1999-08-31 | 2004-08-31 | Nortel Networks Limited | Call processor system and methods |
US6785678B2 (en) * | 2000-12-21 | 2004-08-31 | Emc Corporation | Method of improving the availability of a computer clustering system through the use of a network medium link state function |
JP4102060B2 (ja) | 2001-12-06 | 2008-06-18 | 三菱電機株式会社 | データ受信装置 |
US7076687B2 (en) * | 2002-10-16 | 2006-07-11 | Hitachi, Ltd. | System and method for bi-directional failure detection of a site in a clustering system |
JP2004302512A (ja) * | 2003-03-28 | 2004-10-28 | Hitachi Ltd | クラスタコンピューティングシステム、および、そのフェールオーバー方法 |
US7284147B2 (en) * | 2003-08-27 | 2007-10-16 | International Business Machines Corporation | Reliable fault resolution in a cluster |
US8543781B2 (en) * | 2004-02-06 | 2013-09-24 | Vmware, Inc. | Hybrid locking using network and on-disk based schemes |
US7590737B1 (en) * | 2004-07-16 | 2009-09-15 | Symantec Operating Corporation | System and method for customized I/O fencing for preventing data corruption in computer system clusters |
US7739677B1 (en) * | 2005-05-27 | 2010-06-15 | Symantec Operating Corporation | System and method to prevent data corruption due to split brain in shared data clusters |
JP2008172592A (ja) | 2007-01-12 | 2008-07-24 | Hitachi Ltd | クラスタシステム、コンピュータおよびその異常検出方法 |
US8498967B1 (en) * | 2007-01-30 | 2013-07-30 | American Megatrends, Inc. | Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome |
CN101291243B (zh) | 2007-04-16 | 2012-10-10 | 广东新支点技术服务有限公司 | 高可用集群***的裂脑预防方法 |
US8001413B2 (en) * | 2008-05-05 | 2011-08-16 | Microsoft Corporation | Managing cluster split-brain in datacenter service site failover |
CN101582787B (zh) * | 2008-05-16 | 2011-12-07 | 中兴通讯股份有限公司 | 一种双机备份***及备份方法 |
US8671218B2 (en) * | 2009-06-16 | 2014-03-11 | Oracle America, Inc. | Method and system for a weak membership tie-break |
CN101674331B (zh) | 2009-10-21 | 2012-11-07 | 成都市华为赛门铁克科技有限公司 | 集群存储***及其脑裂处理方法 |
US8108715B1 (en) * | 2010-07-02 | 2012-01-31 | Symantec Corporation | Systems and methods for resolving split-brain scenarios in computer clusters |
US8806264B2 (en) * | 2010-08-30 | 2014-08-12 | Oracle International Corporation | Methods for detecting split brain in a distributed system |
US8560628B2 (en) * | 2011-01-11 | 2013-10-15 | International Business Machines Corporation | Supporting autonomous live partition mobility during a cluster split-brained condition |
JP5699658B2 (ja) * | 2011-02-10 | 2015-04-15 | 日本電気株式会社 | 待機系計算機、クラスタシステム、サービス提供方法およびプログラム |
JP2012173996A (ja) * | 2011-02-22 | 2012-09-10 | Nec Corp | クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム |
CN102457400B (zh) | 2011-06-09 | 2014-11-05 | 中标软件有限公司 | 一种防止磁盘镜像资源发生脑裂的方法 |
CN102394914A (zh) | 2011-09-22 | 2012-03-28 | 浪潮(北京)电子信息产业有限公司 | 集群脑裂处理方法和装置 |
JP6026142B2 (ja) * | 2012-06-04 | 2016-11-16 | 株式会社日立製作所 | 複数計算機が独立動作する制御システム |
CN102799394B (zh) * | 2012-06-29 | 2015-02-25 | 华为技术有限公司 | 一种实现高可用集群的心跳服务的方法及装置 |
CN102932118B (zh) | 2012-11-05 | 2015-11-25 | 中国铁道科学研究院 | 一种双机主备裁决的方法及*** |
CN103051470B (zh) * | 2012-11-29 | 2015-10-07 | 中标软件有限公司 | 一种集群及其磁盘心跳的控制方法 |
CN103209095B (zh) | 2013-03-13 | 2017-05-17 | 广东中兴新支点技术有限公司 | 一种基于磁盘服务锁的裂脑预防的方法和装置 |
-
2014
- 2014-12-15 US US15/107,066 patent/US10102088B2/en active Active
- 2014-12-15 JP JP2015554749A patent/JP6183931B2/ja active Active
- 2014-12-15 CN CN201480070639.5A patent/CN105849702A/zh active Pending
- 2014-12-15 WO PCT/JP2014/083085 patent/WO2015098589A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20170039118A1 (en) | 2017-02-09 |
WO2015098589A1 (ja) | 2015-07-02 |
CN105849702A (zh) | 2016-08-10 |
US10102088B2 (en) | 2018-10-16 |
JPWO2015098589A1 (ja) | 2017-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6183931B2 (ja) | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 | |
JP5872731B2 (ja) | クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム | |
US10715411B1 (en) | Altering networking switch priority responsive to compute node fitness | |
US10693813B1 (en) | Enabling and disabling links of a networking switch responsive to compute node fitness | |
US10089028B2 (en) | Remote secure drive discovery and access | |
US8910172B2 (en) | Application resource switchover systems and methods | |
US8402189B2 (en) | Information processing apparatus and data transfer method | |
US7783794B2 (en) | Remote USB access method | |
US7937610B2 (en) | Fast node failure detection via disk based last gasp mechanism | |
US20180081776A1 (en) | Automated System-Level Failure and Recovery | |
JP6551111B2 (ja) | 情報処理装置、ダウン判定方法、クラスタシステム、及びプログラム | |
JP2012038257A (ja) | Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム | |
JP6134720B2 (ja) | 接続方法 | |
JP2015070522A (ja) | 情報処理装置、情報処理システム、及びプログラム | |
EP2616938B1 (en) | Fault handling systems and methods | |
JP4863984B2 (ja) | 監視処理プログラム、方法及び装置 | |
JP2011253285A (ja) | 診断システム、診断装置及び診断プログラム | |
JP2012133622A (ja) | 計算機切替システム、計算機切替プログラム、および計算機切替方法 | |
WO2016117008A1 (ja) | ストレージシステム、計算機システム、及び障害箇所推定方法 | |
JP2000010823A (ja) | 計算機及び計算機システム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2017167869A (ja) | 管理装置、バックアップシステム、バックアップ管理方法、プログラム | |
JP2010004449A (ja) | 通信システム及びクライアント装置及びサーバ装置 | |
JP2016157254A (ja) | 制御装置、制御方法及び制御プログラム | |
KR20150077350A (ko) | 클러스터 시스템에서 클러스터를 처리하기 위한 방법과 장치 및 시스템 | |
JP2013025539A (ja) | マルチcpuシステムの監視システム及び監視方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6183931 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |