JP6183931B2 - クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 - Google Patents

クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 Download PDF

Info

Publication number
JP6183931B2
JP6183931B2 JP2015554749A JP2015554749A JP6183931B2 JP 6183931 B2 JP6183931 B2 JP 6183931B2 JP 2015554749 A JP2015554749 A JP 2015554749A JP 2015554749 A JP2015554749 A JP 2015554749A JP 6183931 B2 JP6183931 B2 JP 6183931B2
Authority
JP
Japan
Prior art keywords
communication path
determined
server
server device
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015554749A
Other languages
English (en)
Other versions
JPWO2015098589A1 (ja
Inventor
勝司 下問
勝司 下問
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solutions Innovators Ltd
Original Assignee
NEC Solutions Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solutions Innovators Ltd filed Critical NEC Solutions Innovators Ltd
Publication of JPWO2015098589A1 publication Critical patent/JPWO2015098589A1/ja
Application granted granted Critical
Publication of JP6183931B2 publication Critical patent/JP6183931B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、複数のサーバ装置を備えるクラスタシステム、これに用いられるサーバ装置、クラスタシステムの管理方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
企業等においては、システムに障害が発生しても、業務を継続して行なえるようにするため、クラスタシステムが採用されている。クラスタシステムでは、複数のサーバ装置が連結されており、これらのサーバ装置は、ユーザに対しては全体で一台のサーバ装置であるかのように振る舞うことになる。
また、クラスタシステムにおいては、業務の停止を回避するため、サーバ装置間においてハートビート通信を行うことによって、障害の検出が行われている(例えば、特許文献1及び2参照。)。ハートビート通信とは、サーバ装置間で互いに、自身の存在を示す信号(以下、「ハートビート信号」と表記する。)を設定間隔で送信することをいう。
具体的には、特許文献1及び2に開示されたシステムでは、各サーバ装置は、まず、ハートビート通信において、通信経路毎にタイムアウトが発生していないかどうかを判定する。そして、タイムアウトが発生している場合は、何らかの障害が発生していると判断する。そして、障害が発生していると判断した場合は、各サーバは、ネットワークを経由して、設定したタイムアウト時間内に受信パケットが到着したかどうかを判定し、到着していない場合(タイムアウト)は通信障害と判断し、到着している場合は相手方のサーバに異常が発生したと判断する。
そして、特許文献1及び2に開示されたシステムでは、障害の発生が検出されると、障害の発生していないサーバ装置が、障害が発生したサーバ装置の業務を引き継ぎ、業務の停止が回避される。
特開2003−173299号公報 特開2008−172592号公報
しかしながら、特許文献1及び2に開示されたシステムでは、ハートビート信号の受信の有無と、ネットワークから受信されるパケットの受信状況とに基づいて、障害の発生を検出しているため、いわゆるスプリットブレインシンドロームが発生する可能がある。
例えば、特許文献1及び2に開示されたシステムにおいて、一方のサーバ装置の通信インターフェース(ネットワークカード)が故障したとする。この場合、一方のサーバ装置は、ハートビート信号と、ネットワークからのパケットとの両方を受信できないので、通信障害が発生していると判断する。しかし、他方のサーバ装置は、ハートビート信号については受信できないが、ネットワークからのパケットについては受信できるので、一方のサーバ装置が障害発生によってダウンしたと判断する。よって、一方のサーバ装置が業務処理を行っていた場合は、他方のサーバ装置も業務処理を開始してしまうため、双方において、同じ業務処理が行われる事態が発生する。
そして、このような事態が発生した場合において、業務処理が、情報提示のみを行う静的なWebサイトの提供等であれば問題ないが、業務処理がデータベースの更新であると、処理内容が衝突してしまう事態が発生する。これがスプリットブレインシンドロームである。
本発明の目的の一例は、上記問題を解消し、クラスタシステムにおいて処理内容が衝突してしまう事態の発生を回避し得る、クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面におけるクラスタシステムは、通信経路によって接続された複数のサーバ装置を備え、
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
上記目的を達成するため、本発明の一側面におけるサーバ装置は、通信経路によって他のサーバ装置と接続されるサーバ装置であって、
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるクラスタシステムの管理方法は、通信経路によって接続された複数のサーバ装置を用い、
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
以上のように、本発明によれば、クラスタシステムにおいて処理内容が衝突してしまう事態の発生を回避することができる。
図1は、本発明の実施の形態におけるクラスタシステムの概略構成を示す図である。 図2は、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成を具体的に示すブロック図である。 図3は、本発明の実施の形態におけるクラスタシステムを構成するサーバ装置の動作を示すフロー図である。 図4は、本発明の実施の形態におけるクラスタシステムを構成する各サーバ装置での信頼性判定の結果を示す図である。 図5は、本発明の実施の形態におけるサーバ装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態)
以下、本発明の実施の形態における、クラスタシステム、サーバ装置、サーバ装置の管理方法、及びプログラムについて、図1〜図5を参照しながら説明する。
[システム構成]
最初に、図1を用いて、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成について説明する。図1は、本発明の実施の形態におけるクラスタシステムの概略構成を示す図である。
図1に示すように、本実施の形態におけるクラスタシステム100は、通信経路30〜50によって接続されたサーバ装置10及び20を備えている。クラスタシステム100では、一方のサーバ装置に障害が発生すると、他方のサーバ装置が、障害が発生したサーバ装置で行われている処理を引き継ぎ、業務が停止してしまう事態の発生が回避される。
また、サーバ装置10及び20それぞれは、他方のサーバ装置に対して、通信経路30〜50を介して、自身の存在を示す信号、即ち、ハートビート信号を送信するが、それに加えて、通信経路30〜50が信頼性を有しているかどうかを判定することもできる。
そして、サーバ装置10及び20それぞれは、他方のサーバ装置からハートビート信号を受信できない状況となると、このサーバ装置との間の通信経路30〜50について信頼性を有していると判定しているかどうかを確認する。続いて、各サーバ装置は、確認の結果、通信経路30〜50が信頼性を有していると判定していない場合は、実行中にある処理を停止することができる。
このように、本実施の形態では、サーバ装置10及び20は、ハートビート通信のための通信経路30〜50について信頼性を判定し、その結果によっては、実際にはダウンしていなくても、処理を停止することができる。このため、処理内容が衝突してしまう事態、いわゆるスプリットブレインシンドロームの発生が回避される。
ここで、図2を用いて、本実施の形態におけるクラスタシステム及びサーバ装置の構成について更に具体的に説明する。図2は、本発明の実施の形態におけるクラスタシステム及びサーバ装置の構成を具体的に示すブロック図である。
図2に示すように、本実施の形態では、通信経路30は、ネットワーク31を経由する通信経路であり、パブリックLAN(Local Area Network)である。通信経路40は、サーバ装置間を直接結ぶ通信経路であり、インターコネクトLANである。通信経路50は、記憶装置51を介した通信経路である。
また、通信経路50では、サーバ装置10及び20と記憶装置51とは、SCSI(Small computer System Interface)又はFC(Fiber Channel)といった接続方式によって接続されている。更に、通信経路50は、専用のケーブルではなく、インターネット等のネットワークを利用して構築されていても良い。
また、本実施の形態では、図2に示すように、サーバ装置10は、信号送信部11と、信頼性判定部12と、処理管理部13と、信号受信部14と、自動停止部15と、各通信経路に対応した通信インターフェイス16〜18と、業務処理実行部19とを備えている。このうち、通信インターフェイス16〜18は、例えば、NIC(Network Interface Card)によって構成されている。
信号送信部11は、他のサーバ装置に対して、通信経路30〜50を介して、ハートビート信号を送信する。また、信号送信部11は、ハートビート信号を、通信経路30〜50に加え、自動停止部15にも、各通信経路から送信する場合と同じタイミングで送信している。なお、ハートビート信号の送信は、定期的に行われても良いし、設定された条件に応じて行われても良い。
信号受信部14は、通信インターフェイス16〜18を介して、他のサーバ装置からのハートビート信号を受信する。また、信号受信部14は、他のサーバ装置からのハートビート信号を受信できない状況にあるかどうか、具体的には、ハートビート信号がタイムアウトしていないかどうかを判断する。
信頼性判定部12は、通信経路30〜50が信頼性を有しているかどうかを判定する。具体的には、信頼性判定部12は、通信経路0については、ネットワーク31上に存在する機器(ルータ)32にリクエスト(ICMP echo request)を送信し、機器32からリクエストに対するレスポンス(ICMP echo reply)が返信されてきた場合に、信頼性を有していると判定する。
また、信頼性判定部12は、通信経路40については、通信インターフェイス17として機能するNICが通電状態にある場合に、信頼性を有していると判定する。更に、信頼性判定部12は、通信経路50については、記憶装置51に、SCSI又はFCで規定されているコマンドを送信し、記憶装置51からコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する。
業務処理実行部19は、クラスタシステム100が行う業務のための処理(業務処理)を実行する。具体的には、業務処理実行部19は、業務処理のためのアプリケーションプログラムによって構築されており、業務毎に構築される。
処理管理部13は、信号受信部14が他のサーバ装置からのハートビート信号を受信できない状況にあると判断したときに、通信経路30〜50について、信頼性判定部12によって信頼性を有していると判定されているかどうかを確認する。
そして、処理管理部13は、確認の結果、通信経路30〜50が信頼性を有していると判定されていない場合は、業務処理実行部19に、実行中にある処理を停止させる。一方、処理管理部13は、確認の結果、いずれかの通信経路が信頼性を有していると判定されている場合は、他のサーバ装置に異常が発生していると判断する。そして、処理管理部13は、業務処理実行部19が業務処理を既に実行中である場合は、実行中にある処理を継続して実行させる。また、処理管理部13は、業務処理実行部19が業務処理を実行中でない場合は、業務処理実行部19に、他のサーバ装置で実行されている業務処理を代わりに実行させる。
自動停止部15は、信号送信部11からのハートビート信号の送信が途絶えた場合に、サーバ装置10を停止させる。具体的には、自動停止部15は、サーバ装置10に予め実装されているウォッチドッグタイマによって実現されている。また、このような自動停止部15が備えられているため、例えば、単にサーバ装置10がハングした場合であっても、サーバ装置10は停止されることになる。これは、サーバ装置10がハングした後に、サーバ装置20が、サーバ装置10に障害が発生したと判断して、サーバ装置10の処理を引き継いだにも係わらず、サーバ装置10がハング状態から復旧してしまうと、スプリットブレインシンドロームが発生してしまうからである。
更に、サーバ装置20も、信号送信部21と、信頼性判定部22と、処理管理部23と、信号受信部24と、自動停止部25と、各通信経路に対応した通信インターフェイス16〜18と、業務処理実行部29とを備えている。なお、サーバ装置10とサーバ装置20とは、同一の構成及び機能を備えているため、サーバ装置20の各部における説明は省略する。また、図1及び図2の例では、クラスタシステム100を構成するサーバ装置は2台のみであるが、本実施の形態において、サーバ装置の台数は特に限定されるものではない。
[システム動作]
次に、本発明の実施の形態におけるクラスタシステム100の動作について図3を用いて説明する。図3は、本発明の実施の形態におけるクラスタシステムを構成するサーバ装置の動作を示すフロー図である。
また、以下の説明においては、適宜図2を参酌しながら、サーバ装置10を中心に説明する。更に、本実施の形態では、クラスタシステム100を動作させることによって、クラスタシステムの管理方法が実施される。よって、本実施の形態におけるクラスタシステムの管理方法の説明は、以下のクラスタシステムの動作説明に代える。
まず、前提として、サーバ装置10において、信号送信部11は、設定された間隔で、通信インターフェイス16〜18から、サーバ装置20に向けてハートビート信号を送信する。更に、サーバ装置10において、信頼性判定部12は、ハートビート信号の送信又は受信のタイミングと同期して、通信経路30〜50が信頼性を有しているかどうかを判定する。
また、同様に、サーバ装置20においても、信号送信部21は、設定された間隔で、通信インターフェイス26〜28から、サーバ装置10に向けてハートビート信号を送信する。更に、サーバ装置20においても、信頼性判定部22は、ハートビート信号の送信又は受信のタイミングと同期して、通信経路30〜50が信頼性を有しているかどうかを判定する。
図3に示すように、サーバ装置10において、信号受信部14は、サーバ装置20からのハートビート信号の受信が、タイムアウトしていないかどうかを判定する(ステップA1)。
ステップA1の判定の結果、タイムアウトしていない場合は、信号受信部14は、設定時間の経過後に、再度、ステップA1を実行する。一方、ステップA1の判定の結果、タイムアウトしている場合は、信号受信部14は、そのことを処理管理部13に通知する。
次に、処理管理部13は、通知を受けると、通信経路30〜50の中に、信頼性を有している通信経路が存在しているかどうかを判定する(ステップA2)。ステップA2の判定の結果、信頼性を有している通信経路が存在している場合は、処理管理部13は、業務処理実行部19が業務処理を実行中であるかどうかを判定する(ステップA3)。
そして、処理管理部13は、ステップA3の判定の結果、業務処理が実行中である場合は、業務処理実行部19に、業務処理をそのまま継続させる(ステップA4)。反対に、ステップA3の判定の結果、業務処理が実行中でない場合は、処理管理部13は、業務処理実行部19にサーバ装置20で実行されている処理を引き継がせる(ステップA5)。
また、ステップA2の判定の結果、信頼性を有している通信経路が存在していない場合も、処理管理部13は、業務処理実行部19が業務処理を実行中であるかどうかを判定する(ステップA6)。
そして、ステップA6の判定の結果、業務処理が実行中でない場合は、サーバ装置10における処理は終了する。一方、ステップA6の判定の結果、業務処理が実行中である場合は、処理管理部13は、業務処理実行部19に、業務処理を停止させる(ステップA7)。
以上のステップA1〜A7は、サーバ装置10において、繰り返し実行される。また、サーバ装置20においても、ステップA1〜A7と同様のステップが、繰り返し実行される。
[具体例]
ここで、図4を用いて具体例について説明する。図4は、本発明の実施の形態におけるクラスタシステムを構成する各サーバ装置での信頼性判定の結果を示す図である。
例えば、図2に示すサーバ装置10及びサーバ装置20において、いずれの通信経路からもハートビート信号を受信できない事態が発生したとする。この場合、サーバ装置10では、信頼性判定部12は、通信経路30〜50それぞれにおける現在の信頼性の有無を判定する。
そして、判定の結果、図4に示すように、サーバ装置10では、通信経路30及び40において信頼性有りと判定されているとすると、サーバ装置10は、サーバ装置20に障害が発生していると判断する。これは、サーバ装置10側の視点では、信頼性を有する通信経路があるのに、サーバ装置20がハートビート信号を送信できないのは、サーバ装置20に問題があると考えられるからである。
一方、サーバ装置20には、実際には、障害が発生しておらず、通信経路30〜50のサーバ装置20側の部分に問題があって、ハートビート信号の送受信ができなかったとする。この場合、図4に示すように、サーバ装置20は、全ての通信経路30〜50において、信頼性無しと判定するので、業務処理を実行している場合は、障害が発生していなくても、業務処理を停止する。この結果、スプリットブレインシンドロームの発生が回避される。
また、サーバ装置20に障害が発生し、これにより、ハートビート信号が送信できなかった場合、サーバ装置20では、上述のステップA1〜A7の処理は実行されないが、既に業務処理は停止されているので、スプリットブレインシンドロームが発生することはない。
ところで、サーバ装置20が単にハングしたために、サーバ装置10にハートビート信号を送れない場合も、サーバ装置10は、サーバ装置20に障害が発生していると判断する。しかし、単なるハングであるため、暫くの後、サーバ装置20がハング状態から復旧して、スプリットブレインシンドロームが発生してしまう可能がある。このため、本実施の形態では、上述したように、サーバ装置10及び20には、自動停止部15及び25が設けられており、このような事態の発生が回避される。
[プログラム]
本形態におけるプログラムは、コンピュータに、図3に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、クラスタシステム、サーバ装置、クラスタシステムの管理方法を実現することができる。この場合、サーバ装置10となるコンピュータのCPU(Central Processing Unit)は、信号送信部11、信頼性判定部12、処理管理部13、信号受信部14、及び自動停止部15として機能し、処理を行なう。また、サーバ装置20となるコンピュータのCPU(Central Processing Unit)は、信号送信部21、信頼性判定部22、処理管理部23、信号受信部24、及び自動停止部25として機能し、処理を行なう。
[変形例]
上述した例では、各サーバ装置において、信頼性判定部は、全ての通信経路について信頼性を判定しているが、本実施の形態は、この態様に限定される趣旨ではない。本実施の形態は、信頼性判定部が、一部の通信経路についてのみ、信頼性を有しているかどうかを判定する態様であっても良い。
また、上述の例では、通信経路として、パブリックLAN、インターコネクトLAN、SCSI/FCによる通信経路が例示されているが、本実施の形態では、サーバ装置間を接続する通信経路の数及び種類は特に限定されるものではない。他の通信経路としては、BMC(Baseboard Management Controller)制御用のLAN、RS232Cポートを利用した通信経路、無線LANを利用した通信経路、USB端子を利用した通信経路等が挙げられる。
[物理構成]
ここで、本実施の形態におけるプログラムを実行することによって、サーバ装置を実現するコンピュータについて図5を用いて説明する。図5は、本発明の実施の形態におけるサーバ装置を実現するコンピュータの一例を示すブロック図である。
図5に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記24)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
通信経路によって接続された複数のサーバ装置を備え、
前記複数のサーバ装置それぞれは、
他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするクラスタシステム。
(付記2)
前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記1に記載のクラスタシステム。
(付記3)
前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
各サーバ装置の処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記2に記載のクラスタシステム。
(付記4)
前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記3に記載のクラスタシステム。
(付記5)
前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記4に記載のクラスタシステム。
(付記6)
前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
付記1に記載のクラスタシステム。
(付記7)
通信経路によって他のサーバ装置と接続されるサーバ装置であって、
前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、処理管理部と、
を備えている、ことを特徴とするサーバ装置。
(付記8)
前記処理管理部は、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記7に記載のサーバ装置。
(付記9)
2つ以上の通信経路によって前記他のサーバ装置と接続されており、
前記処理管理部は、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記8に記載のサーバ装置。
(付記10)
サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
付記9に記載のサーバ装置。
(付記11)
前記信頼性判定部は、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記10に記載のサーバ装置。
(付記12)
前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
付記7に記載のサーバ装置。
(付記13)
通信経路によって接続された複数のサーバ装置を用い、
前記複数のサーバ装置それぞれによって実行される、
(a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を有する、ことを特徴とするクラスタシステムの管理方法。
(付記14)
前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、
付記13に記載のクラスタシステムの管理方法。
(付記15)
前記複数のサーバ装置が、互いに2つ以上の通信経路によって接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のサーバ装置に異常が発生していると判断する、付記14に記載のクラスタシステムの管理方法。
(付記16)
前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
付記15に記載のクラスタシステムの管理方法。
(付記17)
前記(b)のステップにおいて、
前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記16に記載のクラスタシステムの管理方法。
(付記18)
前記複数のサーバ装置それぞれによって実行される、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
付記13に記載のクラスタシステムの管理方法。
(付記19)
通信経路によって他のコンピュータと接続されるコンピュータに、
(a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
(b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
(c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させる、ステップと、
を実行させる、プログラム。
(付記20)
前記(c)のステップにおいて、確認の結果、前記通信経路が信頼性を有していると判定されている場合は、前記他のコンピュータに異常が発生していると判断して、当該コンピュータで実行中にある処理を継続して実行し、又は、前記他のコンピュータが実行している処理を代わりに実行する、
付記19に記載のプログラム。
(付記21)
前記コンピュータが、2つ以上の通信経路によって前記他のコンピュータと接続されており、
前記(c)のステップにおいて、いずれかの前記通信経路が信頼性を有していると判定されている場合に、前記他のコンピュータに異常が発生していると判断する、付記20に記載のプログラム。
(付記22)
前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
付記21に記載のプログラム。
(付記23)
前記(b)のステップにおいて、
前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記コマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
付記22に記載のプログラム。
(付記24)
記コンピュータに、
(d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを更に実行させる
記19に記載のプログラム。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年12月25日に出願された日本出願特願2013−267038を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように、本発明によれば、クラスタシステムにおいて処理内容が衝突してしまう事態の発生を回避することができる。本発明は、クラスタシステムの管理に有用である。
10 サーバ装置
11 信号送信部
12 信頼性判定部
13 処理管理部
14 信号受信部
15 自動停止部
16、17、18 通信インターフェイス
19 業務処理実行部
20 サーバ装置
21 信号送信部
22 信頼性判定部
23 処理管理部
24 信号受信部
25 自動停止部
26、27、28 通信インターフェイス
29 業務処理実行部
30 通信経路
31 ネットワーク
32 ルーター
40 通信経路
50 通信経路
51 記憶装置
100 クラスタシステム
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (16)

  1. 2つ以上の通信経路によって接続された複数のサーバ装置を備え、
    前記複数のサーバ装置それぞれは、
    他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、
    信号送信部と、
    前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
    前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、処理管理部と、
    を備えている、ことを特徴とするクラスタシステム。
  2. 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
    請求項に記載のクラスタシステム。
  3. 前記信頼性判定部は、
    前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項に記載のクラスタシステム。
  4. 前記複数のサーバ装置それぞれは、更に、前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を備えている、
    請求項1〜のいずれかに記載のクラスタシステム。
  5. 2つ以上の通信経路によって他のサーバ装置と接続されるサーバ装置であって、
    前記他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、信号送信部と、
    前記通信経路が信頼性を有しているかどうかを判定する、信頼性判定部と、
    前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、処理管理部と、
    を備えている、ことを特徴とするサーバ装置。
  6. サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のサーバ装置に接続されている、
    請求項に記載のサーバ装置。
  7. 前記信頼性判定部は、
    前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項に記載のサーバ装置。
  8. 前記信号送信部からの前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、自動停止部を更に備えている、
    請求項のいずれかに記載のサーバ装置。
  9. 2つ以上の通信経路によって接続された複数のサーバ装置を用い、
    前記複数のサーバ装置それぞれによって実行される、
    (a)他のサーバ装置に対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
    (b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
    (c)前記他のサーバ装置から前記信号を受信できない状況となると、前記他のサーバ装置との間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、ステップと、
    を有する、ことを特徴とするクラスタシステムの管理方法。
  10. 前記複数のサーバ装置が、サーバ装置間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、互いに接続されている、
    請求項に記載のクラスタシステムの管理方法。
  11. 前記(b)のステップにおいて、
    前記サーバ装置間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項10に記載のクラスタシステムの管理方法。
  12. 前記複数のサーバ装置それぞれによって実行される、
    (d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該サーバ装置を停止させる、ステップを更に有している、
    請求項〜1のいずれかに記載のクラスタシステムの管理方法。
  13. 2つ以上の通信経路によって他のコンピュータと接続されるコンピュータに、
    (a)前記他のコンピュータに対して、前記通信経路を介して、自身の存在を示す信号を送信する、ステップと、
    (b)前記通信経路が信頼性を有しているかどうかを判定する、ステップと、
    (c)前記他のコンピュータから前記信号を受信できない状況となると、前記他のコンピュータとの間の2つ以上の前記通信経路について信頼性を有していると判定されているかどうかを確認し、確認の結果、いずれかの前記通信経路が信頼性を有していると判定されていない場合は、実行中にある処理を停止させ、いずれかの前記通信経路が信頼性を有していると判定されている場合は、前記他のサーバ装置に異常が発生していると判断して、当該サーバ装置に、実行中にある処理を継続して実行させ、又は、前記他のサーバ装置が実行している処理を代わりに実行させる、ステップと、
    を実行させる、プログラム。
  14. 前記コンピュータは、コンピュータ間を直接結ぶ通信経路、ネットワークを経由する通信経路、及び記憶装置を経由した通信経路によって、前記他のコンピュータに接続されている、
    請求項13に記載のプログラム。
  15. 前記(b)のステップにおいて、
    前記コンピュータ間を直接結ぶ通信経路については、通信インターフェイスが通電状態にある場合に、信頼性を有していると判定し、
    前記ネットワークを経由する通信経路については、前記ネットワーク上に存在する機器にリクエストを送信し、前記機器から前記リクエストに対するレスポンスが返信されてきた場合に、信頼性を有していると判定し、
    前記記憶装置を経由した通信経路については、前記記憶装置にコマンドを送信し、前記記憶装置から前記たコマンドに対するレスポンスが返信されてきた場合に、信頼性を有していると判定する、
    請求項14に記載のプログラム。
  16. 前記コンピュータに、
    (d)前記(a)のステップによる前記信号の送信が途絶えた場合に、当該コンピュータを停止させる、ステップを更に実行させる、
    請求項115のいずれかに記載のプログラム。
JP2015554749A 2013-12-25 2014-12-15 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 Active JP6183931B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013267038 2013-12-25
JP2013267038 2013-12-25
PCT/JP2014/083085 WO2015098589A1 (ja) 2013-12-25 2014-12-15 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2015098589A1 JPWO2015098589A1 (ja) 2017-03-23
JP6183931B2 true JP6183931B2 (ja) 2017-08-23

Family

ID=53478453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554749A Active JP6183931B2 (ja) 2013-12-25 2014-12-15 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。

Country Status (4)

Country Link
US (1) US10102088B2 (ja)
JP (1) JP6183931B2 (ja)
CN (1) CN105849702A (ja)
WO (1) WO2015098589A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6409812B2 (ja) * 2016-04-01 2018-10-24 横河電機株式会社 冗長化装置、冗長化システム、及び冗長化方法
JP6662185B2 (ja) 2016-04-28 2020-03-11 横河電機株式会社 処理装置、代替処理装置、中継装置、処理システム及び処理方法
JP6623996B2 (ja) 2016-09-26 2019-12-25 横河電機株式会社 処理装置、ネットワーク装置、処理装置の制御方法、ネットワーク装置の制御方法、処理装置の制御プログラム、ネットワーク装置の制御プログラム及び記録媒体
CN106452952B (zh) * 2016-09-29 2019-11-22 华为技术有限公司 一种检测集群***通信状态的方法及网关集群
CN110377487A (zh) * 2019-07-11 2019-10-25 无锡华云数据技术服务有限公司 一种处理高可用集群脑裂的方法及装置
JP7328907B2 (ja) * 2020-01-31 2023-08-17 株式会社日立製作所 制御システム、制御方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08171507A (ja) 1994-12-16 1996-07-02 Mitsubishi Electric Corp 異常監視方法
US6785840B1 (en) * 1999-08-31 2004-08-31 Nortel Networks Limited Call processor system and methods
US6785678B2 (en) * 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
JP4102060B2 (ja) 2001-12-06 2008-06-18 三菱電機株式会社 データ受信装置
US7076687B2 (en) * 2002-10-16 2006-07-11 Hitachi, Ltd. System and method for bi-directional failure detection of a site in a clustering system
JP2004302512A (ja) * 2003-03-28 2004-10-28 Hitachi Ltd クラスタコンピューティングシステム、および、そのフェールオーバー方法
US7284147B2 (en) * 2003-08-27 2007-10-16 International Business Machines Corporation Reliable fault resolution in a cluster
US8543781B2 (en) * 2004-02-06 2013-09-24 Vmware, Inc. Hybrid locking using network and on-disk based schemes
US7590737B1 (en) * 2004-07-16 2009-09-15 Symantec Operating Corporation System and method for customized I/O fencing for preventing data corruption in computer system clusters
US7739677B1 (en) * 2005-05-27 2010-06-15 Symantec Operating Corporation System and method to prevent data corruption due to split brain in shared data clusters
JP2008172592A (ja) 2007-01-12 2008-07-24 Hitachi Ltd クラスタシステム、コンピュータおよびその異常検出方法
US8498967B1 (en) * 2007-01-30 2013-07-30 American Megatrends, Inc. Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome
CN101291243B (zh) 2007-04-16 2012-10-10 广东新支点技术服务有限公司 高可用集群***的裂脑预防方法
US8001413B2 (en) * 2008-05-05 2011-08-16 Microsoft Corporation Managing cluster split-brain in datacenter service site failover
CN101582787B (zh) * 2008-05-16 2011-12-07 中兴通讯股份有限公司 一种双机备份***及备份方法
US8671218B2 (en) * 2009-06-16 2014-03-11 Oracle America, Inc. Method and system for a weak membership tie-break
CN101674331B (zh) 2009-10-21 2012-11-07 成都市华为赛门铁克科技有限公司 集群存储***及其脑裂处理方法
US8108715B1 (en) * 2010-07-02 2012-01-31 Symantec Corporation Systems and methods for resolving split-brain scenarios in computer clusters
US8806264B2 (en) * 2010-08-30 2014-08-12 Oracle International Corporation Methods for detecting split brain in a distributed system
US8560628B2 (en) * 2011-01-11 2013-10-15 International Business Machines Corporation Supporting autonomous live partition mobility during a cluster split-brained condition
JP5699658B2 (ja) * 2011-02-10 2015-04-15 日本電気株式会社 待機系計算機、クラスタシステム、サービス提供方法およびプログラム
JP2012173996A (ja) * 2011-02-22 2012-09-10 Nec Corp クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム
CN102457400B (zh) 2011-06-09 2014-11-05 中标软件有限公司 一种防止磁盘镜像资源发生脑裂的方法
CN102394914A (zh) 2011-09-22 2012-03-28 浪潮(北京)电子信息产业有限公司 集群脑裂处理方法和装置
JP6026142B2 (ja) * 2012-06-04 2016-11-16 株式会社日立製作所 複数計算機が独立動作する制御システム
CN102799394B (zh) * 2012-06-29 2015-02-25 华为技术有限公司 一种实现高可用集群的心跳服务的方法及装置
CN102932118B (zh) 2012-11-05 2015-11-25 中国铁道科学研究院 一种双机主备裁决的方法及***
CN103051470B (zh) * 2012-11-29 2015-10-07 中标软件有限公司 一种集群及其磁盘心跳的控制方法
CN103209095B (zh) 2013-03-13 2017-05-17 广东中兴新支点技术有限公司 一种基于磁盘服务锁的裂脑预防的方法和装置

Also Published As

Publication number Publication date
US20170039118A1 (en) 2017-02-09
WO2015098589A1 (ja) 2015-07-02
CN105849702A (zh) 2016-08-10
US10102088B2 (en) 2018-10-16
JPWO2015098589A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6183931B2 (ja) クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
JP5872731B2 (ja) クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム
US10715411B1 (en) Altering networking switch priority responsive to compute node fitness
US10693813B1 (en) Enabling and disabling links of a networking switch responsive to compute node fitness
US10089028B2 (en) Remote secure drive discovery and access
US8910172B2 (en) Application resource switchover systems and methods
US8402189B2 (en) Information processing apparatus and data transfer method
US7783794B2 (en) Remote USB access method
US7937610B2 (en) Fast node failure detection via disk based last gasp mechanism
US20180081776A1 (en) Automated System-Level Failure and Recovery
JP6551111B2 (ja) 情報処理装置、ダウン判定方法、クラスタシステム、及びプログラム
JP2012038257A (ja) Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
JP6134720B2 (ja) 接続方法
JP2015070522A (ja) 情報処理装置、情報処理システム、及びプログラム
EP2616938B1 (en) Fault handling systems and methods
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP2011253285A (ja) 診断システム、診断装置及び診断プログラム
JP2012133622A (ja) 計算機切替システム、計算機切替プログラム、および計算機切替方法
WO2016117008A1 (ja) ストレージシステム、計算機システム、及び障害箇所推定方法
JP2000010823A (ja) 計算機及び計算機システム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2017167869A (ja) 管理装置、バックアップシステム、バックアップ管理方法、プログラム
JP2010004449A (ja) 通信システム及びクライアント装置及びサーバ装置
JP2016157254A (ja) 制御装置、制御方法及び制御プログラム
KR20150077350A (ko) 클러스터 시스템에서 클러스터를 처리하기 위한 방법과 장치 및 시스템
JP2013025539A (ja) マルチcpuシステムの監視システム及び監視方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170720

R150 Certificate of patent or registration of utility model

Ref document number: 6183931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150