JP6447047B2 - 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム - Google Patents

送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP6447047B2
JP6447047B2 JP2014235595A JP2014235595A JP6447047B2 JP 6447047 B2 JP6447047 B2 JP 6447047B2 JP 2014235595 A JP2014235595 A JP 2014235595A JP 2014235595 A JP2014235595 A JP 2014235595A JP 6447047 B2 JP6447047 B2 JP 6447047B2
Authority
JP
Japan
Prior art keywords
node
information
transmission
communication
reception control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014235595A
Other languages
English (en)
Other versions
JP2016100711A (ja
Inventor
宗王 星
宗王 星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014235595A priority Critical patent/JP6447047B2/ja
Publication of JP2016100711A publication Critical patent/JP2016100711A/ja
Application granted granted Critical
Publication of JP6447047B2 publication Critical patent/JP6447047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Communication Control (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、複数の装置間において情報の送受信を制御する技術分野に関する。
近年、技術の発展に伴い、例えば、コンピュータ・システムにおいて取り扱う情報量は膨大である。この膨大な情報を使用した大規模な処理であっても、その処理を効率よく実現する技術は、数多く存在する。その技術の一例としては、ネットワークに接続された複数のノード装置(以下、本願では、単に、「ノード」と記載する場合もある。)を利用して処理を分散させるマルチノードシステムが知られている。そのため、大規模な数値計算を必要とする分野などマルチノードシステムの利用範囲は広がっている。また、マルチノードシステムでは、高い信頼性を実現することを目的として、障害の発生を抑制するだけでなく、発生した障害の影響を極小化することが求められている。
ここで、本願出願に先立って存在する関連技術としては、例えば、特許文献1及び特許文献2がある。
特許文献1は、マルチノードシステム、ノード間スイッチ及びデータ中継方法に関する技術を開示する。特許文献1に開示されたマルチノードシステムは、命令処理情報を送信(以下、本願では、「送出」と記載する場合もある。)する第1のノードと、その命令処理情報を第2のノードに対して転送するノード間スイッチとを備える。
より具体的に、第1のノードは、複数のブロックに分割された命令処理情報を、第2のノードに対して送信する。第2のノードは、ノード間スイッチから転送された当該ブロックに対する応答信号を、第1のノードに対して送信する。例えば、第2のノードにおいて障害が発生した場合に、ノード間スイッチは、当該応答信号を、第2のノードの代わりに第1のノードに対して送信する。また、ノード間スイッチは、当該命令処理情報の転送を停止する。これにより、第1のノードは、障害が発生した場合であっても、第2のノードから応答信号を待つことなく処理を終了することができる。
次に、特許文献2は、マルチノードシステム、ノード装置、ノード間クロスバスイッチ及び障害処理方法に関する技術を開示する。特許文献2に開示されたマルチノードシステムは、複数のノードと、それら複数のノードが接続されたノード間クロスバスイッチとを備える。
より具体的に、特許文献2に開示されたノードは、自装置内において障害が発生した場合に、その障害が発生したことをノード間クロスバスイッチに対して通知する障害通知手段を備える。また、ノードは、他のノードから障害通知を受信した場合には、転送中のデータを破棄する障害制御手段と、障害通知に基づき障害の発生箇所を特定する障害特定手段とを備える。
また、特許文献2に開示されたノード間クロスバスイッチは、障害監視手段と、通知発行手段とを備える。
より具体的に、障害監視手段は、複数のノードから障害通知を受けることによって、各ノードにおいて障害が発生したか否かを監視する。通知発行手段は、ノード間においてデータを転送中の場合に、障害が発生したノードを識別可能なノード番号を含む障害通知を、正常に動作するノードに対して発行する。即ち、通知発行手段は、転送先のノードにおいて障害が発生した場合に、転送元のノード番号を含むロックテーブルを参照することによって、転送元のノードに対して障害通知を発行することができる。一方で、通知発行手段は、転送元のノードにおいて障害が発生した場合には、転送先のノード番号を格納する転送先情報レジスタを参照することによって、転送先のノードに対して障害通知を発行することができる。
このように、特許文献2に開示された技術では、2つのノードがなす組毎に、それらノードのノード番号を含むロックテーブル及び転送先情報レジスタの何れかを参照することによって、障害通知を発行すべきノードを特定することができる。また、当該技術は、特定したノードに対して障害通知を発行することができる。
特許第5082147号公報 特開2006−178786号公報
上述したマルチノードシステムは、複数のノードと、そられノード間を接続するスイッチを含む中継ネットワークと、複数のノードを管理する管理ノードを含む管理ネットワークとを備えることが知られている。また、この中継ネットワークは、例えば、複数のスイッチが多段に構成されていることも知られている。
例えば、マルチノードシステムでは、ジョブを実行する2つのノードのうち、特定のノードにおいて障害が発生した場合に、そのジョブは、中断(アボート)する。その後、障害から復帰した特定のノードには、新たなジョブが割り当てられる。そして、特定のノードは、新たに割り当てられたジョブを再開することが知られている。
アボートとなった場合に、その中断したジョブに関する通信パケットは、例えば、管理ネットワーク内に滞留する。これに対して、正常に動作する他方のノードでは、所定の時間内においてリプライが返ってこない場合に、当該ジョブに関する処理を終了(タイムアウト)する。その後、他方のノードは、特定のノードとの間において通信エラーが発生したと判断し、通信パケットなどの当該ジョブに関するデータを廃棄することが知られている。このように、例えば、特許文献2に開示された回線交換方式を採用する場合や小規模なマルチノードシステムでは、上述した処理が比較的に短時間のうちに行われる。そのため、大きな問題は生じていなかった。
しかしながら、回線交換方式を採用する場合や小規模なマルチノードシステムと比べ、パケット交換方式を採用する場合やノード数が飛躍的に増大した大規模なマルチノードシステムでは、中継ネットワーク内に、より多数の通信パケットが滞留している虞がある。そのため、大規模なマルチノードシステムでは、以下に示すような問題が生じる。
以下の説明では、より具体的に、例えば、特定のノードにおいて障害が発生した際に生じる問題について、図8及び図9を参照して説明する。
尚、以下の説明では、説明の便宜上、一例として、ノード203−1とノード203−2との間においてジョブが実行されることとする。また、以下の説明では、ノード203−2において障害が発生したこととする。
図8は、マルチノードシステム200の構成を示すブロック図である。図9は、マルチノードシステム200において障害が発生した際の動作を示すシーケンス図である。
図8において、マルチノードシステム200は、管理ネットワーク201、中継ネットワーク202及び複数のノード(ノード203−1乃至203−2)を有する。また、ノード203−1乃至203−2と管理ネットワーク201とは、通信可能に接続することができる。ノード203−1乃至203−2と中継ネットワーク202とは、通信可能に接続することができる。
ノード203−1乃至203−2は、図8に示すようにそれぞれ主記憶装置204−1乃至204−2を有する。
図9において、縦軸方向は、時間の流れを示す。矢印は、通信パケットの流れを示している。破線によって示す矢印は、障害が発生したことを通知する障害パケットの流れを示している。また、障害処理期間は、障害が発生してから復帰するまでの処理期間を示す。中継ネットワーク202は、3つのステージ(ステージ1乃至3)に分けられ、それぞれのステージは複数のスイッチによって構成されている。
障害パケットは、ノード203−2から管理ネットワーク201を介して中継ネットワーク202に接続された複数のノードに対して通知される。管理ネットワーク201は、ノードを管理する一般的なネットワークであるので説明を省略する。
図9において、ノード203−1には、障害が発生した後に、通信パケットAとBとが到着する。通信パケットAは、ノード203−2において障害が発生する前に、ノード203−2から送出されたパケットである。通信パケットBは、ノード203−2において障害が発生した後に、ノード203−2から送出されたパケットである。これら2つのパケットを区別して処理しない場合に、ノード203−1では、例えば、データ化けなどの誤動作を引き起こす可能性がある。そのため、ノード203−1は、通信パケットAとBとを区別して処理する必要がある。
しかしながら、マルチノードシステム200では、障害発生前に実行されたジョブに関する通信パケットなのか、障害発生後に実行されたジョブに関する通信パケットなのかを識別することができない。
この問題に対する解決手法には、例えば、障害から復帰したノード203−2に対する新たなジョブの割り当てを、一定の時間に亘って遅延させる方法が考えられる。また、ノード203−1では、障害が発生する前に実行されたジョブに関連する各種情報を、タイムアウトを契機に廃棄する。これにより、ジョブの割り当てを制止している間に、滞留していた通信パケットは、処理される、或いは廃棄される。その結果、ノード203−1は、誤動作が発生することを回避することができる。
しかしながら、この手法は、一定の時間に亘って待機する必要がある。そのため、当該手法では、マルチノードシステム200の稼働率及び運用性を低下させる虞がある。また、例えば、タイムアウトまでの時間は、中継ネットワーク202の構成が複雑、且つ大規模になるに伴い増大する可能性がある。即ち、各ノードにおいて、例えば、データ転送などジョブの実行に必要となるリソースが利用できない時間は増加する。
このような場合に、例えば、障害発生前と障害発生後とに送出された通信パケットを区別する手法が考えられる。この区別する手法は、障害発生後に実行されるジョブを識別可能な識別番号を、障害発生前に実行されたジョブの識別番号と異なる番号を付与することによって実現することができる。これによって、例えば、ノード203−1は、識別番号に基づき通信パケットを区別して処理することができる。
しかしながら、同時に利用可能な識別番号の数を増やすことを目的として、各ノードでは、識別番号に応じて、ジョブに関連する各種情報を複数セット用意する必要がある。そのため、当該区別する手法では、各ノードにおいてハードウェア量を増加させるという問題を引き起こす。その結果、設備費用や管理費用は膨大となる。
また、マルチノードシステム200では、利用可能な識別番号の数を増やした場合であっても、通信パケットが中継ネットワーク202内に滞留しているのかを確認する手法がない。そのため、識別番号は枯渇する虞がある。より具体的に、例えば、マルチノードシステム200は、一定の時間が経過した後に、仕掛中の(つまり、滞留していた)通信に関する処理が全て完了することによって、ジョブに付与された識別番号を再利用することができる。
しかしながら、マルチノードシステム200では、障害が発生した場合に、係る処理が全て完了するまで識別番号を再利用できないだけでなく、上述したように通信パケットが中継ネットワーク202内にどの程度滞留しているのかが不明である。そのため、識別番号を再利用することが可能なタイミングは不明である。即ち、識別番号を再利用できるまでの待ち時間は、マルチノードシステムが大規模になるにつれて無視できないほど大きくなる。
例えば、十分な時間に亘って待つことなく、即座に、識別番号を再利用した場合には、マルチノードシステム200は、同様に、障害発生前と障害発生後とに送出された通信パケットを区別することができない。そのため、識別番号の再利用にあたり、マルチノードシステム200では、一定の時間に亘ってジョブの割り当てを遅延させる必要がある。その結果、利用できる識別番号の数は少なくなる。このように、識別番号の数を増やした場合であっても、マルチノードシステム200では、稼働率及び運用性を低下させる虞がある。
特許文献1には、第2のノードにおいて障害が発生した場合に、ノード間スイッチが応答信号を、第2のノードの代わりに第1のノードに対して送信することが記載されている。これにより、特許文献1は、通信処理を正常に完了することができる。そのため、特許文献1は、上述した回線交換方式やパケット交換方式に適用することができる。しかしながら、特許文献1では、第2のノードが障害から復帰した際に、ネットワーク内に正常な通信が滞留している可能性がある。そのため、特許文献1に開示された技術を、例えば、大規模なネットワークに適用した場合に、ノード間スイッチは、速やかに、且つ容易に当該正常な通信を廃棄すると共に、応答信号を送信することができない虞がある。また、例えば、ノード間スイッチが送信すべき応答信号を生成する前に、第2のノードが障害から復帰した場合に、ノード間スイッチは、障害発生前の通信なのか障害発生後の通信なのかを判別する必要がある。即ち、ノード間スイッチは、どの通信が廃棄すべき通信なのか正常に処理すべき通信なのかを判別する必要がある。しかしながら、特許文献1には、上述した判別処理について、考慮されておらず何ら述べられていない。即ち、特許文献1では、上述したように障害発生前に実行されたジョブに関する通信パケットなのか、障害発生後に実行されたジョブに関する通信パケットなのかを識別することができない。その結果、特許文献1では、ジョブの実行に必要となるリソースが利用できない時間は増加する。
また、特許文献2には、回線交換方式を採用した場合に、通信する2つのノードのうち何れか一方のノードにおいて発生した障害を、効率よく対処する手法が開示されている。しかしながら、特許文献2では、パケット交換方式を採用した場合について、考慮されておらず何ら述べられていない。そのため、特許文献2では、パケット交換方式を採用した大規模なマルチノードシステムにおいて上述した問題を解決することができない。即ち、特許文献2に開示された技術は、大規模なパケット交換方式に適用することできない。
例えば、特許文献2に開示されたノード間クロスバスイッチは、転送データの送信元であるノードを識別可能なノード情報を含むロックテーブルを有する。そのため、転送処理を実行中に送信元のノードにおいて障害が発生した場合であっても、ノード間クロスバスイッチは、ロックテーブルを参照することによって、障害の発生したノードを特定することができる。しかしながら、パケット交換方式を採用したマルチノードシステムでは、複数のノード間において転送処理を実行する。即ち、転送データを転送する相手は1つとは限らない。そのため、パケット交換方式を採用したマルチノードシステムでは、どのノード間において転送処理が実行中であるか否かを判別することが困難である。
例えば、回線交換方式を採用したマルチノードシステムでは、転送処理が終了することによって、2つのノード間における通信経路のロックは解除される。即ち、回線交換方式を採用したマルチノードシステムは、転送処理が実行中であるか否かを容易に判別することができる。しかしながら、パケット交換方式では、このようなロックを必要としない。そのため、パケット交換方式を採用したマルチノードシステムでは、転送処理が終了したことを、容易に知ることができない。
このように、特許文献2に開示された技術は、2つのノード間において障害が発生した場合の対処手法が記載されているに留まる。即ち、当該技術は、転送先であるノードと、転送元であるノードとの2つのノード間において障害が発生した場合だけを想定している。そのため、当該技術では、大規模なマルチノードシステムに適用した場合に、上述した問題を解決することができない。
本発明は、通信する複数のノード間において障害が発生した場合であっても、可用性を維持することが可能な送受信制御装置等を提供することを主たる目的とする。
上記の課題を達成すべく、本発明の一態様に係る送受信制御装置は、以下の構成を備えることを特徴とする。
即ち、本発明の一態様に係る送受信制御装置は、
通信対象であるノード装置との通信状態に応じて、該ノード装置との間において送受信される通信情報に対して送受信処理及び廃棄処理を実行可能であり、
前記ノード装置において障害が生じたことを示す障害情報を受信するのに応じて、前記廃棄処理を実行する一方で、
前記廃棄処理から前記送受信処理に動作を切り替えるよう要求する第1切替情報を受信した場合には、動作を前記送受信処理に切り替えると共に該送受信処理を実行し、
生じた障害から復帰した場合には、前記第1切替情報を前記ノード装置に対して送出する。
或いは、同目的は、上記に示す送受信制御装置を含むマルチノードシステムによっても達成される。
或いは、同目的は、上記に示す送受信制御装置を含むノード装置によっても達成される。
また、同目的を達成すべく、本発明の一態様に係る送受信制御方法は、以下の構成を備えることを特徴とする。
即ち、本発明の一態様に係る送受信制御方法は、
情報処理装置によって、
通信対象であるノード装置との通信状態に応じて、該ノード装置との間において送受信される通信情報に対して送受信処理及び廃棄処理を実行する際に、
前記ノード装置において障害が生じたことを示す障害情報を受信するのに応じて、前記廃棄処理を実行する一方で、
前記廃棄処理から前記送受信処理に動作を切り替えるよう要求する第1切替情報を受信した場合には、動作を前記送受信処理に切り替えると共に該送受信処理を実行し、
生じた障害から復帰した場合には、前記第1切替情報を前記ノード装置に対して送出する。
尚、同目的は、上記の各構成を有する送受信制御装置及び送受信制御方法を、コンピュータによって実現するコンピュータ・プログラム、及びそのコンピュータ・プログラムが格納されている、読み取り可能な記憶媒体によっても達成される。
本発明によれば、通信する複数のノード間において障害が発生した場合であっても、可用性を維持することが可能な送受信制御装置等を提供することができる。
本発明の第1の実施形態における送受信制御装置を含むマルチノードシステムの構成を示すブロック図である。 本発明の第1の実施形態における送受信制御装置を含むノードの構成を示すブロック図である。 本発明の第1の実施形態における送受信制御装置が行う動作を示すシーケンス図(フローチャート)である。 本発明の第2の実施形態における送受信制御装置を含むノードの構成を示すブロック図である。 本発明の第2の実施形態における送受信制御装置が行う動作を示すシーケンス図である。 本発明の第3の実施形態における送受信制御装置を含むノードの構成を示すブロック図である。 本発明に係る各実施形態を実現可能な情報処理装置のハードウェア構成を例示的に説明するブロック図である。 マルチノードシステムの構成を示すブロック図である。 マルチノードシステムにおいて障害が発生した際の動作を示すシーケンス図である。
以下、本発明の実施形態について図面を参照して詳細に説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態における送受信制御装置1を含むマルチノードシステム10の構成を示すブロック図である。
図1において、マルチノードシステム10は、大別して、管理ネットワーク11、中継ネットワーク12及び複数のノード(ノード13−1乃至13−2)を有する。
これらノード13−1乃至13−2と管理ネットワーク11とは、通信可能に接続することができる。また、ノード13−1乃至13−2と中継ネットワーク12とは、通信可能に接続することができる。
図1に示すように、複数のノード13−1乃至13−2は、それぞれ主記憶装置14−1乃至14−2を有する。
尚、説明の便宜上、以下の説明では、ノード13−1乃至13−2を、総称して「ノード13」と称する。また、以下の説明では、主記憶装置14−1乃至14−2を、総称して「主記憶装置14」と称する(以下、各実施形態においても同様)。
図2は、本発明の第1の実施形態における送受信制御装置1を含むノード13の構成を示すブロック図である。図2において、ノード13は、送受信制御装置1、ノード情報101及びリプライ待ち情報102を有する。
送受信制御装置1は、複数のノード13間において通信情報(通信パケット)を送受信する際に、通信の対象である(通信先の)ノード13との通信状態に応じて、通信情報を送受信する送受信処理及び通信情報を廃棄する廃棄処理を実行可能である。
より具体的に、送受信制御装置1は、複数のノード13間において通信情報に対する送受信処理及び廃棄処理を実行する際に、通信対象であるノード13を識別可能なノード番号(例えば、識別子)に基づいて、ノード情報101を参照する。送受信制御装置1は、ノード情報101の中からノード番号に関連付けられた通信状態を示す情報(例えば、フラグ)を求める。送受信制御装置1は、求めた通信状態を示す情報が「有効」を示す場合に、通信情報を送受信する(送受信処理)。一方で、送受信制御装置1は、通信状態を示す情報が「無効」を示す場合には、通信情報を廃棄する(廃棄処理)。
通信情報(通信パケット)とは、自ノードと、通信の対象である1つ以上のノード13との間において実行される、例えば、リード(読み込み)処理やライト(書き込み)処理などのジョブに関する情報を含む。また、通信情報は、自ノードを識別可能なノード番号と、通信対象である当該ノード13のノード番号とをも含む。即ち、通信情報は、自ノードと、自ノードと異なる他のノード13との間において実行されるジョブに関する情報とノード番号とを含む。
また、ここでは、ノード情報101は、少なくとも、通信の対象であるノード13を識別可能なノード番号と、通信状態を示す情報とを含む。即ち、ノード情報101は、エントリ毎に、少なくとも、ノート番号をキーとして、ノード番号と通信状態を示す情報とが関連付けられた情報を含む。
通信状態とは、例えば、1つ以上のノード13間において通信する場合に、それらノード13間における通信状況を表す情報である。
より具体的に、通信状態は、それらノード13間において正常に通信可能な場合に、正常な状況である(有効である)ことを示す情報、例えば、「有効」を含む。一方で、通信状態は、正常に通信可能でない場合には、異常である(つまり、有効でない)ことを示す情報、例えば、「無効」を含む。そのため、通信状態を示す情報には、特定のノード13において障害が発生した場合に、「無効」を示す情報を含める。一方で、例えば、その障害から復帰した場合には、通信状態を示す情報は、「有効」を示す情報を含める。
尚、上述した本実施形態では、説明の便宜上、一例として、通信状態を示す情報には、「有効」または「無効」を含む構成を例に説明した。しかしながら本発明に係る実施形態は、係る構成に限定されない。通信状態を示す情報は、通信の対象であるノードとの間において正常に通信可能か否かを判別することが可能な情報であればよい。
次に、送受信制御装置1は、通信の対象である特定のノード13において障害が発生したことを示す障害情報(障害パケット)を受信した場合に、次に示す処理を実行する。
即ち、送受信制御装置1は、障害情報を受信するのに応じて、上述した廃棄処理を実行する。また、送受信制御装置1は、リプライ待ち情報102の中から特定のノード13との通信に関する情報を削除する。
より具体的に、送受信制御装置1は、その特定のノード13のノード番号に基づいて、ノード情報101を参照する。送受信制御装置1は、ノード情報101の中からノード番号に関連付けられた通信状態を示す情報に「無効」を示す情報を含める。即ち、送受信制御装置1は、通信状態を示す情報に「無効」を示す情報をセットする。
そして、送受信制御装置1は、特定のノード13のノード番号に基づいて、リプライ待ち情報102を参照する。送受信制御装置1は、リプライ待ち情報102の中からノード番号に関連付けられた特定のノード13に関するエントリを削除する。即ち、送受信制御装置1は、リプライ待ち情報102に含まれる特定のノード13との通信に関する情報を削除する。
ここで、リプライ待ち情報102とは、例えば、通信対象である1つ以上のノード13のノード番号と、ジョブを識別可能な識別番号と、送出した通信情報に対するリプライを受信した際の処理に必要となる情報とを含む。尚、処理に必要となる情報については、第3の実施形態において後述する。
次に、以下の説明では、特定のノード13が障害から復帰した場合の動作について説明する。
特定のノード13の送受信制御装置1は、中継ネットワーク12を介して、廃棄処理から送受信処理に動作を切り替えるように要求する第1切替情報(動作切替パケット)を、中継ネットワーク12に接続されたノード13に対して与える(送出する)。
中継ネットワーク12を介して第1切替情報を受信したノード13の送受信制御装置1は、第1切替情報を受信した場合に、動作を送受信処理に切り替えると共に送受信処理を実行する。
より具体的に、送受信制御装置1は、第1切替情報を受信するのに応じて、特定のノード13のノード番号に基づいて、ノード情報101を参照する。送受信制御装置1は、ノード情報101の中からノード番号に関連付けられた通信状態を示す情報に「有効」を示す情報を含める。即ち、送受信制御装置1は、通信状態を示す情報を「無効」から「有効」に反転させる。
これによって、第1切替情報を受信したノード13は、障害の発生したノード13との通信を再開することができる。
尚、送受信制御装置1は、第1切替情報を送受信する場合には、上述した通信状態に応じて処理(送受信処理または廃棄処理)を行うことなく、第1切替情報を送受信することとする。
ここで、第1切替情報とは、少なくとも、障害の発生した特定のノード13を識別可能なノード番号を含む。即ち、第1切替情報は、第1切替情報を送出した送出元のノード13を識別可能なノード番号を含む。
このように、特定のノード13から送出された第1切替情報を特定のノード13と異なる他のノード13が受信することによって、通信するノード13間には、滞留する通信情報が転送経路上に存在しないことが保障される。
その理由は、障害の発生した特定のノード13から送出された第1切替情報は、中継ネットワーク12などの転送経路を通過して係る異なる他のノード13に到達するからである。
以下の説明において、より具体的に、本実施形態における送受信制御装置1の動作について説明する。
図3は、本発明の第1の実施形態における送受信制御装置1が行う動作を示すシーケンス図(フローチャート)である。係るシーケンス図に沿って送受信制御装置1の動作手順を説明する。
ここでは、説明の便宜上、一例として、ノード13−1とノード13−2との間において通信することとする。また、以下の説明では、ノード13−2において障害が発生することとする。その際、ノード13−2は、管理ネットワーク11を通してノード13−2において障害が発生したことを示す障害情報を、ノード13−1に対して通知する。
また、ノード13−2は、障害が発生する前に、ノード13−1に対して通信情報aを送出することとする。また、ノード13−2は、障害が発生した後に、ノード13−1に対して通信情報bを送出することとする。
尚、説明の便宜上、以下の説明では、障害の発生していないノード13−1を、「第1ノード13」と称し、障害の発生したノード13−2を、「第2ノード13」と称する。そして、以下の説明では、第1ノード13に含まれる送受信制御装置1を、「第1送受信制御装置1」と称し、第2ノード13に含まれる送受信制御装置1を、「第2送受信制御装置1」と称する。
また、以下の説明では、第1ノード13に含まれるノード情報101を、「第1ノード情報101」と称し、第2ノード13に含まれるノード情報101を、「第2ノード情報101」と称する。そして、以下の説明では、第1ノード13に含まれるリプライ待ち情報102を、「第1リプライ待ち情報102」と称し、第2ノード13に含まれるリプライ待ち情報102を、「第2リプライ待ち情報102」と称する(以下、各実施形態においても同様)。
説明の便宜上、上述した構成を例に説明するが、本実施形態を例に説明する本発明は、前述した構成には限定されない。
まず、以下の説明では、送受信制御装置1が障害情報を受信した際の動作について詳細に説明する。
第1送受信制御装置1は、障害情報を受信するのに応じて、第2送受信制御装置1のノード番号に基づいて、第1ノード情報101を参照する。第1送受信制御装置1は、第1ノード情報101の中からノード番号に関連付けられた通信状態を示す情報に「無効」を示す情報を含める。そして、第1送受信制御装置1は、ノード番号に基づいて、第1リプライ待ち情報102を参照する。第1送受信制御装置1は、第1リプライ待ち情報102の中からノード番号に関連付けられた第2ノード13に関連するエントリを削除する(ステップS1)。
これにより、第1送受信制御装置1は、例えば、図3に示すように通信情報aを受信した場合に、第2ノード13のノード番号に基づき第1ノード情報101を参照する。第1送受信制御装置1は、第1ノード情報101の中からノード番号に関連付けられた通信状態を示す情報を求める。また、第1送受信制御装置1は、求めた通信状態を示す情報が「無効」を示すために、通信情報aを廃棄することができる。さらに、第1リプライ待ち情報102の中から第2ノード13との通信に関する情報を削除することによって、第1ノード13は、既に割り当てられていたジョブの識別番号を、他のジョブと重複することなく、速やかに再利用することができる。
次に、以下の説明では、第2ノード13が障害から復帰した際の送受信制御装置1における動作について説明する。
第2送受信制御装置1は、第2ノード13が障害から復帰した場合に、中継ネットワーク12を介して第1切替情報を、第1ノード13に対して送出する(ステップS2)。
例えば、障害の発生した第2ノード13は、ハードウェアをリセットし、再起動することによって通常の運用に復帰することができる。また、復帰後には、第2ノード13は、新たなジョブが割り当てられ、ジョブの実行を再開することができる。
第1送受信制御装置1は、第2ノード13から第1切替情報を受信する。第1送受信制御装置1は、第2ノード13のノード番号に基づいて、第1ノード情報101を参照する。第1送受信制御装置1は、第1ノード情報101の中からノード番号に関連付けられた通信状態を示す情報を「無効」から「有効」に反転させる(ステップS3)。
これにより、第1送受信制御装置1は、通信情報を、第2ノード13に対して送受信することができる。より具体的に、第1送受信制御装置1は、図3に示すように通信情報bを受信した場合に、第1ノード情報101の中から求めた通信状態を示す情報が「有効」を示すために、通信情報bの受信処理を実行する。
このように本実施の形態に係る送受信制御装置1によれば、通信する複数のノード間において障害が発生した場合であっても、可用性を維持することができる。その理由は、以下に述べる通りである。
送受信制御装置1は、自ノード13と通信対象であるノード13との通信状態に応じて、通信情報に対する送受信処理及び廃棄処理を実行することができるからである。また、送受信制御装置1は、通信対象であるノード13から障害情報を受信した場合に、ノード情報101の通信状態を示す情報に「無効」を示す情報を含めることによって、通信情報を廃棄するよう動作を切り替えることができる。そして、送受信制御装置1は、通信対象であるノード13に関するエントリを、リプライ待ち情報102から削除することができる。そのため、ノード13は、ジョブの識別番号を再利用するにあたり待ち時間を設ける必要がない。また、障害の発生したノード13では、障害から復帰後に、可及的速やかにジョブの実行を開始することができる。即ち、送受信制御装置1は、障害が発生した際に、リソースを解放するまでの時間を短縮することができる。
また、通信対象であるノード13から第1切替情報を受信した場合には、送受信制御装置1は、ノード情報101の通信状態を示す情報に「有効」を示す情報を含めることによって、通信情報を送受信するよう動作を切り替えることができる。そのため、ノード13は、ジョブを再開するにあたり待ち時間を設ける必要がない。また、マルチノードシステム10では、通信対象であるノード13から自ノード13に第1切替情報が到着することによって、中継ネットワーク12などのネットワーク内に通信情報が滞留していないことが保障される。その結果、即座に、後続の通信情報が到着する場合であっても、ノード13は、正常に処理を実行することができる。即ち、送受信制御装置1は、システムの稼働率と運用性を向上させることができる。マルチノードシステム10の運用にあたって、送受信制御装置1は、障害の発生後に無用な待ち時間を設定する必要がないからである。このように、送受信制御装置1は、マルチノードシステム10において障害が発生した場合であっても、識別番号の再利用やジョブの再開にあたり待ち時間を設ける必要が無く、より速やかにジョブを再開することのできるよう可用性を維持することができる。
<第2の実施形態>
次に、上述した本発明の第1の実施形態に係る送受信制御装置1を基本とする第2の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明する。その際、上述した各実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明は省略する。
本発明の第2の実施形態における送受信制御装置21について、図1、図3乃至図5を参照して説明する。
本実施形態におけるマルチノードシステムの構成は、第1の実施形態において説明したマルチノードシステム10(図1)の構成と同様である。そのため、重複する説明は省略する。
図4は、本発明の第2の実施形態における送受信制御装置21を含むノード13の構成を示すブロック図である。図4において、ノード13は、送受信制御装置21、ノード情報101及びリプライ待ち情報102を有する。
より具体的に、第1の実施形態における送受信制御装置1は、第1切替情報を受信するのに応じて、ノード情報101に含まれる通信状態を示す情報を「無効」から「有効」に切り替える処理を実行する構成を例に説明した。本実施形態における送受信制御装置21は、さらに、第1切替情報に対するリプライとして第2切替情報を、障害の発生した特定のノード13に対して与える。即ち、送受信制御装置21は、第2切替情報を、第1切替情報の送信元である特定のノード13に対して送出する。
また、特定のノード13の送受信制御装置21は、第1切替情報を送出する場合に、ノード情報101に含まれるノード番号に関連付けられた通信状態を示す情報に「無効」を示す情報を含める。その後、特定のノード13は、動作を開始する。
これにより、通信状態を示す情報が「無効」を示すために、特定のノード13の送受信制御装置21は、例えば、他のノード13から通信情報を受信した場合に、その通信情報を廃棄する。即ち、送受信制御装置21は、通信情報の廃棄処理を実行する。一方で、送受信制御装置21は、他のノード13に対して通信情報を送出する場合には、その通信情報の送出を待機する。
次に、特定のノード13の送受信制御装置21は、第1切替情報に対するリプライとして第2切替情報を受信した場合に、動作を送受信処理に切り替えると共に送受信処理を実行する。また、送受信制御装置21は、待機していた通信情報に対しては送出を再開する。
より具体的に、送受信制御装置21は、第1切替情報に対するリプライとして第2切替情報を受信した場合に、そのリプライを送出したノード13のノード番号に基づいて、ノード情報101を参照する。送受信制御装置21は、ノード情報101の中からノード番号に関連付けられた通信状態を示す情報に「有効」を示す情報を含める。即ち、送受信制御装置21は、通信状態を示す情報を「無効」から「有効」に反転させる。
これにより、通信状態を示す情報が「有効」を示すために、特定のノード13の送受信制御装置21は、他のノード13から受信した通信情報を廃棄することなく受信する。また、送受信制御装置21は、待機していた通信情報の送出を再開することができる。
以下の説明において、より具体的に、本実施形態における送受信制御装置21の動作について説明する。
図5は、本発明の第2の実施形態における送受信制御装置21が行う動作を示すシーケンス図である。係るシーケンス図に沿って送受信制御装置21の動作手順を説明する。
以下の説明では、説明の便宜上、一例として、ノード13−1とノード13−2との間において通信することとする。また、以下の説明では、ノード13−2において障害が発生することとする。その際、ノード13−2は、管理ネットワーク11を介してノード13−2において障害が発生したことを示す障害情報を、ノード13−1に対して送出する。
また、ノード13−1は、障害が発生する前に、ノード13−2に対して通信情報cを送出することとする。そして、ノード13−1は、第1切替情報を受信後に、ノード13−2に対して通信情報dを送出することとする。
尚、説明の便宜上、上述した構成を例に説明するが、本実施形態を例に説明する本発明は、前述した構成には限定されない(以下の実施形態においても同様)。
また、説明の便宜上、以下の説明では、第1の実施形態の図3に示すシーケンス図において説明した処理と同様な処理については、同一の参照番号を付すことにより、重複する説明は省略する。
第2送受信制御装置21は、障害から復帰した場合に、中継ネットワーク12を介して第1切替情報を、中継ネットワーク12に接続された各ノード13に対して送出する。ここでは、第2送受信制御装置21は、第1切替情報を、第1ノード13に対して送出する。また、第2送受信制御装置21は、第1切替情報を送出する場合に、第2ノード情報101に含まれるノード番号に関連付けられた通信状態を示す情報に「無効」を示す情報を含める(ステップS11)。
これにより、通信状態を示す情報が「無効」を示すために、第2送受信制御装置21は、例えば、図5に示すように通信情報cを受信した場合であっても、通信情報cを廃棄することができる。
第1送受信制御装置21は、第2ノード13から第1切替情報を受信するのに応じて、第1ノード情報101の中からノード番号に関連付けられた通信状態を示す情報を「無効」から「有効」に反転させる(ステップS3)。
そして、第1送受信制御装置21は、第1切替情報に対するリプライとして第2切替情報を、第2ノード13に対して送出する(ステップS12)。
第2送受信制御装置21は、第1ノード13からリプライとして第2切替情報を受信する。第2送受信制御装置21は、第2ノード情報101の中からノード番号に関連付けられた通信状態を示す情報を「無効」から「有効」に反転させる(ステップS13)。
これにより、通信状態を示す情報が「有効」を示すために、第2送受信制御装置21は、図5に示すように通信情報dを受信する。また、第2送受信制御装置21は、待機していた通信情報がある場合に、その通信情報の送出を再開する。
尚、上述した本実施形態では、説明の便宜上、一例として、障害の発生したノード13は、障害情報を他のノード13に対して送出する構成を例に説明した。しかしながら本発明に係る実施形態は、係る構成に限定されない。障害情報は、例えば、管理ネットワーク11により各ノードにおいて障害が発生したか否かを監視すると共に、障害が発生した場合に通知される構成を採用してもよい。
このように本実施の形態に係る送受信制御装置21によれば、第1の実施形態において説明した効果を享受できると共に、さらに、障害の発生したノード13であっても、可用性を維持することができる。
その理由は、障害の発生前に送出された通信情報が中継ネットワーク12などのネットワーク内に滞留し、その通信情報が障害からの復帰後に到達した場合であっても、送受信制御装置21は、その通信情報を廃棄することができるからである。一方で、送受信制御装置21は、障害の復帰後に送出された通信情報を受信することができるからである。即ち、本実施の形態に係る送受信制御装置21によれば、障害の復帰後に送出された通信情報であることを保障することができるからである。
<第3の実施形態>
次に、上述した本発明の第2の実施形態に係る送受信制御装置21を基本とする第3の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明する。その際、上述した各実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明は省略する。
本発明の第3の実施形態における送受信制御装置21について、図1及び図6を参照して説明する。
本実施形態におけるマルチノードシステムの構成は、第1の実施形態において説明したマルチノードシステム10(図1)の構成と同様である。そのため、重複する説明は省略する。
図6は、本発明の第3の実施形態における送受信制御装置21を含むノード13の構成を示すブロック図である。
図6において、ノード13は、送受信制御装置21、転送制御部31、主記憶制御部32、ノード情報101、リプライ待ち情報102及びアドレス情報103を有する。
以下の説明では、より具体的に、マルチノードシステム10の動作について説明する。
尚、以下の説明において、送受信制御装置21の動作は上述した各実施形態と同様である。そのため、重複する説明は省略する。
また、説明の便宜上、以下の説明では、障害の発生していない第1ノード13に含まれる転送制御部31を、「第1転送制御部31」と称し、障害の発生した第2ノード13に含まれる転送制御部31を、「第2転送制御部31」と称する。以下の説明では、第1ノード13に含まれる主記憶制御部32を、「第1主記憶制御部32」と称し、第2ノード13に含まれる主記憶制御部32を、「第2主記憶制御部32」と称する。また、以下の説明では、第1ノード13に含まれるアドレス情報103を、「第1アドレス情報103」と称し、第2ノード13に含まれるアドレス情報103を、「第2アドレス情報103」と称する。
まず、以下の説明では、一例として、ノード13−1(第1ノード13)からノード13−2(第2ノード13)に対してリード処理を実行する場合の動作について説明する。
第1転送制御部31は、第2ノード13の論理番号(例えば、ノード番号)に基づいて、第1ノード情報101を参照する。第1転送制御部31は、第1ノード情報101の中から当該論理番号に関連付けられた第2ノード13の物理番号を求める。第1転送制御部31は、求めた物理番号に基づいて、中継ネットワーク12においてルーティングに必要な通信先である第2ノード13のネットワークアドレスを得る。
さらに、第1転送制御部31は、第2ノード13のノード番号と、第2ノード13からリプライを受信した際の処理に必要となる情報とを関連付けてリプライ待ち情報102に記録する。
ここでは、処理に必要となる情報とは、例えば、リード処理を実行する場合に、主記憶装置14−1に対して書き込むべき位置を示すアドレス情報などの各種情報を含む。或いは、処理に必要となる情報とは、例えば、ライト処理を実行する場合には、リプライとして送出される受信確認通信情報の受信数を定めた期待値(受信数期待値)などの各種情報を含む。
また、ノード情報101は、通信対象であるノード13のノード番号と、通信状態を示す情報と、通信対象であるノード13の物理番号とが関連付けられた情報を含む。
第1転送制御部31は、例えば、第2ノード13のノード番号と、ネットワークアドレスとを含むリード処理を要求する通信パケットを、第1送受信制御装置21に対して与える。
第1送受信制御装置21は、第2ノード13に対して通信パケットを送出する際に、第1ノード13と第2ノード13との通信状態に応じて、通信パケットの送信処理及び廃棄処理の何れかの処理を実行する。
ここでは、第1送受信制御装置21は、通信パケットを、第2ノード13に対して送出することとする。これにより、当該通信パケットは、ネットワークアドレスに従ってネットワークを経由して第2ノード13に到達する。
第2送受信制御装置21は、第1ノード13から通信パケットを受信する。第2送受信制御装置21は、第1ノード13と第2ノード13との通信状態に応じて、通信パケットの受信処理及び廃棄処理の何れかの処理を実行する。
ここでは、第2送受信制御装置21は、通信パケットを、受信することとする。また、第2転送制御部31は、当該通信パケットに含まれるリードすべき情報が記憶された位置を示すアドレス情報を、第2アドレス情報103を用いて自装置のアドレス情報に変換する。第2転送制御部31は、変換したアドレス情報に基づき第2主記憶制御部32を介して主記憶装置14−2にアクセスすることにより転送すべき転送データを得る。
さらに、第2転送制御部31は、第1ノード13の論理番号に基づいて、第2ノード情報101を参照する。第2転送制御部31は、第2ノード情報101の中から当該論理番号に関連付けられた第1ノード13の物理番号を求める。第2転送制御部31は、求めた物理番号に基づき中継ネットワーク12においてルーティングに必要な通信先である第1ノード13のネットワークアドレスを得る。
第2転送制御部31は、例えば、第1ノード13のノード番号と、ネットワークアドレスと、転送データとを含むリプライを、第2送受信制御装置21に対して与える。
第2送受信制御装置21は、リプライを送出する際に、第1ノード13と第2ノード13との通信状態に応じて、リプライの送信処理及び廃棄処理の何れかの処理を実行する。
ここでは、第2送受信制御装置21は、係るリプライを、第1ノード13に対して送出することとする。これにより、当該リプライは、ネットワークアドレスに従ってネットワークを経由して第1ノード13に到達する。また、第1ノード13は、第2ノード13からリプライを受信する際に、第1ノード13と第2ノード13との通信状態に応じて、リプライの受信処理を実行することとする。
第1転送制御31は、第1リプライ待ち情報102を参照し、受信した転送データの書き込み位置を示すアドレス情報を取得する。第1転送制御31は、第1主記憶制御部32を介して主記憶装置14−1の指定されたアドレスに転送データを書き込む。
次に、以下の説明では、一例として、第1ノード13から第2ノード13に対してライト処理を実行する場合の動作について説明する。
第1転送制御部31は、上述した処理と同様に、第2ノード13のネットワークアドレスを得る。
さらに、第1転送制御部31は、第2ノード13のノード番号と、第2ノード13からリプライとして受信確認通信情報を受信した際の処理に必要となる情報とを、第1リプライ待ち情報102に記録する。
第1転送制御部31は、第1アドレス情報103を用いて第2ノード13に対して転送すべき転送データが格納されている位置を示すアドレス情報を求める。第1転送制御部31は、求めたアドレス情報に基づき第1主記憶制御部32を介して主記憶装置14−1にアクセスすることにより転送データを得る。
その後、第1転送制御部31は、第2ノード13のノード番号と、ネットワークアドレスと、転送データとを含む通信パケットを、第1送受信制御装置21に対して与える。
ここでは、第1送受信制御装置21は、第1ノード13と第2ノード13との通信状態に応じて、第2ノード13に対して送出することとする。これにより、通信パケットは、ネットワークアドレスに従ってネットワークを経由して第2ノード13に到達する。また、第2送受信制御装置21は、第1ノード13と第2ノード13との通信状態に応じて、送出された通信パケットを受信することとする。
第2転送制御部31は、通信パケットに含まれる転送データを格納すべき位置を示すアドレス情報を、第2アドレス情報103を用いて自装置のアドレス情報に変換する。第2転送制御部31は、変換したアドレス情報に基づき第2主記憶制御部32を介して主記憶装置14−2の指定された位置に転送データを書き込む。
さらに、第2転送制御部31は、上述した処理と同様に、第1ノード13のネットワークアドレスを得る。
第2転送制御部31は、例えば、第1ノード13のノード番号と、ネットワークアドレスとを含む受信確認通信情報を、第2送受信制御装置21に対して与える。
ここでは、第2送受信制御装置21は、第1ノード13と第2ノード13との通信状態に応じて、受信確認通信情報を、第1ノード13に対して送出することとする。これにより、受信確認通信情報は、ネットワークアドレスに従ってネットワークを経由して第1ノード13に到達する。また、要求元である第1ノード13の第1送受信制御装置21は、第1ノード13と第2ノード13との通信状態に応じて、受信確認通信情報を受信することとする。
第1転送制御部31は、受信確認通信情報と、第1リプライ待ち情報102に記録された情報とを比較する。第1転送制御部31は、比較した結果に応じて、第2ノード13において生じる例外処理の有無や転送処理の完了確認などの各種情報を、第1主記憶制御部32を介して主記憶装置14−1に記録する。
このように本実施の形態に係る送受信制御装置21によれば、各実施形態において説明した効果を享受できる。また、送受信制御装置21によれば、パケット交換方式を採用するマルチノードシステムに適用して好適である。
その理由は、送受信制御装置21は、ノードに適用した場合に、装置規模を大きくすることなく、搭載することが可能だからである。そのため、送受信制御装置21は、設備費用や管理費用を増大させることなく、上述した処理を実現することができるからである。
(ハードウェア構成例)
上述した実施形態において図面に示した各部は、ソフトウェアプログラムの機能単位(処理単位、ソフトウェアモジュール)と捉えることができる。これらの各ソフトウェアモジュールは、専用のハードウェアによって実現してもよい。但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図7を参照して説明する。
図7は、本発明の模範的な実施形態に係る送受信制御装置を実行可能な情報処理装置300(コンピュータ)の構成を例示的に説明する図である。即ち、図7は、サーバ等のコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。このコンピュータは、送受信制御装置(図2)、或いは、送受信制御装置21(図4)、送受信制御装置21(図6)、の全体または一部の送受信制御装置を実現可能である。
図7に示した情報処理装置300は、以下の構成がバス306(通信線)を介して接続された一般的なコンピュータである。
・CPU(Central_Processing_Unit)301、
・ROM(Read_Only_Memory)302、
・RAM(Random_Access_Memory)303、
・ハードディスク304(記憶装置)、
・外部装置との通信インタフェース(Interface:以降、「I/F」と称する)305、
・CD−ROM(Compact_Disc_Read_Only_Memory)等の記憶媒体307に格納されたデータを読み書き可能なリーダライタ308。
そして、上述した実施形態を例に説明した本発明は、以下の手順によって達成される。即ち、図7に示した情報処理装置300に対して、その説明において参照したブロック構成図(図2、図4、図6)或いはシーケンス図(図3、図5)の機能を実現可能なコンピュータ・プログラムが供給される。その後、そのコンピュータ・プログラムは、当該ハードウェアのCPU301に読み出されて実行されることによって達成される。また、当該装置内に供給されたコンピュータ・プログラムは、読み書き可能な一時記憶メモリ(RAM303)またはハードディスク304等の不揮発性の記憶デバイスに格納すれば良い。
また、前記の場合において、当該ハードウェア内へのコンピュータ・プログラムの供給方法は、現在では一般的な手順を採用することができる。例えば、供給方法は、CD−ROM等の各種記憶媒体307を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等である。そして、このような場合において、本発明は、係るコンピュータ・プログラムを構成するコード、或いはそのコードが格納された記憶媒体によって構成されると捉えることができる。
以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
1 送受信制御装置
10、200 マルチノードシステム
11、201 管理ネットワーク
12、202 中継ネットワーク
13−1、13−2、203−1、203−2 ノード
14−1、14−2、204−1、204−2 主記憶装置
21 送受信制御装置
31 転送制御部
32 主記憶制御部
101 ノード情報
102 リプライ待ち情報
103 アドレス情報
300 情報処理装置
301 CPU
302 ROM
303 RAM
304 ハードディスク
305 通信インタフェース
306 バス
307 記憶媒体
308 リーダライタ

Claims (10)

  1. 通信対象であるノード装置との通信状態に応じて、該ノード装置との間において送受信される通信情報に対して送受信処理及び廃棄処理を実行可能であり、
    前記ノード装置において障害が生じたことを示す障害情報を通信可能に接続した他のノード装置に送信し、
    前記廃棄処理から前記送受信処理に動作を切り替えるよう要求する第1切替情報を送出する場に、
    受信した前記通信情報に対して前記廃棄処理を実行し、送出すべき前記通信情報に対しては送出を待機し、
    前記第1切替情報に対するリプライとして第2切替情報を受信した場合には、
    動作を前記廃棄処理から前記送受信処理に切り替えると共に該送受信処理を実行し、待機していた前記通信情報に対しては送出を再開する
    ことを特徴とする送受信制御装置。
  2. 前記ノード装置において障害が生じたことを示す前記障害情報を受信するのに応じて、前記廃棄処理を実行する一方で、
    前記廃棄処理から前記送受信処理に動作を切り替えるよう要求する前記第1切替情報を受信した場合には、動作を前記送受信処理に切り替えると共に該送受信処理を実行し、
    生じた障害から復帰した場合には、前記第1切替情報を前記ノード装置に対して送出する
    ことを特徴とする請求項1に記載の送受信制御装置。
  3. 前記障害情報を受信するのに応じて、さらに、前記ノード装置との通信に関する情報を削除する
    ことを特徴とする請求項2に記載の送受信制御装置。
  4. 前記第1切替情報を受信するのに応じて、そのリプライとして前記第2切替情報を、前記第1切替情報の送信元である前記ノード装置に対して送出する
    ことを特徴とする請求項1に記載の送受信制御装置。
  5. 前記通信情報を送受信する際に、前記ノード装置との通信状態を示す情報を含むノード情報を参照すると共に前記ノード情報の中から該通信状態を示す情報を求め、
    求めた通信状態を示す情報が有効であること示す場合に、前記送受信処理を実行する一方で、
    前記通信状態を示す情報が有効でないことを示す場合には、前記廃棄処理を実行し、
    前記障害情報を受信した場合に、前記通信状態を示す情報に有効でないことを示す情報を含め、
    前記第1切替情報を受信した場合には、前記通信状態を示す情報に有効であることを示す情報を含める
    ことを特徴とする請求項2に記載の送受信制御装置。
  6. 前記ノード情報は、
    少なくとも前記ノード装置を識別可能なノード番号と、前記通信状態を示す情報とが関連付けられた情報を含む
    ことを特徴とする請求項5に記載の送受信制御装置。
  7. 請求項1乃至請求項6の何れかに記載された送受信制御装置を含み、自ノード装置と異なる他のノード装置に対して前記通信情報を送受信する
    ことを特徴とするノード装置。
  8. 請求項7に記載された複数の前記ノード装置と、その複数の前記ノード装置と通信可能に接続された中継ネットワークと、複数の前記ノード装置と通信可能に接続された管理ネットワークとによって構成されたマルチノードシステムであり、
    前記ノード装置は、
    前記障害情報を、前記管理ネットワークを介して自ノード装置と異なる他のノード装置に対して送出し、
    前記第1切替情報及び第2切替情報を、前記中継ネットワークを介して前記他のノード装置に対して送出する
    ことを特徴とするマルチノードシステム。
  9. 情報処理装置によって、
    通信対象であるノード装置との通信状態に応じて、該ノード装置との間において送受信される通信情報に対して送受信処理及び廃棄処理を実行する際に、
    前記ノード装置において障害が生じたことを示す障害情報を通信可能に接続した他のノード装置に送信し、
    前記廃棄処理から前記送受信処理に動作を切り替えるよう要求する第1切替情報を送出する場に、
    受信した前記通信情報に対して前記廃棄処理を実行し、送出すべき前記通信情報に対しては送出を待機し、
    前記第1切替情報に対するリプライとして第2切替情報を受信した場合には、
    動作を前記廃棄処理から前記送受信処理に切り替えると共に該送受信処理を実行し、
    待機していた前記通信情報に対しては送出を再開する
    ことを特徴とする送受信制御方法。
  10. 通信対象であるノード装置との通信状態に応じて、該ノード装置との間において送受信される通信情報に対して送受信処理及び廃棄処理を実行する際に、
    前記ノード装置において障害が生じたことを示す障害情報を通信可能に接続した他のノード装置に送信し、
    前記廃棄処理から前記送受信処理に動作を切り替えるよう要求する第1切替情報を送出する場に、
    受信した前記通信情報に対して前記廃棄処理を実行し、送出すべき前記通信情報に対しては送出を待機し、
    前記第1切替情報に対するリプライとして第2切替情報を受信した場合には、
    動作を前記廃棄処理から前記送受信処理に切り替えると共に該送受信処理を実行し、待機していた前記通信情報に対しては送出を再開する機能、
    をコンピュータに実現させることを特徴とするコンピュータ・プログラム。
JP2014235595A 2014-11-20 2014-11-20 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム Active JP6447047B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014235595A JP6447047B2 (ja) 2014-11-20 2014-11-20 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014235595A JP6447047B2 (ja) 2014-11-20 2014-11-20 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2016100711A JP2016100711A (ja) 2016-05-30
JP6447047B2 true JP6447047B2 (ja) 2019-01-09

Family

ID=56078159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014235595A Active JP6447047B2 (ja) 2014-11-20 2014-11-20 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP6447047B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6112147A (ja) * 1984-06-27 1986-01-20 Mitsubishi Heavy Ind Ltd デ−タ通信方式
JPH1127267A (ja) * 1997-07-03 1999-01-29 Nec Corp ネットワーク監視装置
JPH11249988A (ja) * 1998-03-04 1999-09-17 Nec Eng Ltd 通信制御装置
JP2009171310A (ja) * 2008-01-17 2009-07-30 Fujitsu Ten Ltd 通信装置、及び通信装置における故障判定方法
DE112011106079T5 (de) * 2011-12-30 2014-09-18 Intel Corporation Frühe Weiterleitung von Gewebefehlern
JP5962210B2 (ja) * 2012-05-25 2016-08-03 富士通株式会社 マルチプロセッサシステム、及びプロセッサ間通信方法

Also Published As

Publication number Publication date
JP2016100711A (ja) 2016-05-30

Similar Documents

Publication Publication Date Title
US9923967B2 (en) Storage management system for preserving consistency of remote copy data
KR100958685B1 (ko) Dma 컨트롤러, 노드, 데이터 전송 제어 방법 및 프로그램을 기록한 컴퓨터 판독가능한 기록 매체
JP4529767B2 (ja) クラスタ構成コンピュータシステム及びその系リセット方法
JP2019075691A (ja) ミラーパケット制御プログラム、ミラーパケット制御方法、およびミラーパケット制御装置
US20070041383A1 (en) Third party node initiated remote direct memory access
JP2004032224A (ja) サーバ引継システムおよびその方法
US20150067387A1 (en) Method and apparatus for data storage
WO2013189289A1 (zh) 数据处理的方法、网卡和***
CN112118322B (zh) 一种网络设备的数据同步方法、网络设备及***
JP6172262B2 (ja) 情報処理装置
JP2010092336A (ja) ストレージシステム及び通信方法
JP2010044553A (ja) データ処理方法、クラスタシステム、及びデータ処理プログラム
JP6447047B2 (ja) 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム
JP4806382B2 (ja) 冗長化システム
JP4757670B2 (ja) システム切替方法、その計算機システム及びプログラム
US20180165245A1 (en) Parallel processing apparatus and non-transitory computer-readable storage medium
JP2018077594A (ja) 仮想マシン管理装置、システム、仮想マシン移動方法及びプログラム
JP2018025912A (ja) 通信方法、通信プログラムおよび情報処理装置
US9959173B2 (en) Node, arithmetic processing device, and arithmetic processing method
CN102301337A (zh) 在高度可用的环境中保存服务的方法
JP2006309292A (ja) サーバ装置、サーバシステム、及びサーバシステムでの系切り換え方法
JP6036690B2 (ja) 分散実行システム及び分散プログラム実行方法
JP4193754B2 (ja) データ二重化方法とプログラム
JP7188602B2 (ja) L2スイッチ、通信制御方法、および、通信制御プログラム
JP2017016462A (ja) 引き継ぎ処理方法、引き継ぎ処理プログラム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181119

R150 Certificate of patent or registration of utility model

Ref document number: 6447047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150