JPH10124338A - 並列処理装置 - Google Patents

並列処理装置

Info

Publication number
JPH10124338A
JPH10124338A JP8280936A JP28093696A JPH10124338A JP H10124338 A JPH10124338 A JP H10124338A JP 8280936 A JP8280936 A JP 8280936A JP 28093696 A JP28093696 A JP 28093696A JP H10124338 A JPH10124338 A JP H10124338A
Authority
JP
Japan
Prior art keywords
processor
task
processors
adjacent
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8280936A
Other languages
English (en)
Inventor
Hiroyuki Miyata
裕行 宮田
Katsumi Takahashi
勝己 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8280936A priority Critical patent/JPH10124338A/ja
Publication of JPH10124338A publication Critical patent/JPH10124338A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【解決手段】 複数のプロセッサ2(P0、P1、P
2、P3)と、各プロセッサに接続された第1のノード
1(0A、3A、2A、1A)を順に1対1の単方向バ
ス接続によりリング上に結合した第1のリングバスと、
各プロセッサに接続された第2のノード1(0B、1
B、2B、3B)を前記順とは逆方向に1対1の単方向
バス接続によりリング上に結合した第2のリングバスと
を備えた並列処理装置において、前記複数のプロセッサ
のうちの一部のプロセッサ(P1、P3)を入出力バス
4に接続し、前記入出力用プロセッサ(P1、P3)は
外部との入出力を行う。 【効果】 リングバスの故障だけでなく、プロセッサの
故障、入出力用のプロセッサの故障にも対処することが
できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、処理を行う複数
のプロセッサから構成される並列計算機において、単一
の障害が発生した場合に処理を継続することができ、高
い信頼性を図ることができる並列処理装置に関するもの
である。
【0002】
【従来の技術】従来の並列処理装置の構成について図6
を参照しながら説明する。図6は、例えば、Ole Kjolle
r他著“SCI Dual Ring Architecture with Self-Recove
ry”、「The Fourth International Workshop on SCI-b
ased-High-Performance Low-Cost Computing」第33頁
〜第37頁、1995年、Sponsored by SCIzzLに示さ
れた従来の並列処理装置を示す図である。
【0003】図6において、1はプロセッサが他のプロ
セッサと通信を行うための中間に介在するノード(通信
ノード)、2はプロセッサ、3は各ノード間でのデータ
をやりとりするための単方向のデータ転送ライン(通信
バス)である。なお、ノード1は、ノード0A、1A、
2A、3A、0B、1B、2B、3Bの8箇所が示され
ている。また、プロセッサ2は、P0、P1、P2、P
3の4個が示されている。
【0004】つぎに、従来の並列処理装置の動作につい
て図6を参照しながら説明する。
【0005】この図6は、4つの並列プロセッサP0、
P1、P2、P3からなる並列計算機を示しており、各
プロセッサが各々2つのノード1と接続され、各ノード
1がリング構成に接続されている。
【0006】すなわち、プロセッサP0にはノード0A
と、ノード0Bの2つのノード1が接続されている。ま
た、プロセッサP1にはノード1Aと、ノード1Bの2
つのノード1が接続されている。また、プロセッサP2
にはノード2Aと、ノード2Bの2つのノード1が接続
されている。さらに、プロセッサP3にはノード3A
と、ノード3Bの2つのノード1が接続されている。な
お、各ノード1で末尾にAのつくもの同士が、その番号
の降順(昇順でもよい。)にリングに接続される。ま
た、Bも接続順が逆になるが同様である。
【0007】もし、任意のノード1、あるいはデータ転
送ライン3に対して障害が発生した場合には、そのノー
ド1かデータ転送ライン3を含むリングを無効とし、も
う一方のリングを使用することにより、継続した処理を
可能としていた。
【0008】
【発明が解決しようとする課題】上述したような従来の
並列処理装置では、以上のように構成されているので、
ノード1、あるいはデータ転送ライン3に障害が発生し
た場合には、その障害に対応できるが、プロセッサ2自
身に障害が発生した場合、また、外部とのデータ転送を
行う部分に障害が発生した場合には、それらの障害に対
応できないという問題点があった。
【0009】この発明は、前述した問題点を解決するた
めになされたもので、入出力を行うプロセッサを複数設
け、外部とのデータ転送を行う部分に障害が発生した場
合にも対処できると共に、プロセッサに障害が発生した
場合にも実行中の処理に影響を与えないように継続して
処理することができる並列処理装置を得ることを目的と
する。
【0010】
【課題を解決するための手段】この発明に係る並列処理
装置は、複数のプロセッサと、各プロセッサに接続され
た第1のノードを順に1対1の単方向バス接続によりリ
ング上に結合した第1のリングバスと、各プロセッサに
接続された第2のノードを前記順とは逆方向に1対1の
単方向バス接続によりリング上に結合した第2のリング
バスとを備えた並列処理装置において、前記複数のプロ
セッサのうちの一部のプロセッサを入出力バスに接続
し、前記入出力用プロセッサは外部との入出力を行うも
のである。
【0011】また、この発明に係る並列処理装置は、前
記入出力用プロセッサが、第1及び第2の入出力用プロ
セッサを含み、前記第1の入出力用プロセッサは、第2
の入出力用プロセッサからの状態情報が到達しないとき
には、前記第2の入出力用プロセッサに障害が発生した
と判断して前記第2の入出力用プロセッサが行ってきた
入出力処理を代替して行うものである。
【0012】また、この発明に係る並列処理装置は、前
記複数のプロセッサのうちの任意のプロセッサが、リン
グ上に隣接するプロセッサの状態監視機構を有すると共
に、前記隣接するプロセッサが実行するタスクの情報を
記憶し、前記任意のプロセッサは、前記隣接するプロセ
ッサに障害が発生したときには、前記隣接するプロッサ
を論理的に切り離して前記隣接するプロセッサが実行す
る予定であったタスクを再度実行するものである。
【0013】また、この発明に係る並列処理装置は、前
記複数のプロセッサのうちの任意のプロセッサが、リン
グ上に隣接するプロセッサの状態監視機構を有すると共
に、前記隣接するプロセッサが実行するタスクのうちの
優先度の高いタスクの情報を予め記憶し、前記任意のプ
ロセッサは、前記優先度の高いタスクについて前記隣接
するプロセッサと同時に実行しておき、前記隣接するプ
ロセッサに障害が発生したときには、前記隣接するプロ
ッサを論理的に切り離すものである。
【0014】また、この発明に係る並列処理装置は、前
記複数のプロセッサのうちの任意のプロセッサが、リン
グ上に隣接するプロセッサの状態監視機構を有すると共
に、前記隣接するプロセッサが実行するタスクと同等の
機能を有し前記タスクよりも実行時間の短いタスクの情
報を予め記憶し、前記任意のプロセッサは、前記隣接す
るプロセッサに障害が発生したときには、前記隣接する
プロッサを論理的に切り離して前記隣接するプロセッサ
が実行する予定であったタスクを前記実行時間の短いタ
スクで代行するものである。
【0015】また、この発明に係る並列処理装置は、前
記複数のプロセッサが、各自の状態を示すトークンをリ
ングバス上に流し、前記複数のプロセッサのうちの定め
られたマスタプロセッサは、前記トークンを調べて障害
の発生したプロセッサを論理的に切り離すものである。
【0016】また、この発明に係る並列処理装置は、前
記マスタプロセッサが、前記複数のプロセッサが実行す
るタスクと同等の機能を有し前記タスクよりも実行時間
の短いタスクの情報を予め記憶し、前記マスタプロセッ
サは、前記プロセッサに障害が発生したときには、前記
障害が発生したプロセッサが実行する予定であったタス
クを前記実行時間の短いタスクで代行するものである。
【0017】さらに、この発明に係る並列処理装置は、
前記複数のプロセッサのうちの定められたマスタプロセ
ッサが、第1及び第2のマスタプロセッサを含み、前記
第1のマスタプロセッサは、前記第2のマスタプロセッ
サに障害が発生したときには、前記第2のマスタプロセ
ッサを代替するものである。
【0018】
【発明の実施の形態】
実施の形態1.この発明の実施の形態1に係る並列処理
装置の構成について図1を参照しながら説明する。図1
は、この発明の実施の形態1に係る並列処理装置の構成
を示す図である。なお、各図中、同一符号は同一又は相
当部分を示す。
【0019】図1において、1はプロセッサが他のプロ
セッサと通信を行うための中間に介在するノード(通信
ノード)、2はプロセッサ、2Aは入出力用のプロセッ
サ、3は各ノード間でのデータをやりとりするための単
方向のデータ転送ライン(通信バス)である。さらに、
4は入出力用のプロセッサ2Aと外部との間でデータの
入出力を行うための入出力バスを示す。なお、ノード1
は、ノード0A、1A、2A、3A、0B、1B、2
B、3Bの8箇所が示されている。また、プロセッサ2
は、P0、P2の2個が示され、入出力用のプロセッサ
2Aは、P1、P3の2個が示され、プロセッサは合計
で4個が示されている。
【0020】つぎに、前述した実施の形態1に係る並列
処理装置の動作について図1を参照しながら説明する。
【0021】入出力を除く全体の動作は従来例の記載で
述べたものと同様である。この実施の形態1では、ここ
に新たにデータ入出力専用の機能を、例えば、プロセッ
サP1と、P3に設けた。外部からのデータ入力は、例
えば、通常はプロセッサP3を経由してのみ行われる。
また、外部へのデータ出力も同様にプロセッサP3を経
由する。
【0022】一方、プロセッサP1は、プロセッサP3
の状態を絶えず監視している。つまり、プロセッサP3
はその状態を定期的にプロセッサP1に送る。もし、プ
ロセッサP3からの定期信号が到達しない場合には、プ
ロセッサP1は、プロセッサP3がダウンしたと判断す
る。その後、プロセッサP1は、これまでプロセッサP
3が行ってきた入出力処理を代替して行う。
【0023】これにより、図1に示す構成では、どのポ
イントに障害が発生してもそれを切り離すことにより、
処理を継続することができる。
【0024】この実施の形態1によれば、複数のプロセ
ッサ2、2Aを持つ並列処理装置において、各プロセッ
サ2、2Aに他のプロセッサ2、2Aとの結合のための
2つのノード1を結合し、すべてのプロセッサ2、2A
に結合されている一方のノード間の接続を1対1の単方
向バス接続によりリング上に結合し、もう一方のノード
間も1対1の単方向バス接続により結合し、さらに、外
部との入出力を行うプロセッサ2Aを複数個設けること
により、リング3、ノード1、プロセッサ2、入出力用
プロセッサ2Aのどの部分に障害が発生しても、自動的
にその部分を切り離して処理を継続できる。
【0025】つまり、この実施の形態1に係る並列処理
装置は、処理を行う複数の同一プロセッサを備え、各プ
ロセッサに2つのノードを接続する。各プロセッサに接
続する1つのノードを順に1対1のバスで接続し、それ
らのノードをリング上に結合する。また、各プロセッサ
のもう一つのノードも、順に1対1の別のバスで逆方向
に接続し、リング状に結合する。例えば、現在市販され
ているSCI(Scalable Coherent Interface)バス[ANSI/IE
EE Std 1596-1992] がこのリングバスに該当する。そし
て、入出力用プロセッサ2Aと入出力バス4とを設けた
ので、リングバス3の故障だけでなく、プロセッサ2の
故障、入出力用のプロセッサ2Aの故障にも対処するこ
とができる。
【0026】実施の形態2.この発明の実施の形態2に
係る並列処理装置の構成について図2を参照しながら説
明する。図2は、この発明の実施の形態2に係る並列処
理装置であって、図1で示した全体構成図の一部を拡大
した構成を示す図である。
【0027】リングバス構成の場合には、各プロセッサ
2、2Aが隣接するプロセッサと接続されることにな
る。そのため、各プロセッサの障害監視も隣接プロセッ
サが行うと効率的である。
【0028】そこで、図2に示すように、例えば、プロ
セッサP1の状態監視をプロセッサP0が行うこととす
る。この時、プロセッサP0には、プロセッサP1の状
態情報を定期的に送る。つまり、プロセッサP1が自身
で自己診断などを行い、その結果をプロセッサP0に送
る。また、これとは別に、実行するタスクの情報を、プ
ロセッサP1は、そのタスクの実行に先立ち、常にプロ
セッサP0に送る。
【0029】プロセッサP0は、プロセッサP1から定
期的に送られる状態を判断し、プロセッサP1が正常動
作しているかどうかを判断する。正常に動作しているう
ちはよいが、障害の発生が報告されたり、あるいは、プ
ロセッサP1の内部障害により、ある定められた時間内
に、その状態報告自体が送られなくなった場合には、プ
ロセッサP0は、障害と判断する。
【0030】その後、プロセッサP0は、プロセッサP
1をシステム全体から切り離す処置を行う。つまり、物
理的には切り離せないため、他の各プロセッサP2、P
3に障害の発生したプロセッサP1の件を知らせ、以降
は論理的に切り離して扱う。
【0031】ただし、障害の発生時に稼働していたプロ
セッサP1のタスク処理は、再処理する必要がある。そ
のため、先にプロセッサP0にタスクの実行に先だって
送っておいたタスク情報を使用して、障害発生後に、プ
ロセッサP0は同一のタスクを再実行する。これによ
り、プロセッサP1の切り離し後、タスクの再実行がで
き、全体としては、継続した処理が可能となる。
【0032】なお、この処置は各プロセッサが隣接する
プロセッサに対して行えるため、分散して行え、リング
間の距離も最短のため、故障対策が効率的に行えること
になる。
【0033】この実施の形態2によれば、上記実施の形
態1の並列処理装置において、上記実施の形態1の各構
成を備え、任意のプロセッサP0がリング上で隣接する
プロセッサP1の状態監視機構を持つと共に、該プロセ
ッサP1の実行中のタスクの情報を記憶しておくことに
より、プロセッサP1に障害が発生した場合に、プロセ
ッサP0が該障害を検知し、プロセッサP1を論理的に
システムから切り離し、該プロセッサP1が実行中であ
ったタスクをプロセッサP0で再度実行することによ
り、任意のプロセッサの障害発生時にも、連続して処理
を継続できる。
【0034】つまり、この実施の形態2に係る並列処理
装置は、実施の形態1に係る並列処理装置の構成(手
段)に加え、あるプロセッサ2Aの状態監視を、例えば
逆時計方向に隣接するプロセッサ2が行う機構と該プロ
セッサ2Aが実行中のタスク情報を保持する機構を該隣
接するプロセッサ2の中に備えると共に、プロセッサ2
Aの障害発生時に、プロセッサ2Aのリングからの切り
離しを隣接するプロセッサ2から行える機構を備えたも
のである。この実施の形態2においては、隣接するプロ
セッサ2、2A同士で、分散して故障の検知を行うた
め、効率がよく、隣接間のプロセッサを結合するリング
バスに適した故障の検知ができる。
【0035】実施の形態3.この発明の実施の形態3に
係る並列処理装置について図3を参照しながら説明す
る。図3は、この発明の実施の形態3に係る並列処理装
置のプロセッサのタスクリストを示す図である。
【0036】図3において、5はプロセッサP1で実行
するタスクリストの例を、6はプロセッサP0で実行す
るタスクリスト示す。
【0037】この実施の形態3でのベースとなる構成は
上記実施の形態2と同様であり、図2をそのまま使用す
る。すなわち、プロセッサP1の状態監視をプロセッサ
P0が行い、もし、プロセッサP1に障害が発生した場
合には、これを切り離す。
【0038】上記実施の形態2では、プロセッサP1で
障害が発生した後には、そのタスク情報に基づいてプロ
セッサP0が再度、同一タスクの実行を試みたが、応用
によっては、これでは間に合わない場合がある。つま
り、ある時刻までに必ず処理を終えなければならない場
合に、プロセッサP1の障害後、再実行していては、間
に合わないような場合である。
【0039】この実施の形態3では、上記のような場合
には、障害を監視しているプロセッサP0で事前にプロ
セッサP1の実行タスクの中で重要なものは、同じよう
に実行しておく。そして、障害発生時にこれを利用する
ようにする。
【0040】図3においては、障害を監視されるプロセ
ッサP1において、タスクリスト5に示すように、6つ
のタスクA、B、C、D、E、Fを実行すると仮定す
る。この時、あるしきい値(Threshold)を決めてお
く。例えば、この例では、タスクA、Bと、タスクC、
D、E、Fとを区別する所にしきい値を設定した。要す
るに、このしきい値より上にあるタスクA、Bは優先度
が高く、タスクC、D、E、Fは優先度が低いとする。
【0041】プロセッサP0においては、障害監視の対
象とするプロセッサP1の中から、優先度の高いもので
あるタスクA、Bを自プロセッサP0の他のタスクと同
時に実行する。これを図3のタスクリスト6に示す。プ
ロセッサP0では、本来、タスクX、Y、Zを実行する
予定であるが、ここに、プロセッサP1の高い優先度の
タスクA、Bを同時に実行する。
【0042】上記実施の形態2で示したように、プロセ
ッサP0が、プロセッサP1での障害発生時には、これ
を検出して、切り離すことは同様で、その後、実行して
いた予備用のタスクA、Bの結果を切り離したプロセッ
サP1の実行結果とする。これにより、障害が発生した
場合でも、リアルタイムな処理結果を損なうことなく、
実行が継続できる。
【0043】この実施の形態3によれば、上記実施の形
態2の並列処理装置(並列計算機)において、上記実施
の形態2の手段を備え、さらに任意のプロセッサP1が
実行するタスクの中で、ある事前に定められたプライオ
リティより高いタスクに関しては、プロセッサP1に隣
接するプロセッサP0が同時に実行しておくことによ
り、プロセッサP1に障害が発生した場合に、プロセッ
サP0が該障害を検知し、プロセッサP1を論理的にシ
ステムから切り離し、該プロセッサP1が実行する予定
であった高いプライオリティのタスクの実行結果をプロ
セッサP0から取り出すことにより、任意のプロセッサ
の障害発生時にも、連続して処理を継続できる。
【0044】つまり、この実施の形態3に係る並列処理
装置は、上記実施の形態2の手段に加え、例えば時計方
向に隣接するプロセッサP1が実行するタスクの中で、
高いプライオリティのタスクはプロセッサP0において
も、同時に実行する機構を備えたものである。従って、
ある定められた時間内に行う処理を、たとえ、プロセッ
サP1が故障しても、そのまま実行を可能とするもので
ある。
【0045】実施の形態4.この発明の実施の形態4に
係る並列処理装置について図4を参照しながら説明す
る。図4は、この発明の実施の形態4に係る並列処理装
置のプロセッサのタスクの流れを示す図である。
【0046】図4において、7はタスクの一般の流れ、
8は障害が発生した場合のタスクの流れを示すものであ
る。
【0047】図4におけるタスクの流れ7では、あるプ
ロセッサP1で順に実行するタスクがA、B、C、Dの
4つ存在し、それらが時刻Tまでには、終了しなければ
ならないことを示している。
【0048】さて、今、このプロセッサP1において、
図4に示すようにタスクAを処理中に障害が発生したと
する。また、先の実施の形態2と同様にプロセッサP1
を監視しているプロセッサP0は、事前にプロセッサP
1が実行するタスクをすべて知っているとする。
【0049】上記実施の形態2と同様に、プロセッサP
1で障害が発生した後、プロセッサP0がこれを検出す
る。その後で、プロセッサP0では、本来のタスクA、
B、C、Dに比べ、実行時間が少なて済むタスクA’、
B’、C’、D’をあらかじめ用意しておき、これらを
プロセッサP0内で順に実行する。
【0050】例えば、タスクA’、B’、C’、D’の
例としては、タスクA、B、C、Dと全く同様の処理内
容であるが、処理精度を低くすることにより、実行時間
を短くしたものなどがあげられる。これにより、再度、
タスクAから再実行していたのでは、決められた時刻T
に間に合わない処理を同機能の処理により間に合わせる
ことができる。
【0051】この実施の形態4によれば、上記実施の形
態2の並列処理装置(並列計算機)において、上記実施
の形態2の手段を備え、さらに任意のプロセッサP1が
実行する各タスクとそれぞれ同等の機能を有するが、処
理精度が低いなどの理由で実行時間の短い各タスクを隣
接するプロセッサP0に用意しておくことにより、プロ
セッサP1に障害が発生した場合に、プロセッサP0が
該障害を検知し、プロセッサP1を論理的に装置(シス
テム)から切り離し、該プロセッサP1が実行する予定
であったタスクの実行を、プロセッサP0において精度
などは落ちるが同機能の処理時間の短いタスクで代行す
ることにより、任意のプロセッサP1の障害発生時に、
連続して処理を継続でき、かつ予め定められた時刻内に
処理を終了できる。
【0052】つまり、この実施の形態4に係る並列処理
装置は、上記実施の形態2の手段に加え、すべてのタス
クにおいて、処理精度を下げて実行時間を短くした高速
実行バージョンを用意しておく機構を備えたものであ
る。従って、ある定められた時間内に行う処理を、たと
え、プロセッサP1が故障しても、若干の処理精度の低
下はあるものの、機能的には実行を可能とする。
【0053】実施の形態5.この発明の実施の形態5に
係る並列処理装置について図5を参照しながら説明す
る。図5は、この発明の実施の形態5に係る並列処理装
置のプロセッサからの障害状態を明記したトークンを示
す図である。
【0054】図1で示した通信バス3で構成されるリン
グバスに、各プロセッサP0、P1、P2、P3がどの
ような状態であるかを示すトークンを流す。例えば、図
5に示すように、各プロセッサP0、P1、P2、P3
は、自身で自己診断プログラムを実行するなどして、内
部の状態チェックなどを行い、その結果、内部に異常が
なければ「1」を、異常が発見されれば「0」をトーク
ンの自プロセッサの位置に書き込む。
【0055】このトークンはリングバス上を常に回って
おり、各プロセッサP0、P1、P2、P3は、これを
受け取る度に、自プロセッサに該当する位置に最新の状
態を記載し、次に送る。
【0056】すべてのプロセッサP0、P1、P2、P
3の中で、一つのプロセッサ、例えば、プロセッサP0
をマスタとする。マスタプロセッサP0は、トークンが
送られてきた後で、この内容をチェックし、もし、障害
が発生しているプロセッサP1が発見された場合には、
そのプロセッサP1を論理的に切り離すように他のプロ
セッサP2、P3に伝達する。その後、残りのプロセッ
サで同様の処理を繰り返す。
【0057】この実施の形態5によれば、上記実施の形
態1の並列処理装置(並列計算機)において、上記実施
の形態1の手段を備え、さらに各プロセッサが対応する
フィールドにその状態を記述できるトークンをリングバ
ス上、各プロセッサ経由で転送し続け、ある定められた
マスタプロセッサがこのトークンを調べて、障害の発生
したプロセッサを論理的に装置(システム)から切り離
す。
【0058】つまり、この実施の形態5に係る並列処理
装置は、上記実施の形態1の手段に加え、各プロセッサ
が障害の発生の有無の状態を記録し、リングバス内を回
るトークンと、このトークンを監視し、障害の発生した
プロセッサを切り離す機構を備えたマスタプロセッサを
備えたものである。従って、リングバスのデータ転送の
利点を用いて、容易にマスタプロセッサが他のプロセッ
サの障害を検知できる。
【0059】実施の形態6.この発明の実施の形態6に
係る並列処理装置について図4及び図5を参照しながら
説明する。図については、上記の実施の形態4と実施の
形態5で示したものと同様の図4と図5を使用する。
【0060】上記実施の形態5で説明したように、図5
に示したトークンを利用することにより、各プロセッサ
の状態をマスタプロセッサが知る。その後、障害の発生
したプロセッサが、例えば、プロセッサP1ならば、こ
れを切り離す。
【0061】ここで、障害が発生したあるプロセッサP
1で順に実行するタスクがA、B、C、Dの4つ存在
し、それらが時刻Tまでには、終了しなければならなか
ったとする。また、全体のプロセッサを監視しているマ
スタプロセッサは、事前にすべてのプロセッサが実行す
るタスクをすべて知っているとする。
【0062】上記実施の形態2と同様に、プロセッサP
1で障害が発生した後、マスタプロセッサP0がこれを
検出する。その後で、マスタプロセッサP0では、本来
のタスクA、B、C、Dに比べ、実行時間が少なて済む
タスクA’、B’、C’、D’をあらかじめ用意してお
き、これらをマスタプロセッサP0内で順に実行する。
【0063】例えば、タスクA’、B’、C’、D’の
例としては、タスクA、B、C、Dと全く同様の処理内
容であるが、処理精度を低くすることにより、実行時間
を短くしたものなどがあげられる。これにより、再度、
タスクAから再実行していたのでは、決められた時刻T
に間に合わない処理を同機能の処理により間に合わせる
ことができる。
【0064】この実施の形態6によれば、上記実施の形
態5の並列処理装置(並列計算機)において、上記実施
の形態5の手段を備え、さらに各プロセッサが実行する
各タスクとそれぞれ同等の機能を有するが、処理精度が
低いなどの理由で実行時間の短い各タスクを予め決めら
れたマスタプロセッサに用意しておくことにより、任意
のプロセッサに障害が発生した場合に、マスタプロセッ
サが該障害を検知し、該障害の発生したプロセッサを論
理的に装置から切り離し、該プロセッサが実行する予定
であったタスクの実行を、マスタプロセッサにおいて精
度などは落ちるが同機能の処理時間の短いタスクで代行
することにより、任意のプロセッサの障害発生時に、連
続して処理を継続でき、かつ予め定められた時刻内に処
理を終了できる。
【0065】つまり、この実施の形態6に係る並列処理
装置は、上記実施の形態1の手段に加え、すべてのタス
クにおいて、処理精度を下げて実行時間を短くした高速
実行バージョンを用意しておく機構を備えたものであ
る。従って、リングバスのデータ転送の利点を用いて、
容易にマスタプロセッサが他のプロセッサの障害を検知
できると共に、ある定められた時間内に行う処理を、た
とえ、プロセッサが故障しても、若干の処理精度の低下
はあるものの、機能的には実行を可能とする。
【0066】実施の形態7.この発明の実施の形態7に
係る並列処理装置について図5を参照しながら説明す
る。図については、上記の実施の形態5で示したものと
同様の図5を使用する。
【0067】上記実施の形態5では、並列処理装置全体
で、一つのマスタプロセッサを仮定したが、この実施の
形態7では、これを2つ用意する。先の、実施の形態5
に示したトークンの判定を行う際に、もし、一方のマス
タプロセッサが障害により使用できなくなった場合に
は、他方のマスタプロセッサが、これを検知して、先に
一方のマスタプロセッサが行う予定のトークンの検査な
どを行う。
【0068】この実施の形態7によれば、上記実施の形
態6の並列処理装置(並列計算機)において、マスタプ
ロセッサを2つ用意しておき、一方のマスタプロセッサ
に障害が発生した場合には、他方のマスタプロセッサが
その変わりを行うことができる。
【0069】つまり、この実施の形態7に係る並列処理
装置は、上記実施の形態5の手段に加え、マスタプロセ
ッサの代替となるプロセッサを備えたものである。従っ
て、リングバスのデータ転送の利点を用いて、容易にマ
スタプロセッサが他のプロセッサの障害を検知できると
共に、マスタプロセッサに障害が発生しても、継続して
処理ができる。
【0070】
【発明の効果】この発明に係る並列処理装置は、以上説
明したとおり、複数のプロセッサと、各プロセッサに接
続された第1のノードを順に1対1の単方向バス接続に
よりリング上に結合した第1のリングバスと、各プロセ
ッサに接続された第2のノードを前記順とは逆方向に1
対1の単方向バス接続によりリング上に結合した第2の
リングバスとを備えた並列処理装置において、前記複数
のプロセッサのうちの一部のプロセッサを入出力バスに
接続し、前記入出力用プロセッサは外部との入出力を行
うので、リングバスの故障だけでなく、プロセッサの故
障、入出力用のプロセッサの故障にも対処することがで
きるという効果を奏する。
【0071】また、この発明に係る並列処理装置は、以
上説明したとおり、前記入出力用プロセッサが、第1及
び第2の入出力用プロセッサを含み、前記第1の入出力
用プロセッサは、第2の入出力用プロセッサからの状態
情報が到達しないときには、前記第2の入出力用プロセ
ッサに障害が発生したと判断して前記第2の入出力用プ
ロセッサが行ってきた入出力処理を代替して行うので、
リングバスの故障だけでなく、プロセッサの故障、入出
力用のプロセッサの故障にも対処することができるとい
う効果を奏する。
【0072】また、この発明に係る並列処理装置は、以
上説明したとおり、前記複数のプロセッサのうちの任意
のプロセッサが、リング上に隣接するプロセッサの状態
監視機構を有すると共に、前記隣接するプロセッサが実
行するタスクの情報を記憶し、前記任意のプロセッサ
は、前記隣接するプロセッサに障害が発生したときに
は、前記隣接するプロッサを論理的に切り離して前記隣
接するプロセッサが実行する予定であったタスクを再度
実行するので、隣接するプロセッサ同士で、分散して故
障の検知を行うことができ、効率がよく、隣接間のプロ
セッサを結合するリングバスに適した故障の検知ができ
るという効果を奏する。
【0073】また、この発明に係る並列処理装置は、以
上説明したとおり、前記複数のプロセッサのうちの任意
のプロセッサが、リング上に隣接するプロセッサの状態
監視機構を有すると共に、前記隣接するプロセッサが実
行するタスクのうちの優先度の高いタスクの情報を予め
記憶し、前記任意のプロセッサは、前記優先度の高いタ
スクについて前記隣接するプロセッサと同時に実行して
おき、前記隣接するプロセッサに障害が発生したときに
は、前記隣接するプロッサを論理的に切り離すので、あ
る定められた時間内に行う処理を、たとえ、プロセッサ
が故障しても、そのまま実行可能であるという効果を奏
する。
【0074】また、この発明に係る並列処理装置は、以
上説明したとおり、前記複数のプロセッサのうちの任意
のプロセッサが、リング上に隣接するプロセッサの状態
監視機構を有すると共に、前記隣接するプロセッサが実
行するタスクと同等の機能を有し前記タスクよりも実行
時間の短いタスクの情報を予め記憶し、前記任意のプロ
セッサは、前記隣接するプロセッサに障害が発生したと
きには、前記隣接するプロッサを論理的に切り離して前
記隣接するプロセッサが実行する予定であったタスクを
前記実行時間の短いタスクで代行するので、ある定めら
れた時間内に行う処理を、たとえ、プロセッサが故障し
ても、若干の処理精度の低下はあるものの、機能的には
実行可能であるという効果を奏する。
【0075】また、この発明に係る並列処理装置は、以
上説明したとおり、前記複数のプロセッサが、各自の状
態を示すトークンをリングバス上に流し、前記複数のプ
ロセッサのうちの定められたマスタプロセッサは、前記
トークンを調べて障害の発生したプロセッサを論理的に
切り離すので、リングバスのデータ転送の利点を用い
て、容易にマスタプロセッサが他のプロセッサの障害を
検知できるという効果を奏する。
【0076】また、この発明に係る並列処理装置は、以
上説明したとおり、前記マスタプロセッサが、前記複数
のプロセッサが実行するタスクと同等の機能を有し前記
タスクよりも実行時間の短いタスクの情報を予め記憶
し、前記マスタプロセッサは、前記プロセッサに障害が
発生したときには、前記障害が発生したプロセッサが実
行する予定であったタスクを前記実行時間の短いタスク
で代行するので、リングバスのデータ転送の利点を用い
て、容易にマスタプロセッサが他のプロセッサの障害を
検知できると共に、ある定められた時間内に行う処理
を、たとえ、プロセッサが故障しても、若干の処理精度
の低下はあるものの、機能的には実行可能であるという
効果を奏する。
【0077】さらに、この発明に係る並列処理装置は、
以上説明したとおり、前記複数のプロセッサのうちの定
められたマスタプロセッサが、第1及び第2のマスタプ
ロセッサを含み、前記第1のマスタプロセッサは、前記
第2のマスタプロセッサに障害が発生したときには、前
記第2のマスタプロセッサを代替するので、リングバス
のデータ転送の利点を用いて、容易にマスタプロセッサ
が他のプロセッサの障害を検知できると共に、マスタプ
ロセッサに障害が発生しても、継続して処理ができると
いう効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る並列処理装置
の構成を示す図である。
【図2】 この発明の実施の形態2に係る並列処理装置
の構成の一部を示す図である。
【図3】 この発明の実施の形態3に係る並列処理装置
のタスクリストを示す図である。
【図4】 この発明の実施の形態4に係る並列処理装置
のタスクの流れを示す図である。
【図5】 この発明の実施の形態5に係る並列処理装置
のトークンを示す図である。
【図6】 従来の並列処理装置の構成を示す図である。
【符号の説明】
1 ノード(通信ノード)、2 プロセッサ、2A 入
出力用プロセッサ、3データ転送ライン(通信バス)、
4 入出力バス。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数のプロセッサと、 各プロセッサに接続された第1のノードを順に1対1の
    単方向バス接続によりリング上に結合した第1のリング
    バスと、 各プロセッサに接続された第2のノードを前記順とは逆
    方向に1対1の単方向バス接続によりリング上に結合し
    た第2のリングバスとを備えた並列処理装置において、 前記複数のプロセッサのうちの一部のプロセッサを入出
    力バスに接続し、前記入出力用プロセッサは外部との入
    出力を行うことを特徴とする並列処理装置。
  2. 【請求項2】 前記入出力用プロセッサは、第1及び第
    2の入出力用プロセッサを含み、 前記第1の入出力用プロセッサは、第2の入出力用プロ
    セッサからの状態情報が到達しないときには、前記第2
    の入出力用プロセッサに障害が発生したと判断して前記
    第2の入出力用プロセッサが行ってきた入出力処理を代
    替して行うことを特徴とする請求項1記載の並列処理装
    置。
  3. 【請求項3】 前記複数のプロセッサのうちの任意のプ
    ロセッサは、リング上に隣接するプロセッサの状態監視
    機構を有すると共に、前記隣接するプロセッサが実行す
    るタスクの情報を記憶し、 前記任意のプロセッサは、前記隣接するプロセッサに障
    害が発生したときには、前記隣接するプロッサを論理的
    に切り離して前記隣接するプロセッサが実行する予定で
    あったタスクを再度実行することを特徴とする請求項1
    記載の並列処理装置。
  4. 【請求項4】 前記複数のプロセッサのうちの任意のプ
    ロセッサは、リング上に隣接するプロセッサの状態監視
    機構を有すると共に、前記隣接するプロセッサが実行す
    るタスクのうちの優先度の高いタスクの情報を予め記憶
    し、 前記任意のプロセッサは、前記優先度の高いタスクにつ
    いて前記隣接するプロセッサと同時に実行しておき、前
    記隣接するプロセッサに障害が発生したときには、前記
    隣接するプロッサを論理的に切り離すことを特徴とする
    請求項1記載の並列処理装置。
  5. 【請求項5】 前記複数のプロセッサのうちの任意のプ
    ロセッサは、リング上に隣接するプロセッサの状態監視
    機構を有すると共に、前記隣接するプロセッサが実行す
    るタスクと同等の機能を有し前記タスクよりも実行時間
    の短いタスクの情報を予め記憶し、 前記任意のプロセッサは、前記隣接するプロセッサに障
    害が発生したときには、前記隣接するプロッサを論理的
    に切り離して前記隣接するプロセッサが実行する予定で
    あったタスクを前記実行時間の短いタスクで代行するこ
    とを特徴とする請求項1記載の並列処理装置。
  6. 【請求項6】 前記複数のプロセッサは、各自の状態を
    示すトークンをリングバス上に流し、 前記複数のプロセッサのうちの定められたマスタプロセ
    ッサは、前記トークンを調べて障害の発生したプロセッ
    サを論理的に切り離すことを特徴とする請求項1記載の
    並列処理装置。
  7. 【請求項7】 前記マスタプロセッサは、前記複数のプ
    ロセッサが実行するタスクと同等の機能を有し前記タス
    クよりも実行時間の短いタスクの情報を予め記憶し、 前記マスタプロセッサは、前記プロセッサに障害が発生
    したときには、前記障害が発生したプロセッサが実行す
    る予定であったタスクを前記実行時間の短いタスクで代
    行することを特徴とする請求項6記載の並列処理装置。
  8. 【請求項8】 前記複数のプロセッサのうちの定められ
    たマスタプロセッサは、第1及び第2のマスタプロセッ
    サを含み、 前記第1のマスタプロセッサは、前記第2のマスタプロ
    セッサに障害が発生したときには、前記第2のマスタプ
    ロセッサを代替することを特徴とする請求項6又は7記
    載の並列処理装置。
JP8280936A 1996-10-23 1996-10-23 並列処理装置 Pending JPH10124338A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8280936A JPH10124338A (ja) 1996-10-23 1996-10-23 並列処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8280936A JPH10124338A (ja) 1996-10-23 1996-10-23 並列処理装置

Publications (1)

Publication Number Publication Date
JPH10124338A true JPH10124338A (ja) 1998-05-15

Family

ID=17631993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8280936A Pending JPH10124338A (ja) 1996-10-23 1996-10-23 並列処理装置

Country Status (1)

Country Link
JP (1) JPH10124338A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229307A (ja) * 2013-05-17 2014-12-08 富士通株式会社 計算的な解を見出すよう構成されたコンピューティング・システムにおけるフォールトトレランスの改善方法
JP5985121B1 (ja) * 2015-07-30 2016-09-06 三菱電機株式会社 プログラム実行装置及びプログラム実行システム及びプログラム実行方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229307A (ja) * 2013-05-17 2014-12-08 富士通株式会社 計算的な解を見出すよう構成されたコンピューティング・システムにおけるフォールトトレランスの改善方法
JP5985121B1 (ja) * 2015-07-30 2016-09-06 三菱電機株式会社 プログラム実行装置及びプログラム実行システム及びプログラム実行方法
WO2017017829A1 (ja) * 2015-07-30 2017-02-02 三菱電機株式会社 プログラム実行装置及びプログラム実行システム及びプログラム実行方法
CN107851055A (zh) * 2015-07-30 2018-03-27 三菱电机株式会社 程序执行装置、程序执行***以及程序执行方法
US20180150366A1 (en) * 2015-07-30 2018-05-31 Mitsubishi Electric Corporation Program execution device, program execution system, and program execution method
US10579489B2 (en) 2015-07-30 2020-03-03 Mitsubishi Electric Corporation Program execution device, program execution system, and program execution method
CN107851055B (zh) * 2015-07-30 2021-06-29 三菱电机株式会社 程序执行装置、程序执行***以及程序执行方法

Similar Documents

Publication Publication Date Title
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
CN105373345A (zh) 存储器设备和模块
JPH10124338A (ja) 並列処理装置
US7243257B2 (en) Computer system for preventing inter-node fault propagation
JPH03201636A (ja) 直列制御装置のデータ入力制御装置
JP2000353154A (ja) 障害監視システム
JP2000040039A (ja) デイジーチェーン障害回避方式
JPH0934852A (ja) クラスタシステム
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JP4864755B2 (ja) データ処理システム及び診断方法
JPS6112580B2 (ja)
JPS5917467B2 (ja) 制御用計算機のバツクアツプ方式
JP3015537B2 (ja) 電子計算機の二重化方式
JPH0695731A (ja) 障害要因診断方式
JPS5911455A (ja) 中央演算処理装置の冗長システム
JPH07114521A (ja) マルチマイクロコンピュータシステム
JPS63168757A (ja) バスエラ−検出方式
JP3015538B2 (ja) 電子計算機の二重化方式
JPS6113627B2 (ja)
JPH0581056A (ja) 電子計算機の二重化方式
JPH03250240A (ja) 放送通信システム
Falih Mahmood A Pipelined Fault Tolerant Architecture for Real time DSP Applications
JPS5918741B2 (ja) 自動診断方式
JPH05289896A (ja) フォールトトレラントコンピュータ