JP2770603B2

JP2770603B2 - 並列計算機

Info

Publication number: JP2770603B2
Application number: JP3139065A
Authority: JP
Inventors: 信吾辻道; 倫正近藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1991-03-14
Filing date: 1991-06-11
Publication date: 1998-07-02
Anticipated expiration: 2013-07-02
Also published as: US5649106A; JPH04348451A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、複数のプロセッサを
備えた並列計算機に関するものである。

【０００２】

【従来の技術】図１１は例えば「中田ほか：並列回路シ
ミュレーションマシンＣｅｎｊｕ，情報処理，ＶＯＬ．
３１，ＮＯ．５，通巻３０３号，ｐｐ．５９３−６０
１」に示された従来の並列計算機を示すシステム構成図
であり、図において、１はプロセッサ（ＰＥ）であり、
２はクラスタ内のＰＥを接続するクラスタバス、３はク
ラスタ間を接続する多段接続ネットワーク、４はクラス
タ間のデータ転送を補助するネットワークプロセッサ、
５は同じくクラスタ間のデータ転送を補助するネットワ
ークアダプタである。図においてメモリは各ＰＥに分散
配置され、かつ、それぞれがシステム全体でユニークな
アドレスを持つ、分散共有メモリ方式である。

【０００３】また、図１２は図１１におけるクラスタ内
の構成を示す。図において、１はＰＥ（プロセッサ）で
あり、８は各ＰＥに分散配置されローカルメモリの性質
を持ちながら、かつそれぞれがシステム全体でユニーク
なアドレスを持つ分散共有メモリである。２はＰＥ１お
よび分散共有メモリ８を接続するクラスタバスである。
ここで、分散共有メモリ８と直接接続しているＰＥ１を
そのメモリの所有者、クラスタバス２によって接続して
いるＰＥ１を非所有者と呼ぶ。

【０００４】次に動作について説明する。図１１のシス
テムにおいて、ＰＥ１間のデータ転送は分散共有メモリ
を経由して行なう。各ＰＥ１がクラスタ内の他のＰＥ１
のメモリにアクセスする場合はクラスタバス２を経由し
て直接アクセスするのに対して、他のクラスタのＰＥ１
のメモリをアクセスする場合はクラスタバス２を経由し
てネットワークプロセッサ４とネットワークアダプタ５
に依頼を出し、更に多段接続ネットワーク３を経由して
アクセスすることになる。どちらの転送形態もハードウ
ェア及び基本ソフトウェアのサポートによりアプリケー
ションプログラムからの見かけは変わらないが、実際の
アクセス速度は大きく異なる。

【０００５】次に図１２の動作について説明する。この
システムにおいて、各ＰＥ１は、自分が所有する分散共
有メモリ８に格納されたデータに対して演算を行なう場
合は、直接高速にメモリをアクセスできるが、他のＰＥ
１の分散共有メモリ８に格納されたデータに対して演算
を行なう場合は、クラスタバス２を経由して分散共有メ
モリ８をアクセスする必要がある。この例の場合分散共
有メモリ８に２ポートメモリを使用しているので、各Ｐ
Ｅ１は分散共有メモリ８の所有者のメモリアクセスを妨
げる事なく、他者の分散共有メモリ８をアクセスでき
る。しかし、非所有ＰＥ１間で同時に分散共有メモリ８
をアクセスしようとした場合は、クラスタバス２が競合
するからクラスタバス２を使用する順序についての調停
が必要になり、メモリアクセスに待ちが生じる。そし
て、この方式では演算とデータ転送を一つのＰＥ１が時
分割で行なうので、データ転送時にオーバヘッドが増え
れば演算に影響を与え、性能が低下する。

【０００６】

【発明が解決しようとする課題】図１１の従来のクラス
タ構成を持つ並列計算機では、クラスタ内に閉じた並列
処理とクラスタ間にまたがった並列処理でデータ転送な
ど性質が異なる為、各クラスタに割り付けるアプリケー
ションプログラムの負荷が変動した場合に、柔軟に対応
できずクラスタ内のＰＥを遊ばせてしまうか、または逆
に、データ転送性能を桁違いに低下させながら他クラス
タのＰＥを利用するしかなかった。

【０００７】また図１１においてクラスタ数が多い場
合、あるいは、クラスタ間にまたがった処理が多い場合
は、多段接続ネットワークを経由してアクセスすること
が多くなりクラスタによる多段接続ネットワークの競合
が起きる。したがって、あるときには、スムーズに多段
接続ネットワークを経由して処理が実行できたり、別な
ときには、多段接続ネットワークがあくのを待たされた
りして、同一処理に費やす処理時間が異なってくること
があった。リアルタイムの処理においては、処理時間が
一定でないことにより結果が異なる場合があり、処理時
間を所定の時間で終了する必要があることが多く、同一
処理は、どのようなタイミングであっても、処理を一定
時間で終了できるシステムが必要であった。

【０００８】以上のように、図１１の従来の並列計算機
では、ＰＥを有効に利用できなかったり、クラスタ間の
独立性という利点を確保できずにリアルタイム性の保証
が困難になったり、データ転送効率を落としたりという
問題点があった。

【０００９】従来の図１２における並列計算機でも、同
時に複数の非所有ＰＥが分散共有メモリをアクセスしよ
うとした場合は、クラスタバスが競合するから待ちが生
ずる。この待ちの制御をハードウェアで行なう場合で
も、ソフトウェアで行なう場合でも、各ＰＥは余分のオ
ーバヘッドを負うことになる。また、データ転送をデー
タが発生した時、またはデータが必要になってから行な
うという基本的な性質から、データ転送が集中する場合
がある。それらの結果、ＰＥを有効に利用できなかった
り、クラスタバスのデータ転送性能を落としたりという
問題点があった。

【００１０】この発明は、クラスタ構成を計算機の稼働
中に再構成可能とすることによって、各クラスタに割り
付けられるアプリケーションプログラムの負荷の変動に
あわせてクラスタ内のＰＥ数を変更することにより、資
源（ＰＥ）を有効活用するとともに、クラスタ間の独立
性という利点を確保してリアルタイム性および再現性を
保証することができ、また、バス等のデータ転送性能の
低下を防止することができる並列計算機を得ることを目
的としている。

【００１１】またこの発明は、クラスタバスを介したＰ
Ｅと分散共有メモリの間でのデータ転送を、ＰＥとは別
に設けたデータ転送用ＰＥに任せることにより、ＰＥの
転送オーバヘッドを減少させ、またデータの転送をデー
タが発生した時点、およびデータが必要とされた時点か
ら独立させ、データ転送タイミングの選択の自由度を向
上させることによって、クラスタバスの実質的なデータ
転送性能向上を目的としている。

【００１２】また、この発明は転送用ＰＥの同期待ちオ
ーバヘッドを減少させ、データ転送効率を向上させるこ
とを目的としている。

【００１３】

【課題を解決するための手段】第１の発明に関わる並列
計算機は、情報を処理する複数のプロセッサ手段と上記
複数のプロセッサ手段をａ個（ａ≧２）のプロセッサ手
段群に分割し、該プロセッサ手段群に対応して、各プロ
セッサ手段群内のプロセッサ手段を相互に接続可能とす
るように設けられたａ本のサブデータ転送路からなる第
１のデータ転送路および上記複数のプロセッサ手段をｂ
個（ｂ≧１）のプロセッサ手段群に分割し、該プロセッ
サ手段群に対応して、各プロセッサ手段群内のプロセッ
サ手段を相互に接続可能とするように設けられたｂ本の
サブデータ転送路からなる第ｎ（ｎ≧２）のデータ転送
路と、上記各プロセッサ手段に対応して設けられ、上記
サブデータ転送路のいずれかを選択して上記各プロセッ
サ手段に接続するセレクタ手段を備え、上記セレクタ手
段は、所要の上記プロセッサ手段が相互にデータ転送可
能であるクラスタを構成するように、上記各プロセッサ
手段を接続する上記サブデータ転送路を選択するように
したものである。

【００１４】第２の発明に係わる並列計算機は、第１の
発明に関わる並列計算機において、上記クラスタの構成
を変更する際に、上記サブデータ転送路を相互に接続す
るサブデータ転送路接続手段を設けたものである。

【００１５】第３の発明に関わる並列計算機は、第１の
発明に関わる並列計算機において、上記各プロセッサ手
段に接続されて、上記同一クラスタ内の他のプロセッサ
手段に転送する転送用データを格納するバッファメモリ
と、上記各バッファメモリから上記転送用データを読み
出して、上記サブデータ転送路を通じて上記同一クラス
タ内の他のプロセッサ手段へのデータ転送を行うデータ
転送制御用プロセッサを備え、上記データ転送制御用プ
ロセッサは、任意のタイミングで上記バッファメモリを
アクセスするようにしたものである。

【００１６】

【作用】この発明における並列計算機は、セレクタ手段
により、計算機稼働中の適当なタイミングで各プロセッ
サ手段（ＰＥ）と複数のデータ転送手段の接続関係を変
更できるので、各アプリケーションプログラムの負荷量
が変動したときに、計算機全体のクラスタ構成を再構成
でき、各アプリケーションプログラムを適当な演算パワ
ーを持ったクラスタで実行できる。

【００１７】またこの発明における並列計算機は、デー
タ転送制御をＰＥと別に設けた転送用ＰＥが行なう。ま
た、データ転送はデータが発生した時点またはデータを
必要とする時点とは別のタイミングで行われ、転送が不
成功の場合は再転送する。

【００１８】

【実施例】実施例１．以下、この発明の一実施例を図について説明する。図１
において、１はプロセッサ（ＰＥ）、２はクラスタ内の
データ転送を受け持つクラスタバス（データ転送手段）
で、２１は第一のクラスタバスで、２２は第二のクラス
タバスである。第一のクラスタバス２１は、サブクラス
タバス２１ａ、２１ｂ、２１ｃ、２１ｄ、・・を有し、
第二のクラスタバス２２は、サブクラスタバス２２ａ、
２２ｂ、２２ｃ、・・を有している。そして、各ＰＥが
２本のクラスタバス２１、２２に接続可能なように配置
されており、図に示すようにサブクラスタバスは、互い
違いに切断されている。各サブクラスタバスは４個のＰ
Ｅに接続可能であり、各ＰＥは２本のサブクラスタバス
に接続可能である。

【００１９】６はＰＥを２本のクラスタバス２１、２２
の内どちらのバスに接続するかを切り替えるためのセレ
クタ（セレクタ手段）である。７はシステム全体を接続
するシステムバスでクラスタ間のデータ転送を受け持
つ。８はメモリであり、９はプロセッサ（ＰＥ）１とメ
モリ８を有するプロセッサ手段である。

【００２０】次に動作について説明する。たとえば、本
システムではセレクタの切り替えは、システム内の全セ
レクタについて一斉に行なう。逆に言えば、システムの
一部分についてのみセレクタの切り替えを行なうことは
できないし、また、１データの転送ごとにセレクタの切
り替えを許すものでもない。このセレクタの切り替えタ
イミングをシステム再構成タイミングと呼ぶ。

【００２１】この再構成タイミングは本システムで同時
に実行される複数のリアルタイムプロセスの開始、終了
のタイミングから適切に規定される。本システムでは各
ＰＥは２本のバスに接続可能になっているが、どちらの
バスに接続するかを検討し、実際に接続を変更するのは
システム再構成タイミングにおいてのみである。それ以
外のタイミングでは、各ＰＥは２本のクラスタバス２
１、２２のどちらか一方のバスに固定的に接続されてお
り、その結果、システムのクラスタ構成は固定であり、
クラスタ内の各ＰＥは１本のバスで接続されている。

【００２２】再構成された各クラスタはクラスタバスに
関しては互いに独立であり、他のクラスタでの処理内容
や処理状況に影響されない。図１の例の場合、各サブク
ラスタバスは４個のＰＥに接続可能であり、各ＰＥは２
本のサブクラスタバスに接続可能である。このクラスタ
バスとＰＥの接続関係を変更することによりシステムの
クラスタ構成を変更することができる。

【００２３】このクラスタバスとＰＥの接続関係を変更
することによりシステムのクラスタ構成を変更した例
を、図２、及び図３に示す。図２は、サブクラスタバス
２１ａによりプロセッサ手段２個からなるクラスタａを
構成し、サブクラスタバス２２ａによりプロセッサ手段
１個からなるクラスタｂを構成し、サブクラスタバス２
１ｂによりプロセッサ手段３個からなるクラスタｃを構
成し、サブクラスタバス２２ｂによりプロセッサ手段２
個からなるクラスタｄを構成し、サブクラスタバス２１
ｃによりプロセッサ手段１個からなるクラスタｅを構成
し、サブクラスタバス２２ｃによりプロセッサ手段３個
からなるクラスタｆを構成した例を示すものである。図
２に示すように、２重に張られたクラスタバスを活用す
ると各クラスタ内のＰＥ数を１個から４個の範囲で変更
することができる。

【００２４】また、全てのクラスタバスを利用する必要
はなく、例えば、図３のようにクラスタバス２１をまっ
たく使用せず、クラスタバス２２のみでクラスタを構成
してもよい。図３は、サブクラスタバス２２ａによりプ
ロセッサ手段４個からなるクラスタａを構成し、サブク
ラスタバス２２ｂによりプロセッサ手段４個からなるク
ラスタｂを構成し、サブクラスタバス２２ｃによりプロ
セッサ手段４個からなるクラスタｃを構成した例を示す
ものである。この場合、各クラスタに最大数の４個のＰ
Ｅを接続することができる。ただし、この場合は、クラ
スタバス２１は使用されないので無駄になる。なお、図
２及び図３には図示していないが、本実施例でもリアル
タイム性の要求が低いような場合はシステムバス７を経
由したクラスタ間のデータ転送が可能である。

【００２５】図２及び図３に示したように、各クラスタ
ａ、ｂ、ｃ、・・は、与えられた処理がそのクラスタ内
で他のクラスタから独立して実行できるように構成され
る。この構成はセレクタ６が所定のサブクラスタバスを
選択することにより達成される。

【００２６】このように、実行されるプロセスに先立っ
て、クラスタを再構成しておくと各プロセスは、他のク
ラスタをまったくアクセスすることなく自分自身のクラ
スタ内だけで処理を実行し終了することができる。たと
えば、プロセスａ、ｂ、ｃ、ｄ、ｅ、ｆが並列実行可能
で、かつ、それぞれのプロセスがプロセッサを２個、１
個、３個、２個、１個、３個必要としている場合、あら
かじめセレクタが図２に示すクラスタ構成を取るように
切り替えられる。したがって、プロセスａ、ｂ、ｃ、
ｄ、ｅ、ｆは、他のクラスタをまったくアクセスするこ
となく自分自身のクラスタ内だけで処理を実行し終了す
ることができる。

【００２７】このように、プロセスａ、ｂ、ｃ、ｄ、
ｅ、ｆの実行前に、図２に示すような構成にすること
で、プロセスの動作環境は常に一定し、処理時間及び処
理結果の再現が可能になり、従来の並列計算機で問題と
されていた、ＰＥを有効に利用できなかったり、クラス
タ間の独立性という利点を確保できずに、リアルタイム
性の保証が困難になったり、データ転送効率を落とした
りという問題点が解消できる。

【００２８】実施例２．また、上記実施例ではクラスタバスを２重に張る場合に
ついて説明したが、図４に示すように３重に張ってもよ
いし、更に４重、５重にしてもよい。この様にすると、
システム内のクラスタ数や、各クラスタ内のＰＥ数の変
動幅を大きくすることができ、全体としてクラスタ構成
の自由度を高くすることができる。

【００２９】実施例３．また、上記実施例ではクラスタバスを４個のプロセッサ
ごとに切断してサブクラスタバスを構成した場合をしめ
したが、更に２個、３個、５個、６個、・・・にしても
よい。また、この数は一定でなくてもよく、２個、３
個、５個、６個、・・ごとに区切られたサブクラスタバ
スが混在してもよい。この様にすると、システム内のク
ラスタ数や、各クラスタ内のＰＥ数の変動幅を大きくす
ることができ、全体としてクラスタ構成の自由度を高く
することができる。

【００３０】実施例４．また、上記実施例１ではクラスタバスは、互い違いに切
断されている場合を示したが、図５に示すように、クラ
スタバス２１とクラスタバス２２は切断されていなくて
もよい。そして、このように切断のない状態で、更にバ
スを４重、５重にしてもよい。この様にすると、システ
ム内のクラスタ数や、各クラスタ内のＰＥ数の変動幅を
大きくすることができ、全体としてクラスタ構成の自由
度を高くすることができる。あるいは、図示しないが、
クラスタバス２１は切断されていて、クラスタバス２２
は切断されていない場合でもよい。

【００３１】実施例５．また、上記実施例１ではクラスタバスは、互い違いに切
断されている場合を示したが、図６に示すように、サブ
クラスタバスとサブクラスタバスを結合するバス結合器
１０を設けてもよい。バス結合器１０は、図示したよう
に隣り合うサブクラスタバスを結合するだけでなく、図
示しないが離れたサブクラスタバスを結合できるように
してもよく、こうすることによりクラスタ構成の自由度
を高くすることができる。また、同じクラスタバス内の
サブクラスタバスを結合するだけでなく他のクラスタバ
スのサブクラスタバスを結合できるようにしてもよい。

【００３２】実施例６．また、上記実施例ではクラスタ内の接続バスをバスとし
たが、その他の形式のネットワークでもよい。

【００３３】実施例７．更に、上記実施例ではローカルメモリの性質を強く保持
した分散共有メモリ方式だが、完全な共有メモリ方式で
もよいし、完全なローカルメモリ方式でもよい。

【００３４】実施例８．更に、上記実施例ではシステムの再構成をシステム全体
を対象として一斉に行なったが、システムの一部分を対
象にした再構成を許し、その結果、飛び飛びに生じる未
利用ＰＥを再利用するために、適当な間隔でガーベッジ
コレクション、すなわちシステム全体を対象にした再構
成を行なってもよい。

【００３５】以上、上記実施例では、クラスタ構造を持
つ並列計算機において、プロセッサ間を接続してクラス
タを構成するための、プロセッサごとに準備された複数
のデータ転送手段（クラスタバス）と、複数のデータ転
送手段のうちの一つを各プロセッサごとに計算機稼働中
に選択するセレクタ手段とを備え、データ転送手段の選
択及び固定をアプリケーションプログラム群の要求にあ
わせて再構成できるように、計算機稼働中の適当なタイ
ミングで制御する手段を備えた並列計算機を説明した。

【００３６】なお、特開昭６１−１４８５６４号公報
に、「並列処理計算機」として、複数のプロセッサを２
次元配列し、各々の行及び列でプロセッサ間を結合して
なる並列処理計算機において、任意数の異なる行または
列のプロセッサ間を直列接続する機能を持つバス接続機
構を設けたことを特徴とする並列計算機が開示されてい
るが、この技術は、発明の構成の点から、プロセッサを
２次元配列した計算機に応用したものであること、及
び、あらかじめ定まった行または列のプロセッサ間を直
列接続するためのものであり、行または列のプロセッサ
内においては、プロセッサの接続形態が変更できないこ
と等の点でこの発明にかかる並列計算機とは異なり、ま
た、発明の目的及び以下に述べる効果においてもこの発
明にかかる並列計算機とは異なるものである。

【００３７】実施例９．図７にクラスタ内における実施例を示す。図７におい
て、１はＰＥ、８はローカルメモリの性質を強く持った
分散共有メモリ、２はクラスタ内のデータ転送を受け持
つクラスタバス、３１はＰＥ１間のデータ転送制御用の
転送用ＰＥ、３２は転送用ＰＥ３１のデータ転送動作を
規定する転送用プログラムを格納するプログラムメモ
リ、３３は他のＰＥ１に転送すべき出力データを格納す
るＦＩＦＯレジスタである。

【００３８】次に図８はＦＩＦＯレジスタのデータ転送
タイミング制御手段の具体的実施例を示す図である。図
８において、４１はＦＩＦＯレジスタのデータ格納部で
ある２ポートメモリ、４２は２ポートメモリへの書き込
み用アドレスカウンタ、４３は２ポートメモリからの読
み出し用アドレスカウンタ、４４は転送用ＰＥ３１がデ
ータが準備される前にＦＩＦＯをアクセスした場合に割
込信号を発生する割込信号生成回路、４５は転送用ＰＥ
３１からのリードストローブ信号、４６は割込信号生成
回路４４が出力する割込信号である。

【００３９】また、図９はデータ転送用プログラム抽出
機能付きコンパイラの機能図である。図９において、５
１は並列言語で記述した並列型ソースプログラム、５２
は並列型ソースプログラム５１を自動的に並列型演算用
ソースプログラムと転送用ソースプログラムに分離する
転送用ソースプログラム抽出分離用プリプロセッサ、５
３はプリプロセッサ５２が出力する並列型演算用ソース
プログラム、５４はプリプロセッサ５２が出力する転送
用ソースプログラム、５５は従来の並列言語用コンパイ
ラ、５６は並列言語用コンパイラ５５が出力する演算用
オブジェクトプログラム、５７は並列言語用コンパイラ
５５が出力する転送用オブジェクトプログラムである。

【００４０】また、図１０はプリプロセッサ５２の機能
を説明する図である。図１０において、６１はＰＥ１間
のデータ転送に関わる部分を抽出する抽出部、６２は演
算用プログラムと転送用プログラムを分離・再構成する
分離・再構成部である。

【００４１】次に動作について説明する。図７の４個の
ＰＥ１がひとまとまりの処理を分担して並列処理する場
合、ＰＥ１間（その分散共有メモリ８間）でデータ転送
が必要になる。その場合に各ＰＥ１は出力するデータを
自分の出力用ＦＩＦＯレジスタ３３に出力する。そこか
ら先の相手先ＰＥ１（その分散共有メモリ８）への転送
は、転送用ＰＥ３１が担当し以下のように実行する。

【００４２】このアーキテクチャでは、あるまとまった
処理を行なっている間は、ＰＥ１間での処理の分担法や
処理手順を変更しないというスタティックスケジューリ
ングの考え方を前提としている。つまりプログラムを作
成する時点で、ＰＥ１への分割法と同期タイミングを一
意に規定する。そこで、データ転送が発生する大まかな
タイミングがわかるし、各ＰＥ１からデータが出力され
る順序は完全に規定される。また、それぞれのデータが
どこに転送されるかもあらかじめわかっている。

【００４３】そこでデータ転送を受け持つプログラムを
あらかじめ作成することができる。この転送用プログラ
ムは演算用プログラムと同じ時に作成され、同じ時に転
送用ＰＥ３１のプログラムメモリ３２にローディングさ
れる。転送用ＰＥ３１はこのプログラムに従いＦＩＦＯ
３３からデータを読みだし、それを指定のＰＥ１の分散
共有メモリ８に転送する。

【００４４】あるＦＩＦＯ３３からデータを読み出す順
序は、そのＦＩＦＯ３３のＰＥ１がデータを出力した順
である。また、複数のＦＩＦＯ３３のうち次にどのＦＩ
ＦＯ３３をアクセスするかは、上でのべたように、あら
かじめプログラム作成時に規定しておき、実行時に順序
を変更することはない。

【００４５】この様にしてデータ転送を実施する場合、
ＦＩＦＯ３３にデータが格納されていることが必要だ
が、この同期制御を高速に行なうデータ転送タイミング
制御手段を図７，図８を参照して説明する。

【００４６】まず、ＰＥ１は演算用プログラムに従がい
演算を行い、その結果をＦＩＦＯ３３に格納する。一
方、転送用ＰＥ３１は自分のプログラムの進行状態にの
み従い、ＦＩＦＯ３３へのアクセスを実行する。この
際、当然ＦＩＦＯ３３にデータが準備されていないこと
もありえる。そこで、この状態をＦＩＦＯ３３から転送
用ＰＥ３１に通知する為に、割り込み信号を利用する。
ＦＩＦＯ３３は図８のように構成されており、割込信号
生成回路４４は、書き込み用アドレスカウンタ４２と読
み出し用アドレスカウンタ４３を比較して、条件によっ
て割込信号を生成する比較回路を備えている。

【００４７】転送用ＰＥ３１がＦＩＦＯ３３をアクセス
してデータを読み出そうとすると、転送用ＰＥ３１から
のリードストローブ信号４５により、ＦＩＦＯ３３は読
みだし動作を検出し比較回路のチェックを行なう。そし
て読み出し用アドレスカウンタ４３の方が大きい場合、
ＦＩＦＯ３３はデータがまだ準備されていないと判断し
て割り込み信号４６を出力し、転送用ＰＥ３１に通知す
る。転送用ＰＥ３１はこの割り込み信号４６を受け付け
たら、今実行したデータ転送に失敗したと判断し、割り
込み処理プログラムにより読み出し動作を再実行する。
割り込み信号４６が発生しなかった場合、データ転送が
正常に実行されたものと判断し、データ転送プログラム
に従い次のＦＩＦＯアクセスを行なう。

【００４８】以上のように、転送用ＰＥ３１が、ＦＩＦ
Ｏ３３にデータが準備されていることを仮定して転送動
作を開始し、失敗した場合だけ割り込み処理により再実
行を行なうことにより、オーバヘッドを減らすことがで
きる。以上説明したように、この方式によるデータ転送
は転送用ＰＥ３１が制御するため、データの発生にも、
ＰＥ１からのデータの要求にも無関係に行われるが、デ
ータ転送能力を十分に持たせれば、ほぼデータ発生のタ
イミングで転送を行なうことができる。その結果、デー
タ転送のタイミングの自由度が大きくなり、バスを有効
に活用することができる。

【００４９】また、プログラマが上で述べたようなデー
タ転送用プログラムを作成することはもちろん可能であ
るが、従来無かった作業になるので、ある程度負担が大
きい作業であると考えられる。そこで、転送用ソースプ
ログラム抽出分離用プリプロセッサ５２を利用する。こ
のプリプロセッサ５２は並列言語コンパイラと組合わせ
て用いる。その場合の処理の流れについて図９によって
説明する。

【００５０】まず、プログラマは従来の並列言語によっ
てプログラムを記述する。このプログラムをプリプロセ
ッサ５２に通すと、演算部とＰＥ１間データ転送部が自
動的に分離され、並列型演算用ソースプログラム５３と
転送用ソースプログラム５４が生成される。これらをそ
れぞれ従来の並列言語用コンパイラ５５に通すことによ
って、演算用オブジェクトプログラム５６と転送用オブ
ジェクトプログラム５７が生成される。

【００５１】次に、プリプロセッサ５２の機能を図１０
により説明する。プリプロセッサ５２はまず、抽出部６
１がメモリのリード、ライトを全てチェックして他のＰ
Ｅ１の分散共有メモリ８をアクセスしている部分を検出
する。次に分離・再構成部６２において、抽出部６１で
検出したＰＥ１間データ交換に関わる部分を分離して、
ＦＩＦＯ３３を用いたデータ転送機構用のプログラムに
再構成する。また、残った演算用プログラムも他のＰＥ
１の分散共有メモリ８へのアクセスを、自分の分散共有
メモリ８からの読みだし、または自分のＦＩＦＯ３３へ
の書き込みに変更して再構成する。同時に、転送用、演
算用のそれぞれに対して必要な同期制御命令を追加す
る。

【００５２】実施例１０．また、上記実施例９ではクラスタ内のＰＥが４個の場合
について説明したが、２個以上の任意の個数でよい。

【００５３】実施例１１．また、上記実施例９ではクラスタ内の接続パスをバスと
したが、その他の形式のネットワークでもよい。

【００５４】実施例１２．更に、上記実施例９ではローカルメモリの性質を強く保
持した分散共有メモリ方式だが、完全なローカルメモリ
方式でもよい。

【００５５】実施例１３．また、上記実施例９ではＦＩＦＯを用いたが、別の方式
のデータバッファリングを行なっても良い。その一例と
して、分散共有メモリ自体に出力データを置いても良
く、その場合も、アドレスは予め既知のものとして転送
用プログラムを作成することができる。

【００５６】実施例１４．また、上記実施例９ではプリプロセッサを並列言語コン
パイラと組合わせたが、自動抽出、分離、再構成機能を
並列言語コンパイラ、または、自動並列化コンパイラに
組み込んでも良い。

【００５７】

【発明の効果】以上のように、この発明による並列計算
機は、データ転送路の少なくとも１本は相互に独立な２
個以上のサブデータ転送路から構成されるようにしたの
で、このサブデータ転送路に接続されたプロセッサ手段
間でデータ転送を行なっても他のサブデータ転送路との
データの輻輳が起こらず、１本のデータ転送路上に複数
のクラスタを配置できるため並列計算機内のデータ転送
路の総延長を短くすることが可能であるという効果があ
る。

【００５８】また、この発明による並列計算機は、上記
クラスタの構成を変更する際に、上記サブデータ転送路
を相互に接続するサブデータ転送路接続手段を設けたの
で、クラスタを構成するプロセッサ手段の数を柔軟に変
更できるという効果がある。

【００５９】また、この発明による並列計算機は、上記
各プロセッサ手段に接続されて、上記同一クラスタ内の
他のプロセッサ手段に転送する転送用データを格納する
バッファメモリと、上記各バッファメモリから上記転送
用データを読み出して、上記サブデータ転送路を通じて
上記同一クラスタ内の他のプロセッサ手段へのデータ転
送を行うデータ転送制御用プロセッサを備え、上記デー
タ転送制御用プロセッサは、任意のタイミングで上記バ
ッファメモリをアクセスするようにしたので、各プロセ
ッサ手段におけるデータの発生に直接依存しないタイミ
ングでデータ転送を行うことができ、また演算タイミン
グに影響を与えずにデータ転送タイミングを変更するこ
とができるという効果がある。

【図面の簡単な説明】

【図１】この発明の実施例１による並列計算機のシステ
ム構成図である。

【図２】この発明の実施例１におけるクラスタ構成の一
例図である。

【図３】この発明の実施例１におけるクラスタ構成の別
の一例図である。

【図４】この発明の実施例２におけるバスを三重に張っ
た場合の実施例図である。

【図５】この発明の実施例４におけるクラスタ構成の別
の一例図である。

【図６】この発明の実施例５におけるクラスタ構成の別
の一例図である。

【図７】この発明の実施例９による並列計算機のシステ
ム構成図である。

【図８】この発明の実施例９における割込信号発生機能
付きＦＩＦＯレジスタの構成図である。

【図９】この発明の実施例９におけるコンパイラの機能
系統図である。

【図１０】この発明の実施例９におけるプリプロセッサ
の機能説明図である。

【図１１】従来の並列計算機のシステム構成図である。

【図１２】従来の並列計算機のクラスタ内の構成図であ
る。

【符号の説明】

１プロセッサ（ＰＥ）２クラスタバス（データ転送手段）６セレクタ（セレクタ手段）７システムバス８メモリ９プロセッサ手段１０バス結合器２１第一のクラスタバス２１ａ第一のクラスタバスのサブクラスタバス２１ｂ第一のクラスタバスのサブクラスタバス２１ｃ第一のクラスタバスのサブクラスタバス２１ｄ第一のクラスタバスのサブクラスタバス２２第二のクラスタバス２２ａ第二のクラスタバスのサブクラスタバス２２ｂ第二のクラスタバスのサブクラスタバス２２ｃ第二のクラスタバスのサブクラスタバス３１転送用ＰＥ３３ＦＩＦＯ４４割込信号生成回路５２プリプロセッサ６１抽出部６２分離・再構成部。

フロントページの続き (56)参考文献特開昭61−117644（ＪＰ，Ａ) 特開平２−3845（ＪＰ，Ａ) 特開平２−501791（ＪＰ，Ａ) 特開平２−257249（ＪＰ，Ａ) 実開昭62−169851（ＪＰ，Ｕ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/163 G06F 15/16 380

Claims

(57)【特許請求の範囲】

【請求項１】情報を処理する複数のプロセッサ手段と
上記複数のプロセッサ手段をａ個（ａ≧２）のプロセッ
サ手段群に分割し、該プロセッサ手段群に対応して、各
プロセッサ手段群内のプロセッサ手段を相互に接続可能
とするように設けられたａ本のサブデータ転送路からな
る第１のデータ転送路および上記複数のプロセッサ手段
をｂ個（ｂ≧１）のプロセッサ手段群に分割し、該プロ
セッサ手段群に対応して、各プロセッサ手段群内のプロ
セッサ手段を相互に接続可能とするように設けられたｂ
本のサブデータ転送路からなる第ｎ（ｎ≧２）のデータ
転送路と上記各プロセッサ手段に対応して設けられ、上
記サブデータ転送路のいずれかを選択して上記各プロセ
ッサ手段に接続するセレクタ手段を備え、上記セレクタ手段は、所要の上記プロセッサ手段が相互
にデータ転送可能であるクラスタを構成するように、上
記各プロセッサ手段を接続する上記サブデータ転送路を
選択することを特徴とする並列計算機。
【請求項２】上記クラスタの構成を変更する際に、上
記サブデータ転送路を相互に接続するサブデータ転送路
接続手段を設けたことを特徴とする請求項１記載の並列
計算機。
【請求項３】上記各プロセッサ手段に接続されて、上
記同一クラスタ内の他のプロセッサ手段に転送する転送
用データを格納するバッファメモリと、上記各バッファメモリから上記転送用データを読み出し
て、上記サブデータ転送路を通じて上記同一クラスタ内
の他のプロセッサ手段へのデータ転送を行うデータ転送
制御用プロセッサを備え、上記データ転送制御用プロセッサは、任意のタイミング
で上記バッファメモリをアクセスすることを特徴とする
請求項１記載の並列計算機。