JPH0713957A

JPH0713957A - 並列プロセッサ

Info

Publication number: JPH0713957A
Application number: JP5157633A
Authority: JP
Inventors: Seigo Suzuki; 清吾鈴木; Masashi Takahashi; 真史高橋; Hiroshige Fujii; 洋重藤井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-06-28
Filing date: 1993-06-28
Publication date: 1995-01-17

Abstract

(57)【要約】【目的】この発明は、処理速度の高速化を図った並列
プロセッサを提供することを目的とする。【構成】この発明は、プロセッサＰＥ１，ＰＥ３から
引き出される配線を直接外部と接続する第１のピン１
Ｗ，３Ｗ等と、プロセッサＰＥ２，ＰＥ４から引き出さ
れる配線を隣接するプロセッサＰＥ１，ＰＥ３をバイパ
スして外部と接続する第２のピン２Ｅ，４Ｅ等を有し、
第１のピン等及び第２のピン等のみを介して１チップ化
された複数のプロセッサが二次元トーラス結合されて構
成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、複数のプロセッサを
使用して処理を実行する並列プロセッサに関する。

【０００２】

【従来の技術】従来は、ＬＳＩチップ間の接続は、パッ
ケージのピンを介して一旦基板に落とし、基板上の配線
を経て他のパッケージのピンに接続される。

【０００３】特に、並列プロセッサのトーラス（捻れ）
接続の場合には、図７に示すように基板上の両端を結ぶ
配線が必要となるが、これは特に基板が大きくなった場
合は非常に長いものとなり、チップの間の高速なデータ
転送に障害となっていた。

【０００４】更に隣接チップ同志の接続においても、従
来の様に各プロセッサの入出力ピンを逐一基板上に一旦
落としてから配線していると、これによって付加容量が
大幅に増えてしまっていた。しかし、全体の速度が数十
ＭＨＺ以下の場合は、このような事情は障害とはなら
ず、問題にされていなかった。

【０００５】一方、単純な二次元格子構造は、構成が極
めてシンプルでＬＳＩとして最も作りやすいもののエッ
ジ（端）の部分が構造的に非対象となる為、４辺の部分
の処理が非常に複雑になる。これを解決する為、トーラ
ス結合が提案されており、実際にも多く使われている。

【０００６】しかし、この二次元トーラス構造をＬＳＩ
で実現しようとすると、両端の捻れの部分の結線処理が
難しくなり、両端（二辺）を結ぶワイヤの長さが長くな
り、時には数十ｃｍから、１ｍ以上にもなってしまう。

【０００７】仮に１ｍとすると、この配線自体での伝搬
遅れが４ｎｓも生じてしまう。これでは原理的にも２５
０ＭＨｚ以上のやり取りは不可能である。更に、この長
大な配線長に起因する負荷容量は非常に大きく、一般に
基板上に配線した場合は＞１００ｐＦともなる。

【０００８】このため、特にＣＭＯＳにて駆動した場
合、この負荷容量による遅れが＞１０数ｎｓにもなり、
両者の影響で、端から端までの遅延時間は２０ｎｓ前後
になってしまう。こうなると全体のやり取りの速度は高
々５０ＭＨｚ程度となってしまい、性能面で大きなネッ
クとなる。

【０００９】また、最近はプロセッサの内部動作速度は
非常に向上しており、２００から４００ＭＨｚも可能に
なってきている。内部が４００ＭＨｚで動くプロセッサ
同志のやり取りが５０ＭＨｚでしかできないとなると、
このバランスを取るためのシステム的な配慮が複雑とな
る。特に、数多くのプロセッサの動作をお互いに同期を
取って制御しあう必要のある、超並列プロセッサアレー
においては、このアンバランスは致命的に問題である。

【００１０】一方、近年、多数の要素プロセッサを同時
に動作させることによって、高速処理を可能とするＳＩ
ＭＤ（Single instruction Multiple ata Stream）型並
列プロセッサが開発されている。そのような並列プロセ
ッサは、例えば図８に示すような構成になっている。同
図で、このＳＩＭＤ型並列プロセッサは、制御プロセッ
サ１１、全体メモリ１２、グローバルバス１３、複数台
の要素プロセッサ１４、ローカルメモリ１５、通信ネッ
トワーク１６から構成される。制御プロセッサ１１には
全体メモリ１２が接続され、要素プロセッサ１４にはそ
れぞれローカルメモリ１５が接続される。制御プロセッ
サ１１と各要素プロセッサ１４は、命令供給バス１３で
接続される。要素プロセッサ１４は、ネットワーク１６
で相互接続される。ネットワーク１６の形態としては、
格子結合、２進ｎキューブ結合、木結合等、多くのもの
が知られている。

【００１１】制御プロセッサ１１は、全体メモリ１２に
格納されている命令列を逐次読み込み、制御プロセッサ
１１で実行すべき命令であれば制御プロセッサ１１自身
で実行し、要素プロセッサ１４で実行すべき命令であれ
ばグローバル１３を介して全要素プロセッサ１４に放送
する。

【００１２】図９に要素プロセッサ１４の構成図を示
す。

【００１３】要素プロセッサ１４は、制御プロセッサ１
１からの命令を実行する演算処理ユニット４１と、演算
処理ユニット４１での命令実行を抑制するマスクフラグ
４２から構成される。演算処理ユニット４１は、マスク
フラグ４２がセットされていなければ、制御プロセッサ
１１からの命令にしたがって、算術論理演算、ローカル
メモリ１５へのアクセス、通信ネットワーク１６を介し
ての他の要素プロセッサとの通信等の処理を行う。マス
クフラグ４２がセットされていれば、演算処理ユニット
は制御プロセッサ１１からの命令を実行しない。このマ
スクフラグ４２によって、制御プロセッサからの命令に
対して、処理を行う要素プロセッサと処理を行わない要
素プロセッサを設定することができ、ＭＩＭＤ（Multip
le Instruction Multiple Data Stream ）処理をエミュ
リレートすることができる。

【００１４】マスクフラグ４２の設定は、ソースプログ
ラムのｉｆブロック等の条件判断に対応して行われる。
このような、マスクフラグが設定される状態をマスク階
層と呼ぶ。すなわちマスク階層に入るときに、ｉｆ文等
による条件判断を行い、条件不成立のために処理を行わ
ない要素プロセッサのマスクフラグをセットする。そし
て、マスク階層を抜けるときにマスクフラグをリセット
する。あるマスク階層にいるときに、さらに新たなマス
ク階層に入るとき、すなわちｉｆブロックが入れ子にな
っているような場合には、新たなマスク階層に入ると
き、現在のマスクフラグの状態を保存しておき、マスク
階層を抜けるときに、マスクフラグを復元する操作が必
要となる。マスクフラグの保存には、スタックを用い
る。

【００１５】図１０に、図１１のプログラムをＰＥ０〜
ＰＥ４の５つの要素プロセッサで実行する場合の、各要
素プロセッサのマスクフラグの値，メモリスタックの状
況を示す。

【００１６】図１１のプログラム中、ｉｐｒｏｃはプロ
セッサ番号を示す。このプログラムでは、Ｐｒｏｃｅｓ
ｓａＯをＰＥ２が、ＰｒｏｃｅｓｓｂＯをＰＥ０と
ＰＥ１が、ＰｒｏｃｅｓｓｃＯをＰＥ３とＰＥ４がそ
れぞれ実行する。以下ではプログラムの行ごとに説明す
る。初期状態ではすべてのＰＥのマスクフラグはリセッ
トされているとする。

【００１７】(1) ｉｆブロックに入るので、現在のマス
クフラグ値をメモリスタックに退避する。その後、ｉｆ
文の条件判断により、ＰＥ番号が２より大きいＰＥ３，
ＰＥ４のマスクフラグがセットされる。

【００１８】(2) ｉｆブロックに入るので、現在のマス
クフラグ値をメモリスタックに退避する。その後、ｉｆ
文の条件判断により、ＰＥ番号が２以外のＰＥ、すなわ
ちＰＥ０，ＰＥ１のマスクフラグがセットされる。ＰＥ
３，ＰＥ４は、すでにマスクフラグがセットされてい
る。

【００１９】(3) ＰｒｏｃｅｓｓａＯが、マスクフラ
グのセットされていないＰＥ２で実行される。

【００２０】(4) メモリスタックからマスクフラグが回
復され、再度メモリスタックに退避される。ＰＥ３とＰ
Ｅ４はマスクされたままである。ｅｌｓｅ文により、
(2) のｉｆ文と逆の条件判断により、ＰＥ２がマスクさ
れる。

【００２１】(5) ＰｒｏｃｅｓｓｂＯが、マスクフラ
グのセットされていないＰＥ０，ＰＥ１で実行される。

【００２２】(6) メモリスタックからマスクフラグが回
復される。

【００２３】(7) メモリスタックからマスクフラグが回
復され、再度メモリスタックに退避される。すべてのマ
スクフラグがリセットされる。ｅｌｓｅ文により、(1)
のｉｆ文と逆の条件判断により、プロセッサ番号が２以
下のＰＥ、すなわちＰＥ０，ＰＥ１，ＰＥ２のマスクフ
ラグがセットされる。

【００２４】(8) ＰｒｏｃｅｓｓｃＯが、マスクフラ
グのセットされていないＰＥ３，ＰＥ４で実行される。

【００２５】(9) メモリスタックからマスクフラグが回
復され、初期状態に戻る。

【００２６】以上のようなマスク操作により、ＳＩＭＤ
制御でありながら、それぞれのＰＥで異なった処理を行
うＭＩＭＤ処理をエミュレートできる。

【００２７】以上で述べた方法では、マスク情報をメモ
リに退避するため、マスク階層が深くなると、頻繁にメ
モリアクセスが発生し、処理速度が低下する可能性があ
る。この対策として、要素プロセッサ内部にマスク情報
の退避用スタックを設けることが考えられるが、大幅な
ハードウェア量の増加につながる。

【００２８】このようなマスク情報は、あるマスク階層
でマスクフラグがセットされると、その内側のマスク階
層ではマスクフラグがセットされたままである。したが
って、退避されるマスク情報は、マスクがセットされる
前は０が退避され、マスクがセットされてからは常に１
が退避される。つまり、マスクフラグが０から１に変化
したのがどのマスク階層かという情報さえあればもとの
状態が復元できる。したがって、従来のマスクフラグを
すべてスタックに退避する方法は、冗長な情報をスタッ
クに退避させており、その結果、性能低下、あるいはハ
ードウェア量の増大を引き起こしていると言える。

【００２９】

【発明が解決しようとする課題】以上説明したように、
従来の並列プロセッサアレーにおいては、パッケージ間
の結線容量の増大によって、パッケージ間のデータ転送
速度が著しく劣化していた。また、二次元トーラス構造
を実現する場合、従来の構造では、両端の素子を結線す
るのに基板の端から端までの物理的に非常に長い配線が
必要となるが、これが結線容量を更に増加させていた。

【００３０】一方、ＳＩＭＤ型並列プロセッサでは、Ｍ
ＩＭＤ処理をエミュレートする手段としてマスク操作が
用いられる。ところが従来のマスク操作では、新たなマ
スク階層に入るごとにマスク情報を退避させるため、マ
スク階層が深くなると、マスク情報を記憶するために大
きな容量が必要となり、さらにマスク情報をメモリに記
憶させようとすると、処理速度が低下してしまうという
欠点があった。

【００３１】そこで、この発明は上記に鑑みてなされた
ものであり、その目的とするところは、信号伝送能力の
向上あるいはマスク階層の変化を高速化することによっ
て、処理速度の高速化を達成し得る並列プロセッサを提
供することを目的とする。

【００３２】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、１チップ化された複数のプ
ロセッサと、プロセッサから引き出される配線を直接外
部と接続する第１の端子と、プロセッサから引き出され
る配線を隣接するプロセッサをバイパスして外部と接続
する第２の端子とを有し、第１の端子及び第２の端子の
みを介して１チップ化された複数のプロセッサが二次元
トーラス結合されて構成される。

【００３３】請求項２記載の発明は、複数の要素プロセ
ッサを統括制御する制御プロセッサと、単一命令、複数
データストリーム（ＳＩＭＤ）方式によって制御プロセ
ッサから発行される命令を実行処理する複数個の要素プ
ロセッサとを有する並列プロセッサにおいて、それぞれ
の要素プロセッサは、命令を実行処理する演算処理ユニ
ットと、制御プロセッサから発行される命令を演算処理
ユニットで実行処理するか否かを示すマスクフラグと、
マスクフラグにおけるマスクの階層を示すマスクカウン
タと、制御プロセッサからの指令及び演算処理ユニット
の処理結果に基づいてマスクフラグをセット／リセット
し、マスクの階層が進む毎にマスクカウンタのカウント
値を増加させ、マスクの階層が戻る毎にマスクカウンタ
のカウント値を減少させてマスクカウンタのカウント値
が０でマスクフラグをリセットするようにマスクフラグ
及びマスクカウンタを制御するマスク制御回路とから構
成される。

【００３４】この発明は、請求項１記載の並列プロセッ
サにおいて、１チップ化された複数のプロセッサは、テ
ープキャリア（ＴＡＢ）方式により二次元トーラス結合
されて構成される。

【００３５】この発明は、請求項２記載の並列プロセッ
サにおいて、１チップ化された複数のプロセッサは、そ
の底面にヒートシンクが設けられて構成される。

【００３６】

【作用】上記構成において、請求項１記載の発明は、隣
接するプロセッサの対向する端子同志を接続して、二次
元トーラス結合を実現するようにしている。

【００３７】請求項２記載の発明は、マスク階層の変化
をマスクカウンタの増減によって表すようにしている。

【００３８】

【実施例】以下、図面を用いてこの発明の実施例を説明
する。

【００３９】図１は請求項１記載の発明の一実施例に係
わる並列プロセッサの配置構成を示す図である。

【００４０】図１において、ＬＳＩチップ１の内部に、
４つの内部プロセッサＰＥ１〜ＰＥ４が設けられてお
り、それぞれ対応するプロセッサＰＥ１〜ＰＥ４をバイ
パスしてチップ１外へピンを介して入出力する配線路を
形成し、このピンを内部プロセッサから直接入出力され
るピンと並設している。

【００４１】すなわち、例えばチップ１の左辺のピン１
ＷはプロセッサＰＥ１に直接接続されるピンであるが、
ピン２ＥはプロセッサＰＥ２のＥ側の配線をプロセッサ
ＰＥ１をバイパスさせてチップ１のＷ側に引き出させた
ものである。また、ピン３ＷはプロセッサＰＥ３のＷ側
の入出力をそのままチップ１の外部に入出力するもので
あり、ピン４ＥはプロセッサＰＥ４のＥ側の入出力をプ
ロセッサＰＥ３をバイパスさせてチップのＷ側へ引き出
させるものである。

【００４２】このようなピン配置構造において、例えば
図２に示すように格子状に接続配置することによって、
図７に示すような二次元トーラス結合網を実現すること
が可能となる。さらに、このように、互いに隣接したチ
ップのプロセッサ同志を基板を用いることなくピン同志
で接続することにより、図３に示すように、大規模な二
次元トーラス結合網を形成する並列プロセッサを実現す
ることができる。

【００４３】このような接続方法を実現するにおいて、
チップ内部の配線構造を図１の如く設定し、図２に示す
ようにチップの四辺ＰＥ（ｉ，ｊ），ＰＥ（ｉ＋１，
Ｊ），ＰＥ（ｉ，ｊ＋１），ＰＥ（ｉ＋ｊ，ｊ＋１）の
各々のＮ，Ｅ，Ｗ，Ｓ各方向への隣接プロセッサへの接
続ピンを出しておくと、それらのピンを唯直接的に向か
い合った隣のピン同志を繋ぐのみで、複雑に見える二次
元トーラス構造が実現される。しかも、この構造自体
は、格子の大きさ、ＰＥの数に対して普遍的であり、例
えば２×２から、1,000 ×1,000 のいわゆるミリオン・
プロセッサ迄、基本的に対応できるものである。

【００４４】このような構造においては、送信側の出力
バッファの負荷容量の総量は高々１０ＰＥ程度となり、
信号線の抵抗も、隣接ＬＳＩと接続するのみとなるの
で、距離が短く問題にならない。このため、出力信号の
遅延１ｎｓ以下に納まるので、数百ＭＨｚオーダの高速
伝送が容易に実現する。

【００４５】ここで、３００ＭＨｚ程度のデータ転送が
可能であるから、例えば６４本のピンを用いて３００Ｍ
ワードのデータ転送が可能と言うことになり、基本的に
はプロセッサの能力が３００ＭＩＰｓ迄は十分良好なバ
ランスとなる。

【００４６】一例として、メッシュ構造の並列プロセッ
サアレーの場合、隣接するＮ．Ｅ．Ｗ．Ｓの４方向のプ
ロセッサに対し本案の接続を行なうと、６４ビット（８
バイト）構成として、このプロセッサ周りのデータ伝送
能力（帯域）は８×４×３００Ｍ＝９，６００Ｍ＝９．
６Ｇバイト／Ｓに達する。更に、この伝送路を往復二
重化し１２８ピン／チャンネルとすると、１９．２Ｇバ
イトという高帯域が実現される。これをビットに直すと
１５３．６Ｇビット／Ｓの超高速伝送となる。

【００４７】ちなみに、現在最も高速と見なされる光技
術による伝送では、１０−２０Ｇビット／Ｓが得られて
いるが、１００Ｇビット／Ｓを越える伝送は非常に難し
く、コストもかかる。

【００４８】コストに関しては本案は極めて有利であ
る。光技術の如き特殊な部品や技術は必要とせず、単に
隣のＬＳＩとの間を接続すれば良く、最も簡便である。
ちなみに、１００ＭＨオーダーで動作可能なプリント基
板は存在しても極めて高価であり、更に１０００ピンレ
ベルのピン・ピッチに対応する加工精度を実現する事
は、事実上困難である。

【００４９】次に、この発明に係わる並列プロセッサの
構造について、図４を参照して説明する。

【００５０】図４（Ａ）は図３に示す二次元トーラス構
造の並列プロセッサアレーの斜視図、同図（Ｂ）は同図
（Ａ）の断面図である。

【００５１】図４において、この実施例は図３に示す二
次元トーラス結合された並列プロセッサをテープキャリ
ア（ＴＡＢ）方式により実装したことを特徴とするもの
である。

【００５２】図４において、２はフィルム上の平板であ
って、チップ３を実装する部分にチップ３の大きさに相
応した（一般的にはチップより多少大きい）穴を有し、
この複数の穴にチップ３が収まる。これらのチップ３と
該フィルム状平面上の金属配線（引き出し線）とは、図
４（Ｂ）の断面図に示すように接続されている。図４
（Ｂ）において４は絶縁膜（平板上）、５は金属その他
による導熱のヒートシンクである。容量６はフィルム２
とヒートシンク５との間の寄生容量であり、この大きさ
が上述した様に高速化に非常に強く関係する。

【００５３】ヒートシンク５は通常金属板状のものを用
いるが、その他にもセラミックや人工ダイヤモンド粉の
ごとき、導熱性は良く、導電性の無いものを選べば、容
量６の寄生容量は極めて小さいものとなる。

【００５４】更に、フィルム２による多数の結線で機械
的強度が十分な場合は絶縁膜４を取除くことも可能であ
り、その他空中配線構造とした場合は、容量６（含むピ
ン間容量）は更に一層小さな値となる。

【００５５】図４に示すような構造を採れば、各プロセ
ッサの隣接プロセッサ迄の結線は極めて短くなり、特に
ＴＡＢ構造を応用して、二次元に広げた形状を採用すれ
ば、二次元メッシュ構造のプロセッサアレーが極めて容
易に実現できる。

【００５６】更にこの構造を考察すると、各プロセッサ
の出力ピンに負荷となってつながる容量は、高々、自分
のバッファ回路容量と、ＴＡＢ構造のピン容量、相手
（受け側）の入力容量の総和のみである。

【００５７】このＴＡＢ構造の場合の負荷容量は、高々
１．５ＰＦ＋０．５ＰＦ＋０．５ＰＰＦ＝２．５ＰＦで
あるが、通常バッファの自己容量はカウントしないので
０．５＋０．５ＰＦ＝１．０ＰＦとなり、通常の出力バ
ッファ（ドライブ）回路を用いると遅れ時間は約０．３
ｎｓ程度である。

【００５８】しかし、ＴＡＢ構造によらず、通常のパッ
ケージを用いた場合はもう少し容量が大きくなり、パッ
ケージ容量が２ＰＦ程度であるから２ＰＦ＋２ＰＦ＋２
ＰＦ＝６ＰＦとなり、１．５ｎｓ程度の遅れとなる。即
ち、通常のパッケージを用いた実装でも、原理的に６６
６ＭＨｚのデータ転送が可能になり、更にＴＡＢ構造を
使用すれば、３ＧＨｚの超高速データ転送が、通常のＣ
ＭＯＳ回路によっても可能になる。

【００５９】これは、一般的にこのスピードの転送には
ＧａＡｓ等の特殊な材料が必要とされていた常識を覆え
すものである。

【００６０】またさらに、ＴＡＢ方式を採用すれば、負
荷要領の増大、更に加工精度の問題は一層有利な方法で
同時に解決される。

【００６１】即ち、二次元平面に展開したフィルム上の
平面をＬＳＩのチップサイズに相当する部分を切り取っ
て、ＴＡＢ技術によって、複数個のチップをフィルム上
の平面に実装する。この場合、隣接するチップ同志はチ
ップ間の隙間に存在するＴＡＢの金属片に形成された複
数のピンに依って接続される。チップ間の距離は３−１
０ｍｍ程度となる。

【００６２】このため、結線の長さも同程度となる。従
って、結線の抵抗は一般的な金に依る場合は、殆ど無視
出来るし、これによる寄生容量（負荷要領の一部）は、
高々０．１−０．２ＰＦにすぎぬ非常に小さい値をと
る。

【００６３】図５は請求項２記載の発明の一実施例に係
わる並列プロセッサにおける要素プロセッサの構成を示
すブロック図である。図５に示す要素プロセッサは図８
に示す並列プロセッサを構成するものである。

【００６４】図５において、要素プロセッサは１４は、
処理ユニット４０１，マスクフラグ（ｍａｓｋｆ）４
０２，マスクカウンタ（ｍｃｏｕｎｔｅｒ）４０３、
マスク制御回路４０４から構成される。

【００６５】処理ユニット４０１は、マスクフラグ４０
２がセットされていなければ、図８に示す制御プロセッ
サ１１からの命令にしたがって、算術論理演算、ローカ
ルメモリ１５へのアクセス、通信ネットワーク１６を介
しての他の要素プロセッサとの通信等の処理を行う。マ
スクフラグ４０２がセットされていれば、処理ユニット
４０１は、制御プロセッサ１１からの命令を実行しな
い。

【００６６】また、処理ユニット４０１には、整数演算
および浮動小数点演算のコンディション・コードを保持
するレジスタを持つ。これは、条件コードによる分岐命
令や、後述する条件コードによるマスク命令実行時に参
照される。

【００６７】マスクフラグ４０２，マスクフラグ４０３
は、制御プロセッサ１１からの命令によって、マスク制
御回路４０４によって制御される。以下に、マスクフラ
グ４０２，マスクカウンタ４０３を制御する命令と、こ
れらの命令によって、マスク制御回路４０４がどのよう
な制御を行うかを説明する。

【００６８】(1) 整数条件コードによるマスク命令（Ｍ
ｉｃｃ）整数演算のコンディションコードを参照し、条件が成立
するとマスクフラグをセットする。すでにマスクフラグ
がセットされている場合、条件不成立でもマスクフラグ
はリセットされない。

【００６９】Ｍｉｃｃ命令は、表１に示す種類がある。

【００７０】

【表１】 (2) 浮動小数点数条件コードによるマスク命令（ｆＭｆ
ｃｃ）浮動小数点演算結果による条件が成立するとマスクフラ
グをセットする。すでにマスクフラグがセットされてい
る場合、条件不成立でもマスクフラグはリセットされな
い。

【００７１】ｆＭｆｃｃ命令には、表２に示す種類があ
る。

【００７２】

【表２】 (3) マスク階層更新命令（ｍｐｕｓｈ）新たなｉｆブロック等のマスク階層に入るときに実行す
る。現在のマスク状態をスタックに退避するのと同等の
機能である。マスクフラグがセットされていれば、マス
クカウンタを１加算する。マスクフラグがセットされて
いなければ、マスクカウンタはそのまま（０のままのは
ず）である。

【００７３】 (4) マスク階層復元命令（ｍｐｏｐ）マスク階層から抜けるときに実行する。前回のマスク状
態をスタックから回復するのと同様の機能である。マス
クカウントが０よりも大きければ、マスクカウンタを１
減算する。マスクカウンタが０ならば、マスクカウンタ
はそのまま（０のまま）でマスクフラグをリセットす
る。

【００７４】 (5) マスク反転命令（ｍｒｅｖ）ｅｌｓｅ文の実行のように、マスク状態を反転する場合
に実行する。マスクカウンタが０ならば、マスクフラグ
の値を反転する。マスクカウンタが０よりも大きけれ
ば、マスクフラグはそのまま（１のままのはず）であ
る。

【００７５】このようなマスク制御機構、および命令を用いて、図１
１に示すプログラムをＰＥ０〜ＰＥ４の５台の要素プロ
セッサを持つＳＩＭＤ型並列プロセッサで実行する場合
のアセンブラ命令列、各要素プロセッサでのマスクフラ
グ、マスクカウンタの値を図６に示す。

【００７６】図１１のプログラム中、ｉｐｒｏｃはプロ
セッサ番号を示す。このプログラムでは、ｐｒｏｃｅｓ
ｓａ０をＰＥ２が、ｐｒｏｃｅｓｓｂ０をＰＥ０と
ＰＥ１が、ｐｒｏｃｅｓｓｃをＰＥ３とＰＥ４がそれ
ぞれ実行する。以下ではプログラムの行ごとに説明す
る。初期状態ではすべてのＰＥのマスクフラグはリセッ
トされているとする。

【００７７】(1) ｉｆブロックに入るので、現在のマス
ク状態を退避するために、マスク階層更新命令（ｍｐｕ
ｓｈ）を実行する。すべてのマスクフラグはリセットさ
れているので、なにも変化しない。その後、ｃｍｐ命令
によって整数条件コードが設定され、さらに整数条件コ
ードによるマスク命令（ｍｇ）により、ＰＥ番号が２よ
り大きいＰＥ３，ＰＥ４のマスクフラグがセットされ
る。

【００７８】(2) 新たなｉｆブロックに入るので、ｍｐ
ｕｓｈ命令を実行する。マスクフラグのセットされてい
るＰＥ３，ＰＥ４のマスクカウンタが更新されて１にな
る。その後、ｃｍｐ，ｍｎｅ命令により、ＰＥ番号が２
以外のＰＥ、すなわちＰＥ０，ＰＥ１のマスクフラグが
セットされる。ＰＥ３，ＰＥ４は、すでにマスクフラグ
がセットされている。

【００７９】(3) ｐｒｏｃｅｓｓａ０が、マスクフラ
グのセットされていないＰＥ２で実行される。

【００８０】(4) ｅｌｓｅ文に対応して、マスク反転命
令（ｍｒｅｖ）命令が実行される。マスクカウンタが０
であるＰＥ０，ＰＥ１，ＰＥ２のマスクフラグが反転さ
れる。すなわち、ＰＥ０，ＰＥ１のマスクフラグはリセ
ットされ、ＰＥ２のマスクフラグはセットされる。

【００８１】(5) ｐｒｏｃｅｓｓｂ０が、マスクフラ
グのセットされていないＰＥ０，ＰＥ１で実行される。

【００８２】(6) ｉｆブロックを抜けるので、マスク階
層復元命令（ｍｐｏｐ）が実行される。この命令によ
り、マスクカウンタが０である。ＰＥ０，ＰＥ１，ＰＥ
２は、マスクフラグがリセットされる。マスクカウンタ
が０でないＰＥ３，ＰＥ４は、マスクフラグは１のまま
で、マスクカウンタが１減算されて０になる。

【００８３】(7) ｅｌｓｅ文に対応して、ｍｒｅｖ命令
が実行される。マスクカウンタはすべて０なのですべて
のマスクフラグが反転される。すなわちＰＥ０，ＰＥ
１，ＰＥ２のマスクフラグはセットされ、ＰＥ３，ＰＥ
４のマスクフラグはリセットされる。

【００８４】(8) ｐｒｏｃｅｓｓｃ０が、マスクフラ
グのセットされていないＰＥ３，ＰＥ４で実行される。

【００８５】(9) ブロックを抜けるので、ｍｐｏｐ命令
が実行される。すべてのマスクカウンタは０なので、す
べてのマスクフラグがリセットされ、プログラム実行開
始前の状態に戻る。

【００８６】以上のように、上記実施例のＳＩＭＤ型並
列プロセッサでは、従来必要であったマスクフラグのス
タックへの退避が必要ない。特にマスク階層が深い場合
には、従来のメモリスタックを用いる方法よりもはるか
に高速であり、また、従来のレジスタスタックを用いる
方法よりもはるかに少ないハードウェア量でマスク操作
を行うことができる。ソースプログラムからアセンブラ
命令列への変換も極めて無理なく行うことができる。し
かも、追加したハードウェア量は、マスクカウンタとわ
ずかな論理回路のみであり、高い価格性能比が実現でき
る。

【００８７】

【発明の効果】請求項１記載の発明のチップ構造を採用
すれば、極めて簡単に二次元トーラス構造が実現でき、
しかも、従来大いに問題であった両端の辺同志を結ぶ長
大な結線を不要にすることができる。これによって、チ
ップ間のやり取りが総て平均化し、且つ非常に高速にな
り、プロセッサシステムの性能を大幅に向上させること
ができる。

【００８８】請求項２記載の発明のチップ構造を採用す
れば、従来のＴＡＢ構造を応用して、二次元の構造に拡
張し、ＴＡＢのピンを介して直接隣のチップに接続する
構造によって、チップ間の寄生容量を大幅に減少させる
ことができ、この結果チップ間のやり取りを大幅に高速
化できる。

【００８９】請求項４記載の発明によれば、制御プロセ
ッサと複数の演算プロセッサから構成される並列プロセ
ッサにおいて、各要素プロセッサにマスクカウンタ、お
よびマスクフラグ／マスクカウンタを制御する回路を設
け、これらを制御する命令を追加することによって、マ
スクを用いてＭＩＭＤ処理をエミュレートする場合に、
少ないハードウェア量で、かつ高速に実行することがで
きる。このため、極めて価格性能比の高い並列プロセッ
サを実現できる。

【図面の簡単な説明】

【図１】請求項１記載の発明の一実施例に係わる並列プ
ロセッサの構成を示す図である。

【図２】図１に示す並列プロセッサのトーラス結合を示
す図である。

【図３】図１に示す並列プロセッサのトーラス結合を示
す図である。

【図４】図１に示す並列プロセッサをＴＡＢ方式により
接続したトーラス結合を示す図である。

【図５】請求項２記載の発明の一実施例に係わる並列プ
ロセッサにおける要素プロセッサの構成を示す図であ
る。

【図６】図４に示す要素プロセッサを含む並列プロセッ
サの動作の一実施例を示す図である。

【図７】従来のトーラス結合網を示す図である。

【図８】ＳＩＭＤ型並列プロセッサの構成を示す図であ
る。

【図９】図８に示す並列プロセッサにおける従来の要素
プロセッサの構成を示す図である。

【図１０】図９に示す従来の要素プロセッサ含む並列プ
ロセッサの動作の一実施例を示す図である。

【図１１】図８に示す並列プロセッサが実行するプログ
ラムの一実施例を示す図である。

【符号の説明】

１，３チップ２フィルム５ヒートシンクＰＥ１〜ＰＥ４内部プロセッサ１Ｗ，２Ｅ，３Ｗ，４Ｅピン１１制御プロセッサ１２全体メモリ１３グローバルバス１４要素プロセッサ１５ローカルメモリ１６通信ネットワーク４０１演算処理ユニット４０２マスクフラグ４０３マスクカウンタ４０４マスク制御回路

Claims

【特許請求の範囲】

【請求項１】１チップ化された複数のプロセッサと、プロセッサから引き出される配線を直接外部と接続する
第１の端子と、プロセッサから引き出される配線を隣接するプロセッサ
をバイパスして外部と接続する第２の端子とを有し、第１の端子及び第２の端子のみを介して１チップ化され
た複数のプロセッサが二次元トーラス結合されてなるこ
とを特徴とする並列プロセッサ。
【請求項２】複数の要素プロセッサを統括制御する制
御プロセッサと、単一命令、複数データストリーム（ＳＩＭＤ）方式によ
って制御プロセッサから発行される命令を実行処理する
複数個の要素プロセッサとを有する並列プロセッサにお
いて、それぞれの要素プロセッサは、命令を実行処理する演算処理ユニットと、制御プロセッサから発行させる命令を演算処理ユニット
で実行処理するか否かを示すマスクフラグと、マスクフラグにおけるマスクの階層を示すマスクカウン
タと、制御プロセッサからの指令及び演算処理ユニットの処理
結果に基づいてマスクフラグをセット／リセットし、マ
スクの階層が進む毎にマスクカウンタのカウント値を増
加させ、マスクの階層が戻る毎にマスクカウンタのカウ
ント値を減少させてマスクカウンタのカウント値が０で
マスクフラグをリセットするようにマスクフラグ及びマ
スクカウンタを制御するマスク制御回路とを有すること
を特徴とする並列プロセッサ。