JPH0727516B2

JPH0727516B2 - Ｓｉｍｄアレイ・プロセツサ

Info

Publication number: JPH0727516B2
Application number: JP63204859A
Authority: JP
Inventors: ジエームズ・レイ・テイラー
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1987-10-27
Filing date: 1988-08-19
Publication date: 1995-03-29
Anticipated expiration: 2010-03-29
Also published as: DE3854568T2; GB2211638A; EP0314277B1; GB8725116D0; DE3854568D1; EP0314277A2; JPH01114982A; US4992933A; EP0314277A3

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、相互接続されたプロセッサの多次元アレイを
含む単一命令多重データ（SIMD）アレイ・プロセッサに
関する。

B.従来技術アレイ・プロセッサには、大別して、MIMD（多重命令多
重データ）式とSIMD（単一命令多重データ）式の２種が
ある。MIMDアレイ・プロセッサでは、アレイ中の処理要
素のそれぞれが、その独自の命令ストリームを自身のデ
ータで実行する。これは、本発明の対象となる種類のア
レイ・プロセッサ、すなわち単一の制御装置からの共通
の命令ストリーム、すなわち大域命令ストリームの制御
下で個々の処理要素が動作する、SIMDアレイ・プロセッ
サとは対照的である。すなわち、共通の命令ストリーム
の制御下で個々の処理要素が動作するので、SIMDマシン
はMIMDマシンよりも柔軟性が小さく、並列に実行できる
機能の範囲がより限られていることになる。ただし、SI
MDマシンの並列処理要素は、通常、MIMDプロセッサより
も単純で数が多い。

多くのSIMDアレイ・プロセッサは、２次元アレイの処理
要素から構成され、各処理要素はその最も近くの処理要
素に接続されて、いわゆるNEWS（北、東、西、南）ネッ
トワークを形成している。この種のアレイ・プロセッサ
の例は、ホックニイ（Hockney）とジェスホープ（Jessh
ope）の共著「並列コンピュータ（Parallel Computer
s）」、Adam Hilger社、1981年刊、pp.182−184、及び
W.ダニエル・ヒリス（Daniel Hillis）の著書「コネク
ション・マシン（The Connection Machine）」、MIT P
ress、1986年刊、pp.74−76にそれぞれ記載されてい
る、ICL分散アレイ・プロセッサ（DAP）及びコネクショ
ン・マシンである。英国特許第1445714号も、従来技術
のSIMDアレイ・プロセッサを例示している。

C.発明が解決しようとする問題点 NEWSネットワークとして配列されたSIMDマシンが柔軟性
を欠くことの一例が、シフト命令に関して見られる。通
常のNEWSネットワークでは、すべての処理要素がある方
向（例えば南）に１位置離れた隣接処理要素からデータ
を受け取る。通常のNEWSネットワークの各処理要素に対
するシフトの方向は、実行中の大域機械命令のパラメー
タとして大域的にしかも一様に決定され、その結果、全
処理要素がデータを同一方向にシフトすることになる。
典型的な命令は、データを北側に３位置だけシフトさせ
るものである。従来技術で知られているその唯一の例外
は、ある種のマシンでは、マスク機能を使ってNEWSネッ
トワークの処理要素を選択的に使用可能にし、使用可能
となった処理要素が大域命令を受け取るようにできるこ
とである。

本発明の目的は、MIMDプロセッサのように経費と複雑さ
を増大させずに、並列処理能力をより発揮させることの
できる、柔軟度が高まった処理要素の多次元アレイを含
む、SIMDアレイ・プロセッサを提供することにある。

D.問題点を解決するための手段本発明によれば、処理要素の多次元アレイと、大域命令
を上記アレイに出すための制御論理回路とを含む、SIMD
アレイ・プロセッサが提供される。処理要素は、大域命
令を処理要素により実行するために各々デコードするた
めのプログラマブル・デコード手段を含む。

当該処理要素のプログラム式デコード手段は、制御論理
回路からの大域ロード命令に応答してプログラミングで
きるようにすると好都合である。

これから説明する、本発明に基づく、SIMDアレイ・プロ
セッサの特定の実施例では、プログラム式デコード手段
は、大域命令の選択したビットを局所的に修正して局所
修正ビットを形成するためのプログラム式修正手段、及
び受け取った大域命令のビットと上記局所修正ビットを
デコードするための固定デコード手段を含んでいる。

E.実施例この特定の実施例では、アレイ中の処理要素は、それぞ
れ制御情報用及びデータ用の記憶域が付属しており、大
域ロード命令に応答して、処理要素内の固定デコード手
段が、上記記憶域中の選択された記憶位置から当の処理
要素のプログラム式修正手段内へ修正情報をロードさ
せ、それによって当該処理要素のプログラム式修正手段
がプログラミングされる。さらに、本実施例の処理要素
は、それぞれ、制御情報用及びデータ用の上記記憶域の
当該ブロックと関連付けられており、上記記憶域にアク
セスして、上記各記憶ブロック中の当該の記憶位置にプ
ログラム式デコード手段用の当該の修正情報を記憶させ
る手段が、制御論理回路に設けられている。

以下で説明するこの特定の実施例では、プログラム式修
正手段は、記憶域から上記修正情報を順次受け取る逐次
書込みポート、及び大域命令の上記の選択されたビット
を並列的に受け取る並列読取りポートを有する、ルック
アップ・テーブルを含んでいる。

また、以下で説明する特定のSIMDアレイ・プロセッサで
は、プログラム式デコード手段が大域シフト命令を局所
的に修正するようにプログラミングでき、それによっ
て、アレイ全体に分散されたデータを、アレイ内の複数
の局所的に決定された方向に、一時にシフトさせること
ができる。このプロセッサ中の処理要素は、直交する複
数の方向で相互接続されている。各処理要素は、複数の
出力レジスタ及び多方向入力マルチプレクサを含み、し
たがって、処理要素により、直交する複数方向のそれぞ
れで、多重同時シフト操作を実行できる。

本発明によるSIMDアレイ・プロセッサでは制御に余分の
自由度があるので、従来のSIMDアレイ・プロセッサでは
並列的に処理するのが不可能であった一群のアルゴリズ
ムが日の目を見る。これらのアルゴリズムのいくつかに
ついては、後で説明する。本発明によるSIMDアレイ・プ
ロセッサは、特に、映像処理の応用分野に適しており、
したがって表示装置の一部として実現することができ
る。

第１図は、SIMDアレイ・プロセッサ10の典型的な構造を
示す。プロセッサ10は、処理要素Ｐ（ｉ、ｊ）のアレイ
12、及び処理要素Ｐ（ｉ、ｊ）に大域命令のストリーム
を出すアレイ・コントローラ14を含んでいる。各処理要
素は、いつでも１ビットに作用し、記憶ブロック（図示
せず）がそれに関連付けられている。処理要素は、いわ
ゆるNEWS（北、東、西、南）ネットワークによって両方
向ビット線を介してその当該の隣接処理要素に接続され
ている。すなわち、処理要素Ｐ（ｉ、ｊ）は、それぞれ
北側、東側、西側、南側で、処理要素Ｐ（ｉ−１、
ｊ）、Ｐ（ｉ、ｊ＋１）、Ｐ（ｉ、ｊ−１）、Ｐ（ｉ＋
１、ｊ）に接続されている。NEWSネットワークは、ま
た、その末端で環状に接続されており、北端と南端が両
方向に相互接続され、東端と西端も同様に相互接続され
ている。データをプロセッサ・アレイに入力したり、そ
こから出力したりするために、NEWSネットワークにコン
トローラ／アレイ・データ母線26が接続されている。図
のように、これらのデータ母線はアレイの東西の境界に
接続されている。同様に、その代わりに、あるいはそれ
に加えて、それらのデータ母線を南北の境界に、または
各処理要素に接続することも可能である。データ母線
は、環状の東西NEWS接続部に接続した両方向三状態ドラ
イバを用いて、東西の境界に接続される。当業者には自
明なように、これはデータ母線26の可能な多数の接続手
段の１つにすぎない。

アレイ中の処理要素の数は、必要に応じて選択すること
ができる。典型的な処理要素数は、後で説明する本発明
の特定の実施例で使用するように、32×32＝1024個であ
る。ただし、図示し易くするために、16個の個別処理要
素だけを示してある。また、図示し易いという理由で、
第１図には、プロセッサの動作を理解するのに必要な主
要接続だけを示してある。他の図でも同様であるが、第
１図では、機能要素を接続する２重線を用いて、複数の
接続線、すなわち母線を表わし、１本線は、単一ビット
線を示す。接続線は、図の矢印による指示に応じて、１
方向性または、両方向性である。

アレイ・コントローラは、命令母線18を介して処理要素
に命令を並列に出し、行選択線20及び列選択22を介し
て、それぞれ行選択信号及び列選択信号を出す。これら
の命令は、処理要素に、データを記憶域からロードさ
せ、データを処理させ、次いで再度、記憶域にデータを
記憶させる。

各処理要素は、主メモリの１ビット・スライスにアクセ
スできる。したがって、論理的に言えば、アレイ・プロ
セッサの主メモリは、1024個の処理要素のアレイ用に10
24個のスライスに分離されている。これは、最大32個の
ビット・ワードを一時に記憶域にまた記憶域から転送で
きることを意味する。読取り操作または書込み操作を実
行するには、アドレス母線24を介してメモリ・アドレス
線に供給されるインデックス・アドレスを用いてメモリ
をアドレスし、読取り命令または書込み命令を各処理要
素に並列に供給する。読取り操作中、行選択線及び列選
択線上の行選択信号及び列選択信号が、どの処理要素が
操作を実行すべきかを識別する。すなわち、たとえば、
選んだ行の32個の処理要素内へメモリから１個の32ビッ
ト・ワードを読み込むことが可能である。

第１図には、ホスト・プロセッサ28も示されている。こ
のプロセッサを使って、アレイ・コントローラ14にマイ
クロコード・プログラムをロードさせ、それとデータを
交換し、ホスト・コントローラのデータ母線30及びアド
レス／制御母線31を介して、その状態を監視する。ホス
ト・プロセッサは、メインフレーム・コンピュータやパ
ーソナル・コンピュータなど適当な汎用コンピュータな
らどんなものでもよい。ホスト・プロセッサは、本発明
の一部ではないので、これ以上詳しく説明する必要はな
い。

上記のような構造が、従来技術のSIMDアレイ・プロセッ
サにとって典型的である。このタイプのプロセッサは、
英国特許第1445714号明細書に記載されている。

以下では、第１図に示す全体構造をもつ、本発明よるSI
MDアレイ・プロセッサの特定の実施例について説明する
ことにする。ただし、以下の説明から明らかなように、
本発明は第１図に示した構造に限られるものではない。
たとえば、プロセッサのアレイを、２次元ではなく、
（クラスタを使って）３次元、４次元などで編成するこ
とも可能である。また、本発明によるSIMDアレイ・プロ
セッサを、ホスト・プロセッサから分離したものとして
構成するのでなく、たとえば表示アダプタを備えたワー
クステーションなど、表示システムの一体部分にするこ
ともできる。以下で説明するアルゴリズムの例から明ら
かなように、本発明によるSIMDアレイ・プロセッサは、
特に画像処理用に適している。

第１図に示したアレイ・コントローラが、本発明による
SIMDアレイ・プロセッサのこの特定の実施例ではどのよ
うに構成されるかを第２図に示す。本発明にとっては、
第２図に示したアレイ・コントローラの細部構造も、そ
の動作の特定の細部も本質的なものでない。したがっ
て、以下ではアレイ・コントローラの構造及び動作を簡
単に説明するにとどめておく。

アレイ・コントローラ14は、アレイ・プロセッサが実行
すべき処理を定義するマイクロコードを、ホスト・プロ
セッサ28がデータ母線30及びアドレス／制御母線31を介
してロードする場所であるマイクロコード記憶域32を含
んでいる。ホスト・プロセッサ28がアレイ・コントロー
ラ14の動作を始動させると、母線36を介してマイクロコ
ード記憶域に接続されているマイクロコード制御機構34
によって、マイクロコードの実行順序が制御される。演
算論理機構（ALU）38及びレジスタ・バンク40は、アド
レス母線24上に出力されるアレイ・メモリ・アドレスの
生成、ループ・カウンティング、飛越し先アドレス計
算、及び様々な汎用レジスタ動作に使用される。条件付
分岐用にフラグ線39が設けられている。行マスク用プロ
グラム式論理アレイ（PLA）42及び列マスク用プログラ
ム式論理アレイ（PLA）44は、個々の行選択線20及び列
選択線22上に信号を発生させるために実行されるマイク
ロ命令中の行マスク・コード及び列マスク・コードをデ
コードするために使われる。処理要素Ｐ（ｉ、ｊ）への
命令を形成する命令コードが、命令母線18に送られる。
ホスト・コントローラ間データ母線30とコントローラ・
アレイ間データ母線26の中間に、データ・バッファ46が
示されている。このデータ・バッファにより、プロセッ
サのアレイへ書き込むべきホストからのデータを、高速
でアレイ・コントローラ14にダウン・ロードすることが
可能となる。次いで、マイクロコードの制御下で、デー
タをプロセッサのアレイにロードすることができる。同
様に、このバッファを利用して、アレイとホストの間で
データを転送することができる。そのために、データ・
バッファは、マイクロコード制御機構の制御下にある両
方向先入れ先出し（FIFO）バッファとして配置されてい
る。

本発明の特定の実施例で使用する命令形式を第３図に示
す。第３図に示した形式は、単に、本明細書で説明する
SIMDアレイ・プロセッサの特定の例で使用されるものに
すぎないことに留意されたい。当業者なら以下の記載か
ら明らかなように、本発明の他の実施例では、プロセッ
サ・アレイ用コントローラの形態、個々の処理要素の複
雑さなどに応じて、別の形式を用いることもできる。

プロセッサ・アレイの制御に関係する命令のフィールド
は、第63ないし第56ビットの処理要素命令コード“PeO
p"、第55ないし第48ビットの行マスク・コード“Mask
r"、第47ないし第40ビットの列マスク・コード“Maskc"
である。“PeOp"フィールドは、命令コード、すなわち
大域的にアレイ内の処理要素に並列に出される命令を形
成する。行マスク及び列マスクの目的は、“PeOp"コー
ドで指定される命令を、選んだ処理要素だけが実行でき
るようにすることにある。そうするとメモリ読取り操
作、プロセッサ間要素シフト、プロセッサ内要素レジス
タ操作を、選んだ処理要素だけが実行できるようにな
る。“Maskr"及び“Maskc"フィールドの内容は、それぞ
れ行マスクPLA42及び列マスクPLA44によってデコードさ
れ、個々の行選択線20及び列選択22が適宜設定される。

第３図に示したその他のフィールドは、すべて、通常の
やり方でのアレイ・コントローラの実行順序制御及びア
レイ・メモリ・アドレスの生成に関係するものである。
第39ないし第36ビットの“Test"フィールドは、アレイ
・コントローラ内部の命令の流れを定義するもので、マ
イクロコード制御機構の“テスト”入力ポートに送ら
れ、飛越しなどが可能となる。第35ないし第32ビットの
“Aluop"フィールドは、コントローラALU38の全般的動
作を定義するもので、そのFsel入力ポートに送られる。
第31ないし第28ビットの“Regs"フィールド及び第27な
いし第24ビットの“Regd"フィールドは、コントローラ
のレジスタ・バンク40中の転送元レジスタ及び転送レジ
スタを選択するのに使用され、この目的で、それぞれレ
ジスタ・バンクのＲ及びＷ制御入力端に送られる。

第23ないし第０ビットの“オフセット”フィールドは、
ALU動作用及びアレイ・メモリ・アドレス生成用の引数
を定義するもので、ALU38の入力ポートＡに送られる。

第４図に、プロセッサ・アレイ12の個々の処理要素Ｐ
（ｉ、ｊ）の主要構成要素を示す。各処理要素は、一時
に１データ・ビットに作用することを理解されたい。

処理要素はALU48を含み、ALU48は、図に示した処理要素
の特定の例ではＡ、Ｃ、Ｑ、Ｍ、Ｎと記した入力ポート
及びＡ、Ｃ、Ｑと記した出力ポートを備えている。出力
ポートＡ、Ｃ、Ｑは、Ａレジスタすなわち演算結果レジ
スタ50、Ｃレジスタ、すなわちシフト・レジスタ52、及
びＱレジスタ、すなわちNEWS出力レジスタ54に接続され
ており、これらのレジスタはそれぞれ１ビットの情報を
記憶することができる。これらのレジスタの出力線は、
ALUの当該入力ポートＡ、Ｃ、Ｑ及びマルチプレクサ56
に接続されている。マルチプレクサ56により、Ａ、Ｃ、
Ｑレジスタのうち選択可能な１つのレジスタの出力をそ
の出力線58に送ることができる。マルチプレクサ56の出
力線58は、ALUのＭ入力ポート、及び処理要素Ｐ（ｉ、
ｊ）に関連するメモリ・スライス16（ｉ、ｊ）の両方向
データ・ポート59にも接続されている。

各処理要素は、１ビット幅のメモリ・スライス16（ｉ、
ｊ）すなわちブロックに関連付けられている。このスラ
イスまたはブロック・メモリは、論理的に処理要素内に
含まれているが、実際にはそれから物理的に分離してい
てもよい。各処理要素は同様なメモリ・ブロックを有す
るので、アレイの32×32個のメモリ・ブロックは、それ
ぞれが32個の32ビット・ワードを含む、複数の平面を構
成するアレイ・メモリと考えることができる。各平面
は、当該のインデックス・アドレスにある各処理要素か
らの１ビットから構成される。アドレス母線24を介し
て、１個のインデックス・アドレスをアレイ・メモリに
供給することにより、ビット平面の１つにアクセスする
ことができる。

Ｑレジスタの出力線は、北側の隣接処理要素（Ｐ（ｉ−
１、ｊ））、東側の（Ｐ（ｉ、ｊ＋１））、西側の（Ｐ
（ｉ、ｊ−１））、南側の（Ｐ（ｉ＋１、ｊ））に接続
されている処理要素Ｐ（ｉ、ｊ）のNEWS出力線60（ｉ、
ｊ）ともなっている。NEWSネットワーク中の隣接処理要
素から処理要素Ｐ（ｉ、ｊ）にシフトすべきデータは、
入力マルチプレクサ62によって選択される。入力マルチ
プレクサ62は、北側、東側、西側、南側の隣接処理要素
のNEWS出力線60（ｉ−１、ｊ）、60（ｉ、ｊ＋１）、60
（ｉ、ｊ−１）、60（ｉ＋１、ｊ）に接続されている。
入力マルチプレクサ62の出力線は、ALU48のＮ入力ポー
トに接続されている。

処理要素の動作は、命令母線18を介してアレイ・コント
ローラ14から受け取る命令、または命令コードによって
制御される。アレイ・コントローラからの命令コード
“PeOp"は、アレイ・コントローラからの命令母線18を
介して、各処理要素内のデコーダ64で並列に受け取られ
る。従来技術のSIMDアレイ・プロセッサと同様に、問題
の処理要素用の行選択線20i及び列選択線22jの状態によ
って、命令をその処理要素が実行するかどうかが決ま
る。各処理要素中のデコーダは、その処理要素のアレイ
内の位置に該当する行選択線及び列選択線に接続されて
いる。第ｉ行第ｊ列にある処理要素Ｐ（ｉ、ｊ）の場
合、これは第ｉ行選択線20i及び第ｊ列選択線20jとな
る。特定のデコーダ64への行選択線と列選択線の両方を
選択すると、デコーダは受け取った命令コードをデコー
ドし、それによって制御母線66、68、70を介して入力側
マルチプレクサ62、ALU48、出力側マルチプレクサ56に
制御信号を出すことにより、指定された命令をプロセッ
サに実行させる。

ALU48中で、２つの基本的動作形式が実行される。第１
の動作形式は、入力データの１ビットが単にALUの入力
ポートから出力ポートへ送られるだけの経路指定動作で
ある。たとえば、NEWS入力線の選んだ１本からマルチプ
レクサ62へ、さらにその入力側マルチプレクサ62、ALU
の入力ポートＮ、ALUの出力ポートＱを介して、NEWS出
力レジスタを形成するＱレジスタへ、データの１ビット
を送ることができる。そこから、NEWSネットワークに情
報が出力される。同様に、メモリ・アドレス母線24上の
アドレスによって指定されたメモリ16内の記憶位置か
ら、メモリの両方向データ・ポート59、ALUのＭ入力ポ
ートとＱ出力ポートを介して、Ｑレジスタへ、データの
１ビットを送ることができる。第２の基本的動作形式は
算術演算である。図の処理要素中で、演算結果レジスタ
50及びシフト・レジスタ52が主としてそのような演算に
使用される。ALUで実行できる実際の演算は、ALUの内部
構造によって変わる。このことは、本発明の理解にとっ
て本質的ではないので、詳しくは説明しないことにす
る。当業者にとって自明なように、通常の場合、ALUは
通常のやり方で実現される。

従来技術のSIMDアレイ・プロセッサでは、デコーダは、
通常、複数のハード配線で接続された論理ゲートの形で
ハード配線で接続されている。それとは対照的に、本発
明によるSIMDアレイ・プロセッサ中のデコーダは、プロ
グラム可能である。本発明の特定の実施例では、命令修
正機構として働くルックアップ・テーブルを設けること
により、デコーダはプログラム可能となっている。さら
に、本発明のこの実施例では、デコーダ64への命令コー
ド入力の選んだビットだけがルックアップ・テーブルに
よって修正される。

第５図に、本発明のこの特定の実施例のデコーダ64をよ
り詳しく示す。このデコーダは、ハード配線によって接
続されたゲートなど通常の固定式デコーダ論理回路の形
の第１の部分72、及びルックアップ・テーブル（LUT）7
4の形の第２のプログラム可能部分から構成されてい
る。線18（ｉ）ないし18（vi）及び行選択線、列選択線
上の命令コードのビットは、通常のようにプログラム式
論理アレイ（PLA）に直接入力されるが、命令コードの
ビット18（ｖ）及び18（vi）の２個はルックアップ・テ
ーブルを並列にアドレスするために使われる。これらの
ビットによってアクセスされたルックアップ・テーブル
の記憶位置の２ビット出力線が、修正命令ビット線18
（vii）及び18（viii）を形成し、それらのビット線も
固定式デコーダ論理回路72に入力される。固定式デコー
ダ論理回路72は、線18（ｉ）ないし（viii）上の入力デ
ータを論理的に組み合わせて、制御母線66、68、70上に
出力制御情報を形成する。

第５図に示したルックアップ・テーブルは、それぞれ２
ビットからなるワードを４個含む。アレイ・コントロー
ラからの大域「ルックアップ・テーブル・ロード」命令
に応答して、これら８ビットのデータが、メモリ16
（ｉ、ｊ）からデータ線76を経て並列にロードされる
（第４図も参照のこと）。処理要素のルックアップ・テ
ーブルは、初期設定以前には不確定情報を含んでいるの
で、「ルックアップ・テーブル・ロード」命令は、受け
取ったままの命令コードの未修正ビット18（ｉ）ないし
18（vi）、すなわちルックアップ・テーブルを通過して
いないビットのみを使用する。各処理要素中のデコーダ
は、この命令を受け取ると、線18（ｖ）及び18（vi）の
値に関係なく、母線66、68、70上及びデコーダ内部の制
御線78上に制御信号を生成する。制御線78は、ルックア
ップ・テーブル用の書込み許可線である。当該の各処理
要素のルックアップ・テーブル用の当該の制御または修
正データが、以前にデータ母線26及びＱレジスタ54を介
して各処理要素Ｐ（ｉ、ｊ）に関連するメモリ・スライ
ス16（ｉ、ｊ）中の当該の記憶位置にロードされてお
り、したがって大域命令及びメモリ・アドレスを使っ
て、制御データにアクセスしそれを各処理要素のルック
アップ・テーブルに読み込むことができる。大域無修正
命令を使って、従来技術のやり方でアレイを操作するこ
とにより、制御情報の記憶を行なう。

本発明によるSIMDアレイ・プロセッサでは、“PeOp"命
令コードによって定義される大域命令が基本的に２種類
存在する。局所的に修正できない大域命令と、局所的に
修正できる大域命令である。前者は、まずデータを処理
要素にロードし、データをアレイ中でシフトさせ、その
データをアレイ・メモリに記憶させ、次いで修正データ
をルックアップ・テーブルにロードするのに用いる大域
命令である。その他のすべての命令は、原則上、局所的
に修正できるが、適当な修正情報がルックアップ・テー
ブルにロードされている場合にしか使用できない。固定
式デコーダ論理回路72は、デコード中の命令が局所的に
修正可能かどうか、及び処理要素によって実際に実行さ
れる操作を決定するために線18（vii）及び18（viii）
上の入力データ（すなわち修正された命令ビット）を使
うかどうかが認識できるように、線18（ｉ）ないし18
（vi）上の入力データ（すなわち未修正の命令ビット）
を論理的に組み合わせる。

本発明によるSIMDアレイ・プロセッサのこの例では、プ
ログラム式デコーダを使って、大域命令の制約にもかか
わらず、異なる処理要素に対して異なるシフト方向を指
定する。データがシフトされる実際の方向は、入力マル
チプレクサ62へのNEWS入力の１つを選択した結果であ
る。命令コードの２ビット（すなわちビット18（ｖ）及
び18（vi））を使ってNEWSネットワーク内での大域シフ
ト方向を指定するものとすると、この２ビットの局所的
修正用のルックアップ・テーブルは、所与のシフト命令
に応答して各処理要素内で局所的シフト方向を個別に指
定するのが可能なことを意味する。

シフト命令の局所修正を活用するアルゴリズムを実行す
るための図のSIMDアレイ・プロセッサの準備は、次のよ
うに要約できる。

環状の東西NEWS接続部における両方向三状態ドライバを
介して、プロセッサのアレイの西端に連続する32ビット
のデータ・ワードを読み込み、大域未修正東側シフト命
令を使って、アレイ内でシフトさせる。最初のデータ・
ワードがプロセッサのアレイを横切って移動するとき、
最初の32データ・ワードの当該ビットが、大域無修正書
込み命令を用いて、各処理要素に関連するメモリ・ブロ
ック中の対応するメモリ記憶位置に書き込まれる。必要
なすべての情報がメモリにロードされるまで、これらの
ステップが反復される。上記シーケンス中に、またはそ
の後で、大域無修正「ルックアップ・テーブル・ロー
ド」命令を使って、処理要素のルックアップ・テーブル
に修正データが読み込まれる。このステップを実行し終
わると、プロセッサのアレイを使って局所的に修正可能
な命令によりアルゴリズムを実行することができる。

上記のように、本発明によるSIMDアレイ・プロセッサ
は、特に画像処理用に適している。画像データの入力を
プロセッサのアレイに急送したり映像データの出力をプ
ロセッサのアレイから急送したりするには、本発明によ
るSIMDアレイ・プロセッサのプロセッサ・アレイに高帯
域データ母線を追加して接続すればよい。そうすれば、
コントローラ・アレイ間データ母線26の代わりにこのよ
うな高帯域母線を介して、データをビデオ・カメラやビ
デオ記憶装置からアレイに入力させたり、ビデオ記憶装
置やビデオ・ディスプレイに出力させたりすることがで
きる。高帯域データ母線は、コントローラ・アレイ間デ
ータ母線と同様なやり方でアレイに接続することができ
る。別法として、このような高帯域データ母線用に、入
力マルチプレクサ62への分離ビデオ入力（図示せず）、
及び第４図に示すような処理要素のALU48からの分離ビ
デオ出力レジスタ（図示せず）を設けることもできる。
ただし、高帯域データ母線を設けることは、本発明にと
って不可欠ではない。

次に、画像処理に特に適用され、本発明によるSIMDアレ
イ・プロセッサの一実施例の柔軟性を活用できる、２つ
のアルゴリズムを、第５図に示すプログラム式デコーダ
装置の例と共に説明することにする。

第１のアルゴリズムは、プロセッサ・アレイ内に保持さ
れているデータを取り上げて、これを90度回転させるも
のである。４×４ビット・アレイでは、回転前と回転後
のデータ行列は、下に示すようになる。

1 2 3 4 ４８ 12 16 5 6 7 8 → ３７ 11 15 9 10 11 12 ２６ 10 14 13 14 15 16 １５ 9 13 回転前回転後このアルゴリズムは、基本的に、どの処理要素から始め
ても、経路に沿ってちょうどＭステップ進むと写像すべ
き正しい処理要素に達するように、１組の閉じた重なり
合わない「経路」または「ループ」のうちの１つの経路
上で、処理要素のアレイのまわりでデータ回転させるこ
とのできる、一連のシフト操作を含んでいる。第６図
に、32×32プロセッサ・アレイ用の１組のループをセッ
トアップする可能な１つの方法の西北四半部を示す。残
りの四半部は、回転対称性から推察できる。

ループの長さは様々であり、また矢印で示すように、シ
フト方向が時計回りのものも反時計回りのものもあるこ
とに留意されたい。ただし、あるビットをその位置する
ループに沿って33回シフトさせると、隣接四半部の対応
する位置にくることが、各ループで共通している。言い
換えれば、33ステップ進むと、アレイ全体が90度だけ回
転される。

処理要素間でのデータ・シフトを個別に指定できるよう
にすることにより、１命令サイクルのうちにネットワー
ク内部でデータを異なる方向に転送させることが可能で
ある。従来のSIMDアレイ・プロセッサでは、大域シフト
操作を有するという制約のために、いつでもアレイ内で
一方向にしかシフトできなかったことを思い起こされた
い。局所的命令修正用に、本発明によるSIMDアレイ・プ
ロセッサにプログラム式デコーダを設けることは、大域
命令の制約にもかかわらず、データを異なる方向にシフ
トできることを意味する。第６図に示したアルゴリズム
では、ルックアップ・テーブルのアクセスされた記憶位
置に含まれる図のループを定義するための修正データ
は、処理要素ごとに変わる。

第２のアルゴリズムは、Ｘ軸での鏡映に関するものであ
る。

第２のアルゴリズムは、プロセッサ・アレイ中に保持さ
れているデータを取り上げて、これを「Ｘ軸」で鏡映反
転させるものである。４×４ビット・アレイでは、鏡映
前と鏡映後のデータ行列は、下に示すようになる。

1 2 3 4 13 14 15 16 5 6 7 8 9 10 11 12 9 10 11 12 5 6 7 8 13 14 15 16 1 2 3 4 鏡映前鏡映後図示し易くするため、第7a図及び第7b図には、８×８プ
ロセッサ・アレイ用のアルゴリズムを示す。これは32×
32プロセッサ・アレイ用に、容易に発展させることがで
きる、このアルゴリズムは、２段階で実行される。第１
段階は、４サイクルの間に実行され、第7a図に示すNEWS
設定を有する。第２段階は、１サイクルで実行され、単
に西側大域シフトであり、第7b図に示すNEWS設定を有す
る。このアルゴリズムは、ｎ×ｎアレイ（n:偶数）での
Ｘ軸鏡映を実施するのに、１＋n/2サイクルを要する。

図のアルゴリズムでは、鏡映操作の始めに一度、ルック
アップ・テーブルを設定しておくだけでよい。どのビッ
トをもその位置する経路に沿って４ステップ移動させ
る、第7a図に示したパターンを与えるように局所的に修
正された、４個の第１の大域シフト命令が出される。次
いで、局所的に修正する必要なしに第7b図に示したNEWS
パターンを与える、１個の第２の大域シフト命令（西側
大域シフト）が出される。これは、どのビットも西側に
１ステップ移動させる。各ビットは、最後には、その始
めの位置に対してＸ軸で鏡映をなす位置にくることがわ
かる。第7a図に比べて第7b図のシフト方向の変化は、単
に、２つの異なる大域シフト命令の使用によって生じる
にすぎない。第7a図の場合には、大域命令は、処理要素
ごとに変わる修正子ビットによって修正される。第7b図
の場合には、大域命令は修正されない。

第８図は、本発明によるSIMDアレイ・プロセッサの柔軟
性をさらに増大させる、プロセッサ要素に対する修正を
示す。

SIMDアレイ・プロセッサの典型的な動作サイクルでは、
アレイ中の処理要素が、NEWSネットワークの１つの隣接
処理要素からデータを選択する。ただし、どのシフト・
サイクルでも各セルに対する入力接続線の１本だけが使
用されるので、これは、ネットワーク接続の最適利用に
はならない。NEWS接続線の75％が遊休状態であると思わ
れる。ただし、実際には、NEWS接続線は両方向性であ
り、所与の処理要素に対する「入力」接続線の１本がそ
の処理要素からの出力に用いられるので、実際にはネッ
トワークの50％だけが遊休状態である。とはいえ、この
50％さえ、ネットワークを十分に利用していないことの
現われである。第８図に示した処理要素に対する主な修
正は、２個のNEWS出力レジスタQns54ns及びQew54ewを設
けることである。この２個のレジスタを設けると、１サ
イクル当り２方向へのシフト操作、すなわち、北側に１
つと東側１つのシフト操作を可能にする基礎が得られ
る。これは、NEWS配線のより効率的な使用の現われであ
る。上記の修正に加えて、処理要素に若干の追加修正が
必要である。

第８図に示したように、入力マルチプレクサ62′は、一
時に処理要素Ｐ′（ｉ、ｊ）に対するNEWS入力のうち２
つを別々に選択して、それらをALU48′の当該の入力ポ
ートNns及びNewに供給する、多方向マルチプレクサであ
る。さらに、Qnsレジスタ及びQewレジスタのどちらかの
出力を選択するマルチプレクサ機能が、ALU48′内部に
設けられている。Qnsレジスタは、データを北側及び南
側の隣接処理要素に出力し、Qewレジスタはデータを東
側及び西側の隣接処理要素に渡す。各Ｑレジスタは、入
力マルチプレクサ62′及びALU48′を介して４本のNEWS
入力線のどれからでもデータをサンプリングすることが
できる。典型的なサイクルは西側からデータをサンプリ
ングするQnsと南側からデータをサンプリングするQewか
ら構成することができる。このような２サイクルで、Qn
sレジスタ及びQewレジスタに保持されている２組のデー
タがそれぞれ対角線方向に北東に１位置だけ移動される
ことになる。１個の出力レジスタＱしかない場合は、こ
れらのシフトを実現するのに４サイクルが必要である。
このようにして、処理要素が２個のデータ・ビットを同
時にシフトすることが可能である。

これらの構成要素に対する修正、ならびに制御線66′、
68′、70′及びデコーダ64′中の論理回路に対する変更
についてのこれ以上の詳細は、決まった手順にすぎない
ので、当明細書に示す必要はない。また、当業者にとっ
て明らかなように、Ｑレジスタの増設をサポートするた
めの処理要素のその他の修正も可能である。

結果として得られる第８図の処理要素は、第４図に示し
た処理要素よりも複雑であるものの、NEWSネットワーク
の柔軟性と効率をさらに増大させる。その上、処理要素
に対する入力線と出力線が両方向性の場合には処理要素
の入力及び出力NEWS接続線が共用されるので、各処理要
素ごとに追加のNEWS接続線を設けなくとも上記のことが
実現される。また、第８図に示すように、１処理要素が
同時に２データ・ビットを処理することも可能である。

次に、第９図、第10図、第11図を参照して、第８図にお
ける修正を活用する３つのアルゴリズムについて説明す
る。図示し易くするために、８×８アレイ用のアルゴリ
ズムだけを示し、各処理要素Ｐ′（ｉ、ｊ）は、前と同
様に、小さな円で表わす。図を理解する場合、アレイが
環状に接続されていることを思い起こされたい。

第９図に、これらのアルゴリズムの最初のものを示す。
この図は、アレイ全体にわたる西北へのシフトを表わし
ている。第９図で、処理要素82の所の86と記した矢印
は、この処理要素に対する東側NEWS接続線から入力マル
チプレクサ62′を介してデータを受け取るために、第８
図のQns出力レジスタ54nsを使用することを表わす。同
様に、第９図で、この処理要素の所の84と記した矢印
は、この処理要素に対する入力マルチプレクサ62′を介
して南側NEWS接続線からデータを受け取るために、第８
図のQew出力レジスタ54ewを使用することを表わしてい
る。したがって、このノードの処理要素で、２つの転送
が実行される。

このアルゴリズムでは、大域シフト命令が各処理要素に
ついて同じやり方でデコードされる。処理要素を表わす
円を貫く左上がりの斜線は、異なる経路に沿った情報の
流れがどのように分離されるかを示している。この図を
読み取る際、対角線をデータ流れを反射する鏡と考える
のが有用である。いくつかの処理要素をつなぐ太線は、
このような１本の経路88を示している。１項目のデータ
がどのようにして２ステップで西北にシフトされるかが
この図からわかる。各処理要素は一度に２ビットを処理
するので、西北へのビット・シフト１回につき１ステッ
プしか必要でない。

第10図には、第２のアルゴリズムを示す。アレイを転置
するこのアルゴリズムでは、大域シフト命令が異なる２
つのやり方でデコードされるように、処理要素がプログ
ラミングされる。左上りの斜線を施した円で表わした、
処理要素90及び92などの処理要素が、第９図の処理要素
82と同じやり方で、大域シフト命令をデコードして、矢
印84及び86で表わすようにデータを処理する。入力マル
チプレクサ62′によって南側及び東側のNEWS入力線から
データが選択され、それぞれQnsレジスタ及びQewレジス
タにロードされるように、単円で表わした処理要素94な
どの処理要素がプログラミングされる。

経路が斜線を施した処理要素の所でどのように方向を変
え、別の処理要素の所でどのように交差するかを示す、
太線で示した経路96と破線で示した経路98の２つのデー
タ経路が示されている。

第11図には、180度回転を実施する第３のアルゴリズム
を示す。この図、とりわけ太線116及び破線118で表わさ
れる２本のデータ経路を検討すると明らかなように、各
四半部で異なる２方向、合計８方向で大域シフト命令を
デコードするように、処理要素がプログラミングされ
る。それらを、以下の表に示す。

データ経路116及び118から、あるいはデータ・ビット
を、８回のシフトすなわちステップで（すなわち経路11
8に沿って）８×８プロセッサ・アレイ内部で180度（た
とえば、要素114から要素106に）回転できることがわか
る。各処理要素は同時に２ビットを処理するので、180
度回転１回当りの平均ステップ数は４にすぎない。この
アルゴリズムは、第９図及び第10図に示した他のアルゴ
リズムと同様に、容易にｎ×ｎアレイに一般化できる。
ただし、ｎは偶数である（たとえば、32×32アレイ）。

以上可能な修正を加えた、本発明によるSIMDアレイ・プ
ロセッサの特定の例について説明した。ただし、当業者
には、明らかなように頭記の特許請求の範囲の範囲内で
他の多くの修正代案が可能である。たとえば、命令コー
ドの２ビットを修正するためのルックアップ・テーブル
についてしか説明しなかったが、様々なビット数と様々
なタイプの命令（すなわち、シフト命令だけでなく）を
修正するためのルックアップ・テーブルを設けることが
できることは明らかとなる。別の実施例では、行選択線
と列選択線をもルックアップ・テーブルに対する入力線
の一部をなすように配線して、これらの線上の選択信号
を使って、ルックアップ・テーブルの使用により大域命
令に対する局所的修正を指定することもできる。プログ
ラム式デコーダは本明細書では、ハード配線で接続され
たゲートなどの通常の固定式デコーダ論理回路の形の第
１部分とルックアップ・テーブルの形の第２のプログラ
ム化可能部分から構成されるものとして説明した。ただ
し、当業者には、明らかなように、その代わりにアレイ
の一部分を固定式にし、一部分を処理中にプログラミン
グ可能にした、別のプログラム式デコーダ手段を使用す
ることもできる。

【図面の簡単な説明】

第１図は、典型的なSIMDアレイ・プロセッサの全体構造
を示す概略構成図である。第２図は、本発明によるSIMDアレイ・プロセッサの一実
施例のアレイ・コントローラの主要構成要素を示す概略
構成図である。第３図は、第２図のアレイ・コントローラで使用される
命令形式を示す。第４図は、本発明の一実施例のプロセッサ・アレイの個
々の処理要素の主要構成要素を示す構成図である。第５図は、第４図の処理要素中のデコーダをさらに詳し
く示した概略構成図である。第６図は、本発明によるSIMDアレイ・プロセッサ上で実
施できるアルゴリズムを示す図である。第7a図及び第7b図は、本発明によるSIMDアレイ・プロセ
ッサ上で実施できる別のアルゴリズムを示す図である。第８図は、第４図の処理要素に対する修正を示す、概略
構成図である。第９図、第10図、第11図は、第８図に示した処理要素に
修正を施した、本発明によるSIMDアレイ・プロセッサ上
で実施できるアルゴリズムを示す図である。 10……SIMDアレイ・プロセッサ、12……処理要素のアレ
イ、14……アレイ・コントローラ、18……命令母線、20
……列選択線、24……アドレス母線、26……コントロー
ラ・アレイ間データ母線、30……ホスト・コントローラ
間データ母線、31……アドレス／データ母線、32……マ
イクロコード記憶域、34……マイクロコード制御機構、
38、48……演算論理機構、39……フラグ線、40……レジ
スタ・バンク、42……行マスク用プログラム式論理アレ
イ、44……列マスク用プログラム式論理アレイ、46……
データ用バッファ。

Claims

【特許請求の範囲】

【請求項１】各々の処理要素が大域命令をそれぞれ自己
の処理要素内で局所的に実行するためにデコードするデ
コード手段を備え持つ多次元アレイの処理要素と、上記多次元アレイの処理要素へ大域命令を発するための
制御論理手段と、上記大域命令が上記処理要素の各々によって並列的に受
け取られるように上記制御論理手段を上記処理要素の各
々に接続するための、複数命令ビット線で構成される命
令母線と、少なくとも１つの上記処理要素の上記デコード手段に含
まれる手段であって、上記大域命令の選択したビットを
局所的に修正し、局所的に修正された該命令ビットを局
所命令ビット線に出力するための、選択した命令ビット
線に接続されたプログラム式修正手段と、少なくとも１つの上記処理要素の上記デコード手段に含
まれる手段であって、上記プログラム式修正手段から上
記局所的に修正された命令ビットを受け取るために上記
局所命令ビット線に接続され、かつ、上記大域命令の未
修正ビットを受け取るため上記命令母線に接続された固
定デコード手段と、上記処理要素の各々に関連し該処理要素によりアクセス
されるブロックで構成される記憶手段と、上記制御論理手段が上記記憶手段にアクセスし、上記プ
ログラム式修正手段の各々のための制御データを上記記
憶手段の該当ブロックに記憶するための手段と、上記プログラム式修正手段の各々を個別にプログラムす
るための上記制御データを受け取るために、上記処理要
素の各々の上記プログラム式修正手段を上記記憶手段の
該当ブロックに接続する手段と、上記記憶手段の該当ブロックから修正データを逐次受け
取るため上記記憶手段のブロックに接続された逐次書き
込みポートと、上記大域命令の上記選択した命令ビット
を並列に受け取るため上記選択した命令ビット線に接続
された並列読み取りポートとを備え持ち、上記プログラ
ム式修正手段の一部をなすルックアップ・テーブルと、からなるSIMDアレイ・プロセッサであって、上記処理要素の各々の上記固定デコーダ手段が、上記命
令母線上の大域ロード命令の未修正ビットに同時に応答
して、上記局所的に修正されたビットの値と関係なく、
上記制御データを上記記憶手段の該当ブロックから上記
プログラム式修正手段へとロードさせる機能を有する、 SIMDアレイ・プロセッサ。
【請求項２】上記プログラム式修正手段が、シフト方向
を決定する大域シフト命令ビットを受け取るため上記選
択した命令ビット線に接続し、上記大域シフト命令に応
答して上記大域シフト命令を局所的に修正しアレイ内の
複数の方向に一度にデータを分配する機能を持った請求
項１記載のSIMDアレイ・プロセッサ。