JPH0922404A

JPH0922404A - 同報通信プロセッサ命令を備えたアレイ・プロセッサ通信アーキテクチャ

Info

Publication number: JPH0922404A
Application number: JP8022362A
Authority: JP
Inventors: Gerald G Pechanek; ジェラルド・ジー・ペチャネク; D Larcen Larry; ラリー・ディー・ラルセン; Clair John Glossner; クレア・ジョン・グロスナー; Stamatis Vassiliadis; スタマティス・ヴァッシリアディス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-02-10
Filing date: 1996-02-08
Publication date: 1997-01-21
Also published as: EP0726532B1; DE69609430D1; EP0726532A3; EP0726532A2; US5659785A

Abstract

(57)【要約】（修正有）【課題】すべてのＰＥに同報通信される命令により、
単一命令複数データ・プロセッサ・アレイのＰＥ間にお
けるオペランドと結果のやりとりを動的に制御する。【解決手段】複数のＰＥは、命令メモリを備えた順序
付け制御ユニットに対し共通の命令バスによってクラス
タ状に接続されている。各ＰＥは、少なくとも４つの最
近隣ＰＥに接続されたデータ・バスと、複数のオペラン
ド・レジスタを含む汎用レジスタ・ファイルとを有す
る。共通命令は命令バスを介して各ＰＥに同報通信され
る。この命令は、レジスタ・ファイル内のオペランドに
ついて実行される演算を制御する。各ＰＥには、演算結
果の宛先として第１の近隣ＰＥとそれ自体とを相互接続
するためにスイッチが１つずつ含まれている。命令は、
宛先近隣ＰＥを動的に選択するためにＰＥ内のスイッチ
を制御する宛先フィールドと、別の近隣ＰＥから受け取
った結果の格納先になるオペランド・レジスタを動的に
選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】開示されている本発明は、一
般的にはデータ処理システムおよび方法に関し、より具
体的にはアレイ・プロセッサ・アーキテクチャの改良に
関する。

【０００２】

【従来の技術】命令主導型プログラム可能並列処理シス
テムにおける通信は、通常、処理要素間で通信する際の
固有の待ち時間として処理される。通信命令およびバッ
ファ・メモリ間の通信は、処理要素間のインタフェース
を取るための標準的な手法である。このような手法はい
ずれも、データをさらに処理するために事前に対処しな
ければならない固有の待ち時間を処理するものである。
これは、並列処理システムが達成可能な潜在的パフォー
マンスを低下させる。

【０００３】

【発明が解決しようとする課題】したがって、本発明の
一目的は、改良された命令主導型プログラム可能並列処
理システムを提供することにある。

【０００４】本発明の他の目的は、プロセッサ間で通信
する際に固有の待ち時間を低減する、改良された並列処
理システムを提供することにある。

【０００５】本発明の他の目的は、改良されたパフォー
マンス特性を有する、改良された並列処理システムを提
供することにある。

【０００６】

【課題を解決するための手段】上記およびその他の目
的、特徴、利点は、本発明により達成される。複数のプ
ロセッサ要素（ＰＥ）は、命令メモリから取り出した命
令を分配する制御ユニットまたはシーケンス・プロセッ
サ（ＳＰ）に対し共通の命令バスによってクラスタ状に
接続されている。それぞれのＰＥは、線形アレイ状の少
なくとも２つのＰＥと、その北、南、東、西の各近隣Ｐ
Ｅという４近隣ＰＥメッシュにおける少なくとも４つの
最近隣ＰＥとに接続されたデータ・バスを有する。ま
た、それぞれのＰＥは、複数のオペランド・レジスタを
含む汎用レジスタ・ファイルも有する。命令メモリから
取り出した共通命令は、命令バスを介して制御ユニット
によってクラスタ内の各ＰＥに同報通信される。この命
令は、レジスタ・ファイル内の１つまたは複数のオペラ
ンド・レジスタからのオペランドについてＰＥ内の実行
ユニットによって実行される算術演算、論理演算、また
はパス・スルー操作を制御する命令コード値を含む。そ
れぞれのＰＥには、実行ユニットからの結果の送信先に
なる宛先として第１の近隣ＰＥとそれ自体とを相互接続
するためにスイッチが１つずつ含まれている。本発明に
よれば、同報通信命令は、ＰＥ間の通信経路を動的に構
成するために、ＰＥ内のスイッチを制御する宛先フィー
ルドを含み、それにより、結果の送信先になる宛先ＰＥ
を選択する。さらに本発明によれば、同報通信命令は、
スイッチが構成した通信経路を介してクラスタ内の別の
近隣ＰＥから受け取った別の結果の格納先になる、ＰＥ
のレジスタ・ファイル内のオペランド・レジスタを動的
に選択するターゲット・フィールドを含む。このため、
クラスタ内のすべてのＰＥに同報通信される命令は、単
一命令複数データ・プロセッサ・アレイのクラスタ内の
ＰＥ間におけるオペランドと結果のやりとりを動的に制
御する。

【０００７】上記およびその他の目的、特徴、利点は、
添付図面を参照することによりさらに十分理解されるだ
ろう。

【０００８】

【発明の実施の形態】図１は、アレイ・プロセッサ・マ
シン編成の高レベル図を示している。このマシン編成
は、グローバル・メモリおよび外部入出力を含むシステ
ム・インタフェース１００と、ローカル・メモリ１０２
を備えた複数制御ユニット１０３と、分散制御ＰＥ１０
４を備えた実行アレイという３つの主要部分に区分され
ている。システム・インタフェースは、アレイ・プロセ
ッサがグローバル・メモリ、入出力、他のシステム・プ
ロセッサ、パーソナル・コンピュータ／ワークステーシ
ョン・ホストとのインタフェースを取る際に使用するア
プリケーション依存インタフェースである。その結果、
システム・インタフェースは、アプリケーションおよび
全体的なシステム設計によって異なることになる。制御
ユニット１０３は、命令およびデータ格納用のローカル
・メモリ１０２と、命令取出し（Ｉ取出し）機構と、オ
ペランドまたはデータ取出し機構（Ｄ取出し）とを含
む。分散制御ＰＥ１０４を備えた実行アレイは、特定ア
プリケーション用に選択された処理要素からなる計算ト
ポロジである。たとえば、このアレイは、１つの制御ユ
ニット１０３当たりＮ個の処理要素（ＰＥ）１０４から
構成することができ、それぞれのＰＥが命令バッファ
（ＩＭＲＹ）１０６と、汎用レジスタ・ファイル（ＧＰ
ＲＦ）１０８と、機能実行ユニット（ＦＮＳ）１１０
と、通信機構（ＣＯＭ）１１２と、その命令バス１１４
およびそのデータ・バスへのインタフェースとを含むこ
とができる。また、ＰＥは、ＰＥローカルの命令メモリ
およびデータ・メモリを含むこともできる。さらに、そ
れぞれのＰＥは、図４に示す命令デコード・レジスタ１
１６を含み、それが複数のＰＥの分散制御をサポートす
る。ローカル・メモリ・アクセスの同期は、制御ユニッ
ト１０３と、ローカル・メモリ１０２と、ＰＥ１０４と
の協調プロセスである。複数ＰＥのアレイにより、計算
機能（ＦＮＳ）をＰＥ内で並列に実行することができ、
結果をＰＥ間でやりとり（ＣＯＭ）することができる。

【０００９】図１のような複数単一命令複数データ（Ｍ
ＳＩＭＤ）マシン編成の場合、アプリケーションに応じ
てより最適なトポロジになるように、複数のＰＥと通信
機構からなるトポロジを構成することができる、単一ま
たは複数スレッド・マシンの作成が可能である。たとえ
ば、考えられるマシン編成としては、複数線形リング、
最近隣２次元メッシュ・アレイ、折返し最近隣２次元メ
ッシュ、複数折返しメッシュ、２次元六角アレイ、折返
し２次元六角アレイ、複数ツリーの折返しメッシュ、上
記ならびにその他の組合せなどがある。

【００１０】アレイ・プロセッサ・ファミリーに関連す
る基本概念は、直接接続された処理要素間の結果のやり
とりは、図２および図３の処理要素命令セット・アーキ
テクチャ１１５で指定することができるというものであ
る。典型的なＲＩＳＣユニプロセッサでは、機能実行ユ
ニットからの結果の宛先はそのプロセッサ専用のレジス
タ・ファイルになると思われる。アレイ・プロセッサで
は、この「伝統」を打ち破り、直接接続の複数プロセッ
サの宛先から、暗黙の単一プロセッサ・ローカル宛先
に、結果の宛先定義を変更する。このアーキテクチャと
直接接続のＰＥ間リンクにより、直接接続のＰＥ間の通
信は通信待ち時間ゼロで実行可能であると主張すること
ができる。このアーキテクチャは、ターゲット・フィー
ルド１２６によって指定される結果ターゲット・レジス
タが所在する、直接接続の後続ＰＥを示す単方向命令１
１５に宛先フィールド１２０を含めることによってこの
機能を提供する。図２は、プロセッサで使用する基本単
方向３２ビット命令１１５を示している。ただし、１６
ビット、６４ビットなどの形式も同じ原理を使用するこ
とができる。４近隣ＰＥの場合、北、東、西、南の各宛
先ＰＥが宛先フィールド１２０にコード化される。この
場合、アレイ・プロセッサは、最高８つのクラスタ化プ
ロセッサ（３折返しアレイで使用する）と最高８近隣ア
レイなどの１６個の宛先まで拡張できるように、４ビッ
トのフィールドを提供している。直接接続のＰＥを備え
たトポロジの例としては、最近隣メッシュ、折返しメッ
シュ、ツリー・アレイ、ハイパーキューブなどがある。
また、クラスタ化および最近隣メッシュ編成のために、
物理設計プロセスでは直接接続のＰＥ同士を互いに極め
て接近して配置し、短いサイクル時間をサポートするこ
とにも留意されたい。さらに、０通信待ち時間を可能に
するためだけでなく、処理要素のＳＩＭＤアレイでハザ
ードのない通信を保証するためにも、命令セット形式で
の通信宛先指定のこのバインドを意図的に行うことにも
留意されたい。ここでは、アレイ・プロセッサを例にと
って、上記の通信概念の実現に関連する詳細アーキテク
チャを説明する。

【００１１】アレイ・プロセッサ命令１１５では、オペ
ランド１フィールド１２２とオペランド２フィールド１
２４とターゲット・フォールド１２６はレジスタ指定で
あり、宛先フィールド１２０は、結果の通信先になる直
接接続の後続処理要素を指定するものである。命令コー
ド・フィールド１２８は、指定の実行ユニットによって
実行される算術演算、論理演算、またはパス・スルー操
作を指定するものである。

【００１２】このタイプのＳＩＭＤアレイ・プロセッサ
では、図３の第２の命令形式例に示すように宛先フィー
ルドにタグを付け、シーケンサ・コントローラ・ユニッ
トでモード制御命令を使用してこのタグを設定すること
が可能である。次に、このタグがアレイ内のＰＥに分散
される。通信方向を変更するため、結果値をやりとりす
る命令を実行する前にモード制御命令が出される。この
手法にはいくつかの意味がある。第１に、タグを付ける
ことにより、その命令が機能宛先用の命令フィールドを
完全に利用する。第２に、通信中に宛先を変更する必要
がある場合、タグを付けることにより必ず追加の待ち時
間が発生する。サロゲート超長命令ワード（ＶＬＩＷ）
内の個別の実行可能命令フィールドとしてタグ・レジス
タのロードを組み込むことができる場合は、サイクルご
とに宛先を変更することが可能になる。このため、制御
アルゴリズムが複雑になる代わりに、タグ設定待ち時間
の影響が最小限になる。

【００１３】次に、単一対角折返しアレイ・プロセッサ
要素（ＰＥ）のデータ・フローについて、簡単に説明す
る。折返しアレイ・ノードには、単一処理要素を含む対
角ノードと、それぞれ２つのＰＥを含むノードという２
つのタイプがある。それぞれのタイプの詳細について
は、以下に説明する。

【００１４】それぞれの折返しアレイ・ノードのコア論
理回路は処理要素（ＰＥ）１０４である。前述のよう
に、折返しアレイには、単一処理要素を含むものと、２
つの処理要素を含むものの２つのノード・タイプがあ
る。単一ＰＥノードは折返しメッシュの対角線上にある
もので、４×４単一対角折返しアレイにはこのようなノ
ードが４つある。残りの６つのノードはＰＥをそれぞれ
２つずつ含んでいる。したがって、全体としては、折返
し４×４アレイ内の１６個の処理要素が１０個のノード
間に分散している。

【００１５】図４のすべての処理要素１０４は、固定小
数点／浮動小数点乗算／加算ユニット（ＭＡＵ）１１０
と、ＡＬＵ１１０ａと、データ選択ユニット（ＤＳＵ）
１１０ｂと、３２個のＧＰＲを含む汎用レジスタ・ファ
イル（ＧＰＲＦ）１０８とを含む、共通する１組の演算
フロー構成要素を含んでいる。また、それぞれのＰＥ１
０４は、ＰＥデコード・レジスタ（ＰＤＲ）１０６と、
命令デコード論理回路と、ＰＥによって実行される命令
を保持するためのＰＥ実行レジスタ（ＰＸＲ）という命
令パイプライン・ハードウェアも含んでいる。さらに、
本来は３２ビットまたは単方向命令ワードに含めるべき
並列操作の指定が多すぎると思われるＶＬＩＷを保持す
るために、それぞれのＰＥには小規模なサロゲート命令
メモリ（ＳＩＭ）も含まれる。ＳＩＭの周りの論理回路
は、特別に設計された命令を使用してＳＩＭのロードを
行わせる。最後に、関連のロードおよびストア・アドレ
ス生成ユニットともに、ローカルＰＥデータ・メモリが
それぞれのＰＥごとに含まれている。

【００１６】この共通する１組のフロー構成要素は、折
返しアレイを構成する単一ＰＥノードと二重ＰＥノード
を作成するために、様々なスイッチ要素とその他の論理
回路によって増強されている。

【００１７】前述のように、それぞれのＰＥは、命令デ
コードおよび実行レジスタ（それぞれの短縮名はＰＤＲ
とＰＸＲである）と命令デコード論理回路を含む、専用
の命令パイプライン論理回路を実現する。ＰＥが実行で
きないことは、それ専用の命令スレッドを決定すること
である（ＰＥには命令アドレス・レジスタと関連の順序
付け論理回路がない）。マシンのシーケンス・プロセッ
サ（ＳＰ）または制御ユニット１０３は、それ自体と関
連ＰＥ１０４の両方について命令取出しタスクを実施す
るよう機能する。したがって、所与のＳＰ１０３に接続
されたＰＥには、ＳＰ１０３から命令１１５が供給され
る。命令１１５は、命令バス１１４を介してすべての接
続ＰＥに同報通信される。次に、それぞれのＰＥ１０４
は、これらの命令を（ＰＤＲに）登録し、その後、デコ
ードして実行する。

【００１８】ＰＥ命令パイプライン・フローのもう１つ
の部分は、サロゲート命令メモリすなわち略してＳＩＭ
である。ＳＩＭ（ＲＡＭとＲＯＭの組合せでもよい）
は、ＰＥがＶＬＩＷ（複数のフロー要素でアクションの
実行を行わせる命令）を実行できるようにするために含
まれている。このタイプの命令は、通常の命令より複雑
になる傾向があり、一般に表現するには単一ＰＥ命令ワ
ードで使用可能なビット数より多くのビット数を必要と
する。このような制約を回避するため、ＶＬＩＷ命令を
その代りとなるサロゲートまたはプレース・ホルダー命
令によって１つの命令ストリームで表現するという技法
が提案されている。この場合、命令ストリーム内で（Ｐ
Ｅ内の論理回路によって）サロゲート命令が見つかる
と、そのサロゲート命令によって指定されたＶＬＩＷが
ＳＩＭからアクセスされ、サロゲート命令の代わりに実
行される。ＰＥ内の他の論理回路は、特殊命令を使用し
てＳＩＭへの命令のロードを容易にする。当然のことな
がら、ＲＯＭ内にいくつかのＶＬＩＷが保持されている
場合には、それをロードする必要はない。おそらく、ほ
とんどのアプリケーションには、ＲＯＭベースのＳＩＭ
とＲＡＭベースのＳＩＭを組み合わせたものが望まし
い。

【００１９】通信制御について以下に説明する。図４
は、単一ＰＥ（対角）処理ノードのフローを示してい
る。同図に示すように、このノードは、単一ＰＥ１０４
によって提供される構成要素のすべて（ＭＡＵ、ＡＬ
Ｕ、ＤＳＵ、ＧＰＲＦ、およびローカルＰＥデータ・メ
モリ）と、最近隣およびＤバス・データをレジスタとの
間でやりとりするためのスイッチ／選択論理回路とを含
んでいる。提供される命令パイプライン経路論理回路
は、通常の命令とサロゲート命令を規則正しくデコード
して実行するためのものである。

【００２０】折返しメッシュ・アレイ用に提案された二
重ＰＥノード・フロー（図５を参照）は、２つのＰＥ１
０４および１０４'の算術要素をすべて含んでいる。す
なわち、このノード・フローは、２つのＭＡＵと、２つ
のＡＬＵと、２つのＤＳＵと、２組のＧＰＲと、２つの
ローカルＰＥデータ・メモリとを有する。２つのＰＥに
共通のスイッチ論理回路１１２は、４つの最近隣通信経
路と、２つのデータ・バスと、２つの命令バス接続に対
応するものである。ノードの上半分と下半分（単純に上
部ＰＥと下部ＰＥと呼ぶ）は、同じ同報通信命令を別々
に実行するので、それぞれ専用の命令レジスタとデコー
ド論理回路を有する。二重ＰＥノードの上半分と下半分
の間の通信を容易にするため、ＧＰＲＦ入力ポート上の
マルチプレクサにより、任意のソースからのロード・デ
ータを命令宛先フィールド指定によっていずれかのＧＰ
ＲＦに書き込むことができる。

【００２１】それぞれのＰＥには、ＰＥでの基本動作モ
ードを制御するために２つのモード制御レジスタが設け
られている。第１のモード制御レジスタは、Ｉバス・ス
イッチ、Ｄバス・スイッチ、最近隣／隣接ＰＥ通信モー
ド、リング／アレイ・モードなどの構成ビットを含んで
いる。第２のモード制御レジスタは、特定の実行ユニッ
トの結果の丸めと飽和を制御するための算術オプション
を含んでいる。２つのＰＥ命令は２つのレジスタのロー
ドを制御する。ＰＥモード設定命令は、構成ビットを制
御し、その命令に含まれる即時モード制御情報をすべて
のＰＥにロードする。ＰＥ丸め／飽和設定命令は、第２
のレジスタをロードする。

【００２２】構成モード・レジスタの場合、２つのＩＡ
／ＩＢバス・ポートと２つのＤＡ／ＤＢバス・ポートを
上部ＰＥと下部ＰＥに接続する方法を二重ＰＥで指定す
る構成モード・レジスタからＩバス・スイッチとＤバス
・スイッチが制御される。このようなスイッチ設定を使
用すると、ＩバスとＤバスをアレイの行ＰＥまたは列Ｐ
Ｅに接続することができる。追加のモード・ビットは、
ＰＥが最近隣または隣接ＰＥ通信モードになっているか
どうかを示すものである。最近隣／隣接ＰＥインタフェ
ースはそれに応じて変更されるので、独立した行リング
または列リングを使用するときにＰＥ間インタフェース
をどのように使用するかについて、モード情報も提供し
なければならない。動作モード・ビット定義は以下の通
りである。Ｉバス・スイッチ０＝ＩＡバス・ポートは上部ＰＥに接続し、ＩＢバス・
ポートは下部ＰＥに接続する１＝ＩＡバス・ポートは下部ＰＥに接続し、ＩＢバス・
ポートは上部ＰＥに接続するＤバス・スイッチ０＝ＤＡバス・ポートは上部ＰＥに接続し、ＤＢバス・
ポートは下部ＰＥに接続する１＝ＤＡバス・ポートは下部ＰＥに接続し、ＤＢバス・
ポートは上部ＰＥに接続する最近隣／隣接ＰＥ通信モード０＝最近隣通信可１＝隣接ＰＥ通信可リング／アレイ・モード００＝行リング：ＮおよびＳポート不可、ＥおよびＷ
ポート可０１＝列リング：ＥおよびＷポート不可、ＮおよびＳ
ポート可１０＝予約済み１１＝アレイ・モード

【００２３】図４および図５に示すＰＥフロー図は、実
行中の命令から制御されるスイッチを示している。この
ノードには、ＰＥ−ＮＥＴスイッチ、データバス（Ｄバ
ス）スイッチ、命令バス（Ｉバス）スイッチ（二重ＰＥ
ノードの場合のみ）という３つのタイプのスイッチが示
されている。ＰＥ−ＮＥＴスイッチはＰＥ内で実行中の
命令によって制御され、Ｉバス・スイッチとＤバス・ス
イッチはＰＥモード制御レジスタによって制御される。
ＰＥは、ＰＥ−ＮＥＴスイッチを制御することにより、
ノード間で様々な方法でデータを交換する。

【００２４】二重ＰＥノード用の最近隣（ＰＥ−ＮＥ
Ｔ）送信／受信機構は、４つの両方向ドライバ／レシー
バ・ポートまたは４つの個別入力および４つの個別出力
のためのドライバ／レシーバ・ポートを含む。個別入出
力ポートの場合、それぞれの最近隣通信方向に対して入
出力対が１つずつ割り当てられている。一般に、たとえ
ば最近隣ＰＥなどの直接接続ＰＥにデータを送信するた
めにこれらのポートの１つが割り当てられると、同時に
別のＰＥからデータを受信するために別のポートも方向
付けられる。二重ＰＥノードでは、ドライバ／レシーバ
・ポートのうちの２つだけが同時にデータを送信し、他
の２つが同時にデータを受信するよう保証するために、
制御回路が設けられている。検討すべき特定のケースと
しては４通りある。すなわち、東送信西受信と、北送信
南受信と、南送信北受信と、西送信東受信である。対角
ＰＥ（図４）は、西／北ポートおよび南／東ポートを共
用し、したがって、対角ＰＥ当たり２つの最近隣タイプ
の入出力ポートだけを必要とする。ただし、二重ＰＥノ
ードでは、受信／送信機構が４つの入出力ポートから構
成されることに留意されたい。

【００２５】図６および図７は、図４および図５より大
まかに単一ＰＥノードと二重ＰＥノードを示し、考えら
れる４通りの送信モードをサポートする際に最近隣ポー
トを使用する方法の例を示している。サポートされる通
信モードにより、データは４つの基本方向に送信され、
同時に反対方向から受信される。たとえば、北に送信
し、南から受信する。

【００２６】図８および図９は、４近隣アレイの場合の
隣接ＰＥの論理表現（すなわち、折返しなしメッシュ）
と折返しメッシュ表現とを示すもので、以下の４通りの
通信モードが可能である。列リング０−−列リング１および列リング２−−列リン
グ３図８（Ａ）および（Ｂ）列リング０−−列リング３および列リング１−−列リン
グ２図８（Ｃ）および（Ｄ）行リング０−−行リング３および行リング１−−行リン
グ２図９（Ｃ）および（Ｄ）行リング０−−行リング１および行リング２−−行リン
グ３図９（Ａ）および（Ｂ）

【００２７】図４および図５に示すように、折返しアレ
イ・ノードはそれぞれ１つまたは２つの処理要素を含
む。ＰＥはすべて同じであり、それぞれ、一般的な２つ
のタイプの算術ユニットであるＡＬＵおよび固定小数点
／浮動小数点乗算／加算ユニット（ＭＡＵ）と、データ
選択ユニット（ＤＳＵ）と、ローカル・ロード・データ
・アドレス・ジェネレータと、ローカル・ストア・デー
タ・アドレス・ジェネレータと、ノードで実行される演
算用のオペランドと作業結果を保持するよう機能する３
２個のＧＰＲからなるセットとを含んでいる。このレジ
スタ・セットは汎用レジスタ・ファイル、略してＧＰＲ
Ｆと呼ぶ。その個々の処理要素とＧＰＲファイルとを示
すＰＥデータ・フロー編成の図は図１０に示す。

【００２８】３つのクラスの乗算／加算ユニットＭＡＵ
命令が体系化されているが、第１のクラスは１６×１６
単精度３２ビット固定小数点結果用であり、第２のクラ
スは３２×３２／複式１６×１６倍精度３２ビット固定
小数点結果用であり、第３のクラスは単精度実浮動小数
点乗算加算結果用である。アレイ・プロセッサは、上記
のオプションのいずれか１つをサポートして、完全アー
キテクチャのサブセットとして動作するように設計する
ことができる。６４ビットの結果（または２つの３２ビ
ットの結果）の場合、下位半分の３２ビットがバスＱを
使用する。１６×１６ＭＡＵを備えた実施態様の場合の
み、Ｑバスを使用しない。３２ビット・アレイ・プロセ
ッサでは、３２×３２ＭＡＵ命令はその結果をローカル
ＧＰＲＦに書き戻すことしかできない。３２×３２ＭＡ
Ｕ命令では宛先フィールドが使用されず、第２の３２ビ
ットの結果は指定されたターゲット・レジスタの次のタ
ーゲット・レジスタに書き戻される。３２×３２ＭＡＵ
命令用のクラスタ化通信と最近隣インタフェースの使用
は、６４ビット最近隣ポートを備えた将来のマシン用に
予約されている。ただし、処理要素のフローはアレイ・
ノード間の通信に必要なスイッチ論理回路のいずれも含
まず、その論理回路はノード自体に固有のものであるこ
とに留意されたい。その考え方は、ＰＥ用の論理回路は
マクロとして設計することができ、アレイを構築するた
めに繰り返し使用することができるというものである。
これは、６つの未接続ＧＰＲＦ入力ポートを備えて設計
されるＰＥ向けであり、そのＰＥが含まれる特定のノー
ドに適した方法でこれらの入力が接続されるようにする
ものである。図１０は、ＡＬＵ、ＭＡＵ、ＤＳＵからの
典型的な直接接続（破線で示す）を示している。このよ
うな直接接続をより完全に示す図は、単一ＰＥノード・
フロー図（図４）に示されている。

【００２９】ＧＰＲＦ入力ポートは、二重ＰＥノード・
フロー図（図５）に示すように多重化することもでき
る。

【００３０】データ選択ユニット（ＤＳＵ）１１０ｂ
は、レジスタ間移動とデータ・シフト操作で使用する。
移動の宛先が別の移動のソースでもある（レジスタがＰ
Ｅ対間の共通宛先になる）ような特定の状況では、スワ
ップ機能を実施することができる。ＤＳＵの一般形式に
ついては図１１に示す。

【００３１】データ・セレクタ内の論理回路は、命令に
応じてソースから宛先に渡すデータを変更するために使
用する。たとえば、ソース・レジスタから１バイトを選
択し、次にそれを符号拡張形式で宛先にロードする場
合、データ・セレクタはバイト位置合せ機能と符号拡張
機能を実行する。この種の操作の単純な例は図１２に示
す。図１２の例では、ソースのバイトＢが宛先レジスタ
の下位８ビットに置かれ、残りの宛先ビットはすべてこ
のバイトの符号ビットと同じ値にされる。

【００３２】データ・セレクタは、ワード移動、ハーフ
ワード移動、バイト移動の３つのタイプのデータ選択／
移動操作を提供する。これらのタイプの移動の範囲内で
所与の変形がサポートされる。ワード移動ハーフワード移動任意のソース・ハーフワードから任意の宛先ハーフワー
ドへ任意のソース・ハーフワードからワードの下位半分へ上位ハーフワードは強制的にすべて０になる上位ハーフワードは強制的にすべて１になる上位ハーフワードは強制的に下位ハーフワードの符号値
になるバイト移動任意のソース・バイトから任意の宛先バイトへ任意のソース・バイトから下位宛先バイトへ上位バイトは強制的にすべて０になる上位バイトは強制的にすべて１になる上位バイトは強制的に下位バイトの符号値になる上位または下位ソース・バイト対（ｂ０とｂ１、ｂ２と
ｂ３）から宛先バイトｂ１とｂ３へ上位バイトは強制的にすべて０になる上位バイトは強制的にすべて１になる上位バイトは強制的に下位バイトの符号値になる

【００３３】ＰＥ実行ユニットが演算を実行すると、結
果の出力（Ｐ、Ｕ、またはＴ）は、実行ユニットと同じ
ＰＥ内（ローカル・レジスタ）、対のＰＥ内（二重クラ
スタＰＥノード内）、または直接接続ＰＥ内のいずれか
に存在する可能性のある宛先レジスタに送られる。いず
れの場合も図２のターゲット・レジスタ１２６は、その
命令の宛先フィールド１２０とともに指定される。表１
および表２は、現在定義されている宛先オプションを列
挙したものである。このフィールドは特定の命令に合わ
せて変更することができる。サロゲート命令の場合は、
１つの実行ユニットだけが最近隣インタフェースを使用
するように指定される。

【００３４】次に、折返しアレイ２次元（２Ｄ）離散余
弦変換について説明する。

【００３５】対称離散余弦変換（ＤＣＴ）の信号フロー
の図を図１３に示す。ただし、出力は２Ｃ（ｕ）／Ｎで
スケーリングされ、ｕ＝０の場合はＣ（ｕ）＝１／ｓｑ
ｒｔ２であり、それ以外の場合はＣ（ｕ）＝１であるこ
とに留意されたい。また、ｃ＃ｘ＝ｃｏｓ（＃π／１
６）であり、１／（４ｓｑｒｔ２）＝ｃ４ｘ／４である
ことに留意されたい。なお、「ｓｑｒｔ２」は２の平方
根（ルート２）を表す。

【００３６】２−ＤＤＣＴの場合、列の１−ＤＤＣ
Ｔに続いて行の１−ＤＤＣＴを行うことによって、２
−ＤＤＣＴの結果が得られる。最近隣ポートによる乗
算累積およびレジスタ転送手続きが使用される。バタフ
ライ結果は１６ビットであり、最近隣ポートは３２ビッ
トであるので、それぞれのサイクルではＰＥ間で偶数と
奇数両方のバタフライ値を送ることができる。各ＰＥの
複式１６×１６乗算器により、同じ４つのサイクルで４
列の１−ＤＤＣＴの偶数部分と奇数部分の両方を計算
することができる。列の１−ＤＤＣＴ式は表３に示
す。以下のリストの小文字「ｚ」は、処理中の列番号を
表している。図１４はバタフライ・サロゲートの実行を
示している。図１５は乗算加算およびＤＳＵ送信サロゲ
ートの第１の実行を示している。図１６は乗算加算およ
びＤＳＵ送信サロゲートの第２の実行を示している。図
１７は乗算加算およびＤＳＵ送信サロゲートの第３の実
行を示している。図１８は乗算加算およびＤＳＵ送信サ
ロゲートの第４の実行を示している。図１９はクラスタ
化プロセッサ要素宛先サロゲートでのバタフライの実行
を示している。

【００３７】さらに４サイクルで８列の１−ＤＤＣＴ
がすべて終了する。出力のスケーリングはいくつかの既
知の方法で行うことができるので、ここでは詳しく説明
しない。手続きは続いて行値に関する１−ＤＤＣＴを
実行する。まず、ハーフワード・バタフライ・サロゲー
ト命令がすべての行バタフライ値を生成し、その値を図
１９に示すパターンにする。この場合、Ａｚ〜Ｈｚの
「ｚ」は列番号ではなく行番号を表している。ただし、
ハーフワード・バタフライ命令がその結果をローカル・
レジスタではなく対のＰＥのレジスタに送ることに留意
されたい。これは、データが係数に揃うようにするため
に使用する二重ＰＥ間の通信操作である。Ａｚ＝ｆ０ｚ＋ｆ７ｚＢｚ＝ｆ１ｚ＋ｆ６ｚＣｚ＝ｆ２ｚ＋ｆ５ｚＤｚ＝ｆ３ｚ＋ｆ４ｚＥｚ＝ｆ３ｚ−ｆ４ｚＦｚ＝ｆ２ｚ−ｆ５ｚＧｚ＝ｆ１ｚ−ｆ６ｚＨｚ＝ｆ０ｚ−ｆ７ｚ

【００３８】次に、一連の８回の乗算加算送信操作が完
了し、続いてスケーリング（シフト）操作が行われて２
−ＤＤＣＴを終結する。ただし、行については、列に
ついて行ったのとは異なる順序で行われることに留意さ
れたい。偶数行については第１の組の４回の３２乗算操
作を行った後、奇数行について第２の組の４回の３２乗
算を行う。第１の１−ＤＤＣＴでは、まず列０〜３に
ついて行われ、続いて列４〜７について行われる。最終
結果は、８×８アレイ全体について２−ＤＤＣＴを実
施した場合と同じになる。ＪＰＥＧおよびＭＰＥＧアル
ゴリズムでは、２−ＤＤＣＴに続いて量子化ステップ
が行われるが、その場合、スケーリング・ステップを量
子化ステップに含めることができる。８×８の２−Ｄ
ＤＣＴ（スケーリングを除く）のサイクル総数は１８サ
イクルになる。

【００３９】問題とその解決方法を要約すると以下の通
りである。１．複数の処理要素からなるアレイ内の処理要素間に待
ち時間の短いプログラム可能な通信機構を設ける機能実行ユニットからの結果の宛先指定は、常時ローカ
ル・プロセッサの記憶域（レジスタ・ファイル）から任
意の直接接続プロセッサの記憶域（レジスタ・ファイ
ル）に変更される。２．複数の処理要素からなるアレイ内のパイプライン待ち時間ゼロで処理要素間で結果をやりとりするため、
処理要素のアレイ内で計算をパイプライン化することが
できる。３．クラスタ化処理要素間の通信クラスタ化処理要素を含めるための特殊データ選択ユニ
ット命令と直接接続宛先指定の拡張により、クラスタ化
処理要素間で待ち時間ゼロの通信が可能になり、相互接
続されたアレイ全体でパイプライン化できる能力が得ら
れる。

【００４０】表１最近隣結果宛先（Ｘの代わりにＰ／Ｕ／Ｓを使用する）宛先単一ＰＥのアクション二重ＰＥのアクション００００ローカルＧＰＲＦレジスタ←ＸローカルＧＰＲＦレジスタ←Ｘ０００１ローカルＧＰＲＦレジスタ←Ｘ置換ＰＥのＧＰＲＦレジスタ←Ｘ００１０ハイパーキューブ補数ＰＥハイパーキューブ補数ＰＥＧＰＲＦレジスタ←ＸＧＰＲＦレジスタ←Ｘ００１１クラスタ化宛先用に予約クラスタ化宛先用に予約：クラスタ化宛先用に予約クラスタ化宛先用に予約０１１１クラスタ化宛先用に予約クラスタ化宛先用に予約１０００・Ｗ／Ｎ出力ポート・Ｎ／Ｗ出力ポート北 ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート南ＸのＳ／Ｅ ←ポート南ＸｔのＳ／Ｅ・Ｗ／Ｎ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート南ＸｂのＥ／Ｓ１００１予約予約北（例：８−ＮＮ：ＮＥポート）（例：８−ＮＮ：ＮＥポート）東１０１０・Ｓ／Ｅ出力ポート・Ｅ／Ｓ出力ポート東 ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート西ＸのＷ／Ｎ ←ポート西ＸｔのＷ／Ｎ・Ｓ／Ｅ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート西ＸｂのＮ／Ｗ１０１１予約予約南（例：８−ＮＮ：ＳＥポート）（例：８−ＮＮ：ＳＥポート）東１１００・Ｓ／Ｅ出力ポート・Ｓ／Ｅ出力ポート南 ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート北ＸのＷ／Ｎ ←ポート北ＸｔのＮ／Ｗ・Ｅ／Ｓ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート北ＸｂのＷ／Ｎ１１０１予約予約南（例：８−ＮＮ：ＳＷポート）（例：８−ＮＮ：ＳＷポート）西１１１０・Ｗ／Ｎ出力ポート・Ｗ／Ｎ出力ポート西 ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート東ＸのＳ／Ｅ ←ポート東ＸｔのＥ／Ｓ・Ｎ／Ｗ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート東ＸｂのＳ／Ｅ１１１１予約予約北（例：８−ＮＮ：ＮＷポート）（例：８−ＮＮ：ＮＷポート）西注：単一ＰＥノードは２つの最近隣ポートを有し、二
重ＰＥノードは４つのこのようなポートを有する。これ
らの使い方については、図６と図７にそれぞれ示されて
いる。ＸｔとＸｂという表記は、図７に示す二重ＰＥノ
ードの「上部」ＰＥと「下部」ＰＥを指している。

【００４１】表２隣接ＰＥ結果宛先（Ｘの代わりにＰ／Ｕ／Ｓを使用する）宛先単一ＰＥのアクション二重ＰＥのアクション００００ローカルＧＰＲＦレジスタ←ＸローカルＧＰＲＦレジスタ←Ｘ０００１ローカルＧＰＲＦレジスタ←Ｘ置換ＰＥのＧＰＲＦレジスタ←Ｘ００１０ハイパーキューブ補数ＰＥハイパーキューブ補数ＰＥＧＰＲＦレジスタ←ＸＧＰＲＦレジスタ←Ｘ００１１クラスタ化宛先用に予約クラスタ化宛先用に予約：クラスタ化宛先用に予約クラスタ化宛先用に予約０１１１クラスタ化宛先用に予約クラスタ化宛先用に予約１０００偶数行ＰＥ偶数行ＰＥ北・Ｗ／Ｎ出力ポート・Ｎ／Ｗ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート北ＸのＷ／Ｎ ←ポート北ＸｔのＮ／Ｗ・Ｗ／Ｎ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート北ＸｂのＷ／Ｎ奇数行ＰＥ奇数行ＰＥ・Ｓ／Ｅ出力ポート・Ｓ／Ｅ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート南ＸのＳ／Ｅ ←ポート南ＸｔのＳ／Ｅ・Ｅ／Ｓ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート南ＸｂのＥ／Ｓ１００１予約予約北（例：８−ＮＮ：ＮＥポート）（例：８−ＮＮ：ＮＥポート）東１０１０偶数列ＰＥ偶数列ＰＥ東・Ｓ／Ｅ出力ポート・Ｅ／Ｓ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート東ＸのＳ／Ｅ ←ポート東ＸｔのＥ／Ｓ・Ｓ／Ｅ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート東ＸｂのＳ／Ｅ奇数列ＰＥ奇数列ＰＥ・Ｗ／Ｎ出力ポート・Ｗ／Ｎ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート東ＸのＷ／Ｎ ←ポート東ＸｔのＷ／Ｎ・Ｎ／Ｗ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート東ＸｂのＮ／Ｗ１０１１予約予約南（例：８−ＮＮ：ＳＥポート）（例：８−ＮＮ：ＳＥポート）東１１００偶数行ＰＥ偶数行ＰＥ南・Ｓ／Ｅ出力ポート・Ｓ／Ｅ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート南ＸのＳ／Ｅ ←ポート南ＸｔのＳ／Ｅ・Ｅ／Ｓ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート南ＸｂのＥ／Ｓ奇数行ＰＥ奇数行ＰＥ・Ｗ／Ｎ出力ポート・Ｎ／Ｗ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート北ＸのＷ／Ｎ ←ポート北ＸｔのＮ／Ｗ・Ｗ／Ｎ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート北ＸｂのＷ／Ｎ１１０１予約予約南（例：８−ＮＮ：ＳＷポート）（例：８−ＮＮ：ＳＷポート）西１００１偶数列ＰＥ偶数列ＰＥ西・Ｗ／Ｎ出力ポート・Ｗ／Ｎ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート西ＸのＷ／Ｎ ←ポート西ＸｔのＷ／Ｎ・Ｎ／Ｗ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート西ＸｂのＮ／Ｗ奇数列ＰＥ奇数列ＰＥ・Ｓ／Ｅ出力ポート・Ｅ／Ｓ出力ポート ←ローカルＸ ←ローカルＸｔ・ＴＲＧＴレジスタ・上部ＰＥのＴＲＧＴレジスタ ←ポート東ＸのＳ／Ｅ ←ポート東ＸｔのＥ／Ｓ・Ｓ／Ｅ出力ポート ←ローカルＸｂ・下部ＰＥのＴＲＧＴレジスタ ←ポート東ＸｂのＳ／Ｅ１１１１予約予約北（例：８−ＮＮ：ＮＷポート）（例：８−ＮＮ：ＮＷポート）西注：単一ＰＥノードは２つの最近隣ポートを有し、二
重ＰＥノードは４つのこのようなポートを有する。これ
らの使い方については、図６と図７にそれぞれ示されて
いる。ＸｔとＸｂという表記は、図７に示す複式ＰＥノ
ードの「上部」ＰＥと「下部」ＰＥを指している。

【００４２】表３１．各列のバタフライ計算（図１４）・Az=Pz0+Pz7 ・Bz=Pz1+Pz6 ・Cz=Pz2+Pz5 ・Dz=Pz3+Pz4 ・Ez=Pz3-Pz4 ・Fz=Pz2-Pz5 ・Gz=Pz1-Pz6 ・Hz=Pz0-Pz7 ２．列ｚ＝０〜３の最初の３２回の乗算、バタフライ結
果の列０〜３対を南へ送信（図１５）・fz0-1=Az(c4x) ・fz2-1=Bz(c6x) ・fz4-1=Cz(-c4x) ・fz6-1=Dz(-c6x) ・fz1-1=Ez(c7x) ・fz3-1=Fz(-cx) ・fz5-1=Gz(-cx) ・fz7-1=Hz(c7x) ・(Az,Hz), (Bz,Gz), (Cz,Fz), (Dz,Ez)を南ＰＥに送信
する３．列ｚ＝０〜３の２回目の３２回の乗算、バタフライ
結果の列０〜３対を南へ送信（図１６）・fz0-2=(fz0-1=Az(c4x))+Dz(c4x) ・fz2-2=(fz2-1=Bz(c6x))+Az(c2x) ・fz4-2=(fz4-1=Cz(-c4x))+Bz(-c4x) ・fz6-2=(fz6-1=Dz(-c6x))+Cz(c2x) ・fz1-2=(fz1-1=Ez(c7x))+Fz(c5x) ・fz3-2=(fz3-1=Fz(-cx))+Gz(-c7x) ・fz5-2=(fz5-1=Gz(-cx))+Hz(c5x) ・fz7-2=(fz7-1=Hz(c7x))+Ez(-cx) ・(Az,Hz), (Bz,Gz), (Cz,Fz), (Dz,Ez)を南ＰＥに送信
する４．列ｚ＝０〜３の３回目の３２回の乗算、バタフライ
結果の列０〜３対を南へ送信（図１７）・fz0-3=(fz0-2=Az(c4x)+Dz(c4x))+Cz(c4x) ・fz2-3=(fz2-2=Bz(c6x)+Az(c2x))+Dz(-c2x) ・fz4-3=(fz4-2=Cz(-c4x)+Bz(-c4x))+Az(c4x) ・fz6-3=(fz6-2=Dz(-c6x)+Cz(c2x))+Bz(-c2x) ・fz1-3=(fz1-2=Ez(c7x)+Fz(c5x))+Gz(c3x) ・fz3-3=(fz3-2=Fz(-cx)+Gz(-c7x))+Hz(c3x) ・fz5-3=(fz5-2=Gz(-cx)+Hz(c5x))+Ez(c3x) ・fz7-3=(fz7-2=Hz(c7x)+Ez(-cx))+Fz(c3x) ・(Az,Hz), (Bz,Gz), (Cz,Fz), (Dz,Ez)を南ＰＥに送信
する５．列ｚ＝０〜３の４回目の３２回の乗算、バタフライ
結果の列０〜３対を南へ送信（図１８）・fz0-4=(fz0-3=Az(c4x)+Dz(c4x)+Cz(c4x))+Bz(c4x) ・fz2-4=(fz2-3=Bz(c6x)+Az(c2x)+Dz(-c2x))+Cz(-c6x) ・fz4-4=(fz4-3=Cz(-c4x)+Bz(-c4x)+Az(c4x))+Dz(c4x) ・fz6-4=(fz6-3=Dz(-c6x)+Cz(c2x)+Bz(-c2x))+Az(c6x) ・fz1-4=(fz1-3=Ez(c7x)+Fz(c5x)+Gz(c3x))+Hz(cx) ・fz3-4=(fz3-3=Fz(-cx)+Gz(-c7x)+Hz(c3x))+Ez(-c5x) ・fz5-4=(fz5-3=Gz(-cx)+Hz(c5x)+Ez(c3x))+Fz(c7x) ・fz7-4=(fz7-3=Hz(c7x)+Ez(-cx)+Fz(c3x))+Gz(-c5x) ・(Az,Hz), (Bz,Gz), (Cz,Fz), (Dz,Ez)を南ＰＥに送信
する

【００４３】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４４】（１）それぞれが、ソース・レジスタを示
す第１の情報と、実行ユニット操作を示す第２の情報
と、実行ユニットから出力ポートへの経路指定を示す第
３の情報と、入力ポートからターゲット・レジスタへの
経路指定を示す第４の情報とを含む複数の命令を格納す
る記憶手段と、それぞれが命令バスによって前記記憶手
段に結合され、前記命令バスを介して同報通信された命
令を受信する複数の処理要素とを含み、前記処理要素の
それぞれが、前記同報通信された命令を受信するために
前記命令バスに結合された命令レジスタと、前記命令レ
ジスタに結合され、ターゲット・レジスタおよび第１の
オペランドを格納する第１のオペランド・レジスタを含
むレジスタ・ファイルと、前記命令レジスタに結合され
た実行ユニットと、前記処理要素の第１および第２の後
続処理要素にそれぞれ結合された出力を有する、少なく
とも第１および第２の出力ポートと、前記命令レジスタ
に結合されたスイッチ手段と、前記処理要素の第１およ
び第２の先行処理要素にそれぞれ結合された入力を有す
る、少なくとも第１および第２の入力ポートであって、
第１の入力ポートが第１の先行処理要素から第１の次オ
ペランドを受け取れるようになっており、第２の入力ポ
ートが第２の先行処理要素から第２の次オペランドを受
け取れるようになっている入力ポートとを含み、前記第
１の情報が、前記実行ユニットに前記第１のオペランド
を供給するために前記第１のオペランド・レジスタと前
記実行ユニットとの選択結合を制御し、前記第２の情報
が、結果オペランドを生成するために前記第１のオペラ
ンドについて操作を実行するように前記実行ユニットを
制御し、前記第３の情報が、第１の後続処理要素または
第２の後続処理要素に前記結果オペランドをそれぞれ供
給するために第１の出力ポートまたは第２の出力ポート
のいずれかに前記実行ユニットを選択的に結合するよう
に前記スイッチ手段を制御し、前記第４の情報が、前記
ターゲット・レジスタを前記第１の入力ポートに結合し
て前記第１の次オペランドを前記ターゲット・レジスタ
に供給するか、または前記ターゲット・レジスタを前記
第２の入力ポートに結合して前記第２の次オペランドを
前記ターゲット・レジスタに供給するために、前記スイ
ッチ手段を制御し、それにより、単一命令複数データ処
理を実行できることを特徴とする、データ処理システ
ム。（２）前記第１の後続処理要素が、前記同報通信された
命令を受信するために前記命令バスに結合された第２の
命令レジスタと、前記命令レジスタに結合され、第２の
ターゲット・レジスタを含む第２のレジスタ・ファイル
と、前記結果オペランドを受信するために前記第１の出
力ポートに結合された受信側ポートを含む、少なくとも
２つの入力ポートと、前記第２の命令レジスタに結合さ
れた第２のスイッチ手段とを含み、前記第４の情報が前
記第２のターゲット・レジスタに前記結果オペランドを
供給するために前記第２のターゲット・レジスタを前記
受信側入力ポートに選択的に結合するように前記第２の
スイッチ手段を制御する、上記（１）に記載のデータ処
理システム。（３）前記命令レジスタに結合された少なくとも２つの
実行ユニットをさらに含み、前記第１の情報が、そのう
ちの第１の実行ユニットに前記第１のオペランドを供給
するために前記第１の実行ユニットと前記第１のオペラ
ンド・レジスタの選択結合を制御し、前記第２の情報
が、第１の結果オペランドを生成するために前記第１の
オペランドについて操作を実行するように前記第１の実
行ユニットを制御し、前記第３の情報が、第１の後続処
理要素または第２の後続処理要素に前記第１の結果オペ
ランドをそれぞれ供給するために第１の出力ポートまた
は第２の出力ポートのいずれかに前記第１の実行ユニッ
トを選択的に結合するように前記スイッチ手段を制御す
ることを特徴とする、上記（１）に記載のデータ処理シ
ステム。（４）前記記憶手段および前記命令バスに結合され、前
記記憶手段から命令を取り出して、それを前記複数の処
理要素に同報通信するための命令順序付け手段をさらに
含むことを特徴とする、上記（１）に記載のデータ処理
システム。（５）それぞれが、ソース・レジスタを示す第１の情報
と、実行ユニット操作を示す第２の情報と、実行ユニッ
トから出力ポートへの経路指定を示す第３の情報と、入
力ポートからターゲット・レジスタへの経路指定を示す
第４の情報とを含む複数の命令を取り出すステップと、
複数の処理要素のそれぞれに前記命令の１つを同報通信
するステップと、第１のオペランドを供給するために、
第１のオペランド・レジスタと前記処理要素のそれぞれ
の実行ユニットとの選択結合を前記第１の情報により制
御するステップと、前記処理要素のそれぞれで結果オペ
ランドを生成するために前記第１のオペランドについて
操作を実行するように前記第２の情報により前記実行ユ
ニットを制御するステップと、第１の後続処理要素また
は第２の後続処理要素に前記結果オペランドをそれぞれ
供給するために第１の出力ポートまたは第２の出力ポー
トのいずれかに前記実行ユニットを選択的に結合するよ
うに前記第３の情報によりそれぞれの処理システム内の
スイッチ手段を制御するステップと、前記ターゲット・
レジスタを第１の入力ポートに結合して第１の次オペラ
ンドを前記ターゲット・レジスタに供給するか、または
前記ターゲット・レジスタを第２の入力ポートに結合し
て第２の次オペランドを前記ターゲット・レジスタに供
給するように前記第４の情報により制御するステップと
を含み、それにより、単一命令複数データ処理を実行で
きることを特徴とする、データ処理方法。

【図面の簡単な説明】

【図１】複数制御ユニットの高レベル・アレイ・マシン
編成図である。

【図２】本発明による通信用の命令形式例を示す図であ
る。

【図３】本発明による通信用の第２の命令形式例を示す
図である。

【図４】接続インタフェースを備えた単一プロセッサ要
素（対角）ノード・フローを示す図である。

【図５】接続インタフェースを備えた複式プロセッサ要
素ノード・フローを示す図である。

【図６】単一プロセッサ要素ノードにおける最近隣通信
例を示す図である。

【図７】複式プロセッサ要素ノードにおける最近隣通信
例を示す図である。

【図８】隣接プロセッサ要素列通信の論理および折返し
メッシュ表現を示す図である。

【図９】隣接プロセッサ要素行通信の論理および折返し
メッシュ表現を示す図である。

【図１０】処理要素のフロー編成図であって、個々の処
理要素の流れを示し、そのすべての算術機構と、スイッ
チ論理回路およびプロセッサ要素対に接続するために検
出すべき点とを示す図である。

【図１１】データ選択ユニットの一般形式図である。

【図１２】使用するデータ選択ユニットの例を示す図で
あって、データ・セレクタ論理回路によって実行される
ように、ソースのバイトＢが宛先レジスタの下位８ビッ
トに置かれ、残りのすべての宛先ビットが強制的にその
バイトの符号と同じになることを示す図である。

【図１３】折返しアレイ高速偶数／奇数対称１−ＤＤ
ＣＴを示す流れ図である。

【図１４】バタフライ・サロゲートの実行を示す図であ
る。

【図１５】乗算加算およびＤＳＵ送信サロゲートの第１
の実行を示す図である。

【図１６】乗算加算およびＤＳＵ送信サロゲートの第２
の実行を示す図である。

【図１７】乗算加算およびＤＳＵ送信サロゲートの第３
の実行を示す図である。

【図１８】乗算加算およびＤＳＵ送信サロゲートの第４
の実行を示す図である。

【図１９】クラスタ化プロセッサ要素宛先サロゲートを
備えたバタフライの実行を示す図である。

【符号の説明】

１００グローバル・メモリ１０２ローカル・メモリ１０３制御ユニット１０４分散制御ＰＥ１０６命令バッファ（ＩＭＲＹ）１０８汎用レジスタ・ファイル（ＧＰＲＦ）１１０機能実行ユニット（ＦＮＳ）１１２通信機構（ＣＯＭ）１１４命令バス１１６命令デコード・レジスタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ラリー・ディー・ラルセンアメリカ合衆国27609 ノース・カロライナ州レイリーエモリー・レーン 912 (72)発明者クレア・ジョン・グロスナーアメリカ合衆国27707 ノース・カロライナ州ダラムウォーリングフォード・プレース 4144 (72)発明者スタマティス・ヴァッシリアディスオランダ2726 ズーテルメールケンプホーフェ91 ピエール

Claims

【特許請求の範囲】

【請求項１】それぞれが、ソース・レジスタを示す第１
の情報と、実行ユニット操作を示す第２の情報と、実行
ユニットから出力ポートへの経路指定を示す第３の情報
と、入力ポートからターゲット・レジスタへの経路指定
を示す第４の情報とを含む複数の命令を格納する記憶手
段と、それぞれが命令バスによって前記記憶手段に結合され、
前記命令バスを介して同報通信された命令を受信する複
数の処理要素とを含み、前記処理要素のそれぞれが、前記同報通信された命令を受信するために前記命令バス
に結合された命令レジスタと、前記命令レジスタに結合され、ターゲット・レジスタお
よび第１のオペランドを格納する第１のオペランド・レ
ジスタを含むレジスタ・ファイルと、前記命令レジスタに結合された実行ユニットと、前記処理要素の第１および第２の後続処理要素にそれぞ
れ結合された出力を有する、少なくとも第１および第２
の出力ポートと、前記命令レジスタに結合されたスイッチ手段と、前記処理要素の第１および第２の先行処理要素にそれぞ
れ結合された入力を有する、少なくとも第１および第２
の入力ポートであって、第１の入力ポートが第１の先行
処理要素から第１の次オペランドを受け取れるようにな
っており、第２の入力ポートが第２の先行処理要素から
第２の次オペランドを受け取れるようになっている入力
ポートとを含み、前記第１の情報が、前記実行ユニットに前記第１のオペ
ランドを供給するために前記第１のオペランド・レジス
タと前記実行ユニットとの選択結合を制御し、前記第２の情報が、結果オペランドを生成するために前
記第１のオペランドについて操作を実行するように前記
実行ユニットを制御し、前記第３の情報が、第１の後続処理要素または第２の後
続処理要素に前記結果オペランドをそれぞれ供給するた
めに第１の出力ポートまたは第２の出力ポートのいずれ
かに前記実行ユニットを選択的に結合するように前記ス
イッチ手段を制御し、前記第４の情報が、前記ターゲット・レジスタを前記第
１の入力ポートに結合して前記第１の次オペランドを前
記ターゲット・レジスタに供給するか、または前記ター
ゲット・レジスタを前記第２の入力ポートに結合して前
記第２の次オペランドを前記ターゲット・レジスタに供
給するために、前記スイッチ手段を制御し、それにより、単一命令複数データ処理を実行できること
を特徴とする、データ処理システム。
【請求項２】前記第１の後続処理要素が、前記同報通信された命令を受信するために前記命令バス
に結合された第２の命令レジスタと、前記命令レジスタに結合され、第２のターゲット・レジ
スタを含む第２のレジスタ・ファイルと、前記結果オペランドを受信するために前記第１の出力ポ
ートに結合された受信側ポートを含む、少なくとも２つ
の入力ポートと、前記第２の命令レジスタに結合された第２のスイッチ手
段とを含み、前記第４の情報が前記第２のターゲット・レジスタに前
記結果オペランドを供給するために前記第２のターゲッ
ト・レジスタを前記受信側入力ポートに選択的に結合す
るように前記第２のスイッチ手段を制御する、請求項１に記載のデータ処理システム。
【請求項３】前記命令レジスタに結合された少なくとも
２つの実行ユニットをさらに含み、前記第１の情報が、
そのうちの第１の実行ユニットに前記第１のオペランド
を供給するために前記第１の実行ユニットと前記第１の
オペランド・レジスタの選択結合を制御し、前記第２の情報が、第１の結果オペランドを生成するた
めに前記第１のオペランドについて操作を実行するよう
に前記第１の実行ユニットを制御し、前記第３の情報が、第１の後続処理要素または第２の後
続処理要素に前記第１の結果オペランドをそれぞれ供給
するために第１の出力ポートまたは第２の出力ポートの
いずれかに前記第１の実行ユニットを選択的に結合する
ように前記スイッチ手段を制御することを特徴とする、
請求項１に記載のデータ処理システム。
【請求項４】前記記憶手段および前記命令バスに結合さ
れ、前記記憶手段から命令を取り出して、それを前記複
数の処理要素に同報通信するための命令順序付け手段を
さらに含むことを特徴とする、請求項１に記載のデータ
処理システム。
【請求項５】それぞれが、ソース・レジスタを示す第１
の情報と、実行ユニット操作を示す第２の情報と、実行
ユニットから出力ポートへの経路指定を示す第３の情報
と、入力ポートからターゲット・レジスタへの経路指定
を示す第４の情報とを含む複数の命令を取り出すステッ
プと、複数の処理要素のそれぞれに前記命令の１つを同報通信
するステップと、第１のオペランドを供給するために、第１のオペランド
・レジスタと前記処理要素のそれぞれの実行ユニットと
の選択結合を前記第１の情報により制御するステップ
と、前記処理要素のそれぞれで結果オペランドを生成するた
めに前記第１のオペランドについて操作を実行するよう
に前記第２の情報により前記実行ユニットを制御するス
テップと、第１の後続処理要素または第２の後続処理要素に前記結
果オペランドをそれぞれ供給するために第１の出力ポー
トまたは第２の出力ポートのいずれかに前記実行ユニッ
トを選択的に結合するように前記第３の情報によりそれ
ぞれの処理システム内のスイッチ手段を制御するステッ
プと、前記ターゲット・レジスタを第１の入力ポートに結合し
て第１の次オペランドを前記ターゲット・レジスタに供
給するか、または前記ターゲット・レジスタを第２の入
力ポートに結合して第２の次オペランドを前記ターゲッ
ト・レジスタに供給するように前記第４の情報により制
御するステップとを含み、それにより、単一命令複数データ処理を実行できること
を特徴とする、データ処理方法。