JP2001523023A

JP2001523023A - ｉＶＬＩＷのＰＥ間通信を用いた効率的な同期ＭＩＭＤ動作のための方法および装置

Info

Publication number: JP2001523023A
Application number: JP2000519833A
Authority: JP
Inventors: ジェラルドジーピーカネック; トーマスエルドラベンストット; ジュアンギラーモレビラ; デビッドカールストルーベ; グレイスンモーリス
Original assignee: ボプスインコーポレイテッド
Priority date: 1997-11-07
Filing date: 1998-11-06
Publication date: 2001-11-20
Anticipated expiration: 2018-11-06
Also published as: USRE41703E1; CN100380313C; US6446191B1; EP1029266B1; DE69837791T2; US6151668A; EP1029266A4; CA2310584A1; JP4156794B2; KR20010031884A; ATE362623T1; DE69837791D1; IL135953A0; CN1278342A; EP1029266A1; WO1999024903A1

Abstract

(57)【要約】【解決手段】通信ハザードが効率的な方法で除去される複数の並列プロセッサ（ＰＥ）を使用したＳＩＭＤマシン。間接的超長命令語命令メモリ（ＶＩＭ）が実行命令および区切り符号命令と共に使用される。どのＰＥにそのＶＩＭをロードさせるかを制御するためにマスキング機構が使用できる。さらに、受信動作モデルが使用されることが好ましい。一態様では、各ＰＥが、どのＰＥから受け取るかを選択するスイッチを制御するように動作する。本発明は、ハードウェアのコストおよび複雑さを削減すると同時に、ＳＩＭＤマシンならびにＭＩＭＤマシンの最高の特性を維持し、通信待ち時間を最小限に抑える並列アルゴリズムを実行するためのよりよいマシン編成を対象とする。本発明は、ＭＩＭＤの計算自主性レベルをＳＩＭＤのｉＶＬＩＷ（間接的超長命令語）処理要素に提供すると同時に、ＳＩＭＤマシン編成内で使用される単一制御スレッドを維持する。したがって本手法は、同期ＭＩＭＤ（ＳＭＩＭＤ）という用語を用いて記述される。

Description

【発明の詳細な説明】

【０００１】関連出願本発明は、「ＭｅｔｈｏｄｓａｎｄＡｐｐａｒａｔｕｓｆｏｒＥｆｆ
ｉｃｉｅｎｔＳｙｎｃｈｒｏｎｏｕｓＭＩＭＤＶＬＩＷＣｏｍｍｕｎｉ
ｃａｔｉｏｎ」という名称で１９９７年１１月７日に出願された、米国特許仮出
願第６０／０６４６１９号の特典を請求するものである。

【０００２】発明の分野所与の数の平行処理要素を伴う任意の単一命令多重データ・ストリーム（ＳＩ
ＭＤ）の場合、使用可能な並行処理要素または言い換えれば使用可能な計算リソ
ースを、効率的に使用することができないアルゴリズムが存在する。多重命令多
重データ・ストリーム（ＭＩＭＤ）クラスのマシンは、これらアルゴリズムの中
のいくつかをより効率的に実行するが、各プロセッサ上にある別の命令ストリー
ムをサポートするために追加のハードウェアが必要であり、密結合されたプログ
ラムの実施に伴う通信待ち時間により性能が低下する。本発明は、ハードウェア
のコストおよび複雑さを削減すると同時に、ＳＩＭＤマシンならびにＭＩＭＤマ
シンの最高の特性を維持し、通信待ち時間を最小限に抑えるこれらのアルゴリズ
ムを実行するためのよりよいマシン編成を対象とする。本発明は、ＭＩＭＤの計
算自律性レベルをＳＩＭＤのｉＶＬＩＷ（間接的超長命令語）処理要素に提供す
ると同時に、ＳＩＭＤマシン編成内で使用される単一制御スレッドを維持する。
したがって本発明は、同期ＭＩＭＤ（ＳＭＩＭＤ）という用語を用いて記述され
る。

【０００３】発明の背景主要な平行プログラミング・モデルには、ＳＩＭＤモデルおよびＭＩＭＤモデ
ルの２つがある。ＳＩＭＤモデルには、同期ロック・ステップ・モードで複数の
処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ−ＰＥ）を制御する単一のプ
ログラム・スレッドがある。それぞれのＰＥが、同じ命令を異なるデータ上で実
行する。これは、制御の複数のプログラム・スレッドが存在し、通信前に独立し
たプログラム・スレッドを同期させるための要件により、任意のプロセッサ間動
作が、複数プロセッサ間で通信を行うときに発生する待ち時間に対処しなければ
ならない、ＭＩＭＤモデルとは対照的である。ＳＩＭＤに伴う問題は、プロセッ
サ内に存在する使用可能な並行処理を、すべてのアルゴリズムが効率的に使用で
きるわけではないことである。異なるアルゴリズム内にある固有の並行処理の量
は異なっており、ＳＩＭＤマシン上で多彩なアルゴリズムを効率的に実施すると
きの難点に通じている。ＭＩＭＤマシンに伴う問題は、１つのアルゴリズムの処
理に関して協働するために、プロセッサを効率的に同期化させるときの難点につ
ながる、複数プロセッサ間での通信の待ち時間である。典型的には、各ＭＩＭＤＰＥは、ハードウェアがかなりの量になる可能性のある、独自の命令順序付け
機構を持たなければならないため、ＭＩＭＤマシンはＳＩＭＤマシンに比べて実
施のコストも多くなる。ＭＩＭＤマシンは、本質的に、独立した並行処理要素を
管理するために必要なプログラミング制御も、より複雑である。したがって、平
行処理要素が使用されるときに、多彩なコンテキストにおいて、いろいろなレベ
ルのプログラムの複雑さおよび通信待ち時間が発生する。以下でより詳細に論じ
るように、こうした問題を効率的に解決することが非常に有利である。

【０００４】発明の概要本発明は、１９９７年６月３０日出願の米国特許出願第０８／８８５３１０号
、１９９７年１０月１０日出願の米国第０８／９４９１２２号、１９９８年１０
月９日出願の米国第０９／１６９２５５号、１９９８年１０月９日出願の米国第
０９／１６９２５６号、および１９９８年１０月９日出願の米国第０９／１６９
０７２号、１９９７年１２月４日出願の「ＭｅｔｈｏｄａｎｄＡｐｐａｒａ
ｔｕｓｆｏｒＤｙｎａｍｉｃａｌｌｙＭｏｄｉｆｙｉｎｇＩｎｓｔｒｕ
ｃｔｉｏｎｓｉｎａＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏ
ｒｄＰｒｏｃｅｓｓｏｒ」という名称の仮出願第６０／０６７５１１号、１９
９７年１２月１８日出願の「ＭｅｔｈｏｄｓａｎｄＡｐｐａｒａｔｕｓｆ
ｏｒＳｃａｌａｂｌｅＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃ
ｔｕｒｅ」という名称の仮出願第６０／０６８０２１号、１９９８年１月１２日
出願の「ＭｅｔｈｏｄｓａｎｄＡｐｐａｒａｔｕｓｔｏＤｙｎａｍｉｃ
ａｌｌｙＥｘｐａｎｄｔｈｅＩｎｓｔｒｕｃｔｉｏｎＰｉｐｅｌｉｎｅ
ｏｆａＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄＰｒｏ
ｃｅｓｓｏｒ」という名称の仮出願第６０／０７１２４８号と、１９８８年１月
２８日出願の「ＭｅｔｈｏｄｓａｎｄＡｐｐａｒａｔｕｓｔｏＳｕｐｐ
ｏｒｔＣｏｎｄｉｔｉｏｎａｌＥｘｅｃｕｔｉｏｎｉｎａＶＬＩＷ−
ＢａｓｅｄＡｒｒａｙＰｒｏｃｅｓｓｏｒｗｉｔｈＳｕｂｗｏｒｄＥ
ｘｅｃｕｔｉｏｎ」という名称の仮出願第６０／０７２９１５号、１９９８年３
月１２日出願の「ＲｅｇｉｓｔｅｒＦｉｌｅＩｎｄｅｘｉｎｇＭｅｔｈｏ
ｄｓａｎｄＡｐｐａｒａｔｕｓｆｏｒＰｒｏｖｉｄｉｎｇＩｎｄｉｒ
ｅｃｔＣｏｎｔｒｏｌｏｆＲｅｇｉｓｔｅｒｉｎａＶＬＩＷＰｒ
ｏｃｅｓｓｏｒ」という名称の仮出願第６０／０７７７６６号、１９９８年７月
９日出願の「ＭｅｔｈｏｄｓａｎｄＡｐｐａｒａｔｕｓｆｏｒＩｎｓｔ
ｒｕｃｔｉｏｎＡｄｄｒｅｓｓｉｎｇｉｎＩｎｄｉｒｅｃｔＶＬＩＷ
Ｐｒｏｃｅｓｓｏｒｓ」という名称の仮出願第６０／０９２１３０号、１９９８
年１０月９日出願の「ＥｆｆｉｃｉｅｎｔＣｏｍｐｌｅｘＭｕｌｔｉｐｌｉ
ｃａｔｉｏｎａｎｄＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ（Ｆ
ＦＴ）ＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｎｔｈｅＭａｎＡｒｒａｙ」と
いう名称の仮出願第６０／１０３７１２号、および１９９８年１１月３日出願の
「ＭｅｔｈｏｄｓａｎｄＡｐｐａｒａｔｕｓｆｏｒＩｍｐｒｏｖｅｄ
ＭｏｔｉｏｎＥｓｔｉｍａｔｉｏｎｆｏｒＶｉｄｅｏＥｎｃｏｄｉｎｇ
」という名称の仮出願第＿＿＿＿＿号に、それぞれその様々な態様がより詳細に
記載されたＭａｎＡｒｒａｙアーキテクチャと共に使用されることが好ましく、
これらはすべて本発明の譲受人に譲渡され、完全に本発明に組み込まれる。

【０００５】本発明により、ＭａｎＡｒｒａｙのｉＶＬＩＷ（間接的超長命令語）と共に使
用するのに好適なＭａｎＡｒｒａｙプロセッサは、間接的超長命令語アーキテク
チャを提供するために、処理要素（ＰＥ）のスケーラブル配列のための配列制御
装置として動作するシーケンス・プロセッサ（ＳＰ）を有する配列プロセッサと
して実施される可能性がある。本発明による間接超長命令語（ｉＶＬＩＷ）は、
ＳＩＭＤ配列制御装置のシーケンス・プロセッサすなわちＳＰによって、ｉＶＬ
ＩＷ命令メモリ（ＶＩＭ）内で構成される可能性がある。ＶＩＭは各処理要素す
なわちＰＥ内に存在し、複数のｉＶＬＩＷを含むことが好ましい。１つのｉＶＬ
ＩＷがＶＩＭ内で構成された後、好ましい実施形態中では「ｉＶＬＩＷを実行す
る」ために、ＸＶと呼ばれる他のＳＰ命令がすべてのＰＥ内の同一のＶＩＭアド
レスでｉＶＬＩＷを同時に実行する。すべてのＰＥのＶＩＭが同じ命令を含んで
いる場合、ＳＩＭＤ動作が発生する。ＸＶ命令と、各ＰＥ内に存在する単一の同
一ｉＶＬＩＷとの間には、１対１のマッピングが存在する。

【０００６】ＭａｎＡｒｒａｙ上で実行中の一定アルゴリズムの効率を上げるために、ＶＬ
ＩＷ実行（ＸＶ）命令によって開始される間接的実行及び複数のＰＥ内の同じＶ
ＬＩＷメモリ・アドレスに格納された異なるＶＬＩＷ命令により、ＶＬＩＷメモ
リ内に格納されたＶＬＩＷ命令に対して間接的に動作することが可能である。Ｓ
Ｐ命令によってこのｉＶＬＩＷセットがすべてのＰＥにまたがって同時に実行さ
れると、同期ＭＩＭＤすなわちＳＭＩＭＤが発生する。ＸＶ命令と、各ＰＥ内に
存在する複数の異なるｉＶＬＩＷとの間に、１対多マッピングが存在する。ＸＶ
命令の発行を伴う単一の制御ポイントＳＰにより、複数の異なるｉＶＬＩＷ実行
が同期的に起こるため、特殊な同期化機構は必要ない。ＰＥとＭａｎＡｒｒａｙ
ネットワークとの間の通信を管理するために受信モデルを使用することから、下
記でさらに詳しく述べるように、ＭＩＭＤ動作に共通の特性である通信待ち時間
が避けられる。さらに、実行の同期位置が１箇所であるため、各ＰＥ内にある別
々のプログラム・フローに対して追加のＭＩＭＤハードウェアは必要ない。この
方法では、マシンはハードウェアのコストを削減すると同時に通信待ち時間も最
低限に抑えながら、ＳＭＩＭＤ動作をサポートするように編成される。

【０００７】ＭａｎＡｒｒａｙの間接的ＶＬＩＷすなわちｉＶＬＩＷは、プログラム制御の
下でローディングされることが好ましいが、代替形態のｉＶＬＩＷのダイレクト
・メモリ・アクセス（ＤＭＡ）ローディング、および固定ｉＶＬＩＷを含むＲＯ
ＭによるＶＩＭアドレス空間の１セクション実施も除外されない。一定レベルの
動的プログラム・フレキシビリティを維持するために、全ＶＩＭでない場合はＶ
ＩＭの一部が、典型的にランダム・アクセス・タイプのメモリになる。ランダム
・アクセス・タイプのＶＩＭをロードするためには、区切り符号命令、ｉＶＬＩ
Ｗのロードの場合はＬＶが、区切り符号の後に続く一定数の命令が実行されるの
ではなくＶＩＭ内にロードされることを指定する。ＳＩＭＤ動作の場合、各ＰＥ
は各ＶＩＭアドレスについて同じ命令を受け取る。ＳＭＩＭＤ動作用にセットア
ップするには、各ＰＥ内の同じＶＩＭアドレスに異なる命令をロードする必要が
ある。

【０００８】これは現在の好ましい実施形態では、ＶＩＭのローディングがＯＮにマスクさ
れたＰＥ上でのみ発生するように機能する、マスキング機構によって達成される
。ＯＦＦにマスクされたＰＥは区切り符号命令を実行しないため、区切り符号に
続く指定された命令セットをＶＩＭ内にロードしない。あるいは、異なる命令が
ＰＥローカル・メモリから平行にロードされるか、またはＶＩＭがＤＭＡ転送の
ターゲットになることができる。異なる命令を同じＶＩＭアドレス内にローディ
ングするための代替方法は、ＬＶ命令に続く第２の３２ビット制御ワードを有す
る第２のＬＶ命令、ＬＶ２を使用することである。第１および第２の制御ワード
は、ＰＥラベルを追加できるように、それらの間のビットを再配置する。この第
２のＬＶ２方法は、ＰＥがマスクされる必要がなく、異なるシステムを実施する
ときに何らかの利点を与える場合がある。異なる命令を、異なるＰＥ上にある同
じＶＩＭアドレス内に選択的にローディングすることによって、ＭａｎＡｒｒａ
ｙがＳＭＩＭＤ動作用にセットアップされる。

【０００９】ＳＭＩＭＤ動作を実施するときに遭遇する１つの問題は、処理要素間通信を処
理することである。ＳＩＭＤモードでは、配列内のすべてのＰＥが同じ命令を実
行中である。典型的には、これらのＳＩＭＤＰＥ間通信命令は、送信モデルを
使用するとみなされる。言い換えれば、ＳＩＭＤの送信モデル通信命令は、各Ｐ
Ｅがそのデータをどの方向へ、すなわちどのターゲットＰＥへ送信すべきかを示
す。ＳＥＮＤ−ＷＥＳＴなどの通信命令に遭遇すると、各ＰＥは、位相的にその
西隣として定義されたＰＥにデータを送信する。送信モデルは、送信元ＰＥおよ
び受信側ＰＥの両方を指定する。ＳＥＮＤ−ＷＥＳＴの例では、各ＰＥがその西
側にあるＰＥにそのデータを送信し、その東側にあるＰＥからデータを受信する
。ＳＩＭＤモードでは、これは問題ではない。

【００１０】送信モデルを使用するＳＭＩＭＤモードの動作では、複数の処理要素がすべて
同じ隣のＰＥへデータの送信を試行することができる。ＭａｎＡｒｒａｙにおけ
るこのような処理要素は、１回に他の１つの処理要素からのみ受信できる受信ポ
ートを１つだけ有すると定義される可能性があるので、この試行は危険な状況を
表す。各処理要素が１つの受信ポートを有すると定義されるときは、このように
試行された動作は首尾良く完了できず、通信ハザードを引き起こすことになる。

【００１１】上記の通信ハザードを避けるために、ＰＥ間の通信には受信モデルが使用され
る。各処理要素は受信モデルを使用して、どの処理要素から受信するかを選択す
るスイッチを制御する。任意の２つの処理要素が同じ受信ポートを争うことはあ
り得ないため、通信ハザードが発生することはあり得ない。定義上、各ＰＥはそ
れ専用の受信ポートを制御し、ターゲットＰＥを指定せずにデータを使用可能に
する。受信モデルを使用して処理要素間に任意の意味ある通信を発生させるため
には、使用可能にされたデータをＰＥが協働して受信するようにプログラムされ
なければならない。同期ＭＩＭＤ（ＳＭＩＭＤ）を使用して、協働命令がすべて
同じｉＶＬＩＷ位置に存在する場合にこれが発生するように保証される。ＳＭＩ
ＭＤを使用しない場合、複雑な機構は、通信を同期化して受信モデルを使用する
必要が生じることになる。

【００１２】本発明をより完全に理解すれば、以下の詳細な説明および添付の図面から本発
明の特徴および利点が明らかになろう。

【００１３】詳細な説明本発明に関して使用するための、現在好ましい間接的超長命令語（ｉＶＬＩＷ
）制御命令の１セットについて、以下に詳細に記載する。図１は、アドレス「ｉ
」でｉＶＬＩＷを実行するためのシステムを示し、ここでｉＶＬＩＷは、ＰＥ０
〜ＰＥ３のＰＥからなる２×２のＭａｎＡｒｒａｙ１００内で、各ＶＩＭ内の垂
直なボックス・セットＳＬＡＭＤ１０５で示され、Ｓ＝ストア、Ｌ＝ロード、Ａ
＝演算論理ユニット（ＡＬＵ）、Ｍ＝乗積算ユニット、およびＤ＝データ選択ユ
ニット（ＤＳＵ）の命令セットを表す。図１では、２×２のＭａｎＡｒｒａｙ１
００は、３２ビット命令を単一の３２ビット・バスを介して配列ＰＥに送出する
、シーケンス・プロセッサ（ＳＰ）制御装置１０２をさらに含む。３２ビット命
令の１タイプは、実行ｉＶＬＩＷ（ＸＶ）命令であり、これは実行されることが
望ましいｉＶＬＩＷを示すポインタを生成するためにＶＩＭベース・アドレスと
共に使用される、ＶＩＭアドレス・オフセット値を含む。ＰＥ１０４は、クラス
タ・スイッチ１０７によって相互接続される。

【００１４】本発明により使用されるように適合されたＳＰ１０２およびＭａｎＡｒｒａｙ
アーキテクチャ内の各ＰＥ１０４は、図１に示すように、ある量のｉＶＬＩＷメ
モリ（ＶＩＭ）１０６を含む。各ＶＩＭ１０６は、複数のＶＬＩＷ命令アドレス
１０３を保持するための格納スペースを含み、各アドレスは８つまでの単体の命
令を格納することができる。現在好ましい実施形態では、各ｉＶＬＩＷ命令が５
つまでの単体の(simplex)命令を含むことが可能であって、格納ユニット１０８、ロード・ユニット１１０、演算論理ユニット１１２（ＡＬＵ）、乗積算ユニッ
ト１１４（ＭＡＵ）、およびデータ選択ユニット１１６（ＤＳＵ）のそれぞれと
関連付けられる。たとえば、ＶＩＭアドレス「ｉ」にあるｉＶＬＩＷ命令１０５
は、５つの命令ＳＬＡＭＤを含む。

【００１５】図２は、基本的なｉＶＬＩＷデータ・パス配列２００を示し、これによってフ
ェッチされた命令が、ＶＩＭロードおよび格納制御機能２２に接続された命令レ
ジスタ２０に格納される。このＶＩＭロードおよび格納制御機能は、ＶＩＭ２４
にインターフェース信号を送る。ＶＩＭ２４はＶＩＭ１０６に対応しており、図
２に示されるように、図１の各ＶＩＭ１０６は関連付けられたレジスタおよび制
御を有する。ＶＩＭ２４の出力は、ｉＶＬＩＷレジスタ２６にパイプライン処理
される。図３は、０、１、．．．Ｎ−１のＮ個のエントリを備えた５スロットｉ
ＶＬＩＷのＶＩＭ３００を示す。各ＶＩＭ３００のアドレス位置には、格納、ロ
ード、ＡＬＵ、ＭＡＵ、およびＤＳＵの命令３０１〜３０５用の格納スペースが
含まれる。拡張されたＡＬＵスロット・ビュー３０３'は、ビットｄ１「ｄ」がハイライト表示された３２ビットの格納スペースを示す。ＶＩＭ記憶装置内の命
令を使用する方法について、以下でより詳細に論じる。

【００１６】ｉＶＬＩＷ命令をＰＥのＶＩＭの配列内に集合的にロードするか、あるいは単
数または複数のＰＥをマスクするために特別な命令を使用して、各ＰＥのＶＩＭ
へ個別にロードすることが可能である。ＶＩＭ内のｉＶＬＩＷ命令は、単一命令
として実行されると、ＶＩＭメモリ・アドレスに配置された単体の命令を同時実
行させる、実行ＶＬＩＷ（ＸＶ）命令を介して実行するためにアクセスされる。
ＸＶ命令は、以下を同時実行させることができる。

【００１７】１．個別のＳＰまたはＰＥのＶＩＭアドレスに配置された、すべての単体の命
令。

【００１８】２．同じ相対ＶＩＭアドレスにあるすべてのＰＥに配置された、すべての命令
。

【００１９】３．同じ相対ＶＩＭアドレスにあるすべてのＰＥのサブセットまたはグループ
に配置された、すべての命令。

【００２０】ｉＶＬＩＷメモリをロード／修正し、ｉＶＬＩＷ命令を実行するのに必要な制
御命令は、以下の２つだけである。

【００２１】１．図４Ａに示されたＶＬＩＷメモリ・アドレスロード／修正（ＬＶ）命令。

【００２２】２．図４Ｂに示されたＶＬＩＷ実行（ＸＶ）命令。

【００２３】図４Ａに示されたＬＶ命令４００は、符号化ブロック４１０に示されるような
３２ビット符号化のためのものであり、以下でさらに述べるように、構文／演算
ブロック４２０に示される現在の好ましい構文／演算を有する。ＬＶ命令４００
は、指定されたＳＰまたはＰＥのＶＬＩＷメモリ（ＶＩＭ）の個別の命令スロッ
トをロードおよび／または使用不能にするために使用される。ＶＩＭアドレスは
、図４Ａの符号化ブロック４１０の中で、基本ＶＩＭアドレス・レジスタＶｂ（
Ｖ０またはＶ１）と、ビット・ブロック４１１のビット０〜７に示された符号な
し８ビット・オフセットＶＩＭＯＦＦＳとの合計として計算される。ＶＩＭアド
レスは、ハードウェア構成用の有効領域内でなければならず、そうでなければこ
の命令の演算は定義されない。

【００２４】個別の命令スロットの任意の組み合わせは、使用不能スロットパラメータ「ｄ
＝｛ＳＬＡＭＤ｝」を介して使用不能にすることができるが、ここでＳ＝ストア
ユニット（ＳＵ）、Ｌ＝ロード・ユニット（ＬＵ）、Ａ＝演算論理ユニット（Ａ
ＬＵ）、Ｍ＝乗積算ユニット（ＭＡＵ）、およびＤ＝データ選択ユニット（ＤＳ
Ｕ）である。ブランクの「ｄ＝」パラメータは、どんなスロットも使用不能にし
ない。指定されたスロットは、ロードされる任意の命令の前に使用不能にされる
。

【００２５】ロードする命令の数は、ＩｎｓｔｒＣｎｔパラメータを利用して指定される。
本実施態様では、有効値は０〜５である。ＬＶに続く次のＩｎｓｔｒＣｎｔ命令
は、指定されたＶＩＭにロードされる。ユニット作用フラグ（ＵＡＦ）のパラメ
ータ「Ｆ＝［ＡＭＤ］」は、どの演算命令スロット（Ａ＝ＡＬＵ、Ｍ＝ＭＡＵ、
Ｄ＝ＤＳＵ）が、指定されたＶＩＭが実行されたときに条件フラグを設定できる
かを選択する。ブランクの「Ｆ＝」は、ＡＬＵ命令スロットを選択する。ＬＶ命
令の処理中には、どの演算フラグも影響を受けず、サイクル数は、１に、ロード
される命令数を加えた数である。

【００２６】図４Ｂに示されたＸＶ命令４２５も、符号化ブロック４３０に示すような３２
ビット符号化用であり、以下でさらに述べるような、構文／演算ブロック４３５
に示された現在の好ましい構文／演算を有する。ＸＶ命令４２５は、指定された
ＳＰまたはＰＥのＶＬＩＷメモリ（ＶＩＭ）の個別の命令スロットを実行するの
に使用される。ＶＩＭアドレスは、図４Ｂの符号化ブロック４３０の中で、基本
ＶＩＭアドレス・レジスタＶｂ（Ｖ０またはＶ１）と、ビット・ブロック４３１
のビット０〜７に示された符号なし８ビット・オフセットＶＩＭＯＦＦＳとの合
計として計算される。ＶＩＭアドレスは、ハードウェア構成用の有効領域内でな
ければならず、そうでなければこの命令の演算は定義されない。

【００２７】個別の命令スロットの任意の組み合わせは、実行スロットパラメータ「Ｅ＝｛
ＳＬＡＭＤ｝」を介して実行することができるが、ここでＳ＝ストアユニット（
ＳＵ）、Ｌ＝ロード・ユニット（ＬＵ）、Ａ＝演算論理ユニット（ＡＬＵ）、Ｍ
＝乗積算ユニット（ＭＡＵ）、およびＤ＝データ選択ユニット（ＤＳＵ）である
。ブランク「Ｅ＝」パラメータは、どんなスロットも実行しない。ユニット作用
フラグ（ＵＡＦ）パラメータ「Ｆ＝［ＡＭＤＮ］」は、ＬＶ命令を介してロード
されたときに、ＶＬＩＷに指定されたＵＡＦをオーバライドする。このオーバラ
イドは、どの演算命令スロット（Ａ＝ＡＬＵ、Ｍ＝ＭＡＵ、Ｄ＝ＤＳＵ）が、こ
のＶＬＩＷの実行について条件フラグを設定できるか、あるいはどれでもないか
（Ｎ＝ＮＯＮＥ）を選択する。このオーバライドは、ＬＶ命令が指定したＵＡＦ
設定に影響を与えない。ブランクの「Ｆ＝」は、ＶＬＩＷがロードされたときに
指定されたＵＡＦを選択する。

【００２８】条件フラグは、元のＬＶ命令からの「Ｆ＝」パラメータの設定によって指定さ
れたスロット内にある個別の単体の命令によって、またはＸＶ命令内の「Ｆ＝［
ＡＭＤ］」パラメータによってオーバライドされたときに設定される。条件フラ
グは、「Ｆ＝Ｎ」のときには影響を受けない。演算は１サイクル中に発生する。
パイプラインに関する考慮事項は、実行される各スロット内にある個別の単体の
命令に基づいて考慮しなければならない。これらｉＶＬＩＷ命令内にある個別の
フィールドの説明は、図４Ｃおよび４Ｄに示される。図４Ｃおよび４Ｄは、名前
４４２、ビット数４４４、および説明／値４４６で作表された命令フィールド定
義４４０を示す。図４Ｅおよび４Ｆはそれぞれ、現在の好ましいＡＤＤ命令、お
よび２×２ＭａｎＡｒｒａｙ構成内にある３つの同期ＭＩＭＤｉＶＬＩＷのた
めのスロット記憶装置を示す。

【００２９】図４Ｅに示されたＡＤＤ命令４５０は、符号化ブロック４５５に示されるよう
な３２ビット符号化用でもあり、以下でさらに述べるように、構文／演算ブロッ
ク４６０に示された現在の好ましい構文／演算を有する。ＡＤＤ命令４５０は、
ソース・レジスタＲｘおよびＲｙの合計をターゲット・レジスタＲｔに格納する
のに使用される。演算スカラ・フラグは最下位演算に影響を与えるが、ここでＮ
＝結果の合計のＭＳＢであり、結果がゼロの場合はＺ＝１で、そうでなければ０
、オーバフローが発生した場合はＶ＝１で、そうでなければ０、ならびに桁上が
りが発生した場合はＣ＝１で、そうでなければ０である。ｖビットは、符号付き
演算に対して有意であり、Ｃビットは符号なし演算に対して有意である。サイク
ル数は１である。個別、グループ、および「同期ＭＩＭＤ」のＰＥのｉＶＬＩＷ演算ＬＶおよびＸＶ命令は、プログラマによって画定された個別のＰＥまたはＰＥ
グループ内で、ｉＶＬＩＷ命令をロード、修正、ディスエーブル、または実行す
るために使用することができる。これを行うために、数ある中で特に各ＰＥをイ
ネーブルまたはディスエーブルにする、各ＰＥに配置された制御レジスタを修正
する命令によって、個別のＰＥがイネーブルまたはディスエーブルされる。個別
のＰＥまたはＰＥのグループをロードおよび動作させるために、個別のＰＥをイ
ネーブルし、他のすべてをディスエーブルするように制御レジスタが修正される
。これで通常のｉＶＬＩＷ命令は、イネーブルされたＰＥ上でのみ動作すること
になる。

【００３０】図５を参照すると、ｉＶＬＩＷのロードおよびフェッチ・パイプラインの態様
が、ｉＶＬＩＷシステム５００に関して記載されている。図５は、他の態様の中
で、ＶＩＭメモリから命令を選択できるようにするための選択機構を示す。フェ
ッチされた命令は、第１の命令レジスタ（ＩＲ１）５１０にロードされる。レジ
スタ５１０は、一般に図２の命令レジスタ２０に対応する。ＩＲ１の出力は、第
２の命令レジスタ（ＩＲ２）５１４をロードする前のパイプライン・サイクルの
初期に、プリデコーダまたはプリデコード機能５１２内で、プリデコードされる
。ＩＲ１内の命令が非ゼロ命令カウントを伴うロードｉＶＬＩＷ命令（ＬＶ）で
あると、プリデコーダ５１２は、ＬＣ演算サイクルをセットアップするために使
用されるＬＶｃ１制御信号５１５を生成し、加算器５０４によってパス５０３を
介してＬＭ命令内に含まれたオフセット値に追加された、指定のＶｂレジスタ５
０２を使用して、ＶＩＭアドレス５１１が計算される。その結果生じるＶＩＭア
ドレス５１１は、レジスタ５０６内に格納され、マルチプレクサ５０８を介して
ＶＩＭ５１６をアドレス指定するために渡される。ＶＩＭ５１６は、一般に図１
のＶＩＭ１０６に対応する。レジスタ５０６は、ＬＶ動作中にＶＩＭアドレス５
０７を保持する必要がある。ＶＩＭアドレス５１１およびＬＶ制御状態は、ＬＶ
命令の後に受け取った命令を、ＶＩＭ５１６にロードすることができる。ＬＶが
受け取られたサイクルの終わりに、命令をＶＩＭ５１６へローディングするとき
に使用するために、図４Ａに示された使用不能ビット１０〜１７がｄビット・レ
ジスタ５１８にロードされる。ＶＩＭ５１６にロードされることになっている、
ＩＲ１５１０内の次の命令を受け取ると同時に、Ｓｔｏｒｅｃ１５１９、Ｌ
ｏａｄｃ１５２１、ＡＬＵｃ１５２３、ＭＡＵｃ１５２５、またはＤＳＵ
ｃ１５２７の命令タイプに応じて、適切な制御信号が生成される。プリデコー
ド機能５１２は、図４Ａ、Ｂ、およびＥに示された命令タイプを定めるグループ
・ビット（ビット３０および３１）、ならびに図４Ｄおよび４Ｅに示されたユニ
ット・フィールド・ビット（実行ユニット・タイプを指定するビット２７および
２８）の単純な解読に基づいて提供されることが好ましい。このプリデコードス
テップを使用することによって、ＩＲ１５１０内の命令を、正しい機能ユニッ
ト位置にあるＶＩＭ５１６にロードすることができる。たとえば、命令のＬＶリ
ストに含まれる図４ＥのＡＤＤ命令の場合、この命令がＩＲ１５１０内で受信
されると、この命令がＶＩＭ５１６内のＡＬＵ命令スロット５２０にロードされ
るべきであることを、プリデコード機能５１２によって決定することができる。
さらに、その機能スロット位置に対して適切なｄビット５３１が、そのスロット
のビット３１にロードされる。ロードされたｄビットは、元の命令からのグルー
プ・コード・ビット位置の１つを占有する。

【００３１】ＩＲ１５１０内のＸＶ命令を受信すると同時に、ＶＩＭアドレス５１１は、
加算器５０４によってパス５０３を介してＸＶ命令内に含まれたオフセット値に
追加された、指定されたＶｂレジスタ５０２を使用して計算される。その結果生
じるＶＩＭアドレス５０７は、マルチプレクサ５０８を介してＶＩＭをアドレス
指定するために渡される。指定アドレスにあるｉＶＬＩＷがＶＩＭ５１６から読
み取られ、マルチプレクサ５３０、５３２、５３４、５３６、および５３８を介
してＩＲ２レジスタ５１４に渡される。読取られたＶＩＭアクセス・タイミング
のクリティカル・パスを最小限に抑えるための代替形態として、ＶＩＭ５１６の
出力を、復号状態論理の前に出力がマルチプレクサを介して渡されるレジスタに
ラッチすることができる。

【００３２】ＸＶ命令を実行するために、ＩＲ２ＭＵＸ１制御信号５３３はプリデコードＸ
Ｖｃ１制御信号５１７と共に、すべてのＩＲ２マルチプレクサ５３０、５３２、
５３４、５３６、および５３８に、ＶＩＭ出力パス５４１、５４３、５４５、５
４７、および５４９を選択させる。この時点で、ｉＶＬＩＷの並列処理実行性能
を同時発生で提供しながら、パイプライン５４０、５４２、５４４、５４６、お
よび５４８の５つの個別のデコード段階および実行段階が完了する。単一の３２
ビット命令が独自にＰＥまたはＳＰ内で実行できるようにするために、バイパス
ＶＩＭパス５３５が示される。たとえば、シンプレックスＡＤＤ命令が、平行配
列の実行のためにＩＲ１５１０内に受信されると、プリデコード機能５１２は
、ＩＲ２ＭＵＸ１制御信号５３３を生成するが、この信号は、命令タイプのプリ
デコード信号すなわちＡＤＤの場合信号５２３と共に、ＸＶ５１７またはＬＶ５
１５のアクティブ制御信号なしで、ＡＬＵマルチプレクサ５３４にバイパスパス
５３５を選択させる。

【００３３】ＭａｎＡｒｒａｙは様々な数のＰＥで構成することが可能であるため、図６で
は、図５に示されたシステム５００などのｉＶＬＩＷシステムの例示的ＳＩＭＤ
ｉＶＬＩＷの使用法を示す。図６では、ＰＥ０〜ＰＥＪまでの番号が付けられ
たＰＥによって示されるように、Ｊ＋１個のＰＥがある。ロード・ユニットおよ
びＭＡＵ命令スロットが使用不能であり、３つの命令がＶＩＭアドレス２７でロ
ードされることを示す、ＬＶコードの一部が図６に示される。このローディング
動作は、図４Ａに示された構文に基づいてＬＶ命令６０１から決定される。すべ
てのＰＥがＯＮにマスクされると仮定すると、表示された３つの命令６０３、６
０５、および６０７は、配列内にあるそれぞれのＪ＋１ＰＥ内のＶＩＭアドレ
ス２７にロードされることになる。このローディングの結果は、ＶＩＭ内の適切
な実行スロットに格納された命令、すなわちＡＬＵスロット内の命令６０３、Ｄ
ＳＵスロット内の命令６０５、および格納ユニット・スロット内の命令６０７を
示すことによって、図６に表示される。

【００３４】図３、５、および６によってカバーされた前述の考察で、プリデコード機能は
ＶＩＭスロット・フィールドの複数のビット３１位置に、ＶＩＭローディング・
シーケンスを開始したＬＶ命令から生成された、図５に示された格納ｄビット５
１８が書き込めるようにすることに留意されたい。さらに、演算命令内のユニッ
ト・フィールド、ビット２７および２８は、たとえば図４Ｅをみればわかるよう
に、どのＶＩＭスロットに演算命令がロードされるのかを決めるのに必要である
ことに留意されたい。したがって、ＩＲ１内の命令は具体的に言えば、プリデコ
ード機能を使用してＶＩＭ内の実行ユニット・スロットに関連付けられるため、
グループ・ビットおよびユニット・フィールド・ビットはＶＩＭ内に格納する必
要がなく、前の考察で単一のｄビットを使用して実証したように、他の目的に使
用することができる。ＶＩＭスロット内の特定のビット位置は、図７のＶＩＭ
７００に示され、ここで命令グループ・ビット、すなわち図４Ｅのビット３０の
うちの１つ、ならびに命令ユニット・フィールド・ビット、すなわちビット２７
および２８が、図７では７２１とラベル表示されたＯＰコード拡張ビット３０に
は「ｏ」、７２３とラベル表示されたレジスタ・ファイル拡張ビット２８には「
ｒ」、７２５とラベル表示された条件付き実行拡張ビット２７には「ｃ」という
、変換拡張オプション・ビットによってＶＩＭ７００内で置き換えられる。こ
れらの追加ビットは、プログラマがそこへロードできるかまたはそこから格納で
きる、図８Ａに示された雑レジスタ８５０内に別々に格納される。これらのビッ
トは、３２ビット命令形式の命令符号化ビットがないために提供できなかった、
拡張機能を提供する。ＯＰコード拡張ビット「ｏ」の場合、１セットの命令を新
しいセットの命令にマッピングすることが可能である。レジスタ拡張ビット「ｒ
」の場合、レジスタ・ファイル・スペースを２倍にし、追加のレジスタ・スペー
スか、あるいは２つのレジスタ・バンクを２つのコンテキスト間で分けられるよ
うにする高速コンテキスト・スイッチング機構として動作することのいずれかを
提供する、２バンクのレジスタを有することが可能である。条件実行拡張ビット
「ｃ」の場合、２つの異なる条件セットを指定するか、またはプログラマ制御の
下で異なる条件付き実行機能性を指定することが可能である。

【００３５】図８Ａは、ｏ、ｒ、およびｃビット・レジスタ８５０の追加、ならびに１組の
プリデコード制御信号８１５、８１７、８１９、８２１、８２３、８２５、８２
７、および８３３を示す、ｉＶＬＩＷ変換拡張ロードおよびフェッチ・パイプラ
インの態様を図示した、ｉＶＬＩＷシステム８００を示す。これらの解放された
ビットは他の目的で使用できることに留意されたい。たとえば、すべての３ビッ
トをレジスタ・ファイル拡張に使用して、３つのオペランド命令に個別に制御を
与えるか、または３２×３２レジスタの８つまでのバンクを与えるかのいずれか
が可能である。

【００３６】単一の３２ビット命令それ自体をｉＶＬＩＷのＰＥまたはｉＶＬＩＷのＳＰで
実行させるために、ＶＩＭをバイパスする径路８３５を図８Ａに示す。たとえば
、単体のＡＤＤ命令が平行配列実行のためにＩＲ１８１０に受信されると、プ
リデコード機能８１２がＩＲ２ＭＵＸ２制御信号８３３を生成するが、これは命
令タイププリデコード信号、すなわちＡＤＤの場合には信号８２３と共に、およ
びＸＶ８１７またはＬＶ８１５のアクティブ制御信号なしで、ＡＬＵマルチプレ
クサ８３４にバイパスパス８３５を選択させる。本明細書に記載のように、バイ
パス動作はパイプラインの全段階で生じるものであるため、バイパスされた命令
内のグループ・ビットおよびユニット・フィールド・ビットを、ＩＲ２ラッチ段
階に入ったときに置き換えることができる。これは、図８Ａ中で、マルチプレク
サ８３０、８３２、８３４、８３６、および８３８への入力の適切なビット位置
を置き換えるのに使用される、「ｏ、ｒ、およびｃ」ビット信号パス８５１で示
される。

【００３７】ＶＩＭのｉＶＬＩＷ記憶装置は代替形式が可能であり、技術および設計の考慮
事項によって決められることがで好ましいことに留意されたい。たとえば、図８
Ｂは、図７および８Ａからの代替形式ＶＩＭ８００'を示す。実行スロット当たりｄビットが、追加のビット「ｏ、ｒ、ｃ、およびｕａｆ」ビットと共にグルー
プにまとめられる。これらの１０ビットは、各スロット当たりビット０〜２６、
２９に画定された実行ユニット機能ビットから、別々にグループ化される。「ｕ
ａｆ」ビットはどの演算ユニットが実行時にフラグに影響を与えるかに関係する
ため、ＬＶ命令からの図４Ａのユニット作用フィールド（ｕａｆ）ビット２２お
よび２３は、単一のｉＶＬＩＷのＶＩＭアドレスに格納される必要がある。他の
記憶装置形式も可能であり、たとえば、ｄビットを、機能ビットおよび、別々に
格納された「ｕａｆ」ビットなどのｉＶＬＩＷ全体に関連付けられたビットと共
に格納することができる。ｋスロットｉＶＬＩＷの場合、ｋ＊３２ビットは必ず
しもＶＩＭに格納される必要はないことにも留意されたい。プリデコード機能に
より、ｋ３２ビット命令を格納するのに必要であると仮定される追加ビットをｋ
＊３２ビット・スペースに格納できるだけでなく、ビットをすべて使用する必要
がない場合は、ｋ＊３２ビット・スペースを減らすこともできる。これは図８Ｂ
に示されており、ＶＩＭアドレス当たりの記憶装置ビットの合計数は、実行ユニ
ット・スロット位置（０〜２６および２９）当たり必要な２８ビットの５倍に５
つのｄビットを加え、さらに３つの「ｏ、ｒ、およびｃ」ビットと２つの「ｕａ
ｆ」ビットを加えることで得られ、必要と仮定される５＊３２＝１６０ビットよ
りも１０少ない、ｉＶＬＩＷアドレス当たり合計１５０ビットとなる。その結果
、機能性は向上し、ＶＩＭメモリ・スペースは削減される。一般に追加情報は、
ＶＩＭ内で実行ユニットごとに、またはそのＶＩＭアドレスに格納されたｉＶＬ
ＩＷを介して制御に影響を与える別々の個別ビットとして、個別に格納すること
ができる。たとえば、１６の追加のロード即時ビットを、別々の「定数」レジス
タ内に格納し、ＶＩＭアドレス内にロードして、ロード・ユニットの容量を拡張
し、３２ビットの即時データをロードすることができる。この拡張を達成するに
は、ＶＩＭデータ幅を適切に拡張しなければならない。格納されたｉＶＬＩＷの
サイズが、命令サイズの倍数から減結合され、これによって格納されたｉＶＬＩ
Ｗが、要件に応じて、ｋ命令ｉＶＬＩＷに対するｋ＊３２ビットよりも大きいか
または小さくなるようにすることができる。

【００３８】図１には示したが図９または図１０では図を見やすくするために示していない
ＳＰ制御装置１０２およびＰＥ配列からなる、図９のプロセッサ９００または図
１０のプロセッサ１０００などのプロセッサ内では、ＰＥ間通信を処理している
ときにＳＭＩＭＤ動作を実施すると、問題が発生する可能性がある。典型的なＳ
ＩＭＤモードの通信は、すべてのＰＥが同じＰＥ間通信命令を実行するように指
定する。各ＰＥ内で同じであるこのＳＩＭＤのＰＥ間命令は、ＰＥ間で画定され
た共通の動作に確実に従うために、共通の制御機構を必要とする。一般に、ＳＥ
ＮＤ−ＷＥＳＴなどの単一の命令が配列内にあるすべてのＰＥに送出される、送
信モデルが使用される。ＳＩＭＤのＰＥ間通信命令は、ＰＥ間のネットワーク・
インターフェースの制御を調整し、各ＰＥがＰＥ間命令によって位相的に定めら
れたＰＥにデータを送信できるようにするものである。すべてのＰＥが同じ命令
を受け取るので、この単一ＳＩＭＤ命令を解釈し、図９に示すように、単一のＰ
Ｅによってネットワーク・インターフェース９１１を制御することができる。図
９に示すＭａｎＡｒｒａｙ２×２クラスタ・スイッチは、ＤＳＵ間のインター
フェース入出力（Ｉ／Ｏ）バスに対して、４つの４対１マルチプレクサ９２０、
９２２、９２４、および９２６で構成されることに留意されたい。これらのバス
は、８、９、１６、３２、６４または他の数のビット、ビット・バスであっても
よく、制限はない。単一の４対１マルチプレクサを制御するには、２ビットを制
御して、可能な４つのパスから１つを選択するだけでよい。これは必要に応じて
より大きなマルチプレクサを使用して、ＰＥのより大きなクラスタに拡張するこ
とができる。ＳＩＭＤシステム内でも、図１０に示したような、ＰＥ間のインタ
ーフェース・ネットワークに対する集中制御を有することが可能である。図１０
では、集中制御装置１０１０が、他のＰＥがネットワーク内で実行するのと同じ
、ディスパッチされたＰＥ間通信命令１０１１をＳＰ制御装置から受け取る。こ
の機構により、ネットワーク接続をサイクルごとに変更することができる。ＳＩ
ＭＤ送信モデルの２つの属性は、すべてのＰＥに対する共通の命令と、送信側な
らびに受信側の仕様である。ＳＩＭＤモードでは、この方法は問題ではない。

【００３９】送信モデルをＳＭＩＭＤモードに拡張しようとすると、別の問題が発生する可
能性がある。こうした問題の１つが、ＳＭＩＭＤモードでは、各ＰＥが異なるＰ
Ｅ間通信命令を受信できるので、多重処理要素すべてが単一のＰＥに対するデー
タ送信を試みることが可能なことである。ＳＩＭＤ送信モデルの２つの属性は即
時に分析され、すなわち共通のＰＥ間命令を有し、ソースとターゲットの両方、
言い換えれば送信側と受信側の両方を指定する。単一サイクル通信を備えたＳＩ
ＭＤモデル内の同じＰＥが複数のＰＥターゲットを有すると、通信ハザードとな
る。この通信ハザードは図９に示すが、ＰＥ１、２、および３のＤＳＵがデータ
をＰＥ０に送信する一方で、ＰＥ０はデータをＰＥ３に送信する。ＰＥ０は３つ
のデータ入力を受け取ることはできない。他のシステムでは、多くの場合この種
の問題を解決するために、インターフェース・バッファおよび優先度制御論理を
挿入して、１つまたは複数の競合パスを遅延させる。この方法は、ＰＥ内で実行
されるｉＶＬＩＷ命令のプログラミング中に、単一サイクルの通信動作をスケジ
ューリングしなければならないため、ＳＭＩＭＤ処理の持つ本来的な同期的性質
を妨害する。同期ＭＩＭＤ要件を妨害せずにこの通信ハザードを避けるためには
、受信モデルを使用するのが好都合である。送信モデルによって送信された、単
一ＰＥ内または集中制御機構内に配置されたネットワーク制御の単一ポイントが
、受信モデルでは、分散ネットワーク・インターフェース制御に置き換えられる
。各ＰＥが、専用の受信ポートを制御する。受信モデルは、ネットワーク・イン
ターフェースを介して受信パスを指定する。ＭａｎＡｒｒａｙネットワークの場
合、各ＰＥが、クラスタ・スイッチの専用のマルチプレクサ入力パスを制御する
。

【００４０】この配列は、図１１に２×２配列のプロセッサ１１００として示され、各ＰＥ
がそれぞれ、そのマルチプレクサ１１２０、１１２２、１１２４、または１１２
６の専用の制御を有する。たとえば、ＰＥ０はその入力マルチプレクサ１１２０
を制御するために、制御信号１１１１を有する。さらに受信モデルは、ターゲッ
トＰＥを指定せずに、インターフェース・ネットワークへのＰＥ出力ポート上で
データを使用可能にしなければならない。したがって、受信モデルを使用して、
処理要素間で任意の有意な通信を発生させるためには、使用可能にされたデータ
を受信するときに協働するように、ＰＥをプログラミングしなければならない。
同期ＭＩＭＤを使用すると、協働命令が同じｉＶＬＩＷ位置内に存在すれば、こ
の協働が発生することが保証される。ＸＶ命令が実行されるときのこの命令の位
置を使用して、協働ＰＥは正しいＰＥ間通信命令を実行し、任意の２つまたはそ
れ以上のＰＥ間でデータを移動させる。一般に、ＰＥの１配列内には、複数のＰ
Ｅグループが存在できる。こうしたそれぞれのグループ内では、１つまたは複数
のＰＥが別のＰＥからデータを受け取ると同時に、別のグループ内で、１つまた
は複数のＰＥが異なるＰＥからデータを受け取ることができる。グループのサイ
ズは、２つのＰＥから全配列のＰＥまで変更可能である。図１１では、図を見や
すくするため、図１のＳＰ制御装置１０２などのＳＰを示していない。しかし、
前記に参照によって組み込まれた米国仮出願第６０／０７７４５７で教示された
ように、ＳＰの機能性はＰＥ０などのＰＥに併合可能であるか、または、ＳＰの
機能性はすべてのＰＥに追加可能であるが、このように機能性を向上させること
は相対的にコストがかかることは理解されるであろうとはいえ、こうした制御装
置は含まれることが好ましい。

【００４１】図４Ｆは、２×２ＭａｎＡｒｒａｙ構成中にある３つの同期ＭＩＭＤのｉＶ
ＬＩＷの定義４７０を示す。上位セクション４８０は、演算の記述を示す。下位
セクション４９０は、それぞれＬＵ、ＭＡＵ、ＡＬＵ、ＤＳＵ、およびＳＵ内に
ロードされた、対応する命令記憶術を示す。各ｉＶＬＩＷには、各ＰＥに１行ず
つ、計４行が含まれており、それぞれの間が太い黒線で区切られている。図の一
番左の列は、ＰＥのｉＶＬＩＷ命令メモリ（ＶＩＭ）内でｉＶＬＩＷがロードさ
れるアドレスを示す。次の列は、ＰＥ番号を示す。各ｉＶＬＩＷには、各ＰＥに
ついて１行が含まれ、そのＰＥのＶＩＭエントリにロードされる命令を示す。残
りの列には、ロード・ユニット（ＬＵ）、乗積算ユニット（ＭＡＵ）、演算論理
ユニット（ＡＬＵ）、データ選択ユニット（ＤＳＵ）、およびストアユニット（
ＳＵ）の５つの実行ユニットについて、それぞれの命令がリスト表示されている
。

【００４２】たとえば、ＰＥ２４９５のＶＩＭのエントリ番号２９には、ｌｉ.ｐ.ｗＲ３,Ａ１＋,Ａ７、ｆｍｐｙ.ｐｍ.１ｆｗＲ５,Ｒ２,Ｒ３１、ｆａｄｄ.ｐａ.１ｆｗＲ９,Ｒ７,Ｒ５、およびｐｅｘｃｈｇ.ｐｄ.ｗＲ８,Ｒ０,２ｘ２_ＰＥ３なる４つの命令がロードされる。これらの命令は、図４Ｆの次の行から最終行ま
で見られる。同じＶＩＭのエントリ（２９）でも、ＶＩＭのエントリ２９上でこ
れらのＰＥに対応する行、すなわちＰＥ０４９１、ＰＥ２４９３、およびＰ
Ｅ３４９７を見ればわかるように、ＰＥ０、１、および３には異なる命令が含
まれる。

【００４３】以下の例１−１は、図４Ｆに定義されたような、ＰＥのＶＩＭメモリをロード
する命令シーケンスを示す。異なる命令を、同じアドレスの異なるＰＥのＶＩＭ
にロードするために、ＰＥマスキングが使用されることに留意されたい。

【００４４】例１−１同期ＭＩＭＤｉＶＬＩＷのＰＥのＶＩＭへのローディング

【００４５】

【表１】

【００４６】

【表２】

【００４７】

【表３】以下の例１−２は、図４Ｆのコード例１−１によってロードされた、エントリ
を実行する命令シーケンスを示す。ＰＥマスキングは不要であることに留意され
たい。指定されたＶＩＭエントリは、ＰＥ０、ＰＥ１、ＰＥ２、およびＰＥ３の
各ＰＥで実行される。

【００４８】例１−２ＰＥＶＩＭからの同期ＭＩＭＤｉＶＬＩＷの実行

【００４９】

【表４】実行される例示アルゴリズムの説明図４Ｆで画定されたｉＶＬＩＷは、ＰＥのローカル・データ・メモリに格納さ
れた３×１の変数ベクトルのストリームを使用して、３×１の定数ベクトルの内
積を得るために使用される。各ＰＥが、ベクトルの１成分を格納する。ＰＥ１は
成分ｘを格納し、ＰＥ２は成分ｙを格納し、ＰＥ３は成分ｚを格納する。ＰＥ０
は何の成分も格納しない。定数ベクトルは、ＰＥレジスタ内、この場合は計算レ
ジスタＲ３１内で、同じ形式で保持される。

【００５０】冗長な計算や遊休ＰＥを避けるために、ｉＶＬＩＷは同時に３つの変数ベクト
ル上で動作する。ＰＥの上でのベクトル成分の分布により、第４番目のベクトル
の内積を計算するためにＰＥ０を使用することはできない。ＰＥ０は、将来のア
ルゴリズム段階に対して何らかのセットアップを処理する代わりに使用されるの
が有利である。ｉＶＬＩＷのロード・スロットに見られるように、ベクトル１が
ｉＶＬＩＷ２７にロードされる（前述のように、成分的にはＰＥを横断する）と
、ベクトル２はｉＶＬＩＷ２８にロードされ、ベクトル３はｉＶＬＩＷ２９に
ロードされる（ｌｉ．ｐ．ｗＲ＊，Ａ１＋，Ａ７）。ＰＥ１は、３つの各ベク
トルについて、内積の成分ｘを計算する。ＰＥ２は成分ｙを計算し、ＰＥ３は成
分ｚを計算する（ｆｍｐｙ．ｐｍ．１ｆｗＲ＊，Ｒ＊，Ｒ３１）。この時点で
、ＰＥ１に対するベクトル１の内積の成分ｙおよびｚ、ＰＥ２に対するベクトル
２内積の成分ｘおよびｚ、ＰＥ３に対するベクトル３の内積の成分ｘおよびｙを
得るために、ＰＥ間の通信が発生しなければならない。この通信は、ｐｅｘｃｈ
ｇ命令を介してＤＳＵ内で発生する。この方法では、それぞれのＰＥが、固有の
内積結果の成分を同時に合計している（ｆａｄｄ．ｐａ．１ｆｗＲ９，Ｒ７，
Ｒ＊およびｆａｄｄ．ｐａ．１ｆｗＲ１０，Ｒ９，Ｒ８）。次いでこれらの結
果、ＰＥメモリに格納される（ｓｉ．ｐ．ｗＲ１０，＋Ａ２，Ａ６）。各ＰＥ
はあらゆる第３番目の結果を計算し、格納することに留意されたい。次いで、結
果の最終セットが、ＰＥ１、２、および３から順繰りにアクセスされる。

【００５１】さらに、各ＰＥはその内積結果とゼロ（ＰＥレジスタＲ０内に保持）との比較
を実行し（ｆｃｍｐＬＥ．ｐａ．１ｆｗＲ１０，Ｒ０）、その内積が負であっ
たなら、計算された内積の代わりに条件付きでゼロを格納する（ｔ．ｓｉｉ．ｐ
．ｗＲ０，Ａ２＋，０）。すなわち、その比較は、Ｒ１０がＲ０より小さいと
いうことが真であるかを判定する。負の値を取り除くこの内積の実施は、たとえ
ば、３次元グラフィックス・アプリケーションのためのライティング計算で使用
される。

【００５２】ここまで本発明について、本発明を実施するための現在の好ましい方法および
装置のコンテキストで開示してきたが、当分野の一般技術者であれば、様々な代
替および変形の実施態様がすでに明らかであろう。たとえば、本発明は、命令を
ＶＩＭにロードし、さらにその命令を実行するための機能を除外するものではな
い。この機能は、命令の形式およびハードウェアの複雑さなど、他の考慮すべき
点の中で、現在の好ましいプログラミング・モデルを必要以上に複雑化してしま
うものであるとみなされた。したがって、ロードｉＶＬＩＷ区切り符号方式が選
択されたのである。

【図面の簡単な説明】

【図１】本発明による、ＭａｎＡｒｒａｙの間接的ＶＬＩＥＷ命令メモリの様々な態様
を示す。

【図２】基本的なｉＶＬＩＷデータ・パスを示す。

【図３】ＡＬＵスロットの拡大図を備えた、５スロットｉＶＬＩＷを示す。

【図４Ａ】ＬＶロード／修正ＶＬＩＷ命令を示す。

【図４Ｂ】ＸＶ実行ＶＬＩＷ命令を示す。

【図４Ｃ】命令フィールド定義を示す。

【図４Ｄ】他の命令フィールド定義を示す。

【図４Ｅ】ＡＤＤ命令を示す。

【図４Ｆ】２×２ＭａｎＡｒｒａｙ構成における、３つの同期ＭＩＭＤｉＶＬＩＷ用
のスロット記憶装置を示す。

【図５】本発明による、ｉＶＬＩＷロードおよびフェッチ・パイプラインを示す。

【図６】ＳＩＭＤｉＶＬＩＷ配列処理の態様を示す。

【図７】ｉＶＬＩＷ変換拡張を示す。

【図８Ａ】ｉＶＬＩＷ変換拡張のロードおよびフェッチ・パイプラインを示す。

【図８Ｂ】ＶＩＭｉＶＬＩＷ記憶装置用の代替形式を示す。

【図９】送信モデルを使用したＳＭＩＭＤ通信に関する、送信モデル・クラスタ・スイ
ッチ制御および例示的障害を示す。

【図１０】中央クラスタ・スイッチ制御を備えた送信モデルを示す。

【図１１】ＳＭＩＭＤモード動作中の通信ハザードを避けるために使用される、受信モデ
ル・クラスタ・スイッチ制御を示す。

───────────────────────────────────────────────────── フロントページの続き (71)出願人Ｓｕｉｔｅ 210， 6340 ＱｕａｄｒａｎｇｌｅＤｒｉｖｅ，ＣｈａｐｅｌＨｉｌｌ，ＮＣ 27514 Ｕ．Ｓ．Ａ． (72)発明者ドラベンストットトーマスエルアメリカ合衆国ノースカロライナ州 27514 チャペルヒル，ファリントンロード 6123 アパートメントエム９ (72)発明者レビラジュアンギラーモアメリカ合衆国ノースカロライナ州 27513 キャリー，ワゴントレールドライブ 211 (72)発明者ストルーベデビッドカールアメリカ合衆国ノースカロライナ州 27613 ラレイ，ベンブリッジドライブ 2621 (72)発明者モーリスグレイスンアメリカ合衆国ノースカロライナ州 27707 ダーハム，ウォーリンフォードプレイス 4114 Ｆターム(参考） 5B045 BB54 GG12 GG14 GG15

Claims

【特許請求の範囲】

【請求項１】間接的超長命令語（ＶＬＩＷ）処理システムであって、ＶＩＭメモリ位置内のスロットに命令を格納するためのＶＬＩＷ命令メモリ（
ＶＩＭ）を有する第１の処理要素（ＰＥ）と、命令タイプを定義する複数のグループ・ビットおよび実行ユニット・タイプを
定義する複数のユニット・フィールド・ビットを有する、機能命令を格納するた
めの第１のレジスタと、複数のグループ・ビットおよび複数のユニット・フィールド・ビットを解読す
るためのプリデコーダと、前記解読に基づいてＶＩＭ内にある前記スロットのうちの適切な１つに機能命
令をロードするためのロード機構とを含むシステム。
【請求項２】間接的にＶＬＩＷを実行するためのアドレス・オフセットお
よびベース・アドレス・レジスタへのベース・ポインタを含んでいる実行ＶＬＩ
Ｗ命令（ＸＶ）である制御命令をさらに含む、請求項１に記載のシステム。
【請求項３】間接的にＶＬＩＷを実行するためのアドレス・オフセットお
よびベース・アドレス・レジスタへのベース・ポインタを含んでいるロード／修
正ＶＬＩＷ命令（ＬＶ）である制御命令をさらに含む、請求項１に記載のシステ
ム。
【請求項４】記憶部がよりコンパクトになるように、機能命令がＶＩＭに
格納される前に、機能命令からグループ・ビットおよびユニット・フィールド・
ビットが取り除かれる、請求項１に記載のシステム。
【請求項５】制御命令がＶＩＭに格納される前に、機能命令からグループ
・ビットおよびユニット・フィールド・ビットが取り除かれ、少なくとも１つの
置換ビットがグループ・ビットまたはユニット・フィールド・ビットのいずれか
に追加される、請求項１に記載のシステム。
【請求項６】前記置換ビットがイネーブル／ディスエーブル・ビットであ
る、請求項５に記載のシステム。
【請求項７】前記置換ビットが動作コード拡張ビットである、請求項５に
記載のシステム。
【請求項８】前記置換ビットがレジスタ・ファイル拡張ビットである、請
求項５に記載のシステム。
【請求項９】前記置換ビットが条件付き実行拡張ビットである、請求項５
に記載のシステム。
【請求項１０】複数の実行ユニットならびに第１および第２のレジスタ・
バンクをさらに含み、レジスタ・ファイル拡張ビットが使用され、複数の実行ユ
ニットが第１のレジスタ・バンクまたは第２のレジスタ・バンクからの読取りま
たはそこへの書込みを行う、請求項８に記載のシステム。
【請求項１１】機能命令を格納するための第２のレジスタと、第１のレジ
スタの出力を第２のレジスタの入力に接続するためのバイパス径路と、機能命令
がＶＩＭにロードされることなく第１のレジスタから第２のレジスタに渡される
、バイパス動作を選択するための選択機構とをさらに含む、請求項１に記載のシ
ステム。
【請求項１２】制御命令が第２のレジスタ内に格納される前に、１つまた
は複数のグループ・ビットおよびユニット・フィールド・ビットが置き換えられ
る、請求項１１に記載のシステム。
【請求項１３】ネットワーク・インターフェース接続を介して第１のＰＥ
に接続された少なくとも１つの追加ＰＥをさらに含み、各ＰＥが、それによって
制御される受信ポートに接続された関連付けられたクラスタ・スイッチを有する
、請求項１に記載のシステム。
【請求項１４】前記関連付けられたクラスタ・スイッチが、ＰＥのクラス
タ内にＰＥ間の独立した径路を提供するために相互接続されたマルチプレクサを
備えた、請求項１３に記載のシステム。
【請求項１５】第１のＰＥに接続されたシーケンス・プロセッサ（ＳＰ）
をさらに含み、制御命令と前記機能命令の両方を第１のＰＥに提供し、制御命令
が実行ＶＬＩＷ命令（ＸＶ）またはロード／修正ＶＬＩＷ命令（ＬＶ）のいずれ
かであり、ＸＶ命令およびＬＶ命令の両方が、間接的にＶＬＩＷを実行するため
のアドレス・オフセットおよびベース・ポインタを含んでいる、請求項１に記載
のシステム。
【請求項１６】ＳＰに接続された少なくとも１つの追加ＰＥをさらに含み
、前記制御命令が第１のＰＥおよび前記少なくとも１つの追加ＰＥの両方に同期
的に提供されるために、同じＶＩＭアドレスで異なるＶＬＩＷを実行するときに
、前記ＰＥを同期的多重命令多重データ・ストリーム（ＳＭＩＭＤ）マシンとし
て動作させ、そうでない場合は前記ＰＥがＳＭＩＤマシンとして動作する、請求
項１５に記載のシステム。
【請求項１７】複数のＰＥがＳＰに接続され、前記複数のＰＥが１つまた
は複数のＰＥの第１グループおよび第２グループに編成された、請求項１６に記
載のシステム。
【請求項１８】ＰＥの第１グループが、動作サイクル中に第１のＶＩＭア
ドレスにあるＶＬＩＷ命令に対して間接的に動作し、ＰＥの第２グループが、動
作サイクル中に同じ第１のＶＩＭアドレスにある異なるＶＬＩＷ命令に対して間
接的に動作する、請求項１７に記載のシステム。
【請求項１９】各ＰＥが受信ポートを有し、前記受信ポートでデータを受
け取るかどうかを制御する通信制御の受信モデルに従って複数のＰＥが動作する
、請求項１７に記載のシステム。
【請求項２０】各ＰＥが、受信ポートに接続された入力マルチプレクサを
有し、前記入力マルチプレクサを制御することによって通信を制御する、請求項
１９に記載のシステム。
【請求項２１】複数のＰＥが、１つのＰＥが、他のＰＥが前記複数のＰＥ
のそれぞれについてＶＩＭ内の同じ位置にあるデータを使用可能にしている径路
を指定する受信命令を有するように協働命令を格納することで協働するようにプ
ログラミングされている、請求項１９に記載のシステム。
【請求項２２】個別のＰＥのオンまたはオフをマスキングするためのマス
キング機構をさらに含む、請求項１７に記載のシステム。
【請求項２３】ＶＬＩＷ動作中に、ＯＮにマスクされたＰＥのＶＩＭにロ
ードされ、ＯＦＦにマスクされたＰＥのＶＩＭにはロードされない、請求項２２
に記載のシステム。
【請求項２４】同じサイクル中に、異なるＰＥが異なるＶＬＩＷを実行す
る、請求項１７に記載のシステム。
【請求項２５】ＶＩＭが、格納ユニット命令、ロード・ユニット命令、演
算論理命令、乗積算ユニット命令、またはデータ選択ユニット命令といったタイ
プの機能命令を格納するためのスロットを備えた、請求項１に記載のシステム。
【請求項２６】複数のＰＥが使用され、ＶＬＩＷスロットが異なるタスク
に関連付けられており、ＰＥが同じサイクル中に異なるタスクに対して複数の動
作を同時に実行することができる、請求項２５に記載のシステム。
【請求項２７】超長命令語（ＶＬＩＷ）処理システムであって、指定されたＶＩＭアドレスにあるスロットにＶＬＩＷを格納するためのＶＬＩ
Ｗメモリ（ＶＩＭ）を有する第１の処理要素（ＰＥ）と、制御命令と機能命令の両方を格納するための第１のレジスタと、複数のグループ・ビットを解読することで制御命令と機能命令とを区別するた
めのプリデコーダと、前記制御命令の前記復号に基づいて、ＶＩＭ内にある前記スロットのうちの適
切な１つに機能命令をロードするためのロード機構とを含むシステム。
【請求項２８】ＰＥにロードＶＬＩＷ（ＬＶ）区切り符号を送出するシー
ケンス・プロセッサ（ＳＰ）制御装置をさらに含み、その後、ＬＶ区切り符号中
で指定された前記ＶＩＭ内のＶＩＭアドレスに命令シーケンスがロードされる、
請求項２７に記載のＶＬＩＷ処理システム。
【請求項２９】少なくとも２つの処理要素（ＰＥ）を備えた単一命令多重
データ・ストリーム（ＳＩＭＤ）マシンであって、前記ＳＩＭＤマシン内の各Ｐ
Ｅが、ＶＬＩＷメモリ（ＶＩＭ）内に格納されたＶＬＩＷ命令に対して間接的に
動作し、間接的な実行が実行ＶＬＩＷ（ＸＶ）命令によって開始され、異なるＶ
ＬＩＷ命令が同じＶＩＭアドレスのＰＥ内に格納されるマシン。
【請求項３０】前記ＸＶ命令が、ＶＬＩＷを間接的に実行するために、各
ＰＥごとにオフセット・アドレスおよびベース・アドレス・レジスタへのポイン
タを含んでいる、請求項２９に記載のマシン。
【請求項３１】命令が複数のＰＥ内のＶＩＭに受け取られたときにローデ
ィング・プロセスをセットアップして命令をロードするロード制御命令（ＬＶ）
を利用して、命令が複数のＰＥのＶＩＭ内に格納される、請求項２９に記載のマ
シン。
【請求項３２】制御命令ＸＶおよびＬＶがＳＩＭＤＳＰ制御装置によっ
てＰＥにディスパッチされるＳＩＭＤシーケンス・プロセッサ（ＳＰ）制御装置
をさらに含む、請求項３０に記載のマシン。
【請求項３３】間接的超長命令語（ＶＬＩＷ）処理方法であって、第１の処理要素（ＰＥ）内にあるＶＬＩＷ命令メモリ（ＶＩＭ）内に格納すべ
き第１のＶＬＩＷ機能命令をフェッチするステップであって、前記ＶＬＩＷ機能
命令が、命令タイプを定義する複数のグループ・ビットと、実行ユニット・タイ
プを定義する複数のユニット・フィールド・ビットとを有するステップと、第１のレジスタ内に第１の機能命令を格納するステップと、プリデコーダを利用して、複数のグループ・ビットおよび複数のユニット・フ
ィールド・ビットを解読するステップと、前記解読に基づいて前記ＶＩＭのロード機構を用いて、適切なアドレスにある
前記ＶＩＭ内に機能命令をロードするステップとを含む方法。
【請求項３４】ＶＬＩＷを間接的に実行するためのアドレス・オフセット
およびベース・アドレス・レジスタへのベース・ポインタを含んでいる実行ＶＬ
ＩＷ命令（ＸＶ）である制御命令を受け取るステップをさらに含む、請求項３３
に記載の方法。
【請求項３５】ＶＬＩＷを間接的に実行するためのアドレス・オフセット
およびベース・アドレス・レジスタへのベース・ポインタを含んでいるロード／
修正ＶＬＩＷ命令（ＬＶ）である制御命令を受け取るステップをさらに含む、請
求項３３に記載の方法。
【請求項３６】記憶部がよりコンパクトになるように、機能命令がＶＩＭ
に格納される前に、機能命令からグループ・ビットおよびユニット・フィールド
・ビットを取り除くステップをさらに含む、請求項３３に記載の方法。
【請求項３７】制御命令がＶＩＭに格納される前に、機能命令からグルー
プ・ビットおよびユニット・フィールド・ビットを取り除くステップと、少なく
とも１つの置換ビットをグループ・ビットまたはユニット・フィールド・ビット
のいずれかに追加するステップとをさらに含む、請求項３３に記載の方法。
【請求項３８】バイパス命令を受け取るステップと、第１のＶＬＩＷ機能
命令をＶＩＭ内にロードせずに第２のレジスタ内に格納するステップとをさらに
含む、請求項３３に記載の方法。
【請求項３９】制御命令と第１のＰＥへの前記機能命令の両方を受け取る
ステップをさらに含み、前記制御命令が実行ＶＬＩＷ命令（ＸＶ）またはロード
／修正ＶＬＩＷ命令（ＬＶ）のいずれかであり、ＸＶ命令およびＬＶ命令の両方
が、第１のＰＥに接続されたシーケンス・プロセッサ（ＳＰ）から間接的にＶＬ
ＩＷを実行するためのアドレス・オフセットおよびベース・ポインタを含んでい
る、請求項３３に記載の方法。
【請求項４０】超長命令語（ＶＬＩＷ）処理方法であって、指定されたＶＩＭアドレスにあるスロットにＶＬＩＷ命令を格納するために、
第１の処理要素（ＰＥ）内にあるＶＬＩＷメモリ（ＶＩＭ）内に格納される機能
命令をフェッチするステップと、第１のレジスタ内に第１の機能命令と制御命令の両方を格納するステップと、制御命令と機能命令を区別するために、プリデコーダを利用して複数のグルー
プ・ビットを解読するステップと、前記制御命令の前記解読に基づいて、ＶＩＭ内にある前記スロットのうちの適
切な１つに機能命令をロードするステップとを含む方法。
【請求項４１】ロードＶＬＩＷ（ＬＶ）区切り符号を受け取るステップを
さらに含み、その後、シーケンス・プロセッサ（ＳＰ）制御装置からＬＶ区切り
符号内で指定された前記ＶＩＭ内のＶＩＭアドレスに命令シーケンスがロードさ
れる、請求項３８に記載のＶＬＩＷ方法。