JPH0397059A

JPH0397059A - 並列プロセッサで処理する並列な命令ストリームを同期させる方法

Info

Publication number: JPH0397059A
Application number: JP2224510A
Authority: JP
Inventors: Rajiv Gupta; ラジブ　グプタ
Original assignee: Philips Gloeilampenfabrieken NV
Current assignee: Koninklijke Philips NV
Priority date: 1989-08-29
Filing date: 1990-08-28
Publication date: 1991-04-23
Anticipated expiration: 2014-11-22
Also published as: DE69031100T2; EP0415497B1; DE69031100D1; EP0415497A2; US5317734A; JP2980178B2; EP0415497A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は一般的には、平行関連命令ストリームの実行用
平行プロセッサを持つマルチプロセッサの同期を取る方
ｌ去に関し、ストリーム生成用のコンパイル方法にも関
する。特に本発明は、ストリームに跨がるイベント又は
データ従属性をほぼ最小にする技術に関し、またプロセ
ッサ間のイベント又はデータ従属性をプロセッサ間の通
信用チャネルを使って同期的に実行することに関する。

平行プロセッサを用いることによる逐次プログラムを共
同的に実行するための二二プロセッサのそれを超える実
行速度の増加は、異なるプロセッサ上で同時に行われる
平行操作を可能とするプログラ．ムの微粒子平行性（ｆ
ｉｎｅ−ｇｒａｉｎｅｄ　ｐａｒａｌｌｅｌｉｓｍ）の
有効な開発に依存する。ループ・レベルの（ｌｏｏｐｌ
ｅｖｅｌ）平行性は一般的に市販のマルチプロセッサ・
システムで有効に開発されているが、その一方でプログ
ラムの逐次的な部分に現れる超ループ（ループ外または
非ループ）　［ｅｘｔｒａ−ｌｏｏｐ（ｏｕｔ−ｏｆｌ
ｏｏｐ　ｏｒ　ｎｏｎ−１ｏｏｐ）］平行性は有効に明
確化することがさらに困難である。

〔従来の技術〕

アーキテクチュアの、極めて長い命令語族［ＶｅｒｙＬ
ｏｎｇ　Ｉｎｓｔｒｕｃｔｉｏｎ　Ｗｏｒｄ（ＶＬＩＷ
）　ｆａｍｉｌｙ］はプログラムの逐次的な部分に現れ
る微粒子平行性を開発することができる。既知のこの種
の機械はトレース・スケジューリングに基づくコンパイ
ラをプログラムの逐次的な部分に現れる超ループ平行性
を検索しスケジュールするのに用いており（例えば、Ｊ
．　Ａ．　Ｆｉｓｈｅｒ著“ＴＲＡＣＥ　ＳＣＨＥＤＵ
ＬＩＮＧ：　Ａ　ＴＥＣＨＮ．ＩＱＵＥＦＯＲ　ＧＬＯ
ＢＡＬ　ＭＩＣＲＯＣＯＤＥ　ＣＯＭＰＡＣＴＩＯＮ”
，　ＩＥＥＥ　Ｔｒａｎｓ．ｏｎ　Ｃｏｍｐｕｔｅｒｓ
誌Ｖｏ　Ｉ．　７，　Ｎｏ．　Ｃ−３０．　１９８１年
７月号ｐｐ．４７８−４９０所載、を参照）、またルー
プを巻き戻してループ・レベルの平行性を超ループ平行
性に変換することによりループ・レベルの平行性も開発
している。

しかしＶＬＩＷ機械は、単一命令ストリームからフエツ
チしたロックステップ（ｌｏｃｋｓｔｅｐ）実行命令中
に動作するマルチプル・プロセッサから或る。長い命令
語は、異なるプロセッサによる平行実行用にスケジュー
ルされる動作を許して、各命令中の数個の微粒子動作の
開始を許す。プロセッサのロックステップ動作はプロセ
ッサが同期していることを暗黙に保証しているが、一方
でＶＬＩＷ機械の速度は、走行中に発生するコンパイル
時には予想できなかったイベントにより、いくつかの妥
協をする。例えばメモリ・バンク・アクセスの衝突は、
ある操作に対し要求される操作対象がコンパイル時には
解っていないかも知れないから、必ず避けられるとは限
らない。そのような走行中のイベントは、ある長い命令
中の動作の１つの完了を遅延させる可能性があり、それ
は全命令の完了を遅延させるだろう。

ＶＬＩＷアーキテクチュアのマルチプル命令ストリーム
・アーキテクチュアへの拡大は、ある１つのプロセッサ
により展開され他のプロセッサにより必要とされるデー
タを、該他のプロセッサが蓄積手段から読み出そうと意
図する時には既に始めのプロセッサにより共用の蓄積手
段に書き込んであることを保証するために、平行プロセ
ッサの同期を取る手段が要求される。データがプロセッ
サ間を受け渡されることを可能にするための共用蓄積手
段の使用もまた、メモリ位置内のデータがそれを必要と
する総てのプロセッサにより、他のデータがそこへ書き
込まれる前に既に読み出されていることを保証するため
に、更にもうｌっの同期を取ることを要求する。

プロセッサの同期を取るｌっの方法は、命令ストリーム
中に障壁（ｂａｒｒｉｅｒｓ）を設けることで、これは
同じ出願人によりｌ９８８年８月２日に出願された米国
特許出願第２２７，　２７６号（特願平１−１９８０８
５号すなわち特開平２−１１０７６３号に相当）に説明
してある通り、共用メモリに書き込むとか共用メモリか
ら読み出すというようなプロセッサに跨がるイベントの
一時的指令を保証するものである。本発明では平行プロ
セッサは別のやり方で同期を取っている、すなわちこれ
らのプロセッサの同期を取るためにプロセッサ間の従属
データのストリームに跨がる通信を用いることによる。

ＨＥＰ　マルチプロセッサ（Ｂ．　Ｊ．　Ｓｍｉｔｈ，
“ＡＲＣＨ　ＩＴＥＣＴＵＲＥＡＮＤ　ＡＰＰＬｉＣＡ
ＴＩＯＮＳ　ＯＦ　ＴＨＥ　ＨＥＰ　ＭＵＬＴＩＰＲＯ
ＣＥＳＳＯＲＣＯＭＰＵＴＥＲ　ＳＹＳＴＥＭ”，ＲＥ
ＡＬ−ＴＩＭＥ　ＳＩＧＮＡＬ　ＰＲＯＣＥＳＳＩＮＧ
誌Ｖｏｌ．　２９８．　■９８１年８月号ｐｐ，　２４
１−２４８所載、及びＪ．Ｓ．Ｋｏｗａｌｉｋ編“ＰＡ
ＲＡＬＬＥＬ　ＭＩＭＤ　ＣＯＭＰＵＴＡＴＩＯＮ：　
ＨＥＰＳＵＰＥＲＣＯＭＰＵＴＥＲ　ＡＮＤ　ｒＴｓ　
ＡＰＰＬＩＣＡＴＩＯＮ″ＭｒＴ　’Ｐｒｅｓｓ，１９
８５年発行を参照）は、プロセッサ間のデータの同期通
信の可能な多数のチャネルを、共用メモリの中およびレ
ジスタのセットの中の各位置に同期ビットを付加するこ
とにより装備している。各命令中の制御ビットが、読み
出し操作は無条件か又は該位置が「満杯」になるまで待
たなければならないかを指示する。しかしＨＥＰマルチ
プロセッサでは、同期ビットは一般的に、例え該ビット
が正常な状態になかったとしても、プロセッサを一時停
止させることはない。寧ろプロセスは、プログラム・カ
ウンタ及び該プロセス中では不変の命令をそのままにし
て、一時停止する。別のプロセスへや実行のシフト及び
実行されない命令は、そのプロセスがパイプラインを通
してその次のトリップをするときにのみ再度試みられる
。一方、他のストリームからの命令はパイプラインを満
杯にし続けるように発せられる。その結果としてＨＥＰ
のアプローチはストリームの数がシステム中のプロセッ
サの数を上回らない限り特に有用ではない。

更に、共用メモリ中に設けられた可能性として無限のチ
ャネルは、プロセッサ同期イベント又はデータを通信す
るためには、レジスタ中に設けられたチャネルに比して
相対的に低速であるが故に、有用ではない。これに対し
てレジスタ中に設けられたチャネルは同期イベントを通
信するためには有用だけれども、１つ又はそれ以上のレ
ジスタや機能を引用する典型的な命令中でアドレスされ
得るために元来その数が限定されている。結果として、
典型的逐次プログラム用のＶＬＩＷアーキテクチュアの
ための既知のコンパイラ技術の応用の結果としての同期
を必要とするプロセッサに跨がる従属イベント又はデー
タの数は、そのような従属性を実現する用意のある有用
なチャネルの数を超えるかも知れない。

〔解決しようとする課題〕

本発明の目的はプロセッサを同期させるためのマルチプ
ロセッサの操作方法を、プロセッサ間の高速同期通信用
の比較的少ない数の手段を用いて提供することである。

また、平行命令ストリームを、ストリームに跨がるデー
タやイベント従属性をほぼ最小にするやり方で、生成す
るためのコンパイル方法を提供することも本発明のもう
１つの目的である。

〔課題解決の手段〕

これら及びその他の目的は、プロセッサ間の同期データ
従属性を伝達する比較的少ない数のレジスタ・チャネル
を設けることにより実現される。

プロセッサに跨がる従属「データ」　（この語はイベン
トの生起の告知をも含むことを意味する）は、１つのプ
ロセッサによる記憶手段への書き込み操作とそれに引き
続くもう１つのプロセッサによる記憶手段からの読み出
し操作とにより特徴付けられる。いわゆる「同期の冗長
なＪ（“ｓｙｎｃｈｒｏｎ　ｉｚａｔｉｏｎ　ｒｅｄｕ
ｎｄａｎｔ”）プロセッサに跨がるデータ従属性は、限
定されたレジスタ・チャネル資源を酷使しないように、
在来形の（同期ビットを持たない）共用メモリへ最初に
書き込み、該共用メモリから最後に読み出すという非同
期的なやり方で伝達してもよいというのが本発明の１つ
の特徴である。

これら同期の冗長なデータ従属性の同期は、各々がある
特定のプロセッサに跨がるデータ従属性に結び付く１つ
またはそれ以上のレジスタ・チャネルを通して実施する
ことにより保証され、該特定のプロセッサに跨がるデー
タ従属性は、最初の書き込みより早くではない上記もう
１つのプロセッサによる２番目の書き込みと上記最後の
読み出しより遅くではない該もう１つのプロセッサによ
る最後から２番目の読み出しとで始まる１つまたはそれ
以上の書き込み・読み出しの対の一時的なシークエンス
によって特徴付けられる。種々の書き込み又は読み出し
イベントの一時的な順序は、レジスタ・チャネルと種々
のプロセッサに対する書き込み又は読み出しの関連位置
とにより定められる。

コンパイル方法においては、逐次的プログラムからの操
作は複数の平行ストリームへとスケジュールされ、プロ
セッサに跨がるデータ従属性の書き込みおよび読み出し
も同じくスケジュールされる。これを達成するために、
逐次的プログラムは先ず始めにノードの指向非巡回グラ
フが動作を表すものとし、指向エッジがデータ従属性を
表すものとして記述され、該ノードは多数の命令ストリ
ームへとスケジュールされる。そうするとノード間のエ
ッジは、ストリーム内エッジかストリーム間エッジかの
いずれかである。スヶジューリングは、ストリーム中で
ノードが、ストリーム内エッジはダウンストリームを指
向してストリーム内エッジにより表されるデータ従属性
を暗黙に実施されるようなやり方で順序付けられるよう
になっている。ストリーム間エッジはプロセッサ間のデ
ータの転移を要求するストリームに跨がる（又はプロセ
ッサに跨がる）データ従属性を表す。

本発明のもう１つの特徴として、同期の冗長なストリー
ムに跨がるエッジは識別されて、非同期の冗長なストリ
ームに跨がるエッジがレジスタ・チャネルの形体を採る
限定された数の同期データ転移手段上の書き込み・読み
出しの対としてスケジュールされることを許す。

本発明の更にもう１つの特徴として、ノードをストリー
ムへとスケジュールする方法は、結果としてのストリー
ム間エッジの数をほぼ最小にするように選択される。こ
のことは、処理に対して逆の順序でスケジューリングを
決定することにより達成され、特に最初にグラフ中で最
大の高さを持つスケジュールされていないノードを識別
して該ノードはストリーム間エッジの生成を最小にする
やり方で他のストリーム中へスケジュールされることに
より達或される。この方法のさらにもう１つの特徴は、
最大の高さを持つノードがスケジュールされた後に該ノ
ードから枝分かれした（ｒｏｏｔｅｄ）サブグラフが識
別され、各サブグラフから同数のノードがノードの高さ
の小さくなる順序でルーティング・ノードとして同じそ
れぞれのストリーム中へスケジュールされることである
。コンパイル方法のもう１つの特徴は、同じ同期データ
転移手段の再使用のための候補のストリーム間エッジの
中での識別である。

本発明はさらに、再使用されたプロセッサ間データ転移
手段への書き込みの阻止の可能性によりもたらされる暗
黙の同期の識別と、それにより同期が冗長とされたスト
リーム間エッジの中でのまた別の識別とによって特徴付
けられる。

同期をとっての実行を要求するプロセッサに跨がるデー
タ従属性の数を減らすか又は最小にすることによる本発
明の種々の特徴は、典型的なプログラム中でマルチプロ
セッサが微粒子平行性を効果的に開発することを可能な
ものとし、一方ではそれに対する平行プロセッサの同期
を採るためには、．限定された数のレジスタ・チャネル
のみが要求されるのである。

〔実施例〕

本発明のその他の目的、特徴及び効果は、以下に述べる
添付図面を引用した好適実施例の詳細な説明により明ら
かにされよう。

第１ａ図及び第１ｂ図の、マルチプル命令ストリーム・
マルチプル・データ・ストリーム（ＭＩＭＤ）形体で組
織されたマルチプロセッサｌＯは、複数個のプロセッサ
ＰＩ−Ｐ４（説明上その数を４とする）を、同じ数の命
令ストリームＳ　ｌ−８　４中の逐次的な命令をそれぞ
れ実行するために、有している。ストリームＳｌ−８４
は適切な命令記憶手段（図示していない）からプロセッ
サＰＬ−Ｐ４への入力である。

同じく図示していないが各プロセッサは自分自身の内部
レジスタと恐らく自分自身のメモリとを持ち、それらが
該プロセッサのために命令ストリーム中のダウンストリ
ーム操作に関し後の使用に備えてプロセッサにより造り
出されたデータを蓄積しておく手段を与える。

マルチプロセッサＩＯはまた、比較的多数のメモリ位置
を持つ普通の共用ランダムアクセスメモリ１２を含み、
該共用メモｉ川２は各プロセッサと共用メモリ比とを結
ぶアドレス及びデータ・ラインｌ４を介してプロセッサ
Ｐ　．−Ｐ．のどれかにより選択的に読み出したり書き
込んだりすることができる。

該共用メモリｌ２は、プロセッサに跨がる又はストリー
ムに跨がる従属データを、同期を取るための他の手段を
用いずにプロセッサ間で受け渡すことはできない。その
理由は、共用メモＩ川２は記憶した値をそれが書き込ま
れる（すなわちメモリ位置が最初に満たされている）前
には読み出さないことを保証し、新しい値をあるメモリ
位置中に現在ある値が読み出された（すなわちメモリ位
置が最初に空になった）後まで該メモリ位置には書き込
まないことを保証する暗黙の手段を持たないからである
。これに反して、ある限定された数の共用レジスタ・チ
ャネルｌ６がプロセッサＰ　，−Ｐ　４のどれからでも
ほぼ同等の相対的に速い速度でアクセスされるように設
けられていて、各プロセッサは該速度でそれぞれのプロ
セッサからデータ、アドレス及び制御ライン１８を介し
てその内部レジスタの１つにアクセスし得るものである
。しかし該レジスタ・チャネルｌ６は通信特性（ｃｏｍ
ｍｕｎ　ｉｃａｔ　ｉｏｎａｔｔｒｉｂｕｔｅｓ）すな
わちチャネルのセマンティクス（ｓｅｍａｎｔｉｃｓ　
ｏｆ　ｃｈａｎｎｅｌｓ）も持っており１同期の目的の
ために読み出し又は書き込みを阻止することを許す。共
用レジスタ・チャネル１６の各々は、データ語を記憶す
るための、共用メモリ位置に格納できるのと同じ形式す
なわちビット数の等しい領域２０と、これにプラスして
レジスタ・チャネルが一杯か空かを示す同期ビット用の
追加領域２２とを持っている。

プロセッサの命令セットは、共用メモリ比に向けての普
通の読み出し及び書き込み命令を持ち、また共用レジス
タ・チャネル１６のために次の命令を持つことを好適と
する。

「クリア」　：同期ビットが“０”にセットされ、ある
特定のレジスタ・チャネルが空であることを示す。

「非破壊読み出し」　二同期ビットが“１”であって該
チャネルが一杯であることを示している時、読み出しが
できる。同期ビットは非破壊読み出しによって不変のま
まで、ついぎの読み出−しを可能なものとする。同期ビ
ットが“０”である限り該レジスタ・チャネルは読み出
しを阻止される。

「破壊読み出い　：非破壊読み出しと同様であるが、但
し読み出しによって同期ビットが“０”にセットされる
。

「非破壊書き込み」　：もし同期ビットが“０”ならば
、数値が書き込まれ同期ビットが“ｌ”にセットされて
、レジスタ・チャネルが一杯であることを示す。同期ビ
ットが“１′である限り該レジスタ・チャネルは書き込
みを阻止される。

「破壊書き込み」　：非破壊書き込みと同様であるが、
但し例え同期ビットが“ｌ”であっても書き込みはなさ
れる。書き込み後は同期ビットは“１”である。

命令ストリームＳ　Ｉ−８　４は逐次プログラムをコン
パイルすることにより生成され、それによって異なるプ
ログラム上で平行に実行することのできる動作のシーク
エンスを識別することによりプログラム中の微拉子平行
性の利点を享受するのである。このことは逐次プログラ
ムにおける操作の間のデータ又はイベント従属性の分析
を必要とする。

第２ａ図は、次の説明的な逐次プログラムのステップａ［ｉ］：　　＝　Ｘｓ　ｙ　＋　ｃ／ｄｚ：＝ａ［ｊ
］傘　５のための単一の方向付けられた非巡回グラフ（ＤＡＣ）
を示す、。

在では四角い箱が「ノード」と名付けられる動作を表し
、引用番号ＮｌからＮ１７までが打ってあり、ノード間
の方向付けられた線が「エツジ」と名付けられるデータ
又はイベント従属性を表す。特にノードＮｌからＮ９ま
では説明的なプログラム・ステップのための種々のデー
タを生成する動作を表し、ノードＮＩＯからＮ１７まで
は該データ上の逐次プログラム・ステップの実行を表す
。この例ではＮ１５がＮｌ４からデータ値を受け取り、
アドレスＮＩＯからアドレス値の形でデータを受け取る
。Ｎ１５は該値をアドレスに割当て（書き込み）、ａ［
ｉ］を造り出す。Ｎ１６はＮｌ３からアドレスを受け取
り、該アドレスを読み出して、ａ［ｊｌを評価する。も
しｉ＝ｊならばＮｌ５はａ［ｊｌの値を割り当てるが故
に、ａ［ｉ］は既にＮｌ５により割り当てられているこ
とが必要であるから、Ｎ１５からＮ１６に向かうエッジ
２４はイベント従属であるところのデータ従属性のタイ
プを表すことを示している。Ｎ１７はＮ１６からａ［Ｈ
の値をまたＮ９からある定数を受け取り、２を生戒する
最後の動作を評価するのだから、グラフの頂上にある。

複数の命令ストリームへのノードのスケジューリングは
、ＤＡＧ中のノードの高さ又は深さを参照してなされる
。第２ｂ図には、第２ａ図のグラフ中の各種ノードの深
さ及び高さを掲げる。該グラフを家族の木になぞらえ、
各エッジは子供のノードからその直接の親のノードに向
かっているものとすれば、深さという目的に対してはＮ
１７は１に等しい深さを持ち、その他の各ノードはその
直接の親プラス１の深さを持つ。高さの目的に対しては
Ｎ１からＮ９までの各ノードは１に等しい高さを持ち、
その他の各ノードは１プラス一番高い子供の高さに等し
い高さを持つ。更に続いて、ノードは複数の命令ストリ
ーム中へのスケジューリングのために、通常は最初に実
行されるＤＡＧ中の最大の深さや最小の高さのノード及
び通常は最後に実行される最小の深さや最大の高さのノ
ードで選択されなければならない。以下の議論は第２ａ
図の木にのみ基づいているけれども、ある特定のデータ
が２回又はそれ以上使われるという１人の子供が１人よ
り多い親を持つことができる更に一般化された非巡回グ
ラフにも、本発明は同じく適用できる。

第３図は、第２ａ図のそれと類似の方向付けられた非巡
回グラフ（ＤＡＣ）を示し、この図ではノードを○で表
して引用番号はＮｌ−Ｎ１７を用い、今はＤＡＣの形体
のみが重要なのだから、動作の内容は除いてある。各ノ
ードには記号Ｓ＋．＋　　Ｓｒ．９及びＳ２．　ｌ一Ｓ
２，８が付されており、これらはそれぞれ第１及び第２
平行プロセッサでそれぞれ実行するための第１及び第２
命令ストリーム中のノードのナイーブな割当て方法によ
るスケジューリングを示している。

このナイーブな方ｌ去では、先ず既にスケジュールされ
る用意のあるノードは最大の深さを持つと識別され、命
令ストリーム中に交互に割り当てられる。こうしてＮ３
−Ｎ６はそれぞれ：第１ストリームの第Ｉ命令（Ｓ＋．
＋）、第２ストリームの第１命令（Ｓ２、１）、第１ス
トリームの第２命令（Ｓｔ．ｔ）、第２ストリームの第
２命令（３２．　２）の順序で割り当てられる。次いで
、その次にスケジュールされる用意のあるノードの深さ
のレベルが、ノードＮｌ．　Ｎ２，　Ｎｉｌ，Ｎｌ２と
識別され、識別されたノードの命令ストリーム中への交
互割り当てが続けられる。その後は、ノードの深さの次
のレベルが識別され、すべてのノードがスケジュールさ
れるまでスケジュールが続けられる。該ナイーブな方法
の結果を検討すると、“Ｅ”とラベルを付された８つの
エッジは、プロセッサ間で実行されることを要求される
データ従属性を表すストリーム間またはストリームに跨
がるエッジである。

第４図は、本発明の原理によりマルチプル命令ストリー
ムヘノードをスケジュールするためのコンパイル方法の
フロウチャートであって、これは生成されるストリーム
間エッジの数を最小にするものである。在ではノードの
スケジューリングはトップから始まり、とりわけノード
の深さではなくノードの高さに基づいて、逆の順序で決
定される。こうして第１ステップ２６ではＤＡＧ中の各
ノードの高さが決定される。次にステップ２ｇで、スケ
ジュールされる用意のあるノードの高さの順のリストが
生成される。その次にステップ３ｏで、スケジュールさ
れる用意のあるノードがプロセッサ（またはストリーム
）の数より少ないかどうかが判定される。ステップ３２
では、スケジュールされる用意のあるノードの数がプロ
セッサの数に達するまで異なるプロセッサ上に、それが
可能な場合にはノードはその直接の親（単数又は複数）
と同じプロセッサにスケジュールされるというやり方で
、スケジュールされる。ステップ３４では、前のステッ
プで各プロセッサにノードがスケジュールされたかどう
か、またそのような各ノードはサブグラフの技分かれ（
親）であるかどうかを判定する。もしそうであればステ
ップ３６が実行され、そこではこれらのノードで枝分か
れした最小のサブグラフから最高のノードに等しい数が
同じプロセッサ上に技分かれノードとしてスケジュール
される。もしステップ３４の判定がそうでなければ、通
常はステップ３６に続くステップ３８に直接行く分枝か
ある。ステップ３８ではスケジュールされるべきノード
が残っているかどうかを判定する。もしそうならステッ
プ２８に戻る分枝があり、そうでなければスケジューリ
ング処理は停止する。

このコンパイリング及びスケジ゛ユーリングの方法を第
２ａ図の方向付けられた非巡回グラフへ応用すると、第
５ａ図に示すように、Ｅとラメルを付された僅かに２つ
のストリーム間エッジが生成される。その方法は第５ａ
図に関し次に述べるステップにより更によく理解されよ
う：スケジュールされるべきノードの数はｌ７あるのだ
から、まず始めに９つのノードが第１ストリーム中のポ
ジション３１．１一８１、９にスケジュールされ、８つ
のノードが第２ストリーム中のポジションＳ２．ｌ　　
Ｓｚ．ａにスケジュールされる。最初に、ノードＮ１７
及びＮ１６がスケジュールされる用意がある、と云うの
は、Ｎｌ７は親を持たないからであり、Ｎｌ７がスケジ
ュールされれば、Ｎｌ６はスケジュールされ得るように
なるからである。これらのノードはそれぞれ第１ストリ
ームの最終動作（Ｓｌ．９）及び第２ストリームの最終
動作（３２．　８）としてスケジュールされる。Ｎ１６
は、ステップ３４の判定を否とする単一サブグラフでは
なく、２つのサブグラフに枝分かれし、ステップ３８の
判定は然りでその結果ステップ２８に戻る。ステップ２
８ではノードＮｌ５及びＮ１４がスケジュールされる用
意ありと識別され、ステップ３２でそれぞれＳ２，７及
び３１．８としてスケジュールされる。Ｎｌ４は再度、
１つのサブグラフではなく２つのサブグラフに枝分かれ
するので、ステップ３４の判定は又しても否であり、結
局ステップ２８に戻ることになり、そこでのＮＩＯから
Ｎｌ３までのノードの識別はスケジュールされる用意あ
りとなる。ステップ３２では、ＮＩＯ及びＮｉｌはそれ
ぞれＳ２．６及びＳ１，７としてスケジュールされる。

再び、Ｓ１１は２つのサブグラフに枝分かれするので、
又してもステップ２８に戻り、ノードＮｌ２及びＮ１３
の識別はスケジュールされる用意ありとなる。Ｎ１２及
びＮ１３はそれぞれＳ１，６及びＳ２，５としてスケジ
ュールされる。その後、ＮｌからＮ９までのノードがス
ケジュールされる用意ありと識別され、類似の逐次ステ
ップでＮｌからＮ９までは対になってＮｌ，　Ｎ３　　が　Ｓ２．，、Ｓ１，５　　としてＮ
２、Ｎ４　　が　Ｓ，，３、Ｓ１．，としてＮ５、Ｎ７
　　が　Ｓ１，３、Ｓ２．２　　としてＮ６、Ｎ８　　
が　Ｓ１，２、Ｓ１．１　　として割り当てられる。

プロセッサに跨がるエッジが、ノードを逆順序でスケジ
ュールすることにより、どのようにほぼ最小化できるか
は今や明らかになった、と云うのは、このアプローチが
プロセッサ間に受け渡されるデータの量を最小にするよ
うに全体のサブグラフを割り当てる傾向をもつからであ
る。その各々がそれ自身のサブグラフに枝分かれするノ
ードがスケジュールされると、枝分かれノードがスケジ
ュールされるのにつれてサブグラフから同数の一番高い
ノードを同じプロセッサ上にスケジュールするステップ
３６によって、コンパイル過程は加速される。

第５ｂ図は、第５ａ図のノードをスケジューリングの順
序で、それぞれが第１及び第２命令ストリームＳ，、Ｓ
２を表す２つの列に再配置したものである。

ストリームＳ１、Ｓ２中の動作はそれぞれプロセッサＰ
１、Ｐ２によりダウンストリームの順序で実行される。

同じ列中でノード間に方向付けられた種々のエッジが「
ストリーム内」エッジと呼ばれ、すべてダウンストリー
ムの方向である。列間に方向付けられて生成された２つ
のエッジＥが、「ストリームに跨がる」エッジとか「プ
ロセッサに跨がる」エッジとか「ストリーム間Ｊエッジ
といわれるものである。２つのストリームに沿っての実
行の進行は相互に関連して変動するものであるから、本
発明によればエッジＥの同期はある限定された数のレジ
スタ・チャネルによって与えられ、それはもし必要なら
ば、ストリームＳＩ中のＮ１４の結果が定められるのを
待ってＮ１５の直前でストリームＳ２の実行を一時延期
することを、書き込みが終わるまで読み出しを阻止する
ことによって、保証する。

同様に、ストリームＳｌの実行は、ストリームＳ２中の
Ｎｌ６の結果が定められるのを待ってＮｌ７の直前で一
時延期される。実際、同じレジスタ・チャネルが（２つ
の）ストリーム間エッジＥの両方を実行するために再度
使用され得る、と云うのは、これらのエッジの列間を往
き来する順序は、Ｎｌ６がＮ１５からダウンストリーム
の位置にあることにより保証されているからである。

第６ａ図及び第６ｂ図は安全な再使用の条件を描いたも
のである。各図には３つの命令ストリームＳｉ、Ｓｊ，
　Ｓｋが描かれ、それらのストリームは、各々が書き込
み動作“Ｗ″から読み出し動作“ｒ”に向けられたスト
リーム間エッジ“Ｅ”を実行するかまたは同期を取るレ
ジスタ・チャネルへの書き込み／読み出し対を持ってい
る。この実行は書き込みが終わらないと読み出しを阻止
するチャネルのセマンティクスに依るものである。第６
ａ図では、最初のストリーム間エッジは、Ｓｉでスケジ
ュールされてＷ１からＳｊでスケジュールされてＲ１へ
向かう、一方、２番目のエッジはＳｊでスケジュールさ
れてＷ２からストリームＳｋでスケジュールされてＲｌ
からＲ２へのダウンストリームへ向かう。Ｗ２はＲｌの
後でなければならないから各エッジは同じレジスタ・チ
ャネルＣｌへ割当てられることができ、そこにはＩＩＶ
２が時間的にＷｔの前に生起したり、Ｒ２が時間的にＲ
ｌの前に生起したりする可能性は全く無い。第６ｂ図に
は、３つのストリーム間エッジが描かれ、１番目のエッ
ジはＷｌからＲ１へ向けられてＣｌに割り当てられ、２
番目のエッジはＷ２からＲ２へ向けられてＣ２に割り当
てられ（それはＣＩに割り当てられることも出来たのだ
が）、３番目のエッジはＷ３からＲ３へ向けられてそれ
に対しＣＩが再使用される。Ｗ２がＲｌからのダウンス
トリームであり、Ｗ３がＲ２からのダウンストリームで
あって、ストリーム間エッジの実行の時間的順序が保証
されているから、この再使用は許されるのである。

第７図に示すのは、チャネル・レジスタの再使用が許さ
れる更に別の状態であるが、「暗黙の」同期と呼ばれる
もう１つの同期を造り出すものである。そこでは、第１
エッジおよぼ第２エッジはＳｉからＳｊに向けられ、Ｗ
２はＳｉ中でＷｌからのダウンストリームであり、Ｒ２
はＳｊ中でＲ１からのダウンストリームである。もし両
方のエッジが共に同じレジスタ・チャネルＣＩにより実
行されるならば、Ｒｌが生起するまでＷ２へのＣ１を阻
止する可能性が生じる。このことがＲ１からＷ２に向か
うストリーム間の暗黙の同期Ｕによって表されている。

第８ａ図は、１番目のストリーム間エッジＶが２番目の
ストリーム間エッジＥにより冗長に同期されている単純
な場合を示す。在ではエツジＶとＥはストリームＳｉ中
のＷｌとＷ２をそれそ゛れストリームＳｊ中のＲｌとＲ
２へ向けている。Ｗ２はＷｌからダウンストリームであ
り、ＲｌはＲ２からダウンストリームであるから、Ｅの
実行はＶが実行されることを保証する。云い方を変えれ
ば、Ｗ２はｔＶ１の後になければならないしＲｌはＲ２
の後になければならないから、Ｒ２をＷ２の後になるよ
う強制することはＲｌがＷｔの後にあることを保証する
。その結果として、■によって表されるデータ従属性は
レジスタ・チャネルによって実行される必要はなく、そ
の代わりにＷ１とＲｌが共用メモリ比に向かうことがで
きる。

第８ｂ図は、第２及び第３エッジＥにより造り出された
事実上の同期Ｔを示す。一般的に、事実上の同期Ｔは一
連の同期及びダウンストリームの動きの始めから終わり
に向かっている。従って第８ｂ図には、Ｗ２からＲ２へ
の同期と、Ｓｋに沿ったＲ２からＷ３へのダウンストリ
ームの動きと、Ｗ３からＲ３への同期とがある。すると
事実上の同期Ｔは第８ａ図のルールに従ってＷ１からＲ
ｌへ向かうエッジ■を同期の冗長なものとする。これに
代わってＶの同期冗長性は一連のダウンストリームの動
きと直接ｗ１からＲ１への同期の実行とを必要とするル
ールによっても直接に確立できる。

第９図は、上述のタイプの同期の相互作用を説明するも
のである。在では、第７図におけるようなＣｌの再使用
によるＲ１からＷ３へ向かう暗黙の同期Ｕが、Ｗ１から
Ｒ１へのエッジ、Ｗ３からＷ４へのダウンストリームの
動き及びＷ４からＲ４へのエッジと共に、ＲｌからＲ４
への事実上の同期Ｔを造り出し、次にそれがエッジＶを
同期の冗長なものとする。

第ＩＯ図は、本発明によるレジスタ・チャネル割当ての
ためのまた別のコンパイル方法のフロウチャートであっ
て、それへの入力は方向付けられた非巡回グラフ（ＤＡ
Ｃ）であり、これは第４図におけると同様にステップ４
０で複数の命令ストリーム中へスケジュールされ、その
結果のストリーム間エッジＥが識別されている。次にス
テップ４２で、第８ｂ図におけるような事実上の同期が
、第８−ｂ図におけると同様に３つ又はそれ以上のスト
リームの中のエッジ列を識別することにより付加される
。次いでステップ４４で、同期の冗長性が第８ａ図、第
８ｂ図又は第９図の原理に従って識別され、その結果と
してストリーム間エッジは、同期冗長と非同期冗長と２
つのクラスに分割される。同期冗長エッジはステップ４
６で共用メモリ１２へ書き込みそれから読み出すことに
よりスケジュールされ、一方非同期冗長エッジはレジス
タ・チャネル割当てのために更に分析される。

ステップ４８では最初の反復又は最初の通過でステップ
５０に行く分岐が展開され、該ステップ５０中でチャネ
ル再使用のための非同期冗長エッジの中の候補が、第６
ａ図、第６ｂ図におけるような暗黙の同期を生成しない
で、識別され、チャネルの再使用によりスケジュールさ
れる。最初の反復以外ではステップ４８中の分枝はステ
ップ５０をバイパスさせる。その理由はチャネル再使用
のためのそのような候補は既に割当てられているからで
ある。次にステップ５２で、非同期冗長エッジの残りの
数が割当てに使えるチャネルの残りの数を上回っている
かどうかを判定する。もし上回っていなければ残ってい
るエッジがステップ５４でスケジュールされる。しかし
若し使えるチャネルより多くのエッジが残っていたらス
テップ５６へ行き、そこでチャネル再使用のためのもう
ｌつの候補が識別される。

そのような候補は第７図のようなタイプのものである。

次にそこで生成された暗黙の同期がステップ５８で付加
されて、それからは以上のステップが繰り返され、付加
された暗黙の同期によりもう１つの事実上の同期が付加
されるステップ４２からはじまり、ステップ４４ではそ
こで同期冗長にされたエッジが識別され、ステップ４６
でスケジュールされる。一般的にこの過程によって、レ
ジスタ・チャネルの数が典型的なプログラムに対しては
十分であるという前提の下に、完全な同期がエッジのレ
ジスタ・チャネルへの割当てによって可能になるという
ことは今や明らかになった。従って、本発明の原理の典
型的な逐次プログラムへの応用の実例が、第■１図、第
１２図に関連して以下に論じられる。

第１１図は典型的なプログラムの方向付けられた非巡回
グラフ（ＤＡＣ）である。これは、ＣＡＣＭ　１４（ｔ
ｏ）．１９７１年ｌＯ月ｐｐ．６６９−６７５所載“Ｅ
ＮＴＣＡＦ　ａｎｄ　ＢＮＴＲＥ：Ｅｖａｌｕａｔｉｏ
ｎ　ｏｆ　Ｎｏｒｍａｌｉｚｅｄ　Ｔａｙｌｏｒ　Ｃｏ
ｅｆｆｉｃｉｅｎｔｓｏｆ　ａｎ　Ａｎａｌｙｔｉｃ　
Ｆｕｎｃｔｉｏｎ”というプログラムの内部ループのも
のであって、そのＤＡＣは、ｌ９８５年Ｃａｒｎｅｇｉ
ｅ−Ｍｅｌｌｏｎ　ＵｎｉｖｅｒｓｉｔｙのＰｈ．　Ｄ
学位論文ＴｈｏｍａｓＬ．　Ｒｏｄｅｈｅｆｆｅｒ，“
ＣＯＭＰＩＬＩＮＧ　ＯＲＤＩＮＡＲＹ　ＰＲＯＧＲＡ
ＭＳ　ＦＯＲＥＸＥＣＵＴＩＯＮ　ＯＮ　ＡＮ　ＡＳＹ
ＮＣＨＲＯＮＯＵＳ　ＭＵＬＴＩＰＲＯＣＥＳＳＯＲ”
から引用している。

第１２図は、第１１図のＤＡＣを、ストリーム内で順序
を付けたノードを持つ本発明の原理による４つのストリ
ームに再編成したものである。僅かに１１のストリーム
間エッジが生成され、そのうち２つは同期の冗長なもの
であることに、蔓で注意されたい。９つの非同期冗長ス
トリーム間エッジが、僅かに６つのレジスタ・チャネル
Ｃｌ−Ｃ６により、ＣＩを２回再使用し、Ｃ２を１回再
使用して実行されている。

一般的に云えば、未知のプログラムに対し、同期を保証
するのに必要なレジスタ・チャネルの最少数は、少なく
とも各プロセッサにより書き込まれるべき、そして各々
を読み出す為には別のプロセッサによるべき異なる値に
対して十分な数が必要なのである。このことは、Ｎｃを
チャネル数とし、ｐをプロセッサ数とするとき、Ｎｃ≧ｐ（ｐ−１）という関係で与えられる。

この最少数は、チャネルが未だ読み出され終わっていな
いという理由でどのプロセッサも書き込みを阻止するこ
とを保証するためには十分でないかも知れない。同期を
保証するのに必要なチャネルの最多数は特定のプログラ
ムの関数で、その上限は、Ｎｂをプログラム基本ブロッ
ク中のノードの数とするとき、Ｎｃ≦Ｎｂ（ｐ−１）／２となる。

本発明の原理を試験プログラムに応用した結果は、典型
的なプログラムの同期に対してｌ）（１）−１）個のレ
ジスタ・チャネルで十分であることが暗示している。

本発明は特定の詳細が記述されたが、このような詳細か
ら多数の変形、追加、除外等が本発明の意図及び範囲内
で可能である。例えば、ストリーム中へのスケジューリ
ングの目的のために各ノードは１つの増加高を割り当て
られるを要せず寧ろ動作が採る期待時間長に比例する増
加高を持つ。

こうして各ノードはその増加高プラス最高の子供の高さ
に等しい高さを持つであろう。

【図面の簡単な説明】

第１ａ図は、本発明の原理による、共用レジスタ・チャ
ネルを持つマルチプロセッサの概略系統図であり、第１ｂ図は、第１ａ図の共用レジスタ・チャネルの１つ
のビット・ポジションの組織の概略図であり、第２ａ図
は、データ従属命令のある特定列の方向付けられた非巡
回グラフの説明的な図であり、第２ｂ図は、第２ａ図の
グラフ中のノードの高さ及び深さを示すチャートであり
、第３図は、第２ａ図の方向付けられた非巡回グラフから
動作ラベルを除き、割当てのナイーブな方法による２つ
の平行命令ストリームの間のノードのスケジューリング
の結果を示す図であり、第４図は、本発明による平行命
令ストリームの間のノードのスケジューリング方法を説
明するフロウチャートであり、第５ａ図は、第３図に類似の方向付けられた非巡回グラ
フであるが、第４図のフロウチャートによる２つの平行
命令ストリームヘスケジューリングのノードのスケジュ
ーリングを示すものであり、第５ｂ図は、第５ａ図の方
向付けられた非巡回グラフを命令ストリームへ再配置し
たものの図であり、第６ａ図及び第６ｂ図は、チャネル
の安全な再使用を説明する平行命令ストリームを描いた
図であり、第７図は、チャネルの再使用によりもたらさ
れる暗黙の同期を説明する平行命令ストリームの概略図
であり、第８ａ図は、単純な同期の冗長性を説明する命令ストリ
ームの概略図であり、第８ｂ図は、事実上の同期に関連する冗長な同期を説明
する命令ストリームの概略図であり、第９図は、事実上
の及び暗黙の同期に関連する冗長な同期を説明する命令
ストリームの概略図であり、第１０図は、レジスタ・チャネルの割当てに関連する冗
長な同期を識別する本発明の方法を説明するフロウチャ
ートであり、第１１図は、典型的なプログラムの内部ループの方向付
けられた非巡回グラフの図であり、第１２図は、第１１
図の方向付けられた非巡回グラフを平行命令ストリーム
へ再配置したものの図である。ＩＯ・・・マルチプロセッサｌ２・・・共用ランダムアクセスメモリｌ４・・・デー
タ・ライン１６・・・共用レジスタ・チャネルｌ８・・・制御ライン２０・・・データ語記憶領域２２・・・同期ビット記憶領域２４・・・エッジＦＩＧ．　Ｉ　ａＦＩＧ．　Ｉ　ｂ．Ω ＮＦＩＧ．　６　ｂＦＩＧ．　１０Ｓ　よ？ＦＩＧ．　ＩＩ

Claims

【特許請求の範囲】１、動作を表すノードの方向付けられた非巡回グラフ及
びデータ従属性を表すエッジとして記述することができ
、複数のそれぞれのディジタル・プロセッサによる実行のため及び複数のプロセッサ間データ転移手
段上の同期データ転移をスケジュールするために、複数
の平行命令ストリーム中へデータ従属動作をスケジュー
ルするためのコンパイル方法であって、該方法は上記グラフのノードを上記複数のストリーム中へスケジュールし、上記グラフの各エッジはストリ
ーム内エッジかストリーム間エッジかのいずれかで記述
可能であり、上記ノードはストリーム内エッジが同一方
向に方向付けられるというやり方でスケジュールされて
いるよう最初にスケジュールすることと、上記ストリーム間エッジの中の同期の冗長なエッジを最初に識別することと、同期の冗長でないストリーム間エッジを、上記プロセッサ間データ転移手段上の同期データ転移と
して２番目にスケジュールすることとを含むことを特徴
とする方法。２、上記最初にスケジュールすることは、ストリーム間
エッジの数をほぼ最少にするようなやり方で実行される
ことを特徴とする請求項１に記載の方法。３、上記最初にスケジュールすることは、逆の順序で決
定されており、且つ上記グラフのスケジュールされていないノードの中で、相対的に最大の高さを持つ複数のノードを
２番目に識別することと、上記２番目に識別された複数から異なるストリーム中へノードをスケジュールし、一方、スケジュ
ールされたノードに向けた結果としてのストリーム間エ
ッジの数をほぼ最少化するよう３番目にスケジュールす
ることとを含むことを特徴とする請求項１に記載の方法
。４、上記最初にスケジュールすることは更に、３番目に
スケジュールされた複数のノードに対し該ノードで枝分
かれするすべてのサブグラフを３番目に識別することと
、もし可能ならば、それぞれ３番目に識別されたサブグラフと同数のノードを、該それぞれのサブグ
ラフを枝分かれする３番目にスケジュールされたノード
と同じそれぞれのストリーム中へスケジュールし、それ
は上記３番目にスケジュールされたノードからノード高
の下降する順に決定されるよう４番目にスケジュールす
ることとを含むことを特徴とする請求項３に記載の方法。５、上記４番目にスケジュールすることの後、上記２番
目に識別することを繰り返すことを更に含むことを特徴
とする請求項４に記載の方法。６、上記２番目にスケジュールすることは、同期の冗長
でない上記ストリーム間エッジの中で、同じプロセッサ
間データ転移手段の再使用によりスケジュールすること
の候補として一定の順序で決定されなければならないデ
ータ従属性を表すエッジを識別するよう２番目に識別す
ることを含むことを特徴とする請求項１に記載の方法。７、上記２番目に識別することは同じプロセッサ間デー
タ転移手段の再使用によりスケジュールすることに対す
る候補の識別であって、該再使用は上記データ転移手段
上で書き込むことを阻止する可能性による暗黙の同期を
生じさせないものであることを特徴とする請求項６に記
載の方法。８、再使用されたプロセッサ間データ転移手段上で読み
出すことを阻止する可能性による暗黙の同期を識別する
よう３番目に識別することと、上記暗黙の同期により同期の冗長とされたストリーム間エッジを更に識別するよう４番目に識別す
ることとを更に含むことを特徴とする請求項６に記載の方法。９、動作を表すノードの方向付けられた非巡回グラフ及
びデータ従属性を表すエッジとして記述することができ
、複数のそれぞれのディジタル・プロセッサによる実行のために、複数の平行命令ストリーム中へデ
ータ従属動作をスケジュールするためのコンパイル方法
であって、上記グラフのノードを上記複数のストリーム中へスケジュールし、上記グラフの各エッジはストリ
ーム内エッジかストリーム間エッジかのいずれかで記述
可能であり、上記ノードはストリーム内エッジが同一方
向に方向付けられるというやり方でスケジュールされて
いるよう最初にスケジュールすることを含み、また該最初にスケジュールすることはストリーム間エッジの数を最少化するためのやり方で実行される
ことを特徴とする方法。１０、上記最初にスケジュールすることは、逆の順序で
決定されており、且つ上記グラフのスケジュールされていないノードの中で、該グラフ中において相対的に最大の高さを
持つ複数のノードを最初に識別することと、上記最初に識別された複数から異なるストリーム中へノードをスケジュールし、一方、スケジュー
ルされたノードに向けた結果としてのストリーム間エッ
ジの数を最少化するよう２番目にスケジュールすること
とを含むことを特徴とする請求項９に記載の方法。１１、２番目にスケジュールされた複数のノードに対し
該各ノードで枝分かれするすべてのサブグラフを２番目
に識別することと、もし可能ならば、それぞれ２番目に識別されたサブグラフと同数のノードを、該それぞれのサブグ
ラフを枝分かれする３番目にスケジュールされたノード
と同じそれぞれのストリーム中へスケジュールし、それ
は上記３番目にスケジュールされたノードからノード高
の下降する順に決定されるよう３番目にスケジュールす
ることとを含むことを特徴とする請求項１０に記載の方法。１２、上記３番目にスケジュールすることの後、上記最
初に識別することを繰り返すことを更に含むことを特徴
とする請求項１１に記載の方法。１３、ストリームに跨がるデータ従属性を持つ第１命令
ストリーム及び第２命令ストリームでそれぞれ特定され
る逐次動作を実行するための第１平行プロセッサ及び第
２平行プロセッサと、該プロセッサによりアクセスでき
る１つのレジスタ・チャネルであって該レジスタ・チャ
ネルには既に書き込まれているかどうかを示す同期ビッ
トによって特徴付けられているレジスタ・チャネルと、
上記プロセッサにアクセスでき同期ビットを持たないメ
モリ手段とを持つマルチプロセッサの中で、ストリームに跨がる複数の従属データを同期ファッションにより上記プロセッサ間で受け渡す方法
は、上記第１プロセッサにとって入手可能な第１のストリームに跨がる従属データを、該第１プロセッ
サによって上記メモリ手段に、最初に書き込むことと、上記第１プロセッサにとって入手可能な第２のストリームに跨がる従属データを、上記最初に書き
込むことより早くない時期に、該第１プロセッサによっ
て上記レジスタ・チャネルに、２番目に書き込むことと
、もし必要ならば、上記２番目に書き込むことが行われたことを上記同期ビットが示すまで、上記第
２プロセッサが待機することと、上記レジスタ・チャネ
ルから第２のストリームに跨がる従属データを、上記第２プロセッサによっ
て最初に読み出すことと、上記メモリから第１のストリームに跨がる従属データを上記最初に読み出すことより早くない時期
に、上記第２プロセッサによって２番目に読み出すこと
とを含むことを特徴とする方法。１４、ストリームに跨がるデータ従属性を持つ第１命令
ストリーム、第２命令ストリーム及び第３命令ストリー
ムでそれぞれ特定される逐次動作を実行するための第１
平行プロセッサ、第２平行プロセッサ及び第３平行プロ
セッサと、該プロセッサによりアクセスできる第１レジスタ・チャネル及び第２レジスタ・チャネルであって
、該レジスタ・チャネルには既に書き込まれているかど
うかを示す同期ビットによって各々特徴付けられている
第１レジスタ・チャネル及び第２レジスタ・チャネルと
、上記プロセッサにアクセスでき同期ビットを持たないメモリ手段とを持つマルチプロセッサの中で
、ストリームに跨がる複数の従属データを同期ファッションにより上記プロセッサ間で受け渡す方法
は、上記第１プロセッサにとって入手可能な第１のストリームに跨がる従属データを、該第１プロセッ
サによって上記メモリ手段に、最初に書き込むことと、上記第１プロセッサにとって入手可能な第２のストリームに跨がる従属データを、上記最初に書き
込むことより早くない時期に、該第１プロセッサによっ
て上記第１レジスタ・チャネルに、２番目に書き込むこ
とと、もし必要ならば、上記２番目に書き込むことが行われたことを上記第１レジスタ・チャネルの上記
同期ビットが示すまで、上記第２プロセッサが最初に待
機することと、上記第１レジスタ・チャネルから第２のストリームに跨がる従属データを、上記第２プロセッサに
よって最初に読み出すことと、上記第２プロセッサにとって入手可能な第３のストリームに跨がる従属データを、上記２番目に読
み出すことより早くない時期に、該第２プロセッサによ
って上記第２レジスタ・チャネルに、３番目に書き込む
ことと、もし必要ならば、上記３番目に書き込むことが行われたことを上記第２レジスタ・チャネルの上記
同期ビットが示すまで、上記第３プロセッサが２番目に
待機することと、上記第２レジスタ・チャネルから第３のストリームに跨がる従属データを、上記第３プロセッサに
よって２番目に読み出すことと、上記メモリ手段から第
１のストリームに跨がる従属データを上記２番目に読み出すことより早くな
い時期に、上記第３プロセッサによって３番目に読み出
すこととを含むことを特徴とする方法。１５、ストリームに跨がるデータ従属性を持つ複数の命
令ストリームでそれぞれ特定される逐次動作を実行する
ための複数の平行プロセッサと、上記プロセッサ間で受
け渡される同期データのための該プロセッサによりアク
セスできる複数のレジスタ・チャネルと、上記プロセッ
サ間で受け渡される非同期データのための上記プロセッ
サにアクセスできるメモリ手段とを持つマルチプロセッ
サの中で、ストリームに跨がる複数の従属データを同期ファッションにより上記プロセッサ間で受け渡す方法
は、上記第１プロセッサにとって入手可能な第１のストリームに跨がる従属データを、上記プロセッサ
のうちの１つによって上記メモリ手段に、最初に書き込
むことと、上記メモリ手段から上記第１のストリームに跨がる従属データを、上記プロセッサとは別のもう１
つのプロセッサによって最後に読み出すことと、上記最初に書き込むことより早くない時期に１つのレジスタ・チャネルに２番目に書き込むことと
共に始まり、上記最後に読み出すことより遅くない時期
に同じ又は別のレジスタ・チャネルから最後の１つ前に
読み出すことと共に終わる、１つ又はそれ以上の書き込
み・読み出し対の一時的なシークエンスによって、他の
ストリームに跨がるデータ従属性を実現させることとを含むことを特徴とする方法。