JPH0228864A - マルチプロセッサ・サブシステム - Google Patents

マルチプロセッサ・サブシステム

Info

Publication number
JPH0228864A
JPH0228864A JP1069399A JP6939989A JPH0228864A JP H0228864 A JPH0228864 A JP H0228864A JP 1069399 A JP1069399 A JP 1069399A JP 6939989 A JP6939989 A JP 6939989A JP H0228864 A JPH0228864 A JP H0228864A
Authority
JP
Japan
Prior art keywords
data
register
address
control
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1069399A
Other languages
English (en)
Inventor
David R Baldwin
デイヴィッド ロバート ボードウィン
Malcolm E Wilson
マルコム エリック ウィルソン
Neil F Trevett
ネイル フランシス トレヴェット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3DLabs Ltd
Original Assignee
DuPont Pixel Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB8806855A external-priority patent/GB2217055A/en
Priority claimed from GB8806869A external-priority patent/GB2215884A/en
Application filed by DuPont Pixel Systems Ltd filed Critical DuPont Pixel Systems Ltd
Publication of JPH0228864A publication Critical patent/JPH0228864A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/22Microcontrol or microprogram arrangements
    • G06F9/24Loading of the microprogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Advance Control (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 著作権の一部放棄 本特許出願におけるすべての材料は、英国、米国および
その他の国々の著作権法に基く著作権による保護に服す
る。本出願の最初の有効・ン出願日を以て、本出願の材
料は未公開の材料として保護される。
シカしながら、この材料を複写することは、特許書類あ
るいは特許開示が英国あるいはその他の国の公的な特許
出願書類あるいは記録において現れてくるものとして、
だれもがファクシミリ再生することに著作権者は異議を
唱えないという範囲内において、許可される。しかし、
その地点においては、著作権者はどのようなものである
かすべての著作権を留保する。
[産業上の利用分野] 本発明は、コンピュータ・システムおよびサブシステム
、およびコンピュータを利用したデータ処理方式に関;
lし、特にマルチプロセッサ・サブシステムに関し、プ
ログラム・ロート・アーキテクチャの改良に係るもので
ある。
[従来の技術] 高速マルチプロセッサ・アーキテクチャ並列に動作する
複数のプロセッサを使用することは、これまで、非常に
高いスルーブツトを達成するための便利な方法であると
認識されてきた。
このようなアーキテクチャが数多く提案されている。し
かし、このようなアーキテクチャを実際に実現すること
は非常に困難である。特に、広範囲にわたるユーザの要
求を満足し、技術進歩を取り入れることができるような
、非常に多様性のあるこの種のアーキテクチャを設計す
ることは困難である。 マルチプロセッサ・アーキテク
チャに関連する一部の問題点の概要が、雑誌Compu
terの1988年2月号の9ページのD ubois
他著、5ynchronization  、  Co
herence  、  and  EventOrd
ering in Multiprocessors”
に示されている。この文献は引用することで本明細書の
一部とする。また、ディジタル信号処理のために最近提
案されたマルチプロセッサ・アーキテクチャについて、
雑誌Computerの1988年2月号の47ページ
、Lange他著、′Δn Optimum Para
llelArchitecture for High
−5peed Real TimeDigital S
ignal Processing”に説明されている
。この文献は引用することで本明細書の一部とする。
マイクロコーディングしたアーキテクチャ高速で柔軟な
コンピュータ・アーキテクチャを開発するための非常に
重要なツールはマイクロコディングである。詳しい説明
は、J、 MickおよびJ、 Br1ck著、Blt
−5lice MicroprocessorDesi
gn  (1980)を参照されたい。この文献は引用
することで本明細書の一部とする。マイクロコーディン
グしたアーキテクチャは非常に柔軟であるばかりでなく
、処理速度を非常に向上できる可能性も備えている。
マイクロコーディングしたアーキテクチャでは、個々の
インストラクションはかなり長い(たとえは、100ビ
ツトなど)。かなり低レベルのロジックが命令をデコー
トすることにより、適切なフィールドが低レベルのデバ
イス(レジスタ・フィールドやアドレスなど)に送信さ
れるようにしている。
つまり、命令フィールドのビットの総数は通常、命令の
総数のIog2より非常に大きくなる。このため、デコ
ート操作を非常に単純化できる。マイクロコーディング
したアーキテクチャでは、アドレス演算を実行するため
と最初のレベルのデコードを実行するためにシーケンサ
を使用する。
(また、プログラム・シーケンシング(順序付け)機能
を実行するために、低レベルのロジックも使用できる。
)シーケンサはコントロール・ストア(メモリ)から、
マイクロ命令をアクセスし、マイクロ命令のいろいろな
部分が追加デコード・ロジックに提供されたり、直接デ
バイスに渡される。1つの命令には多く、のコマンド・
フィールドが含まれる可能性があるため(フィールドは
すへて同時に実行される)、非常に短いマイクロコート
・プログラムを作成できる。
個々の命令は非常に低レベルで、かなり長いため、プロ
グラムを格納するのに必要な記憶空間は非常に重要であ
る。また、マイクロコート・ルーチンをロードするため
に必要なデータ転送も重要となる。
マイクロコート・オーバーレイ プロセッサは通常、一定の量の書き込み可能コントロー
ル・ストレージ(“’wcs”)だけしか使用できない
。したがって、−度にWC3に格納しなければならない
ルーチンの数が非常に多い場合には、何らかのオーバー
レイが必要である。スタートアップ時にはマイクロコー
ドをロートするためにシリアル・ループを使用できるが
、オーバーレイをロードするためにシリアル・ループを
使用することは実際的ではない。これは、ホストがイン
ストラクションをロードできる速度が非常に遅いためで
ある(たとえば、ディスクのアクセスに応して、1つの
インストラクションをロートするのに100フィクロ秒
から3ミリ秒がかることがある)。
部のアレイ・プロセッサはマイクロコート・オーバーレ
イ機能を備えているか、これらは通常、ホストから駆動
される機能であり(ポーリング人出力やDMAを使用す
る)、一般的なマイクロコート・ロート・メカニズムを
通して実現される。
マルチプロセッサ・システムでのオーバーレイマルチプ
ロセッサ・システムでのマイクロコードのオーバーレイ
は特に重要である。マイクロ命令・オーバーレイを高速
実行できる機能は、プロセッサ間通信を実現するための
重要な追加ツールとなる。多くのアーキテクチャ(多く
の高度な並列アーキテクチャを含む)は、マスクとスレ
ーブの関係を採用している。このような関係では、1つ
のプロセッサが別のプロセッサのプログラムを頻繁に変
更する可能性がある9オーバーレイが可能な場合には、
この操作は容易になる。
[発明の要約] 本出願には、非常に多くの革新的教示か含まれており、
これらを第1図に示すようなシステムをもとに説明する
ものとする。
これらの革新的教示の中で、ここでは特にマルチプロセ
ッサ・サブシステムについて説明する。
このサブシステムでは、各プロセッサは別々にマイクロ
コーディングされるため、プロセッサは同時に、非同期
的に動作できる。サブシステム構成を指定するときに、
ラインを保護し、できるだけ柔軟に指定できるようにす
るために、シリアル・ループ・インタフェースは、上位
レベル・プロセッサからすへてのコントロール・ストア
へのデータ・アクセス機能を提供する。このループの純
粋な帯域幅を最大限にするために、独立した各コントロ
ール・ストアは、シリアル/パラレル・レジスタ・バン
クを使用してこのシリアル・ラインとのインタフェース
をとる。これらのレジスタは、命令をコントロール・ス
トアにロートしたり、命令ストリームのクロックを増分
したり、あるいはできるだけ速く命令ストリームのクロ
ックを設定することができる。したがフて、このライン
の帯域幅は効率良く使用され、特定のプロセッサのコン
トロール・ストレージをアクセスするのに必要な命令の
数は非常に少なくなる。
多くの革新的教示の中で、ここでは、非常に幅の広いキ
ャッシュ・バスによりてキャッシュ・メモリに接続され
る数値処理モジュールも含めて、マルチプロセッサ・サ
ブシステムについても説明する。このプロセッサは、シ
リアル・ループまたはキャッシュ・バスを通じてプログ
ラムを受は付けることができる。マイクロ命令の並列転
送のために幅の広いキャッシュ・バスを使用すれば、マ
イクロコート・オーバーレイを高速実行できる。
このシステムはさらに、一部のアプリケーションでマイ
クロコードの動的ページングを実用化する。
つまり、好適な本実施例には、マイクロコードを浮動小
数点プロセッサにロートするための方法として、2つの
方法がある。それは、ホストの制御のもとでシリアル・
ループを通してロードする方法と、制御プロセッサの制
御のもとで並列にロートする方法である。マイクロコー
トの並列ロドは、浮動小数点プロセッサで使用できる書
き込み可能なコントロール・ストレージ(”wcSoo
)の量が制限されているため、非常に便利である。非常
に多くの浮動小数点プロセッサ・ルーチンを一度にWO
2に格納しなければならない場合には、何らかのオーバ
ーレイが必要である。オーバーレイをロードするために
シリアル・ループを使用することは現実的でない。これ
は、ホストが命令をロードできる速度が非常に遅いため
である(たとえば、ディスク・アクセスの回数に応して
、1つの命令をロードするのに100マイクロ秒から3
ミリ秒かかることがある)。 好適な本実施例が提供す
る並列ロード機能は、マイクロコード命令全体(現在は
104ビツト)を格納するために非常に幅の広いデータ
・キャッシュ・メモリを使用し、それを1サイクルで浮
動小数点プロセッサの書ぎ込みホールディング・レジス
タに転送する。その後、通常の出力ポートの方式てシリ
アル・ロートのために使用される診断シフト・レジスタ
(たとえは、AMD  29818)に転送する。これ
らのデバイスは、マイクロコート・ビットをパイプライ
ン化するために出力ポートに属している(また、出力ポ
ートは必要に応して入力ポートとしても使用できる)。
しかし、好適な本実施例では、この機能は非常に遅いた
めに使用しない。(多くのチップが内部的にマイクロコ
ート・ビットを登録する。)つまり、これまて説明した
並列ロート経路は、シリアル/パラレル・レジスタのこ
の機能を使用することができ、速度や機能を犠牲にする
必要はない。並列ロート時間は各命令光たり約500ナ
ノ秒であり、これはシリアル・ロート時間より大幅に改
善されている。
もう1つの重要な点は、浮動小数点プロセッサ内でのマ
イクロコートのオーバーレイを、制御プロセッサが完全
に制御することができ、ホストが制御する必要かないと
いうことである。また、マイクロコート・オーバーレイ
がまだデータ・キャッシュ・メモリに存在しない場合に
は、制御プロセッサはデータ転送プロセッサに対して、
ホスト・メモリからオーバーレイをフェッチするように
要求でとる。 好適な本実施例が提供する並列ロート帯
域幅は非常に高いため、これまで現実的でなかったFP
マイクロコートの動的ベージングも、多くのアプリケー
ションで実用化できる。
好適な本実施例では、シリアル・ループを制御し、経路
を決定し、広範囲にわたる構成と拡張オプションを採用
するための追加機能が提供される。この能力を提供する
のに役立つ主な機能は次のとおりである。
戻りマルチプレクサ これは、2つの内部ソース(制御
プロセッサとデータ転送プロセッサ)、および2つの外
部°°戻りバス′°(制御プロセッサ拡張機能のマイク
ロコードと、複数の浮動小数点プロセッサのマイクロコ
ードのため)からシリアル・ループを収集する。 戻り
シリアル・バスは、制御プロセッサと浮動小数点プロセ
ッサのマイクロコートが格納されている浮動小数点プロ
セッサ・モジュールからシリアル・ループを収集する。
戻りループ・アドレスは、どのモジュールがシリアル戻
りバスを駆動するのかを選択する。
各浮動小数点プロセッサ・モジュールには、マイクロコ
ード・ロード許可ビットがあり、どのモジュールの組み
合わせも同時にロートできる。
データ転送プロセッサ・シリアル・ループ拡張機能は、
ジャンパとワイヤ・リンクによって制御される。
この構成では、シリアル・ループとバックロードの回り
でデータをWC3に転送するためのプロトコルは非常に
複雑である。このようなプロトコルは通常、ソフトウェ
アで実行される。本発明では、これらのプロトコルの中
で時間のかかる部分はハードウェアで実現されており、
マイクロコードのダウンロードの速度を非常に向上して
いる。
また、そのほかの利点として、ソフトウェア・オーバー
ヘッドも削減できる。
好適な本実施例では、ホストは、マイクロコドを一度に
1ワードずつデータ・レジスタに書き込む(または読み
込む)。(本発明では、データ・レジスタはシリアル・
シャドウ・レジスタまたは診断テスト・レジスタから作
成される。、)すでに選択したシリアル・モードに応し
て、次のいずれかが発生する。
°°ホールト°′モードを選択した場合には、ブタ転送
は、メモリへの転送のように動作する。
°“シフト“モードを選択した場合には、読み込みサイ
クルまたは書き込みサイクルがデータを終了した直後に
、データはシリアル・ループにシフトされる(またはシ
リアル・ループからシフトされる)。この操作を実行し
ている間、ビジー信号は、ホストによるデータ・レジス
タへのアクセスをさらに遅延させる。
“パルス゛モードを選択した場合には、書き込みアクセ
スの後に約500ナノ秒が経過すると、シリアル・デー
タ・クロックのパルスが発生し、シャドウ・レジスタが
要求されたモードに設定される。
1つの重要なコンポーネントは、戻りシリアル・データ
の同期を再度とるためのフリップ・フロップである。W
O2をディストリビューションした後、シフト・レジス
タ・クロックとシャドウ・レジスタのDクロックの間で
クロック・スキューを制御する操作は、非常に多くの異
なるシリアル・ループ構成があるため、非常に困難にな
る可能性がある。このフリップ・フロップを含む場合に
は、クロック・スキューに十分注意しなければならない
(制御ロジックを駆動する基本クロック間隔をスキュー
が越えない限り)。
このシリアル・ループの望ましいトポロジには、゛スネ
ーキング°゛はほとんど存在しない。つまり、1つのW
O2のシリアル・シャドウ・レジスタのシリアル出力を
別のWO2のインタフェースへの入力として使用するケ
ースは2つだけしかない。これらの各場合には、シリア
ル・ループの下流にあるWO2は、実際には上流のWO
2を拡張したものである。つまり、シリアル・ループ内
の独立したプロセッサの直列接続は一般に回避される。
この結果、異なるプロセッサ・モジュールのための独立
したマイクロコート・プログラムを相互にマージする必
要がないという利点が得られる。この利点は、プログラ
マが上記のアルゴリズムの有利なパーティションを完全
に利用するのに役立つ。この機能はまた、高速ロート機
能を提供するのにも役立つ。さらに、書き込み可能なコ
ントロール・ストアを対象としたプログラムを異なる幅
あるいは異なる深さでマージするときに発生する問題も
回避することができる。
ループ・トポロジを並列化した場合の利点は、並列ロー
ドを容易に実現できるということである。たとえば、共
通のマイクロコート・シーケンスを各FPモジュール1
30にロートする場合には、すべてのFPモジュールの
シャドウ・レジスタをすへて同時に有効な状態にし、ラ
イン225Aのシリアル・データと、バス211Bのマ
イクロアドレスに従って、各モジュールにロードするこ
とができる。 多くのアプリケーションでは、複数の浮
動小数点フロセッサが共通のマイクロコトを使用する。
したがって、好適な本実施例では、マイクロコートを個
々にではなく、同時に浮動小数点プロセッサにロー1−
する方法も提供する。このようにすれば、ダウンロード
に必要な時間を短縮できる。
(以下、第101頁に続く) [実施例] v下、図面を参照して本発明の実施例を詳細に説明する
(目次) 実施例、、、、、、、、、、、、、、、、、、、、、、
、、、、、、、、、、、、112概要説明 、、、、、
、、、、、、、、、、、、、、、、、、、、、、l12
設計目標 、、、、、、、、、、、、、、、、、、、、
、、、、、、121アルゴリズムの分割、、、、、、、
、、、、、、、、、、、122アーキテクチヤの説明、
、、、、、、、、、、、、、、、125cpモジユール
110の概略 (第2A図)  、、、、、、、:、、、。
DTPモジュール120の概略 (第3A図)  、、、、、、、、、、、、、、、、、
、、、、、、、128FPモジユール130の概略 (第4^−4C図)  、、、、、、、、、、、、、、
、、、、、、131DCMの概略(第5図) 、、、、
、、、、、、、、、、134CM190の概略、、、、
、、、、、、、、、、、、、、、、、、137外部イン
タフェースの概略、、、、、、、、、139制御プロセ
ツサ(CP) モジュJlzllO、、、,14’2整
数プロセッサ機構(IPU)2’40.、、、、、、、
、.15071−レス生成機構(AG)230 、、、
、、、、、、、、、I52シーケンサ210 と関連支
援ロジック 、、155割込み 、、、、、、、、、、
、、、、、、、、、、、、、、、、158浮動小数点プ
ロセッサ(一般)(161)条件コート・ロジック  
、、、、、、、、、、、153マイクロ・アドレス・バ
ス、、、、、、、、、、168定数フイールド、、、、
、、、、、、、、、、、、、、、、170書込み可能制
御記憶機構(WC5)220.、、、、.171WCS
インタフエース・レジスタ 222と223  、、、、、、、、、、、、、、、、
、、、、、、、、l72FP制御ロジツク、、、、、、
、、、、、、、、、、、、、、、、]75その他のロジ
ック、、、、、、、、、、、、、、、、、、、、I75
モード・レジスタ203 (175) CDバス・デコード・ロジック(176)クロック発生
機構250、、、、、、、、、、、、、、、.178デ
バツグ・ハードウェア、、、、、、、、、、、、、、1
84マイクロコ一ト語の形式、、、、、、、、、、、、
、、185データ転送プロセツサ・モジュール120、
.198データ転送の制御、、、、、、、、、、、、、
、、、、、、201整数プロセッサ機構340、、、、
、、、、、、、、、.208シーケンサ310と関連支
援ロジック  208割込み       、、、、、
、、、、、、、、、208条件コート・ロジック  、
、、、、、、、、、、211マイクロ・アドレス・バス
3+1、、、、、.216定数/次アドレス・フィール
ド、、、、、、216マルチウ工イ分岐  、、、、、
、、、、、、、、、、、、216書込み制御記憶機構(
WC5)320.、、、、、、、、.2200M八コン
トへ−ラ、、、、、、、、、、、、、、、、、、、、2
21その他のロジック 、、、、、、、、、、、、、、
、、、、、221モード・レジスタ(221) ;TD
ババスコード(222)、クロック発生 機構(224) デパック・ハードウェア、、、、、、、、、、、、、、
224マイクロコ一ド語の形式、、、、、、、、、、、
、、、225マイクロコード拡張バス、、、、、、、、
、、、、、、233数値プロセツサ・モジュール130
、、、、、、、.234浮動小数点算術演算機構(FP
II) 、、、、、、、、23B算術計算機構440と
450、、、、、、、、、、、.239スクラツチパツ
ド・メモリ1610.、、、、.244高速レジスタ・
ファイル430、、、、、、、.2462重バッファリ
ング   ・−−252非レジスタ・ビットのセラ1−
フ9フ 時間短縮 、、、、、、、、、、、、、、、、、、、、
、、、259キヤツシユ・ハス・インタフェース と制御 、、、、、、、、、、、、、、、、、、、、、
、、、、、、262保持レジスタ420、、、、、、、
、、、、、、、、、、.262データ・キャッシュ転送
ロジック、、、、263局所転送バス制御ロジック(2
64) 転送りロック発生機構412 (264) 。
制御信号(269) 転送の制約条件(缶詰構造) 、、、、、、、、273
保持レジスタ/転送りロック動作、、、、278FPプ
ログラム制御、、、、、、、、、、、、、、、、、、、
、279マイクロ命令順序付け(279)。
スタック・レジスタ478 (281) 。
サブルーチンの動作(2f13) ;クロック発生機構
480 (283) ;マイクロコード短縮(286)
 、マイクロコードノ並列ロード(289) 、FPマ
イクロコード・ルーチン実行の始動(291)。
「Pモジュールの選択(292):制御レジスタ(29
4) マイクロコート語の形式 プログラムの流れの例。
デバッグ・ハードウェア アプリケーション向きプロセッサ・ モジュール130’、、、、、、、、、、、、。
FFT高速化モジュール94.。
データ・キャッシュ・メモリ・ モジュール+40 メモリ構成 データ・ポート cp転送ロジック DTP転送ロジック540 仲裁ロジック535 コマンド・メモリ190 、、、、、、、、、、、、、
、。
ホスト・インタフェース・ロジック160物理的バス線
とのインタフェース9、 バス・コントローラ650 (343) 。
マスク・モードとスレーブ・ 、、、、、、、、、、、、、、、.333、.338 .340 、、.343 10C 、、,313 、,314 モー1・(345) :データ・バッファ620 (3
47) 、アドレス・バッファVMEイ:/タフ’z−
、l・メモリ660、、、、、.347メモリ マッフ
 1011.19.9010、.347データFIFO
670,、、、、、、、、、、、、、,350VME割
込みロジック580、、、、、、、、、、、、、.35
1DMA コントローラ640、、、、、、、、、、、
、、、、.351マイクロコート・ロート制御 ロジックfilO、、、、、、、、、、、、、、、、、
、、、、、,154レジスタ・ブロック612、、、、
、、、、、、、、、.355制御レジスタ・ビット(3
55)。
ストローブ・バッファ(358)。
状況レジスタ(360) 、WC5制御レジスタ(36
1) 、WCSデータ・レジスタ(366) ;cpマ
イクロ アドレス・レジスタ(367); DTPマイクロアドレス・ レジスタ(3671 データ・パイプ・インタフェース ロジック150、、、、、、、、、、、、、、、、、、
、、、、、、、.369画像フロセッサ・インタフェー
ス170、、、.373直列ループ・インタフェース 
     376制御記憶機構とのループ・ インタフェース 、、、、、、、、、、、、、、、、、
、、、37フルーブ制御、、、、、、、、、、、、、、
、、、、、、、、、、、378ループ・トポロジ、、、
、、、、、、、、、、、、、、、、、381ホストとの
ループ・インタフェース、、、、386DTPマイクロ
コート拡張ループ、、、、、、J86並列マイクロコー
ト・ローディング 、、、、387モジユール拡張オプ
シヨン、、、、、、、、、、、、、、391モジユール
接続  、、、、、、、、、、、、、、、、、、392
多重数値処理モジュール、、、、、、、、、、、、、、
394キヤツシユ・メモリ拡張、、、、、、、、、、、
、、399物理的および電気的実装ボード、、、、、、
、、、、399PAL実装、、、、、、、、、、、、、
、、、、、、、、、、、、、、、4Q5CP PAL、
、、、、、、、、、、、、、、、、、、、、、、、、、
、、406クロツク波形生成PAL250 (406)
CDバス・ソースPへL (408) 、CDバス宛先
PAL(4091、符号/ゼロ拡張FAI、:216 
(410) : マルチウェイ分岐アドレス指定PAL
217 (411)データ入力条件コート選択PAL(
412)DTPとl/F PΔ1.、、、、、、、、、
、、、、、、、、、、.412VME 7トレス・デコ
ートPAL(413)DMA FIFO状況とクロック
制御PAL(413) 、VME読取りと書込みデコー
トPAL611(414)、VME スレーブ・アクセ
ス・タイミングPへL(414)信号ループ制fIiI
PへL(415)DCMとDCM r/p PAL 、
、、、、、、、、、、、、、、、418DCMアドレス
・デコードPAL(418);DCM保持レジしタ制御
PAL(419)DCM書込みフラグ・レジスタ PAL (421) 、 FP書込みマスクPAL(4
23)FP PAL、、、、、、、、、、、、、、、、
、、、、、、、、、、、、423WCSロード・イネー
ブルPAL(423)ホスト−ソース・モジュール 選択PAL(423) :cpモジュール選択PAL 
(425) 、FP−WC5制御PAL(426)ハン
トシェーク・ロジックPAL(428)割込み捕捉PA
L(432) :マイクロアトレスとクロック制御 PAL(432)、直列/並列ロート 選択PAL(433) ;CP書込みデコートPAL(
434) ;cp読取りデコートPAL(435) ;
保持レジスタ制御PAL461 (436) 、保留レ
ジスタ開始アドレスPAL (439) 、レジスタ・
ファイルWE制御(439)、レジスタ・ファイル・ア
ドレス修飾PAL (440)レジスタ・ファイル・ア
ドレス 増分機構(441);データ有効性制御PAL(442
)、マイクロ命令アドレス選択PAL (442) 、
ALU問題状況PAL (443) ニスタック制御P
AL3910 (444) ;レジスタ・ファイル・ア
ドレス 修飾子P肌(445)、結実用バス制御PAL (44
7) 、VME害1込みPAL (448) 。
DMA/VME y、−y−一ト・7 シン(449)
DMAアドレス制御(452):割込み縁捕捉(452
) GIPマイクロコート・デコート (453A) 、GIP割込みマスク(453B):G
TP割込みステート・マシン(454)ポスト・コンピ
ュータ、、、、、、、、、、、、、、、、、、454ホ
ストとのバス・インタフェース  、、、456画像プ
ロセッサ・サブシステム 、、、、、、457システム
の動作   、、、、、、、、、、、、、、、、、、、
459サンプル動作の実現、、、、、、、、、、、、、
、、、、、459物理メモリ・モデル (CP/DTP間のやりとり)18.。、、、、、、、
、461仮想メモリ・モデル、、、、、、、、、、、、
、、、、、、470cpとFP間のやりとり、、、、、
、、、、、、、、、、、、、478ソフトウ工ア階層、
、、、、、、、、、、、、、、、、、、、484アプリ
ケーシヨンとライブラリ・ ソフトウェア、、、、、、、、、、、、、’、、、、、
、、、、481i装置トライバ、、、、、、、、、、、
、、、、、、、、、、、487マイクロコード監視ルー
チン、、、、、、、、489マイクロコード転送ルーチ
ン(DTP) 、、491マイクロコート転送ルーチン
(CP)、、、、492マイクロコート計算ルーチン(
FP)、、、、493短縮マイクロコード、、、、、、
、、、、、、、、、、、、1195マルチウ工イ分岐、
、、、、、、、、、、、、、、、、、、、lI9[i離
散フーリエ変換実装    、、、、、、、、、497
多重FPモジュール付きFFT 、、、、、、、、、、
、、503バタフライ計算スループツト(504)転送
バンド幅(505) ヒストグラム・アルゴリズム実装、、、、、、、509
プレビユー・モードのバイブライン方式%式% 本出願の斂多くの新規な開示技術について、本発明の好
適実施例に特に関連つけて説明するが、これらの新規開
示技術は、ホスト・コンピュータの指示を受けて稼動し
て高速数値計算を処理するサブシステムの特有の問題に
応用できる利点がある。(この種のサブシステムは一般
に「高速化ホード」と呼ばれている。)しかし、本実施
例は、本明細書に記載されている新規開示技術の多数の
有利な用途の1つの例にすぎないことは勿論である。例
えば、本明細書に開示されている各種アーキテクチャ上
の新規技術は、広範囲にわたるコンピュータ・システム
に任意選択的に応用が可能である。一般的に、本明細書
に記載されている内容は特許請求の範囲に記載の様々な
発明の範囲を必ずしも限定するものではない。さらに、
記載内容によっては、本発明の特徴事項に適用されるも
のと適用されないものとがある。
蔓!塁屋 以下では、第1図に示すものと同じシステムの実施例(
または第9八、1O141、または43図に示ず代々実
施例)に特に関連づりて本発明を説明することにする。
これらの実施例の特徴事項は本発明の必須事項のすへて
であるとは限らす、好適実施例を説明するために便宜的
に示したものである。
第1図は、数値処理システムのアーキテクチャを示した
概念図てあり、通常大型コンピュータ・システムのサブ
システムとして使用されるものである。第1図に示すよ
うなシステムは一般に「高速化ボード」と呼ばれている
。これらは通常サブシステムとして使用されている。つ
まり、監視プロセッサから高水準コマンドがこの高速化
サブシステムに与えられる。例えば、監視プロセッサは
高速化サブシステムにベクトル加算、行列反転、高速フ
ーリエ変換(FFT)の実行を命令することができる。
高速化サブシステムはこの命令を受けて監視プロセッサ
が指定した記憶位置からデータを取り出し、数値処理操
作を実行し、その結果を監視プロセッサに返却する。
第1図は、3つの異なるプロセッサ・モジュルからなり
、そのすへてか異なるタスクを同時並行に実行できるア
ーキテクチャを示している。これらの3モジユールとは
、制御プロセッサ(cp)干ジュール110、データ転
送プロセッサ(DTP)モジュール120、数値処理モ
ジュール130である。
(この数値処理モジュールは浮動小数点処理モジュール
であることが好ましく、従ってこのモジュールは°’F
P”モジュールと呼ばれることが多い。数値処理モジュ
ールは、以下で説明するように、他にも各種タイプのも
のが使用可能である。)数値処理モジュール130は他
の2つのプロセッサと非同期に、つまり、完全に独立し
たクロックで稼動する。さらに、外部インタフェース1
50.160,170,180にも相当量のロジックが
備わっている。
データ・キャッシュ・メモリ140の構造と、システム
内の他のブロックとの関係は非常に重要である。データ
・キャッシュ・メモリ140は広幅キャッシュ−バス+
44を経由して浮動小数点プロセッサ130に結ばれて
いる。好適実施例では、キャッジJ・ハス1411は、
データ用に予約された25[i木の物理線から構成され
ている。
これらの3種類のプロセッサ・千ジュールはタスク割振
りを容易にする。タスク割振りは基本的には次のように
行なわれる。
データ転送プロセッサは、外部インタフェースを通して
外部世界とのインターフェースを管理すると共に、キャ
ッシュ・メモリと外部世界との間のデータ転送を取り扱
う。
制御プロセッサ110はアドレス計算を行ない、数値処
理モジュール130との間で送受されるすべてのデータ
転送を制御する。
数値処理モジュール130はデータ計算を行なう。
このタスク割振りを効率よく、高速にサポートするシス
テムを設計するためには、いくつかの重要なアーキテク
チャ上の問題を解決する必要がある。しかし、本発明に
よれば、これらの問題が解決され、驚異的な成果が得ら
れる。
かかるアーキテクチャの実現を容易にするために、第1
図の実施例では、注目ずへきハードウェア機構がいくつ
か設りられている。第1は、制御プロセッサ110に、
アドレス8]算操作のための強力な機能をもたせたこと
である。好適実施例では、第2図に概要を示すように、
このプロセッサはシーケンサだけでなく、アドレス生成
ロジックと算術論理演算機構(ユニット) (ALU)
も備えている。
データ転送プロセッサ120は外部インタフェース・コ
ントローラの動作を監視する。好適実施例では、外部イ
ンタフェース・コントローラは実際には3つ設けられて
いる。つまり、VMEバス・インタフェース11i0と
、2個のバックブレーン・バスに対する制御装置である
6 (一方のバックプレーン・バスは「データ・バイブ
」であり、高速化ボード間を高バンド幅リンクで結ぶも
のである。もう一方はrGIPバス」であり、画像や図
形データの伝送を最適化するものである。)これらの3
つのバス・インタフェースの各々は、独自の制御ロジッ
クと好ましくはコントローラを備えている。例えば、V
MEバス・インタフェースはブロック・データ転送を高
速化するために、直接メモリ・アクセス(DMA)コン
トローラをイ41えている。
しかし、データ転送プロセッサ120はこれらのインタ
フェースを高度に監視する機能を備えている。上記アー
キテクチャの最も重要な部分はキャッシュ・メモリ14
0である。このキャッシュ・メモリは幅か広((256
ビツト幅)、大容量であり(少なくとも2メガバイト)
、高速であるが(現構成ではアクセス時間が100ナノ
秒であり、より高速化することが好ましい)、それだけ
でなく3つのポートを備えて効率化を図っている。この
メモリは物理的には2ポートだけにするのが好ましく、
制御プロセッサ110とデータ転送プロセッサ120間
の仲裁はそれぞれのマイクロコード命令方式で行なわれ
る。
さらに注目すべきことは、キ・ヤッシュ・メモリ140
の3ポートが全く異なることである。一般的に、大部分
の数値処理サブシステムでは、キャッシュ・メモリと数
値処理構成機構(ユニット)間のハント幅が非常に重要
になっている。従って、好適実施例では、数値プロセッ
サにつながるホトは制御プロセッサとデータ転送プロセ
ッサにつながるポー1−よりも幅か広くなっている(従
って、バンド幅が広くなっている)。好適実施例では、
後者のポートはわずか32ビツト幅である。さらに、完
全並列レジタ群が32ビツト・ポートで使用されている
ので、これらのポートに対するすへてのアクセスはキャ
ッシュ・メモリ140からは完全に並列、つまり、25
6ビツト並列読取りまたは書込みとして見えるようにな
っている。
数値処理モジュール130とのインタフェースは、複数
のモジュール130がすべて1つの制御プロセッサの制
御を受けて並列に使用でき、すべてが(好ましくは)1
つのデータ・キャッシュ・メモリ140をアクセスでき
るように定義されている。キャッシュ・バスの幅を極端
に広くすることは、この複数モジュール機能を実現する
上で重要な要因となる。
制御プロセッサ110とデータ転送プロセッサ・モジュ
ール120間のインタフェースにも、キャッシュを効率
よく利用できる重要な機能を備えている。好適実施例で
は、重要な機能のいくつかは、このやりとりの利点を向
上するために使用されている。第1は、多重プログラミ
ング・プロセッサては普通に行なわれていることである
が、制御プロセッサ110とデータ転送プロセッサ12
0が共に可変継続時間命令を使用していることである。
つまり、ある種の命令タイプは、他の命令タイプよりも
サイクル時間を大幅に長くする必要がある。
例えば、極端な例として、ノー・オペレーション命令や
無条件ブランチは、乗算命令よりもcpu時間を大幅に
少なくする必要がある。従って、可変継続時間クロック
を使用してプロセッサの制御を行ない、実行中の命令を
クロック発生装置にチエツクさせて、クロック時間間隔
の継続時間をそのチエツク結果に応して高速に調整する
ことが一般化されている。
本好適実施例では、制御プロセッサ110とデータ転送
プロセッサ120は共に共用可変継続時間り四ツクによ
りクロックがとられる。従って、制御プロセッサ+10
とデータ転送プロセッサは、たとえ別々の命令ストリー
ムを同時に実行中であっても、同期して稼動するように
イネーブルされる。
制御プロセッサ110にキャッシュ・メモリ140への
アクセス優先権か与えられている。つまり、データ転送
プロセッサ120は、制御プロセッサ110が先にキャ
ッシュをアクセスしていないことを確かめてからキャッ
シュをアクセスする必要がある。しかし、ロックアウト
を防止するために、データ転送プロセッサI20は割込
み信号を出して、制御プロセッサ110が少なくとも1
サイクルの間キャッシュ・ポートの制御権を解放するよ
うに指示することができる。
これらの3種類のプロセッサ・モジュールは、以下の説
明で略語を用いて引用することがある。
例えば、データ転送プロセッサ・モジュール120で実
行されるマイクロコードはDTPマイクロコードと呼ぶ
場合がある。同様に、制御プロセッサ110で実行され
るマイクロコードはCPマイクロコー1−と、数値処理
モジュール130て実行されるマイクロコー1−は「P
マイクロコートと呼ぶ場合かある。これらの略語は他の
機能についても用いられている。
設言4目を票 本好適実施例のサブシステムは、小型化され、低コスト
であるか、高度の浮動小数点数値処理性能をもつ設計に
なっている。
このサブシステムを使用するために2つのシステムが目
標となっている。このサブシステムは、広範囲にわたる
汎用ホスト・コンピュータで浮動小数点高速化機構(ユ
ニット)として使用するのに適している(特に、UNI
Xエンジンと互換性をもたせることが望ましい)。
また、第1図の高速化システムは、特殊画像処理システ
ムで利用すると大きな利点が得られるように意図されて
いる。この種のシステムの例としては、ベンチマーク・
チクノロシーズ社から提供され、r GIPシステム」
と呼ばれる図形画像処理システムがある。(GIPシス
テムは広範囲にわたる図形画像アプリケーションで高ス
ルーブツトか得られるようにするいくつかの機能を備え
ている。)第1.9A、10.43図なとに示されてい
るような高速化サブシステムを備えたこの種のシステム
は、3次元図形アルゴリズムを実行させる上で特に利点
がある。
アルゴリズムの分割 以下では、第1図のアーキテクチャについてさらに詳し
く説明するが、その前に、この多重プロセッサ構成がど
のように使用されるかについて説明することにする。
上述したように、大部分のアルゴリズムは4つの独立部
分、つまり、制御、データ入力、アドレス計算、および
データ計算に分けることができる。
これらを個別タスクとして扱い、3つのプロセッサにマ
ツピングするようなアーキテクチャにすることが好まし
い。制御とアドレス計算は制御プロセッサ(cp)モジ
ュール110が取り扱い、データ入出力タスクはデータ
転送プロセッサ(DTP)モジュール120か取り扱い
、データ割算は7♀動小5;9 rlJプロセンサ(F
P)モジュール130か取り扱う。
アルコリズムを制御プロセッサ・モジコール110 と
FP間でとのように分割されるかは、いくつかの特定ア
ルコリズム実装例を示して、LI丁に詳しく説明する。
1つの好例は、第31図を参照して下達する高速フーリ
エ変jA(FFT)実装によるものであるか、このFF
Tアルゴリズムはプログラミング効率か悪いことてよく
知られている。
この例では、 FFTアルゴリズムは、データ・サンプ
ルとフェーズ係数のアドレス計算を制御プロセッサ・モ
ジュール110に割り当て、バタフライ計算を浮動小数
点プロセッサ・モジュール130に割り当てることによ
って、制御プロセッサ・モジュール110と浮動小数点
プロセッサ・モジュール130間で分割されている。
FFTソフトウェアのうちCPモジュール110で実行
される部分は、複素数データのアドレスをステージとバ
タフライ数の関数として計算する。複素数フェーズ係数
はテーブルに保持されているので、そのソフトウェア部
分はテーブル内の必要とする位置も、ステージとバタフ
ライ数の関数としてMOWする。アドレスが計算で求ま
ると、データと係数が取り出されて、浮動小数カプロセ
ッサモジュール130に渡される。浮動小数点プロセッ
サ モジュール130がバタフライ計算を完了すると、
制御プロセッサ・モジュール+10はその結果を読み取
り、格納してから次のバタフライのアドレス計算を繰り
返すことになる。注目すべきことは、制御プロセッサ・
モジュール110は、実際に行なわれているバタフライ
計算を追跡する必要がなく、データを同期点で浮動小数
点プロセッサ・モジュール130とやりとりするだけで
よいことである。また、このソフトウェアは、アドレス
を計算するだけでなく、キャッシュ・メモリと数値プロ
セッサ間の実際のデータ転送を制御することも注目すべ
きである。
FFTソフトウェアのうち浮動小数点プロセッサ・モジ
ュール130で実行される部分は、各連続ステージでデ
ータ・セットのバタフライ計算を行な+23 うように直線的にコーディングされた垂線命令列によっ
てバタフライ割算を行なう。各ステージでの正確なデー
タと係数を得るために必要な複雑なアドレス計算は関知
しない。従って、データ計算のためのコートは、データ
転送操作と無関係に書くことができる。事実、浮動小数
点プロセッサ・モージュール130に別の設計を採用し
たい場合(例えば、異なる浮動小数点チップ・セラ1−
を使用したり、FFTにより適した低レベル・データ通
路アーキテクチャを使用したりする目的で)は、このソ
フトウェア部分(比較的単純化されている)を変更する
だけでよい。
CPとFPソフトウェアの実行は並列に行なわれ、アル
ゴリズム実行速度が低速部分によフて決まるようにバイ
ブライン化されている。
アーキテクチャの説明 第1図のサブシステムの主要部分のいくつかについて、
以下詳しく説明する。なお、ここでは、要約だけを説明
していることに注意されたい。もっと詳しい説明はその
あとで行なう。
cpモジ−仁−ル110の概略(第2A図)制御フロセ
ノgICI’)モジュール110は、32ビツト整数フ
ロセンサ機構(ユニット) (IPU)240、マイク
ロコート シーケンサ210、 アドレス生成機構(エ
ニンli(八G)230、その化マイクロプログラム 
メモリ、クロック発生装置、バス制御といった機構(ユ
ニット)から構成されている。
好適実施例では、整数プロセッサ機構240はWeit
ek XL8137を使用し、シーケンサ210はAn
alog Devices社製ADSP−1401を使
用し、アドレス生成機構230はAnalog Dev
ices社製ADSP−1401を使用している。当業
者ならば容易に理解されるように、これらに代えてその
他の各種構成要素を使用することも、他のブロックに同
等の機能をこれらに代えて組み入れることも可能である
制御プロセッサ・モジュール+10は次の2つの主要タ
スクを受は持つ。
まず、ホストからのコマンドを解釈し、DTPモジュー
ル120に転送を要求し、データ計算を開始する前に浮
動小数点プロセッサ・モジュール130を初期化するこ
とによって、ホードの動作を制御することである(高位
レベル)。
次に、データ・キャッシュ−メモリの7トレスを生成し
、データ・キャッシュ・メモリとFPモジュール130
間のデータ転送と経路を制御することである。この活動
は通常高位レベル制御操作か完了したあと、実際の数値
処理過程で反復的に行なわれる。ループ制御はシーケン
サか取り扱い、アドレス生成機構とIPUかアドレス生
成のために排他的に使用できるようになっている。
他のブロックとの連節は32ビツト幅データ・バス(C
Dバス112)を通して行なわれ、制御プロセッサ・モ
ジュール110はこのバスを通して、データ・キャッシ
ュ・メモリ140、コマンド・メモリ190、およびF
Pモジュール130の制御レジスタに対する読み書ぎを
行なう。制御プロセッサ・モジュール110はホストに
よって(VMEインタフェース160を通して)、浮動
小数点プロセッサ・モジュール130によって、あるい
はデータ転送プロセッサ・モジュール120によって割
込みを+26 かりることか可能である。正常動作では(つまり、プロ
グラム開発やデバッグと切り陣されり)、データφ云送
フ゛ロセッサ・モジュール+2[1だけか割込み発生源
となる。
DTPモジュール120の概略(第3八図)データ転送
プロセッサ(DTP)モジュール120は同し32ビツ
ト・プロセッサとシーケンサを使用しているので、プロ
グラマから見たとき同しように見える。顕著に異なるの
はバス制御とインタフェース制御である。制御プロセッ
サ・モシュル+10と異なる特徴がもう1つある。それ
は、データ転送プロセッサ・モジュール120には、マ
イククロコード拡う長ポートがあり、アットオン・ボー
ド(大容量メモリ・カードやネットワーク・カードなど
)の制御が可能になっていることである。
データ転送プロセッサ・モジュール120は次の2つの
タスクを受は持つ。
まず、データ・キャッシュ・メモリと外部インタフェー
ス間のデータ転送を制御することである。(これは、制
御プロセッサ・モジュール+10(またはホス1−)か
らコマン1−を受けて行なわれる。) 次は、外部インタフェースからのコマンドをコマンド・
メモリ190に保管されているコマンド待ち行列に転送
し、あとで制御プロセッサ・モシュルか処理できるよう
にすることである。外部インタフェースはいずれもコマ
ンドを出すことかてぎるか、初期状態では、VMEイン
タフェースか主要コマンド発生源であるものと予想され
る。適当なソフトウェアでコマンド・リストをデータ・
キャッシュ・メモリ(またはコマンド・メモリ)に入れ
ておき、あとでマクロとして呼び出される(この手法は
「ベクトル連鎖」とも呼ばれている)。デバッグ環境で
は、データ転送プロセッサ・モジュール120はデバッ
グ・モニタ(ホスト側で稼動)とデータ転送プロセッサ
・モジュール12Gや制御プロセッサ・モジュール11
0や浮動小数点プロセッサ・モジュール130でデバッ
グ中のマイクロコート間の主要インタフェースとなる。
また、このデータ中云送フロセ・ンサ・ヤシ;−−ルを
通してデハンク・モニタはVMEアドレス空間にマツピ
ングされていない各種メモリをアクセスすることができ
る。
外部インタフェース、データ・キャッシュ・メモリ、コ
マンド・メモリ、 VMEインタフェース・メモリ、お
よびデータ転送プロセッサ・モジュール120間のデー
タとコマンドの転送は32ビット幅TDバス122を経
由して行なわれる。外部インタフェース150.160
.170はFIFO(先入れ先出し)でバッファに入れ
られ、アテンションが必要になフたとき、つまりある種
のデータを受は取ったり、なにもなくなりつつあるとき
、データ転送プロセッサ・モジュール120に割込みを
かける。別の割込み発生源としては、ホスト(VMEイ
ンタフェース経由)と、制御プロセッサ・モジュール1
10がある。
データ転送プロセッサ・モジュール120によるデータ
・キャッシュ・メモリへのアクセスは、制御プロセッサ
・モジュール110が使用していないサイクルに制限さ
れる。(CPモジュール110は浮動小数壱プロセッサ
 モジュール130への転送時や自身のためにメモリを
使用していることかある。)データ転送プロセッサ・モ
ジュール120か長時間アクセス待ちに置かれた場合は
、制御プロセッサ・モジュールに割込みをかけて、サイ
クルをスチールすることかできる。
FPモジュール130の概略(第4A−4C図)浮動小
数点プロセッサ・モジュール130は別ボードに置かれ
ており、このポートは主ベース・ポートに差し込むこと
によって使用される。浮動小数点プロセッサーモジュー
ル130の動作は次の2つの部分に分かれて行なわれる
(a)マイクロコード浮動小数点機構(ユニット)。こ
の部分は浮動小数点計算を受は持つ。この機構は1つの
目標、つまり、可能な限り高速に動作して、浮動小数点
ハードウェア機構の性能を引ぎ出す設計になっている。
これらの設計目標を達成するために、非常に単純化され
たアーキテクチ・1・が採用されている。つまり、浮動
小数点乗算機構、浮動小数声ALU  (算術論理演算
機構)、高速多重ボー1・・レジスタ・ファイル、単純
化された高速シーケンサから構成されている。ざらに、
スクラッチバット・メモリか内部データ通路と密結合さ
れ、参照テーブルを保管し、ヒストグラム記憶域を提供
する。浮動小数点算術7寅算機構は2つの読取りポート
と1つの書込みポートを通してレジスタ・ファイルとの
インタフェースとなる。
もう1つの書込みポートは読取りポートの一方と結ばれ
て、データ・シャツフルと複写機能を提供する。最終ポ
ートは両方向であり、データをレジスタ・ファイルとや
りとりするために使用される。
(b)データ・キャッシュ・メモリ・インタフェース。
FPモジュールのこの部分は、データ・キャッシュ・メ
モリとレジスタ・ファイルの両方向ポート間のインタフ
ェースとなる。レジスタ・ファイルとデータ・キャッシ
ュ・メモリ間には両方向レジスタ群かあり、データ転送
のパイプラインとなり、データ多重化と経路指定を取り
扱う。
転送制御は転送ロジックで生成される。このインタフェ
ースの多くの部分は、物理的には「Pモジュール130
 と同し場所に置かれているか、CPモジュール110
 と共にクロックかとられるので、「Pモジュール13
0の一部というよりも、拡張CP干ジュール110 と
一般に呼ばれている。
高度多重ポート高速レジスタ・ファイルは、制御プロセ
ッサ・モジュール110と浮動小数点プロセッサ・モジ
ュール間のクリーンなインタフニスとなる点て重要な要
素である。このレジスタ・ファイルの一方の側は制御プ
ロセッサ・モジュール110 と同期して動作し、他方
の側は浮動小数点プロセッサ・モジュール130と同期
して動作する。このようにクロック境界を設けたので、
境界の一方の側に変更を加えても他側が影響されること
がない。この結果、より高速の、あるいはもりと多くの
統合浮動小数点チップ・セットへの移行が容易になり、
従って、浮動小数点機構の独立性を保つことができる。
浮動小数点プロセッサ・モジュール130(またはアル
コリズムに合わせて変更されたそジュール+30’)は
、最高4つまでこの種のサブシステムに組み入れること
が可能である。第9八図と第10図にそのいくつかの例
か示されている。
DCMの概略(第5図) データ・キャッシュ・メモリ140は高バント幅多重ポ
ート・メモリである。このメモリとそのインタフェース
のアーキテクチャは、本好適実施例のシステム全体の性
能を大幅に向上させる利点をもっている。高バント幅が
必要とされるのは、浮動小数点プロセッサ・モジュール
130か単純なベクトル計算を実行中のとき、浮動小数
点プロセッサ・モジュール130にデータを常時提供す
るためである(そして、その結果を除去するためである
)。例えば、ベクトル「加算」操作には、計算毎に数字
を3回転送する必要がある。浮動小数点プロセッサ・モ
ジュール130が20Mflopsの計算速度に耐えら
れる場合は、それに歩調を合わせるために要求されるメ
モリのバンド幅は毎秒240Mバイトとなる。
デ〜り・キ蟲、・ソシュ・メ千りはFi4K x 32
ビツト・メモリからなるメモリ・バンクを備え、2Mバ
イトのオンホード記憶機構を搭載している。これは遠隔
メモリ拡張ポート4310をキャッシュ・バス144 
にイ」加することにより拡張可能である。(物理的には
、このメモリ拡張モジュールは浮動小数点プロセッサ・
モジュール130の各種モジュールと同しコネクタに差
し込まれる。)このメモリ拡張モジュールは、オンボー
ド・データ・キャッシュ・メモリと同じハント幅になっ
ているので、追加の12Mバイト・メモリを2Mバイト
単位で拡張するように構成することが可能である。2重
容量メモリ・モジュールを使用すると、オンボード記憶
機構を4Mバイトまで、オフポート記憶機構を24Mバ
イトまで増加できる。
データ・キャッシュ・メモリには3つのポートがあり、
各々はプロセッサの各々につながっている。しかし、制
御プロセッサ・モジュール110と浮動小数点プロセッ
サ・モジュール130へのデータ転送はすべてCPマイ
クロコードによって制御されるので、多くの、占で、メ
モリを2重ポートだけをもつものとして扱うことか可能
とされていた。
浮動小数点プロセッサ・モジュール130と制御プロセ
ッサ・モジュール110に対するデータ転送は入出力転
送より優先されているので、データ転送プロセッサ・干
ジュール120はメモリ・サイクルに空きが出るまで待
たされることになる。データ転送プロセッサ・モジュー
ル120の待ち時間が長い場合は、制御プロセッサ・モ
ジュール110に割込みをかけて、メ干りへのアクセス
権を獲得することができる。このことは、制御プロセッ
サ・モジュール110がランダム・アクセスを行なって
いない限り、問題となることはない。その場合でも、ブ
ロック入出力転送では、データ転送プロセサ・モジュー
ル120は別のデータ・ブロックを要求する必要が起こ
る前に、メモリ・アクセスご、とにデータを転送するた
めに8サイクルが必要になる。
妥当なサイクル時間メモリ装置で高メモリ・バンド幅を
得るために、広幅メモリ・アーキテクチ+35 ャが採用された。メモリは24ビツト幅であるのて、1
回のアクセス・サイクルで、32ハイ1−(8K語)か
転送される。メモリのサイクル期間が10Onsてあれ
ば、メモリ・ハント幅はブロック転送ては毎秒320M
バイト、ランダムF語のアクセスでは毎秒40Mハイド
である。
データ・キャッシュ・メモリは、FPモジュール130
用のマイクロコート・オーバーレイを保管しておくため
にも使用できる。これらは、浮動小数点プロセッサ・モ
ジュール130のマイクロコードがWCSサイズを越え
たとき、FPモジュールの書込み可能制御記F!機構と
の間で受は渡しされる。この並行ロード機能によるvl
C5の再ロートは、ホスト制御による通常のシリアル・
ロードよりもはるかに高速に行なわれる。事実、この機
能はマイクロコードを動的にベージングができるだけの
高速になっている。
鼎−4セリ」略 コマンド・メモリは小容量(2K)の32ビツト幅メモ
リでり、制御プロセッサ・モジュール110とデータ転
送プロセッサ・干ジュール120間の2つのホー1−を
もっている。コマンド、制御および状況データはこのメ
モリに保管されているソフトウェア待ち行列またはFI
FOスタックを通して、制御プロセンサ・モジュール+
10とDTPの間て受は渡しされる。
このメモリの半分は制御プロセッサ・モシュル110と
浮動小数点プロセッサ・モジュール130の状態情報(
一部のコマンド構造と共に)を保存しておくために、マ
イクロコート・デバッグ・モニタ用として予約されてい
る。
(以下余白) 外部インタフェースの概略 好適実施例では、効率のよいインタフェースをいくつか
備えている。その中で最も重要なのかポスト・インタフ
ェース(VMEインタフェースとも呼はれる)である。
VMEインタフェースは好適実施例によるサブシステム
とVMEハスとを結ぶインタフェースであり、VMEハ
ス規格改訂版C1に規定されている電気的仕様とプロト
コル仕様に準拠している。
VMEインタフェースは、VMEホストがマイクロコー
ドをアップロートしているとき、制御または状況レジス
タをアクセスしているとき、VMEインタフェース・メ
モリ(VIM)をアクセスしているとき、あるいはデー
タFIFOをアクセスしているときはスレーブ・モート
で動作する。スレーブ・モトのインタフェースはハイド
または語アクセスをサポートせず、32ビット並列アク
セスだけをサポートする。しかし、制御および状況レジ
スタは16ビツト幅であるので、16ビツトのホストは
本好適実施例のサブシステムを制御できる。
い1[インタフェースは、局所DMAの制御を受C」て
データ「Iト0とVMEメモリ間てデータを転ススする
ときは、マスク・モートて動作する。DIIAの活動は
、データ転送プロセッサ・モジュール120か制込みサ
イクルをVMEハス上で開始することによりこのモジュ
ールによって制御され、モニタされる。
データ・パイプ・インタフェースは、高ハント幅バック
ブレーン・ハスと結ばれる設計になっている。(物理的
には、これはりホン ケーブルを使用するだけで構成に
含めることができる。)このバスを使用すると、私用サ
ブシステム間の通信が行なえるので便利である。つまり
、インタフェース・ロジックは2つの受信ポートと1つ
の送信ポートを備えているので、この種のバスを複数短
距離局所バスとして使用して、幅広いデータ流れアーキ
テクチャを実現することができる。このバス上のデータ
転送はFIFOでバッファリングされるので(受信端側
)、データ転送を高速にかつ低オーバヘットで行なうこ
とができる。複数のサブシステムを並列にも直列にも(
例えは、パイプラインで)接続できるのて、高性能のシ
ステムを1j1」単に実現することかできる。
1つの例として、高性能の実時間3次元図形システムを
、2つの高速化サブシステムと画像プロセッサをパイプ
ライン構成にすることによって構築することかてきる。
最初の高速化サブシステムはフレームnて多角形を変形
してクリッピングし、2番目の高速化サブシステムはフ
レームn−1で多角形を描画順に分類しく隠蔽表面除去
のため)、画像プロセッサはフレームn−2で多角形を
描画する。
DTPマイクロコート拡張インタフェースは仮想的にD
TPモジュール120のマイクロアドレスとデータ・バ
スを拡張したものである。これはGIPマイクロコート
拡張バスと完′全に互換性(物理的および電気的に)が
あるので、GIP用に設計され、この種のインタフェー
スを使用するどの拡張カートでも使用できる。外部大容
量メモリ・システムとネットワーク・カートはこのイン
タフェス ボー1・経由で本実施例のサブシステムと結
はれる。
画像データ・ハス・インタフェース170(またはrG
11’インタフェース」)は、特に図形と画像ブタ用に
最適化された別のハスに結ばれる。このインタフェース
は、GIPマイクロコート拡弓長バスとも接続できるの
で、本実施例のサブシステム上のいくつかのインタフェ
ース ロジックを1.IPマイクロコートで制御するこ
とかできる。これにより、GIPと本実施例のサブシス
テム間は両方向16ビツト幅のFIFOて結ばれるので
、コマンドとブタをFIFO経由で送ることができる。
このインタフェースの各側は他方の側に割込みをかける
ことができる。
制御プロセッサ(cp)モジュール110制御プロセツ
サは、32ビット整数プロセッサ機構(ユニット)(I
PU)240に搭載された32ビツト・マイクロコード
・プロセッサであり、本好適実施例では、Weitek
 XL8137が使用されている。lPt1240は1
6ビツト・アドレス生成機構(AG)230  (本実
施例ではAnalog Devices社ADSP 1
410を使用)および16ヒソトーシーケンサ21O(
本実施例ではAna logDev 1ces社ADS
P 11101を使用)によってサボー1−される。制
御プロセッサ内の主データ通路はCDバスl’12であ
る。
第2A図は本好適実施例における制御プロセッサ+10
の構造を概要図で示したものである。書込み可能制御記
憶機構(WC5)220は、マイクロ命令列を納めてい
るメモリである。シーケンサ210からマイクロ命令ア
ドレス・コマンドが出されて、制御記憶機構220から
マイクロ命令が取り出される。
この方法で制御記憶機構から取り出される命令の流れを
示したのが221である。レジスタに格納されない出力
とレジスタ222に格納される出力の両方を設けること
が好ましい。レジスタ222に格納された出力はデコー
ダ260に入力される。レジスタ222 と223は共
に直列シャFつ・レジスタとして構成され、直列ループ
225 とのインタフェースとなる。マイクロアドレス
の流れの一部をライン211Aから得て、浮動小数点モ
ジュール130に通知するようにするのかり了ましい。
この方イ゛去をとると、以下に述へるような利点か得ら
れる。
また、ライン221上の流れを両方向にするのか好まし
い。つまり、このラインは書込み可能制御記憶機構から
マイクロ命令を読み出すために使用できるたけてなく、
ある種、の場合には、命令を逆に制御記憶機構に書ぎ込
むためにも使用できる。
その利点については下達するか、これは重要な機能であ
る。
マイクロコート出力221は大力としてデコーダ260
に送られる。従来の方法では、このデコーダは最小限の
低レベル・デコード・ロジックを使用して、マイク命令
のフィールドを分割して、必要時にそれらをデコート化
している。本実施例のマイクロ命令形式は第2B図に示
されているが、これについては以下で詳しく説明する予
定である。デコーダ260の出力261はアドレス生成
機構230、整数処理機構240、シーケンサ210と
いった主要機能ブロックのすへでに送られる。これらの
ラインはいろいろな個所につながっているので、個別的
に11′1ボしていない。
シーケンサ210は、リンク レジスタ(1−ランシー
バ)214を経由してIPU 240から送られてくる
入力とシーケンサ局所ハス215を経由してアドレス生
成機構230から送られてくる入力たけてなく、他のい
くつかの入力も受は取る。
さまざまな割込み線はマルチプレクサ213を通して多
重化され、これらの割込みにより、シーケンサ210の
プログラム・カウンタ動作がさまざまに変更される。割
込みをそれぞれに応して処理するシーケンサ・ハードウ
ェアはよく知られている。
別のマルチプレクサ(212で示されている)は各種条
件コード信号から1つを選択して、シーケンサ240に
入力するために使用される。これらの条件コート信号は
、詳細は後述するように、シーケンサ2100ロジツク
の中でいろいろな使い方をされている。
バッファ217は、マイクロ命令のフィールドで指定さ
れている定数を送るために使用される。
ざらに、別の人出力かいくつか書込み制御記憶機構22
0とマイクロ命令バス221 にボされている。書込み
イネーブル線は、例えはホストからといったように、外
部から制御される。さらに、2ウエイ・インタフェース
211Bを通して、ホストはマイクロアドレス・バス2
11に対して読み書きを行なう。この機能は診断に利用
できるたけてなく、マイクロ命令を制御記憶機構に書き
込むときにも利用できる(後述する)。
クロック発生装置250は制御プロセッサ110とデー
タ転送プロセッサ120の両方からサイクル継続時間入
力を受は取る。現クロック・サイクルの継続時間は、C
PとDTPモジュールから受は取った最も継続時間の長
い指定子から即時に選択される。これは、プログラマブ
ル・ロジック・アレイ(PAL)を用いて実装するのが
好ましい。デコーダ260の場合と同様に、クロック発
生装置250の出力はいろいろな個所に送られるので、
個々には示していない。
第2B図は本好適実施例におけるマイクロ命令フィール
l〜の?、l]当てを示1ノだものである。CP拡張ロ
ジックにおCツるフィール1〜の制当でも不されてしA
る。この拡張ロジックの動作については以下て詳しく説
明する。なお、ここで注意しておきたし八ことは、この
拡張フィールド内のマイクロ命令の追加ビットと、基本
WC5220内の各命令のこれらの追加フィールドをW
C5拡張機構およびこれらのマイクロ命令フィールドを
デコートして実行するロジックはすへてサブシステム内
の各数値処理モジュール130またはアルゴリズム高速
化機構にも同しものがあることである。従って、第1O
図の実施例には、3つのWC5拡張機構が設けられるの
で、CPマイクロコード・フィールド全体は192ビツ
トになる。
基本命令内の個々の命令フィールドは整数処理機構24
0(32ビツト)、アドレス生成機構230(10ビツ
ト)、およびシーケンサ210(7ビツト)用に割り振
られている。拡張フィールド(これは各WC5拡張機構
に保管される)では、フィールドはレジスタ選択、条件
選択、および転送制御用に割り振+46 られている。これらのビットの用7去については、あと
て詳しく説明する。
他の命令フィールドは従来のマイクロコート・アーキテ
クチャで採用されている方法で割り振られる。例えは、
あるビットは中断点まできたことを示すために使用され
、いくつかのビットは命令タイプを簡単に記述するため
に使用され、2ビツトはクロック制御をコード化するた
めに(上述したように、可変継続時間クロックを可能に
する目的で)使用される。
アドレス・レジスタ230はオフ・ザ・シェルフ・アド
レス生成機構である。計算をこの機構で行なえるので、
制御プロセッサ110の高速アドレス計算能力が向上す
る。
さらに、整数処理機構(IPU) 240は算術演算機
能を更に向上させる。TPOはCDバス112から読み
書きができると共に、アドレスをCAババス出力するこ
ともできる(レジスタ241を通して)。これらのアド
レスは、第1図に示すように、キャッシュ・メモリ14
0とコマンド・メモリ120に対するアトレス情報とな
るものである。
本好適実施例において整数処理機構240で使用される
実際の構成要素は高度の算術演算機能を備えており、こ
の中には、乗算をハードウェアで行なう機能も含まれて
いる。従って、機構230と240を一緒に使用すると
、算術演算機構の多くをアドレス生成のために利用する
ことができる。更に、シーケンサ210がマイクロ命令
アドレス生成機能も実行するロジックをいくつか備えて
いることは勿論である。
アドレス生成機構230からの出力231はバッファに
入れられ、CDバス112に送り返される。シーケンサ
210は整数処理機構240の出力を読み取ることがで
きるが(リンク・レジスタ214を通して) 、IPU
 240にコマンドでCDバス112を駆動させること
もできる。キャッシュ・メモリ140、FPモジュール
130、またはコマンド・メモリ190もこれらの結果
がこのバスに送り出された時点で、その結果をアクセス
することができる。
レジスタ203(第2八図の左上に図示)は使用頻度の
低いいくつかの制御信号を格納1°る。これらの制御信
号には、診断用信号、LED制御イ8号なとかある。
整数プロセンサ機構(IPU) 2401Pυ240は
、4ポート・レジスタ・ファイル111O1八1.U 
1120、フィールド・マージ機構工130および乗算
/除算機構1140から構成されている。これらの構成
機構を簡略図で示したのか第11図である。2つの外部
データ通路は同図にDおよびADババス101.110
2で示されている。制御プロセッサ・モジュール110
では、へ〇バス1102はしノジスタ241を通して接
続され、各種メモリへのアドレス・バスとして使用され
る。、Dバス1101はCDバス112 に直結されて
いる。
TPU 240の4つのポート・レジスタ・ファイル1
110により、4番目のポート経由によるレジスタへの
書込みに加えて、rl −r2 + r3といった演算
が1サイクルで行なえる。ALU 1120は通常の算
術および論理演算機能のほかに、優先コート化とビット
またはバイト反転命令を備えている。フィルト−マージ
機構1130は多重ピント シフトと回転、可変ビット
・フィールド抽出、保管とマージ機能を備えている。乗
算/除算機構口40はlpH240の他の部分から独立
して稼動する。この機構かいったん乗算または除算操作
を開始したあとは、他の乗算/除算以外の命令はいずれ
もALLI 1120またはフィールド・マージ機構1
130に実行させることができる。乗算は32 x 3
2符号付き(8サイクル)で行なわれ、除算は64 x
 32ビット符号なしく20サイクル)で行なわれる。
レジスタ241はlPt1240の外部にあり、CAバ
バス11 とのインタフェースで使用される。これによ
り、メモリをアクセスするときパイプライン遅延が生じ
る6 (このレジスタが必要なのは、ここで使用されて
いる特定部分では、ADババスサイクルが開始してから
75−90ns経通するまでは有効にならないためであ
る。) IP口240(”じバス1103上の)に対するマイク
ロコード命令入力は内部的に格納されるので(レジスタ
1t51) 、マイクロコード命令は直接に誉込み+5
0 制御記憶機構(WCS)から取り出される。
アドレス生成機構(AG) 230 本好適実施例で使用されるアドレス生成機構230の構
成は第12図にその概要が示されている。
主要要素としては、16ビツト幅のALll 1210
.30個の内部レジスタ(これらのレジスタを機能別に
分けると、16個のアドレス・レジスタ1222.4個
のオフセット・レジスタ1224.4個の比較レジスタ
1226、および4個の初期設定レジスタ1228に分
類される)がある。他にも、アドレス比較機構1230
とビット反転機構1240がある。内部バス1250は
データの経路指定を行ない、”Y”バス1270はアド
レス出力231を行ない、この出力はCDバス112に
フィードバックされる(出力バッファ−232がイネー
ブルされたとき)e″D”バス1260はシーケンサ・
データ・バス215に人出力を行なうように結ばれてお
り、バス215はリンク・レジスタ/トランシーバ21
4によってCDバスから分離されテイル。
実際の装置は命令デコーダとその他のタイミングおよび
接合ロジック(図示せず)も備えている。
これらの機能により、アドレス生成機構230は1サイ
クルで次のことが行なえる。
16ビノト・ア1〜レスを出力すること。
メモリ・アドレスにオフセットを加えることによりメモ
リ・アドレスを修飾すること。
アドレス値がいつ事前設定境界に移動または境界を越え
たかを検出し、条件付きでアドレス値を再初期設定する
こと。
この最後のステップは循環バッファやモジュル・アドレ
ス指定を取り入れる上で特に有用である。
アドレス生成機構230はIPU 240がもつアドレ
ス生成機能を補強するものである。しかし、アドレス生
成機構230で使用される特定チップは直接に動作する
場合、16ビツト・アドレスしか生成できない。(倍精
度アドレスは2サイクルを必要とするが、2個のチップ
をカスケード接続することも可能である。)本好適実施
例では、アドレス生成機構230の16ビツド・アドレ
ス出力はIPU 240に渡され、そこでそのアドレス
出力がベース・アドレスに加えられ、32ヒツトまで拡
張される。
アドレス生成機構のレジスタは16ビツト幅Dボトを通
してアクセスされる。このポートはシケンサと同し局所
部分215 とリンク・レジスタ214 に接続されて
いる。
アドレスはYポート1270 (第2八図にライン23
1で示されている)から送出される。アドレスはCDハ
スと結ばれる前に、3状態バツフア232に渡される。
アドレス生成機構のDかYのどちらかが読み取られると
き(つまり、CDバスを駆動するように要求されるとき
)、16ビツト値はバス幅(32ビツト)までセロで拡
張または符号で拡張することができる。これを実行する
ロジックは、あとで詳しく説明する符号/ゼロ拡張PA
L 216内に置かれている。ゼロ拡張または符号拡張
はCPマイクロコートから直接に制御される。(この機
能は、16ビツト幅ポートのいずれかがCDバスを駆動
するために選択されたとき使用可能になる。) アドレス生成機構230の命令セットは次のように分類
されている。
ルーヒング レジスタ転送 論理およびシフl−(桁送り)1桑作 制御操作 その他の操作 アドレス生成機構の入力となるマイクロコート命令は内
部レジスタに格納され、WC5220から直接に取り出
されるようになっている。
シーケンサ220と関連 援ロジック 本好適実施例では、シーケンサ210は八DSP140
1を採用している。この特定のADSPを実装したシー
ケンサの主要要素は第13図に示されている。
これは、16ビツト加算機構131O164x 64ビ
ットRAM 1320、割込みロジック1330、割込
みベクトル記憶機構1340、および4個のループ・カ
ウンタが含まれる。
内部RAM]320は次の3通りの使い方が可能である
1つはレジスタ・スタックとしてである。スタックとし
て使用すると、サブルーチンに入ったとき最高4個まで
のアドレスをスタックに入れておくことができる。これ
らの71−レスは関係命令内の2ビツト・フィールドに
よってアクセス可能である。
次はサブルーチン・スタックとしてである。このスタッ
クはサブルーチンのリンケージと割込みのための通常戻
りアドレスの記憶域となるものである。これは、状況レ
ジスタやカウンタなどの他のパラメータを格納するため
にも使用できる。
最後は間接アドレス記憶域としてである。これは使用頻
度の高いアドレスの格納用に予約しておくことができる
。これらはDポートの下位6ビツトを用いてアクセスさ
れる。
スタック制限レジスタ1321はスタック域が他のスタ
ック域を壊したり、スタック・オーバフロやアンダフロ
ーが起こるのを防止するものである。これらのどれかが
起こると、内部割込みが起こり、エラー状態にフラッグ
が付けられたり、スタックはオフチップに拡張される(
スタック・ベジング)。
1O個の優先割込みか用意されている。そのうちの2個
は装置内部のもので、スタック エラーとカウンタ・ア
ンダフローに対するものである。8個は外部である。割
込み検出、レジスタリングおよびマスキングはずへてロ
ジック1330によりオンチップで処理され、対応する
ベクトルが割込みベクトル・ファイル1340から取り
出される。
命令セットは非常に豊富であり、ジャンプ、サブル−チ
ン呼出し、戻りなど幅広く揃っている。これらの命令の
大部分は絶対アドレス、相対アドレス、またけ間接アド
レスを使用して目標アドレスを指定できる。これらは選
択した条件の1つによって修飾可能である。
無条件。命令を常に実行する。
フラグなし。条件コード入力(FLAGと呼ぶ)が偽で
あれば、命令を実行し、そうでなければ続行する(通常
失敗命令) フラグ。条件コート入力が真であれば、命令を実行し、
そうでなければ続行する(通常失敗命令)。
9)号。命令の実行は状況レジスタ内の7−′1号ヒノ
i・によって左右される。
スタック管理、状況レジスタ操作、カウンタ操作、およ
び刊込み制御を行なう命令も用意されている。
マイクロコート命令入力は内部レジスタに格納され、マ
イクロコート命令はWCS  (レジスタ格納なし)か
ら直接に取り出される。
シーケンサ支援ロジックには、割込み、条件つぎコート
選択、マイクロアドレス・バス、定数/次アドレス・フ
ィールドの4種類がある。
討込及 本好適実h&例でシーケンサ210用に使用されている
チップは4個の割込み入力ピンがあるだけである。従っ
て、使用可能な割込み数を8個に拡張するために外部マ
ルチプレクサ213が使用されている。割込みは主に連
絡用とデバッグ・ツールをサポートするために使用され
る。
割込み発生源(最も優先度の高い順)は次の通りである
クロー ロシソク デハノグ環境内では、名目的には、モニタ・タスクとユ
ーザ・タスクの2タスクか稼動している。クロー・ロシ
ンク(claw logic)は、モニタ・タスクを1
ステソフ進めることなく、ユーザ・タスクだりを1ステ
ツプ進めるものである。クロロシックはユーザ タスク
の中のある命令か実行されると、モニタ・タスクに「制
御を返却させる」。ユーザ・タスクに制御を返却させる
命令はクロー割込みを要求する。これはlサイクルたけ
遅れているので、ユーザ・タスクの最初の命令が実行さ
れると割込みか引き起される。従フて、ユーザ・タスク
の次の(つまり、2番目の)命令が実行されるまえに、
制御がモニタ・タスクに返却される。
史JL点 この割込みレベルはマイクロコート・ビットと直接関係
があるので、割込みが起こるとこのビットがセットされ
る。この仕組を利用すると、中断点を設ける上で便利で
ある。中断点ビットがセラ+58 1〜された命令が実行されると、制御は中断点処理ルー
チンに渡される。中断、占はいくっても設定か可能であ
る。
VMEバス VMEハス割込みは通常デバッグ・モニタをサポートす
る目的だけに使用されるので、正常動作時には使用され
ない。
浮動小数点プロセッサ(中断点) 浮動小数点プロセッサ・モジュール130がそのWCS
にセットされている中断点の1つを見つけると、FPク
ロックは停止される。FPモジュールはこのことをこの
割込みを通して、制御プロセッサ・モジュールllOに
通知する。
DTPメモリ・アクセス この割込みは、制御プロセッサ・モジュールにデータ・
キャッシュ・メモリへのアクセスを時的に中止させるた
めに使用される。これによりデータ転送プロセッサ・モ
ジュール+20はキャッシュ140にアクセスができる
ようになる。
DTI’ (コマンド) このM 込みは、CPコマンドFIFO(コマンド・メ
モリ190内の)にコマンドがあることをデータ転送プ
ロセッサが制御プロセッサ・モジュール+10に知らせ
るために使用される。Φ表 DTP (データ転送完了) この割込みはデータ転送要求が完了したことを制御プロ
セッサ・モジュールに知らせるためにブタ転送プロセッ
サ・モジュール120によって使用される。、り 浮動小数点プロセッサ(一般) この割込みは、CPWAIT、FPWAITが状態を変
えたり、エラーか起こったり(エラー・タイプはソフト
ウェアで定義できる)、浮動小数点プロセッサ・モジュ
ール130に中断点が現れると、引き起される。活動事
象は、FPモジュール130上にあって、制御プロセッ
サ・モジュール110がロードできるマスク・レジスタ
によって選択される。この割込みは今は使用されず、将
来の使用に備えて予約されている。複数のFPモジュー
ル130を使用するシステムでは、4個のFT’がこの
荊込みを共用する予定である。従って、割込みサービス
・ルーチンは、これらのFPに正しくサービスするため
にはとのFPが割込みを引き起したかを知っている必要
かある。を 注意−*印の付いた割込みは通常の条件コート・ロジッ
クでもテストてきるので、これらをボリングした方が好
都合の場合には、そうすることが可能である。
*中印の付いた割込みの場合は、割込み状態を弓き起し
たことは、ソフトウェアFIFOデータ構造内の制御情
報を調べることで検出することができる。これは割込み
が使用されない場合には、ポリングすることが可能であ
る。
マルチプレクサ213を使用して割込み数を拡張するた
めには、4個の高優先度割込みレベルと4個の低優先度
割込みとの間のタイミング条件を変える必要がある。4
個の高優先度割込みであることを認識するためには、マ
イクロコード・クロックの立上がり縁より25ns前に
割込みを引き起す必要がある。低優先度割込みの場合は
、この時間制限は立下がり縁より15ns前にする必要
かある。
割込みを引き起すには、対応する割込み入力は1クロツ
タ期間の問直レベルに保持される。ノートウェアによる
割込み認知サイクルは必要ないので、割込み生成ハード
ウェア機構は非常に単純化される。
条件コート・ロジック シーケンサはFLAGと呼ばれる1つの条件コード入力
端をもっており、テスト可能な状況信号はすべて多重化
されてこのビンに入力される。これは内部レジスタに格
納され、通常のセットアツプ時間はIRQにマスク(カ
ウンタ・アンダフロー割込み)がかけられているときは
10nsであり、イネーブルされたときは26nsであ
る。FLAG入力端の極性はシーケンサ内部で変えるこ
とができる。
第40A図に示すように、FLAG入力端の状態をシー
ケンサ210の外部で保存しておくためにいくつかの追
加ロジックを使用することが好ましい。そうすれば、シ
ーケンサ210の内部状態を割込みが起ぎたあとて完全
に復元することかてきる。
1’At 4021はシーケンサ21O(または310
)の内部で内部フリップフロップ4020をエミュレー
トするために使用される。このPALは従って、「疑似
レジスタ」として動作するだけである。この必要が起こ
るのは、% 40 B図に示すような条件のときである
割込みか発生すると、シーケンサは割込み処理ルーチン
に制御を渡す。このルーチンが実行されている間、疑似
レジスタPALは割込み発生前に存在していた状況フラ
グ条件のコピーを保持しているだけである。割込み処理
ルーチンの実行が終ると、マルチプレクサ212はこの
ルーチンの指示を受けて、PAL4021の出力をシー
ケンサ210へのFLAG入力としてシーケンサに渡す
。これにより、フリップフロップ4020の内部状態が
復元される。
この結果、命令の流れは割込みが起こらなかフた場合と
同じ順序で継続する。これは、割込みに続く命令が条件
付きブランチである場合は特に重要である。内部状態を
正しく復元すれば、この条件イ」とブランチは正しく実
行されることになる。
勿論、4二の〔Jシンクは、シーケンサによつ−Cは必
要でない場合かあるか、本好適実施例で使用されている
ような特定シーケンサでは使用した方が好都合である。
テスト可能状況信号には、次のものがある。
IPII 240条件コート出力 これは、現命令の状
況を中継するものである。どの条件がこのビン上でIP
LI出力によって指示されるかは、マイクロコート令に
よって定義されている。
マイクロコート・ループ これはVMEインタフェース
制御レジスタの中の状況ビットであり、診断ソフトウェ
アて使用すると便利である。
書込みフラッグOと1:この2個号はデータ・キャッシ
ュ・メモリ書込みロジックの内部状態をアクセスしやす
くするもので、デバッグ・モニタ内の状態格納と復元マ
イクロコードによりてのみ使用される。
保留状態・これは、割込みから戻るとぎテストされ、ジ
ャンプによって割込み処理ルーチンに移った場合てもと
の条件イ」きジャンプその他か正しく実行さ打るように
する。
FP状況信号CPWAIT : 、mれは、FPがそノ
31算を終えて、追加データを待っているときクリアさ
れる。
FP状況信号Ft”1lAIT :これは、制御プロセ
ッサ。
モジュール110かその計算を終えて、追加データを待
っているときクリアされる。
FP状況信号バンク選択 これは、レジスタ・ファイル
が2重バッファ(論理)モードで使用されているとき、
FPレジスタ・ファイルのどちらの半分が制御プロセッ
サ・モジュール110に割り振られているかを知らせる
FP状況信号 直列ループ。これはFP上の浮動小数点
チップを通して実行される直列ループの終りから抽出さ
れる。この直列ループとのインタフェースを通して、制
御プロセッサ・モジュール110はこれらの装置の内部
状況を抽出する(挿入)ことができる。
FP状況信号:CP待ち割込みとFP待ち割込み。これ
らの2つの1人7兄ビツトはそれぞれのイ=号か高から
低に移るとセントされる(マスキングが可能な場合)。
信号1’T’WAITとCPWAITは、cpが割込み
発生源を突き止める前に再び高に戻ることがあるので、
直接にテストされる。
FP状況信号・++p中断点。これは、デバッグ目的だ
けに使用され、FPが中断点までくるとセットされる。
Fl’状況信号、FPエラー。これは、エラーが浮動小
巷点プロセッサ・モジュール130で起こると、セット
される。これは将来の使用に備えて設けられたものであ
る。
FP状況信号はシーケンサに向う共通線を共用し、実際
にテストされる状況信号はCP拡張マイクロコード部分
によって選択される。
IP[I 240からの条件出力は100nSでサイク
ルするときは、遅れて有効になるのでシーケンサのセッ
トアツプ時間に間に合わない(特にマルチプレクサによ
って遅延されるので)。この条件をテストするときは、
クロックを125nsに延長する必要かある。
ゴor 1oop’”はシーケンサ内部のカウンタの1
つを使用すると、コーディングしやくなり、IPII2
40はアドレス割算から解放される。For−1oop
sはIP口240を用いて行なうこともできるが、そう
すると、サイクル時間が長くなるので余分なオーバヘッ
ドが生じることになる。
条件コートは81マルチプレクサ212を通して多重化
されてシーケンサの”FLAG”入力端に入力される。
シーケンサは選択した条件コード信号の極性を内部レジ
スタに格納して、その選択を行なう。
マイクロアドレス・バス マイクロアドレス・バス211 と211Aは、通常プ
ログラム実行時にはシーケンサ210から、マイクロコ
ードのロード時にはVMEバスから駆動させることがで
きる。VMEバスはマイクロアドレス・バスの内容を読
み取って、シーケンサがどのアドレスにあるかを確かめ
ることもできる。これは、シーケンサ動作と非同期に行
なわれ、主に詮断で使+67 用される。
マイクロアドレス211は、制御プロセッサ・モジュー
ル110のWO2の32ビツトが各FPモモジュール上
置かれているので、FPモジュール(拡張部分211^
で示されている)上にも結ばれている。マイクロアドレ
ス・バス拡張部分はFP WO2を駆動するためにも使
用てきる。この機能は次の2つの理由で便利である。
1 ) FPマイクロコードがダウン・ロードされると
きホストからアドレスを与えることができる。
2)FPマイクロコードを制御プロセッサ・モジュール
と同期させて実行させるときに使用できるので、制御プ
ロセッサ・モジュール内のシーケンサ210のアドレス
が内部生成アドレスの代わりに使用できる。(この機能
は本好適実施例では採用されていないが、いつでも利用
できる方法である。) (以下余白) 定数フィールド マイクロ命令の16ビツト幅定数フィールドは主にシー
ケンサにアドレスを与えるために使用されるが、アドレ
ス生成機構の定数を保持するために使用することもてき
る。
シーケンサ210は両方向で私用局所ハス(シケンサ・
データ・ハス215)と結ばれている。これにより、ジ
ャンプなどをCDバス112を使用する処置と並行に行
なうことができる。シーケンサ・データ・バスは両方向
リンク・レジスタ/トランシーバ214 を経由してC
Dバス112 とリンクされている。クロックのタイミ
ングとリンク・レジスタ214に対する「フィードスル
ー」制御は、送り冗と宛先はすべて要求条件が異なるの
で、転送経路と方向に応じて変化する。アドレス生成機
構のデータ入力端は、アドレス生成機構230がシーケ
ンサと同しタイミング条件でこのバスで転送を行なう必
要があるので、このインタフェースのシーケンサ側に接
続されていることに注目ずへきである。
この構成により、次のようなπγ路指定か可能′Cある
定数フィール(〜 〉シーケンサ(ジャンプ)定数フィ
ールド−>CDハス(レジスタ・ロート)シーケンサ−
>CDハス(診断) CDハス−〉シーケンサ(計算によるジャンプ)定数フ
ィールド−〉アドレス生成機構 アドレス生成機構−>CDハス(診断)CDバス−〉ア
ドレス生成機構(計算によるアドレス) 書込み可能制御記憶機構(WC5’)220本好適実施
例ては、WCSメモリ・バンクはマイクロコートSJL
モジュールを使用している。これらは8K x 32ビ
ツト・メモリを備えており、これと共に、マイクロコー
トのロートと診断のための直列シャドウ・レジスタ22
2 と223を備えている。(これらのシャドウ・レジ
スタの動作は以下で詳しく説明する予定である。)この
モジュールは2つの種類、つまり、出力がレジスタに格
納されるものと、レジスタに格納されないものとかある
。lT’11240 アドレス生成機構230、およ乙
トシーケンサ210+jそれぞれ独自に内部ハイブライ
ン レジスタを持っているので、WCSからの非レジス
タ格納出力を使用する。
Y1目すへぎことは、制御フ゛ロセッサ・モシュルのW
CSは実際には分散されていることである。
図示の基本WCS部分220(これは物理的にベース・
ポート上に置かれている)のほかに、さらにWC522
0の拡張部分が1つまたは2つ以上ある。これらの拡張
部分はマイクロアドレス・ストリーム211Aを受は入
れ、物理的に各FPモモジュール上置かれている。基本
WC5220に格納されている命令セットは各アドレス
に96ビツトの命令を収容している。WCS拡張部分4
90は各々基本WC5220と同しアドレス範囲にまた
がフでいるが、WC5拡張部分の各々(数値プロセッサ
・モジュールの各々にある)は各アドレスに追加の32
ビツト命令を収容している。
WCSインタフェース・レジスタ222と223ホスト
(VMEインタフェース160を通して稼動する)か制
御記憶機構のすへでに夕4して忌みNきを行なうとき使
用する直列ループの動作について以下詳しく説明する。
ここでは、ハードウェア構成と接続関係について説明す
る。
上述したように、レジスタ222はレジスタ格納マイク
ロ命令出力をデコーダ260に対して、および他の多く
のロジックとメモリ構成要素に提供する。内部レジスタ
に出力を格納する構成要素の場合には、非レジスタ格納
出力も提供される。(例えば、IPLI 240は内部
命令パイプライン・レジスタをもっている。また、高度
の内部デコート・ロジックも備えている。IPU 24
0はデコーダ260からある種のレジスタ格納制御ビッ
ト、例えは、出力イネーブル信号も受は取ることに注目
すべきである。) レジスタ222は実際は直列シャドウ・レジスタである
。これはレジスタ可能による並列スルーフットが得られ
るたけでなく、直列アクセス・モトももっている。直列
アクセス・モートは下達する直列ループとのインタフェ
ースのために使用される。
他方の直列シャ]−ウ レジスタ223は非レジスタ格
納出力のシャトつとなるものである。完全1.f命令に
対応する直列出力を得るためには(要求時に)(または
、逆に命令221の全幅を制御記憶機構220に書き戻
すためには)、すべてのビットフィールドをアクセスす
る必要がある。
勿論、上述したように接続すると、データ・インタフェ
ースたけてWO5220と結ふことかできる。つまり、
レジスタ222 と223 にはWO2220内の記憶
位置の内容が見えるが、データと明示的に結び付いたア
ドレスは見えない。アドレス・インタフェースは両方向
接続211Bで示されているように、別個の2方向イン
タフエースである。これはCPマイクロアドレス・バス
であり、VMEインタフェース内のマイクロコート・ロ
ード制御ロジックと結ばれている。これと同じバスは、
DTP制御記憶機構を除くシステム内のすへての制御記
憶機構とのマイクロアドレス・インタフェースとなって
いる。DTP制御記憶機構内のマイクロアドレス線はV
MEインタフj−−ス内の別のレジスタ/バッファ対に
結はれている。
F P II御ロジック アーキテクチャのもう1つの特徴は、制御プロセッサ・
モジュールが単に監視プロセッサであるだけてなく、浮
動小数点プロセッサ・モジュールとの間で受は渡しされ
るすべてのデータ転送を直接に制御することである。こ
のロジックの大部分はFPモモジュール上置かれている
が、その制御は制御プロセッサ・モジュール+10のマ
イクロコトによって行なわれ、CDバスとのインタフェ
ースとなっている。このロジックはあとで詳しく説明す
るが、そこではFPモジュールのデータ操作について検
討する予定である。
モード・レジスタ203はマイクロコート・ビットを専
用するほど重要でない使用頻度の低い制御信号の値を保
持する。モート・ビットには次のものがある。
読取り保持レジスタ561を通る流れまたはレジスタ$
1」御。
書込み保持レジスタ561を通る流れまたはレジスタ制
御(第5図に561 として示されているレジスタは実
際には2重になっており、1個の読取りレジスタと1個
の書込みレジスタからなっている)。
保持レジスタ560に対するループバック・モト。
2個のLED制御信号。
モジュール選択(3ビツト) このアトスレは複数個の
FPモジュール130やアルゴリズム高速化機構130
゛の間で選択される。
CDバス・デコート・ロジック テ:7−タ26oの機能の1つは、マイクロコートCD
ソース・フィールドをデコードして、CDバスを駆動で
きる装置の出力イネーブルを制御することである。また
、CD宛先フィールドをデコードして、クロック・スト
ローブと書込みイネーブル信号(これらはクロック発生
機構からの書込みゲ1− G−ijにJ:つて修15i
1iされる)を発生ずることも機能の1つである。CD
ハス上のボー1−の大部分は読み書きかできるので、I
Pll 2110にある疑似レジスタは必要ない。(C
[+ソースと宛先の一部はデコツ260にあるデコート
・ロジックによっててなく、CP拡張ロジック410 
にあるデコート・ロジックによって制御されることにl
1目すべきである。) CDバス・ソースと宛先として可能なものとして、IP
U 240、コマンド・メモリ、データ・キャッシュ・
メモリ保持レジスタ560A、モート・レジスタ(8ビ
ツト)、転送制御レジスター〜*、FP制御レしスタ*
11−開始アトレス・レジスタ*す、命令レジスタ(8
ビツト)、状況レジスタ(ソースのみ)−アドレス生成
機構アドレス・ポート**、アドレス生成機構データ・
ポートI!、シーケンサ・データ・ポート**、定数/
次アドレス・フィールド(ソースのみ)都匂りある。Φ
印の付いたレジスタはFPモモジュール上置かれている
CP拡張ロジックの一部である。これらのレジスタは、
Wcs拡張部分490に格納されでいる拡張CPマイク
ロコート内のフィールドによって選択される。選択され
たモジュールだりかデータ転送に応答して、データを送
受する。午^印の付いたソースは下位16ビツトを駆動
させるたけである。これらのビットの1つが選択される
と、符号/ゼロ拡張PAL 216も活動化されるので
、データは32ビツトのバス幅まで符号またはゼロで拡
張される。
ソースと宛先はそれぞれ1つだけが選択可能であり、こ
れらは異なっていなければならない。
IPU 240 ヘ(Dデータ転送はIPU 2401
7)命令フィールドの制御の下で行なわれるので、CD
データはそれが別の宛先にロードされているときと同時
にCDバスから取り出すことができる。
クロック 生 構250 クロック発生機構250は制御プロセッサ・モジュール
110  (k主μデータ転送プロセッサ・モジュール
120)を通して使用される基本クロック信号を発生す
る。この機構は、制御プロセッサ110とデータ転送プ
ロセッサ120の両方からサイクルHk Ha 1l−
II間入力を受り取る。現クロック ÷Fイクルの継続
時間は、CI”と11’Pモジユールから受(プ取った
2つの入力のうち長い方の継続時間に従って、即時に選
択される。
この発生機構はプログラマブル・ロジック・アレイ(P
AL)  に実装することが好ましい。このPALはあ
らかしめ定義された4つの波形列の1つを生成する。こ
れらの4つの波形列は期間が異なっている。つまり、入
力クロック期間の4.5.6.7倍になっている。これ
は、本実施例のように、40MHzオシレータが使用さ
れるとぎは、100,125゜150、および+75n
sに変換される。
4つのクロック出力が生成される。これらのクロックは
、タイム2クロツクを除き、すべてサイクル継続入力に
応して同じ継続時間をもつ。これらには、マイクロコー
ド・クロック、パイプライン・クロック、書込みイネー
ブル・ゲート信号、タイム2クロツクがある。
マイクロコード・クロックは2サイクル(オシレータの
)の間常に高レベルにあり、そのあと2.3.4または
5サイクルの間(これはヅイクル長入力によって選択さ
れる)低レベルになる。
マイクロコード・クロックはシーケンサ、整数処理機構
、アドレス生成機構、レジスタなどを同期させて稼動さ
せるものである。
パイプライン・クロックはマイクロコート・クロックと
波形が同じであるが、マイクロコート・クロックはパイ
プライン・クロックを動作させたままにして、マイクロ
コードのロード時にディスエーブルさせることが可能で
ある。
書込みイネーブル・ゲート信号はマイクロコード・クロ
ックが高になった1サイクルのあと低になるが、マイク
ロコード・クロックが低に戻る1サイクル前に高に戻る
この信号はメモリのすべてとレジスタの一部に対する書
込みイネーブルのタイミングをとるものである。
タイプ2クロツクは、マイクロコード・クロックの動作
周波数の2倍の周波数で動作し、その立上がり縁はマイ
クロコード・クロックの縁と同じタイミンクで現れる。
これは4h殊クロツクであり整数プロセッサ機構210
 と340たりて使用される。lI’Uはそれぞれの(
内部)乗算/餘於ロジックのクロックをとるためにこの
クロックを使用して、これらの多重サイクル機能で要す
る時間を短縮する。
クロックのサイクル期間の長さは命令毎に調節され、各
命令に割り当てられる時間がその命令で指定されたデー
タ通路の経路指定で必要になる最小時間になるようにし
ている。各命令のサイクル継続時間はマイクロコード・
アセンブラに計算させて、命令の一部に含めることが好
ましい。こうすると、サイクル期間の長さが固定してい
る場合よりも性能が向上する。サイクル期間の長さが固
定している場合は、すべての命令が最も遅い命令と同じ
時間かかってしまうからである。本好適実施例では、サ
イクル期間の長さは1(10,125,150および1
75nsがサポートされているが、殆どの命令は最短の
サイクル期間の長さを使用するようになっている。
クロック・サイクルは「待ち信号」によフて延長するこ
とも可能である。この待ち12号は、例えば、メモリが
使用中であったり、オフホードにあってそれらのアクセ
ス時間を追加のバッファリングのために延長する必要か
あるために、メモリが通常のアクセス時間に応しられな
いとぎ使用される。例えば、2ポートを備えたVMEイ
ンタフェスーメモリはアドレスの衝突が起こると、一方
のポートが待たされることになる。データ・キャッシュ
・メモリ140はFPモジュールと同じコネクタを使用
するメモリ・ポートに搭載されたキャッシュ・メモリ拡
張モジュールで拡張可能である(第43図に図示)。し
かし、使用するメモリのタイプによっては、キャッシュ
拡張モジュールへのアクセスが基本キャッシュ140へ
のアクセスより遅くなる場合がある。かかる場合には、
待ち状態をクロック発生機構に入力すれば、サイクル期
間の長さは自動的に延長される。この機能を使用すれば
、はるかに低速で安価なメモリを拡張モジュール431
θで使用でき、しかも性能の低下をわずかにlfiえる
ことがてきる。
ホスI−はVMEバス・インタフェースを通してクロッ
ク発生機構を制御できる。この制御により、ポス1−は
クロック発生機構250を自走させるか、停止させるか
を選択できる。停止状態にあるときは、ホストはクロッ
クを1ステツプだけ進めることができる。制御プロセッ
サ・モジュール110とデータ転送ブロツセッサ・モジ
ュール120は共に1ステツプだけ一緒に進められる。
クロック発生機構に最後に入力される制御は、バイブラ
イン・クロック(これは正帛動作する)を除くすべての
クロックを禁止する制御である。
これは、WO2のロート(または読取り)時に使用され
るが、これらの処置をとっても、制御プロセッサ・モジ
ュール110やデータ転送プロセッサ・モジュール12
0の内部状態が壊されることがない。これの使用例とし
ては、マイクロコード・デバッグ・セツションで中断点
がWO2に設定された場合がある。
デバッグ・バー1−ウェア 制御ブロセノセ・モジュール110に含まれるデバッグ
・ハードウェアの殆どはすでに本明細書の各所で触れた
通りである。以下では、主要機能を要約する。
ホストは、読取り時と書込み時にマイクロアドレス・バ
ス211の制御権を受は取ることができる。
ホストはWO2220をロードし、再びそれを読み戻す
ことができる。
制御プロセッサ・モジュール110はVME発生割込み
(つまり、ホストからの割込み)を高優先度割込みとし
て受は取る。
ハードウェアによる中断点がサポートされており、中断
点は無制限にいつでも設定できる。
クロー・ロジックにより、ユーザのタスクはモニタ・タ
スクを1ステップ進めないで1ステップ進むことができ
る。
すべてのレジスタは読み書きであるので、多くの通常デ
ータ流れを診断時に反転させることができる。
クロック制御入力によりマイクロコートを1ステップ進
めることができる。
すべての割込みは選択的にイネーブル(割込み可能)ま
たはディスエーブル(割込み禁止)させることができる
重要なロジック群の内部状態がアクセスできるので、制
御プロセッサ・モジュール110ハードウエアの状態を
完全な形で格納し復元することができる。
マイクロコード語の形式 第2B図は、FPモモジュール上置かれているWC52
20とWC5拡張部分に格納されているマイクロ命令の
構造を示した概略図である。傘印のついた項目はWO2
から直接に取り出され、これらが制御する装置内部にパ
イプライン化されている。他の項目はWC5220の出
力側のレジスタに格納される。
**印の付いたフィールドは物理的にはFPモモジュー
ル上WC5拡張部分に保管されているが、CPマイクロ
コード語の一部になフている。これらのマイクロコート
による処置の大部分は七シ;1−ルJ襄択ロジックによ
って修篩されるので、FPセシュルか選択されなかった
場合はなにも作用しない。
利用できるマイクロコート・ビットの総数は導入された
FPモジュール当たり96ビツトに追加の32ビツトを
加えたビット数である。これらのビットは大部分か使用
されるか、いくつかのビットは予備ビットとして用意さ
れている。
IPU ?r4算:]−ト(32)* 、:(7)フィ
ー11zFi;tlPII240整数プロセッサのデー
タ経路指定と算術または論理演算を制御する。フィール
ド内のビット割振りはコーディングされる。すへての命
令は下位24ビツトがコーディングされる。上位8ビツ
トはブタをIPU 240のレジスタ・ファイルに転送
するときだけ使用される。(このフィールドの詳細はI
PUに関するメーカのデータ資料に記載されている。) シーケンサ演算コート(7)^このフィールドはADS
P 1401 による次のアドレス生成を制御する。
(このフィールドの詳細はその部分のメーカのブタ資才
4に記載されている。) 定数/次ア[・レス・フィールド(16) * このフ
ィールドは主にシーケンスにアドレス情報を与えるため
に使用されるか、16ビツト定数値をデータ・バス上に
送り出すためにも使用できる。そのあと、これはこのバ
ス上の任意のレジスタにロートできる。
アドレス生成機構演算コート(10)*このフィルトは
ADSP 1410アドレス生成機構を制御する。
(このフィールドの詳細はこの部分のメーカのデータ資
料に記載されている。) サイクル長さ(2)このビットは選択された命令とデー
タの経路指定に合ったサイクル長さを選択する。
データ・キャッシュ・アクセス(1)*このビットはデ
ータ・キャッシュ・メモリへのアクセスが自身で使用す
るために、あるいはFPどの間でデータをやりとりする
ために、制御プロセッサ・モジュルから要求されると、
活動化する。アクセス・フラグはバイブライン化されて
いないので、デーりφ云送フ゛ロセソサ モジュール1
20からのデータ・キャッシュ要求との仲裁は要求が出
されたサイクルの開始前に解決される。
データ・キャッシュ書込みイネーブル(1)このビット
はデータ・キャッシュ・メモリての書込みサイクルを発
生させる。
データ・キャッシュ書込みオール(1)このビットは通
常の書込みイネーブル・ゲート操作を無視して、データ
・キャッシュ・メモリ内の語の選択的更新を可能にし、
それらをすへて強制的に書き出させる。
データ・キャッシュ・ポート選択(1)このビットはF
Pモジュールの保持レジスタまたは制御プロセッサ・モ
ジュール110の保持レジスタのどちらかを、データ・
キャッシュ転送のソースまたは宛先として選択する。
データ・キャッシュ・メモリ長さ(3)これらのビット
はFP保持レジスタから取り出して、データ・キャッシ
ュ・メモリに書き込まれる語の個数を指定する。保持レ
ジスタ内の最初の語はデータ・キャッシュ・メーeリ 
アドレスの最下位3ヒソI・て指定される。
条件コー)−選択(3)このフィールドは条件付き命令
の実行時にシーケンサによってテストされる次に示した
条件コートの1つを選択する。条件コトとは、IPo 
240条件コート出力、FP状況(別のフィールドによ
って選択された実際の状況)、FP中断点、マイクロコ
ート・ループ、フラグ(2項目)、保留状況である。
CDバス・ソース(3)このフィールドは以下に挙げた
レジスタ、バッファまたは装置の1つを選択して、CD
バスを駆動する。つまり、TPII 240、コマンド
・メモリ190、データ・キャッシュ・メモリの保持レ
ジスタ561の1つ*、モード・レジスタ、FPモモジ
ュール、アドレス生成機構アドレス・ポート、アドレス
生成機構データ・ポート、シーケンサ・データ・ポート
、定救/次アドレス・フィールドである。(*ソースと
して使用する特定レジスタまたはバッファが別のフィー
ルドで指定されることを意味する。) CDハス宛先(3)このフィールドはり下に挙げたレジ
スタ、ハソファまIこは装置の1つをCDハス上のデー
タの宛先として選択する。つまり、コマンド・メモリ、
データ・キャッシュ メモリ保持レジスタ、モート・レ
ジスタ、FPモジュール(ソスとして使用する特定モジ
ュールは別のフィールドで指定される)、アドレス“生
成機構アドレス・ポート、アドレス生成機構データ・ポ
ート、シケンサ・データ・ポートである。
IPII 240が含まれていないのは、これはCDハ
ス上のデータをいつでも「取得」できるからである(こ
の機能はIPU命令フィールドによって制御される)。
アドレス・レジスタ制御(2)これらの制御ビットの一
方はアドレス・レジスタのローディングをイネーブルし
、他方のビットは診断とデバッグ・モニタが使用できる
ようにレジスタの読み戻しをイネーブルする。
モジュール選択(3)最上位ビット(同報選択)は残り
の2ヒツト(モジュールID)をどのように解釈するか
を制御する。同報選択か0のときは、モジュール(10
)はデータ キャッシュ・メモリかCDハスのとちらか
とのデータ転送に応答させる単干ジュールを選択する。
同報選択が1のときは、モジュールIDはどちらのグル
ープのFP(またはアルゴリズム高速化機構)をデータ
転送に応答させるかを選択する。これにより、同しデー
タを複数の宛先に同時に転送できるので、個々の書ぎ込
みよりも高速化される。これはモジュールへ転送すると
きだけ有効であることに注意されたい。
というのは、複数の転送をモジュールから行なうと、デ
ータ・バスで競合が起こるからである。
モジュール選択モート(1)選択するモジュールがマイ
クロコート・モジュール・フィールドによって定義され
ているか、モート・レジスタにょフて定義されているか
を指定する。これにより、モジュールをサイクル単位で
も、あるいはグローバルにも選択できる。グローバル法
は存在するFPモジュールのいずれかで作業が行なえる
とぎ使用され、制御プロセッサ・モジュール110は転
送/計算サイクルを開始する前に使用すべき「1′を選
択する。グローバル機能か使用可能でない場合は、個々
のFP干ジュールに対応して異なる制御プロセンサ・モ
ジュール110のルーチンか存在することになる。
中断点(1)  (I+デバッグ専専用−)命令に中断
、壱を設けるためにデバッグ・モニタによって設定され
る。命令の実行中に割込みが起こると、その命令の実行
が終ったあと、制御権かデバッグ・モニタ・マイクロコ
ードに渡される。
クロー(11(**デバッグ専用*つユーザ・タスクを
1ステツプ進めるとき、クロー・ロジックを始動するよ
うに設定される。次の命令の実行中に割込みが起こると
、あるユーザ・タスクの命令か実行されたあと、制御権
がデバッグ・モニタ・マイクロコートに渡される。これ
により、ユーザ・タスクはクロックを物理的にオン、オ
フに切り替えなくても、]ステップ進めることができる
割込みDTP (1)これは、16ビツト幅レジスタま
たは装置が読み取られるときのみ効力をもつ。この+9
1 イ3号はデータかセロ拡弓長されているか(ヒツト16
−31か七〇にセット)、符号拡張されているか(ビッ
トl6−31がビット15と同しにセット)を選択する
保留状況(1)このビットは、通常はシーケンサ210
内部のFLAGレジスタの状態に従って更新される疑似
状況レジスタの更新を禁止する。通常、この疑似ビット
は内部レジスタの状態に従うか、割込みサービス中は、
この疑似ビットは更新されることから禁止される。これ
により、FL八へし、タスクは割込みルーチンから出た
とき、正しく復元されることになる。
FP条件コート選択(3)**これらのビットは制御プ
ロセッサ・モジュール110のシーケンサにつながる共
通条件コート線を内部FPモジュール信号のうちのどれ
で駆動させるかを選択する。選択できるものには、CP
WAIT、 FPWAIT、バンク選択、直列ループ、
cp待ち割込み、FP待ち割込み、FP中断点、FPエ
ラーかある。
−ル上の内部レジスタ/144のどれをCDハス経由で
読み書きするかを選択する(下位16ビツトのみ)。レ
ジスタとバッファには、転送制御レジスタ、FP制御レ
ジスタ、開始アドレス・レジスタ、命令レジスタ(8ビ
ツト)、状況レジスタ(ソースのみ)がある。
レジスタ方向(1)**このビットはレジスタを読取る
か、書ぎ込むかを選択する。
FP中断点クリア(1)1このビットはFP中断点をク
リアして、FPクロックが動作するようにする。
開始アドレス・ジャンプ(ll幸*このビットはFPシ
ーケンサに開始アドレス・レジスタ(制御プロセッサ・
モジュール110によ〕てロードされた)を次に実行す
る命令のアドレスとして使用させる。これは「ワンショ
ット」動作で行なわれるので、FPが開始アドレスにあ
る命令の実行を終えると、FPシーケンサはその通常動
作モードに戻る。
転送制御(2Q)峙このフィールドは保持レジスタ42
0(FPモモジュール上)とFPモジュールの高速レジ
スタ・ファイル430間のデータ転送を制御する。ここ
では各サブフィールドが簡単に説明されているか、これ
は転送メカニズム全体か明らかになれば、それらの使い
方か分かるはすであるからである。
方向(1)このビットは保持レジスタ420とレジスタ
・ファイル430間の転送方向を判定する。方向は保持
レジスタからレジスタ・ファイルへと、レジスタ・ファ
イルから保持レジスタへのどちらかである。
転送イネーブル(1)このビットは他のマイクロコード
・ビットとレジスタ格納制御ビット(転送制御レジスタ
内の)で定義されている通りに、転送サイクルを開始す
る。
レジスタ・ファイル・アドレス(6)ここで指定される
アドレスはデータがそこから読み書きされるレジスタ・
ファイル内の最初の語のアドレスである。
レジスタ・ファイル・アドレス修飾子(2)これらはレ
ジスタ・ファイル・アドレスをどのように修飾して、物
理的、論理的またはプレビュー・アトレス指定モート(
これらはずへて、レジスタ・ファイルを制御プロセンサ
・モジコール110とFP間でどのように共用させるか
と係わりがある)をとり入れるかを指定する。
保持レジスタ開始アドレス(3)これは転送で最初に使
用する保持レジスタを指定する。
保持レジスタ開始アドレス・モード(2)保持レジスタ
開始アドレスは次の3ソースのいずれかから取り出され
るように指定できる。
1、前述したCPマイクロコード・フィールドから。
2、FPモジュールの転送レジスタに保持されているフ
ィールドから。
3、キャッシュへの最後のアクセスで使用されたアドレ
スの最下位3ビツトから。
ハンドシェイク・モード(3)ハンドシェイク・モード
は制御プロセッサ・モジュール110とFPとのハンド
シェイクをFPWAITとCPWAITの仕組とバンク
選択を通して制御する。これらのモードのいくつかは通
常のハントシェイキング・プロシージャを無効にするの
で、主要信号をデバッグ目的に初棚設定したり、セント
したりてきる。モートにはCPDONEセット、レジス
タ・ファイル スワップ要求、CPDONEセットとス
ワップ要求、CPDONEクリア、テスト・モード(診
断だけに使用)、ノーオペレーションがある。
2重書き込みイネーブル(1)2重書き込みイネプルは
、長さや開始パラメータで要求するものを転送する代わ
りに、2語をレジスタ・ファイルに転送させる。これに
より、有効なデータにはブタ有効主張フラグが付けられ
、無効データにはデータ有効拒否フラグが付けられる。
これらのフラグはどのデータ項目が有効であるかを確か
めるために、FPによってテストされる。
全保持レジスタ・クロックこのビットは、ブタをレジス
タ・ファイルから保持レジスタに転送するとき、通常の
保持レジスタのクロック順序付けを無視する。このビッ
トが活動しているときは、すへてのレジスタは順次にで
はなく、−緒にクロックがとられて、レジスタ・ファイ
ル・データが4コピーされてすべての保持レジスタに格
納される。
データ転送プロセンサ・モジュール120第3図はデー
タ転送フロセッサ・モジュール120のブロック図であ
る。同図に示すように、DTPモジュール120にアド
レス生成機構230のような独立のアドレス生成機構1
10が含まれていない点を除けば、制御プロセッサ・モ
ジュール+10と非児によく似ている。各プロセッサ内
の特殊目的機能が使用されない場合は、原理的には、同
しマイクロコート(ソース・レベルの)を両プロセッサ
で実行させることが可能である。
データ転送プロセッサ・モジュール120は16ビツト
・シーケンサ310で制御される32ビット整数プロセ
ッサ機構(IP口)340をベースとした32ビツト・
マイクロコート・プロセッサである。データ転送プロセ
ッサ・モジュール120内の主データ通路は転送データ
・バス(TDババス122である。
本実施例によるDTPモジュール120構成部分の多く
は制御プロセッサ・モジュール110構成部分と非常に
よく似ている。これら類似部分は同じ参照符号で示し−
Cある。従って、シーケンサ310は書込み可能制御機
構320に対してマイクロ命令アドレス311の列を提
供する。シーケンサ310はレジスタ314を経由して
TDババス22 とのインタフニスになるだけでなく、
マルチプレクサ312を通して条件コートを受は取り、
マルチプレクサ313を通して割込みを受は取る。制御
記憶機構320からアクセスされたマイクロ命令は出力
321 として得られ、レジスタ格納出力もレジスタ3
32を通して得られる。線311Bと225はホストか
らこの書込み可能制御記憶機構320へのアドレスとデ
ータのインタフェースとなる(これは下達する)。(線
324は直列アクセスで使用される書込みイネーブル線
である。)直列/並列シフト・レジスタは非レジスタ格
納入力を受は取る装置の内部状態を格納するシャドウ・
レジスタである。16ビツト・シーケンサ・バス35か
らも、16ビツト入力がシーケンサ310に送られる。
この入力はバッファされた入力であり、これは例えば、
リテラル値を入力するために使用できる。
マイクロ命令321 はレジスタ格納入力としてデコー
ト・ロジック3δ0に送られる(シャドウ・レジスタ3
22経由で)。このデコート・ロジックの出力361は
制御入力して整数処理機構340、シーケンサ310、
各種インタフェース150.160.170に入力され
る。特に、デコーダ360の出力はTDババス22への
アクセスを制御する。TDババス22は外部インタフェ
ースと、キャッシュ・メモリ140とのデータ・インタ
フェースとなっている。デコーダ260の場合と同様に
、デコーダ360の出力が別に示されていないのは、こ
れらの出力が広範にわたるからである。
整数処理機構340は制御プロセッサの場合と同様に、
Weitek XL8137を使用するのが好ましい。
(ただし、データ転送プロセッサでは、アドレス生成は
それ程重要でないので、アドレス生成機構を別に設ける
必要がない。)整数処理機構340はTDババス22と
の2ウエイ・インタフェースをもっており、レジスタ3
41を通してTAババス21 にアドレス出力を送り出
すこともできる。
データ転送の制御 ソース・ポートと宛先ポートとの間でサイクルごとに1
転送ができるようにするためには、いくつかの要因を考
慮する必要がある。
1、転送のソースまたは宛先はFIFOでバッファリン
グされることがあるので、転送制御はFIFO上の満杯
と空のフラグに応答する必要がある。これらの信号のタ
イミングをシーケンサへの条件コード入力のバイブライ
ン化と併用すると、転送が1つだけオーバランすること
がある。FIFOへの転送の場合は、半満杯フラグが使
用されるので、これは問題でない。半満杯フラグを使用
すると、FIF6に予備容量が十分にあるので、オーバ
ランした1i!または2語を受は入れることができる。
FIFOから読み取るときは、他の方式を使用する必要
がある。”empty+1“フラグをもつFIFOを使
用したり、FIFOデータをパイプライン段で遅らせる
オプションは本好適実施例では使用されていないが、こ
れはコスト上の理由とスペース要求量の理由によるもの
である。
この起こり得る問題を解決するために、2つの方法か用
意されている。これらの2方法のどちらを使用するかは
、宛先がメモリであるか、FIFOであるかによって決
まる。違いは、書込み操作がメモリでは元に戻せるが、
FIFOではできないことである。つまり、FIFOか
らメモリへのデータ転送がFIFOか空になったあとで
1語または2語に対して続けられると、エラー・データ
がメモリに書き込まれることになる。しかし、このデー
タは正しいデータが使用可能になった時点で直ちに重ね
書きすることができる。
a、FIFoを読み取るときは、読取り信号は論理的に
FIFO空信号によって修飾される。この結果、空のF
IFOを読み取ろうとしても、実際には読取り操作は行
なわれない。これにより、FIFO読取りがオバランし
ても問題は起こらない。FIFOは空のときは自身を読
取りから保護するが、この余分の制御が必要なのは、オ
ーバラン読取り時にFIFOの他側に書込みが行なわれ
るおそれがあり、そのためにデータが壊されるからであ
る。従って、データ中云送フロセッサ モジュール12
0かデータをメモリに転送するときは、FIFOが空に
なると停止する。この時点てオーバランがすでに起こっ
ている。この場合は、DTPモジュール+20がアドレ
スを追跡できるので、データがFIFOで使用可能にな
ったとき、なにもなかったかのように転送が再開される
b、FIFOに書き込むときは、書込み操作は元に戻す
ことかできない。従って、異なる方法が用いられている
。マイクロコートは、転送を始める前にソースFTFj
l (と宛先FIFO)からの状況をテストする。この
モートでは、転送速度は低下する。しかし、ソースFI
FOが半満杯以上になった場合は、マイクロコードは高
速転送モートに切り替わる。この状態が起こったときは
、ソースFIFOの深さの半分までが空マークを通り過
ぎないで読み出すことができる。従って、このモードで
は、 DTPモジュル120は状況検査のために停止し
なくても、このサイズのブロックを転送することができ
る。受入れ側FIFOの状況は、それが半満杯以下でな
けれは、なお検査か必要である。低速転送子−1−と高
速転送モート間を切り替えるこれと同し手法をメモリに
も使用することができることは勿論である。
2、シーケンサ310内の3ウ工イ分岐命令(BRAN
CHと呼ばれる)を使用すると、転送された語数を記録
しておき、FIFO状況信号をテストすることができる
。この方法によると、条件付き経路でIPU340を使
用しないで済むので、サイクル長さを短縮することがで
きる。
3、データ・キャッシュ・メモリとの間のデータ転送を
最適化するために、TDババス22 とのデータ・イン
タフェースは、32ビツト・レジスタが8個用意されて
いるレジスタ・バンク560B (第5図参照)にバッ
ファされる。これにより、DCMから見たとき、読取り
と書込みを完全に並列に行なうことができる。この経路
には2重バッファリングがないので、長い転送(〉8浮
動小数点語)は自動釣に中断されることになる。データ
転送プロセッサ・モジュール120は従って、メモリ・
サイクルが現れるまで転送を一時中止することになる。
この中断は連続転送か使用されないで、より多くのメモ
リ・アクセス・サイクルか必要であるとき、頻繁に行な
われることになる。
4データーキヤツシユ・メモリの仲裁はCPモジュール
のサイクルの始まりで決定される。データ転送プロセッ
サ モジュール120が制御プロセッサ・モジュール+
10と非同期に稼動していた場合(命令依存サイクル時
間を可能にするために)は、データ転送プロセッサ・モ
ジュール120は同期時間が1oansまで、さらにア
クセス時間が100nsまで待たされる場合がある(ア
クセス時間は、制御プロセッサ・モジュール110に優
先権があるので、さらに長くなる可能性があり、DTP
モジュル120は空きメモリ・サイクルを待たなければ
ならない。)さらに、シーケンサに対するマイクロコー
ド命令とFLAG入力をバイブライン化すると、さらに
別の遅延が起こり、その間DTPモジュルは転送が終っ
たかを確かめるためにループすることになる。
これらの遅延を最小にするために、制御プロセッサ・モ
ジコール110とデータ転送プロセッサ・モジュール1
20は同しマイクロコート・クロック発生機構を共用し
ている。両プロセッサはそれぞれの最適サイクル時間を
要求し、クロック発生機構は最も長いサイクル時間を選
択する。これによってどちらかのプロセッサの平均速度
が大幅に低下しないのは、命令の大部分が最短サイクル
時間で実行されるからである。ループ時の遅延を克服す
るために、仲裁は非レジスタ格納マイクロコード要求ビ
ットを用いて行なわれる。
この解決手法の唯一の欠点は、ハードウェアによる単一
ステップを用いるときは、両プロセッサに影響を与える
ことである。
5、従って、FIFOがソースまたは宛先であるときは
、FIFO状況信号(場合によっては、データ・キャッ
シュ・メモリ仲裁信号)を転送時にモニタする必要があ
る。これらの4個の状況信号(FIFO満杯、FIFO
半満杯、FIFO空、キャッシュ・アクセス許可)が−
回のサイクル内でモニタできるようにするためシこ、デ
ータ中云送フ゛ロセソサ モニタ−−)し120は多重
ウェイ分岐機能をもっている。こ、tlにより、テスト
すべき状況がジャンプ・アドレスに挿入されるので、ジ
ャンプする先のアドレスはそのサイクル時の状況によっ
て決まる。3つのFIFO状況状態は2ビツトにコート
化され、仲裁信号は3番目のビットを構成する。これに
より、8ウ工イ分岐が得られる。FIFO状況だけに関
心があるときは、仲裁信号はディスエーブルできるので
、多重ウェイ分岐は4ウエイに減らされる。
6制御プロセツサ・モジュール110(またはFPモジ
ュール130)が各サイクルでデータ・キャッシュ・メ
モリ140を使用中のときデータ転送プロセッサ・モジ
ュール120がキャッシュ・メモリからロックアウトさ
れるのを防止するために、割込みが用意されている。デ
ータ転送プロセッサ・モジュールがアクセスを拒否され
ると、転送承認信号でループを開始する。この状態にお
けるタイムアウトは簡単にテストして調へることかでき
る。タイムアウトが起こると、データ転送プロセッサ・
モジュール120は制御プロセンサーモジュール110
に制込みをかけることができる。これによりデータ転送
プロセッサ・千ジュール120はメモリ・アクセス・モ
ートから出て、再びデータ転送プロセッサ・千ジュール
120はこのモートに入る。
整数プロセッサ機構340 IPυ340は、本好適実施例では、すでに述べた制御
プロセッサ・モジュール110のIPII 240とほ
ぼ同しである。
シーケンサ310と関連支援ロジック シーケンサ310は、本好適実施例では、すでに述べた
制御プロセッサ・モジュール+10のシーケンサ210
とほぼ同じである。
シーケンサ支援ロジックには、割込み、条件コード選択
、マイクロアドレス・バス、定数/次アドレス−フィー
ルドの4種類がある。
筬込及 シーケンサは4つの割込み入力ビンをもっているだけで
ある。従って、この数を8に拡張するために、外部マル
チプレクサ313か使用される。割込みは主に連絡とデ
バッグ・ツールのサポートのために使用される。
割込み発生源(優先度類)は次の通りである。
クロー・ロジックと中断点、この劃込みレベルはクロー
・ロジックと中断点ロジックの間で共用される。これら
の2割込みタイプの機能は、制御プロセッサ・モジュー
ル110内のシーケンサ210の機能と関連づけて上述
した通りである。
VMEバス(デバッグ)、:VMEバス割込みは通常デ
バッグ・モニタをサポートする目的だけに使用されるの
で、正常動作時には使用されない。
VMEバス(コマンド): この割込みレベルは、コマンドがコマンド・レジスタに
保管されるとセットされる。
制御プロセッサ(コマンド)、この割込みが起こると、
制御プロセッサ・モジュール110はコマンドがDTP
コマンドFIFOにあることをデータ転送プロセッサ・
モジュール120に通知することができる6*傘 VMEデータFIFOこの割込みレベルは、ある種のデ
ータを受は取ったか(入力FIFOI 、データがなく
なったので(出力FIFO) 、 VMEインタフェー
ス内のデータFIFDにアテンションか必要であること
をデータ転送プロセッサ・モジュール120に通知する
ために使用される。
GIP−(ンタ’:lx−、1.:GIP割込みはGJ
P FJFO状況信号によって引き起される。* データ・バイブ・インタフェース・この割込みレベルは
、ある種のデータを受は取ったのでデータ・バイブ・イ
ンタフェース内のFIFOの1つにアテンションが必要
になったとき、データ転送プロセッサ・モジュール12
0に通知するために使用される。中 マイクロコード拡張インタフェース この割込みは拡張
カード(例えば、大容量メモリ・カートやネットワーク
・カード)のいずれかで使用するために予約されている
注意:*印の付いた割込みは通常の条件コード・ロジッ
クでテストできるので、それが望ましい場合はポーリン
グが可能である。
・−印の付いた割込みの場合は、割込み状態を弓き起し
た事象は、ソフトウェアFIFOデータ構造内の制御情
報を調へることで検出することができる。割込みを使用
しない場合は、これをポーリングすることが可能である
一割込み数を拡張するためにマルチプレクサ313を使
用する場合は、4つの高優先度割込みレベルと4つの低
優先度割込みとの間でタイミング条件が異なることにな
る。高優先度割込みであることを認識するためには、割
込みをマイクロフード・クロックの立上がり縁の25n
s前に引き起す必要がある。低優先度割込みの場合は、
その期限は立下がり縁の15ns前である。
割込みを引き起すために、対応する割込み入力は1クロ
ック期間高に保持される。ハードウェアによる割込み承
認サイクルは必要ないので、割込みを引き起すハードウ
ェアは非常に単純である。
条件コード・ロジック シーケンサはFLAGと名付けた条件コード入力端を1
つもっているので、すべてのテスト可能状況信号は多重
化されてこのビンに入力される。これは内部レジスタに
格納され、通常セットアツプ時間はIRQにマスクがか
けられているときは(カウンタ・アンダフロー割込み)
 l0nsであり、イネーブルされたときは26nsで
ある。FLAG入力端の極性はシーケンサ内部で変更す
ることが可能である。
(以下余白) DTPモジュールはCPモジュールと同様に、第40A
図に示すような疑似レジスタ・ロジックを備えている。
(これは割込み処理から戻るときの問題を避けるための
ものである。) テスト可能な状況信号には、次のものがある。
IPo 3110条件コード出力(COND) :この
信号は現命令の状況を中継する。IPU 340がこの
ビンから出力する特定条件はマイクロ命令でコーディン
グされる。
マイクロコード・ループ、これはVMEインタフェース
制御レジしタスの状況ビットであり、診断ソフトウェア
で使用されるものである。
以下に挙げたFIFOに対するFIFO状況信号:デー
タ・パイプ入力#】C半満杯と空)、データ・パイプ入
力#2(半満杯と空)、データ・パイプ出力#l(満杯
)*、データ・パイプ出力#2(満杯)*、VMEデー
タ入力(半満杯と空) 、 VMEデータ出力(半満杯
と空)、GIPインタフェース(入力)(半満杯と空)
 、 GIPインタフェース(出力)(満杯、半満杯と
空)。*印の付いた信号は別サブシステム上の受人れ「
IFOから出されるものである。
データ キャッシュ・メモリ・サイクル承認これはデー
タ・キャッシュ・メモリへのアクセスが許可されたこと
を示す。
マイクロコート拡張インタフェース条件コート信号、こ
れは状況をデータ転送プロセッサ・モジュールのシーケ
ンサ310に返却するためにいずれかの拡張インタフェ
ース180によって使用される。
DMAバス・エラー:この状況ビットは、 VMEバス
上のDMA転送がバス・エラー発生が原因で途中で打ち
切られたとき活動化する。このエラーが最も起こり得る
原因としては、存在しないメモリがアドレス指定された
場合がある。
書込みフラグOと1:これらの2信号はデータ・キャッ
シュ・メモリ書込みロジックの内部状態をアクセスしや
すくする。これらは、デバッグ・モニタにある状態スレ
ーブと復元マイクロコードだけによって使用される。
保留状況・これは、割込みから戻るときテストされ、そ
の結果、条件付きジャンプなどが制込みサービス・ルー
チンへのジャンプによフてディスエーブルされていても
、正しく実行される。
IPU 340からのC0ND出力は、100nsでサ
イクルするときは、シーケンサのセットアツプ時間に間
に合わない程遅れて有効化される(特に、マルチプレク
サによって遅延されたとき)。この条件をテストすると
きは、クロックを125nsまで延長する必要がある。
”for 1oops”は、シーケンサ内部のカウンタ
の1つを使用すると、とり入れやすくなり、IPU34
0をアドレス計算から解放することができる。勿論IP
U 340を使用しても可能であるが、サイクル時間が
長くなり、それだけ余分のオーバヘッドが生じることに
なる。
条件コードは24・lマルチプレクサ312を通して多
重化されて、シーケンサ310のFLAG入力端に入力
される。シーケンサは選択した条件コード信号の極性を
内部レジスタに格納して、それを選択する。
マイクロアドレス バス3+1 マイクロアドレス・バス311は、2つのソースつまり
、正常プログラム実行時にはシーケンサ310から、マ
イクロコードのロート時にはVMEバスから駆動させる
ことができる。VMEバスはマイクロアドレス・バス3
11の内容を読み取って、シケンサ310がどのアドレ
スにあるかを確かめることもできる。これはシーケンサ
動作と非同期に行なわれ、主に診断で使用される。この
バスの拡張部分は311B線で示されているように、ホ
スト・インタフェース・ロジック160に結ばれている
定数/次アドレス・フィールド これは、シーケンサ210に関連して上述したもとのは
全く異なる方法で使用される。DTPモジュール120
では、マルチウェイ分岐機能を向上するためにいくつか
の新規なロジックが使用されている。このロジック(お
よびマルチウェイ分岐でのその用法)について、以下説
明する。
マルチウェイ分岐 第3A図と第3B図に示す実施例では、マイクロコ1・
・システムにおけるマルチウェイ分岐に新規な機能かい
くつか追加されている。第30図は、アドレス境界の制
約を受けることなくマルチウェイ分岐を行なうために本
好適実施例で採用されているマイクロコード動作を概略
図で示したものである。
第3A図から明らかなように、定数/次アドレス・フィ
ールド(マイクロ命令フィールドからのもの)はバッフ
ァ317に対して設けられただけでなく、マルチウェイ
分岐ロジック318に対する入力ともなる。マルチウェ
イ分岐ロジックはマイクロコード・アーキテクチャに新
規な機能をもたせる仕方でこの信号を処理することがで
きる。このマルチウェイ分岐ロジックに対する他の入力
としては、PIF状況信号、およびシフト・コマンド(
これはシーケンサ310によって実行されるマルチウェ
イ分岐ステップにおいて、代替宛先間の増分を変えるた
めに使用される)がある。
第3B図は詳細図である。マイクロ命令バス311から
の定数フィールド(16ビット)は分割されてPAL3
18 とハソファ317 に対する入力か得られる。共
通イネーブル信号は、マルチウェイ分岐操作が望ましい
とき、これらの両方を活動化するために使用される。(
勿論、シーケンサ・ハス315は他にも用途が多数ある
のて、マルチウェイ分岐操作が必要になるのはまれであ
る。)さらに、定数/次アドレス・フィールドは、単純
なジャンプ操作でもよく使用され、そのような場合には
、マルチウェイ分岐操作が必要になる。
第30図は、マルチウェイ分岐ロジックの内部操作をさ
らに詳しく示している。条件選択/コート化ロジックに
は、各種条件および状況信号が用意されている。これは
これらの条件を選択し、コード化して、分岐で使用でき
る3ビット信号を得るものである。
マルチウェイ分岐ロジックは以下で詳しく説明するよう
に、いくつかのマイクロ命令ビットで制御される。
この種のマルチウェイ分岐ロジックをモジュル120の
ようなデータ転送プロセッサて使用すると、特に利占か
得られる。その場合には、装置条件信号を選択/コート
化ロジック301Oに対する冬作入力として使用できる
。そうすれは、データ転送プロセッサはかなり複雑なイ
ンタフェースに対して高度の制御を行なうことができる
。関心のある状況信号が現れると、マルチウェイ分岐ロ
ジックはその条件を処理するのに相応しいルーチンに直
ちに移ることができる。マルチウェイ分岐機能により、
シーケンサは複数の装置の条件を1回のサイクルでテス
トすることかできる。つまり、DTPモジュール120
は各サイクルごとにデータ転送を行なうことができる。
この結果、1つだけの条件コート(FLAG)入力端を
もつシーケンサは複雑な制御を行なうこともできる。
本好適実施例では、選択/コート化ロシンク3010に
対する入力には、下達するように4個のFIFOからの
状況ビットがある。しかし、他の様々な入力構成を使用
できることも勿論である。
シフト入力はシフトとマージ・ロジックに対するもので
ある。これは、マルチウェイ分岐の宛先間の増分を変え
ることを可能にする。
第30図の右側はシーケンサ310か相対アト、レス指
定機能をもつことを概略図て示したものである。この機
能をマルチウェイ分岐機能と併用すると、アドレス境界
の制約を無視できる。これはデータ転送プロセッサでは
特に利点がある。この種のプロセッサはデータ転送を小
刻みに行なえる能力が要求されるので、マルチウェイ分
岐命令を多数含めておくことが望ましい場合がある。ア
ドレス境界の制約がなくなったので、この種の命令を大
量に使用できる。
本好適実施例では、プログラム・カウンタがジャンプ宛
先に対する入力として使用されている。
これは、従来の多数のマルチウェイ分岐では、宛先ベー
ス・アドレスを別のソースから得ていたものと異なるも
のである。
書込み制御記憶機構(WC5) 320WC5はマイク
ロコートSILモジュールを用いて構成されている。こ
れらは8K x 32ビツト・メモリであり、マイクロ
コードと診断機能をロートするだめの随列走査パイプラ
イン・レジスタをイIiIえている。このそジュールは
2種類のものが使用される。レジスタ格納出力と非レジ
スタ格納出力である。IPU 340とシーケンサ31
0は独自の内部バイブライン・レジスタをもっているの
で、非しタスタ格納版を使用する。
WCSインタフェース・レジスタ322と323は制御
プロセッサ・モジュールの個所で上述したWCSインタ
フェース・レジスタ223 と222 と同し働きをす
る。
DMAコントローラ DTPモジュール120の重要な機能は、VMEインタ
フェース180と、場合によっては、1つまたは2つ以
上の他のインタフェースにある1つまたは2つ以上のD
MAコントローラを制御することである。この機能は、
それぞれのインタフェースと共に、以下で詳しく説明す
る予定である。
モート・レジスタ303は、使用頻度が低く、マイクロ
コ−1−ヒツトを専用させるたけのJMj由かない第2
1]御イハ号の値を保持するものである。(ニー1〜ヒ
ントには、読取り保持レジスタを通る流れとレジスタ制
御、書込み保持レジスタを通る流れとレジスタ制御、マ
イクロコート拡張インタフニスにおいて割込み承認信号
を駆動する外部割込み承認信号、GIP割込み要求、保
持レジスタに対するループバック モー1−12個のL
ED制御信号かある。
TDババスデコート このロジック(これはデコーダ360の最も重要な機能
の1つである)は、マイクロコード丁りソスをデコート
化し、TDババス22を駆動できる装置の出力イネーブ
ルをその結果に応して制御する。
また、このロジックはTD宛先フィールド(クロック発
生機構250からの書込みゲート信号で修飾されている
)もデコート化して、スロープと書込みイネーブル信号
を発生する。TDハス122上のホトの大部分は読み書
きができるので、IPU上の疑似レジスタは不要である
TDハス−ソースおよび宛先になり得るものとしては、
It’ll 3=l[)  \’ 1.I Eインタフ
ェース−メモリ、コマンド・メモリ、データ キャッシ
ュ−メモリ保持レジスタ56[)B、モート・レジスタ
(8ビツト)、シーケンサ・データ・ポート*中、定数
/次アドレス・フィールド(ソースのみ)1、VMEデ
タFIFO、データ・パイプ1、データ・パイプ2、G
IP FIFO**、割込みベクトル・レジスタ(8ビ
ツト) 、DMA制御レジスタ、DMAコントローラア
ドレス・カウンタ*、DMAコントローラー語カウンタ
*がある。*印の付いたソースはDMAコントローラ命
令によってデコートされる。通常のTDババス御フィー
ルドの一部としてはデコートされない。*中印の付いた
ソースは、下位16ビツトだけを駆動する。これらの1
つが選択されると、符号/ゼロ拡張PAL 216も活
動化されるので、データは32ビツトのバス幅まで符号
またはゼロで拡張される。
1つのソースと1つの宛先だけが選択可能であるので、
これらは異なっていなければならない。
H’LI 340 ヘノデータ転送はIPLI :14
0の命令フィルトの制御を受けて行なわれるのて、デー
タか別の宛先にロートされているのと並行してデータを
TOババス22から取り出すことかできる。
クロック発生機構 上述したように、クロック発生機構250は、ブタ転送
プロセッサ・モジュール120全体を通して使用される
基本クロック信号を発生する。
デバッグ・ハードウェア データ転送プロセッサ・モジュール+20に含まれるデ
バッグ・ハードウェアの大部分はいくつかの個所で前述
した。これらをここで要約して示すと、次の通りである
。マイクロアドレス・バス311  (Thみ取つと書
込みの両方)のホスト制御、ホストによるWO2のロー
ディングと8売み戻し、DPTのアテンションを得るた
めのVME生成割込み、ハードウェアによる中断点サポ
ート(中断点は数に制限されずに、いつでも設定可能)
、クロー・ロジック(これにより、ユーザ・タスクはモ
ニ・タスクを1ステップ進めないで1ステップ進むこと
かできる)、すへてのレジスタか読み書きであること、
マイクロコートを1ステップ進めるためのハードウェア
によるクロック制御、すべての割込みが選択的に割込み
可能または割込み禁止できること、重要なロジック群の
内部状態に対するアクセス(これにより、 DTI’モ
ジュールのハードウェア状態を完全に格納し、復元する
ことができる)などである。
マイクロコート語の形式 マイクロコート語の形式の概要を示したのが第3C図で
あり、次のように定義されている。
*印の付いた項目は直接にWO2から取り出されて、こ
わらか制御する装置内部でパイプライン化される。
使用可能なマイクロコート・ビットの総数は96ビツト
である。これらのビットは大部分が使用されるが、その
いくつかは予備として以下のフィルトから除かれている
rpu演算コート(32)*  : コノ7 イールド
はIPII340整数プロセッサのデータ経路と算術ま
たは論理演算を制御する。フィールド内のビットのH振
りはコート化されているが、詳細はWeit、ekデー
タ資料に記載されている。すべての命令は下位24ビツ
トがコート化されており、上位8ビツトはデータをlP
t1340のレジスタ・ファイルに転送するときだけ使
用される。
シーケンサ演算コード(7戸 このフィールドはADS
P 1401 による次のアドレス生成を制御する。
命令セットはデータ資料に記載されている。
定数7次フィールド(1B)*  :このフィールドは
主にアドレス情報をシーケンサに与えるために使用され
るが、16ビツト定数値をデータ・バス上に送出するた
めにも使用できる。その場合は、これはこのバス上のレ
ジスタのいずれかにロードすることが可能である。
マルチウェイ分岐選択(2戸:このフィールドはマルチ
ウェイ分岐操作時にFIFO状況信号のどちらのセット
を使用するかを選択する。選択できるもノニは、VME
入力FIFO1GIP入力FIFO、データ・バイブ1
入力FIFO、データ・バイブ2入力FIFO1がある
マルチウェイ−シフト制御(2)   これはマルチウ
ェイ分岐状況情報がビット位置0、ビット位置1、ビッ
ト位置2から挿入されること、あるいは全く挿入されな
いことを選択する。シフト要因は多様化されているので
、マルチウェイ分岐内の各入口点をそれぞれ、1.2ま
たは4命令の長さにすることができる。
マルチウェイ分岐転送イネーブル(1)・このビットは
キャッシュ・メモリ・アクセス許可信号をFIFO状況
と結合するのを可能にしたり、禁止したりするものであ
る。このビットが使用されないときは、マルチウェイ分
岐は4ウエイであり、使用されるときは、8ウエイであ
る。
サイクル長さ(2):このフィールドは選択された命令
とデータ経路に合ったサイクル長さを選択する。
データ・キャッシュ・アクセス(1)*  このビット
は、データ・キャッシュ・メモリへのアクセスがデータ
転送プロセッセ・モジュール120によっで要求される
と活動化する。
データ・キャッシュ書込みイネーブル(1)   この
ビットはデータ・キャッシュ・メモリへのアクセスが許
可されると、データ・キャッシュ・メモリで書込みサイ
クルを発生させる。
データ・キャッシュ書込みオール(1)  このビット
は通常の書込みイネーブル・ゲート操作を無効にして、
データ・キャッシュ・メモリ内の語の選択的更新を可能
にし、すべての語が書き込まれるようにする。これは、
アクセスが許可されたときだけ、データ・キャッシュ・
メモリ書込みサイクルを発生させる。これはメモリ・ブ
ロックを定数値にセットするときに便利である。
条件コード選択(5)   このフィールドは条件付き
命令の実行時にシーケンサにテストさせる以下に挙げた
条件コードの1つを選択する。つまり、IPo 340
条件コート出力、マイクロコード・ループ、書込みフラ
グ(2項目)、データ・バイブ入力FIFO#1 (半
満杯と空)、データ・バイブ入力FIFO#2 (半満
杯と空)、データ・バイブ出力PIFO#1(満杯)、
データ・バイブ出カドIFO#2 (満杯)VMεデー
タ入力FIFO(半満杯と空) 、VMEデータ出力F
IFO(半満杯と空)、GIPインタフェース(入力)
(半満杯と空)、GIPインタフェース(出力)(半満
杯と空)、データ・キャッシュ・メモリ・サイクル承認
、マイクロコード拡張インタフェース条件コード・イン
タフェース、 DMAバス・エラー、保留状況である。
保留状況(1)  ・このビットは通常はシーケンサ2
10内のFLAGレジスタの状態に従う疑似状況レジス
タの更新を禁止する。通常、この疑似ビットは内部レジ
スタの状態に従うが、割込みサービスの実行中は、更新
されるのを禁止される。これにより、FLAGレジスタ
は割込みルーチンから出たとき正しく復元される。
TDババスソース(4):このフィールドはTDババス
駆動させる以下に挙げたレジスタ、バッファ、または装
置の中から1つを選択する。つまり、IPU 340、
コマンド・メモリ、 VMEインタフェース・メモリ、
データ・キャッシュ・メモリ保持レジスタ、モー1〜・
レジスタ、シーケンサ データポート、定数/次アドレ
ス・フィールド、シーケンサ・データ・ポート、定数/
次アドレス・フィールド、すMEデータFIFOデータ
・ポート、データ・バイブ2、GIP FIFO1割込
みベクトル・レジスタ(8ビツト)、DMA制御レジス
タ、DMAコントローラーアドレス・カウンタまたはD
MAコントロラー語カウンタである。
■Dハス宛先(4)・このフィールドは以下に挙げたレ
ジスタ、バッファまたは装置の1つをTOババス上デー
タの宛先として選択する。つまり、コマンド・メモリ、
VMEインタフェース・メモリ、ブタ・キャッシュ・メ
モリ保持レジスタ、モート・レジスタ、シーケンサ・デ
ータ・ポート、定数/次アドレス・フィールド、シーケ
ンサ・データ・ポート、VMEデータFIFOデータ・
バイブ1、ブタ・バイブ2、GIP FIFO1割込み
ベクトル・レジスタ(8ビツト)、DMA制御レジスタ
、DMAコントローラーアドレス・カウンタ、DMAコ
ントローラー語カウンタである。
IPII :MOか上に挙げたものの中に含まれていな
いのは、これはTDハス上のデータをいつでも[取得J
できるからである。この機能はIPLI命令フィルドに
よ)て制御される。
アドレス・レジスタ制御(2)・これらの制御ビットの
一方はアドレス・レジスタのローディングを可能にし、
他方のビットはレジスタの読み戻しを可能にして、診断
とデバッグ・モニタで使用できるようにする。
中断点(1)  (”牟デバッグ専用**)、命令に中
断点を設けるためにデバッグ・モニタによって設定され
る。この結果、命令の実行中に割込みが起こると、その
命令の実行を終えたあと制御権がデバッグ・モニタ・マ
イクロコードに渡される。
クロー(1) I*”デバッグ専用**):ユーザ・タ
スクを1ステップ進めるときクロー・ロジックを始動す
るために設定される。この結果、次の命令の実行中に割
込みが起こると、ユーザ・タスクのある命令が実行され
たあとで制御権がデバッグ・モニタ・マイクロコードに
移される。これにより、ユーサータスクはクロックを物
理的にオン、オフに切りシ・−やλなくても1ステップ
進むことかできる。
割込みCP (2)  これは制御プロセッサ・モジュ
ルに3レベルのうちのルベルで割込みを引き起すもので
ある。これらのレベルは次のように割り振られている。
つまり、ホストから新しいコマンド受信、データ転送終
了、データ・キャッシュ・メモリへのアクセス権解放で
ある。
ゼロまたは符号拡張(1)、このビットは16ビツト幅
レジスタまたは装置が読み取られるときだけ効力をもつ
。その場合には、データをゼロで拡張するか(ビット1
6−31がゼロにセット)、符号で拡張するか(ビット
16−31がビット15と同じにセット)が選択される
DMAコントローラ命令(3)、このフィールドはDM
Aコントローラに対する命令を制御する。命令には、内
部レジスタの読み書き、レジスタの再初期設定、アドレ
スを増分(減分)または語カウンタを減分する通常のD
MA動作を扱うものがある。
マイクロコート拡弓長バス マクロコート拡張バスは基本マイクロコー1〜・サービ
スをオフポートで拡張するものである。これは、拡張周
辺ボード上のある種のインタフェースを制御したり、周
辺ボード全体を制御したりするために使用できる。これ
らの使い方の代表例として、大容量メモリ・カードやネ
ットワーク・インタフェース・カードとのインタフェー
スとなることである。
拡張バス・インタフェースは電気的および機械的にGI
P上の拡張インタフェースと同じであるので、これらは
どの共通拡張カードでも共用することができる。
拡張コネクタは96ウエイDINコネクタであり、そこ
に現れる信号には、次のものがある。3ビツト・スライ
ス・クロック[注1]、バイブライン・レジスタ・クロ
ック[1]、マイクロアドレス・バス311B(15ビ
ット)[2]、TDババス22(32ビツト)[3]、
リセット、WC5出力制御、パイプライン・レジスタ出
力制御イネーブル、wC5書込みイネーブル32・1、
ハイブラーfン レジスタ モト制御、直列クロック、
直列データ イン、直列データ・アウト(マイクロコー
トのローディングで使用)、外部側辺み[4コ、割込み
承認、条件コード[4]。信号は上で注記したものを除
ぎすへてTTLレヘレベある。つまり、[1]これらの
信号は差分ECL レベルにある。[2]これらの信号
は信号コート化ECLレベルにある。[3]このバスは
32ビツト幅であるか、目的によっては、2個の16ビ
ツト・バス、つまり、−次データ・バスと二次データ・
バスとみなすことかできる。
[4コこれらの信号はオープンしているコレクタ・バッ
ファによって駆動される。
ある種のECL信号をこのインタフェースで使用すると
、ポート間のクロック・スキュー効果を最小にするので
好都合である。
数値プロセッサ・モジュール130 本好適実施例では、数値プロセッサ・モジュール130
は浮動小数点プロセッサである。従って、このモジュー
ル+30は浮動小数点プロセッサ・モジュール(または
’FPモジュール」)とも呼ばれることかある。しり)
シ、この七ジュールは他のデータ型(データ・タイプ)
用に、例えは、複素斂算術演算モジュールとして、ある
いは広幅整数演算用モジュールとして構成することも可
能である。このモジュールが広い意味で数値プロセッサ
モジュール+30とも呼ばれるのはこのためである。
本好適実施例では、浮動小数点プロセッサ・モジュール
130は浮動小数点プロセッサとキャッシュ・メモリ間
のデータ転送を統御する制御/インタフェース・ロジッ
クと非常に密に結合されている。この制御/インタフェ
ース・ロジックは制御プロセッサのマイクロコート・ク
ロックによってクロックがとられるので、制御プロセッ
サのマイクロ命令の拡張部分で制御するのが好ましい。
本好適実施例では、浮動小数点プロセッサ・モジュル1
30と制御/インタフェース・ロジック(CP拡張ロジ
ック)は主基本ポート(ここには、キャッシュ・メモリ
+40と制御プロセッサ・モシュル110の主要部分か
置かれている)に差し込まねる別個のりブホート上に一
緒に搭載されている。
追加モジュール130か使用される場合は、その各々に
は制御/インタフェース・ロジックの一部か置かれるこ
とになる。
木実流側のアプリケーションでは、この制御/インタフ
ェース・ロジックは制御プロセッサ・モジュール110
の拡張と見られているが、この制御/インタフェース・
ロジックがモジュール110の部であるか否かに関係な
く、本アプリケーションでは、このロジックのタイミン
グと制御特性に関して重要な新規事項がいくつかとり入
れられている。
本好適実施例では、32ビツト・データ構造が使用され
ている。各浮動小数点数は32ビツトで表されるので、
32ビツト車位は浮動小数点数(または「F語」)とも
呼ばれる。本好適実施例では、数の形式は小数部が24
ビツト、指数部が8ビツトになっている。これは選択的
にIEEE形式にすることも、 DEC形式にすること
も可能である。
?7ト勅小数占プロセンサーモジュール130の内と1
]9動作について、まず説明する。そのあとて、制御プ
ロセッサ・モジュール110およびキャッシュ・メモリ
140とのインタフェースの機能について詳しく説明す
る。
第4A図から第4D図までは、数値処理子ジュール13
0の主要部分を示したものである。本好適実施例では、
第4A図は制御プロセッサ・モジュール130とのイン
タフェースとなるために使用されるインタフェース・ロ
ジック410の概略図である。
第4B図はモジュール130内のデータ通路の主要部分
の一部を示している。第4C図はマイクロコードのアク
セスとデコード化のとき本好適実施例で使用されるロジ
ックを示している。第4D図は本好適実施例で浮動小数
点モジュールに使用されるマイクロ命令形式を示してい
る。
実際の数値計算が高速で行なわれる浮動小数点算術演算
機構について最□初に説明する。そのあと、FPモジュ
ール130 と低速モジュール間のクロック境界をまた
いでデータ転送が行なわれる2重バッファリング操作に
ついて説明する。次に、データ転送の追加段(その大部
分はCPモジュール110の拡張部分によって制御され
る)について説明する。最後に、算術演算機構を統御す
るプログラムについて説明する。
浮動小数点算術演算機構(FPtl) 本好適実施例の浮動小数点算術演算機構は非常に単純化
されており、高速で動作する。この通路には、浮動小数
点計算機構、浮動小数点ALU  (算術および論理演
算機構)、高速多重ポート・レジスタ・ファイルが含ま
れ、これらはすべて高速で単純化されたシーケンサによ
って制御される。さらに、スクラッチバット・メモリが
内部データ通路と密結合されて、参照テーブルを保存し
、ヒストグラム記憶またはデータ・スタックとして動作
する。
2レヘル データ通路のトポロジは第16図に分かりや
すいように示されている。低レベル・データ通路とその
構成要素は浮動小数点算術演算機構(FLU) と呼ば
れるものである。FPUは、高速レジスタ・ファイル4
40.八1.11450、スクラ・ンチバ・ン)・メモ
リ1610、局所ハス431.432.433.434
から構成されている。
算術計算機構440と450 浮動小数点プロセッサ・モジュール130で使用される
浮動小数点計算機構には浮動ノ」1数点乗算機構FMP
Y) 440と浮動小数点算術論理演算機構(FALU
) 450がある。両方とも、内部アーキテクチャは非
常によく似ている。唯一の違いはデータの扱い方であり
(演算操作が異なることを別として) 、FALIIに
累積演算のための余分のフィードバック通路が設けられ
ていることである。
本好適実施例では、Bipolar Integrat
ed Technologies (BIT1社提供の
集積回路(浮動小数点チップ・セットとレジスタ・ファ
イル)が次のように使用されている。BITの部品番号
とこれらに準じるアナログ装置番号は、乗算機構440
:B2110またはADSP7110. ALll 4
50:82120または八〇5P7120、レジスタ・
ファイル430:82210またはADSP7210で
ある。乗算機構440とALυ450および高速レシス
タ ファイルは、実際には、ECLケートを内部に使用
している。しかし、これらのインタフェースと電源はT
Tしてある。これらの算術演算チップは完全な64ビツ
ト・データ通路を内部にもち、外部に32ビツト・イン
タフェースをもっている。従って、これらのチンブは高
速64ビツト演算を行なう能力をもち、必要に応して多
重化データ転送を利用する。
FMPY 440とFALU 450はそれぞれ、オペ
ランド用の2・個の32ビツト幅入カポートXとY(そ
れぞれ局所オペランド・バス431 と432に結ばれ
ている)と、結実用の32ビツト幅両方向ポートT(局
所結果ハス433に結ばれている)を備えている。
計算機構の入力ポートの各々はラッチとマルチプレクサ
を備え、出力ポートはマルチプレクサを備えているので
、64ビツト幅の数を出し入れして転送できるようにな
っている。
2計算機構の結実用ポートは並列に接続されている(結
実用バス433 に、従って、レジスタ・ファイルの書
込みポート430Dに)。これにより、計算機構は外部
マルチプレクサを使用したり、ブタをレジスタ・ファイ
ルあてに送ったりしなくても、データを交換し合うこと
かてぎる。これは、例えば、積の和を求める計算を行な
うとき便利である。また、この機能を利用すると、スク
ラッチパット−メモリ1610との間で高速にデータを
やりとりすることができる。しかし、この構成には、F
MPY 440とFALU 1150の両方を同時に活
動化できないという制約がある(ただし、積の和を求め
る演算は除く)。これは出力ポートが一緒に結合されて
いるからである。これらのポートを別々にしたとしても
、両方の装装置はレジスタ・ファイル430からの同じ
データ通路を共用するので、入力端に問題が起こること
になる。
実際に使用される算術演算機構は人出力ポートを柔軟に
構成できるので、これらのポートをレジスタしたり、透
過にしたりてきる。しかし、本好適実施例では、この機
能は使用されていない。ホトはすへてレジスタされる。
両計算機構の内部データ通路と機能単位はすへて64ビ
ツト幅であリ、単精度(sp)と倍精度(DP)のとら
らの演算も行なうことかできる。
FMPY 440での機能単位は4個の算術演算命令を
サポートしている。最小サイクル時間(ナノ秒単位)は
どちらの精度の場合も、次の通りである。
見■1     俺抗里 乗算      4059 除算       200     300平方根  
    300      BODパス       
4050 整数乗算    45 FALLI 450での機能単位は浮動小数点命令、整
数命令、変換命令といったように幅広くサポートしてい
る。詳細については、メーカのデータ資料に記載されて
いる。すべての浮動小数点命令(単精度と倍精度)は最
・小実行サイクル時間は25nsであり、整数演算はす
べて12ns、変換はすべて25nsで行なわれる。
最もよく使用される命令には、次のものがある。
浮動小数点、加算と減算(符号付きまたは絶対値)、絶
対値、否定、スケール、マージ、正規化、比較。
変換: sp−>ビット整数、符号付きまたは符号ナシ
。SP−>64ビツト整数、符号付きまたは符号なし。
SP <−32ビツト整数、符号付きまたは符号なし。
SP <−64ビツト整数、符号付きまたは符号tt 
L/。DP−>32ビツト整数、符号付きまたは符号な
し。OP−>64ビツト整数、符号付きまたは符号tt
 L/。DP <−32ビツト整数、符号付きまたは符
号なし。DP <−84ビツト整数、符号付きまたは符
号なし。SP −>DP、 DP −>sp。
整数:加算(0,l、桁上げ)、減算(0,1,桁下げ
)、 最大値(符号付きまたは符号なし)、 最小fa
 I符号付きまたは符号なし)、論理、シフト(論理ま
たは算術)、回転、ビット反転。
(以下余白) スクラッチバット・メモリ1610 第16図に示すように、スクラッチバット・メモリ16
10はそのアドレス・カウンタ1611と共に、結実用
バス433につなかっている。計算機構440と450
は両方向ポルトでこのバスにつながっているので、マル
チプレクサ スタ・ファイル430によってデータを直接にこのメモ
リから読み取ることができる。
アドレス・カウンタ1611を通して、いくつかのアク
セス・モートでこのメモリがアクセスできるようになっ
ている、2個のモード・ビットに応じて、アドレス・カ
ウンタは(読取りまたは書込みアクセスが行なわれるつ
と)アドレスを増分し、アドレスを減分し、アドレスを
保持し、あるいはアドレスを指定できるようにする。(
例えば、アドレス増分と減分をいく通りかに組み合わせ
て、スタックとして動作させることも可能である。)カ
ウンタ16】1のアドレス生成機能を利用すると、ある
条件のときに、メモリ1610を1サイクル1回の書込
みの割合で機能させることができる。
このメ干りをスタックとして動作させると、上述したよ
うに、コンパイラでスカシ・プログラミングするとき特
に好都合である。
ヒストグラム・アルゴリズムを実行させるときは、以前
のサブトータル(追跡中のパラメータの)を結実用バス
433上に読み出すことができる。この種の操作の1つ
の簡単な例では、メモリ1610は結実用バス433の
データ・ソースとして指定され、マルチプレクサ440
が稼動中に、ALt1450はコマンドを受けてオペラ
ンド値を結実用バスから読み取るようになっている。マ
ルチプレクサ440が終了すると、その結果を結実用バ
ス433上に送り出し、ALUはその値を2番目のオペ
ランドとして読み込む。そのあと、ALUはその和を結
実用バス433に送り出し、その間にメモリ1δ】0は
コマンドを受けてその結果を書き出す。(その間に、追
加のオペランドをマルチプレクサ440にロートするこ
とが可能である。) このテーブルがあると、データ依存パラメータをそこに
置いておくことができるので非常に便利である。これは
超関数を51算するときに特に便利である。
高速レジスタ ファイル430 レジスタ・ファイル430はデータ・キャッシュ・メモ
リ140との主インタフェースとなるものである。レジ
スタ・ファイルの一方のバンクはCPモジュール110
と部分的に同期して稼動して、局所転送バス422(両
方向ポート430^に結ばれている(第16図))を通
してFP保持レジスタ420 とのインタフェースとな
る。他方のバンクはFPモジュールと完全に同期して稼
動し、オペランド用バス431.432(読取りポート
430Bと430C) 、結実用バス433(読取りポ
ート430D)、およびループバック接続434(書込
みポート430E)  とのインタフェースとなる。
第4B図はモジュール130内のデータ通路の主要部分
を示している。主キャッシュ・バス144(これは25
6ビツト幅である)は直列の4個のFP保持レジスタ4
20 と結ばれている。(これらの保持レジスタは実際
には対になっており、読取りレジスタは書込みレジスタ
と並列になっている。従って、保持レジスタ420は8
個あり、各々が64ビツト幅であるので、両方向256
ビツト・インタフニスになっている。)これらの8保持
レジスタ420には別々のイネーブル信号が入力される
。従って、このバンク側のレジスタにより、256ビ・
ント幅のキャッシュ・バス144を多重化して64ビツ
ト幅の高速レジスタ・ファイル430に送り込むことが
できる。
この多重化が行なわれるのは、主にコストが理由である
。高速レジスタ・ファイル430は非常に高価なチップ
である。これらの個数が4倍になると、システムのコス
トが大幅に高くなることになる。さらに、第388図か
ら明らかなように、これらの機構の検証は非常に重要で
あり(ビン数が非常に多いので)これらのパッケージを
4個でなく16個使用すると、必要とするボード面積が
著しく増大することになる。
実際にはレジスタ430は1贋であり、2個だけではな
い。物理的に分離したチップの各々は16ビノト幅であ
るのて、これらを4個並列で使用すると、64ビツト・
インタフェースて局所転送バス422と結ぶことができ
る(このインタフェースは2F語幅であることに性悪さ
れたい)。
本好適実施例では、レジスタ・ファイル430は18ビ
ツト幅x64記憶位置奥行の5ポート装置から作られて
いる。従って、64ビツト側インタフニスで局所転送バ
ス422と結ぶためには、4個の装置を並列で使用する
必要がある。(説明を分かりやすくするために、第4B
図には、32ビツト幅ファイルが2個あるものとしてレ
ジスタ・ファイルが示されている。これにより、下述す
る語アドレス奇数/偶数の状況構造が分かりやすくなる
。また同様に、第16図には、レジスタ・ファイル43
0が1個のファイルとして示されている。)本好適実施
例では、これらの装置は実際には817社提供の822
10から作られている。
レジスタ・ファイルは256ビツト幅にして、キャッシ
ュ・バスと直接にインタフェースで結ぶのが理想的であ
るが、そうすると、付加ハードウニア右・用か大幅に増
加することになる。本実施例で採用した代替方法では、
FP保持レジスタ420(関連制御ロジックと共に)を
使用して、キャッシュ・バス144 との256ビツト
・インタフェースを多重化して64ビツト幅ポート43
0Aに結んでいる。多重化とデータ経路指定は、第4A
図と第4B図にその概要が示されている転送ロジックに
よって制御される。これについては、詳しく下述する。
これらのファイル間の接続は次のようにするのが好まし
い。(ポートは第16図に個々に名前が付けられている
。) これらのファイル430の各々は両方向インタフェース
430Aをもっており、これは線422を通してレジス
タ420に結ばれている。
レジスタ・ファイル430の各々は2つの透過ブタ出力
端をもっている。これらの出力端は個別的にイネーブル
させることかてぎるので、レジスタ・ファイル430内
からの異なる語を表すことができる。これらの出力43
0Bと4300は局所オペランド・バス431 と43
2を駆動させる。
レジスターファイル430の各々は第3局所ブタ・ハス
433に結ばれた入力ポート4300をもっており、こ
れは結実用バスと呼ぶことにする。この結実用バスは計
算機構440と450の出力側に結ばれている。
レジスタ・ファイル430の各々はもう1つ入力ポート
430Eをもっているか、これは第1オペランド・ハス
431 につながるループバック接続によって読取りポ
ート430Bと結ばれている。この書込みポートはその
アドレスを「結果」書込みポート430Dから受は取る
。これにより、AL口450またはマルチプレクサ44
0を通らなくてもデータをあるレジスタ・ファイルのア
ドレスから別のアドレスにコピーできるので、2サイク
ルの遅れが節約されることになる。このことは、計算機
構440と450を使用しなくても、従ってこれらの機
構で起こる遅れなしで、データを望み通りに並へ替えて
やりとりてきることを意味する。この機能はサブルーチ
ンを扱うとき使用すると、特に利点が得られる。
従って、5ポート レジスタ・ファイル430は2つの
読取りポートDとE、2つの書込みホードBとC,およ
び1つの両方向ポートAをもっている。読取りポートか
らはオペランドがFMPY 440とFALU 450
に送られ、その結果が書込みホード4300 (必要な
らば、書込みポート430E)を用いて書き戻される。
レジスタ・ファイルはF語を128語まで保管できる。
書込みポート430Dと430E (および両方向ポー
ト430Ec)書込み部分)に対するデータ、アドレス
および書込みイネーブルはレジスタ・ファイル430の
内部に記録される。内部書込みパルスは自動的に発生す
る。
2つの読取りポートはそれぞれのデータ通路をレジスタ
またはラッチすることができ(共に同しであることが必
要)、それぞれのアドレスをレジスタまたはラッチする
ことができる。浮動小数点プロセッサ・モジュール13
0で使用されている構成では、アドレスがマイクロコー
トから直接に駆動されたときアドレスをレジスタし、デ
ータ・うッヂを透過に保持するようになっている。デー
タはFMTY 440とFALU 450ノ内部Lレジ
スタサレル。
レジスタ・ファイルは、読取りと書込みアドレスが同し
であるときは、「ライト・スルー」モトで動作させるこ
とができる。このモートにあるときは、書込まれたデー
タは同じサイクルで読取りポートに現れるが、通常読取
り操作より約Ions遅れて現れる。これは、再帰たは
スカラ計算で使用すると便利であり、その場合には、パ
イプライン段数が減少するという利点が得られる。
読取りポート430B、読取りポート430C1および
書込みポート430Dに対する個々のアドレスはFPマ
イクロコートのフィールドから与えられる。これにより
、パイプライン処理の制約の枠内でrl −r20P 
r3型の計算を行なうことができる。
2重バッファリング 高度の多重ポート高速レジスタ・ファイル430は、制
御プロセッサ・モジュール110と浮動小数点プロセッ
サーモジュール130とをクリーンなインタフェースで
結ぶ上で不可欠な要素である。このレジスタ ファイル
のアドレス空間は2重バッファとして働くように区画化
されている。どの時点においても、このレジスタ・ファ
イルの一方のバンクは制御プロセッサ・モジュールとほ
ぼ同期して稼動し、他方のバンクは浮動小数点プロセッ
サ・モジュールと完全に同期して稼動する。(CPモジ
ュールとほぼ同期して行なわれる操作については、下達
する。この準同期操作は過渡的クロック領域を提供する
ものと考えることができるが、高バンド幅インタフェー
スを得るときに役に立つものである。) 2バンクの割当てはハンドシェイキング・ロジックの制
御を受けて、同期点で入れ替えられる。
従って、このクロック境界の配置により、境界の一方の
側を他方の側に影響しないで変更することが可能である
このクリーンなインタフェースを通して、より高速でよ
り集積化された浮動小数点チップ・セットに8行できる
ので、浮動小数点機構に独立性をもたせることができる
。(ハントシェイキング・ロジックの機能と使い力につ
いては、CPモシュルとFPそジュールとのやりとりか
説明されている個所で第22図を参照して、さらに詳し
く説明する予定である。) 従って、レジスタ・ファイル430は通常にブタと結果
をやりとりするときは、2重にバッファリングされる。
しかし、第18図と第19図に示すような従来システム
ては、この2重バッファリングに柔軟性かない。従って
、制御プロセッサ・モジュール110と浮動小数点プロ
セッサ・モジュール+30は共に、レジスタ・ファイル
430のどちらかのバンクにあるアドレスのどれてもア
クセスかできる。アドレスか反対側のバンクからロック
アウトされないということは、以下の説明で明らかにさ
れるように、非常に利点がある。
ハードウェアへのアクセスはカットオフされないので、
レジスタ・ファイルにアクセスするためには(あるレベ
ルで)アドレスの全7ビツト(AO:八6)を指定しな
かればならない。2重バッファリング操作が使用されて
いる場合は、実際にはアドレスの6ビノトか必要である
(現在使用可能なバンク内のアドレスを指定するために
)。2重バッファリング操作は実際には、最上位アドレ
ス・ビットを動的に修飾することによって達成される。
モート信号は最上位アドレス・ビットかどのように修飾
されるかを示している。
従って、マイクロコートで指定されたレジスタ・ファイ
ル・アドレスはハードウェアによって自動的に修飾され
る。2重バッファリングは、浮動小数点プロセッサ・モ
ジュール130がレジスタ・ファイルのどちらの半分に
アクセスできるか、制御プロセッサ・モジュール110
がどちらの半分にアクセスできるかを判断する「バンク
選択」信号によって制御される。このバンク選択信号は
マイクロコート・フィールドによって直接制御されない
が、制御プロセッサ・モジュール110と浮動小数点プ
ロセッサ・モジュール130がスワップ(交換)を要求
したときだけ切り替えられる(別のロジックによって)
2重バッファリングは、最上位アドレス・ピット(Δ5
)の区画化を使用している。(これと対!]8的に、第
4B図には、ファイルの倍話構造を示すために2フアイ
ルか並んで示されている。これは最下位アドレス・ビッ
ト(八〇)に対応している。)各レジスタ・ファイル・
アドレス(7ビツト)には2ビツト修飾子か付いており
、これにより次のアドレス・モートの1つが選択される
物理アドレス これは修飾なしで指定されたアドレスを
使用する。
論理アドレス これは自動ソフト2重ハッファリウグが
使用されているとき選択され、アドレスの最上位ビット
はバンク選択ビットによって置き換えられる。制御プロ
セッサ・モジュール110のレジスタ・ファイル・アド
レスでは、このビットが反転したものか使用されること
になる。
プレビュー・これにより、浮動小数点プロセッサ・モジ
ュール130は、バンクを交換し合ったり物理アドレス
指定を使用しなくても、バンクの他方の側にあるデータ
を調べることができる。同期点を横切るとぎ計算バイブ
ラインを一杯に保つためには、In Lいデータへのア
クセスか必要になる(データか移入済みの場合)。しか
し、通常はハイブライン化による遅延か起こるので、現
在のバンクに対するすべての結果が書き出されるまでは
バンクを交換し合うことはできない。このアクセス・モ
ートでは、読取りアクセスがレジスタ・ファイルの反対
側のバンクから行なわれてからバンクの交換が実際に行
なわれるのて、この遅延は起こらない。これは、アドレ
スの最上位ビットをバンク選択ビットを反転したもので
置き換えることによって行なわれる。
第20図は2重バッファリングでアドレス修飾を行なう
ために使用されるロジックの概要図である。この図の右
側はレジスタ・ファイル430とCPモジュール110
とのインタフェースを示しており、左側はFPモジュー
ル110の残り部分とのインタフェースを示している。
従って、右側のデータ接続個所はポート430八(第1
6図に図示)に、従って、FP保持レジスタ420とキ
ャッシュ・バス144に対応している。左側のデータ接
続個所はポート430B、C,o、F(第16図に図示
)に、従って、マルチプレクサ440、FALLi 4
50なとに対応している。
右側のアドレス入力は、CPマイクロアドレス・バス2
11AによってWC5拡張部分490から呼び出された
マイクロ命令から抽出されたデータ・フィールドに対応
している。左側のアドレス・フィールドはFPマイクロ
アドレス・バス473によってFPWC5470から呼
び出されたマイクロ命令から抽出されたデータ・フィー
ルドに対応している。(レジスタ・ファイル430はア
ドレス入力に対する内部パイプライン・レジスタをもっ
ているので、マイクロ命令ビットはレジスタされないで
入力される。) 2つのアドレス修飾論理装置201Oが示されている。
これらは、SELおよび5EL−bar との接続が反
対になっていることを除けば、はとんど同しである。従
って、CPとFPが同しアドレスを論理モードでアクセ
スしようとすると、それぞれの論理装置201Oのアド
レス修飾操作が行なわれた結果として、反対のA6ビツ
ト出力アトレスが得られるのて、2重バッファリング機
能か実現される。ア]・レス論理装置はCPまたはFP
マイクロコート・フィルトの1つから取り出した7ビツ
ト・アドレスの上位ビット(八6)も受は取る。また、
2ビツト・モード信号も受は取る。
本好適実施例によれば、実際には、1盟Ωアドレス修飾
論理装置2010がFP側に実装されている(ポート4
30B、430C1430Dに1つずつ)。
相補バンク選択信号SELと5EL−barはポート選
択ロジック2020から得られる。これらの2信号は、
FPとCPモジュールが北玉バンク交換を要求すると反
対になる。(これを行なうロジックは以下で詳しく説明
する。) 非レジスタ・ビットのセットアツプ時間短縮アドレス修
飾ロジック2020を実装する際に、第17図に示すよ
うに、ある種の追加ロジックが追加されている。この追
加ロジックは一般的問題を解決するもので、多くの分野
で使用するのに適したものになフている。
rビット・スライス」の多くのメーカはそれぞれのIC
にパイプライン・レジスタを組み入れている。しかし、
デツプに到達する前;ζマイクロ命令・ビットに対して
行なわれる処理をチップのセットアツプ時間に加える必
要がある。このような事態は、上述したラフ82重バフ
ァリング・システムを構築する際に起こっていた。その
問題とはアドレス修飾ロジック2010がレジスタ・フ
ァイル・アドレスの最上位ビット(”A6”ビット)を
処理して論理的、物理的、およびプレビュー・モートで
アドレス指定を行なうと、サイクル時間に余分のIon
sが付加されることである。(本好適実施例におけるよ
うに)す1′タル時間を30ns以下にできるときは、
これは非常に大きなオーバヘッドとなる。
従って、第17図に示すようなある種の追加ロジックが
余分の1nnsをサイクル時間(多くのサイクルで)か
ら除くために採用された。これを行なうことができるの
は、アドレス指定モードがあるサイクルから次のサイク
ルまで同じままであるときである。その場合には、セッ
トアツプ時間はすでに前のサイクルで代価が支払われて
いる。しかし、マイクロコート・アドレスが変って、新
しいデータが書込み可能制御記憶機構(WCS)でアク
セスされると、非レジスタ・マイクロコート・ビットは
不安定になる。従って、セットアツプ時間が必要以上に
再び発生することになる。
第17図に示すロジックは修飾アドレス・ビット定数を
別のレジスタ1740に格納している。マイクロコート
から得たものではなく、古いへδ値(レジスタ1740
からフィードバックされたもの)を使用することを選択
するために(マルチプレクサ1739を制御するために
フリップフロップ1720を使用して)、特殊なマイク
ロコード・ビット(”useoldA6”と呼ぶ)が使
用されている。(マイクロ命令・アセンブラを使用する
ときは、”useold Ali”マイクロコード・ビ
ットはマイクロコート・アセンブラが自動的にセットす
−るので、プログラマはその最適化について気にする必
要はない。)マルチプレクサ1730はアドレス修飾ロ
ジックと同しPへL 1.l:搭載されているので、マ
ルチブレクサは余分のν延を引き起すことがない。
キャッシュ・ハス・インクフェースと制御上述したよう
に、数値プロセッサ・モジュールの動作は多くの面で制
御プロセッサ・モジュール110の拡張部分によって制
御される。このロジックの大部分は物理的にFPモモジ
ュール上置かれているが、その制御は制御プロセッサ・
モジュール+10 とCDバスとのインタフェースによ
フて行なわれる。キャッシュ・バス・インタフェースは
、ブタ・キャッシュ・メモリ+40 、 FP保持レジ
スタ420、およびレジスタ・ファイル430間のデー
タ転送を管理するためにいくつかの部分に分かれている
。このインタフェースの主要部分は保持レジスタ420
、データ・キャッシュ転送ロジック、および局所転送バ
ス・ロジック2110である。
保持レジスタ420 保持レジスタ420は8個の32ビツト・レジスタから
構成されている。(これらのレジスタは両方向であり、
各レジスタは読取り側と書込み側を備え、内部で並列に
なっている。)これらのレジスタは256 ヒソ1−か
データ・ギヤッシューメモリ側に、64ビツトだりかレ
ジスタ・ファイル側になるように配置されている。レジ
スタ・ファイル側の出力イネーブルは4グループのレジ
スタから1つを選択して、レジスタ・ファイル430に
つながる64ビツト局所転送バス422を駆動する。(
このインタフェースの動作については、あとで詳しく説
明する。) データ・キャッシュ転送ロジック データ・キャッシュ転送ロジックは主ボード上に置かれ
ており、CP転送ロジックの一部になっている。ここか
らは、モジュール選択アドレス(3ビツト)、出力イネ
ーブル、およびクロックが得られる。このロジックはキ
ャッシュ・メモリ140と保持レジスタ420間の転送
を制御する。このモジュールが選択されると、出力イネ
ーブル信号は活動化されていると、保持レジスタ420
をイネーブルしてデータがキャッシュ・バス144を通
りて転送される。
局所転送ハス制御ロジック 局所転送ハス制御ロジック2110は第21図に示され
ている。このロジックは保持レジスタ420 とレジス
タ・ファイル430間のデータ転送を受り持つ。1つの
転送サイクルは、4つのマイナ・サイクルをもっており
、これらはレジスタ・ファイルとの間で転送できる4対
のF語に対応している。
これらのマイナ・サイクルは高速で動作する専用クロッ
クによって発生する。
転送りロック 主機構412 転送りロック発生機構412からは、主転送サイクル期
間の間だけ転送りロック出力が得られる。
これは、CPクロックと転送イネーブル・ビットが共に
「進行」条件を示しているときトリガされて動作する。
転送りロック発生機構はcpクロック発生機構250と
完全にではなく部分的に同期している。高周波数ECL
回路が70MHzオシレータに接続されており、CPク
ロック発生機構が「進行」条件を示すまでは、高周波数
回路はループを続けているだけである。従って、高周波
数クロフクの新か現れると、「進行」条件がチエツクさ
れる。つまり、「進行」条件が高周波数クロックの多く
て1期間以内に検出されることになる。
進行条件が検出されると、転送りロック発生機構は高周
波発振入力の分割を始めて、主転送サイクルに対する転
送りロック出力を発生ずる。どの主転送サイクルが行な
われているかに応して、2から5までのクロック・ビー
トは主転送サイクル期間に発生する。クロック・ビート
は8個の保持レジスタすべてに結ばれている。これらの
レジスタへの順次アクセスは、下達するように、オーバ
レイされた自走ゼロ・パターンによって「位相」がとら
れる。
第47図は転送りロック発生機構のタイミング関係の概
略図である。高速可変長クロック480は同図の下に示
されているが、これは計算機構440と450(レジス
タ・ファイル430のデータ・ポート430A、430
B、430C14300,430Eと共に)の動作のク
ロックをとるものである。その上に示されているのは、
転送りロック412の高速ECI、ループである。さら
にその上は、主転送サイクルて転送クロック発生機構4
12を始動させる(CPマイクロコト・クロックと共に
)イネーブル信号である。その上は転送りロックである
。その上はCPクロック発生機構250によって発生さ
れるCPマイクロコド・クロックである。
従って、転送りロック発生機構が働いているときは、中
間クロック・ゾーンか得られるので、データ・キャッシ
ュ・メモリ140(これはCPクロック発生機構250
によって制御される)とレジスタ・ファイル430の内
側バンク(これはFPクロック発生機構480によって
制御される)間の転送が高速化される。
FPUとデータ・キャッシュ・メモリ間のクロック境界
は非常に重要な境界である。この境界はクロック位相境
界だけでなく、クロック周波数の大きな差にもまたがっ
ている。上述したように、さらに、この境界をまたぐ正
味転送バンド幅も非常に重要である。
木(IF’適実施例ては、この境界は2つのスデノフで
またかっている。
FPクロンク領域から過渡的クロック領域への転送はレ
ジスタ・ファイル・インタフェースの2重バッファリン
グによって行なわれる。
保持レジスタ420かデータ・キャッシュ・メモリ14
0への転送は全体かCPクロック領域内で行なわれる。
次に、このクロック周波数差に関して注目すべきいくつ
かの一般的事項を挙げておく。
マイナ転送サイクル継続時間と最小FPサイクル時間と
の関係は偶然的なものではない。上述したように、ダイ
アシック演算のときにキャッシュ・バンド幅に最悪の負
担がかかることになる。例えば、ベクトル加算では、2
個のオペランドと1個の結果をレジスタ・ファイルとキ
ャッシュの間で転送しなければならない。レジスタ・フ
ァイルのFPU側では、2個のオペランドは並列に読み
出され、(これとパイプライン処理されて)その結果は
同時にレジスタ・ファイルに書ぎ戻される。従って、最
悪の場合には、計算機構のず−、ての割算サイクルこと
に、2語をレジスタ・ファイル430に書き込み、1語
を読み出さなりればならない。
すへての演算かタイヤシックであるとは限らないが、多
くのアプリケーションでは、平均的にあまり有利とはい
えない。
過渡的クロック領域を使用する実71&例では、上述し
たように、次のようにすることが最も好ましい。つまり
、マイナ・サイクル継続時間をマイナ・サイクルごとに
転送される語数で分割して、FPLIにおける計算サイ
クルの最小継続時間のl/2ないしl/3倍の範囲にす
ることが好ましい。しかし、2段インタフェースで過渡
的クロック領域を使用すると、この数値関係が満足され
ない場合でありても、その利点が得られる。
過渡的クロック領域の利点は高速数値計算機構が使用さ
れているシステムに応用可能である。上述したクロック
・インタフェース・アーキテクチャによれは、この種の
機構をそれぞれのクロック領域に隔離できるので、可能
な限りの最大速度でクロツタを動作させることかできる
。例えば、このインタフェース アーキテクチャは、高
イl15な高速テクノロジ(ジョセフソン接合やIII
−V装置テクノワシなと)における限られた数の計算機
構を大型コンピュータ・システムに組み入れるとぎに使
用可能である。
制御信号 制御信号の数を少なく抑えるためには(入力端と出力側
の両方で)8個のF語を保持レジスタ420からレジス
タ・ファイル430に転送する仕方にいくつかの制約が
ある。これがなぜ必要なのかは、アドレスのことを考え
れば明らかである。F語が8個のときは、全体の柔軟性
が必要である場合には、8個のアドレスが別々に必要に
なる。各アドレスに9ビツトを指定する必要があるので
、アドレス情報は合計で72ビツトになる。
入力制御信号には、次のものがある。
方卯:データがレジスタ・ファイルから保持レジスタに
転送されるのか、あるいはその逆に転送されるのかを指
定する。
レジスターアドレス(6ビツト) これは、デクかそこ
からレジスタ・ファイルとの間で転送される開始アドレ
スを指定する。このアドレスはマイカ転送サイクルごと
に増分され、64ビツトまて達すると、折り返される。
FPU側からは、レジスタ・ファイル アドレスは、6
4ビツト語ではなく32ビツト語を参照するので、7ビ
ツトであることに7↑目すべきである。
論理/物理アドレス修飾子、これはアドレスを修飾して
ソフト2重バッファリングを行なうかどうかを選択する
転送長さ(3ビツト)・これは転送されたF語の個数(
1,、,8)を判断する。
転送開始(3ビツト)・これは8語のうち最初に転送す
るF語を指定する。これらのビットはマイクロコード・
フィールドでも、レジスタ・フィールドでも定義できる
が、CAババス11の最下位ビットにすることも可能で
ある。転送開始中転送長さ〉8ならば、F語の選択は折
り返される。
転送イネーブル:転送に関係する4つの浮動小哉占プロ
セッサーモジュールを1つ選択する。
レジスタ・ファイルと保持レジスタに対する制御信号に
は、次のものかある。
保持レジスタ群出力イネーブル(4)’:54ヒツト・
データ・バスを駆動させるレジスタ群を選択する。転送
方向がレジスタ・ファイル430から保持レジスタ42
0に向う場合は、これらのイネーブルはいずれも活動化
しない。
保持レジスタ群クロック(8)・クロック・イネーブル
は4つあり、これらはパターン1110.1101.1
011.0111 (r自走低パターン」)の順番にな
っている。これらの4クロツク・イネーブルは64ビツ
ト・レジスタ群を選択する。静的8ビツト・クロック−
マスクは32ビツト・レジスタのどの2つを実際にイネ
ーブルさせて、局所転送バス422をアクセスするかを
選択する。(パターン内の開始位置は転送開始によって
決まり、パターンの数は転送開始と転送長さパラメータ
によって決まることにτ主意されたい。) レジスタ・ファイル・アドレス(7)、マイカ・すイク
ルことに増分し、論理/物理ア1〜レス修飾子に応して
修飾される。
レジスターファイル読取り/書込み制御(2)、各月の
レジスタ・ファイルごとに別の文字があるので、奇数個
の書込みか可能である。これらは転送長さとアドレスか
らデコート化される。
(以下余白) 転送の制約条件(缶詰構造) 上述したインタフェースによると、転送にいくつかの制
約かある。これらの制約を分かりやすく説明するために
、データかデータ・キャッシュ・メモリ140、保持レ
ジスタ420、局所転送バス422、およびレジスタ・
ファイル430の間でどのようにマツピングされるかを
明らかにする。
レジスタ・ファイル430はある種の缶詰構造になって
いる。つまり、FP口からは32ビツト幅に見えるか、
局所転送バス422からはレジスターファイル430は
64ビツト幅に見える。
レジスタ・ファイル430と局所転送バス422間を2
語幅のインタフェースを使用して結び、8個のレジスタ
420に印加される転送りロック(実効)を4マイナ・
サイクル以下にすると、転送速度が最大化するので(静
的クロック・マスクが使用できる)非常に有利である。
しかし、ある種の奇数/偶数構造かファイル・アドレス
構造に組み込まれるという副作用か生じる。
これを図式化して示したのか第46図である。FP保持
レジスタの幅内の8個のF語は相反向きに1〈;影を付
けて、どれか偶数で、どれか奇数であるかを示している
。2缶詰が転送されると、転送された任意の偶数F語(
WO1W2、W4、W6)はレジスタ・ファイル430
の左側にマツピングされる。従って、これらはFPUか
ら見ると、偶数レジスタ・ファイル・アドレスにマツピ
ングされる。これに対応して、転送された任意の奇数F
語はレジスタ・ファイル430の右側にマツピングされ
るので、FPUから見たとき、奇数レジスタ・ファイル
・アドレスにマツピングされる。
このことは、それ程深刻ではないが、(キャッシュ・メ
モリ140からの一連の分散読取りアクセスにおいて)
すべての転送が偶数データ・キャッシュ・アドレスから
の場合には、レジスタ・ファイル430内のアドレスの
半分だけが使用できることを意味する。
もっと重要なことは、1個のF語(例えは)計算アドレ
スから転送される場合には、データがレジスタ・ファイ
ル内の偶数または奇数アドレスで終結する可能性かある
ので、このデータを正しい側から(FPIIに)アクセ
スさせるようなプログラム・ステップを使用する必要か
あることである。
本好適実施例によれは、この種の問題を回避するために
ユーザが選択できる5つのオプションが用意されている
。つまり、 1、cPモジュール110はDCMてデータを往復でき
るので、転送されるどのデータもDCM内の偶数アドレ
スから開始する。
2、転送ロジックは状況ビットをもっており、最後の転
送が偶数アドレスに対するものか、奇数アドレスに対す
るものであるかを示すようになっている。FPロジック
はこの状況ビットをテストで計るが、これから得られる
のは、最後の転送に関する情報だけである。
3.2重書込みサイクルをデータ有効フラグと緒に使用
できるので、語アドレスの偶数/奇数特性をある個所で
無視させることが可能である。つまり、本好適実施例で
レジスタ・ファイル430に実際に使用されているメモ
リには、データの16ビソトことに2個のパリティ・ヒ
ツト記憶位置かある。本好適実施例では、パリティ検査
は採用されていないので、これらの追加ビットは他の目
的に使用可能である。特に、これらのヒントはデータと
共に「データ有効」フラグを送るために使用できる。
従って、保持レジスタ420からの書込みはすへて対の
保持レジスタから対のF語をレジスタ・ファイル430
の両側に書き込むことになる。
4、CPモジュール110によって書き込まれるレジス
タ・ビットは現在の語記憶位置の偶数/奇数状況を示す
ために使用できる。FPモジュールはこのレジスタ・ビ
ットをテストして、条件付き分岐を実行することができ
る。
5、CPモジュール110はレジスタ478にある開始
アドレスを変更することで、FPに正しい語の偶数/奇
数状況を知らせるようにFPプログラミングを変更する
ことができる。
別の方法としては、専用ハードウェアを追加して、語の
交換を即時に行なう方法がある。しかし、この方l去は
、専用ハードウェアによって転送毎に遅延か増加するの
で(交換するか否かに関係tt<)p了ましくなし)。
この転送制御ては、非連続アドレスを1回の主転送サイ
クル内で転送することかできない。例えば、WOとW2
を保持レジスタからレジスタ・ファイルに転送するため
には、2つの主転送サイクルが必要になる。しかし、W
+も一緒に転送できるならば(それが使用されない場合
であっても)主転送サイクルは1つだけで十分である。
データをレジスタ・ファイル430からキャッシュ・メ
モリ140に転送するときも、分散書込みが行なわれる
ときと同じような考慮が必要になる。
この場合の好ましい方法は、レジスタ・ファイルの両側
にデータを同時に書き込むことである。つまり、第4B
図に示すように、2つの(物理的には別の)レジスタ・
ファイル部分430と403°ハ暮玉イネーブルできる
ので、結実用バス433から書き込まれたデータは偶数
語と奇数語の両方に書き込まれることになる。この重複
データが保持レジスタ420に書き出されるときは、こ
れらの8個全部に同時に刊キ込むことかできる。(この
機能はマイクロコート内のIIRC1ock ALLビ
ットによって活動化される。) 保持レジスタ/転送りロックの動作 上述したように、多くて4個のビー1〜で転送イネーブ
ルを行なうクロックは保持レジスタ420とレジスタ・
ファイル430間の転送で使用される。
(本好適実施例では、このクロックは実際には主転送サ
イクルごとに5個までのビートをもっことができる。そ
のうち4個のビートは保持レジスタ・バンクのそれぞれ
の対を活動化し、5個目の位相はパイプライン・オーバ
ヘッドの余裕分となっている。実際の動作では、このク
ロックの位相は約30nsである。従って、主サイクル
は約+50nsである。(勿論、これらの時間は変更が
可能である。) このクロック構造には、缶詰転送アーキテクチャをキャ
ッシュ・バス144 と保持レジスタ430間のインタ
フェースで使用すると、大きな利点が得られる。転送ロ
ジックには保留レジスタ1130は2話幅に見えるので
、転送操作を81多重化ではなく、41多重化として扱
うことかできる。
FPプログラム制御 第4C図は本好適実施例において、FPマイクロコート
・アクセスとデコート化で使用されるロジックをボして
いる。
マイクロ命令の順序付け(シーケンシング)本好適実施
例では、数値処理モジュール130は高度に統合化され
た「シーケンサ」を使用していない。その代わり、実行
すべきマイクロ命令のアドレスを定義し、マイクロ命令
をデコード化する機能が低レベルの統合化によって実装
されて、最大高速化を図っている。書込み可能制御記憶
機構は、マイクロ命令アドレス入力によフてアクセスさ
れるマイクロ命令を格納している。マイクロ命令アドレ
スのソースは次アドレス・ロジック472によって選択
され、このロジックには条件コード入力がマイクロコー
ド語のデコードによって得た出力と共に入力される。
マイクロア)・レスは、通常動作時には(つまり制御プ
ロセッサ・干ジュールやホストによる介入とは別に)4
つのソースの1つから得られる。これらのソースとは、
「真」アドレス・レジスタ474、「偽」アドレス・レ
ジスタ475、スタック・レジスタ478、開始アドレ
ス・レジスタ479である。
どの命令にも「真」アドレス・フィールドと「偽」アド
レス・フィールドがある。これらの2アドレスを組み合
せることにより、条件付きジャンプが可能になる。「真
」アドレスだけが無条件ジャンプと命令「継続」を可能
にする。
これを行なうには、マイクロ命令471のある種のフィ
ールドが2つのレジスタ474 と475に送り込まれ
る。これらのレジスタは「真」と「偽」アドレスのバッ
ファとなるので、論理テストの結果に応じて、一方また
は他方のアドレスが次のマイクロ命令アドレスとして逆
ロードすることができる。
オンチップ・パイプライン・レジスタを使用しないマイ
クロコード・ビット用として、追加のしシスタ475が
用慈されている。
スタック・レジスタ478 スタック−レジスタ478はFPプログラム制御の機能
を強化するものである。これから得られる出力はマイク
ロアドレス・バス473に送出され、入力はマイクロ命
令バス471から得られる。これについては上述する。
しかし、FPモジュールの高速マイクロコート・アーキ
テクチャで使用されるスタックに要求される条件はいく
分通常とは異なったものである。本好適実施例によるス
タックは必要とする後入れ先出しくLIFO)操作を高
速に行なうだけでなく、デバッグに非常に役立つ柔軟性
を備えている。この°機能を得るためには、第39図に
示すように、ある種の新規構造が要求される。
スタック機能を実装するのに都合のよい方法はレジスタ
・ファイルを使用し、その出力イネーブル信号と書込み
イネーブル信号をアドレス・カウンタに結び付けて、”
pop” (読取り)操作が行なわれるたびにカウンタ
を減分し、”push”(書込み)操作か行なわれるた
ひにカウンタを増分することである。
中心部分3920は多段パイプライン レジスタであり
、これはAMD社から市販されている(八MD2952
0)。この部分は4個のバイブライン化されたレジスタ
3921と、出力を得るためにレジスタ3921の1つ
を選択するために使用できる出力マルチプレクサ392
2とを備えている。(この種の装置の通常動作モートは
FIFOか、一定の遅延を得る動作モトのどちらかであ
る。) 図示の実施例では、このレジスタの制御機能はLIFO
操作を実現するために、PAL 3910の制御の下で
使用される。PALはコマンド信号を受けてスタックを
ポツプまたはブツシュする。読取りスタック入力も用意
されているので、(主に診断目的)スタックの状態を無
変更のまま読取ることができる。このモートで使用する
ために用意されたのがオフセット入力であり、これは最
上段レベルを基準にしたスタック・レベルを読み出すた
めに使用できる。
スタック レジスタの出力はマイクロア]−レスハス4
73に結はれている。スタック−レジスタへの入力は(
A71−レスによって得られるか、その理由についてり
下説明する。
サブルーチンの動作 スタック−レジスタ478はサブルーチン動作を強化す
る機能を備えている。サブルーチンを呼ひ出すマイクロ
コート命令はサブルーチン・アドレスを真フィールドに
、戻りアドレスを偽フィールドに記述する。この命令の
短フィールドには、ブツシュ コマンドも記述されるの
で、スタック・レジスタは「偽」アドレス出力を格納す
る。サブルーチンの実行か終ると、ポツプ・コマンドが
スタック・レジスタをイネーブルして、戻りアドレスを
マイクロ命令ハス473上に出力させる。
従って、スタック・レジスタ478が4レベルであるの
で、サブルーチンを4レベルまでホストすることかでき
る。
クロック発生機構480 FMPYとFALIIてのサイクル時間は命令が異なる
と、サイクル時間も異なる。サイクル時間を命令に厄し
て調整するようにすると、胴算時間が最適化されるので
都合かよい。FALUi算と!1−精度乗算との間の差
が最大である(1sns)。
FMPYには除算や平方根のように実行時間が長い命令
かあり、その場合には、実行時間はそれぞれ200ns
と300nsである。これらの実行速度の遅い命令用に
2つのオプションが用意されている。
1つは、サイクル長さを該当する量だけ延長するオプシ
ョンである。
もう1つは、実行時間の長い命令が進行中にFMPYに
対するクロック・イネーブルをディスエーブルするが、
その命令とデータ・ストリームを通常のデータ速度でF
ALUに送り続けるオプションである。これにより、い
くつかのFALυ演算を除算演算の陰に隠すことができ
るので、ある種のアルゴリズムにとっては好都合である
クロック発生機構はマイクロコード・クロックとスクラ
ッチバット・メモリに対する書込みゲートの2つの波形
を発生する。クロック発生機構が発生ずる最小サイクル
時間の長さは21nsであり、これは最大サイクル時間
の98nsまで7「Iz刻みて変えることが可能である
。本好適実施例では、実際の最小サイクル時間の長さは
28nsである(これはWCSメ干ソ・アクセス時間か
制約要因となっているためである)。FAI演算のサイ
クル時間の長さは28nsであるか、羊精度乗算演算で
は4Insである。
クロック発生機構はECLステート・マシンとして実装
されており、入力周波数が140M)Izて動作してタ
イミング分解能を得ている。このECLステト・マシン
をTT、L順序付はロジックおよび高速計算機構と併用
すると、著しい利点が得られる。
(上述したように、レジスタ・ファイル430と計算機
構440.450は内部にECLが実装され、周辺にT
TLが実装されている。) クロック発生機構は以下に挙げた制御入力を受は取るこ
とができる。つまり、VMEインタフェースからでも(
つまりホストから)、cpモジュールからでも受は取る
ことができる停止または開始コマン1−、マイクロ命令
ハス471からの長ざ入力フィール[−1「待ち状態」
 (またはCPか開始アドレス・レジスタを強制的に次
のFPマイクロサイクルに対するマイクロア[−レス 
ソースにするときはもっと長いサイクル)を指示するス
トレッヂ入力、およびクロック発生機構にも結はれてい
て、即時停止を指示する中断点ヒツトである。
上述したように、CP拡張ロジックにも転送りロック発
生機構412かある。このクロックはクロック発生機構
280 とは無関係である。(しかし、これらのクロッ
ク発生機構は共にTTLクロック発生機構内にTTLロ
ジック対を駆動するECLロジックを使用する利点を生
かしている。) マイクロコート短縮 FPモジュール130の動作の注目すべき特徴の1ツバ
、短縮マイクロコートを使用していることである。つま
り、WO2470とのインタフェースにある種のロジッ
クか用意されており、マイクロ命令のあるフィールドを
以前にレジスタに格納された値で即時に置き換えられる
ようになっている。
本好適実施例では、この方法で置き換えられるフィール
1−は演算指定子である。しかし、他のシステムでは、
他のマイクロ命令フィール1〜をこの方法で置き換える
ことも可能である。
従って、例えは、2個の配列を3個目の配列上にマツピ
ングする演算(例: f:i = Ai + Bi)の
場合は、この種の演算列か開始される前に命令レジスタ
に演算指定子(例・”ADD”)をロートすることか可
能である。この演算列はそのあと、演算を直接に指定し
ていなかったコートに記述されることになる。
このロジックは第45図に示されている。命令レジスタ
4510には演算指定子(8ビツト)かロートされる。
この演算指定子はWO2470に保管されているマイク
ロ命令のフィールドの1つに対応している。
”Use rR”ビット(これはCPモジュールllO
によってレジスタに書き込まれているので、あまり変更
されることがない)を受けると、PAL 5420は出
力コマンド470Bをイネーブルするか、命令レジスり
45IOをイネーブルするかをJγ択する。
“1lse IR’“ヒン1〜かマイクロ命令のあるフ
、f−ルトにIIJり当てられていた場合は、これはサ
イクルことに変わる可能性かある。しかし、この場合に
は、との指定子を使用するかをデコートするときに(そ
のあとそれをイネーブルするときの)余分の遅れが生し
るので、変更か行なわれたサイクルではサイクル時間か
長くなる。
WO2470は、本好適実施例では、実際には各々か4
ビツト幅の26個の集積回路メモリから物理的に構成さ
れている。従って、これらの物理メモリの2つに演算指
定子フィールドの8ビツトか保管される。これらの2メ
モリは部分470Bで示され、WO2470の残りのフ
ィールドを保管するメモリは470Aで示されている。
命令レジスタ451Oはそれを(CPマイクロコートの
中で)CDハスのソースまたは宛先と指定することによ
って、CDハス122から読み書きすることかできる。
PAL 4520には入力の別ビットも送られるので、
そのバイパス+=作をマイクロ命令1へのロート操作時
にディスエーブルすることか可能である。
マイクロコートの並列ロート 第29図はWO2470かどのように幅広キャッシュ・
ハス144 とのインタフェースとなっているかを図式
化して示したものである。64ビツト局所バス422は
FP保持レジスタ420 とレジスタ・ファイル430
のポート43〇八とを結んでいるが、マイクロ命令デー
タ・ハス471にふる下がっている直列シャドウ・レジ
スタ481 にも接続されている。(他の個所で詳しく
説明されているが、これらの直列レジスタは制御記憶機
構470とマイクロ命令をホストから送るとぎ使用され
る直列ループとを結ぶインタフェースになっている。) この追加の接続は、マイクロコードのオーバレイを非常
に高速に変更できるようにするので、数値プロセッサ・
モジュール130で特に利点が得られる。
本好適実施例では、直列シャドウ・レジスタ481は実
際には、物理的に分離された2つのレシスタ481Aと
48111からなる構成になっている。これらのレジス
タは制御記憶機構470のデータ ホトと両方向で結ぶ
インタフェースになっているたけでなく、局所バス42
2からのデータも受り取ることができる。上で触れたよ
うに、CP拡張ロジック内のマイクロ命令フィールドは
、局所ハス422のデータ宛先を示して、この読取りを
指示できるビットが入っている。
上述したように、各FPマイクロ命令は104 ビット
幅である。しかし、直列インタフェース・ルプを巡回す
るデータの自動シフトに合わせるために、シフト・レジ
スタ481 は112ビツト長になっている。つまり、
命令ビットの数は次の偶数の16の倍数に丸められて、
インタフェースにあるシフト・レジスタの長さが定義さ
れている。本好適実施例では、レジスタ481Aは64
ビット幅であり、レジスタ481Bは48ビット幅であ
る。
レジスタ481にマイクロ命令がロードされると(局所
転送バス422の3マイナ転送サイクルで)これらは命
令をWCS 470に逆ロードするように駆動される。
このためには、アドレスを「Pマイクロアドレス−バス
171 に送出する必要かあり、また書込みイネーブル
信号をWCS 470に】Xる必要がある。
直列ローディングでは、ホストはCPマイクロアドレス
・レジスタを使用して、ロート(または読み取る)べき
FPWC:Sのアドレスを格納し、このアドレスをFP
 WCSあてに送る。(CPマイクロアドレス・バス2
11Aからの入力は第4C図の上方に示されているバッ
ファからFPマイクロアドレス・バス473に送り込ま
れる。) 並列ロード・モートでは、CPは目標アドレスを開始レ
ジスタ479に入れる。
ホストとのインタフェースとなる追加のロジックも用意
されている。このロジックにより、マイクロ命令を制御
記憶機構470に対して読み書きすることができる。こ
の機能は詳しく下述する予定である。
FPマイクロコート・ルーチン実行の始動FPモジュー
ルが起動するとき、これは下述するFPIV八ITへC
PII八l]へントシエイキング・ロジックにより、通
常待ち状態に入る。FPモジュールで実行されるルーチ
ンを始動するには、CPマイクロコトのあるビットを使
用して、開始レジスタ479に保持されているマイクロ
命令アドレスをFPマイクロ命令アドレス・バス473
上の次のアイクロアトレスとして使用させることができ
る。この処置は下述するように千ジュール選択によって
修飾される。
FPモジュールの選択 最上位レベルでは、浮動小数点プロセッサ・モジュール
130を制御するためにはその前に選択しておかなけれ
ばならない。単一モジュール構成では、FPモジュール
は常時選択されているので、以下に述べることの中には
、適用されないものがある。しかし、複数モジュール構
成では、必要とするFPモジュール(またはアルゴリズ
ム高速化機構)を先に選んでおかないと、その制御を行
なうことができない。複数のFPモジュールを一度に選
んで、データまたは情報をFPモジュールのサブセット
に同報通信することか可能である。FPモジュルは次の
3通りの方法で選択できる。1つは、以前に制御レジス
タに格納されている3ビツト値を使用する方法である。
2番目は、マイクロコート・フィールドを使用する方法
である。最後は、好ましさの点て劣るが、異なるモジュ
ールの各々にあるCP拡張ロジック部分に独自のマイク
ロ命令・ストリームを同期して実行させ、アクセス仲裁
をマイクロコートで行なう方法である。使用する方法は
サイクル単位で変更することが可能である。
あるFPモジュールが選択されると、それを制御する方
法は制御し・タスタ(長期的な制御情報がロードされて
いる)と専用マイクロコード・ビットの間で分割されて
、サイクルごとに制御が行なわれる。サイクル別制御の
殆どは、下述するようにデータ・キャッシュ・メモリ・
インタフェースとそのモジュール上のレジスタ・ファイ
ル間のデータ転送を取り扱う。
モジュール選択は第23図に図式化して示されている。
マルチフ゛レクサ2340はモジュールIDに対してと
の入力を使用するかを選択する。デコート・ロジック2
310 (これはモジュール130または130にある
CP拡張ロジックの一部である)はその特定モジュール
でのスイッヂ設定値と突き合せて、同報通信されたモジ
ュール・アドレスをテストする。修飾ロジック2320
はそのテスト結果に応して、下達するように、局所wc
s拡張部分からの各種マイクロ命令フィールドを修飾す
る。
制御レジスタ 制御プロセッサ・モジュール110は、次のレジスタに
読み書きすることができる。
転送制御レジスタ:転送制御レジスタは保持レジスタ4
20(データ・キャッシュ・メモリ・インタフェースに
ある)からレジスタ・ファイル430に転送されるデー
タ転送に影響を与える制御信号を一ケ所に収集するもの
である。ハードウェアの負担を軽くするために、他の信
号もいくつか収集される。
使用される制御信号には、次のものがある。
転送開始(3)このフィールドは保持レジスタ群の8レ
ジスタのうちのどれを最初に転送するかを選択する。こ
れはマイクロ命令の一部として指定することも、データ
が取り出されたデータ・キャッシュ−メモリ・アドレス
に基づいて自動的に指定させることも可能である。
転送長さ(3)このフィールドは、保持レジスタとレジ
スタ・ファイル間で転送、する語の数を指定する。最大
8語まで転送が可能である。
転送タイプ(1):このビットは転送が保持レジスタと
レジスタ・ファイル間で行なわれるのか(0)、保持レ
ジスタからFPモジュールのWCSパイプライン・レジ
スタに行なわれるのか(1)を選択する。
後者の機能はFPモジュール・メモリの並列ロード時に
使用される。
ループバック制御(1):このビットは、書込み保持レ
ジスタ内のデータを、レジスタ・ファイルに先に書き込
むことなく、直接に読取り保持レジスタに複写すること
を可能にする。これの主な用途は診断および状態格納と
復元操作である。
操作選択(1)このヒツトはハート布線機能かなく、F
Pのシーケンサに対してテストか可能である。このビッ
トを使うと、制御プロセッサ・モジュール110は、現
在実行中のルーヂン内の2つの操作の1つを実行するよ
うにFPに通知することができる。例えは、このビット
は、偶数アドレスにあるデータ(奇斂アドレスにあるデ
ータではなく)を計算で使用するように指定するために
使用できる。
命令レジスタ選択(1):このビットはwcsにあるマ
イクロ命令フィールドでなく命令レジスタ(後述)を使
用させて、浮動小数点ALUと乗算機構の動作を制御す
るものである。
マスク・エラー(1):このビットはFPエラー条件(
FPマイクロコードによって判断される)が制御プロセ
ッサ・モジュール110のシーケンサに割込みを引き起
すのを禁止する。禁止されても、FPエラー状況は通常
条件コード選択プロシージャでテストすることが可能で
ある。
スタック位! (2) 、診断および状態格納と復元が
行なわれるときは、ポスト・コンピュータはFPのサブ
ルーチン・スタックにアクセスする必要がある。スタッ
クへのアクセスか可能であるときは、このフィールドか
どのスタック項目を読み取るかを選択するために使用さ
れる。アクセスされるスタック項目はスタック・ポイン
タが指している位置を基準にしたものであることに注意
されたい。
FP制御レジスタ、FP制御レジスタは並列マイクロコ
ート・ロート制御、割込みマスキング、クロック制御お
よびマイクロアドレス選択フィールドを一ケ所に収集す
る。
クロック制御(2)・このフィールドを使用すると、制
御プロセッサ・モジュール110はFPのクロックを制
御することができる。FPクロックは動作させたままに
することも、停止させることも可能である。クロック制
御フィールドにある追加ビットは、FPマイクロコード
・クロックが制御プロセッサ・モジュール110のマイ
クロコード・クロックを使用して、FPを制御プロセッ
サ・モジュール110と同期して稼動させることを選択
するために使用されていたものである。
FPマイクロコート・アドレス・ソース(2)このフィ
ールドにより、制御フロセッサ・モジュール110はF
Pに使用させるマイクロコート・アl〜レスを次のうち
の1つにすることを選択できる。
FPシーケンサ出力 これはFPかマイクロコートを実
行させると幹の通常のマイクロアドレス・ソスである。
開始アドレス・レジスタ これは並列マイクロコード・
ロード時に開始アドレス・レジスタを選択する。(CP
モジュール110またはホストがFPモジュール110
にマイクロコートの実行を特定のアドレスから開始させ
ることを指示するとぎは、別の仕組を用いて開始アドレ
ス・レジスタが選択される。) スタック出力強制・これは、診断とマイクロコト・デバ
ッグ時にサブルーチン・スタックへのアクセス権を得る
ために制御プロセッサ・モジュール110によってイ史
用される。
割込みマスク これらの4ビツトは、FPでどの事象か
起きたとき、「Pに割込みを引き起すかを制御プロセッ
サ・モジュール110に選択させるものである。これら
の事象には、中断点、CPWAITFPW八IT、レジ
スタへファイル交換、FPエラーがある。割込みか引き
起されると、対応するマスク・ビットは一時的にクリア
されて、割込み要求がリセットされる。
並列マイクロコート・ロート制御(5)このフィールド
には、WC5書込みイネーブル、WC5出カイネーブル
、診断シフト・レジスタ・モート、および信号中のクロ
ックと直列データを制御する個別ビットがある。並列マ
イクロコート・ロートは以下で詳しく説明するように、
制御プロセッサ・モジュール110によって制御される
浮動小数点直列アクセス・ループ(3):浮動小数点A
LLIと乗算機構を通して稼動する直列ループは両チッ
プの内部状態をアクセスしたり、ある種の新しい状態情
報をロートしたりするとき使用できるものである。内部
レジスタとフラグはすべてこの方法でアクセスができる
。この直列ループを制御1−るために、制御プロセッサ
、モジコール+10は直列モート、直列データーイン、
直列クロックの3つの制御信号をもっている。直列クロ
ックはこのレジスタ・ヒツトから直接に駆動されるので
、必要とする立上がり縁と立下がり縁を発生ずるために
は制御プロセッサ モジュール110に切り替えさせる
必要かある。
開始アドレス・レジスタ、制御プロセッサ・モジュール
110は、ジャンプ開始アドレス・マイクロコート・ビ
ットが使用されるときFPにその実行を開始させようと
するマイクロコート・ルーチンのアドレスを開始アドレ
ス・レジスタにロートする。このレジスタは並列マイク
ロコートの実行時にロードすべきWC5記憶位置のアド
レスを保持するためにも使用される。
命令レジスタ(8ビツト) 制御プロセッサ・モジュー
ル110はWO2から取り出した浮動小数点ALUと乗
算機構の命令を無視して、独自の命令を代用することか
できる。命令レジスタ4510 (第45図に図示)は
この命令を保持する。これの利点は制御プロセッサ・モ
ジュール110か必要とする特定タイプのtl算に合わ
せてン几用マイクロコートルーヂンをカストマイズでき
るので、非常によく似たアルゴリズムで使用されるWC
Sスペース量を大幅に節減できることである。
状況レジスタ(ソースのみ)、これはFPモジュルにあ
るある種の内部情報をアクセスするために診断とマイク
ロコート・デバッグでのみ使用される。アクセスできる
状況には、転送時に使用されるレジスタ・ファイル・ア
ドレスと保持レジスタ開始アドレスおよび問題状況があ
る。
マイクロコード語の形式 FPマイクロコード形式の主要フィールドは第4D図に
その概要が示されている。マイクロコード語の詳しい定
義は下達する。*印の付いた項目はWO5470から直
接に取り出されるので、これらが制御する装置の内部バ
イブライン・レジスタを使用する。フィールド別のビッ
ト数はかっこ内に示されている。
真アドレス(+4): このフィールドは通常の順次プ
ログラム実行時(例 命令継続)にジャンプする次のア
ドレス、条件付きテストが真であるとぎジャンプするア
ドレス、およびジャンプ・サブルチン命令のサブルーチ
ン・アドレスを収容している。
偽アドレス(9)÷ このフィールドは条件付きテスト
が偽であるとぎジャンプする次のアドレスとジャンプ・
サブルーチン命令のサブルーチン・アドレスを収容して
いる。
読取りアドレスX (9戸−このフィールドはデータが
”X”ポートから読み取られたり、そのポート上に送出
されるレジスタ・ファイル内のアドレスを指定する9ビ
ツトを保持している。物理アドレスは9ビツトのうちの
7ビツトに入れられ、他の2ビツトはアドレスをどのよ
うに修飾するかを選択する。オプションには、修飾なし
く物理)とソフト2重バッフ7リング(論理とプレビュ
ー)がある。
読取りアドレスY(9)*:このフィールドはデータが
”Y”ポートから読み取られたり、そのポート上に送出
されたりするレジスタ・ファイル内のアドレスを指定す
る9ヒントを保持している。物理アドレスは9ヒツトの
うちの7ビツトに入れられ、他の2ビツトはアドレスを
どのように修飾するかを選択する。オプションには、修
飾なしく物理)とソフト2重バッファリング(論理とプ
レビュー)がある。
書込みアドレス(8)、このフィールドはデータが書ぎ
込まれるレジスタ・ファイル内のアドレスを指定する8
ビツトを保持している。物理アドレスは8ビツトのうち
の6ビツトに入れられ、他の2ビツトはアドレスをどの
ように修飾するかを選択する。オプションには、修飾な
しく物理)、ソフト2重バッファリング(論理)、ソフ
ト2重バッファリング(プレビュー)がある。このアド
レスは偶数アドレスに1つ、奇数アドレスに1つの対の
レジスタを選択する。レジスタの書込みは2個の別々の
書込みイネーブル・ビットによって制御される。(この
機能を使用すると、上述したように、同じ結果をレジス
タ・ファイルの偶数側と奇数例の両方に入れておくこと
ができる。)このアドレスは同しデータをレジスタ・フ
ァイルに入れるために使用される「ループバック」書込
みホトでも使用される。
偶数書込みイネーブル(1)このビットが活動している
とき、データは偶数レジスタ・ファイル。
アドレスに書き込まれる。
奇数書込みイネーブル(1)・このビットが活動してい
るとき、データは奇数レジスタ・ファイル・アドレスに
書き込まれる。
浮動小数点演算(8)*・これは実行したい浮動小数点
または整数演算を指定し、FMI’Y 440とFAL
U450の両方で共用される。使用される特定部分別の
命令セットと命令コードの詳細はメーカのデータ資料に
記載されている。
FMPYイネーブル制御(4)・このフィールドはデー
タの内部多重化と、人出力レジスタのローディング、つ
まり、Xポート・マルチプレクサ制御(”X”ポートは
最初のオペランド・バス431に結ばれたポートである
)、イネーブルXポート・しシスターデータ・ロート、
イネーブルYポート・レジスタ・データーロード(”Y
”ポートは第2のオペランド・バス432に結ばれたポ
ートである)、イネーブルZレジスタ・ロートじz”ホ
トは結実用バス433に結ばれたポートである)を制御
する。
FAL[+ 450イネーブル制御(5):このフィー
ルドはデータの内部多重化と入出力レジスタのローディ
ング、つまり、Xポート・マルチプレクサ制御、Xポー
ト・マルチプレクサ制御、イネーブルXホト・レジスタ
・データ・ロード、イネーブルYポート・レジスタ・デ
ータ・ロード、イネーブルZレジスタ・ロードを制御す
る。
サイクル長さ(4):命令のサイクル長さを定義する。
これらは28nsから98nsの範囲であり、7ns刻
みで定義できる。
(以下余白) 「〜IPYまたはF A L Ll状況選択(1)*:
 FMPY440またはFALt1450のとちらかを
選択して状況ハスを駆動する。
条件コート選択(5)テストずへき条件を次の中から1
つ選択する。つまり、真強制(省略時の条件) 、 F
PWAIT、桁上げ(FALU)、ゼロによる割り算(
FMPY)、問題状況(ゼロによる割り算)、問題状況
活動、CPオプション・ビット、Xデータ有効、Yデー
タ有効、最後に転送されたデータのアドレス(つまり、
偶数か奇数)、マイクロコード・ループ、ゼロ、否定、
割込みフラグ、数字でない(N+u+)J、め、問題の
オーバフロー、問題のアンダフロー、問題の不正確、問
題の無効演算、問題の非正規化。これらのうち最後の1
0個はFMPY440またはFALU450から取り出
すことが可能である。
中断a(1):この命令に中断点が設定されていること
を示すために設定される。
FPDONE設定(1) :FPDONE状況フラグが
制御プロセッサ・モジュール110インタフエースで設
定されると、計算が完了したことが制御プロセッサ・モ
ジュール110に通知される。
スワップ(1)  レジスターファイル内のラフ82重
ハソファを交換することを要求する。この交換は、制御
プロセッサ・モジュール110と浮動小数点プロセッサ
・モジュール+30か共にスワップを要求するまでは行
なわれない。
スクラッチバット制御(3):このフィールドはスクラ
ッチバットとそのアドレス・カウンタの動作を制御する
。1つのビットはスクラッチバット・メモリの書込みイ
ネーブルであり、他の2ビツトはアドレス・カウンタ操
作をロート、増分、減分、保留の中から選択する。
結実用バス出力選択(2)このフィールドは結実用バス
433を駆動するソースを選択する。ソースとなり得る
ものには、FALU、FMPY 440、スクラッチパ
ッド・メモリ・データ、スクラッチパッド・メモリ・ア
ドレスがある。
スタック制御(2):このスタック制御フィールドは戻
りアドレスがブツシュ、ポツプまたは保留されるように
サブルーチン・スタック・ロジックを30 ・6 制御する。
ループバック書込みイネーブル(1)、このピッ1〜は
ループバック・ポート430Eを通してレジスタ・ファ
イル430て書込みサイクルをイネーブルする。これに
より、最初のオペランド・バスにあるデータが書込みポ
ート430Dで指定されているアドレスに複写される。
奇数と偶数の書込みイネーブルはレジスタ・ファイル4
30のどちらのバンクにデータを書き込むか、あるいは
それを両方に書き込むかどうかを選択する。
問題状況制御(2):このフィールドはこのサイクルで
生成された状況を問題状況に組み入れるか、問題状況を
クリアするか、保留するかを選択する。
倍精度データ転送(2):これらの2ビツトはFALI
I450 とFMPY 440内のXとYレジスタに送
り込まれるデータの多重化とZポートから送り出される
倍精度結果の多重化を制御する。
旧A6の使用:このビットはすべてのポートのレジスタ
・ファイルに対する最上位アドレス・ピッ1〜か隣接サ
イクルの間開しままであるときマイクロコート・アセン
ブラによってセノ]・される。これはこのような場合の
サイクル時間を短縮するために使用される。
プログラム流れの例 以下は疑似コートで書かれた簡単なプログラム例である
。この例は、新規な機能がどのように実行効率を向上さ
せるかを示したものである。
この例の動作図は第42図に示されている。この例で注
意すべきことは次の通りである。
大かっこで囲んでまとめて示されている命令は並列に実
行されるものである。
通常、乗算はルーチンを通るバスごとに行なわれる。し
かし、これはルーチンを簡略化するために4つに減らさ
れている。
2重バッファリングはマイクロコードから見えない。
実行される計算式はC[nl −A[nl*B[nlで
ある。
ただし、nは0.、.3の範囲であり、8個のオペラン
ドと4個の結果はレジスタ・ファイル内の固有アドレス
におかれる。これらの参照の1つにある° (初期値)
は対応する要素の反対の要素、つまり、バッファが交換
される前に2重バッファの反対側にある要素を示す。
乗算ルーチンは別表に示す通りである。
(以下余白) 葛11   表 MUIJ: [Raad A[1] and B[11
crom register file。
DO°  result    =    ’MUL4
: (Read Aj2] and B[21from
 register fue。
Do calculation、 result R[
11= Ajll ” B[11゜Write due
 of result    1nto   ’   
file at(Read A[131and B[3
] from regigter file。
Do calculation、 result R[
2] −Aj2] ” B[2]。
Write value of result R[l
] 1nto regigter file at Q
ll。
Te5tFPWArrfftrue’    to  
   else(Do am−1−−1頃31− A[
ill ” B[礼Write value cf r
esult R[2] 1nto register 
file atα2】Mtrue’    to   
  else    ’(Write vdue or
reIIIJlt R[31ill−de at Q3
]Set F?IXハrB and swap buf
fersTest FPWArr fla&if tr
ue jump to MUL2 else j+nn
p鋤 罰址(−に[0] and B’[O] from r
egister file。
Do csksAskn、 result R[ill
 −A[3] ” 13[3]。
Wr&valuearresult    ”    
 at(−に[13and B’[1] from−麹
−Docslc*ムtJoa、 result R’[
0] −A’[0] ” B’[0]。
Write value of readt R[3]
 1nto regigter me at C[11
]シt FPDONE and amp buffer
s。
鋤 MUIJ: (Readに[01anti B’[O]
 from register file。
Write value o(rea+1t R[3]
 1nto register file at Q3
18etF?DONEand swap buffer
s。
鋤 310 A 「eベクトル乗算ルーチン(疑似コート)このル−チン
について注目すべき声がいくつかある。
このルーチンはすべてのサイクルてFPIIが使用中で
あることを保つように最適化されている(ただし、その
ためのデータがあることが条件)。もっと単純で効率が
劣る版には、命令MIIL5とそれ以上が備わっていな
い。
8対の数を乗算するようにこれを拡張するために、MU
L4にある命令はレジスタ・アドレスが変わるたびに4
回繰り返される。
すべてのサイクルでFPuを動作状態に保つためには、
交換を行なわないで2重バッファの反対側からデータを
アクセスする必要がある。これは命令MUL5とそれ以
上で使用される。
次の組のデータが用意されている限り(つまり、FPW
AITが偽である)、制御プロセッサ・モジュール11
0と同期をとる時間の無駄がない。
デバッグ・ハードウェア 浮動小数点プロセッサ・モジュール130上のデ3+O
B バッグ・八−トウエアは制御プロセッサ・モジュル11
0やブタ転送プロセッサ・モジュール120に含まれる
ものよりも機能に制約があるが、これはそこで実行され
るマイクロコードが非常に単純化されているからである
レジスタ・ファイルへのアクセスは局所転送バス422
を通して行なわれるので、モニタ・マイクロコードによ
って読み書きができるようになっている。FMPY 4
40とFAL[+ 450は直列走査ロジックが組み込
まれているので、このロジックによって内部バイブライ
ン・レジスタと状況/モード・レジスタがアクセスでき
る。次のマイクロコード・アドレスは開始アドレス・レ
ジスタ479をアクセスすることによって制御プロセッ
サ・モジュール110がアクセスできる。
中断点ロジックはマイクロコード語の中のあるビットを
使用して、中断点を定義する。中断点ビットが設定され
た命令が現れると、クロック発生機構は中止され、制御
プロセッサ・モジュール110のインタフェースにある
中断点状況信号がセソトされる。中断点からM続するた
めに、制御プロセッサ・モジュールllOはクロック発
生機構に送り込まれた中断点入力をクリアする。中断点
直後に十分な内部状態が格納されると、制御プロセッサ
ーモジュール110はある浮動小数点プロセッサ・モジ
ュール13’Oのマイクロコートの実行を開始しく開始
アドレス・レジスタの仕組を通して)直接アクセス状況
とスクラッチパッド・メモリをアクセスする。
マイクロコードは、1ステツプ進めるルーチン内のすべ
ての命令で中断点ビットをセットすることによってのみ
1ステツプ進めることができる。
デバッグ機能をサポートするもう1つの特徴は、サブル
ーチン□・スタックを読み取ることかできることである
(以下余白) アプリゲージコン向きプロセッサ・モジュール第9八図
はアプリケーション向き数値処理モシュル130°を備
えた数値高速化サブシステムの概要図である(これは「
アルゴリズム高速化機構」とも呼ばれる)。用意されて
いる強力な制御ツールを使用すると、制御プロセッサ1
10は1つまたは2つ以上の数値処理モジュール110
と1つまたは2つ以上のアルゴリズム高速化機構130
′とを任意に組み合せた形で制御することができる。
汎用浮動小数点機構130を1つまたは2つ以上のアル
ゴリズム高速化機構130′と組み合せると、特に利点
が得られる。この種の結合システムでは、汎用浮動小数
点演算を必要とするいう制約から解放されて、アルゴリ
ズム高速化機構130゛を設計することができる。従っ
て、アルゴリズム高速化機構は必要ならば、高度にアプ
リケーション向ぎの設計にすることができる。
特に利点のある組合せは、複合演算子ジュールをモジュ
ール130″の1つとして含めることである。
アプリケーション向きプロセンサはアプリケジョン向き
数値プロセッサであることが好ましい。しかし、アプリ
ケーション向きプロセッサは任意的に(好ましさの点て
は劣るが)、記号プロセッサ(つまり、LI5Pまたは
PROLOGを高効率で実行させるとき必要になる追加
のデータ通路を備えたプロセッサ)や中立ネットワーク
・マシンなどの特異なプロセッサにすることも可能であ
る。
複数の数値プロセッサーモジュール130  (アルゴ
リズム高速化機構を含む)の制御について以下説明する
FFT高速化モジュール 第9B図はアルゴリズム高速化機構130゛の1例のア
ーキテクチャが汎用浮動小数点モジュール130のそれ
とどのように異なるかを図式化して示したものである。
図示のモジュールは離散的積分変換操作を行なうように
特に最適化されている。例えば、このモジュールは高速
フーリエ変換(FFT)アルゴリズムを高速に実行する
。このアルゴリズムの実行例についてり下検8」するこ
とにする。
第9B図の実施例では、レジスターファイル910はレ
ジスタ・ファイル430よりも高度化された多重ポート
を備えている。レジスタ・ファイル910は4個の読取
りポートと4個の書込みポートのほかに、キャッシュ・
バス144 とのインタフェースとなる広幅両方向ポー
ト910Aを備えている。
読取りポート910Bとして示されている4本の線は実
際には折り返されている。実行される乗算は乱数乗算で
ないのが代表的であるが、係数(これはデータ語はどに
変化することが少ない)による乗算であるので、サイク
ルの大部分ではサイクル当たり1つだけの複合語の入力
が必要である。
(しかし、このことは最終サイクルでは該当しない。) 4つの乗算機構920は整数または浮動小数点機構にす
ることが可能である。これらは上述した乗算機構と同じ
にするのが最も好ましいが、勿論他の計算機構の使用も
可能である。これらの機構は新しい係数の読取り指示か
あるまで、イに、数をレジスタに保持している。
従って、4つの乗算機構920と加算機構930で完全
な複合乗算機構911を構成することかできる。複合乗
算機構911は2つの複合アドレス912とバイブライ
ン化されている。
2つの複合加算機構912に対する入力には、複合乗算
機構911の出力たけてなく、遅延ブロック940経由
で送られてきた読取りポート91ocからのデータが含
まれる。(この遅延ブロックは任意的にレジスタ・ファ
イル910上のポート910Bと9100を共用するた
めに使用することもできる。) 複合加算機構の出力は書込みポート9100に結ばれて
いる。
従って、この構造によると、バタフライ計算を非常に効
率よくバイブライン化することができる。
データ・キャッシュ・メモリ・モジュール140データ
・キャッシュ・メモリは高バント(f域)幅の大容量メ
モリである。記1.a容毒は現在ては2MBであり、ハ
シ1〜幅は毎秒32[1M1lである。このメモリは多
重ポートを備えているので、外部世界とのデータ転送を
浮動小数点割算と並行に行なうことかできる。割算か「
調歩」式で行なわれて、浮動小数点プロセッサ・モジュ
ール+30が長時間アイドルになるのを防止する。
第5図はデータ・キャッシュ・メモリ・干ジュル140
の主要機能を示している。このモシュルの中心となるの
は、大きなメモリ・ブロック510である。本好適実施
例では、このメモリ・ブロック510は8個のシングル
・イン・ライン・モジュールで構成され、各々は8個の
32にx8 SR八へSを備えているので、総計2メガ
バイトのメモリになっている。しかし、当業者ならば容
易に理解されるように、このメモリ構成は高度半導体部
品の供給変化や特定アプリケーションの要求に応じて変
更することか可能である。
特に、ある種のアプリケーションでは、メモリ容量を大
きくすると利点が得られる。このメモリバンク510て
×255構成を使用すると、少なくとも完全な並列アク
セスの場合には、アドレス空間の使用効率か向上する。
従って、本好適実施例では、24ヒツト・アドレス情報
がアドレス入力511 にあるメモリ バンク510に
入力される。書込みイネーブル入力512は実際には8
ビット幅であるので、1つの256ビツト・メモリ・ブ
ロック内の個々の32ヒツト語が書込みのために選択て
きる。これは下達するような利点が得られる。ブタ・ポ
ート513は256ビツト幅である。ブロックの機能に
は、まだモジュール140全体がもつような多重ポート
機能を備えていない。この多重機能を実装するためのロ
ジックとメモリ・バンク510をアクセスするためのロ
ジックについて、次に説明する。
第5図の下方に示したのは制御プロセッサ110に結ば
れた32ヒツト幅データ・バス(CDバス112)と、
データ転送プロセッサ120に結ばれた32ヒツト幅バ
ス(TDババス22)である。これらのバスの各々はま
ず保持レジスタ・バンク560に送り込まれる。レジス
タ・バンク560の各々は並列の8個の32ヒツト幅レ
ジスタ561を備えている。(本好適実施例では、これ
らのレジスタ561の各々は実際には、書込み保持レジ
スタ561°か読取り保持レジスタ561”と並列にな
るように構成された4個の74ALS652装置を使用
して構成されている。レジスタ・セット560A、56
0B、420の構造は第42図に詳細が示されている。
メモリ・バンク510がアクセスされるには、アドレス
をポート511から得る必要がある。このアドレスはマ
ルチプレクサ520を通して、CAババス11(このバ
ス上には制御プロセッサから出されたアドレスが送られ
る)からか、TAババス21(このバス上にはデータ転
送プロセッサ・モジュール120から出されたアドレス
が送られる)から与えられる。選択入力521はこれら
の入力のどちらをアドレス・ポート511 に送るかを
選択する。
マルチプレクサ520に対する選択入力521は仲裁ロ
ジック530によって生成される。この単純なロジック
は、DTPがアクセスを要求し、CPがアクセスを要求
していない場合だけ、DIPモジコール120へのアク
セスを許可する。選択信号521 はアドレス・マルチ
プレクサ520にだけてなく、書込みマスク・マルチプ
レクサ530とDTP転送ロジック540にも送られる
下述するように、書込みマスク入力512はTDババス
22またはCDバス+22からの書込みのときに非常に
利点がある。書込みイネーブル入力512は分解能が8
ビツトであるので、各メモリ・ブロック510内の8個
の32ビット語は、1回の完全並列書込み操作時に個別
的に書込みイネーブルさせることができる。従って、例
えば、制御プロセッサ110が8未満の語をメモリ・バ
ンクのある行に書き込むことを要求したときは、必要と
する語位置のレジスタ561に必要とするデータ値がア
ップ・ロードされる。さらに、8ビツトが書込みマスク
線551に送出されて、レジスタのどちらにアドレスs
o  (C^ババス11からの)で指定された行にある
メモリ・バンク510の対応する語に書き込むべきかを
示している。(上述したように、CババスIllからマ
ルチプレクサ520へのアドレス転送はIPU 340
の出力によって制御される。)第25図は書込みマスク
・ロジックを別の見方で見たものである。同図において
、FP書込みマスク・ロジック2510、CP書込みモ
ニタ・ロジック2520、およびDTP書込みモニタ・
ロジック2530は3つの別ブロックに分割されて、マ
ルチプレクサ530に対する入力となっている。第26
図は書込みモニタ・ロジック・ブロックの動作をもっと
詳しく示したものである。ロジック261Oに対する入
力には、レジスタ選択、全部書込み、00M書込み、保
留レジスタ・ロードなどがある。出力は8個のフラグ・
ビットであり、レジスタ2620に格納されている。
転送ロジック540はデータ転送プロセッサ120内の
マイクロコード命令列の一部であるマイクロコード命令
フィールド542によって駆動される。
同様に、CD転送ロジック550は制御プロセッサ・モ
ジュール110のシーケンサ210によフて駆動される
マイクロコード命令の一部であるマイクロコ一ト命令ビ
ン1−552 にJ:って駆動される。(実際には、こ
のシーケンサによってル1ス動されるマイクロコートの
一部は分散しておくのが好ましい。つまり、マイクロ命
令のフィールドの一部は制御記憶機構220から切り離
して保管されるが、シーケンサの出力である一連のマイ
クロ命令アドレス211によ)てクロックがとられてい
る。これにより、システムから見て大幅な利点が得られ
るが、これについては下述する。) 転送ロジック540と550の他の出力543と553
には、それぞれのレジスタ・バンク560の制御といっ
た制御機能があるが、この中にはクロッキングと出力イ
ネーブルが含まれる。(レジスタ・バンク560の各々
は、レジスタ・バンクの両側に2つの出力イネーブルと
、2組のクロックをもっている。また、CP転送ロジッ
ク550によって制御される機能の1つとして、メモリ
・バンク510の出力イネーブル線514がある。) キャッシュ・バンク510へのアクセスを要求するため
にFPモジュール130からの直接入力はないか、これ
は、この種のアクセスは制御フロセッサ・モジュール1
10によって制御されるからである。こうすると、下述
するように、大幅な利、占が得られる。
メモリ構成 高速化サブシステムは広幅メモリ・アーキテクチャを採
用している。データ・キャッシュ・メモリ140をアク
セスするたびに、256ビツトが読み書きされる。これ
はサイクル当たり8個の浮動小数煮詰に相当する。
データ・キャッシュ・メモリ140は3ポートで制御プ
ロセッサ・モジュール110、浮動小数点プロセッサ・
モジュール130、およびデータ転送プロセッサ・モジ
ュール120に結ばれているが、制御プロセッサ・モジ
ュール110と浮動小数点プロセッサ・モジュール13
0によるアクセスは制御プロセッサ・モジュール110
のマイクロコードによって制御されるので、仲裁とアド
レス多重化は2通りの方法だけで行なわれる。
データ・ポート データ キャッシュ−メモリと結ぶポートは3つある。
FPモジュールにつながるポートは256 ビット幅で
あり、制御プロセッサ・モジュール110とデータ転送
プロセッサーモジュール120の各々からはそれぞれ3
2ビツト幅ポートとして見える。
32ビツト幅ポートに対するデータ経路と記憶装置はデ
ータ・キャッシュ・ブロック140の一部に含まれてい
る。
メモリ配列から32ビツト・バスの1つに送られる25
6ビツト・データの多重化は32個の両方向レジスタを
通して行なわれ、これらのレジスタは4個ずつ8群に配
置されている。各群は読取り方向に32ビツト(つまり
、浮動小数煮詰の1語)を、書込み方向に32ビツトを
格納する。これは保持レジスタと呼ばれる。各レジスタ
を特定して名前を付けると、インタフェースのプロセッ
サ側から見て、読取り保持レジスタおよび書込み保持レ
ジスタとなる。
データがメモリ配列から読み取られるときは、256 
ヒント全部か保持レジスタに格納され、これらのレジス
タの出力イネーブルは必要とする浮動小数盾εhを選択
して32ビツト・ポートに送出するように制御される。
データがメモリ配列に書き込まれるときは、32ビツト
・ポートから更新されたレジスタだけが格納される。こ
れは書込みマスク・ロジックによって制御され、各群ご
とに1つの割合で8個の書込みイネーブルを使用して達
成される。
32ビツト・ポートは両方ともデータ経路と記憶装置ロ
ジックが同じになっている。
浮動小数点プロセッサ・モジュール130につながる2
56ビツト・ポートは32ビツト・ポートと同じような
ロジックを備えているが、浮動小数点プロセッサ・モジ
ュールN+1上に置かれている。データ・キャッシュ・
メモリを、モジュールを使用して将来拡張できるように
するために、アドレス・バス(24ビツト)と書込みイ
ネーブル(8)はモジュール・コネクタ3810 (第
38A図と第388図に図示)に結ばれている。
cp転送ロジック CP転送ロジックはCP保持レジスタ(またはFi1保
持レジスタ)とデータ・キャッシュ・メモリ間のデータ
転送を担蟲する。
保持レジスタにあるデータはCDソース・マイクロコー
ト・フィールドか読取り保持レジスタを選択したときア
クセスされる。CPアドレス・バスの最下位3ビツトは
駆動すべき32ビツト語を選択してバス上に送り出す。
この過程では、データ・キャッシュ・メモリは使用され
ないが、必要ならば次の組のデータをアクセスすること
が可能である。
データを書込み保持レジスタに書込むときは、CD宛先
マイクロコード・フィールドは保持レジスタをグループ
として選択し、CPアドレス・バスCAIIIの最下位
3ビツトは更新すべき32ビツトを選択する。書込み保
持レジスタが更新されるときは、対応する書込みフラグ
がセットされる。従って、データ・キャッシュ・メモリ
に対する書込みが行なわれるときは、制御プロセッサ・
モジュール110によりて更顕された保持レジスタだけ
か実際にメモリ配列に書き込まれる。対応する保持レジ
スタが更新されていないメモリ配列内の語は変更されな
い。データ・キャッシュ・メモリに書込みが行なわれる
と(データ・ソースが制御プロセッサ・モジュール11
0である場合)、書込みフラグはすべてリセットされる
。制御プロセッサ・モジュール110がデータ・キャッ
シュ・メモリへの書込みと同じサイクル時に書込み保持
レジスタの1つを更新していた場合は、その書込みフラ
グはセットされたままである。
例えば、メモリをある定数値にクリアするときこの選択
的書込みメカニズムをバイパスすると好都合の場合があ
る。その場合には、制御プロセッサ・モジュール110
は選択的書込みを無視して、すべての語を更新させるこ
とができる。この選択的書込み機能を使用しないと、デ
ータ・キャッシュ・メモリの書込み動作は非常に遅くな
り、データ・ブロック(256ビツト)を読取り保持レ
ジスタに読み込み、変更すべきでない語を書込み保持し
シスタに転送し、書込み保持レジスタを新しいブタて更
新してから、データ・キャンシュ・書込みサイクルを実
行することになる。現アーキテクチャでは、データを読
取り保持レジスタから書込み保持レジスタに複写するに
は、1割当たり1サイクルか必要である。
書込みフラグの状態はマイクロコートのデバッグ時に状
態格納のために、制御プロセッサ・モジュール110に
状態を壊さないで抽出させることが可能である。
読取り保持レジスタは書込み保持レジスタとは別になっ
ているので、書込み保持レジスタの内容を壊さないで複
数の読取りサイクルを実行することができる(逆の場合
も同じ)。
保持レジスタ・セットとデータ・キャッシュ−メモリ間
のデータ転送を制御するときは、次のようなビットが使
用される。
データ・キャッシュ・アクセス(1)・このビットは制
御プロセッサ・モジュール110が自身で使用するため
に、あるいは浮動小数点プロセッサ・モジュール130
との間でデータをやりとりするためにデータ・キャッシ
ュ−メモリへのアクセスを要求すると、活動化する。ア
クセス・フラグはパイプライン化されていない。従って
、データ転送プロセッサ・モジュール120からの要求
との仲裁は要求が行なわれたサイクルか始まる前に解決
することができる。
データ・キャッシュ書込みイネーブル(1):このビッ
トはデータ・キャッシュ・メモリで書込みサイクルを生
成する。
データ・キャッシュ書込みオール(1) このビットは
データ・キャッシュ・メモリ内の語を選択的に更新する
通常の書込みイネーブル・ゲート操作を無効にして、す
べての語を書き出すようにする。これは、メモリをブロ
ック単位で定数値にセットするとき便利である。
データ・キャッシュ・ポート選択(1):このビットは
データ・キャッシュ転送のソースまたは宛先として、F
Pモジュール保持レジスタか制御プロセッサ・モジュー
ル110保持レジスタのどちらかを選択する。
千〜ト・レジスタには保持レジスタを制御する3ヒント
がある。2ビツトは保持レジスタを使用するか、バイパ
スするかを選択する。3番目のビットはデータ・キャッ
シュ・メモリがDCMを駆動するのを禁止して、書込み
保持レジスタと読取り保持レジスタの間にループバック
・データ通路がセットアツプされるようにする。これら
の機能が存在するのは、状態格納および復元マイクロコ
トがデータ・キャッシュ・メモリの書込み操作を最初に
行なわないで書込み保持レジスタとさらにより正確な診
断情報をアクセスできるようにするためである。
制御プロセッサ・モジュール110は次の2通りの方法
でデータ・キャッシュ・メモリを使用することができる
最初の方法は広幅メモリ・アーキテクチャを無視して、
それが丁度32ビット幅であるものとして扱うことであ
る。この場合は、CPモジュール110はすへての読取
りアクセスの前とすべての書込み’(29 アクセスのあとでアクセス・サイクルを要求するたけで
ある。この方法を使用すると、データ・キャッシュ・メ
モリをデーターアクセスかパイプライン化されたメモリ
と見ることかできる。この方7去はデータ・キャッシュ
・メ干りのイ吏用を簡単にするか、データ転送プロセッ
サ・モジュール120のポートにサービスで鮒るメモリ
の能力を効率よく使用できない。また、この方法による
と、制御プロセッサ・モジュール110か順次データを
アクセスするときに非効率が生しる。しかし、非順次デ
ータ・アクセスの場合は、次の方法は使用できないので
、この最初の方法を使用せざるを得ない。
IIJ御プロセッサ・モジュール110が順次メモリ・
アクセスを行なうとぎ、メモリ・バンク510をアクセ
スするたびに、すべての保持レジスタ561に対する読
み書きに8サイクルが必要である。データ・キャッシュ
・メモリ・アクセスは保持レジスタ・アクセスとパイプ
ライン化できるので、8サイクルのうち7サイクルをデ
ータ転送ブロセツサ・モジュールか自由に使用すること
かできる。
データ・キャッシュ・メモリ・アクセスは自動的に行な
われないので、マイクロコートで8サイクルごとにアク
セス・サイクルを指定できる。この種の転送は、外部イ
ンタフェースとの間の入出力転送が性質上順次であるの
か通常であるので、ブタ転送プロセッサ・モジュール+
20でよく行なわれる。
制御プロセッサ・モジュール+10はデータ・キャッシ
ュ・メモリとFPモモジュール上保持レジスタ間のデー
タ転送も担当する。その場合には、基本制御はデータ・
キャッシュへの書込み時にあるブロック内のどの語を更
新するかを判断する場合以外は同じである。その場合、
上述したように書込みフラグに対して別の方法が取られ
る。
違いのいくつかの要因を挙げると、次の通りである。
FPのレジスタ・ファイルと保持レジスタ間のブタの流
れを制御する転送ロジックにはある種の制約があるので
、制御プロセッサ・モジュール+10で使用されている
より汎用的マスク生成機構は不要である。
FPのレジスタ・ファイルからの1!!l苓のデータ転
送はデータ・ブロック単位(つまり、ベクトルの部)で
行なわれ、これが1転送サイクルで行なわれるときは、
いくつかの書込みマスク・ビットを制御プロセッサ・モ
ジュール+10の場合のように個別的にてはなく、並列
にセットしなけれはならない。
1つのFP書込みマスク生成機構は複数のFPモジュー
ルと競合しなければならない。
FP書込みマスクは更新すべき語と最初の語からの連続
語の個数を指定することによりて生成される。開始位置
はCPアドレスの最下位3ビツトによって与えられ、長
さはマイクロコート命令のフィルドとして保存されてい
る。
DPT転送ロジック540 データ転送プロセッサ・モジュール120の転送ロジッ
クはデータ転送プロセッサ・モジュール+20のデータ
・バス(TCバス122)とメモリ配列間のデータ転送
を担当する。これは次の、占を除i−1はC1l中云送
ロジツクとほぼ同しである。
浮動小数占プロセッサ・モジュール120に関連する部
分かない。
出カイ2号は仲裁ロジックの結果によって修飾される。
仲裁ロジック535 仲裁ロジックはサイクル単位て誰にデータ・キャッシュ
・メモリをアクセスさせるかを判定する。競合する2ポ
ートには、CP/FPとデータ転送プロセッサ・モジュ
ール120がある。CP/FPはデータ転送プロセッサ
・モジュール120より優先権があるので、データ転送
プロセッサ・モジュール120が空きメモリ・サイクル
を待たされることになる。データ転送プロセッサ・モジ
ュール120は制御プロセッサ・モジュール110に割
込みをかけることによって、制御プロセッサ・モジュー
ル110に空きメモリ・サイクルを手放させることかで
きる。
データ・キャッシュ・メモリの仲裁は両方のホトのアク
セス要求(ClゾFf’の場合は要求)を同ill化す
ることによって単純化されている。これは同シクロンク
生成機構を制御プロセッサ モシュル110とデータ転
送プロセッサ・モジュール120間で共用させることで
達成される。この程度の同期化かないと、データ転送プ
ロセッサ・モジュール120かアクセスを始めたばかり
の場合もあるので、制御プロセッサー干ジュール110
があるサイクル時にアクセス権があると想定できなくな
る。
サイクル単位の仲裁は仲裁ロジックで行なわれる。仲裁
ロジックはCP要求とDTP要求の2つの要求信号を受
は取る。これらは共に、そのポートがデータ・キャッシ
ュ・メモリをアクセスすると主張されるマイクロコート
・ビットである。これらのマイクロコート・ビットはレ
ジスタに格納されないので、仲裁はアクセスが行なわれ
る前にそのサイクルで解決される。これにより、データ
転送プロセッサ・モジュール120の許可信号は、シケ
ンサのFl、へG入力のパイプライン化によって起こる
余分のサイクル遅延を引き起さないで、十分な時間的余
裕をも2てデータ転送プロセッサ・モジュール120に
テストさせることかできる。
2つの出力信号として、データ・キャッシュ・メモリへ
のアクセス権があることをデータ転送プロセッサ・モジ
ュール120に知らせるDTP 許可信号と、アクセス
と書込みイネーブル・マルチプレクサを制御する信号と
がある。
CP/FPは、データ・キャッシュ・メモリをそれが1
ポート装置であるものとしてアクセスする。
しかし、データ転送プロセッサ・モジュール120はア
クセスを要求するたびに、以下のプロシージャに従わな
ければならない。このプロシージャは疑似コードで書か
れている。
(保持レジスタに書込みを実行) (アクセスがWAITへのジャンプに失敗したWAIT
:場合は、データ・キャッシュ・メモリへの書込みアク
セスを要求、そうでなければ、継続) (他の作業の実行) このイ列に関して(王目すへ# 1.”、+を(ハくつ
か挙げると、次の通りである。
このロジックは大量の作業を並行に続行させることかで
きる。
アクセスが失敗すると、書込み(または読取りアクセス
での保持レジスタのローディング)は自動的に禁止され
る。
テスト結果には、アクセスが成功したか否かが示される
。失敗した場合は、データ転送プロセッサ・モジュール
120は、アクセスする命令をループさせることによっ
て再試行する。
この例から明らかなように、データ転送プロセッサ・モ
ジュール120はアクセスが許可されるまで待たされる
ことになる。しかし、通常はいくつかのサイクルの間だ
け待たされることになる。アクセスがそれでも許可され
ないと、DTPは制御プロセッサ・モジュール110に
割込みをかけることになる。制御プロセッサ・モジュー
ル110が割込みサービスを行なっている数サイクルの
期間、ブタ・キャッシュ・メモリは空きになるので、デ
タ転送プロセッサ・干ジ、−ル12(lかアクセスする
ことができる。
コマンド・メモリ+90 コマンド・メモリ190を通して、制御プロセッサ・モ
ジュール110とデータ転送プロセッサ・モジュール1
20は相互に連絡し合うことができる。
双方はこのメモリに対しては平等のアクセス権をもって
いる。本好適実施例では2重ポートRAMか使用されて
いる。コマンド・メモリは32ビット幅x  2に奥行
である。
第15図はこのメモリ構成の重要な機能のいくつかを示
したものである。コマンド待ち行列の動作について、以
下第15図を参照して詳しく説明するが、そこではCP
モジュールとDTPモジュール間のプロセッサ・インタ
フェースについても説明する。しかし、このメモリ構成
のいくつかの主要機能についてここで説明しておく。
これらの2重ポートRAMは、2アドレスが異なるとき
は、両ポートが無制約にアクセスできるようにする。2
アドレスが同じであり、両方の側が書込みを行なう場合
は、結果がとうなるか分からない。下達するように、2
プロセッサ間の通信プロ]・コルは、両方が同じ71−
レスに書き込むことがないようになっている。
制御プロセッサ・モジュール110とデータ転送フロセ
ッサ・モジュール120がコマンド・メモリをどのよう
に使用するかはソフトウェアで制御される。本好適実施
例では、割振りは次のようになっている。つまり、CP
モジュール110に対するコマンド待ち行列(例:メモ
リ・スペースの約12*)DTPモジュール+20に対
するコマンド待ち行列(例:メモリ・スペースの約38
*)、状態格納と復元データ構造(例:メモリ・スペー
スの約50*)。
状態格納と復元データ構造はマイクロコード・デバッグ
・モニタが制御プロセッサ・モジュール110と浮動小
数点プロセッサ・モジュール130の状態情報(ある種
のコマンド構造と共に)を保管しておくために使用する
ために予約されている。
ポス1〜・インタフェース・ロジック160第6図は、
第1図にその全体かブロック1(IOでボされているホ
スト・インタフェース・ロジックの主要構成要素を示し
ている。好適実施例では、システム・バスはVMEバス
であるので、このインタフェース・ロジックは本明細書
中ではr VMEインタフェース」と呼ぶ場合もある。
しかし、当業者なら明らかなように、他のシステム・バ
スを幅広く使用することも可能であり、開示されている
新規事項はこの種のシステムに容易に適用することが可
能である。
バス・コントローラ650はVMEバス・サービス線と
のインタフェースとなって、バス許可、バス要求、リセ
ットといったインタフェース信号を出力する。
割込みロジック680は割込み処理で使用され、ホスト
に割込み通知を行なう。(これらの割込みはVMEバス
・サービス線600B上に送出される。)本好適実施例
では、これは下述するように、PALを用いて構築され
ている。
さラニ、DMAコントローラ640も用怠されているこ
とが好ましい。これはV M EバスとFIFO670
間のデータ処理を低レベルで制御するもので、途中に介
入するステップをデータ転送プロセンサ・千ジュール1
20に監視させる必要がない。本好適実施例では、DM
Aコントローラは下述するように、PALを用いて構築
されている。
VMEインタフェースは主に、次の4つのサービスをホ
スト・プロセッサに提供する。
3種類のプロセッサ・モジュールとの直列走査ループ・
インタフェース経由のマイクロコード・ローディング。
コマンド起動と状況監視 DMAによるホスト・メモリへのアクセスによりVME
アドレス空間との間のデータ転送(これにより、サブシ
ステムは独自のデータを転送できる)デバッグ(ハード
ウェアとソフトウェア)可能。
このインタフェース・ロジックの内部接続にはデータ用
のTOババス22とアドレス情報用のTAバス121 
、 CPマイクロア1−レス・バス21111.DTP
マイクロアドレス・ハス311O1直列マイクロ命令ル
ブ225、および多数の訓込み線と状況線がある。
本実施例では、外部接続はVMEバスとの接続である。
このバスの線は第6図にアドレス線600A、データ線
600B、およびバス・サービス線(状況線と制御線を
含む) 600Gとして別々に示されている。
本好適実施例はVMEインタフェース規格の電気的定義
に準拠している。この規格はIEEE標準P1014/
D1.2およびIEC821として知られている。
インタフェース・ブロック160は32または24ビツ
ト・アドレスと32または16ビツト・データを受は付
ける。本好適実施例では、アドレス指定とデータ・ルー
チンを単純化するために、使用できるアクセスのタイプ
に若干の制約がある。
別の方法によれば、他のバス構造を幅広く使用すること
も可能である。例えば、必要ならば、VersaBus
、 FutureBus  Multibus II 
 Nubusなどを簡単にシステムに組み入れる設計に
することが可能である。高速コンピュータ・システムの
場合には、光ファイバに変調固体素子レーザを使用して
光ハスを使用すると利点か得られる。
物理バス線とのインタフェース VMEバスと直接インタフェースとなるロジック・ブロ
ックについて最初に説明する。そのあとて他のロジック
とメモリ・ブロックについて説明する。最後に、レジス
ターブロック512について説明する。このレジスタ・
ブロックは、他のブロックの動作を分かりやすくするた
めに、かなり詳しく説明されている。
バス・コントローラ650 バス・コントローラ650はバス・サービス線600G
とのインタフェースとなり、ボード・アドレス・デコー
ダ652からその特定ボードがアドレスされているかど
うかを示す出力を受は取る。
デコーダ652はVMEバスのポート・アドレス線を絶
えず監視して、このデコード出力を送出する。ホスト・
システムによって指定されたサブシステムのアドレスは
、DILスイッチを用いて導入時にユーザによってセッ
トされる。71〜レスと機能コートの実際のデコー1−
はT’ALの中で行なわれるので、サブシステムは目標
V M Eシステムに合った構成にすることかできる。
バス・コントローラ650はVME制御プロトコルに従
って、両方向データ バッファ620または両方向アド
レス・バッファ630にイネーブル信号を送る。
バス・コントローラ650はDMAコントローラ650
とVME割込みロジック680(および以下で詳しく説
明するように他のロジック・ブロックからの)からの状
況情報を受は取るようにも接続されている。また、バス
・コントローラ650はDMAコントローラ640、V
ME割込みロジック680、および他の多くブロック(
上述する)に制御信号を送るようにも接続されている。
バス・コントローラ650の状況と制御接続は広範囲に
わたっているので、混乱を避けるために個別的には示さ
れていない。
しかし、これらの接続は当業者には容易に理解されるは
すである。
本好適実施例では、これはVMEバス・コントロー装@
 (SigncLics 5CB6872)として構成
されている。これはマスク・インタフェースとバス・エ
ラー・サイクルを含むすべてのバス・プロトコルを取り
扱う。
マスク・モートとスレーブ・モート VMEインタフェースは2つの別個のインタフニス、つ
まり、スレーブ・インタフェースおよびマスク・インタ
フェースと考えることができる。
マスク・モードでの動作について、 DMAコントロラ
640と関連づけて以下説明する。
スレーブ・モードはスレーブ・アドレス・デコダ632
を使用して行なわれる。高速化サブシステムがスレーブ
・モード(これはバス・コントロラ650によってデコ
ードされたVMEコマンドで示される)で動作している
ときは、コントローラ650は両方向バッファ630を
通過モードに置いて、スレーブ・アドレス・デコーダを
イネーブルする。そのあと、スレーブ・アドレス・デコ
ーダはVMEアドレス線600Aから持ち込まれたアド
レスをデコートして、該当の装置をイネーブルする。
この場合も、スレーブ・アドレス デコーダの出力は広
範囲に渡って接続されているので、個別にはボされてい
ない。
スレーブ・アドレス・デコーダはVMEプロトコルに準
拠する必要なりTACに生成ロジックも備えている。
VMEプロトコルの下では、現在のバス・マスクがポー
トをアドレス指定し、そのポートはスレブ・モードにあ
るときだけ応答することができる。というのは、どの時
点でも活動マスクは1つだけが許されるからである。(
バスへのアクセスが許可されるまで、従)て活動状態に
なるまで待たされているマスクは多数存在することがあ
り得る。)そのあと、マスクはスレーブがDTACK 
 (データ転送受領確認)で応答して、データを受は取
ったこと(書込み操作)またはデータを送ったこと(読
取り操作)をマスタに知らせるまで、待たされることに
なる。
データ・バッファ620 これは両方向バッファであり、VMI データ線600
Bとの直接インタフェースとなるものである。
アドレス・バッファ630 これは両方向バッファであり、VMEアドレス線600
Bとの直接インタフェースとなるものである。
VMEインタフェース・メモリ660 このメモリはインタフェース160内の大きな記憶ブロ
ックとなるものである。これのいくつかの用途は、DT
Pモジュール+20の動作と関連づけて上述した通りで
ある。
メモリ・マツプ 各高速化サブシステムは8にBのVMEアドレス空間を
使用する。このアドレス空間のベース・アドレスは8個
のスイッチによって選択される。レジスタ・アドレスは
このベース・アドレスからのオフセットとして与えられ
る。高速化サブシステム用のメモリ・マツプは2つの区
域に分割できる。
サイズが2にx 32ビット語のメモリ区域。このメモ
リ区域の使用法はソフトウェアで制御される。この区域
に納められるデータ構造のいくつかは以下に埜げろ通り
である。
メモリ・スペースの下方部分を占有するレシス久区基。
この区域は、詳しく下達するように、多くの重要な機能
用に使用される。
メモリ区域はマイクロコート・デバッカと通常の実行時
インタフェース間で共用される。
デバッガ区域には、モニタ・マイクロコートかメモリ、
FIFOなどを読み取れるようにするコマンド待ち行列
の他に、サブシステムの状態格納情報が収容される。
実行時インタフェースは主に装置トライバがそこにコマ
ンドを追加して、B11tzマイクロコートがそこから
コマンドを削除できるコマンド待ち行列から構成されて
いる。
ハードウェアをアクセスする仕方にはいくつかの制約が
ある。これらの制約は主にハードウェアを単純化して、
それてもなお、16または32ビツト・データ・バス・
インタフェースを可能にするためのものである。制約と
は、ハイド アクセスかサボー1へされないこと、ヒノ
1− アクセスは長語(32ビット)境界で行なう必要
かあることである。
メモリ600 とデータFIFO670は32ビツト幅
である。ホスト・システムが16ビツト・システムであ
る場合は、上位16ビツトはアクセスがてぎない。
16ビツト・システムかメモリ内の連続アドレスに書込
みを行なう場合は、アドレスを4ずつ増やして行って、
次の記憶位置に移る必要がある。
好適なサブシステムで使用されるVMEメモリ・マツプ
は次のようになっている。
レジスタ      オフセット 制御レジスタ     0 ストローブ・バッファ 4 状況レジスタ     4 WCS制御レジスタ08 WCS制御レジスタ1  12 WCSデータ・レジスタ 16 CPマイクロアドレス  20 DTPマイクロアドレス 24 データFIF0       28 暢 16読み書き 16書込み 8読取り 16読み書き 8読み書き 16読み書き 16読み書き 6読み書き 32読み書き ■トメモリ660       ’1095   32
読み書ぎデータFIFO670 データFIFO670はデータ転送操作における重要な
機能を備えている。
通瘍の動作モートでは、DMAコントローラかブタFI
FOを排他的に使用するのて、データFIFOがホスト
によってアクセスされることはない。ホストは制御レジ
スタ内のFIFOアクセス・ビットをリセットすること
でデータFIFOへのアクセスが可能になる。
FIFO670で示されたブロックは物理的に2個のF
IFOで構成され、両方向FIFOの機能をもっている
。これらのFIFOの一方はホストによって読み取られ
、他方はホストによって書込まれる。FIFOの他の終
端はDTPによってアクセスされる。(従って、一般的
に、ホストがFIFOに書き出したあとでFIFOを読
み取る場合は、読み取られたデータは書き出されたデー
タと異なることになる。)ホストがFIFOをアクセス
するときは、FIFO状況をモニタして、FIFOが空
のときに読み取られたす、−杯のときに書き込まれたり
しないようにしなければならない。(ホストはこれらの
FIFOを診断目的で、あるいはDMAでなくポーリン
グされた人出力が必要である場合にアクセスする必要が
あることがある。) VME割込みロジックδ80 VMEプロトコルはいくつかの割込みを用意している。
これらの割込みはDTPモジュール120によって弓き
起すことができる。
DTPモジュール120は割込みベクトルも定義してい
る。ベクトルは割込み理由に応して変更することができ
るが、割込み原因をVMEインタフェース・メモリ66
0に格納しておけば、1つのベクトルを使用することも
可能である。
DMAコントローラ640 データFIFO670とVMEバス間の順次またはブロ
ック・モードの転送がDMAコントローラ640によっ
てサポートされている。(このコントローラはより通常
の単語転送もサポートしている。)DMAアドレスは完
全な32ビツトであり、転送時に使用されるVMEアド
レス修飾子とLONG¥信号はすへて転送が開始される
前にDTPモジュール120によってレジスタにセット
アツプされる。
PIFO670の反対側はDTPモジュール+20によ
って一杯または空にされる(通常はデータ・キャッシュ
・メモリ140の中に)。16ビツト転送が使用される
ときは、DTPマイクロコードは32ビット内部形式と
の間でデータをバックまたはアンパックする。
この部分がDMAコントローラとも呼ばれるのは、DT
Pモジュール120からの1個の高水準コマンドを受け
てPIFO670との間でブロック・データ転送を行な
うことができるからである。しかし、この機能がもつ機
能は商用化されているDMAコントローラ・チップの機
能とは同しでない。通常のDMAコントローラは、活動
時に[11AAアクセスで使用するものと同じバスから
データとアドレス情報を受は取る。しかし、DMAコン
トローラ640はそのアドレス情報をDTPモジュール
120から受は取り、この情報を使用してVMEバスと
のアドレスおよびデータ・インタフェースを制御する。
本好適実施例では、DMAコントローラ640は実際に
は4個の八m2940 D)Aへビ・ント・スライス・
ヂ・ンブに実装され、ある種の関連ロジックは下達する
ようにPALに実装されている。
DMAコントローラのセットアツプはDTPモジュール
120によって行なわれ、データはVMEバス線600
BとデータFIFO670との間で転送される。
3つのアドレス指定モートが使用可能である。
これらのどれが使用されるかは、転送の種類またはシス
テム構成によフて決まる。
アドレス定数保存。このアドレス指定モードはDMAが
VMEメモリにアクセスするとき同しVMEアドレスを
保存しておくもので、これは人出力ポートをアクセスす
るとき使用される。
アドレスを2ずつ増分(または減分)。このアドレス指
定モードはアクセスされるVMEメモリが16ビツト幅
だけのとき使用される。この場合は、DTPはデータを
内部で使用される32ビット語と外部で使用される16
ビツト語の間で分割またはマージする。
アドレスを4ずつ増分(または減分)にのアドレス指定
モートはアクセスされるVMEメモリが32ビット幅で
あるとき使用される。
勿論、当業者によく知られているように、複数の状況信
号を使用すれば、FIFOに対するデータの扱い方を制
御することができる。例えば、この種の状況信号には、
FIFO空、FIFO半満杯などがある。
マイクロコード・ロード制御ロジック610このロジッ
クはマイクロアドレス・バス211Bと3118および
直列ループ225 とのインタフェースとなるものであ
る。(より正確には、第28図に示すように、このロジ
ックは1つの直列出力線225Aを備え、4つの帰還線
225B、225C1225D、225Eを備えている
。)このブロックの構成要素とそれが実行する機能につ
いて、第27.28、および29図を参照して以下説明
する(直列ループ・インタフェースの動作と関連付なが
ら)。
このロジックはレジスタ・ブロック612にあるCPと
DTPマイクロアドレス レジスタをアクセスする必要
がある。さらに、WC5指定子制御レジスタもアクセス
する。これらのレジスタはレジスタ・ブロック612に
示されているか、制御ロジックの一部と見ることも可能
である。
このロジックはフリップフロップ2720、ステート・
マシン2740、マルチプレクサ271O1およびWC
Sデータ・レジスタ2730 (これはシフト・レジス
タである)から構成されている。
レジスタ・ブロック612 多数の有用なレジスタがレジスタ・ブロック612に集
約されて示されている。このブロックに含まれる機能と
信号について以下説明する。
制御レジスタ・ビット ホストは制御レジスタを使用して、サブシステム・ハー
ドウェアの基本的動作を制御する。これらには主にハー
ドウェア・リセット機能とクロック制御が含まれる。制
御ビットは次の通りである。
CPシーケンサ−リセット・このビットはセットされる
と、CI’シーケンサ210にアドレス0=てジャンプ
させ、内部シーケンサ状態をリセットする。
DTP シーケンサ・リセット:このビットはセットさ
れると、DTPシーケンサ310にアドレス0までジャ
ンプさせ、内部シーケンサ状態をリセットする。
DTP リセット このビットはクリアされると、DT
Pを安全状態に置くので、すべてのバスは3状態になる
。これが主に使用されるのは、違法マイクロコート命令
でバス競合が起こるのを防止するマイクロコートをロー
トするときである。
CPリセット このビットはクリアされると、CPを安
全状態に置くので、すべてのバスは3状態になる。これ
が主に使用されるのは、違法マイクロコード命令でバス
競合が起こるのを防止するマイクロコードをロードする
ときである。
FPリセット:このビットはクリアされると、FPを安
全状態に置くので、すべてのバスは3状態になる。これ
が主に使用されるのは、違法マイクロツー1−命令でハ
ス競合が起こるのを防止するマイクロコートをロートす
るときである。
VME FIFOリセット このビットはクリアされる
と、VMEデータFIFDを空の状態にセットする。
データ・バイブFIFO: このビットはクリアされる
と、データ・バイブFIFOを空の状態にセットする。
GIP FIFOリセット:このビットはクリアされる
と、 GIPインタフェースFIFOを空の状態にセッ
トして、GIPインタフェースを初期設定する。
自走クロック、このビットはCPとDTPマイクロコー
ド・クロックを制御し、クロックを自走または停止させ
る。クロックが停止されたときは、ホストから1ステツ
プ進めることが可能である。
クロック・ディスエーブル、このビットはバイブライン
・レジスタに対するクロックを除き、CPとDTPのす
べてのマイクロコード・クロックをディスエーブルする
。これが必要になるのは、例えば中断点を設定するとき
CPまたはDTPの状態を壊さないでマイクロコードが
読み書きされるようにするためである。
自走IPクロック°このビットはFPマイクロコトーク
ロックを制御し、クロックを自走または停止させる。
FIFOアクセス このビットはVMEデータFIFO
へのアクセスを制御する。通常のオプションは内部DM
Aコントローラに排他的アクセス権と制御権をもたせる
が、診断時またはVMEスレーブのみ環境では、ホスト
がこのビットをセットすることでこれらのFIFOの制
御権を受は取ることができる。
マイクロコード・ループ:このビットはテストをマイク
ロコード・レベルで繰り返すために診断機能だけが使用
する。
ストローブ・バッファ ホストはストローブ・バッファを使用して、サブシステ
ムを縁またはパルス面から制御する。ストローブ・バッ
ファに書き込みが行なわれる場合は、セットされている
すべてのビットについて対応するストローブ線にパルス
が現れる。この自動ストロービングにより、ホストはス
トローブ線のセントとリセットによるストローブ線の切
替えから解放される。この操作は書込みモートのときだ
け使用される。ホストがこのバッファを読み取ると、あ
る種の代替状況情報がホストに送り返されることになる
ストローブ線には、次のものがある。
1ステツプ これは1サイクルの間にCPとDTPマイ
クロコート・クロックを1ステツプ進めるものである。
これは、ハードウェアがWC5を1ステツプを進めてロ
ードしたり、誘取りや変更するとき使用される。
FPパイプライン・クロツク二FPパイプライン・クロ
ック信号は、FPのwC5の内容を読み戻すときだけ直
列マイクロコード・ループ制御の一部として使用される
。FP内の実行時バイブライン・クロックは通常FPマ
イクロコード・クロックと同じである。
cp wcs書込みイネーブル:この信号はCPマイク
ロアドレス・レジスタに指定されているアドレスから直
列ループに以前にロードされたデータでFPのWGS 
410に書込みを行なう。CPマイクロアドレス・レジ
スタか使用されることに注意されたい。
WGS 470への書込みはロートWCSマスクによっ
て修飾されるので、選択されたFPたけのWGSが更新
される。
CPデバッグ割込み このストローブはCPに割込みを
引き起すものである。これは、DTPをデバッグ・モニ
タに戻すためにマイクロコート・デバッグ・モニタによ
ってイ吏用される。
DTP割込み:このストローブはDT[’に割込みを引
き起すものである。これは、コマンドがそのコマンド待
ち行列にロートされたことをDTPに通知するために装
置トライバによ)て使用される。
状況レジスタ 状況レジスタは読取専用であり、主にホストがVMEデ
ータFIFOをアクセスできるときにホストにVMEデ
ータFIFOを判断させるために使用される。
状況ビットには次のものがある。
VME出力FIFO状況 このFIFOから出される状
況ビットには、満杯、半満杯、空の3つがある。これら
の状況ヒツトは、ホストかそこから言先取りを行なうF
IFDに列するものである(そのアクセスか可能である
場合)。
VME入力FIFO状況、このFIFOから出される状
況ビットには、満杯、半満杯、空の3つがある。これら
の状況ヒツトは、ホストかそこに書込みを行なうFIF
Oに対するものである(そのアクセスか可能である場合
)。
HERE  こノ状況ヒツトはFPモジュールか存在す
るかどうかをホストに判断させるものである。これを行
なうには、各モジュールのアドレスをWC5制御レジス
タ1に書き込み、この状況ビットをテストする。そのア
ドレスにモジュールかあれは、この状況ビットはクリア
され、モジュールがなければ、セットされる。
WCS制御レジスタ WCSインタフェースは2つのレジスタを使用して制御
される。最初のレジスタはCP、DTP内およびFPモ
モジュール上ある各種マイクロコート・メモリの読み書
きを制御する。これらの信号の機能と用法の詳細はマイ
クロツー)−・ローディングの個所で説明されている。
このレジスタにおける制御信号には次のものかある。
直列ループ出力信号、これは3ビツト・フィールドの最
上位ビットであり、直列ループの並列通路のどのブラン
チを戻り路として働かせるかを選択するものである。こ
のフィールドの他の2ビツトはWC5制御レジスタ1に
ある。
FP WC5出カイネーブル このビット出力は、通常
のマイクロコード実行とマイクロコード読み戻し時にイ
ネーブルにする必要があるが、マイクロコードのロード
時にディスエーブルする必要があるデータをイネーブル
してFPマイクロコード・メモリから取り出すものであ
る。
F’Pバイブライン出力出力イネーブル二連好適実施例
、FP WGS 470はマイクロコード・ローディン
グを最適化するために2つのバンクに分割されている(
下達する)。この18号はこれらの2バンクの出力との
インタフェースとなるバイブライン・36 ル シスタ476を制御する。
FP WCSモート これは直列ループ モートを制御
し、ループを回ってデータをシフトさせるか、WGSと
の間でデータを転送するかを選択する。
CPとDTPバイブライン・レジスタ出力イネーブル 
これはマイクロコート命令をディスエーブルして、すへ
てのビットを高レベルにするときだけ使用される。
cp wcs出カイカイネーブルのビット出力は通常の
マイクロコード実行とマイクロコート読み戻し時にイネ
ーブルにする必要があるか、マイクロコートのローディ
ング時にディスエーブルする必要のあるデータをイネー
ブルしてCPマイクロコート・メモリから取り出すもの
である。類似の信号はDTP W(:5320の出力イ
ネーブルを制御する。
cp wcsモード:これは直列ループを制御し、ルブ
を回ってデータをシフトさせるか、WGSとの間でデー
タを転送するかを選択する。
DTP WCSモード・これは直列ループを制御l)、
ループを回ってデータをシフトさせるか、WGSとの間
でデータを転送するかを選択する。
CPマイクロコート選択:これはCPのシーケンサにそ
のアドレス・ハスを3状!μにさせて、その代わりにC
Pマイクロアドレス・レジスタをイネーブルしてハスを
駆動させるものである。
FPマイクロアドレス選択・これはFPのwCsのアド
レス・ソースとしてCPマイクロアドレス・ハスを使用
させるものである。通常、CPマイクロアドレス選択は
、ホストがマイクロコード・アドレスをCPに、従って
FPに送るようにセットアツプされている。
FP WC5選択: FP wCsは並列ロート機能で
はデータ経路指定が必要になるので、読取り時は2半分
として扱う必要がある。このビットは下位64ビツトか
上位40ビツトを選択する。
直列ループ復帰選択(2):直列ループ戻り路は4つの
ソースの1つから選択できる。(これはwCsの内容が
直列ループを通して読取られるときそのソースを選択す
るようにセットアツプされていなければならない。)ソ
ースとなり得るものには、CP内部(ヘ−ス・ホードた
けにある)、cp外部(ベース・ポートとFPモジュー
ルにある)、DTP、およびFPがある。
直列ループ・モート(2):こわらのビットはブタがW
CSデータ・レジスタから読み書きされるとき直列ルー
プをどのように振る舞わさせるかを制御する。オプショ
ンには、データ保留、データ・シフト、データ・パルス
がある。これらの効果については、直列マイクロコート
・ロー1〜の個所で説明されている。
他方のレジスタはFPモモジュール上マイクロコートを
ロートし、読み取ることを制御するフィールドを保持す
る。これを制御するフィールドには次の2つがある。
WCSロート・マスク、このマスクの各ビットはマイク
ロコードを対応するモジュールにロートすることをイネ
ーブルする。ビットはいくつでもセットできるので、類
似のモジュールに同しマイクロコードを並列にロートす
ることが可能である。
直列ループ出力イネーブル・これらの残りのビソトはW
C5制御レジスタ0にある3番目のヒノl〜と一緒に使
用されて、モジュールのとれに直列ルブのCP外部戻り
路とFP戻り路を駆動させるかを選択する。
WCSデータ・レジスタ WCSデータ・レジスタは直列ループ、従ってマイクロ
コード・メモリをアクセスするときホストか読み書きす
るレジスタである。マイクロコードのローディングを効
率化するために、このレジスタはWC5制御レジスタ0
内の直列ループ・モート・フィールドがどのようにセッ
トアツプされているかに応じて異なった振舞い方をする
直列ループ・モードが「保持」にセットされている場合
は、このレジスタは他のレジスタと同しように読み書き
される。
直列ループ・モードが「シフト」にセットされている場
合は、WCSデータ・レジスタに対し読み書き操作が行
なわれるたびに、レジスタは16桁だけシフトされ、書
き込まれたデータが直列ループに挿入されると共に、ル
ープ内の「最後の1語がデーターレジスタにロートされ
る。
直列ループ・モー1〜か「パルス」にセットされている
場合は、レジスタは他のレジスタと同しように読み書き
されるか、書込み操作が行なわれると、ある種の制御信
号が自動的に発生されて直列ループを制御する。
CPマイクロアドレス・レジスタ このレジスタはCPまたはFPモジュールのマイクロコ
ート・ロート時にマイクロコード・ロード制御ロジック
610によフて駆動されて、CPマイクロコート・アド
レス・バス211B上に送出されるデータを保持する。
CPマイクロアドレス選択ビットがWC5制御レジスタ
Oにセットされている場合は、このレジスタを読み取る
と、そこに最後に書き込まれたデータが返却される。そ
うでない場合は、CPのシーケンサが出力中のアドレス
の非同期スナップショットが返却される。
DTPマイクロアドレス・レジスタ このレジスタはDTPモジュールのマイクロコト・ロー
ト時にマイクロコード・ロート制御ロジツク610によ
って駆動されて、DTPマイクロコ1−・アドレス・ハ
ス3118土に送出されるデータを保持する。DTPマ
イクロア1〜レス選択ビットがwC5制御レジスタOに
セットされている場合は、このレジスタを読み取ると、
そこに最後に書き込まれたデータが返却される。そうで
ない場合は、DTPのシーケンサが出力中のアドレスの
非同期スナップショットが返却される。
(以下余白) データ・バイブ−インタフェース・ロジック+50デー
タ・バイブ概念は複数の個別サブシステムを各種のトポ
ロジ形状に結合させるものである。
この結合は「データ・バイブ」と呼ばれる複数の局所バ
スを使用して行なわれる。また、この結合はバックプレ
ーンから独立しているので、相互に離して結合すること
が可能である。
本好適実施例では、各データ・バイブ局所バスは32ビ
ウト幅で毎秒40MBの転送することをサポートし、受
取側はFIFOでバッファリングされる。各サブシステ
ムは2つの入力バイブと1つの出力バイブをもっている
。出力バイブは個別クロックをもっているので、2人カ
バイブにデーシイ接続されているときは、データは各入
力バイブに個別的にも、まとめても送ることができる。
データ・バイブ・インタフェース150は第7図に示さ
れている。データ・バイブ出力ポートは32ビット幅で
ある。このポートは別の高速化ボード4140上のデー
タ・バイブ・インタフェースの入力ポート(710また
は720)に(またはある種のタイプの別の装置上のデ
ータ・バイブ・インタフェースに)接続することが可能
である。データ・バイブの受取り側はFIFOでバッフ
ァされている(FIFO740または750を使用して
)ので、出力側731は電気的にデータをバッファする
だけである。2つのストローブ760が用意されている
ので、一方のデータ・バイブ・インタフェースが他の2
つのサブシステムに書ぎ込むことができるようになって
いる。受取り側サブシステムでデータ・オーバランが起
こるのを防止するために、受取り側システムからのFI
FO満杯フラグ770を送り側サブシテムが使用してモ
ニタリングができる。2つの入力PIFO740と75
0が2つの入力ポードア10と720にあるので、2つ
のサブシステムは1つのサブシステムにデータを送るこ
とができる。
FIFO出カイ出御イネーブルPマイクロコード内のT
Dリソースフィールドによって制御され、出力ストロー
ブはTD宛先フィールドによって制御される。入力FI
FO状況信号780は条件コード・ロジックでテストす
ることできるが、割込みを引き起すこともある。
このインタフェース構成を使用すると、複数のサブシス
テムを局所バスで各種トポロジ形状に結合することがで
きる。このようにサブシステムを柔軟に再構成できるこ
とは、アプリケーション向きマイクロスコピック・デー
タ転送アーキテクチャを多くのアプリケーションで使用
すると大きな利点が得られるので、第1図に示すサブシ
テムの場合に特に有利である。トポロジ形状のいくつか
の例が第34.35.36.37図に示されている。
ある種のアルゴリズムやアプリケーションでは、複数の
サブシステムを並列またはバイブライン構成にすると、
計算作業負荷を分散できる利点が得られる。例えば、高
性能3次元図形ワークステーション構成の1例が第36
図に示されている。
複数のサブシステムをデーシイ構成で結合すると(第3
7図に図示)、データを共用することができ、その場合
、「マスタ」サブシステム4150Aは例えばホスト・
メモリからデータを人手し、それをデータ・バイブ結合
を通して他のすべてのサブシステム4150B、1l1
50c、4150Dと共用することができる。この結果
、各サブシステムが独自のコピーをもつのではなく、1
つのサブシステムだけがデータを取り出すことになるの
で、ポスト・バス4110のバント幅が節約される。
データ・パイプはリングに結合すれば(第35図)、ケ
ンブリッジ・リングと同じような設計構造のトークン・
パッシング・ネットワークを効果的に構築することが可
能である。
データ・パイプ経由で送られるデータの内容と意味はソ
フトウェアで制御されるが、通常はメツセージ・パケッ
トにするのが普通である。
データ・パイプはシステム間通信用に設計されているが
、これらは他の周辺装置と結ぶことも可能である。持続
入出力速度は毎秒40MBであるが、バースト入力速度
はもっと高速である。バースト入力速度は配線の電気的
特性によって制限されるが、データ・パイプ入力が1つ
のときは、毎秒160MB  (両方の入力が並列化し
ているときは、適当?、I−バッファ・カードを使用す
れば最高320MB *て)にすることが可能である。
このインタフェース機能の主要な利点は、使用できるサ
ブシステム相互接続トポロジが多様化していることであ
る。従って、特にI1目すべきことは、図示の構成例は
大幅な柔軟性が得られることをボしている。
画像プロセッサ・インタフェース170このインタフェ
ースはアプリケーション向きバスとの接続を可能にする
。本好適実施例では、このバスは図形と画像データ向け
に特に最適化されている画像プロセッサと結ばれる。ま
た、本好適実施例では、この画像バスはrGISバス」
であり、このバスは16o木のデータ線からなり、デー
タ・クロック期間が120−200nsで動作する。(
従って、このインタフェース・ロジックは本明細書の各
所でr GIPインタフェース」と呼ばれている。)し
かし、他の画像データ・バス標準(好ましさの点で劣る
が)を使用することも可能である。別の方法−として、
データ転送要求条件(地震測定や実時間システムなど)
が特殊なアプリケ−ジョンの場合には、他のアプリケー
ション向きハスを使用することも可能である。
GIPインタフェースを通して、GIP とサブシステ
ムはデータとコマンドを相互に受渡しすることができる
。このインタフェースは第8図にブロック図で示されて
いる。
GIPとサブシステム間の連絡はすべて16ビツト幅両
方向PIFO810を通して渡される。FIFOの一方
の側はDTPマイクロコードによって、他側はGIPマ
イクロコードによって制御される。GIPインタフェー
スはマイクロコード拡張ポート・インタフェースを備え
ているので、GIPは実際には、サブシステムに常駐し
ているマイクロコード(8ビツト)を実行する。GIP
マイクロコード拡張バスは前述したDTPマイクロコー
ド拡張インタフェースと同じである。
GJPインタフェースは、 GIP図形プロセッサがあ
る種の分散マイクロコードをサブシステムで実行させる
ために必要なサービスを提供する。これらのサービスに
は、GIPマイクロコード・クロッり、GIPマイクロ
アドレスとデータ・ハス、割込みと状況信号、および拡
張GIPマイクロコートを直列にロートするだめの手段
がある。
GIPインタフェース内の周辺構成要素としては、WC
5830、両方向FIFO(片方向FIFOから構成)
および状況ロジック820と割込みロジック840があ
る。
常駐GIPマイクロコードにより、GIPは次のような
機能を実行することができる。
PIFO810からデータを読み書きすること。
状況ロジック820を通してFIFO状況信号をテスト
して、開コレクタ条件コード・インタフェース信号に基
づいて結果を駆動すること。
割込みロジック840によってGIPに割込みを弓き起
す条件をセットアツプすること(例えば、FIFOが満
杯または空になったとき)。
DTPに割込みを引き起すこと。
DTP側からは、FIFOは32ビット幅でなく16ビ
ツト幅である場合を除き、他のFIFOのいずれかであ
るように見える。
連絡か行なわれるときの形式と、高速化サブシステムま
たはGIPかマスタ装置であるかどうかの詳細はずへて
2プロセツサで稼動するマイクロコトによって決定され
る。3次元ワークステジョン環境では、第36図に示す
ように、ホストをマスクに、サブシステムをスレーブに
、数値高速化サブシステムをその中間にする階層が好ま
しい。
直列ループ・インタフェース 第1図(および他の図)に示す同時並行多重プロセッサ
・システムがもつ利点の1つは、3またはそれ以上のプ
ロセッサの書込み可能制御記憶機構(WO2)が直列ル
ープ・インタフェースを介して結ばれていることである
。本好適実施例によるこのループのトポロジ構造は第2
8図に示されている(第2A、3A、4C1および6図
に225で示されている線は、第28図では中断されて
、1つの出力線225Aと4つの帰還線225B、22
5C1225D、225Eが示されている)。
直列ループと結ぶインタフェースの実装構成は各種プロ
セッサを個別に取り上げて、またVMEインタフェース
と関連つりで上述した通りである。
しかし、これらの機能のいくつかを再ひここて検討し直
して、直列ループの高度アーキテクチャを直列ループ・
インタフェースを通してホストは制御記憶機構のすべて
をアクセスしてデータを取り出すことができる。このル
ープの正味ハント幅を最大にするために、各個のwcs
 (wcs拡張部分490を含む)は直列/並列シャド
ウ・レジスタのバンクを通して直列ループとのインタフ
ェースとなっている。
FP WO2470とのインタフェースとなるシャドウ
・レジスタは第29図と第4C図にレジスタ481Aと
481Bでボされている。CP WO2220とのイン
タフェースとなるシャドウ・レジスタは第2A図にレジ
スタ222 と223テ示さレテイル。DJP WO2
320とのインタフェースとなるシャドウ・レジスタは
第3A図にレジスタ322 と323で示されている。
CPWC5拡張部分490とのインタフェースとなるレ
ジスタは第4八図にCP拡張部分の一部として全体か示
されているが、個別には示されていない。
これらのレジスタの各々は命令をそれぞれの制御記憶機
構にロートしたり、命令ストリームを小刻みにクロック
をとったり、あるいは単純に命令ストリームを可能な限
り高速にクロックをとったりすることができる。従って
、この線のバント幅は効率よく使用され、最小限の命令
だけで特定プロセッサの制御記憶機構をアクセスするこ
とかできる。
ループ制御 本好適実施例では、直列ループの制御と経路指定のため
の機能がいくつか追加されているので、幅広い構成と拡
張オプションに適応させることができる。
本好適実施例では、各サブシステムはマイクロコード・
サブシステムを最高6つまで(制御プロセッサ1つ、デ
ータ転送プロセッサ1つ、浮動小数点プロセッサまたは
アルゴリズム高速化プロセッサ4つまで)をもつことで
きる。これらのプロセッサの各々は独自のWO2をもっ
ている。各WLSはマイクロコートのアップロートのと
きは書込みを行い、診断、中断点設定などのときは読み
取らなけれはならない。
この機能を利用できるようにする主な機能には、次のも
のがある。
帰還マルチプレクサ、これは2つの内部ソース(制御プ
ロセッサとデータ転送プロセッサ)からと、2つの外部
「帰還バス」 (制御プロセッサの拡張部分と複数の浮
動小数点プロセッサのマイクロコードに対する)からの
直列ループを収集する。
制御プロセッサと浮動小数点プロセッサのマイクロコー
トが置かれている浮動小数点プロセッサ・モジュールか
らの直列ループを収集する帰還直列バス。帰還ループ・
アドレスはどちらのモジュルに直列帰還バスを駆動させ
るかを選択する。
各浮動小数点プロセッサ・モジュールはマイクロコード
・ロード・イネーブル・ビットをもっているので、モジ
ュールを任意に組み合せて同時にロー1・することかで
きる。
データ転送プロセンサの直列ルーフ拡張部分はジャンパ
とワイヤのリンクによって制御される。
この構成によると、直列ループを回ってデータを転送し
て、WCSにハックロートするプロトコルが非常に複雑
になる。この種のプロトコルはソフトウェアで実行され
るのが通常である。本好適実施例ては、これらのプロト
コルのうち時間のかかる部分はハードウェアに実装され
ているので、マイクロコートのダウンロートが大幅に高
速化する。別の利点として、ソフトウェアのオーバヘッ
トも軽減される。
本好適実施例では、ホストはマイクロコートを1語ずつ
データ・レジスタに書き込む(または読み取る)。(本
実施例では、データ・レジスタは2つの汎用シフト・レ
ジスタから作られている。
直列ループの残り部分はADM社製のAm29818な
どの直列シャドウ・レジスタを使用している。)あらか
じめ選択された直列モートによって、次の3つのいずれ
かが行なわれる。
「保持jモートか選択された場合は、データ転送はメモ
リへの転送と同しように行なわれる。
「シフト」モートが選択された場合は、読取りまたは書
込みサイクルか終ると直ちに、データが直列ループの中
に(または外から)シフトされる。これか行なわれてい
る間は、使用中信号によって、ホストによるデータ・レ
ジスタへの追加アクセスが先に延はされることになる。
「パルス」モードが選択された場合は、書込みアクセス
が終った約500ns後に、直列データ・クロック・パ
ルスか発生して、シャドウ・レジスタが必要とするモー
トにセットされる。
ループ・トポロジ 第28図は直列ループの大規模接続関係を示したもので
ある。
信号出力線225AはVMEインタフェース160にあ
るマイクロコード・ロード・ロジック510によって駆
動される。(これは1木の物理線だけにする必要はなく
、例えば、4ビット幅バスのようなバスにすることも可
能である。)この線は3つの書込み可能制御記憶機構2
20.320  および470の各々の周辺にあるシャ
トつ・レジスタの各々に適用される。(cp wcs拡
張部分490は出力線225Aに直結されないで、−次
WC5220の下流側の線225Cに接続されているこ
とに注意されたい。)4木の帰還線が設けられているが
、これらはマルチプレクサ2701によって選択か可能
である。これらの帰還線は主にデバッグのとき使用され
る。
「スネーキングJ (snaking)か殆どないこと
に注意されたい。つまり、一方のWCS側の直列シャド
ウ・レジスタの直列出力が他方のWCSのインタフェー
スへの入力として使用されるケースは2つしかない。こ
れらのどちらのケースの場合も、直列ループの下流側に
あるWCSは事実上上流側WCSの拡張部分である。つ
まり、独立プロセッサを直列ループ内に直列接続するこ
とは回避されている。これの利点は、異種プロセッサ・
モジュールに対する独立マイクロコート・プログラムを
1つに結合する必要がないことである。この結果、プロ
グラマは上述したアルゴリズムの分割をフルに利用する
ことかできる。また、これはローディングを高速化する
上で役立つ。さらに、幅と奥行か異なるWCSを目標と
したプログラムをマージするときにも問題か起こらない
ループ・トポロジの並行性の利点は、並行ロードか簡単
に行なえることである。例えば、共通のマイクロコート
列をFPモジュール130の各々にロートしようとする
場合は、FPモジュールのすべてにあるシャドウ・レジ
スタのすべてを同時にイネプルさせることができるので
、各々は線225へ上の直列データとバス211B上の
マイクロアドレスに従ってロードされることになる。
第28図から明らかなように、ループ・トポロジは複数
の並列分岐を備えている。
cpgl:出力線255はCP−次WC5220側シヤ
ドウ・レジスタ・インタフェースへの入力となるもので
ある。シャドウ・レジスタ・インタフェースからCF’
 WCS 220 (線225C)への帰還はマルチプ
レクサ2710にフィードバックされる。
CP拡張部分サブブランチ: CP WCS 220と
のインタフエースの下7ん側には、cp wcs拡張部
分490のすへてにあるシャドウ・レジスタ・インタフ
ニスへの入力となる帰還線225Cも設けられている。
シャドウ・レジスタ・インタフェースからWC5拡張部
分490への帰還はすべて帰還線225Dに結ばれてい
るので、マルチプレクサ271Oにフィードバックされ
る。(帰還は並列に接続されているので、直列出力コマ
ンドは個々のモジュール・アドレスで修飾すれば、帰還
線225D上の競合が防止される。) DTP分岐・出力線225はDTP WO2320にあ
るシャドウ・レジスタ・インタフェースに直列入力を送
るようにも接続されている。シャドウ・レジスタ・イン
タフェースからWO232G(線225B)への帰還は
マルチプレクサ2710にフィードバックされる。
DTP拡張部 サブブランチ: DTP WO2320
とのインタフェースの下流側には、帰還線225Bがオ
フボード出力として利用できるようになっている。
この接続は必要ならばユーザが開発してDTP拡張ロジ
ックを得ることができる。かかるロジックの動作は以下
に訂しく説明する。
江光舷 出力線225は数値プロセッサ・モジュール+
30または130”の各々にあるWO2470例のシャ
ドウ・レジスタ・インタフェースへの直列入力としても
使用できる。シャドウ・レジスタ・インタフェースから
の帰還はすへて線225Eに結ばれているので、マルチ
プレクサ2710にフィードバックされる。(帰還は並
列に接続されているので、直列出力コマンドを個々のモ
ジュール・アドレスで修飾すれば、帰還線225Eでの
競合が防止される。) 第27図はマイクロコード・ローディング制御ロジック
610の構成要素の詳細図である。重要な構成要素の1
つはフリップフロップ2720であり、これは帰還直列
データを再同期化するものである。
WO2が分散されているときは、シフト・レジスタ・ク
ロックとシャドウ・レジスタのDクロック間のクロック
・スキューを制御することは、直列ループ構成が多種類
であるので、非常に困難である。このフリップフロップ
が含まれていると、フリップフロップかクロック・スキ
ューの制御を担当する(スキューが制御ロジックを駆動
する基本クロック期間を越えない限り)。ステート・マ
シン2740はホストからデコード化信号を受けるとD
クロック出力を発生する。
ホストとのループ・インタフェース 第6図と第27図に関連させて上述したように、マイク
ロコード・ローディング制御ロジック610は直列ルー
プ225上のデータを読み書きできる。
また、CPとDTPマイクロアドレス・バス211Bと
311Bに対しても読み書きができる。
DTPマイクロコード拡張ループ 本好適実施例によれば、オフボードで拡張して別の直列
インタフェース・ループを構築することもできる。この
ループとの接続は第28図に2840で示されている。
任意的に、DTPモジュール120はcp wcs拡張
部分490と同じようなりTP W(:S拡張部分を追
加の構成要素に組み入れることによって、オフボードで
拡張することか可能である。これらのWC5拡張部分か
らは、DTPマイクロアドレス・バス3118で選択さ
れたマイクロ命令出力が得られる。これらのDTP拡張
部分の制御は、DTP拡張部分が比較的高範囲にわたる
環境で使用されることがあるので、CP拡張ロジックよ
りも若干ゆるくするのが好ましい。DTP拡張ロジック
は密結合高速入出力装置で利用されることを目的として
いる。
この拡張オプションが使用される場合は、DTP拡張部
分(いずれかが使用される場合)はすべてDTP自身と
直列になっている。これは競合を防止するためである。
並 マイクロコード・ローディング 上述したように、本好適実施例では、マイクロコードは
2通りの方法で浮動小数点プロセッサにロードされる。
1つはホストの制御の下で直列ループによる方法であり
、もう1つは制御プロセッサの制御の下で並列に行なう
方法である。マイクロコードの並列ローディングは、浮
動小数点プロセッサで使用できる書込み可能制御記憶機
構じWO2“)の数に制限かあるので(4Kまたは16
に命令)、好都合である。浮動小数、占プロセッサのル
チンか多ずきて、−度にWO2に収まらないときは、あ
る種のオーバレイ手法が必要になる。直列ループを使用
してオーバレイをロートすることはホストか命令をロー
トてきる速度か遅いので(ディスクへのアクセスによっ
て、100m5から3m5)、実用的でない。
本好適実施例によって提供される並列ロート機能は広幅
データ・キャッシュ・メモリを使用してマイクロコード
命令全体(現在は1011ビツト)を保管しておき、そ
れを1サイクルで浮動小数点プロセッサ書込み保持レジ
スタに転送する。そのあと、これは通常の出力ポートを
通って、直列ローディングで使用される診断シスト・レ
ジスタ(例AMD 29818)に転送される。これら
の装置には、マイクロコード・ビットをパイプライン化
する出力ポート(これは必要ならば、入力ポートとして
も使用できる)を備えている。しかし、本好適実施例で
は、この機能は遅すぎるので使用されない。
チノフの多くはマイクロコー1−をなんらかの方法で内
部レジスタに格納している。)このことは、上述した並
列ロートのルートが直列並列レジスタがもつこの機能を
使用しても、速度や機能が犠牲にならないことを意味す
る。並列ロート時間は命令当たり約500nsであり、
これは直列ロード時間よりも大幅に向上している。
もう1つの重要な点は、浮動小数点プロセッサでマイク
ロコートをオーバレイすることがホストによる監視を必
要としてないで、完全に制御プロセッサによフて制御さ
れることである。逆に、マイクロコード・オーバレイが
まだデータ・キャッシュ・メモリに存在しない場合は、
制御プロセッサはデータ転送プロセッサがホスト・メモ
リに8って、そこからそれを取り出すように指示するこ
とができる。
本好適実施例では、各サブシステムはマイクロコード・
プロセッサを最高6つまでもつことができる(制御プロ
セッサ1つ、データ転送プロセッサ1つ、浮動小数点プ
ロセッサまたはアルゴリズム高速化プロセッサ4つまで
)。これらのプロセッサの各々は独自のWO2をもって
いる。各Wcsはマイクロコートをアップロートすると
きは、書込みを行ない、診断や中断点を設定するときは
、そこから読取りを行なう必要がある。
(以下余白) モジュール拡張オプション すてに上のいくつかの個所で説明したように、第1図に
図示のシステムをモジュール単位で拡張するためのオプ
ションがいくつか用意されている。以下では、これらの
オプションのいくつかを要約することにする。
キャッシュ・バス144に接続できるモジュールは次の
2種類がある。
算術演算処理型。これの代表例として、浮動小数点プロ
セッサ・モジュール130とアルゴリズムまたはアプリ
ケーション高速化機構130“がある。
高速データ(H2O)モジュール。これはデータ・キャ
ッシュ・メモリl互貝高速人出カチャネルを拡張するた
めに使用されるのが代表例である。このメモリを拡張す
る方法は、DTPマイクロコード拡張バス2824を通
して高速化サブシステムとのインタフェースとなる大容
量メモリ・サブシステムを使用することとは全く異なる
。H5D法はデータ・キャッシュ・メモリ140と同じ
バンド幅をサポートするが、大容量メモリ・サブシステ
ムはどの容量は得られない。
多重モジュール構成にすると、浮動小哉声プロセッサ・
モジュール+30型のモジュールを4つまで、H5Dモ
ジュールを2つまで使用できる。これらの数字はアーキ
テクチャに制約要因があるからではなく、機械的および
電気的理由から選択されたものである。
FP 130モジユールはモジュール選択ビットによっ
て選択される。これらは通常制御プロセッサ・モジュー
ル110の制御下に置かれるか、VMEインタフェース
はこれらのビットを無視することができる。これが使用
されるのは、マイクロコートをダウンロードするときや
デバッグを行なうときだけである。モジュール選択ビッ
トはリセット(これはリセット信号で制御される)を除
き、モジュールの動作をすべての面で制御する。
H5Dモジュールはデータ・キャッシュ・アドレス・バ
スをデコートすることによって選択される。
モジュール接続 モジュールとの接続についてU下要約して説明する。接
続を論理図域別に分類して挙げて、2 f!T!類のモ
ジュールのどちらかこれらの接続を使用するかを示しで
ある。
接続は6個の96ウエイDINコネクタを使用して行な
われる。第40八図と第40B図は本好適実施例の物理
的接続構成を示したものである。
本好適実施例では、モジュール接続には次のようなもの
かある。
データ・キャッシュ転送用=256ビツト・ブタ、23
ビットDCMアドレス、8個の書込みイネーブル、保持
レジスタoEビット、遅延アクセス信号(例えは、低速
メモリを受は入れるためのクロック・サイクル延長のた
め)、および保持レジスタCMビット。
CPインタフェース用:3ビツト・アドレス、16ビツ
ト・データ、16ビツトCPシーケンサ・アドレス、C
Pマイクロコート・クロック、CPパイプライン・クロ
ック、CP書込みゲート・クロック、1つの割込み線、
および1つの条件コート。
マイクロコー]・のロ〜ディンク用 cp wcs出カ
イネーブル別の線、CPパイプライン出力イネーフル、
c’p wcs書込みイネーブル、cpモート、CP直
列データ・アウト、CP直列データ・イン、FP WC
5出カイネーブル、FPバイブライン出カイネーブル、
FPバイブライン・クロック、FP WCF4込みイネ
プル、FPモート、FPマイクロアドレス選択、FP上
位/下位WaS選択、FP直列データ・アウト、FP直
列イン、6個の直列クロック/WCSロート・マスク信
号、および3ビット直列ループ帰還選択。
汎用目的用−モジュール選択の3ビツト、リセット、シ
ングル・ステップ、自走、FP中断点、マイクロコード
・ループ、FPリセット、HERE用の制御信号。
DC線用: +5V電源線21木、−5V電源線6木、
接地!lA’ 161本。
どのタイプのモジュールもすべての信号をアクセスする
ことができる。
多重数値処理モジュール 第1θ図に示すように、各種実施例のうちある非富に有
用な実施例では、複数の数値処理モシュル130が使用
されている。この実施例では、モジュール130はずへ
て制御プロセッサ・モジュール110による高度の監視
下に置かれている。CPモジュール+10は高度の監視
タスクを実行するたけでなく、数値プロセッサ・モジュ
ール+30との間で行なわれるすべてのデータ転送を直
接に制御する。数値プロセッサ・モジュール130はす
へてキャッシュ・バス144 と並列に結はれている。
数値プロセッサーモジュール130の各々は上述したよ
うに、CP拡張ロジック410を備えている。データ転
送プロセッサ・モジュール120は上述したように、キ
ャッシュ140と外部との間のデータ転送を管理するも
のである。
データ・キャッシュ・メモリ140と数値プロセッサ・
モジュール130または130°間は高メモリ・バンド
幅で結ばれているので、多くの場合、複数のモジュール
を並列に稼動できるので、データ欠乏が起こることはな
い。
el (atプロセッサ・モジュールをいくつ使用して
稼動させることかできるかは、アプリケーションやアル
ゴリズムかどのような混成になっているかよる所か大き
い。本好適実施例では、4っまてに制限されている。こ
の制限を設けたのは、主に電気的および機械的理由によ
るものである。しかし、メモリ・バンド幅すへてか使用
されていれば、浮動小数点プロセッサ・モジュールの数
を増やしても利点は得られない。
数値プロセッサは独立に稼動するので、モジュール・イ
ンタフェースに、浮動小数点プロセッサ同士の同期また
はデータ交換のためのプロトコルを含める必要はない。
この結果、仲裁の必要がなくなるので、インタフェース
が非常に単純化される。
命令書込みバスは数値またはアプリケーション向きプロ
セッサ(またはその両方)で共用させるのが好ましい。
また、最上位アドレス・ビットは数値またはアプリケー
ション向きプロセッサ(またはその両方)のいずれかが
個別的にアドレス指定されるように、あるいはこれらの
ブロサッサのずへてが一緒に7トレス指定されるように
、あるいはこれらのプロセンサ群の一部(全部でなく)
が−緒にアドレス指定されるように、ロジックに従って
判断させるのが好ましい。
つまり、複数の浮動小数点プロセッサを制御するには、
アルゴリズムを存在する浮動小数点のいずれかで稼動す
ること、あるいはその一部が存在する浮動小数点プロセ
ッサの一部または全部で稼動することがあり得ることを
考慮に入れる必要がある。このためには、制御プロセッ
サと浮動小数点プロセッサとの長期的または短期的な関
係を明確化する必要がある。制御プロセッサはどの浮動
小数点プロセッサを制御すべきか、あるいはどの浮動小
数点プロセッサとの間でデータを転送すべきかをサイク
ル単位で選択することができる。長期的関係の場合は、
これはもっと大局的に定義することも可能である。
本好適実施例では、これはどの浮動小数点プロセッサを
使用すべきかを定義する制御メカニズムをサイクル単位
で選択するマイクロコート・ピッ1−を使用することに
よって達成される。この制御メカニズムは他のマイクロ
コート ヒツトを使用することも、レジスタの内容(こ
れはマイクロコートによって事前にロートされている)
を使用することも可能である。マイクロコート命令フィ
ー)Qド内のビットを使用して短期(つまり、サイクル
単位)の定義を行ない、レジスタで長期使用を定義する
ことができる。
これらの2モードの使用例を示すと、次の通りである。
短期−4つの浮動小数点プロセッサでFFTを行なうと
きは、制御プロセッサは1つの浮動小数点プロセッサに
数サイクルを使用して、次のバタフライのデータをロー
ドし、以前のバタフライの結果を収集してから、別のバ
タフライを扱う次の浮動小数点プロセッサに移ることに
なる。
長期−ベクトル加算を行なうときは、使用すべき浮動小
数点プロセッサはベクトル加算ルーチン(制御プロセッ
サにある)が呼び出される前に選択される。このことは
、制御プロセッサはこの計算にとの浮動小数点プロセッ
サ(またはどのタイプの浮動小数、市プロセッサ)を使
用すへぎかを知らなくてもよいことを意味する。
第23図はモジュール・アドレスがどのようにデコード
されるかを図式化して示した、ものである。
このデコートが実際にはどうような方法で行なわれるか
は、FPモジュール130と関連づけて上述した通りで
ある。
キャッシュ・メモリ拡張 上述したように、大容量の拡張メモリをキャッシュ・バ
ス144に直接接続することが可能である。このことは
、物理的構成と使用されるデータ転送プロトコルの別の
利点となっている。この種の構造例は第43図に示され
ている。
物理的および電気的実装ポート 第38A図と第388図は本好適実施例の物理的レイア
ウトの主要特徴を示したものである。第38B図は子ポ
ートであり、第38八図の主ボードより小さくなってい
る。第388図は浮動小数点ブロツセサ・モジュール1
30のハードウェア(付属制御ブロセッサ拡張ロジック
を含む)である。M38A図はデータ転送プロセッサ1
20、制御プロセッサ110の主要部分、データ・キャ
ッシュ・メモリ140、コマンド・メモリ190、およ
びインタフェース150.160.170.180から
なる構成を示している。2つのボードが一緒になって、
第1図に示すような完全なシステムが得られる。
2つのボードは6個のコネクタ3810が同じパターン
になっている。これらのコネクタは雄型と雌型になって
いるので、追加のボードを積層することができる。例え
ば、第9図と第10図に示している構成は複数の浮動小
数点モジュール130またはアルゴリズム高速化モジュ
ール13o’ (またはその両方)を−緒に積層するこ
とによって得たものである(しかし、将来の改良に備え
て、これらの接続にバックブレーンを使用するとさらに
利点が得られる)。そうすれば、さらに都合のよい機械
的構成が得られる。
コネクタ3810はそれぞれ96ビン幅にするのが好ま
しい。そうすれば、キャッシュ・バス144の全幅がこ
れらのコネクタを通る場合であっても、十分なビン数を
予備として残しておくことができる。
データ・キャッシュ・メモリ140を拡張するための拡
張メモリも、このパターンのコネクタを使用して積層す
ることが可能である。上述したように、キャッシュ・バ
ス144上に追加の拡張メモリを接続すると、高バンド
幅チャネルを利用する非常に短時間のアクセス遅延の間
に比較的大きなメモリ空間が得られる。本好適実施例で
は、100ns以内に240MB/秒の速度で最高12
MBまでアクセスができる。
¥438八図はへ大の個別構成要素の位置を示すと共に
、他の区域における一部の機能の全体的割振りを示して
いる。本実施例で使用されているボードは3段高さのE
urocardである。VMEインタフェース・ロジッ
ク150は全体がボードの縁に置かれ、バックブレーン
のスタブ長さを最小にしている。(VMEインタフェー
ス規格は短長のスタブを規定している。) メモリ・バンク510は全体が図面の上方の左隅と右隅
にコネクタ381Oの近くに置かれている。コマンド・
メモリ190とVMEインタフェース・メ干り660も
この区域に置かれている。
ポート中央部の大部分はCP保持レジスタ560AとD
TP保持レジスタ560Bが占有している。
DTP とCP IPu 340と240、DTPとC
Pシーケンサ310と210、およびCPアドレス生成
機構230はすべて別々に示されている。
DTPモジュールの書込み制御記憶機構320は全体が
図面の左下付近のコネクタ3810の下方に示されてお
り、CPモジュールの書込み可能制御記憶機a220は
全体が右下付近のコネクタ38】Oの下方に示されてい
る。GIPインタフェース170、およびDTPマイク
ロコード拡張インタフェース18flは全体が左下隅に
示されている。(この区域には、部のDINコネクタ(
図示せず)が置かれており、このロジックを使用してサ
ポートできる物理的接続を提供している。)同様に、右
下隅には、データ・バイブ・インタフェース150だけ
でなく、その関連コネクタが搭載されている。
第38B図に示す子ポートはもっと小形である。
(第38八図と第38B図は同じ縮尺で作図されていな
い。) 保持レジスタ420は右上と左上に示されているコネク
タ3810間に置かれている。これらのレジスタの間に
は、ECL周辺3820があり、ここにECL部品(こ
れらの部品は大量の発熱を放出する傾向がある)が置か
れている。(本好適実施例では、ECL部品としては、
転送りロック発生機構412とFPマイクロコード・ク
ロック発生機構480がある。)これらの部品は隔離さ
れているので、TTLの雑音が雑音の少ないECL部品
に入り込むのを防止している。) 以上の説明から理解されるように、レジスタ・ファイル
430を作るために使用されるチップは、^LU 45
Gおよび乗算機構440と同様に大形である(本好適実
施例では、これらのチップの各々はピン格子パッケージ
に納められている。)FPモジュールのWC5470は
全体が図面の左中間部に置かれている。そのすぐ下に、
FPモジュールの次アドレス・ロジック477が置かれ
ている。FPモジュールの制御ロジックがスタックとし
ても使用できるスクラッチバット・メモリ160は物理
的に次アドレス・ロジック477に近接している。
CP拡張ロジックは子ポート130または130’の各
々の制御のためにCPマイクロコードを拡張するとき使
用されるものであるが、その大部分が図示のようにボー
ドの下縁に置かれている。特に、WCS拡張メモリ49
0は左下に示されている。
浮動小数点プロセッサ・モジュールを別々のサブボード
に分散して搭載させると特に好都合である。、(また、
複数の浮動小数点プロセッサ・モジュールが使用される
場合は、各プロセッサ・モジュール130をそれぞれの
独自のサブボード上に置いて隔離するとよい。)数値プ
ロセッサ・モジュール130は、高速ロジックがそこに
含まれているので雑音を発生しやすく、また、これらの
線と構成要素はECLレベルを使用するので、雑音の影
響を非常に受けやすい。
さらに、保持レジスタ420、局所転送ハス422、レ
ジスタ・ファイル430、転送りロック1112がすへ
てサブボード上に搭載されている。こうすると、最高周
波数線がすへて共通サブポート上で隔離されるので、利
点が得られる。高速ロジックの各部分をある程度隔離で
きるので、これは特に複数の数値プロセッサ・モジュー
ルを使用する実施例では有利である。
PAL実装 本好適実施例では、以下に挙げるPAL (プログラマ
ブル・ロジック・アレイ)が使用されている。
現在使用されているPALはすべてTTLである。大部
分は16および32シリーズからのものであるが、他に
もいくつかが使用されている。
しかし、当業者なら容易に理解されるように、他のPA
L実装を幅広く使用することも可能である。機能をハー
ドウェア・ブロックに分割することは変更可能であり、
ハードウェアで実装したある機能群を変更することも可
能である。PALに現在実装されている機能の多くはM
S10シック部品を使用して実装することも、ASIC
またはセミカスタム集積回路にブロックとして実装する
ことも、VLSIロジック・チップをプログラミングす
ることによフて実装することも可能である。しかし、こ
の実装をここで詳細に示したのは、米国特許法の規定に
従うように、本好適実施例の内容をすべて開示するため
である。
CP PAL 以下は、制御プロセッサ・モジュールII[lに使用さ
れている最も重要なPALのいくつかを筒車に説明した
ものである。
クロック波形生 PAL 250 このPALはCPとDTPによって使用されるタイミン
グ波形を生成する。上述したように、4つのクロックが
発生される。これらは各々4つの事前定義波形列の1つ
に従っている。4つの波形列は異なる期間、つまり、入
力クロック期間の4.5.6および7倍になっているこ
とが特徴である。これは、本好適実施例のように40 
MHzオシレータが使用されるとぎは、100.125
.150および!75nsに変換される。マイクロコー
ト・クロックとバイブラインークロックは同し波形をも
つが、マイクロコート・クロックはマイクロコードをロ
ートするときは、パイプライン・クロックを動作させた
ままにして禁止することが可能である。マイクロコード
・クロックは常に2サイクル(オシレータの)の問直で
あり、そのあと2.3.4またはサイクルの間低になる
(これらの選択はサイクル長入力によって行なわれる)
。サイクル長はCPから要求された最大長さ(2ビツト
)とDTPから要求された最大長さ(2ビツト)から選
択される。サイクル長はパイプライン・レジスタから駆
動されるので(非レジスタ設計にした方がよいが)、サ
イクル長は可能な限り最後の瞬時にサンプリングされて
、ループを回って伝播する最大時間が得られる。このタ
イミングは出力クロックが生成されたサイクルの直後の
サイクルで活動化するので、最初に現れるときよりも重
要である。
タイム2クロツクはマイクロコード・クロックが動作す
る周波数の2倍で動作し、その立上がり縁はマイクロコ
ー1〜・クロックの縁と同じ日前間に現れる。
書込みイネーブル・ゲート信号か低のときVMEインタ
フェース・メモリ660からの入力がサンフリングされ
る。この入力がメモリ使用中を示していた場合は、サイ
クル長はこの入力が変わるまで延長される。これにより
、メモリ・アクセス時間に余裕ができるので、アクセス
衝突、オフポート通信などによってアクセス時間を遅く
することができる。(この使用中信号は、PAL側から
見たときは、書込みゲートが低のとき余分のサイクルを
挿入したように見えるだけである。) クロックを自走させるか、1ステツプ進めるかの選択は
別の入力によって行なわれる。
CDバス・ソースPAL このPALはどのソースにCDバス112を駆動させ、
該当装置の出力イネーブル線を駆動させるかを選択する
CPマイクロコート・ビットをデコートするものである
。い、ずれかの16ビツト・ソースが選択されると(ア
ドレス生成機構230など)、このPALは符号/ゼロ
拡張PAL 2]6を活動化させる信号も出力する。リ
セット信号か活動しているときは、どのソースも選択さ
れない。
TDババス22のデータ・ソース・フィールドのデコー
トも同し種類のPALを使用して行なわれる。
TDババスソースを選択するPALも、それぞれの対応
するFIFO空状況侶号でFIFO読取りをケート操作
するロジックを備えているので、空のFIFOが読み取
られるのを防止する(FIFO内にエラーを起す原因に
なる) CDバス宛先PAL このPALはCOババス12上のデータの宛先を選択す
るCPマイクロコードをデコードして、該当装置の読取
りイネーブル線を駆動するものである。
TDババス22のデータ宛先ビットのデコートも同じ種
類のPALを用いて行なわれる。
ソースまたは宛先装置が駆動する必要のあるチップ・イ
ネーブル線をもりていると(例えば、VMEインタフェ
ース160やコマンド・メモリ190におけるメモリ)
、それぞれのチップ・イネーブル線か駆動される。
符号/ゼロ拡張PAL 21に のPALはイネーブル信号およびソース・データの高ビ
ットに応して、符号またはゼロ拡張機能を実行する。使
用するのが好ましいPALは8ビツト幅だけであるので
、すべての符号/ゼロ拡張操作にはこれらが対で使用さ
れる。このPALは2個所で使用されている。一方の対
(第2八図にブロック216で図示)はCDバス112
に、もう一方の対(第3A図にブロック316で図示)
はTDババス22につながっている。
バス・ソース・ロジックは、 16ビツト・ソースがア
クセスされるとき、イネーブル・ビットを符号/ゼロ拡
張ロジック216に送るものである。
第14A図と第14B図はこのPALの構成と動作を示
している。さらに詳しくは、第14A図は若干具なる実
施例を示している。つまり、各符号/ゼロ拡張操作で3
個の8ビツト・マルチプレクサが使用されている。これ
により、本好適実施例では不可蛯である単一バイトの使
用が可能になった。第14B図は第14A図のハードウ
ェアて使用されるコマンド構造を示している。
マルチウェイ分岐アドレス指定PAL 217このPA
Lはシーケンサ310のマルチウェイ分岐機能を実装す
るために使用される。このPALは3ビット条件コード
を受は取り、それをマイクロコード定数フィールドの最
下位3ビツトに挿入する。修飾された定数フィールドは
シーケンサ315上にフィードバックされる。シフト・
フィールド入力は結果を左に0.1または2桁シフトす
るかどうか(つまり、1.2または4をかけるかどうか
)、あるいは入力定数フィールドを未変更のまま送るか
どうかを制御する。別の入力はこのPALの3状態出力
ドライバをイネーブルする。
第3A図に示すように、このPALは3状態バツフア3
18と並列に接続するのが好ましい。定数フィルドの最
下位8ビツトだけがPAL 317に送られる。最上位
8ビツトはバッファ318に送られる。
(好ましくは、修飾された定数フィールドは相対シーケ
ンサ命令で使用されるが、その使用に注意ずれば、絶対
または間接命令で使用することも可能である。)マルチ
ウェイ分岐操作は、第30図を参照して以下に詳しく説
明する。
データ入力条件コート選択PAL このPAL (DTPモジュール120に置かれており
、第3図にマルチプレクサ312で示されている)はD
TPマイクロコート・シーケンサ310でテストできる
1組のFIFO状況コードを選択する。選択された組の
条件コートはデコートされ、シーケンサ310に送られ
て、これらの条件に基づくマルチウェイ分岐が行なわれ
る。これらの条件信号のソースは、4つのバス入力イン
タフェース、つまり、GIPインタフェース170、デ
ータ・パイプ・インタフェース150の2つの入力ポー
ト、およびVMEインタフェース160の1つの中にあ
るものが選択される。
DTP とI/F PAL 以下は、データ転送プロセッサ・モジュール120とイ
ンタフェース機構160.170.180で使用されて
いる最も重要な機能のいくつかを簡単に説明したもので
ある。
VMEアドレス デコートPへL 1つのPALはVMEアドレスの最下位ビットと5アド
レス修飾ビツトをデコートする。その出力はVMEアド
レスとアドレス@価子が以前に選択されたビットと一致
すると活動化する。(アドレスとアドレス修飾子の組合
わせは最高16までプログラミングでき、そのうちの1
つは4ビット切替え信号によって選択される。) VM
E割込みPALからの入力もあり、これは割込み承認サ
イクルがいつ進行中であるかを示している。これは出力
を駆動するようにデコードされたアドレスとORがとら
れる。
VMEアドレス・バスの最上位アドレス・ビット(18
−31)も同じようなPALを使用してデコートされる
。このPALでは、アドレスの上位8ビツトを使用する
か無視するかが別の入力で選択される。
DMA FIFO状況とクロック制御PALこのPAL
はDMA FIFO670からのクロックと状況信号の
経路を制御する。また、このPALはこれらのFIFO
のクロックをDMΔコントローラ6400制御下に置く
か、VMEインタフェースからデコートするかを制御す
る。
VME読取りと書込みデコートPAL611読取りデコ
ートPへりはVMEバスからの8つの読取りソースをデ
コードする。内部VMEアドレスはデータ・ストローブ
、書込みイネーブル、およびボード選択信号によってデ
コートされ、修飾される。
書込みデコードPALはVMEバスからの9つの書込み
ソースをデコードする。内部VMEアドレスはブタ・ス
トローブ、書込みイネーブル、ボード選択、およびVM
E書込みイネーブル信号によってデコードされ、修飾さ
れる。VME書込みイネーブル信号は各種書込みイネー
ブルまたはクロックのセットアツプと保持条件をVME
バスのタイミングから独立して制御するために使用でき
る。
VMEスレーブ・アクセス・タイミングPへりこのPA
Lはバス・コントローラε50においてデタイミングは
、デコーダ611が受は取るのとばば同しアドレスと修
飾子もこのPALへの入力となるので、読み書きされる
レジスタまたはメモリに合わせて調整することが可能で
ある。2重ポートVMEメモリ660が使用中であれば
、このタイミングは別の入力によりて遅延される。(こ
れが行なわれると、使用中信号が終了したあとで追加サ
イクルが挿入される。) 直列ループがデータのシフトに使用中であれば、タイミ
ングは別の入力によフて遅延される。
データが直列ループ・レジスタ680に書き込まれると
き、VME書込み信号が高になったあとで3サイクル、
の遅延が挿入されるので、直列ループ・ステート・マシ
ン(別のPALにある)は余裕をもってデータをラッチ
・インすることができる。
このPALはVMεインタフェース・メモリ660がア
クセスされるときは、イネーブル信号も発生する。
信号ループ制御PAL 夕転送確認通知のタイミングを発生する。このこのPA
Lはマルチプレクサ2710とステート・マシン274
0を実装している。ステート・マシン機能は直列ループ
内の書込み可能制御記憶機構の各々とのインタフェース
で818個の直列/並列レジスタを制御するように接続
されている。(これらには、CP W[:S 220と
DTP WC5320のほかに、プロセッサ・モジュー
ル130の各々にあるFP WC5470とFP WC
5拡張部分490が含まれる。)ステート・マシンはシ
フト・レジスタと直列データ・クロックを制御する。シ
フト・レジスタとの間でデータ転送が行なわれていると
きは、シフト・レジスタと直列データ・クロックはアク
セスのタイプ(つまり、読取りか書込み)に応じて、ま
たモード信号に従って制御される。直列ループ・モード
信号は次の3モードの1つを指定している。
DATA HOLD (00) :  通常のレジスタ
と同じように読み書きを行なう。
DATA 5HIFT(10) :通常のレジスタと同
じように読み書きを行なうが、直列データ・クロックを
切り替えている間に直列ループを回って16ビツトだけ
データをシフトする。
DATA PULSE(+1)−通苓のレジスタと同し
ように読み書きを行ない、直列データ・クロック・パル
スを1回発生ずる。
DATA 5HIFTモードでは、ステート・マシンは
あるサイクルでシフトし、次のサイクルで保持するよう
にシフト・レジスタを制御する。この2サイクル・パタ
ーンは16回繰り返され、その結果、シフト・レジスタ
の内容が直列ループ内に挿入される。保留サイクルでは
、直列データ・クロックが主張される。データがシフト
されている間、使用中信号は活動しており、そのシフト
が終るまでシフト・レジスタへの以降のVMEアクセス
を保留にする。
DATA PLILSEモードでは、書込み操作の30
0−400ns後に、直列クロックは一度だけ高パルス
になる。このパルスは”818”シャドウ・レジスタ内
部の内部フリップフロップをアップロードする。
(これらのシャドウ・レジスタの各々は内部フリップフ
ロップを備えており、これはデータをそれぞれに対応す
るWC5にハックロートするときその動作モートを制御
する。このDクロックがパルスを発生するときは、直列
ループを回ってデータはシフトされない。(この遅延に
より、データは安定化する。つまり、ループを回って伝
わっていく。)この操作時は、使用中信号は活動化され
て直列ループへのVMEアクセスを禁止する。
このPALは4個の直列ループ帰還路225B、225
C1225D、225E、および再同期化フリップフロ
ラフ2720を収集するマルチプレクサ2710も備え
ている。
DCMとDC:M I/F PAL 以下は、キャッシュ・メモリ140 と、FPモジュー
ル130上に置かれているが、キャッシュ・メモリ14
0とのデータ・インタフェースを取り扱うCP、拡張ロ
ジックで使用される最も重要なPALのいくつかを簡単
に説明したものである。
DCMアドレス・デコードPAL このPALはマルチプレクサと一緒に第5図にブロック
560で示されている。このPALはデーターキャッシ
ュ・メモリ・アドレスをデコードする。
2つのアドレス入力が用憇されている。入力516はC
ババスIllのビット19−25に対応しており、入力
517はTAババス21のビット19−25に対応して
いる。仲裁ロジック535によって生成される制御線5
21はどちらのアドレスをデコードするかを選択する。
DCM保持レジしタス御PAL このPAL(CPとDTPマイクロコード・ストリーム
によって制御される)はデータ保持レジスタ560A、
560B、および420の3つのバンクを制御するため
に使用される各種制御信号を発生する。マイクロコード
・ビットはクロックと出力イネーブル信号を駆動するよ
うにデコードされる。バンク5BOAを制御する信号は
CPアクセス信号536によって制御される。バンク5
60Bを制御する信号は、DTPポートの方が優先度が
低いので、CPアクセス信号536とDTPアクセス信
号537の両方によって制御される。
レジスタ・バンク420(浮動小数点モジュール上のF
P保持レジスタ)を制御する信号は該当のモジュール選
択信号とANDがとられる。クロック信号はすべて正の
クロック縁のタイミングを制御するために、書込みイネ
ーブル・ゲート・クロック信号によって修飾される。
別の組の信号はアクセス・サイクルでメモリ出力をディ
スエーブルすることができる。これにより、保持レジス
タはデータ・キャッシュ・メモリに書き込まなくても読
み戻すことができる。(これらの信号は書込みマスク情
報をアクセスするために別のPALでも同じように使用
される。)(以 下 余 白) DCM g込みフラグ・レジスタPAL書込みマスク・
ロジック530(8ビット書込みマスク信号512をメ
モリ・バンク510に送る)は複数のPALを使用して
実装されている。DTPインタフェース・レジスタ56
0Bに対応するPALを最初に説明する。CPモジュー
ル′110によってアクセスされる他のレジスタ・セッ
ト560Aの状況の追跡は、同じようなPALを使用し
て行なわれる。
このPALの目的は、保持レジスタ560B内の8F語
のどれにDTPによって書き込まれたかを覚えているこ
とである。データ・キャッシュ・メモリ書込みが必要で
あるときは、このPALの出力はDTP保持レジスタか
らの並列書込みにマスクをかける。更新されているF語
だけが実際にはデータ・キャッシュ・メモリ・バンク5
10に書き込まれる。保持レジスタに対する書込みが行
なわれると、対応するフラグ・ビットがPAL内にセッ
トされる。セットされるフラグ・ビットはこれらの条件
の下でDTPアドレスからデコードされる。フラグ・ビ
ットはデータ・キャッシュ書込みが行なわれるとクリア
される。しかし、操作はバイブライン化されているのて
、DTPは同しサイクルで保持レジスタ560Bに書き
込むことができる。その場合には、フラグ・ビットはセ
ットされたままになる。
さらに、8フラグ・ビットすべてを同時にセットするこ
とも可能である(マイクロコート・コマンドを受けて)
。これにより、ブロックで書込みを行なうことができる
。リセット信号はフラグをクリアする。ロジックは完全
に同期しており、クロック発生機構250によって発生
したマイクロコード・クロックによってクロックがとら
れる。
別の入力信号は読み戻しモードをイネーブルする。この
モードでは、フラグ・レジスタの状態を下位2ビツトを
使用して直列に出力することができる。マイクロコード
はこの下位2ビツトにあるフラグ・ビットを読み取るこ
とができ、他のフラグ・ビットと入れ替えることにより
、マイクロコードはすべてのフラグ・ビットを読み取る
ことができる。DTPアドレスは、3フラグ・ビットの
どれを偶数フラグ・ビットと人れ替え、どれを奇数フラ
グ・ビットと入れ替えるかを選択する。
FP書込みマスクPAL このPALはFP保持レジスタとデータ・キャッシュ・
メモリ間の転送に対して書込みマスクを生成する。マス
ク生成を制御するパラメータには、書き込むべきF語の
個数と先頭のF語がある。
FP  PAL 以下は、本好適実施例においてFPモジュール130に
使用されているプログラマブル・アレイ・ロジックa構
(PAL)を簡単に説明したものである。
WCSロード・イネーブルPAL このPALはマイクロコードをFPモジュール自身+7
)WC5470ニ、およびCPモジュールノ拡張WCS
490(つまり、FPモジュールに置かれているwcs
部分)またはそのどちらかに、モジュール選択信号でロ
ードするとき使用される一部を修飾する。
ホスト−ソース・モジュール選択PALこのPALはホ
ストからのモジュール・アドレス入力を局所スイッチ設
定値と比較して、そのモジュールが選択されているかど
うかを確かめるものである。1組の入力てwCSロート
がイネーブルされて行なわれる。
モジュール当たり1ビツト・アドレスが用意されている
ので、WC5書込みをモジュール130のすべてに対し
て独立して制御することができる。
(これと対照的に、上述したように、データ・アクセス
は最大モジュール数より少ないビットをもつモジュール
・アドレスを使用するので、モジュールのあらゆる組合
わせを選択することかで籾ない。) 第28図に示すように、直列コマンド・ループの好まし
いトポロジは、2つのループ部分284oが各数値処理
モジュール130に入るようになっている。一方の部分
225Aは入力をその千ジュール自身のWCS 470
に送り、もう一方の部分225cは入力をそのモジュー
ル上のWC5拡張部分490に送るようになっている。
従って、2つの別個の出力コマンドが与えられるので(
しかもモジュール・アドレスによって修飾されて) 、
WCS 470とWC5拡張部分490はそれぞれの出
力を共通帰還ハス225Eと225D (それぞれ)に
送り出し、モジュールのどれかか選択されたときに、そ
のモジュールによって駆動させることができる。
cpモジュール選択PAL このPALはCPによって選択されたモジュール・アド
レスを、局所保管値と突き合せて比較するものである。
一致するものが見付かると、4つの出力が主張される。
これらの出力のうちの2つは制御信号がクロックをとる
ようにイネーブルするか、保持レジスタ420を出力イ
ネーブルする。もう1つの出力信号はLEDを駆動して
、とのFPモジュールが選択されたかをビジュアルで表
示する。
最後の出力は主ポートに返される条件コート・ビット(
選択済み)をイネーブルする。この最後の出力はCP拡
張マイクロコートで制御されるロジックに対する修飾信
号であり、マイクロコート・フィールド(またはレジス
タ格納値)で定義された処置が行なわれるようにイネー
ブルするものである。
FP−WC5制御PAL 2つのPALがWCS 470を制御するために使用さ
れる。こわらの2つのPALは別々の区域に置かれてい
るが、両方ともwcs k:影響を与えるので、相互に
インタロックするようになっている。一般的には、最初
のPALは命令レジスタ(これは上述したようにマイク
ロコート短縮のために使用される)を制御するために使
用される。もう1つは並列マイクロコード・ローディン
グを制御するために使用される。
最初のPALはWCS 470にある2つのRAMチッ
プの出力イネーブルを制御する。本好適実施例では、W
CS 470は2つのRAMチップを使用して構成され
、インタフェース・レジスタ・セット420とマツチし
て並列ローディングが行なわれるようにしている。(本
好適実施例では)キャッシュ・バス144は64ビツト
・データ通路までに多重化されてFPモジュール130
に送り込まれるので、WC5470を2つの部分に分割
すると、マイクロ命令(木実層側ては、104ピツl〜
長)の並列ローディングにマツチすることになる。
ホストがマイクロコートをロートするときは、命令レジ
スタはディスエーブルされる。その場合には、命令レジ
スタの出力は必ずディスエーブルされるのて、RAM出
力はホストによって生成された信号によって制御される
2番目のPALは2つの個別機能を実行する。これらは
ハードウェアによる短縮を実現するときだけ結合される
最初の機能はホストによるWCSの読取り時にパイプラ
イン・レジスタ476のどちらのバンクをイネーブルさ
せるかを制御するものである。
2番目の機能は転送の長さ、つまり、保持レジスタとレ
ジスタ・ファイル間で転送すべき語の砂を調整するもの
である。
パイプライン・レジスタの出力イネーブル信号は2つあ
り、これらは同時に活動することはない。(これらの信
号はレジスタ476の2つのバンクをイネーブルするた
めに使用される。他の個所で説明したように、この構成
はWO2470の2バンクに対応している。)パイプラ
イン・レジスタのどちらかを出力イネーブルさせるため
には、使用中信号が非活動に、モジュール選択とFPバ
イブライン・レジスタ出力制御(ホストからの)が活動
していなければならない。
転送長さフィールドは、1が転送すべき1語を、2が2
語を(以下同じ)を表すようにコーディングされる。8
語を転送することを指定するときは、0が使用される。
転送りロック発生機構(キャッシュ・バス・インタフェ
ース460の部)は、転送サイクルの回数を知っている
必要があり、これはマイナ・サイクルに1を加えた数で
ある(パイプラインをセットアツプする場合)。
マイナ・サイクルの数は転送長さとその開始位置と共に
変化する。
ハンドシェイク・ロジックPAL 2つのPALがハンドシェイク・ロジックを制御するた
めに使用される。最初のPALは2つの独立機能を実行
する。最初の機能はCPとFPモジュール130間のハ
ントシェイキングを制御する。(この機能では、第22
図に状態図を示すようなステート−マシンにこの機能を
もたせている。)もう1つの機能(最初の機能と独立し
て)はレジスタ・ファイル420が2重バッファ・モー
ドで使用されるときバンク選択を制御する。(この千−
ドの動作原理は第20図に示されており、上述した通り
である。) ハンドシェイキング・ステート・マシンはCPがFP待
ちにあることを、CPW八Iへ出カIILを駆動するこ
とによって通知する。FPが待ちにある場合は、ハンド
シェイキング・ステート−マシンはFPWAITHLを
駆動することによってこれを知らせる。
CPWAITとFPWAITが共ニHIテあり、cpが
その完了信号を主張した最初のプロセッサである場合は
、次のような手順で行なわれる。
1、CPDONEがHlであることが見付かったときは
、FPWAITはLOに駆動される。
2、CPDONEがHlニなるまテCPWAITはHl
ノままで、制御はその状態のままである。
3、FODONE力月I■になると、CPWAITはL
Oに駆動される。
4、CPWAITとFPWAIT信号は、対応するDO
NE信号か否定されるまで共にLOのままである。
上記手順は、FPがFPDONEを最初に主張した場合
にも行なわれるが、その役割は反対になる。
CPDONEとFPDONEが共に同時に到来した場合
(つまり、共に同しクロック縁で最初にI(Iでサンプ
リングされる場合)は、CPWAITとFPWAITが
共にLOになる。
このPALのバンク・スワップ側は上述したCP/FP
ハンドシェイキングが切り離されている。このステート
・マシンを制御する2入力信号は5CPBANKSEL
とFPSWAPである。5CPBANKSELはFPが
スワップ点まできたときCPにバンクをどのように割振
らせるかを指定している。FPがスワップ点までくると
、そのスワップ点を通り過ぎるまでFPSWAPを活動
、状態に駆動する。スワップ点はCP/FPハンドシエ
イキング・ロジックによって同期化される。FPSWA
P点では、5CPBANKSELの状態はBANKSE
L出力の新しい状態であり、スワップ拵の外では、BA
NKSEL状態は未変更のままである。
最初のPALはFPと同期して動作するので、もう一方
のPALはCPモジュール+10が終了したこと、また
はバンクの交換を望んでいることを示すCP同期信号を
捕捉するために使用される。
この第2のPALは3つのハントシェイク・モート・ビ
ットによって制御される(モジュール選択信号による)
。3ハントシエイク・モード・ビットは次のように割り
振られている。ビット0と1はoo4<ノー・オペレー
ション、olがCPDONEをセット、10がCPDO
NEをクリア、11がテスト・モートの処置がとられる
ようにコード化されている。これとは独立して、ビット
2はレジスタ・バンクを交aすることを要求亥る。
CPDONE状態は命令がセットまたはクリア操作であ
る場合を除き、マイクロコード・サイクルにまたがって
未変更のままである。
このPALはモード・フィールドのビット2の正の縁を
、新しい入力を以前にレジスタ格納されたものと比較す
ることによって検出する。縁か検出されると、これによ
りバンク選択出力の状態か切り替えられる。
割込み捕捉PAL CPWAIT、FPWAIT 、およびいくつかの割込
み信号でクロック縁を捕捉するために別のPALが使用
される。エラー割込みは中断点割込みと同じ割込み出力
を共用するが、独自のマスク・ビットをもっている。出
力は対応するマスク・ビットがLOに駆動されるとリセ
ットされるが、このマスク・ビットは以後の割込み縁を
検出するためにHlに戻しておかなければならない。
マイクロアドレスとクロック制御PALこのPALはF
Pマイクロアドレス・ソー2の制御とFPクロックの制
御の2つの独立機能を実行する。
マイクロアドレス・ソースは2ビツトの入力によって選
択され、次のようになっている。(00)FP次アドレ
ス・ロジック477、(01) CPマイクロアドレス
211A、(10)開始アドレス・レジスタ479(連
続);(11)スタック478の出力。別の入力で2ビ
ツト選択コマンドを無視することも可能である。その場
合には、CPマイクロアドレスはモジュールがイネーブ
ルされるとイネーブルされる。この入力をイ吏用すると
、ホストはセットアツプやデバッグ時にWO2470を
アクセスすることができる。
FPクロック生成機構480(これは本好適実施例では
ECLが使用されている)を制御する出力は次ように選
択ができる。(00)FPマイクロコード・クロックを
自走させる; (01)FPマイクロコード・クロック
を停止させる。別の論理条件はFPクロックを別の入力
によって制御させ、クロックがその主張があったとき自
走するようにする。
直列/並列ロード選択 このPALはマイクロコードをホストまたはCP #)
らFPモジュールのWO2470にロードすることを制
御する。ホストによってロードされるマイクロコードは
直列ループを使用する必要があるが、CPはマイクロコ
ードを並列にロードすることができる。注目すべき点を
いくつか挙げると、次の通りである。
1、WO2470に使用されているパイプライン・レジ
スタは個別の出力イネーブルをもっていないので、これ
らはデータ・バスでの競合を防止するために別々に使用
される。
2.2つの直列データークロツタ信号の依存性はホスト
またはCPが選択されたかに応して切り替えられる。
3、ホストが直列ループを制御する場合は、モード信号
は両方のデータ・クロックを一緒に駆動させるか(通常
データ・シフト)、一方だけを駆動させるか(別の信号
で選択されたもの)を選択する。直列データ・クロック
はW(:S 470からデータを読み戻すときもこれと
同じように制御される。
cp書込みデコードPAL このPALはWC5拡張部分490にあるマイクロコー
ド・フィールドをデコードして、レジスタ420のどち
らをアクセスするかを選択するものである。選択された
レジスタには、RCREGDIRがLOのときだけ書き
出される。XFREG、 FPREG、UAREGまた
はMREGの中から1つ選んでそこに書キ込むことのほ
かに、実行される機能には他に2つある。
1、CDバス・トランシーバ444に対する方向と出力
イネーブル制御か生成される。
2、中断点をクリアするマイクロコート・ビットは書込
みゲート・クロックで書込みイネーブル・ゲートがとら
れる。ここで短パルスが使用されているのは、再始動直
後に現れる中断点を見失うのを防止するためである。(
これは、新しい中断点が現れたときCPがまだ前の中断
点をクリアする信号を低に維持していると問題を起すこ
とおそれがある。)従って、この信号はそれを短時間に
保つクロックでORをとるようにしている(活動−低A
ND)。
クロック/ストローブはすべてCPMCCにおよびCP
MCII:KWGによって修飾されて、マイクロコード
・サイクル内でタイミングを設定するが、モジュールが
選択されていなければディスエーブルされる。
このPALはCPマイクロコート・フィールドをデコー
ドして、レジスタ480のどちらをアクセスするかを選
択するものである。選択されたレジスタはRCREGD
IRが)IIのときだけ読み取られる。
保持レジスタ制御PAL 451 2つのPALが保持レジスタ420からの出力を制御す
るために使用される。
最初のPALは各月のレジスタ420に対するクロック
なイネーブルするために使用される転送シケンス波形を
発生するものである。各転送サイクルは転送長さで指定
された通りに、1〜4マイナ・サイクルの間持続する。
(「マイナ・サイクル」期間は上述したように、転送り
ロック412によって発生する。)各マイナ・サイクル
で対のF語が転送されるが、そのうちの1語は別のPA
Lによって禁止されることがある。転送シーケンス波形
は4つの線上に「遊歩LQJとして現れる。
循環列内で最初に主張される線はXFHR5T<l:2
>によって制御され、XFINITが旧のときだけ現れ
る。XFINITは最初のサイクル時だけ活動し、後続
のサイクルでは現在のシーケンス波形が次の線を制御す
るために使用される。UCXFDIRは転送方向が保持
レジスタ420からレジスタ・ファイル430へのとき
、LOOPBACKモードが働いていなければ、)IR
cKENP◆<0:3>をディスエーブルする。)IR
CKALLは通常の開始および長さ制御を無視して、す
べてのクロック・イネーブルを同時に活動化させるので
、1回のサイクルでデータを4コピーしてすべてのレジ
スタ対に入れることができる。
XFTYPE入力は波形列が通常の転送サイクルに対す
るものか、並列マイクロコード・ロード・サイクルに対
するものかを選択する。後者の場合には、常に2つのマ
イナ転送サイクルがあり、そのタイミングが若干異なる
ことがある。この入力は保持レジスタに対するすべての
クロックを禁止することができる。
第2のPALは各レジスタ対を出力イネーブルするため
に使用される転送シーケンス波形を生成するものである
。これらの2つのPALは相反する転送方向で使用され
る。
「クロック・マスクJ PALは、保持レジスタ420
を構成する8個の32ピツ1へ・レジスタ(Fレジスタ
)に書き込みを行なうことを制御するために使用される
8個のクロック・イネーブルを生成するものである。1
回の主転送サイクルで、8個までのF語をレジスタ・バ
ンク420の8個の別々のレジスタに送り込むことがで
餘る。入力は更新する必要のある最初のレジスタ(0,
、,7)  と更新すべきFレジスタ(1,、,8)の
個数を示している。
PALはそれに応じて、更新すべきすべてのレジスタに
対してビットがセットされたマスクを生成する(主転送
サイクル内で)。転送方向が保持レジスタ420からレ
ジスタ・ファイル430へのとぎは、すべてのマスク・
ビットは旧にセットされるので、保持レジスタへの書込
みは一切防止される。同様に、マイクロコード・ロード
・サイクルが現れている場合は、クロックはディスエー
ブルされる。すべての保持レジスタがクリアされる場合
(もう1つの信号によって指示された通りに)は、イネ
ーブルは低にセットされるので、すべての保持レジスタ
が更新される。
保持レジスタ開始アドレスPAL このPALは4:1マルチプレクサとそのあとに続くレ
ジスタからなっている。マルチプレクサへの入力となる
ものには、レジスタからの保持レジスタ(HR)開始ア
ドレス、マイクロコード命令からの)IR開始アドレス
、CPアドレス・バスからのFR開始アドレス、前のH
R開始アドレスの4つがある。
モジュールが選択されない場合は、前の)IR開始アド
レスが残される。
レジスタ・ファイルWE制御 このPALはレジスタ・ファイル430に対する書込み
イネーブルを制御する。マイナ・サイクルで1個または
2個のF語がレジスタ・ファイルに書込むことができる
。開始位置と長さの6ビツトはクロック・イネーブル・
マスクが生成されるとき同じ方法で書込みイネーブル・
マスクを生成するために使用される。マスクからの該当
2ビツトはどちらのマイナ・サイクルが進行中であるか
に応じて、下半分書込み信号または上半分書込み信号か
ら順序付りられる。ループバック・モートか活動してい
るときは、書込みイネーブル・マスクはディスエーブル
される。別の信号はすべてのマイナ・サイクルで両方の
語を強制的に書き込むために使用できる。
下半分書込み信号と上半分書込み信号は転送方向が正し
くないか、転送タイプがマイクロコート・ロート機能で
あると、ディスエーブルされる。
入力信号はレジスタ・ファイルの読取りまたは書込みモ
ードを選択するためにもコード化される。
使用中信号線は保持レジスタ・データ・バス422が使
用中であることを指示するものである。
レジスタ・ファイル・アドレス修飾PALこのPALは
モジュールが選択されたときレジスタ・ファイル・アド
レスをレジスタに格納する。
そうでない場合は、前のアドレスが保持される。
アドレスの最上位ビットはソフト2重バッファリングが
行なわれるように修飾される。2ビット信号はどのタイ
プの修飾を最上位ビットに対して行なうかを選択する。
オプションには次のものかあ1、入力ビットの使用。こ
れは物理アドレス指定モートである。
2.8ANKSELの使用。これは2重バッファ・モト
である。
3.8ANにSELの反転値の使用。これはブレビュ・
モートであり、CPまたはFPはバンクを交換し合わな
くても2重バッファの反対側にあるデータがアクセスで
きる。
レジス・ファイル・アクセス増分機構 このPAL  (イネーブルされているとき)はレジス
タ・ファイルのポインタを増分する。従って、アドレス
は各マイナ・サイクル(転送りロックの)ごとに増分し
て、レジスタ・ファイル430から次の対の番号を取り
出したり、次の対を書き込んだりすることができる。制
御入力は、保持レジスタ420からレジスタ・ファイル
430への転送の最初のマイナ・サイクル期間アドレス
定数を保持することを可能にする。これが必要なのは、
データ通路がバイブライン化されているからである。
データ有効性制御PAL このPALはレジスタ・ファイル430の偶数側と奇数
側に対するデータ有効性信号を制御する。マイナ・サイ
クルで、1個または2個のF語をレジスタ・ファイルに
書き込むことができる。開始アドレスと長さに応して、
データの1語または2語がこのマイナ・サイクルで有効
になる。2つの出力(EVENVAL、ID*と0DD
VALIDりはどちらの語が有効であるかを示している
。この機能はレジスタ・ファイルからの転送ではディス
エーブルされる。
マイクロ命令アドレス選択PAL このPALは次のマイクロ命令アドレスが真アドレス・
フィールドからのものか(つまり、レジスタ474の出
力)、偽アドレス・フィールドからのものか(つまり、
レジスタ475の出力)を選択する。内部の「常に真」
状況は無条件ジャンプのとき選択できる。両方共開始ア
ドレス・レジスタ479がマイクロアドレス・バス47
3を駆動できるように、あるいは5TAI:KPOPま
たはREADSTACK*信号がスタック操作進行中を
示しているときデイスエプルさせることができる。  
(5TACKPOPはFl”マイクロコートから得られ
るが、READSTACKはCPによって制御される。
) 上述したように、FPモジュール130はCPモジュル
110とDTPモジュール120で言うような個別のシ
ーケンサをもっていない。事実、このモジュールは個別
のプログラム・カウンタでさえもっていない。その代わ
りに、レジスタ474の真と偽の出力がこの機能を果し
ている。
ALU問題状況PAL このPALは浮動小数点状況ビットの1つがいつ「問題
状況J状態を示したかを記憶している。
(本好適実施例で「問題」状況が使用されているのは、
基本的エラー処理メカニズムから切り離しである種の障
害状態をモニタするためである。)例えば、オーバフロ
ーのテストは各要素の計算のたびでなく、ベクトル演算
の終了時に行なうことができる。乗算機構440とAL
tl 44Gは各々問題状況を表すビットをいくつかも
っている(オーバフロー、アンダフロー、無効演算、そ
の他の類似工ラ−を示すヒツト)。2つのマイクロツー
1〜−ヒツトは問題状況レジスタの更新とクリアをサイ
クル単位で制御する。
類似のPALはFMOY状況に対してこの機能を実行す
る。これらのPALにあるロシ・ンクもコート化された
出力で各種問題状況状態を示すようになっている。クロ
ック・タイミングの使用により、問題状況ビットが存在
するかどうかか1サイクルで検査される。
スタック制御PAL 39]0 このP八りは、サブル−チン・スタ・ンク・アドレス指
定の制御とテーブル・アドレス・カウンタの制御の2つ
の別個の機能を実行する。
第39図は浮動小数点プロセッサ・モジュール130内
のスタック・レジスタ478の好適実施例を示している
。PAL 3910は多重レベル・パイプライン・レジ
スタ3920を制御する。(本好適実施例では、これは
AMD 29520が使用されている。)この多重レベ
ル・レジスタ392oは4つのバイブライン化レジスタ
3921を含んでいる。しかし、出力マルチプレクサ3
922にこれらのレジスタのいずれかを選択させて、直
接出力を得ることも可能である。
このマルチプレクサの出力はFPモジュール130のマ
イクロ命令アドレス・バス473に結ばれている。
PAL 3910は制御入力を多重レベル・レジスタ3
920に提供して、このレジスタをLIFO(後入れ先
出し)メモリとして機能させる。これにより、メモリは
スタックとして動作する。PAL 3910はパイプラ
イン化レジスタ3921に対して転送信号3912(こ
れはマイクロコード・クロックとANDがとられる)を
供給する。また、選択信号3913をマルチプレクサ3
922に供給する。
PALは通常のブツシュとポツプ機能を備えているほか
に、コマンドを受けて読取りスタック・モードに入って
、スタック状況を壊すことなくどのスタック・レベルで
も読み取ることができる。
レジスタ・ファイル・アドレス修飾子PALこのPAL
はFPレジタス・ファイル・アドレス・フィールドの最
上位ビットを、アドレス修飾コートと2重ハソファの現
在選択されているバンクに応して修飾する。修飾ずへき
アドレス・フィールドは3つあり(X、Y、T)(これ
らは第1オペランド・バス431、第2オペランド・ハ
ス432、および結実用バス433に対応している)、
ロジックはこれらの各々に対して同しである。これらの
アドレスの1つについてそのロジックを以下説明する。
修飾最上位アドレス・ビットは久カアトレスの最上位ビ
ット、2ビツト修飾コート、およびバンク選択信号から
求められる。アドレス・ビットに対する修飾は次の通り
である。
1、修飾なし−これは物理アドレス指定モードである。
2、バンク選択信号の反転−これは2重バッファ構成で
通常のアクセスに使用される「論理」モードである。バ
ンク選択は、データがレジスタ・ファイルと保持レジス
タの間で転送されるとき使用されるものと反対であるこ
とに注意されたい。
3、バンク選択信号と同等−これはプレビュモー1−で
ある。上述したように、このモートにあるときは、FP
はバンクを交換し合わなくても2重ハソファの反対側に
あるデータをアクセスできる。この機能は浮動小数点バ
イブラインを一杯に保つことができる。
3りの修飾アドレス・ビットは外部レジスタに格納され
、「旧へ6」ビット(各アドレスに1ビツト)としてフ
ィードバックされる。これらは、「旧A5使用ノコマン
トが主張されたとぎこれらのビットの「計算で求めた値
」を置き換えるために使用される。この機能は、アドレ
ス・モードが数サイクルの間未変更のままであるときア
ドレス・セットアツプ時間を短縮する。
結実用バス制御PAL このPALは結実用ソース・マイクロコード・フィール
ドをデコードして、必要とする装置(例えば、第1図の
構成では、FMPY 440、FALIJ 450、ま
たはスクラッチパッド・メモリ1610)を出力イネー
ブルする。このPALは必要時にスクラッチパッド・メ
モリにチップ・イネーブル信号も送る。
VME割込みPAL このPΔ1、はVME割込みプロトコルをステート・マ
シンの形で実現している。GENVMEINTが活動状
態(高)になると、IRQENは次の正のVCIIJで
高に駆動される。IRQENは割込みが受は付けられる
まで活動状態のままであるので、割込みの原因はCLR
IRQFF*を低に駆動することによって除かれる。V
IACK*とVIACKIN*信号がモ=りされ、割込
み受付はサイクルが引き起された割込みで検出されると
、内部割込み受付はサイクルが開始される。
正しいVME割込み受付はサイクルはこれらの信号が活
動状態になり(VrACKIN*はデイジ一連鎖の一部
である) 、VMEIA<01:03>が割込みが引き
起されたときと同しレベルにセットされることによって
識別される。内部割込み受付はサイクルはVMErDS
が主張されるまで待ったあとで、数サイクルの間に割込
みベクトルをイネーブルしてデータ・バス(IVOI)
)上に送出し、IVDTACKをセットし、IRQEN
を取り除く。しばらくしたあと、VMEIDSは非活動
状態になり、割込みベクトルとIVDTACKが除かれ
る。割込み受イ」リサイクルが現れると、VINTAC
Kか主張され、そのあと割込みベクトルをハス上に送り
出すスレーブ・サイクルでBUSCONを始動する(ア
ドレス・デコードPALを通して)。
割込み受付はデイジ一連鎖は、未処理の割込み要求がな
いときこのPALに支障なく渡される。
DM八へVMEステート・マシン このPALはVMEバスとデータFIFO間のデータ転
送だけを取り扱う。転送の方向はステート・マシンから
は見えないので、クロックと状況は外部で切り替えられ
る。DM八へ5TARTが活動状態になると、ステート
・マシンはDMA転送を開始する。まず、同期FIFO
状況(SDMAFSTAT*)がFIFOに1回の転送
分のデータまたは余地があることを示し、SDMADO
NEがDMAカウンタが準備状態にあることを示すまで
待っている。DMACには低に駆動されて、データがあ
る場合にFIFOを出力イネーブルする。
ステート・マシンはバス要求(LBIISREQ4)を
出して、その要求が許可(SLBGRANTリ される
まで待)ている。バスが許可されると、DMAAS*と
DMADS*がVMEハス・セットアツプ時間に従って
主張される。これらの2信号はVMEスレーブ装置がデ
ータ転送受付け(SLDTACK中)を返してくるまで
保留され、そのあとDMACKは高に駆動される。1サ
イクルのあと、DMAAS幸とDMADS*は除かれ、
正の縁がDMAC0INTで駆動される。転送モード(
DMARBLOCK)が単一転送である場合は、LBu
SRELが主張されてバスが解放され、上で述べた手順
が繰り返される。転送モードがブロック(順次)転送で
ある場合は、バスは、ブロックの終りまできているか(
BLOCKENDで示される) 、 FIFOが満杯/
空であるか(SDMAFSTAT*)、DMAカウント
が尽きたか(SDMADONE)、あるいはDMAがD
MAR5TARTの否定によって途中で打ち切られた場
合以外は、解放されない。ブロック転送のときは、DM
AAS*はBLOCKENDによって解放されるまで保
留されている。
5LBUSERR*入力は、DMAアクセスの結果バス
にエラーが起こると、活動状態になる。このエラーが起
こると、現在の転送は打ち切られ、DMABERRが駆
動される。ステート・マシンはDMATSTARTが否
定されてDMABERRがクリアされるまでこの状態の
ままである。最後の入力DMATESTはどのVMEサ
イクルが現れなくてもDMAが行なわれることを可能に
する。これは、ステート・マシンの基本動作をテストす
るときに便利であり、またバス・エラーが起こったとき
にFIFOの入力を停止させる手段として利用できる。
リセット状態は口MAR5TART、 DMARBLO
CKおよびDMARTESTの未使用の組合わせを使用
することによって強行させることができる。
(以 下 余 白) DMAアドレス制御 アドレス・ヒ゛・ント(VMEI八<01:07>は、
256)でイト境界までにいつ達する直前にあるかを検
出するためにモニタされるので、ブロックDMA転送を
瞬時に中断させて、VME仲裁を可能にする。(これに
より、VME規格における最大ブロック転送長さの制約
に準拠することができる。)このことはBLOCKEN
Dで示される。PALの残り部分はDMAアドレス増分
のIA埋を担当する。転送サイズ(16または32ビツ
ト)に応して、DMAアドレスはDMAINGが高にな
ると、それぞれ1h)2だけ増分される。
DMAアドレスの増分は、 DMACN丁EN*がマイ
クロコード・クロックの1または2サイクルの間活動し
ているかどうかを選択するDMARLONGINCによ
って制御される。CLREF*は、DMAC0UNT(
7) mを捕捉したフリップフロップをリセットする。
VMEIR5T弓よ必要ならばPALをリセットするた
めに使用できる。
割込み縁捕捉 、nノPALはGIPIEMPTY赤、VMEIFEM
PTY* DPIIEMPTYVTPINTDおよびV
TPINTテ正の縁を捕捉し、GII’OEMPTY*
とVMEOFEMPT’/*で負の縁を捕捉する。
これにより、割込み信号を縁でトリガさせ、そのあとマ
イクロコート・クロックと同期させることができる。縁
が検出されると、対応する出力は低に駆動される。、縁
捕捉フリップフロップは対でリセットされる。つまり、
TPINTGIP重は2つのGIT’縁をリセットし、
TTIVMEF中は2つのVME iをリセットし、T
PINTVME*は2ツノvTP縁をリセットし、TI
’1NTDPII’luは2つのDP縁をリセッ1〜す
る。
GIPマイクロコード・デコート このP糺は3つのマイクロコート信号LIGIPI′l
IIシロGIPWl中およびUGIPFRをデコードし
て、出力イネーブル、 FIFO読取りおよび書込みク
ロックおよびレジスタ・クロックを発生する。FIFO
読取りクロツタはFIFOの空の状況(GIPOEりに
よってゲートされて、FIFO内の誤りを生じる空のF
IFOの読取りを鋲止する。クロックタイプの信号はG
IPCIまたはGIPFIIDfJで資格づけされる。
4 ら 2 GIP割込みマスク このFAl、は2つの機能を実行する。まず第1に7つ
の割込み発生源となり得るものの中から4つを選択し、
必要な場合には選択的に反転して割込みlA置が正の縁
になるようにする。4割込み発生源は2組が許され、G
IPSELIはそのどちらかを選択する。第2の機能は
選択した組に4マスク・ビット(GII’1M <0:
3>)でマスクをかけてから、結果を駆動してG、IP
INT <0:3>として出力するものである。GIP
IACK*信号は単純に反転されるだけで、GIPI八
GKへ得られる。
(以下余白)  53A Gll’割込みステート・マシン このPALは割込み入力(GrPINT<0:3>)の
正の縁を探し、1つまたは2つ以上が現れると、GIP
INTが駆動される。特定の割込みはマイクロコート・
フィールドIJGIPccs<Q: l>でそれを選択
して、UGIPCLAIを主張することによってクリア
される。
すへてのフリップフロップはGIPR5T*によるリセ
ットでクリアされる。縁は割込みを1サイクルだけ遅ら
せ、遅延されたものと遅延されなかったものを比較する
ことにより検出される。遅延されなかりたものは、この
ステート・マシンがラン・オフしているGIPCIクロ
ックとすでに同期がとられている。
ホスト・コンピュータ 第1図に示すようなシステムは広範囲にわたるコンピュ
ータ・アーキテクチャで使用できる。本好適実施例では
、第1図のシステムは数値高速化サブシステムとして使
用されている。ホスト・コンピュータはVAX 880
0を使用し、VMEオペレーティング・システムが稼動
して、VMEインタフェースとVMEバス411Oを通
して第1図のシステムと通信するようになっている。し
かし、他の構成も幅広く使用することも可能である。例
えば、使用できるU旧×マシンは、Sun Micro
systems社提供の装置を含む様々なものがある。
さらに、他のシステム・バス構造を使用することも可能
である。例えば、第1図のサブシステムをVMSh<稼
動するVAXで使用し、インタフェース・ボックスを経
由してリンクで結ぶことができる。このサブシステムは
MS−DO5が稼動するパーソナル・コンピュータで使
用し、イーサネット(例えば)を経由して単純なVME
バス・インタフェース・ボックスと通信させることさえ
可能である。
さらに注目すべきことは、第1図のサブシステムは32
ビツト・アーキテクチャが中心になっているが、このサ
ブシステムを64ビツト語や48ビツト語で使用できる
という利点があることである。この機能を得る1つの要
因は、わずか2サイクルで64ビツト演算が行なえる浮
動小数点プロセッサ・モジュール130に内部データ通
路を使用したことである。もう1つの要因は、ギャッシ
ュ・ハス目4を広幅にして、複数の64ピツ)−語を数
値プロセッサ・千ジュール130と並行して転送できる
ようにしたことである。従って、64ビツト計算は語の
ほぼ半分の速度で(つまり、はぼ同しビット速度)32
ビツト演算として実行することかできる。
さらに、本明細書に開示されている多数の新規事項を様
々なシステムに適応させることも可能である。これらの
新規事項は本好適実施例のバス標準と全く異なるバス標
準をもつシステムに適応させることも可能である。実際
には、VMEバス・インタフェースは特別には利点がな
いので(総バンド幅を妥当なものにすることとは別に)
、発明者の開示義務に従うために開示したにすぎない。
ホストとのバス・インタフェース 上述したように、本好適実施例では、ホストと結ぶ主要
インタフェースとしてVMEバスを使用している。この
バスは上述したようによく知られている。
他のバス構成を幅広く使用することも可能てある。例え
は、Versa[lus、FutureBus、または
NuBusを必要ならば、システムに組み入れる設計が
簡単に実現できる。超高速計算システムの場合は、光学
バスを使用し、光ファイバに変調固体素子レーザを使用
すると利点が得られる。
画像プロセッサ・サブシステム 1つの実施例によるシステムは第1図(または9八か1
0)に図示のような1または2以上のサブシステムと通
信するホストを使用しているだけでなく、特殊な図形プ
ロセッサである追加サブシステムを使用している。ここ
で使用されている好適画像プロセッサは”GIP”プロ
セッサとも呼ばれ、英国Kingston−upon−
Thames在のbenchMark Technol
gies Ltd  社から提供されているものである
第41図は1つの構成例であるが、勿論、広範囲にわた
る他のトポロジやシステム・アーキテクチャを使用する
ことも可能である。ホスト・コンピュータ4100は画
像プロセッサ・サブシステム4140および少なくとも
2つの数値高速化サブシステム4150 (これは例え
ば、第1.9.10図に示すものと同しにすることがで
きる)と、VhlEバス4170を経由して通信する。
VMEバス4110を経由して、主メモリ4160、大
容量記憶装置4170 (例 ハート・ディスク)、お
よび任意的に、1つまたは2以上の装置インタフェース
11+80 (これは出力装置、ゲトウェイ、他の記憶
装置などにすることがてきる)をアクセスすることも可
能である。
本実施例では、追加バスが2つ使用されている。画像デ
ータ・バス4130は図形プロセッサと結ぶアプリケー
ション仕様インタフェースとなる。
(これは広幅であり、画像または図形伝送で使用すると
特に便利である。)この実施例の構成例では、これはr
GIPバスJ (benchMark Technol
ogies社提供)が使用されている。このアプリケー
ション向きバスは画像処理サブシステムの広バント幅人
出力要求に非常にマツチしている。これは広幅バスであ
り、160データ線からなりている。
もう一方のバックプレーン・バスはデータ・パイプ・バ
ス4120である。このバスを使用すると、複数の数値
高速化サブシステムを第34.35.36、37図に示
すにうなトポロジ構成で結ぶことかでとる。この実施例
の構成例では、このバスは32データ線からなっている
システムの動作 本発明を色々な角度から見たいくつかの重要な使い方と
、開示されているシステム・アーキテクチャのいくつか
の使い方について以下説明する。
以下で説明するいくつかの方法はそれぞれ個別発明を構
成するものである。
サンプル動作の実現 アーキテクチャの簡単な使用例について以下説明する。
この例では、ポスト・プロセッサ4100は数値高速化
サブシステム4150 (第1.9または10図に示す
ものと同じ)に対してコマンドを出して2つの配列を一
緒に乗算して(配列要素単位で)その結果を第3の配列
に入れておくものである。
3つの配列はすべてVMEメモリ空間(例えば、主メモ
リ4160)に置かれている。コマンドが出される前は
、サブシステムは遊休状態にあり、コマンドが実行され
ると、再び遊休状態になる。これは図式化して’d;、
s2図に示されている。
コマンド・シナリオは2種類が示されている。
最初のシナリオは使用されるメモリ空間か物理空間だけ
のシステムを詳しく説明している。(この種のアーキテ
クチャは、ポストが可能な限りの作業量を高速化サブシ
ステムにオフロートすることが望ましい場合に使用でき
る。)第2のシナリオはVMSが稼動するVAXや口N
IXコンピュータに見られるような仮想メモリをもつシ
ステムに対するものである。この第2シナリオでは、動
的メ干り割振りとディスクとのデータのページ・インと
ページ・アウトがどのように処理操作で取り入れられて
いるかが示されている。
第15図はコマンド・メモリ19Qがどのような構成に
なっているかを示している。また、やりとりされるコマ
ンドと割込みタイプのいくつかも示されている。注目す
べき重要点は、2つのコマンドFIFOが含まれるよう
にコマンド・メモリ190をソフトウェアで分割すると
好ましいことである。CPコマンドFIFO1520は
cpモジュール110にアドレス指定されたコマンドを
バッファするものであり、DTPコマンドFIFO15
10はDTPモジコー−ル120にアドレス指定された
コマンドをバッファするものである。
コマンド・インタフェース、やりとり、および作業のス
ケジューリングはソフトウェアによって制御されるが、
必要に応して変更することが可能である。従って、以下
の例はシステムをどのように使用する必要があるかを明
確化していない。システムが使用できる態様を示したに
すぎない。
物理メ干す・モデル(CP/DTP間のやりとり)この
例では、ホスト・プロセッサは高速化サブシステムに対
してコマンドを出して、2つの配列を一緒に乗算して(
配列要素単位で)、その結果を第3の配列に入れておく
ためのものである。3つの配列はすべてVMEメモリ空
間に置かれている。コマンドが出される前は、高速化サ
ブシステムは遊休状態にあり、コマンドが実行されると
、再び遊休状態になる。これは図式化して第42図にボ
されている。
4.60 コマンドの実行1侍には、次のよう14ステツプで行な
われる。
(1)ポストはベクトル乗算コマンドを高速化サブシス
テムのコマンド待ち行列(これはVMEインタフェース
・メモリに置かれている)に入れる。
その際、コマンドで配列内の要素の数、2つのソース配
列のアドレス、および結果配列のアドレスを指定しおく
。コマンドとそのパラメータが待ち行列に追加されると
、ホストはデータ転送プロセッサ・モジュール120に
割込みを引ぎ起す。これにより、ホストは解放されるの
で、他の仕事を行なうために使用できる。
(2)ホストから割込みを受は取ると、データ転送プロ
セッサ・モジュール120はコマンドとそのパラメータ
のコピーをとって、コマンド・メモリにあるソフトウェ
ア管理のCPコマンドFIFOに入れておく。割込みが
制御プロセッサ・モジュール110で引き起されて、コ
マンドが存在するとの通知を受ける。データ転送プロセ
ッサ・モジュール12θは遊休状態に戻る。
(3)割込みを受けると、それに応えて、制御プロセッ
サ・モジュール110は遊休状態から出で、コマンドと
そのパラメータをコマンド・メモリ+90内のCPコマ
ンドFIFO1520から読み取る。コマンドで指定さ
れたアドレスが検査され、オフポート(つまり、データ
・キャッシュ・メモリ140にではなく)に置かれてい
ることが判明する。従って、この例では、2つのデータ
取出しコマンドと”INT[RRLIPT CP W)
IEN DONE+コマンドがコマンド・メモリ190
内のDTPコマンドPIF01510に書き出される。
各データ取出しコマンドは配列のソース・アドレス、そ
の長さ、データ・キャッシュ・メモリ内のその宛先アド
レスを記述している。データ転送プロセッサ・モジュー
ル120に割込みが起こり、制御プロセッサ・モジュー
ル110は遊休状態に戻る。
(4)割込みを受けると、それに応えてデータ転送プロ
セッサ・モジュール120は遊休状態から出て、最初の
コマンド(とそのパラメータ)をDTPコマンドPIF
O1510から読み取る。データ転送プロセッサ・モジ
ュール120はデータを取り出すべきアドレスをヂエッ
クして、それがVMEアドレス空間に置かれていること
を確認する。次に、ブタ転送プロセッサ・モジュール1
20はVMEインタフェース160内のDMAコントロ
ーラが配列を取り出して、それをVMEインタフェース
160内のデータFIFO670を書き込むようにセッ
トアツプする。
(これは実際にはコマンド待ち行列FIFO1510お
よび1520と異なり、ハードウェアFIFOであり、
先入れ先出し機能はソフトウェアにもたせていることに
注意されたい。)このデータが到着すると、データ転送
プロセッサ・モジュール120はデータFIFO670
からデータを読み取り、それをデータ・キャッシュ・メ
モリ140に書き込む。転送が完了すると、DTPコマ
ンドFIFOが検査されて、次のコマンドはなにか(も
しあれば)が確かめられる。
この場合、別のデータ取出しコマンドが見付かると、最
初の取出しコマンドと同じ方法で実行される。これが終
ると、次のコマンドが読み取られ、実行される。このコ
マンドは制御プロセッサ・モジュール+10に割込みを
引き起す。DTPコマンi・日FO1510はこれて空
になり、データ転送プロセッサ・モジュールは遊休状態
に戻る。
(5)この割込みにより、制御プロセッサ・モジュール
110は、要求した2つの配列がデータ・キャッシュ・
メモリに格納されたことを知る。結果配列の宛先アドレ
スはオフボードにあるので、制御プロセッサ・モジュー
ル110は結果を入れておく一時的配列をデータ・キャ
ッシュ・メモリ140内に割り振る。CPモジュール1
10は計算処理を開始する。計算処理のとき、中間デー
タ・セットがキャッシュ・メモリ140から取り出され
て、FPモジュール130(11,Pモジュール110
の制御下にある)のレジスタ・ファイルに移される。F
Pモジュール130は独自のマイクロコードを稼動させ
、同期点でCPモジュール110とインタフェースにな
って、数値演算を実行する。中間データ・セットはFP
モジュールのレジスタ・ファイルからキャッシュ・メモ
リ140(CPモジュール110の制御下にある)に啓
される。従って、ベクトル乗算が完了したときは、結果
は、CPモジュール110によって以前に割り振られた
キャッシュ140内の配列に残っている。
(6)次に、制御プロセッサ・モジュール110はデー
タ保管コマンドと”INTERRUPT HO5T W
IIENDONE″コマンドをDTPコマンドFIFO
1510に書き出す。データ保管コマンドは、データ・
キャッシュ・メモリ内の結果配列のソース・アドレス、
宛先アドレス(下のコマンドで指定されたもの)、およ
び配列長さを指定している。データ転送プロセッサ・モ
ジュール120に割込みが起こる。CPコマンドFIF
Oが空ならば、制御プロセッサ・モジュール110は遊
休状態に戻る。
(7)割込みを受けると、それに応えてデータ転送プロ
セッサ・モジュール120はその遊休状態から出て、最
初のコマンド(とそのパラメータ)をDTPコマンドF
IFOから読み取る。データ転送プロセッサ・モジュー
ル120はデータを保管すべきアドレスを調べて、それ
がVMEアドレス空間に置かれていることを確認する。
次に、データ転送プロセッサ・モジュール120は、V
M[iインタフェース160内のDMAコントローラ6
40が正しい個数のF語をデータFIF口670からV
ME主メモリに転送するようにセットアツプする。デー
タ転送プロセッサ・モジュール120はデータをデータ
・キャッシュ・メモリから読み取り、それをデータFI
FO670に書き込む。結果配列がデータFIFOに転
送されると、データ転送プロセッサ・モジュール+20
はDMAコントローラにそのことを通知し、DMAコン
トローラがVMEメモリへの転送を終えるまで待ってい
る。
(8) DTPコマンドFIFOが空でなければ、次の
コマンドが読み取られ、実行される。これは”INTE
RRUPT−HO5T−WHEN−FINISHED”
:Iマントである。このコマンドを受けると、完了した
ばかりのコマンドの状況がVMEインタフェース・メモ
リ内のコマンド待ち行列に書き出され、ホスト割込みが
引き起される。この割込み通知を受けて、ホストはその
ベクトル乗算コマンドが終了し、その状況をVMEイン
タフェース160内の状況レジスタから読み取ることが
できることを知る。そのあと、データ転送プロセッサ・
モジコ、−ル120は遊休状態に戻り、これで操作を終
了する。
上記処理の途中のいつでも、ポストは新しいコマンドと
そのパラメータをコマンド待ち行列に書ぎ込んで、デー
タ転送プロセッサ・モジュール120に割り込むことが
可能である。そうすると、DTPモジュールは割込み要
求を制御プロセッサ・モジュール110に対して出して
、新しいコマンドを通知する。可能ならば、その実行は
上述したように開始されることが好ましい。これを行な
うと、制mプロセッサ・モジュール110とデータ転送
プロセッサ・モジュール120はコマンドの処理に専念
できるが、望ましくないやりとりがコマンド間で行なわ
れないようにする配慮が必要である。
データ・アドレス割当てはかなり柔軟性をもたせている
。インタフェース150.160.170(と局所デー
タ・キャッシュ・メモリI40)の各々には、そこを通
してアクセスできるアドレスが範囲で割り当てられてい
る。これにより、データ転送プロセッサ・モジュール1
20は異なるデータ・ソースや宛先の場所ごとに別コマ
ンド定義をしなくても、コマンドのデータ要件を満足す
るように正しいインタフェースを制御することができる
上述の例では、コマンドはVMEバスを経由してホスト
から送られてきたが、これらのコマンドは前述の説明内
容に殆んど変更を加えないで、インタフェースのどれか
らでも簡単に出すことができる(あるいはコマンド・リ
ストの一部として保管しておくことができる) VME
ホストは1つの例として選ばれたものである。
コマンドに必要な総記列サイズがデータ・キャッシュ・
メモリ内の空き記憶域を越えるときは、制御プロセッサ
・モジュール110はコマンドをいくつかの小さな演算
に分割することによフて、使用可能な記憶スペース内で
コマンドを処理することを試みる。しかし、ある種のコ
マンドの場合は、これは不可能であるので、ホストにコ
マンドが失敗したことが通知される。
ホストがコマンドを送るのが早すぎる場合は、内部ソフ
トウェアFIFDが一杯になることがある。
これが全体の演算に影響するのを防止するために次のよ
うな配慮がなされている。第1は、DTI+コマンドF
IF(11510がC1’:IvマントIFO152(
l 〕奥行の少なくとも3倍になっていることである。
1つのホスト・コマンドは3つ以上のデータ転送コマン
ドになることは稀にしかないので、DTPコマンドFI
FOがホスト・コマンドの結果として一杯になることは
ない。
CPコマンドFIFOはほぼ満杯マークまでくると、V
MEインタフェース内の状況ピットがセットされる。
仮想メモリ・モデル 仮想メモリを採用する場合は、ホスト側の作業量が増加
するというやっかいな問題がいくつか生じる。これらの
問題が起こるのは、アプリケーションが物理メモリより
はるかに大きい仮想アドレス空間をアクセスできるから
である。仮想アドレス空間全体はディスク上にだけ存在
し、活動中のラフ1−ウェアかそのとき必要とする71
〜レス空間部分は実行時に必要に応して主メモリにペー
ジ・インされる。このことは、次のような種類の問題を
いくつか起こす原因になっている。
配列、または配列の部分がディスク上にだけ存在し、物
理メモリに存在しないことがある。さらに、高速化サブ
システムが必要とする配列部分がシステムで稼動中の他
のタスク用のスペースを作るために、スワップ・アウト
されることがある。
配列に割り当てられる物理アドレスは、コンピュータ始
動以後のすべての処理活動記録と共に変化するので、予
測ができない。
各仮想メモリ・アドレスは変換処理を受けて、特定のデ
ータ項目をアクセスするための物理アドレスが決まる。
この結果、配列がメモリ内で非連続になったり、分散し
たりする。
これらの問題を回避するには、データ転送プロセッサ・
モジュール120が配列をデータ・キャッシュ・メモリ
との間で転送している間、配列を物理メモリにロックし
ておく必要がある。理想的には、配列か連続しているの
が望ましい。配列を連続にできない場合は、データ転送
プロセッサ・モジュール120は転送の過程で分散/収
集操作を行なう必要がある。しかし、データが物理メ干
すのどこに分布しているかを知るには、分散/収集テー
ブルが必要になる。
高速化サブシステムとの間のデータ転送を組織化し、そ
れに伴なうメモリ管理機能を扱う仕事をアプリケーショ
ン・ソフトウェア(ポスト上で稼動する)にもたせるの
が好ましい。(実際には、アプリケーション・ソフトウ
ェアは、M A T Hライブラリ・ルーチンと装置ド
ライバがこれらの問題を扱うので、その大部分から解放
されている。業界標準配列プロセッサ・ライブラリ・ル
ーチンはデータを配列プロセッサとの間で受は渡しする
こと(ライブラリ・ルーチンを使用して)をユーザ側に
任せている。)ソフトウェア階層について以下説明する
が、ここではその違いについては触れないことにする。
上述した配列乗算例では、アプリケーション・ソフトウ
ェアは次の7ステツプを受は持っている。
l)配列へを高速化サブシステムに転送し、それをアド
レス静に保管する(高速化機構によって実行)。
2)配列Bを高速化サブシステムに転送し、それをアド
レスBBに保管する(高速化機構によって実行)。
3)高速化サブシステムが転送を終えるまで待フている
(高速化機構によって実行)。
4)アドレス静と■にある配列を一緒に乗算してその結
果をCCに保管する(高速化機構によって実行)。
5)高速化サブシステムが乗算コマンドを終えるまで待
っている(ホストによって実行)。
6)アドレスCCにある配列をホスト・アドレス空間に
転送する(高速化機構によって実行)。
7)高速化サブシステムが転送を終えるまで待っている
(ホストによって実行)。
このIA埋順序に関して注目すべき点をいくつか挙げる
と、次の通りである。
複数のコマン1〜を高速化サブシスデムに送ることがで
きる。これらのコマンドは待ち行列に置かれてから、処
理される。
ホストは転送と乗算との間の同期点を出して、すべての
データがデータ・キャッシュ・メモリに存在するまで乗
算が開始されないように配慮する。
高速化サブシステムを待たなくても、ホストが解放され
ているので他の仕事ができる。しかし、ホストのオペレ
ーティング・システムは、高速化サブシステムとの同期
をとるためには明示の待ち操作が必要になるのが普通で
ある。
ステップCとeは、転送と計算操作の同期化がオプショ
ンとして高速化サブシステム内で簡単に行なえるので、
省略してもよい。しかし、そうすると、業界の事実上の
標準と互換性を失うことになる。
データ・キャッシュ・メモリのメモリ割振りはCPマイ
クロコード監視ルーチンよりも高いレベルて扱われる。
配列はメモリ内でロックされ、データ断片化の問題はア
プリケ−シコンと高速化サブシステム間のインタフェー
ス・ソフトウェアによって取り扱われる。同期(待ち)
点が頻繁に現れると、メモリ・ブロックは短期間ロック
されるので、多重ユーザや多重タスク処理環境に与える
ストレスが軽減される。
コマンドの実行は次のようなステップで行なわれる。
(1)ホストは、コマンド・タイプと対応する数のパラ
メータを指定して、コマンド(転送または計算)を高速
化サブシステムのコマンド待ち行列(VMEインタフェ
ース・メモリに置かれている)に入れる。コマンドとそ
のパラメータが待ち行列に追加されると、ホストはデー
タ転送プロセッサ・モジュール120に割込みを引き起
す。これでホストは解放されるので、他の仕事に使用で
きる。
(2)ホストから割込みを受けると、データ転送プロセ
ッサ・モジュール120は現在の活動(遊体中かある種
の転送)を−時中止して、コマンI〜のタイプを調へる
。コマン1−には次のようなタイプかある。
コマンドが制御プロセッサ・モジュール110に対する
ものならば(つまり、計算)、コマン1−とそのパラメ
ータはコピーされて、コマンド・メモリ190内のCP
コマンドFIFO1520に入れられる。
制御プロセッサ・モジュール110で割込みが起こり、
そのコマンドが通知される。データ転送プロセッサ・モ
ジュール120は前の活動に復帰する。
コマンドが同期化コマンドならば、未処理のコマンドす
べてが完了するまで以後のコマンドは待ち行列から取り
出されない。これは、”WAIT FOR八Lへ AN
D N0TIFY ll0sT”コマンドをDTPコマ
ンド待ち行列に挿入することによって行なわれる。
(3)遊休状態にある間、データ転送プロセッサ・モジ
ュール120は絶えずCPコマンドFIFOを調べてい
る。この待ち行列が「空でない」状態になると、コマン
ドはそこから取り出され、操作が行なわれる。例えば、
ポストからデータ・キャッシュ・メモリへの転送の場合
には、データ転送プロセッサ・モジュール120はVM
εインタフェース内のDMAコントローラが配列を取り
出し、それをデータFIFOに書ぎ込むようにセットア
ツプする。転送が終ると、DTPモジュール120はコ
マンドをDTPコマンド待ち行列から取り除く。別のコ
マンドがFIFOにあれば、そのコマンドが実行され、
DTPコマンド待ち行列が空ならば、データ転送プロセ
ッサ・モジュール120は遊休状態に戻る。
(4)割込みを受けると、それに応じて制御プロセッサ
・モジュール110は遊休状態から出て、コマンドとそ
のパラメータをコマンド・メモリ内のソフトウェアCP
コマンドF I−F Oから読み取る。アドレス島とB
Bにある配列のベクトル乗算が完了すると、その結果の
配列はデータ・キャッシュ・メモリ内のアドレスCCに
残されている。コマンドの実行が終ると、そのコマンド
はCPコマンドFIFO1520から除かれる。他にコ
マンドがなければ、制御プロセッサ・モジュール110
は遊休状態に戻る。
上記説明において注目すべき点をいくつか挙げると、次
の通りである。
制御プロセッサ・モジュール+10とデータ転送プロセ
ッサ・モジュール120間の内部制御と同期化が物理メ
モリ・モデルに比べて大幅に減少する。データ転送プロ
セッサ・モジュール1’20は制御プロセッサ・モジュ
ール110よりも制御機能(またはコマンド経路指定機
能)が強化されている。
待ち行列はホスト連絡用に1つ、DTPの作業用に1つ
、CPの作業用に1つの3つが活動している。
高速化サブシステム側でデータ・キャッシュ・メモリに
残っている以上の記憶域が必要になる計算の場合には、
その計算を小さな部分に分割する仕事はホストが行なう
cpとFP間のやりとり 制御プロセッサ・モジュール110と浮動小数点プロセ
ッサ・モジュール130はアルゴリズムを実行するため
に、非常に緊密な関係でやりとりする。制御プロセッサ
・モジュール110はアドレスを計算し、データ・キャ
ッシュ−メモリと浮動小数点プロセッサ・モジュール1
30間のデータ転送を取り扱うのに対し、浮動小数点プ
ロセッサ・モジュール+30はデータ計算を行なう。こ
のやりとりは制御プロセッサ・モジュール110、デー
タ転送プロセッサ・モジュール120およびホスト・コ
ンピュータ間のインタフェースのタイプから独立してい
る。
ベクトル乗算コマンドでは、浮動小数点プロセッサ・モ
ジュール130はベクトル乗算を一度に8個の要素ずつ
行なう。従って、配列が大きいときは、制御プロセッサ
・モジュール110と浮動小数点プロセッサ・モジュー
ル130との間でやりとり(同期点とも呼ばれる)が数
千回行なわれることもあり得る。同期点は、この例では
、400nsごとに現れるので、これらを効率よくする
ことは非常に重要である。
大抵の場合、制御プロセッサ・モジュール110は浮動
小数点プロセッサ・モジュール130がデータ計算を行
なうよりも、アドレス計算とデータ転送を高速に行なう
能力をもっている。その逆の場合には、待たされる方が
反対になる。
2つのフラグ(cpw八IへとFPWAIT)が両ブロ
セ・アサ間の同期を14御することは上述した。FPW
AITフラグは次の組のデータを浮動小数点プロセッサ
・モジュール130との間で転送すると、制御プロセッ
サ・モジュール110によってクリアされる。このフラ
グをテストすることにより、浮動小数点プロセッサ・モ
ジュール130は同期点まで進むことができるか、制御
プロセッサ・モジュール110を待つ必要があるかを知
ることができる。CPWAITフラグはデータ計算を終
えると、浮動小数点プロセッサ・モジュール130によ
ってクリアされ、制御プロセッサ・モジュール110に
よってモニタされる。ハードウェアは、フラグがクリア
されてプロセッサが同期点まで進むことが可能になると
、同期点を通過した直後にフラグが自動的にセットされ
る構成になりている。
第22図LEFI’WAIT、l:PWAIT、FPD
ONE、およびCPDONEフラグがcpモジュール1
10とFPモジュール130間のデータ・インタフェー
スを調整するためにどのように使用されるかを状態図で
示したものである。
プロセッサ間のハンドシェイキング・ロジックとセマフ
ォは多種類のものが実現されているが、第22図に示す
状態図が非常に利点があり、新規なものである。
制御プロセッサ・モジュール110と浮動小数点プロセ
ッサ・モジュール130間のデータ転送は2重バッファ
になっているので、浮動小数点プロセッサ・モジュール
130がある組のデータを処理している間、制御プロセ
ッサ・モジュール110は別の組のデータを処理するこ
とができる。2重バッファリングは上述したようにソフ
トウェアで行なわれる。両プロセッサはバッファの交換
を制御する信号をもっており、これらは”AND″がと
られて両プロセッサが活動しているときだけ交換が行な
われるようにしている。
ベクトル乗算は以下のステップで行なわれる。
(同じ番号をもつステップは並列に行なわれるものであ
る。)これらのステップを図式化してフロチャートで示
したのが第33図である。
(1)制御プロセッサ・モジュール110はFPW八I
へフラグをセットして、ベクトル乗算マイクロコードが
実行される浮動小数点プロセッサ・モジュル130を始
動する。浮動小数点プロセッサ・モジュール130はF
PWAITフラグがクリアされるまで待たされる。
(2)制御プロセッサ・モジュール110は最初の8要
素を両配列から2重バッファ(これは物理的には上述し
たように、レジスタ・ファイル430の2バンクから構
成されている)に転送する。CPモジュールは次に、2
重バッファを交換して、浮動小数点プロセッサ・モジュ
ール130がデータをアクセスできるようにして、FP
WATTフラグをクリアする。
(3)制御プロセッサ・モジュール110は次の8要素
を両配列から2重バッファに転送して、FPW八Iへフ
ラグをクリアする。そのあと、CI’WAITフラグが
クリアされるまで(浮動小数点プロセッサ・モジュール
130によって)待たされる。
(3b)浮動小数点プロセッサ・モジュール130はF
PW八Iへフラグがクリアされてし)ることを見つける
と、2Mバッファの浮動小数点プロセッサ・モジュール
130側に保管されている8対の要素に対するベクトル
乗算の計算を開始する。8個の結果は2重バッファに書
き戻され、FPWATTフラグがクリアされる。この例
では、制御プロセッサ・モジュール+10はすでに終え
て、FPW^ITフラグをクリアしているので、浮動小
数点プロセッサ・モジュール130はバッファを交換し
て、即時に次の組の計算を開始することができる。
(4a)制御プロセッサ・モジュール110は8個の結
果を2重バッファからデータ・キャッシュ・メ干りに転
送し、そのあと次の8個の要素を両配列から2重バッフ
ァに転送して、FPWAITフラグをクリアする。その
あと、CPWAITフラグがクリアされるまで(浮動小
数点プロセッサ・モジコール130にj;って)待たさ
れる。
(4b)浮動小数点プロセッサ・モジュール130はF
PW八Iへフラグがクリアされているのを見つけると、
2重バッファの自分側に保管されている8対の要素に対
するベクトル乗算の副翼を開始する。
8個の結果は2重バッファに書き戻され、CPWAIT
フラグがクリアされる。この例では、制御プロセッサ・
モジュール110はすでに終えて、FPWAITフラグ
をクリアしているので、浮動小数点プロセッサ・モジュ
ール130はバッファを交換して、次の組の計算を開始
することができる。
(5)ステップ(4a)と(4b)がベクトル計算全体
が完了するまで繰り返される。
(6)ステップ(5)が終わったとき、最後の組の結果
はまだ2重バッファのFP側に残っているので、制御プ
ロセッサ・モジュール110はバッファを交換して、最
後の結果をデータ・キャッシュ・メモリに転送する。
ソフトウェア階層 第1図に示すようなシステムを動作させるときは、実行
時ソフトウェア環境全体をいくつかのレベルに分割する
ことが好ましい。これらのレベルのうちあるものは、異
なるプロセッサで実行される個々のコード・モジュール
として存在し、他のレベルは必要とされるインタフェー
スをいくつかのレベルに分割する形で存在している。こ
れらのレベルすべてとレベル間インタフェースはソフト
ウェア制御下に置かれ、アプリケーション要件に合って
いなければ、変更が可能である。
このソフトウェア構成は一般的に従来からあるものであ
る。しかし、本明細書に記載の新規事項の望ましい使い
方を分かりやすくするために、以下で説明しておくこと
にする。
第44A、44B、および44C図は第1図に示すよう
なシステムのプログラミング環境を示したものである。
図示の機能別ブロックの多くは他の図に示されているハ
ードウェア要素のそれと同じ番号で示されているが、第
44A、 44B、および44C図はプログラマから見
た機能別ブロック間の関係を示すことを目的としている
。従って、これらの図は必ずしも現実の電気的および論
理的接続に正Ultに対応していないことに7主意され
たい。
アプリケーションとライブラリ・ソフトウェア以下の説
明では、アプリケーション・ソフトウェアが例えば、F
ORTRANや°C゛のような高水準言語で書かれてお
り、標準ライブラリ・ルーチンを呼び出して、高速化サ
ブシステムを使用するものと想定している。これらの呼
出しは業界の事実上の標準に準拠している(つまり、全
体的に浮動小数点システムからのプロダクト命令セット
と互換性がある)。これらには、アプリケーション・デ
ータ区域と高速化サブシステムのデータ・キャッシュ・
メモリ間でデータを転送するルーチン、広範囲にわたる
計算、ある種の同期化ルーチンが含まれている。
このレベルでのソフトウェアはホスト・コンピュータ・
システム上で稼動し、必要とするアプリケーションを実
施する機能をもっている。これはライブラリとリンクさ
れて、高速化サブシステムをアクセスする。
ライブラリはアプリケーション・ソフトウェアから見て
、高速化サブシステムと結ぶインタフニスの働きをする
。ライブラリは数百に及ぶ共通算術演算/アルゴリズム
・ルーチン群と、高速化サブシステムを初期設定し、ア
プリケーションの配列やデータ・セットのデータ転送を
開始するルチン群から構成されている。大部分のライブ
ラリ・ルーチンは入力パラメータと機能番号を装置ドラ
イバに渡すだけの機能しかないが、ある種のパラメータ
有効性検査が必要ならば組み入れることも可能である。
本好適実施例では、装置ドライバとのインタフェースは
システム呼出しくSystemCalls)を経由する
。しかし、ある種のオペレーティング・システムでは、
呼出しタスクが再スケジューリングのために受渡しされ
るので、呼出しに大きなオーバヘッドがかかっている。
装置ドライバ 装置トライバはオペレーティング・システムの一部と考
えることができ、アプリケーション・ソフトウェアより
も高度の特権レベルで実行される。装置トライバの主な
役割は次の通りである。
1)コマン1〜とパラメータをライブラリ・ルーチンか
ら高速化サブシステムのMEインタフェース・メモリに
置かれているコマンド待ち行列に転送すること。
2)転送すべきデータ(仮想メモリ・システムにある)
がメモリにロックされていることを確かめること。この
ためには、転送が連続ブロックに分割されていて、小さ
く分割した複数の転送が実際に行なわれているか、分散
/収集テーブルが作られていて、高速化サブシステムに
渡されていることが必要である。
3)マイクロコードを複数のプロセッサにロートし、一
般的にはハードウェアとマイクロコートを既知の状態に
まですること(電源投入後か、新しいアプリケーション
かそれを使用する準備状態に置くため) ライブラリと装置トライバを新しいホスト上に移植する
最も困難な問題の1つは、装置1〜ライバである。これ
らは非常にオペレーティング・システムに依存する傾向
があるので、ホスト・システムの詳しい知識が要求され
る。任意的には、この種の問題を避けるために、物理メ
モリへのアクセスが許される場合には、ライブラリを直
接にハードウェアとのインタフェースにすることが可能
である。こうすれば、ドライバの必要性が回避される。
この方法で高速化サブシステムをアクセスすると、装置
ドライバを使用する場合よりも高速化される。しかし、
特に複数ユーザ環境では、安全保護が低下することにな
る。
マイクロコード監視ルーチン マイクロコード監視ルーチンは、高速化サブシステムに
おける転送と計算以外の残りのタスクを取り扱うもので
ある。その主なタスクは、ホストとの連絡、制御プロセ
ッサ・プロセッサ・モジュール110とデータ転送プロ
セッサ・モジュール120間の作業分担、および内部と
外部の同期化である。
監視ルーチンは装置ドライバとは反対側の待ち行列の最
後に置かれており、作業を待ち行列から取り出す。(こ
れを行なうには、作業か空の待ち行列から取り出されな
いj:うにするためのある種の待ち行列管理が必要にな
る。) どの程度複雑になるかは、どのプロセッサが使用される
かによって決まり、また、ホストにどれだけの仕事をさ
せるか、あるいは高速化サブシステムに負担させるかに
大きく左右される。物理メモリと仮想メモリ・モデルの
個所で行なったベクトル・乗算コマンドの説明から明ら
かなように、監視ルーチンはいろいろな手法を採用する
ことができる。
物理メモリ・アーキテクチャでは、監視ルーチンはデー
タ転送プロセッサ・モジュール120と制御プロセッサ
・モジュール110の間で分割される。データ転送プロ
セッサ・モジュール120の部分は、ホストと制御プロ
セッサ・モジュール110は直接にデータをやりとりで
きないので、コマンドの経路指定を行なうだけである。
制御プロセッサ・モジュール110は作業の分散化とハ
ントシェイキングを組織化する。
この分割は任意的である。別の(好ましさの点で劣るが
)アーキテクチャでは、制御プロセッサ・モジュール1
1Gをデータ転送プロセッサ・モジュール120のスレ
ーブ・プロセッサ(その反対でなく)として働かせるこ
とも可能である。
仮想メ干り・モデルでは、データ転送プロセッサ・モジ
ュール120がマスクであり、制御プロセッサ・モジュ
ール110がスレーブになりでぃた。
制御はその殆どがホスト側で取り扱われるので、監視ル
ーチンのDPT部分はコマンドの経路指定だけを扱えば
よい。制御プロセッサ・モジュール110が待ち行列管
理に関与するのはわずかである。
マイクロコード転送ルーチン(DTP)これらのルーチ
ンは外部インタフェースの1つとデータ・キャッシュ・
メモリ間のデータ転送を取り扱う。インタフェースは主
にVMEバス(とホスト・メモリ)に対するものである
ホスト・メモリとデータ・キャッシュ・メモリ間の転送
の大部分は、連続ブロック転送、分散/収集転送、n番
目の語ごと、行/列2次元配列アクセスといったように
、転送の種類か狭い範囲に限られている。
上記種類のいずれにも属さないタイプの転送はいずれも
、必要時に追加することができる。ここで注目すべき重
要72点は、ベクトル加算がベクトル乗算と同じ転送ル
ーチンを使用することである。これが便利なのは、上述
したように、データ転送ルーチン(計算ルーチンと異な
り)はベクトル加算とベクトル乗算を区別する必要がな
いからである。
マイクロコード転送ルーチン(cp) これらのルーチンはデータ・キャッシュ・メモリの1つ
と浮動小数点プロセッサ・モジュール130の高速レジ
スタ・ファイル間のデータの転送を取り扱う。
この場合も、データ・キャッシュ・メモリとレジスタ・
ファイル間の転送の大部分は、1ベクトル・インと1ベ
クトル・アウト、2ベクトル・インとlベタ1−ル・ア
ラI・、1ベクトル・インとスカシ・アウトといったよ
うに、転送の種類が狭い範囲に隔られている。これらの
転送タイプはブタ型(タイプ)に応じてさらに分類する
ことができる。ベクトルは単純または複素数データ型に
分けることかでき、もっと特殊化された転送タイプもい
くつかある(FFT、 畳み込みなど)。これらは汎用
ルーチンが使用されない場合に効率が向上する。
ここで注目すべき重要な点は、異なる演算で同じルーチ
ンが使用できることである。つまり、ベクトル加算は、
例えばベクトル乗算と同じ転送ルーチンを使用する。
マイクロコード計算ルーチン(FP) 各計算タイプごとに、(例えば)8つの加算、減算また
は必要な演算を行なうルーチンが用意されている。この
種のルーチンによって制御されるデータ転送は、高速レ
ジスタ・ファイル430、乗算機構450、加算機構4
40、およびスクラッチバット1610を含む密結合デ
ータ通路内で行なわれるものだけである。(このデータ
通路には、いくつかの局所バスもあり、その中には第1
オペランド局所バス431、第2オペランド局所バス4
32、結実用局所バス431、ループバック接続434
が含まれる。)この場合も、必要となるルーチンの多く
はいくつかの標準データ形式別に分類される。この分類
の1例として、ダイアシック・ベクトル演算(2・\り
1ヘル・インと1ベクトル・アウト、例:ベクトル加算
またはベクトル乗算)がある。従って、標準テンプレー
トをあるカテゴリ内の各計算タイプごとにセットアツプ
することが可能である。これにより、FPマイクロコー
1〜を高速に生成して、基本ベクトル演算の多くを取り
入れることができる。
上述したように、レジスタ格納演算指定子はマイクロコ
ード演算コマンドを補強するために使用できる。これに
より、ある計算タイプのカテゴリ内の個々のルーチンす
へてを、1つのルーチンとして書くことができる。その
場合は、制御プロセッサ・モジュール110は計算タイ
プを指定するために演算レジスタをロートしなりればな
らない。
短縮マイクロコート 上述したシステムは短縮マイクロコードを使用する機能
を備えているので、レジスタに格納されている演算指定
子をマイクロコード命令の残り部分と結合することがで
きる。これは実際には、本好適実施例では、上述したよ
うにFPモジュール130で使用されている。
この種の短縮マイクロコードは多重プロセッサ・システ
ムの数値処理部分で使用すると、特に利点が得られる。
その場合には、演算指定子短縮マイクロコードを使用す
ると、演算をオーバレイさせる必要がなくなる。
従って、例えば、2つの配列を3個目の配列上にマツピ
ングする演算の場合(例:C1−^i + Bi)には
、命令レジスタに演算指定子(例:”ADD”)をロー
ドしてから、この種の演算列を開始させることができる
。この演算列は、演算を直接に指定しなかフたコードで
記述されることになる。
従って、この機能を実時間拡張マイクロコードて使用す
ると、多重プロセッサ・システムにおりる2つのマイク
ロコー1〜・プロセッサ間のインタフェースにさらに高
度の柔軟性をもたせることかできる。
また、命令を数値処理部分にロートするとき要求される
バンド幅を単純化することも可能になる。従って、アル
ゴリズム切替えやタスクの再分割がもっと効率よくなる
兄上天プ王イl 第3八図および第3B図を参照して上述したように、本
発明はマイクロコード・システムのマルチウェイ分岐に
全く新しい機能をもたせている。第30図は、本好適実
施例においてアドレス境界の制約のないマルチウェイ分
岐を可能にするマイクロコード操作を示した概略図であ
る。
上述したように、本発明はマルチウェイ分岐をアドレス
境界の制約なしで行なうマイクロコード・コンピュータ
・システムの、アーキテクチャを提供するものである。
さらに、代替宛先間の増分を可変にしている。相対アド
レス指定機能をもつシ一ケンサが使用されている。
本好適実施例では、プログラム・カウンタがジャンプ宛
先の入力として使用されている。これはマルチウェイ分
岐を取り入れて、ベース宛先アドレスが異なるソースか
ら求められる多くの公知システムとは異なるものである
離散フーリエ 換実装f1mple+nantatio
n)第31図は、新規な方法で実現した離散フーリエ変
換の主要機能のいくつかを示す概略図である。
この例では、実現しようとする変換は高速フーリエ変換
(FFT)である。
図示の例は16点基数2複素数FFTである。勿論実世
界のFFTはより多くのデータ点を使用して実現されて
いるが、この例では、いくつかの重要な点を示している
。n点FFTには、log 2nステージが必要である
ので、1024点FFTには10ステージが必要になる
。各ステージでは、n/2バタフライ計算を行なう必要
がある。
バタフライ計算は次式で与えられる。
rO−C4+ [(f6*r8)] + (C7◆r9
)]rl=r5+[(f7*r8)]−(r6申r9)
]r2 −  C4−[(flur8)]  +  (
C7*r9)]r3 −  C5−[(f7*r8)]
  −(r6*r9)]ただし、 rOとrlは結果Cの実数部と虚数部である。
rlと「3は結果りの実数部と虚数部である。
C4とC5は入力Aの実数部と虚数部である。
C6とC7は入力Bの実数部と虚数部である。
「8と「9は係数にの実数部と虚数部である。
(角かっこ[コ内の式は形式的にけ同しであり、大かっ
こ〔)内の式も形式的には同じであることに注意された
い。) 第31図は4ステージFFT演算を図式化して示してお
り、各々の円は1つのバタフライ計算を表している。各
日の左側と結ばれている線はバタフライ計算に対する複
素数入力サンプル(AとB)がどこから得たものかを示
し、右側と結ばれている線は複素数の結果(CとD)が
どこに書き出されるかを示している。円内の数は複素数
フェーズ係数”k”である。
木刀法の好適実施例では、FFTアルゴリズムは第1図
に示すようなアーキテクチャにおいて、制御プロセッサ
・モジュール110と浮動小数点プロセッサ・モジュー
ル130間で分割することによフて実現されている。第
31図に示すように、アドレス計算は、特に非常に多数
のデータ点が必要になる場合は、意味がない。制御プロ
セッサ・モジュール+10はアドレス計算を実行して、
バタフライ計算のための正しいデータ・サンプルとフェ
ーズ係数の流れを作り出す。バタフライ計算は実際には
浮動小数点プロセッサ・モジュール130によって実行
される。
各ステージでデータ点のいくつかに付いている陰影バー
は、この実施例で得られる新規なデータ処理を示してい
る。各ステージで示されている陰影バーは1つの中間デ
ータ転送のセットを示している。従って、例えば、プロ
セスの開始時には、入力データの8複素数語(0語)が
ロード・インされている。このデータ量だけでも、4つ
のバタフライ計算を実行するのに十分な入力となる。
(係数も与える必要がある。)陰影バーは最初の組の4
つのバタフライに対して、C語xO1X1.X2、×3
、X4、X8、X9、Xl02Xllがロード・インさ
れルコとを示している。4つのバタフライ計算が実行さ
れ、8個の0語からなる結果が転送される。さらに、正
しい組のフェーズ係数をロードするには、追加の転送が
いくつか必要である。(最初のステジでは1つだけのフ
ェーズ係数が使用されているが、異なるフェーズ係数の
個数は各ステージごとに2倍になることに注意されたい
。従って、各組の4バタフライには少な(ともバス14
4の4サイクルが必要になる。2サイクルは8個の0語
の入力を持ち込むためのものであり、2サイクルは0語
の結果を再穆動するためのものである。(さらに、係数
を転送するために5番目の主サイクルが必要になる。、
) 8個の0語は512ビツト、つまり、16個のF語に相
当するので、これは意味のあるデータ・ブロックとなる
。しかし、この方法は木好適実施例で提供される高バン
ド幅を利用できるという利点がある。
さらに、データをこのサイズのブロック単位で転送する
と、同期点で使用されるCP/FPハンドシェイキング
・ロジックにとって好都合であることが実証されている
従って、FFTは次の2つの部分に分割されている。
制御プロセッサ・モジュール110は複素数データのア
ドレスとテーブル・シーケンス内のフェーズ係数位置を
、ステージとバタフライ数を関数として計算するソフト
ウェアを実行させる。アドレスが計算されると、制御プ
ロセッサ・モジュールで稼動中のプロセスは浮動小数点
プロセッサ・モジュール130に送り込まれるデータの
転送も制御する。浮動小数点プロセッサ・モジュール1
30がバタフライ計算を完了すると(そして同期点にあ
ることを示すようにフラグをセットすると)、制御プロ
セッサ・モジュール110は結果を読み取って、それを
保管する。制御プロセッサ・モジュール110はバタフ
ライ計算が行なわれていることを知らない。同期点で浮
動小数点プロセッサ・モジュール130とデータをやり
とりするたりである。
FPモジュール130は、式が上で定義したようにコー
ディングされている。QL純なリニア命令列によってバ
タフライを計算するソフトウェアを実行する。このルー
チンは正しい入力データと係数を得るために必要な複雑
なアドレス計算を知らなくてもよい。従って、このルー
チンはCPモジュール110で稼動するソフトウェアか
ら完全に切り離して書くことができる。
この分割が利点としてもつ特徴は、各ステージのFT’
プロシージャが最後の2つのステージまでそっくり同じ
にできることである。(最後の2ステージで実行される
バタフライ計算はより密に結合した0語入力を使用する
ので、ある種の中間結果を、レジスタ430に保持され
ているデータとしてFP内で前送りできる。) この例は、プロセッサ間を独立にできることも示してい
る。FPモジュール130によって実行されるプロシー
ジャは非常に単純に定義されているので、浮動小数点プ
ロセッサ・モジュール130が異なる言1算機構チップ
・セット上に再設計された場合は、この単純なバタフラ
イ・ルーチンだけを変更すればよいことになる。このこ
とは再アセンブルする場合も同じである。
CPとFPのソフトウェアの実行は並列に行なわれ、ア
ルゴリズムが実行される速度が最も遅い部分で決まるよ
うにパイプライン化されている。
FP命令列はこのバタフライ計算を実行するに当たり、
FFTにおける最後の2つのバタフライを除くすべてに
ついて同じままである。従って、例えば、1024点の
複素数FFTでは、FPモジュールは最初の8ステージ
の計算を行なうために、同じ命令列512を実行するこ
とになる。そめあと、FFTが最後の2ステージに対し
て異なる命令列の実行を開始する。
重FPモジュール付きFFT もう1つの特に魅力のある構成は、4個のFP千ジュー
ル130を備えた第10図に示すようなシステムである
性能に影響を与える主要要因は、バタフライ語算時間と
「バタフライ・カルキュレータ」 (例えは、FPモジ
ュール130)に対するデータ転送バント幅の2つがあ
る。得られる性能はこれらのパラメータのどちらが満足
されなかったかによって決まる。以下の泪算例はIK複
素数FFT、基数2に関するものである。
バタフライ計算スルーブツト 基数2のFFTバタフライ」算式は、部分結果が再使用
可能であるとき10回の演算(4回の乗算と6回の加算
/減算)からなっている。第1図(または第10図)に
示すようなシステムでは、この計算は、式が^LUと乗
算機構を並列に使用することに役立たないので、lOサ
イクルを要する。42nsサイクル時間を使用すると、
バタフライ計算には420nsが必要になる。実際のサ
イクル時間は6回のALU演算では52ns、4回の乗
算では42ns (総計330ns )を必要とするが
、同期化、パイプライン始動、などのオーバヘットを含
めると、400nsになる。従って、「Pモジュールは
400nsでバタフライを引算することができる。
転送バント幅 各基数2のバタフライ計算には、2個の複素数サンプル
と複素数係数(または反復係数)が必要である。この計
算からは、2個の複素数結果が得られる。総計では、5
個の複素数または10個の浮動小数煮詰をバタフライご
とにデータ・キャッシュ・メモリ140とFPUの間で
転送する必要がある。キャッシュ・メモリのバンド幅は
毎秒320MBつまり、80M浮動小数点語である。こ
のデータ速度は8個の連続する語が1つのメモリ・サイ
クル(100ns )で転送できるときだけ達成される
。しかし、FFTを実行させるときは、これは常に可能
である。メモリのバンド幅を最も効率よく使用する方法
は、メモリ・サイクル当たりに4バタフライのデータを
転送することである。従って、4回のバタフライ計算に
は5回のメモリ転送サイクルが必要になる。
1に複素数FFT(基数2)は5120個のバタフライ
からなっている。このFFTに対してデータ転送速度で
許容される最小時間は、従って、(5120/4)45
會100ns−640マイクロ秒によって与えられる。
しかし、このスルーブツト見積値は、最後の2ステージ
の効果を考慮に入れると、修正する必要がある。ステー
ジロー2で4個のバタフライ網算の組から得た結果の各
データ・セラ1−(8個の0語)は、中間結果をメモリ
に戻さなくても、ステージn−2の4バタフライとステ
ージn+1の4バタフライを計算するのに十分である。
しかし、追加の組の係数が第2ステージで必要になる。
この正味の結果は6メモリ・サイクルだけで8バタフラ
イを計算することができる。(この手法はり。
RabinerとB、Gold共著「デジタル信号処理
の理論と応用」のp、577〜p、599に詳しく説明
されている。) 1に複素数FFT(基数2)は5120個のバタフライ
からなるので、この2ステージFFTアルゴリズムでデ
ータ転送速度によって規制される最小時間は次の通りで
ある。
(512078)Ili÷1oOns・384マイクロ
秒この時間は見積転送時間である400マイクロ秒以下
である。従って、使用可能なメモリのバンド幅は4つの
FPモジュールを組として一緒に稼動させるのに適して
おり、400マイクロ秒でFFTが達成される。
必要とされるバンド幅を更に減少するために使用できる
手法は次のようにいくつかある。
(1)あるステージ内で使用される異なる係数の個数は
変化する。例えば、ステージ1はすべてのバタフライで
1つの係数値を使用し、ステージ2は2係数を使用し、
ステージ3は4係数を使用しく以下同じ)、ステージ1
0は512係数を使用する。
それより前のステージでは、ステージの開始時に(すべ
てのバタフライででなく)係数を初期設定するので、メ
モリ幅が大幅に節約される。
(2)4つのFFTが並列に実行される場合は(その結
果、1つの高速化サブシステムにおける4つのFPモジ
ュール+30の各々は、1つ0FFTの174ではなく
個々のFl・Tを副葬するために使用される)、係数を
4つのFPずへてに同報通信することができる。これに
より、転送の係数部分て使用されるメモリのバンド幅が
節約される。
(3)2ステージ・バタフライ計算は3または4ステー
ジに拡張することが可能であるが、制約要因として、新
しいデータ、現在のデータ、および中間記憶域を保存す
るFPのレジスタ・ファイルのサイズがある。例えば、
4ステージ・アルゴリズムには16個のサンプルと8個
の係数が必要であり、32回のバタフライ計算後16個
の結果が得られる。
この結果、比率は32バタフライ当たり10メモリ・サ
イクルとなり、キャッシュ・メモリのバンド幅で160
マイクロ秒ごとにFFT計算をサポートできる。
これらの考え方はすべて、必要ならば基数4または基数
8のFFTで採用可能である。実際には、広幅キャッシ
ュ・バス・アーキテクチャは基数がもっと大きいアルゴ
リズムで採用すると特に利点が得られる。
さらにγ1目すべきことは、バタフライ足代とステージ
の関係が異なるとしても、他の整数変換も同じ方法で複
数のバタフライ計算ステージに分割することができるこ
とである。従って、データ操作に関して上述した事柄は
他の離散整数変換にも応用が可能である。
ヒストグラム・アルゴリズム 装 第32図は第16図に示すようなハードウェアでヒスト
グラム・アルゴリズムを実行させる方法を示したもので
ある。
第16図に示すように、数値プロセッサ・サブシステム
の計算部分におけるデータ通路は乗算機構440と加算
機構450だけでなく、データ通路のこの部分と密結合
しているスクラッチパッド・メモリ1610も含んでい
ることが好ましい。(このメモリはアドレス・ロジック
1611を備えている。)このスクラッチパッド・メモ
リ1611があると、モジュール110はアドレスを計
算して、データを局所的に取り出すことができる。この
メモリ161Oがない場合は、FPモジュール130は
CPモジュール11Oにアドレスを与える必要かあり、
cPそジュル110の方は参照機能を実行して、その結
果をトeモジュール130に返してやる必要がある。こ
のためには、追加のハンドシエイキングが必要になるの
で、効率が非常に低下することになる。従って、この小
規模のデータ通路部分のアーキテクチャを、上述したよ
うに数値処理モジュールとのインタフェースで使用され
る大規模のデータ処理アーキテクチャと協働させると、
利点が得られる。
本好適実施例では、スクラッチパッド・メモリ161O
は3通りの使い方が可能である。超関数の計算などのア
ルゴリズムの場合にテーブル・メモリとして使用する方
法、局所スタックとして使用する方法、結果を収集する
ためにヒストグラム・アルゴリズムで使用する方法であ
る。
このスクラッチパッド・メモリをスタックとして使用で
きることは、サブシステムの計算部分の縁にあるデータ
・インタフェースをアーキテクチャ全体にとフて非常に
有利な方法で定義でき、そのインタフェースにあるレジ
スタ・ファイルにスタックとして使用できる機能をもた
せる必要がなくなるので、非花に有利である。
共通高水準言語(FORTRANなど)で書いたルーチ
ンをマイクロコードにコンパイルすることは、マイクロ
コード・プログラムを生成する重要な手段である。ベク
トル演算を効率のよいマイクロコードにコンパイルする
ことは比較的容易である。
しかし、スカシ演算もかなりの部分が常にあるので、こ
れらをコンパイルすることは非常に厄介である。
スカシ・ルーチンをマイクロコードにコンパイルする作
業は、スタック・ベースのアーキテクチャが仮想計算機
として使用できる場合には特に行ないやすいことが明ら
かにされている。(従来のこれを行なうには、逆ボーラ
ンド・ロジックに変換する必要がある。) このスクラッチパッド・メモリを使用して結果を累積す
ることは、ヒストグラム・アルゴリズムにとっては好都
合である。ヒストグラム・アルゴリズムを実行させると
きは、ヒストグラム・データをテーブル・メモリに累積
することができる。
これにより、データ・キャッシュ・バスへのアクセス・
ロートを追加することから避りられる。
密結合局所メ干りを使用してヒストグラム・データを収
集することは、画像処理アルゴリズムで特に利点がある
。多くの公知画像処理アルゴリズムはヒストグラム計算
を使用しているが、大量のデータを扱う必要があるので
、キャッシュのバンド幅に対する需要が非常に大きくな
る。本発明によれば、ヒストグラム・アルゴリズムを効
率よく使用することが可能になる。
第32図は、多数の画像処理問題に応用できる比較的代
表的なヒストグラム・プロシージャの簡単な例を示した
ものである。同図から明らかなように、ヒストグラム・
テーブルはこのプロシージャの内側ループが繰り返えさ
れるたびにアクセスされる。従って、ヒストグラム・テ
ーブル用に密結合記憶域を用意すると、この種のプロシ
ージャで要求されるバンド幅を大幅に節約することがで
きる。
プレビュー・そ−ドのパイプライン 式アルゴリズム 本明細書に記載されている重要な開示事項は、プレビュ
ー・モードでソフトウェア制御の2 fi /にッファ
を使用してパイプライン方式アルゴリズムを実行させて
、同期点を通過する平均スループットを維持する方法で
ある。
第33図は第20図に示すようなソフトウェア制御2重
バッファを備えたハードウェアでパイプライン方式アル
ゴリズムを実行させる方法を示したものである。
上述したように、ソフトウェア制御の2重バッファを使
用すると、高速計算機構と高度の制御間のクロック境界
を越えるときに非常に好都合である。しかし、注目すべ
きことは、ソフトウェア制御の2重バッファの利点を広
範囲にわたるパイプライン方式のアルゴリズムにも生か
すことができることである。
2重バッファリング用の好ましいサブシステムはソフト
ウェアで分割された2重ポート・メモリを使用している
ので、メモリの上半分を一方のプロセッサに割り振り、
下半分を他方のプロセッサに割り振ることができる。(
この割振りは曳方咥プロセッサが切替え準備状態にある
ことを示すそれぞれのフラグをセットすると、切り替え
られる。) このメモリをアクセスすると、追加ビットはそのアクセ
スに「物理」、「論理」または「プレビュー」のタグを
付ける。物理アクセスは全メモリ内のリテラル・アクセ
スと解釈され、2重バッファリングは無視される。論理
アクセスは2重バッフアイリング切替え状態によって判
断される追加アドレス・ビットによって補充されている
プレビュー・アクセスは読取りだけに使用され論理アク
セスでアクセスされる側とはl 、kt (7)メモリ
・バンクに移る。プレビュー・アクセスを使用すると、
パイプライン方式アルゴリズムにおける同期点でのデー
タ流れの非効率が避けられるので非常に有利である。
例えば、標準2重バッファリング方式が第1図に示すよ
うなシステムで使用される場合は、スワップを行なうた
びに、それが空になる前にデータ・パイプラインを再び
一杯にする必要がある。この実施例では、サンプルのベ
クトル演算は浮動小数点プロセッサが各バッファ分のデ
ータに対して8回の計算を行なう必要がある。このこと
は、3サイクル分のオーバヘッドが使用されて、8語の
データごとにバイブラインを一杯にし、空にすることを
意味する。その結果、全体の平均処理時間に付加される
割合が高くなることは明らかである。
木明細書に記載されている新規事項の1つは、「ソフト
」2重バッファリングを使用してこの問題を解決したこ
とである。プレビュー・モードを使用すると、一方のポ
ートが他方の半分側にあるデータを調べてから、それを
交換することができる。このモードによると、制御プロ
セッサがその作業を終えて、続行前にバッファ交換を待
っているとき、浮動小数点プロセッサのバイブラインを
常に一杯にしておくことができる。
2重バッファリングは、多重プロセッサ・システムにお
いて数値プロセッサと大容量キャッシュ・メモリ間のイ
ンタフェースにあるレジスタ・ファイルで使用するのが
好ましい。レジスタ・ファイルを分割すると、キャッシ
ュ・メモリ+40でブタ衝突が起こるのを回避できる。
この実施例では、5ポート付きレジスタ・ファイル43
0が2重バッファのメモリとなるように使用されている
。しかし、他の実現方法の使用も可能である。
本発明によれば、ハードウェアで2重バッファリングを
行なう従来のシステムよりも柔軟性に富んだシステムが
速度を損なうことなく得られる。
特に、「プレビュー」モードを使用すると、この2重バ
ッファリングを取り入れたシステムを多数のパイプライ
ン環境で汎用インタフェース・アーキテクチャとしてイ
吏用することができる。
性能制約要因 性能最大化の基本的制約要因となるものを挙げると、次
の6つがある。
入出力バント幅(これは本好適実施例では40MB/秒
になっている)。
データ・キャッシュ・メモリ・バンド幅(これは本好適
実施例では320MB/秒になりている)。
浮動小数点プロセッサ・モジュール130の保持レジス
タとレジスタ・ファイル間のデータ転送速度。これは現
在はデータ・キャッシュ・メモリ・バント幅以下になっ
ている。
アドレス計算速度(これは本好適実施例では、毎秒10
0万回が代表例であるが、実行されるアルゴリズムに非
常に左右されやすい)。
持続浮動ノ」1数点計算速度。本好適実施例では、単精
度「加算」の場合、これは28nsサイクル時間以下で
ある(より高速の構成要素が利用可能になれば、向上の
余地がある)。単精度乗算の場合は42nsサイクル時
間以下である。
並列に使用される数値処理モジュールの数。
性能の評価 特定のアルゴリズムでその性能を決める要因は以下に挙
げる条件のどれが該当するかによって非?Kに左右され
る。
ソース・データと結果がどこに保管されるか・性能はデ
ータがデータ・キャッシュ・メモリに保管されるとき最
大化される。データがオフボードに保管される場合は、
データ人出力転送が制約要因となる可能性が大ぎい。達
成可能な入出力速度は通常、関与する周辺装置とサポー
トされる転送の種類(単一かブロックか)によって決ま
る。入出力速度が毎秒40MBであると、計算速度は3
個の数がすべての計算に関係するような4算では、3.
3MFLOPSまでである。
データと算術演算との比率:浮動小数点計算速度または
データ転送速度がボトルネックとなるかどうかは、これ
によって決まる。計算量の割にデータが少ないアルゴリ
ズム(例: FFT )は浮動小数点プロセッサ・モジ
ュール130の速度が制約要因となる。データ転送に制
限されるアルゴリズムの例としては、1回の算術演算に
3個のデータ値を必要とするベクトル加算がある。
データ・キャッシュ・メモリ内のデータのレイアウト・
データ・キャッシュ・メモリと浮動小数点プロセッサ・
モジュール130間の最大転送速度が得られるのは、8
個の連続するF語(つまり、各々が32ビツトからなる
浮動小数煮詰)が−緒に転送されるときだけである。あ
るアルゴリズムでのデータがこのブロック転送機能を利
用できない場合は、正味データ転送速度は低下すること
になる。これを表にまとめると、次の通りである。
F語の個数   1還盈1 8     80 MFF語秒 大部分のアルゴリズムはより高速の転送速度を利用する
ことができる(実際には、FFTでさえも上述したよう
に高速の転送速度を利用できる)。
操作の並行:これにより、オフボード人出力転送を浮動
小数点計算と並行に行なうことができる。アルゴリズム
(またはアルゴリズムの列)がこの機能を使用できる場
合は、入出力転送速度が相対的に遅くても、全体の引算
速度は影響を受りることはない。
複数のFP、アルゴリズムが割算バウンド(束縛)であ
り、メモリや人出力のバンド幅に制限されないときは、
FPを複数にすると、メモリ・ハンド幅を越えない限り
、1つの浮動小数点プロセッサ・モジュール130の性
能は倍になる。例えば、FPが4つのときは、ムク1〜
ル加算性能は向上しないが、FFTは4倍の速度で計算
される。
以上説明したことから理解されるように、本明細書中に
開示した新規事項は広範囲にわたって応用することがで
きると共に、広範囲にわたって改良または変形が可能で
ある。従って、特許請求の範囲に記載された内容は上述
した各種実施例に制約されるものではなく、またこれら
の実施例に関する記載に制約されるものでもなく、特許
請求の範囲に明確化された請求事項のみに制約されるも
のである。
【図面の簡単な説明】
第1図は新規の3プロセツサ・アーキテクチャをもつ数
値高速化サブシステムの概要を示すブロック図である。 第2八図は本発明の好適実施例における制御プロセッサ
・モジュール110のいくつかの主要m分の構成を示す
ブロック図であり、第2B図は木発明の好適実施例にお
ける制御プロセッサ・モジュール110で使用されてい
るマイクロ命令形式のフィルド割振りを示す概略図であ
る。 第3A図は本発明の好適実施例におけるデータ転送プロ
セッサ・モジュールのいくつかの主要部分の構成を示す
ブロック図であり、第3B図はデータ転送プロセッサ・
モジュールにおいて定数アドレスを選択的に駆動してシ
ーケンサ・バス31S上に送出するために使用されるロ
ジックの詳細を示すブロック図であり、第3C図は本発
明の好適実施例におけるデータ転送プロセッサ・モジュ
ール120で使用されているマイクロ命令形式のフィー
ルド割振りを示す概略図である。 第佃、 4B、 IIcおよび4D図は木発明の好適実
施例において浮動小数点プロセッサとして使用される数
値処理モジュール130のいくつかの主要部分の構成を
示す図であり、第4A図は制御プロセッサ・モジュール
110とのインタフェースのいくつかの主要部分を示す
ブロック図、第4B図は木発明の好適実施例におりる浮
動小数点プロセッサ内のデータ通路のいくつかの主要部
分を示すブロック図、第4C図は木発明の好適実施例に
おける浮動小数点プロセッサ内の制御ロジックのいくつ
かの主要部分を示すブロック図、第4D図は本発明の好
適実施例における数値プロセッサ・モジュール130に
使用されているマイクロ命令形式のフィールド割振りを
示す概略図である。 第5図は本発明の好適実施例におけるデータ・キャッシ
ュ・メモリのいくつかの主要部分の構成を示すブロック
図である。 第6図は本発明の好適実施例におけるホスト・インタフ
ェース・ロジックの構成を示すブロック図である。 第7図は本発明の好適実施例におりるデータ・バイブ・
インタフェース・ロジックの構成を示すブロック図であ
る。 第8図は本発明の好適実施例におけるGIPインタフェ
ース・ロジックの構成を示すブロック図である。 第9八図はアブイケーション向き数値処理モジュール(
「アルゴリズム高速化機構」)130゛を含む数値高速
化サブシステムの概要図であり、第9B図はアルゴリズ
ム高速化機構130°のアーキテクチャが汎用浮動ノコ
1数点モジュール130のそれとどのような違いがある
かを示す概略図である。 第10図は複数の数値プロセッシング・サブ・サブシス
テムを含むサブシステムを示すブロック図である。 第11図は本発明の好適実施例における制御プロセッサ
・モジュール(とデータ転送プロセッサ)の一部である
整数プロセッサ機構(ユニット)のいくつかの主要部分
の構成を示すブロック図であ第12図は本発明の好適実
施例におりる制御プロセッサの一部であるアドレス生成
機構のいくつかの主要部分を示すブロック図である。 第13図は本発明の好適実施例におりる制御プロセッサ
(とデータ転送プロセッサ)の一部であるシーケンサの
いくつかの主要部分の構成を示すブロック図である。 第14A図は16ビツト・アドレス生成機構(または他
の低解像度サブプロセッサ)が32ビツト・システムで
使用されるようにするために、本発明の好適実施例で使
用されているハードウェアをボす概略図であり、第14
8図は低解像度データ・ソースを高速システムで使用す
るために、本発明の好適実施例で使用されているハード
ウェアの各種動作モードで使用される入力を示す表口で
ある。 第15図は本発明の好適実施例における制御プロセッサ
・モジュールとデータ転送プロセッサ・モジュール間の
インタフェースを示す概略図であ第16図は本発明の好
適実施例における浮動小数点プロセッサ内の数値演算用
の一部データ通路のいくつかの主要部分の構成を示すブ
ロック図である。 第17図は非レジスタ格納マイクロコード・ビットのセ
ットアツプ時間を短縮するために、本発明の好適実施例
において浮動小数点プロセッサ内で使用されるロジック
を示すブロック図である。 第18図は慣例の二重バッファのハードウェア構成およ
び制御の形態を示すブロック図である。 第19図は外部で制御されるビットの1つで2重ポート
・レジスタ・ファイルが使用される別の公知2重バッフ
ァリング手法を示すブロック図である。 第20図は本発明の好適実施例の新規2重バッファリン
グがどのように構成され、どのようにソフトウェアで制
御されて、複数の任意選択アクセス・モードが得られる
かを示す概略図である。 第21図は256ビツト幅のキャッシュ・バスとのイン
タフェースとなる保持レジスタと64ビツト幅であるレ
ジスタ・ファイル間をクロ・ンク境界にまたがって行な
われるデータ転送のために、本発明の好適実施例で使用
されるロシ・ンクを示す概略図である。 第22図はcpモジュール+10 とFPモモニ、−ル
130間をインタフェースで結ぶために、本発明の好適
実施例で使用されるハントシエイキング・ロシ・ンクの
状態図である。 第23図は第9図または第10図に示すようなシステム
において複数のFPまたは複数のアルゴリズム高速化機
構(またはその両方)から1つを選択するために、本発
明の好適実施例で使用される制御定義を示す概略図であ
る。 第24.25および26図はキャッシュ・メモリとのデ
ータ・インタフェースのアーキテクチャを示すブロック
図である。 第27図は複数の装置の書込み可能制御記憶機構とのイ
ンタフェースとなる直列ループにおいてマイクロコート
の転送とローディングの制御を効率化するために、本発
明の好適実施例で使用されるバー1−ウェア構成を示す
概略図である。 第28図は複数のプロセッサのいずれかに、あるいはあ
る特定のプロセッサ群にマイクロコーF ’cロードす
ることを可能にするために、本発明の好適実施例で使用
される直列ループ構成を示す概略図である。 第29図は多重プロセッサ・システムにおける数値プロ
セッサの制御記憶機構に直列にまたは並列に書き込むこ
とを可能にするために、本発明の好適実施例で使用され
るロジックを示す概略図である。 第30図はアドレス境界の制約なしでマルチウェイ分岐
を可能にするために、本発明の好適実施例で使用される
マイクロコード動作を示す概略図である。 第31図は離散フーリエ変換アルゴリズムを実行させる
方法を示す概略図である。 第32図は第16図に示すようなハードウェアでヒスト
グラム・アルゴリズムを実行させる方法を示すフローチ
ャートである。 第33図は第20図に示したようなソフI・ウェア制御
2重バッファを含むバーI〜ウェアてバイブライン・ア
ルゴリズムを実行さゼる方法を示すフロチャートである
。 第34.35.36および37図は、それぞれか第7図
に示すようなデータ・パイプ・インタフェースを備えて
いる第1図に示すような複数のサブシステムの構成を示
す概略図である。 第38A図は主ポートの好ましい物理的レイアウトを示
す配置図であり、第38B図は第38A図の主ポート上
にホストされた子ポートの好ましい物理的レイアウトを
示す配置図であり、第38B図のポートはFPモジュー
ル130の主要構成要素が搭載されており、これらの2
ボードが一緒になって、第1図に示すような完全なシス
テムが得られることを示している。 第39図は浮動小数点プロセッサ・モジュール内のスタ
ック・レジスタの好適実施例を示すブロック図である。 第40A図は制御プロセッサ・モジュール+10(とデ
ータ転送モジュール120)内のシーケンサと共に本発
明の好適実施例で使用される一部の支援ロジックを示す
ブロック図であり、第40B図はマルチウェイ分岐操作
時に割込みを引き起こすマイクロ命令列を示す概略図で
ある。 第41図はホスト・コンピュータと、画像処理サブシス
テムと、少なくとも2つの数値高速化サブシステムとを
備え、これらが主バスと2つの高バンド幅バックレーン
・バスで結ばれているコンピュータ・システムを示す概
略図である。 第42図は第1図に示すようなシステムにおいて2つの
配列を一緒に(要素単位で)乗算し、その結果を第3の
配列に格納するステップの涜れを示すフローチャートで
ある。 第43図は1つまたは2つ以上の数値処理モジュールと
同じ広幅データ・バス上に高速キャッシュ・メモリを備
えたサンプル・システムを示すブロック図である。 第44^、44Bおよび44C図はcp%DTP、およ
びFPのそれぞれのプログラミング環境を示す概略図で
ある。 第45図は制御記憶機構から取り出したマイクロコード
のフィールドに命令レジスタの内容を代入するロジック
を示すブロック図である。 第46図は語アドレスの偶数/奇数構造が缶詰転送操作
からどのようにして得られるかを示す説明図である。 第47図は語アドレスの偶数/奇数構造が缶詰転送操作
から得るとき使用されるタイミング構成を示す信号波形
図である。 CD八へス112

Claims (1)

  1. 【特許請求の範囲】 1)各制御ストアからも命令シーケンスを実行するよう
    に、各々、接続された複数のプロセッサと、 前記制御ストアのそれぞれに接続された並列ポートをそ
    れぞれ有し、および直列入力および出力ポートを、それ
    ぞれ、有する複数の直列/並列レジスタと を具え、前記直列ポートを直列に接続して、前記複数の
    制御ストアに直列ループ・インタフェースを与えるよう
    になし、 データを可及的迅速にシフトする第1モード、およびデ
    ータを前記各制御ストアに並列にロードする第2モード
    において、前記直列/並列レジスタを選択的に動作させ
    ることができるようにした2)前記プロセッサのうちの
    少なくとも1つは、各ローカル・データ・キャッシュ・
    メモリへのデータ・アクセスに対する優先権を持ち、お
    よび前記プロセッサによって、前記直列ループから前記
    直列/並列レジスタを介して、または前記キャッシュ・
    メモリからのいずれかによって、前記プロセッサの前記
    各制御ストアに命令をロードすることができるようにし
    たことを特徴とする請求項1記載のマルチプロセッサ・
    サブシステム。 3)前記直列/並列レジスタの各々は直列ポートを有し
    、当該直列ポートを前記直列/並列レジスタの前記直列
    インタフェースを介して、前記直列/並列レジスタの少
    なくとも他の1つにおける各直列ポートに直列に接続し
    、および前記直列/並列レジスタのうちの少なくとも1
    つは当該レジスタの前記直列入力ポートを有し、当該直
    列入力ポートを、前記直列/並列レジスタの少なくとも
    他の1つの前記各直列入力ポートに並列に接続して、前
    記直列ループを構成したことを特徴とする請求項1記載
    のマルチプロセッサ・サブシステム。 4)前記プロセッサのうち、相互に類似する複数のプロ
    セッサを、相互に類似する各拡張モジュール上に取り付
    け、および前記拡張モジュールのうちの少なくともいく
    つかを、残余の前記拡張モジュールから物理的に分離可
    能になし、および前記拡張モジュールのうちの少なくと
    も1つが、前記直列ループ内において、前記拡張モジュ
    ールのうちの別の1つの上において前記直列/並列レジ
    スタのうちの1つと並列に配置された直列/並列レジス
    タを含むように前記直列ループを構成したことを特徴と
    する請求項1記載のマルチプロセッサ・サブシステム。 5)データ・キャッシュ・メモリと、 非同期でかつ同時に動作可能な制御プロセッサおよび数
    値プロセッサと を具え、 前記数値プロセッサをマイクロコード化し、当該数値プ
    ロセッサにおいて書き込み可能な制御ストアからの命令
    を実行し、 および前記制御ストアによって、前記数値プロセッサに
    よる前記データ・キャッシュ・メモリへのアクセスを制
    御し、および前記数値プロセッサを指令して命令シーケ
    ンスを実行することが可能であつて、 および前記数値プロセッサを、キャッシュ・バスによっ
    て前記データ・キャッシュ・メモリに接続し、前記キャ
    ッシュ・バスは128ライン以上の幅を有するものとな
    し、および前記制御プロセッサによって前記数値プロセ
    ッサを指令して、前記キャッシュ・バス上に受信された
    データを前記数値プロセッサの前記書き込み可能な制御
    ストアにロードすることができるように構成したことを
    特徴とするプロセシング・システム。 6)前記書き込み制御ストアを、少なくとも100ビッ
    ト幅に構成したことを特徴とする請求項5記載のマルチ
    プロセッサ・サブシステム。 7)前記書き込み制御ストアを、少なくとも100ビッ
    ト幅に構成し、および前記キャッシュ・バスを前記書き
    込み可能な制御ストアの幅の2倍以上の幅になしたこと
    を特徴とする請求項5記載のマルチプロセッサ・サブシ
    ステム。
JP1069399A 1988-03-23 1989-03-23 マルチプロセッサ・サブシステム Pending JPH0228864A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB8806855A GB2217055A (en) 1988-03-23 1988-03-23 Loading microcode
GB8806869A GB2215884A (en) 1988-03-23 1988-03-23 Parallel load via wide bus
GB8806869 1988-03-23
GB8806855 1988-03-23

Publications (1)

Publication Number Publication Date
JPH0228864A true JPH0228864A (ja) 1990-01-30

Family

ID=26293675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1069399A Pending JPH0228864A (ja) 1988-03-23 1989-03-23 マルチプロセッサ・サブシステム

Country Status (3)

Country Link
US (1) US5056015A (ja)
EP (1) EP0334625A3 (ja)
JP (1) JPH0228864A (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2633414B1 (fr) * 1988-06-27 1993-07-09 Bull Sa Systeme informatique a interconnexion centrale
US5210847A (en) * 1989-05-19 1993-05-11 Compaq Computer Corporation Noncacheable address random access memory
DE69123987T2 (de) * 1990-01-31 1997-04-30 Hewlett Packard Co Stossbetrieb für Mikroprozessor mit externem Systemspeicher
US5412785A (en) * 1990-04-09 1995-05-02 Motorola, Inc. Microprogrammed data processor which includes a microsequencer in which a next microaddress output of a microROM is connected to the or-plane of an entry PLA
DE69133025T2 (de) * 1990-08-31 2002-11-21 Texas Instruments Inc Multiprozessorsystem
EP0477595A3 (en) * 1990-09-26 1992-11-19 Siemens Aktiengesellschaft Cache memory device with m bus connections
US5287531A (en) * 1990-10-31 1994-02-15 Compaq Computer Corp. Daisy-chained serial shift register for determining configuration of removable circuit boards in a computer system
JPH0594546A (ja) * 1991-02-05 1993-04-16 American Teleph & Telegr Co <Att> デジタルプロセツサ
JPH04270440A (ja) * 1991-02-26 1992-09-25 Fujitsu Ltd アクセス方式
US5313610A (en) * 1991-07-03 1994-05-17 Picker International, Inc. Direct memory access control device for use with a single n-bit bus with MOF the n-bits reserved for control signals and (n-m) bits reserved for data addresses
JPH05181982A (ja) * 1991-12-27 1993-07-23 Nec Eng Ltd 大規模集積回路装置
US5386532A (en) * 1991-12-30 1995-01-31 Sun Microsystems, Inc. Method and apparatus for transferring data between a memory and a plurality of peripheral units through a plurality of data channels
US5506992A (en) * 1992-01-30 1996-04-09 Saxenmeyer; George Distributed processing system with asynchronous communication between processing modules
JP3055999B2 (ja) * 1992-03-16 2000-06-26 日本電気株式会社 マイクロプログラム制御装置群
GB2266606B (en) * 1992-04-27 1996-02-14 Intel Corp A microprocessor with an external command mode
GB2266605B (en) * 1992-04-27 1995-10-11 Intel Corp Microprocessor having a run/stop pin for accessing an idle mode
JPH06203005A (ja) * 1992-10-27 1994-07-22 Eastman Kodak Co 高速区分化ニューラルネットワーク及びその構築方法
JP3231429B2 (ja) * 1992-11-06 2001-11-19 株式会社日立製作所 中央処理装置と乗算器とを有する半導体集積回路装置
US5560025A (en) * 1993-03-31 1996-09-24 Intel Corporation Entry allocation apparatus and method of same
EP0706138A1 (en) * 1994-10-03 1996-04-10 International Business Machines Corporation Alternating data valid control signals for high performance data transfer
GB9508932D0 (en) * 1995-05-02 1995-06-21 Xilinx Inc FPGA with parallel and serial user interfaces
US5656963A (en) * 1995-09-08 1997-08-12 International Business Machines Corporation Clock distribution network for reducing clock skew
US5675273A (en) * 1995-09-08 1997-10-07 International Business Machines Corporation Clock regulator with precision midcycle edge timing
US5614845A (en) * 1995-09-08 1997-03-25 International Business Machines Corporation Independent clock edge regulation
US5610548A (en) * 1995-09-08 1997-03-11 International Business Machines Corporation Split drive clock buffer
US5828257A (en) * 1995-09-08 1998-10-27 International Business Machines Corporation Precision time interval division with digital phase delay lines
WO1997015001A2 (en) * 1995-10-06 1997-04-24 Patriot Scientific Corporation Risc microprocessor architecture
US5867725A (en) * 1996-03-21 1999-02-02 International Business Machines Corporation Concurrent multitasking in a uniprocessor
US5790888A (en) * 1996-08-12 1998-08-04 Seeq Technology, Inc. State machine for selectively performing an operation on a single or a plurality of registers depending upon the register address specified in a packet
US5872990A (en) * 1997-01-07 1999-02-16 International Business Machines Corporation Reordering of memory reference operations and conflict resolution via rollback in a multiprocessing environment
US6650327B1 (en) 1998-06-16 2003-11-18 Silicon Graphics, Inc. Display system having floating point rasterization and floating point framebuffering
US6226717B1 (en) * 1999-02-04 2001-05-01 Compaq Computer Corporation System and method for exclusive access to shared storage
US6311298B1 (en) 1999-02-17 2001-10-30 Rise Technology Company Mechanism to simplify built-in self test of a control store unit
AU7098600A (en) 1999-09-01 2001-03-26 Intel Corporation Instruction for multithreaded parallel processor
WO2001016702A1 (en) 1999-09-01 2001-03-08 Intel Corporation Register set used in multithreaded parallel processor architecture
US6704857B2 (en) * 1999-12-23 2004-03-09 Pts Corporation Methods and apparatus for loading a very long instruction word memory
US7681018B2 (en) 2000-08-31 2010-03-16 Intel Corporation Method and apparatus for providing large register address space while maximizing cycletime performance for a multi-threaded register file set
US7861071B2 (en) * 2001-06-11 2010-12-28 Broadcom Corporation Conditional branch instruction capable of testing a plurality of indicators in a predicate register
US7017032B2 (en) * 2001-06-11 2006-03-21 Broadcom Corporation Setting execution conditions
US7127593B2 (en) * 2001-06-11 2006-10-24 Broadcom Corporation Conditional execution with multiple destination stores
US6986025B2 (en) * 2001-06-11 2006-01-10 Broadcom Corporation Conditional execution per lane
US6983265B2 (en) * 2001-12-21 2006-01-03 International Business Machines Corporation Method to improve the data transfer rate between a computer and a neural network
US6862668B2 (en) 2002-02-25 2005-03-01 International Business Machines Corporation Method and apparatus for using cache coherency locking to facilitate on-line volume expansion in a multi-controller storage system
US7480909B2 (en) * 2002-02-25 2009-01-20 International Business Machines Corporation Method and apparatus for cooperative distributed task management in a storage subsystem with multiple controllers using cache locking
US7437724B2 (en) 2002-04-03 2008-10-14 Intel Corporation Registers for data transfers
US20050021468A1 (en) * 2003-07-21 2005-01-27 Stockton Marcia L. Methods, systems and computer program products for managing a computer mass storage system that hosts multiple users
US7340591B1 (en) * 2004-10-28 2008-03-04 Altera Corporation Providing parallel operand functions using register file and extra path storage
JP4661447B2 (ja) * 2005-08-16 2011-03-30 ソニー株式会社 送受信システムおよび方法、送信装置および方法、受信装置および方法、並びに、プログラム
US8026740B2 (en) 2008-03-21 2011-09-27 Micron Technology, Inc. Multi-level signaling for low power, short channel applications
US8259461B2 (en) * 2008-11-25 2012-09-04 Micron Technology, Inc. Apparatus for bypassing faulty connections
US10108684B2 (en) 2010-11-02 2018-10-23 Micron Technology, Inc. Data signal mirroring
US9239806B2 (en) 2011-03-11 2016-01-19 Micron Technology, Inc. Systems, devices, memory controllers, and methods for controlling memory
US8856482B2 (en) 2011-03-11 2014-10-07 Micron Technology, Inc. Systems, devices, memory controllers, and methods for memory initialization
US9117504B2 (en) 2013-07-03 2015-08-25 Micron Technology, Inc. Volume select for affecting a state of a non-selected memory volume
US9501591B2 (en) 2013-12-09 2016-11-22 International Business Machines Corporation Dynamically modifiable component model
FR3057086B1 (fr) * 2016-10-04 2018-11-23 Stmicroelectronics (Rousset) Sas Procede de gestion d'une mise a jour d'au moins un microcode au sein d'une unite de traitement, par exemple un microcontroleur, et unite de traitement correspondante
US10795836B2 (en) * 2017-04-17 2020-10-06 Microsoft Technology Licensing, Llc Data processing performance enhancement for neural networks using a virtualized data iterator
US10802754B2 (en) * 2018-03-12 2020-10-13 Micron Technology, Inc. Hardware-based power management integrated circuit register file write protection

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3623017A (en) * 1969-10-22 1971-11-23 Sperry Rand Corp Dual clocking arrangement for a digital computer
US4030072A (en) * 1974-12-18 1977-06-14 Xerox Corporation Computer system operation and control
JPS5852265B2 (ja) * 1977-01-12 1983-11-21 株式会社日立製作所 デ−タ処理装置
US4149242A (en) * 1977-05-06 1979-04-10 Bell Telephone Laboratories, Incorporated Data interface apparatus for multiple sequential processors
US4161024A (en) * 1977-12-22 1979-07-10 Honeywell Information Systems Inc. Private cache-to-CPU interface in a bus oriented data processing system
US4323968A (en) * 1978-10-26 1982-04-06 International Business Machines Corporation Multilevel storage system having unitary control of data transfers
US4208716A (en) * 1978-12-11 1980-06-17 Honeywell Information Systems Inc. Cache arrangement for performing simultaneous read/write operations
US4245307A (en) * 1979-09-14 1981-01-13 Formation, Inc. Controller for data processing system
US4463421A (en) * 1980-11-24 1984-07-31 Texas Instruments Incorporated Serial/parallel input/output bus for microprocessor system
JPS58134357A (ja) * 1982-02-03 1983-08-10 Hitachi Ltd ベクトルプロセッサ
US4484270A (en) * 1982-07-07 1984-11-20 Sperry Corporation Centralized hardware control of multisystem access to shared and non-shared subsystems
GB2162406B (en) * 1984-06-18 1988-03-09 Logica Computer system
US4816993A (en) * 1984-12-24 1989-03-28 Hitachi, Ltd. Parallel processing computer including interconnected operation units
WO1986007174A1 (en) * 1985-05-20 1986-12-04 Shekels Howard D Super-computer system architectures
US4722049A (en) * 1985-10-11 1988-01-26 Unisys Corporation Apparatus for out-of-order program execution

Also Published As

Publication number Publication date
EP0334625A3 (en) 1991-06-12
US5056015A (en) 1991-10-08
EP0334625A2 (en) 1989-09-27

Similar Documents

Publication Publication Date Title
JPH0228864A (ja) マルチプロセッサ・サブシステム
US5428754A (en) Computer system with clock shared between processors executing separate instruction streams
JPH02168351A (ja) 積分変換方法
US5329630A (en) System and method using double-buffer preview mode
US6282583B1 (en) Method and apparatus for memory access in a matrix processor computer
US5606520A (en) Address generator with controllable modulo power of two addressing capability
US9015354B2 (en) Efficient complex multiplication and fast fourier transform (FFT) implementation on the ManArray architecture
JP2642039B2 (ja) アレイ・プロセッサ
US6260088B1 (en) Single integrated circuit embodying a risc processor and a digital signal processor
US6948050B1 (en) Single integrated circuit embodying a dual heterogenous processors with separate instruction handling hardware
JPH0228721A (ja) プロセシング・システム
JPH0236420A (ja) プロセシング・システムズ
JPH0236459A (ja) プロセシング・システム
GB2217064A (en) Interfacing asynchronous processors
GB2215883A (en) Data processing system
GB2217056A (en) Double buffering in multi-processor
GB2217059A (en) Multiprocessor system
GB2215880A (en) Variable length data field processing
GB2217061A (en) Data processing system debugging
GB2217062A (en) Numeric processor with smart clock
GB2223609A (en) High-bandwidth numeric processing
GB2217055A (en) Loading microcode
GB2217063A (en) Lifo memory
GB2215881A (en) Shared variable clock system
GB2215876A (en) Data processing system