JP2580371B2

JP2580371B2 - ベクトルデ―タ処理装置

Info

Publication number: JP2580371B2
Application number: JP2190335A
Authority: JP
Inventors: 正守柏山; 幸巳松本; 誠古賀
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-07-18
Filing date: 1990-07-18
Publication date: 1997-02-12
Anticipated expiration: 2012-02-12
Also published as: JPH0476772A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、ベクトルデータ処理装置に係り、特に複数
の演算器で構成するベクトル演算器の演算器構成方式
と、演算実行方式に関するものである。

［従来の技術］ベクトルデータ処理装置は、先行する演算命令の演算
結果を格納するレジスタを後続の演算命令のオペランド
レジスタとして指定するいわゆるチェイニング機能によ
って複数の演算器を時間的にオーバーラップして使用す
ることができ、高いデータ処理能力を有している。ベク
トルデータ処理装置で大規模科学技術計算を行うとき、
プログラムコーディングスタイルは、並列演算器を活か
したコーディングが一般的である。すなわち、代入文の
右辺の演算項を多くする技法が性能向上に効果的であ
る。また、複素数演算やベクトル関数では、ベクトル演
算命令の出現比率が他のベクトル命令に比較して高く、
演算命令を高速に処理することが全体の性能向上に大き
く寄与する。

以下、この種の傾向に対応し性能向上を図った従来の
ベクトルデータ処理装置の構成を示す。

第６図は、複数の演算器を持つベクトルデータ処理装
置の一例の概略構成を示したものである。同図におい
て、ベクトルデータ処理装置は、高速のランダムアクセ
スメモリ（以下、RAMという）で構成され、各々独立に
読出し・書込みが可能で、各々128要素のベクトルデー
タを保持できるVR0〜VR31の32個のベクトルレジスタ111
a〜111hと、２つのオペランドデータに対応したスカラ
データを格納するスカラデータバッファ112a,112bと、
ベクトルレジスタ111a〜111hとスカラデータバッファ11
2a,112bの出力データを命令により各々のリソースへ選
択出力するスィッチマトリックス論理のセレクタ（以
下、SELという）114と、パイプライン加算器101から構
成される０番演算器102と、パイプライン乗算器103から
構成される１番演算器104と、SEL114を通して供給する
オペランドデータを０番演算器102へ入力するオペラン
ドパス105,106と、同様に、１番演算器103へ入力するオ
ペランドパス108,109と、０番演算器102の演算結果を出
力するリザルトパス107と、１番演算器104の演算結果を
出力するリザルトパス110と、命令によりリザルトパス1
07,110からの演算結果をVR0〜VR31のベクトルレジスタ1
11a〜111hに書き込むため選択するスィッチマトリック
ス論理で構成されるセレクタ（以下、DISTという）113
により構成されている。

尚、主記憶からベクトルレジスタへオペランドデータ
を供給するロードパイプラインとベクトルレジスタから
主記憶へデータを格納するストアパイプラインは図示は
しないが具備されているものとする。また、ここでいう
リソースとは、０番演算器102と、１番演算器104と、ロ
ードパイプラインとストアパイプラインを指し、各々の
リソースは命令により並列動作及びチェイニング動作が
可能である。

第６図に示したベクトルデータ処理装置において、２
つの演算リソースである０番演算器102と、１番演算器1
04は、各々並列動作が可能である。従って、加算命令と
乗算命令、または乗算命令と加算命令を並列に処理する
ことが可能であり、チェイニング動作を併用することで
高い処理性能を達成していた。

ところが、大規模科学技術計算における多項演算をベ
クトルデータ処理装置の命令列に展開したケースにおい
ては、理論的に同時並列処理可能な加算命令が連続する
ケースや、乗算命令が連続するケースが出現する場合が
多々ある。第４図（ｃ），（ｅ）に、第６図に示したベ
クトルデータ処理装置における、このようなケースの処
理シーケンスを図示する。第４図（ｃ）において、命令
Vadd VR0 VR1 VR2は、ベクトルレジスタVR1,VR2の内容
を読み出してパイプライン加算器でベクトルデータ加算
を行い、その結果をベクトルレジスタVR0に書き込むと
いう命令を表わす。以下、この関係を以下のように表記
する。

Vadd VR0 VR1 VR2⇒VR1＋VR2＝VR0 次命令は、 Vadd VR3 VR4 VR5⇒VR4＋VR5＝VR3 であり、同様にベクトルレジスタVR4,VR5の内容を読み
出してベクトルデータ加算を行い、その結果をベクトル
レジスタVR3に書き込むという命令を示す。ところで、
この２つの命令列は理論的に同時並列動作可能である。
しかし、第６図に示したベクトルデータ処理装置の演算
器構成では、第４図（ｃ）に示すように、複数段のパイ
プラインで構成されるベクトル加算器の先頭段をVR1＋V
R2のためのオペランドデータが通過した後でないと、VR
4＋VR5のためのオペランドデータをパイプライン先頭段
に供給できない。さらに、第４図（ｅ）の乗算命令のケ
ースも同様である。また、第４図（ｃ）に示したケース
においては、Vadd命令に先行する命令、例えば、ベクト
ルレジスタVR4へのロード命令とのテェイニング動作
は、途切れることになる。この様な状態を演算リソース
ネックと呼び、性能が低下する要因となる。さらに、第
４図（ｃ），（ｅ）のケースとも一方の演算リソースが
ビジー（busy）であるにもかかわらず、他方の演算リソ
ースが遊んでいることになり効率が悪い。

第７図は、複数の演算器構成をさらに改良したベクト
ルデータ処理装置の概略構成を表現したものである。同
図において、ベクトルレジスタ215a〜215h,スカラデー
タバッファ216a,216b,SEL218,オペランドパス209,210,2
12,213,リザルトパス211,214,DIST217及び、ロード／ス
トアパイプラインについては第６図と同様の構成であ
る。また、１番演算器205は、パイプライン加算器204で
構成される。ただし、０番演算器203は、パイプライン
乗算器202とパイプライン加算器201の複合構成になって
おり、パイプライン乗算器202の演算結果を出力パス206
を通してパイプライン加算器201の一方のオペランドと
してデータ供給ができる構成になっている。さらに、オ
ペランドパス209は、パイプライン乗算器202とパイプラ
イン加算器201の両方に対してデータを供給できる構成
になっている。パイプライン乗算器202の演算結果出力
パス206とパイプライン加算器201の演算結果出力パス20
7は、乗算命令実行時は出力パス206をセレクタ208によ
り選択し、乗算結果を一方のオペランドデータとした加
算命令実行時は出力パルス207をセレクタ208により選択
し、リザルトパス211に出力するように構成されてい
る。さらに、０番演算器203は、オペランドパス210から
のデータをパイプライン乗算器202がそのまま通過（ス
ルー）させることで、パイプライン加算器201を利用し
た単純加算命令を実行することも可能である。

第７図で示したベクトルデータ処理装置では、複合演
算器構成を活かした自動ベクトル化機能として複合演算
（内積，総和，等）をマクロ命令として処理している。
例えば、日立社製HITAC Ｓ−810やその後継機であるHI
TAC Ｓ−820ベクトルデータ処理装置では、ベクトル乗
算器の結果をベクトル加算器のオペランドデータとして
利用することで、連立一次方程式の解法に有効な内積演
算（Ｓ＝Ｓ＋Ａ（Ｉ）＊Ｂ（Ｉ））,3項の積和演算（Ａ
（Ｉ）＋Ｃ＊Ｂ（Ｉ））などの複合演算をマクロ命令と
して一命令で実行するベクトル処理方式を適用し高速化
を図っている。この第７図に示したベクトルデータ処理
装置においては、加算器を２個有するので第４図（ｃ）
で示したケースの同時並列処理が可能である。当該ケー
スを第４図（ｄ）に示す。すなわち、加算演算リソース
の競合が無いため同時並列処理可能である。また、第５
図（ｉ）で示す複合演算命令（マクロ命令）が０番演算
器203で可能である。第５図（ｉ）において、 Vmltadd VR0 VR1 VR2 SR⇒（VR2×SR）＋VR1＝VR0 である。当該命令の処理において、先行する乗算がベク
トルデータVR2とスカラデータSRの積、後続する加算が
先行乗算結果のベクトルデータ（VR2×SR）とベクトル
データVR1の積となる。しかし、第７図に示したベクト
ルデータ処理装置において、例えば、 Vmltadd VR0 R1 VR2 VR3⇒（VR2×VR3）＋VR1＝VR0 等の全オペランドがベクトルデータであるオールベクト
ルオペランド処理は、不可能である。これは、ベクトル
データVR2とベクトルデータVR1の読み出しが両方共オペ
ランドパス209を使用するための制約である。オペラン
ドパス209を時分割で使用することも考えられるが、そ
のための制御が複雑になるとともに、処理性能を低減す
ることになる。

さらに、この様な演算器構成のベクトルデータ処理装
置で命令列のチェイニングを行い、高速のベクトルデー
タ処理を実現するためには、演算命令を各々の演算器に
効果的に割り当てるスケジューリング制御が必要であ
る。例えば、加算命令と乗算命令の連続ケースにおい
て、最初の加算命令を０番演算器203に割り当てた場
合、次の乗算命令起動では、演算リソースコンフリクト
が生じる。その結果、乗算処理が待たされチェイン切れ
を発生することになる。このように不均一な演算器構成
は、特に多項演算において複雑な演算命令スケジューリ
ングを必要とし、効率的な演算器割付けが困難である。

第８図に示すベクトルデータ処理装置は、複数の演算
器構成で多項演算処理を高速に行うもう一つの例であ
る。同図において、ベクトルレジスタ321a〜321h、スカ
ラデータバッファ322a,322b、及びロード／ストアパイ
プラインについては第６図と同様の構成である。SEL32
4、オペランドパス309,310,312,313,315,316,318,319、
リザルトパス311,314,317,320,DIST323については、第
６図に対して増加した演算器分のデータパス増加と、セ
レクタ論理変更とを行っている。また、パイプライン加
算器301で構成される０番演算器302と、パイプライン乗
算器303で構成される１番演算器304と、パイプライン加
算器305で構成される２番演算器306と、パイプライン乗
算器307で構成される３番演算器308とは、演算リソース
であり各々独立して並列に演算命令を実行することがで
きる。

この第８図に示したベクトルデータ処理装置に対し
て、第４図に示した加算命令の連続及び、乗算命令の連
続ケースを実行した場合第４図（ｄ），（ｆ）に示すよ
うに、同一種の演算リソースの競合が生じないため、命
令列の処理時間を短縮することができる。ところが、こ
の様な演算器構成の場合、複数の演算器がすべて各々一
つの演算命令を実行できる演算リソースとなるため、命
令制御側から見ると演算命令列をそれぞれの演算リソー
スに割り付けるスケジューリング処理が複雑になる。ま
た、データパス、およびSEL324を初めとする制御論理等
のハードウェア物量も多くなる。さらに、ベクトルデー
タ処理装置は、多項演算ケースばかりでなく、ロード／
ストア系命令と演算系命令が１対１の割合で混在する命
令列も多い。この様なケースにおいては、当該装置の演
算リソースは使用されない演算器が生じる。すなわち、
過剰な設計（オーバーデザイン）であるといえる。

ところで、第７図に示した従来例の代表的なベクトル
データ処理装置の例としては、日経エレクトロニクス、
1983年、４月11日、（No.314）第159〜第184頁、およ
び、同、1987年、12月28日、（No.437）第111〜第125頁
で紹介されている日立社製HITAC Ｓ−810,S−820があ
る。また、特開昭64−67678号にも同様のベクトルデー
タ処理装置が開示されている。さらに、第８図に示した
従来例に該当する装置は、同じく日立社製HITAC Ｓ−8
10がある。

［発明が解決しようとする課題］以上の従来技術によれば、前記ベクトルデータ処理装
置は、第６図に示した複数の演算器の構成方式によって
は、同一種の演算命令が連続するケースにおいて演算リ
ソースネックが発生する。また、一方の演算リソースが
ビジーであるにもかかわらず、他方の演算リソースが遊
ぶケースが発生し効率が悪くなることがある。また、第
７図に示したような複合演算命令をサポートするため
に、乗算器と加算器を直列に接続した演算器構成では、
オールベクトルオペランド処理が不可能であった。さら
に、第８図に示した演算リソースを増やす方式は、従来
の２倍のデータパスを必要とするばかりか、複雑な演算
命令スケジューリングも必要であり、効率的な演算器割
付けが困難であった。また、かかる複雑な制御を実現す
るために、ハードウェア量が増大するという問題があっ
た。

そこで、本発明は、複数の演算器で構成するベクトル
データ処理装置において、ハードウェア量の増加を最小
限に押さえつつ、前記問題点を克服し、効率的なベクト
ルデータ処理を提供することを目的とする。

［課題を解決するための手段］前記目的を達成するために、本発明によるベクトルデ
ータ処理装置は、複数のベクトル要素よりなるベクトル
データを複数組保持するベクトルデータバッファを有
し、該ベクトルデータバッファに保持されたベクトルデ
ータについてベクトル演算を行なうベクトルデータ処理
装置において、加算器および乗算器を含み、両演算器の
少なくとも一方の出力を他方の入力に帰還するパスを有
する第１の複合演算器と、該第１の複合演算器と同一構
成の第２の複合演算器と、前記第１の複合演算器の外部
から当該加算器および乗算器の全４入力のうち３入力を
一時に与えることができる第1,第2,第３のオペランドパ
スと、前記第２の複合演算器の外部から当該加算器およ
び乗算器の全４入力のうち３入力を一時に与えることが
できる第4,第5,第６のオペランドパスとを具備したもの
である。

好ましくは、前記第１および第２の複合演算器の各々
は、当該加算器の出力を前記４入力のうちの１入力に選
択的に帰還する手段と、当該乗算器の出力を前記４入力
のうちの１入力に選択的に帰還する手段とを有する。

また、好ましくは、連続する二つの同一種の演算命令
について、当該演算命令の種類の如何を問わず、先行す
る演算命令をビジーでない方の複合演算器に割り付け、
後続の演算命令を他方の複合演算器に割り付ける演算命
令スケジューリング手段を更に具備する。

この演算命令スケジューリング手段は、先行する加算
（または乗算）命令の結果を格納するレジスタを後続の
乗算（または加算）命令が当該オペランドレジスタとし
て指定している場合、両命令を同一の複合演算器に割り
付けることができる。

前記各複合演算器は、先行する加算（または乗算）命
令の結果を格納するレジスタを後続の乗算（または加
算）命令が当該オペランドレジスタとして指定している
場合、好ましくは、先行する第１の演算命令は加算器
（または乗算器）で３つのオペランドパスのうち２つを
用いて演算処理し、後続の演算命令は乗算器（または加
算器）で前記演算処理結果のフィードバックパスおよび
残りのオペランドパスを用いて演算処理する。

前記各複合演算器は、演算命令が、先行加算（または
乗算）結果を後続乗算（または加算）のオペランドデー
タとして用いるマクロ演算命令である場合、好ましく
は、先行する演算は加算器（または乗算器）で３つのオ
ペランドパスのうち２つを用いて演算処理し、後続の演
算は乗算器（または加算器）で前記演算処理結果のフィ
ードバックパスおよび残りのオペランドパスを用いて演
算処理する。

前記先行する演算の結果が前記フィードバックパスを
介して前記後続の演算の演算器に入力されるタイミング
で、前記残りのオペランドパスからのオペランドが当該
演算器に到達するよう当該オペランド自体またはその読
出し指示を遅延させる手段を具備してもよい。

本発明によるベクトルデータ処理装置は、他の見地に
よれば、複数のベクトル要素よりなるベクトルデータを
複数組保持するベクトルデータバッファを有し、該ベク
トルデータバッファに保持されたベクトルデータについ
てベクトル演算を行なうベクトルデータ処理装置におい
て、加算器および乗算器を含み、両演算器の少なくとも
一方の出力を他方の入力に帰還するパスを有する複合演
算器と、該複合演算器の外部から当該加算器および乗算
器の全４入力のうち３入力を一時に与えることができる
第1,第2,第３のオペランドパスとを具備し、前記複合演
算器は、当該加算器の出力を前記４入力のうちの１入力
に選択的に帰還する手段と、当該乗算器の出力を前記４
入力のうちの１入力に選択的に帰還する手段とを有する
ものである。

［作用］本発明に係るベクトルデータ処理装置において、ベク
トル加算命令が連続するケースでは、最初の加算命令を
第１および第２の複合演算器のビジーでない方の複合演
算器に対して演算処理を割付け、後続の加算命令を先行
加算命令が割付けられた反対の複合演算器に割り付け
る。また、ベクトル乗算命令が連続するケースでは、最
初の乗算命令を第１および第２の複合演算器のビジーで
ない方の複合演算器に対して演算処理を割付け、後続の
乗算命令を先行乗算命令が割り付けられた反対の複合演
算器に割付ける。さらに、ベクトル加算命令とベクトル
乗算命令が連続で、両ベクトル演算命令同士がチェイニ
ング関係にあるとき、先行する加算命令について第１お
よび第２の複合演算器のビジーでない方の複合演算器に
対してその演算処理を割付け、後続の乗算命令も当該複
合演算器に割付ける。

前記先行する加算命令のオペランドは、命令で示すベ
クトルレジスタもしくはスカラデータバッファから読み
出し、加算命令を割付けた複合演算器が第１複合演算器
の場合は第１オペランドパスと第２オペランドパスを、
第２複合演算器の場合は第４オペランドパスと第５オペ
ランドパスを通じて当該パイプライン加算器に供給す
る。該供給オペランドは、該パイプライン加算器の演算
ステージ分経過した後、加算結果をリザルトパスへ出力
し、該加算命令が示すベクトルレジスタに書き込む。さ
らに、該加算結果は、フィードバックパスを通して当該
複合演算器のパイプライン乗算器に、後続する前記乗算
命令の被乗数データとして入力される。該乗算命令を乗
数データは、該乗算命令で示すベクトルレジスタもしく
はスカラデータバッファから該フィードバック結果の先
頭エレメントが、該パイプライン乗算器の先頭ステージ
に同時に到着するように読み出す制御を行い、当該複合
演算器が、第１複合演算器の場合は第３オペランドパス
を、第２複合演算器の場合は第６オペランドパスを通し
て該パイプライン乗算器に入力する。該供給オペランド
は、該パイプライン乗算器の演算ステージ分経過した
後、乗算結果をリザルトパスへ出力し、該乗算命令が示
すベクトルレジスタに書き込む。また、ベクトル乗算命
令とベクトル加算命令が連続で、両ベクトル演算命令同
士がチェイニング関係にあるときも、同様に同一複合演
算器に割付ける。

すなわち、当該処理装置においては、パイプライン加
算器を使用する演算命令と、パイプライン乗算器を使用
する演算命令がチェイニング関係にあるとき、これら命
令列は、同一複合演算器に割付ける制御処理を行う。

さらに、ベクトル加算とベクトル乗算を複合したマク
ロ命令の場合、第１および第２の複合演算器のビジーで
ない方の複合演算器に対して演算処理を割付ける。該マ
クロ演算処理は、演算処理のオペランドを、命令で示す
ベクトルレジスタもしくはスカラデータバッファから読
み出し、当該マクロ命令を割付けた複合演算器が第１複
合演算器の場合は、第１オペランドパス，第２オペラン
ドパス，第３オペランドパスを、第２複合演算器の場合
は、第４オペランドパス，第５オペランドパス，第６オ
ペランドパスを、通じて供給する。該供給オペランド
は、第1,第４オペランドが演算データ、第2,第５オペラ
ンドが被演算データとなる。前記演算データと被演算デ
ータが、当該マクロ命令の内容が示す加算もしくは乗算
の先行パイプライン演算器の演算ステージ分経過した
後、その演算結果をフィードバックパスを通して、該複
合演算器の該マクロ命令の内容が示す加算もしくは乗算
の後続パイプライン演算器に、後続演算の被演算データ
として入力される。該後続演算の演算データは、前記フ
ィードバック結果の先頭エレメントが該パイプライン演
算器の先頭ステージに同時に到着するように、当該複合
演算器が第１複合演算器の場合は第３オペランドパス
を、第２複合演算器の場合は第６オペランドパスを遅延
制御して前記パイプライン演算器に入力する。該供給オ
ペランドは、該パイプライン演算器の演算ステージ分経
過した後、その演算結果をリザルトパスへ出力し、当該
マクロ命令が示すベクトルレジスタに書き込む。

また、マクロ命令が連続するケースでは、最初のマク
ロ命令を第１および第２の複合演算器のビジーでない方
の複合演算器に対して演算処理を割付け、後続のマクロ
命令を先行マクロ命令が割付けられた反対の複合演算器
に割り付ける。

［実施例］以下、本発明の実施例について詳細に説明する。

まず、本発明に係る第１のベクトルデータ処理装置の
実施例について説明する。第１図に、本実施例に係るベ
クトルデータ処理装置の制御部を除く構成を示す。

同図において、ベクトルデータ処理装置は、各々独立
に読出し・書込みが可能で、各々128要素のベクトルデ
ータを保持できるVR0〜VR31の32個のベクトルレジスタ3
3a〜33hと、３つのオペランドデータに対応したスカラ
データを格納するスカラデータバッファ34a〜34cと、ベ
クトルレジスタ33a〜33hとスカラデータバッファ34a〜3
4cの出力データを命令により各々のリソースへ選択する
スイッチマトリックス論理のSEL36と、各々のリソース
からベクトルレジスタ33a〜33hに送られる書き込みデー
タを、命令で示すベクトルレジスタ33a〜33hに選択して
送り出すスイッチマトリクス論理DIST35と、演算リソー
スである０番複合演算器３と、１番複合演算器６とで構
成される。また、図示はしないが、主記憶からベクトル
レジスタへオペランドを供給するロードパイプラインと
ベクトルレジスタから主記憶へデータを格納するストア
パイプラインは、具備されていて、それぞれ制御系から
はリソースとして制御する。

０番複合演算器３（以下、PDI（Parallel Dual Instr
uction）演算器０という）は、ベクトルデータ及びスカ
ラデータを、ベクトルレジスタ33a〜33hとスカラバッフ
ァ34a〜34cから読み出す第１オペランドパス15,第２オ
ペランドパス16,第３オペランドパス17と、パイプライ
ン加算器１と、パイプライン乗算器２と、パイプライン
加算器１の演算結果をフィードバックし、パイプライン
加算器１及びパイプライン乗算器２のオペランドとする
パス11と、パイプライン乗算器２の演算結果をフィード
バックしてパイプライン加算器１及びパイプライン乗算
器２のオペランドとするパス12と、第１オペランドパス
15とフィードバックパス11とフィードバックパス12から
の入力データを命令により選択してパイプライン加算器
１の被加数データとするセレクタ７と、第２オペランド
パス16と第３オペランドパス17とフィードバックパス11
とフィードバックパス12からの入力データを命令により
選択してパイプライン加算器１の加数データとするセレ
クタ８と、第１オペランドパス15とフィードバックパス
11とフィードバックパス12からの入力データを命令によ
り選択してパイプライン乗算器２の被乗数データとする
セレクタ９と、第２オペランドパス16と第３オペランド
パス17とフィードバックパス11とフィードバックパス12
からの入力データを命令により選択してパイプライン乗
算器２の乗数データとするセレクタ10と、パイプライン
加算器１の出力回路13と、パイプライン乗算器２の出力
回路14と、パイプライン加算器１の演算結果をベクトル
レジスタに書き込むリザルトパス18と、パイプライン乗
算器２の演算結果をベクトルレジスタに書き込むリザル
トパス19から構成される。

１番複合演算器６（以下、PDI演算器１という）は、
ベクトルデータ及びスカラデータを、ベクトルレジスタ
33a〜33hとスカラバッファ34a〜34cから読み出す第４オ
ペランドパス28,第５オペランドパス29,第６オペランド
パス30と、パイプライン加算器４と、パイプライン乗算
器５と、パイプライン加算器４の演算結果をフィードバ
ックしてパイプライン加算器４及びパイプライン乗算器
５のオペランドとするパス24と、パイプライン乗算器５
の演算結果をフィードバックしてパイプライン加算器４
及びパイプライン乗算器５のオペランドとするパス25
と、第４オペランドパス28とフィードバックパス24とフ
ィードバックパス25からの入力データを命令により選択
してパイプライン加算器４の被加数データとするセレク
タ20と、第５オペランドパス29と第６オペランドパス30
とフィードバックパス24とフィードバックパス25からの
入力データを命令により選択してパイプライン加算器４
の加数データとするセレクタ21と、第４オペランドパス
28とフィードバックパス24とフィードバックパス25から
の入力データを命令により選択してパイプライン乗算器
５の被乗数データとするセレクタ22と、第５オペランド
パス29と第６オペランドパス30とフィードバックパス24
とフィードバックパス25からの入力データを命令により
選択してパイプライン乗算器５の乗数データとするセレ
クタ23と、パイプライン加算器４の出力回路26と、パイ
プライン乗算器５の出力回路27と、パイプライン加算器
４の演算結果をベクトルレジスタに書き込むリザルトパ
ス31と、パイプライン乗算器５の演算結果をベクトルレ
ジスタに書き込むリザルトパス32とから構成される。

第２図に、本実施例に係るベクトルデータ処理装置と
命令制御部の構成を示す。

図において、ベクトルデータ処理装置命令制御部37
は、命令バッファ38と、PDI演算器１用実行命令キュー4
0（以下、PDI1Xiという）と、次実行命令キュー39（以
下、PDI1Niという）と、PDI演算器０用実行命令キュー4
2（以下、PDI0Xiという）と、次実行命令キュー41（以
下、PDI0Niという）と、命令バッファ38から命令キュー
39〜42への命令転送パス45と、DIST35,ベクトルレジス
タ33,SEL36,PDI演算器０に対してPDI0Xi,PDI0Niの内容
により制御指示を発行する制御パス44と、DIST35,ベク
トルレジスタ33,SEL36,PDI演算器１に対してPDI1Xi,PDI
1Niの内容により制御指示を発行する制御パス43とから
構成される。また、Xi,Niの２面の命令キューは、各リ
ソース対応に設けられており、各々ビジーフラグ（busy
falg）を持つことで命令キューとリソースのビジー状
態を管理することができる構成になっている。尚、図示
はしないがロード／ストアパイプライン用リソース命令
キューも、PDI0,1演算器用命令キュー同様設けられてい
る。

第３図は、本発明による第１のベクトルデータ処理装
置において、最も効果を発揮する演算命令列の一例を説
明した図である。

同図において、演算命令列は、 Vadd VR0 R1 VR2⇒VR1＋VR2＝VR0 Vmlt VR3 VR4 VR0⇒VR4×VR0＝VR3 Vmlt VR5 VR6 VR7⇒VR6×VR7＝VR5 Vadd VR8 VR9 VR5⇒VR9＋VR5＝VR8 であり、命令制御部37内の命令バッファ38に命令を先
頭として順次格納されているものとする。また、命令
の加算結果のVR0と命令のオペランドVR0及び命令の
乗算結果のVR5と命令のオペランドVR5がチェイニング
関係にある。

当該命令列を第１図に示す第１のベクトルデータ処理
装置で処理する場合の動作は、先行命令においてPDI演
算器0,1のリソースが使用されていないものとすると、
加算命令をPDI0Xiにアサインし、続く乗算命令を加
算命令とチェイニング関係にあるため同じPDI0Niにア
サインする。さらに、続く乗算命令は、PDI演算器０
がビジー状態にあるためPDI1Xiにアサインし、続く加算
命令を乗算命令とチェイニング関係にあるためPDI1
Niにアサインする。このように、連続する演算命令列が
互いにチェイニング関係にあるとき、これら二つの演算
命令列は同一リソースの命令キューにアサインする。命
令バッファから読み出した命令列は、リソース対応に設
けた命令キューに積まれる訳であるが、通常の演算命令
列、例えば、先行と後行の命令の間にチェイニング関係
が無いときは先行の命令がアサインされた反対の演算リ
ソース命令キューに積むことになる。

PDI0Xi42に格納した加算命令の起動によりベクトル
制御部37は、VR1とVR2を同時に読み出す指示をベクトル
レジスタ33に与えると共に、VR1とVR2のデータを第１オ
ペランドパス，第２オペランドパスにセレクトする指示
をSEL36に与え、第１オペランドパス，第２オペランド
パスからのデータを加算実行する指示をPDI演算器０に
与える。さらに、PDI演算器０のパイプライン加算器リ
ザルトパス18をVR0にセレクトする指示をDIST35に与
え、VR0に書き込む指示をベクトルレジスタ33に与え
る。

PDI0Ni41に格納した乗算命令は、加算命令の起動
からパイプライン加算器１の演算ステージタイムとフィ
ードバックパス11のトラベルタイムの合計時間経過後、
起動される。該起動制御は、命令起動と同時に、オペ
レーションサイクル毎に＋１するカウント回路を用い
て、カウンター動作を行い、あらかじめ登録してあるリ
リースカウント値（演算ステージタイム＋フィードバッ
クパストラベルタイム）とカウント値とが一致したとき
に行う。乗算命令の起動によりベクトル制御部37は、
VR4の読み出し指示をベクトルレジスタ33に与え、VR4の
データを第３オペランドパス17にセレクトする指示をSE
L36に与え、第３オペランドパス17とフィードバックパ
ス11からのデータを乗算する指示をPDI演算器０に与え
る。さらに、PDI演算器０のパイプライン乗算器リザル
トパス19をVR3にセレクトする指示をDIST35に与え、VR3
に乗算結果を書き込む指示をベクトルレジスタ33に与え
る。この結果、加算命令と乗算命令は、PDI演算器
０でオーバーラップして処理される。

一方、PDI1Xi40に格納した乗算命令の起動は、PDI
演算器１がビジー状態に無いとすると格納と同時に行
う。すなわち、PDI0Niへの命令格納の次のオペレーシ
ョンサイクルで行う。当該起動によりベクトル制御部37
は、VR6とVR7を同時に読み出す指示をベクトルレジスタ
33に与え、VR6とVR7のデータを第４オペランドパス，第
５オペランドパスにセレクトする指示をSEL36に与え、
第４オペランドパス，第５オペランドパスからのデータ
を乗算実行することをPDI演算器１に与える。さらに、P
DI演算器１のパイプライン乗算器リザルトパス32をVR5
にセレクトする指示をDIST35に与え、VR5に書き込む指
示をベクトルレジスタ33に与える。

PDI1Ni39に格納した加算命令は、の乗算命令の起
動からパイプライン乗算器５の演算ステージタイムとフ
ィードバックパス25のトラベルタイムの合計時間経過
後、起動される。加算命令の起動によりベクトル制御
部37は、VR9の読み出し指示をベクトルレジスタ33に与
え、VR9のデータを第６オペランドパス30にセレクトす
る指示をSEL36に与え、第６オペランドパス３とフィー
ドバックパス25からのデータを加算する指示をPDI演算
器１に与える。さらに、PDI演算器１のパイプライン加
算器リザルトパス31をVR8にセレクトする指示をDIST35
に与え、VR8に乗算結果を書き込む指示をベクトルレジ
スタ33に与える。この結果、乗算命令と加算命令
は、PDI演算器１でオーバーラップして処理される。

このようにPDI演算器では、先行演算命令と後行演算
命令がチェイニング関係にあるケースにおいて、先行演
算命令のパイプライン演算結果をベクトルレジスタに書
き込みつつ、フィードバックパスを介して、ペアーを構
成している他方のパイプライン演算器にオペランド供給
が可能である。すなわち、一つのPDI演算器においてチ
ェイニング関係にある演算命令を２命令まで同時並列実
行可能である。当該処理をマクロチェイニングモードと
呼ぶことにする。マクロチェイニングモードでは、先行
演算結果がベクトルレジスタに書き込まれることによ
り、当該演算結果を並列動作可能な他のリソースとの間
でチェイニング処理することが可能である。例えば、第
５図に示す演算命令列ケース Vadd VR0 VR1 VR2⇒VR1＋VR2＝VR0 Vmlt VR3 VR4 VR0⇒VR4×VR0＝VR3 Vmlt VR5 VR6 VR0⇒VR6×VR7＝VR5 において、従来例の第８図に示したベクトルデータ処理
装置では、第５図（ｇ）に示すように命令列とが別
々の演算リソースでベクトルレジスタを介してチェイニ
ング処理されるため演算命令はリソースビジーになり
処理が遅れる。しかし、本発明による第１のベクトルデ
ータ処理装置では、第５図（ｈ）に示すように命令列
との間を一方のPDI演算器を用いてマクロチェイニン
グモード処理を行いつつ、他方のPDI演算器を用いて命
令列とのチェニニングをオーバーラップ処理可能で
あることから処理時間の短縮が実現できる。また、命令
をVR0ストア命令に変更した場合、先行演算結果を主
記憶にストアするチェイニング処理も可能であり、同様
の効果を得ることができる。なお、前記演算命令列〜
の一連の処理関係を第３図（ｂ）に示す。また、比較
として従来例の第８図に示したベクトルデータ処理装置
において、同一命令列実行時の処理関係を第３図（ａ）
に示す。本発明による第１のベクトルデータ処理装置に
おいては、第３図（ｂ）に示すように演算処理時間の短
縮が可能である。

次に、本発明に係る第２のベクトルデータ処理装置の
実施例について説明する。

第９図に、本実施例に係るベクトルデータ処理装置の
制御部を除く構成を示す。この第２のベクトルデータ処
理装置においては、加算と乗算を任意に組み合わせたマ
クロ命令をそれぞれの複合演算器で並列処理することが
できる。なお、第１のベクトルデータ処理装置において
は、マクロ演算命令について説明しなかったが、第１の
ベクトルデータ処理装置においてもマクロ演算命令も同
様に実行することができる。

本実施例が第１の実施例と異なる点は、複合演算器内
の加算器と乗算器のいずれか一方の出力を選択する手段
を設けたことにある。これにより、第１の実施例に比
べ、演算結果をベクトルレジスタへ戻すリザルトパスの
数を半減させ、かつDISTの構成を簡略化することが可能
になる、以下、本実施例を具体的な構成および作用を説
明する。

第９図のベクトルデータ処理装置は、第１図のベクト
ルデータ処理装置同様、ベクトルレジスタ429a〜429h
と、スカラデータバッファ430a〜430cと、SEL432と、DI
ST431と、演算リソースである０番複合演算器403と、１
番複合演算器406で構成される。また、図示はしない
が、主記憶からベクトルレジスタへオペランドを供給す
るロードパイプラインとベクトルレジスタから主記憶へ
データを格納するストアパイプラインは、具備されてい
て、それぞれ制御系からはリソースとして制御する。

０番複合演算器403（以下、PDI演算器０という）は、
ベクトルデータ及びスカラデータを、ベクトルレジスタ
492a〜429hとスカラバッファ430a〜430cから読み出す第
１オペランドパス414,第２オペランドパス415,第３オペ
ランドパス416と、パイプライン加算器401と、パイプラ
イン乗算器402と、パイプライン加算器401の演算結果を
フィードバックしてパイプライン加算器401及びパイプ
ライン乗算器402のオペランドとするパス411と、パイプ
ライン乗算器402の演算結果をフィードバックしてパイ
プライン加算器401及びパイプライン乗算器402のオペラ
ンドとするパス412と、第１オペランドパス414とフィー
ドバックパス411とフィードバックパス412からの入力デ
ータを命令により選択してパイプライン加算器401の被
加数データとするセレクタ407と、第２オペランドパス4
15と第３オペランドパス416とフィードバックパス411と
フィードバックパス412からの入力データを命令により
選択してパイプライン加算器401の加数データとするセ
レクタ408と、第１オペランドパス414とフィードバック
パス411とフィードバックパス412からの入力データを命
令により選択してパイプライン乗算器402の被乗数デー
タとするセレクタ409と、第２オペランドパス415と第３
オペランドパス416とフィードバックパス411とフィード
バックパス412からの入力データを命令により選択して
パイプライン乗算器402の乗算データとするセレクタ410
と、パイプライン加算器401の演算結果フィードバック
パス411とパイプライン乗算器402の演算結果フィードバ
ックパス412をセレクトするセレクタ413と、PDI演算器
０の演算結果をベクトルレジスタに書き込むリザルトパ
ス417とから構成される。

１番複合演算器406（以下、PDI演算器１という）は、
ベクトルデータ及びスカラデータを、ベクトルレジスタ
429a〜429hとスカラバッファ430a〜430cから読み出す第
４オペランドパス425,第５オペランドパス426,第６オペ
ランドパス427と、パイプライン加算器404と、パイプラ
イン乗算器405と、パイプライン加算器404の演算結果を
フィードバックしてパイプライン加算器404及びパイプ
ライン乗算器405のオペランドとするパス422と、パイプ
ライン乗算器405の演算結果をフィードバックしてパイ
プライン加算器404及びパイプライン乗算器405のオペラ
ンドとするパス422と、第４オペランドパス425とフィー
ドバックパス422とフィードバックパス423からの入力デ
ータを命令により選択してパイプライン加算器404の被
加数データとするセレクタ418と、第５オペランドパス4
26と第６オペランドパス427とフィードバックパス422と
フィードバックパス423からの入力データを命令により
選択してパイプライン加算器404の加数データとするセ
レクタ419と、第４オペランドパス425とフィードバック
パス422とフィードバックパス423からの入力データを命
令により選択してパイプライン乗算器405の被乗数デー
タとするセレクタ420と、第５オペランドパス426と第６
オペランドパス427とフィードバックパス422とフィード
バックパス423からの入力データを命令により選択して
パイプライン乗算器405の乗数データとするセレクタ421
と、パイプライン加算器404の演算結果フィードバック
パス422とパイプライン乗算器405の演算結果フィードバ
ックパス423をセレクトするセレクタ424と、PDI演算器
１の演算結果をベクトルレジスタに書き込むリザルトパ
ス428とから構成される。

本実施例に係るベクトルデータ処理装置の命令制御部
の構成は、第１のベクトルデータ処理装置と同様で第２
図に示す通りであり、説明を省略する。

第11図は、本発明による第２のベクトルデータ処理装
置において、第３図に示した演算命令列，をマクロ
命令として、一命令で実行する演算命令の一例を説明し
た図である。

図において、演算命令は、 Vaddmlt VR3 VR4 VR1 VR2⇒ （VR1＋VR2）×VR4＝VR3 であり、図示はしないが、第３図に示した演算命令列
，も Vmltadd VR8 VR9 VR6 VR7⇒ （VR6×VR7｝＋VR9＝VR8 と、マクロ命令で置き換え可能である。当該命令列は、
第２図に示した命令制御部37内の命令バッファ38に命令
を先頭として両マクロ命令が順次格納されているもの
とする。当該命令列を第９図に示す第２のベクトルデー
タ処理装置で処理する場合の動作は、先行命令において
PDI演算器0,1のリソースが使用されていないものとする
と、マクロ命令をPDI0Xiにアサインし、続くマクロ命
令は、PDI演算器０がbusy状態にあるためPDI1Xiにア
サインする。このように、演算命令列は、交互に演算リ
ソースを使用する演算スケジューリングを行うよう命令
キューにアサインする。

PDI0Xi42に格納したのマクロ命令の起動によりベク
トル制御部37は、VR1とVR2とVR4を同時に読み出す指示
をベクトルレジスタ429a〜429hに与え、VR1とVR2とVR4
のデータを、それぞれ第１オペランドパス，第２オペラ
ンドパス，第３オペランドパスにセレクトする指示をSE
L432に与え、第１オペランドパス，第２オペランドパス
からのデータを加算実行し、その加算結果であるフィー
ドバックパス411からのデータと第３オペランドパス416
からのデータを乗算する指示をPDI演算器０に与える。
この時、第10図に示すように、第３オペランドパスから
PDI演算器０に入力するオペランドを遅延回路501を設
け、遅延制御指示を発行することにより先行演算、この
場合加算処理の演算ステージタイム分遅延させる。この
ことにより加算結果の先頭ベクトルデータと第３オペラ
ンドパスから入力されるベクトルデータの先頭要素が同
時に演算開始できる。尚、図示はしないが遅延回路501
と同様の構成が第６オペランドパス427にも設けられて
いる。ところで、この遅延処理は、第３オペランドパ
ス，第６オペランドパスへのベクトルレジスタ読み出し
指示を、第１のベクトルデータ処理装置同様リリースカ
ウント回路を用いて遅らせる方法でも可能である。さら
に制御部37は、PDI演算器０のパイプライン乗算器402出
力結果を選択しリザルトパス417に送出する指示をセレ
クタ413に与え、PDI演算器０のリザルトパス417をVR3に
セレクトする指示をDIST431に与え、VR3にマクロ演算結
果を書き込む指示をベクトルレジスタ429a〜429hに与え
る。この結果、マクロ命令は、PDI演算器０で処理さ
れる。

一方、PDI1Xi40に格納したマクロ命令の起動は、PD
I演算器１がビジー状態に無いとすると格納と同時に行
う。すなわち、PDI0Xiへのマクロ命令格納の次のオペ
レーションサイクルで行う。当該起動によりベクトル制
御部37は、VR6とVR7とVR9を同時に読み出す指示をベク
トルレジスタ429a〜429hに与え、VR1とVR2とVR4のデー
タを、それぞれ第４オペランドパス，第５オペランドパ
ス，第６オペランドパスにセレクトする指示をSEL432に
与え、第４オペランドパス，第５オペランドパスからの
データを乗算実行し、その乗算結果であるフィードバッ
クパス23からのデータと遅延した第６オペランドパス42
7からのデータを加算する指示をPDI演算器１に与える。
さらに制御部37は、PDI演算器１のパイプライン加算器4
04出力結果を選択しリザルトパス428に送出する指示を
セレクト424に与え、PDI演算器１のリザルトパス428をV
R8にセレクトする指示をDIST431に与え、VR8にマクロ演
算結果を書き込む指示をベクトルレジスタ429a〜429hに
与える。この結果、マクロ命令は、PDI演算器１で処
理される。

このように本発明による第２のベクトルデータ処理装
置においては、加算と乗算を任意に組合せたマクロ演算
命令を２命令まで同時並列実行可能であり、演算処理時
間の短縮が可能である。

ところで、第1,第２のベクトルデータ処理装置は、３
つのスカラデータバッファを任意のオペランドパスに接
続可能であることから、スカラデータ，ベクトルデータ
を任意のオペランドに割り付ける柔軟な演算処理が可能
である。さらに、PDI演算器のフィードバックパスを加
算，乗算のパイプライン演算器毎に設け、該フィードバ
ックパスをそれぞれのパイプライン演算器の両方のオペ
ランドとして選択できることから、ベクトルデータもし
くはスカラデータを、A,B,Cとすると、以下に示す演算
処理が１つのマクロ演算命令で実行可能である。

（１）Ａ±Ｂ（２）Ａ×Ｂ（３）（Ａ±Ｂ）×Ｃ（４）（Ａ×Ｂ）±Ｃ（５）（Ａ±Ｂ）さらに、本発明による第1,第２のベクトルデータ処理
装置に、１オペレーションサイクル中に複数のベクトル
エレメントを並列に処理する要素並列方式を組み合わせ
て構成した場合、例えば、４エレメント並列処理の場
合、4i（ｉ＝0,1,2…）番エレメントを処理する複数の
ベクトルレジスタと２つのPDI演算器の組と、4i＋１番
エレメントを処理する組、4i＋２番エレメントを処理す
る組、4i＋３番エレメントを処理する各々独立した組か
ら構成され、それどれの組では、１オペレーションサイ
クルに１エレメントの処理が可能であり、装置全体で、
４エレメントの演算並列処理が可能であることから、更
に高い処理性能を得ることが可能である。

また、本発明による第1,第２のベクトルデータ処理装
置の方式、特にマクロチェイニングモード方式は、ベク
トルレジスタ，スカラレジスタ等のレジスタ類と複数の
パイプライン演算器を１チップに集積するマイクロプロ
セッサ等にはトラベルタイムを低減することが可能であ
り有用である。

［発明の効果］以上のように、本発明によれば、次に示す効果を持っ
てベクトルデータ処理装置を提供することができる。

（１）同一種の演算命令が連続するケースにおいて演算
リソースネックを緩和することができる。

（２）同じく、加算器および乗算器からなる同一構成の
複合演算器を２組有するので、演算命令のスケジューリ
ング制御が容易となる。

（３）各複合演算器には３つのオペランドパスを設けた
ので、オールベクトルオペランドによる複合演算が可能
となる。

（４）（３）に加え、各複合演算器の加算器および乗算
器の各出力を当該加算器および乗算器の入力に帰還する
フィードバックパスを設けたので、ベクトルレジスタを
介在せずに、乗算と加算を任意に組み合わせた複合演算
が可能になる。

（５）以上より、データパス及び制御論理のハードウェ
ア量増加を最小限に押さえ、かつ処理時間の短縮を実現
しすることができる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る第１のベクトルデータ
処理装置のデータ系概略ブロック図、第２図は本発明に
係るベクトルデータ処理装置の命令制御部の概略ブロッ
ク図、第３図（ａ）は従来例によるベクトルデータ処理
装置の処理概念を示すタイミング図、第３図（ｂ）は本
発明による第１のベクトルデータ処理装置の処理概念を
示すタイミング図、第４図（ｃ），（ｅ）は従来例によ
るベクトルデータ処理装置の処理概念を示すタイミング
図、第４図（ｄ），（ｆ）は、本発明による第1,第２の
ベクトルデータ処理装置及び従来例の演算器並列方式ベ
クトルデータ処理装置の処理概念を示すタイミング図、
第５図（ｇ）は従来例によるベクトルデータ処理装置の
処理概念を示すタイミング図、第５図（ｈ）は本発明に
よる第１のベクトルデータ処理装置のマクロチェイニン
グモード処理概念を示すタイミング図、第５図（ｉ）は
オールベクトルオペランドのマクロ命令処理が不可能な
従来例によるベクトルデータ処理装置の処理概念を示す
タイミング図、第６図は演算リソースネックになりやす
い従来のベクトルデータ処理装置を示すブロック図、第
７図はオールベクトルオペランドのマクロ命令処理が不
可能な従来のベクトルデータ処理装置を示すブロック
図、第８図は従来の演算器並列方式ベクトルデータ処理
装置を示すブロック図、第９図は本発明のベクトルデー
タ処理装置の第２の実施例のブロック図、第10図は第９
図のベクトルデータ処理装置のオペランド遅延回路を示
すブロック図、第11図は本発明による第２のベクトルデ
ータ処理装置の処理概念の一例を示すタイミング図であ
る。 1,4……パイプライン加算器、2,5……パイプライン乗算
器、３……０番複合演算器（PDI演算器０）、６……１
番複合演算器（PDI演算器１）、７〜10……セレクタ、1
1,12……フィードバックパス、13,14……出力回路、15
……第１オペランドパス、16……第２オペランドパス、
17……第３オペランドパス、18,19……リザルトパス、2
0〜23……セレクタ、24,25……フィードバックパス、2
6,27……出力回路、28……第４オペランドパス、29……
第５オペランドパス、30……第６オペランドパス、31,3
2……リザルトパス、33a〜33h,33……ベクトルレジス
タ、34a〜34c……スカラデータバッファ、35……DIST、
36……SEL、37……命令制御部、38……命令バッファ、3
9〜42……命令キュー、43,44……制御パス、501……遅
延回路。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭64−67678（ＪＰ，Ａ) 特開昭61−62174（ＪＰ，Ａ) 特開昭56−88561（ＪＰ，Ａ) ＦＵＪＩＴＳＵＶｏｌ．41 Ｎｏ. １Ｐ．３−11 ＩＥＥＥＩｎｔＣｏｎｆＡｃｏｕｓｔＳｐｅｅｃｈＳｉｇｎａｌＰｒｏｃｅｓｓＶｏｌ．1983 Ｎｏ. １Ｐ．447−450

Claims

(57)【特許請求の範囲】

【請求項１】複数のベクトル要素よりなるベクトルデー
タを複数組保持するベクトルデータバッファを有し、概
ベクトルデータバッファに保持されたベクトルデータに
ついてベクトル演算を行うベクトルデータ処理装置にお
いて、２つの複合演算器と、前記２つの複合演算器の各々に対して、それぞれ３つづ
つ設けられた、各々対応する複合演算器の１入力を与え
る計６つのオペランドパスとを備え、前記各複合演算器は、それぞれ、加算器と、乗算器と、前記加算器の出力を当該複合演算器の１入力として与え
る第１のフィードバックパスと、前記乗算器の出力を当該複合演算器の１入力として与え
る第２のフィードバックパスと、当該複合演算器の加算器の各入力と乗算器の各入力の選
択として、ｉ、当該複合演算器に対して設けられた３つ
のオペランドパスのうちの２つのオペランドパスによっ
て与えられた２入力を加算器の２入力とする第１の選択
と、ii、当該複合演算器に対して設けられた３つのオペ
ランドパスのうちの２つのオペランドパスによって与え
られた２入力を乗算器の２入力とする第２の選択と、ii
i、当該複合演算器に対して設けられた３つのオペラン
ドパスによって与えられた３入力を加算器の２入力と乗
算器の１入力とし、第１のフィードバックパスによって
与えられた１入力を乗算器の残る１入力とする第３の選
択と、iv、当該複合演算器に対して設けられた３つのオ
ペランドパスによって与えられた３入力を乗算器の２入
力と加算器の１入力とし、第２のフィードバックパスに
よって与えられた１入力を加算器の残る１入力とする第
４の選択、との４つの選択を少なくとも行う選択手段
と、を有することを特徴とするベクトルデータ処理装置。
【請求項２】連続する二つの同一種の演算命令につい
て、当該演算命令の種類の如何を問わず、先行する演算
命令をビジーでない方の複合演算器に割り付け、後続の
演算命令を他方の複合演算器に割り付ける演算命令スケ
ジューリング手段を更に具備することを特徴とする請求
項１記載のベクトルデータ処理装置。
【請求項３】前記演算命令スケジューリング手段は、先
行する加算（または乗算）命令の結果を格納するレジス
タを後続の乗算（または加算）命令が当該オペランドレ
ジスタとして指定している場合、両命令を同一の複合演
算器に割り付けることを特徴とする請求項２記載のベク
トルデータ処理装置。
【請求項４】前記各複合演算器の選択手段は、先行する
加算（または乗算）命令の結果を格納するレジスタを後
続の乗算（または加算）命令が当該オペランドレジスタ
として指定している場合に前記第３（または第４）の選
択を行い、先行する第１の演算命令の演算は加算器（ま
たは乗算器）で演算処理し、後続の演算命令の演算は乗
算器（または加算器）で演算処理することを特徴とする
請求項１記載のベクトル処理装置。
【請求項５】前記各複合演算器は、演算命令が、先行加
算（または乗算）結果を後続乗算（または加算）のオペ
ランドデータとして用いるマクロ演算命令である場合に
前記第３（または第４）の選択を行い、先行する演算は
加算器（または乗算器）で演算処理し、後続の演算は乗
算器（または加算器）で演算処理することを特徴とする
請求項１記載のベクトル処理装置。
【請求項６】先行する演算処理の結果が前記第１（また
は第２）のフィードバックパスを介して後続の演算処理
を行う演算器に入力されるタイミングで、オペランドパ
スからのオペランドが後続の演算処理を行う演算器に到
達するよう当該オペランド自体またはその読み出し指示
を遅延させる手段を具備したことを特徴とする請求項４
または５記載のベクトルデータ処理装置。
【請求項７】前記各複合演算器は、当概加算器および乗
算器の各々について両演算結果を別個独立に外部に出力
する演算結果パスを有することを特徴とする請求項１記
載のベクトルデータ処理装置。
【請求項８】前記各複合演算器は、当該加算器および乗
算器の各々について両演算結果の一方を選択的に外部に
出力する演算結果パスを有することを特徴とする請求項
１記載のベクトルデータ処理装置。
【請求項９】１オペレーションサイクル中に複数のベク
トル要素を並列に処理する要素並列方式のベクトルデー
タ処理装置において、少なくとも１要素並列につき請求
項１記載の装置を採用したことを特徴とするベクトルデ
ータ処理装置。
【請求項１０】少なくとも前記ベクトルデータバッファ
および前記第２つの複合演算器を１チップのマイクロプ
ロセッサ中に構成したことを特徴とする請求項１記載の
ベクトルデータ処理装置。
【請求項１１】複数のベクトル要素よりなるベクトルデ
ータを複数組み保持するベクトルデータバッファと、複数のスカラデータを保持するスカラデータバッファ
と、各々加算器と乗算器とを備えた、２つの複合演算器と、前記２つの複合演算器の各々に対して、それぞれ３つづ
つ設けられた、各々対応する複合演算器にベクトルデー
タもしくはスカラデータのオペランドを与える計６つの
オペランドパスと、前記ベクトルデータバッファおよびスカラデータバッフ
ァの個々の読み出しパスをプログラム命令に応答して各
オペランドパスに接続する手段と、プログラム命令に応答して、前記各複合演算器の各加算
器と各乗算器の各出力を、各々独立に、ベクトルデータ
バッファまたはスカラデータバッファに接続し書き込む
手段と、を備え、前記各複合演算器は、それぞれ、当該複合演算器の前記加算器の出力を当該複合演算器の
１オペランドとして与える第１のフィードバックパス
と、当該複合演算器の前記乗算器の出力を当該複合演算器の
１オペランドとして与える第２のフィードバックパス
と、当該複合演算器の加算器の各オペランドと乗算器の各オ
ペランドの選択として、ｉ、当該複合演算器に対して設
けられた３つのオペランドパスのうちの２つのオペラン
ドパスによって与えられた２オペランドを加算器の２オ
ペランドとする第１の選択と、ii、当該複合演算器に対
して設けられた３つのオペランドパスのうちの２つのオ
ペランドパスによって与えられた２オペランドを乗算器
の２オペランドとする第２の選択と、iii、当該複合演
算器に対して設けられた３つのオペランドパスによって
与えられた３オペランドを加算器の２オペランドと乗算
器の１オペランドとし、第１のフィードバックパスによ
って与えられた１オペランドを乗算器の残る１オペラン
ドとする第３の選択と、iv、当該複合演算器に対して設
けられた３つのオペランドパスによって与えられた３オ
ペランドを乗算器の２オペランドと加算器の１オペラン
ドとし、第２のフィードバックパスによって与えられた
１オペランドを加算器の残る１オペランドとする第４の
選択、との少なくとも４つの選択をプログラム命令に応
答して行う選択手段とを有することを特徴とするベクト
ルデータ処理装置。