JPS60103482A

JPS60103482A - ベクトル処理能力を有するデ−タ処理装置

Info

Publication number: JPS60103482A
Application number: JP14983584A
Authority: JP
Inventors: レスリー・チヤールズ・ガーシア; デビツド・チヤールス・チヨン‐ピアン‐ギ; スチユアート・ゴードン・タツカー; マイロン・ウイリアム・ザジヤツク
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1983-10-24
Filing date: 1984-07-20
Publication date: 1985-06-07
Also published as: EP0141232A2; JPH0326872B2; EP0141232B1; DE3484978D1; EP0141232A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野〕本発明はデータ処理装置番；関するものであり、具体的
には、現存の制御技術を用いた機能（ファンクショナル
）装置、及びベクトル計算を行なう目的で設計された機
能装置でその目的を達成するためのスカラ計算用のデー
タ径路を含んだデータ処理装置に関するものである。

〔従来技術〕

下記の米国特許はベクトル・データ処理を行なう現存の
データ処理構造の代表例である。

米国特許第４１２８８８０号はベクトル処理のために特
別番；設計されたプロセッサを開示するが、それは独自
のプログラミングを必要とし、処理のためにベクトル・
データをそれに供与するためにはホスト・コンピュータ
に依存しなければならない。この米国特許は多くのユー
ザーの必要性を越えた可能性を提供する極めて大きいプ
ログラムのため極めて高い速度で処理する他のプロセッ
サをも示している。

ベクトル・オペランドを処理するための他の例は米国特
許第４１７２２８７号である。元来スカラ計算用に設計
された一般用データ・プロセッサであって、各インスト
ラクションを実行するため１対のオペランドを処理する
ように設計された演算兼論理装置を含むものを改造し、
ベクトル命令を識別できるようにした。改造の大部分は
ベクトル素子のアクセスのためのメモリ・アドレス演算
の取扱に関係する。処理全体の速度を高めるため極く限
られたメモリ・アドレシング状態の下でのみ、ベクトル
・バッファを加えて使用に供している。しかしこのよう
に改造しても元来の演算装置が依然として使用される。

後者の米国特許ではベクトル命令のマイクロプログラミ
ングのため追加の記憶装置も必要となり、この形式の実
行制御につきものの速度低下を伴なう、更に基本プロセ
ッサの割込み処理能力は、エラー処理の精度が低い場合
はベクトル処理の状態に依存する。

〔発明が解決しようとする問題点〕

本発明の解決課題は次の通りである。

（１）中央処理袋［（ＣＰＵ）の基本的な命令処理・実
行装置に対してベクトル処理機能装置を接続するだけで
、高速ベクトル処理能力を持った一般用データ処理シス
テムを提供すること。

（２）ベクトル機能装置へ推進信号を与えるためにマイ
クロプログラム制御しか必要でないマイクロプログラミ
ング制御を有する基本的データ・プロセッサ用のベクト
ル処ＴＩＩｍ提供すること。

（３）ベクトル例外条件を正しく処理するため適切な基
本システムに対して、精密な割込み及びエラー情報を提
供すること。

（４）アドレス可能なベクトル・レジスタと、長い連鎖
状素子のうちの特定素子に対してのみ融通自在な処理を
行なうことを可能にするマスキング能力と、を含んだベ
クトル処理用の機能装置を提供すること。

〔問題点を解決するための手段〕

上記の課題は、アドレス可能ベクトル・レジスタ、並列
加算器及び乗算／除算装置を含むパイプライン式演算装
置、パイプライン式演算装置を並列化する例外条件又は
エラー表示論理、及びオペランド・アクセス制御のため
のマスク論理を含んだハード配線されたベクトル処理機
能装置によって解決される６ベクトル機能装置は基本プ
ロセッサの命令処理兼制御論理と、実行する命令を受取
るための基本装置のオペランド取出し能力及び記憶能力
と、動作されるべきベクトル素子に完全に依存する。ベ
クトル処理機能装置は基本システムのマイクロプログラ
ム制御からアドバンス信号を受取ることシこより基本シ
ステムと同期した状態でベクトル処理を進める。

ベクトル処理機能装置の演算パイプラインは夫々例外条
件又はエラーを表示する論理を含んだ複数の段より成る
。例外条件又はエラーを表示する論理は間違った結果を
出すのを防止し、且つ正しく処理して例外条件から復旧
するためその例外条件又はエラーの情報を基本システム
に提供する。

マスクレジスタ及び論理はベクトル機能装置のベトクル
記憶中の幾つかの素子を統合することにより、長いベク
トルのうちの幾つかの素子だけを取扱う融通性を与える
。これにより、一旦素子がアクセスされてしまうと処理
に手数かががらなくなり、演算装置のパイプラインを非
常に有効に利用できるようになる。

〔実施例〕

第２図は本発明の対象であるＶＰＵ２０を含んだデータ
処理システムの全体図である。第２図のＶＰＵ２０を除
く残りの部分が米国特許第４２００９２７号に開示され
たような基本データ処理システムである。

メモリ装置２１はプロセッサ記憶２３及びプロセッサ記
憶制御機能（ＰＳＣＦ）２４を含む。メモリ装置２１は
プログラム命令と、ＶＰＵ２０で処理すべきベクトルを
含むデータ・オペランドとを記憶するために使用する。

ＣＰＵ２２は命令を予じめ処理する機能（ＩＰＰＦ）２
５．及びＥ機能装置！２６を含む。これらの装置の詳細
は米国特許第４２００９２７号に開示されている。ＩＰ
ＰＦ２５はＥ機能２６が実行すべきすべての命令及びＶ
ＰＵ２０が実行すべきすべての命令の取出し及び符号解
読を引受ける。Ｅ機能２６は非ベクトルを処理する命令
を実行し、Ｅ機能２６とメモリ装置２１との間にデータ
径路２７を作る。Ｅ機能２６は命令実行制御信号を発生
するためのマイクロプログラム制御記憶を持つ。

基本データ処理システムとＶＰＵ２０との相互接続はＶ
ＰＵ２０及びＥ機能２６間のインタフェイス２８と、Ｖ
ＰＵ２０及びｌＰＰＦ２５間のインタフェイス２９とに
よってなされる。

第１図はＶＰＵ２０及びＣＰＵ２２（７）種々ノ機能装
置を示す。情報を含む詳細は第２図に示すインタフェイ
ス２８及び２９の説明に譲ることにする。

インタフェイス２９はｌＰＰＦ２５中のＩ素子命令キュ
ー３０からＶＰｔＪ２０のベクトル命令レジスタ３１及
びＱ命令バッファ３２へベクトル命令ＯＰコードを送る
。

インタフェイス２９はベクトル・インデックスレジスタ
３３及びストライドレジスタ３４間でアドレス情報を転
送するのにも使用される。ストライドレジスタ３４は順
序づけられたベクトル素子間の主記憶アドレス区切りを
指定するアドレス情報を収容している。

ＶＰＵ２０及びＣＰＵ２２のＥ機能２６間のインタフェ
イス２８の詳細は第１図に示す。第２図のＶＰＵ２０及
びメモリ装置２１間のデータの転送はデータバス３５に
よって行われる。第２図のメモリ装置２１からＶＰＵ２
６へのデータ転送はデータバス２７、Ｅ機能２６のレジ
スタ３６．データバス３５、ＶＰＵ２０中のレジスタ３
７へと行なわれる。ＶＰＵ２０から第２図のメモリ装置
２１へのデータ転送は、ＶＰＵ２０中のレジスタ３８又
はラムダレジスタ３９から２方向性のバス３５を介して
Ｅ機能２６中のレジスタ４０を介してバス２７へと行な
われる。

多重の演算パイプライン処理がＶＰＵ２Ｑで行われ、長
いベクトルを処理するときには多量のアドレス演算が行
われる。多様なエラー状態がＣＰｔＪ２２又はＶＰＵ２
０に生じたときは、エラー状態が生じた命令実行順序に
於ける正確な地点を表示することが大切である。

生じうる１つのエラー状態はメモリ装置２１からＥ機能
２６へのデータアクセスに於けるエラーの検出に関係す
る。Ｅ機能２６に於けるエラーの検出に反応してすべて
の処理を打切ると言うよりは、アクセス例外条件がＥ機
能２６中の４１で受取られて線４２を介してＶＰＵ２０
のアクセス例外条件機構４３へ送られる。４３が受取っ
た例外条件は以後の時刻で利用されて、どれだけの命令
処理がベクトル素子の長いストリングに対して行われた
かどうかシ；ついての一層正確な情報を与えるにれにつ
いては後述する。

生じうる他のエラー状態は、ＶＰＵ２０での演算エラー
の検出に関係する。演算エラーに応答して例外条件コー
ドが４４で作られ、線４５を介してＣＰＵ２２の状態表
示器４６に送られる。演算例外条件はコード化された形
で表わされて、ＣＰ［２２による解析のため状態表示器
（トリガ）４６に記憶され、なすべき訂正処理を決定す
るのに利用される。

前に説明され第１図に示されたように、Ｅ機能２６はそ
の基本制御機構としてマイクロプログラム制御記憶４７
を有する。分岐即ち制御記憶４７中のマイクロ命令実行
の順序の変更が論理４８によって信号されて、種々の分
岐点を表示する。分岐要求を表わす種々の信号線がＶＰ
Ｕ２０からサービス要求４９によって信号され、線５０
を介して分岐点論理４８へ送られる。

第１図に示す１つの最後の線（第２図のインタフェイス
の１部である線）は線５１である。マイクロ命令が制御
記憶４７から読取られてデータレジスタ５２に入れられ
たとき、符号解読器がＣＰＵ２２のＥ機能２６へ実行制
御信号を与える。本発明の１部としてＶＰＵ２０の動作
のタイミング制御がＣＰＵ２２の基本クロックサイクル
によって行われる。ＶＰＵ２０の種々の機能の順次進行
は、データレジスタ５２の符号解読からの線５工上の信
号の制御を受ける。この信号は推進５３と名付けられる
。ＶＰＵ２０に於けるすべてのタイミング及びゲート付
勢は、線５１上のマイクロ命令順序の制御を受けてそれ
と同期し、ＶＰＵ２０のすべての論理及びゲートへ進む
線５４上の推進パルスに応答する。

第３図は第１図の線５０上に信号されるＶＰＵ２０の状
態情報を示し、それらの状態情報は制御記憶４７からの
マイクロ命令の順序を制御するため分岐点論理４８で使
用されるものである。信号線５５及び５６は第１図のｌ
ＰＰＦ２５及びＥ機能２６からのベクトル処理関連信号
線を示す、制御記憶４７のマイクロ命令順序に於ける分
岐は、ＶＰＵ２０の準備完了、オペランド取出し又は記
憶のための要件、ベクトル命令の終端、及びベクトル例
外条件表示を表わす幾つかのＶＰｔＪ２０の状態で生じ
る第４図は８、本発明のＶＰｔＪ２０の種々の径路、レジ
スタ、機能装置を示す、ＶＰＵ２０及びｃｐＵ２２間の
インタフェイスに関係する幾つかのレジスタ及びバスは
第１図と関連して既に述べた。

バスはインタフェイス線２９及び３５を含む。レジスタ
としてはデータ・イン・レジスタ３７．夫々ステージＡ
及びラムダと表記されたレジスタ３８及び３９．命令レ
ジスタ３１．命令バッファ３２、及びアドレス・インデ
ックスレジスタ３３を含む。

これらのレジスタ、−まだ説明していない他のレジスタ
、及び演算装置の機能について以下に説明する。第４図
にベクトル・レジスタ・アレイ５７が示されている。こ
のアレイ５７は１６個のベクトル・レジスタ（ＶＲ）を
含み、各ＶＲは１２８個の４バイト素子で構成されてい
る。ＶＲを（奇偶ペアに）結合して２倍語オペランドを
形成してもよい。ベクトル・レジスタ・アレイ５７のア
ドレシングは後述の多数のアドレス・レジスタ（第４図
では一般的に５８で示す）と関連する。

ステージムレジスタ３８及びステージＢレジスタ５９は
ＶＲ５７から読出されたデータを受取る。

レジスタ３８からのデータは命令次第でベクトル・デー
タ径路又はＥ機能２６の何れかへ進む。レジスタ３８は
線６０上のベクトル・マスク・レジスタ（ＶＭＲ）から
のデータを受取ることもできる。

ＶＭＲの機能は後述する。レジスタ３９は演算データの
流れに対して遅延レジスタとして使用されるばかりか、
レジスタ３８からＥＩａ能２６へ送られているデータに
対してバックアップ・レジストとして使用される。デー
タ遅延は正しいＶＲアクセスを実行するのに必要である
。

レジスタ６１及び６２は種々の源からの情報を受取る。

その出力は浮動小数点演算のための指数整合時に使用さ
れる予備シフト論理へ送られる。

夫々レジスタ６３及び６４にある演算・論理装置（ＡＬ
Ｕ）はＡＬＵ６５によって処理されるべきデータを収容
したステージング・レジスタである。

演算・論理装置（ＡＬＵ）６５は並列のバイナリ加算器
である。ＡＬＵ取出しレジスタ６６は前のサイクルで得
られたＡＬＵ６５の出力を保持する。

事後正規化論理６７が浮動小数点演算用に設けられてい
る。ＡＬＵ出力レジスタ６８の入力は事後正規化論理６
７の出力を受取る。レジスタ６８はＡＬＵ６５に＠還す
るデータに対して遅延レジスターとして働く。レジスタ
６８はレジスタ６１，６３．６６と一緒に４サイクル閉
回路を形成する。

これは後述のベクトル累算命令用に使用される。

インデックス・レジスタ３３はレジスタ６８の出力を入
力として受取る。インデックス・レジスタ３３はインデ
ックス形式の命令中に発生するアドレスを保持するため
に使用される。特定の場合には、そのアドレスは次に第
１図に示すＩ　ＰＰＦ２５のアドレス増分器へ送られる
。

ＶＲ取出しレジスタ６９はＶＲアレイ５７に書込まれる
べきデータのためのステージとして働く。

その入力はレジスタ３７から又は幾つかの源を持つ取出
しバス７０からのものである。

レジスタ７１及び７２はそれぞれ乗算ステージＡレジス
タ及び乗算ステージＢレジスタである。

これらのレジスタは指数台Ｒ１論１ｍ７３を含む乗算デ
ータ径路の残り部分に送るデータを収容する。

被乗数Ａステージ・レジスタ７４は乗算に対して被乗数
を、除算に対して除数を保持し、更に除算機能中は被除
数をバッファする６乗数レジスタ７５は乗算用の乗数を
記憶し、且っ除算の商を記憶する。

レジスタ７４及び７５の出力は乗・除算装置７６に対す
る入力となる。乗・除算装置７６の出力径路に積・商レ
ジスタ７７及び事後正規化論理７８がある。乗・除算デ
ータ径路の最後のレジスタは乗算取出しレジスタ７９で
あって、事後正規化論理７８の出力を受取り、且つ除算
機能の１部としてのすべてのベクトル除算命令に対し及
びある種の複合ベクトル命令に対し、ＡＬＵ６５のデー
タ径路へ供給されるべきデータのための遅延レジスタと
して働く。

前述のレジスタ３７は第１図のＥ機能２６中のレジスタ
３６から到来するデータに対するバッファとして働く。

ＡＬＵ６５はバイナリの短精度オペランド及び良精度オ
ペランドに対して加算及び減算を行う演算・論理装置で
ある。ＡＬＵ６５はＡＮＤ、ＯＲ１及びＥ’Ｘ　ＯＲ論
理動作と、オペランドの０、ｌ、２、又は３ビツト左へ
論理的にシフトする動作とを行うことができる。

インタフェイス２９の情報を受取る命令バッファ３２は
命令実行中ＶＰＵ２０中の他の符号解読回路が使用する
ベクトル・レジスタ・アドレス及びベクトル命令ＯＰコ
ードを保持する。

第４図に於てベクトル・オペランド・データはＶＲアレ
イ５７又はデータ・イン・レジスタ３７を介してＣＰｏ
、２２から到来する。両オペランドがＶＲアレイ５７か
ら到来したときは第１のベクトル素子はデータ径路のＡ
側を通って進行する。

第２のベクトル素子はデータ径路のＢ側を通って進行す
る。データ径路のすべての部分（ＡＬＵ６５又は乗・除
算装置７６）が同時にステップする。

最初、Ａ側ベクトル・オペランドの第１の素子がＢ側ベ
クトル・オペランドの第１の素子よりも１サイクル早＜
ＶＲアレイ５７がら読出される。かくて２サイクルの後
にＡ側索子Ｉはラムダ・レジスタ３９にあり、Ｂ側索子
ｌはステージＢレジスタ５９にあり、Ａ側索子２がステ
ージＡレジスタ３８にある。この初動オフセットはＶＲ
アレイ５７より成る単一ポート・アレイ・チップに順応
するだめに与えられた。このオフセラＩ〜は後述の物理
アレイ・チップに於ける論理ベクトル配列と関連して、
任意所定のサイクル中には任意のアレイ・チップから１
度しか読取られないようにする。■Ｒ取出しレジスタ６
９からのベクトル結果は各機械サイクル毎にＶＲアレイ
５７中に記憶される。

第２図のメモリ装置２１からの１つのベクトルがあり且
つＶＲアレイ５７からも１つのベクトルがあるとき、Ｖ
Ｒアレイ５７からのベクトルはデータ径路のＢ側を通っ
て流れる。Ｅ機能２６から到来するベクトルはレジスタ
３７に入り１次にＡＬ　Ｕシフｌ−Ａレジスタ６１又は
乗算ステージＡレジスタ７Ｉの何れかで始まるデータ径
路のＡ側を通って流れる。ベクトル結果は命令によって
指定さＪＬる通り宛先ＶＲアレイ５７に書込まれる。

ＶＲアレイ５７から１つのベクトルがあり且っＥ機能２
６からスカシ・オペランドがあるとき、Ｃ，Ｉ）Ｕ２２
はある信号を使ってＡＬＵ６５又は乗・除算装置７６デ
ータ径路の何れかのＡ側にスカシ・オペランドを送る。

スカシ・オペランドはＡＬＵシフトＡレジスタ６１又は
乗算ステージＡレジスタ７１の何れかに保持され、後続
の論理へ供給される。ＶＲアレイ５７のオペランドはデ
ータ径路のＢ側を通って流れる。結果は宛先ＶＲアレイ
５７に書込まわる。

メモリ装置２１からの１つのベクトルと、Ｅ機能２６か
らの１つのスカシ素子とが存在するとき。

ＣＰＵ２２はスカシ・オペランドをＡＬＵ６５又は乗・
除算装置７６のデータ径路の何れかのＡ側に送る信号を
発生する６然る後ＣＰＵ２２は推進信号を出してベクト
ル記憶オペランドをデータ径路のＢ側経山でステップさ
せる。次に結果が宛先ＶＲアレイ５７に書込まれる。

一連のベクトルの素子をメモリ装置２１からＶＰＵ２０
へ転送すべきときの、ベタ１〜ル・ロード命令のための
データ転送径路はＣＰＵ２２からレジスタ３６、データ
・バス３５を通ってデータ・イン・レジスタ３７へ入る
。次にデータはＶＲ取出しレジスタ６９を介してＶＲア
レイ５７中に記憶される。１つの素子がＶＲ中に書込ま
れる度毎に、後述のバク１〜ル素子アドレス・レジスタ
が１宛増分される。ストライド（即ち相次ぐ素子間のメ
モリ・アドレスで１以外のもの）を用いるロード命令に
対しては、ＣＰ　Ｕ　２２はベクトル素子の記憶アドレ
スを計算し、記憶に対する取出し要求を作り、ｌサイク
ル当りｌ素子の最大速度でデータを転送する。後述のマ
スク・レジスタを使用するベクトル・ロード命令に対し
ては、ビット・マスクを試験して特定素子がＶＲ５７中
にロードされるべきか否かを決定する。アドレス計算の
１部としてインデックス・ベクトルを使用する命令に対
してはＶ　Ｐ　Ｕ　２０は記憶アドレスを計算する。

次にそのアドレスはインタフェイス２９を介してＣＩ）
Ｕ２２へ送られて、取出し要求を作り且つデータをデー
タ・バス３５経由でＶＰＵ２０へ転送する。

ベクトル記憶命令の間にＶＰＵ２０はデータをＶＲ５７
からステージムレジスタ３８及び両方向性データ・バス
３５紅由でＣＰＵ２２へ転送する。

若しもクロック停止状態がＣＰＵ２２に生じたならば、
１サイクル後にＶＰＵ２０に於て１つの信号がアクティ
ブになる。データ・バス３５上に乗せるべきであったデ
ータはうムダ・レジスタ３９保持される。実行が再開し
たときラムダ・レジスタ３９中のデータはデータ・バス
３５上に出される。ベクトル・ロード命令と同じような
態様で、アドレス引算、ベクトル・マスク利用、及びイ
ンデックス・ベクトル使用が行われる。

ＣＰＵ２２によるＶＰＵ２０のサイクリングの強制的な
制御を第５図に示す。ＣＰＵ２２で既に述べた素子は制
御記憶４７、制御記憶データ・レジスタ５２及びレジス
タ３６を含む。ＣＰＵ２２によって行われる強制的な制
御は、ＣＰ推進と標記されたｌサイクル・トリガ８０を
セットする制御記憶データ・レジスタ５２中の特定のマ
イクロ命令の特定マイクロ順序を検出することによって
達成される。信号線５１が付勢されてＶＰ推進信号５４
を５３に於て発生させ、その信号はＶＰＵ２０のステー
ジ間のデータ径路のすべてのデータ径路ゲー１〜へ供給
される。ベクトル・データは推進信号５４が存在しない
限りデータ径路を通って推進されない。これはＶＰＵ２
０に対する強制的なＣＰＵ２２の制御及び同期を保証す
る。ベクトル推進信号５４がアクティブでないときは、
データ流れ中の各レジスタはそのデータを保持する。

アクティブであるときはデータはＶＰＵ２０にある命令
によって指図された通りにゲー１〜される。

第５図にＶＰＵ２０中の機能データ径路を並列化するデ
ータ有効ビットを示す。８１で示す初期データ有効ビッ
トがＣ１）Ｕ２２のデータ・レジスタ３６と関連づけれ
られ且つマイクロ命令マイクロ順序によってセラ１−さ
肛て、レジスタ３６の内容が有効であること及びＶＰＵ
２０へゲート可能であることを表示するように働く。デ
ータ有効ピッ１〜の機能は特定のステージで処理されつ
つあるデータの有効性を保障することである。取出しレ
ジスタ６９と関連したデータ有効ビットが存在しないと
きはＶＲ５７の更新を阻止する。オペランドの源次第で
ＣＰＵ２２又はＶＲ５７の出力が、処理されるべき各素
子に対してデータ有効ビットをセットし、最後の素子が
処理された後にデータ有効ビットをリセットする。

取出しレジスタ６９と関連したデータ有効ピッ１〜８２
がＶＲ５７の更新を許すとき、正しく処理され終ったベ
タ１〜ル素子の数を表示するためカウンタが増分される
。このカウンタはベクトルのすべての素子の処理の完了
をも表示する。このカウンタはエラーが生じた状況下で
、及び特定のベクトル命令に対する処理が再開されたと
き正しく処理され終った素子の総数を表示する必要が生
じた状況下で使用される。データ径路を通るデータ有効
ビットの通路が実行中の特定のベクトル命令次第で制御
線により形成される第６図に示すすべての素子は既に説明されたものであり
、前と同じ参照番号を（Ｊしである。第６図番未２つの
代表的なベクトル命令に対するＶＰＵ２０内のデータ流
れ径路の２つの形態を示す。実線のデータ径路はＶＲ累
算命令を実行するための形態を示し、破線の径路はＶＲ
及び主記憶乗算・累算命令を実行するための形態を示す
。

ベクトル累算命令に対しては、４つの部分和がＶ　Ｒ５
７から読出されてデータ流れのＡ側に送られる。部分和
はステージＡレジスタ３８、ラムダ・レジスタ３９、Ａ
ＬＵシフトＡレジスタ６１、及びＡＬＵイン・レジスタ
６３を介してステップされる。最初の部分和がレジスタ
６３に到達し且つそのステージに対する有効ビットがＯ
Ｎになったとき、Ｂ側のデータ流れの読取りが始まる。

データ径路中のデータはステップし続ける間中Ｂ側が読
出される。

累算されるべき素子がステージＢレジスタ５９に入ると
き、データ流れのＡ側からの最初の部分和がＡＬＵ取出
しレジスタ６８に入る。次の推進パルスでＡＬＵ取出し
レジスタ６８の内容を線８３経出でＡＬＵシフトＡレジ
スタ６１へ転送し、その間にステージＢレジスタ５９の
内容はＡＬＵシフトＢレジスタ６２へ転送される。推進
パルスは今や両オペランドをデータ流れの中でステップ
し、累算された結果を先ずＡＬＵ出力レジスタ６６ヘゲ
ートし、次にＡＬＵ取出しレジスタ６８へゲートし且つ
線８４を介してＶＲ取出しレジスタ６９ヘゲートする。

ＶＲ取出しレジスタ６９は累算結果をＶＲ５７の４つの
部分和場所のうちの１つへ送り込む、ＡＬＵ取出しレジ
スタ６８はすべての結果をＡＬＵシフトＡレジスタ６１
に送り返す。この部分和は次にＢ側からの他の素子と共
にＡＬＵ６５へ供給され、この動作が継続する。累算命
令の結果は次の通りである。即ち４番目毎の素子が加算
され、その結果がベクトル・レジスタの４つの部分和場
所のうちの１つへ入れられる。

第６図の破線は主記憶からのデータを使用する乗算及び
累算のための構成を示す。第１の推進パルスでデータを
記憶からデータ・イン・レジスタ３７ヘゲートし、ＶＲ
５７オペランドの第１の素子をステージＢレジスタ５９
へと送り込む。第２の推進パルスでデータ・イン・レジ
スタ３７を乗算ステージＡレジスタ７１ヘゲ−１〜し、
ステージＢレジスタ５９を乗算ステージＢレジスタ７２
ヘゲートし、第１の部分和をステージ入レジスタ３８ヘ
ゲートする。第２の推進パルスで付勢されたゲートは更
に５つのサイクルの間使用される。この時点で更に５つ
の素子が乗・除算装置７６のデータ流れの中に読込まれ
ている。しかし乗算取出しレジスタ５９中のデ二りは未
だ有効であることが確認されておらず、部分和０がＡＬ
Ｕ取出しレジスタ６８中に存在する。Ａ　Ｌ　Ｕ　６５
に向うデータ流れは、乗算取出しレジスタ７９が有効デ
ータを表示するまでは更に推進しないように阻止される
。正当なデータ及びそれと関連した有効ビットが乗算取
出しレジスタ７９に到達したとき、次の推進パルスがＡ
ＬＵ取出しレジスタ６８をＡＬＵシフ１〜Ａレジスタ６
１ヘゲートシ１乗算取出しレジスタ７９をＡＬＵシフト
Ｂレジスタ６２ヘゲ−］・する。更に４つ推進した後に
第１の部分和の累算された結果と有効ピッ１−と−緒の
乗算結果とがＡＬＵ取出しレジスタ６８とＶＲ取出し６
９に到達する。結果をベクトル・レジスタ５７へ書込む
ことが始まるのは、積及び部分和０の第１の和がΔＬＵ
取出し６８に到達したときである。

第７図、第８図、第９図はベクトル・レジスタ・アレイ
５７と、第４図中５８で略示したベクトル・レジスタ・
アレイ・アドレシング機構とを示す。

アレイ５７は夫々１２８個の４バイト素子より成る１６
個のベクトル・レジスタ（ＶＲ）を含む。

ＶＲは２倍ワード・オペランドを形成するため組立台わ
せる（奇・偶ペアにする）ことが可能である。アレイ全
体は６４アレイ・チップ８５の形をとる。各チップ８５
は９ピッ１〜幅（８ビツト＋パリテイビツト）である。

アレイ・チップ８５はＩサイクル当り唯１度の読み／書
きに制限されるので、第７図に示すようにＶＲを４路イ
ンターリーブする必要がある。アレイ５７の各縦側は、
４つのグループに分けた１６個のチップ８５より成る１
つのインターリーブを表わす。アレイ５７の各横列は４
つのＶＲを表わす。４つの縦側に形成されたベクトル・
レジスタ０番（ＶＲＯ）についての素子０〜１２７の関
係は第７図に示される。ＶＲはベタ１〜ル動作のために
１サイクル当り２つの素子を与えることができ、且つベ
クトル動作がら又はＣＰＵ２２から１サイクル当り１つ
の素子を受取ることができる。第７図はＶＲレジスタか
ら３８のようなステージ・レジスタへ読出すためのデー
タ径路を示し、第８図はＶＲ取出しレジスタ６９を介し
てＶＲ中ヘデータを読込むことを示す。

第４図の５８で略示したベクトル・レジスタ・アレイ５
７のアドレシングの詳細を第９図に示す。

３つのベクトル素子アドレス・レジスタＶＥＡＲ１、ｖ
ＥＡＲ２及びＶＥＡＲ３がある。これらのレジスタは第
９図では一般的に参照番号８６で示す。■ＥΔＲ２及び
ＶＥＡＲ３は任意所定のサイクル中にＶＲから読取られ
る源ベタ１〜ルの素子の数を収容するのが普通である。

Ｖ　Ｅ　Ａ　Ｒ１はＶＲに畳込まれるベクｌ−ルの素子
の数を収容する。

ＶＥＡＲ’ｌは結果をＶＲに書込む大概のべり１〜ル命
令に対するベタ１−ル割込みインデックス（ＶＩＸ）と
しても利用される。各ＶＥＡＲはそれ自身の増分器によ
って更新され且つ第４図に示すデータ・イン・レジスタ
３７からロードされる。

ＶＩＸはＶＲ取出しレジスタ６９と関連したデータ有効
信号がＶＲへの書込みを許容するように働くときにのみ
増分される。従って若しもＶＲは更新されるべきでない
ことをエラー状態が示すならば、ＶＩＸはステップされ
ず、且つ特定命令の実行中に処理されてしまった素子の
数を表示する。

この情報は任意の固定ルーチンの後、命令が再開される
とき利用可能である。

アドレシング機構も又３つのベタ１〜ル・アドレス・レ
ジスタ（ＶＡＲ）を含む。これらのレジスタは第９図で
は一般的に８７で示す。Ｖ　Ａ　ＲはＶＡＲＩ、ＶＡＲ
２，ＶＡＲ３と標記される。ＶＡＲ２及びＶＡＲ３は素
子が読取られつつある源ＶＲの数を通常収容する。Ｖ　
Ａ　Ｒ１は素子が書込まれつつある宛先ＶＲの数を収容
する。

Ｖ’ＥＡＲ８６のビット５及び６は線８８上に縦側選択
（ＣＳ）信号を出し、ＶＡｒｉ７のピッ１へ２及び３は
線８９上に横列選択（Ｒ５）信号を出す。９０で示す７
ビツトのアドレスは各アレイ・チップ８５中の１２８個
の場所のうちの特定の１つをアドレスするために使用さ
れる。

第９図に示すように各縦ＩＩ（インターリーブ）は独立
ｍｌにアドレス可能である。同じアドレスが１つの縦側
中のすべての１６アレイ・チップ８５に対して与えられ
るので、１つの縦側中に書込んで他の３つの縦側のうち
の任意の１つから読出すことが可能である。データ選択
はステージ・レジスタ中ヘゲートする前に論理チップに
於て行われる。類オペランドは半分のステージ・レジス
タ（例えばレジスタ３８）の両部会に提示される。

長オペランドについては偶数番レジスタ素子が左半分（
０〜３１）へ進み、奇数番レジスタ素子が右半分（３２
〜６３）へ進む。

第１０図、第１１図、第１２図はベグ１−ル処理中のマ
スク・レジスタの種々の用途を示す。ベタ１−ル・マス
ク・レジスタ（ＶＭＲ）は論理的に１２８ピッ１−で構
成され、その任意の１つをＶＰＵ２０での処理によって
セラ１−又はリセッ１−することができる。それは、主
記憶からの情報又は主記憶に記憶された内容と共に、ｌ
サイクル当り８ピッ１−の速さでロードすることができ
る。マスク・レジスタの１２８個のビットはＶＲに記憶
された１２８個の素子に相当する。第１０図に示すよう
にマスク・レジスタの１２８個のピッ１−は更に１６個
の８ビツト・レジスタとして構成されたＶＭＲアレイ９
１として実施される。Ｖ　Ｍ　Ｒの特定のバイナリ・ビ
ットの用途はＶＭＲアドレス・レジスタ９２及びビット
選択論理９３によって選択される。ＶＭＲアドレス・レ
ジスタ９２のピッｈ　０−３はＶＭＲアレイ９１中の１
つのレジスタを選択し、ビット４−６は選択されたレジ
スタの８個のバイナリ・ビットのうちの特定の１つを選
択する。演算及び論理的処理中にマスキングを使用する
か否かの選択がベクトル・モード・トリガ９４のセット
状態又はリセッ１〜状態によってなされる。

ゲート９５はベクトル・モード・１−リガ９４によって
能動化されて、ピッ１へ選択９３で選択された特定のマ
スク・ピッ１〜がバイナリの１であるときに出力９６を
出す。

マスク・レジスタに関連する第１の命令グループは演算
命令及び論理命令より成る。ベクトル・モード・トリガ
９４がオフのとき、１つのベクトルの各素子はデータ流
れに従って流れて処理され、結果がＶＲ５７で取出され
る。しかし若しもモード・１−リガ９４がオンならば１
つの例外事項を除いて前と同様に処理が進行する。ＡＬ
Ｕ６５の結果がΔ■、Ｕ出力レジスタ６６へ進み、且つ
有効ビット９７がセットされたとき、バイナリ１のマス
ク・ピッ１−を表示した信号９６は有効ピッ１〜９７を
ＶＲ取出しレジスタ６９と関連した有効ビット９８ヘゲ
−１〜することができる。バイナリ０のベクトル・マス
ク・レジスタはＡ　Ｌ　Ｕ出力結果をＶＲ５７に記憶さ
せない。ベクトル・マスク・レジスタ・アドレス・レジ
スタ９２はＡＬＵ出力レジスタ６６に結果が記憶される
度毎に１宛増分される。

第１１図に示すように、マスク・ビットはロード、拡張
と呼ばれる命令に於て使用される。この場合、ベタ１〜
ル素子はデータ有効ビットと共に主記憶中の順次アドレ
スによりＣＰＵ２，２からデータ・イン・レジスタ３７
へ転送される。推進パルス５４毎に宛先ＶＲ５７と関連
したベクトル素子アドレス・レジスタがＶＭＲアドレス
・レジスタ９２と一緒に１宛増分される。バイナリ１で
あるベクトル・マスク・ビットと関連した宛先Ｖ　Ｒ５
７の素子のみが取出しレジスタ６９からデータを受取っ
て、ＶＲ５７に素子を記憶させるように９８に於てデー
タを有効にセットする。

第１２図に於てベクトルの１２８素子の順序がＶＲ５７
からステージ・レジスタ３８又はラムダ・レジスタ３９
へ読出され、且つインタフェイス線３５を介してＣＰＵ
２２へ送られる。しかし線９９を介してＣＰＵ２２へ信
号されるバイナリ１なる相当したマスク・ピッ１−を有
する素子のみが実際に主記憶に記憶される。

ＶＰＵ２０が例外条件又はエラー条件に関する正しい情
報を出す様子が第１３図及び第１４図に示される。ＶＰ
Ｕ２０のデータ流れの種々のステージが前と同じ参照番
号を付してこれらの図で示さＪする。記憶アクセス例外
に対するデータ径路を第１３図に示す。記憶アクセス例
外に関する例外ビットのデータ径路はＶＰＵ２０の機能
データ径路と並行する。データ径路ステージ当り１つの
例′″外ビットがある。この例外データ径路は第２図の
主記憶素子２１からのベクトルを使う命令用に使用され
る。若しもアクセス例外が特定素子用の記憶装置で検出
されたならば、ＣＰＵ２２は線４２の信号（通常０であ
る）を１にし、その信号を不良データと一緒にＶＰＵ２
０へ送る。その信号はデータ・イン・レジスタ３７で始
まるアクセス例外データ径路へ送られて４３に於て並列
データ径路が始まる。このアクティブなビットは不良デ
ータと一緒に流れ、そのデータがＶ　Ｒ５７で取出され
るのを禁止する。不良データが取出されたザイクルの間
に、Ｖ　Ｐ　Ｕ　２．０は線１００を介してＣＰＵにア
クセス例外を信号し、この命令に対するデータが更に取
出されるのをすべて禁止する。線１００は第３図に示す
ベクトル取出し例外と表記された線に相当し、第１図に
示す制御記憶４７と関連した分岐論理４８へ供給される
。

アクセス例外データ径路は実行中の命令に従って制御線
により形成される。線１００上の例外信号の識別に際し
て、ＣＰＵ２２マイクロコードはその処理ループを、例
外に遭遇したすべてのベクトル命令に対し共通の終了ル
ーチンに分岐する。

このルーチンに於てマイクロコードは宛先ベクトル・レ
ジスタを表わすＶ　Ｅ　Ａ　Ｒ１のカウント状態により
表示されるＶＩＸを使用し１例外を有する素子の記憶ア
ドレスを計算する。アドレス情報を更新した後、マイク
ロコードがファイリング場所への取出しを行ない、標準
的な割込み処理ルーチンに入る。第１３図に示す通り、
一般的に１０１で示す論理がアクセス例外をＣＰＵ２２
へ送り。

ＶＲ取出しレジスタ６９に収容されたデータに対してＶ
Ｒ５７を更新することを阻止する。論理１０１の３つの
入力の１つの線１０２上の信号は、データ・イン・レジ
スタ３７からのＶＲ，５７を通常ロードする命令に対す
るアクセス例外を表示する。信号線１０３はＡＬＵ出力
レジスタ６６に於Ｉづるデータに対するアクセス例外を
表示し、線１０４は乗・除算装置７６から取出される以
前の時点に於けるアクセス例外を信号する。線１０５の
（ｇ号は第１４図で説明する演算例外に関するものであ
る。

第１４図はＶＰｔ１２０のデータ径路の並列部分である
演算例外ビットのデータ径路を示す。この例外の形式は
３ビット・ワードに符号化される６；３ビツト・コード
がＶ　Ｉ）　Ｕ　２０から第１図と関連して既に述べた
線４５を介してＣＰＵ２２の状態１−リガへ送られる。

１０６で示すように３ピッ１〜例外コードは、第１３図
に示したアクセス例外もあるときにはＣＰＵ２２へ転送
されることはない。

前に示した通り、演算例外径路も又ＶＰＵ２０のデータ
径路を並列化する。演算例外が見出されるデータ径路中
に３つの異なった場所がある。データがステージ・レジ
スタ７１及び７２から第４図の１０７で示を乗・除算装
置７６へ転送されるとき、０による除算及び未正規化オ
ペランド例外に出会う。乗算オーバーフロー、及びアン
ダーフロー例外に乗算取出しレジスタ７９の直前で出会
うことがある。最後に第４図のＡＬＵ６５に於て。

ＡＬＵオーバーフロー、アンダーフロー、及び重み損失
例外にＡＬＵ取出しレジスタ６８の直前で出会う。

線４５を介してレジスータ４４からＣＰＵ状態４６へ送
られる種々の演算例外に対するコートは下記の通りであ
る。

００１：指数オーバーフロー０１０：指数アンダーフローＯｌｌ：重み１００：固定小数点オーバーフロー１０１：未正規化乗・除算１１Ｏ：浮動小数点０除算かくて以上の説明により基本データ処理装置に付加可能
なベクトル処理装置の構成が開示された。

そのベクトル処理装置の順序づけは、マイクロプログラ
ム制御記憶の正規の順序づけと同期した積極的制御を受
ける。更にエラー条件又は例外条件の精密な表示を、基
本データ処理システムの割込み処理機構へ信号すること
ができる。それは基本データ処理システムが解析するた
め既知′の状態にベクトル処理装置を置くため、ベタ１
−ル素子の記憶全体を制御しているベクトル処理装置に
よって信号される。そしてバク１−ル処理装置は更に特
定の演算例外を表示するコード化された信号を基本デー
タ処理装置へ与える。基本データ処理装置の主記憶の融
通性あるしかも効率的な利用がベクトル・マスク・レジ
スタと関連した論理の使用を通じて本発明のベクトル処
理装置によって実現される。

〔発明の効果〕

本発明のよＡしば一般の基本的なデータ処理装置に付加
するだけで高速ベクトル処理機能を果たすバク１−ル処
理装置を実現することができ、しかも一旦ベク１−ルに
機能装置のベクトル記憶中の素子がアクセスされてしま
うと処理に手数がかからなくなり、演算装置のパイプラ
インを有効に利用できるようになる。

【図面の簡単な説明】

第１図は本発明のベクトル処理装置と基本データ処理装
置の中央処理袋＠（ｃｐｕ）との間の主要インタフェイ
スを示す図、第２図は既存のデータ処理装置と共に本発
明を含んだベタ１〜ル処理装置を示す全体的ブロック図
、第３図はベクトル処理に関して基本データ処理装置の
マイクロプログラム分岐論理に与える信号を示す図、第
４図は本発明のベクトル処理装置の機能素子及びデータ
流れ径路中のこれらの素子の制御可能な相互接続を示す
図、第５図は本発明のベタ１〜ル処理装置のデータ径路
及び基本データ処理装置のマイクロプログラム制御によ
るデータ推進の制御を示す図、第６図は２つの代表的な
バク１〜ル命令を実行するための本発明のベクトル処理
装置の素子の相互接続図、第７図は本発明のバク１−ル
処理装置のバク１〜ル・レジスタの配列及び出力データ
径路を示す図、第８図は同じくベク］・ル処理装置のベ
クトル・レジスタの配列及び入力データ径路を示す図、
第９図はバク１−ル処理装置のベタ１−ル・１ノジスタ
のアトレシング論理を示す図、第１Ｏ図はベクトル処理
装置に於ける演算中の１つのベクトルの素子と関連した
マスキングの使用を示す図、第１Ｉ図は主記憶からベク
トル・レジスタへのローディング中の１つのベクトルの
素子と関連したマスキングの使用を示す図、第１２図は
ベクトル・レジスタから主記憶への素子の記憶中の１つ
のベクトルの素子と関連したマスキングの使用を示す図
、第１３図は主記憶からの１つの素子のアクセス中に生
じたエラーを表示するアクセス例外に応答している本発
明のベクトル処理装置の論理を示す図、第１４図は本発
明のバク１−ル処理装置に於ける演算処理中に生じたエ
ラーを表示した演算例外に応答している本発明のベクト
ル処理装置の論理を示す図である。２０・・・・ベタ１〜ル処理装置（ＶＰＵ）　、２１・
・・・主記憶、２２・・・・中央処理装置（ＣＰＵ）、
２５・・・・命令予備処理機能（ＩＰＰＦ）、２６・・
・・Ｅ機能装置、２７・・・・データ径路、２９・・・
・インタフェイス、３０・・・・Ｉ索子命令キュー、３
１・・・・ベクトル命令レジスタ、３２・・・・Ｑ命令
バッファ、３３・・・・ベクトル・バッファ・レジスタ
、３４・・・・ストライド・レジスタ、３５・・・・デ
ータ・バス、３７・・・・データ・イン・レジスタ、４
４・・・・例外コード、４６・・・・状態表示器、４７
・・・・制御記憶、４８・・・・分岐点、４９・・・・
サービス要求、５２・・・・データ・レジスタ、５３・
・・・推進。出願人　インターナショナル・ビジネス・マシーンズ・
コーポレーション復代理人　弁理士　篠　１）　文　雄第１図第３１’４第４図負Ｘ７図ＶＲ計出出１軸ドパ１１．１第１２図ＶＴＹフロックＶＫ９Ｌ暫第１頁の続き＠発明者　スチュアート・ボード　アメン・タッカ−ド
ラ０発　明　者　マイロンΦウイリア　アメム・ザジャツ
ク　ン・リカ合衆国ニューヨーク州ポーキプシー、レドンド・イ
ブ５番地リカ合衆国ニューヨーク州ポーキプシー、ジョナサレー
ン１幡地

Claims

【特許請求の範囲】命令語及びオペランドを記憶するための記憶装置と、命令を取出して解読し、命令の実行を制御し、オペラン
ドを上記記憶装置に出し入れするように働き且つ複数の
実行制御信号を発生するためのマイクロプログラム制御
装置を有する中央処理装置（ＣＰＵ）と、ベクトル・オペランド記、憶装置及びベクトル演算装置
を有するベクトル処理装置と、上記ＣＰＵ及び上記ベクトル処理装置を接続するための
ｄ闇あって、上記マイクロプログラム制御装置から上記
実行制御信号のうちの１つを送るように接続されたベク
トル・２イミング信号線とを含む相互接続手段と、より成るベクトル処理能力を有するデータ処理装置。