JPH0332829B2

JPH0332829B2 -

Info

Publication number: JPH0332829B2
Application number: JP58151327A
Authority: JP
Inventors: Hajime Matsumoto
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1983-08-19
Filing date: 1983-08-19
Publication date: 1991-05-14
Also published as: JPS6043775A

Description

【発明の詳細な説明】

発明の属する技術分野本発明は主メモリ上のデータをベクトルレジス
タに転速してこのベクトルレジスタに転送したデ
ータを使用してベクトル演算を行うデータ処理装
置に関する。従来技術第１図を参照すると、この種の従来のデータ処
理装置では主メモリ１から２本のアクセスパイプ
ライン６および７を介してメモリ制御装置２に各
要素のデータがそれぞれ１マシンサイクルに２要
素ずつ順次読出され、ベクトルレジスタ部３内の
ベクトルレジスタにセツトされる。このベクトル
レジスタの各要素のデータに対し、演算パイプラ
イン部４または５により、１マシンサイクルに２
要素ずつ順次演算が実行される。例えば、主メモ
リ上のベクトルデータＡ，ＢおよびＣがそれぞれ
３２の要素Ａ（０），Ａ(1)，…Ａ（30）およびＡ
（31）；Ｂ（０），Ｂ(1)，…Ｂ（30）およびＢ（31）
；
Ｃ（０），Ｃ(1)，…Ｃ（30）およびＣ（31）からなる
とき、Ｃ＝Ａ＋Ｂなるベクトル演算はベクトルレジスタVR０，
VR１およびVR２を用い４つのベクトル命令で
実行される。すなわち、命令(1)：VR０←Ａ命令(2)：VR１←Ｂ命令(3)：VR２←VR０＋VR１命令(4)：Ｃ←VR２のようである。命令(1)はアクセスパイプライン６を介して主メ
モリ１上のベクトルデータＡの32個の要素をベク
トルレジスタ部３内のベクトルレジスタVR０に
セツトし、命令(2)はアクセスパイプライン７を介
して主メモリ１上のベクトルデータＢの32個の要
素をベクトルレジスタ部３内のベクトルレジスタ
VR１にセツトする。命令(3)はベクトルレジスタ
部３内の２本のベクトルレジスタVR０および
VR１からデータを読出し演算パイプライン部４
で加算を実行し、和をベクトルレジスタ３内のベ
クトルレジスタVR２にセツトする。命令(4)はベ
クトルレジスタ３内のベクトルレジスタVR２の
32個の要素を読出しアクセスパイプライン６を介
して主メモリ１にベクトルデータＣとして格納す
る。一般に主メモリ１に使用するメモリ素子のサイ
クル時間はマシンサイクル時間より長く、数倍程
度長いこともめずらしくなく、主メモリをいくつ
かのパンクに分割することがしばしば行われてい
る。例えば第２図を参照すると、主メモリ１は４つ
のモジユール１１ａないし１１ｄに分かれ、各モ
ジユールは１マシンサイクルに１つのベクトル要
素を読出し／書込みできる。各モジユールは４つ
のバンク１２ａないし１２ｄからなり、各バンク
は４マシンサイクルに１つのベクトル要素を読出
し／書込みできる。各バンクには＃０ないし＃15
のバンク番号が付与されており、＃ｉのバンクに
は番地を16で割つたときの剰余がｉであるデータ
が格納されている。ベクトルデータは隣接した要
素が主メモリ上に格納される番地の差を要素間距
離という。要素間距離は１とは限らない。例えば
35行35列の行列Ｍ（ｉ，ｊ）を行方向に主メモリ
に格納（Ｍ（０，０），Ｍ（１，０），…Ｍ（34，
０），Ｍ（０，１），Ｍ（１，１），…，Ｍ（34，１）
，
Ｍ（０，２）…）すると列ベクトルＭ（０，ｊ），
Ｍ（１，ｊ），…，Ｍ（34，ｊ）の要素距離は１で
あるが、行ベクトルＭ（ｉ，０），Ｍ（ｉ，１），
…，Ｍ（ｉ，34）の要素間距離は35である。第３図を参照すると、ベクトルＡの要素間距離
を１、ベクトルＢの要素間距離を35とし、Ａ（０）
Ｂ（０）ともにMB＃０に格納されているとす
ると、Ａ(1)はMB＃１，Ａ(2)はMB＃２，…，Ａ
（15）はMB（15）、Ａ（16）はMB＃０，…，Ａ
（31）はMB＃15に格納され、Ｂ(1)はMB＃３、
Ｂ(2)はMB＃６，…，Ｂ(6)はMB＃２，…，Ｂ
（31）はMB＃13に格納される。この時の主メモ
リ１に対する各要素のアクセスの状況を第３図に
示す。まず命令１が発行され、１マシンサイクルに２
要素ずつ、Ａ（０）とＡ(1)がMB＃０とMB＃１
から、Ａ(2)とＡ(3)がMB＃２とMB＃３から、
…，と読出されていく。MB＃０とMB＃１は時
刻０から時刻３まで使用中となり、MB＃２と
MB＃３は時刻１から時刻４まで使用中となる。
命令(1)に引継き命令２が発行されＢ（０）とＢ(1)
を主メモリ１から読出す。Ｂ（０），Ｂ(1)はそれぞ
れMB＃０，MB＃３をアクセスしなければなら
ない。MB＃３は命令(1)により時刻１から時刻４
まで使用中なのでＢ（０），Ｂ(1)のアクセス時刻５
から時刻８の間に行われる。Ｂ(2)，Ｂ(3)のアクセ
スはMB＃９が命令(1)で時刻７まで使用中のため
時刻８から時刻11の間に行われる。従つて、例え
ば、時刻５から時刻14の10マシンサイクルの間に
Ａ(10)〜Ａ（27），Ｂ（０）〜Ｂ(5)の24の要素のアク
セスが開始され、１マシンサイクルに４要素毎ア
クセスを開始する場合に比べ60％の効率しかな
い。このように従来この種のデータ処理装置では要
素間距離の異るアクセスを同時に行うとメモリア
クセスの効率が著しく低下するという欠点があ
る。発明の目的本発明の目的は上述の欠点を除去しメモリバン
ク使用中によるメモリアクセスの待ち時間を減ら
しメモリアクセスの効率が高いデータ処理装置を
提供することにある。発明の構成本発明の装置は主メモリと、複数のベクトルレ
ジスタを有するベクトルレジスタ部と、主メモリ
とベクトルレジスタ部との間でデータ転送を行う
アクセスパイプライン部と、ベクトルレジスタの
要素に対して演算を行う演算パイプライン部を有
するデータ処理装置において、主メモリをアクセスパイプライン部の１組のメ
モリアクセスポートに接続し、１つのベクトルレ
ジスタに対応するデータ転送を１マシンサイクル
に2m個の要素の割合で直列に実行し、ベクトル
レジスタ部をアクセスパイプライン部の２組のベ
クトルアクセスポートに接続し、１つのベクトル
レジスタに対応するデータ転送を１マシンサイク
ルにｍ個の要素の割合で並列に転送し、アクセス
パイプラインが２組のバツフアでできており、メ
モリアクセスポートで転送されるデータは要素毎
に交互に２組のバツフアのいずれかに対応し、２
組のベクトルアクセスポートは２×２クロスバー
で２組のバツフアと接続されているように構成さ
れている。次に本発明について図面を参照して詳細に説明
する。第４図を参照すると、本発明の一実施例
は、主メモリ１、メモリ制御装置２、ベクトルレ
ジスタ部３、加算パイプライン部４、乗算パイプ
ライン部５およびアクセスパイプライン部８から
構成されている。主メモリ１とメモリ制御装置２
は４本の読出しラインと４本の書込みラインで接
続され、メモリ制御装置２は中央処理装置
（CPU）と入出力処理装置（LOP）とアクセスパ
イプライン部８からのメモリアクセスを制御し、
アクセスパイプライン部８とは４本の読出しライ
ンと４本の書込みラインで接続される。アクセス
パイプライン部８とベクトルレジスタ部３とはそ
れぞれ２本の読出しラインと２本の書込みライン
をもつ２つのポートで接続される。加算パイプラ
イン部４と乗算パイプライン部５とはそれぞれベ
クトルレジスタ部３から２本×２組のオペランド
の供給を受け２本の出力をベクトルレジスタ部３
に返す。主メモリ１とメモリ制御部２との間の転送レー
トは読出し／書込みとも４語／マシンサイクル、
メモリ制御部２とアクセスパイプライン部８との
間の転送レートは読出し／書込みとも４語／マシ
ンサイクル、アクセスパイプライン部８とベクト
ルレジスタ部３との間の転送レートはポート当り
読出し／書込みとも２語／マシンサイクル、加算
パイプライン部と乗算パイプライン部の演算レー
トはともに２語／マシンサイクルである。前記主メモリ１は第２図に示すように４つのモ
ジユール１１ａないし１１ｄからなり、各モジユ
ールは４つのバンク１２ａないし１２ｄからなつ
ている。第５図を参照すると、アクセスパイプライン部
８は２つのバツフアBF0 81とEF1 82および２×
２クロスバ83から構成され、バツフアBF0 81と
BF1 82はそれぞれアクセスパイプライン部８の
読出しライン、書込みラインの半数のラインと接
続され、かつ、クロスバ８３の一方のポート群
Ａ，Ｂ，ＷおよびＸに接続されている。クロスバ
８３のもう一方のポート群Ｃ，Ｄ，ＹおよびＺは
ベクトルレジスタ部と接続されている。第６図を参照すると、主メモリの各バンクのサ
イクルが４マシンサイクルとし、ベクトルＡの各
要素Ａ（０），Ａ(1)，…，Ａ（30）およびＡ（31）が
それぞれ主メモリのバンクMB＃０、MB＃１，
…，MB＃30およびMB＃31に格納されており、
ベクトルＢの各要素Ｂ（０），Ｂ(1)，…，Ｂ（30）
およびＢ（31）が３つ置きの主メモリのバンク
MB＃０，MB＃３，MB＃６，…MB＃８，MB
＃11，MB＃14に格納されている場合の主メモリ
１のバンクのサイクルの状態が示されている。時
刻のきざみはマシンサイクルであり、時刻０でＡ
（０），Ａ(1)，Ａ(2)およびＡ(3)が格納されているバ
ンクMB＃０，MB＃１，MB＃２およびMB
＃３がアクセスされ、時刻０〜３の４マシンサイ
クルの間ビジーとなる。時刻１でＡ(4)，Ａ(5)，Ａ
(6)およびＡ(7)が格納されているバンクMB＃４，
MB＃５，MB＃６およびMB＃７がアクセスさ
れ、時刻１〜４の４マシンサイクルの間ビジーと
なる。同様にしてMB＃８〜MB＃11は時刻２〜
５の間、MB＃12〜MB＃15は時刻３〜６の間ビ
ジーとなる。時刻４でＡ（16）〜Ａ（19）のアクセ
スを行うが、このときMB＃０〜MB＃３は先行
アクセスによるビジー期間を終了しているので、
バンクビジーによる待ち合せを行うことなくＡ
（16）〜Ａ（19）のアクセスが行われる。Ａ（20）
〜Ａ（31）についても同様にバンクビジーによる
待合せなしにアクセスが行われる。時刻７でベクトルＡの全要素についてのアクセ
スが終了し時刻８でベクトルＢのアクセスを開始
する。ベクトルＢの最初の４要素Ｂ（０），Ｂ(1)，
Ｂ(2)およびＢ(3)の格納されているメモリのバンク
はMB＃０，MB＃３，MB＃６およびMB＃９
であるが、MB＃９が先行するアクセスのため時
刻６〜９の間ビジーのため、Ｂ（０）〜Ｂ(3)のア
クセスは２マシンサイクル遅れて時刻10に行われ
る。以後はバンクビジーによる待合せは発生せず
時刻17にＢ（28）〜Ｂ（31）が格納されているメモ
リバンクMB＃５，MB＃８，MB＃11および
MB＃14のアクセスが行われ、ベクトルＢの全要
素についてのアクセスが終了する。第７図はアクセスパイプライン部８におけるバ
ツフア動作を説明するものである。ここではＡ
（０）〜Ａ(3)がアクセスパイプライン部８に到着
する時刻を０とした時間で表している。時刻０でＡ（０）〜Ａ(3)の４語がアクセスパイ
プライン部８に到着するが、そのうちＡ（０），Ａ
(1)の２語をバツフアBF0にＡ(2)，Ａ(3)の２語をバ
ツフアBF１に格納する。時刻１でＡ(4)〜Ａ(7)の
２語が到着するのでＡ(4)，Ａ(5)の２語をバツフア
BF０に、Ａ(6)，Ａ(7)の２語をバツフアBF１に格
納する。同様にしてＡ(8)，Ａ(9)，Ａ（12），Ａ
（13），…Ａ（28），Ａ（29）がバツフアBF０に、Ａ
(10)，Ａ(11)，…，Ａ（30），Ａ（31）がバツフアBF１
に格納される。ベクトルＢのバツフアへの格納も
同様にして時刻10でＢ（０），Ｂ(1)がバツフアBF
０に、Ｂ(2)，Ｂ(3)がバツフアBF１に格納され時
刻11でＢ(4)，Ｂ(5)がバツフアBF０に、Ｂ(4)，Ｂ
(5)がバツフアBF１に格納され、時刻17でＢ（28），
Ｂ（29）がバツフアBF０に、Ｂ（30），Ｂ（31）が
バツフアBF１に格納される。時刻１でバツフア
BF０からＡ（00），Ａ(1)を時刻(2)でバツフアBF１
からＡ(2)，Ａ(3)を読出し以後バツフアBF０およ
びBF１から交互にＡベクトルの要素を２語ずつ
読み出し、クロスバ８３を制御してクロスバ８３
のポートＣにＡベクトルの要素が２語／マシンサ
イクルの割合でベクトルレジスタ部３に送られ
る。Ａベクトルの要素がベクトルレジスタ部３に送
られている間にＢベクトルがアクセスパイプライ
ン部８に送られてきており、時刻11から読郎し可
能となる。時刻１１ではバツフアBF０の読出し
ポートはＡベクトルのために占有されているので
Ｂ（０），Ｂ(1)のBF０からの読出しは時刻12に行
われる。続いて、時刻13にＢ(2)，Ｂ(3)をバツフア
BF１から読出し、以後バツフアBF０とBF１か
ら交互にＢベクトルの要素を２語ずつ読出し、ク
ロスバ８３を制御してクロスバ８３のポートＤに
Ｂベクトルの要素が２語／マシンサイクルの割合
でベクトルレジスタ部３に送られる。発明の効果本発明にはアクセスパイプライン部を仲介し
て、主メモリとの間は１つのベクトルレジスタに
対応するデータ転送を直列に実行し、ベクトルレ
ジスタ部との間は２つのベクトルレジスタに対応
するデータ転送を並列に実行する構成をとること
により、主メモリのメモリアクセス効率の低減を
防ぐことができるという効果がある。

【図面の簡単な説明】

第１図は従来技術を示す図、第２図は第１図お
よび第４図に示す主メモリ部分を示す図、第３図
は従来技術のメモリバンクのビジーの状態を示す
タイムチヤート、第４図は本発明の一実施例を示
す図、第５図は第４図に示したアクセスパイプラ
イン部を示す図、第６図は第４図の動作を説明す
るためのメモリバンクのビジーのタイムチヤート
および第７図はアクセスパイプライン部のバツフ
アおよびクロスバの動作を説明するためのタイム
チヤートである。第１図から第７図において、１……主メモリ、
２……メモリ制御部、３……ベクトルレジスタ
部、４……加算パイプライン部、５……乗算パイ
プライン部、６〜８……アクセスパイプライン
部、１１ａ〜１１ｄ……メモリモジユール、１２
ａ〜１２ｄ……メモリバンク、８１〜８２……バ
ツフア、８３……２×２クロスバ。

Claims

【特許請求の範囲】１主メモリと、複数のベクトルレジスタを有す
るベクトルレジスタ部と、前記主メモリと前記ベ
クトルレジスタ部との間でデータ転送を行うアク
セスパイプライン部と、前記ベクトルレジスタの
要素に対して演算を行なう演算パイプライン部と
を有するデータ処理装置において、前記アクセスパイプライン部は１組のメモリア
クセスポートと２組のベクトルアクセスポートを
もち、前記アクセスパイプライン部は、前記メモリア
クセスポートに接続された主メモリと、ベクトル
レジスタ部の１つのベクトルレジスタに対応する
データ転送を順次実行し、２組のベクトルアクセスポートに接続された前
記ベクトルレジスタ部は２つのベクトルレジスタ
に対応するデータ転送を同時に実行し、１つの演算パイプラインが１マシンサイクルで
ｍ語の結果を出力するときに前記アクセスパイプ
ライン部は、ベクトルアクセスポートの１つが１
マシンサイクルでｍ語の要素を転送し、メモリア
クセスポートが１マシンサイクルで2m語の要素
を転送することを特徴とするデータ処理装置。２前記アクセスパイプラインが２組のバツフア
を含みメモリアクセスポートで転送されるデータ
は要素毎に交互に２組のバツフアのいずれかに対
応し、２組のベクトルアクセスポートは２×２ク
ロスバーで２組のバツフアに接続されていること
を特徴とする特許請求の範囲第１項記載のデータ
処理装置。