JP3102399B2

JP3102399B2 - データ処理装置及び方法

Info

Publication number: JP3102399B2
Application number: JP09352657A
Authority: JP
Inventors: 多加志堀田; 成弥田中; 英雄前島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-12-22
Filing date: 1997-12-22
Publication date: 2000-10-23
Anticipated expiration: 2015-10-23
Also published as: JPH10187444A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はミニコン，マイコン
等のＣＰＵに係り、特に高速動作に好適なデータ処理装
置及び方法に関する。

【０００２】

【従来の技術】従来より、計算機の高速化のために、種
々の工夫が行われている。代表的な手法にパイプライン
がある。パイプラインとは、１つの命令の処理を完全に
終えてから次の命令を始めるのではなくて、１つの命令
を複数ステージに分け、最初の命令が２番目のステージ
にさしかかったところで、次の命令の最初のステージの
処理を始めるというようにバケツリレー式に処理する方
式である。この様な方式については、富田眞治著「並列
計算機構成論」昭晃堂ｐ．２５〜６８に詳しく論じられ
ている。ｎ段パイプライン方式を用いれば、それぞれの
パイプラインステージにて処理されている命令は１つで
あるが、全体としてｎ個の命令を同時に処理することが
でき、パイプラインピッチごとに、１つの命令の処理を
終えることができる。

【０００３】さて、計算機の命令アーキテクチャが、そ
の処理方式、処理性能に及ぼす影響が大であることは周
知である。命令アーキテクチャの観点から計算機を分類
すると、ＣＩＳＣ (Complex Instruction Set Compute
r) とＲＩＳＣ (Reduced Instruction Computer) に分
けられる。ＣＩＳＣでは複雑な命令をマイクロ命令を使
って処理する。これに対して、ＲＩＳＣでは、命令を簡
単なものに絞る代わりに、マイクロ命令を用いずに、ハ
ードワイヤド論理による制御で高速化を計っている。以
下、従来のＣＩＳＣ，ＲＩＳＣの両者について、ハード
ウエア概要とそのパイプライン動作について述べる。

【０００４】図２はＣＩＳＣ型計算機の一般的構成を説
明する図である。２００はメモリインタフェース、２０
１はプログラムカウンタ（ＰＣ）、２０２は命令キャッ
シュ、２０３は命令レジスタ、２０４は命令デコーダ、
２０５はアドレス計算制御回路、２０６はマイクロ命令
を格納しておくControl Storage(ＣＳ）、２０７はマイ
クロ命令カウンタ、２０８はマイクロ命令レジスタ、２
０９はデコーダ、210はメモリとデータをやり取りする
レジスタＭＤＲ (Memory Dtata Register)、２１１はメ
モリ上のオペランドアドレスを示すレジスタＭＡＲ(Mem
ory AddressRegister) 、２１２はアドレス加算器、２
１３はレジスタファイル、２１４はＡＬＵ (Arithmetic
Logical Unit) である。

【０００５】動作の概要を説明する。ＰＣ２０１によっ
て示された命令が、命令キャッシュより取り出され、信
号２１７を通して、命令レジスタ２０３にセットされ
る。命令デコーダ２０４は命令を信号２１８を通して受
けとり、マイクロ命令の先頭アドレスを信号２２０を通
して、マイクロプログラムカウンタ２０７にセットす
る。また、アドレス計算方法を信号２１９を通してアド
レス計算制御回路２０５に指示する。アドレス計算制御
回路２０５は、アドレス計算に必要なレジスタの読み出
し、アドレス加算器２１２の制御等を行う。アドレス計
算に必要なレジスタは、レジスタファイル２１３よりバ
ス２２６，２２７を通してアドレス加算器２１２に送出
される。一方、マイクロ令令は１マシンサイクルごとに
ＣＳ２０６より読み出され、デコーダ２０９によりデコ
ードされ、ALU214，レジスタファイル２１３を制御する
のに使われる。２２４は、これらの制御信号である。AL
U214は、レジスタよりバス２２８，２２９を通して送ら
れるデータを演算し、再びレジスタファイル２１３に格
納する。メモリインタフェース２００は、命令のフェッ
チ，オペランドのフェッチ等、メモリとのやり取りを行
う回路である。

【０００６】次に、図２で示した計算機のパイプライン
動作を図３，図４，図５を用いて説明する。パイプライ
ンは６段である。ＩＦ(Instruction Fetch) ステージで
は、命令キャッシュ２０２より命令が読み出され、命令
レジスタ２０３にセットされる。Ｄ (Decode) ステージ
では、命令デコーダ２０４により、命令のデコードが行
われる。Ａ(Address) ステージでは、アドレス加算器２
１２により、オペランドのアドレス計算が行われる。Ｏ
Ｆ(Operand Fetch) ステージでは、メモリインタフェー
ス２００を通して、MAR211で指されたアドレスのオペラ
ンドがフェッチされ、MDR210にセットされる。次に、Ｅ
Ｘ(Execution) ステージでは、レジスタファイル２１
３、及び、MDR210より、データが読み出され、ALU214に
送られ、演算される。最後にＷ(Write) ステージでは、
演算結果がレジスタファイル２１３の中の１つのレジス
タにバス２３０を通して格納される。

【０００７】さて、図３は、基本命令の１つである加算
命令ＡＤＤを連続して処理する様子を示したものであ
る。１マシンサイクルごとに、１命令処理されており、
ALU214，アドレス加算器２１２共に毎サイクル並列して
動いている。

【０００８】図４は、条件付分岐命令ＢＲＡ_CCの処理の
様子を示したものである。ＴＥＳＴ命令でフラグが生成
される。図４は条件成立時のフローを示したものであ
る。フラグ生成がＥＸステージで行われるため、ジャン
プ先命令のフェッチまでに３サイクルの待サイクルが生
じる。パイプライン段数を増やせば増やす程、この待サ
イクルは増え、性能向上のネツクとなる。

【０００９】図５は、複雑な命令の実行フローを示した
ものである。命令１が複雑な命令である。複雑な命令と
はストリングコピーの様に多数のメモリアクセスがある
命令等で、通常ＥＸステージを多数回延長することによ
り処理される。ＥＸステージはマイクロプログラムによ
り制御される。マイクロプログラムは１マシンサイクル
に１回アクセスされる。即、複雑な命令は、マイクロプ
ログラムを複数回読み出すことにより処理する。この
時、ＥＸステージには１つの命令しか入らないので、次
の命令（図５命令２）は待たされる。このような時に
は、ALU214は常に動いているが、アドレス加算器２１２
には遊びが生じてしまう。

【００１０】次にＲＩＳＣ型計算機について説明する。
図６はＲＩＳＣ型計算機の一般的構成を説明する図であ
る。６０１はメモリインタフェース、６０２はプログラ
ムカウンタ、６０３は命令キャッシュ、６０４はシーケ
ンサ、６０５は命令レジスタ、６０６はデコーダ、６０
７はレジスタファイル、６０８はＡＬＵ、６０９はＭＤ
Ｒ、６１０はＭＡＲである。

【００１１】図７に基本命令の処理フローを示す。ＩＦ
(instruction Fetch）ステージでは、プログラムカウン
タ６０２で指される命令が、命令キャッシュより読み出
され、命令レジスタ６０５にセットされる。また、シー
ケンサ６０４は命令信号615,ALU608よりのフラグ信号６
１６より、プログラムカウンタ６０２を制御する。

【００１２】Ｒ(Read)ステージでは、レジスタファイル
６０７より、命令で示されたレジスタが、バス６１８，
６１９を通して、ALU608に転送される。また、Ｅ(Execu
tion)ステージでは、ALU608により、演算が行われる。
最後にＷ(Write）ステージでは、演算された結果がレジ
スタファイル６０７に、バス６２０を通して格納され
る。

【００１３】ＲＩＳＣ型計算機では、命令を基本的な命
令のみに限定している。演算はレジスタ−レジスタ間に
限られており、オペランドフェッチを伴う命令はロード
命令とストア命令のみである。複雑な命令は基本命令を
組み合わせることによって実現する。また、マイクロ命
令は使用されず、命令レジスタ６０５の内容が直接デコ
ーダ６０６でデコードされ、ALU608等を制御する。

【００１４】図７はレジスタ−レジスタ間演算の処理フ
ローを示している。パイプラインは命令が簡単なため、
４段ですんでいる。

【００１５】図８は条件分岐時の処理フローを示してい
る。ＣＩＳＣ型計算機に比して、パイプライン段数が少
ないため、待サイクルが少ない。図８の例では、待サイ
クルは１サイクルのみである。ただし、必ずしも、レジ
スタ間演算ばかりではなく、メモリからのオペランドの
ロードや、メモリへのオペランドのストアが必要であ
る。ＣＩＳＣ型計算機では、アドレス加算器があるた
め、メモリからのオペランドのロードが１マシンサイク
ルで実行可能だが、図６に示したＲＩＳＣ型計算機で
は、ロード命令は、アドレス計算命令とロード命令に分
解されるため、２マシンサイクルを要してしまう。

【００１６】

【発明が解決しようとする課題】上記従来技術の問題点
について整理して述ベる。ＣＩＳＣ型計算機では、アド
レス加算器があるためメモリ，レジスタ間命令を１マシ
ンサイクルで実行できるが、パイプライン段数が多いた
め、分岐時のオーバヘッドが大きい。また、複雑な命令
を実行する時にはＥステージのみが動くので、アドレス
加算器に遊びが生じてしまうという問題点があった。

【００１７】また、ＲＩＳＣ型計算機では、パイプライ
ン段数が少ないため分岐時のオーバヘッドが小さい。と
ころが、アドレス加算器がなく、メモリ，レジスタ間演
算のためには、ロード命令，レジスタ間演算命令の２命
令を要するという問題点があった。

【００１８】本発明の第１の目的は、複数の演算器を無
駄なく動作させて処理能力を高めることにある。

【００１９】本発明の第２の目的は、分岐時のオーバヘ
ッドを小さくすることにある。

【００２０】また本発明の第３の目的は、メモリ，レジ
スタ間演算等の複雑な命令の処理時間を短縮することに
ある。

【００２１】

【課題を解決するための手段】上記目的を達成するため
に本発明は、複数の命令を記憶する命令ユニットと、命
令ユニットに格納された命令をデコードするデコード手
段と、データを格納するレジスタファイルと、レジスタ
ファイルと接続され、デコードされた命令に基づいて演
算を実行する複数の演算器とを有するデータ処理装置に
おいて、レジスタファイルは複数のレジスタと、各レジ
スタと接続され各演算器にデータを送るための第１の信
号線と、レジスタと接続され各演算器からのデータを受
けるための第２の信号線と、第１の信号群と上記第２の
信号線群とを接続するためのスイッチとから構成されて
いることを特徴とする。

【００２２】

【発明の実施の形態】以下、本発明の一実施例を説明す
る。

【００２３】図９は、本実施例で述ベるプロセツサの命
令一覧である。基本命令は全てレジスタ間演算である。
分岐命令には、無条件分岐命令ＢＲＡ，条件付分岐命令
ＢＲＡ_CC（ｃｃは分岐条件を示す。）、サブルーチンへ
の分岐命令ＣＡＬＬ、サブルーチンからの戻り命令ＲＴ
Ｎの４つがある。他に、ロード命令ＬＯＡＤ、とストア
命令ＳＴＯＲがある。説明の都合上、データ型は３２ビ
ット整数のみとしたがこれに限定されるものではない。
またアドレスは３２ビット（４バイト）毎にふられてい
るものとした。簡単のために、上記の如く命令数を制限
しているが、これは、本発明を制限するものではなく、
１マシンサイクルで処理できる内容であれば、さらに命
令を増やしてもよい。

【００２４】図１０に命令フオーマットを示す。命令は
全て３２ビットの固定長である。基本命令中の下、Ｓ
１，Ｓ２，Ｄフィールドは、それぞれ、演算結果をフラ
グに反映するかどうかを指示するビット，第１ソースレ
ジスタを指示するフィールド，第２ソースレジスタを指
示するフィールド，ディスティネーションレジスタを指
示するフィールドである。

【００２５】本実施例の構成を示したのが、図１であ
る。１００はメモリインタフェース、１０１は３２ビッ
トのプログラムカウンタ、１０２はシーケンサ、１０３
は命令ユニット、１０４は３２ビットの第１命令レジス
タ、１０５は３２ビットの第２命令レジスタ、１０６は
第１デコーダ、１０７は第２デコーダ、１０８はＭＤ
Ｒ、１０９はＭＡＲ、１１０は第１演算ユニット、１１
１はレジスタファイル、１１２は第２演算ユニットであ
る。

【００２６】本実施例では、１マシンサイクルの間に２
つの命令が並列して読み出され実行される。本実施例で
のパイプライン処理の様子を示したのが、図１１〜図１
４である。パイプラインはＩＦ(Instruction Fetch），
Ｒ(Read），ＥＸ(Execution)，Ｗ（Write）の４段であ
る。

【００２７】再び、図１を用いて、本実施例の動作につ
いて説明する。

【００２８】ＩＦステージでは、プログラムカウンタに
よって指される２つの命令が読み出され、バス１１５，
１１７を通して、それぞれ第１命令レジスタ１０４，第
２命令レジスタ１０５にセットされる。ＰＣが偶数の時
には、ＰＣ番地の命令が第１命令レジスタに、ＰＣ＋１
番地の命令が第２命令レジスタに格納される。また、Ｐ
Ｃが奇数の時には、第１命令レジスタにはＮＯＰ命令
が、第１命令レジスタにはＰＣ番地の命令がセットされ
る。シーケンサ１０２はプログラムカウンタを制御する
回路である。第１命令レジスタ，第２命令レジスタ共
に、分岐命令でない時には、プログラムカウンタには、
前プログラムカウンタ値＋２の値をセットする。分岐時
には、分岐アドレスを計算してプログラムカウンタにセ
ットする。条件分岐時には、第１演算ユニットよりのフ
ラグ情報１２３、及び、第２演算ユニットよりのフラグ
情報１２４より、分岐の成否を判定する。また、命令ユ
ニットより送出される信号１１６は、第１命令，第２命
令間の各種の競合を示す競合信号である。競合信号がア
サートされた場合には、競合を避けるようにハードウエ
アで制御する。競合回避方法については、後に詳しく述
ベる。

【００２９】次に基本命令処理時のＲステージの動作に
ついて説明する。Ｒステージでは、第１命令レジスタ１
０４の内容が第１デコーダ１０６でデコードされ、ま
た、第２命令レジスタ１０５の内容が第２デコーダ１０
７でデコードされる。その結果、第１命令レジスタ１０
４の第１ソースレジスタフィールドＳ１で指されるレジ
スタの内容がバス１２５を通して、第２ソースレジスタ
フィールドＳ２で指されるレジスタの内容がバス１２６
を通して、第１演算ユット１１０へ送出される。また、
第２命令レジスタの第１ソースレジスタＳ１で指される
レジスタの内容がバス１２７を通して、第２ソースレジ
スタフィールドＳ２で指されるレジスタの内容がバス１
２８を通して、第２演算ユニット１１２に送出される。

【００３０】次にＥＸステージの動作について説明す
る。

【００３１】ＥＸステージでは、第１命令レジスタのオ
ペコードの内容に従って、第１演算ユニット１１０にお
いて、バス１２５，１２６により送られてきたデータ間
の演算を行う。並列して、第２命令レジスタ１０５のオ
ペコードの内容に従って、第２演算ユニット１１２にお
いて、バス１２７，１２８により送られてきたデータ間
の演算を行う。

【００３２】最後にＷステージの動作を説明する。Ｗス
テージでは、第１演算ユニット110の演算結果が、バス
１２９を通して、第１命令レジスタのディスティネーシ
ョンフィールドＤで指されるレジスタに格納される。ま
た、第２演算ユニット１１２の演算結果が、バス１３１
を通して、第２命令レジスタのディスティネーションフ
ィールドＤで指されるレジスタに格納される。

【００３３】図１１は、基本命令を連続して処理するフ
ローを示したものである。１マシンサイクルに２命令ず
つ処理される。また、この例では、第１演算ユニットと
第２演算ユニットは常に並列して動作している。

【００３４】図１２は第１命令としてロード命令、また
は、ストア命令，第２命令として基本命令を連続して処
理するフローを示したものである。ロード命令実行時に
は、Ｒステージで、第１命令レジスタのＳ２フィールド
で指されるレジスタの内容が、バス１２６を通して、MA
R109に転送される。

【００３５】次に、ＥＸステージで、メモリインタフェ
ース１００を通して、オペランドをフェッチする。最後
に、Ｗステージでフェッチされたオペランドが、バス１
２９を通して、第１命令レジスタのディスティネーショ
ンフィールドＤで指されるレジスタに格納される。ＥＸ
ステージ，１マシンサイクルでオペランドをフェッチす
ることは、メモリインタフェースに高速キャッシュを備
えていれば、可能である。特に、図１に示す、計算機全
体が半導体基板上に集積され、命令キャッシュ，データ
キャッシュ共にオンチップ化されている場合などは容易
である。もちろん、キャッシュがミスヒットした場合に
は、１マシンサイクルでオペランドフェッチを終了する
ことができない。このような時は、システムクロックを
止めて、ＥＸステージを延長すればよい。これは、従来
の計算機でも行われていることである。

【００３６】次にストア命令実行時には、Ｒステージに
おいて、第１命令レジスタの第１ソースレジスタフィー
ルドＳ１で指されるレジスタの内容がデータとして、バ
ス１２５を通してMDR108に転送される。また同時に、第
１命令レジスタの第２リースレジスタフィールドＳ２で
指されるレジスタの内容がアドレスとして、バス１２６
を通してMAR109に転送される。次にＥＸステージで、MA
R109で指される番地に、MDR108内のデータが書き込まれ
る。図１２に示すように、ロード命令，ストア命令が第
１命令にある場合についても、１マシンサイクルに２命
令ずつ処理することができる。ロード命令，ストア命令
が第２命令に出現した時の処理については後に詳しく述
ベる。

【００３７】図１３は、第２命令として無条件ジャンプ
ＢＲＡ命令実行時の処理フローを示したものである。Ｂ
ＲＡ命令が読み出されると、Ｒステージにおいてシーケ
ンサ１０２はディスプレースメントフィールドｄとプロ
グラムカウンタとの加算を行い、プログラムカウンタ１
０１にセットする。この間にＢＲＡ命令の次の番地の命
令、と、その次の番地の命令（図１３命令１と命令２）
が読み出される。その次のサイクルに、ジャンプ先の２
命令が読み出される。本実施例では、命令１，２とも実
行可能なハードウエアとしている。即ち、ジャンプ命令
処理時も、待サイクルが発生しない。この手法は、遅延
分岐と呼ばれるもので、ＲＩＳＣ型の従来計算機でも行
われているものである。ただし、従来のＲＩＳＣ型計算
機では、ジャンプ命令のアドレス計算中に、１命令しか
実行できなかったが、本実施例では、ジャンプ命令のア
ドレス計算中にも、２命令同時処理されるため、より処
理能力を高めることができる。ＣＡＬＬ命令，ＲＴＮ命
令の処理フローも同様である。コンパイラにより、分岐
命令のアドレス計算中にできるかぎり有効な命令を実行
できるようにコード生成するが、何もすることがない時
には図１３命令１，２をＮＯＰ命令としておく。この時
には、実質的に１マシンサイクルの待ちが生ずる。しか
しながら、パイプライン段数が浅いので、従来例で述べ
たＣＩＳＣ型の計算機に比して、分岐時のオーバヘッド
を小さくできるという利点がある。

【００３８】図１４は条件分岐命令ＢＲＡ_CCの処理フロ
ーを示したものである。ＡＤＤ₁Ｆと示した命令で、フ
ラグのセットが行われ、その結果に従い分岐の成否が決
められる。この時も、図１３を用いて説明した無条件分
岐命令処理時と同様にBRA_CC命令のおかれている番地の
次の命令、図１４命令１と、その次の命令、図１４２が
読み出され処理される。ただし、この２命令の処理フロ
ー中Ｗステージにおいては、ＢＲＡ_CC命令の分岐条件不
成立時のみ演算結果のレジスタファイルへの書き込みが
行われる。即ち、分岐命令成立時には、演算結果の書き
込みが抑制される。

【００３９】以上、図１１〜図１４を用いて説明したよ
うに、本実施例では、１マシンサイクルに２命令ずつ処
理するので、その処理能力が最大２倍に向上されるとい
う利点がある。また、命令が簡単で、ワイヤドロジック
による制御でパイプライン段数が４段と少ないため、分
岐時のオーバヘッドを最大１マシンサイクルと小さくす
ることができる。さらにコンパイラによる遅延分岐の最
適化が成功すれば、上記オーバヘッドをなくすことがで
きる。

【００４０】また、複雑な処理も、簡単な命令の組み合
わせで実行するため、従来のCISC型計算機におけるパイ
プライン並列によるアドレス加算器とＡＬＵの並列動作
に比して、図１第１演算ユニット１１０と第２演算ユニ
ット１１２の並列動作をより遊びなく行うことができる
という利点がある。この点について、もう少し説明す
る。メモリからレジスタへのロードを繰り返す場合、従
来ＣＩＳＣ型計算機では図１５に示すように、１マシン
サイクルに１つずつデータをロードすることができる。
これに対して本実施例においては、１つのデータのロー
ドに、アドレス計算用ＡＤＤ命令と、そのアドレスを用
いたＬＯＡＤ命令の２命令かかるが、図１６に示すよう
に１マシンサイクルに２命令ずつ実行できるので、やは
り、１マシンサイクルに１つずつデータをロードでき
る。演算器の並列動作という意味では、両者とも２つの
演算器が同時に並列して動いており、この例では同じで
ある。

【００４１】さらに複雑な処理について比較したのが、
図１７と図１８である。従来のCISC型計算機で６サイク
ルのＥＸステージでの処理を要していた図１７に示す命
令１は、図１８に示すように、本実施例では３サイクル
で終了することができる。これは従来のＣＩＳＣ型計算
機では、命令１の実行中、アドレス加算器の動作がとま
ってしまうが、本実施例では、２つの演算器が毎サイク
ル並列して動くことが可能となるためである。

【００４２】図１第１演算ユニット１１０の中を説明し
たのが図１９である。１５００はＡＬＵ、１５０１はバ
レルシフタ、１５０２はフラグ生成回路である。バス12
5,１２６より転送されてきたデータは、加減算，論理演
算の時にはALU1500 で、ＳＦＴ命令の時にはバレルシフ
タで処理される。処理結果はバス１３０に送出される。
演算結果によりフラグがフラグ生成回路１５０２により
生成され、信号１２３として送出される。

【００４３】図１第２演算ユニット１１２の中を一例と
して説明したのが図２０である。

【００４４】１６００はＡＬＵ、１６０１はフラグ生成
回路である。第１演算ユニットとの相違点はバレルシフ
タがない点である。これは、ＳＦＴ命令は算術論理演算
命令に比して出現ひん度が低いため、省略したのであ
る。こうすることにより、１マシンサイクルに、２つの
ＳＦＴ命令を実行することができなくなるが、ハードウ
エア量を削減できるという利点がある。２つのＳＦＴ命
令が出現した時の制御方法については後述する。

【００４５】図２１は図１レジスタファイル１１１の中
を示したものである。１７０８はレジスタ、１７００〜
１７０９はバススイッチである。各レジスタは、４つの
リードポード、２つの書込みポートを持つ。バススイッ
チは、前命令のディスティネーションフィールドで指さ
れたレジスタを、次命令で直ちに使う時に、レジスタフ
ァイルをバイパスするために用いられる。例えば、バス
スイッチ１７０２は、バス１２９から１２７へのバイパ
ススイッチであり、第１命令のディスティネーションレ
ジスタフィールドＤと第２命令の第１ソースレジスタフ
ィールドＳ１が一致した時に開けるようにすればよい。

【００４６】次に第１命令と第２命令の競合解消方法に
ついて図２２から図２９を用いて説明する。第１命令と
第２命令の組み合せによっては、両命令を同時に実行で
きないことがある。これを競合と呼ぶことにする。以下
の場合に競合がおこる。

【００４７】１．ロード，ストア命令が第２命令として
出現した場合。

【００４８】２．ＳＦＴ命令が第２命令として出現した
場合。

【００４９】３．第１命令のディスティネーションレジ
スタフィールドＤで指されるレジスタと、第２命令の第
１ソースレジスタフィールドＳ１で指されるレジスタ、
または、第２命令の第２ソースレジスタフィールドＳ２
で指されるレジスタが一致する時。

【００５０】上記、競合の内、１と２は、第２演算ユニ
ットで、ロード，ストア命令、及び、ＳＦＴ命令が処理
できないことにより生ずる本実施例特有の問題である。
図１において、バス１２７に第２ＭＤＲ、バス１２８に
第２ＭＡＲを追加し、メモリインタフェースにて、１マ
シンサイクルに２つのデータをアクセスできるようにす
れば、第１の競合条件は解消できる。また、第２演算ユ
ニットにもバレルシフタを設ければ、第２の競合条件も
解消できる。本実施例では、ハードウエア削減のため、
上記競合条件が生じたのである。この様な場合も、後に
述べるように、容易に競合を解消できるので、必要性能
と、許されるハードウエア量に応じて、同時処理大の命
令に対応するハードウエアのみ２重化することは、実質
的に性能を落とさずに、ハードウエアを削減できるとい
う利点がある。

【００５１】図２２を用いてＳＦＴ命令が第２命令とし
て出現した時の制御方法について述べる。図２２上部で
は、第２命令となるアドレス“３”にＳＦＴ命令がある
場合である。図２２下部は、実行時の第１命令レジス
タ，第２命令レジスタに入る命令を示している。プログ
ラムカウンタ２の時、第２命令がＳＦＴ命令であること
をハードウエアで検出し、第１命令レジスタには２番地
の命令を、第２命令レジスタにはＮＯＰ命令をセットす
る。さらに、次のマシンサイクルでは、プログラムカウ
ンタを“１”だけインクリメントし、３番地をセットす
る。そして、第１命令レジスタには、３番地のＳＦＴ命
令を第２命令レジスタにはＮＯＰ命令をセットする。こ
のように２マシンサイクルに分けて処理することによ
り、正しく処理することができる。もちろん、コンパイ
ラによる最適化を行い、できるだけ第２命令にＳＦＴ命
令が出現しないようにすることが好ましい。

【００５２】別の競合解消方式について図２３を用いて
述べる。即ち、第２命令となる奇数アドレスには、ＳＦ
Ｔ命令をおくことを禁止し、他に実行する命令のない時
にはＮＯＰ命令を入れておく。こうすれば、プログラム
サイズは若干増加するが、競合解消のためのハードウエ
アを省略できるよい利点がある。

【００５３】図２４は、ロード命令が第２命令として出
現した時の処理方法を示している。３番地にロード命令
がある。処理方法は、ＳＦＴ命令の時と同じである。

【００５４】図２５は、レジスタ競合時の処理方式を示
している。２番地の命令が８番レジスタに書き込んでお
り、同じ８番レジスタを３番地の命令が読み出してい
る。この場合も、ＳＦＴ命令同様、２マシンサイクルに
分けて実行する。

【００５５】ロード，ストア命令，レジスタ競合につい
ても、奇数番地におくことを禁止して、競合を解消して
もよい。効果はＳＦＴ命令のところで述ベたのと同じで
ある。

【００５６】次に、図２２〜図２５で説明した処理方式
を実現するハードウエア方式について説明する。図２６
はこのための、図１命令ユニット１０３の構成を示した
図である。２３００は競合検出回路、２３０１はキャッ
シュメモリ、２３０２は第１マスク回路、２３０３は第
２マスク回路である。バス１１３からは、通常プログラ
ムカウンタの値が入力され、プログラムカウンタで指さ
れる命令とその次の番地の命令が、バス２３０５，バス
２３０６に送出される。キャッシュミスヒット時にはメ
モリインタフェース１００により命令のフェッチが行わ
れ、バス１１３を通して、キャッシュ２３０１に書き込
まれる。この時競合検出回路が第１命令と第２命令の間
の競合をチェックし、競合があれば、競合信号２３０４
をアサートする。キャッシュには２命令に１ビットずつ
両命令の競合状態を示すビットが設けられており、キャ
ッシュミス時に競合信号２３０４を格納する。第１マス
ク回路は、入力として第１命令，第２命令，競合ビッ
ト，プログラムカウンタの最下位ビットを受け、図２７
に示すように、第１命令レジスタ１０４への信号115を
制御する。また、第２マスク回路は、入力として第２命
令，競合ビット，プログラムカウンタの最下位ビットを
受け、やはり、図２７に示すように、第２命令レジスタ
１０５への信号１１７を送出する。

【００５７】図２７に示すように、競合ビット，ＰＣ最
下位ともに０の時には第１命令レジスタに第１命令が、
第２命令レジスタに第２命令が送出される。これは通常
ケースである。競合ビットが１、ＰＣ最下位が０の時に
は、第１命令レジスタに第１命令が、第２命令レジスタ
にＮＯＰ命令が送出される。これは、競合命令処理時の
第１マシンサイクル時の処理である。次に、競合ビット
が１でＰＣ最下位も１の時には、第１命令レジスタに第
２命令を、第２命令レジスタにＮＯＰを送出する。これ
は、競合命令処理時の第２マシンサイクル時の処理であ
る。上記処理により、図２２，図２３，図２５で説明し
た競合命令の処理フローが実現される。分岐命令が奇数
番地に分岐した時には、図２７に示すように、競合ビッ
トの値によらず、第２命令のみ実効されるので正しい処
理が可能である。キャッシュ読出しは毎サイクル行われ
るが、キャッシュへの書き込みは、キャッシュがミスヒ
ットした時のみ、しかも、数マシンサイクルかけて行わ
れる。従って、競合検出回路を、キャッシュ書込み時に
動作させ、キャッシュに競合ビットを保持しておくこと
は、マシンサイクルを短縮する上で有効である。

【００５８】図２８は、第２６命令キャッシュ２３０１
の構成を示したものである。2500はディレクトリ、２５
０１はデータメモリ、２５０２はセレクタ、２５０３は
アドレスレジスタ、２５０４は書込みレジスタ、２５０
５はコンパレータ、２５０６はキャッシュ制御回路であ
る。図２８のキャッシュは通常のキャッシュの構成とほ
ぼ同じであるが、データメモリ２５０１に、２命令分８
バイトに１つずつ、競合ビット保持用のフィールドがあ
ること、キャッシュ読出し時に、ＰＣ最下位を無視し、
常に第１命令２３０５と第２命令２３０６と競合信号１
１６を送出する点が異なっている。

【００５９】図２８では、データメモリ８Ｋ語分、ブロ
ックサイズ３２バイトとしてある。プログラムカウンタ
より送出された信号１１３はアドレスレジスタ２５０３
にセットされる。アドレスの３〜１２ビットで、ディレ
クトリ２５００とデータメモリ２５０１が引かれる。コ
ンパレータ２５０５は、ディレクトリ出力とアドレスレ
ジスタの１３〜３２ビットを比較する。不一致であれ
ば、信号２５０８により、キャッシュ制御回路２５０６
にそれを知らせる。キャッシュ制御回路２５０６は、主
メモリよりミスヒットした命令を含むブロックを読み出
し、データメモリ２５０１にセットする。一方、セレク
タ２５０２は、アドレスレジスタの第１，２ビットを用
いて、ブロックの中から必要な２命令を選択する。第１
命令と第２命令は必ず同一ブロック内にあり、片方のみ
ミスヒットすることはない。

【００６０】図２９は、図１命令ユニット１０３の他の
構成例を示したものである。2600はキャッシュメモリ、
２６０１は競合検出回路、２３０２は第１マスク回路、
2303は第２マスク回路である。図２６の構成との違い
は、シャッシュに競合ビット保持のフィールドがなく、
キャッシュ出力の第１命令２６０１と第２命令２６０２
を、毎サイクル競合検出回路２６０１が監視しているこ
とである。第１マスク回路２３０２，第２マスク回路２
３０３の動作は、図２６のものと同じである。本実施例
によれば、キャッシュ読み出し後に毎サイクル競合検出
回路が働くので、マシンサイクルが伸びるという欠点が
あるが、キャッシュ内の競合ビットフィールドがなくて
よいという利点がある。

【００６１】さらに、本実施例では、１マシンサイクル
に２命令ずつ処理されることを生かして、図３０に示す
ように特殊な場合に条件付分岐命令をさらに高速化する
ことができる。即ち、条件付分岐命令において、条件成
立時の分岐先が次の次の命令（図３０命令２）である
時、条件の成否にかかわらず、命令２，命令３を実行
し、条件の成否により、命令１のＷステージを抑止する
かどうかを制御することにより、条件成立時の待サイク
ルをなくすことができる。ただし、この場合、条件分岐
命令は必ず第１命令側におくこととする。通常の条件付
分岐では、図１４を用いて説明したように、分岐成立時
には、１サイクルの待サイクルが生じる。言葉を換えて
説明すれば、本発明では１マシンサイクルに２命令ずつ
処理するので、２命令単位での命令処理フローに影響を
与えずに、第１命令側の条件付分岐命令の条件の成否に
より、第２命令側の命令の実行を制御することができ
る。

【００６２】さらに、本実施例では、１マシンサイクル
に２命令ずつ処理されることを生かして、“アトミッ
ク”な処理を容易に実現することができる。アトミック
処理とは、必ず一続きに行われる処理のことで、プロセ
ス間の同期等に使用される。図３１（ａ）は従来の計算
機の場合であり、（ｂ）は本実施例について説明してい
る。（ａ）では各命令の間に割込みが入る可能性がある
が、（ｂ）では、命令１と命令２の間、及び、命令３と
命令４の間には決して割込みが入らない。このため、
（ａ）では、任意の命令のすき間に、他のプロセスを処
理するプログラムが入る可能性があるが、（ｂ）では、
命令１と命令２，命令３と命令４は必ず一続きに実行さ
れることが保証されているという利点がある。

【００６３】図３２は、本発明の他の実施例の構成を示
した図である。本実施例では、１マシンサイクルに４命
令ずつ処理することができる。３２００はメモリインタ
フェース、３２０１はプログラムカウンタ、３２０２は
シーケンサ、３２０３は命令ユニット、３２０４〜３２
０７は、第１〜４命令レジスタ、３２０８〜３２１１
は、第１〜４デコーダ、３２１２はＭＤＲ、３２１３は
ＭＡＲ、３２１４，3215，３２１７，３２１８は、第１
〜４演算ユニット，３２１６はレジスタファイルであ
る。各演算ユニットはレジスタファイル３２１６を共有
している。各部の動作説明は、図１で示した実施例と同
じなので省略する。

【００６４】同様に、さらに並列度をあげることは可能
であるが、数命令に１つの割合で分岐命令が存在するよ
うなプログラムもあり、そのようなプログラムでは、極
端に並列度をあげても、あまり効果が得られない。２〜
４命令同時処理程度が至当である。分岐が少なく、競合
も少ないプログラムでは、さらに並列度をあげれば、効
果的に性能が高まる。また、並列度を２ⁿ(ｎは自然数）
とすることにより、命令ユニットの制御を容易にするこ
とができる。

【００６５】さらに、本発明の他実施例について述ベ
る。これまでの実施例では、常に複数命令同時処理を行
っていた。通常は１マシンサイクルに１命令ずつ処理
し、部分的に複数命令同時処理を行うことによっても利
益を得ることができる。図３３に３つの例を示す。図３
３（ａ）では、第１命令は主メモリ、第２命令はアドレ
ス空間の先頭部分のみにあり、かつ、ＲＯＭ化されてい
る。（ｂ）では、第１命令，第２命令ともに、アドレス
空間の先頭部分でＲＯＭ化されている。他の部分は第１
命令のみで、主メモリにある。（ｃ）では、（ａ）とほ
ぼ同じであるが、第２命令のＲＯＭ化部分がアドレス空
間の中間にある。計算機全体の構成は図１と同じであ
り、ただ命令ユニット１０３を変更すればよい。ＲＯＭ
部分には、使用ひん度が高く、並列度の高いプログラム
を書いておき、主ルーチンよりサブルーチンコールによ
って利用する。ＲＯＭ部分は小容量でよいので、コンパ
イラがなくても、アセンブラにより最適なプログラムを
作成することができる。

【００６６】図３４は、図３３(ａ)を実現するための、
図１命令ユニット１０３の構成を示したものである。２
９００はキャッシュ，２９０１は４Ｋ語のＲＯＭ、２９
０３はマスク回路、２９０２はマスク回路制御回路であ
る。マスク回路制御回路はアドレス１１３を常に監視し
ておりアドレスの上位１２〜３１ビットがオールゼロの
時のみ、有効信号２９０４をアサートする。マスク回路
２９０３は、有効信号２９０４がアサートされた時の
み、ＲＯＭ出力２９０５を第２命令レジスタへの出力１
１７として送出する。他の時はＮＯＰ命令を送出する。

【００６７】図３３（ｃ）を実現するためには、図３４
マスク回路制御回路２９０２を図３５のようにすればよ
い。３０００はコンパレータ、３００１はベースレジス
タである。ベースレジスタの上位１２〜３１ビットと、
アドレス１１３の上位１２〜３１ビットが一致した時
に、コンパレータ３０００は、有効信号２９０４をアサ
ートする。

【００６８】図３３（ｂ）を実現するためには、図１命
令ユニット１０３を図３６のように構成すればよい。２
９０１，２９０２，２９０３の機能は図２９で説明した
同一番号のものと同じである。３１００はキャッシュ、
３１０１は４Ｋ語のＲＯＭ、３１０２はセレクタ制御回
路、３１０７はセレクタである。セレクタ制御回路３１
０２は、アドレス１１３の上位１２〜３１ビットを常に
監視し、それらがオールゼロの時のみＲＯＭ選択信号３
１０５をアサートする。セレクタ３１０７は、ＲＯＭ選
択信号３１０５がアサートされた時のみＲＯＭ出力信号
３１０４を、第１命令レジスタへの出力１１５として送
出する。他の時には、キャッシュ出力３１０３を送出す
る。

【００６９】図３３〜図３６を用いて述べたように、部
分的に複数命令同時処理を行い、その部分をＲＯＭ化す
ることによりハードウエアを削減できる。また、ＲＯＭ
部分のみであればアセンブラによって最適設計できるの
で、複数命令同時処理を意識したコンパイラを開発しな
くてもよいという利点がある。さらに、ＲＯＭ部分を書
き換えることにより、アプリケーションごとに、アプリ
ケーションに適した高速化が実現できる。

【００７０】

【発明の効果】本発明によれば、複雑な命令は基本命令
に分解され、かつ、１マシンサイクルで複数の命令が同
時に読み出され、実行されるために、複数の演算器が同
時に動き、処理能力を高めることができる。また、命令
の機能が簡単で、パイプライン段数を短くできるので、
分岐時のオーバヘッドを小さくできる。

【００７１】また、複数演算器が並列して動くため、複
雑な処理の処理時間を短縮することができる。

【図面の簡単な説明】

【図１】本発明の一実施例の全体ブロックを示した図で
ある。

【図２】従来例の全体ブロックを示した図である。

【図３】図２の動作を説明するタイミングチャートを示
した図である。

【図４】図２の動作を説明するタイミングチャートを示
した図である。

【図５】図２の動作を説明するタイミングチャートを示
した図である。

【図６】もう１つの従来例の全体ブロックを示した図で
ある。

【図７】図６の動作を説明するタイミングチャートを示
した図である。

【図８】図６の動作を説明するタイミングチャートを示
した図である。

【図９】本発明の一実施例の命令一覧を示した図であ
る。

【図１０】本発明の一実施例にかかる命令フオーマット
を示した図である。

【図１１】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１２】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１３】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１４】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１５】従来例の動作を説明するタイミングチャート
を示した図である。

【図１６】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１７】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１８】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図１９】図１の第１演算ユニット１１０の構成を示し
た図である。

【図２０】図１の第２演算ユニット１１２の構成を示し
た図である。

【図２１】図１のレジスタファイル１１１の構成を示し
た図である。

【図２２】図１に示した本発明の一実施例の動作を説明
するための図である。

【図２３】図１に示した本発明の一実施例の動作を説明
するための図である。

【図２４】図１に示した本発明の一実施例の動作を説明
するための図である。

【図２５】図１に示した本発明の一実施例の動作を説明
するための図である。

【図２６】図１の命令ユニット１０３の構成を示した図
である。

【図２７】その動作を説明するための図である。

【図２８】図２６のキャッシュ２３０１の構成を示した
図である。

【図２９】図１の命令ユニット１０３の他の構成を示し
た図である。

【図３０】本発明の一実施例の動作を説明するタイミン
グチャートを示した図である。

【図３１】命令構成を示した図である。

【図３２】本発明の他の実施例の全体ブロックを示した
図である。

【図３３】部分的に複数命令同時処理を行う本発明の他
の実施例を説明するための図である。

【図３４】部分的に複数命令同時処理を行う本発明の他
の実施例を説明するための図である。

【図３５】部分的に複数命令同時処理を行う本発明の他
の実施例を説明するための図である。

【図３６】部分的に複数命令同時処理を行う本発明の他
の実施例を説明するための図である。

【符号の説明】

１０３…命令ユニット、１０４…第１命令レジスタ、１
０５…第２命令レジスタ、１１０…第１演算ユニット、
１１１…レジスタファイル、１１２…第２演算ユニッ
ト。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭62−70938（ＪＰ，Ａ) 特開平２−127731（ＪＰ，Ａ) 特開昭63−136138（ＪＰ，Ａ) 特開昭63−86033（ＪＰ，Ａ) 特開昭63−47834（ＪＰ，Ａ) 特開昭63−148330（ＪＰ，Ａ) 特開平２−128223（ＪＰ，Ａ) 入江直彦（外３名）”ＳＩＭＰ（単一命令流／多重命令パイプライン）方式に基づく『新風』プロセッサの高速化技法および性能予測”，情報処理学会研究報告，Ｖｏｌ．88，Ｎｏ．79（ＡＲＣ− 73），昭和63年10月31日，ｐ．77−84 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】複数の命令を記憶するメモリと、データを格納するレジスタと、上記メモリに記憶された複数の命令を並列に実行可能な
複数の演算器と、上記レジスタに格納されたデータをそれぞれの上記演算
器に送るための複数の第１の信号線と、それぞれの上記演算器の演算結果であるデータを上記レ
ジスタに格納するための複数の第２の信号線と、上記演算器で演算された結果であるデータを次のサイク
ルの演算で使うために複数の上記第１の信号線と複数の
上記第２の信号線とを接続するためのバイパス回路とを
有し、上記バイパス回路は複数の上記演算器で実行される命令
によって制御されるデータ処理装置。
【請求項２】複数の命令を記憶するメモリと、データを格納する複数のレジスタと、上記メモリに記憶された異なった命令を並列に実行可能
な複数の演算器と、それぞれの上記レジスタの出力部とそれぞれの上記演算
器の入力部に接続された複数の第１の信号線と、それぞれの上記演算器の出力部とそれぞれの上記レジス
タの入力部に接続された複数の第２の信号線と、上記演算器で演算された結果であるデータを次のサイク
ルの演算で使うために複数の上記第１の信号線と複数の
上記第２の信号線とを接続するためのバイパス回路とを
有し、上記バイパス回路は複数の上記演算器で実行される命令
によって制御されるデータ処理装置。
【請求項３】請求項１又は２において、上記バイパス回
路は上記第１の信号線と上記第２の信号線とを接続する
スイッチで構成されたデータ処理装置。
【請求項４】複数の命令を格納するメモリと、データを格納するレジスタと、上記メモリに格納された複数の命令を並列に実行可能な
複数の演算器と、上記レジスタに格納されたデータを上記演算器に送るた
めの複数の第１の信号線と、上記演算器で演算された結果であるデータを上記レジス
タに格納するための複数の第２の信号線と、一の演算器の演算結果を、他の演算器の演算で使うため
に複数の上記第１の信号線と複数の上記第２の信号線と
を接続する複数のスイッチとを有するデータ処理装置。
【請求項５】複数の命令を格納するメモリと、データを格納する複数のレジスタと、上記メモリに格納された異なった命令を並列に実行可能
な複数の演算器と、上記レジスタから上記演算器にデータを転送するため
に、それぞれの上記レジスタとそれぞれの上記演算器に
接続された複数の第１の信号線と、上記演算器から上記レジスタにデータを転送するため
に、それぞれの上記演算器とそれぞれの上記レジスタに
接続された複数の第２の信号線と、一の演算器の演算結果を、他の演算器の演算で使うため
に複数の上記第１の信号線と複数の上記第２の信号線と
を接続する複数のスイッチとを有するデータ処理装置。
【請求項６】命令を格納するメモリと、データを格納するレジスタファイルと、上記メモリに格納された命令に基づいて演算を実行する
複数の演算器とを有し、上記レジスタファイルは、連続して実行される第１の演
算と第２の演算において、上記第１の演算による演算結
果を上記第２の演算で使えるように上記第１の演算器か
ら出力されたデータを上記第２の演算器の入力へ転送す
るバイパス回路を有するデータ処理装置。
【請求項７】請求項６において、上記レジスタファイル
は複数のレジスタを有するデータ処理装置。
【請求項８】請求項７において、上記複数のレジスタと
上記複数の演算器とはレジスタに格納されたデータを演
算器へ送るための複数の第１の信号線と、演算器の演算
結果であるデータを上記レジスタに格納するための複数
の第２の信号線によって接続され、上記バイパス回路は
上記複数の第１の信号線と上記複数の第２の信号線とを
接続するスイッチであるデータ処理装置。
【請求項９】請求項６，７又は８において、上記第１の
演算と上記第２の演算は異なる演算器で実行されるデー
タ処理装置。
【請求項１０】複数の命令を記憶するメモリと、データ
を格納するレジスタと、上記メモリに記憶された命令に
基づいて演算を実行する複数の演算器と、上記レジスタ
に格納されたデータを複数の上記演算器に送るための複
数の第１の信号線と、それぞれの上記演算器の演算結果
であるデータを上記レジスタに格納するための複数の第
２の信号線と、異なった演算器で実行される命令が示す
レジスタの番地が一致したときに、レジスタの番地が一
致した演算器間でデータの転送が可能なバイパス回路と
を有するデータ処理装置。
【請求項１１】複数の命令を記憶するメモリと、データ
を格納する複数のレジスタと、上記メモリに記憶された
命令に基づいて演算を実行する複数の演算器と、上記レジスタから上記演算器にデータを送るために、そ
れぞれの上記レジスタとそれぞれの上記演算器に接続さ
れた複数の第１の信号線と、上記演算器から上記レジスタにデータを送るために、そ
れぞれの上記演算器とそれぞれの上記レジスタに接続さ
れた複数の第２の信号線と、異なった演算器間で実行される命令が示すレジスタの番
地が一致したときに、レジスタの番地が一致した演算器
間でデータの転送が可能なバイパス回路とを有するデー
タ処理装置。
【請求項１２】請求項１０又は１１において、上記連続する命令は、異なる演算器で実行されるデータ
処理装置。
【請求項１３】複数の命令を格納するメモリと、データを格納するレジスタと、上記メモリに格納された命令によって演算を実行する複
数の演算器と、上記レジスタに格納されたデータを演算器に送るための
複数の第１の信号線と、上記演算器で演算された結果であるデータを上記レジス
タに格納するための複数の第２の信号線と、異なった演算器間で実行される命令が示すレジスタの番
地が一致するときに、レジスタの番地が一致した演算器
間でデータの転送を可能とするために上記第１の信号線
と上記第２の信号線とを接続するためのスイッチを有す
るデータ処理装置。
【請求項１４】複数の命令を格納するメモリと、データを格納する複数のレジスタと、上記メモリに格納された命令によって演算を実行する複
数の演算器と、上記レジスタから上記演算器にデータを送る複数の第１
の信号線と、上記演算器から上記レジスタにデータを送る複数の第２
の信号線と、異なった演算器間で実行される命令が示すレジスタの番
地が一致するときに、レジスタの番地が一致した演算器
間でデータの転送を可能とするために上記第１の信号線
と上記第２の信号線とを接続するためのスイッチを有す
るデータ処理装置。
【請求項１５】請求項１３又は１４において、上記連続
する２つの命令は、それぞれ異なった演算器で実行され
るデータ処理装置。
【請求項１６】複数の命令を記憶するメモリと、データを格納するレジスタと、上記メモリに記憶された命令を並列に実行可能な複数の
演算器と、上記レジスタに格納されたデータを複数の上記演算器に
送るための第１の信号線群と、それぞれの上記演算器の演算結果であるデータを上記レ
ジスタに格納するための第２の信号線群と、上記第１の信号線群と上記第２の信号線群とを接続する
バイパス回路とを有し、上記演算器の演算結果であるデータを上記レジスタに格
納すると共に、上記バイパス回路を通して他の上記演算
器へ送るデータ処理装置。
【請求項１７】複数の命令を記憶するメモリと、データを格納する複数のレジスタと、上記メモリに記憶された命令を並列に実行可能な複数の
演算器と、上記レジスタから上記演算器にデータを転送するため
に、それぞれの上記レジスタとそれぞれの上記演算器に
接続された複数の第１の信号線と、上記演算器から上記レジスタにデータを転送するため
に、それぞれの上記演算器とそれぞれの上記レジスタに
接続された複数の第２の信号線と、上記第２の信号線から上記第１の信号線にデータを転送
するためのバイパス回路とを有し、演算器の演算結果であるデータの上記レジスタへの格納
と、他の演算器への転送とを同じサイクルで行うデータ
処理装置。
【請求項１８】複数の命令を記憶するメモリと、データを格納する複数のレジスタと、上記メモリに記憶された命令に基づいて演算を実行する
第１，第２の演算器と、上記レジスタから上記第１の演算器にデータを転送する
ための第１の信号線と、上記レジスタから上記第２の演算器にデータを転送する
ための第２の信号線と、上記第１の演算器から上記レジスタにデータを転送する
ための第３の信号線と、上記第２の演算器から上記レジスタにデータを転送する
ための第４の信号線と、上記第３の信号線から上記第２の信号線へデータを転送
するための第１のバイパス回路と、上記第４の信号線から上記第１の信号線へデータを転送
するための第２のバイパス回路とを有するデータ処理装
置。
【請求項１９】請求項１６，１７又は１８において、上
記バイパス回路はスイッチで構成されているデータ処理
装置。
【請求項２０】請求項１，２，３，４，５，６，７，
８，９，１０，１１，１２，１３，１４，１５，１６，
１７，１８，１９のいずれかにおいて、上記データ処理
装置は上記メモリに記憶されている命令をデコードする
デコーダを有し、上記演算器は上記デコーダによってデ
コードされた命令によって演算を行うデータ処理装置。