JP3543181B2

JP3543181B2 - データ処理装置

Info

Publication number: JP3543181B2
Application number: JP27528194A
Authority: JP
Inventors: 雅仁松尾
Original assignee: Renesas Technology Corp
Current assignee: Renesas Technology Corp
Priority date: 1994-11-09
Filing date: 1994-11-09
Publication date: 2004-07-14
Anticipated expiration: 2019-07-14
Also published as: JPH08137688A; US6112289A; US6178492B1

Description

【０００１】
【産業上の利用分野】
本発明は高度な並列処理機構により高い処理能力を実現したデータ処理装置に関し、特に、複数の命令を並列実行可能なデータ処理装置に関する。
【０００２】
【従来の技術】
近年のデータ処理装置は、動作周波数の向上による高速化共に、パイプライン処理あるいはスーパースケーラ等の並列処理技術の開発により飛躍的な性能向上を続けている。スーパースケーラとは、複数の命令を並列にデコードし、並列に実行する技術である。例えば、特開平３−０９１０２９号公報に開示されている発明では、オペランド干渉のない２命令を並列にデコードして実行するデータ処理装置が開示されている。このようなスーパースケーラ技術を用いたデータ処理装置においては、今後はオペランド干渉のある命令あるいはオペランドがメモリオペランドである命令等のような命令に関して、複数命令の並列実行が可能な組み合せをいかにして増加させるかが性能向上の鍵となる。
【０００３】
オペランド干渉のある２命令を並列に処理するデータ処理装置としては、ＡＬＵを２段に直列接続することによりオペランド干渉のある２命令を並列に実行するものが知られている。従来のデータ処理装置では、オペランドに依存関係のある２つの命令は同時に実行しない場合が多い。また、オペランド干渉のある２命令を実行するために単純に演算器を直列に接続したデータ処理装置もあるが、それだけでは高速な実行は困難であり、動作周波数向上の妨げになるという問題もある。
【０００４】
メモリオペランドを有する、即ちオペランドがメモリオペランドである２命令を並列に実行するためには、２つのメモリアクセスを並列に行なう必要がある。２つの独立したメモリオペランドをアクセスするためには、主記憶またはキャッシュメモリを２ポートにするか、あるいは内部キャッシュのタグメモリのみをマルチポート化してメモリをインタリーブ構成にする必要がある。そのような構成を採った従来のデータ処理装置では、２つのメモリオペランドを有する２命令を並列に実行するためには、追加すべきハードウェア量が大きくなり、制御もまた複雑になるという問題があった。
【０００５】
【発明が解決しようとする課題】
このように、スーパースケーラ方式を用いてデータ処理装置の性能向上を図るためには、並列実行可能な命令の組み合せを増加することが重要である。しかし、上述したようにオペランドの干渉がある２命令を高速に並列実行することは困難であった。また、２つのメモリアクセスを行なう命令を並列に実行するためには、ハードウェア量が大幅に増大するという問題点があった。
【０００６】
本発明はこのような事情に鑑みてなされたものであり、スーパースケーラ方式を用いてデータ処理装置の性能向上を図るために、オペランドの干渉がある２命令を高速に並列実行可能とし、またハードウェア量の大幅な増加なしに２つのメモリアクセスを行なう命令を並列に実行可能として、並列実行可能な命令の組み合せを増加させたデータ処理装置の提供を目的とする。
【０００７】
【課題を解決するための手段】
本発明のデータ処理装置の第１の発明は、第１の命令としてはシフト命令を、第２の命令としては算術演算，論理演算または比較命令を対象としている。そして、命令実行手段は、シフト命令でシフト可能なシフト量の一部である１または複数の所定のシフト量のみのシフト処理を実行するシフタと、シフタの出力に少なくとも１つの入力が接続され、少なくとも算術演算または論理演算の内の一つを実行する演算手段とを含む複合演算手段とを有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令がシフト量が自身に含まれる即値で指定され、シフタが実行可能ないずれかのシフト量のシフト処理を実行するシフト命令である第１の条件と、第２の命令が演算手段で実行可能な演算を実行する命令であり、且つ第１の命令のシフト結果を第２の命令が参照する第２の条件とが成立するか否かを判定する判定手段が備えられている。
【０００８】
本発明のデータ処理装置の第２の発明は、第１の命令としては算術演算，論理演算命令を、第２の命令としてはシフト命令を対象としている。そして、命令実行手段は、少なくとも算術演算または論理演算の内の一つを実行する演算手段と、演算手段の出力に入力が接続され、シフト命令でシフト可能なシフト量の一部である１または複数の所定のシフト量のみのシフト処理を実行するシフタとを含む複合演算手段とを有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が演算手段で実行可能な演算を実行する命令である第１の条件と、第２の命令がシフト量が自身に含まれる即値で指定され、シフタで実行可能ないずれかのシフト量のシフト処理を実行するシフト命令であり、且つ第１の命令の演算結果を第２の命令が参照する第２の条件とが成立するか否かを判定する判定手段が備えられている。
【０００９】
本発明のデータ処理装置の第３の発明は、第１の命令としては演算命令を、第２の命令としてはレジスタ間転送命令を対象としている。そして、命令実行手段は、少なくとも算術演算，論理演算またはシフト処理の内の一つを実行する演算手段と、演算手段の演算結果を複数のレジスタへ転送するデータ転送手段とを有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が演算手段で実行可能な演算を実行してその結果を自身に含まれる第１の値に対応するレジスタへ転送する命令である第１の条件と、第２の命令が第１の命令の演算結果を自身に含まれる第２の値に対応するレジスタへ転送する命令である第２の条件とが成立するか否かを判定する判定手段が備えられている。
【００１０】
本発明のデータ処理装置の第４の発明は、第１，第２の命令共に演算命令を対象としている。そして、命令実行手段は、少なくとも算術演算，論理演算またはシフト処理の内の一つをそれぞれ実行する第１及び第２の演算手段と、第１の演算手段の演算結果及び第２の演算手段の演算結果をそれぞれ異なるレジスタへ並列に転送するデータ転送手段とを有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が第１及び第２の演算手段で実行可能な演算を実行してその結果を自身に含まれる第１の値に対応するレジスタへ転送する命令である第１の条件と、第２の命令が第１の命令の演算結果を自身に含まれる第２の値に対応するレジスタへ転送する命令である第２の条件とが成立するか否かを判定する判定手段が備えられている。
【００１１】
本発明のデータ処理装置の第５の発明は、第１，第２の命令共にポップ命令を対象としている。そして、命令実行手段は、データアクセス手段から２データを並列にレジスタへ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令及び第２の命令が共にスタックポインタが指示するスタック領域のデータを自身に含まれる値に対応するレジスタへそれぞれポップする命令である条件が成立するか否かを判定する判定手段が備えられている。
【００１２】
本発明のデータ処理装置の第６の発明は、第１，第２の命令共にプッシュ命令を対象としている。そして、命令実行手段は、２個のレジスタから並列に読み出したデータを並列に、データアクセス手段へ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令及び第２の命令が共に自身に含まれる値に対応するレジスタのデータをスタックポインタが指示するスタック領域へそれぞれプッシュする命令である条件が成立するか否かを判定する判定手段が備えられている。
【００１３】
本発明のデータ処理装置の第７の発明は、第１の命令としてはレジスタ間接モードのロード命令を、第２の命令としてはレジスタ相対間接モードのロード命令を対象としている。そして、命令実行手段は、データアクセス手段から２データを並列にレジスタへ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が自身に含まれる第１の値に対応するレジスタの内容で指定される記憶手段のアドレスのデータを自身に含まれる第２の値に対応するレジスタへ転送する命令であり、且つ第２の命令が自身に含まれる第１の値に対応するレジスタの内容に自身に含まれる第３の値を加算した値で指定される記憶手段のアドレスのデータを自身に含まれる第４の値に対応するレジスタへ転送する命令である第１の条件と、第１の命令により指定されるデータのデータ長が第２の命令に含まれる第３の値と等しい第２の条件とが成立するか否かを判定する判定手段が備えられている。
【００１４】
本発明のデータ処理装置の第８の発明は、第１，第２の命令共にレジスタ相対間接モードのロード命令を対象としている。そして、命令実行手段は、データアクセス手段から２データを並列にレジスタへ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が自身に含まれる第１の値に対応するレジスタの内容に第２の値を加算した値で指定される記憶手段のアドレスのデータを自身に含まれる第３の値に対応するレジスタへ転送する命令であり、且つ第２の命令が自身に含まれる第１の値に対応するレジスタの内容に自身に含まれる第４の値を加算した値で指定される記憶手段のアドレスのデータを自身に含まれる第５の値に対応するレジスタへ転送する命令である第１の条件と、第１の命令により指定されるデータのデータ長が第２の命令に含まれる第４の値と第１の命令に含まれる第２の値との差に等しい第２の条件とが成立するか否かを判定する判定手段が備えられている。
【００１５】
本発明のデータ処理装置の第９の発明は、第１の命令がレジスタ間接モードのストア命令を、第２の命令がレジスタ相対間接モードのストア命令を対象としている。そして、命令実行手段は、２個のレジスタから並列に読み出したデータを並列に、データアクセス手段へ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が自身に含まれる第１の値に対応するレジスタの内容で指定される記憶手段のアドレスへ自身に含まれる第２の値に対応するレジスタのデータを転送する命令であり、且つ第２の命令が自身に含まれる第１の値に対応するレジスタの内容に自身に含まれる第３の値を加算した値で指定される記憶手段のアドレスへ自身に含まれる第４の値に対応するレジスタのデータを転送する命令である第１の条件と、第１の命令により指定されるデータのデータ長が第２の命令に含まれる第３の値に等しい第２の条件とが成立するか否かを判定する判定手段が備えられている。
【００１６】
本発明のデータ処理装置の第１０の発明は、第１，第２の命令共にレジスタ相対間接モードのストア命令を対象としている。そして、命令実行手段は、２個のレジスタから並列に読み出したデータを並列に、データアクセス手段へ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令が自身に含まれる第１の値に対応するレジスタの内容に自身に含まれる第２の値を加算した値で指定される記憶手段のアドレスへ自身に含まれる第３の値に対応するレジスタのデータを転送する命令であり、且つ第２の命令が自身に含まれる第１の値に対応するレジスタの内容に自身に含まれる第４の値を加算した値で指定される記憶手段のアドレスへ自身に含まれる第５の値に対応するレジスタのデータを転送する命令である第１の条件と、第１の命令により指定されるデータのデータ長が第２の命令に含まれる第４の値と第１の命令に含まれる第２の値との差に等しい第２の条件とが成立するか否かを判定する判定手段が備えられている。
【００１９】
本発明のデータ処理装置の第１１の発明は、第１の命令としては加算命令または減算命令の内の少なくとも一つの命令を、第２の命令としては少なくとも命令コードで指定される即値の加算命令または減算命令を対象としている。そして、命令実行手段は、少なくとも加算または減算の内の一つを含む第１の演算と、少なくとも命令コードで指定される即値の加算または減算の内の一つを含む第２の演算との複合演算を実行する複合演算手段を有し、複合演算手段は、上位ｍビットが２入力で、下位ｎビットが３入力の（ｍ＋ｎ）ビット加算器（ｍ、ｎは１以上の自然数）を備え、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令または第２の命令の内の一方が複合演算手段で実行可能な第１の演算を実行する第１の条件と、第１の命令または第２の命令の内の他方が複合演算手段で実行可能な第２の演算として実行可能な、自身に含まれるｎビット以下またはｎビットより小さい即値の加算または減算を行なう命令であり、第２の演算を実行する命令であり、且つ第１の命令の演算結果を第２の命令が参照する第２の条件が成立するか否かを判定する判定手段を備えている。
【００２０】
本発明のデータ処理装置の第１２の発明は、第１の命令としては加算命令を、第２の命令としてはインクリメント命令を対象としている。そして、命令実行手段は、第１の演算としての加算と、第２の演算としてのインクリメント演算との複合演算を実行する複合演算手段を有し、複合演算手段は、２つのデータ入力と１ビットキャリー入力とを有する２入力加算器を備え、第２の演算であるインクリメント演算はキャリー入力を制御することにより実現されるように構成されており、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令または第２の命令の内の一方が複合演算手段で実行可能な第１の演算を実行する第１の条件と、第１の命令または第２の命令の内の他方が複合演算手段で実行可能な第２の演算を実行する命令であり、且つ第１の命令の演算結果を第２の命令が参照する第２の条件が成立するか否かを判定する判定手段が備えられている。
【００２１】
本発明のデータ処理装置の第１３の発明は、第１の命令としては減算命令を、第２の命令としてはデクリメント命令を対象としている。そして、命令実行手段は、第１の演算としての減算と、第２の演算としてのデクリメント演算との複合演算を実行する複合演算手段を有し、複合演算手段は、２つのデータ入力と１ビットキャリー入力とを有する２入力加算器を備え、第２の演算であるデクリメント演算は、キャリー入力を制御することにより実現されるように構成されており、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令または第２の命令の内の一方が複合演算手段で実行可能な第１の演算を実行する第１の条件と、第１の命令または第２の命令の内の他方が複合演算手段で実行可能な第２の演算を実行する命令であり、且つ第１の命令の演算結果を第２の命令が参照する第２の条件が成立するか否かを判定する判定手段が備えられている。
【００２２】
本発明のデータ処理装置の第１４の発明は、第１，第２の命令共にメモリからデータを読み出す命令を対象としている。そして、命令実行手段は、データアクセス手段から２データを並列に命令実行手段へ転送するデータ転送手段とを有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令がメモリからデータを読み出す命令であり、第２の命令がメモリの第１の命令により読み出されるデータに連続する領域のデータを読み出す命令である条件が成立するか否かを判定する判定手段が備えられている。
【００２３】
本発明のデータ処理装置の第１５の発明は、第１４の発明において第１，第２の命令が共にロード命令を対象としている。
【００２４】
本発明のデータ処理装置の第１６の発明は、第１，第２の命令共にメモリにデータを書き込む命令を対象としている。そして、命令実行手段は、２データを並列にデータアクセス手段へ転送するデータ転送手段を有し、命令解析手段は、第１の命令と第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、更に、第１の命令がメモリへデータを書き込む命令であり、第２の命令がメモリの第１の命令により書き込まれるデータに連続する領域にデータを書き込む命令である条件が成立するか否かを判定する判定手段が備えられている。
【００２５】
本発明のデータ処理装置の第１７の発明は、第１６の発明において第１，第２の命令が共にストア命令を対象としている。
【００２６】
更に、本発明のデータ処理装置の第１８の発明は、第１乃至第１４及び第１６の発明において、命令解析手段が、第１の命令と第１の命令に引き続く命令以降の第２の命令とを並列に解析するように構成されている。
【００２７】
また本発明のデータ処理装置の第１９の発明は、第５，第７，第８及び第１４の発明において、データアクセス手段は、記憶手段から以前に取り込んだデータを記憶するデータキャッシュを含む。
【００２８】
また本発明のデータ処理装置の第２０の発明は、第５，第７，第８及び第１４の発明において、データアクセス手段は、記憶手段から以前に取り込んだデータを記憶するバッファ手段を含む。
【００２９】
また本発明のデータ処理装置の第２１の発明は、第６，第９，第１０及び第１６の発明において、データアクセス手段は、記憶手段に書込むべきデータを一時的に保持するバッファ手段を含む。
また本発明のデータ処理装置の第２２の発明は、第１の発明において、命令実行手段は、シフト命令の全シフト量のシフト処理を実行可能な第２のシフタを備え、第１及び第２の命令を並列に実行する際に、第１の命令のシフト処理を第２のシフタでも実行すべくなしてある。
また本発明のデータ処理装置の第２３の発明は、第５または第６の発明において、命令実行手段は、第１及び第２の命令を並列に実行する際に、並列に転送される２データのサイズの総和に対応した値だけ、スタックポインタの更新を行なうべくなしてある。
また本発明のデータ処理装置の第２４の発明は、第１３の発明において、第１の命令は第２の演算としてデクリメントを行なう命令を含み、第２の命令は第１の演算として比較のための減算を行なう比較命令を含む。
【００３０】
【作用】
本発明のデータ処理装置の第１の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令のシフト処理と第２の命令の演算処理との２つの複合演算を複合演算手段に実行させることにより、第１及び第２の命令が並列に実行される。
【００３１】
本発明のデータ処理装置の第２の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令の演算処理と第２の命令のシフト処理との２つの複合演算を複合演算手段に実行させることにより、第１及び第２の命令が並列に実行される。
【００３２】
本発明のデータ処理装置の第３の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令の演算処理を第１の演算手段及び第２の演算手段に並列に実行させ、第１の命令のデータ転送処理及び第２の命令のデータ転送処理をデータ転送手段に並列にそれぞれ実行させることにより、第１及び第２の命令が並列に実行される。
【００３３】
本発明のデータ処理装置の第４の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段がデータアクセス手段から第１の命令に含まれる値に対応するレジスタへの第１の命令のデータ転送処理と、データアクセス手段から第２の命令に含まれる値に対応するレジスタへの第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００３４】
本発明のデータ処理装置の第５の発明では、判定手段が条件が成立すると判定した場合に、命令実行手段がデータアクセス手段から第１の命令に含まれる値に対応するレジスタへの第１の命令のデータ転送処理と、データアクセス手段から第２の命令に含まれる値に対応するレジスタへの第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００３５】
本発明のデータ処理装置の第６の発明では、判定手段が条件が成立すると判定した場合に、命令実行手段が第１の命令に含まれる値に対応するレジスタからデータアクセス手段への第１の命令のデータ転送処理と、第２の命令に含まれる値に対応するレジスタからデータアクセス手段への第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００３６】
本発明のデータ処理装置の第７の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令のデータ転送処理と第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００３７】
本発明のデータ処理装置の第８の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令のデータ転送処理と第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００３８】
本発明のデータ処理装置の第９の発明では、判定手段が条件が成立すると判定した場合に、命令実行手段が第２の値に対応するレジスタからデータアクセス手段への第１の命令のデータ転送処理と、第４の値に対応するレジスタからデータアクセス手段への第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００３９】
本発明のデータ処理装置の第１０の発明では、判定手段が条件が成立すると判定した場合に、命令実行手段が第３の値に対応するレジスタからデータアクセス手段への第１の命令のデータ転送処理と、第５の値に対応するレジスタからデータアクセス手段への第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００４２】
本発明のデータ処理装置の第１１の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令の処理と第２の命令の処理との２つの複合演算を複合演算手段に実行させることにより、第１及び第２の命令が並列に実行される。
【００４３】
本発明のデータ処理装置の第１２の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令の処理と第２の命令の処理との２つの複合演算を複合演算手段に実行させることにより、第１及び第２の命令が並列に実行される。
【００４４】
本発明のデータ処理装置の第１３の発明では、判定手段が第１及び第２の条件が共に成立すると判定した場合に、命令実行手段が第１の命令の処理と第２の命令の処理との２つの複合演算を複合演算手段に実行させることにより、第１及び第２の命令が並列に実行される。
【００４５】
本発明のデータ処理装置の第１４の発明及び第１５の発明では、判定手段が条件が成立すると判定した場合に、命令実行手段がデータアクセス手段から命令実行手段への第１の命令のデータ転送処理と、データアクセス手段から命令実行手段への第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００４６】
本発明のデータ処理装置の第１６の発明及び第１７の発明では、判定手段が条件が成立すると判定した場合に、命令実行手段がデータアクセス手段への第１の命令のデータ転送処理と、データアクセス手段への第２の命令のデータ転送処理とをデータ転送手段に並列に実行させることにより、第１及び第２の命令が並列に実行される。
【００４７】
本発明の第１８の発明では、第１乃至第１４及び第１６の発明において、第１の命令と第１の命令に引き続く命令以降の第２の命令とが並列に解析される。
本発明の第１９の発明では、第５，７，８及び１４の発明において、データアクセス手段は、記憶手段から以前に取り込んだデータをデータキャッシュに記憶する。
本発明の第２０の発明では、第５，７，８及び１４の発明において、データアクセス手段は、記憶手段から以前に取り込んだデータをバッファ手段に一時的に保持する。
本発明の第２１の発明では、第６，９，１０及び１６の発明において、データアクセス手段は、記憶手段に書込むべきデータをバッファ手段に一時的に保持する。
本発明の第２２の発明では、第１の発明において、命令実行手段は、シフト命令の全シフト量のシフト処理を実行可能な第２のシフタを備えており、第１及び第２の命令を並列に実行する際に、第１の命令のシフト処理を第２のシフタでも実行する。
本発明の第２３の発明では、第５または６の発明において、命令実行手段は、第１及び第２の命令を並列に実行する際に、並列に転送される２データのサイズの総和に対応した値だけ、スタックポインタの更新を行なう。
本発明の第２４の発明では、第１３の発明において、第１の命令は第２の演算としてデクリメントを行なう命令を実行することが可能であり、第２の命令は第１の演算として比較のための減算を行なう比較命令を実行することが可能である。
【００４８】
【実施例】
以下、本発明をその実施例を示す図面に基づいて詳述する。
【００４９】
〔実施例１〕
（１）「本発明のデータ処理装置を用いたシステムの構成」
図１のブロック図に本発明のデータ処理装置１を使用したシステム構成例を示す。本発明のデータ処理装置１は３２ビットのアドレスバス２と３２ビットのデータバス３とを有し、これらのバス２，３により主記憶（ＤＲＡＭ）５，ＲＯＭ６，周辺装置７をアクセスする。各ユーザが固有に必要とするＤＲＡＭコントローラ，ＤＭＡコントローラ，タイマ等の制御回路はＡＳＩＣ４に内蔵されている。従って、本発明のデータ処理装置１にはこれらの回路は内蔵されていない。
【００５０】
主記憶５へのアクセスは、１回のアクセスに際してアドレスを１つ出力して３２ビット以下のデータをアクセスする単一転送と、１回のアクセスに際してアドレスを１つ出力して４つの３２ビットデータ（１６バイト）をアクセスするバースト転送とが可能である。
【００５１】
（２）「本発明のデータ処理装置の命令」
（２．１）「命令フォーマット」
本発明のデータ処理装置の命令は１６ビット単位で可変長となっており、奇数バイト長の命令はない。
【００５２】
本発明のデータ処理装置１では高頻度に使用される命令を短いフォーマットとするため、特に工夫された命令フォーマット体系を有する。たとえば、２オペランド命令に対しては基本的に「４バイト＋拡張部」の構成を有し、全てのアドレッシングモードが利用可能な一般形フォーマットと、頻度の高い命令とアドレッシングモードとのみを使用可能な短縮形フォーマットの２つのフォーマットを有する。
【００５３】
図３乃至図１１は本発明のデータ処理装置の命令フォーマットを示す模式図である。これらの模式図中に現われる記号の意味は以下の通りである。
【００５４】
−：オペレーションコードが入る部分
＃：リテラルまたは即値の入る部分
Ｅａ：８ビットの一般形のアドレッシングモードでオペランドを指定する部分Ｓｈ：６ビットの短縮形のアドレッシングモードでオペランドを指定する部分Ｒｎ：レジスタファイル上のオペランドをレジスタ番号で指定する部分
【００５５】
命令データは、図２に示すように右側がＬＳＢ側で、かつ高いアドレスになっている。アドレスＮとアドレスＮ＋１との２バイトを見た後でないと命令フォーマットが判別できないようになっているが、これは命令が必ず１６ビット（ハーフワード）単位でフェッチ、デコードされることを前提としたためである。
【００５６】
本発明のデータ処理装置１の命令では、いずれのフォーマットの場合も、各オペランドのＥａまたはＳｈの拡張部は必ずそのＥａまたはＳｈの基本部を含む１６ビット（ハーフワード）の直後に置かれる。これは、命令により暗黙に指定される即値データ及び命令固有の拡張部に優先する。従って、４バイト以上の命令では、Ｅａの拡張部によって命令のオペレーションコードが分断される場合がある。
【００５７】
また、後述するように、多段間接モードによってＥａの拡張部に更に拡張部が付加される場合にも次の命令オペレーションコードよりもそちらの方が優先される。なお、本発明のデータ処理装置１の命令フォーマットに関しては、特開昭６４−９１２２５号公報、あるいはＵ．Ｓ．Ｐ．Ｎｏ．５，０２９，０６９に詳細に開示されている。
【００５８】
（２．１．１）「短縮形２オペランド命令」
図３乃至図６は２オペランド命令の短縮形フォーマットを示す模式図である。
【００５９】
図３はメモリ−レジスタ間演算命令のフォーマットを示す模式図である。このフォーマットにはソースオペランド側がメモリとなるＬ−ｆｏｒｍａｔと、デスティネーションオペランド側がメモリとなるＳ−ｆｏｒｍａｔとがある。
【００６０】
Ｌ−ｆｏｒｍａｔでは、Ｓｈはソースオペランドの指定フィールドを、Ｒｎはデスティネーションオペランドのレジスタの指定フィールドを、ＲＲはＳｈのオペランドサイズの指定をそれぞれ表す。レジスタ上に置かれたデスティネーションオペランドのサイズは、３２ビットに固定されている。レジスタ側とメモリ側とのサイズが異なり、且つソース側のサイズが小さい場合に符号拡張が行なわれる。また、一部の命令（加算命令，減算命令）では、ソースのオペランドサイズもワードに固定されている。この場合、ＲＲのフィールドはオペレーションコードとなっている。
【００６１】
Ｓ−ｆｏｒｍａｔでは、Ｓｈはデスティネーションオペランドの指定フィールドを、Ｒｎはソースオペランドのレジスタ指定フィールドを、ＲＲはＳｈのオペランドサイズの指定フィールドをそれぞれ表す。レジスタ上に置かれたソースオペランドのサイズは３２ビットに固定されている。レジスタ側とメモリ側とのサイズが異なり、且つソース側のサイズが大きい場合は、オーバフローした部分の切り捨てとオーバフローチェックが行なわれる。
【００６２】
図４はレジスタ−レジスタ間演算命令のフォーマット（Ｒ−ｆｏｒｍａｔ）を示す模式図である。このフォーマットでは、Ｒｎはデスティネーションレジスタの指定フィールドを、Ｒｍはソースレジスタの指定フィールドをそれぞれ示している。オペランドサイズは３２ビットのみである。
【００６３】
図５はリテラル−メモリ間演算命令のフォーマット（Ｑ−ｆｏｒｍａｔ）を示す模式図である。このフォーマットでは、ＭＭはディスティネーションオペランドサイズの指定フィールドを、＃はリテラルによるソースオペランドの指定フィールドを、Ｓｈはデスティネーションオペランドの指定フィールドをそれぞれ示している。
【００６４】
図６は即値−メモリ間演算命令のフォーマット（Ｉ−ｆｏｒｍａｔ）の模式図である。このフォーマットでは、ＭＭはオペランドサイズの指定フィールド（ソース，ディスティネーションで共通）を、Ｓｈはデスティネーションオペランドの指定フィールドをそれぞれ示している。Ｉ−ｆｏｒｍａｔの即値のサイズはデスティネーション側のオペランドのサイズと共通であって８，１６，３２ビットとなり、ゼロ拡張、符号拡張は行なわれない。
【００６５】
（２．１．２）「一般形１オペランド命令」
図７は１オペランド命令の一般形フォーマット（Ｇ１−ｆｏｒｍａｔ）を示す模式図である。このフォーマットでは、ＭＭはオペランドサイズの指定フィールドを表している。一部のＧ１−ｆｏｒｍａｔ命令では、Ｅａの拡張部以外にも拡張部を有する。また、ＭＭを使用しない命令もある。
【００６６】
（２．１．３）「一般形２オペランド命令」
図８乃至図１０は２オペランド命令の一般形フォーマットを示す模式図である。このフォーマットに含まれるのは、８ビットで指定される一般形アドレッシングモードのオペランドが最大２つ存在する命令である。オペランドの総数自体は３つ以上になる場合がある。
【００６７】
図８は第１オペランドがメモリ読み出しを必要とする命令のフォーマット（Ｇ−ｆｏｒｍａｔ）を示す模式図である。このフォーマットでは、ＥａＭはデスティネーションオペランドの指定フィールドを、ＭＭはデスティネーションオペランドサイズの指定フィールドを、ＥａＲはソースオペランド指定フィールドを、ＲＲはソースオペランドサイズの指定フィールドをそれぞれ表している。なお、一部のＧ−ｆｏｒｍａｔ命令では、ＥａＭ，ＥａＲの拡張部以外にも拡張部を有する。
【００６８】
図９は第１オペランドが８ビット即値の命令のフォーマット（Ｅ−ｆｏｒｍａｔ）を示す模式図である。このフォーマットでは、ＥａＭはデスティネーションオペランドの指定フィールドを、ＭＭはデスティネーションオペランドサイズの指定フィールドを、＃はソースオペランド値をそれぞれ表している。
【００６９】
Ｅ−ｆｏｒｍａｔとＩ−ｆｏｒｍａｔとは機能的には似かよっているが、Ｅ−ｆｏｒｍａｔはあくまでも２オペランド一般形（Ｇ−ｆｏｒｍａｔ）からの派生形であり、ソースオペランドのサイズが８ビット固定，デスティネーションオペランドのサイズが８／１６／３２ビットからの選択になっている。即ち、異種サイズ間の演算を前提としてデスティネーションオペランドのサイズに合わせて８ビットのソースオペランドがゼロ拡張または符号拡張される。
【００７０】
図１０は第１オペランドがアドレス計算のみの命令のフォーマット（ＧＡ−ｆｏｒｍａｔ）を示す模式図である。このフォーマットでは、ＥａＷはデスティネーションオペランドの指定フィールドを、ＷＷはデスティネーションオペランドサイズの指定フィールドを、ＥａＡはソースオペランドの指定フィールドをそれぞれ表している。なお、ソースオペランドとしては実効アドレスの計算結果自体が使用される。
【００７１】
（２．１．４）「その他の命令」
上述のフォーマット以外にもいくつかのフォーマットがある。図１１の模式図には、１６ビットすべてがオペレーションコードになっている命令、あるいは１６ビットのオペレーションコードフィールドの一部が即値に割り当てられている命令もある。また、一部の命令では、命令固有の拡張を有する場合もある。
【００７２】
（２．２）「アドレッシングモード」
本発明のデータ処理装置１の命令のアドレッシングモード指定方法には、レジスタを含めて６ビットで指定する短縮形と、８ビットで指定する一般形とがある。
【００７３】
図１２乃至図２２に示すフォーマットの模式図中で使われている記号の意味は以下の如くである。
【００７４】
Ｒｎ：レジスタ指定
（Ｓｈ）：６ビットの短縮形アドレッシングモードでの指定方法
（Ｅａ）：８ビットの一般形アドレッシングモードでの指定方法
なお、各フォーマットの模式図において点線にて囲まれている部分は拡張部を示す。
【００７５】
（２．２．１）「基本アドレッシングモード」
本発明のデータ処理装置１の命令は種々のアドレッシングモードをサポートする。それらの内、本発明のデータ処理装置１でサポートする基本アドレッシングモードには、レジスタ直接モード，レジスタ間接モード，レジスタ相対間接モード，即値モード，絶対モード，ＰＣ相対間接モード，スタックポップモード，スタックプッシュモードがある。
【００７６】
レジスタ直接モードは、レジスタの内容をそのままオペランドとするアドレッシングモードである。フォーマットの模式図を図１２に示す。図中、Ｒｎは汎用レジスタの番号を示す。
【００７７】
レジスタ間接モードは、汎用レジスタの内容をアドレスとするメモリの内容をオペランドとするアドレッシングモードである。フォーマットの模式図を図１３に示す。図中、Ｒｎは汎用レジスタの番号を示す。
【００７８】
レジスタ相対間接モードは、ディスプレースメント値が１６ビットであるか３２ビットであるかにより２種類に分かれる。いずれも、汎用レジスタの内容に１６ビットまたは３２ビットのディスプレースメント値を加えた値をアドレスとするメモリの内容をオペランドとするアドレッシングモードである。フォーマットの模式図を図１４に示す。図中、Ｒｎは汎用レジスタの番号を示す。ｄｉｓｐ：１６とｄｉｓｐ：３２とは、それぞれ１６ビットのディスプレースメント値，３２ビットのディスプレースメント値を示す。ディスプレースメント値は符号付きとして扱われる。
【００７９】
即値モードは、命令コード中で指定されるビットパターンをそのまま２進数と見なしてオペランドとするアドレッシングモードである。フォーマットの模式図を図１５に示す。図中、ｉｍｍ＿ｄａｔａは即値を示す。ｉｍｍ＿ｄａｔａのサイズは、オペランドサイズとして命令中で指定される。
【００８０】
絶対モードは、アドレス値が１６ビットで示されるか３２ビットで示されるかにより２種類に分かれる。いずれも、命令コード中で指定される１６ビットまたは３２ビットのビットパターンをアドレスとしたメモリの内容をオペランドとするアドレッシングモードである。フォーマットの模式図を図１６に示す。図中、ａｂｓ：１６とａｂｓ：３２とは、それぞれ１６ビット，３２ビットのアドレス値を示す。ａｂｓ：１６にてアドレスが示される場合は指定されたアドレス値は３２ビットに符号拡張される。
【００８１】
ＰＣ相対間接モードは、ディスプレースメント値が１６ビットであるか３２ビットであるかにより２種類に分かれる。いずれも、プログラムカウンタの内容に１６ビットまたは３２ビットのディスプレースメント値を加えた値をアドレスとするメモリの内容をオペランドとするアドレッシングモードである。フォーマットの模式図を図１７に示す。図中、ｄｉｓｐ：１６とｄｉｓｐ：３２とは、それぞれ１６ビットのディスプレースメント値，３２ビットのディスプレースメント値を示す。ディスプレースメント値は符号付きとして扱われる。ＰＣ相対間接モードにおいて参照されるプログラムカウンタの値は、そのオペランドを含む命令の先頭アドレスである。多段間接アドレッシングモードにおいてプログラムカウンタの値が参照される場合にも、同様に命令の先頭のアドレスがＰＣ相対モードの基準値として使用される。
【００８２】
スタックポップモードはスタックポインタ（ＳＰ，Ｒ１５）の内容をアドレスとするメモリの内容をオペランドとするアドレッシングモードである。オペランドアクセス後にＳＰがオペランドサイズだけインクリメントされる。例えば、３２ビットデータが扱われる場合には、オペランドアクセス後にＳＰが＋４だけ更新される。Ｂ（バイト），Ｈ（ハーフワード）のサイズのオペランドに対するスタックポップモードの指定も可能であり、それぞれＳＰが＋１，＋２だけ更新される。フォーマットの模式図を図１８に示す。
【００８３】
スタックプッシュモードはＳＰの内容をオペランドサイズだけデクリメントした内容をアドレスとするメモリの内容をオペランドとするアドレッシングモードである。スタックプッシュモードではオペランドアクセス前にＳＰがデクリメントされる。例えば、３２ビットデータが扱われる場合には、オペランドアクセス前にＳＰが−４だけ更新される。Ｂ，ＨＯのサイズのオペランドに対するスタックプッシュモードの指定も可能であり、それぞれＳＰが−１， −２だけ更新される。フォーマットの模式図を図１９に示す。
【００８４】
（２．２．２）「多段間接アドレッシングモード」
複雑なアドレッシングも、基本的には加算と間接参照の組み合わせに分解することが可能である。従って、加算と間接参照のオペレーションをアドレッシングのプリミティブとして与えておき、それらを任意に組み合わせることができれば、どんな複雑なアドレッシングモードをも実現することが出来る。本発明のデータ処理装置１の命令の多段間接アドレッシングモードは上述のような考え方に基づいたアドレッシングモードである。
【００８５】
多段間接アドレッシングモードを指定する場合、基本アドレッシングモード指定フィールドではレジスタベース多段間接モード，ＰＣベース多段間接モード，絶対ベース多段間接モードの３種類の指定方法の内のいずれか１つを指定する。
【００８６】
レジスタベース多段間接モードは、汎用レジスタの値を、拡張する多段間接アドレッシングのベース値とするアドレッシングモードである。フォーマットの模式図を図２０に示す。図中、Ｒｎは汎用レジスタの番号を示す。
【００８７】
ＰＣベース多段間接モードは、プログラムカウンタの値を拡張する多段間接アドレッシングのベース値とするアドレッシングモードである。フォーマットの模式図を図２１に示す。
【００８８】
絶対ベース多段間接モードは、ゼロを拡張する多段間接アドレッシングのベース値とするアドレッシングモードである。フォーマットの模式図を図２２に示す。
【００８９】
拡張される多段間接モード指定フィールドは１６ビットを単位としており、これが任意回反復して付加される。１段の多段間接モードにより、ディスプレースメントの加算，インデクスレジスタのスケーリング（×１， ×２， ×４， ×８）と加算，メモリの間接参照を行なう。多段間接モードのフォーマットの模式図を図２３に示す。各フィールドは以下に示す意味を有する。
【００９０】
Ｅ＝０：多段間接モード継続
Ｅ＝１：アドレス計算終了
ｔｍｐ＝＝＞ａｄｄｒｅｓｓｏｆｏｐｅｒａｎｄ
Ｉ＝０：メモリ間接参照なし
ｔｍｐ＋ｄｉｓｐ＋Ｒｘ＊Ｓｃａｌｅ＝＝＞ｔｍｐ
Ｉ＝１：メモリ間接参照あり
ｍｅｍ［ｔｍｐ＋ｄｉｓｐ＋Ｒｘ＊Ｓｃａｌｅ］＝＝＞ｔｍｐ
【００９１】
Ｍ＝０：＜Ｒｘ＞をインデクスとして使用
Ｍ＝１：特殊なインデクス
＜Ｒｘ＞＝０インデクス値を加算しない（Ｒｘ＝０）
＜Ｒｘ＞＝１プログラムカウンタをインデクス値として使用（Ｒｘ＝ＰＣ）
＜Ｒｘ＞＝２〜ｒｅｓｅｒｖｅｄ
【００９２】
Ｄ＝０：多段間接アドレッシングモード中の４ビットのフィールドｄ４の値を４倍してディスプレースメント値とし、これを加算する。ｄ４は符号付きとして扱われ、オペランドのサイズとは関係なく必ず４倍して使用さ
れる。
Ｄ＝１：多段間接アドレッシングモードの拡張部で指定されたｄｉｓｐｘ（１６／３２ビ
ット）をディスプレースメント値とし、これを加算する。
拡張部のサイズはｄ４フィールドで指定する。
ｄ４＝０００１ｄｉｓｐｘは１６ビット
ｄ４＝００１０ｄｉｓｐｘは３２ビット
ＸＸ：インデクスのスケール（ｓｃａｌｅ＝１／２／４／８）
【００９３】
プログラムカウンタに対して×２， ×４， ×８のスケーリングを行なった場合には、その段の処理終了後の中間値（ｔｍｐ）として不定値が入る。この多段間接アドレッシングモードによって得られる実効アドレスは予測できない値となるが、例外は発生しない。プログラムカウンタに対するスケーリングの指定は禁じられている。
【００９４】
多段間接アドレッシングモードによる命令フォーマットのバリエーションを図２４及び図２５の模式図に示す。図２４は多段間接アドレッシングモードが継続するか終了するかのバリエーションを、図２５はディスプレースメントのサイズのバリエーションをそれぞれ示す。
【００９５】
任意段数の多段間接アドレッシングモードが利用できれば、コンパイラの中で段数による場合分けが不要になるので、コンパイラの負担が軽減されるというメリットがある。多段の間接参照の頻度が非常に少ないとしても、コンパイラとしては必ず正しいコードを発生できなければならないからである。このため、フォーマット上では任意の段数が可能になっている。
【００９６】
（３）「本発明のデータ処理装置の機能ブロック」
【００９７】
（３．１）「機能ブロックの構成」
図２６は本発明のデータ処理装置１の構成例を示すブロック図である。本発明のデータ処理装置１の内部を機能的に大きく分けると、命令フェッチ部１１，命令デコード部１２，ＲＯＭ部１３，アドレス生成部１４，ＰＣ生成部１５，整数演算部１６，オペランドアクセス部１７，バスインタフェイス部１８に分かれる。なお、参照符号１０１〜１１０はデータ及びアドレス等を転送するための内部バスである。バスインタフェイス部１８は３２ビットのアドレスバス２，３２ビットのデータバス３及び各種制御信号により外部と結合している。
【００９８】
命令フェッチ部１１は内蔵命令キャッシュあるいは外部のメモリから命令をフェッチする。命令デコード部１２は命令フェッチ部１１からＩＩバス１０１を経由して転送された命令をデコードする。ＲＯＭ部１３はマイクロプログラムに従って整数演算を制御する。ＰＣ生成部１５は命令のＰＣ値を計算する。アドレス生成部１４はオペランドのアドレスを計算する。オペランドアクセス部１７は内蔵データキャッシュあるいは外部のメモリからのオペランドのフェッチ及び外部のメモリへのオペランドのストアを行なう。
【００９９】
命令は命令フェッチ部１１により取り込まれ、命令デコード部１２でデコードされ、ＲＯＭ部１３のマイクロプログラム制御により整数演算部１６で実行される。命令のＰＣ値の計算，オペランドのアドレス計算，オペランドのアクセスは整数演算と独立のブロックでハードワイヤード制御により行なわれる。
命令のアドレスはＪＡバス１０５で各部から命令フェッチ部１１へ転送される。オペランドアドレスはＡＡバス１０６で各部からオペランドフェッチ部へ転送される。整数演算部１６とオペランドアクセス部１７との間のオペランドの転送は６４ビット幅のＤＤバス１０７により行なわれる。
【０１００】
（３．２）「バスインタフェイス部」
バスインタフェイス部１８は命令フェッチ部１１あるいはオペランドアクセス部１７の要求に従ってバスサイクルを発行して外部のメモリをアクセスする。本発明のデータ処理装置１におけるメモリアクセスはクロック同期のプロトコルで行なわれる。１回のバスサイクルには最小２クロックサイクルが必要である。リードサイクル及びライトサイクルには、１回のバス転送で４バイト境界内の命令コードあるいはデータを転送する単一転送と、４回のバス転送で１６バイト境界内の命令コードあるいはデータを一度に転送するブロック転送とがある。更にブロック転送にはアドレスを１回出力して命令コードあるいはデータを４回連続転送するバーストモードと、アドレスを４回出力して命令コードあるいはデータを４回連続転送するクワッドムーブモードとがある。
【０１０１】
各バスサイクルの制御，各種信号の入出力はバスインタフェイス部１８でハードワイヤード制御により行なわれる。バスインタフェイス部１８には、データや命令のブロック転送時にアドレスをインクリメントするための回路が備えられている。また、本発明のデータ処理装置１は、各エントリが８バイトの２エントリのストアバッファを備えているが、バスインタフェイス部１８にはこのストアバッファのアドレス保持部が備えられている。
【０１０２】
バスインタフェイス部１８は命令フェッチに際しては、命令フェッチ部１１からＩＡバス１０８を経由して入力されたアドレスを外部のアドレスバス２へ出力し、データバス３から命令コードをフェッチし、ＢＤバス１１０を経由して命令フェッチ部１１へ転送する。また、バスインタフェイス部１８はデータリードに際しては、オペランドアクセス部１７からＯＡバス１０９を経由して入力されたアドレスを外部のアドレスバス２へ出力し、データバス３からデータをフェッチし、ＢＤバス１１０を経由してオペランドアクセス部１７へ転送する。更に、バスインタフェイス部１８はデータライトに際しては、オペランドアクセス部１７からＯＡバス１０９を経由して入力されたアドレスを外部のアドレスバス２へ出力し、ＢＤバス１１０を経由して入力されたデータをデータバス３へ出力する。ブロック転送のクワッドムーブモードで命令コードあるいはデータを転送する際には、命令フェッチ部１１あるいはオペランドアクセス部１７からは１つのアドレスのみが出力され、残り３つのアドレスはバスインタフェイス部１８内部で下位ビットをラップアラウンドすることにより生成して出力する。
【０１０３】
バスインタフェイス部１８はメモリアクセスの他、外部割り込みの受け付け、バスアービトレーションの制御も行なう。本発明のデータ処理装置１以外の外部デバイスがバスマスタになっていて本発明のデータ処理装置１がバススヌープ動作の実行中に外部デバイスがデータライトまたは無効化サイクルを実行した際場合には、バスインタフェイス部１８はアドレスバス２上へ出力されたアドレスを取り込み、ＩＡバス１０８を経由して命令フェッチ部１１へ、ＯＡバス１０９を経由してオペランドアクセス部１７へそれぞれ転送する。
【０１０４】
（３．３）「命令フェッチ部」
図２７は命令フェッチ部１１の構成例を示すブロック図である。命令フェッチ部１１には４Ｋバイトの内蔵命令キャッシュ２５、２つの１６バイトの命令キュー２１，２２、フェッチアドレスを保持，生成する命令アドレスレジスタ（ＩＡレジスタ）２３、アドレスデコード機構２４とそれらの制御部等が備えられている。命令フェッチ部１１は命令キャッシュ２５あるいは外部のメモリから命令をフェッチし、命令キュー２１，２２及びＩＩバス１０１を経由して命令コードを命令デコード部１２へ転送する。
【０１０５】
バスインタフェイス部１８と命令キャッシュ２５とは３２ビットのアドレスを転送するためのＩＡバス１０８と３２ビットのデータを転送するためのＢＤバス１１０とで結合されている。命令キャッシュ２５と命令キュー２１，２２とは６４ビットのＩＤバス１１１で結合されている。
【０１０６】
バスインタフェイス部１８から出力された命令コードはＢＤバス１１０を経由して命令キャッシュ２５へ転送される。命令キュー２１，２２から出力された命令コードはＩＩバス１０１を経由して命令デコード部１２へ転送される。
【０１０７】
命令キューは、条件分岐命令の分岐／非分岐両方向の命令を保持するために参照符号２１，２２で示されている２つが備えられている。２つの命令キュー２１，２２の内の一方は条件分岐命令に連続する命令コードをプリフェッチしてキューイングし、他方は条件分岐命令の分岐先の命令コードをプリフェッチしてキューイングする。
【０１０８】
ＩＡレジスタ２３は、２つの命令キュー２１，２２のフェッチアドレスを保持するための２つのレジスタと、アドレスをインクリメントするための専用カウンタとを含んでいる。リセット時を含みジャンプが発生した場合には、ジャンプ先アドレスがアドレス生成部１４，ＰＣ生成部１５あるいは整数演算部１６からＪＡバス１０５を介してＩＡレジスタ２３へ転送される。また、ジャンプ先アドレスの一部は、命令キュー２１，２２にも送られ、入出力ポインタの初期化に用いられる。ジャンプ先以外の命令アドレスは、ＩＡレジスタの内部のカウンタで計算される。命令のアドレスはＩＡレジスタからＩＡバス１０８を経由してアドレスデコード機構２４及び命令キャッシュ２５へ出力される。
【０１０９】
アドレスデコード機構２４にはいくつかの制御レジスタを有しており、命令アドレスがＩ／Ｏ領域に入るか否か、非キャッシュ領域に入るか否か等のチェックを行なう。
【０１１０】
命令キャッシュ２５は１６ｂｙｔｅ×２５６ｅｎｔｒｙ構成のダイレクトマップ制御で動作する。命令キャッシュ２５はＩＡレジスタ２３から転送されたアドレスの下位１２ビットに従ってキャッシュアドレスタグと命令コードとを出力する。キャッシュアドレスタグはアドレスの上位２０ビットと比較され、一致すれば命令キャッシュ２５はヒットする。この場合、ＩＤバス１１１を経由して命令コードが命令キュー２１，２２へ転送される。命令キュー２１，２２が空であれば、命令コードは命令キュー２１，２２をバイパスして同一タイミングでＩＩバス１２を経由して命令デコード部１２へも転送される。命令キャッシュ２５がミスした場合はアドレスデコード機構２４からＩＡバス１０８を経由してバスインタフェイス部１８へ命令アドレスが出力されることにより、外部のメモリがブロック転送でアクセスされて命令コードがフェッチされ、命令キャッシュ２５のエントリが更新される。
【０１１１】
また、本発明のデータ処理装置１がバススヌープ動作の実行中においては、バスインタフェイス部１８が外部のアドレスバス２上のアドレスをモニタしており、アドレスをＩＡバス１０８を経由して命令キャッシュ２５へ転送する。バスインタフェイス部１８は本発明のデータ処理装置１自身がライト動作を行なったメモリのアドレスも命令キャッシュ２５へ転送する。
【０１１２】
（３．４）「命令デコード部」
本発明のデータ処理装置１における命令は図２８の模式図に示すように２バイト単位の可変長命令であり、基本的には「２バイトの命令基本部＋０乃至４バイトのアドレッシング修飾部」を１乃至３回反復することにより命令が構成されている。
【０１１３】
命令基本部にはオペレーションコード部とアドレッシングモード指定部とが含まれる。インデックスアドレッシングまたはメモリ間接アドレッシングが必要な場合にはアドレッシング修飾部の代わりに「２バイトの多段間接モード指定部＋０乃至４バイトのアドレッシング修飾部」が必要なだけ拡張される。また、命令により２または４バイトの命令固有の拡張部が最後に付加される場合もある。
【０１１４】
本発明のデータ処理装置１では図２８に示した可変長フォーマットの命令を効率よく処理するために、命令デコード段階で１つの命令を１つまたは複数の処理単位（以下、ステップコードと言う）に分解する。基本的には「２バイトの命令基本部＋０乃至４バイトのアドレッシング修飾部」または「多段間接モード指定部＋アドレッシング修飾部」のデコード結果が１つのステップコードになり、命令デコーダは１クロックに１つのステップコードを出力する。しかし、第１オペランドにアドレッシング修飾部がない場合あるいは先頭の命令基本部にオペランド指定子がない命令では１クロックに２つの命令基本部（３２ビット長）がデコードされる。また、本発明のデータ処理装置１では一部の命令を先行する命令と並列にデコードし、２命令を同時に処理することもできる。
【０１１５】
本発明のデータ処理装置１の命令デコード部１２のブロック図を図２９に示す。命令デコード部１２は、分岐予測部３３，Ｄステージデコーダ３１，拡張データ処理部３２，Ａステージデコーダ３４及びサブコード転送部３５からなる。
【０１１６】
分岐予測部３３は１ビット×１Ｋエントリの条件分岐命令の分岐履歴を保持している。条件分岐命令の直前に実行された命令のＰＣ値の下位アドレスに対応づけて分岐履歴が登録され、条件分岐命令の直前にデコードした命令のＰＣ値の下位アドレスに従って分岐予測ビットを出力する。その際に参照及び更新に用いられるＰＣ値はＰＣ生成部１５から転送される。
【０１１７】
Ｄステージデコーダ３１は、ＩＩバス１０１を経由して転送される最大８バイトの命令コードと１ビットの分岐予測ビットとをデコードする。本発明のデータ処理装置１は２つの命令（先行命令と後続命令）を並列にデコード可能であり、先行命令の中間デコード結果（メインＤコード）がＡステージデコーダ３４へ、後続命令のデコード結果（サブＤコード）がサブコード転送部３５へそれぞれ転送される。また、先行命令または後続命令に関するアドレス計算情報（Ａコード）がアドレス生成部１４へ転送される。その他、処理コード長等のＰＣ計算に関係する情報，命令実行に先立って分岐処理を行なう先行分岐に関する情報がＰＣ生成部１０２に、命令キュー２１，２２の出力ポインタ制御または先行分岐に関する情報が命令フェッチ部１１へ出力される。命令デコードの詳細については、後述する。
【０１１８】
拡張データ処理部３２は、Ｄステージデコーダ３１でのデコード結果に従って、ディスプレースメント，即値等のアドレッシング修飾部を命令コードから取り出し、ＤＩＳＰバス１０２を経由してアドレス生成部１４やＰＣ生成部１５へ転送する。
Ａステージデコーダ３４はＤステージデコーダ３１から出力される命令の中間デコード結果であるメインＤコードを詳細にデコードしてマイクロプログラムのエントリ番地，パラメータ等をＲＯＭ部１３へ出力する。Ａステージデコーダ３４ではＬＤＭやＳＴＭ等の複数のオペランドをレジスタとメモリとの間で転送する命令を１度に８バイト以下のデータを転送する複数のメモリ−レジスタ間転送命令（ステップコード）に分解する。この際、Ａステージデコーダ３４はアドレス生成部１４にＡＡコードを出力し、分解したオペランドのアドレス計算を制御する。
【０１１９】
サブコード転送部３５はＤステージデコーダ３１から出力される後続命令のデコード結果であるサブＤコードをＡステージデコーダ３４でデコードされる命令と同期させてＲＯＭ部１３へ転送する。
また、Ａステージデコーダ３４とサブコード転送部３５とからはオペランドが書き込まれるべきレジスタの番号がアドレス生成部１４へ転送され、書き込みが終了していないレジスタ値を後続命令がオペランドアドレス計算に使用してＲＡＷデータハザード（Ｒｅａｄ−ａｆｔｅｒ−ｗｒｉｔｅｄａｔａｈａｚａｒｄ）を起こさないようにパイプラインインタロック機構により制御する。
【０１２０】
（３．５）「ＰＣ生成部」
図３０はＰＣ生成部１５の構成例を示すブロック図である。ＰＣ生成部１５は、命令デコード段階での先行ジャンプ先アドレスを計算するジャンプ先アドレス生成部４１，デコードする命令のＰＣ値を計算するＰＣ計算部４２．パイプライン中で処理される命令の流れに同期してＰＣ値を転送するＰＣ転送部４３，サブルーチンからのプリリターン先アドレスを管理するＰＣスタック４４からなる。
【０１２１】
ジャンプ先アドレス生成部４１は命令デコード段階でＰＣ相対ジャンプまたは絶対アドレスジャンプを行なう命令をデコードした場合のジャンプ先命令のアドレスを計算する。ジャンプ先アドレス生成部４１には、ＩＩバス１０１とＤＰＣバス１１２とに結合された２つの加算器があり、ＩＩバス１６９上の分岐変位フィールドとなり得るフィールドの値とＤＰＣバス１６６から転送された命令の先頭アドレスとの加算を命令デコードと並行して行なう。また、ジャンプ先アドレス生成部４１は、ＩＩバス１６９上の絶対アドレスとなり得るフィールドの切り出し及び符号拡張を行なう。デコードした命令がＰＣ相対ジャンプを行なう命令または絶対アドレスジャンプを行なう命令であった場合、２つの加算結果と１つの符号拡張結果との内から一つの正しいジャンプ先アドレスを選択してＪＡバス１０５へ出力する。また、命令デコードと同時に計算したジャンプ先アドレス以外のアドレスにＰＣ相対でジャンプする実行頻度の少ない一部のジャンプ命令に対しては、命令デコードの後に新たにＤＩＳＰバス１０２から転送される分岐変位とＰＣ値とを加算してジャンプ先アドレスを求め、ＪＡバス１０５へ出力する。
【０１２２】
ＰＣスタック４４はサブルーチンジャンプ命令からのリターン先アドレスのコピーを８エントリのスタックに保持し、サブルーチンリターン命令をデコードした場合にはリターン先アドレスをＪＡバス１０５へ出力する。ＰＣスタック４４では、サブルーチンジャンプ命令が実行された場合にはリターン先アドレスがＳ１バス１０４から転送されてプッシュされる。タスクスイッチによりスタックが切り替えられたり、８レベル以上のサブルーチンのネスティング等が発生するとＰＣスタック４４からＪＡバス１０５へ出力されるリターン先アドレスは正しいリターン先アドレスではなくなる。このため、サブルーチンリターン命令がパイプラインの実行段階に到達した時点で、プリリターンアドレスがＰＣスタック４４から再びＳ１バス１０４へ読み出され、メモリから読み出された正しいリターン先アドレスと比較される。
【０１２３】
ＰＣ計算部４２は、加算器と複数の作業用レジスタ（ＴＰＣ，ＡＮＰＣ，ＤＰＣ）４６とからなり、命令デコード部１２でデコードする命令のＰＣ値を計算する。ＰＣ値の計算はそのサイクルにデコードした命令の先頭アドレスに命令デコード部１２で消費した処理コード長を加算することにより行なわれる。ジャンプ命令またはＥＩＴにより命令実行のシーケンスが変更された場合はＪＡバス１０５からジャンプ先命令のアドレスが転送される。ＰＣ計算部４５の計算結果は命令のデコード結果と共にパイプラインの流れに同期してＰＣ転送部４３へ出力される。また、作業用レジスタに保持されている次にデコードされるべき命令のＰＣ値がＩＸバス１０３を経由してアドレス生成部１４へ転送され、ジャンプ先アドレスの計算のためにＤＰＣバス１１２を経由してジャンプ先アドレス生成部４１へ転送される。
【０１２４】
ＰＣ転送部４３には、本発明のデータ処理装置１の各パイプラインステージに対応する複数のＰＣ保持用レジスタが備えられている。ＰＣ計算部４６で計算された命令の先頭アドレスであるＰＣ値は本発明のデータ処理装置１の各パイプラインステージで処理されるステップコードと共にＰＣ転送部４３内の複数のレジスタ間を転送される。アドレス計算の際にその命令のＰＣ値が参照される場合には、アドレス計算処理中のステップコードの基になった命令のＰＣ値がＩＸバス１０３を経由してアドレス生成部１４へ転送される。また、ＰＣ転送部４３ではデバッグサポートのための命令アドレスブレイクあるいはトレース動作の起動のために、転送されるＰＣ値と命令ブレイクポイントアドレスの値あるいはトリガ開始命令アドレスの値との比較動作も行なう。
【０１２５】
（３．６）「アドレス生成部」
アドレス生成部１４は、命令デコード部１２のＤステージデコーダ３１及びＡステージデコーダ３４から出力されたオペランドのアドレス生成に関係する制御情報（Ａコード，ＡＡコード）によりハードワイヤード制御され、オペランドのアドレスを生成する。また、ＰＣ生成部１５でジャンプ先アドレスを生成しないレジスタ間接アドレッシングのジャンプ命令による先行ジャンプ処理，条件分岐命令の分岐予測と、反対側の命令アドレスの計算，サブルーチンジャンプ命令の戻り先アドレスの計算も行なう。
【０１２６】
図３１はアドレス生成部１４の構成例を示すブロック図である。アドレス生成部１４には、命令デコード部１２から出力されたアドレス生成に関係する制御情報であるＡコード及びＡＡコードから演算制御信号を生成するアドレス計算制御部５１，３入力加算器５８でオペランドのアドレス計算を行なうアドレス計算部５３，アドレス計算部５３で計算されたオペランドアドレス値をパイプライン処理の進行に同期して転送するアドレス転送部５４，オペランドアドレス計算に関するＲＡＷデータハザード検出を行なうスコアボードレジスタ部５２が備えられている。
【０１２７】
アドレッシングモードで指定されたディスプレースメント値は命令デコード部１２からＤＩＳＰバス１０２を経由してアドレス計算部５３へ転送され、ＤＩＳＰ５５に保持される。また、スタックプッシュモードに伴うＳＰ値のプリデクリメント処理のため、ＤＩＳＰ５５には命令デコード部１２から転送された補正値（プリデクリメント値）を入力することもできる。アドレス計算で参照するレジスタ値は、整数演算部１６のレジスタからＩＸバス１０３を経由して転送された値がＩＮＤＥＸ５６に入力されて保持される。また、ＰＣ相対モード等の場合にはＰＣ生成部１５のＰＣ転送部４３からＰＣ値が、スタックポップモードまたはプッシュモードが用いられた場合、あるいはレジスタ１５（レジスタ１５はスタックポインタを指す）を参照する場合には整数演算部１６からＳＰ値が、それぞれＩＸバス１０３を経由して転送されてＩＮＤＥＸ５６に保持される。スケールドインデックスアドレッシングを実行するために、ＩＮＤＥＸ５６では入力された値の１，２，４，８倍を３入力加算器５８へ出力することができる。多段間接アドレッシングにより前段までのアドレス計算結果を次の多段間接アドレッシングのベースアドレスとする場合は３入力加算器５８の出力がＡＯ５９からＢＡＳＥ５７へ転送される。また、メモリ間接アドレッシングでは、３入力加算器５８によるアドレス計算結果をＡＯ５９を経てＡＡバス１０６へ出力してメモリからアドレスをフェッチし、Ｓ１バス１０４を経由してＢＡＳＥ５７に目的アドレスを転送する。ＤＩＳＰ５５，ＩＮＤＥＸ５６，ＢＡＳＥ５７に保持された３つの値は３入力加算器２６７で加算されてＡＯへ出力される。ＤＩＳＰ５５，ＩＮＤＥＸ５６，ＢＡＳＥ５７はそれぞれゼロクリア機能を有している。
【０１２８】
アドレスの計算結果はＡＯ５９からＡＡバス１０６へ出力されてオペランドをアクセスするアドレスとして使用される。また、ＡＯ５９から出力されたオペランドアドレス自体はアドレス転送部５４に渡され、パイプライン中の命令の流れに同期してアドレス転送部５４で管理される。即値も命令デコード部１０２からＤＩＳＰ５５，３入力加算器５８を経由してアドレス転送部５４へ転送され、オペランドアドレスと同様にパイプライン中の命令の流れに同期してアドレス転送部５４で管理される。
【０１２９】
ＰＣ相対と絶対とを除くアドレッシングモードのジャンプ命令のジャンプ先アドレス計算結果はＡＯ５９からＪＡバス１０５へ出力され、アドレス生成段階での先行ジャンプに使用される。
【０１３０】
本発明のデータ処理装置１には、スタックポップアドレッシング（＠ＳＰ＋）あるいはスタックプッシュアドレッシング（＠−ＳＰ）が連続してもパイプラインインタロックなしに命令を処理するためのオペランドアドレス生成専用ＳＰ（ＡＳＰ）とオペランドのアドレス生成段階で更新したＳＰの値を命令の流れに同期してパイプライン中で転送するレジスタ群（ＳＰ転送部）とからなるＳＰ先行更新機構が備えられている。アドレス計算段階でのＳＰ値の更新処理は、アドレス計算制御部５１から出力される制御信号により実行されるが、ブロックとしては整数演算部１６にあるので、詳細な説明は後で述べる。
【０１３１】
スコアボードレジスタ部５２には複数のスコアボードレジスタが備えられている。各スコアボードレジスタは１６ビットで構成されており、各ビットが１つの汎用レジスタに対応する。このスコアボードレジスタが、アドレス計算より後のパイプラインステージ（実行ステージまで）に対応して複数存在する。レジスタの更新情報が命令デコード段階で登録され、パイプラインの進行に従って転送され、命令実行が終了し、レジスタ値の更新が終了するまで保持される。アドレス計算時に参照するレジスタ番号に基づいてＲＡＷデータハザードの検出を行なう。
【０１３２】
（３．７）「オペランドアクセス部」
図３２はオペランドアクセス部１７の構成例を示すブロックである。オペランドアクセス部１７には、４ＫＢのデータキャッシュ７４，２エントリのオペランドプリフェッチキューのアドレス管理部（ＳＤＡ）７３，２エントリのストアバッファのデータ保持部（ＳＢＤ）７５，オペランドアクセスアドレスを保持，生成するオペランドアドレスレジスタ（ＯＡ）７１，アドレス判定部７２及びそれらの制御部（図示せず）等が備えられている。
【０１３３】
オペランドをアクセスする場合、ＡＡバス１０６からＯＡレジスタ７１を経由してＯＡバス１０９にオペランドアドレスが出力される。このアドレスはアドレスデコード機構２４にも出力される。アドレスデコード機構２４にはいくつかの制御レジスタが備えられており、命令アドレスがＩ／Ｏ領域に入るか否か、非キャッシュ領域に入るか否かの等のチェックが行なわれる。また、デバッグサポートのためのオペランドブレイク起動のためのブレイクポイントアドレス値との比較処理も行なわれる。
【０１３４】
データキャッシュ７４は、ライトスルー方式の１６ｂｙｔｅ×２５６ｅｎｔｒｙ構成のダイレクトマップ制御で動作する。データキャッシュ７４はＯＡバス１０９から転送されたデータアドレスの下位１２ビットに従ってキャッシュアドレスタグとデータとを出力する。キャッシュアドレスタグはデータアドレスの上位２０ビットと比較され、両者が一致すれば、データキャッシュはヒットする。
【０１３５】
データのリード動作ではアドレス生成部１４あるいは整数演算部１６から出力されたリードすべきデータアドレスがＯＡレジスタ７１へ転送されてデータキャッシュ７４がアクセスされる。キャッシュヒット時には、データがデータキャッシュ７４からＤＤバス１０７を経由して整数演算部１６へ転送される。オペランドのプリフェッチ（命令実行に先立つステージでのオペランドフェッチ）では、ストアオペランドとのオーバーラップチェックのためフェッチデータの８バイト境界ごとのデータアドレスをＳＤＡ７３へ転送して保持する。
【０１３６】
データキャッシュがミスした場合はデータアドレスがＯＡバス１０９からバスインタフェイス部１８へ出力され、外部のメモリがブロック転送でアクセスされることにより、ＢＤバス１１０からデータがフェッチされてデータキャッシュのエントリが更新される。ブロックリードはオペランドとして必要なデータからアドレスを昇順にラップアラウンドして行なわれ、オペランドとして必要なデータはデータキャッシュへの登録と並行してＤＤバス１０７から整数演算部１６へ転送される。また、データキャッシュ７４には１６バイトのブロックバッファが備えられており、非キャッシュ領域のアクセスも含めてデータアクセスがブロックバッファのデータにヒットするか否かをチェックする。ブロックバッファは非キャッシュ領域に対する８バイトデータリードを１６バイト一括してブロック転送により行ない、リードした１６バイトのデータを保持して次のデータリードが同一の１６バイト境界内であればブロックバッファからデータを出力する。この機能によりストリング操作命令あるいはビットマップ命令で非キャッシュ領域のデータを１６バイト単位に高速アクセスすることが可能となる。
【０１３７】
データのストア動作ではＡＡバス１０６から出力されたストアすべきデータのアドレスがＯＡレジスタ７１へ転送され、整数演算部１６から出力されたデータがＤＤバス１０７を経由して転送される。ストア動作は必ず外部のメモリに対して行なわれる。ストアデータアドレスはバスインタフェイス部１８のストアバッファのアドレス保持部へ転送され、ストアデータはストアバッファデータ部２９２（７５）へ転送される。ストアバッファにストアアドレスとデータとが転送される際に、プリフェッチデータまたはデータキャッシュにストアデータとオーバーラップするデータがある場合にはその内容が書き換えられる。プリフェッチデータのオーバーラップチェックはＳＤＡ７３で、データキャッシュ７４のオーバーラップチェックはキャッシュ内のタグで行なわれる。なお、データキャッシュ７４はライトスルー方式でありライト動作でミスした（オーバーラップがない）場合はキャッシュの内容は変化しない。
【０１３８】
バスインタフェイス部１８がストアバッファ２９２のデータを外部にライトしている間も、オペランドアクセス部１５６は引き続くリードアクセスまたはライトアクセスを受け付ける。従って、ストアバッファ２９２に未処理のデータが存在してもデータキャッシュがヒットした場合はオペランドアクセス部１７は後続の処理を続けることができる。
【０１３９】
本発明のデータ処理装置１がバススヌープ動作を実行している間は、バスインターフェイス部１８は無効化すべきデータのアドレスをＯＡバス１０９を経由してオペランドアクセス部１７へ転送する。データキャッシュ７４はこのアドレスがヒットする１６バイトブロックのデータをすべて無効化する。
【０１４０】
（３．８）「ＲＯＭ部」
図３３はＲＯＭ部１３の構成例を示すブロック図である。ＲＯＭ部１３には、マイクロプログラムルーチンが格納されているマイクロＲＯＭ８１，マイクロシーケンサ８２，第１，第２マイクロ命令デコーダ８５，８６，命令デコーダから出力されるＲコードを保持するＲコードラッチ８３等が備えられている。ＲＯＭ部１３は、命令デコード部１２から出力されたＲコード（メインＲコードとサブＲコード）に従ってマイクロプログラムにより整数演算部１６の動作を制御する。
【０１４１】
マイクロシーケンサ８２は命令実行に関するマイクロプログラム実行のためのシーケンス処理を主として行なう。ここには、複数のマイクロ命令アドレスを保持するためのラッチ，マイクロ命令アドレス値をインクリメントするインクリメンタ，演算実行結果の条件判定部等が備えられており、シーケンシャルなマイクロ命令実行及び４方向条件分岐の他、マイクロサブルーチンの実行等も制御する。この他、マイクロシーケンサ８２では、例外，割込，トラップ（ＥＩＴ）の受付けと各ＥＩＴに対応するマイクロプログラムのシーケンス処理も行なう。
【０１４２】
Ｒコードラッチ８３は、マイクロエントリ番地保持部８３ａ，パラメータ保持部８３ｂ，サブＲコード保持部８３ｃで構成され、２エントリのキューとして構成されている。
【０１４３】
マイクロＲＯＭ８１には１５５ビット×４ＫワードのＲＯＭと読み出されたマイクロ命令を保持するマイクロ命令レジスタとが備えられており、マイクロシーケンサから出力されるアドレスのマイクロ命令を読み出す。マイクロ命令アドレスは１２ビットであり、その内の上位１０ビットがマイクロＲＯＭ８１のＸデコーダ入力となり、下位２ビットがマイクロＲＯＭ８１のＹデコーダ入力となる。マイクロプログラムの条件ジャンプをディレイスロットなしで行なうために、マクロプログラムの条件ジャンプ時にはマイクロＲＯＭ８１から４ワードが一度に読み出され、その内の一つが条件判定結果に従って選択される。マイクロ命令はマイクロＲＯＭ８１から１クロックに１度読み出され、１つのマイクロ命令で１つのレジスタ間演算が行なわれる。従って、転送，比較，加算，減算，論理演算等の基本命令は１クロックで終了する。
【０１４４】
第１，第２マイクロ命令デコーダ８５，８６はマイクロＲＯＭ８１から出力されるマイクロ命令とＲコードのパラメータ８３ｂ及びサブＲコード８３ｃとをデコードして整数演算部１６の制御信号及び小さな即値を出力する。命令デコード部１６で２命令が同時にデコードされた場合、先行命令のデコード結果はメインＲコードとして出力され、後続命令のデコード結果はサブＲコードとして出力される。先行命令の実行については、処理に必要なマイクロ命令が読み出され、第１マイクロ命令デコーダ８５で読み出されたマイクロ命令とメインＲコード内のパラメータ保持部８３ｃから得られるパラメータ情報とがデコードされて先行命令の実行に必要な制御信号が生成される。後続命令に関しては、マルチプレクサ８４でＲコードラッチ８３の出力が選択され、第２マイクロ命令デコーダ８６でデコードされる。また後続命令に関しても、先行命令の最終マイクロ命令と共に有効な制御信号が生成される。ストリング命令のように１つの命令で複数のオペレーションを行なう高機能命令を処理する場合には２命令の並列実行は行なわれず、２命令並列実行時の後続命令を処理するための演算ハードウェアもマイクロプログラムで制御される。この場合、マルチプレクサ８４はマイクロＲＯＭ８１の出力を選択する。
【０１４５】
ＲＯＭ部８１は、主として整数演算部１６に対して演算実行制御信号を出力するが、オペランドアクセス，ジャンプ，ＥＩＴ処理等のために他ブロックへも多くの制御信号を出力するがそれらは図示されていない。
【０１４６】
（３．９）「整数演算部」
整数演算部１６は主としてＲＯＭ部１３のマイクロＲＯＭ８１に格納されたマイクロプログラムにより制御され、種々の整数演算命令を実行するために必要な演算をレジスタファイル２０５と演算器とを用いて実行する。
【０１４７】
図３４は整数演算部１６の構成例を示すブロック図である。Ｅステージジャンプアドレスレジスタ（ＥＪＡ）２０１はパイプラインの命令実行ステージでジャンプを実行する際にジャンプ先アドレスを格納するレジスタである。ＥＩＴを検出した場合、あるいはプリリターン先アドレスを誤ったサブルーチンリターン命令を実行した場合、マイクロプログラムによりＥＪＡレジスタ２０１にジャンプ先アドレスを入力して実行ステージジャンプが行なわれる。この際のジャンプ先アドレスはＪＡバス１０５を経由して命令フェッチ部１１へ転送される。
【０１４８】
メモリアドレスレジスタ部２０２とメモリデータレジスタ部２０９とは整数演算部１６がオペランドアクセス部１７と通信を行なうためのレジスタであり、メモリアドレスレジスタ部２０２がアドレスを、メモリデータレジスタ部２０９がデータをそれぞれ扱う。メモリアドレスレジスタ部２０２には２つのアドレスレジスタとアドレスのインクリメント／デクリメントを行なうカウンタ等が備えられている。命令実行時にメモリアクセスを行なう場合には、オペランドアドレスがＡＡバス１０６を経由してオペランドアクセス部１７へ出力される。
【０１４９】
メモリデータレジスタ部２０９には、命令実行以前にプリフェッチされたオペランドを保持するための２エントリのＳコードデータレジスタ（ＳＤ）２１０，実行時のリード用のレジスタ（ＤＤＲ）２１１，ライト用のレジスタ（ＤＤＷ）２１２が備えられている。各レジスタは、非整置の８バイトデータを保持できるように、それぞれ２つの８バイトのデータレジスタと整置回路とを備えており、６４ビット幅のＤＤバス１０７によりオペランドアクセス部１５６との間で整置された８バイト単位でデータをやりとりする。ＳＤ２１０，ＤＤＲ２１１からはプリフェッチオペランドが出力されるが、３２ビット以下のプリフェッチオペランドはＳ１バス１０４またはＳ３バス１２２のどちらのバスへも出力可能である。６４ビットのプリフェッチオペランドを出力する場合はＳ１バス１０４またはＳ３バス１２２にＳ２バス１２１を連結して使用する。また、メモリにストアされるべきデータはＤ１バス１２４とＤ２バス１２５とを経由してＤＤＷ２１２に書き込まれる。
【０１５０】
主演算回路２０８には、ＡＬＵ，６４ビットバレルシフタ，乗算器，プライオリティエンコーダ，カウンタ等が内蔵されている。副演算回路２０７には、ＡＬＵ２７，バレルシフタなどが内蔵されている。レジスタファイルには、スタックポインタであるＲ１５以外の１５本の汎用レジスタと１６本の作業用レジスタとが内蔵されている。スタックポインタ部（ＳＰ部）は、スタックポインタ（Ｒ１５）を保持する。レジスタファイル２０５とＳＰ部２０４とは、２つの演算命令を並列に実行できるように、主演算回路２０８及び副演算回路２０７に接続された４つの出力ポートと２つの入力ポートとを有する。更に、オペランドのアドレス計算のためにデータをアドレス生成部１４へ転送するＩＸバス１０３に接続するもう１つの出力ポートを有する。
【０１５１】
命令デコード部１２で同時にデコードされた２つの命令は主演算回路２０８と副演算回路２０７とで同時に実行される。先行命令の実行はＲＯＭ部１３の第１マイクロデコーダ８５の出力により制御され、主演算回路２０８で演算実行が行なわれる。後続命令は第２マイクロデコーダ８６の出力によりハードワイアード制御され、副演算回路２０７で演算実行が行なわれる。高機能命令を実行する場合はマイクロプログラムにより副演算回路２０７と主演算回路２０８とを並列に動作させることにより、８バイトデータを一度に処理したり、２つのオペレーションを並列に行なうこともできる。
【０１５２】
ＳＰ部２０４は、単にスタックポインタ値を保持するのみならず、複雑な処理を行なう。
【０１５３】
図３５はＳＰ部２０４の詳細な構成例を示すブロック図である。本発明のデータ処理装置ではリング保護を行なうために各リングごとにスタックポインタが用意されており、また割り込み処理用のスタックポインタを含めて５本のスタックポインタが用意されている。この５本のスタックポインタはマスタＳＰ２２８に保持される。ＥＳＰ２２７は命令実行ステージ用の作業用スタックポインタであり、現在選択されているリングのスタックポインタ値を保持し、ＥＳＰカウンタ２２７でインクリメントまたはデクリメントの処理が行なわれる。各命令の終了時に、ＥＳＰ２２６の値がマスタＳＰ２２８に書き戻される。
【０１５４】
また、本発明のデータ処理装置１では、スタックプッシュまたはスタックポップを行なう命令が連続した場合にも、パイプラインストールなしにＳＰ値を用いたアドレス計算を行なうことを可能とする目的で、アドレス計算段階でＳＰ値の先行更新を行なう。アドレス計算段階でのＳＰ値はＡＳＰ２２１で保持され、スタックプッシュに伴うＳＰ値のデクリメント処理またはスタックポップに伴うＳＰ値のＡＳＰ加算器２２４での更新が行なわれる。更に、高機能命令でＳＰ値を補正する場合の処理もＡＳＰ加算器２２４で行なわれる。アドレス計算部５３がＳＰ値を参照する場合はＩＸバス１０３を経由してＡＳＰ２２１の値を参照する。アドレス計算段階で更新されたＳＰ値はパイプライン中の命令の流れに同期してＦＳＰ２２５を経由してＥＳＰ２２６へ転送される。但し、アドレス計算段階で更新が行なわれなかった場合にはその値が正しい値であるか否かがハードウェア的に保証されていないため、ＥＳＰ２２６への転送は行なわない。命令実行段階でＳＰの書き込みを行なう場合には、更新する値をＤ１バス１２４またはＤ３バス１２５からＡＳＰ２２１とＥＳＰ２２６とに同時に書き込む。命令実行段階でジャンプが発生してパイプラインがクリアされた場合にはＥＳＰ２２６の値がＡＳＰ２２１へ転送される。
【０１５５】
ＥＳＰ２２６にはＡＡバス１６０への出力経路があり、メモリアドレスレジスタ部２０２を介さずにＥＳＰ２２６の値でメモリをアクセスすることができる。
【０１５６】
制御レジスタ部３５９にはプロセッサ・ステータス・ワード（ＰＳＷ），例外関連の処理，デバッグ等を制御するための各種の制御レジスタが備えられている。定数生成部２０６には、定数ＲＯＭやＲＯＭ部１３から出力される命令コードで指定された小さな即値やマイクロ命令で指定する小さな定数を保持するラッチ等があり、この定数値をバスへ出力する。
【０１５７】
（４）「パイプライン処理」
（４．１）「パイプラインの構成」
本発明のデータ処理装置１における命令パイプラインの構成例を図３６の模式図に示す。本発明のデータ処理装置１では、命令のプリフェッチを行なう命令フェッチステージ（ＩＦステージ）４０１、命令のデコードを行なうデコードステージ（Ｄステージ）４０２、オペランドのアドレス生成を行なうアドレス生成ステージ（Ａステージ）４０３、マイクロＲＯＭ８１のアクセス（特にＲステージと称す）とメモリオペランドのプリフェッチ（特にＯＦステージと称す）とを行なうオペランドフェッチステージ（Ｆステージ）４０４、命令の実行を行なう実行ステージ（Ｅステージ）４０５、メモリオペランドのストアを行なうストアステージ（Ｓステージ）４０６の６段構成でパイプライン処理を行なう。
【０１５８】
ＩＦステージ４０１には３２バイトの命令プリフェッチキュー２１，２２が、Ｆステージ４０４には２エントリのオペランドプリフェッチキュー（ＳＤ）２１０が、Ｓステージ４０６には２エントリのストアバッファ（ＳＢＤ）７５がそれぞれ対応する。
各ステージは他のステージとは独立に動作し、理論上は６つのステージが完全に独立動作する。Ｓステージ４０６以外の各ステージは１回の処理を最小１クロックで行なう。Ｓステージ４０６は１回のオペランドストア処理を、ストアバッファ７５に空きがある場合は１クロックで行ない、空きがない場合は最小２クロックで行なう。従って、本発明のデータ処理装置１の命令パイプラインは理想的には１クロックごとに次々と命令を処理する。
【０１５９】
本発明のデータ処理装置１の命令には、メモリ−メモリ間演算あるいはメモリ間接アドレッシング等のような１回の基本パイプライン処理のみでは処理が不可能な場合もあるが、本発明のデータ処理装置１の命令パイプラインはこれらの処理に対してもなるべく均衡したパイプライン処理が行なえるように設計されている。複数のメモリオペランドを有する命令に対してはメモリオペランドの数を基に、デコード段階で１つの命令を複数のパイプライン処理単位（ステップコード）に分解してパイプライン処理する。
【０１６０】
各パイプラインステージの入出力ステップコードには図３６に示したように便宜上名前が付けられている。またステップコードはオペレーションコードに関する処理を行ない、マイクロＲＯＭ８１のエントリ番地あるいはＥステージ４０５に対するパラメータになる系列と、Ｅステージ４０５の処理対象のオペランドになる系列との２系列がある。また、Ｄステージ４０２からＳステージ４０６までの間では処理中の命令のプログラムカウンタ値（ＰＣ）が受け渡され、Ａステージ４０３からＥステージ４０５までの間ではスタックポインタ値（ＳＰ）が、更にはスコアボードレジスタ値も受け渡される。
【０１６１】
ＩＦステージ４０１からＤステージ４０２に渡される情報は命令コード４１１そのものである。
Ｄステージ４０２からＡステージ４０１に渡される情報は命令で指定された演算に関するもの（Ｄコード４１２と称す）と、オペランドのアドレス生成に関するもの（Ａコード４１３と称す）と、命令のプログラムカウンタ値との３つである。
【０１６２】
Ａステージ４０３からＦステージ４０４に渡される情報はマイクロプログラムルーチンのエントリ番地あるいはマイクロプログラムへのパラメータを含むＲコード４１４、オペランドのアドレスとアクセス方法指示情報とを含むＦコード４１５、更に処理中命令のプログラムカウンタ値とスタックポインタ値との４つである。
Ｆステージ４０４からＥステージ４０５に渡される情報は演算制御情報とリテラルとを含むＥコード４１６、オペランドやオペランドアドレスを含むＳコード４１７、それに処理中命令のプログラムカウンタ値とスタックポインタ値との４つである。Ｓコード４１７はアドレスとデータとからなる。
【０１６３】
Ｅステージ４０５からＳステージ４０６に渡される情報はストアすべき演算結果であるＷコード４１８とその演算結果を出力した命令のプログラムカウンタ値との２つである。Ｗコード４１８はアドレスとデータとストア関連情報とからなる。
Ｅステージ４０５が本来の命令実行ステージである。ＩＦ，Ｄ，Ａ，Ｆステージは命令実行のための前処理を行なうステージであり命令コードあるいはオペランドの読み出しは行なうがメモリまたはレジスタの内容は一切変更しない。このため、これらのステージでの処理はＥステージ４０５の処理結果に依存してキャンセルされる可能性がある。
【０１６４】
（４．２）「命令フェッチステージ」
命令フェッチステージ（ＩＦステージ）４０１では主として命令フェッチ部１１が動作し、内蔵命令キャッシュ２５または外部のメモリから命令をフェッチし、命令キュー２１，２２に入力して、命令デコード部１２に命令コードを出力する。命令キュー２１，２２の入力は、命令キャッシュ２５がヒットした場合は整置された１６バイト内の８バイト単位で、ミスした場合は整置された４バイト単位でそれぞれ行なわれる。命令キュー２１，２２は条件分岐命令に引き続く命令と分岐先命令との両方をフェッチするために２つ存在する。
【０１６５】
単一転送で外部のメモリから命令をフェッチする場合は整置された４バイトについて最小２クロックを要する。バーストモードによるブロック転送では１６バイトについて最小５クロックを要する。命令を外部からフェッチする場合はフェッチ先命令のアドレスが非キャッシュ領域であるか否か、あるいはＩ／Ｏ領域であるか否かのチェックも行なわれる。Ｉ／Ｏ領域からの命令フェッチは禁止されおり、ＥＩＴとなる。
【０１６６】
内蔵命令キャッシュ２５がヒットした場合は１クロックで整置された１６バイト内の任意の８バイトの命令がフェッチされる。命令キュー２１，２２の出力単位は２バイトごとに可変であり、１クロックの間に最大８バイトまで出力される。
内蔵命令キャッシュ２５の制御，プリフェッチ先命令アドレスの管理，命令キュー２１，２２の制御もＩＦステージが行なう。ＩＦステージ４０１での処理を以下にまとめて示す。
【０１６７】
・命令コードのプリフェッチとＤステージ４０２への出力
・２本の命令キュー２１，２２の管理
・命令プリフェッチアドレスのインクリメント
・命令キャッシュ２５の管理
・命令のアドレスが非キャッシュ領域に入るか否かのチェック
・命令のアドレスがＩ／Ｏ領域に入るか否かのチェック
【０１６８】
（４．３）「命令デコードステージ」
命令デコードステージ（Ｄステージ）４０２では主として、命令デコード部１２のＤステージデコーダ３１，拡張データ処理部３２及び分岐予測部３３と、ＰＣ生成部１５のＰＣ計算部４２，ジャンプ先アドレス生成部４１及びＰＣスタック４４が動作する。
【０１６９】
Ｄステージ４０２では、ＩＦステージ４０１から入力された命令のオペレーションコードの前段デコードとアドレッシングモードのデコードとが行なわれる。デコードは１クロックに１度行なわれ、１回のデコード処理で０乃至８バイトの命令コードを消費する（一部の処理では命令コードを消費せずにステップコードの出力処理のみを行なう場合がある）。２つのメモリオペランドを有する命令や多段間接モードを使用する命令等のような１回のデコード処理ではデコードできない命令はこのステージで複数のステップコードに分解される。このため、命令全体のデコードが完了しなくても各クロックのデコード処理でＤコード４１２とＡコード４１３と命令のＰＣ値とが出力される。
【０１７０】
また、Ｄステージ４０２では２命令の並列デコードを行ない、並列実行が可能な場合には２つの命令のデコード結果を同時に出力する。分岐予測部３３では条件分岐命令に対する分岐予測処理が行なわれる。各デコードサイクルで、命令キュー２１，２２の出力ポインタの更新情報が命令フェッチ部１１へ出力される。
【０１７１】
Ｄステージ４０２では命令デコードに伴って消費した命令長を基にＰＣ生成部で各命令のＰＣ値を計算する。条件分岐命令，絶対アドレスまたはＰＣ相対アドレスへのジャンプ命令（サブルーチンジャンプ命令を含む），サブルーチンリターン命令に対してはＰＣ生成部で先行ジャンプ処理（Ｄステージジャンプ）を行なう。
【０１７２】
無条件ジャンプ命令をデコードして先行ジャンプを行なった場合はＩＦステージ４０１に対して、現在使用中の命令キュー２１，２２の内容をキャンセルしてジャンプ先から命令をフェッチしてキューに入力し、そのコードを命令デコード部１２へ出力することを指示する。条件分岐命令をデコードした場合は分岐予測には関係なくＩＦステージ４０１に対して、現在使用中のキューはそのままにしておき、もう一方の命令キューに分岐先から命令をフェッチして入力することを要求する。分岐すると予測する条件分岐命令では更に新規のキューから命令コードを命令デコード部１２へ出力することを指示する。
【０１７３】
Ｄステージ４０２からは、１回のデコードでＡステージ４０３に対してアドレス計算情報であるＡコード４１３とオペレーションコードの中間デコード結果であるＤコード４１２と命令のＰＣ値とが出力される。Ｄステージ４０２での処理を以下にまとめて示す。
【０１７４】
・命令のオペレーションコードの前段デコード
・アドレッシングモードのデコード
・命令のステップコードへの分解
・命令キュー２１，２２の出力ポインタの更新情報
・ＰＣ値の計算
・条件分岐命令の分岐先アドレス計算
・条件分岐命令の分岐予測と先行分岐処理
・絶対アドレスまたはＰＣ相対アドレスへの先行ジャンプ処理
・サブルーチンリターン命令の先行リターン処理
【０１７５】
（４．４）「アドレス生成ステージ」
アドレス生成ステージ（Ａステージ）４０３では主として、命令デコード部１２のＡステージデコーダ３４及びサブコード転送部３５と、アドレス生成部１４と、整数演算部１６のＳＰ部２０４と、ＰＣ生成部１５のＰＣ転送部４３とが動作する。
【０１７６】
Ａステージ４０３はＤステージ４０２から転送されたＤコード４１２をデコードしてＲコード４１４を出力し、Ａコード４１３に従ってオペランドアドレスを生成してＦコード４１５を出力する。Ｄステージ４０２から転送されてきたＰＣ値はそのままＦステージ４０４へ転送される。また、Ａステージ４０３は命令実行ステージ４０５とは独立に処理中命令のスタックポインタ値を計算してＦステージ４０４へ転送する。
【０１７７】
Ａステージ４０３では、Ｄステージ４０２から出力されたオペレーションコードの中間デコード結果は更に詳細デコードされてマイクロＲＯＭ８１のエントリアドレスとマイクロプログラムのパラメータとがＲコード４１４として出力される。
【０１７８】
アドレス生成部１４はＡコード４１３に従ってオペランドアドレスを生成する。レジスタ間接モードまたはレジスタ相対モードに対しては、ＩＸバス１０３を経由して汎用レジスタの値が参照される。ディスプレースメント値，即値，絶対アドレス値はＡコード４１３の一部として命令デコード部１２からＤＩＳＰバス１０２を経由して転送されてくる。メモリ間接モードに対しては、生成した間接アドレスに対応して発生するステップコードがＦステージ４０４及びＥステージ４０５を介してメモリから目的とするアドレス値をフェッチするまで処理待ち状態となる。ＰＣ相対モードに対しては、Ｄステージ４０２から転送された処理中命令のＰＣ値（ＡＰＣ）が用いられる。スタックポップモードあるいはプッシュモードに対しては、専用の作業用スタックポインタでＳＰ値が計算される。計算されたＳＰ値はＦコード４１５と共にＦステージ４０４へ出力される。オペランドが即値である場合は、オペランドアドレスと同じ転送経路で即値が転送される。
【０１７９】
レジスタ間接ジャンプあるいはメモリ間接ジャンプ等の絶対ジャンプ及びＰＣ相対ジャンプ以外のジャンプ命令に対してはアドレス生成部１４でジャンプ先アドレスが計算されて先行ジャンプ処理（Ａステージジャンプ）が行なわれる。サブルーチンジャンプ命令の戻り先アドレスの計算では、ＰＣ計算部４２からＩＸバス１０３を経由して送られるＡステージ４０３で処理中の命令の次命令アドレスが参照される。条件分岐命令に対しては、分岐予測が誤った場合にはＰＣ生成部１５が初期化されるため、分岐予測側アドレスと反対側の命令アドレスとの双方が計算される。
【０１８０】
Ａステージ４０３ではスコアボードレジスタ部５２へのデスティネーションオペランドの登録（書き込み予約）及びアドレス生成のためにレジスタあるいはメモリからデータを読み出す際のデータハザードのチェックも行なう。アドレス計算に使用するレジスタあるいはメモリがコンフリクトしてデータハザードが発生した場合には、パイプラインはインタロックされる。
【０１８１】
多段間接モードを使用しているためにＤステージ４０２で複数のステップコードに分解された命令はＡステージ４０３でオペランドのアドレスを計算して１つのステップコードに縮退する。
【０１８２】
複数オペランドのロード／ストアを行なう高機能命令はＡステージ４０３で複数のステップコードに分解される。これらの命令はＡステージ４０３で１つまたは２つのレジスタのデータを転送するステップコードに分解されて後続のパイプラインステージで処理される。各ステップコードでアクセスするメモリのアドレスはＡステージデコーダ３４から出力される制御信号（ＡＡコード）に従ってアドレス生成部１４が生成する。Ａステージ４０３での処理を以下にまとめて示す。
【０１８３】
・命令のオペレーションコードの後段デコード
・オペランドアドレスの生成
・スタックポインタ値の計算
・条件分岐命令の分岐予測及び反対側の命令アドレスの計算
・サブルーチンジャンプ命令の戻り先アドレスの計算
・レジスタ間接，レジスタ相対等のアドレッシングモードのジャンプ命令に
対する先行ジャンプ処理
・スコアボードレジスタ部５２へのデスティネーションの書き込み予約
・アドレス生成のためのデータハザードチェックとパイプランインタロック・複数オペランドの転送を行なう命令のステップコードへの分解
・ＰＣ値の転送
【０１８４】
（４．５）「オペランドフェッチステージ」
オペランドフェッチステージ４０４（Ｆステージ）では主として、ＲＯＭ部１３と、オペランドアクセス部１７と、アドレス生成部１４のアドレス転送部５４及びスコアボードレジスタ部５２と、整数演算部１６のＳＰ部２０４と、ＰＣ生成部１５のＰＣ転送部４３が動作する。
【０１８５】
Ｒコード４１４に対するＲＯＭ部１３のマイクロＲＯＭ８１アクセス動作とオペランドアクセス部１７の動作とは独立した制御のもとで行なわれる。これらの２つの動作を別々に扱う場合、ＲＯＭ部１３のマイクロＲＯＭ８１アクセス処理を特にＲステージの処理と称し、オペランドアクセス部１７の処理を特にＯＦステージの処理と称する。ＲステージはＲコード４１４を入力とし、Ｅコード４１６を出力する。ＯＦステージはＦコード４１５を入力とし、Ｓコード４１７を出力する。Ｆコード４１５はキューングされないがＲコード４１４は２つまでキューイングされ、Ｅコード４１６はキューイングされないがＳコード４１７は２つまでキューイングされる。また、Ｆステージ４０４では、ＰＣ値，ＳＰ値及びレジスタ書き込み予約情報等がステップコードの転送に同期して転送される。
【０１８６】
Ｒステージの処理であるマイクロＲＯＭ８１アクセス処理は、次のＥステージ４０５での実行に使用する実行制御コードであるＥコード４１６を生成するためのＲコード４１４に基づくマイクロＲＯＭ８１アクセスとマイクロ命令デコード処理である。
【０１８７】
１つのＲコード４１４に対する処理が２つ以上のマイクロプログラムステップに分解される場合、ＲＯＭ部１３がＥステージ４０５で使用され、次のＲコード４１４がマイクロＲＯＭ８１アクセス待ちになる可能性がある。Ｒコード４１４に対するマイクロＲＯＭ８１アクセスが行なわれるのはＥステージ４０５でのマイクロＲＯＭ８１アクセスが行なわれない場合である。本発明のデータ処理装置１では多くの整数演算命令が１マイクロプログラムステップで完了するため、実際にはＲコード４１４に対するマイクロＲＯＭ８１アクセスが次々と行なわれる可能性が高い。
【０１８８】
オペランドフェッチステージ４０４ではＦコード４１５のデータアドレスで内蔵データキャッシュ７４または外部のメモリをアクセスしてオペランドをフェッチし、そのオペランドとＦコード４１５のデータアドレスとを組み合わせてＳコード４１７を生成して出力する。
【０１８９】
１つのＦコード４１５では、８バイト境界をクロスしてもよいが、８バイト以下のオペランドフェッチが指定される。Ｆコード４１５にはオペランドのアクセスを行なうか否かの指定も含まれており、Ａステージ４０３で計算したオペランドアドレス自体や即値がＥステージ４０５へ転送される場合にはオペランドのフェッチは行なわれず、Ｆコード４１５の内容がＳコード４１７として転送される。Ｓコード４１７は２つまでキューイング可能であるため、オペランドは２つまでプリフェッチ可能である。単一転送で外部のメモリからオペランドがフェッチされる場合は整置された４バイトについて最小２クロックを要する。バーストモードによるブロック転送では整置された１６バイトについて最小５クロックを要する。
【０１９０】
オペランドが外部からフェッチされる場合はフェッチ先のアドレスが制御レジスタで指定された非キャッシュ領域あるいはＩ／Ｏ領域内か否かのチェックも行なわれる。Ｉ／Ｏ領域からはオペランドのプリフェッチは行なわれない。この場合、先行命令がすべて実行を完了し、Ｉ／Ｏ領域をアクセスする命令が実行されることが確実になった後にオペランドがフェッチされる。また、条件分岐命令（Ｂｃｃ，ＡＣＢ，ＳＣＢ）または条件トラップ命令（ＴＲＡＰ）に引き続く命令の実行に際してデータキャッシュ７４がミスした場合、先行する条件分岐命令または条件トラップが実行されるまではオペランドのフェッチは行なわれない。これは、論理的には実行され得ない命令のオペランドプリフェッチが外部に対して行なわれることを抑止するためである。
【０１９１】
内蔵データキャッシュ７４がヒットした場合は整置された８バイトについて１クロックでオペランドがフェッチされる。
内蔵データキャッシュ７４の制御，プリフェッチ先オペランドアドレスの管理，Ｓコードキューの制御等もＯＦステージで行なわれる。以下にＦステージ４０４での処理をまとめて示す。
【０１９２】
・マイクロＲＯＭ８１のアクセス
・オペランドのプリフェッチ
・オペランドプリフェッチキュー２１０，７３の管理
・データキャッシュ７４の管理
・オペランドのアドレスが非キャッシュ領域に入るか否かのチェック
・オペランドのアドレスがＩ／Ｏ領域に入るか否かのチェック
・Ｉ／Ｏ領域からのプリフェッチ抑止
・先行する条件分岐命令、条件トラップ命令の実行完了までの後続命令の外部メモリアクセス抑止
・ＰＣ値の転送
・ＳＰ値の転送
・レジスタ更新情報の転送
【０１９３】
（４．６）「実行ステージ」
実行ステージ（Ｅステージ）４０５ではＥコード４１６及びＳコード４１７を入力として主として整数演算部１６が動作する他、命令デコード部１２の分岐予測部３３と、ＰＣ生成部１５のＰＣ転送部４３及びＰＣスタック４４と、アドレス生成部１４のアドレス転送部５４及びスコアボードレジスタ部５２と、オペランドアクセス部１７と、更に各部に分散されている制御レジスタ部分等も動作する。
【０１９４】
このＥステージ４０５が命令を実行するステージであり、Ｆステージ４０４以前のステージでの処理はすべてＥステージ４０５のための前処理である。Ｅステージ４０５でジャンプが実行されたりあるいはＥＩＴ処理が起動されたりした場合は、ＩＦステージ４０１〜Ｆステージ４０４までの処理はすべて無効化される。Ｅステージ４０５はマイクロプログラムにより制御され、Ｒコード４１４に示されたマイクロプログラムルーチンのエントリアドレスからの一連のマイクロ命令を実行することにより命令を実行する。
【０１９５】
マイクロＲＯＭ８１の読み出しとマイクロ命令の実行とはパイプライン化されて行なわれる。マイクロプログラムの条件分岐はマイクロＲＯＭ８１のＹデコーダ（マイクロＲＯＭ８１から同時に読み出した４つのマイクロ命令から目的のマイクロ命令をセレクトするためのデコーダ）で行なわれるため、マイクロプログラムの条件分岐が発生した場合も１クロックの空きもなく次のマイクロ命令が実行される。
【０１９６】
Ｅステージ４０５ではＡステージ４０３で行なったスコアボードレジスタ部５２への書き込み予約の解除，Ｄステージ４０２での分岐予測が間違っていた場合の分岐予測部３３の分岐履歴の更新，ＰＣスタック４４へのサブルーチンからの戻り先アドレスの登録，プリリターンアドレスが正しいか否かのチェック等も行なわれる。
【０１９７】
各種の割り込みは命令の切れ目でＥステージ４０５で直接受け付けられ、マイクロプログラムにより必要な処理が実行される。その他の各種ＥＩＴの処理もＥステージ４０５でマイクロプログラムにより行なわれる。
演算の結果をメモリにストアする必要がある場合、Ｅステージ４０５はＳステージ４０６へＷコード４１８とストア処理を行なう命令のプログラムカウンタ値とを出力する。メモリへのオペランドストアはすべてプログラムで論理的に指定された順序で行なわれる。
【０１９８】
ストア処理を行なう場合、データキャッシュの書換えの必要性を判断するためにＥステージ４０５でデータキャッシュタグのチェックが行なわれる。このため、オペランドストア動作では実際のストア処理の前にＥステージ４０５が１クロックサイクルの間データキャッシュを占有する。
【０１９９】
単純な命令を実行する場合は、Ｆステージ４０４でオペランドをリードし、Ｅステージ４０５で演算を実行し、Ｓステージ４０６でオペランドをストアする。しかし、ストリング操作命令あるいはビットマップ操作命令を実行する場合は、Ｅステージ４０５でバーストモードによるブロック転送（リード／ライト）を効率的に使用してメモリアクセスを行なう。従って、これらの命令では１ブロック＝１６バイトのデータがひとまとめにして処理される。また、２命令が並列にデコードされた場合には、主演算回路２０８及び副演算回路２０９と種々のバスを用いて２つの命令が並列実行される。以下にＥステージ４０５での処理をまとめて示す。
【０２００】
・オペレーションコードで指定された命令オペレーションのマイクロプログ
ラムによる実行
・汎用レジスタ値，制御レジスタ値の更新
・ＰＳＷ中のフラグの更新
・リング毎に指定されたスタックポインタの更新
・ＥＩＴ処理の受付と実行，Ｅステージジャンプ
・スコアボードレジスタ部５２の書き込み予約解除
・分岐予測部３３の分岐履歴の更新
・プリリターンアドレスのチェック
・誤った先行ジャンプを訂正するためのＥステージジャンプ
・制御レジスタの更新及びインタロック命令の実行によるＥステージジャンプ
・ＰＣ値の転送
【０２０１】
（４．７）「ストアステージ」
ストアステージ（Ｓステージ）４０６ではオペランドアクセス部７４が動作する。Ｓステージ４０６はＷコード４１８のアドレスに従ってＷコード４１８のデータを内蔵データキャッシュ７４にストアすると同時にＷコード４１８をストアバッファ７５に入力して外部のメモリへＷコード４１８のデータをストアする。
【０２０２】
ストアバッファ７５は２エントリあり、８バイトのデータ２つまでのストア要求をキューイング可能である。単一転送では、ストアバッファ７５から外部のメモリへのオペランドのストアが整置された４バイトについて最小２クロックに１回行なわれる。バーストモードのブロック転送では、ストアバッファ７５から外部のメモリへのオペランドのストアが整置された１６バイトについて最小５クロックで行なわれる。
Ｓステージ４０６での動作はオペランドアクセス部１７で行なわれ、内蔵データキャッシュがミスした場合も入れ替え処理は行なわれない。以下にＳステージ４０６での処理をまとめて示す。
【０２０３】
・データキャッシュ７４とメモリとへのストア
・ストアバッファ７５の管理
【０２０４】
（５）「スーパースケーラ処理」
（５．１）「スーパースケーラ処理の概要」
本発明のデータ処理装置１は、実行頻度が高い命令をそれに先行する命令と並列にデコードすることにより、両者を並列に実行する２命令のスーパースケーラ処理を行なう。
【０２０５】
具体的には、図２９に示されている命令デコード部１２のＤステージデコーダ３１が２つの命令（先行命令と後続命令）を並列にデコードし、２つの命令が並列に実行可能であると判断された場合には２つの命令のデコード結果を同時に出力する。この場合、Ｄコード４１２，Ｒコード４１４，Ｅコード４１６では２つの命令の実行情報が転送されるが、各ステップコードの内の先行命令の実行情報に関するステップコードをメインコードと称し、後続命令の実行情報に関するステップコードをサブコードと称する。メインコードとサブコードとは基本的に各パイプラインステージで同期して処理される。そして、実際に２命令を並列に実行する場合、図３４に示した整数演算部１６において主演算回路２０８がマイクロプログラム制御で先行命令を実行し、副演算回路２０７がハードワイヤード制御で後続命令を実行する。先行命令が２マイクロ命令以上のマイクロプログラムで実行される場合、後続命令は先行命令の最終マイクロ命令が実行される際に並列に実行される。
【０２０６】
ところで、スーパースケーラ処理はハードウエアの制限により、すべての２命令の組み合せで可能なわけではない。２命令の並列実行が可能なのは、以下の条件を満たす場合である。詳細については後述する。
【０２０７】
・先行命令が２バイトまたは４バイト命令である。
・先行命令が分岐を発生しない。
・後続命令の実行前に、先行命令の実行に依存した例外処理が起動されない
。
・先行命令の最終マイクロステップで副演算回路２０７，Ｓ３バス１２２，Ｓ４バス１２３あるいＤ２バス１２５を使用しない。
・後続命令の命令基本部が１つである。後続命令は短縮形フォーマットの命令か１オペランド命令の場合に限られる。
・後続命令は副演算回路２０７において１クロックサイクルで実行できる。
・オペランド干渉（先行命令が更新するレジスタ値を後続命令が参照すること）が発生しない。但し、以下の場合はオペランド干渉時にも並列実行が可能な場合がある。
・先行命令がレジスタへの転送命令である。
・後続命令が先行命令の演算結果をレジスタまたはメモリへ転送する命
令である。
・先行命令がシフト命令であり、後続命令が算術演算／論理演算／比
較命令である。
・先行命令が算術／論理演算命令であり、後続命令が左シフト命令で
ある。
・先行命令が算術演算命令であり、後続命令が算術演算／比較命令で
ある。
・先行命令と後続命令との双方がメモリ／即値オペランドを有していない。但し、２つの命令が連続したメモリ領域をアクセスするロード／ストア命令の場合には、並列に実行できる場合がある。
【０２０８】
２命令を並列に実行できる場合は以下のように分類できる。但し、ここで即値オペランドとは、命令基本部に埋め込まれた小さな即値（リテラル）を除く。
【０２０９】
・分類Ａ：後続命令がメモリ／即値オペランドを有していない。
・分類Ａ１：オペランド干渉なし。
・分類Ａ２：オペランド干渉有り。先行命令がレジスタへの転送命令。
・分類Ａ３：オペランド干渉有り。分類Ａ２以外で後続命令がレジスタ間転送命令。
・分類Ａ４：オペランド干渉有り。先行命令が３ビット以下の左シフト命令で、後続命令が算術演算／論理演算／比較命令。
・分類Ａ５：オペランド干渉有り。先行命令が算術／論理演算命令で、後続命令が３ビット以下の左シフト命令。
・分類Ａ６：オペランド干渉有り。先行命令が算術演算命令で、後続命令が算術演算／比較命令。
【０２１０】
・分類Ｂ：先行命令が即値／メモリオペランドを有しておらず、後続命令が即値／メモリオペランドを有する。
・分類Ｂ１：オペランド干渉なし。
・分類Ｂ２：後続命令が先行命令の演算結果をメモリへ転送する命令。
・分類Ｂ３：オペランド干渉有り。先行命令が３ビット以下の左シフト命令で、後続命令が算術演算／論理演算／比較命令。
・分類Ｂ４：オペランド干渉有り。先行命令が算術演算命令で、後続命令が算術演算／比較命令。
【０２１１】
・分類Ｃ：２つの命令がメモリオペランドを有する（連続領域アクセス）。
・分類Ｃ１：２つの命令が共にスタックポップを行なう転送命令。
・分類Ｃ２：２つの命令が共にスタックプッシュを行なう転送命令。
・分類Ｃ３：先行命令がレジスタ間接モード／レジスタ相対間接モードでオペランドを指定し、後続命令がレジスタ相対間接モードでオペランドを指定し、２つの命令が連続する２つのワードデータをロードする転送命令。
・分類Ｃ４：先行命令がレジスタ間接モード／レジスタ相対間接モードでオペランドを指定し、後続命令がレジスタ相対間接モードでオペランドを指定し、２つの命令が連続する２つのワードデータをストアする転送命令。
【０２１２】
（５．２）「命令デコード部の並列デコード機構」
本発明のデータ処理装置１は、命令デコード部１２のＤステージデコーダ３１で２命令の並列デコードを行なう。図３７はそのＤステージデコーダ３１の構成例を示すブロック図である。
【０２１３】
Ｄステージデコーダ３１には、Ｄステージデコーダ３１自身を含むＤステージ４０２の状態制御を行なうＤステージ制御部３０１，２命令を並列にデコードする場合の先行命令をデコードするためのメインデコーダ３０２，後続命令をデコードするためのサブデコーダ３０４，２命令の並列デコード／実行が可能か否かを判定する２命令並列デコード可否判定部３０３，Ｄコード４１２を生成するＤコード生成部３０６，Ａコード４１３を生成するＡコード生成部３０７等が備えられている。
【０２１４】
メインデコーダ３０２はＩＩバス１０１の１〜４バイト目を入力し、最大４バイトの命令基本部と１ビットの分岐予測ビットとをデコードする。
【０２１５】
サブデコーダ３０４には、第１ＳＯＰＤＥＣ３０８と第２ＳＯＰＤＥＣ３０９との２つのデコーダが備えられており、メインデコーダ３０２でデコードされる命令に引き続く命令の命令基本部をデコードする。第１ＳＯＰＤＥＣ３０８は、メインデコーダ３０２でデコードされる命令が２バイトであると仮定して、ＩＩバス１０１の３バイト目と４バイト目とをデコードする。第２ＳＯＰＤＥＣ３０９は、メインデコーダ３０２でデコードされる命令が４バイトであると仮定して、ＩＩバス１０１の５バイト目と６バイト目とをデコードする。メインデコーダ３０２でデコードされた命令とサブデコーダ３０４でデコードされた命令とが、後述する並列デコード条件を満足する場合、２つのデコーダ３０８，３０９の出力の内のいずれか一方がＤコード生成部３０６へ出力される。
【０２１６】
メインデコーダ３０２及びサブデコーダ３０４では、レジスタ番号，サイズ，オペレーションコードに埋め込まれた小さな即値（リテラル）等のパラメータとなるフィールドの切り出し処理も行なわれる。
【０２１７】
アドレッシングモードデコーダ３０５は８ビットのオペランド指定子あるいは１６ビットの多段間接モードフィールドで指定される命令のアドレッシングモード部をデコードする。アドレッシングモードデコーダ３０５には、ＩＩバス１０１の２バイト目にある８ビットの一般形アドレッシングモードあるいは６ビットの短縮形アドレッシングモードをデコードする第１ＥＡＤＥＣ３１０と、ＩＩバス１０１の４バイト目にある８ビットの一般形アドレッシングモードあるいは６ビットの短縮形アドレッシングモードをデコードする第２ＥＡＤＥＣ３１１と、ＩＩバス１０１の１バイト目と２バイト目にある多段間接モードをデコードするＣＨＮＤＥＣ３１２との三つのデコーダが備えられている。アドレッシングモードデコーダ３０５では、アドレス計算で参照するレジスタ番号の切り出し及び拡張データの切り出しに関する情報の生成も行なう。
【０２１８】
Ｄコード生成部３０６には、先行命令のデコード結果であるメインＤコードを生成するメインＤコード生成部３１３と、後続命令のデコード結果であるサブＤコードを生成するサブＤコード生成部３１４とが備えられている。
【０２１９】
Ｄステージデコーダ３１は上述のようなハードウェア構成を採っているため、２命令を並列デコードする場合には、先行命令の最終デコードサイクルでの処理コード長が２バイトまたは４バイトの場合に限られる。先行命令は複数ステップに分解される命令であっても構わない。また、オペランドアドレス生成部１４にはアドレス計算のための加算器は１つのみがインプリメントされているため、メモリオペランドを有する命令を複数同時に処理することはきない。また特に、後続命令がメモリオペランドを有する場合は、アドレッシングモードデコーダ３０５が上述のような構成を採っているため、特別な場合を除いては先行命令の最終デコードサイクルでの処理コード長が２バイトの場合に限られる。
【０２２０】
１サイクルで処理されるＩＩバス１０１上の命令コードの位置関係を図３８の模式図に示す。ここで、２命令を並列にデコードできるのは、先行命令の最終デコードサイクル時のみである。
【０２２１】
図３８において、参照符号（ａ）〜（ｄ）にて示されている例は、先行命令が基本部１つのみの場合であり、これらの内で２命令を並列にデコードできるのは（ｂ）〜（ｄ）の例である。先行命令が即値／メモリオペランドを有していない場合には、後続命令はメモリ／即値オペランドを有していてもよく、３２ビットまでの拡張データを有していてもよい。
【０２２２】
参照符号（ｅ）〜（ｇ）にて示されている例は、先行命令が１つの基本部と１６ビットの拡張部とからなる例であり、これらの内で２命令を並列にデコードできるのは（ｆ）〜（ｇ）の例である。（ｅ）の例に示されているように、通常、後続命令はメモリ／即値オペランドを有していてはいけない。（ｇ）の例になるのは、レジスタ相対モードで連続領域のロード／ストアを行なう２つの転送命令が連続する場合のみである。
【０２２３】
参照符号（ｈ）にて示されている例は、先行命令が１つの基本部と３２ビットの拡張部とからなる場合である。この場合、２命令の並列デコードは行なえない。
【０２２４】
参照符号（ｈ）〜（ｋ）にて示されている例は、先行命令の命令基本部を２つ同時にデコードする例である。この場合、（ｉ）の例ように拡張部を有していない場合にのみ２命令の並列デコードが可能である。
【０２２５】
参照符号（ｌ）にて示されている例は命令コードを消費しない場合を、（ｍ）〜（ｐ）にて示されている例は命令固有の拡張部のみを取り込む場合をそれぞれ示している。（ｎ）あるいは（ｏ）の例のように、拡張部を取り込む場合にも２命令の並列デコードが可能な場合がある。
【０２２６】
図３９に２命令並列デコード可否判定部３０３のブロック図を示す。２命令並列デコード可否判定部３０３には、レジスタ番号比較部３２１，拡張データ値判定部３２２，オペランド干渉判定部３２３，サブコード有効判定部３２４等が備えられている。
【０２２７】
レジスタ番号比較部３２１はレジスタオペランドの干渉判定を行なうためにＩＩバス１０１上のレジスタ番号フィールドの比較を行なう。Ｄステージデコーダ３１で１サイクルに２命令を並列にデコードする場合、命令基本部に着目すると図４４の模式図に示されているような３つの場合に分けられる。
【０２２８】
図４４において、参照符号（Ａ）は先行命令が命令基本部のみの２バイトの場合であり、ＲＬ１フィールド４２１とＲＬ２フィールド４２３とを、ＲＲ１フィールド４２２とＲＲ２フィールド４２４とをそれぞれ比較する必要がある。参照符号（Ｂ）は先行命令が１つの命令基本部と１６ビットの拡張部を有する４バイトの場合であり、ＲＬ１フィールド４２１とＲＬ３フィールド４２５とを、ＲＲ１フィールド４２２とＲＲ３フィールド４２６とをそれぞれ比較する必要がある。参照符号（Ｃ）は先行命令が２つの命令基本部を有する４バイトの場合であり、ＲＲ２フィールド４２４とＲＬ３フィールド４２５及びＲＲ３フィールド４２６をそれぞれ比較する必要がある。但し、（Ｃ）においては、ＲＬ２フィールド４２３のレジスタを更新する場合があるが、それらの命令では２命令の並列デコードは行なわれない。これらのレジスタフィールドの比較を行なうためにレジスタ番号比較部３２１には参照符号３２５乃至３３４にて示されている比較器１〜比較器１０の１０個の４ビット比較器が備えられている。
【０２２９】
拡張データ値判定部３３２は、ロードあるいはストアを行なう２つの連続する転送命令が連続領域をアクセスするか否かを判定するために、レジスタ相対モードでオペランドが指定された場合の拡張データ（変位値）の判定を行なう。第１ＤＩＳＰ判定部３３５では、ＩＩバス１０１上の３バイト目と４バイト目（以下ＩＩ（１６：３１）と示す）が”４”であるか否かを判定する。第２ＤＩＳＰ判定部３３６では、ＩＩ（４８：６３）で指定される変位値がＩＩ（１６：３１）で指定される変位値”＋４”であるか否かを、減算により判定する。
【０２３０】
オペランド干渉判定部３２３では、メインデコーダ３０２から出力される各レジスタフィールドの更新情報と、サブデコーダ３０４から出力される各レジスタフィールドの参照情報と、レジスタ番号比較部３２１から出力される各レジスタフィールドの比較結果とを基に、レジスタオペランドの干渉判定を行なう。オペランド干渉判定部３２３の詳細な論理構成例を図４０及び図４１の論理回路図に示す。但し、この論理回路図は機能的な処理内容を示すものである。なお、図４０と図４１とは、図４０の下側と図４１の上側とが接続された本来は一葉の図面である。
【０２３１】
サブコード有効判定部３２４では、メインデコーダ３０２から出力される先行命令に関する情報と、サブデコーダ３０４から出力される後続命令に関する情報と、レジスタ番号比較部３２１から出力される各レジスタフィールドの比較結果と、オペランド干渉判定部３２３から出力されるレジスタオペランドの干渉情報と、拡張データ値判定部３２２から出力される拡張データ値情報とに基づいて、２命令が並列デコード可能か否かを判定する。また、２つの命令の組み合せに依存するいくつかの制御信号の生成も行なう。サブコード有効判定部３２４の詳細な論理構成例を図４２及び図４３の論理回路図に示す。但し、この論理図は機能的な処理内容を示すものである。なお、図４２と図４３とは、図４２の下側と図４３の上側とが接続された本来は一葉の図面である。
【０２３２】
メインデコーダ３０２から出力されて２命令並列デコード可否判定部３０３に入力される制御信号の一覧を表１に示す。なお、表１において、参照符号５０１乃至５１４の各信号はサブコード有効判定部３２４に、参照符号５１５乃至５１８の各信号はオペランド干渉判定部３２３にそれぞれ入力される。
【０２３３】
【表１】

【０２３４】
注１）１命令の最終デコードサイクル。マイクロプログラムの最終ステップでサブのバス、演算器を使用しない。分岐を起こさない。パイプラインをパージしない。後続命令の実行前に、命令の実行に依存して例外を起動する可能性がない。明示的に指定されているレジスタ以外のレジスタを更新しない。多段間接モードでない。
【０２３５】
サブデコーダ３０４の第１ＳＯＰＤＥＣ３０８から出力されて２命令並列デコード可否判定部３０３に入力される制御信号の一覧を表２に示す。なお、表２において、参照符号５２１乃至５３２の各信号はサブコード有効判定部３２４に、参照符号５３３乃至５３７の各信号はオペランド干渉判定部３２３にそれぞれ入力される。
【０２３６】
【表２】

【０２３７】
注２）命令コードが有効で例外が検出されていないことも判断。
【０２３８】
サブデコーダ３０４の第２ＳＯＰＤＥＣ３０９から出力されて２命令並列デコード可否判定部３０３に入力される制御信号の一覧を表３に示す。なお、表３において、参照符号５４１乃至５４７の各信号はサブコード有効判定部３２４に、参照符号５４８乃至５５０の各信号はオペランド干渉判定部３２３にそれぞれ入力される。
【０２３９】
【表３】

【０２４０】
注３）命令コードが有効で例外が検出されていないことも判断。
【０２４１】
２命令並列デコード可否判定部３２１の各ブロック間で転送される信号の一覧を表４に示す。なお、表４において、参照符号５５１乃至５６０の各信号はレジスタ番号比較部３２１から、参照符号５６１及び５６２の各信号は拡張データ値判定部３２２から、参照符号５７１乃至５７９の各信号はオペランド干渉判定部３２３からそれぞれ出力される。
【０２４２】
【表４】

【０２４３】
サブコード有効判定部３２４から出力される信号の一覧を表５に示す。なお、表５において、参照符号５８１乃至５９１の各信号がサブコード有効判定部３２４から出力される。
【０２４４】
【表５】

【０２４５】
なお、これらの各表において、各信号の内容は、それぞれの値が”１”である場合の意味を示す。また、２命令並列デコード可否判定部３０３のサブコード有効判定部３２４で生成された信号はサブコードとして転送される。
【０２４６】
（５．３）「命令実行部の並列実行機構」
命令デコード部１２で並列にデコードされた２つの命令は必ず並列に実行できる。基本的には、先行命令の最終マイクロステップにおいて先行命令は主演算回路２０８とＳ１バス１０４，Ｓ２バス１２１あるいはＤ１バス１２４とを用いてマイクロ制御で実行され、後続命令は副演算回路２０７とＳ３バス１２２，Ｓ４バス１２３あるいはＤ２バス１２５とを用いてハードワイヤード制御で実行される。
【０２４７】
図５９は主演算回路２０８及び副演算回路２０７のより詳細な構成例を示すブロック図である。
【０２４８】
主演算回路２０８には、算術／論理演算を行なうメインＡＬＵ２３１，６４ビットデータのシフトが可能なメインシフタ２３２，他の演算器２３３等が備えられている。複雑な処理を効率良く行なうために、各演算器の出力はＤ１バス１２４の他、Ｄ２バス１２５に結合されているものもある。他の演算器２３３には、乗算器，プライオリティエンコーダ，カウンタ等の演算器が含まれる。
【０２４９】
副演算回路２０７には、算術／論理演算を行なうサブＡＬＵ２３４，８ビットまでのシフトを行なうサブシフタ２３８，オペランド干渉のある２つの算術演算命令を並列に実行するための３値加算器２３７等が備えられている。また、オペランド干渉のあるシフトカウント数が３以下のシフト命令と算術／論理演算／比較命令との２命令を並列に実行できるように、サブＡＬＵ２３４の入力側と出力側との双方に３ビット以下のシフト処理を行なう小さなシフタ２３５，２３６が接続されている。副演算回路２０７内の演算器は主としてＳ３バス１２２，Ｓ４バス１２３，Ｄ２バス１２５に結合されているが、オペランド干渉時のオペランドのバイパスや２命令の複合演算を行なうためにＳ１バス１０４あるいはＳ２バス１２１にも結合されている。
【０２５０】
（５．４）「スーパースケーラ処理の詳細」
すべての場合をまとめて説明すると非常に複雑になるので、以下では前述の各分類毎にどのような処理が行なわれるかを、具体的な処理例に従って説明する。なお、以下の説明では、２命令を並列にデコードする際の先行命令を命令１と称し、後続命令を命令２と称する。
【０２５１】
（５．４．１）「分類Ａ１の場合の処理」
まず、命令２がメモリ／即値オペランドを有しておらず、オペランド干渉がない分類Ａ１の場合について説明する。
【０２５２】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ａ１に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｆ），（ｉ）の３つの場合がある。命令１が後続のメモリ／即値オペランドを有していない命令２を並列に実行可能な場合、ＳＥＮＲ信号５０１が”１”になる。また、命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有していない命令であった場合には、命令１のコード長に応じてＳＶＬＤ１信号５１２またはＳＶＬＤ２信号５４１が”１”になる。
【０２５３】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。オペランド干渉があれば命令１のコード長に応じてＯＰＣＯＮＦ１信号５７１またはＯＰＣＯＮＦ２信号５７４が”１”になる。命令１の処理コード長が２または４バイトで上述の条件をすべて満たす場合、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０２５４】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、命令１の処理コード長に従って、第１ＳＯＰＤＥＣ３０８または第２ＳＯＰＤＥＣ３０９の出力の一方を選択し、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５またはメインデコーダ３０２の出力に基づいてＡコードを生成する。命令１が拡張データを有する場合には、拡張データ処理部３２で拡張データの切り出し及びＤＩＳＰバス１０２への出力が行なわれる。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０２５５】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。また、命令１が即値／メモリオペランドを有する場合のアドレス計算，ＳＰ値の補正等が行なわれる。また、命令１及び命令２のレジスタの更新情報がスコアボードレジスタ部５２に登録される。
【０２５６】
Ｆステージ４０４では、命令１の処理に対応するマイクロ命令が読み出され、第１マイクロ命令デコーダ８５で命令１の実行制御情報が生成される。命令２の実行制御情報はサブＲコードをハードワイヤードでデコードすることにより第２マイクロ命令デコーダ８６で生成される。命令１の実行に複数のマイクロステップを要する場合には、命令１の最終マイクロステップで命令２の実行制御情報が有効になる。命令１の最終マイクロステップ以外では、第２マイクロ命令デコーダ８６は、マイクロＲＯＭ８１から読み出されたマイクロ命令をデコードして命令１に関する実行制御情報を生成する場合もある。命令１がフェッチオペランドを有する場合には、オペランドアクセス部１７でオペランドがプリフェッチされる。
【０２５７】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。命令１は主演算回路２０８とＳ１バス１０４，Ｓ２バス１２１あるいはＤ１バス１２４とを用いて実行される。命令２は副演算回路２０７とＳ３バス１２２，Ｓ４バス１２３あるいはＤ２バス１２５とを用いて実行される。命令１がメモリへのオペランドストアを伴う場合、オペランドアクセス部１７でデータキャッシュ７４のタグチェック及びキャッシュのヒット／ミス判定が行なわれる。この場合、Ｓステージ４０６で、キャッシュへのデータ書き込み及びメモリへのストアが行なわれる。
【０２５８】
以下に具体例に即して説明する。デスティネーションオペランドがレジスタである２つのＱフォーマットの加算命令（ＡＤＤ：Ｑ）が連続する場合を考える。図４５の模式図にこの２命令をデコードする際の命令コードのＩＩバス１０１上のビット位置を示す。命令１がＲ１（レジスタ１）に”４”を加える命令であり、命令２がＲ２に”８”を加える命令である。この場合、２命令の並列実行が可能な組み合わせであり、且つ命令１が書き換えるＲ１を命令２が参照することはないので、２命令が並列実行される。またこの場合、命令１の処理コード長が２バイトであるので、第１ＳＯＰＤＥＣ３０８の出力結果に基づいてサブＤコードが生成される。図４６の模式図に示すように、各パイプラインステージで２命令が並列に処理される。各パイプラインステージでは、１サイクルで２命令の処理を終了できる。
【０２５９】
各ステージでの具体的な処理の流れを図４７のフローチャートに示す。図４７に示したように、各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。
【０２６０】
（５．４．２）「分類Ａ２の場合の処理」
ここでは、命令１がレジスタへの転送命令であり、命令２がメモリ／即値オペランドを有しておらず、オペランド干渉がある分類Ａ２の場合について説明する。命令の組み合せとしては分類Ａ１のサブセットになる。処理を簡略化するために、命令１の両オペランドサイズ及び命令２のデスティネーションオペランドサイズがワードである場合にのみ、ロードオペランドバイパスが可能としている。命令１のソースオペランドは、レジスタにあってもメモリにあってもよい。命令の実行頻度を考慮して、命令１がＬフォーマットの転送命令（ＭＯＶ：Ｌ）であるか、またはデスティネーションオペランドがレジスタのＳフォーマットの転送命令（ＭＯＶ：Ｓ）である場合に限って、オペランドのバイパス処理を行なう。
【０２６１】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ａ２に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｆ）の２つの場合がある。命令１が上述の転送命令である場合、ＬＤＭＶＲ信号５０５が”１”になる。また、命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有していない命令であり、デスティネーションオペランドサイズがワードであった場合には、命令１のコード長に応じてＬＢＹＰ１信号５２３またはＬＢＹＰ２信号５４２が”１”になる。
【０２６２】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。オペランド干渉があれば命令１のコード長に応じてＯＰＣＯＮＦ１信号５７１またはＯＰＣＯＮＦ２信号５７４が”１”になる。命令１の処理コード長が２または４バイトで上述の条件をすべて満たす場合、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になると共に、ロードオペランドのバイパスを行なうことを示すＬＤＢＹＰ信号５８３が”１”になる。更に、命令２のソースオペランドをバイパスする場合にはＢＹＰＳＲＣ信号５８７が、命令２のデスティネーションオペランドをバイパスする場合にはＢＹＰＤＳＴ信号５８８がそれぞれ”１”になる。但し、双方が”１”になる場合もある。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。これらのオペランドバイパスに関する信号もサブＤコードとして出力され、転送されていく。その他の処理は分類Ａ１の場合と同じである。
【０２６３】
Ａステージ４０３及びＦステージ４０４における処理は、分類Ａ１の場合と同じである。
【０２６４】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。分類Ａ２が分類Ａ１と異なるのは、オペランドのバイパス処理を行なうことである。命令１は、Ｓ１バス１０４へ出力されたソースオペランドデータを、メインＡＬＵ２３１，Ｄ１バス１２４を介して、デスティネーションとして指定されたレジスタに書き込むことにより実行される。命令２は基本的にはＳ３バス１２２，Ｓ４バス１２３，Ｄ２バス１２５と副演算回路２０７とで実行されるが、オペランド干渉があるデータはＳ３バス１２２，Ｓ４バス１２３上のデータの代わりに、Ｓ１バス１０４上のデータをバイパスして取り込むことにより、正しい結果が得られる。たとえば、命令２がサブＡＬＵ２３４で実行される際に、命令２のソースオペランドでオペランド干渉が起こっている場合、ラッチ２４４にはＳ３バス１２２の代わりにＳ１バス１０４からデータがバイパスして取り込まれ、命令２のデスティネーションオペランドでオペランド干渉が起こっている場合、ラッチ２４５にはＳ４バス１２３の代わりにＳ１バス１０４からデータがバイパスして取り込まれる。命令２がサブシフタ２３８で実行されるシフト命令であり、命令２のデスティネーションオペランドでオペランド干渉が起こっている場合、ラッチ２５０にはＳ４バス１２３の代わりにＳ１バス１０４からデータがバイパスして取り込まれる。命令２がサブシフタ２３８で処理されるのは、シフトカウント値はリテラルが指定されるＱフォーマットのシフト命令のみであり、シフト命令のシフトカウント値をバイパスする必要がないからである。命令２が演算結果を命令１のデスティネーションと同一のレジスタに書き込みを行なう場合、Ｄ２バス１２５からの書き込みが優先される。
【０２６５】
以下に具体例に即して説明する。命令１がＬフォーマットの転送命令（ＭＯＶ：Ｌ）であり、レジスタ相対間接モードで指定されたメモリオペランドをＲ１にロードする命令であり、命令２がＲ１に”８”を加えるＱフォーマットの加算命令（ＡＤＤ：Ｑ）である場合を考える。命令１のメモリオペランドのベースレジスタはＲ１３であり、変位（ディスプレースメント）は１６であり、１６ビットの拡張データで指定されるものとする。図４８の模式図にこの２命令をデコードする際の命令コードのＩＩバス１０１上のビット位置を示す。この場合、２命令間でオペランド干渉があるが、ロードオペランドバイパスを行なうことにより２命令を並列に実行できる命令の組み合せである。この場合、命令２のデスティネーションオペランドに関してロードオペランドバイパスを行なうので、ＬＤＢＹＰ信号５８３とＢＹＰＤＳＴ信号５８８とが”１”になる。また、命令１の処理コード長が４バイトであるので、第２ＳＯＰＤＥＣ３０９の出力結果に基づいてサブＤコードが生成される。
【０２６６】
各ステージでの具体的な処理の流れを図４９のフローチャートに示す。各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。この例では、命令２がサブＡＬＵ１３４で実行される命令であり、命令２のデスティネーションオペランドに関してオペランドが干渉している。従って、サブＡＬＵ２３４のラッチ２４５には命令１でＲ１にロードされるＳ１バス１０４上の値が直接取り込まれて演算が行なわれている。Ｒ１には命令２の実行結果であるＤ２バス１２５上のデータが書き込まれる。Ｄ１バス１２４上のデータは書き込まれない。
【０２６７】
（５．４．３）「分類Ａ３の場合の処理」
ここでは、命令１が演算結果をレジスタに書き込む命令であり、命令２が命令１の演算結果を別のレジスタへ転送する転送命令である分類Ａ３の場合について説明する。この場合も命令の組み合せとしては分類Ａ１のサブセットになる。処理を簡略化するために、命令１のデスティネーションオペランドのサイズ及び命令２の両オペランドのサイズがワードである場合にのみ、書き込みオペランドのバイパスが可能としている。命令１のソースオペランドは、レジスタにあってもメモリにあってもよい。但し、命令１は最終マイクロステップでレジスタへ書き込むデータをＤ１バス１２４へ出力する命令であり、且つ命令２はＬフォーマットまたはＳフォーマットのレジスタ間転送を行なう転送命令（ＭＯＶ：Ｌ，ＭＯＶ：Ｓ）である場合に限られる。
【０２６８】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ａ３に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｆ），（ｉ）の３つの場合がある。命令１がデスティネーションオペランドのサイズがワードであり、最終マイクロステップでＤ１バス１２４を経由してレジスタへ書き込む命令である場合、ＭＶＲＥＮ信号５０４が”１”になる。また、命令２が上述のレジスタ間転送命令である場合には、命令１のコード長に応じてＭＶＲ１信号５２５またはＭＶＲ２信号５４３が”１”になる。
【０２６９】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。オペランド干渉があれば命令１のコード長に応じてＯＰＣＯＮＦ１信号５７１またはＯＰＣＯＮＦ２信号５７４が”１”になる。命令１の処理コード長が２または４バイトで上述の条件をすべて満たす場合、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になると共に、書き込みオペランドのバイパスを行なうことを示すＢＹＰＤ１信号５８９が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。オペランドバイパスに関する信号もサブＤコードとして出力され、転送されていく。その他の処理は、分類Ａ１の場合と同じである。
【０２７０】
Ａステージ４０３及びＦステージ４０４における処理は、分類Ａ１の場合と同じである。
【０２７１】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。分類Ａ３が分類Ａ１と異なるのは、オペランドのバイパス処理を行なうことである。命令１の最終マイクロステップでは主演算回路２０８のいずれかの演算器で演算が行なわれ、演算結果がＤ１バス１２４を介して、デスティネーションとして指定されたレジスタに書き込まれる。命令２はこのＤ１バス１２４へ出力された値を、命令２のデスティネーションとして指定されたレジスタに書き込むことにより、実行される。
【０２７２】
以下に具体例に即して説明する。命令１がＲ０の値をＲ１に加算するＬフォーマットの加算命令（ＡＤＤ：Ｌ）であり、命令２がＲ１の値をＲ２へ転送するＬフォーマットの転送命令（ＭＯＶ：Ｌ）である場合を考える。図５０の模式図にこの２命令をデコードする際の命令コードのＩＩバス１０１上のビット位置を示す。この場合、２命令間でオペランド干渉があるが、書き込みオペランドのオペランドバイパスを行なうことにより２命令を並列に実行できる命令の組み合せである。この場合、ＢＹＰＤ１信号５８９が”１”になる。
【０２７３】
各ステージでの具体的な処理の流れを図５１のフローチャートに示す。各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。この例では、命令１がメインＡＬＵ２３１で実行され、演算結果がＤ１バス１２４を経由してＲ１に書き込まれると共に、この値がＲ２にも書き込まれる。この場合、副演算回路２０７では有効な処理は行なわれない。
【０２７４】
（５．４．４）「分類Ａ４の場合の処理」
命令１が３ビット以下の左シフト命令であり、命令２が命令１のシフト結果を参照する算術演算／論理演算／比較命令である分類Ａ４の場合について説明する。命令の組み合せとしては分類Ａ１のサブセットになる。但し、２命令が並列に実行できるのは、命令１がＱフォーマットの論理シフト命令（ＳＨＬ：Ｑ）であり、デスティネーションオペランドサイズがワードである場合のみである。
【０２７５】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ａ４に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ）の場合のみである。命令１が後続のメモリ／即値オペランドを有していない命令２を並列に実行可能な場合、ＳＥＮＲ信号５０１が”１”になる。更に、命令１がデスティネーションがレジスタで、サイズがワードであり、３ビット以下のシフトを行なう命令である場合、ＩＳＦＴ信号５０６が”１”になる。命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有していない命令であった場合には、命令１のコード長に応じてＳＶＬＤ１信号５１２が”１”になる。更に、命令２がサブＡＬＵ２３４で実行可能な算術演算／論理演算／比較命令であった場合には、ＳＡＬＵ１信号５２６が”１”になる。
【０２７６】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。オペランド干渉があれば命令１のコード長に応じてＯＰＣＯＮＦ１信号５７１またはＯＰＣＯＮＦ２信号５７４が”１”になる。命令１の処理コード長が２または４バイトでオペランド干渉がなければ分類Ａ１になる。しかしこの場合、命令１の処理コード長が２バイトであればオペランド干渉があっても２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。また、シフト演算とＡＬＵ演算との複合演算を行なうことを示すＳＦＴＡＬＵ信号５８４が”１”になる。更に、命令２のソースオペランドをバイパスする場合にはＢＹＰＳＲＣ信号５８７が、命令２のデスティネーションオペランドをバイパスする場合にはＢＹＰＤＳＴ信号５８８がそれぞれ”１”になる。但し、双方が”１”になる場合もある。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。これらのオペランドバイパスに関する信号もサブＤコードとして出力され、転送されていく。その他の処理は、分類Ａ１の場合と同じである。
【０２７７】
Ａステージ４０３及びＦステージ４０４における処理は、分類Ａ１の場合と同じである。
【０２７８】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。分類Ａ４が分類Ａ１と異なるのは、副演算回路２０７でシフト演算とＡＬＵ演算との複合演算が行なわれることである。Ｓ１バス１０４へ出力されたリテラル値（シフトカウント値）がラッチ２４１に取り込まれ、Ｓ２バス１２１へ出力されたデスティネーションデータがラッチ２４２に取り込まれてメインシフタ２３２でシフト演算が行なわれる。そのシフト結果がＤ１バス１２４を介してデスティネーションとして指定されたレジスタに書き込まれることにより、命令１が実行される。副演算回路２０７では、サブＡＬＵ２３４とその入力シフタ２３５とを用いて、命令１と命令２との複合演算を行なう。入力シフタ２３５では、Ｓ２バス１２１から取り込んだデータに対してＳ１バス１０４から取り込んだシフトカウント値に従ってシフト操作を行ない、シフト結果をラッチ２４４，２４５へ出力する。ラッチ２４４，２４５は、干渉していないオペランドデータはＳ３バス１２２またはＳ４バス１２３から取り込み、オペランドが干渉しているデータは入力シフタ２３５の出力をそのデータとして取り込む。たとえば、命令２のソースオペランドでオペランド干渉が起こっている場合、ラッチ２４４にはＳ３バス１２２の代わりに入力シフタ２３５の出力が取り込まれ、命令２のデスティネーションオペランドでオペランド干渉が起こっている場合、ラッチ２４５にはＳ４バス１２３の代わりに入力シフタ２３５からデータが取り込まれる。サブＡＬＵ２３４では命令２で指定された演算が行なわれ、演算結果がＤ２バス１２５を経由して命令１のデスティネーションとして指定されたレジスタに書き込まれる。命令１のデスティネーションと同一のレジスタに命令２が演算結果の書き込みを行なう場合、Ｄ２バス１２５からの書き込みが優先される。入力シフタ２３５で３ビットまでの左シフトのみを行なうのは、配列当等のアドレス計算で１〜３ビットの左シフトがよく用いられるためである。シフト可能なビット数を多くした場合には、シフタでの処理時間が長くなって動作周波数が向上しないためこのような設定にしてある。
【０２７９】
以下に具体例に即して説明する。命令１がＲ１の値を３ビット左シフトするＱフォーマットのシフト命令（ＳＨＬ：Ｑ）であり、命令２がＲ１の値をＲ２に加算するＬフォーマットの加算命令（ＡＤＤ：Ｌ）である場合を考える。この場合、２命令間でオペランド干渉があるが、命令１のシフト演算と命令２の加算とを複合演算として行なうことにより２命令を並列に実行できる命令の組み合せである。この場合、ＳＦＴＡＬＵ信号５８４及びＢＹＰＳＲＣ信号５８７が”１”になる。
【０２８０】
各ステージでの具体的な処理の流れを図５２のフローチャートに示す。各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。この例では、命令１がメインシフタ２３２で実行され、演算結果がＤ１バス１２４を経由してＲ１に書き込まれる。また、サブＡＬＵ２３４と入力シフタ２３５を用いて、命令１のシフト演算と命令２の加算とが同じサイクルで実行され、Ｒ２に演算結果が書き込まれる。
【０２８１】
（５．４．５）「分類Ａ５の場合の処理」
命令１が算術演算／論理演算命令であり、命令２が命令１の演算結果を参照する３ビット以下の左シフト命令である分類Ａ５の場合について説明する。命令の組み合せとしては分類Ａ１のサブセットになる。但し、２命令が並列に実行できるのは、命令２がＱフォーマットの論理シフト命令（ＳＨＬ：Ｑ）である場合のみである。
【０２８２】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ａ５に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｆ），（ｉ）の３つの場合がある。命令１が後続のメモリ／即値オペランドを有していない命令２を並列に実行可能な場合、ＳＥＮＲ信号５０１が”１”になる。更に、命令１がサブＡＬＵ２３４で実行可能な算術演算／論理演算であった場合には、ＳＡＬＵ信号５０７が”１”になる。命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有していない命令であった場合には、命令１のコード長に応じてＳＶＬＤ１信号５１２またはＳＶＬＤ２信号５４１が”１”になる。更に、命令２がサイズがワードであり、３ビット以下のシフトを行なう場合、命令１のコード長に応じてＯＳＦＴ１信号５２７またはＯＳＦＴ２信号５４４が”１”になる。
【０２８３】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。オペランド干渉があれば命令１のコード長に応じてＯＰＣＯＮＦ１信号５７１またはＯＰＣＯＮＦ２信号５７４が”１”になる。命令１の処理コード長が２または４バイトでオペランド干渉がなければ分類Ａ１になる。しかしこの場合、オペランド干渉があっても２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。また、ＡＬＵ演算とシフト演算との複合演算を行なうことを示すＡＬＵＳＦＴ信号５８５が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。この複合演算に関する信号もサブＤコードとして出力され、転送されていく。その他の処理は、分類Ａ１の場合と同じである。
【０２８４】
Ａステージ４０３及びＦステージ４０４における処理は、分類Ａ１の場合と同じである。但しこの場合、副演算回路２０７の演算制御情報の生成に、メインＲコード内の命令１のオペレーション情報が参照される。
【０２８５】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。分類Ａ５が分類Ａ１と異なるのは、副演算回路２０７でＡＬＵ演算とシフト演算との複合演算が行なわれることである。Ｓ１バス１０４へ出力されたソースオペランドデータはラッチ２３９に取り込まれ、Ｓ２バス１２１へ出力されたデスティネーションオペランドデータはラッチ２４０に取り込まれてメインＡＬＵ２３１で算術／論理演算が行なわれ、演算結果がＤ１バス１２４へ出力されることにより、命令１が実行される。副演算回路２０７では、サブＡＬＵ２３４とその出力シフタ２３６を用いて、命令１と命令２との複合演算を行なう。ラッチ２４４にはＳ１バス１０４へ出力されたソースオペランドデータが取り込まれ、ラッチ２４５にはＳ２バス１２１へ出力されたデスティネーションオペランドデータが取り込まれる。サブＡＬＵ２３４では、メインＡＬＵ２３１で実行される命令１の算術／論理演算と全く同じ演算を行ない、演算結果を出力シフタ２３６へ出力する。ラッチ２４３は、Ｓ３バス１２２へ出力されたリテラル値（命令２のシフトカウント値）を取り込む。出力シフタ２３６では、サブＡＬＵ２３４から取り込まれたデータをラッチ２４３に取り込まれた値だけシフトする。シフト結果はＤ２バス１２５を経由して命令２のデスティネーションとして指定されたレジスタに書き込まれる。この場合、命令１のデスティネーションになるレジスタと命令２のデスティネーションになるレジスタとは常に同じであり、Ｄ２バス１２５から演算結果が書き込まれる。出力シフタ２３６で３ビットまでの左シフトのみを行なう理由は、入力シフタ２３５と同じ理由である。
【０２８６】
以下に具体例に即して説明する。命令１がＲ０の値をＲ１に加算するＬフォーマットの加算命令（ＡＤＤ：Ｌ）であり、命令２がＲ１の値を３ビット左シフトするＱフォーマットのシフト命令（ＳＨＬ：Ｑ）である場合を考える。この場合、２命令間でオペランド干渉があるが、命令１の加算と命令２のシフト演算とを複合演算として行なうことにより２命令を並列に実行できる命令の組み合せである。この場合、ＡＬＵＳＦＴ信号５８５が”１”になる。
【０２８７】
各ステージでの具体的な処理の流れを図５３のフローチャートに示す。各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。この例では、命令１がメインＡＬＵ２３１で実行される。また、サブＡＬＵ２３４と出力シフタ２３６を用いて、命令１の加算と命令２のシフトが同じサイクルで実行され、Ｄ２バス１２５を経由してＲ１に演算結果が書き込まれる。
【０２８８】
（５．４．６）「分類Ａ６の場合の処理」
命令１が算術演算命令であり、命令２が命令１の演算結果を参照する算術演算／比較命令である分類Ａ６の場合について説明する。命令の組み合せとしては分類Ａ１のサブセットになる。但し、干渉するオペランドのサイズがワードである場合に限る。
【０２８９】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ａ６に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｆ），（ｉ）の３つの場合がある。命令１が後続のメモリ／即値オペランドを有していない命令２を並列に実行可能な場合、ＳＥＮＲ信号５０１が”１”になる。更に、命令１がデスティネーションがレジスタでサイズがワードの３値加算器２３７で実行可能な算術演算命令であった場合には、ＴＡＤＤ信号５０８が”１”になる。命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有していない命令であった場合には、命令１のコード長に応じてＳＶＬＤ１信号５１２またはＳＶＬＤ２信号５４１が”１”になる。更に、命令２がサイズがワードであり、３値加算器２３７で実行可能な算術演算／比較命令であった場合、命令１のコード長に応じてＴＡＤＤ１信号５２８またはＴＡＤＤ２信号５４５が”１”になる。
【０２９０】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。オペランド干渉があれば命令１のコード長に応じてＯＰＣＯＮＦ１信号５７１またはＯＰＣＯＮＦ２信号５７４が”１”になる。更に、命令２のソースオペランドとデスティネーションオペランドとが同じレジスタであった場合には、命令１のコード長に応じてＯＰＣＯＮＦＢ１信号５７２またはＯＰＣＯＮＦＢ２信号５７５が”１”になる。命令１の処理コード長が２または４バイトでオペランド干渉がなければ分類Ａ１になる。しかしこの場合、オペランド干渉があっても、命令２のソースオペランドとデスティネーションオペランドとが異なる場合は２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。また、３値加算器２３７で２つの算術演算の複合演算を行なうことを示すＴＩＮＡＤＤ信号５８６が”１”になる。更に、命令２のソースオペランドをバイパスする場合にはＢＹＰＳＲＣ信号５８７が、命令２のデスティネーションオペランドをバイパスする場合にはＢＹＰＤＳＴ信号５８８がそれぞれ”１”になる。但し、双方が”１”になることはない。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。この複合演算に関する信号もサブＤコードとして出力され、転送されていく。その他の処理は、分類Ａ１の場合と同じである。
【０２９１】
Ａステージ４０３及びＦステージ４０４における処理は、分類Ａ１の場合と同じである。但しこの場合、副演算回路２０７の演算制御情報の生成に、メインＲコード内の命令１のオペレーション情報が参照される。
【０２９２】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。分類Ａ６が分類Ａ１と異なるのは、副演算回路２０７で３値加算器２３７を用いて２つの算術演算命令の複合演算が行なわれることである。Ｓ１バス１０４へ出力されたソースオペランドデータはラッチ２３９に取り込まれ、Ｓ２バス１２１へ出力されたデスティネーションオペランドデータはラッチ２４０に取り込まれてメインＡＬＵ２３１で算術演算が行なわれる。この演算結果がＤ１バス１２４へ出力されて命令１のデスティネーションとして指定されたレジスタに書き込まれることにより、命令１が実行される。副演算回路２０７では、３値加算器２３７を用いて、命令１と命令２との複合演算を行なう。ソースオペランドが干渉する場合には、ラッチ２４７にＳ１バス１０４へ出力された命令１のソースオペランドデータが取り込まれ、ラッチ２４６にＳ２バス１２１へ出力された命令１のデスティネーションオペランドデータが取り込まれ、ラッチ２４８にＳ４バス１２３へ出力された命令２のデスティネーションオペランドデータが取り込まれる。デスティネーションオペランドが干渉する場合には、ラッチ２４７にＳ１バス１０４へ出力された命令１のソースオペランドデータが取り込まれ、ラッチ２４８にＳ２バス１２１へ出力された命令１のデスティネーションオペランドデータが取り込まれ、ラッチ２４６にＳ３バス１２２へ出力された命令２のソースオペランドデータが取り込まれる。３値加算器２３７では、３つのラッチ２４６，２４７，２４８に取り込まれた３値の加減算（命令１と命令２との複合演算）を行なう。演算結果はＤ２バス１２５を経由して命令２のデスティネーションとして指定されたレジスタに書き込まれる。命令１の書き込みを行なうデスティネーションレジスタと命令２の書き込みを行なうデスティネーションレジスタとが同じ場合は、Ｄ２バス１２５から演算結果が書き込まれる。
【０２９３】
以下に具体例に即して説明する。命令１がＲ０の値をＲ２に加算するＬフォーマットの加算命令（ＡＤＤ：Ｌ）であり、命令２がＲ１の値をＲ２に加算するＬフォーマットの加算命令（ＡＤＤ：Ｌ）である場合を考える。この場合、２命令間でオペランド干渉があるが、命令１の加算と命令２の加算とを複合演算として行なうことにより２命令を並列に実行できる命令の組み合せである。この場合、ＴＩＮＡＤＤ信号５８６及びＢＹＰＤＳＴ信号５８８が”１”になる。
【０２９４】
各ステージでの具体的な処理の流れを図５４のフローチャートに示す。各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。この例では、命令１がメインＡＬＵ２３１で実行される。また、３値加算器２３７において、命令１と命令２との複合演算である３値の加算が行なわれ、Ｄ２バス１２５を経由してＲ２に演算結果が書き込まれる。
【０２９５】
（５．４．７）「分類Ｂ１の場合の処理」
次に分類Ｂについて説明する。まず、命令１がメモリ／即値オペランドを有しておらず、命令２がメモリ／即値オペランドを有し、オペランド干渉がない分類Ｂ１の場合について説明する。
【０２９６】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ｂ１に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｃ），（ｄ）の３つの場合がある。即ち、命令１の最終デコードサイクルでの処理コード長が２バイトである場合に限られる。これは、本実施例においてはアドレッシングモードをデコードするデコーダが、ＩＩバス１０１上の２バイト目と４バイト目のみにインプリメントされているからである。命令１が後続のメモリ／即値オペランドを有する命令２を並列に実行可能な場合、ＳＥＮＭ信号５０２が”１”になる。また、命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有する命令であった場合には、ＳＶＭ１信号５２２が”１”になる。
【０２９７】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。命令実行に関するオペランド干渉がなければＯＰＣＯＮＦ１信号５７１が”０”になる。また、命令２のＳＰ値を含めアドレス計算で参照するレジスタ値を命令１が更新しなければ、ＯＰＣＯＮＦＡ１信号５７３が”０”になる。命令１の処理コード長が２バイトで、オペランド干渉がなければ、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。またこの場合、命令２に対応してＡコードが生成されるので、Ｉ２ＡＣＤ信号５８２が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０２９８】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、第１ＳＯＰＤＥＣ３０８の出力と２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５の出力に基づいてＡコードを生成する。但し、この場合は命令２に関してＡコードが生成される必要がある。従って、第２ＥＡＤＥＣ３１１の出力と第１ＳＯＰＤＥＣ３０８の出力とに基づいてＡコードが生成される。命令２が拡張データを有する場合には、拡張データ処理部３２で拡張データの切り出し及びＤＩＳＰバス１０２への出力が行なわれる。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０２９９】
Ａステージ４０３以降の処理は、命令２のオペランドについてオペランドアドレス計算あるいはメモリアクセスが行なわれることを除いては、分類Ａ１の処理と全く同じである。
【０３００】
（５．４．８）「分類Ｂ２の場合の処理」
命令１がメモリ／即値オペランドを有しておらず、命令２が命令１の演算結果をメモリにストアする転送命令である分類Ｂ２の場合について説明する。命令１のデスティネーションオペランドのサイズ及び命令２の両オペランドのサイズがワードである場合にのみ、書き込みオペランドのバイパスが可能である。また、命令１は最終マイクロステップでレジスタへ書き込むデータをＤ１バス１２４へ出力する命令であり、且つ命令２はＳフォーマットのストアを行なう転送命令（ＭＯＶ：Ｓ）である場合に限られる。
【０３０１】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ｂ２に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｃ），（ｄ）の３つの場合がある。即ち、命令１の最終デコードサイクルでの処理コード長が２バイトである場合に限られる。命令１が最終マイクロステップでレジスタへ書き込むデータをＤ１バス１２４へ出力し、メモリ／即値オペランドを有しておらず、後続のストア命令を並列に実行可能な場合、ＳＴＥＮ信号５０３が”１”になる。また、命令２がオペランドサイズがワードのメモリへレジスタ値をストアするＳフォーマットの転送命令であった場合には、ＳＴ１信号５２４が”１”になる。
【０３０２】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。命令実行に関するオペランド干渉がなければＯＰＣＯＮＦ１信号５７１が”１”になる。また、命令２のＳＰ値を含めアドレス計算で参照するレジスタ値を命令１が更新しなければ、ＯＰＣＯＮＦＡ１信号５７３が”０”になる。命令１の処理コード長が２バイトで、アドレス計算に関するオペランド干渉がなければ、実行オペランドに関するオペランド干渉があっても２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になると共に、書き込みオペランドのバイパスを行なうことを示すＢＹＰＤ１信号５８９が”１”になる。またこの場合、命令２に対応してＡコードが生成されるのでＩ２ＡＣＤ信号５８２が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。その他の処理は、分類Ａ１の場合と同じである。
【０３０３】
Ａステージ４０３及びＦステージ４０４における処理は、分類Ｂ１の場合と同じである。
【０３０４】
Ｅステージ４０５では、命令１の最終ステップで２つの命令が並列に実行される。分類Ｂ２が分類Ｂ１と異なるのは、オペランドのバイパス処理を行なうことである。命令１の最終マイクロステップでは主演算回路２０８のいずれかの演算器で演算が行なわれ、演算結果がＤ１バス１２４を介して、デスティネーションとして指定されたレジスタに書き込まれる。命令２はこのＤ１バス１２４へ出力された値を、ＤＤＷ２１２を経由してＤＤバス１０７へ出力し、Ｓステージ４０６でこのデータをデータキャッシュ７４あるいは外部メモリの命令２で指定されるアドレス位置に書き込むことにより実行される。
【０３０５】
以下に具体例に即して説明する。命令１がＲ０の値をＲ１に加算するＬフォーマットの加算命令（ＡＤＤ：Ｌ）であり、命令２がＲ１の値をレジスタ相対間接モードで指定されたメモリにストアするＳフォーマットの転送命令（ＭＯＶ：Ｓ）である場合を考える。命令１のメモリオペランドのベースレジスタはＲ１３であり、変位（ディスプレースメント）は”１６”であり、１６ビットの拡張データで指定されるものとする。この場合、２命令間でオペランド干渉があるが、書き込みオペランドのオペランドバイパスを行なうことにより並列に実行可能な命令の組み合せであり、ＢＹＰＤ１信号５８９が”１”になる。
【０３０６】
各ステージでの具体的な処理の流れを図５５のフローチャートに示す。各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。この例では、命令１がメインＡＬＵ２３１で実行され、演算結果がＤ１バス１２４を通じてＲ１に書き込まれると共に、命令２で指定されている処理に対応して、この値がメモリにも書き込まれる。この場合、副演算回路２０７では、有効な処理は行なわれない。
【０３０７】
（５．４．９）「分類Ｂ３の場合の処理」
命令１がメモリ／即値オペランドを有していない３ビット以下の左シフト命令であり、命令２がメモリ／即値オペランドを有し、命令１の演算結果を参照する算術演算／論理演算／比較命令である分類Ｂ３の場合について説明する。命令の組み合せとしては分類Ｂ１のサブセットになる。但し、２命令が並列に実行できるのは、命令１がＱフォーマットの論理シフト命令（ＳＨＬ：Ｑ）であり、デスティネーションオペランドサイズがワードである場合のみである。
【０３０８】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ｂ１に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｃ），（ｄ）の３つの場合がある。即ち、命令１の最終デコードサイクルでの処理コード長が２バイトである場合に限られる。命令１が後続のメモリ／即値オペランドを有する命令２を並列に実行可能な場合、ＳＥＮＭ信号５０２が”１”になる。更に、命令１がデスティネーションがレジスタで、サイズがワードであり、３ビット以下のシフトを行なう場合、ＩＳＦＴ信号５０６が”１”になる。また、命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有する命令であった場合には、ＳＶＭ１信号５２２が”１”になる。更に、命令２がサブＡＬＵ２３４で実行可能な算術演算／論理演算／比較命令であった場合には、ＳＡＬＵ１信号５２６が”１”になる。
【０３０９】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。命令実行に関するオペランド干渉があればＯＰＣＯＮＦ１信号５７１が”１”になる。また、命令２のＳＰ値を含めアドレス計算で参照するレジスタ値を命令１が更新しなければ、ＯＰＣＯＮＦＡ１信号５７３が”０”になる。命令１の処理コード長が２バイトで、オペランド干渉がなければ分類Ｂ１になる。しかしこの場合、命令１の処理コード長が２バイトで、命令２がアドレス計算で参照するオペランドでオペランド干渉がなければ実行オペランド干渉があっても２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、命令２に対応してＡコードを生成するので、Ｉ２ＡＣＤ信号５８２が”１”になる。また、シフト演算とＡＬＵ演算との複合演算を行なうことを示すＳＦＴＡＬＵ信号５８４が”１”になる。更に、命令２のソースオペランドをバイパスする場合にはＢＹＰＳＲＣ信号５８７が、命令２のデスティネーションオペランドをバイパスする場合にはＢＹＰＤＳＴ信号５８８がそれぞれ”１”になる。但し、双方が”１”になる場合もある。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。これらのオペランドバイパスに関する信号もサブＤコードとして出力され、転送されていく。その他の処理は、分類Ａ１の場合と同じである。
【０３１０】
Ａステージ４０３以降の処理は、命令２のオペランドについてオペランドアドレス計算あるいはメモリアクセスが行なわれることを除いては、分類Ａ４の処理と全く同じである。
【０３１１】
（５．４．１０）分類Ｂ４の場合の処理
命令１がメモリ／即値オペランドを有していない算術演算命令であり、命令２がメモリ／即値オペランドを有し、命令１の演算結果を参照する算術演算／比較命令である場合について説明する。命令の組み合せとしては分類Ｂ１のサブセットになる。但し、干渉するオペランドのサイズがワードである場合に限る。
【０３１２】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ｂ１に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ），（ｃ），（ｄ）の３つの場合がある。即ち、命令１の最終デコードサイクルでの処理コード長が２バイトである場合に限られる。命令１が後続のメモリ／即値オペランドを有する命令２を並列に実行可能な場合、ＳＥＮＭ信号５０２が”１”になる。更に、命令１がデスティネーションがレジスタでサイズがワードの３値加算器２３７で実行可能な算術演算命令であった場合には、ＴＡＤＤ信号５０８が”１”になる。また、命令２が副演算回路２０７で１サイクルで実行可能なメモリ／即値オペランドを有する命令であった場合には、ＳＶＭ１信号５２２が”１”になる。更に、命令２がサイズがワードであり、３値加算器２３７で実行可能な算術演算／比較命令であった場合、ＴＡＤＤ１信号５２８が”１”になる。
【０３１３】
オペランド干渉判定部３２３では、命令１が更新するオペランドを命令２が参照するか否かを判定する。命令実行に関するオペランド干渉があればＯＰＣＯＮＦ１信号５７１が”１”になる。また、命令２のＳＰ値を含めアドレス計算で参照するレジスタ値を命令１が更新しなければ、ＯＰＣＯＮＦＡ１信号５７３が”０”になる。命令１の処理コード長が２バイトで、オペランド干渉がなければ分類Ｂ１になる。しかしこの場合、命令１の処理コード長が２バイトで、命令２がアドレス計算で参照するオペランドでオペランド干渉がなければ実行オペランド干渉があっても２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、命令２に対応してＡコードが生成されるので、Ｉ２ＡＣＤ信号５８２が”１”になる。また、３値加算器２３７で２つの算術演算の複合演算を行なうことを示すＴＩＮＡＤＤ信号５８６が”１”になる。更に、命令２のソースオペランドをバイパスする場合にはＢＹＰＳＲＣ信号５８７が、命令２のデスティネーションオペランドをバイパスする場合にはＢＹＰＤＳＴ信号５８８がそれぞれ”１”になる。但し、双方が”１”になる場合もある。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。これらのオペランドバイパスに関する信号もサブＤコードとして出力され、転送されていく。その他の処理は、分類Ａ１の場合と同じである。
【０３１４】
Ａステージ４０３以降の処理は、命令２のオペランドについてオペランドアドレス計算あるいはメモリアクセスが行なわれることを除いては、分類Ａ４の処理と全く同じである。
【０３１５】
（５．４．１１）「分類Ｃ１の場合の処理」
命令１と命令２が共にスタックトップのデータをポップしてレジスタにロードする転送命令である分類Ｃ１の場合について説明する。この２つの命令は、メモリ上の連続領域をアクセスするので、２命令の並列デコードが可能である。命令１，命令２共にデスティネーションがレジスタであるポップ命令（ＰＯＰ）またはソースがポップモードで指定されたＬフォーマットの転送命令（ＭＯＶ：Ｌ）であり、オペランドサイズがワードである場合にのみ、並列実行が可能である。また、命令１がＳＰ値に値をロードしない場合に限られる。
【０３１６】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ｃ１に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ）の場合のみである。命令１が前述のスタックトップのデータをポップしてレジスタにロードする転送命令であり、オペランドサイズがワードであり、ロードするレジスタがＳＰでない場合に、ＰＯＰ信号５０９が”１”になる。また、命令２が前述のスタックトップのデータをポップしてレジスタにロードする転送命令であり、オペランドサイズがワードである場合に、ＰＯＰ１信号５２９が”１”になる。命令１の処理コード長が２バイトの時、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、２ワードの並列転送を行なうので、ＭＯＶ２Ｗ信号５０９が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。
【０３１７】
サブＤコード生成部３１４では、第１ＳＯＰＤＥＣ３０８の出力と、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５またはメインデコーダ３０２の出力に基づいてＡコードを生成する。但し、ＭＯＶ２Ｗ信号５９０が”１”になったことに対応して、オペランドのサイズが８バイトに補正される。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０３１８】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。アドレス計算部５３では、ＡＳＰ２２１の値を参照することによりオペランドアドレスが生成される。また、ＡＳＰ２２１はＡＳＰ加算器２２４により”＋８”だけ補正される。また、命令１及び命令２のレジスタの更新情報がスコアボードレジスタ部５２に登録される。
【０３１９】
Ｆステージ４０４では、命令１の処理に対応するマイクロ命令が読み出され、第１マイクロ命令デコーダ８５で命令１の実行制御情報が生成される。命令２の実行制御情報はサブＲコードをハードワイヤードでデコードすることにより第２マイクロ命令デコーダ８６で生成される。また、オペランドアクセス部１７でオペランドがプリフェッチされる。この場合、オペランドサイズが８バイトであるものとしてオペランドがプリフェッチされる。この８バイトが８バイト境界内にある場合は、キャッシュがヒットすると８バイトのデータが１サイクルでフェッチされる。
【０３２０】
Ｅステージ４０５では、２つの命令が並列に実行される。フェッチされた８バイトのデータの上位４バイトをＳ１バス１０４，ラッチ２３９，メインＡＬＵ２３１，Ｄ１バス１２４を経由してデスティネーションとして指定されたレジスタにロードオペランドとして書き込むことにより、命令１が実行される。フェッチされた８バイトのデータの下位４バイトをＳ３バス１２２，ラッチ２４４，サブＡＬＵ２３４，Ｄ２バス１２５を経由してデスティネーションとして指定されたレジスタにロードオペランドとして書き込むことにより、命令２が実行される。
【０３２１】
以下に具体例に即して説明する。ポップモードでソースオペランドが指定される、デスティネーションオペランドがレジスタであるＬフォーマットの転送命令（ＭＯＶ：Ｌ）が連続する場合を考える。命令１がＲ０に、命令２がＲ１にロードする命令とする。この場合、２命令の並列実行が可能な組み合わせであり、且つ命令１がＳＰ（Ｒ１５）にロードしないので、２命令が並列実行される。またこの場合、命令１の処理コード長が２バイトであるので、第１ＳＯＰＤＥＣ３０８の出力結果に基づいてサブＤコードが生成される。
【０３２２】
各ステージでの具体的な処理の流れを図５６のフローチャートに示す。図５６に示したように、各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。Ａステージ４０３では、ＡＳＰ２２１の値が”＋８”だけ補正される。Ｆステージ４０４では、８バイト（２ワード）のデータがフェッチされる。Ｅステージ４０５では、命令１，命令２で指定されたデスティネーションレジスタに２ワードのデータが並列に転送される。Ａステージ４０３では、更新されたＡＳＰ２２１の値は、パイプライン処理に同期してＥＳＰ２２６あるいはマスタＳＰ２２８へ転送されていく。
【０３２３】
（５．４．１２）「分類Ｃ２の場合の処理」
命令１及び命令２が共にレジスタ上のデータをスタックトップにプッシュする転送命令である分類Ｃ２の場合について説明する。この２つの命令は、メモリ上の連続領域をアクセスするので、２命令の並列デコードが可能である。命令１，命令２共にソースがレジスタであるプッシュ命令（ＰＵＳＨ）またはデスティネーションがプッシュモードで指定されたＳフォーマットの転送命令（ＭＯＶ：Ｓ）であり、オペランドサイズがワードである場合にのみ、並列実行が可能である。また、命令２がＳＰ値をストアしない場合に限られる。
【０３２４】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。分類Ｃ１に対応するＩＩバス１０１上の命令コードの位置としては、図３８の（ｂ）の場合のみである。命令１が前述のレジスタ値をスタックトップにプッシュする転送命令であり、オペランドサイズがワードである場合に、ＰＵＳＨ信号５１０が”１”になる。また、命令２が前述のＳＰ以外のレジスタ値をスタックトップにプッシュする転送命令であり、オペランドサイズがワードである場合に、ＰＵＳＨ１信号５３０が”１”になる。命令１の処理コード長が２バイトの時、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、２ワードの並列転送が行なわれるのでＭＯＶ２Ｗ信号５０９が”１”になると共に、２ワードのプッシュを行なうことを示すＰＵＳＨ２Ｗ信号５９１が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０３２５】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、第１ＳＯＰＤＥＣ３０８の出力と、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５またはメインデコーダ３０２の出力に基づいてＡコードを生成する。但し、ＭＯＶ２Ｗ信号５９０が”１”になったことに対応して、オペランドのサイズが８バイトに補正される。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０３２６】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。アドレス計算部５３では、ＡＳＰ２２１の値を参照し、”８”デクリメントすることによりオペランドアドレスが生成される。また、ＡＳＰ２２１はＡＳＰ加算器２２４により”−８”だけ補正される。
【０３２７】
Ｆステージ４０４では、命令１の処理に対応するマイクロ命令が読み出され、第１マイクロ命令デコーダ８５で命令１の実行制御情報が生成される。命令２の実行制御情報はサブＲコードをハードワイヤードでデコードすることにより第２マイクロ命令デコーダ８６で生成される。
【０３２８】
Ｅステージ４０５では、２つの命令が並列に実行される。命令１でプッシュするデータがレジスタファイル２０５から、Ｓ１バス１０４，ラッチ２３９，メインＡＬＵ２３１，Ｄ１バス１２４を経由してＤＤＷ２１２へ転送される。命令２でプッシュするデータがレジスタファイル２０５から、Ｓ３バス１２２，ラッチ２４４，サブＡＬＵ２３４，Ｄ２バス１２５を経由してＤＤＷ２１２へ転送される。この場合、連続するプッシュ命令を処理するので、ＰＵＳＨ２Ｗ信号５９１が”１”になったことに対応して、命令２でストアするデータが上位に、命令１でストアするデータが下位になるようにＤＤＷ２１２内の整置回路で整置及び連結を行なってストアすべき８バイトデータが生成されてＤＤバス１０７を経由してオペランドアクセス部１７へ転送される。Ｓステージ４０６では、このデータがデータキャッシュ７４あるいは外部メモリの命令２で指定されるアドレス位置に書き込まれる。この８バイトが８バイト境界内にある場合、ストアバッファへの登録は１サイクルで終了する。
【０３２９】
以下に具体例に即して説明する。デスティネーションがプッシュモードで指定されるＳフォーマットの転送命令（ＭＯＶ：Ｓ）が連続する場合を考える。命令１がＲ０を、命令２がＲ１をプッシュする命令とする。この場合、２命令の並列実行が可能な組み合わせであり、且つ命令２がＳＰ（Ｒ１５）値をプッシュしないので、２命令が並列実行される。またこの場合、命令１の処理コード長が２バイトであるので、第１ＳＯＰＤＥＣ３０８の出力結果に基づいてサブＤコードが生成される。
【０３３０】
各ステージでの具体的な処理の流れを図５７のフローチャートに示す。図５７に示したように、各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。Ａステージ４０３では、アドレス計算部５３でＡＳＰ２２１の値を”８”デクリメントすることにより、オペランドアドレスを計算し、ＡＳＰ２２１の値が”−８”だけ補正される。Ｅステージ４０５では、命令１，命令２でソースとして指定されたレジスタ値を転送し、Ｓステージでは、連結された８バイトデータをデータキャッシュ７４あるいは外部メモリに書き込む。Ａステージ４０３では、更新されたＡＳＰ２２１の値がパイプライン処理に同期してＥＳＰ２２６あるいはマスタＳＰ２２８へ転送されていく。
【０３３１】
（５．４．１３）「分類Ｃ３の場合の処理」
命令１と命令２が共にレジスタ間接／レジスタ相対間接モードでソースオペランドが指定され、レジスタにロードする転送命令である分類Ｃ３の場合について説明する。この２つの命令がメモリ上の連続領域をアクセスする場合には、２命令の並列デコードが可能である。命令１，命令２が共にＬフォーマットの転送命令（ＭＯＶ：Ｌ）であり、オペランドサイズがワードである場合にのみ、並列実行が可能である。大きく分けて２つの場合に並列実行が可能である。並列実行が可能な２つの場合の命令コードを図５８の模式図に示す。
【０３３２】
一方は参照符号（ａ）に示されているように、命令１がレジスタ間接モードであり、命令２が１６ビット変位のレジスタ相対間接モードである場合である。並列実行が可能な条件は、命令１のオペランドアドレス計算時のベースレジスタ５０２と命令２のベースレジスタ５０３とが同じで、命令２のディスプレースメント（変位）５０４の値が”４”であり、命令１が更新するレジスタ５０１が命令２のアドレス計算のベースアドレスレジスタ５０３とは異なることである。この場合は、命令１が２バイトである。
【０３３３】
他方は参照符号（ｂ）に示されているように、命令１及び命令２が共に１６ビット変位のレジスタ相対間接モードである場合である。並列実行が可能な条件は、命令１のオペランドアドレス計算時のベースレジスタ５０６と命令２のベースレジスタ５０８とが同じで、命令２のディスプレースメント（変位）５０９の値が命令１のディスプレースメント（変位）５０７の値より”４”だけ大きく、命令１が更新するレジスタ５０５が命令２のアドレス計算のベースアドレスレジスタ５０８とは異なることである。この場合は、命令１が４バイトである。
【０３３４】
まず、命令１がレジスタ間接モードのロード命令である場合について説明する。
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。命令１が前述のレジスタ間接モードのロード命令であり、オペランドサイズがワードである場合に、ＲＩＬＤ信号５１１が”１”になる。また、命令２が前述のレジスタ相対間接モードのロード命令であり、オペランドサイズがワードである場合に、ＲＩＬＤ１信号５３１が”１”になる。更に、命令１及び命令２のアドレス計算に使用されるベースレジスタが一致する場合にはＭＴＲ１Ｒ２信号５５４が”１”になり、アドレス計算で参照されるレジスタを命令１が更新しない場合にはＭＴＬ１Ｒ２信号５５４が”０”になり、命令１のディスプレースメント値が”４”である場合にはＤＩＳＰ１信号５６１が”１”になる。命令１の処理コード長が２バイトで上述の条件がすべて成立する場合には、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、２ワードの並列転送が行なわれるので、ＭＯＶ２Ｗ信号５０９が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０３３５】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、第１ＳＯＰＤＥＣ３０８の出力と、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５の出力に基づいてＡコードを生成する。但し、ＭＯＶ２Ｗ信号５９０が”１”になったことに対応して、オペランドのサイズが８バイトに補正される。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０３３６】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。アドレス計算部５３では、ベースアドレス値を参照してそのまま転送することによりオペランドアドレスが生成される。また、命令１及び命令２のレジスタの更新情報がスコアボードレジスタ部５２に登録される。
【０３３７】
次に、命令１がレジスタ相対間接モードのロード命令である場合について説明する。
【０３３８】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。命令１が前述のレジスタ相対間接モードのロード命令であり、オペランドサイズがワードである場合に、ＲＩＬＤ信号５１１が”１”になる。また、命令２が前述のレジスタ相対間接モードのロード命令であり、オペランドサイズがワードである場合に、ＲＩＬＤ２信号５４６が”１”になる。更に、命令１及び命令２のアドレス計算に使用されるベースレジスタが一致する場合にはＭＴＲ１Ｒ３信号５５８が”１”になり、アドレス計算で参照されるレジスタを命令１が更新しない場合にはＭＴＬ１Ｒ３信号５５６が”０”になり、命令２のディスプレースメント値が”命令１のディスプレースメント値＋４”である場合にはＤＩＳＰ２信号５６２が”１”になる。命令１の処理コード長が４バイトで上述の条件がすべて成立する場合には、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、２ワードの並列転送を行なうので、ＭＯＶ２Ｗ信号５０９が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０３３９】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、第２ＳＯＰＤＥＣ３０９の出力と、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５の出力に基づいてＡコードを生成する。但し、ＭＯＶ２Ｗ信号５９０が”１”になったことに対応して、オペランドのサイズが８バイトに補正される。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０３４０】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。アドレス計算部５３では、ベースアドレス値と命令１のディスプレースメント値を加算することによりオペランドアドレスが生成される。また、命令１及び命令２のレジスタの更新情報がスコアボードレジスタ部５２に登録される。
【０３４１】
以下の処理は、双方の場合で同じである。
Ｆステージ４０４では、命令１の処理に対応するマイクロ命令が読み出され、第１マイクロ命令デコーダ８５で命令１の実行制御情報が生成される。命令２の実行制御情報はサブＲコードをハードワイヤードでデコードすることにより第２マイクロ命令デコーダ８６で生成される。また、オペランドアクセス部１７でオペランドがプリフェッチされる。この場合、オペランドサイズが８バイトであるものとして、オペランドがプリフェッチされる。この８バイトが８バイト境界内にある場合、キャッシュがヒットすると８バイトのデータが１サイクルでフェッチされる。
【０３４２】
Ｅステージ４０５では、２つの命令が並列に実行される。フェッチされた８バイトのデータの上位４バイトをＳ１バス１０４，ラッチ２３９，メインＡＬＵ２３１，Ｄ１バス１２４を経由してデスティネーションとして指定されたレジスタにロードオペランドとして書き込むことにより、命令１が実行される。フェッチされた８バイトのデータの下位４バイトをＳ３バス１２２，ラッチ２４４，サブＡＬＵ２３４，Ｄ２バス１２５を経由してデスティネーションとして指定されたレジスタにロードオペランドとして書き込むことにより、命令２が実行される。
【０３４３】
以下に具体例に即して説明する。ここでは命令１及び命令２が共にレジスタ相対間接モードのＬフォーマットの転送命令（ＭＯＶ：Ｌ）である場合を考える。命令１がＲ１３の値に”１６”（ディスプレースメント値）を加えたアドレスのデータをＲ０へ転送し、命令２がＲ１３の値に”２０”（ディスプレースメント値）を加えたアドレスのデータをＲ１へ転送する命令とする。この場合、２命令の並列実行が可能な組み合わせであり、且つ命令１がＲ１３にロードしないので、２命令が並列実行される。またこの場合、命令１の処理コード長が４バイトであるので、第２ＳＯＰＤＥＣ３０９の出力結果に基づいてサブＤコードが生成される。
【０３４４】
各ステージでの具体的な処理の流れを図５９のフローチャートに示す。図５９に示したように、各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。Ａステージ４０３では、命令１に関するオペランドのアドレスが計算される。Ｆステージ４０４で８バイト（２ワード）のデータがフェッチされ、Ｅステージ４０５で命令１，命令２で指定されたデスティネーションレジスタに２ワードのデータが並列に転送される。
【０３４５】
（５．４．１４）「分類Ｃ４の場合の処理」
命令１と命令２がレジスタ間接／レジスタ相対間接モードでデスティネーションオペランドが指定され、レジスタの値をストアする転送命令である分類Ｃ４の場合について説明する。この２つの命令がメモリ上の連続領域をアクセスする場合には、２命令の並列デコードが可能である。命令１，命令２は共にＳフォーマットの転送命令（ＭＯＶ：Ｓ）であり、オペランドサイズがワードである場合にのみ、並列実行が可能である。上述のレジスタへのロードを行なう場合と同様に、大きく分けて２つの場合に並列実行が可能である。並列実行が可能な２つの場合の命令コードは、オペレーションコードは当然異なるが、各フィールドのビット位置は図５６の模式図に示したロードの場合と同じである。
【０３４６】
一方は参照符号（ａ）に示されているように、命令１がレジスタ間接モードであり、命令２が１６ビット変位のレジスタ相対間接モードである場合である。並列実行が可能な条件は、命令１のオペランドアドレス計算時のベースレジスタ５０２と命令２のベースレジスタ５０３とが同じで、命令２のディスプレースメント（変位）５０４の値が”４”であり、命令１が更新するレジスタ５０１が命令２のアドレス計算のベースアドレスレジスタ５０３とは異なることである。この場合は、命令１が２バイトである。
【０３４７】
他方は参照符号（ｂ）に示されているように、命令１及び命令２が共に１６ビット変位のレジスタ相対間接モードである場合である。並列実行が可能な条件は、命令１のオペランドアドレス計算時のベースレジスタ５０６と命令２のベースレジスタ５０８が同じで、命令２のディスプレースメント（変位）５０９の値が命令１のディスプレースメント（変位）５０７の値より”４”だけ大きいことである。この場合は、命令１が４バイトである。
【０３４８】
まず、命令１がレジスタ間接モードのストア命令である場合について説明する。
【０３４９】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。命令１が前述のレジスタ間接モードのストア命令であり、オペランドサイズがワードである場合に、ＲＩＳＴ信号５１２が”１”になる。また、命令２が前述のレジスタ相対間接モードのストア命令であり、オペランドサイズがワードである場合に、ＲＩＳＴ１信号５３２が”１”になる。更に、命令１及び命令２のアドレス計算に使用されるベースレジスタが一致する場合にはＭＴＲ１Ｒ２信号５５４が”１”になり、命令１のディスプレースメント値が”４”である場合にはＤＩＳＰ１信号５６１が”１”になる。命令１の処理コード長が２バイトで上述の条件がすべて成立する場合には、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、２ワードの並列転送が行なわれるので、ＭＯＶ２Ｗ信号５０９が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０３５０】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、第１ＳＯＰＤＥＣ３０８の出力と、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５の出力に基づいてＡコードを生成する。但し、ＭＯＶ２Ｗ信号５９０が”１”になったことに対応して、オペランドのサイズが８バイトに補正される。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０３５１】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。アドレス計算部５３では、ベースアドレス値を参照しそのまま転送することによりオペランドアドレスの生成が行なわれる。
【０３５２】
次に、命令１がレジスタ相対間接モードのストア命令である場合について説明する。
【０３５３】
Ｄステージ４０２において、２命令の並列デコードと並列実行可否判定とが行なわれる。命令１が前述のレジスタ相対間接モードのストア命令であり、オペランドサイズがワードである場合に、ＲＩＳＴ信号５１２が”１”になる。また、命令２が前述のレジスタ相対間接モードのロード命令であり、オペランドサイズがワードである場合に、ＲＩＳＴ２信号５４７が”１”になる。更に、命令１と命令２との双方のアドレス計算に使用されるベースレジスタが一致する場合にはＭＴＲ１Ｒ３信号５５８が”１”になり、命令２のディスプレースメント値が、”命令１のディスプレースメント値＋４”である場合にはＤＩＳＰ２信号５６２が”１”になる。命令１の処理コード長が４バイトで上述の条件がすべて成立する場合には、２命令並列実行が可能であると判断されてＳＶＡＬＩＤ信号５８１が”１”になる。この場合、２ワードの並列転送が行なわれるので、ＭＯＶ２Ｗ信号５０９が”１”になる。サブコード有効判定部３２４で生成されるその他の信号はすべて”０”になる。
【０３５４】
メインＤコード生成部３１３では、メインデコーダ３０２の出力に基づいてメインＤコードを生成する。サブＤコード生成部３１４では、第２ＳＯＰＤＥＣ３０９の出力と、２命令並列デコード可否判定部３０３からの出力信号とをあわせてサブＤコードを生成する。Ａコード生成部３０７では、アドレッシングモードデコーダ３０５の出力に基づいてＡコードを生成する。但し、ＭＯＶ２Ｗ信号５９０が”１”になったことに対応して、オペランドのサイズが８バイトに補正される。このようにして、２命令が並列にデコード可能であると判断された場合、２つの命令のデコード結果が同時に出力される。
【０３５５】
Ａステージ４０３では、Ａステージデコーダ３４で命令１の後段デコードが行なわれ、命令２のデコード結果であるサブＤコードはサブコード転送部３５により転送される。アドレス計算部５３では、ベースアドレス値と命令１のディスプレースメント値を加算することによりオペランドアドレスが生成される。
【０３５６】
以下の処理は、双方の場合で同じである。
Ｆステージ４０４では、命令１の処理に対応するマイクロ命令が読み出され、第１マイクロ命令デコーダ８５で命令１の実行制御情報が生成される。命令２の実行制御情報はサブＲコードをハードワイヤードでデコードすることにより第２マイクロ命令デコーダ８６で生成される。
【０３５７】
Ｅステージ４０５では、２つの命令が並列に実行される。命令１でストアするデータがレジスタファイル２０５から、Ｓ１バス１０４，ラッチ２３９，メインＡＬＵ２３１，Ｄ１バス１２４を経由してＤＤＷ２１２へ転送される。命令２でストアするデータがレジスタファイル２０５から、Ｓ３バス１２２，ラッチ２４４，サブＡＬＵ２３４，Ｄ２バス１２５を経由してＤＤＷ２１２へ転送される。この場合、ＰＵＳＨ２Ｗ信号５９１は”０”であるので、命令１でストアするデータが上位に、命令２でストアするデータが下位になるようにＤＤＷ２１２内の整置回路で整置及び連結が行なわれてストアすべき８バイトデータが生成され、ＤＤバス１０７を経由してオペランドアクセス部１７へ転送される。Ｓステージ４０６では、このデータをデータキャッシュ７４あるいは外部メモリの命令２で指定されるアドレス位置に書き込む。この８バイトが８バイト境界内にある場合、ストアバッファへの登録は１サイクルで終了する。
【０３５８】
以下に具体例に即して説明する。ここでは命令１がレジスタ間接モードで、命令２がレジスタ相対間接モードのＳフォーマットの転送命令（ＭＯＶ：Ｓ）である場合を考える。命令１がＲ１３の値に”１６”（ディスプレースメント値）を加えたアドレスのメモリにＲ０のデータを転送し、命令２がＲ１３の値に”２０”（ディスプレースメント値）を加えたアドレスのメモリにＲ１のデータを転送する命令であるとする。この場合、２命令の並列実行が可能な組み合わせであり、２命令が並列実行される。この場合、命令１の処理コード長が２バイトであるので、第１ＳＯＰＤＥＣ３０８の出力結果に基づいてサブＤコードが生成される。
【０３５９】
各ステージでの具体的な処理の流れを図６０のフローチャートに示す。図６０に示したように、各パイプラインステージで２つの命令が並列に処理され、Ｅステージ４０５で並列に実行される。Ａステージ４０３では、命令１に関するオペランドのアドレスが計算される。Ｅステージ４０５では、命令１，命令２でソースとして指定されたレジスタ値を転送する。Ｓステージでは、連結された８バイトデータをデータキャッシュ７４あるいは外部メモリに書き込む。
【０３６０】
以上では各論を述べたが、２命令並列デコード可否判定部３０３ではメインデコーダ３０２における命令１のデコード結果とサブデコーダ３０４における命令２のデコード結果とに基づいて、上述のすべての場合の２命令の並列デコードの可否が総合的に判定される。メインデコーダ３０２あるいはサブデコーダ３０８からは、種々の命令の組み合せを判定できるように同じ命令に関して複数の並列デコード可否判定のための制御信号が”１”になる場合がある。しかし、同時に複数の分類に含まれて誤動作することがないように、制御信号の生成に制限を加える等の対策を講じて、誤動作を防いでいる。
【０３６１】
このように本発明のデータ処理装置では、オペランド干渉のある複数の命令に関しても、多くの組み合せについて並列に実行できるので、データ処理装置の性能を向上させることができる。シフト命令と他の命令とを実行する際には、シフト可能なシフト幅をあらかじめ定められた特定の値のみに限定しているので、少ないハードウェア量の追加で、高速な処理が可能となっている。算術演算同士の並列実行では３値加算器を用いることにより、高速な２命令の並列実行が可能となっている。転送命令は使用頻度が非常に高く、オペランド干渉のある２命令の少なくとも一方が転送命令である場合の並列実行は、性能向上において非常に有効である。
【０３６２】
また、メモリアクセスを行なう２命令では、命令デコード段階で判定できる連続領域をアクセスする命令を並列に実行する。ハードウェアとしてはアクセスするデータ幅を増加するのみで対処でき、キャッシュ等のＲＡＭを２ポートにしたりあるいはインタリーブを行なう必要はないので、簡単な制御でかつ小さな面積（コスト）の増加で性能を向上できる。また、キャッシュのセンスアンプの数も削減できるので消費電力の削減にも有効である。サブルーチンコール時のレジスタ値の退避，復帰等の連続領域のアクセスを行なう場合には非常に有効である。
【０３６３】
（６）「他の変形例」
上述の実施例では、算術／論理演算命令とシフト命令とを並列に実行する場合、シフトカウント値が１〜３ビットの左シフトである場合にのみ制限しているが、チップ面積，動作速度が許す限りいくつにしてもよい。たとえば、−８， −１乃至−３，１乃至３，８程度のシフトを行なうようにしてもよい（但し、”−”は右シフトを示す）。
【０３６４】
上述の実施例では、算術／論理演算命令とシフト命令とを並列に実行するために、出力シフタ２３６をサブＡＬＵ２３４の出力に結合しているが、たとえばメインＡＬＵ２３１の出力に接続してもよい。
【０３６５】
上述の実施例では、入力シフタ２３５をサブＡＬＵ２３４の双方に結合しているが、ソースまたはデスティネーションのいずれか一方のみの場合に２命令の並列実行を可能にするのであれば、いずれか一方に結合するのみでよい。また、サブＡＬＵ２３４の入力シフタ２３５と出力シフタ２３６とのいずれか一方のみをインプリメントしてもよいし、１つのシフタを切り替えて使用するような構成にしてもよい。また、必ずしもサブシフタ２３８をインプリメントする必要はなく、シフト幅は限定されるが、入力シフタ２３５または出力シフタ２３６のいずれか一方を用いて、それで実行可能な場合のみシフト命令を後続命令として発行できるようにしてもよい。
【０３６６】
上述の実施例では、サブＡＬＵ２３４とは独立に３入力加算器２３７を設けているが、タイミング的に問題がなければ、サブＡＬＵ２３４に３値加算機能を付加し、３入力加算器２３７を削除してもよい。
【０３６７】
上述の実施例では、３入力加算器２３７により、算術演算命令と算術演算命令との組み合せのみ複合演算を行なっているが、３入力加算器２３７に論理演算機能を付加したり、あるいは別途３入力論理演算器を設けることにより、論理演算命令と論理演算命令との組み合せを並列に実行するようにしてもよい。但しこの場合は制御信号の生成も変更する必要がある。論理演算と算術演算との複合演算を行なわないのであれば、たとえば論理演算と論理演算との組み合せを判定するためのメインデコーダ３０２あるいはサブデコーダ３０８からの制御信号を追加し、サブコード有効判定部３２４で判定項目を増やせばよい。また、ビットセット，ビットクリア，ビット反転命令も基本的には論理演算を行なうことにより実現できる。ビット操作命令を並列実行の処理対象とすることも当然可能である。
【０３６８】
上述の実施例では、オペランド干渉時には一方の命令のみが実行されるので、一方の演算器では意味のないオペレーションを行なっている場合もあるが、そのような場合消費電力を削減するためにその演算器が動作しないように制御してもよい。また、２命令の複合演算を行なう場合、命令１の演算は主演算回路２０８で行なっているが、副演算回路２０７での複合演算の中間結果（命令１の演算結果）をバスへ出力するようにしてもよい。
【０３６９】
上述の実施例では、２つの２オペランド演算命令が実行できるようなハードウェア構成をとっているが、一方の命令が１オペランド演算命令である場合にのみ限定した場合には３値加算器２３７及び別途付加した２つの論理演算命令を行なうための複合論理演算回路入力ポートを２つに削減することが可能である。１オペランド演算命令としては、データの”０”／”１”反転を行なう命令、あるいは２の補数をとる（符号を反転する）命令等がある。
【０３７０】
更に、命令１と命令２との複合演算を行なう際に、上記実施例では命令１のデスティネーションオペランドと命令２のデスティネーションオペランドとが同じレジスタである場合にも、命令１の演算を行なっている。このような場合、もし演算命令でフラグを更新しない命令を含む命令セットを処理するのであれば、命令１の演算は行なう必要はなく、命令１と命令２との複合演算のみを行なって演算結果をデスティネーションオペランドに書き戻せばよい。更に、命令１及び命令２のデスティネーションオペランドが同じ場合のみ２命令の並列実行を行なうのであれば、演算器にオペランドの値を転送するためのバスの本数も、演算結果をレジスタファイル等へ転送するバスの本数も削減できる。また、命令１のデスティネーションオペランドと命令２のデスティネーションオペランドとが異なっても、命令２が比較命令であれば、命令２の演算結果を転送する必要がないので演算結果をレジスタファイル等へ転送するバスの本数は削減できる。
【０３７１】
また、ストアオペランドのバイパスを行なう際には、主演算回路２０８からＤ１バス１２４へ出力された値を参照してバイパスしているが、主演算回路２０８からＤ２バス１２５にも出力するようにしてもよいし、主演算回路２０８で行なうのと同じオペレーションを副演算回路２０７で行ない、副演算回路２０７での演算結果をＤ２バス１２５にも出力するように制御してもよい。構成によっては、多少並列実行できる命令の組み合せが少なくなる可能性もある。
【０３７２】
上述の実施例では、２つのメモリオペランドを有する２命令の並列実行を行なうのは、２つの命令が共にロード命令であるか、または２つの命令が共にストア命令である場合のみに限られているが、２つの命令が連続したメモリ領域のリードモディファイライトオペランドを有する場合に２命令の並列実行を行なってもよい。
【０３７３】
上述の実施例では、２つのメモリオペランドを有する２命令の並列実行を行なうのは、２つのオペランドのサイズがワード（この場合は４バイト）である場合に限っていたが、他のアクセスサイズに対処可能にすることは容易である。また、プッシュ命令が連続する場合を除いては命令１のメモリオペランド格納位置が命令２のメモリオペランド格納位置よりアドレスが小さい場合のみ対処していたが、逆の場合に対処できるようにしてもよい。また、上記実施例では命令１がレジスタ相対間接モードであり、命令２がレジスタ間接モードである場合は対象としていないが、このような場合も並列に実行できるようにしてもよい。また、オペランドデータは６４ビットのＤＤバス１０７で整置された８バイトデータ単位で転送しているが、ＤＤバス１０７の上位３２ビットと下位３２ビットとを独立に扱えるようにし、キャッシュの１ラインであれば、８バイト整置されていないデータも１サイクルで転送できるようにしてもよい。この場合、ハードウェアは多少増加するが２つのメモリオペランドを１サイクルで転送できる確率が向上するので性能は向上する。
【０３７４】
上述の実施例では、データキャッシュは１つのアドレスに対して１ラインのみのアクセスが行なわれる。従って、たとえキャッシュがヒットしてもアクセス対象のデータのすべてがキャッシュの１ラインに入っていなければ１サイクルでアクセスすることは出来ない。しかし、キャッシュの１ラインの境界をまたぐアクセスも１サイクルで実行できるデータ処理装置も存在する。たとえば、キャッシュを２分割し、そのそれぞれにアドレスデコーダを備え、境界をまたぐ場合には先頭アドレスを含むアドレスで一方をアクセスし、インクリメンタによりそのアドレスを”１”インクリメントしたアドレスで他方をアクセスすることにより、キャッシュの２ラインにまたがるオペランドデータを１サイクルでアクセスするデータ処理装置もある。また、キャッシュを複数のバンクに分割し、異なるバンクであれば１サイクルでアクセスできるものもある。本発明は実施例に示したキャッシュの構成に対してハードウェアコストを削減する上で特に有効であるが、性能を向上するためにキャッシュを他の構成とした場合にも当然有効である。要するに、命令デコード段階で１サイクルでアクセス可能か否かを判定し、１サイクルで実行できる場合あるいはその可能性が高い場合にメモリアクセスを行なう２命令を並列に発行して処理すればよいのである。ＲＩＳＣのように、データが必ずワード境界にのっている場合には特に有効である。通常、ＣＩＳＣでもコンパイラ等でデータを整置するので、このような手法は有効である。
【０３７５】
また上記実施例では、命令キャッシュを備えているが、内部データＲＡＭを備えてもよい。また、必ずしも内部にメモリを有する必要はなく、必ず外部にアクセスする場合にも有効である。この場合、２ワード分の外部バスを有する方が有効である。少なくともオペランドアクセス部またはバスインタフェイス部と演算部とが２ワードのデータを並列に実行する手段を備えていれば、２つのメモリオペランドを有する命令を並列に処理するのに有効である。ストアに関してはストアバッファで吸収すればよいが、フェッチに関しては２ワードを並列に１回の処理でアクセスして転送する方が効率がよい。但し、外部データバス幅が１ワード分であっても、２ワードを一度にアクセスすることにより１ワードを２回アクセスするよりも少ないサイクル数でアクセスできれば、本発明のような処理方法は有効である。たとえば、１ワードのアクセスであれば１つのアドレスに対して１つのデータを転送する単一転送を行なうが、２ワードのアクセスであれば１つのアドレスに対して複数のデータを転送するバースト転送を行なう場合には、内部にメモリがなく、外部バスがワード分であっても有効である。
【０３７６】
上述の実施例では、並列に実行されるのは２命令であったが、３命令以上の複数の命令を並列に実行することも可能である。
【０３７７】
上述の実施例では、並列にデコードされた２つの命令を並列に実行する場合について説明している。データ処理装置には、１命令づつデコードしてパイプラインが詰まった場合のみ２つの命令を並列に実行するものもある。また、ＩＢＭとＭｏｔｏｌｏｒａ社のＰｏｗｅｒＰＣ６０３のように、複数の命令を並列にデコードし、デコードされた命令を複数の独立に実行可能な実行ユニットに発行するようなデータ処理装置もある。この場合、並列にデコードされたか否かには拘わらず、複数の命令を並列に実行することが可能である。本発明は、並列にデコードされた２命令のみを並列に実行する場合のみならず、上述のような種々のパイプライン処理を行なうデータ処理装置に対処可能である。命令デコード後に２命令を並列実行するか否かを判定する場合には、上記実施例でデコード段階での判定に必要な情報を命令に付随して転送し、命令実行以前の任意のパイプラインステージで複数の命令間の並列実行可／不可判定を行なえばよい。
【０３７８】
上述の実施例では、ＣＩＳＣタイプの命令セットを扱っているが、もちろんＲＩＳＣタイプの命令セットを有するデータ処理装置に適応することも可能である。また上述の実施例では、命令の実行を１段のパイプラインステージで行なっているが、複数のパイプラインステージに分割して処理を行なうようにしてもよい。
【０３７９】
このように、本発明は実施例で示した構成に限定されるものではなく、オペランド干渉のある複数の命令を並列に実行したり、メモリオペランドを有する複数の命令を並列に実行する場合に有効である。複数命令の並列実行を行なう命令の組み合せ及びハードウェア構成は、ターゲットとなる仕様や価格性能比に基づいて決定すればよい。本発明は、種々のハードウェア構成に対して有効である。
【０３８０】
〔実施例２〕
上述の実施例では、種々の組み合せの２命令を並列に実行するために、多くのハードウェアを必要としている。しかし、並列に実行可能な命令の組み合せを限定すれば、必要なハードウェア量は削減できる。どのような組み合せの２命令を並列実行の対象とするかは、性能とハードウェアコストとにより決定すればよい。以下に、並列に実行できる命令の組み合せを限定した例を示す。
【０３８１】
本実施例では、オペランド干渉のある２命令のみを実行する。更に、本実施例では命令２が転送命令である場合を除き、命令１のデスティネーションオペランドと命令２のデスティネーションオペランドとが干渉した場合にのみ２命令を並列実行する。また、２つの算術演算命令の実行に際しては、一方の命令は小さな即値の加減算を行なう場合のみを処理対象とする。処理対象が異なるため、命令デコードを含むハードウェアの構成は実施例１とは当然異なるが、基本的な処理内容は実施例１と同じであるのでパイプラインの前段での処理に関する説明を省略する。但し、ここでは通常の演算命令に関してフラグの更新を行なわないか、あるいは命令２の実行結果のみをフラグに反映させればよい場合を想定する。
【０３８２】
全体のブロック構成は、図２６に示した実施例１のブロック構成とほぼ同じである。実施例２の整数演算部の構成例を図６２のブロック図に示す。説明を簡単化するため、一部のブロックは省略している。図３４，図６１に示した実施例１の整数演算部１６と比べてバスの本数も少なく、演算器のハードウェア量も大幅に削減されている。整数演算部は、演算回路６０１，レジスタファイル６０２，ＳＰ部６０３，メモリアドレスレジスタ部６０４，メモリデータレジスタ部６０５等で構成されており、Ｓ１バス６２１，Ｓ２バス６２２，Ｄ１バス６２３で各部が接続されている。ここでは、２ワードのデータを並列に転送することは考えられておらず、ＤＤバス６２６は３２ビット幅である。
【０３８３】
演算回路６０１は３入力ＡＬＵ６１０及びシフタ６１４等を含む。更に、３入力ＡＬＵ６１０の入力の一つには入力シフタ６０７が、出力には出力シフタ６１１が直列にそれぞれ接続されている。６０６，６０８，６０９，６１２，６１３はラッチである。また、レジスタファイル６０２またはＳＰ部６０３の各レジスタは、Ｄ１バス６２３に結合された入力ポートを有し、同時に２つのレジスタにＤ１バス６２３上の値を書き込む機能を有する。
【０３８４】
図示していないが命令デコード部では、以下の場合のみ２命令が並列にデコードされ、発行される（実施例１の分類に従う）。
【０３８５】
・分類Ａ２
・分類Ａ３
・分類Ｂ２
・分類Ａ４またはＢ３で命令２が算術／論理演算命令で命令１のデスティネー
ションオペランドと命令２のデスティネーションオペランドとが一致
・分類Ａ５で命令１のデスティネーションオペランドと命令２のデスティネー
ションオペランドとが一致
・分類Ａ６またはＢ４で一方が即値加減算命令（ＱフォーマットのＡＤＤ，ＳＵＢ命令）で命令１のデスティネーションオペランドと命令２のデスティネーションオペランドとが一致
【０３８６】
２命令を並列に実行する場合の、Ｑフォーマットのシフト命令及び加減算命令の即値は４ビットのリニアな値に変換され、命令実行時にラッチ６０６及び入力シフタ６０７へ転送される。以下、実施例１で分類した各場合について命令の並列実行の詳細を説明する。
【０３８７】
まず、分類Ａ３について説明する。この場合、命令１はレジスタに値を書き込む演算，転送命令であり、命令２は命令１の実行結果を転送するレジスタ間転送命令である。命令１は転送命令の場合も含み演算回路６０１のいずれかの演算器で処理され、演算結果がＤ１バス６２３を介してレジスタファイル６０２またはＳＰ部６０３の命令１のデスティネーションとして指定されたレジスタに書き込まれる。更に、この場合Ｄ１バス６２３上の値はレジスタファイル６０２またはＳＰ部６０３の命令２のデスティネーションとして指定されたレジスタにも並列に書き込まれる。
【０３８８】
分類Ｂ２は、命令１はレジスタに値を書き込む演算，転送命令であり、命令２は命令１の実行結果を転送するストア命令の場合である。命令１は転送命令の場合も含み演算回路６０１のいずれかの演算器で処理され、演算結果がＤ１バス６２３を介してレジスタファイル６０２またはＳＰ部６０３の命令１のデスティネーションとして指定されたレジスタに書き込まれる。更に、この場合Ｄ１バス６２３上の値はメモリデータレジスタ部６０５にも並列に書き込まれ、ＤＤバス６２６を介してオペランドアクセス部に転送され、キャッシュ及びメモリに書き込まれる。
【０３８９】
分類Ａ４，Ｂ３の内で並列実行が可能なのは、命令１が３ビット以下のシフト命令であり、命令２が命令１のシフト結果をデスティネーションオペランドとする算術／論理演算命令の場合である。命令１のシフト処理は入力シフタ６０７で行なわれる。命令１のデスティネーションオペランドがレジスタファイル６０２等から読み出され、Ｓ２バス６２２を介して入力シフタ６０７に取り込まれる。シフト量は即値として入力され、シフト結果が入力ラッチ６０９へ出力される。３入力ＡＬＵ６１０では、命令２の算術／論理演算が実行される。命令２のソースオペランドがレジスタファイル６０２あるいはメモリデータレジスタ部６０５等から読み出されてＳ１バス６２１を介して入力ラッチ６０８に取り込まれ、シフト結果を保持している入力ラッチ６０９の値と演算が行なわれる。この場合、ラッチ６０６からの入力は無視される。たとえば算術演算命令の場合にはゼロが入力される。演算結果は、Ｄ１バス６２３を介して、命令２のデスティネーションオペランドとして指定されたレジスタに書き込まれる。
【０３９０】
分類Ａ５は、命令１が算術／論理演算命令で、命令２が３ビット以下の左シフト命令であるが、このうち並列実行が可能なのは命令２が命令１の演算結果をデスティネーションオペランドとするシフト命令の場合である。命令１のソースオペランドがレジスタファイル６０２やメモリデータレジスタ部６０５等から読み出され、Ｓ１バス６２１を介して入力ラッチ６０８に取り込まれ、デスティネーションオペランドがレジスタファイル６０２等から読み出され、Ｓ２バス６２２を介して入力ラッチ６０９に取り込まれる。３入力ＡＬＵ６１０では、命令１の算術／論理演算が実行される。この場合も、ラッチ６０６からの入力は無視される。演算結果は出力シフタ６１１に出力される。命令２のシフト処理は出力シフタで行なわれる。シフト量は即値として入力され、ラッチ６０６を介して出力シフタ６１１の出力される。シフト結果は、Ｄ１バス６２３を介して、命令２のデスティネーションオペランドとして指定されたレジスタに書き込まれる。
【０３９１】
分類Ａ６，Ｂ４で一方が小さな即値をソースオペランドとする加減算命令（ＱフォーマットのＡＤＤ，ＳＵＢ命令）で、命令２が命令１の演算結果をデスティネーションオペランドとする命令の場合について説明する。命令１がＱフォーマットの加減算命令である場合には、命令１のソースオペランドがＳ１バス６２１を介して入力ラッチ６０８へ、デスティネーションオペランドがＳ２バス６２２を介して入力ラッチ６０９へそれぞれ転送され、命令２のソースオペランドである即値がラッチ６０６に保持される。また、命令２がＱフォーマットの加減算命令である場合には、命令１のソースオペランドである即値がラッチ６０６に保持され、命令２のソースオペランドがＳ１バス６２１を介して入力ラッチ６０８へ、デスティネーションオペランドがＳ２バス６２２を介して入力ラッチ６０９へそれぞれ転送される。３入力ＡＬＵ６１０では、３値の加減算が行なわれ、加算結果がＤ１バス６２３を介して命令２のデスティネーションオペランドとして指定されたレジスタに書き込まれる。
【０３９２】
３値Ａ，Ｂ，Ｃの加減算を行なう場合、Ｃが小さな正の即値であり、Ｃの反転を行なわないように加算しようとすると、入力Ａ，Ｂと加算器の出力の反転機能とキャリーとを用いて以下のような演算を行なえばよい。加算器は入力Ａ’（ＡまたはＡの反転），入力Ｂ’（ＢまたはＢの反転），入力Ｃとキャリーの加算を行なうものとする。｛｝内が加算器出力である。
【０３９３】
入力Ａ’ 入力Ｂ’ 入力Ｃキャリー入力
Ａ＋Ｂ＋Ｃ＝｛Ａ＋Ｂ＋Ｃ＋０｝
Ａ−Ｂ＋Ｃ＝｛Ａ＋Ｂの反転＋Ｃ＋１｝
Ａ＋Ｂ−Ｃ＝｛Ａの反転＋Ｂの反転＋Ｃ＋１｝の反転
Ａ−Ｂ−Ｃ＝｛Ａの反転＋Ｂ＋Ｃ＋０｝の反転
【０３９４】
このように、加算器としてはＣの値を符号拡張することなく構成することが可能である。たとえば、３値（Ａ’（０：３１），Ｂ’（０：３１），Ｃ（２８：３１））を加算する加算器として図６３及び図６４のブロック図に示されているようなハードウェア構成があげられる。但し、ＯＵＴ（０：３１）は加算器出力であり、表記はビッグエンディアンを用いている。この例では、加算器は大きく分けて、キャリーセーブドアダーからなる前段加算器とフルアダーとキャリールックアヘッドからなる後段加算器とで構成されている。なお、図６３と図６４とは、図６３の下側が図６４の上側と接続された本来は一葉の図面である。
【０３９５】
入力Ｃは下位４ビットのみなので、前段加算器のキャリーセーブドアダーは下位４ビットと上位２８ビットとで構成が異なる。下位４ビットはたとえば参照符号６３１にて示されているように、３ビットの入力を１ビットＸと一つ上位の１ビットＹとの２ビットに変換する。この１ビットの第１ＣＳＡ６３１の構成を図６５の回路図に示す。参照符号６４１，６４２は排他的ＯＲゲートを、６４３，６４４，６４５はＡＮＤゲートを、６４６はＯＲゲートをそれぞれ示す。上位２８ビットは２値の加算を行なえばよいので、より簡単な回路でよい。この１ビットの第２ＣＳＡ６３２の構成を図６６の回路図に示す。参照符号６４７は排他的ＯＲゲートを、６４８はＡＮＤゲートをそれぞれ示す。
【０３９６】
後段加算器は、４ビット単位にキャリールックアヘッド回路が付加されており、４入力ＡＮＤゲート６３５により４ビットのキャリー伝搬信号の論理積をとり、すべて”１”である場合にはセレクタＳＥＬ６３６によりキャリー入力をバイパスして上位に伝搬させる。最下位４ビットは通常キャリー伝搬信号の確定とキャリー出力の確定タイミングとに差がないので、キャリールックアヘッド回路は付加されていない。また、最下位ビットはこの場合ハーフアダーでよい。
【０３９７】
このように、１つの入力を小さな即値に限定することにより、下位４ビットはキャリーセーブドアダーの回路は複雑であるが、キャリールックアヘッド回路が不要になるので、３つの３２ビットデータの加減算を行なう場合に比してチップ上でのレイアウト面積が削減され、ハードウェアコストが削減できる。
【０３９８】
また、分類Ａ２で並列実行が可能なのは命令１の転送処理のデスティネーションが命令２のデスティネーションオペランドと一致する場合である。この場合は、単に命令２のデスティネーションオペランドの代わりに、命令１のソースオペランドをＳ１バス６２１またはＳ２バス６２２で演算器へ転送し、演算結果を命令２のデスティネーションとして指定されたレジスタに格納すればよい。
【０３９９】
このように、並列実行を行なう命令の組み合せを限定することによりより少ないハードウェアコストでデータ処理装置を実現することができる。とくに、２つの加減算命令を、一方がソースオペランドが小さな即値の場合のみに限定することにより、３値加算器のハードウェアコストを削減することが可能である。配列のポインタ計算で用いるスケールドインデックス加算を行なう場合などには、上述のような構成は非常に有効である。配列のポインタ計算では、ベースアドレスの値に、インデックス値を左シフト（２のべき乗倍）した値と変位とが加算されるからである。
【０４００】
上記実施例では、命令１がシフト命令の場合以外は命令１と命令２との複合演算を行なう際に、命令１の演算結果を出力できない構成となっているが、実施例１と同様に、命令１と命令２との複合演算と並列に命令１の演算を実行する演算器を有しているか、あるいは複合演算器の途中から命令１の演算結果を出力する手段を付加すれば、命令１のデスティネーションオペランドが命令２のソースオペランドと干渉する場合にも２命令の並列実行が可能である。但し、命令２が演算結果をレジスタに書き込む命令であった場合には、レジスタへ値を書き込むバスが２本必要になる。命令２が比較命令である場合には、命令１のデスティネーションオペランドのみを転送すればよいので、バスは１本でよい。たとえば、ループのカウンタ制御で、カウンタレジスタに即値（ステップ値）を加減算して上限値または下限値と比較を行なう場合には、命令１の演算結果のみを格納すればよい。
【０４０１】
〔実施例３〕
並列実行可能な命令の組み合せを実施例２より更に削減し、演算器のハードウェアコストを削減した実施例３について説明する。本実施例３では、以下の分類で命令１のデスティネーションオペランドと命令２のデスティネーションオペランドとが一致する場合にのみ２命令を並列実行する。
【０４０２】
・分類Ａ２
・分類Ａ３
・分類Ｂ２
・分類Ａ６またはＢ４
・加算命令とインクリメント命令（定数１を加算するＱフォーマットの加算
命令）との組み合せ
・減算命令とデクリメント命令（定数１を減算するＱフォーマットの減算命
令）との組み合せ
【０４０３】
図６７は本実施例の整数演算部の構成例を示すブロック図である。図６２に示した実施例２の整数演算部とはＡＬＵ周囲の構成が異なる。基本的な命令の処理方法は実施例１及び実施例２とほぼ同じであるので説明は省略する。また、分類Ａ２，Ａ３，Ｂ２の処理の場合は実施例２と同じであるのでここでは説明を省略する。分類Ａ６またはＢ４で、ＡとＢと”１”との加算を行なう場合と、ＡからＢと”１”とを減算する場合では、３値の加減算は以下のように処理できる。加算器は入力Ａ’（ＡまたはＡの反転），入力Ｂ’（ＢまたはＢの反転），キャリーの加算を行なうものとする。｛｝内が加算器出力である。
【０４０４】
入力Ａ’ 入力Ｂ’ キャリー入力
Ａ＋Ｂ＋１＝｛Ａ＋Ｂ＋１｝
Ａ−Ｂ−１＝｛Ａの反転＋Ｂ＋１｝の反転
もしくは｛Ａ＋Ｂの反転＋０｝
【０４０５】
即ち、ＡＬＵ６５３の加算器部分は２入力のフルアダー（図６３及び図６４の後段部分のみ）でよく、入出力の反転とキャリー入力との制御のみで２命令の並列実行を実現できる。２命令が並列実行可能な命令の組み合せは大幅に限定されるが、演算ハードウェアとしては、１命令づつ命令を実行する場合とほとんど同じで、制御方法を変えるのみで２命令の並列実行が実現できる。従って、このような処理が多いアプリケーションを実行する場合には、このような構成が有効である。
【０４０６】
但しこの場合も、実施例２と同様に命令１の演算結果を書き込むようにするならば、もう一つ加算器が必要になる。但し、この加算器ではインクリメント，デクリメント機能のみがあればよいので、必要なハードウェア量は少なくて済む。また、一般のデータ処理装置ではアドレスレジスタ，カウンタ等の他の演算器を備えている場合も多く、そのハードウェアを利用すれば更にハードウェアの削減には有効である。また、命令１と命令２とが異なるレジスタに処理結果を書き込む場合には２本のバスが必要となる。但し、命令２が比較命令である場合に限るのであれば、バスは１本でよい。ループ制御において、カウンタから”１”を減算し、下限値と比較するような場合には、一方の加算器で”カウンタ値−１”を実行し、もう一方の加算器で”カウンタ値−下限値−１”を実行すればよい。また、この場合には命令１の結果のみをカウンタとして用いられているレジスタに転送すればよい。
【０４０７】
【発明の効果】
以上に詳述したように本発明によれば、オペランド干渉のある複数の命令、あるいはメモリの連続領域をアクセスする複数の命令を並列実行可能に構成したため、高性能なデータ処理装置を比較的安価に提供することが可能になる。
【０４０８】
本発明のデータ処理装置の第１の発明によれば、第１の命令としてはシフト命令を、第２の命令としては算術演算，論理演算または比較命令が並列に実行される。
【０４０９】
本発明のデータ処理装置の第２の発明によれば、第１の命令としては算術演算，論理演算命令を、第２の命令としてはシフト命令が並列に実行される。
【０４１０】
本発明のデータ処理装置の第３の発明によれば、第１の命令としては演算命令を、第２の命令としてはレジスタ間転送命令が並列に実行される。
【０４１１】
本発明のデータ処理装置の第４の発明によれば、第１，第２の命令共に演算命令が並列に実行される。
【０４１２】
本発明のデータ処理装置の第５の発明によれば、第１，第２の命令共にポップ命令が並列に実行される。
【０４１３】
本発明のデータ処理装置の第６の発明によれば、第１，第２の命令共にプッシュ命令が並列に実行される。
【０４１４】
本発明のデータ処理装置の第７の発明によれば、第１の命令としてはレジスタ間接モードのロード命令を、第２の命令としてはレジスタ相対間接モードのロード命令が並列に実行される。
【０４１５】
本発明のデータ処理装置の第８の発明によれば、第１，第２の命令共にレジスタ相対間接モードのロード命令が並列に実行される。
【０４１６】
本発明のデータ処理装置の第９の発明によれば、第１の命令がレジスタ間接モードのストア命令を、第２の命令がレジスタ相対間接モードのストア命令が並列に実行される。
【０４１７】
本発明のデータ処理装置の第１０の発明によれば、第１，第２の命令共にレジスタ相対間接モードのストア命令が並列に実行される。
【０４２０】
本発明のデータ処理装置の第１１の発明によれば、第１の命令としては加算命令または減算命令の内の少なくとも一つの命令が、第２の命令としては少なくとも命令コードで指定される即値の加算命令または減算命令が並列に実行される。
【０４２１】
本発明のデータ処理装置の第１２の発明によれば、第１の命令としては加算命令が、第２の命令としてはインクリメント命令が並列に実行される。
【０４２２】
本発明のデータ処理装置の第１３の発明によれば、第１の命令としては減算命令が、第２の命令としてはデクリメント命令が並列に実行される。
【０４２３】
本発明のデータ処理装置の第１４の発明によれば、第１，第２の命令共にメモリからデータを読み出す命令が並列に実行される。
【０４２４】
本発明のデータ処理装置の第１５の発明によれば、第１４の発明において第１，第２の命令共にロード命令が並列に実行される。
【０４２５】
本発明のデータ処理装置の第１６の発明によれば、第１，第２の命令共にメモリにデータを書き込む命令が並列に実行される。
【０４２６】
本発明のデータ処理装置の第１７の発明によれば、第１６の発明において第１，第２の命令共にストア命令が並列に実行される。
本発明のデータ処理装置の第１８の発明によれば、第１乃至１４及び１６の発明において、命令解析手段により、第１の命令と第１の命令に引き続く命令以降の第２の命令とが並列に解析される。
本発明のデータ処理装置の第１９の発明によれば、第５，７，８及び１４の発明において、データアクセス手段は、記憶手段から以前に取り込んだデータをデータキャッシュに記憶させる。
本発明のデータ処理装置の第２０の発明によれば、第５，７，８及び１４の発明において、データアクセス手段は、記憶手段から以前に取り込んだデータをバッファ手段に一時的に保持させる。
本発明のデータ処理装置の第２１の発明によれば、第６，９，１０及び１６の発明において、データアクセス手段は、記憶手段に書込むべきデータをバッファ手段に一時的に保持させる。
本発明のデータ処理装置の第２２の発明によれば、第１の発明において、命令実行手段は、シフト命令の全シフト量のシフト処理を実行可能な第２のシフタを備えているので、第１及び第２の命令を並列に実行する際に、第１の命令のシフト処理を第２のシフタでも実行する。
本発明のデータ処理装置の第２３の発明によれば、第５及び６の発明において、命令実行手段は、第１及び第２の命令を並列に実行する際に、並列に転送される２データのサイズの総和に対応した値だけ、スタックポインタの更新を行なう。本発明のデータ処理装置の第２４の発明によれば、第１３の発明において、第１の命令は第２の演算としてデクリメントを行なう命令を含み、第２の命令は第１の演算として比較のための減算を行なう比較命令を含む。
【図面の簡単な説明】
【図１】本発明のデータ処理装置を用いたシステム構成を示すブロック図図である。
【図２】本発明のデータ処理装置のメモリ上での命令の配列状態を示す模式図である。
【図３】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図４】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図５】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図６】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図７】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図８】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図９】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図１０】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図１１】本発明のデータ処理装置の一実施例による命令フォーマットを示す模式図である。
【図１２】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１３】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１４】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１５】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１６】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１７】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１８】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図１９】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２０】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２１】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２２】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２３】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２４】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２５】本発明のデータ処理装置の一実施例によるアドレッシングモードのフォーマットを示す模式図である。
【図２６】本発明のデータ処理装置の一実施例の全体の構成例を示すブロック図である。
【図２７】本発明のデータ処理装置の一実施例の命令フェッチ部の構成例を示すブロック図である。
【図２８】本発明のデータ処理装置の命令の構成単位を示す模式図である。
【図２９】本発明のデータ処理装置の一実施例の命令デコード部の構成例を示すブロック図である。
【図３０】本発明のデータ処理装置の一実施例のＰＣ生成部の構成例を示すブロック図である。
【図３１】本発明のデータ処理装置の一実施例のアドレス生成部の構成例を示すブロック図である。
【図３２】本発明のデータ処理装置の一実施例のオペランドアクセス部の構成例を示すブロック図である。
【図３３】本発明のデータ処理装置の一実施例のＲＯＭ部の構成例を示すブロック図である。
【図３４】本発明のデータ処理装置の一実施例の整数演算部の構成例を示すブロック図である。
【図３５】本発明のデータ処理装置の一実施例のＳＰ部の構成例を示すブロック図である。
【図３６】本発明のデータ処理装置の一実施例のパイプライン処理の概要を示す模式図である。
【図３７】本発明のデータ処理装置の一実施例のＤステージデコーダの構成例を示すブロック図である。
【図３８】本発明のデータ処理装置が１サイクルでデコードを行なうＩＩバス上の命令コード位置を示す模式図である。
【図３９】本発明のデータ処理装置の一実施例の２命令並列デコード可否判定部の構成例を示すブロック図である。
【図４０】本発明のデータ処理装置の一実施例のオペランド干渉判定部の詳細な構成例を示す論理回路図の一部である。
【図４１】本発明のデータ処理装置の一実施例のオペランド干渉判定部の詳細な構成例を示す論理回路図の他の部分である。
【図４２】本発明のデータ処理装置の一実施例のサブコード有効判定部の詳細な構成例を示す論理回路図の一部である。
【図４３】本発明のデータ処理装置の一実施例のサブコード有効判定部の詳細な構成例を示す論理回路図の他の部分である。
【図４４】本発明のデータ処理装置のＩＩバス上のレジスタ番号フィールドの位置を示す模式図である。
【図４５】本発明のデータ処理装置により２命令を並列実行する場合の命令コードを示す模式図である。
【図４６】本発明のデータ処理装置により２命令を並列実行する場合のパイプライン処理の状態を示す模式図である。
【図４７】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図４８】本発明のデータ処理装置により２命令を並列実行する場合の命令コードを示す模式図である。
【図４９】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５０】本発明のデータ処理装置により２命令を並列実行する場合の命令コードを示す模式図である。
【図５１】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５２】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５３】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５４】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５５】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５６】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５７】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図５８】本発明のデータ処理装置でソースオペランドがレジスタ間接／相対間接モードで指定される２つのロード命令が並列デコードが可能な場合のＩＩバス上の命令コード位置を示す模式図である。
【図５９】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図６０】本発明のデータ処理装置により２命令を並列実行する場合の処理フローを示すフローチャートである。
【図６１】本発明のデータ処理装置の主演算回路と副演算回路との構成例を示すブロック図である。
【図６２】本発明のデータ処理装置の他の実施例の整数演算部の構成例を示すブロック図である。
【図６３】本発明のデータ処理装置の他の実施例の３入力ＡＬＵの加算器の構成例を示すブロック図の一部である。
【図６４】本発明のデータ処理装置の他の実施例の３入力ＡＬＵの加算器の構成例を示すブロック図の他の部分である。
【図６５】本発明のデータ処理装置の他の実施例の３入力ＡＬＵの加算器の下位側キャリーセーブドアダーの構成例を示す論理回路図である。
【図６６】本発明のデータ処理装置の他の実施例の３入力ＡＬＵの加算器の上位側キャリーセーブドアダーの構成例を示す論理回路図である。
【図６７】本発明のデータ処理装置の更に他の実施例の整数演算部の構成例を示すブロック図である。
【符号の説明】
５主記憶、１１命令フェッチ部、１２命令デコード部、１６整数演算部、
１７オペランドアクセス部、１０７ＤＤバス、３０２メインデコーダ、３０３２命令並列デコード可否判定部、３０４サブデコーダ。

Claims

命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、シフト命令でシフト可能なシフト量の一部である１または複数の所定のシフト量のみのシフト処理を実行するシフタと、前記シフタの出力に少なくとも１つの入力が接続され、少なくとも算術演算または論理演算の内の一つを実行する演算手段とを含む複合演算手段とを有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令がシフト量が自身に含まれる即値で指定され、前記シフタが実行可能ないずれかのシフト量のシフト処理を実行するシフト命令である第１の条件と、前記第２の命令が前記演算手段で実行可能な演算を実行する命令であり、且つ前記第１の命令のシフト結果を前記第２の命令が参照する第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令のシフト処理と前記第２の命令の演算処理との２つの複合演算を前記複合演算手段に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、少なくとも算術演算または論理演算の内の一つを実行する演算手段と、前記演算手段の出力に入力が接続され、シフト命令でシフト可能なシフト量の一部である１または複数の所定のシフト量のみのシフト処理を実行するシフタとを含む複合演算手段とを有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が前記演算手段で実行可能な演算を実行する命令である第１の条件と、前記第２の命令がシフト量が自身に含まれる即値で指定され、前記シフタで実行可能ないずれかのシフト量のシフト処理を実行するシフト命令であり、且つ前記第１の命令の演算結果を前記第２の命令が参照する第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令の演算処理と前記第２の命令のシフト処理との２つの複合演算を前記複合演算手段に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、少なくとも算術演算，論理演算またはシフト処理の内の一つを実行する演算手段と、前記演算手段の演算結果を複数のレジスタへ転送するデータ転送手段とを有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が前記演算手段で実行可能な演算を実行してその結果を自身に含まれる第１の値に対応するレジスタへ転送する命令である第１の条件と、前記第２の命令が前記第１の命令の演算結果を自身に含まれる第２の値に対応するレジスタへ転送する命令である第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令の演算処理を前記演算手段に、前記第１の命令のデータ転送処理及び前記第２の命令のデータ転送処理を前記データ転送手段にそれぞれ実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、少なくとも算術演算，論理演算またはシフト処理の内の一つをそれぞれ実行する第１及び第２の演算手段と、前記第１の演算手段の演算結果及び前記第２の演算手段の演算結果をそれぞれ異なるレジスタへ並列に転送するデータ転送手段とを有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が前記第１及び第２の演算手段で実行可能な演算を実行してその結果を自身に含まれる第１の値に対応するレジスタへ転送する命令である第１の条件と、前記第２の命令が前記第１の命令の演算結果を自身に含まれる第２の値に対応するレジスタへ転送する命令である第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令の演算処理を前記第１の演算手段及び第２の演算手段に並列に実行させ、前記第１の命令のデータ転送処理及び前記第２の命令のデータ転送処理を前記データ転送手段に並列にそれぞれ実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
命令の実行に必要なデータを前記記憶手段から取り込むデータアクセス手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と、
前記記憶手段内に設定されているスタック領域のスタックトップのアドレスを指示するスタックポインタと
を備えたデータ処理装置において、
前記命令実行手段は、前記データアクセス手段から２データを並列にレジスタへ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令及び前記第２の命令が共に前記スタックポインタが指示する前記スタック領域のデータを自身に含まれる値に対応するレジスタへそれぞれポップする命令である条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記条件が成立すると判定した場合に、前記命令実行手段が前記データアクセス手段から前記第１の命令に含まれる値に対応するレジスタへの前記第１の命令のデータ転送処理と、前記データアクセス手段から前記第２の命令に含まれる値に対応するレジスタへの前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と、
データを前記記憶手段に格納するデータアクセス手段と、
前記記憶手段内に設定されているスタック領域のスタックトップのアドレスを指示するスタックポインタと
を備えたデータ処理装置において、
前記命令実行手段は、２個のレジスタから並列に読み出したデータを並列に、前記データアクセス手段へ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令及び前記第２の命令が共に自身に含まれる値に対応するレジスタのデータを前記スタックポインタが指示する前記スタック領域へそれぞれプッシュする命令である条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記条件が成立すると判定した場合に、前記命令実行手段が前記第１の命令に含まれる値に対応するレジスタから前記データアクセス手段への前記第１の命令のデータ転送処理と、前記第２の命令に含まれる値に対応するレジスタから前記データアクセス手段への前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
命令の実行に必要なデータを前記記憶手段から取り込むデータアクセス手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、前記データアクセス手段から２データを並列にレジスタへ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が自身に含まれる第１の値に対応するレジスタの内容で指定される前記記憶手段のアドレスのデータを自身に含まれる第２の値に対応するレジスタへ転送する命令であり、且つ前記第２の命令が自身に含まれる前記第１の値に対応するレジスタの内容に自身に含まれる第３の値を加算した値で指定される前記記憶手段のアドレスのデータを自身に含まれる第４の値に対応するレジスタへ転送する命令である第１の条件と、前記第１の命令により指定されるデータのデータ長が前記第２の命令に含まれる前記第３の値と等しい第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令のデータ転送処理と前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
命令の実行に必要なデータを前記記憶手段から取り込むデータアクセス手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、前記データアクセス手段から２データを並列にレジスタへ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が自身に含まれる第１の値に対応するレジスタの内容に第２の値を加算した値で指定される前記記憶手段のアドレスのデータを自身に含まれる第３の値に対応するレジスタへ転送する命令であり、且つ前記第２の命令が自身に含まれる前記第１の値に対応するレジスタの内容に自身に含まれる第４の値を加算した値で指定される前記記憶手段のアドレスのデータを自身に含まれる第５の値に対応するレジスタへ転送する命令である第１の条件と、前記第１の命令により指定されるデータのデータ長が前記第２の命令に含まれる前記第４の値と前記第１の命令に含まれる前記第２の値との差に等しい第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令のデータ転送処理と前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と、
データを前記記憶手段に格納するデータアクセス手段と
を備えたデータ処理装置において、
前記命令実行手段は、２個のレジスタから並列に読み出したデータを並列に、前記データアクセス手段へ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が自身に含まれる第１の値に対応するレジスタの内容で指定される前記記憶手段のアドレスへ自身に含まれる第２の値に対応するレジスタのデータを転送する命令であり、且つ前記第２の命令が自身に含まれる前記第１の値に対応するレジスタの内容に自身に含まれる第３の値を加算した値で指定される前記記憶手段のアドレスへ自身に含まれる第４の値に対応するレジスタのデータを転送する命令である第１の条件と、前記第１の命令により指定されるデータのデータ長が前記第２の命令に含まれる前記第３の値に等しい第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記条件が成立すると判定した場合に、前記命令実行手段が前記第２の値に対応するレジスタから前記データアクセス手段への前記第１の命令のデータ転送処理と、前記第４の値に対応するレジスタから前記データアクセス手段への前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と、
データを前記記憶手段に格納するデータアクセス手段と
を備えたデータ処理装置において、
前記命令実行手段は、２個のレジスタから並列に読み出したデータを並列に、前記データアクセス手段へ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が自身に含まれる第１の値に対応するレジスタの内容に自身に含まれる第２の値を加算した値で指定される前記記憶手段のアドレスへ自身に含まれる第３の値に対応するレジスタのデータを転送する命令であり、且つ前記第２の命令が自身に含まれる前記第１の値に対応するレジスタの内容に自身に含まれる第４の値を加算した値で指定される前記記憶手段のアドレスへ自身に含まれる第５の値に対応するレジスタのデータを転送する命令である第１の条件と、前記第１の命令により指定されるデータのデータ長が前記第２の命令に含まれる前記第４の値と前記第１の命令に含まれる前記第２の値との差に等しい第２の条件とが成立するか否かを判定する判定手段を備え、
前記判定手段が前記条件が成立すると判定した場合に、前記命令実行手段が前記第３の値に対応するレジスタから前記データアクセス手段への前記第１の命令のデータ転送処理と、前記第５の値に対応するレジスタから前記データアクセス手段への前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、少なくとも加算または減算の内の一つを含む第１の演算と、少なくとも命令コードで指定される即値の加算または減算の内の一つを含む第２の演算との複合演算を実行する複合演算手段を有し、
前記複合演算手段は、上位ｍビットが２入力で、下位ｎビットが３入力の（ｍ＋ｎ）ビット加算器（ｍ、ｎは１以上の自然数）を備え、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令または前記第２の命令の内の一方が前記複合演算手段で実行可能な前記第１の演算を実行する第１の条件と、前記第１の命令または前記第２の命令の内の他方が前記複合演算手段で実行可能な第２の演算として実行可能な、自身に含まれるｎビット以下またはｎビットより小さい即値の加算または減算を行なう命令であり、且つ前記第１の命令の演算結果を前記第２の命令が参照する第２の条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令の処理と前記第２の命令の処理との２つの複合演算を前記複合演算手段に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、第１の演算としての加算と、第２の演算としてのインクリメント演算との複合演算を実行する複合演算手段を有し、
前記複合演算手段は、２つのデータ入力と１ビットキャリー入力とを有する２入力加算器を備え、前記第２の演算であるインクリメント演算は前記キャリー入力を制御することにより実現されるように構成されており、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令または前記第２の命令の内の一方が前記複合演算手段で実行可能な前記第１の演算を実行する第１の条件と、前記第１の命令または前記第２の命令の内の他方が前記複合演算手段で実行可能な前記第２の演算を実行する命令であり、且つ前記第１の命令の演算結果を前記第２の命令が参照する第２の条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令の処理と前記第２の命令の処理との２つの複合演算を前記複合演算手段に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令を格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、第１の演算としての減算と、第２の演算としてのデクリメント演算との複合演算を実行する複合演算手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
前記複合演算手段は、２つのデータ入力と１ビットキャリー入力とを有する２入力加算器を備え、前記第２の演算であるデクリメント演算は前記キャリー入力を制御することにより実現されるように構成されており、
更に、前記第１の命令または前記第２の命令の内の一方が前記複合演算手段で実行可能な前記第１の演算を実行する第１の条件と、前記第１の命令または前記第２の命令の内の他方が前記複合演算手段で実行可能な前記第２の演算を実行する命令であり、且つ前記第１の命令の演算結果を前記第２の命令が参照する第２の条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記第１及び第２の条件が共に成立すると判定した場合に、前記命令実行手段が前記第１の命令の処理と前記第２の命令の処理との２つの複合演算を前記複合演算手段に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
命令の実行に必要なデータを前記記憶手段から取り込むデータアクセス手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と
を備えたデータ処理装置において、
前記命令実行手段は、前記データアクセス手段から２データを並列に前記命令実行手段へ転送するデータ転送手段とを有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が前記メモリからデータを読み出す命令であり、前記第２の命令が前記メモリの前記第１の命令により読み出されるデータに連続する領域のデータを読み出す命令である条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記条件が成立すると判定した場合に、前記命令実行手段が前記データアクセス手段から前記命令実行手段への前記第１の命令のデータ転送処理と、前記データアクセス手段から前記命令実行手段への前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
前記第１及び第２の命令が共にロード命令であることを特徴とする請求項１４に記載のデータ処理装置。
命令及びデータを格納する記憶手段と、
前記記憶手段から命令を取り込む命令フェッチ手段と、
前記命令フェッチ手段が取り込んだ命令を解析する命令解析手段と、
前記命令解析手段での解析結果に基づいて命令を実行する命令実行手段と、
データを前記記憶手段に格納するデータアクセス手段と
を備えたデータ処理装置において、
前記命令実行手段は、２データを並列に前記データアクセス手段へ転送するデータ転送手段を有し、
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを含む複数の命令からなる命令群の各命令を解析する手段を有し、
更に、前記第１の命令が前記メモリへデータを書き込む命令であり、前記第２の命令が前記メモリの前記第１の命令により書き込まれるデータに連続する領域にデータを書き込む命令である条件が成立するか否かを判定する判定手段を備え、
前記判定手段が前記条件が成立すると判定した場合に、前記命令実行手段が前記データアクセス手段への前記第１の命令のデータ転送処理と、前記データアクセス手段への前記第２の命令のデータ転送処理とを前記データ転送手段に並列に実行させることにより、前記第１及び第２の命令を並列に実行すべくなしてあることを特徴とするデータ処理装置。
前記第１及び第２の命令が共にストア命令であることを特徴とする請求項１６に記載のデータ処理装置。
前記命令解析手段は、第１の命令と前記第１の命令に引き続く命令以降の第２の命令とを並列に解析すべくなしてあることを特徴とする請求項１乃至１４及び１６に記載のデータ処理装置。
前記データアクセス手段は、前記記憶手段から以前に取り込んだデータを記憶するデータキャッシュを含むことを特徴とする請求項５，７，８及び１４に記載のデータ処理装置。
前記データアクセス手段は、前記記憶手段から以前に取り込んだデータを一時的に保持するバッファ手段を含むことを特徴とする請求項５，７，８及び１４に記載のデータ処理装置。
前記データアクセス手段は、前記記憶手段に書込むべきデータを一時的に保持するバッファ手段を含むことを特徴とする請求項６，９，１０及び１６に記載のデータ処理装置。
前記命令実行手段は、シフト命令の全シフト量のシフト処理を実行可能な第２のシフタを備え、
前記第１及び第２の命令を並列に実行する際に、前記第１の命令のシフト処理を前記第２のシフタでも実行すべくなしてあることを特徴とする請求項１に記載のデータ処理装置。
前記命令実行手段は、前記第１及び第２の命令を並列に実行する際に、並列に転送される２データのサイズの総和に対応した値だけ、前記スタックポインタの更新を行なうべくなしてあることを特徴とする請求項５または６に記載のデータ処理装置。
前記第１の命令は前記第２の演算としてデクリメントを行なう命令を含み、前記第２の命令は前記第１の演算として比較のための減算を行なう比較命令を含むことを特徴とする請求項１３に記載のデータ処理装置。