JP2002149400A

JP2002149400A - 複数レジスタ指定が可能なｓｉｍｄ演算方式

Info

Publication number: JP2002149400A
Application number: JP2000340239A
Authority: JP
Inventors: Tatehisa Shimizu; 健央清水; Fumio Arakawa; 文男荒川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-11-08
Filing date: 2000-11-08
Publication date: 2002-05-24
Anticipated expiration: 2020-11-08
Also published as: TWI229287B; KR20020035739A; US7043627B2; KR100859044B1; US20020026570A1; JP3779540B2

Abstract

(57)【要約】【課題】ＳＩＭＤプロセッサの高速化においては、レ
ジスタ内データ整列など、ＳＩＭＤ演算の効果を妨げる
要因を軽減する必要がある。【解決手段】レジスタファイルを４個のバンクに分け
て、１個のオペランドで複数個のレジスタを指定できる
ようにして、４個のレジスタを同時にアクセスできるよ
うにすることによって、データ整列演算パイプ２１１に
多数のデータを供給でき、高速にデータ整列演算を行う
ことができる。また、新規のデータパック命令・データ
アンパック命令・データ並べ替え命令を定義することに
よって、その多量に供給されるデータを効率よく整列さ
せることができる。さらに、上記の特徴により、ＳＩＭ
Ｄの並列性を最大限に生かした積和演算命令の定義が可
能である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＳＩＭＤ（Single
Instruction Multiple Data）プロセッサにおけるレジ
スタ指定方式および、レジスタ内データ整列処理に関す
るものであり、ＳＩＭＤの並列処理性能を低下させる惧
れの有るレジスタ内データ整列を高速に行う手段に関す
るものである。

【０００２】またＤＳＰ（Digital Signal Processin
g）命令として標準的な積和演算に関して、ＳＩＭＤの
並列性を維持したまま、精度を落とすことなく演算させ
ることが可能な手段に関するものである。

【０００３】

【従来の技術】３次元グラフィックス等で必要となるベ
クトル演算処理を行う際に、１つのレジスタ指定フィー
ルドで連続した複数個のレジスタを指定できるようにし
て、ベクトル演算を行わせるような方法が、特開平１０
−１２４４８４の特許で既に公開されている。

【０００４】また、レジスタ内データ整列命令として
は、モトローラ社が開発したマルチメディア向け命令セ
ットＡｌｔｉｖｅｃの、「ＡｌｔｉＶｅｃＰｒｏｇｒ
ａｍｍｉｎｇＩｎｔｅｒｆａｃｅＭａｎｕａｌ」に
４オペランドまで指定可能な各種データ整列命令が記述
されている。

【０００５】さらに積和演算に関しては、ＳＩＭＤの並
列性を４並列から２並列に半減させた形で実現するよう
な精度落ちのない積和演算命令が、日立製作所とＳＴマ
イクロエレクトロニクスの共同開発のＳＨ５アーキテク
チャで定義されている。

【０００６】

【発明が解決しようとする課題】しかし、特開平１０−
１２４４８４に示されたベクトル演算処理においては、
複数のレジスタ指定において、４の倍数の番号のみしか
指定できない構成と成っているため自由度が乏しく、ま
たＡｌｔｉｖｅｃのデータ整列命令においては、演算装
置が大型で高価である上にソースレジスタとして３個し
か指定できず、データパックやアンパックといったＳＩ
ＭＤ特有の演算を効率良く行うことができない。従っ
て、ＳＩＭＤの並列性を十分に達成できていない。

【０００７】本発明の主たる目的は、ＳＩＭＤ命令の効
果を最大限にあげるための、データ整列に関する手段を
提供するものである。

【０００８】また本発明の他の目的は、ＤＳＰ命令とし
て標準的な積和演算命令をＳＩＭＤの並列性を落とすこ
となく、しかも精度を保ったままで実現する１手段を提
供するものである。

【０００９】

【課題を解決するための手段】本願において開示される
発明のうち代表的なものの概要を簡単に説明すれば下記
の通りである。

【００１０】本発明は、命令コードと、少なくとも１つ
のレジスタ指定フィールドからなる演算命令を有し、少
なくとも１つのレジスタ指定フィールドは連続番号の複
数個のレジスタが指定可能であることを特徴とする。

【００１１】さらに本発明は、任意数のレジスタ指定フ
ィールドの内、１フィールドで複数のリードレジスタを
指定するデコーダと、デコーダからの出力に従って連続
番号の複数個のレジスタ内データを出力するレジスタフ
ァイルとを具備することを特徴とする。

【００１２】さらに本発明は、任意数のレジスタ指定フ
ィールドの内、１フィールドで複数のライトレジスタを
指定するデコーダと、デコーダからの出力に従って連続
番号の複数個のレジスタに値を書き込めるレジスタファ
イルとを具備することを特徴とする。

【００１３】上記レジスタファイルは複数のバンクを有
し、複数のバンクからリードまたはライトを行うことに
より、各バンクのリードまたはライトポート数をレジス
タ指定フィールド数以下に制限して、フィールド数より
多くのリードまたはライトを行うことによる回路規模の
増大を抑制したものである。

【００１４】上記連続番号の複数個のレジスタ数は２の
ｎ乗個（ｎは自然数）と限定して、レジスタ選択回路の
削減を可能としたものである。

【００１５】さらにリードレジスタ指定フィールド数よ
り多くの数のレジスタからデータをリードするため、ラ
イトレジスタへの書き込みデータ数より多くのリードレ
ジスタからの読み出しデータ数に対応可能なデータパッ
ク演算を、ライトレジスタに無効な部分を生成すること
なく実現可能であることを特徴とする。

【００１６】又さらにライトレジスタ指定フィールド数
より多い数のレジスタにライトできることから、リード
レジスタの読み出しデータ数より多くのライトレジスタ
への書き込みデータ数に対応可能なデータアンパック演
算を、ライトを複数回に分けることなく並列的に実現可
能であることを特徴とする。

【００１７】さらにライトレジスタ指定フィールド数よ
り多くのレジスタにライトできることから、入力データ
幅より広いデータ幅の出力を行う演算を、入力データに
無効部分を作ることなく、さらにデータ幅の広い特別な
レジスタを実装することもなく、実現可能であることを
特徴とする。

【００１８】さらにデータ整列を行うパイプなど、レジ
スタ指定フィールドの数以上のデータを必要とするパイ
プに、それぞれデータを供給するために、レジスタと演
算パイプ間には、汎用のバスの他に、複数本のデータ用
バスを設けていることを特徴とする。

【００１９】さらにデータアンパック命令、並べ替え命
令、行列演算命令、積和演算命令など、複数個の結果を
出力するパイプのために、レジスタと演算パイプ間に、
レジスタ書き込み用として複数本のデータ用バスを設け
ていることを特徴とする。

【００２０】

【発明の実施の形態】以下、図面を参照して本発明の実
施例を詳細に説明する。尚、実施例を説明するための全
図において、同一機能を有するものは同一符号を付け、
その繰り返しの説明は省略する。

【００２１】図１には、本発明の実施例であるＳＩＭＤ
プロセッサのＣＰＵブロック図の概略を示す。ただし、
このＣＰＵブロック部は、図２に示されるマイクロコン
ピュータのレイアウトにおけるＣＰＵ２００の部分を指
すものとする。尚、図２においてＦＰＵは浮動小数点演
算ユニット、ＣＣＮはキャッシュ・コントローラ、ＢＳ
Ｃはバスステートコントローラ、ＴＬＢはトランスレー
ション・ルックアサイド・バッファーを示し、これらの
レイアウトは周知の構成である。

【００２２】同図１に示されるＳＩＭＤプロセッサは、
６４ｂｉｔＲＩＳＣ（Reduced Instruction Set Comput
er）アーキテクチャを例として採用して、オペランドを
３個有し、３２ｂｉｔ固定長命令を実行するものとす
る。

【００２３】この図１の例では、演算パイプとして、デ
ータ整列（ＡＬＮ）・乗算（ＭＵＬ）・整数演算（ＩＮ
Ｔ）・ロード／ストア（ＬＤ／ＳＴ）・分岐（ＢＲＡ）
の５つをもつようなＳＩＭＤプロセッサを想定してい
る。

【００２４】図３には、上記ＳＩＭＤプロセッサのＣＰ
Ｕブロック図のうち、命令デコード部からレジスタファ
イル２１３へのアクセス部について詳細に示してある。

【００２５】命令コード２０１のレジスタ指定フィール
ドの１つであるｍには、Ｒ０〜Ｒ６３までのいずれかの
レジスタ番号が指定され、そのコードはデコーダ２０２
によりデコードされて、各レジスタに直接アクセスでき
る。

【００２６】このデコーダ２０２は、図４に示す真理値
表を満たす論理回路で構成される。図４からもわかるよ
うに、出力６４本のうち、４本がｈｉｇｈとなり、４つ
の連続したレジスタを１度に指定することができる。各
バンクから読み出されたデータは、セレクタ２０４とセ
レクタ２０５へ出力される。セレクタ２０５には、制御
信号として、オペランドコードｍの下位２ｂｉｔを入力
し、入力用の汎用バス２０６へ出力するデータを決定す
る。

【００２７】セレクタ２０４にも同様に各バンクからの
データが入力され、汎用バスへ出力されるデータを除い
た残りのデータを出力する制御信号としては、セレクタ
２０５と同じオペランドコードｍの下位２ｂｉｔを使
う。

【００２８】図５にセレクタ２０４と２０５の出力の様
子を示す真理値表を示す。表中のaとbは、前述のオペラ
ンドコードｍの下位２ｂｉｔを意味し、セレクタ２０５
の出力が「Ｔｏ２０６」と対応し、セレクタ２０４の
出力が「Ｔｏ３０７」と対応する。又、この真理値表
の「Ｔｏ２０６」欄及び「Ｔｏ３０７」欄の出力値
として表現されているＸ０〜Ｘ３の「Ｘ」はＢＮＫ（す
なわち、バンク）を表している。

【００２９】これらセレクタ２０４と２０５の出力は、
各バンク毎にお互い排他的であり、この図５に示される
真理値表を満たすような論理回路でセレクタ２０４と２
０５は構成される。

【００３０】各バンクについては、バンク３（図３内２
０３に相当する）の詳細図が図６に示されているが、バ
ンク３（２０３）に存在する各レジスタは、この例にお
いては１ｂｉｔあたり２ｒｅａｄ・１ｗｒｉｔｅの標準
的なもので構成される。

【００３１】図３において、バンク０には、Ｒ０・Ｒ４
・…・Ｒ４ｎの１６個のレジスタが格納され、バンク１
には、Ｒ１・Ｒ５・…・Ｒ４ｎ＋１の１６個、バンク２
には、Ｒ２・Ｒ６・…・Ｒ４ｎ＋２の１６個、バンク３
には、Ｒ３・Ｒ７・…・Ｒ４ｎ＋３の１６個が格納され
ている。

【００３２】図１に示す通り、各演算パイプで実行され
た演算結果は、出力用の汎用バス２０７に出力される。
またこの例では、データ整列演算パイプや乗算パイプか
ら出力が４本あるので、そのうち１本を汎用の２０７の
バスへ、残りの３本を２１０のバスへ出力するようにす
る。２１０のバス上のデータは、セレクタ２０８に入力
される。

【００３３】セレクタ２０８は３入力４出力のセレクタ
で、図７に示される真理値表を満たす論理回路で構成さ
れる。

【００３４】図７中のａとｂは、制御信号を示し、ｉｎ
ｐｕｔのＸ，Ｙ，Ｚは入力値、ｏｕｔｐｕｔは、左から
バンク０、１、２、３への出力を示す。

【００３５】セレクタ２０８に入力される制御信号は、
ディスティネーションレジスタ指定フィールド（オペラ
ンドコードｄ）で示されるコードの下位２ｂｉｔを使用
する。また、汎用バス２０７へ出力されたデータは、セ
レクタ２０９へ入力され、格納するレジスタが存在する
バンクへ選択・出力される。

【００３６】セレクタ２０９は、制御信号として、セレ
クタ２０８同様ディスティネーションレジスタ指定フィ
ールドで示されるコード（オペランドコードｄ）の下位
２ｂｉｔを使い、図８に示す真理値表を満たす論理回路
で構成される。

【００３７】図８中のａとｂは、ディスティネーション
レジスタ指定フィールド（オペランドコードｄ）の下位
２ｂｉｔの値で、Ｘは入力値、Ｏｕｔｐｕｔは、左から
バンク０、１、２、３への出力を示す。

【００３８】これらセレクタ２０８とセレクタ２０９か
らの出力は、各バンクごとにお互いに排他的であり、片
方のセレクタの出力がデータならば、もう片方のセレク
タからの出力は０になる。従って、これら、セレクタ２
０８と２０９からの出力は、各バンクごとに論理和をと
って、バンク内のレジスタへ書き込まれることになる。

【００３９】以上までが、複数レジスタが指定できるＳ
ＩＭＤプロセッサの説明である。

【００４０】次に、このＳＩＭＤプロセッサの特徴を活
かして定義されるＳＩＭＤ演算命令について説明する。

【００４１】一般にＳＩＭＤプロセッサでは、レジスタ
内のデータが即演算できる順番に整列されているとき
に、その並列性を最大限に発揮することができるが、多
くの場合データを並び替えて後に主要な演算を行う必要
がある。従って、その並び替えサイクルをできる限り減
らすことが、ＳＩＭＤプロセッサの性能向上につなが
る。

【００４２】本発明の特徴を活かして、図９、図１０の
ようなデータパック命令を定義する。

【００４３】図９はシフト量がレジスタ内に存在する場
合。図１０は即値として、命令コード内にシフト量が存
在する場合である。

【００４４】図９ではデータパック命令のシフト量（Ｒ
ｎ）をレジスタから読み込み、Ｒｍで示されるレジスタ
群内のデータに対してシフト処理を施した後、パック演
算を遂行するオペレーションコードを示しており、図１
０では図９と比較してシフト量（ｓ）が即値の場合のオ
ペレーションコードを示している。

【００４５】この命令は図９中の動作説明からも分かる
ように、４つのレジスタ内データを１つのデータにパッ
クして格納するためのものである。

【００４６】この命令を実現するための回路構成は、図
１１に示されるものである。

【００４７】汎用バス２０６と３０７のバスには、レジ
スタ指定フィールド１（オペランドコードｍ）で示され
る４個のレジスタ内データが転送される。またレジスタ
指定フィールド２（オペランドコードｎ）で示されるシ
フト量は、汎用バス３０１から取り込まれる。これらデ
ータとシフト量は、任意ｂｉｔのシフトが可能なバレル
シフタ３０２にそれぞれ入力される。このバレルシフタ
３０２により固定小数点の除算を行うことができる。

【００４８】これらシフトされた結果の下位１６ｂｉｔ
のみを各々取り出し、汎用バス２０７へ出力して、６４
ｂｉｔ幅データとして１つのレジスタにパックすること
ができる。

【００４９】次に本発明の特徴を活かして、図１２、図
１３に示されるようなデータアンパック命令を定義す
る。このデータアンパック命令は、１つのレジスタ内Ｓ
ＩＭＤデータを複数のレジスタに分割して格納する命令
である。図１２は１６ｂｉｔデータを扱う場合、図１３
は８ｂｉｔデータを扱う場合を考慮して定義した。

【００５０】図１２では６４ｂｉｔのデータを１６ｂｉ
ｔ毎に分割、分割されたデータを６４ｂｉｔに符号拡張
し、ライトレジスタに書き込むオペレーションコードを
示している。図１３では図１２と比較し、８ｂｉｔデー
タを扱う為、書き込むライトレジスタ数が倍に成ってい
る。

【００５１】この命令を実現するための回路構成を図１
４を用いて詳細に説明する。

【００５２】レジスタ指定フィールド１（オペランドコ
ードｍ）で示されるレジスタ内のＳＩＭＤデータが汎用
バス２０６を通して伝送される。

【００５３】この図１４では、１６ｂｉｔデータに分割
する場合を示してあるが、汎用バス２０６を通して送ら
れたデータは、１６ｂｉｔごとに分割されて、それぞれ
別の符号拡張器４００に入力されて、６４ｂｉｔデータ
に符号拡張されてバス２０７と２１０に出力される。以
上の操作でデータアンパック機能を実現することができ
る。

【００５４】さらに、本発明の特徴を活かして図１５の
ような並べ替え命令を定義する。図１５では、４つの指
定されたレジスタ内ＳＩＭＤデータを読み出して、要素
毎に指定された並べ替えを行って指定されたレジスタに
並べ替えたＳＩＭＤデータを格納する為のオペレーショ
ンコードを示している。

【００５５】一般的に「並べ替え命令」は、行列の転置
や回転、ＦＦＴのバタフライ演算等に有効であり、具体
的な動作は図１６に示す。

【００５６】従来の並べ替え命令では、例えば１６ｂｉ
ｔ×４個のＳＩＭＤデータ２個に対して並べ替え操作を
行うと、結果格納用に６４ｂｉｔ幅レジスタ２個を必要
とするが、ディスティネーションレジスタとして１個し
か指定できないため、並べ替え結果の上位ｂｉｔ部分用
と下位ｂｉｔ部分用にそれぞれ別命令を用意していた。

【００５７】本定義による並び替え命令は、１個のレジ
スタ指定フィールドで複数レジスタを指定できる特徴か
ら、図１６のように４個のソースデータに対して、一度
に上位ｂｉｔ部と下位ｂｉｔ部の並べ替え操作を行うこ
とができ、２組分を同時に演算することができる。

【００５８】図１７に具体的な機能構成図を示す。汎用
バス２０６と３０７のバスを通して伝送されるソースデ
ータ対２組は、それぞれ１６ｂｉｔ幅に分割されて、並
び替え操作が行われ、その結果を２０７と２１０のバス
へ出力して、レジスタに書き込まれる。

【００５９】また、複素数データのような場合、ロード
したデータには実数と虚数が交互に存在することが多
く、演算には実数データのみ、虚数データのみのデータ
列を必要とすることが多々ある。

【００６０】そのような場合、本発明のＳＩＭＤプロセ
ッサならば、本実施例においては、最大で８個のＳＩＭ
Ｄデータを同時に読み込むことができるため、１６ｂｉ
ｔデータならば３２個のデータ間で並べ替え操作を行っ
て、１度に１６データ分の結果を求めることができる。

【００６１】上記のように複素数データを扱う処理を行
うためには、図１８、図１９で示されるような命令を定
義すれば良い。

【００６２】図１８では、８個の指定されたレジスタ内
ＳＩＭＤデータを読み出して、各要素を右端から数えて
１・２・３・４としたとき、１と３のデータ要素のみを
抽出して、指定されたレジスタに格納する処理を示すオ
ペレーションコードを示しており、図１９ではＳＩＭＤ
データを読み出した後、２と４のデータ要素のみを抽出
して、指定されたレジスタに格納する処理を示すオペレ
ーションコードを示している。

【００６３】具体的には図２０に示すような処理であっ
て、この場合は各レジスタ内データの６３ｂｉｔ目〜４
８ｂｉｔ目のデータと、３１ｂｉｔ目〜１６ｂｉｔ目の
データの抽出である。

【００６４】動作の詳細を図２１の回路構成図で説明す
ると、汎用バス２０６と３０１、３０７と５０１のバス
を通って伝送されるＳＩＭＤデータ８組３２個は、それ
ぞれ必要な１６ｂｉｔデータのみ抽出されて、結果を汎
用バス２０７と２１０のバスへ出力することによって実
現する。

【００６５】最後に、本発明の特徴を活かして、図２２
で示されるような積和演算命令を定義する。

【００６６】図２２では、２個の指定されたレジスタ内
ＳＩＭＤソースデータを読み出し、４個の累積和の基に
なるレジスタ内データをさらに読み出し、累積和の計算
をした後、指定された４個のレジスタにＳＩＭＤデータ
を格納する処理を示すオペレーションコードを示してい
る。

【００６７】一般の乗算においては、乗数および被乗数
のｂｉｔ幅に対して、得られる結果は倍のｂｉｔ幅をも
つため、１６ｂｉｔ幅のデータを４個も保持しているＳ
ＩＭＤ型６４ｂｉｔデータでは、演算結果を格納するた
めに１２８ｂｉｔ幅のレジスタが必要になる。現実解と
しては、ＳＩＭＤの並列性を犠牲にして、６４ｂｉｔ幅
レジスタの下位３２ｂｉｔにのみ有効なデータを格納し
て、結果を６４ｂｉｔに収める方法が多くとられてい
る。しかし累積和を取る場合、さらに結果のｂｉｔ幅が
増加する可能性があり、上記方法でも演算精度が落ちて
しまう。

【００６８】ＤＳＰにおいては、１６ｂｉｔ×１６ｂｉ
ｔの積和演算にて、格納用に４０ｂｉｔレジスタを用意
するなどして演算の精度を保つ工夫がなされている。

【００６９】しかし本発明の特徴を活かすと、ＳＩＭＤ
の並列性を損なうことなく、精度の落ちない積和演算を
実行することができる。

【００７０】図２２で定義した積和演算命令の具体的な
説明図を図２３に、回路構成図を図２４に示す。

【００７１】１６ｂｉｔデータ４個を含むＳＩＭＤデー
タは、汎用バス２０６とバス３０７を通して伝送され
る。それらのＳＩＭＤデータは、１６ｂｉｔデータごと
に分割されて、各々乗算器７００〜７０３に入力され、
７０４〜７０７の加算器へ出力される。累積和のデータ
は、汎用バス３０１とバス５０１を通して伝送され、７
０４〜７０７の加算器へ入力される。これらの累積和演
算の結果は、格納用の汎用バス２０７とバス２１０へ出
力される。このような手段を用いて、精度を落とすこと
なく、かつ並列性を保ったまま、ＳＩＭＤデータの積和
演算を実現することができる。

【００７２】以上本発明者によってなされた発明を実施
形態に基づいて具体的に説明したが、本発明はそれに限
定されるものではなく、その要旨を逸脱しない範囲にお
いて種々変更可能であることは言うまでもない。

【００７３】例えば図１におけるセレクタ２０４は、４
入力に対して３出力のセレクタであるが、これをトライ
ステートバッファーにしても何ら問題はない。

【００７４】データパック命令の場合、図１１では、４
入力１出力であるが、入力は何本でもよく、また出力本
数も制限されるものではない。

【００７５】さらにデータアンパック命令の場合、レジ
スタ内のＳＩＭＤデータの型によって、分割する数が決
定するので、図１４のように４個に限定されるものでも
ない。

【００７６】

【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば下記
の通りである。

【００７７】すなわち、本発明によるＳＩＭＤプロセッ
サは、ＳＩＭＤ演算の効果を妨げるレジスタ内データ整
列演算の高速化を実現することができ、さらにＤＳＰ的
な積和演算を実現することが可能である。

【００７８】具体的な効果は以下に挙げる点である。

【００７９】（１）本発明により定義されたデータパッ
ク命令を導入することにより、ばらばらに格納されてい
るデータを纏め、ＳＩＭＤ命令で効率的にデータ処理を
行うことができる。

【００８０】本実施例の場合（１６ｂｉｔデータ４個の
パック）を図２５に示す。図中のＡは現状の場合のプロ
グラム例であり、Ｂが新規のデータパック命令を採用し
た場合のものである。

【００８１】Ｂ中の「ｐａｃｋ．ｗ」をデータパック命
令のニーモニックとする。このＡとＢのプログラム例の
ように、データパック命令を採用することによって、命
令ステップを１／４に削減することができる。

【００８２】（２）本発明により定義されたデータアン
パック命令を導入することにより、速やかなレジスタの
初期化や、データの分割が行え、ＳＩＭＤ処理が効果的
でない部分においても、演算効率が落ちないようにする
ことができる。

【００８３】本実施例の場合（１個のレジスタに存在す
る１６ｂｉｔデータ４個を４個のレジスタにアンパッ
ク）を図２６に示す。

【００８４】図中のＡが従来の並べ替え命令を用いてデ
ータパックする場合のプログラム例であり、Ｂが新規デ
ータアンパック命令を採用した場合のものである。図２
６からもわかるように、新規命令の追加によって、命令
ステップ数を１／６にまで削減することができる。

【００８５】（３）本発明により定義されたデータ並べ
替え命令を導入することにより、レジスタ内ＳＩＭＤデ
ータの並び替えを高速に行うことができ、積和演算等の
ＳＩＭＤ処理に遅滞なくデータを供給することができ
る。

【００８６】本実施例の場合を図２７に示す。図中のＡ
が従来の並べ替え命令を用いた場合のプログラム例であ
り、図中のＢが新規の並べ替え命令を採用した場合のプ
ログラム例である。この図２７から明らかなように、命
令ステップ数を１／８にまで削減することが可能とな
る。

【図面の簡単な説明】

【図１】本発明の１例に係わるＳＩＭＤプロセッサのＣ
ＰＵブロック図である。

【図２】本発明の１例に係わるＳＩＭＤプロセッサの全
体ブロック図である。

【図３】前記ＳＩＭＤプロセッサのレジスタファイル部
近辺の詳細図である。

【図４】デコード部を構成する論理回路の真理値表を示
す図である。

【図５】図３のバンクからのデータを選択するセレクタ
を構成する論理回路の真理値表を示す図である。

【図６】バンク２０３内の個々のレジスタ詳細図であ
る。

【図７】汎用バス上の演算結果を、どのバンクのレジス
タに格納するのか、その場所をセレクトするためのセレ
クタを構成する論理回路の真理値表を示す図である。

【図８】バス２１０上の演算結果を、どのバンクのレジ
スタに格納するのか、その場所をセレクトするためのセ
レクタを構成する論理回路の真理値表を示す図である。

【図９】データパック命令の定義を示す図である。

【図１０】即値を含むデータパック命令の定義を示す図
である。

【図１１】データパック命令を実現するための機能構成
図である。

【図１２】データアンパック命令の定義を示す図であ
る。

【図１３】８ｂｉｔデータに対するアンパック命令の定
義を示す図である。

【図１４】データアンパック命令を実現するための構成
図である。

【図１５】並べ替え命令の定義を示す図である。

【図１６】並べ替え命令の具体的な説明図である。

【図１７】並べ替え命令を実現するための機能構成図で
ある。

【図１８】並べ替え命令の定義を示す図である。

【図１９】並べ替え命令の他の定義を示す図である。

【図２０】並べ替え命令の具体的な使用例を示す図であ
る。

【図２１】図２０を実現するための機能構成図である。

【図２２】積和演算命令の定義を示す図である。

【図２３】積和演算命令の具体的な説明図である。

【図２４】図２３を実現するための機能構成図である。

【図２５】データパック命令導入の効果を示すプログラ
ム例を示す図である。

【図２６】データアンパック命令導入の効果を示すプロ
グラム例を示す図である。

【図２７】並べ替え命令導入の効果を示すプログラム例
を示す図である。

【符号の説明】

２００…ＣＰＵブロック、２０１…命令コード、２０２
…レジスタ指定デコーダ、２０３…レジスタファイルを
分割したバンクの１つ、２０４…４入力３出力セレク
タ、２０５…４入力１出力セレクタ、２０６、３０１…
ソースデータ用汎用バス、２０７…演算結果用汎用バ
ス、２０８…３入力４出力セレクタ、２０９…１入力４
出力セレクタ、２１０…演算結果用バス、２１１…デー
タ整列演算パイプ、２１２…乗算パイプ、２１３…レジ
スタファイル、３０２…右算術シフト用バレルシフタ、
３０７、５０１…ソースデータ用バス、４００…６４ｂ
ｉｔ符号拡張器、７００、７０１，７０２，７０３…１
６ｂｉｔ乗算器、７０４、７０５，７０６，７０７…６
４ｂｉｔ加算器、７０８、７０９，７１０，７１１…１
ｂｉｔ右シフト器。

Claims

【特許請求の範囲】

【請求項１】命令コードと、少なくとも１つのレジスタ
指定フィールドからなる演算命令を有し、上記少なくと
も１つのレジスタ指定フィールドは連続番号の複数個の
レジスタが指定可能であることを特徴とするプロセッ
サ。
【請求項２】任意数のレジスタ指定フィールドの内、１
フィールドで複数のリードレジスタを指定するデコーダ
と、該デコーダからの出力に従って連続番号の複数個の
レジスタ内データを出力するレジスタファイルとを具備
することを特徴とするプロセッサ。
【請求項３】任意数のレジスタ指定フィールドの内、１
フィールドで複数のライトレジスタを指定するデコーダ
と、該デコーダからの出力に従って連続番号の複数個の
レジスタに値を書き込めるレジスタファイルとを具備す
ることを特徴とするプロセッサ。
【請求項４】請求項２もしくは３記載のプロセッサにお
いて、上記レジスタファイルは複数のバンクを有し、前
記複数のバンクからリードまたはライトを行うことによ
り、各バンクのリードまたはライトポート数をレジスタ
指定フィールド数以下に制限して、フィールド数より多
くのリードまたはライトを行うことによる回路規模の増
大を抑制したプロセッサ。
【請求項５】請求項１、２又は３のいずれかに記載のプ
ロセッサにおいて、該連続番号の複数個のレジスタ数は
２のｎ乗個（ｎは自然数）と限定して、レジスタ選択回
路の削減を可能としたプロセッサ。
【請求項６】請求項１から５のいずれかに記載のプロセ
ッサにおいて、さらにリードレジスタ指定フィールド数
より多くの数のレジスタからデータをリードするため、
ライトレジスタへの書き込みデータ数より多くのリード
レジスタからの読み出しデータ数に対応可能なデータパ
ック演算を、ライトレジスタに無効な部分を生成するこ
となく実現可能であることを特徴とするプロセッサ。
【請求項７】請求項１から５のいずれかに記載のプロセ
ッサにおいて、さらにライトレジスタ指定フィールド数
より多い数のレジスタにライトできることから、リード
レジスタの読み出しデータ数より多くのライトレジスタ
への書き込みデータ数に対応可能なデータアンパック演
算を、ライトを複数回に分けることなく並列的に実現可
能であることを特徴とするプロセッサ。
【請求項８】請求項１から５のいずれかに記載のプロセ
ッサにおいて、さらにライトレジスタ指定フィールド数
より多くのレジスタにライトできることから、入力デー
タ幅より広いデータ幅の出力を行う演算を、入力データ
に無効部分を作ることなく、さらにデータ幅の広い特別
なレジスタを実装することもなく、実現可能であること
を特徴とするプロセッサ。