JP2002509312A

JP2002509312A - 不整列データ・アクセスを実行するためのデータ整列バッファを有するディジタル信号プロセッサ

Info

Publication number: JP2002509312A
Application number: JP2000540496A
Authority: JP
Inventors: ガード，ダグラス
Original assignee: Analog Devices Inc
Current assignee: Analog Devices Inc
Priority date: 1998-01-16
Filing date: 1999-01-08
Publication date: 2002-03-26
Also published as: WO1999036852A1; EP1047989B1; US6061779A; EP1047989A1; DE69906482T2; DE69906482D1

Abstract

(57)【要約】高性能ディジタル信号プロセッサは、ディジタル信号計算のための命令およびオペランドを格納するメモリ、およびメモリに接続されたコア・プロセッサを含む。メモリは、第１、第２および第３データおよびアドレス・バスによってそれぞれコア・プロセッサに接続された、第１、第２および第３メモリ・バンクを含むことができる。コア・プロセッサは、プログラム・シーケンサを含み、ディジタル信号計算の第１および第２部分集合をそれぞれ実行する、第１および第２計算ブロックを含むことができる。メモリ・バンクと計算ブロックとの間にデータ整列バッファを備えている。データ整列バッファは、異なるメモリ行に格納されている指定のオペランドに対する、不整列アクセスを可能にする。指定のオペランドは、同じプロセッサ・サイクルにおいて、計算ブロックの一方または双方に供給される。

Description

【発明の詳細な説明】

【０００１】（発明の分野）本発明は、ディジタル信号プロセッサに関し、更に特定すれば、メモリの異な
る行に格納されているオペランドを計算ユニットに効率的に供給可能なディジタ
ル信号プロセッサに関するものである。（発明の背景）ディジタル信号コンピュータ即ちディジタル信号プロセッサ（ＤＳＰ）は、例
えば、高速フーリエ変換、ディジタル・フィルタ、画像処理および音声認識とい
うような、ディジタル信号処理用途のために処理能力を最適化するように設計さ
れた特殊目的コンピュータである。ディジタル信号プロセッサの用途は、典型的
に、リアル・タイム動作、高い割込率、および集中的数値計算を特徴とする。加
えて、ディジタル信号プロセッサの用途は、メモリ・アクセス動作が集中的に行
われ、大量のデータ入力および出力を必要とする場合が多い。したがって、ディ
ジタル信号プロセッサの設計は、汎用コンピュータとは全く異なると考えられる
。

【０００２】高速数値計算を達成するためにディジタル信号プロセッサのアーキテクチャに
用いられている手法の１つに、ハーバード・アーキテクチャ（Ｈａｒｖａｒｄ
ａｒｃｈｉｔｅｃｔｕｒｅ）がある。これは、分離した独立のプログラム・メモ
リおよびデータ・メモリを利用し、２つのメモリに同時にアクセスを可能とした
ものである。このアーキテクチャでは、単一クロック・サイクルでメモリから命
令およびオペラントを取り出すことが可能である。多くの場合、プログラムは、
当該プログラムのオペランドよりも占有するメモリ空間は少ない。メモリ利用の
最大化を図るために、命令およびオペランド双方を格納するプログラム・メモリ
を利用する、変更ハーバード・アーキテクチャがある。典型的に、プログラムお
よびデータ・メモリは、別個のプログラム・バスおよびデータ・バスによって、
コア・プロセッサと接続されている。

【０００３】ディジタル信号プロセッサは、２つ以上のデータ・ワードをメモリの各行に格
納し、２つ以上のデータ・ワードを並列に計算ユニットに供給可能なアーキテク
チャを利用する場合がある。かかるアーキテクチャは性能向上をもたらすが、そ
れは数個の命令および／またはオペランドに並列にアクセスできるからである。

【０００４】ディジタル信号プロセッサは、ディジタル・フィルタ計算を実行する必要があ
ることが多く、その際ディジタル・フィルタの出力信号サンプルは、指定された
入力信号サンプルのために計算される。有限インパルス応答（ＦＩＲ）ディジタ
ル・フィルタでは、各信号サンプルを表わすデータ値にフィルタ係数を乗算し、
積を結合してフィルタ出力値を得る。次に、フィルタ係数に対してデータ値をシ
フトし、このプロセスを繰り返して、連続フィルタ出力信号サンプルを表わすデ
ータ値を得る。かかる計算は、２つ以上のデータ・ワードを各メモリ行に格納す
る、ディジタル信号プロセッサのアーキテクチャにおいて効率的に実行するのは
困難である。特に、各クロック・サイクル毎にデータ値を適正な係数と整列させ
るのは容易でないので、これらの計算を実行するには複雑なソフトウエア・ルー
チンが必要となる。

【０００５】したがって、これらの困難を克服する、ディジタル信号プロセッサ・アーキテ
クチャの改良が必要とされている。（発明の概要）本発明の第１の態様によれば、ディジタル信号プロセッサを提供する。ディジ
タル信号プロセッサは、ディジタル信号計算を実行するための命令およびオペラ
ンドを含むデータ・ワードを格納するメモリと、プログラム・シーケンサと、計
算ユニットと、命令デコーダと、データ整列バッファとを含む。メモリは、各々
２つ以上のデータ・ワードのための位置を有する行に編成されている。プログラ
ム・シーケンサは、メモリから命令を取り出す命令アドレス、およびメモリから
オペランドを取り出すデータ・アドレスを発生する。計算ユニットは、メモリか
ら取り出した命令およびオペランドを用いて、ディジタル信号計算を実行する。
命令デコーダは、メモリの異なる行に格納されている、指定のオペランドに対す
る不整列（ｕｎａｌｉｇｎｅｄｄａｔａ）データ・アクセスを示す命令に応答
して、１つ以上の制御信号を発生する。データ整列バッファは、メモリの異なる
行からオペランドのラインを受け取り、制御信号に応答して、指定のオペランド
を計算ユニットに供給する。

【０００６】データ整列バッファは、メモリの第１行からの第１オペランド・ラインを格納
するバッファと、バッファからの第１オペランド・ラインとメモリの第２行から
の第２オペランド・ラインとを受け取り、制御信号に応答して第１および第２オ
ペランド・ラインから指定のオペランドを選択するマルチプレクサとを備えるこ
とができる。マルチプレクサは、計算ユニット内のレジスタ・ファイルに、指定
のオペランドを供給することができる。制御信号は、マルチプレクサに供給され
るオフセット値と、バッファに供給されるロード信号とを含むことができる。オ
フセット値は、メモリの行に対する指定のオペランドのオフセットを表わす。（図面の簡単な説明）本発明をよりよく理解するために、添付図面を参照する。図面は、この言及に
より本明細書に含まれるものとする。（詳細な説明）本発明によるディジタル信号プロセッサ（ＤＳＰ）１０のブロック図を図１に
示す。ＤＳＰ１０の主要な構成要素は、計算ブロック１２および１４、メモリ１
６、制御ブロック２４、リンク・ポート・バッファ２６、外部ポート２８、ＤＲ
ＡＭコントローラ３０、命令整列バッファ（ＩＡＢ：ｉｎｓｔｒｕｃｉｏｎａ
ｌｉｇｎｍｅｎｔｂｕｆｆｅｒ）３２ならびに一次命令デコーダ３４である。
計算ブロック１２および１４、命令整列バッファ３２、一次命令デコーダならび
に制御ブロック２４は、ＤＳＰ１０の主計算およびデータ処理機能を実行するコ
ア・プロセッサを構成する。外部ポート２８は、外部アドレス・バス５８および
外部データ・バス６８を通じて外部通信を制御する。リンク・ポート・バッファ
２６は、通信ポート３６を介して外部通信を制御する。ＤＳＰは、単一のモノリ
シック集積回路として構成することが好ましく、０．３５ミクロン・ゲート、四
金属、ＳＲＡＭＣＭＯＳプロセスを用いて製作することが好ましい。好適な実
施形態では、４１．５ＭＨＺの周波数の外部クロック（図示せず）を内部で４と
乗算し、１６６ＭＨＺの内部クロックを得ている。

【０００７】メモリ１６は、３つの独立した大容量メモリ・バンク４０、４２および４４を
含む。好適な実施形態では、メモリ・バンク４０、４２および４４の各々は、６
４Ｋワードの容量を有し、各ワードは３２ビットである。以下で論ずるが、メモ
リ・バンク４０、４２および４４の各々は、１２８ビット・データ・バスを有す
ることが好ましい。４つまでの連続する３２ビット整列データ・ワードの各々を
、単一のクロック・サイクルにおいて、各メモリ・バンクに転送するか、あるい
は各メモリ・バンクから転送することができる。

【０００８】ＤＳＰ１０の素子は、効率的な高速動作のために、バスによって相互接続され
ている。バスの各々は、二進情報の並列転送のために多数のラインを含む。第１
アドレス・バス５０（ＭＡ０）は、メモリ・バンク４０（Ｍ０）および制御ブロ
ック２４を相互接続する。第２アドレス・バス５２（ＭＡ２）は、メモリ・バン
ク４２（Ｍ１）および制御ブロック２４を相互接続する。第３アドレス・バス５
４（ＭＡ２）は、メモリ・バンク４４（Ｍ２）および制御ブロック２４を相互接
続する。アドレス・バス５０、５２および５４の各々は、１６ビット幅であるこ
とが好ましい。外部アドレス・バス５６（ＭＡＥ）は、外部ポート２８および制
御ブロック２４を相互接続する。外部アドレス・バス５６は、外部ポート２８を
介して、外部アドレス・バス５８に相互接続されている。外部アドレス・バス５
６および５８の各々は、３２ビット幅であることが好ましい。第１データ・バス
６０（ＭＤ０）は、メモリ・バンク４０、計算ブロック１２および１４、制御ブ
ロック２４、リンク・ポート・バッファ２６、ＩＡＢ３２および外部ポート２８
を相互接続する。第２データ・バス６２（ＭＤ１）は、メモリ・バンク４２、計
算ブロック１２および１４、制御ブロック２４、リンク・ポート・バッファ２６
、ＩＡＢ３２および外部ポート２８を相互接続する。第３データ・バス６４（Ｍ
Ｄ２）は、メモリ・バンク４４、計算ブロック１２および１４、制御プロック２
４、リンク・ポート・バッファ２６、ＩＡＢ３２および外部ポート２８を相互接
続する。データ・バス６０、６２および６４は、外部ポート２８を介して外部デ
ータ・バス６８に接続されている。データ・バス６０、６２および６４は、１２
８ビット幅であることが好ましく、外部データ・バス６８は６４ビット幅である
ことが好ましい。

【０００９】第１アドレス・バス５０および第１データ・バス６０は、データのメモリ・バ
ンク４０への転送およびメモリ・バンク４０からの転送のためのバスを構成する
。第２アドレス・バス５２および第２データ・バス６２は、データのメモリ・バ
ンク４２への転送およびメモリ・バンク４２からの転送のための第２バスを構成
する。第３アドレス・バス５４および第３データ・バス６４は、データのメモリ
・バンク４４への転送およびメモリ・バンク４４からの転送のための第３バスを
構成する。メモリ・バンク４０、４２および４４の各々は別個のバスを有するの
で、メモリ・バンク４０、４２および４４は同時にアクセス可能である。ここで
用いる場合、「データ」とは二進ワードのことを言い、ＤＳＰ１０の動作に関連
する命令またはオペランドのいずれかを表わすことができる。典型的な動作モー
ドでは、プログラム命令はメモリ・バンクの１つに格納され、オペランドは他の
２つのメモリ・バンクに格納される。このように、少なくとも１つの命令および
２つのオペランドを単一クロック・サイクルで計算ブロック１２および１４に供
給することができる。以下で説明するように、メモリ・バンク４０、４２および
４４の各々は、単一クロック・サイクルにおいて多数のデータ・ワードの読み出
しおよび書き込みを可能とするように構成されている。単一クロック・サイクル
における各メモリ・バンクからの多数のデータ・ワードの同時転送は、命令キャ
ッシュやデータ・キャッシュを必要とせずに行われる。

【００１０】制御ブロック２４は、プログラム・シーケンサ７０、第１整数ＡＬＵ７２（Ｊ
ＡＬＵ）、第２整数ＡＬＵ７４（ｋＡＬＵ）、第１ＤＭＡアドレス発生器７６（
ＤＭＡＧＡ）および第２ＤＭＡアドレス発生器７８（ＤＭＡＧＢ）を含む。
整数ＡＬＵ７２および７４は、異なる時点において、整数ＡＬＵ命令を実行し、
データ・アドレスの発生を行なう。プログラムの実行中、プログラム・シーケン
サ７０は、命令シーケンスのメモリ位置に応じて、アドレス・バス５０、５２、
５４および５６の１つに、一連の命令アドレスを供給する。典型的に、メモリ・
バンク４０、４２または４４の１つは、命令シーケンスの格納に用いられる。整
数ＡＬＵ７２および７４の各々は、命令が必要とするオペランドの位置に応じて
、アドレス・バス５０、５２、５４および５６の１つにデータ・アドレスを供給
する。例えば、命令シーケンスをメモリ・バンク４０に格納し、必要なオペラン
ドがメモリ・バンク４２および４４に格納されていると仮定する。この場合、プ
ログラム・シーケンサは、アドレス・バス５０上に命令アドレスを供給し、アク
セスされた命令を命令整列バッファ３２に供給する。これについては、以下で説
明する。整数ＡＬＵ７２および７４は、例えば、アドレス・バス５２および５４
にそれぞれオペランドのアドレスを出力することができる。整数ＡＬＵ７２およ
び７４が発生したアドレスに応答して、メモリ・バンク４２および４４は、それ
ぞれ、データ・バス６２および６４上で、計算ブロック１２および１４のいずれ
かまたは双方にオペランドを供給する。メモリ・バンク４０、４２および４４は
、命令およびオペランドの格納に関しては相互交換可能である。

【００１１】プログラム・シーケンサ７０ならびに整数ＡＬＵ７２および７４は、外部ポー
ト２８を介して外部メモリ〔図示せず〕にアクセスすることができる。所望の外
部メモリ・アドレスは、アドレス・バス５６上に置かれる。外部アドレスは、外
部ポート２８を介して、外部アドレス・バス５８に結合される。外部メモリは、
要求されたデータ・ワードまたは複数のデータ・ワードを外部データ・バス６８
上に供給する。外部データは、外部ポート２８ならびにデータ・バス６０、６２
および６４の１つを介して、計算ブロック１２および１４の一方または双方に供
給される。ＤＲＡＭコントローラ３０は、外部メモリを制御する。

【００１２】先に示したように、メモリ・バンク４０、４２および４４の各々は、各ワード
が３２ビットとして、６４ｋワードの容量を有することが好ましい。各メモリ・
バンクは、１２８ビット幅のデータ・バスに接続することができる。代替実施形
態では、各データ・バスは６４ビット幅でもよく、クロック・フェーズ１および
クロック・フェーズ２の各々において６４ビットを転送することによって、事実
上１２８ビットのバス幅を確保する。単一クロック・サイクルにおいて、各メモ
リ・バンクの多数のデータ・ワードにアクセスすることができる。即ち、データ
は、各々３２ビットの単一、二重および四重ワードとしてアクセスすることがで
きる。二重および四重アクセスでは、メモリにおいてデータを整列する必要があ
る。四重データ・アクセスの典型的な用途は、高速フーリエ変換（ＦＦＴ）およ
び複素ＦＩＲフィルタである。また、四重アクセスは、倍精度演算にも役立つ。
好ましくは、命令を四重ワードとしてアクセスする。しかしながら、命令は、メ
モリ内で整列する必要はない。

【００１３】四重ワード転送を用いると、各々３２ビットの命令４つおよびオペランド８つ
を、単一クロック・サイクルにおいて計算ブロック１２および１４に供給するこ
とができる。転送されるデータ・ワード数、およびデータ・ワードを転送する計
算ブロックまたはブロック群は、命令内の制御ビットによって選択される。単一
、二重、または四重データ・ワードは、計算ブロック１２、計算ブロック１４、
または双方に転送することができる。二重および四重データ・ワード・アクセス
は、多くの用途において、単一クロック・サイクルに数個のオペランドを計算ブ
ロック１２および１４に転送可能とすることにより、ＤＳＰ１０の処理能力を向
上させる。各クロック・サイクル毎に多数の命令にアクセスすることができるの
で、各サイクル毎に多数の動作を実行し、これによって処理能力を向上させるこ
とができる。計算ブロック１２および１４が必要とするよりも早くオペランドを
供給することができれば、メモリ・サイクルが残り、これをＤＭＡアドレス発生
器７６および７８が用いて、これら未使用のサイクル中に新たなデータをメモリ
・バンク４０、４２および４４に供給することが可能となる。この際、コア・プ
ロセッサからサイクルを盗むことはない。また、１つの命令を多数のオペランド
に転送することができる場合、他の動作を実行するために命令スロットが利用可
能となり、これによって処理能力を向上させることができる。最後に、多数のデ
ータ・ワードにアクセスすることができるので、２つ以上の計算ブロックを利用
し、これらにオペランドを供給し続けることも可能となる。単一または二重デー
タ・ワードにアクセスすることができるので、四重データ・ワードにのみアクセ
スする構成と比較すると、電力消費が低減する。

【００１４】計算ブロック１２および１４の各々の実施形態について、その一例のブロック
図を図２に示す。多重ポートレジスタ・ファイル１００は、オペランドおよび結
果のために一時的な格納を行なう。好適な実施形態では、レジスタ・ファイル１
００は、各ワード３２ビットとして、３２ワードの容量を有し、各々１２８ビッ
トの８行に編成されている。レジスタ・ファイル１００は、マルチプレクサおよ
びラッチ１０２ならびにデータ整列バッファ１１０を介して、データ・バス６０
、６２および６４の各々に接続されている。オペランドをメモリ１６から読み出
す場合、３系統のデータ・バスの内１つまたは２つを選択することができる。選
択したバスの一方では、オペランドはバス１０４上のデータ整列バッファ１１０
に供給される。選択したバスの他方では、オペランドはバス１１２上のレジスタ
・ファイル１００に供給される。データ整列バッファ１１０は、オペランドをバ
ス１０６上のレジスタ・ファイル１００に供給する。これについては以下で詳細
に説明する。データをレジスタ・ファイル１００からメモリ１６または外部メモ
リに書き込んでいるとき、データは、バス１０８上のマルチプレクサおよびラッ
チ１０２に供給される。バス１０４、１０６、１０８および１１２の各々は、１
２８ビット幅とするとよい。バス１０８上の出力データは、マルチプレクサおよ
びラッチ１０２によって、データ・バス６０、６２および６４の内選択したもの
に切り替えられ、メモリに書き込まれる。３系統のデータ・バス６０、６２およ
び６４から１つまたは２つを選択することに加えて、マルチプレクサおよびラッ
チ１０２は、命令制御下にある各バス内においてワードの選択を可能にする。単
一ワード（ｓｉｎｇｌｅｗｏｒｄ）転送の場合、マルチプレクサおよびラッチ
１０２は、アクセスしたデータ・ワードを選択しても、しなくてもよい。二重ワ
ード（ｄｕａｌｗｏｒｄ）転送の場合、マルチプレクサおよびラッチ１０２は
、データ・ワードのいずれかまたは双方を選択することができる。四重ワード（
ｑｕａｄｗｏｒｄ）転送の場合、マルチプレクサおよびラッチ１０２は、二重
データ・ワードの異なる組み合わせを選択することができ、あるいは四重データ
・ワード全体を選択することができる。

【００１５】図２に示す計算ブロックは、乗算器／アキュミュレータ１２０、算術論理ユニ
ット（ＡＬＵ）１２２およびシフタ１２４を含む。乗算器／アキュミュレータ１
２０、ＡＬＵ１２２およびシフタ１２４は、十分な命令およびオペランドを計算
ブロックに供給することができる範囲において、命令の同時実行を可能とする。
オペランドは、オペランド・バス１３０（ｏｂ１）、１３２（ｏｂ２）、１３４
（ｏｂ２）および１３６（ｏｂ３）上において、レジスタ・ファイル１００から
乗算器／アキュミュレータ１２０、ＡＬＵ１２２およびシフタ１２４に供給され
る。オペランド・バス１３０、１３２、１３４および１３６の各々は、６４ビッ
ト幅である。乗算器／アキュミュレータ１２０からの結果は、結果バス１４０（
ｒｍ）上でレジスタ・ファイル１００に戻される。ＡＬＵ１２２からの結果は、
結果バス１４２（ｒａ）および結果バス１４４（ｒｓ）上でレジスタ・ファイル
１００に戻される。シフタ１２４からの結果は、結果バス１４４上でレジスタ・
ファイル１００に戻される。結果バス１４０、１４２および１４４は、乗算器／
アキュミュレータ１２０、ＡＬＵ１２２およびシフタ１２４を含む計算ユニット
の各々に接続されているので、各計算ユニットは、結果バス１４０、１４２およ
び１４４から直接オペランドを得ることができる。結果バス１４０、１４２およ
び１４４の各々は、６４ビット幅であることが好ましい。レジスタ・ファイル１
００のアドレシング、ならびにマルチプレクサおよびラッチ１０２、乗算器／ア
キュミュレータ１２０、ＡＬＵ１２２およびシフタ１２４に対する制御信号は、
二次命令デコーダ１５０から供給される。二次命令デコーダ１５０は、一次命令
デコーダ３４（図１）から供給される命令を復号する。２つの計算ブロック１２
および１４の各々は、同じクロック・サイクルにおいて、各々乗算器／アキュミ
ュレータ１２０、ＡＬＵ１２２およびシフタ１２４に１つずつ、３つまでの命令
を実行することができる。

【００１６】図１に示したアーキテクチャでは、命令整列バッファ３２および一次命令デコ
ーダ３４は集中化されている。メモリ・バンク４０、４２および４４の１つから
取り出した命令は、データ・バス６０、６２および６４の１つの上にある命令整
列バッファ３２に供給される。命令は、命令シーケンスによって要求されるクロ
ック・サイクルにおける実行のために整列され、部分的に一次命令デコーダ３４
によって復号される。部分的に復号された命令は、ＤＳＰ１０内の適切なブロッ
クに供給される。例えば、命令は、計算ブロック１２および１４の一方または双
方、あるいは制御ブロック２４に供給することができる。命令の復号は、当該命
令を利用するブロックによって完了する。例えば、図２に示すように、二次命令
デコーダ１５０は、計算命令の復号を完了する。

【００１７】メモリ・バンク４０、４２および４４の各々を表わすブロック図を図３に示す
。各メモリ・バンクは、メモリ位置の４つの列２００、２０２、２０４および２
０６として編成されている。この例では、各列は、各ワードが３２ビットの、１
６Ｋワードとして編成されている。アドレスは、列２００、２０２、２０４およ
び２０６全体で線形に増加する。列２００、２０２、２０４および２０６の各々
に対するデータ・ラインは、ドライバ２１０を介して、データ・バス２１２に接
続されている。データ・バス２１２は、図１に示し上述したデータ・バス６０、
６２および６４の１つに対応する。データ・バス２１２は、１２８ビット幅であ
ることが好ましい。アドレス・ビット（１５：２）が列２００、２０２、２０４
および２０６に供給され、アドレス・ビット（１：０）がドライバ２１０に供給
される。列２００、２０２、２０４および２０６に供給されるアドレス・ビット
は、各々３２ビットで、各列に１つずつ、４つの連続する整列データ・ワードの
行をアドレスする。ドライバ２１０は、アクセスされているのは単一、二重また
は四重データ・ワードのどれかを示す２ビット信号を受け取る。前述のように単
一、二重または四重ワード転送は、単一クロック・サイクルにおいて行なうこと
ができる。

【００１８】単一ワード転送では、アドレス・ビット（１５：２）は、４つの連続する整列
データ・ワードの列を選択し、アドレス・ビット（１：０）は列２００、２０２
、２０４および２０６の１つを選択する。ドライバ２１０は、バス２１２に、選
択したワードを送出する。

【００１９】二重ワード転送では、アドレス・ビット（１５：２）は、４つの連続する整列
データ・ワードの行を選択し、アドレス・ビット（１）は１対の隣接する列を選
択する。列２００および２０２または列２０４および２０６を選択することがで
きる。選択した二重ワードは、ドライバ２１０によって、データ・バス２１２上
に送出される。

【００２０】四重ワード転送では、列２００、２０２、２０４および２０６内の連続する整
列ワードが、アドレス・ビット（１５：２）によって選択される。四重ワードは
、ドライバ２１０によって、データ・バス２１２上に送出される。単一、二重お
よび四重ワード転送では、選択したワードは、左にも右にもシフトせず、直接デ
ータ・バス２１２上に送出することが好ましい。

【００２１】多数のデータ・ワードにアクセスできるので、前述のようにディジタル信号プ
ロセッサの処理能力が向上する。しかしながら、前述のアーキテクチャでは、メ
モリ・バンク４０、４２および４４に対するアクセスを整列する必要がある。オ
ペランドに対するアクセスの整列は、メモリ・バンクの単一行におけるオペラン
ドの、計算ブロック１２および１４の一方または双方への転送を伴う。先に論じ
たが、ＦＩＲフィルタ計算のように、計算によっては、メモリ・アクセスを整列
アクセスに制限すると、比較的複雑化する場合もある。

【００２２】本発明によれば、ディジタル信号プロセッサ１０に、不整列アクセスを実行す
る機能が備えている。「不整列アクセス」という用語は、異なるメモリ行におい
て指定されたオペランドへのアクセスを意味する。指定されたオペランドは、メ
モリに対して整列されていないが、前述のように、計算ブロック１２および１４
の一方または双方に並列に、即ち、同じプロセッサ・サイクル上で供給すること
ができる。対照的に、整列アクセスとは、単一のメモリ行において指定されたオ
ペランドにアクセスするもののことである。

【００２３】メモリ・バンク４０の一部を図４に示す。前述のように、各メモリ・バンクは
、４つの連続する３２ビット・ワードの行として編成することができる。メモリ
・バンク４０のメモリ行３０２、３０４および３０６を、図４に示す。メモリ行
３０２は、位置４ｎ、４ｎ＋１、４ｎ＋２および４ｎ＋３を含む。メモリ行３０
４は、位置４ｎ＋４、４ｎ＋５、４ｎ＋６および４ｎ＋７を含む。メモリ行３０
６は、位置４ｎ＋８、４ｎ＋９、４ｎ＋１０および４ｎ＋１１を含む。１組の指
定したオペランドは、メモリ行３０２内に格納されている１つ以上のオペランド
、およびメモリ行３０４内に格納されている１つ以上のオペランドを含むことが
できる。例えば、指定した四重データ・ワードは、メモリ行３０２からのワード
４ｎ＋３、およびメモリ行３０４からのワード４ｎ＋４、４ｎ＋５および４ｎ＋
６を含むことができる。オペランドは、メモリ行に対するオフセット値によって
指定することも可能である。前述の例では、指定オペランドは、メモリ行３０２
に対して位置３つだけずれている。尚、指定オペランドは、メモリ行に対して異
なるオフセット値を有する場合もあることは理解されよう。したがって、オフセ
ット値が０の場合は、整列アクセスを指定し、メモリ行３０２における４つのオ
ペランドにアクセスする。オフセット値が１の場合、不整列アクセスを指定し、
メモリ行３０２においてワード４ｎ＋１、４ｎ＋２、４ｎ＋３にアクセスし、メ
モリ行３０４においてワード４ｎ＋４にアクセスする。オフセット値が２の場合
、不整列アクセスを指定し、メモリ行３０２においてワード４ｎ＋２および４ｎ
＋３にアクセスし、メモリ行３０４においてワード４ｎ＋４および４ｎ＋５にア
クセスする。最後に、オフセット値が３の場合、不整列アクセスを指定し、メモ
リ行３０２においてワード４ｎ＋３にアクセスし、メモリ行３０４においてワー
ド４ｎ＋４、４ｎ＋５および４ｎ＋６にアクセスする。

【００２４】データ整列バッファ１１０は、第１および第２メモリ行から、それぞれ、オペ
ランドの第１および第２行を受け取り、制御信号に応答して、オペランドの第１
および第２行から選択した指定オペランドを、計算ブロック１２および１４（図
２参照）の一方または双方におけるレジスタ・ファイル１００に供給する。デー
タ整列バッファ１１０は、単一のメモリ行からのオペランドをレジスタ・ファイ
ル１００に供給することも可能である。

【００２５】データ整列バッファ１１０は、整列バッファ３１０およびマルチプレクサ／バ
レル・シフタ３１２を含む。図４の例では、メモリ・バンク４０が１２８ビット
・バス６０によってデータ整列バッファ１１０に接続されている。マルチプレク
サおよびラッチ１０２（図２）は、理解し易くするために、図４から省略した。
整列バッファ３１０は、１２８ビットの容量を有するとよく、ロード信号３１４
に応答してロードされる。マルチプレクサ／バレル・シフタ３１２は、データ・
バス６０上のメモリ・バンク４０からの１２８ビット（入力０〜１２７）、およ
び整列バッファ３１０の出力からの１２８ビット（入力１２８〜２５５）とを含
む、２５６ビットを受け取ることができる。マルチプレクサ／バレル・シフタ３
１２は、オフセット信号３１６に応答して、２５６ビット中１２８ビットをその
入力として選択し、選択した１２８ビット（指定オペランド）をバス１０６上の
レジスタ・ファイル１００に供給する。尚、データ整列バッファ１１０に供給し
たオペランドは、メモリ・バンク４０、４２および４４のいずれにもアクセスす
ることができ、マルチプレクサ／ラッチ１０２によってデータ整列バッファ１１
０に供給されることは理解されよう。

【００２６】先に記したように、データ整列バッファ１１０は、整列アクセスおよび不整列
アクセスに用いることができる。整列アクセスでは、バス６０およびマルチプレ
クサ／バレル・シフタ３１２を介して、指定したオペランドを単一のメモリ行か
らレジスタ・ファイル１００に供給する。不整列アクセスでは、バス６０、整列
バッファ３１０およびマルチプレクサ／バレル・シフタ３１２を介して、指定し
たオペランドを２つのメモリ行からレジスタ・ファイル１００に供給する。

【００２７】データ整列バッファ１１０は、ディジタル信号プロセッサによって実行される
個々の命令に応答して制御される。メモリ移動命令４００の一例を図５に示す。
レジスタ・グループ・フィールド４０２は、計算ブロック１２または１４、制御
ブロック２４あるいは外部ポート２８におけるレジスタ・グループを指定する。
レジスタ・フィールド４０４は、レジスタ・グループ内のレジスタを指定する。
Ｊ／ＫｘおよびＪ／Ｋｙは、メモリ・バンク内のアドレスを含むレジスタを指定
する。レジスタ・グループ・フィールド４０２は、同じレジスタに対して異なる
機能を指定することができる。即ち、レジスタ・グループの１つは、不整列デー
タ・アクセスを指定するために用いられる。命令のレジスタ・グループ・フィー
ルド４０２が不整列データ・アクセスを指定する場合、データ整列バッファ１１
０は、以下のように、指定したオペランドをレジスタ・ファイル１００に供給す
る。第１サイクルにおいて、命令デコーダ１５０（図２）は、ロード信号を整列
バッファ３１０に供給し、メモリ行３０２内の四重ワードを整列バッファ３１０
にロードする。第２サイクルにおいて、整列バッファ３１０内の四重ワードをマ
ルチプレクサ／バレル・シフタ３１２の入力１２８〜２５５に供給し、メモリ行
３０４内の四重ワードをマルチプレクサ／バレル・シフタ３１２の入力０〜１２
７に供給する。こうして、マルチプレクサ／バレル・シフタ３１２は、その入力
に、８つの３２ビット・オペランドから成る、２ラインのオペランドを有するこ
とになる。命令デコーダ１５０は、Ｊ／ＫｘまたはＪ／Ｋｙレジスタ・アドレス
の一部である、オフセット値をマルチプレクサ／バレル・シフタ３１２に供給し
、その入力におけるオペランドから所望のオペランドを選択する。先に示したよ
うに、選択したオペランドは、オフセット値によっては、同一メモリ行からの場
合も異なるメモリ行からの場合もあり得る。オフセット値は、Ｊ／ＫｘまたはＪ
／Ｋｙレジスタおよび命令４００によって指定されるオペランド・アドレスの最
下位ビット（ＬＳＢ）から得られる。指定したオペランドをレジスタ・ファイル
１００に供給した後、メモリ行３０４に格納してあるオペランドのラインを整列
バッファ３１０にロードする。第２サイクルの動作を連続サイクルにおいて繰り
返し、連続するプロセッサ・サイクル上で不整列アクセスを行なうことも可能で
ある。次のサイクルにおいて、整列バッファ３１０（メモリ行３０４）内の四重
ワードを、マルチプレクサ／バレル・シフタ３１２の入力１２８〜２５５に供給
し、メモリ行３０６内の四重ワードをマルチプレクサ／バレル・シフタ３１２の
入力０〜１２７に供給する。マルチプレクサ／バレル・シフタ３１２は、指定し
たオペランドを、オフセット値に応じてレジスタ・ファイル１００に供給する。
このようにして、前述のように整列バッファ３１０の初期ローディングに用いた
不整列データ・アクセスの第１サイクルの後、各サイクル毎に不整列データ・ア
クセスを実行することができる。

【００２８】命令のレジスタ・グループ・フィールド４０２が不整列アクセスを指定する場
合、データ整列バッファ１１０はオペランドをレジスタ・ファイル１００に供給
する。この場合、命令デコーダ１５０は、ロード信号およびオフセット値を含む
制御信号を、データ整列バッファ１１０に供給する。命令のレジスタ・グループ
・フィールド４０２が整列アクセスを指定する場合も、データ整列バッファ１１
０は、整列されたオペランドをレジスタ・ファイル１００に供給する。しかしな
がら、ロード信号およびオフセット値は不要である。整列アクセスの場合、各メ
モリ行内のデータ・ワードをマルチプレクサ／バレル・シフタ３１２の入力０〜
１２７に供給する。オフセット値を０に固定し、指定したオペランドをバス１０
６上でレジスタ・ファイル１００に供給する。このように、整列アクセスおよび
不整列アクセスを、個々のプログラムにおいて混合することができる。

【００２９】データ整列バッファ１１０の更に別の特徴は、不整列データ・アクセスが連続
メモリ・アドレスに限定されないことである。この特徴により、一連の不整列ア
クセスの間、循環バッファは一順して開始点に戻ることが可能となる。不整列デ
ータ・アクセスを用いる割込ルーチンは、使用の前に、データ整列バッファ１１
０の内容を格納し、使用の後に、データ整列バッファ１１０の内容を復元しなけ
ればならない。

【００３０】これまで、各メモリ行が４つの３２ビット・データ・ワードを含む構成と関連
付けて、不整列データ・アクセスについて説明してきた。この構成では、オフセ
ット値は、４つのオフセット値の１つを指定するために２ビットを有する。別の
構成では、各メモリ行は、８つの１６ビット・ワードを含み、０から７までのオ
フセット値を指定することができる。この構成では、オペランド・アドレスの下
位側３ビットをオフセット値として用いる。尚、メモリ行毎に異なるデータ・ワ
ード数を有し、データ・ワード当たり異なるビット数を有するメモリ構成も、本
発明の範囲に含まれることは理解されよう。

【００３１】前述の手法では、命令のレジスタ・グループ・フィールドは、不整列アクセス
を指定した。第２の手法では、データ・アドレスのＬＳＢの値のみを検出するこ
とによって、整列アクセスを不整列アクセスから区別することも可能である。Ｌ
ＳＢの値が０であると整列アクセスを示し、ＬＳＢの値が０以外であると不整列
アクセスを示す。ＬＳＢが非ゼロ値の場合整列バッファを用いるが、ＬＳＢが０
の場合、整列バッファを用いない。ＬＳＢの異なる値毎に異なる手順が必要とな
るので、一層の複雑化が伴う。したがって、この第２の手法は、第１の主要より
も望ましくはないが、用途によっては有用な場合もある。

【００３２】以上現在本発明の好適な実施形態であると考えられるものについて示しかつ説
明したが、添付した特許請求の範囲によって定義した本発明の範囲から逸脱する
ことなく、種々の変更および修正も可能であることは、当業者には明らかであろ
う。

【図面の簡単な説明】

【図１】本発明によるディジタル信号プロセッサの一例のブロック図である。

【図２】図１に示す各計算ブロックの一例のブロック図である。

【図３】図１に示す各メモリ・バンクの一例のブロック図である。

【図４】本発明によるデータ整列バッファの一例を示すブロック図である。

【図５】図１のディジタル信号プロセッサに使用可能なメモリ移動命令のフォーマット
の一例を示す。

【手続補正書】

【提出日】平成１３年３月６日（２００１．３．６）

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】全図

【補正方法】変更

【補正内容】

【図１】

【図２】

【図３】

【図４】

【図５】

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B033 AA01 AA04 DA17 DB01 DB08 DB09 DB14 5B060 AA02 AB06 AB10 AB16 AC12 CB01 DA01

Claims

【特許請求の範囲】

【請求項１】ディジタル信号プロセッサであって、ディジタル信号計算を実行するための、命令およびオペランドを含む、データ
・ワードを格納するメモリであって、各々２つ以上の前記データ・ワードのため
の位置を有する行に編成した、前記メモリと、前記メモリから命令を取り出すための命令アドレス、および前記メモリからオ
ペランドを取り出すためのデータ・アドレスを発生するプログラム・シーケンサ
と、前記メモリから取り出した前記命令および前記オペランドを用いて前記ディジ
タル信号計算を実行する計算ユニットと、前記メモリの異なる行に格納されている指定のオペランドへの不整列データ・
アクセスを示す命令に応答して、１つ以上の制御信号を発生する命令デコーダと
、前記メモリの異なる行からオペランドのラインを受け取り、前記１つ以上の制
御信号に応答して前記指定のオペランドを前記計算ユニットに供給するデータ整
列バッファと、を備えるディジタル信号プロセッサ。
【請求項２】前記データ整列バッファは、前記メモリの第１行からの第１オペランド・ラインを格納するバッファと、前記バッファからの前記第１オペランド・ライン、および前記メモリの第２行
からの第２オペランド・ラインを受け取り、前記制御信号に応答して、前記第１
および第２オペランド・ラインから、前記指定のオペランドを選択するマルチプ
レクサと、を備える請求項１記載のディジタル信号プロセッサ。
【請求項３】前記計算ユニットはレジスタ・ファイルを含み、前記マルチ
プレクサは前記指定のオペランドを前記レジスタ・ファイルに供給する請求項２
記載のディジタル信号プロセッサ。
【請求項４】前記メモリの各行は、４つの３２ビット・データ・ワードか
ら成る請求項１記載のディジタル信号プロセッサ。
【請求項５】前記メモリの各行は、８つの１６ビット・データ・ワードか
ら成る請求項１記載のディジタル信号プロセッサ。
【請求項６】前記データ整列バッファは、更に、各々指定オペランドに対
する不整列データ・アクセスを示す、一連の命令に応答し、連続するプロセッサ
・サイクル上において前記指定のオペランドを前記計算ユニットに供給する手段
を備える請求項１記載のディジタル信号プロセッサ。
【請求項７】前記制御信号は、前記メモリの行に対する前記指定のオペラ
ンドのオフセットを表わすオフセット値を含む請求項１記載のディジタル信号プ
ロセッサ。
【請求項８】前記制御信号は、前記マルチプレクサに供給するオフセット
値と、前記バッファに供給するロード信号とを含む請求項２記載のディジタル信
号プロセッサ。
【請求項９】ディジタル信号プロセッサであって、命令およびオペランドを含むデータ・ワードを格納するメモリであって、各々
２つ以上の前記データ・ワードのための位置を有する行に編成した、前記メモリ
と、前記メモリから取り出した前記命令および前記オペランドを用いて、ディジタ
ル信号計算を実行する計算ユニットと、前記メモリと前記計算ユニットとの間に配置され、不整列データ・アクセスを
示す命令に応答して、前記メモリの異なる行に格納されていれる指定のオペラン
ドを前記計算ユニットに供給するデータ整列バッファと、を備えるディジタル信号プロセッサ。
【請求項１０】前記データ整列バッファは、前記メモリの第１行からの第１オペランド・ラインを格納するバッファと、前記バッファからの前記第１オペランド・ライン、および前記メモリの第２行
からの第２オペランド・ラインを受け取り、前記命令に応答して、前記第１およ
び第２オペランド・ラインから、前記指定のオペランドを選択するマルチプレク
サと、を備える請求項９記載のディジタル信号プロセッサ。
【請求項１１】前記計算ユニットはレジスタ・ファイルを含み、前記マル
チプレクサは前記指定のオペランドを前記レジスタ・ファイルに供給する請求項
１０記載のディジタル信号プロセッサ。
【請求項１２】前記データ整列バッファは、更に、各々指定オペランドに
対する不整列データ・アクセスを示す一連の命令に応答し、連続するプロセッサ
・サイクル上において前記指定のオペランドを前記計算ユニットに供給する手段
を備える請求項９記載のディジタル信号プロセッサ。