JP2003296096A

JP2003296096A - シリアル演算パイプライン、演算装置、算術論理演算回路およびシリアル演算パイプラインによる演算方法

Info

Publication number: JP2003296096A
Application number: JP2002099202A
Authority: JP
Inventors: Junichi Naoi; 純一直井
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2002-04-01
Filing date: 2002-04-01
Publication date: 2003-10-17
Anticipated expiration: 2022-04-01
Also published as: US7171535B2; EP1351134A2; JP3719509B2; EP1351134A3; US20030200237A1

Abstract

(57)【要約】【課題】様々なデータサイズに対して突発的かつ爆発
的な演算量を伴う複雑な処理フローを実現する汎用的な
パイプラインを提供する。【解決手段】各々独立に制御され他の算術論理演算回
路（ＳＡＬＣ）１と同時に動作可能な複数のＳＡＬＣを
カスケード接続してシリアル演算パイプラインを構成す
る。複数のＳＡＬＣ１の全部又は一部は、前段から後段
へデータを出力するためのラインと、後段から前段へデ
ータをフィードバックするためのラインと、各ライン上
のデータをラッチするラッチ回路１１〜１３とを有し、
任意のＳＡＬＣ１から他のＳＡＬＣ１へデータをフィー
ドバックできるようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば頻繁に動く
オブジェクトをコンピュータ・グラフィクスによって表
現するような、突発的かつ爆発的に膨らむ離散演算を必
要とする用途に適したシリアル演算パイプライン（pipe
line）及びその構成要素に関する。ここで、シリアル演
算パイプラインは、命令取り出し（fetch）、命令解読
（decode）、その実行（execute）のような、別々の作
業を順次同時に行なうことによって処理の高速化を図る
ものであり、少数の命令群を扱う演算器をカスケード接
続して構成される。カスケード接続された複数の演算器
のうち使用するものの組み合わせを適宜変えることによ
り、加減剰、浮動小数点演算、比較、ブール代数、選択
（IF文）等、様々な演算処理を実現することができる。

【０００２】

【発明の背景】コンピュータ・グラフィクスの作成に際
しては、通常、２次元ピクセル内・ピクセル間の演算、
空間把握（コリジョン・デテクション等）、オブジェク
ト生成・合成、ジオメトリ演算等、多種の離散的演算を
伴う。このような用途では、コンピュータのメインＣＰ
Ｕだけでは、到底不可能なほどの大量演算パワーが必要
となる。例えば、しばしば数１００[Mpolygon /sec］、
数１０［Gpixel / sec］のオーダのレンダリング処理
能力が必要になる。そのため、従来より、演算パイプラ
インを搭載した専用のプロセッサが使用されてきた。

【０００３】従来のこの種のプロセッサの殆どは、単一
のデバイスで構成され、見込まれる演算量に応じて演算
パイプラインを並列化して組み込まれている。演算パイ
プラインを構築する個々の演算器にも所定の機能が固定
的に割り当てられている。いわゆる「１機能１演算器」
である。このような１機能１演算器によるパイプライン
は、例えば固定長のデータサイズを短スループットで処
理する用途には、非常に適している。

【０００４】しかし、「１機能１演算器」では、多様的
な用途には、使い回しが利きにくい。例えば用途に応じ
てパイプライン構成を変更しようとする場合は、演算対
象となるデータの通り道と割り当てられた機能とを結び
つけるためのセレクタ（バス）が別途必要となる。その
ため、単一デバイス内での並列化には限界があった。ま
た、演算器又は演算パイプラインを一定数以上並列化す
るとクラスタ化が避けられず、そのための制御やデータ
パス（キャッシュ又はバス）がそれぞれ必要となって、
集積効率が悪化してしまう。

【０００５】用途の多様化に対応するために、プログラ
マブル・データ・フロー・グラフ（ＤＦＧ）を構成する
ことが考えられる。しかし、プログラマブルＤＦＧは、
演算器に対して、セレクタのような非演算要素の占める
割合が比較的高い。演算のプログラマビリティを上げる
ほど、その比率が高まることは、よく知られていること
である。プログラマブルＤＦＧは、また、機能（functi
on）が細分化されているため、すべての機能を常時稼動
させることは困難である。稼働効率を上げるためには、
ある程度固定された機能の塊にせざるを得ず、様々なタ
イプのデータを処理すること用途には不向きとなる。

【０００６】一方、より高い演算能力を確保する観点か
らは、演算器の２次元並列化も考えられる。「２次元的
並列化」とは、演算器をパラレル及びカスケードに並列
化することである。いわば、深パイプラインによるデー
タフローの並列化である。特殊なインプリメントとして
は、並列化されたレンダリング・パイプラインがある。
２次元並列化に際してはパイプライン内で必要な機能の
みを盛り込み、プログラマビリティを極力排除して、専
用演算器のカスケード接続で効率を上げている。

【０００７】今後は、離散演算の多様化が予想される。
その際、様々なデータサイズに対して突発的かつ爆発的
な演算量を伴う複雑な処理フローを実現する汎用的なパ
イプラインが望まれる。汎用的な演算パイプラインを構
築するためには、データパスを単純（一直線）にし、無
駄なくカスケード接続する必要がある。また、多種多様
な演算を１演算器で実現できるような仕組みが必要とな
る。

【０００８】本発明は、このような仕組みを、コスト上
昇を伴わずに実現しようとするものである。

【０００９】

【課題を解決するための手段】本発明は、各々独立に制
御され他の算術論理演算回路と同時に動作可能な複数の
算術論理演算回路をカスケード接続して成るシリアル演
算パイプラインを提供する。このシリアル演算パイプラ
インにおいて、複数の算術論理演算回路の全部又は一部
は、前段から後段へデータを出力するための第１ライン
と、後段から前段へデータをフィードバックするための
第２ラインと、各ライン上のデータをラッチするラッチ
回路とを有するものである。この算術論理演算回路にお
ける好ましい実施の形態では、第１ラインを前段から受
け取ったデータないしそれに基づく演算結果を後段に出
力するための順方向ライン、第２ラインを後段から受け
取ったデータないしそれに基づく演算結果を前段に出力
するための逆方向ラインとする。

【００１０】前記複数の算術論理演算回路の各々は、外
部から入力されたインストラクション（命令）の内容に
応じた演算を含む処理を実行し、その実行結果を所望の
ライン宛に出力するデコーダを有するものである。ま
た、前記ラッチ回路は、後段に出力する第１の出力デー
タをラッチする第１のデータラッチ回路と、後段に出力
する第２の出力データをラッチする第２のデータラッチ
回路と、前記デコーダによる演算の結果生じたキャリー
を次の桁の演算のためにラッチするキャリーラッチ回路
と、第１の出力データおよび第２の出力データの一方を
所定期間遅延させて他方との参照を可能にするシフトラ
ッチ回路とを含むものである。前段にフィードバックす
るリバースデータをラッチするリバースラッチ回路と、
前記第１および第２のデータラッチ回路およびリバース
ラッチ回路にラッチされているデータの出力タイミング
を決めるコントロールデータをラッチするコントロール
ラッチ回路とをさらに含むようにしてもよい。

【００１１】回路面積を縮小とするとともに、パイプラ
イン全体の処理速度を高める観点からは、前記デコーダ
により処理されるデータを、単位処理サイズのデータ、
例えば、前記複数の算術論理演算回路の動作タイミング
を定める一つのクロックで処理可能な最低ビット長ない
し同等のビット長のデータとする。

【００１２】本発明は、また、複数系統のデータ入出力
ラインを切替接続する切替接続手段と、この切替接続手
段に対して並列に接続された複数のシリアル演算パイプ
ラインと、外部から入力された前記複数のシリアル演算
パイプライン宛のインストラクションを受け付けるイン
ストラクション受付機構とを備えた演算装置を提供す
る。この演算装置において、前記複数のシリアル演算パ
イプラインの各々は、他の算術論理演算回路と同時に動
作可能な複数の算術論理演算回路をカスケード接続して
構成されたシリアル演算パイプラインであり、前記複数
の算術論理演算回路の各々は、前段から受け取ったデー
タないしそれに基づく演算結果を後段に出力するための
順方向ラインと、後段から受け取ったデータないしそれ
に基づく演算結果を前段にフィードバックするための逆
方向ラインと、入力された前記インストラクションに応
じた処理を実行し実行結果を所望のラインに出力するデ
コーダと、他の算術論理演算回路との間で各ライン上の
データ出力の同期をとるためのラッチ回路とを有するも
のである。

【００１３】この演算装置にコントローラを備え、ｎ行
ｍ列の前記インストラクションの集合であるインストラ
クションアレイをコントローラに保持しておき、コント
ローラで、インストラクションアレイを列毎にｍ回前記
複数の算術論理演算回路宛に出力するとともにパイプラ
インが後段に１段ずつｎ回移行させる際に、実行済みの
インストラクションを１段毎に１つ減ずるようにしても
よい。前記インストラクションアレイは、好ましくは、
１パスで演算を実行するための演算手順が定められるよ
うにする。

【００１４】また、前記複数の算術論理演算回路の各々
のラッチ回路は、後段に出力する第１の出力データをラ
ッチする第１のデータラッチ回路と、後段に出力する第
２の出力データをラッチする第２のデータラッチ回路
と、前段に出力するデータをラッチするリバースラッチ
回路と、演算結果のキャリーを次の桁の演算のためにラ
ッチするキャリーラッチ回路と、第１の出力データおよ
び第２の出力データの一方を所定期間遅延させて他方と
の参照を可能にするシフトラッチ回路と、前記第１およ
び第２のデータラッチ回路およびリバースラッチ回路に
ラッチされているデータの演算を制御するためのコント
ロールデータをラッチするコントロールラッチ回路とを
含むものである。この演算装置においても、装置全体の
処理速度を高める観点からは、前記複数の算術論理演算
回路の各々のデコーダにおける順方向ライン上のデータ
および逆方向ライン上のデータを単位処理サイズのデー
タとする。

【００１５】この演算装置は、前記切替接続手段、前記
複数のシリアル演算パイプライン、および前記インスト
ラクション受付機構を一つの半導体デバイスの中に組み
込んでおき、用途に応じて切替接続手段の制御信号とイ
ンストラクションアレイを入力することにより、用途の
汎用性を持たせることができる。

【００１６】本発明は、シリアル演算パイプラインによ
る演算方法を提供する。この方法は、後段にデータを出
力するための１又は複数の第１ラインと、前段にデータ
をフィードバックするための第２ラインとを有し、シリ
アル演算を行うとともに演算結果を表すデータの出力対
象となるラインを各々独立に選択することができる算術
論理演算回路を複数段カスケード接続してシリアル演算
パイプラインを構築し、前記シリアル演算パイプライン
に接続された外部コントローラで、前記複数の算術論理
演算回路による１パスによる同時実行の手順を反映した
ｎ行ｍ列のインストラクションの集合であるインストラ
クションアレイを列毎にｍ回前記複数の算術論理演算回
路宛に個別に出力するとともに、パイプラインが後段に
１段ずつｎ回移行させる際に、実行済みのインストラク
ションを１段毎に１つ減ずる制御を行うことを特徴とす
る演算方法である。

【００１７】

【発明の実施の形態】本発明の実施形態を説明するに当
たり、図１を参照して、本発明の基本原理について説明
する。シリアル演算器は、例えば１〜３ビット程度のシ
リアル演算を行うもので、１６ビット程度の多ビット演
算を行うパラレル演算器と比較して、スループットが、
データ幅分の１（１ビットのシリアル演算の場合）とな
るが、演算器面積もその分小さい。スループットが小さ
い分をパイプラインの並列度を上げるようにすれば、両
者の製造コストは実質的に変わらない。例えば、図１
（ａ）のように、１６ビットレジスタを二つパラレルに
し、その出力を一つの１６ビットアダーで加算して、加
算結果を一つの１６ビットレジスタに格納する構成の１
６ビット演算器と、（ｂ）のように１ビットレジスタを
３２個並列にし、それぞれ２つの１ビットレジスタの出
力を加算する１ビット加算器を１６個設け、各々の加算
機の出力を格納する１６個の１ビットレジスタからなる
１６個の１ビット演算器とは実質的に同一コストとな
る。後者の場合は、パイプの各ステージが短くなるた
め、その分高速化が可能になる利点もある。

【００１８】この実施形態では、以上の原理に基づき、
様々な多ビット演算命令の実行環境を、単位処理サイズ
のフィードバック付シリアル算術論理演算回路（Serial
-ALCell、以下「ＳＡＬＣ」と称する）の組み合せによ
って実現する場合の例を挙げる。単位処理サイズとは、
ＳＡＬＣにおいて一つのクロックで処理可能な最低ビッ
ト長であり、最も単純な例では１ビット、上記のよう
に、通常は１〜３ビット程度である。

【００１９】＜ＳＡＬＣ＞ＳＡＬＣの構成例を図２に示
す。図２からわかるように、この実施形態によるＳＡＬ
Ｃ１は、２系統のデータ入力端D1i、D2iおよび２系統の
データ出力端D1o、D2oと、１系統のリバースデータ入力端
Riおよびリバースデータ出力端Roとを有し、前段（図の
左側）から後段（図の右側）へ２系統のデータを出力す
るための順方向ラインと、後段から前段へデータをフィ
ードバックするための逆方向ラインとが形成されてい
る。以後の説明では、データ出力端D1oから出力される
ライン上のデータを「出力データ」、データ出力端D2o
から出力されるライン上のデータを「参照データ」、リ
バースデータ出力端Roから出力（フィードバック）され
るライン上のデータを「リバースデータ」とする。ＳＡ
ＬＣ１において、後述するシリアル演算パイプラインを
構成する他のＳＡＬＣとの同期をとるため、出力データ
はデータラッチ回路１１でラッチされ、参照データはリ
ファレンスラッチ回路１２でラッチされ、リバースデー
タはリバースラッチ回路１２でラッチされる。

【００２０】ＳＡＬＣ１は、また、インストラクション
入力端CONから入力されるインストラクションの内容を
デコードし、デコード結果に応じた処理を実行するとと
もに、実行結果を出力するラインの選定等を行うための
デコーダ１０を有する。処理の例としては、例えば、四
則演算、論理演算のような演算処理のほか、パス制御、
ラッチ制御、条件付命令等の制御処理が挙げられる。デ
コーダ１０は、また、前段から受け取ったデータが後段
の方向に向かう順方向ラインと、後段から受け取ったデ
ータが前段の方向に向かう逆方向ラインとの選択も行
う。他の複数のＳＡＬＣ１のデコーダとの協働によっ
て、マクロ命令の実行を行うことができる。

【００２１】デコーダ１０には、上記の演算等を容易に
するための種々のラッチ回路、すなわち、シフトラッチ
回路１４と、コントロールラッチ回路１５と、キャリー
ラッチ回路１６とが接続されている。シフトラッチ回路
１４は、出力データのラインよりも参照データのライン
が所定時間だけ遅れるようにするために、参照データを
ラッチし、例えば演算の際に次の桁でこれを出力するよ
うに動作する。キャリーラッチ回路１５は、演算結果の
キャリーを次の桁の演算時までラッチする。コントロー
ルラッチ回路１５は、出力データ、参照データ、リバー
スデータの出力タイミングをコントロールするコントロ
ールデータをデコーダ１０から出力の指示が出されるま
でラッチする。

【００２２】以上のように構成されるＳＡＬＣ１では、
デコーダ１０によって順方向と逆方向の入れ替えができ
るため、複数のＳＡＬＣ１をカスケード接続してシリア
ル演算パイプラインを構築した場合に、順方向ラインと
逆方向ラインとを適宜セレクトしてフレキシブルなデー
タレンジで論理演算を行うことができる。また、乗算器
や除算器、積和演算器、フロート演算器（指数・仮数を
分けて演算し、それらの結果を互いに反映させる）など
を容易に構築できるようになる。

【００２３】＜ＳＡＬＰ＞次に、上記のＳＡＬＣ１を用
いたシリアル演算パイプラインの実施形態を説明する。
図３は、複数のＳＡＬＣ１をカスケード接続してなるシ
リアル演算パイプライン（Serial - ALPipeline、以
下、「ＳＡＬＰ」と称する）の構成例を示した図であ
る。ＳＡＬＰ２は、様々な多ビット演算命令を単純なシ
リアル命令の組み合わせで実現するものである。なお、
１パスで論理演算を完了させる場合、ＳＡＬＣ１の連結
数は、加算器では１以上あれば済むが、乗算器では、桁
数分のＳＡＬＣ１が必要となる。さらに、多項式演算な
どを行わせる場合は、同時演算分やデータラッチ分（こ
れらは共通化できる場合がある）が必要である。

【００２４】多項式を実現する場合は、ＳＡＬＰ２を図
４のように、ＳＡＬＣ１の出力を数段前のＳＡＬＣ１の
データ入力端にフィードバックすればよい。これによ
り、前に演算した結果と新たに投入するデータ間で、論
理演算ができるようになり、各々の中間値（入出力間の
中間のデータ）同士を演算させるなどの複雑な多項式を
１パスで演算することができるようになる。

【００２５】ＳＡＬＰ２では、複数のＳＡＬＣ１の協働
によって種々のマクロ命令を実行することができる。こ
の場合の動作例を具体的に説明する。ここでは、単純な
例として、４ビット乗算（Multiplier）の例を挙げる。

【００２６】図５〜図７は、４つのＳＡＬＣ１をカスケ
ード接続したＳＡＬＰ２における各ＳＡＬＣ１の状態と
そのときのデータの内容を示した図である。４ビット乗
算は、図５（ａ）の０サイクルで最初のデータが入力さ
れ、１クロック毎に次のデータの入力・インストラクシ
ョンのデコード・論理演算・ラッチ・出力が行われた
後、図５（ｐ）の１６サイクル目で完結する。図中、個
々のＳＡＬＣ１のうち面積が拾い部分はデコーダ１０で
あり、デコーダ１０の上部はキャリーラッチ回路１６で
あり、デコーダ１０の下部左側はシフトラッチ回路１
４、下部右側はコントロールラッチ回路１５である。各
々、空白になっている部分および破線部分にはデータ等
が存在しないことを表している。０，Ａ０〜Ａ３，Ｂ０
〜Ｂ３は演算対象データ、ＳＭ０〜ＳＭ７は演算結果デ
ータである。デコーダ１０の部分に記入されている文字
はインストラクションであり、「ＳＥＴ」はデータセッ
ト（data set：シフトラッチ回路１４、コントロールラ
ッチ回路１５へのデータ格納）、「ＴＨＲ」はスルー
（through：データを格納せず、そのまま通過させ
る）、「ＡＤＳ」はデータ加算＆シフト（add＆shift）
を表している。「carry」はキャリーラッチ回路１６に
ラッチされるキャリービットを表している。

【００２７】最初のサイクル（０サイクル）で最初のデ
ータ（0,A0）が初段のＳＡＬＣ１に入力され、デコーダ
１０でインストラクション解読および論理演算がなされ
た後（スルーを含む）、演算結果データ（スルーを含
む）が後段のＳＡＬＣ１に出力される。この動作をすべ
てのＳＡＬＣ１に共通のクロックタイミングで同時に入
力されるインストラクションに従って繰り返し、最終的
に４ビット乗算の結果が最終段のＳＡＬＣ１からＳＭ１
〜ＳＭ７として出力される。

【００２８】マクロ命令の中には、フロート加算（Floa
t Add）のような特殊な演算形態をとるものもある。こ
の場合は、各ＳＡＬＣ１に入力するインストラクション
を変えるだけで、容易にそれを実現することができる。
因みに、フロート加算において用いるインストラクショ
ンは、上記のＡＤＳのほか、ＦＳＵＢ（subtract forfl
oat）、ＳＢＳ（subtract & set）、ＣＣＨＧ（control
ed change）、ＣＳＦＴ（controled shift）、ＩＮＶ
（inverse）、ＲＥＶ（reverse）、ＳＦＴ（shift）、
ＯＲ、ＳＵＢ（substract&envset）、ＮＳＵＢ（substr
act&RESET）を用いる。なお、上述したインストラクシ
ョンの種類は例示であって、その他にもデコーダ１０で
実行可能な処理の種類に応じて任意に選定することがで
きる。

【００２９】本実施形態のＳＡＬＰ２は、ＳＡＬＣ１を
基本構成とし、その連結状態を適宜変えながらフレキシ
ブルなデータレンジで論理演算を行うことができるの
で、データレンジに比例した処理性能を実現することが
できる（例えば、８ビット演算は１６ビット演算の倍の
性能）。また、入出力間の中間データなどのビットを膨
らませ，精度を保つことができるようになる。また、処
理途上の上位・下位ビットを削除することで，データの
質に合わせ効率的な有効桁数を持てるようになる。さら
に、指数，仮数を別処理することで、フロート（floa
t）演算が可能となる。上述したように、ＳＡＬＰ２で
は、パラレル演算パイプラインに比べてスループットが
データ幅分の１となるが、演算器面積もその分少ない。
スループットが減少した分をパイプラインの並列度に割
り振れば、原理的に（制御を考えなければ）コストは変
わらない。その上、パイプ各ステージは短くなるため、
その分を高速化できる。

【００３０】本実施形態のＳＡＬＰ２では、割り算、飽
和演算、積和演算、多項式など、ほとんどの論理演算を
実行することができる。単演算子としてのコストパフォ
ーマンスをカスケード接続の演算器と比較すると、１要
素の演算に対する比較では、スループットがデータ幅分
の１であるためコスト上昇を伴うように見えるが、多量
なデータに対する演算では、演算素子を並列に割り振る
ことによって同一コストとなる。また、クロック間のロ
ジックは、単位処理サイズ（例えば１〜３ビット）毎で
切ることができ、また、いわゆるファンアウトが非常に
小さいので、周波数を大幅に上げることができる。ま
た、都合のいいことに、パイプラインの先頭に、非常に
小さい構成のクロスバを接続することができる。これに
より、演算要素の並列ラインの判定、パイプライン末尾
ラインのビット判定を非常に小さい構成で実現すること
ができる。アドレス計算、ブランチの条件を算出する等
のスカラ処理、処理領域が小領域でパラメータがその領
域ごとに変化するような処理に対しては、領域をバイン
ドすることによって実現することができる。そのため、
このようなＳＡＬＰ２を複数用いることにより、効率的
な論理演算を行う演算装置を構成することができる。

【００３１】＜演算装置＞図８は、３２個のＳＡＬＣ
（図１に示したＳＡＬＣ１）をカスケード接続したＳＡ
ＬＰ２を２５６個含んでなる演算装置の構成図である。
各ＳＡＬＰ２は、例えば外部コントローラ、あるいはネ
ットワーク等と接続されるシリアルクロスバ（ＳＣＢ）
３に対して、並列に接続されている。ＳＣＢ３は、アド
レスデコーダと複数のクロスバスイッチとを有し、小面
積で２５６ラインの交換を行うもので、外部コントロー
ラ等からのバスのアドレス投入（コントロールフェー
ズ）とデータ投入（データフェーズ）の２フェーズで、
所望のラインにデータを分配することができる。

【００３２】２５６個の各々のＳＡＬＰ２には、インス
トラクションコントローラ（ｉＣＯＮ）４からｎ行ｍ列
のインストラクションの集合であるインストラクション
アレイが入力され、このインストラクションアレイによ
って、論理演算およびデータの入出力ラインがそれぞれ
独立に制御されるようになっている。インストラクショ
ンアレイは、すべてのＳＡＬＰ２に共通内容のものを同
時に入力してもよく、個々のＳＡＬＰ２のアドレスを指
定したうえで共通内容のインストラクションアレイを同
時に入力してもよく、個々のＳＡＬＰ２に個別的に個別
内容のインストラクションアレイを入力してもよい。ｉ
ＣＯＮ４は、インストラクションアレイを列毎にｍ回、
各ＳＡＬＰ２の個々のＳＡＬＣ宛に出力するとともにパ
イプラインが後段にｎ回移行する際に、実行済みのイン
ストラクションを減ずる。

【００３３】このことを、１つのＳＡＬＰ２の場合の例
を挙げた図９により説明する。図９下段のインストラク
ションアレイは、ｉＣＯＮ４のメモリに保持されてお
り、１クロック毎に、図右列から順次読み出されてＳＡ
ＬＰ２のＳＡＬＣに入力される。先頭のインストラクシ
ョンが実行されると、そのインストラクションが１つ削
除されて後段のＳＡＬＣに入力され、前段のＳＡＬＣに
は、次の列のインストラクションのすべてが入力され
る。これをインストラクションがなくなるまで繰り返
す。インストラクションアレイには、フェッチやデータ
ループを埋め込むことができる。この場合には、従来技
術において説明した複雑なＤＦＧを１パスで記述するこ
とができるようになり、演算パイプライン動作の制御形
態を簡略化させることができる。

【００３４】次に、この演算装置の動作例を説明する。
ここでは、一例として、ある一つのＳＡＬＰ２を用いて
図１０（ａ）に示す「１０１０」（Ａデータ）×「１１
００」（Ｂデータ）＋「００１０１１０１」（Ｃデー
タ）の乗算および加算を行う場合の例を挙げる。出力さ
れる演算結果データは「０１０００１０１」となるので
あるが、その演算過程が特徴的なので、最初のサイクル
から演算結果データが出力されるまでの過程を図示して
説明する。用意されるデータは、図１０（ｂ）のよう
に、２段に並べられ、その右側から順次演算装置（ＳＡ
ＬＰ２）に入力される。なお、データサイズを合わせる
ために、データ取得時にＭＳＢを４回取得し、これをＡ
データの先頭に付加する。この付加したデータは、演算
結果には影響を及ぼさないものである。図１０（ｂ）右
側のデータ説明において「intermediatedata」は、演算
過程で使用するいわゆる中間データであり、これも演算
結果に影響を及ぼさないものである。

【００３５】インストラクションアレイは、図１０
（ｃ）のようなものが用意される。この例において乗算
と加算に使用するインストラクションは、「ＳＥＴ」
（データセット）、「ＡＤＳ」（加算およびシフト）、
「ＴＨＲ」の３種類である。「ＳＥＴ」は、シフトラッ
チ回路１４に参照データ（下段のデータ入力端に入力さ
れたデータ）、コントロールラッチ回路１５に出力デー
タ（上段のデータ入力端に入力されたデータ）、キャリ
ーラッチ回路１６に「０」をセットすることを、その内
容とする。「ＡＤＳ」はコントロールラッチ回路１５に
ラッチされているデータが「０」の場合にはシフトの
み、それ以外は加算およびシフトを行うことを、その内
容とする。シフトとは、参照データとしてシフトラッチ
回路１４にラッチされているデータを使用することをい
う。加算のときには、キャリービットのチェンジが行わ
れる（change carry）。「ＴＨＲ］は入力されたデータ
（出力データおよび参照データ）をそのまま後段に送る
ことを、その内容とする。

【００３６】最初のサイクルでは、図１１に示すよう
に、その先頭に「ＳＥＴ」が割り当てられた８個インス
トラクションの列が初段のＳＡＬＣのインストラクショ
ン入力端CONに入力され、また、図１０（ｂ）の最右列
の２つのデータがデータ入力端D1i、D2iの各々に入力さ
れる。インストラクションが「ＳＥＴ」なので、これら
の２つのデータ「０」、「０」が、ＳＡＬＣのシフトラ
ッチ回路１４およびコントロールラッチ回路１５にセッ
トされる。キャリーラッチ回路１６には、キャリービッ
トが発生しないので、「０」がセットされる。

【００３７】２番目のサイクルでは、図１２に示すよう
に、次の列の２つのデータが初段のＳＡＬＣのデータ入
力端D1i、D2iの各々に入力され、前のサイクルで入力さ
れた２つのデータ「０」、「０」がデータラッチ回路１
１およびリファレンスラッチ回路１２から２段目のＳＡ
ＬＣに入力されるようになる。インストラクションは、
前のサイクルで初段のＳＡＬＣに入力されたもののうち
既に実行された「ＳＥＴ」が除かれたものが２段目のＳ
ＡＬＣに出力され、初段のＳＡＬＣには、図１０（ｃ）
の次の列のインストラクションが入力される。初段およ
び２段目のＳＡＬＣのインストラクションとも「ＴＨ
Ｒ」なので、それぞれ入力された２つのデータ「０」、
「０」は、後段のＳＡＬＣにそのまま送られる。

【００３８】３番目のサイクルでは、図１３に示すよう
に、さらに次の列の２つのデータが初段のＳＡＬＣのデ
ータ入力端D1i、D2iの各々に入力される。インストラク
ションは、初段のＳＡＬＣ以外のＳＡＬＣには、２番目
のサイクルで入力されたもののうち既に実行された分が
除かれたものが入力され、初段のＳＡＬＣには、図１０
（ｃ）のさらに次の列のインストラクションが入力され
る。初段および３段目のＳＡＬＣのインストラクション
は「ＴＨＲ」、２段目のＳＡＬＣのインストラクション
は「ＳＥＴ」なので、２段目のＳＡＬＣに入力されたデ
ータ「０」、「０」は、そのＳＡＬＣのシフトラッチ回
路１４およびコントロールラッチ回路１５にセットさ
れ、初段および３段目のＳＡＬＣについては、それぞれ
入力された２つのデータ「０」、「０」が後段のＳＡＬ
Ｃにそのまま送られる。４番目のサイクルでの動作は図
１４のようになり、上記と同様の手順でＳＡＬＣによる
演算実行およびデータ移動が行われる。

【００３９】５番目のサイクルでは、図１５に示すよう
に、「ＡＤＳ」のインストラクションが初段のＳＡＬＣ
が入力される点以外は、上記と同様の手順でＳＡＬＣ間
による演算実行およびデータ移動が行われる。初段のＳ
ＡＬＣでは、コントロールラッチ回路１５にラッチされ
ているデータが「０」なので、シフトのみとなる。６番
目のサイクル（図１６）〜１１番目のサイクル（図２
２）についても、上記と同様の手順で、ＳＡＬＣによる
演算実行およびデータ移動が行われる。

【００４０】１２番目のサイクル（図２３）からは、初
段のＳＡＬＣに入力されるデータがなくなり、前段のＳ
ＡＬＣ（図２３の場合は初段のＳＡＬＣ）のデータラッ
チ回路１１およびリファレンスラッチ回路１２にラッチ
されているデータが後段のＳＡＬＣ（図２３の場合は２
段目のＳＡＬＣ）に入力されるようになる。インストラ
クションについては、上記と同様、実行された分が削除
されて、後段のＳＡＬＣに入力される。最終段のＳＡＬ
Ｃのデータラッチ回路１１にラッチされているデータが
最終演算結果を表すデータのＬＳＢとなる。

【００４１】１３番目のサイクル（図２４）から２０番
目のサイクル（図３１）まで、上記の動作を繰り返し、
それぞれ最終段のＳＡＬＣ１のデータラッチ回路１１に
ラッチされているデータを取り出すことにより、図３１
の上段に示される最終演算結果が得られる。

【００４２】このように、本実施形態の演算装置では、
フィードバック機能付きのＳＡＬＣが複数段カスケード
接続されたＳＡＬＰ２をＳＣＢ３に対して複数ライン並
列に接続し、個々のＳＡＬＣによる演算動作をｉＣＯＮ
４からのインストラクションアレイによって個別的に制
御できるようにしたので、多種多様な論理演算（四則演
算およびその組合せ、飽和演算、積和演算、多項式等）
を共通のハードウエアによって容易且つフレキシブルに
実現することができる。そのため、論理演算の用途が変
わったときでもコストの増加を伴わずにそれに対応する
ことができる。

【００４３】また、個々のＳＡＬＣ１がフィードバック
機能を有しているので（ひいては、ＳＡＬＰ２がそのよ
うな機能を有しているので）、様々なデータサイズに対
して突発的かつ爆発的な演算量を伴う複雑な処理フロー
を実現する汎用的なシリアル演算パイプラインを容易に
構築することができる。

【００４４】また、インストラクションアレイの中に、
データの並び、その実行手順等を任意に組み込むことが
できるので、データパスを単純（一直線）にすることが
できる利点がある。

【００４５】上記の演算装置は、入出力データに対して
インストラクションの量が相対的に多い論理演算に対し
ては、特に有効なツールとなり得る。この演算装置は、
例えばテクスチャマッピングのような複雑な演算を何ら
のハードウエアを代えずに実施することができる。この
場合、テクスチャが１フラグメントに収まらない場合
は、周囲フラグメントが複数回投入される。

【００４６】演算装置は、また、複数の関数を定義した
ルックアップテーブルと、アドレスサイクル分のスルー
プットでルックアップテーブルの内容を書き換える機能
とを有し、様々な関数を多重に演算することもできる。

【００４７】

【発明の効果】以上の説明から明らかなように、本発明
によれば、様々なデータサイズに対して突発的かつ爆発
的な演算量を伴う複雑な処理フローを実現する汎用的な
シリアル演算パイプラインを構築することができる。

【図面の簡単な説明】

【図１】本発明の原理を示す図で、（ａ）は１つの１
６ビット演算器、（ｂ）は１６個の１ビット演算器の例
を示す。

【図２】本発明の一実施形態による算術論理演算回路
（SALC）の構成図。

【図３】本発明の一実施形態によるシリアル演算パイプ
ライン（SALP）の構成図。

【図４】多項式を実行するときのＳＡＬＰの構成例を示
した図。

【図５】（ａ）〜（ｆ）はシリアル演算パイプラインの
動作の一例を示す説明図。

【図６】（ｇ）〜（ｌ）はシリアル演算パイプラインの
動作の一例を示す説明図。

【図７】（ｍ）〜（ｐ）はシリアル演算パイプラインの
動作の一例を示す説明図。

【図８】本発明の演算装置の一実施形態を表す構成図。

【図９】本発明の演算装置に含まれるシリアル演算パイ
プライン（SALP）の動作概要図。

【図１０】（ａ）は本発明の演算装置の動作例を説明す
るための論理演算式、（ｂ）は入力するデータ列の構造
説明図、（ｃ）は入力するインストラクションアレイの
構造説明図。

【図１１】本発明の演算装置の動作状態説明図（最初の
サイクル）。

【図１２】本発明の演算装置の動作状態説明図（２番目
のサイクル）。

【図１３】本発明の演算装置の動作状態説明図（３番目
のサイクル）。

【図１４】本発明の演算装置の動作状態説明図（４番目
のサイクル）。

【図１５】本発明の演算装置の動作状態説明図（５番目
のサイクル）。

【図１６】本発明の演算装置の動作状態説明図（６番目
のサイクル）。

【図１７】本発明の演算装置の動作状態説明図（７番目
のサイクル）。

【図１８】本発明の演算装置の動作状態説明図（８番目
のサイクル）。

【図１９】本発明の演算装置の動作状態説明図（９番目
のサイクル）。

【図２０】本発明の演算装置の動作状態説明図（10番目
のサイクル）。

【図２１】本発明の演算装置の動作状態説明図（11番目
のサイクル）。

【図２２】本発明の演算装置の動作状態説明図（12番目
のサイクル）。

【図２３】本発明の演算装置の動作状態説明図（13番目
のサイクル）。

【図２４】本発明の演算装置の動作状態説明図（14番目
のサイクル）。

【図２５】本発明の演算装置の動作状態説明図（15番目
のサイクル）。

【図２６】本発明の演算装置の動作状態説明図（16番目
のサイクル）。

【図２７】本発明の演算装置の動作状態説明図（17番目
のサイクル）。

【図２８】本発明の演算装置の動作状態説明図（18番目
のサイクル）。

【図２９】本発明の演算装置の動作状態説明図（19番目
のサイクル）。

【図３０】本発明の演算装置の動作状態説明図（20番目
のサイクル）。

【図３１】本発明の演算装置の動作状態説明図（21番目
のサイクル）。

【符号の説明】

１算術論理演算回路（ＳＡＬＣ）１０デコーダ１１データラッチ回路１２リファレンスラッチ回路１３リバースラッチ回路１４シフトラッチ回路１５コントロールラッチ回路１６キャリーラッチ回路２シリアル演算パイプライン（ＳＡＬＰ）３シリアル・クロスバ（ＳＣＢ）４インストラクションコントローラ（ｉＣＯＮ）

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B013 AA18 DD04 5B022 AA01 BA00 CA07 CA08 EA09 FA01 5B033 AA13 DD06 DD09

Claims

【特許請求の範囲】

【請求項１】各々独立に制御され他の算術論理演算回
路と同時に動作可能な複数の算術論理演算回路をカスケ
ード接続して成るシリアル演算パイプラインであって、前記複数の算術論理演算回路の全部又は一部が、後段へ
データを出力するための第１ラインと、前段へデータを
フィードバックするための第２ラインと、各ライン上の
データをラッチするラッチ回路とを有することを特徴と
する、シリアル演算パイプライン。
【請求項２】前記複数の算術論理演算回路の各々が、
外部から入力されたインストラクションの内容に応じた
演算を含む処理を実行し、その実行結果を表すデータを
所望のライン宛に出力するデコーダを有することを特徴
とする、請求項１記載のシリアル演算パイプライン。
【請求項３】前記第１ラインが、第１の出力データお
よび第２の出力データを後段に出力するための一対のラ
インであり、前記ラッチ回路が、前記第１の出力データをラッチする
第１のデータラッチ回路と、前記第２の出力データをラ
ッチする第２のデータラッチ回路と、前記デコーダによ
る演算の結果生じるキャリーを次の桁の演算のためにラ
ッチするキャリーラッチ回路と、前記第１の出力データ
および前記第２の出力データの一方を所定期間遅延させ
て他方との参照を可能にするシフトラッチ回路と、を含
むことを特徴とする、請求項２記載のシリアル演算パイプライン。
【請求項４】前記ラッチ回路が、さらに、前段にフィ
ードバックするリバースデータをラッチするリバースラ
ッチ回路と、前記第１および第２のデータラッチ回路お
よび前記リバースラッチ回路にラッチされているデータ
の演算を制御するコントロールデータをラッチするコン
トロールラッチ回路とを含むことを特徴とする、請求項３記載のシリアル演算パイプライン。
【請求項５】前記デコーダにより処理されるデータ
が、単位処理サイズのデータであることを特徴とする、請求項２記載のシリアル演算パイプライン。
【請求項６】前記単位処理サイズが、前記複数の算術
論理演算回路の動作タイミングを定める一つのクロック
で処理可能な最低ビット長ないし同等のビット長である
ことを特徴とする、請求項５記載のシリアル演算パイプライン。
【請求項７】前記第１ラインが前段から受け取ったデ
ータないしそれに基づく演算結果を後段に出力するため
の順方向ラインであり、前記第２ラインが後段から受け
取ったデータないしそれに基づく演算結果を前段に出力
するための逆方向ラインであることを特徴とする、請求項１ないし６のいずれかの項記載のシリアル演算パ
イプライン。
【請求項８】複数系統のデータ入出力ラインを切替接
続する切替接続手段と、この切替接続手段に対して並列
に接続された複数のシリアル演算パイプラインと、外部
から入力された前記複数のシリアル演算パイプライン宛
のインストラクションを受け付けるインストラクション
受付機構とを備え、前記複数のシリアル演算パイプラインの各々は、他の算
術論理演算回路と同時に動作可能な複数の算術論理演算
回路をカスケード接続して構成されたシリアル演算パイ
プラインであり、前記複数の算術論理演算回路の各々は、前段から受け取
ったデータないしそれに基づく演算結果を後段に出力す
るための順方向ラインと、後段から受け取ったデータな
いしそれに基づく演算結果を前段にフィードバックする
ための逆方向ラインと、入力された前記インストラクシ
ョンに応じた処理を実行し実行結果を所望のラインに出
力するデコーダと、他の算術論理演算回路との間で各ラ
イン上のデータ出力の同期をとるためのラッチ回路とを
有するものである、演算装置。
【請求項９】ｎ行ｍ列の前記インストラクションの集
合であるインストラクションアレイを保持し、このイン
ストラクションアレイを列毎にｍ回前記複数の算術論理
演算回路宛に出力するとともにパイプラインが後段に１
段ずつｎ回移行させる際に、実行済みのインストラクシ
ョンを１段毎に１つ減ずるコントローラをさらに備えて
なる、請求項８記載の演算装置。
【請求項１０】前記インストラクションアレイには、
１パスで演算を実行するための演算手順が定められてい
る、請求項９記載の演算装置。
【請求項１１】前記順方向ラインが、第１の出力デー
タおよび第２の出力データを後段に出力するための一対
のライン、前記逆方向ラインがリバースデータを出力す
るラインであり、前記複数の算術論理演算回路の各々のラッチ回路が、後
段に出力する第１の出力データをラッチする第１のデー
タラッチ回路と、後段に出力する第２の出力データをラッチする第２のデ
ータラッチ回路と、前段に出力するデータをラッチするリバースラッチ回路
と、演算結果のキャリーを次の桁の演算のためにラッチする
キャリーラッチ回路と、前記第１の出力データおよび前記第２の出力データの一
方を所定期間遅延させて他方との参照を可能にするシフ
トラッチ回路と、前記第１および前記第２のデータラッチ回路および前記
リバースラッチ回路にラッチされているデータの演算を
制御するためのコントロールデータをラッチするコント
ロールラッチ回路と、を含むことを特徴とする、請求項８記載の演算装置。
【請求項１２】前記複数の算術論理演算回路の各々の
デコーダにおける順方向ライン上のデータおよび逆方向
ライン上のデータが、単位処理サイズのデータであるこ
とを特徴とする、請求項８記載の演算装置。
【請求項１３】前記切替接続手段、前記複数のシリア
ル演算パイプライン、および前記インストラクション受
付機構が一つの半導体デバイスの中に組み込まれている
ことを特徴とする、請求項１２記載の演算装置。
【請求項１４】シリアル演算パイプラインの構成要素
となるカスケード接続可能な算術論理演算回路であっ
て、前記シリアル演算パイプラインの前段から受け取ったデ
ータないしそれに基づく演算結果を後段に出力するため
の１又は複数の順方向ラインと、後段から受け取ったデータないしそれに基づく演算結果
を前段にフィードバックするための逆方向ラインと、外部から入力されたインストラクションに応じた処理を
実行し実行結果を表すデータを所望のラインに出力する
デコーダと、他の算術論理演算回路との間で各ライン上のデータ出力
のタイミングを同期させるためのラッチ回路とを備えて
なる、算術論理演算回路。
【請求項１５】前記順方向ラインが、第１の出力デー
タおよび第２の出力データを出力する一対のライン、前
記逆方向ラインがリバースデータを一つの出力するライ
ンであり、前記ラッチ回路が、前記第１の出力データをラッチする第１のデータラッチ
回路と、前記第２の出力データをラッチする第２のデータラッチ
回路と、前記リバースデータをラッチするリバースラッチ回路
と、前記デコーダによる演算結果のキャリーを次の桁の演算
のためにラッチするキャリーラッチ回路と、第１の出力データおよび第２の出力データの一方を所定
期間遅延させて他方との参照を可能にするシフトラッチ
回路と、前記第１および第２のデータラッチ回路およびリバース
ラッチ回路にラッチされているデータの演算を制御する
ためのコントロールデータをラッチするコントロールラ
ッチ回路とを含んで成る、請求項１４記載の算術論理演算回路。
【請求項１６】後段にデータを出力するための１又は
複数の第１ラインと、前段にデータをフィードバックす
るための第２ラインとを有し、シリアル演算を行うとと
もに演算結果を表すデータの出力対象となるラインを各
々独立に選択することができる算術論理演算回路を複数
段カスケード接続してシリアル演算パイプラインを構築
し、前記シリアル演算パイプラインに接続された外部コント
ローラで、前記複数の算術論理演算回路による１パスによる同時実
行の手順を反映したｍ行ｎ列のインストラクションの集
合であるインストラクションアレイを列毎にｍ回前記複
数の算術論理演算回路宛に個別に出力するとともに、パイプラインが後段に１段ずつｎ回移行させる際に、実
行済みのインストラクションを１段毎に１つ減ずる制御
を行うことを特徴とする、シリアル演算パイプラインによる演算方法。
【請求項１７】前記複数の算術論理演算回路の各々の
デコーダにおける各ライン上のデータが、単位処理サイ
ズのデータであることを特徴とする、請求項１６記載の演算方法。