JPH02300983A

JPH02300983A - 中央処理装置における高速演算処理の方法

Info

Publication number: JPH02300983A
Application number: JP2111875A
Authority: JP
Inventors: Allen J Baum; アレン・ジエイ・ボウム
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 1989-04-28
Filing date: 1990-05-01
Publication date: 1990-12-13
Also published as: EP0395348A3; US5001662A; EP0395348A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く先行技術〉マイクロプロセッサの設計の進歩により、ますます向上
する機能を伴った新しい世代のパーソナルコンピュータ
（パソコン）システムが開発すしている。特に、現在の
パソコンは複雑なグラフィラス処理も行なうことができ
る。多くのグラフィックス処理アルゴリズムでは、大量
の画素データに対して繰返し演算を行なう必要がある。

こうしたアルゴリズムは、複数のデータストリームを並
列に実行することによって実現される。たとえば、一般
に画素データは三原色（赤、緑、青）に対応する色強度
データを含んでおり、また１個もしくは複数の属性を含
んでいる。このため、画素演算は各色を並列に処理すれ
ば高速に実行することができる。

コンピュータのデータ経路を複数の独立したデータ経路
に分割し、該独立データ経路で「少量コのデータに対し
て同時に演算を行なうことにより、並列処理が実現され
ることが知られている。こうしたデータ経路の分割は、
多重ゲージングもしくは多重ゲージ処理と呼ばれている
。多重ゲージ処理によってグラフィックスのアルゴリズ
ムを高速化するアプリケーションは、Ｔ、Ｄ、デローズ
らによって、［多重ゲージ並列コンピュータを使用した
グラフィックスアルゴリズムの近似最適高速イＵ（１９
８７年並列処理国際会議の議事録、１９８７年８月１７
−２１日、ｐｐ、２８９−２９４）で説明されている。

このなかで該筆者は、３２ビツトのマイクロプロセッサ
をに個の独立した処理単位に分割し、各単位が狭ゲージ
モードでそれぞれ独自のデータストリームに対して演算
を行なう方式を説明している。狭ゲージマシンにそれぞ
れ独自のデータストリームを与えるため、メモリバスも
同様にに個の単位に分割している。プロセッサは全体と
してこのように構成され、広ゲージモードもしくは狭ゲ
ージモードのいずれかで作動する。該筆者は、命令スト
リームを分岐命令および結合命令で増強することによっ
てモードの切換えを行なうことができると述べているが
、こうしたアプローチは処理の負担を増加する。

本発明で実施するアプローチは、従来のアプローチの効
率を高めたもので、狭ゲージ命令を実行する一組の専用
算術命令を提供する。これらの命令は、対応する広ゲー
ジ命令に類似しているが、フルデータワードのサブセッ
トに対して独立して演算を行なう。このアプローチを利
用すれば、広ゲージ算術演算と狭ゲージ算術演算とをプ
ログラム内で自由にインタリーブすることができ、しか
もこの場合にプロセッサの演算モードを切換えるための
負担は増加することがない。

〈発明の要約〉本発明は、マイクロプロセッサの中央処理装置（ｃＰＵ
うにおいて多重ゲージ算術演算を実行するための方式と
装置を提供する。データワードの個々のバイトまたはハ
ーフワードの°並列処理を高速化するための専用命令が
提供される。また狭ゲージ演算の１幅」を制御するため
のバイト／ハーフワードフラグが提供される。

「並列加算」、「部分減算」、「部分比較」の各命令は
、２個のオペランドの対応するバイトもしくはハーフワ
ードに対して演算を行ない、バイト単位ま九はハーフワ
ード単位の結果を返す。部分乗算命令は、バイト単位も
しくはハーフワード単位の被乗数をを共通乗数で乗じて
、バイト単位もしくはハーフワード単位の積を返す。桁
上げ条件コードは、各ハーフワードまたは各バイトに対
して個別に維持される。部分桁上げロード命令符号は、
桁上げ条件コードを各々のハーフワードまたはバイトへ
と拡張する。

本発明の多重ゲージ算術演算は、大量の画素データの配
列に対して繰返し演算が行なわれるグラフィックス処理
に特に適している。特に、部分乗算命令は、画素色強度
の直線補間やエイリアス除去に使用して効果的であυ、
個別の原色強度を単一の命令サイクルで並列に処理する
ことができる。

く表記と定義〉以下の詳細な説明は、主として計算装置内におけるデー
タのビットに対する演算のアルゴリズムと記号表記とに
基づいて行なう。ζうしたアルゴリズムの説明と表記は
、データ処理の分野において有能な技能者が使用するも
のであって、該分野の他の技能者に各々の業務の内容を
伝達するのに最も効果的な手段である。

以下の説明では、慣用に準じて、アルゴリズムを所望の
結果に到達するためのステップの自己−貫した順序と定
義する。これらのステップは、物理的数量の物理的な操
作を必要とするステップである。例外はあるが、通常こ
れらの数量は電気的もしくは磁気的信号の形式をとシ、
格納、転送。

結合、比較その他の操作が可能である。主として慣用と
いう理由から、これらの信号をビット、値。

要素、記号９文字９項、数などと呼ぶのが便利であるこ
とがある。ただし、これらの用語もしくはこれに準する
用語は、適切な物理量に対応していなければならず、か
つ該用語はこれらの数量に付加された便利なラベルに過
ぎないことを承知しておく必要がある。さらに、これら
の物理量に対する操作は、加算や比較といった用語で表
現され、こうした用語は人間が自分自身で行なう演算に
通常関連付けられている。しかしながら、以下で説明す
る本発明の一部をなす演算では、人間のかかる機能はほ
とんどの場合不用であシ、むしろ好ましくない。演算は
マシンが実行するからである。

本発明はマイクロプロセッサに適用して最も効果がある
が、演算を実行する他のマシン、すなわち汎用ディジタ
ルコンピュータもしくは同様の装置に利用してもよい。

いずれの場合でも、演算を実行し、コンピュータを操作
する方式と、計算自体の方式とを明確に区別する必要が
ある。本発明は、プロセッサを操作して電気信号を処理
することにより、他の所望の電気信号を生成するステッ
プの方式に一部関する。

く実施例〉以下の説明は、もっばら本発明の説明を目的としたもの
であってこれを制限するものではない。

ζこでは具体的なデータ表現、ビット割当て、演算シー
ケンス等を説明して本発明の十分な理解を期している。

しかしながら、本発明がかかる明細を離れて他の態様に
おいても実施できることは本分野の有能な技能者には明
白である。また場合によシ、データ処理に関する周知の
装置、技法、ア　゛ルゴリズム等の詳細な説明は省略す
る。これは、本発明の説明を不用な明細で不明瞭にしな
いためである。

本発明は微粒並列処理を効率よく支援する緊密結合多重
プロセッサＣＰＵに適用して効果がある。

ＣＰＵのアーキテクチャは、シングルチップＶＬＳ　Ｉ
構成の相互接続性を活用する設計であることが望ましい
。とのようなＣＰＵは、最小限の構成部品で構成された
高性能のパソコンシステムで作動スる処理要素として使
用される。本発明の十分な理解を助けるため、本発明を
実施したＣＰＵの概要を以下でまず解説する。

ＣＰＵの概要第１図において、ＣＰＵ１０は、命令キャッシュ１４へ
のアクセスを共有する４個の独立した処理装置（ＰＵ）
１２ｍ　−１２ｄ、データキャッシュ１６、メモリ管理
装置（ＭＭＵ）Ｉ　Ｌおよびメモリ／バスインタフェー
ス２０とからなる。ＰＵ１２ｍ−１２ｄは、メモリを介
して通信を行なうほか、回報命令を使用してそれぞれの
アクティビティを伝達、調整することができる。同報命
令を使用すると、１個のＰＵは、他のＰＵへとデータや
アドレスを同時に伝送し、他のＰＵがそれぞれのアクテ
ィビティを完了するまで該ＰＵはその実行を保留するこ
とができる。複数のＣＰＵをプロセッサ間パスを介して
接続すると、多重プロセッサシステムが構成できる。こ
のシステムでは、各ＣＰＵは独自のローカルメモリを保
有し、このメモリを他のＣＰＵと共有することができる
。

ＣＰＵｌ０の４個のＰｏ　１２ｍ−１２４は、構造が同
一であり、かつそれぞれ独立している。このＰＵは、３
２ビツトのＲＩＳＯ（縮小命令セットコンピュータ）で
ある。４個のＰＵは、相互接続ネットワーク２２および
２４を介して命令キャッシュとデータキャッシュとをア
クセスする。これらのネットワークは、ＰＵにキャッシ
ュデータの転送経路を提供するほか、同報命令用の直接
ＰＵ間通信経路、大域レジスタアクセス、および割込み
ルーティング用経路を提供する。命令キャッシュとデー
タキャッシュは４個のバンクに分割され、各相互接続ネ
ットワークは５×４クロスバスイツチを含んでいるため
、４個のＰＵは、命令とデータのアクセスをすべて同時
に行なうことができる。

ＣＰｔＪｌＧがメツセージ割込みまたは外部割込み（入
出力割込みなど）を受信すると、ＣＰＵは４個のＰＵの
状態を調べる。ＰＵのうち１個が停止していれば、該割
込みを処理するためにこのＰＵが割当てられる。実際に
ＰＵの実行を中断する必要があるのは、４個のＰＵがい
ずれも作動中である場合だけである。したがって、アプ
リケーションの実行と平行して割込みを頻繁に行なうこ
とができる。各ＰＵにはフラグがあシ、このフラグによ
って該ＰＵの状態を割込み時に退避できるか否かを示す
。ＰＵがこのフラグを作動停止前に設定すると、割込み
処理時に状態の退避を行なうための負担を軽減すること
ができる。

これらのＰＵには、小規模なレジスタ対応命令セットが
ある。この命令セットでは、レジスタロード命令とレジ
スタ格納命令とによって、メモリへのすべてのアクセス
が行なわれる。レジスタサイズとワードサイズはそれぞ
れ３２ビツトである。

各ＰＵ　１２ｍ　−１２ｂは、１６個の汎用レジスタと
７個のローカルレジスタとをそれぞれ有する。すなわち
ＣＰＵｌ０には合計６４個の汎用レジスタがある。ロー
カルレジスタには、積格納レジスタ、余シ格納レジスタ
、プレフィクス格納レジスタおよびその他の状態を格納
するレジスタが含まれる。

さらに、これら４個のＰＵは８個の大域レジスタを共有
している。これらの大域レジスタには、割込みレジスタ
、イベントカウンタ、および入城状態レジスタが含まれ
る。

命令の長さはすべて１６ビツトである。アドレスモード
には、レジスタアドレス指定モードと基底追加変位アド
レス指定モードの２種類がある。

基底追加変位アドレス指定では、ベースレジスタのアド
レスから起算して最大６４ワードの変位を行なう。ただ
し、プレフィクス処理を行なえば、変位の範囲を拡大し
、レジスタアドレス指定を基底追加変位アドレス指定（
基底はいずれのレジスタでも可）へと変換し、さらに符
号つきの変位を行なうことができる。

命令の長さは１６ビツトであるため、命令内の直接フィ
ールドと変位フィールドとのサイズは限定される。しか
しながら、プログラム内で検出される直接値と変位値の
大部分はそのサイズが小さいため、これらのフィールド
に十分格納できる。

必要に応じて直接フィールド値や変位フィールド値にプ
レフイクス処理を行なえば、大きな値を生成することが
できる。各ＰＵには、プレフイクスレジスタと呼ばれる
ローカルレジスタがある。このレジスタの状態（空きか
使用中かのいずれか）は、プレフイクス有効フラグによ
って示される。

値はプレフィクス命令によってプレフイクスレジスタへ
とロードされる。プレフイクス命令の実行時にプレフイ
クスレジスタが空いていれば、ブレフィクス命令の直接
フィールドがプレフィクスレ　　・ジスタの下位ビット
に格納され、符号で拡張されたのち、グレフィクス有効
フラグが設定されて該レジスタが使用されていることを
示す。次のプレフイクス命令が実行されると、ブレフィ
クスレジスタの内容が左側にシフトされ、該プレフイク
ス命令の直接フィールドは、プレフィクスレジスタの下
位ビットに格納される。グレフィクス処理可能な直接フ
ィールドまたは変位フィールドを有する。命令が実行さ
れると、プレフィクス有効フラグが調べられる。ここで
プレフイクスレジスタが使用中であれば、該レジスタの
内容は該命令の直接フィールドまたは変位フィールドと
連結されて、有効な直接値もしくは変位値を形成する。

プレフィクス処理は、フィールド操作命令用のフィール
ドの定義にも使用される。

ＣＰＵ１０の構成要素と構成は、プログラミングモデル
を使用すればさらによく理解することができる。このプ
ログラミングモデルは、プログラマから見える（すなわ
ち命令によって操作できる）ＣＰＵの構成要素からなる
。これらの要素には、汎用レジスタ、状態レジスタ、プ
ログラムカウンタ、特殊レジスタ、命令キャッシュなら
びにデータキャッシュが含まれる。

各種の命令が、３２ビツトのフルワード、１６ビツトの
ハーフワード、８ビツトのバイト、および各ビットに対
して実行される。命令自体の長さは常にハーフワードで
ある。ワードとバイトのみがメモリからレジスタに直接
ロードでき、またレジスタからメモリへと直接格納でき
る。算術演算は、ワード、ハーフワードおよびバイトに
対して実行できる。第２図に示すように、ワード内の３
２ビツトは、右から左に０−３１と番号付けされている
。ビット０、すなわち右端のビットが最下位のビットで
ある。高い番号のビットはしばしば上位ビットと呼ばれ
、低い番号のビットは下位ビットと呼ばれる。

ワード内のハーフワードとバイトは、第２図に示すよう
に配置されている。第２図ではまた、ハーフワード内と
バイト内のビットの配列も示している。バイト０が最上
位のバイト（左端のバイト）であシ、バイト３が最下位
のバイト（右端のバイト）である。

一般に、命令とデータは、行と呼ばれる６４バイト（１
６ワード）のブロックを単位としてメモリとＣＰＵとの
間で転送される。１行」及び［キャッシュ行」なる用語
は、キャッシュ内の物理位置と、該位置に格納できる１
６個のメモリワードからなるブロックとの双方を示して
いる。命令キャッシュとデータキャッシュとは、アーキ
テクチャ的にはプログラマから見える存在である。命令
は、キャッシュ行に対して演算が行なわれるように提供
される。かかる演算には先取シ、無効化、フラッシュが
含まれる。

命令とデータのアドレスはバイトアドレスであシ、各ア
ドレスの長さは３２ビツトであって、４．０９６メガバ
イトの仮想アドレス空間を占めている。すべてのアドレ
スはバイトアドレスであるが、命令やデータに対するメ
モリへのアクセスは、適切な境界内に限定されている。

ハーフワード境界は、ビットく０〉＝１０″であるバイ
トアドレスである。ワード境界は、ビット（１：０）＝
”ｏｏ”であるバイトアドレスである。また行境界は、
ビット＜Ｓ：Ｏ＞＝″ｏｏｏｏｏｏ”であるバイトアド
レスである。命令は常にハーフワードの境界上に整列さ
れなければならない。・この場合、命令アドレスの下位
ビットは無視される。ワードオペランドは常にワード境
界上に整列されなければならない。

この場合、ワードロード命令やワード格納命令における
オペランドアドレスの下位２ビツトは無視される。定義
上、キャッシュ行はキャッシュ行境界上に整列される。

ＣＰＵとメモリとの間の行の転送は、常に行境界上で行
なわれる。キャッシュ制御命令におけるオペランドアド
レスの下位６ビツトは無視される。

プログラミングモデルには、汎用レジスタセット、状態
レジスタ、プログラムカウンタ、特殊レジスタセット、
命令キャッシュおよびデータキャッシュが含まれる。各
ＰＵには、それぞれ独自の汎用レジスタセット、状態レ
ジスタおよびプログラムカウンタがある。これらのレジ
スタは、ＰＵに対してローカルであるといわれる。また
各ＰＵは、所定の特殊レジスタの複製をそれぞれ独自に
有している一方、他の特殊レジスタは他のＰＵと共有し
ている。共有される特殊レジスタを大域レジスタと呼ぶ
。

ＰＵは、ユーザモードもしくハシステムモードのいずれ
かで作動する。あるＰＵの任意の時点のモードは、ＰＵ
状態／制御レジスタにおけるフラグの設定によって決定
される。一般に、アプリケーションはユーザモードで実
行され、オペレーティングシステムの核その他の構成部
分はシステムモードで実行される。システムモードでの
実行には特権があたえられている。すなわち、特殊レジ
スタのいくつかはシステムモードでのみアクセスでき、
命令のいくつかはシステムモードでのみ実行でき、また
「システム専用」と記されたページはシステムモードで
のみアクセス可能である。

各ＰＵは、０−１５と番号付けられた１６個の　。

３２ビツト汎用レジスタを有する。したがってＣＰＵに
は合計６４個の汎用レジスタがある。汎用レジスタは一
般に互換性がある。すなわちいずれの汎用レジスタをい
ずれの目的に使用してもよい。

各汎用レジスタは、その内容をメモリからロードし、ま
たメモリへと格納することができる。１から１５１で番
号の付けられたレジスタは、その内容を複数ロード／格
納命令をを介してメモリからロードし、またメモリへと
格納することができる。

バイトロード命令は、アドレス指定されたバイトを、右
寄せでゼロを充填して汎用レジスタへとロードする。バ
イト格納命令は、任意の汎用レジスタの右端のバイトを
メモリに格納する。

２種類のプログラムカウンタ（ＰＣ）があり、これらを
現ＰＣ１次ｐｃと呼ぶ。現ＰＣは、現在実行中の命令の
アドレスを保持している。次ＰＣは、次に実行される命
令のアドレスを保持している。

遅延分岐方式を採用しているため、プログラムカウンタ
は２個必要となる。分岐もしくはジャンプが行なわれる
と、現ＰＣは分岐シャドー命令のアドレスを保持し、分
岐目標アドレスは次ｐｃに格納される。順次コードとし
てみると、次ＰＣ内のアドレスは通常、現ＰＣ内のアド
レスプラス２に等しい。命令はハーフワード境界上で開
始されなければならないため、プログラムカウンタのビ
ットく０〉は常に０”である。

現ＰＣの内容は、プログラムカウンタロード命令を実行
することによって読取る。この命令は、現ＰＣ内のアド
レスに２を加算したものを汎用レジスタにロードする。

プログラムカウンタの内容は、順次コードの実行によシ
通常の増加によるほか、分岐命令やジャンプ命令の実行
や割込みからの復帰によって変更される。割込みやトラ
ップに対してイネーブルされたＰＵによって割込みやト
ラップが検出されると、現ｐｃと次ｐｃの内容は、ＰＣ
退避待ち行列と呼ばれる一対の特殊レジスタのなかに退
避される。割込みからの復帰後、ＰＣ退避待ち行列の内
容は現ｐｃと次ＰＣとに転送される。

ＰＵ状態／制御レジスタ（ＰｓＲ）には、ＰＵの実行モ
ードを制御し、特定のトラップの生成ならびに割込みを
許可または禁止し、ＰＵの状態と算術演算の結果につい
ての情報を記録するために使用するフラグがある。ＰＵ
状態／制御レジスタ（ＰＩＲ）の中の１ビツトは、ハー
フワード／バイ）（Ｈ／Ｂ）モードフラグ用に確保され
ている。このフラグが論理′″１″に設定されると、多
重ゲージ算術命令がハーフワード（１６ビツト）に対シ
て実行されるととを意味する。このフラグが論理”Ｏ″
に設定されると、多重ゲージ算術命令がバイト（８ビツ
ト）に対して実行されることを意味する。本発明の好ま
しい実施例では、Ｈ／ＢモードフラグはＰｓＲのビット
として格納されるが、該フラグは他のレジスタで実施し
てもよく、また命令コード自体のビットとして実施して
もよい。

従来のプロセッサと同様、本発明の処理装置でも従来の
４個の条件コード、すなわち否定（Ｎ）コード、ゼロ（
Ｚ）コード、オーバフロー（Ｖ）コード、桁上げ（ｃ）
コードを提供する。ただし、本発明のＰｓＲでは、ＣＯ
，ＣＩ、Ｃ２，Ｃ３の４個の桁上げ条件コードを提供す
る。これらのコードはさまざまな組合せで設定、クリア
されて、フルワード、ハーフワード、バイトの各演算の
結果を反映する。フルワード演算で桁上げが生じると、
ＣＯは１”に設定され、ｃｌ、ｃ２．ｃ３は“０”にク
リアされる。ハーフワードモードでは、ＣＯとＣ２は対
応するハーフワードからの桁上げに設定され（桁上げが
あれば”１”、なければ“０”）、Ｃ１とＣ３はＯ″に
クリアされる。バイトモードでは、ＣＯ，ＣＩ、Ｃ２，
Ｃ３は対応するバイトからの桁上げに設定される。

加算の場合、適切な桁上げ条件コードＣはつぎの式から
求められる。

Ｃ＝（Ａ＆Ｂ　）　ｌ　（（Ａ　Ｉ　Ｂ　）＆〜Ｒ）こ
こで、Ａ：加数の符号Ｂ：被加数の符号Ｃ：結果の符号 ”＆”：論理積演算を示す。

６ビ：論理和演算を示す。

”〜”：否定演算、すなわち１の補数を示す。

このように、加数と被加数とがいずれも負数であるか、
もしくはそのいずれかが負数であって結果が正数であれ
ば、Ｃが設定される。

減算と比較については、桁上げ条件コードＣは次の式か
ら決定される。

Ｃ＝（（〜Ａ）＋（（（〜Ａ）ＩＢ）＆Ｒ）ここで、Ａ：被減数の符号Ｂ：減数の符号Ｒ：結果の符号被減数が正数で減数が負数であれば、Ｃが設定される。

結果が正数であって、被減数が正数であるか、もしくは
減数が負数であれば、同様にＣが設定される。

桁上げ条件コードの検査時には、４個のビットＣＱ−０
３には常に論理和演算が行なわれて、これらのビットの
うちいずれかが設定されていれば、桁上げ条件が検出さ
れる。桁上げ条件コードをこのように検査することによ
り、該検査は、条件コードのビットが設定／解除された
時点での作動「ゲージ」と無関係に行なわれる。このた
め、条件付き分岐などの検査命令では、該命令に先行す
る命令シーケンスにフルワード、ハーフワード、バイト
のいずれの算術命令が含まれていても、これらとは無関
係に同一のコーディングが行なわれる。

本発明のゼロ条件コードも、従来のプロセッサとは異な
る方法で実施している。フルワード算術演算では、ハー
フワードもしくは４バイトのうちいずれかがゼロである
場合、ｚＦｉ′″１″に設定される。この丸め、狭ゲー
ジ演算では、結果のワードの３２ビツトがすべて″θ″
以外である場合でも、ｋが設定される。

第３図では、本発明のアーキテクチャの重要な一面を示
している。各ＰＵは３２ビツトの乗算器を含んでいる。

この乗算器は、２個の独立した１６ビツト（ハーフワー
ド）の乗算器、もしくは４個の独立し７’ｃ８ビツト（
バイト）の乗算器へと分割することができる。第３図で
は、２バイト間の境界に位置する乗算器の一部を示して
いる。さらに詳説すれば、該境界は、ピッ）Ｂ、、すな
わちバイト３の最上位ビットと、ビットＢａ１すなわち
バイト２の最下位ビットとの間に位置している。

この乗算器は、当該分野で周知であるように、加算器２
８の配列を使用して実施している。ただし、各全加算器
の入力には、マルチプレクサ３０が付加されている。該
加算器では１．各バイトの最上位ビット（ビット７．１
５，２３，３１）　　を入力として使用している。マル
チプレクサ３０に対する選択入力は、部分乗算を実行す
るか否かを示す制御信号”ＰＡＲＴＩＡＬ″である。マ
ルチプレクサ３０へのデータ入力のうち１個は、先行バ
イトの下位ビットから送られた合計である。このバイト
は、従来、加算器３０に直接送られていたバイトである
。

他の１個のデータ入力は、該バイトの符号拡張論理３１
によって提供される。この符号拡張論理は、先行技術分
野で周知である多数の方法のいずれかを使用して実施し
てもよい。ただし、各バイトには、それぞれに対応する
独自の符号拡張論理がおるものとし、該論理はフルワー
ド乗算器の符号拡張論理を複製したものであることが望
ましい。

部分モードが使用可能になると、符号拡張論理３１には
、符号なし部分乗算命令（以下で説明）に対しては′０
″が与えられ、また符号付き部分乗算命令（以下で説明
）に対しては、該当する桁上げ条件コードを逆にしたコ
ードが与えられる。

このため、部分モードが使用可能になると、該当する符
号拡張論理がマルチプレクサ３０の出力に与えられ、先
行バイトの下位ビットからの合計は抑止される。これに
よシ、部分ワード境界を越えて桁上げが伝播されること
を防いでいる。別個のマルチプレクサ選択信号が３個の
バイト間境界に対して与えられて、バイト演算もしくは
ハーフワード演算がＨ／Ｂモードフラグに応じて選択さ
れる。

乗算器は、いずれかの部分ワードモードで作動中である
場合、下位ビットに不正データを返す。

通常は、これらの下位ビットは、積を構成する３２個の
最下位ビットを含んでいる。ただし、積レジスタに残さ
れた上位３２ビツトは、所望の結果、すなわち２個また
は４個の部分ワード積の最上位部分を含んでいる。

本発明は、レジスタバイトまたはハーフワードに対する
算術演算を実行する専用命令のセットを提供する。レジ
スタバイトとハーフワードとの区分は、状態レジスタＰ
ｓＲのＨ／Ｂモードフラグによって決定される。以下で
は、これらの命令をレジスタ”Ａ″もしくは”Ｂ”に対
する演算に関連して説明する。ここでは、Ａ”および′
″Ｂ″は、ＰＵの１６個の汎用レジスタのうち指定され
たレジスタを指す。ここで説明する算術演算は、指定さ
れたレジスタの内容、すなわちレジスタのビット状態に
よって示される２進数に対して実行される。指定された
レジスタの内容は、命令のオペランドとも呼ばれる。

第４図において、部分乗算命令は、４個のバイトもしく
は２個のハーフワードの各々からの符号付き被乗数を形
成している。ここでは、該バイトもしくはハーフワード
の桁上げ条件コードフラグの補数を、その符号として使
用する。第４図では、バイトモードが選択されている場
合のバイトｏの乗算を示している。バー７ワードモード
におけるバイト１−３の乗算、またはハーフワードｏお
よ１の乗算も同様に行なわれる。

Ｈ／Ｂモードフラグがクリアされると、レジスタＢの各
バイトはレジスタＡで乗算される。この場合、バイト間
の桁上げは禁止される。Ｈ／Ｂモードフラグが設定され
ると、レジスタＢの各ハーフワードはレジスタＢで乗算
される。この場合、ハーフワード間の桁上げは禁止され
る。各バイトやハーフワードは独立して乗算される。こ
の結果は、積レジスタの対応するバイトもしくはハーフ
ワードに格納される。

レジスタＡ（ビット３１−１６　）の上位１６ビツトの
みが乗数として使用される。レジスタＡの下位１６ビツ
トは無視される。この乗数は、符号なしの左寄せの少数
値である。

被乗数の各バイトもしくはハーフワードは、符号付きの
２の補数であり、左寄せの少数値である。

各被乗数の符号は、状態レジスタＰｇＲ内の対応する桁
上げビットを逆にした状態によって決定される。バイト
モードでは、４個の桁上げピッ）ＣＯ−０３をすべて使
用する。ハーフワードモードでは、ＣＯと０２のみを使
用する。対応する桁上げビットにゼロが含まれていれば
、被乗数は負数である。桁上げビットに１が含まれてい
れば、被乗数は正数である。

各結果バイトもしくはハーフワードは、符号なしの小数
値であって、該値は積の符号を取り去ね、核種の最上位
のバイトまたはハーフワードを結果として格納すること
によシ与えられる。これらの結果バイトもしくはハーフ
ワードは連結されて、積レジスタに格納される。各棟の
下位バイトまたはハーフワードは無視される。

本命令は、上記の部分乗算命令と概略同一であるが、被
乗数が符号なしの値である。状態レジスタの桁上げビッ
トは無視される。先に説明したように、各被乗数の符号
ビットはｏ”であシ、各被乗数バイトまたはハーフワー
ドは符号なしの左寄せ小数値である。符号付き部分乗算
命令の場合と同様、乗数は、符号なしの左寄せ小数値で
ある。

本命令符号は、Ｈ／Ｂモードフラグによって指定された
モードに準じて、状態レジスタの桁上げ条件コードを拡
張し、その結果をレジスタＡに格納する。バイトモード
では、各バイトの桁上げコード、すなわちＣＯ，ＣＩ、
Ｃ２，Ｃ３は符号によって８ビツトへと拡張される。ハ
ーフワードモードでは、各ハーフワード桁上げコード、
すなわちＣ０とＣ２は符号によって１６ビツトへと拡張
される。

この結果形成されたバイトもしくはハーフワードは、連
結されてレジスタＡ内の対応するバイトやハーフワード
に格納される。

部分桁上げロード命令は、オーバフローで飽和した加算
、またはアンダフローで飽和した減算の実行に適用して
特に効果がある。加算の場合には、部分加算命令、部分
桁上げロード命令、論理和命令をこの順序で含む命令シ
ーケンスを実行すると、オーバフローした合計を有する
各バイトもしくはハーフワードが′″１″′で満たされ
る。逆に、減算の場合には、部分減算命令、部分桁上げ
ロード命令、論理積命令をこの順序で含む命令シーケン
スを実行すると、アンダフローの差を有する各バイトも
しくはハーフワードが”０″で満たされる。

これらの命令は、レジスタＡ内の４個のバイトもしくは
２個のハーフワード（Ｔ（／Ｂモードフラグにより決定
される）を、レジスタＢ内の対応するバイトもしくはハ
ーフワードと算術的に組合せる命令である。算術演算の
結果であるＢ十ＡまたはＡ−Ｂは、レジスタＢ内の対応
するバイトもしくはハーフワードへと返される。バイト
間またはハーフワード間の桁上げは禁止されるため、各
一対のバイトまたはハーフワードは独立して加算、減算
される。入り桁は、部分加算命令では強制的に”Ｏ”に
設定され、部分減算命令では強制的に”１”に設定され
る。ただし、各バイトまたはハーフワードからの出し桁
は状態レジスタ内の対応する桁上げビットによって保持
される。

バイトモードでは、対応するバイトに出し桁があり、か
つ桁上げのない各ビットがクリアされた場合、ＣＱ−０
３は個別に設定される。減算の場合、レジスタＢ内の対
応する符号なしバイトがレジスタＡ内の対応するバイト
と等しいか、もしくはそれ以上でおれば、上記の動作に
よって桁上げビットが設定される。ハーフワードモード
では、対応するハーフワードに出し桁があれば、ＣＯも
しくはＣ２は設定され、対応するハーフワードに桁上げ
がなければ、該ビットはクリアされる。ハーフワードモ
ードでは、Ｃ１とＣ３は常にクリアされる。

２条件コードは、バイトやハーフワードの加算もしくは
減算の結果がゼロであれば、′１″に設定される。これ
以外の場合、２は０″にクリアされる。

部分比較本命令は部分減算と同一であるが、算術演算の結果は格
納されず、条件コードのみが格納される。

部分比較命令は、レジスタＢ内のバイトもしくはハーフ
ワード（Ｈ／Ｂモードフラグによって決定される）の内
容を、レジスタＡ内の対応するバイトもしくは°ハーフ
ワードと比較する。各バイトやハーフワードへの入り桁
は、強制的に１″に設定されるため、該バイトやハーフ
ワードは独立したオペランドとして扱われる。対応する
バイトもしくはハーフワードに関してレジスタＢからレ
ジスタＡを減算した場合の算術演算の真の結果に準じて
、状態レジスタの桁上げコードとゼロ状態コードが設定
される。

部分減算命令と同様、バイトモードでは、レジスタＢ内
の対応する符号なしバイトがレジスタＡ内の対応するバ
イトと等しいか、もしくはそれ以上であれば、ＣＯ，Ｃ
Ｉ、Ｃ２もしくはＣ３が設定される。これ以外の場合、
状態コードビットはクリアされる。ハーフワードモード
の場合、レジスタＢ内の対応するハーフワードがレジス
タＡ内の対応するハーフワードと等しいか、もしくはそ
れ以上であれば、ＣＯもしくはＣ２が設定される。これ
以外の場合、該ビットはクリアされる。ハーフワードモ
ードでは、Ｃ１とＣ３は常にクリアされる。

バイトもしくはハーフワードの比較の結果がゼロである
場合、す々わち各一対内のバイトやハーフワードが互い
に同一である場合、２状態コードは１″に設定される。

グラフィックスのアプリケーション本発明の部分乗算命令は、画素色強度値のような複数の
データセットの並列直線補間の実行に適用して特に効果
がある。

開始値Ｓと終了値Ｅとの間におけるパラメータｔの関数
としての直線補間は、次のような式で表現される。

（Ｅｌｔ）＋（Ｓ＊（１−ｔ））この関係によってパラメータｔが０から１に変化すると
、開始値Ｓと終了値Ｅとの間で補間がスムースかつ直線
的に行なわれる。

上記の関数に代わる式としては、パラメータｔの値をＯ
からＴの間でとる式がある。この場合、点ｔにおける補
間値は次の式で与えられる。

（Ｅｌ（ｔ／Ｔ））＋（ｓ＊（ｘ−（ｔ／Ｔ）））これ
を書き直すと、ｓ＋（ｇ−ｓ）＊（ｔ／Ｔ）となる。

制約があるためパラメータｔがＯとＴとの間で整数のみ
をとる場合、連続する補間値は、（Ｅ−８）／Ｔを計算
し、その結果を直前の補間に連続して加算すれば得られ
ることがわかる。これは、先行技術でしばしば使用され
る技法である。ただし、本技法によれば、丸めによるエ
ラーが生ずることがある。理由は、（Ｅ−８）／Ｔなる
値は、値Ｔが大きい場合、値ＳもしくはＥに比較して（
Ｅ−８）、／Ｔの結果が明らかに小さくなるためである
。

このように、（Ｅ−８）Ｔ　を計算する際の丸めのエラ
ーは、ｔ＝Ｔであれば大きく拡大されることになシ、こ
の場合、終了値Ｅに到達しないか、もしくは数値をオー
バシュートする恐れがある。

数量（ｔ／Ｔ）を数量（１／Ｔ）で連続して増分し、そ
の結果を数量（Ｐ！、−８）で乗算すればさらに正確な
値を得ることができる。この技法の欠点は、各補間値を
それぞれ乗算しなければならないことである。グラフィ
ックスのアプリケーションで各画素が３種類の独立した
色強度によって表現されている場合、後者の技法で補間
を行なうには、各画素に対して乗算を３回行なう必要が
ちる。本発明と異なシ多重ゲージ処理を行なわない場合
、かかる演算は処理上の大きな負担となシ、処理が不可
能となることもある。たとえば、画素色強度データを個
別のデータワードにパックするのが有利であるため、先
行技術のプロセッサで各色を個別に乗算すると、データ
のパック、アンパックによる相当程度の負担が生ずる。

このように、本発明は、その−面として、複数の互いに
独立した乗算を平行して行なう手段を提供するため、画
素色強度の正確な直線補間を相当程度高速化することが
できる。

また本発明の部分乗算命令は、描画された表面の端部に
おけるエイリアス除去に使用して特に有効である。この
アプリケーションでは、各画素に２個以上の表面の部分
が含まれているため、かかる画素に関する合成色強度は
、各表面の色強度に、各表面の画素内での相対百分率を
乗じて、出た結果を組合せれば容易に求められる。先行
技術のシステムでは、各画素の３原色強度を計算するの
に最低でも個別の演算を６回行なうか、もしくはそれぞ
れの色強度を繰返し加算して増分する必要があった。

本発明の開示をさらに続ける。以下に、（符号付き）部
分乗算命令（”Ｍｕｌｐ”）と符号なし部分乗算命令（
”ＭｕｌＰＵ”）との機能を実現するＣ言語のコードを
説明する。下記のコードは、本発明によって実行される
演算のいくつかをシミュレートするものであって、本発
明を定義するものではない。さらに、下記のコードは、
本発明によるプロセッサの電気回路内で実現される論理
関係を定義する。このため該コードは、本分野で周知の
回路開発技法を適用して本発明の物理的な実施例を形成
する場合に使用して有効である。

以下の０Ｍ語コードの記述において、ＢおよびＡＩは入
力であり　　ｌ　ｈ　ｂｌはハーフワード／バイトモー
ドフラグ（バイトモードではｈｂ＝０、ハーフワードモ
ードではｈｂ＝１）であり、ｃｉｎＯ，，３は４個の桁
上げ入力である。

−へ−へ０ロー　　　　　　　　Ａｐｇｍ−−＋口　　　　＾上記の発明は、本開示の精神や基本特性から逸脱するこ
となく上記以外の態様でも実施できることは明白である
。このように、本発明は上記の説明によって限定される
ものではなく、添付された特許請求の範囲によってのみ
定義される。

【図面の簡単な説明】

第１図は本発明を実施するのに好適な中央処理装［（ｃ
ＰＵ）の機能ブロック図、第２図は第１図のＣＰＵにお
けるデータワードのビット／バイト構成の図、第３図は
本発明による乗算器の一部を示す論理図、第４図は本発
明による部分積命令を示す演算流れ図である。１０・ｌ１１１・ＣＰＵ、　　１４φφ・Φ命令キャッ
シュ、１６・・・・データキャッシュ、１８φ・・Φメ
モリ管理装置、２０・・―・メモリ／バスインタフェー
ス、２２，２４・・φ・相互接続ネットワーク。

Claims

【特許請求の範囲】１、ディジタルコンピュータにおいて、選択的に複数の
算術演算を並列に実行する方法であつて、（ａ）整数値
を指定するフラグ手段を提供する段階と、（ｂ）オペランドの独立した集合ｋ個に対して選択され
た一算術演算を同時に実行する算術手段を提供する段階
と、（ｃ）複数の許容値から値ｋを指定する段階と、（ｄ）
前記算術手段に対してｋ個の独立した第一オペランドを
表明する段階と、（ｅ）前記算術手段に対して少なくとも１個の第二オペ
ランドを表明する段階と、（ｆ）前記第一オペランドの各々に対して前記の選択さ
れた一算術演算を実行することによつてｋ個の独立した
結果を計算する段階とから成り、ｋ個の独立した第一オ
ペランドに対して、選択的に変動する数量であるｋ個の
並列算術演算処理が行なわれることを特徴とする方法。２、ディジタルコンピュータにおいて、選択的に複数の
算術演算を並列に実行する方法であつて、（ａ）Ｍビッ
トの一乗算を実行する乗算手段であつて、選択的に複数
の独立した副乗算手段へと分割可能であり、かつ各副乗
算手段は各々Ｎビットの一乗算を実行することを特徴と
する乗算手段を提供する段階と、（ｂ）一乗数を格納するための第一レジスタ手段を提供
する段階と、（ｃ）複数のＮビットの被乗数を示すＭビットワードを
１個格納する第二レジスタ手段を提供する段階と、（ｄ）前記複数のＮビット被乗数を前記乗算手段に対し
て表明する段階と、（ｅ）前記乗数を前記乗算手段に対して表明する段階と
、（ｆ）前記複数の被乗数に前記乗数を乗じて得られる独
立した複数の積を計算する段階と、（ｇ）前記複数の独立した積をＮビットの結果に合せて
切捨てる段階と、（ｈ）前記複数のＮビットの結果をＭビットワード１個
へと連結する段階とからなることを特徴とする方法。３、データ処理機能をデータワードに対して実行するデ
ィジタルコンピュータにおいて、前記ディジタルコンピ
ュータは前記データワードの複数のサブセットに対して
並列に算術演算を実行するものであるとき、前記算術演
算の結果を監視する方法であつて、（ａ）前記算術演算のいずれかの結果のサブセットにお
ける桁上げ条件を示す前記データワードのサブセットに
対応した複数の桁上げ条件コードを提供する段階と、（ｂ）前記複数の桁上げ条件コードを格納するレジスタ
手段を提供する段階とからなる方法。