JP3670039B2 - スーパースカラマイクロプロセッサ - Google Patents

スーパースカラマイクロプロセッサ Download PDF

Info

Publication number
JP3670039B2
JP3670039B2 JP26331794A JP26331794A JP3670039B2 JP 3670039 B2 JP3670039 B2 JP 3670039B2 JP 26331794 A JP26331794 A JP 26331794A JP 26331794 A JP26331794 A JP 26331794A JP 3670039 B2 JP3670039 B2 JP 3670039B2
Authority
JP
Japan
Prior art keywords
microprocessor
instruction
bus
functional unit
instructions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26331794A
Other languages
English (en)
Other versions
JPH07182160A (ja
Inventor
デイビッド・ビィ・ウィット
ウィリアム・エム・ジョンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Micro Devices Inc
Original Assignee
Advanced Micro Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Micro Devices Inc filed Critical Advanced Micro Devices Inc
Publication of JPH07182160A publication Critical patent/JPH07182160A/ja
Application granted granted Critical
Publication of JP3670039B2 publication Critical patent/JP3670039B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30025Format conversion instructions, e.g. Floating-Point to Integer, decimal conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30094Condition code generation, e.g. Carry, Zero flag
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30112Register structure comprising data of variable length
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/30149Instruction analysis, e.g. decoding, instruction word fields of variable length instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/3017Runtime instruction translation, e.g. macros
    • G06F9/30174Runtime instruction translation, e.g. macros for non-native instruction set, e.g. Javabyte, legacy code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3804Instruction prefetching for branches, e.g. hedging, branch folding
    • G06F9/3806Instruction prefetching for branches, e.g. hedging, branch folding using address prediction, e.g. return stack, branch history buffer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3814Implementation provisions of instruction buffers, e.g. prefetch buffer; banks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • G06F9/384Register renaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3856Reordering of instructions, e.g. using queues or age tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)

Description

【0001】
【発明の背景】
この発明は一般にマイクロプロセッサに関し、より特定的には高性能スーパースカラマイクロプロセッサに関する。
【0002】
他の多くの近代技術分野と同様に、マイクロプロセッサの設計も、技術者および科学者が常に速度、効率および性能を高めようと努める技術である。一般的に言えば、マイクロプロセッサは2つのクラス、すなわちスカラおよびベクトルプロセッサに分けることができる。最も初期のスカラプロセッサは、1マシンサイクルにつき最大で1の命令を処理する。いわゆる「スーパースカラ」プロセッサで、1マシンサイクルにつき処理できる命令は、1を上回る。スカラプロセッサと対照的に、ベクトルプロセッサは各マシンサイクル中に比較的大きな値のアレイを処理できる。
【0003】
ベクトルプロセッサは処理効率を追求するのにデータ並列性に頼り、一方スーパースカラプロセッサは動作の効率を高めるのに命令並列性に頼る。命令並列性は、命令を並列に処理することを可能にするこのような命令シーケンスの固有の特性と考えることができる。対照的に、データ並列性はその要素を並列に処理することを可能にするデータの流れの固有の特性と見ることができる。命令並列性は、命令の特定のシーケンスが示す従属性の数に関連する。従属性とは、ある特定の命令が別の命令の結果に依存する程度と定義される。スカラプロセッサでは、ある命令が別の命令に対する従属性を示すと、一般に、その命令が実行のために機能ユニットに渡され得る前にその従属性を解決しなくてはならない。この理由のため、従来のスカラプロセッサは、プロセッサがこのような従属性の未処理の解決を待つ間の望ましくない時間遅延がある。
【0004】
ここ数年、プロセッサおよびマイクロプロセッサによる命令の実行を高速化するためにいくつかのアプローチがとられてきた。現在でもマイクロプロセッサで広く用いられているアプローチの1つは、パイプライン化である。パイプライン処理では、1)命令のフェッチ、2)命令のデコードおよびオペランドの収集、ならびに3)命令の実行および結果のライトバックの3つのマイクロプロセッサの動作が処理を速くするために重ねられる、組立ラインのアプローチがとられる。言い換えれば、それぞれのマシンサイクルにおいて命令1がフェッチされ、命令1がデコードされる。命令1がデコードされ、そのオペランドが集められている間、命令2がフェッチされる。命令1が実行され、その結果が書込まれる間、命令2はデコードされ、そのオペランドが集められ、命令3がフェッチされる。実用において、組立ラインのアプローチは、上述したよりも多くの組立ラインステーションに分けられることがある。パイプライン技術のより詳細な議論は、ディー・ダブリュー・アンダーソン(D. W. Anderson)らによる、1967年1月、IBMジャーナル第11巻の8−24頁、「IBMシステム/360モデル91:マシンフィロソフィ」(“The IBM System/360 Model 91:Machine Philosophy”)に記載される。
【0005】
以下の定義は、本明細書中、明確を期するために述べるものである。「発行」とは、命令を命令デコーダから機能ユニットに送る動作のことである。「投入」とは、命令を機能ユニット内での実行の状態に置く動作である。「完了」とは、命令が実行を終えて、その結果が利用可能であるときに達成されるものである。命令の結果がレジスタファイルに書込まれるとき、命令は「用尽」されると言う。これはまた、「ライトバック」とも称する。
【0006】
ウィリアム・ジョンソン(William Johnson)による最近の著書「スーパースカラマイクロプロセッサ設計」(“Superscalar Microprocessor Design", 1991年、プレンティス・ホール社(Prentice-Hall, Inc.))では、実用的なスーパースカラマイクロプロセッサの設計に関していくつかの一般的な考察が述べられている。図1は、このジョンソンの著書で説明されているスーパースカラマイクロプロセッサの実現例を示すマイクロプロセッサ10のブロック図である。マイクロプロセッサ10は、整数演算を処理するための整数ユニット15と、浮動小数点演算を処理するための浮動小数点ユニット20とを含む。整数ユニット15および浮動小数点ユニットの各々は、それぞれ別個で専用の命令デコーダと、レジスタファイルと、リオーダバッファと、ロードおよびストアユニットとを含む。より特定的には、整数ユニット15は、命令デコーダ25と、レジスタファイル30と、リオーダバッファ35と、ロードおよびストアユニット(60および65)とを含み、一方浮動小数点ユニット20は、固有の命令デコーダ40と、レジスタファイル45と、リオーダバッファ50と、ロードおよびストアユニット(75および80)とを含み、図1に示されるとおりである。リオーダバッファはマイクロプロセッサの推論状態を含み、一方レジスタファイルはマイクロプロセッサのアーキテクチャの状態を含む。
【0007】
マイクロプロセッサ10はメインメモリ55に結合され、これは2つの部分、すなわち命令をストアするための命令メモリ55Aとデータをストアするためのデータメモリ55Bとを含むものとして考えることができる。命令メモリ55Aは、整数ユニット15と浮動小数点ユニット20との両方に結合される。同様に、データメモリ55Bも、整数ユニット15および浮動小数点ユニット20の両方に結合される。より詳細には、命令メモリ55Aはデコーダ25およびデコーダ40に命令キャッシュ58を介して結合される。データメモリ55Bは、データキャッシュ70を介して整数ユニット15のロード機能ユニット60とストア機能ユニット65とに結合される。データメモリ55Bはまた、データキャッシュ70を介して浮動小数点ユニット20の浮動小数点ロード機能ユニット75と浮動小数点ストア機能ユニット80とに結合される。ロードユニット60は、データメモリ55Bから選択されたデータを整数ユニット15へとロードする従来のマイクロプロセッサの機能を実行し、一方ストアユニット70は、整数ユニット15からのデータをデータメモリ55Bにストアする従来のマイクロプロセッサの機能を実行する。
【0008】
コンピュータプログラムは、マイクロプロセッサ10によって実行されるべき命令のシーケンスを含む。コンピュータプログラムは、典型的には、ハードディスク、フロッピィディスクまたはコンピュータシステム内に位置される他の不揮発性記憶媒体にストアされる。プログラムが実行されるとき、プログラムは記憶媒体からメインメモリ55にロードされる。プログラムの命令および関連のデータが一旦メインメモリ55内に入れば、個々の命令を実行のために準備し、最終的にはマイクロプロセッサ10によって実行することができる。
【0009】
メインメモリ55内にストアされた後、命令は、命令キャッシュ58を介して命令デコーダ25へと渡される。命令デコーダ25は各命令を調べ、取るべき適切な動作を決定する。たとえば、デコーダ25は、特定の命令が、PUCH、POP、LOAD、AND、OR、EX OR、ADD、SUB、NOP、JUMP、条件付JUMP(BRANCH)または他のタイプの命令であるかを決定する。デコーダ58が決定した特定のタイプの命令が存在するかに依存して、命令は適切な機能ユニットに発行される。ジョンソンの著書で提案されているスーパースカラアーキテクチャでは、デコーダ25は1マシンサイクルにつき4つの命令をデコードすることのできるマルチ命令デコーダである。したがって、デコーダ58は4命令幅のバンド幅を示すと言える。
【0010】
図1に示されるように、OP CODEバス85は、デコーダ25と機能ユニットの各々、すなわち分岐ユニット90、算術論理装置95および100、シフタユニット105、ロードユニット60およびストアユニット65との間に結合される。この態様で、各命令のためのopコードは適切な機能ユニットに与えられる。
【0011】
ここでしばらく直接的な説明からは離れるが、命令は、典型的には以下のフォーマットで、すなわちopコード、オペランドA、オペランドB、行先レジスタという複数のフィールドを含むことが認められる。たとえば、サンプル命令ADD A、B、Cとは、レジスタAの内容をレジスタBの内容に加算し、その結果を行先レジスタCに置くことを意味するであろう。各命令のopコード部分の処理は、既に上述したとおりである。ここで各命令のオペランドの処理を説明する。
【0012】
特定の命令のためのopコードが適切な機能ユニットに送られなくてはならないだけでなく、その命令のための指定されたオペランドが検索されて、機能ユニットに送られなくてはならない。特定のオペランドの値がまだ計算されていなければ、機能ユニットが命令を実行できる前に、その値をまず計算して、機能ユニットに与えられなくてはならない。たとえば、現在の命令が先行の命令に従属していれば、現在の命令が実行される前に先行の命令の結果を決定しなくてはならない。この状況を従属性と称する。
【0013】
特定の命令を機能ユニットが実行するのに必要とされるオペランドは、レジスタファイル30またはリオーダバッファ35のいずれかによってオペランドバス110に与えられる。オペランドバス110は、機能ユニットの各々に結合される。したがって、オペランドバス110はオペランドを適切な機能ユニットに送る。実用において、オペランドバス110はオペランドAおよびオペランドBのための別個のバスを含む。
【0014】
機能ユニットにopコードならびにオペランドAおよびオペランドBが与えられれば、機能ユニットは命令を実行し、その結果を、すべての機能ユニットの出力とリオーダバッファ35とに(および、後述のように各機能ユニットの入力にあるそれぞれの待合わせステーションに)結合される結果バス115に置く。
【0015】
各機能ユニットの入力には、その命令のためのオペランドが機能ユニットに対してまだ利用可能でないという意味でまだ完全でない命令からのopコードをストアするための「待合わせステーション」が設けられる。待合わせステーションは、後に待合わせステーションに到達する、抜けているオペランドのための場所を確保するオペランドタグとともに命令のopコードをストアする。この技術は、未処理の命令が待合わせステーションでそのオペランドとともに集められている間、マイクロプロセッサが他の命令を実行し続けることを可能にすることによって性能を高める。図1に示されるように、分岐ユニット90には待合わせステーション90Rが設けられ、ALU95および100には待合わせステーション95Rおよび100Rがそれぞれ設けられ、シフタユニット105には待合わせステーション105Rが設けられ、ロードユニット60には待合わせステーション60Rが設けられ、ストアユニット65には待合わせステーション65Rが設けられる。このアプローチでは、待合わせステーションが、より初期のマイクロプロセッサにおいて機能ユニットの入力で典型的には使用されていた入力ラッチの代わりに使用される。待合わせステーションに関してのよく知られた参考文献は、1967年1月、IBMジャーナル、第11号、25−33頁、アール・エム・トマシュロ(R. M. Tomasulo)の「複数の算術装置を用いる効率的なアルゴリズム」(“An Efficient Algorithm For Expoiting Multiple Arithmetic Units”)である。
【0016】
先に述べたように、スカラマイクロプロセッサでの効果的なスループットを1マシンサイクルにつき1つの命令という限界まで増大するのにパイプラインを用いることができる。図1に示されるスーパースカラマイクロプロセッサでは、1マシンサイクルにつき複数の命令の処理を達成するのに複数のパイプラインが用いられる。この技術を、「スーパーパイプライン化」と称する。
【0017】
「レジスタ再指定」と称する別の技術もまた、スーパースカラマイクロプロセッサのスループットを高めるために用いることができる。この技術は、命令ストリームにおける2つの命令のどちらも同じレジスタ、たとえば仮説レジスタ1を使用することを要求する場合に有用である。第2の命令が第1の命令に従属していなければ、レジスタ1Aと呼ぶ第2のレジスタが、レジスタ1の代わりに第2の命令によって使用されるように割当てられる。この態様で、レジスタ1を用いて第1の命令が終了するのを待つことなく、第2の命令を実行することができ、結果を得ることができる。図1に示されるスーパースカラマイクロプロセッサ10は、命令処理能力を高めるのにレジスタ再指定のアプローチを用いる。マイクロプロセッサ10においてレジスタ再指定を実現する態様を以下により詳細に説明する。
【0018】
上述のことから、レジスタ再指定がレジスタに対するストアの競合をなくすことが認められる。レジスタ再指定を実現するために、整数ユニット15および浮動小数点ユニット20は、それぞれのリオーダバッファ35および50と関連付けられる。簡略にするために、整数ユニット15内のリオーダバッファ35を介してのレジスタ再指定のみを議論するが、同じ議論が浮動小数点ユニット20内の同様の回路にも当てはまる。
【0019】
リオーダバッファ35は、命令結果にダイナミックに割当てられるいくつかのストア位置を含む。より特定的には、デコーダ25によって命令がデコードされると、その命令の結果値にリオーダバッファ35内の位置が割当てられ、その行先レジスタ番号がこの位置と関連付けられる。これが命令の行先レジスタ番号をリオーダバッファ位置に効果的に再指定する。タグ、または一時ハードウェア識別子が、結果を識別するためにマイクロプロセッサハードウェアによって発生される。このタグもまた、割当てられたリオーダバッファ位置にストアされる。レジスタにストアされていると考えられる値を得るために、命令ストリームにおける後の命令が再指定された行先レジスタを参照するとき、命令はその代わりにリオーダバッファにストアされた値、または値がまだ計算されていなければその値に関するタグを得る。
【0020】
リオーダバッファ35は、内容参照メモリである、先入れ先出し(FIFO)環状バッファとして実現される。このことは、リオーダバッファ35内のエントリが、エントリを直接識別することによってではなく、エントリが含むものを特定することによって識別されることを意味する。より特定的には、エントリは、それに書込まれたレジスタ番号を用いて識別される。レジスタ番号がリオーダバッファ35に与えられると、リオーダバッファはレジスタに書込まれた最新の値(または値がまだ計算されていなければその値に関するタグ)を与える。このタグは、リオーダバッファ35内の特定の命令の相対的な推論位置を含む。この構成は、レジスタ番号を与えられるとレジスタ内の値を与えるレジスタファイル30を模倣している。しかしながら、リオーダバッファ35およびレジスタファイル30が用いる、その中の値にアクセスするための機構はかなり異なる。
【0021】
リオーダバッファ35が用いる機構では、リオーダバッファは要求されたレジスタ番号をリオーダバッファのすべてのエントリ内のレジスタ番号と比較する。次に、リオーダバッファは一致するレジスタ番号を有するエントリの値(またはタグ)を戻す。これは連想ルックアップ技術である。対照的に、レジスタファイル30に要求されたレジスタ番号が与えられると、レジスタファイルは単にレジスタ番号をデコードし、選択されたエントリでの値を与える。
【0022】
命令デコーダ25が命令をデコードすると、デコードされた命令のソースオペランドのレジスタ番号が、リオーダバッファ35およびレジスタファイル30に同時にアクセスするのに用いられる。リオーダバッファ35が、そのレジスタ番号が要求されたソースレジスタ番号と一致するエントリを持たない場合には、レジスタファイル30内の値がソースオペランドとして選択される。しかしながら、リオーダバッファ35が一致するエントリを有する場合には、そのエントリ内の値がソースオペランドとして選択される、というのはこの値はリオーダバッファに割当てられた最も最近の値であるはずだからである。値がまだ計算されていないために利用可能でなければ、その値に関するタグがその代わりに選択され、オペランドとして用いられる。いずれの場合にせよ、値またはタグが適切な機能ユニットの待合わせステーションにコピーされる。この手順が、デコードされた命令の各々が要求する各オペランドについて行なわれる。
【0023】
典型的な命令シーケンスでは、所与のレジスタは何度も書込まれる。この理由のため、命令が同じレジスタを特定する場合には、それらの命令によって同じレジスタがリオーダバッファ35の異なるエントリに書込まれる可能性がある。この状況で正しいレジスタ値を得るために、リオーダバッファ35は割当の順番によって複数の一致エントリに優先順位をつけ、特定のレジスタ値が要求されると最も最近のエントリを戻す。この技術によって、リオーダバッファへの新しいエントリが、より古いエントリにとって替わる。
【0024】
機能ユニットが結果を生成すると、その結果はリオーダバッファ35、およびその結果に関するタグを含む何らかの待合わせステーションのエントリに書込まれる。結果値がこの態様で待合わせステーションに書込まれると、必要なオペランドを与えるかもしれず、実行のために機能ユニットに投入されるべき1つまたはそれ以上の待合わせをしている命令を解放するかもしれない。結果値がリオーダバッファ35に書込まれた後、後続の命令はリオーダバッファから結果値をフェッチし続ける。このフェッチングは、エントリが新しい値にとって替わられなければ、かつ、値をレジスタファイル30に書込むことによって値が用済とされるまで続く。用尽は、元の命令シーケンスの順序で起こり、したがって割込および例外に関して順序通りの状態を保つ。
【0025】
浮動小数点ユニット20に関しては、浮動小数点ロード機能ユニット75および浮動小数点ストア機能ユニット80に加えて、浮動小数点ユニット20は他の機能ユニットも含むことがわかる。たとえば、浮動小数点ユニット20は、浮動小数点加算ユニット120と、浮動小数点変換ユニット125と、浮動小数点乗算ユニット130と、浮動小数点除算ユニット140とを含む。OP CODEバス145が、デコーダ40と浮動小数点ユニット20内の各機能ユニットとの間に結合されて、デコードされた命令を機能ユニットに与える。各機能ユニットはそれぞれの待合わせステーション、すなわち浮動小数点加算待合わせステーション120Rと、浮動小数点変換待合わせステーション125Rと、浮動小数点乗算待合わせステーション130Rと、浮動小数点除算待合わせステーション140Rとを含む。オペランドバス150は、レジスタファイル45およびリオーダバッファ50を機能ユニットの待合わせステーションに結合して、オペランドがそれらに与えられるようにする。結果バス155は、浮動小数点ユニット20のすべての機能ユニットの出力をリオーダバッファ50に結合する。リオーダバッファ50はレジスタファイル45に結合される。リオーダバッファ50およびレジスタファイル45には、したがって、先に整数ユニット15に関して説明したのと同じ態様で結果が与えられる。
【0026】
整数リオーダバッファ35は16のエントリを保持し、浮動小数点リオーダバッファ50は8のエントリを保持する。整数リオーダバッファ35および浮動小数点リオーダバッファ50は、各々1マシンサイクルにつき2つの計算値を受入れることができ、1サイクルにつき2つの結果をそれぞれのレジスタファイルに格納することができる。
【0027】
マイクロプロセッサがデコードされた命令を順序通りに投入する(「順序通りの投入」)ように制約されると、マイクロプロセッサは、デコードされた命令が資源の競合を発生する(すなわち2つの命令の両方がR1レジスタを使うことを要求する)と常に、またはデコードされた命令が従属性を有すると、命令のデコードを停止しなくてはならない。対照的に、「順序通りでない投入」を用いる図1のマイクロプロセッサ10は、デコーダ25を実行ユニット(機能ユニット)から分離することによって、このタイプの命令の投入を達成する。これは、リオーダバッファ35および機能ユニットにある上述の待合わせステーションを用いて分配命令ウィンドウを効果的に確立することによって行なわれる。この態様で、デコーダは、命令を直ちに実行できなくても、命令をデコードし続けることができる。命令ウィンドウは、マイクロプロセッサが、先に進み命令を実行し続けながらそこから引出すことのできる命令のプールとして作用する。したがって、命令ウィンドウによってマイクロプロセッサに先見能力が与えられる。従属性がクリアされてオペランドが利用可能になると、ウィンドウ内のより多くの命令が機能ユニットによって実行され、デコーダはさらに多くのデコードされた命令でウィンドウを充満し続ける。
【0028】
マイクロプロセッサ10は、その性能を高めるために分岐予測ユニット90を含む。プログラムの命令ストリームにおける分岐がマイクロプロセッサの命令をフェッチする能力を妨げることはよく知られている。これは、分岐が起こると、フェッチャがフェッチすべき次の命令が分岐の結果に従属するからである。ユニット90等の分岐予測ユニットがなければ、マイクロプロセッサの命令フェッチャは機能停止となるか、または正しくない命令をフェッチする恐れがある。このことは、マイクロプロセッサが命令ウィンドウ内の並列に実行する他の命令を探しあてる可能性を減じてしまう。ソフトウェア分岐予測ではなく、ハードウェア分岐予測が分岐予測ユニット90では用いられて、命令のフェッチの間に起こる分岐の結果を予測する。言い換えれば、分岐予測ユニット90は、分岐が発生されるべきであるか否かを予測する。たとえば、先行の分岐結果の実行の履歴を保持するために分岐先バッファが用いられる。この履歴に基づいて、特定のフェッチされた分岐の間、フェッチされた分岐命令がどの分岐をとるかに関して決定がなされる。
【0029】
ソフトウェア分岐予測もまた、分岐の結果を予測するのに用いることができることが認められる。この分岐予測のアプローチでは、プログラムにおける各分岐にいくつかのテストが行なわれて、統計的にどの分岐結果が起こりそうかを判断する。ソフトウェア分岐予測技術は、典型的にはプログラム自体に好ましい分岐結果に関して統計的な分岐予測情報を組込むことを伴う。コード列(分岐等)が、マイクロプロセッサがそのコード列を実行するのが適切であることを確信する前に実行されるマイクロプロセッサ設計の実用に、「推論実行」という用語がしばしば適用される。
【0030】
スーパースカラマイクロプロセッサの動作を理解するために、パイプラインの各ステージ、すなわちフェッチ、デコード、実行、ライトバックおよび結果コミットでのスカラおよびスーパースカラマイクロプロセッサを比較することが有用である。以下の表1はこのような比較を示す。
【0031】
【表1】
Figure 0003670039
【0032】
スーパースカラマイクロプロセッサ10の上述の説明より、このマイクロプロセッサは実に強力であるが、非常に複雑な構造であることが認められる。しかしながら、設計の簡略化および処理性能のさらなる向上が、マイクロプロセッサ10等のマイクロプロセッサにおいて常に望ましい。
【0033】
【発明の概要】
したがって、本発明のスーパースカラマイクロプロセッサのある利点は、並列に命令を処理することに関しての性能の向上である。
【0034】
本発明のスーパースカラマイクロプロセッサの別の利点は、その複雑さが減じられたことである。
【0035】
本発明のスーパースカラマイクロプロセッサのさらに別の利点は、他のスーパースカラマイクロプロセッサと比較して、ダイの寸法が減じられたことである。
【0036】
本発明の一実施例に従えば、主メモリにストアされた命令を処理するためのスーパースカラマイクロプロセッサが提供される。マイクロプロセッサは、同じマイクロプロセッササイクル内に複数の命令をデコードするための複数命令デコーダを含む。デコーダは、同じマイクロプロセッサ内に整数および浮動小数点命令の両方をデコードする。マイクロプロセッサは、デコーダに結合されるデータ処理バスを含む。マイクロプロセッサはさらに、同じデータ処理バスに結合されて、これを共有する整数機能ユニットおよび浮動小数点機能ユニットを含む。共通のリオーダバッファが、データ処理バスに結合されて、整数機能ユニットおよび浮動小数点機能ユニットの両方に用いられる。共通レジスタファイルがリオーダバッファに結合されて、リオーダバッファから用済とされた命令結果を受入れる。
【0037】
新規であると考えられる本発明の特徴は、前掲の特許請求の範囲に特定的に述べられる。しかしながら、この発明自体は、その構造および動作方法の両方について、以下の説明および添付の図面を参照することによって最もよく理解されるであろう。
【0038】
【実施例の詳細な説明】
I.スーパースカラマイクロプロセッサ概説
本発明の高性能スーパースカラマイクロプロセッサは、望ましいことに、順序通りでない命令の投入と順序通りでない命令の実行とを並列して可能にする。より特定的には、開示されるスーパースカラマイクロプロセッサでは、命令はプログラム順に発行され、投入および完了は順序通りでなく、用尽(用済)は順序通りに行なわれる。高性能を可能にする本発明のいくつかの局面を、より詳細な説明に入る前に議論する。
【0039】
図2のスーパースカラマイクロプロセッサ200は、いくかつの主な構成要素を共有することで、ダイの寸法を増大することなく性能を向上することができる。このマイクロプロセッサのアーキテクチャでは、整数ユニット215および浮動小数点ユニット225は共通のデータ処理バス535に結合される。データ処理バス535は、主にその広いバンド幅のために、高速で高性能のバスである。整数機能ユニットおよび浮動小数点機能ユニットが別個のバスの上にある設計と比較して、これらの両方の機能ユニットをさらに活用することが可能になる。
【0040】
整数および浮動小数点機能ユニットは、複数の待合わせステーションを含み、これらもまた同じデータ処理バス535に結合される。図3ないし図5に示される本発明のマイクロプロセッサのより詳細な表現からわかるように、整数および浮動小数点機能ユニットはまた、データ処理バス535を介して共通の分岐ユニット520を共有する。さらに、整数および浮動小数点機能ユニットは、同じデータ処理バス535に結合される共通のロード/ストアユニット530を共有する。開示されるマイクロプロセッサアーキテクチャは、マイクロプロセッサダイの寸法をより効率的に用いながら、有利に性能を高める。図2ないし図5に示されるこの発明の実施例では、本発明のマイクロプロセッサは、マイクロプロセッサによって処理される命令が同じ幅を示し、かつオペランドサイズが可変である縮小命令セットコンピュータ(RISC)である。
【0041】
図2に戻って、この発明のスーパースカラマイクロプロセッサの簡略化されたブロック図が、マイクロプロセッサ200として示される。スーパースカラマイクロプロセッサ200は、4命令幅、2ウェイセットアソシアティブ、部分デコード8Kバイト命令キャッシュ205を含む。命令キャッシュ205は、分岐予測を伴う1マシンサイクルにつき複数の命令のフェッチをサポートする。この明細書の目的のため、マシンサイクルおよびマイクロプロセッササイクルという用語は、同意語であると見なす。命令キャッシュ205はまた、ICACHEとも称する。
【0042】
マイクロプロセッサ200はさらに、オペランドの利用可能性に関わらず、1マシンサイクルにつき4つまでの命令をデコードし、6つの独立した機能ユニットのいずれにも発行することのできる命令デコーダ(IDECODE)210を含む。図3ないし図5にマイクロプロセッサ500として示される本発明のより詳細な実施例においてわかるように、これらの機能ユニットは、2つの算術論理ユニット(まとめてALU500として示されるALU0およびALU1)を含む。これらの機能ユニットはさらに、シフタセクション510(SHFSEC)を含み、これはALUセクション505とともに、整数命令を処理するための整数ユニット515を形成する。機能ユニットはさらに、命令分岐を処理し、かつ分岐予測を行なうための分岐セクション(BRNSEC)520を含む。分岐ユニット520として用いることができる分岐ユニットの1つは、1992年8月4日に発行された、「キャッシュ内に各命令のブロックとストアされたフェッチ情報を用いての適切に予測された分岐命令に続く実行のための遅延を低減するためのシステム」(“System For Reducing Delay For Execution Subsequent To Correctly Predicted Branch Instruction Using Fetch Information Stored With Each Block Of Instructions In Cache”)と題される米国特許第5,136,697号に記載され、その開示をここに引用によって援用する。浮動小数点セクション(FPTSEC)525およびロード/ストアセクション(LSSEC)530もまた、デコーダ(IDECODE)210が命令を発行する機能ユニットに含まれる。上述の機能ユニットはすべて、図3ないし図5に示されるように共通の主データ処理バス535を共有する(この明細書の目的のため、図3ないし図5は併せてマイクロプロセッサ500を形成し、併せて横に並べて見るものである)。
【0043】
図2のスーパースカラマイクロプロセッサ200の簡略化されたブロック図では、分岐は整数演算と考えられ、分岐ユニットは整数コア215の一部として見なされる。スーパースカラマイクロプロセッサ200は、オペランド従属性の適切な順序付けを守り、かつ順序通りでない投入を可能にするために命令のタグの付与を行なう。マイクロプロセッサ200はさらに、発行された命令が実行を待つ間待ち行列にされる、機能ユニットの複数の待合わせステーションを含む。この特定の実施例では、各機能ユニットの入力に2つの待合わせステーションが設けられる。より特定的には、この特定の実施例では、整数コア215は2つの待合わせステーション220を含み、浮動小数点コア225は2つの待合わせステーション230を含む。1機能ユニットについて用いられる待合わせステーションの数は、所望される待ち行列の程度に従って変えてもよい。整数コア215は整数命令を処理し、浮動小数点コア225は浮動小数点命令を処理する。実用において、整数コア215および浮動小数点コア225の各々は、複数の機能ユニットを含み、この発明の一実施例では、その各々には複数の待合わせステーションが備えられる。
【0044】
この特定の実施例において、マイクロプロセッサ200は1マシンサイクルについて3つまでの機能ユニット結果を処理することができる。これは、マイクロプロセッサ200が、すべての機能ユニット(すなわち図2の整数コア220および浮動小数点コア230)に結合されるRESULT0、RESULT1、およびRESULT2と示される3つの結果バスを含むからである。この発明はこの数の結果バスに制限されるわけではなく、所望の性能レベルに見合った、より多いまたは少ない数の結果バスを用いてもよい。同様に、この発明は示される実施例における機能ユニットの特定の数に制限されるわけではない。
【0045】
マイクロプロセッサ200はさらに、リオーダバッファ240から用済となった結果をストアするための統合されたレジスタファイル235を含む。レジスタファイル235は、一実施例においては1マシンサイクルにつき4つの読出および2つの書込を可能にするマルチポートマルチレジスタ記憶領域である。レジスタファイル235は様々なサイズのエントリ、すなわち一実施例では同じレジスタファイルに32ビット整数および64ビット浮動小数点オペランドエントリの両方を収容する。レジスタファイル235は、この特定の実施例では194の32ビットレジスタのサイズを示す。リオーダバッファ240もまた異なるサイズのエントリ、すなわち一実施例では同じレジスタファイル内に32ビット整数および64ビット浮動小数点オペランドエントリの両方を収容する。これらの特定の数もまた、制限するものではなく例示する目的のために与えるものである。
【0046】
リオーダバッファ240は、環状バッファ、または順序通りでない機能ユニットの結果を受取りかつ逐次命令プログラム順にレジスタファイル235を更新するキューである。一実施例では、リオーダバッファ240は、10のエントリを備えた先入れ先出し(FIFO)バッファとして実現される。FIFO ROB240内のキューは先頭および末尾を含む。この発明の別の実施例では、16のエントリを備えたリオーダバッファを用いる。リオーダバッファ240は再指定されたレジスタに割当てられる位置を含み、推論的に実行された命令の結果を保持する。分岐論理がある分岐の発生を予測すると、予測された分岐における命令が、分岐がある特定の例において適切に発生したとの推論の下に実行されるように、命令が推論的に実行される。分岐が誤予測されたと判断されるようなことがあれば、リオーダバッファ240内にある分岐結果は、効果的にキャンセルされる。このことは、マイクロプロセッサが誤予測された分岐命令に対して効果的にバックアップし、マイクロプロセッサの推論状態をリセットし、誤予測された分岐前のプログラム命令ストリームの点から実行を再開することによって達成される。
【0047】
リオーダバッファの10のエントリは各々32ビット幅(32ビット整数量の幅に対応する)であるが、リオーダバッファはまた、たとえば64ビット浮動小数点量等の64ビット量を収容することもできる。これは、リオーダバッファ内で64ビット量を2つの連続ROPとしてストアすることによって達成される(アール・オップと発音するROPは、マイクロプロセッサによって処理されるRISCまたはRISC類似命令/演算を指す)。このようにストアされた連続ROPは、これらを1つの構造として連結する情報を有し、1つの構造として一緒に用済とされる。各リオーダバッファエントリは、1の32ビット量、すなわち倍精度浮動小数点量の1/2、1の単精度浮動小数点量または32ビット整数を保持する容量を有する。
【0048】
プログラムカウンタ(PC)は、もう推論的ではないものとしてレジスタファイル235に格納された命令と、推論的に実行されてその結果がリオーダバッファ(ROB)240にあり、用済が未定の命令との間の境界である、プログラム命令ストリーム内の点を追跡するために用いられる。このPCは、リタイアPCまたは単にPCと称する。リタイアPCは、ROBキューの先頭にストアされ、更新される。ROBエントリは、相対PC更新状態情報を含む。
【0049】
リタイアPCは、リオーダバッファキューの先頭と関連する状態情報によって更新される。より特定的には、リオーダバッファキューは、この特定の実施例では最大4の命令までの、用済とする準備のできている命令の数を示す。リタイア論理242内に位置されるリタイアPCセクションは、現在の用済となったPCを保持する。ある特定のクロックサイクル内に4つの逐次命令が用済とされるべきであれば、リタイアPC論理は現在のリタイアPCに[4命令*4バイト/命令]を加えて新しいリタイアPCを生成する。発生された分岐が存在すれば、リタイアPCは、一旦分岐が用済とされもう推論的でなくなると、分岐先に進む。リタイアPCは次に、その点から用済とされた命令の数だけ増分される。リタイアPCはリタイア論理242内の内部バス、すなわちPC(31:0)に存在する。
【0050】
II.スーパースカラマイクロプロセッサの簡略化されたブロック図
このセクションでは、図2の簡略化されたマイクロプロセッサのブロック図のまだ述べていない局面を中心に議論する。一般的な見方を述べる。
【0051】
図2は、マイクロプロセッサ200として、この発明の高性能スーパースカラマイクロプロセッサの一実施例の簡略化されたブロック図を示す。マイクロプロセッサ200において、命令キャッシュ205およびデータキャッシュ245は、32ビット幅内部アドレスデータ(IAD)バス250を介して互いに結合される。IADバス250は、一実施例では、データ処理バス535と比較すると比較的低速の通信バスである。IADバス250は、マイクロプロセッサ200のいくつかの主要な構成要素を相互接続して、このような構成要素の間でアドレス情報およびデータの両方の通信を与えるように機能する。IADバス250は、データ処理バス535が扱うオペランド処理および結果処理のように高速の並列性を要求しないタスクのために用いられる。この発明の一実施例では、IADバス250は、各クロックサイクルにおいてデータおよびアドレス情報の両方がそれにマルチプレクスされる32ビット幅バスである。IADバス250のバンド幅は、したがってある例では64ビット/クロックである。
【0052】
主メモリ255が、図2に示されるようにバスインタフェースユニット260を介してIADバス250に結合される。このように、主メモリ255への、およびそこからの情報の読出および書込が可能にされる。図示の目的のため、主メモリ255はマイクロプロセッサ200の一部として図2に示される。実用において、主メモリ225は、一般にマイクロプロセッサ200の外部に置かれる。
【0053】
しかしながら、たとえばマイクロコントローラの場合のように主メモリ255がマイクロプロセッサ200内に配置される、マイクロプロセッサ200の実現例が企図される。
【0054】
デコーダ210は、命令キャッシュ205に結合されるフェッチャ257を含む。フェッチャ257は、デコーダ210によるデコードおよび発行のためにキャッシュ205および主メモリ255から命令をフェッチする。
【0055】
バスインタフェースユニット(BIU)260は、IADバス250に結合されてマイクロプロセッサ200の外部にあるバス回路(図示せず)とマイクロプロセッサ200をインタフェースさせる。より特定的には、BIUバス260は、マイクロプロセッサ200の外部にあるシステムバス、ローカルバスまたは他のバス(図示せず)とマイクロプロセッサ200をインタフェースさせる。BIU260として用いることができるバスインタフェースユニットの1つは、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド(Advanced Micro Devices)が製造するAM29030マイクロプロセッサからのバスインタフェースユニットである。BIU260は、A(31:0)と示されるアドレスポートと、D(31:0)と示されるデータポートとを含む。BIU260はまた、バスハンドシェークポート(BUS HAND SHAKE)と、XBREQ(バスリクエストなし)およびXBGRT(バスグラントなし)と示されるグラント/リクエストラインとを含む。AM29030マイクロプロセッサのバスインタフェースユニットは、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの出版するAm29030ユーザーズマニュアルにより詳細に説明される。
【0056】
当業者には、命令列およびそのためのデータを含むプログラムが主メモリ255にストアされることが認められるであろう。命令およびデータがメモリ255から読出されると、命令およびデータは、命令がデコーダ210によってフェッチされ、デコードされ、機能ユニットに発行され得る前に、それぞれ命令キャッシュ205およびデータキャッシュ245にストアされる。
【0057】
デコーダ210によって特定の命令がデコードされると、デコーダ210はデコードされた命令のopコードをその命令のタイプのための適切な機能ユニットに送る。たとえば以下の命令、すなわちADD R1,R2,R3(レジスタ1内の整数をレジスタ2内の整数に加えてその結果をレジスタ3に置く)がフェッチされたと仮定する。ここで、R1はAオペランドであり、R2はBオペランドであり、R3は行先レジスタである。
【0058】
実用において、デコーダ210は1度に1ブロックにつき4つの命令をデコードし、各命令に関連するopコードを識別する。言い換えれば、デコード210は、デコード210に含まれる4つの発行位置の各々のためのopコードタイプを識別する。4つのデコードされたopコードタイプは、それぞれ4つのTYPEバスを介して機能ユニットにブロードキャストされる。4つのデコードされたopコードはそれぞれのOP CODEバスを介して機能ユニットにブロードキャストされる。もし利用可能であれば、オペランドがROB240およびレジスタファイル235から検索される。オペランドは、AオペランドおよびBオペランドバスを介して機能ユニットにブロードキャストされる。特定のオペランドが利用可能でなければ、AおよびBオペランドタグがその代わりに適切なAまたはBオペランドバスを介して適切な機能ユニットに送られる。デコーダ210によってデコードされた4つの命令は、このように処理のために機能ユニットに発行される。
【0059】
この例でのADD opコードに関して、機能ユニットの1つ、すなわち整数コア215内の算術論理装置(ALU)は、opコードタイプを認め、その待合わせステーション220においてopコード、Aオペランドタグ、Aオペランド(もし利用可能であれば)、Bオペランドタグ、Bオペランド(もし利用可能であれば)および行先タグを含む情報をラッチする。ALU機能ユニットは次に結果を判断し、その結果を、ROB240でのストアのために、および未処理の命令を処理するためにその結果を必要としている何らかの他の機能ユニットによる検索のために、結果バス265に置く。
【0060】
命令がデコーダ210によってデコードされると、その結果のためにリオーダバッファ240内のレジスタが割当てられることが認められる。次に命令の行先レジスタが、割当てられたレジスタと関連付けられる。命令のまだ利用可能でない結果に対応する結果タグ(一時の一意的ハードウェア識別子)が割当てられたレジスタに置かれる。「レジスタ再指定」がこのように実現される。プログラム命令列における後の命令が、リオーダバッファ240内のこの再指定された行先レジスタを参照すると、リオーダバッファ240は、そのレジスタに割当てられた位置にストアされた結果値か、またはその結果がまだ計算されていなければその値のためのタグのいずれかを与える。結果が計算されると、結果タグバスに信号が与えられ、リオーダバッファ240および機能ユニットの待合わせステーションに結果バスを介して結果が利用可能となったことを知らせる。このようにして結果がリオーダバッファ240にストアされる。
【0061】
図3および4に示されるように、行先タグラインはリオーダバッファ240から機能ユニットに延びる。デコーダ210は、リオーダバッファに、リオーダバッファエントリの割当の準備が現在できている命令の数を知らせる。リオーダバッファは次に、リオーダバッファの現在の状態に基づいて行先タグを各命令に割当てる。デコーダ210は次に、各命令が投入されるか否かを確立する。リオーダバッファは投入された命令を取込み、リオーダバッファエントリの一時的割当を確立する。
【0062】
特定の命令のためのオペランドは、共通データ処理バス535のAオペランドバス(A OPER)およびBオペランドバス(B OPER)を介して、適切な機能ユニットに送られる。それぞれの命令の結果は、これらの命令に割当てられた機能ユニットで発生する。これらの結果は、3つの結果バスRESULT0、RESULT1およびRESULT2を含む複合結果バス265を介してリオーダバッファ240に送られる。複合結果バス265は、データ処理バス535の一部である。
【0063】
特定の命令がデコードされたときに、1つまたはそれ以上のオペランドが現在利用可能でないことは、デコーダ210から機能ユニットへの命令の発行を妨げるわけではない。そうではなく、1つまたはそれ以上のオペランドがまだ利用可能でない場合には、オペランドタグ(一時の一意的ハードウェア識別子)が、抜けているオペランドの代わりに適切な機能ユニット/待合わせステーションに送られる。オペランドタグおよび命令のためのopコードは、タグに対応するオペランドが結果バスを介してリオーダバッファ240で利用可能となるまでは、その機能ユニットの待合わせステーションにストアされる。抜けていたすべてのオペランドがリオーダバッファ240で利用可能となれば、タグに対応するオペランドがリオーダバッファ240から検索される。オペランドおよびopコードは、待合わせステーションから実行のために機能ユニットに送られる。結果は、リオーダバッファ240に伝送するために結果バスに置かれる。
【0064】
上述のオペランドタグトランザクションにおいて、A OPERおよびB OPERバスを介して機能ユニットの待合わせステーションにオペランドタグが実際に送られることが認められる。オペランドタグをやりとりするためにこのような態様で用いられると、A OPERおよびB OPERバスは、図2に示されるようにA TAGおよびB TAGと称する。
【0065】
III.スーパースカラマイクロプロセッサ;より詳細な説明
図3ないし図5は、マイクロプロセッサ500として、この発明のマイクロプロセッサのより詳しい実現例を示す。図2ないし図5に示されるマイクロプロセッサ内の同様の要素を示すのに同様の参照符号を用いる。マイクロプロセッサ500のある部分は既に説明したことが認められる。
【0066】
マイクロプロセッサ500において、命令は推論プログラム順に発行され、投入および完了は順番通りではなく、順番通りに用済とされる。多くの信号およびバスが、特に命令の発行に関して並列性を促進するために複製されることが後の説明より明らかになるであろう。デコーダ210は、1マイクロプロセッササイクルについて複数の命令をデコードし、デコードされた命令がそこから機能ユニットに並列に発行される発行ウィンドウを形成する。ICACHE205は、1度に4つの命令をデコーダ210に、ICACHE205をデコーダ210に結合するラインINS0、INS1、INS2およびINS3を介して与えることができる。
【0067】
マイクロプロセッサ500において、主データ処理バスは、やはりデータ処理バス535として示される。データ処理バス535は4つのOP CODEバスと、4つのA OPER/A TAGバスと、4つのB OPER/B TAGバスと、4つのOP CODE TYPEバスとを含む。4つのOP CODEバス、4つのA OPER/A TAGバス、4つのB OPER/B TAGバス、および4つのOP CODE TYPEバスは、デコードされた命令を機能ユニットに伝送するように協働するため、これらは併せて、XI0B、XI1B、XI2BおよびXI3B(図では別個に符号を付けられるわけではない)と示される4つの命令バスとしても参照される。これらの類似した命令バスの名称は、互いから1桁で区別される。この桁は0をより早い命令として、0mod16バイトメモリブロックにおける命令の位置を示す。これらの名称はここでは小文字「n」でその桁を示す一般的な形で与えられる(すなわち、4つの命令バスXI0B、XI1B、XI2BおよびXI3Bは、XInBとして参照する)。
【0068】
順序通りでない命令の並列の実行を可能にするスーパースカラマイクロプロセッサ500の特徴を、ここでマイクロプロセッサのより詳細な説明を始める前に簡単に繰返す。マイクロプロセッサ500は、4命令幅、2ウェイセットアソシアティブ、部分デコード8Kバイト命令キャッシュ205(ICACHE)を含み、分岐予測を伴う、1マイクロプロセッササイクルにつき4つの命令のフェッチをサポートする。マイクロプロセッサ500は、オペランドの利用可能性に関わらず、5つの独立した機能ユニットのうちの何らかのものへのデコーダ210(IDECODE)による1サイクルにつき4つまでの命令のデコードおよび発行を与える。これらの機能ユニットは、分岐セクションBRNSEC520、算術論理装置ALU505、シフタセクションSHFSEC510、浮動小数点セクションFPTSEC525、およびLOAD/STOREセクション530を含む。
【0069】
マイクロプロセッサ500は、オペランドの従属性の適切な順序付けを守り、順序通りでない投入を可能にするために、命令のタグ付与を行なう。マイクロプロセッサ500はさらに、まだ実行できない発行された命令がそこで待ち行列にされる、機能ユニット内の待合わせステーションを含む。3つの結果バス(RESULT0、RESULT1およびRESULT2)が、1サイクルにつき3つまでの機能ユニット結果を扱うことを可能にするように設けられる。環状バッファまたはFIFOキュー、すなわちリオーダバッファ240が、順序通りでない機能ユニットの結果を受取り、レジスタファイル235を更新する。より特定的には、レジスタファイルはリオーダバッファからの結果で正しいプログラム順に更新される。言い換えれば、リオーダバッファからレジスタファイルへの結果の格納は、それが関係するすべての分岐、算術およびロード/ストア動作とともに正しい実行順に行なわれる。マルチポートレジスタファイル235は、1マシンサイクルにつき4つの読出および2つの書込ができる。RESULT0、RESULT1およびRESULT2は、ROB240に並列に書込まれる。結果がROB240から用済とされる際、これらは書込バスWRITEBACK0およびWRITEBACK1を介して並列にレジスタファイル235に書込まれる。マイクロプロセッサ500はまた、ロードおよびストア待ち時間を最少にするように、オンボードのダイレクトマッピング8Kバイトコヒーレントデータキャッシュ245を含む。
【0070】
[III(a)命令フロー−フェッチ]
マイクロプロセッサ500の命令フローをここで説明する。命令デコーダ(IDECODE)210は、命令を命令キャッシュ(ICACHE)205からフェッチする命令フェッチャ257を含む。キャッシュ205として用いることができる命令キャッシュの1つは、1992年4月12日に出願された、「命令デコーダおよびこれを用いるスーパースカラプロセッサ」(“Instruction Decoder And Superscalar Processor Utilizing Same”)と題される同時係属中の米国特許出願連続番号第07/929,770号に説明され、本明細書においてこれを引用によって援用する。デコーダ210(IDECODE)として用いることができるデコーダの1つもまた、1992年4月12日に出願された「命令デコーダおよびこれを用いるスーパースカラプロセッサ」と題される米国特許出願連続番号第07/929,770号に説明される。
【0071】
主メモリ255内の特定のプログラムがマイクロプロセッサ500によって実行されるとき、プログラムの命令は実行のためにプログラム順に検索される。命令は通常最初はICACHE205にないので、まず典型的なICACHEリフィル動作を説明する。キャッシュミスの際に、0mod16バイト(キャッシュブロックサイズ)でメモリ内に整列された4ワードの命令のブロックに対するリクエストがバスインタフェースユニット(BIU)260に対して行なわれる。これは、後続のミスが起こるということを仮定して、命令ブロックの継続するプリフェッチストリームを開始する。この特定の実施例では、キャッシュ内のブロックにつき有効ビットは1つしかないので、4ワードのブロックが最小の転送サイズである。有効ビットは、現在の16バイトエントリおよびタグが有効であることを示す。このことは、エントリがロードされ、現在実行されているプログラムに対して確立されたことを意味する。
【0072】
命令ブロックが戻される際に(対象のワードからではなく下位のワードから行なわれる)、これは1つの命令につき4ビットの情報を発生するプリデコードネットワーク(図示せず)を通る。前の命令ブロックが発行されていれば、次の命令ブロック(新しい命令ブロック)が命令レジスタ258およびIDECODE210に進む。そうでなければ、次の命令ブロックはプリフェッチバッファ259で待つ。命令レジスタ258は、推論実行のために発行されるべき次の命令である現在の4つの命令を保持する。プリフェッチバッファ259は、ICACHE205がリクエストしたプリフェッチされた命令のブロックを保持する。これらの命令は、後にプリデコードされてICACHE205およびIDECODE210に送られる。この態様でプリフェッチされた命令のブロックを保持することによって、IDECODE210による発行およびプリフェッチがロック状態で実行される必要がないように、バッファ動作が与えられる。
【0073】
まだ解決されていない条件付分岐がなければ、予測実行された次の命令がデコードに進むと、次の命令ブロックがICACHE205に書込まれる。このアプローチは、望ましいことには不必要な命令がキャッシュされることを防ぐ。プリデコード情報もまたキャッシュに書込まれる。プリデコード情報とは、特定の命令を適切な機能ユニットに迅速に送るのを助ける命令のサイズおよび内容に関した情報である。プリデコードに関するさらなる情報は、同時係属中の本譲受人に譲受された「可変バイト長命令に特に適したプリデコード命令キャッシュおよびそのための方法」(“Pre-Decoded Instruction Cache And Method Therefor Particularly Suitable For Variable Byte-Length Instructions")と題される米国特許出願番号第145,905号に見いだされ、その開示をここに引用によって援用する。分岐予測は、プログラムが実行される際にどの分岐が発生されるかを予測するために用いられるものであることが認められる。予測は後に、分岐が実際に実行されるときに確立される。予測は、マイクロプロセッサパイプラインのフェッチ段階の間に起こる。
【0074】
プリフェッチストリームは、BIU260がそれに結合される外部バス(図示せず)を放棄しなくてはならないか、データキャッシュ245が外部アクセスを必要とするか、プリフェッチバッファ259がオーバーフローするか、キャッシュヒットが起こるか、または分岐もしくは割込が起こるまで続く。上述のことより、プリフェッチストリームはあまり長くはならない傾向にあることが認められるであろう。一般に、外部プリフェッチは、多くても発行されているものより2ブロック先である。
【0075】
この特定の実施例では、命令キャッシュ205(ICACHE)内のブロック1つにつき有効ビットは1つなので、部分的なブロックは存在せず、すべての外部フェッチは4つの命令のブロックで行なわれることが認められる。キャッシュ内のブロックにつき有効ビットは1つしかない。ICACHE205はまた、各ブロックについての分岐予測情報を含む。この情報はリフィルの際にクリアされる。
【0076】
命令がICACHE205に進んだので、スーパースカラ実行を始めることができる。外部でフェッチされたブロックがデコードに進むと、動作はICACHE205からフェッチされたのと同じであるが、全体的な性能は、1サイクルにつき1の命令の最大外部フェッチレートに制限される。4ワードの命令ブロックがフェッチされ、プリデコード情報とともにデコードに進む(PH2でキャッシュ読出、PH1で命令バス駆動)。PH1はクロックの2つの相のうちの第1のものと規定され、PH2は、クロックの2つの相のうちの第2のものと規定される。PH1およびPH2が、パイプライン化されるプロセッサの基本的なタイミングを構成する。
【0077】
図3および4に示されるように、32ビットフェッチPC(FPC)バス、FPC(31:0)は、命令キャッシュ(ICACHE)205とデコーダ(IDECODE)210のフェッチャ257との間に結合される。より特定的には、FPCバスは、ICACHE205内のFPCブロック207とフェッチャ257との間に延びる。命令キャッシュ205内のフェッチPCまたはFPCブロック207は、その中に位置されるFPCとして示される推論フェッチプログラムカウンタを制御する。FPCブロック207は、デコーダ210による機能ユニットへの命令の発行に先立ってフェッチャ257がプリフェッチする命令に関連するプログラムカウント値FPCを保持する。FPCバスは、ICACHEに例外または分岐予測に進む位置を示す。フェッチPCブロック207は、デコーダ210へと命令(4の幅)をプリフェッチするのに、命令キャッシュ205にストアされた分岐予測情報を用いる。フェッチPCブロックは、逐次アクセスを予測することもでき、この場合には新しいブロックが必要なときに現在のフェッチPCを16バイトだけ増分し、これはまた新しいブロックへの分岐を予測することもできる。新しい分岐位置は、予測された分岐に関して命令キャッシュから受取られたものでも、誤予測または例外の際に分岐機能ユニットから受取られたものでもあり得る。フェッチPCまたはFPCは、先に述べたリタイヤPCとは区別されるべきである。
【0078】
フェッチPC(FPC)はPH1で増分され、次ブロックがICACHE205から読出されるが、IDECODE210は、第1のブロックからすべての命令を発行していなければHOLDIFETをアサートすることによってフェッチャ257を停止させる。HOLDIFET信号の機能は、命令レジスタ258内の4つの命令が進むことができないので命令のフェッチを抑えるというものである。
【0079】
フェッチャ257はまた、分岐予測の実行を助ける。分岐予測は、命令キャッシュ205の出力である。分岐が予測されると、予測された次ブロックの4つの命令は、命令キャッシュ205によって命令ラインINS0、INS1、INS2およびINS3へと出力される。命令キャッシュ205内のアレイIC_NXTBLK(図示せず)は、キャッシュ内の各ブロックについてその特定のブロックでどの命令が予測実行されるかを規定し、次ブロックがどう予測されるかを示す。分岐がなければ、実行は常にブロック単位で逐次的に行なわれるであろう。したがって、発生される分岐は、このブロック指向分岐予測を変える唯一の事象である。言い換えれば、この発明の一実施例では、逐次的なブロック単位での予測は、発生しないと予測された分岐が発生し、誤予測されたときのみ起こる。
【0080】
分岐命令を含むブロックが初めてデコーダ210(IDECODE)に送られると、後続のフェッチは、分岐が発生されないと仮定して、逐次的である。分岐が実行され、後に実際に発生したとわかると、分岐予測ユニット(分岐ユニット)520は、ICACHE205に知らせ、1)分岐が発生したこと、2)分岐命令のブロック内の位置、および、3)ターゲット命令のキャッシュ内の位置を反映するように、そのブロックに関する予測情報を更新する。フェッチャ257はまた、ターゲットからフェッチを始めるように指示し直される。次にそのブロックがフェッチされると、フェッチャ257は、それが前に発生された分岐を含むことを認め、以下の動作で非逐次的フェッチを行なう、すなわち1)命令有効ビットは、分岐遅延スロットを含みかつそこまでしかセットされない。分岐遅延は常に分岐の後の命令を実行するという概念であり、遅延分岐とも称される。この命令は既にスカラRISCパイプラインにおいてプリフェッチされており、そのため分岐の際に、それを実行するのにオーバーヘッドが失われない。2)分岐が発生予測されたという指示がそのブロックとともにデコーダ210に送られる。3)次のフェッチのためのキャッシュインデックスが予測情報からとられる。(キャッシュインデックスは、分岐が起こるときに予測実行された次ブロックのためのキャッシュ内の位置である。キャッシュインデックスは絶対PCでないことに注目されたい。絶対PCは、その位置のTAGをキャッシュインデックスと連結することによって形成される。)4)このキャッシュインデックスのブロックがフェッチされ、予測されたターゲットアドレスがブロックのタグから形成され、分岐情報が分岐FIFO(BRN FIFO)261に置かれる。5)この次ブロックのための有効ビットが、予測されたターゲット命令から始まってセットされる。
【0081】
分岐FIFO261は、フェッチャ257によって予測されたターゲットアドレスを分岐機能ユニット(BRNSEC)550に伝えるために用いられる。別個に示されているが、分岐FIFO261は分岐セクションBRNSEC550の一部であると考えられることが認められる。分岐FIFO261には、ターゲットとともに分岐が発生予測された命令のPCがロードされる。分岐命令が実際に発行されると、分岐命令は分岐FIFO内のエントリ、すなわちそこにストアされたPCと比較される。一致があれば、エントリは分岐FIFOから送られ、分岐命令がうまく予測されたものとしてリオーダバッファ240に戻される。誤予測があれば、正しいPCがリオーダバッファ240に与えられる。
【0082】
予測ビットは、分岐命令とともにデコーダ210によって分岐ユニット520に発行される。予測ビットは、特定の分岐がIC_NXTBLKアレイにストアされた情報から発生予測されたかどうかを示す。
【0083】
分岐ユニット520が命令を実行すると、その結果が予測と比較され、発生されれば、実際のターゲットアドレスが分岐FIFOの上部のエントリ(必要であればそれが現われるの待つ)と比較される。いずれのチェックも失敗すれば、分岐ユニット520はフェッチャ257に正しいターゲットアドレスを再指定し、予測を更新する。これがフェッチャ257によるものではなく予測された非順次的フェッチに関してキャッシュミスを検出する方法であることに注目されたい。予測情報は、フルアドレスではなくキャッシュインデックスのみを含むので、ターゲットブロックのタグはヒットに関してチェックすることができず、ターゲットアドレスはそのタグによって特定されるそのインデックスのブロックのアドレスであると仮定される。分岐が最後に実行されてから実際のターゲットブロックが置換えられていれば、これは誤比較および実行の際の訂正となる。誤比較が起これば、分岐を過ぎた多くの命令が、その遅延スロットのみだけでなく、実行されているかもしれない。
【0084】
分岐予測ユニット520として用いることのできる分岐予測ユニットの1つは、1992年8月4日に発行された、ダブリュー・エム・ジョンソン(W. M. Johnson)の「キャッシュ内の各命令ブロックとストアされたフェッチ情報を用いた正しく予測された分岐命令に続く実行の遅延を減じるためのシステム」と題される米国特許番号第5,136,697号に説明され、その開示はここに引用によって援用される。
【0085】
[III(b) 命令フロー−デコード、レジスタファイル読出、発行]
命令は1度に1ブロックずつIDECODE210に進み、それらのメモリブロック内の位置に対応する命令レジスタ258内の特定の位置を占める(0=列の最初)。各命令に付随するのは、そのプリデコード情報および有効ビットである。
【0086】
IDECODE210の主な機能は、命令を扱う機能ユニットに従って命令を分類し、その命令をそれらの機能ユニットに発行することである。これは、4つの3ビット命令タイプコード(INSTYPn)をすべての機能ユニットにブロードキャストし、何らかの所与のサイクル内で、発行されている各命令のための信号(XINSDISP(3:0))をアサートすることによって行なわれる。(本明細書中、X指示を伴って現われる信号と、伴わない信号とがある。XINSDISP信号等のXは、誤ったアサートがバスを放電することを示す。)図3ないし図5に示されるように、マイクロプロセッサ500は、タイプコードを機能ユニットにブロードキャストする目的のために4のタイプバス、INSTYPn(7:0)を含む。特定の命令ブロックの4つの命令の各々についてそれぞれのTYPEバスが設けられる。
【0087】
特定の機能ユニットがそのタイプに対応するTYPE信号を検出すると、その機能ユニットは、タイプバスにおいて検出されたタイプ信号の位置に従って、IDECODE210の現在の発行ウィンドウ内の現在の命令ブロックの4つの命令のうちのどれを受取るべきかを知る。タイプバスは、IDECODE210のそれぞれの発行位置に対応する4つのセクションを有する。その機能ユニットはまた、検出されたタイプに対応する発行情報バスのそのセクションで起こる操作コード(opコード)によってその命令のオペランドデータにどの機能を実行するべきかを定める。さらに、機能ユニットはどの命令を実行すべきかがわかっているので、そのハードウェアをオペランドデータと行先タグとを受取るためのオペランドデータバスおよびそれぞれの行先タグバスDEST.TAG(0:3)と整列させる。
【0088】
命令が発行されると、それらの有効ビットはリセットされ、そのタイプは「空」になる。特定のブロックの4つの命令すべてが、命令の次ブロックがフェッチされる前に発行されなくてはならない。ブロックの4つの命令すべてが1度に発行されてもよいが、以下の事象が起こる可能性があり、それもよく起こるので、このプロセスを遅くする。
1) クラスの競合−これは2つまたはそれ以上の命令が同じ機能ユニットを必要とするときに起こる。整数コードはマイクロプロセッサ500にとって重要である。この理由のため、本発明の一実施例は、機能ユニットALU0、ALU1、SHFSEC、BRNSEC、LSSEC、FPTSECおよびSRBSECの間でクラスの競合が起こるのを減じるために2つのALUを含む。命令は直列化の点でのみSRBSEC512に発行される。言い換えれば、直列に実行されなくてはならない命令のみがSRBSEC512に送られる。
2) 機能ユニットが命令を受取ることができない
3) レジスタファイル(RF)235のポートが利用可能でない−この実施例において、8つのオペランドバスを与えるために通常考えるような8つではなく4つのRF読出ポートしか存在しない。命令の多くはレジスタファイル235から2つのオペランドを必要とすることはなく、またはROB240によるオペランド転送によって満たされ得るために、読出ポートの数がこのように少ないことは最初に考えるほどは制限的ではないことがわかった。たとえば8つの、より多くのRF読出ポートを用いて、レジスタファイルポートが利用可能でない状態が起こる可能性を避けるような、この発明の他の実施例も企図される。
4) リオーダバッファ240におけるスペースの欠如−各命令は対応するリオーダバッファのエントリを持たなくてはならず(または倍および拡張精度浮動小数点命令の場合のように、2つのリオーダバッファエントリが設けられる)、リオーダバッファはROBSTAT(3:0)によって、予測された命令のうちのいくつに場所を見つけられるかを示す。図3および4に示されるように、ROBSTAT(3:0)と示される状態バスが、リオーダバッファ(ROB)240とデコーダ(IDECODE)210との間に結合される。ROBSTAT(3:0)は、ROBからIDECODEに、4つの現在の命令のうちのいくつが割当てられるROBエントリを有するかを示す。ここでROBのエントリを充満することが可能であることに注目されたい。
5) 直列化−命令の中には逐次状態を守る機構の範囲を越えた状態を変更するものがある−これらの命令(たとえばMTSR、MFSR、IRET命令)は周りの命令に関してプログラム順に実行されなくてはならない。
【0089】
上に挙げた5つの状況のうちの1つが起これば、影響を受ける命令は発行を停止し、後続の命令は、それらを抑えるものが他に何もなくても発行され得ない。各発行位置について、機能ユニットにソースオペランドを供給するAおよびBオペランドバスの組(XRDnAB/XRDnBBバスとも称される)がある。レジスタファイル235はデコードと並列にPH2でアクセスされ、オペランドがPH1でこれらのバスに送られる。ソースレジスタを変更する命令がまだ実行中であれば、レジスタファイル235内の値は無効である。このことは、レジスタファイル235およびROB240がデータを含まず、したがってタグがデータの代わりとなることを意味する。リオーダバッファ(ROB)240はこれを追跡し、レジスタファイルアクセスと並列してアクセスされる。オペランドが利用可能でないこと、またはレジスタの競合は発行の際に問題とならないことに注目されたい。ROB240は、予め定められた数のエントリならびに先頭および末尾ポインタを備えた環状バッファとして見なすことができる。
【0090】
命令が発行されると、ROB内のエントリがその行先レジスタのために確保される。ROB内の各エントリは、1)命令の行先レジスタアドレス、2)命令の結果のためのスペース(これは倍精度動作またはCALL/JMPFDECタイプの命令には2つのエントリを必要とするかもしれない)、および例外状態情報および、3)a)エントリが割当てられたことと、b)結果が戻されたこととを示すビットからなる。
【0091】
エントリは末尾ポインタから始まって逐次的に割当てられる。割当ビットは、セットされて命令が発行されたことを示す。割当ビットは各ROBエントリと関連付けられる。割当ビットは、特定のROBエントリが未処理の動作に割当てられたことを示す。割当ビットは、エントリが用済となると、または例外が起こると割当から外される。別個の有効ビットが、結果が完了されレジスタファイルに書込まれたかどうかを示す。エントリのアドレス(結果または行先タグとも呼ばれる)が発行から実行の間対応する命令に付随し、結果バスの1つを介して命令の結果とともにROB240に戻される。
【0092】
より詳細には、行先タグは、命令が機能ユニットに発行されるときに用いられ、結果タグは命令が戻されるとき、すなわち結果が機能ユニットからROBに戻されるときに用いられる。言い換えれば、行先タグは発行された命令に関連し、リオーダバッファによって機能ユニットに特定の命令の結果がどこにストアされるべきかに関して知らせるために機能ユニットに与えられる。
【0093】
より詳細には、命令に関連する行先タグは機能ユニットにストアされ、次に結果バスに転送される。このような行先タグは、これらが結果バスを介して転送されるときにはまだ行先タグとして示される。これらのタグは他の機能ユニットの待合わせステーションでオペランドタグと比較され、このような他の機能ユニットが特定の結果を必要かどうかを見る。特定の機能ユニットからの結果は、ROB内の対応する相対推論位置に戻される。
【0094】
命令の結果は、効果的にこの命令の結果タグとなる命令の行先タグによって識別されるROBエントリ内に置かれる。その特定のROBエントリの有効ビットがセットされる。結果は、レジスタファイルにライトバックされる順番が回ってくるまでそこに留まる。エントリが除去されるよりも早くROB240に割当てられることが可能であり、この場合にはROB240は最終的にはフルとなる。リオーダバッファフル状態は、ROBSTAT(3:0)バスを介してデコーダ210に伝えられる。これに応答して、デコーダ210はHOLDIFET信号を発生して、命令がICACHE205からフェッチされるのを止める。したがって、ROBフル状態はデコーダ210による発行を止めることが認められる。
【0095】
オペランドの処理の説明に戻って、ROB240でライトバックを待っている結果を、もし必要であれば他の機能ユニットに転送することができることに注目されたい。これは、IDECODE210内の命令のソースレジスタアドレスをROB内の行先レジスタアドレスと、デコード時にレジスタファイルアクセスと並列して、比較することによって行なわれる。AおよびBソースオペランドに関して起こり、かつ結果有効ビットがセットされている、最も最近のアドレス一致について、ROB240は対応する結果をレジスタファイル235の代わりに適切なオペランドバスに送る。この一致が起これば、ROB240は、ROB240とレジスタファイル235との間のOVERRIDEラインを活性化して、レジスタファイル235に、AおよびBオペランドバスにいかなるオペランドも送らないように指示する。
【0096】
たとえば、デコーダ210が、レジスタR3の内容をレジスタR5の内容に加えてその結果をレジスタR7に置くことを意味するように規定される、命令ADD R3、R5、R7をデコードしていると仮定する。この例において、IDECODE内でデコードされるソースレジスタアドレスR3およびR5は、ROB240内の行先レジスタアドレスと比較される。この例の目的のため、結果R3がROB240内に含まれ、結果R5がレジスタファイル235内に含まれると仮定する。これらの状況のもとでは、デコードされた命令内のソースアドレスR3とROB240内の行先レジスタアドレスR3との比較は肯定である。レジスタR3のためのROBエントリの結果がROB240から検索され、適切な機能ユニット、すなわちALU0またはALU1の待合わせステーションによるラッチのためにオペランドAバスにブロードキャストされる。この場合にROBエントリと一致が見いだされるので、レジスタファイル235が、それが含み得る何らかの用済となったR3値でAオペランドバスを駆動しないように、OVERRIDEラインが駆動される。
【0097】
この例で、デコードされた命令内のソースアドレスR5とROB240内に含まれる行先レジスタアドレスとの比較はうまく行かない。したがって、レジスタファイル235内に含まれる結果値R5がBオペランドバスへ駆動され、その結果が機能ユニットすなわちALU0に実行のためにブロードキャストされる。AオペランドおよびBオペランドの両方がALU0機能ユニットの待合わせステーション内にあれば、命令がALU0に投入されて、ALU0によって実行される。結果(結果オペランド)は、この結果オペランドを求めている他の機能ユニットの待合わせステーションに送るために結果バス265に置かれる。結果オペランドはまた、その結果のために割当てられたエントリでそこにストアするためにROB240にも与えられる。
【0098】
所望のオペランド値がまだROB240になくても(アサートされる有効ビットによって示される)、それでも命令をデコーダ210によって発行することができる。この場合に、ROB240は一致するエントリのインデックス(すなわちその結果を最終的に生成する命令の結果タグ)を機能ユニットにオペランドの代わりに送る。ここでもやはり、8つのオペランドバスに対応する効果的に8つのA/Bタグバス(すなわち4つのAタグバスおよび4つのBタグバス、すなわちTAGnAB(4:0)およびTAGnBB(4:0)ここでnは整数である)があることに注目されたい。タグの最上位ビット(MSB)は、タグが有効であるときを示す。
【0099】
2つ以上のROBエントリが同じ行先レジスタタグを有するときには、最も最近のエントリが用いられる。これは、可能である並列性を減じてしまうであろう独立した命令による行先としての同じレジスタの異なる使用を区別する。(これはライトアフターライトハザードとして知られる)
命令のキャッシュ化の際に発生されるプリデコード情報はデコード時に作用し始める。プリデコード情報は、ICACHE205からPREDECODEラインを介してIDECODE210に渡されることが認められる。
【0100】
プリデコードは以下の態様で行われる。各命令について、ROBエントリの割当を、いくつのエントリが必要であるかを示すことによって(エントリを1つ必要とする命令もあるし、2つのエントリを必要とする命令もある)速める2ビットコードを含むプリデコード信号PREDECODEがある。たとえば、加算命令ADD (RA+RB)→RCは、レジスタRC内に置かれるべき単一の32ビット結果のために1つのエントリを必要とする。対照的に、乗算命令DFMULT (RA+RB)(倍精度)は、64ビットの結果を保持するのに2つのROBエントリを必要とする。本発明のこの特定の実施例では、各ROBエントリは32ビット幅である。この2ビットコードはさらに、所与の命令からいくつの結果オペランドが生じるかを示す(すなわち、なし−分岐等、1−ほとんどのもの、または2−倍精度)。プリデコード情報は、レジスタファイルアクセスがAおよびBオペランドに必要であるかどうかを示す2つの付加的なビットを含む。したがって、マイクロプロセッサ500において32ビット命令につき4ビットのプリデコード情報がある。これらのビットはPH2のアクセスに先立って、PH1でレジスタファイルポートの効率的な割当を可能にする。命令が必要とするレジスタファイルポートを割当てられていないが、ROB240がオペランドを転送できることを示していれば、いずれにしても命令は発行され得る。
【0101】
[III(c) 命令フロー−機能ユニット、待合わせステーション]
図3ないし図5は、マイクロプロセッサ500のすべての機能ユニットが共通のデータ処理バス535上にあることを示す。データ処理バス535は、その比較的広いバンド幅のために高速のバスである。各機能ユニットにはその入力で2つの待合わせステーションが備えられている。より多いまたは少ない待合わせステーションが機能ユニットで用いられる本発明の他の実施例も企図される。
【0102】
整数ユニット515は算術論理装置ALU0およびALU1を含む。ALU0には待合わせステーション540が設けられ、ALU1には待合わせステーション545が設けられる。分岐ユニット520(BRNSEC)にはその入力で待合わせステーション550が供給される。浮動小数点ユニット(FPTSEC)525は、浮動小数点加算ユニット555を含み、これには待合わせステーション560が設けられる。浮動小数点ユニット525はさらに、浮動小数点変換ユニット565を含み、これには待合わせステーション570が設けられる。浮動小数点ユニット525はさらに、浮動小数点乗算ユニット575を含み、これには待合わせステーション580が備えられる。最後に、浮動小数点ユニット525はさらに、浮動小数点除算ユニット585を含み、これにはその入力で待合わせステーション590が備えられる。ロード/ストアユニット530もまた、データ処理バス535上に存在し、待合わせステーション600を含む。
【0103】
図3ないし図5に示されるように、各機能ユニットへの主入力(すなわち機能ユニットと関連する各待合わせステーションへの入力)は、以下の主データ処理バス535を構成するバスによって与えられる、すなわち
1) IDECODE210からの4つのOPCODEバス(INSOPn(7:0)として示され、nは0ないし3の整数である)
2) IDECODE210からの4つの命令タイプバス(INSTYPn(7:0)として示され、nは0ないし3の整数である)
3) IDECODE210からの4つの4ビット発行ベクトルバス(XINSDISP(3:0)として示される)
4) AオペランドバスおよびBオペランドバスの4つの対(XRDnAB/XRDnBB(31:0)と示され、nは0ないし3の整数である)
5) 関連するA/Bタグバスの4つの対(TAGnAB/TAGnBB(4:0)と示され、nは0ないし3の整数である)
6) 3つの双方向結果オペランドバスを含む結果バス265(XRES0B(31:0)、XRES1B(31:0)、XRES2B(31:0)として示される)
7) 2つの結果タグバス(XRESTAG0B/SRESTAG1B(2:0)として示される)
および
8) 2つの結果状態バス(XRESSTAT0BおよびXRESSTAT1B(2:0)と示される)である。
【0104】
1つ以上の待合わせステーションが上述の機能ユニットの各々の前部に置かれる。待合わせステーションは、本質的には、機能ユニットによる実行を待ちながらそこで命令が待ち行列にされる先入れ先出し(FIFO)バッファである。命令がオペランドの代わりにタグを伴って発行されれば、または機能ユニットが停止またはビジー状態であれば、命令は待合わせステーションで待ち行列にされ、後続の命令はその後で待ち行列にされる(特定の機能ユニット内の投入は全くの順番通りであることに注目されたい)。待合わせステーションが充満すれば、これを示す信号がIDECODEにアサートされる。これは、同じタイプの別の命令に出会えば、発行を止める。
【0105】
命令の発行は以下のように起こる。各待合わせステーションは対応する命令タイプに関して命令TYPEバスを(PH2で)観察する待合わせステーション論理を含む。待合わせステーションは、対応するopコード、AおよびBオペランドならびにAおよびBオペランドタグバスを、このような命令タイプに出会えば選択する。関連する機能ユニットで実行する2つ以上の命令が認められれば、プログラム順に関して先の命令が優先される。しかしながら、対応する発行ビットがセットされていることを認めるまで(PH1でXINSDISP(n))、命令は待合わせステーションに受入れられない。
【0106】
この時点で、必要とされるオペランドが利用可能であり、かつ機能ユニットが何らかの理由のために停止されているわけでも、またはビジーであるわけでもなく、さらに前の命令が待合わせステーションで待っていなければ、命令は直ちに同じクロックサイクル内で実行に移る。そうでなければ、命令は待合わせステーションに置かれる。命令がオペランドの代わりにオペランドタグを、伴って発行されていれば、待合わせステーション論理は、オペランドタグを結果タグバス(XRESTAG0BおよびXRESTAG1B)で現われる結果タグと比較する。一致が認められれば、その結果が結果バス群265の対応する結果バスから取入れられる。この結果は次に、命令を投入するのを可能にすれば機能ユニットに転送される。そうでなければ、結果はオペランドとして待合わせステーションに置かれ、ここで命令を完了するのを助け、対応するタグ有効ビットはクリアされる。両方のオペランドが、汎用結果バスのいずれかまたは両方から同時に転送され得ることに注目されたい。
【0107】
結果バス265を形成する3つの結果バスは、2つの汎用結果バスXRES0B(31:0)およびXRES1B(31:0)を含み、さらに分岐およびストア専用の1つの結果バスXRES2B(31:0)を含む。結果バスXRES2B(31:0)は分岐およびストア専用なので、これが処理する結果(たとえば分岐PCアドレス等)は転送されない。機能ユニットは結果バスXRES0B(31:0)およびXRES1B(31:0)をモニタし、一方リオーダバッファ(RB)240は3つの結果バスすべてをモニタする。
【0108】
命令が待合わせステーションで待つ際に、何らかの有効オペランドタグも同様に結果タグと比較され、同じような転送が行なわれる。機能ユニット間および機能ユニット内での結果の転送がこの態様で行なわれる。待合わせステーションと関連して、このタグの付与によって、従属性の適切なシーケンシングを維持しながら、異なる機能ユニットで順序通りでない命令の実行を可能にし、さらにオペランドハザードが無関係の後続の命令の実行をブロックすることを防ぐ。命令タイプおよびA/BタグはPH2で利用可能であり、一方投入する決定は後続のPH1で行なわれる。
【0109】
待合わせステーションのオペランドは、これらが送られた実際のオペランドデータでなければ、タグおよび有効ビットを有する。言い換えれば、命令が待合わせステーションに発行され、かつ特定のオペランドがまだ利用可能でなければ、そのオペランドに関連するオペランドタグが実際のオペランドの代わりに待合わせステーションに与えられる。有効ビットは各オペランドタグと関連する。結果が機能ユニットで完了すると、結果は他の機能ユニットおよびROB240に結合される結果バスに与えられる。結果は待合わせステーションのオペランドタグと比較されて、ヒットが起これば、タグ有効ビットがクリアされて、結果バスからのオペランドは、オペランドに対して指定された機能ユニットの位置に転送される。言い換えれば、待合わせステーション内の何らかのエントリに一致する結果タグ0および1におけるタグ比較が値をそのステーションに転送する。
【0110】
どの命令源(待合わせステーションまたは待合わせステーションに結合される4つの入来するバスのうちの1つ)が局所的デコードの次の候補であるかを定め、待合わせステーションの先頭にあるエントリに関する待合わせステーション有効ビットおよびデコード/優先命令タイプバスを調べることによってPH2で投入が行なわれ、この際に待合わせステーションのエントリが優先する。待合わせステーションを2つ有する機能ユニットでは、その2つの待合わせステーションは先入れ先出し(FIFO)構成を形成し、待合わせステーションに発行される第1の命令がFIFOの先頭を形成し、FIFOに発行される最後の命令がFIFOの末尾を形成する。
【0111】
機能ユニットによる局所的デコードとは、タイプバスをモニタすることによって、機能ユニットがまず、そのタイプの命令が発行されていることを定めるということを意味する。一旦機能ユニットが、それが処理すべき命令を識別すると、機能ユニットはopコードバス上の対応するopコードを調べて、機能ユニットが実行すべき精確な命令を判断する。
【0112】
本発明のこの実施例では、実行時間は、特定の命令タイプおよびその命令を実行する機能ユニットに依存する。より具体的には、実行時間は、すべてのALU、シフタ、分岐動作およびキャッシュでヒットするロード/ストアの1サイクルから、浮動小数点、ロード/ストアミスおよび特殊レジスタ動作のための数サイクルにまでわたる。特殊レジスタとは、再指定されない何らかの汎用でないレジスタと規定される。
【0113】
機能ユニットは以下のように結果バスに対して調停する。結果バス2は、オペランドを戻さないストアのため、および計算されたターゲットアドレスを戻す分岐のために用いられる。分岐には優先順位があることが認められる。汎用結果バス0および1は、ALU0またはALU1のいずれかから、シフタユニット510から、浮動小数点ユニット525からの結果とロードおよび特殊レジスタアクセスとを扱う。
【0114】
結果バス0(XRES0B(31:0)とも示される)および結果バス1(XRES1B(31:0)とも示される)へのアクセスを得ることに関する機能ユニット間での優先順位は、図6に示される。図6の表において、「DPの下位半分」という用語は、倍精度数の下位半分を意味する。マイクロプロセッサ500は、倍精度(DP)数を送るのに32ビットオペランドバスを用いる。より具体的には、倍精度数がオペランドバスを介して伝送されるとき、その数は2つの32ビット部分、すなわち上位32ビット部分と下位32ビット部分とで伝送される。上位および下位部分は、一般に2サイクルで2オペランドバスを介して伝送される。機能ユニットによる特定の結果バスに対するアクセスのリクエストの拒否は、その機能ユニットを停止させ、待合わせステーションフル状態としてデコードにされるために戻り得る。
【0115】
結果は、結果のタイプ(なし、通常または例外、および命令固有のコード、すなわちデータキャッシュミス、アサートトラップおよび分岐誤予測)を示す3ビット状態コード(RESULT STATUS)を含む。一実施例では、結果はまた、そのユニットおよび命令に依存して、32ビット結果オペランドおよび詳細な実行または例外状態を含む。結果バス235は、結果をROB240に戻すため、および結果を機能ユニットの待合わせステーションに転送するために用いられる。結果情報のすべてがROB240にストアされるが、機能ユニットは結果状態コードおよび結果オペランドを見るだけである。
【0116】
ほとんどの機能ユニットは上述の態様で動作する。しかしながら、特殊レジスタブロックセクション(SRBSEC)512およびロード/ストアセクション(LSSEC)530は、いくぶん異なる。SRBSEC機能ユニットは、頻繁には更新されずかつレジスタ再指定によってサポートされない状態および制御レジスタ等のマシン状態情報を保持する。SRBSEC512の特殊レジスタへの、およびそこからの動きは、周りの命令に関して常に直列化される。したがって、SRBSECは、別個の機能ユニットでありながら、直列化のためにオペランドが常にレジスタファイル235から利用可能であるので、待合わせステーションを必要としない。SRBSEC機能ユニットによって実行される命令の例には、「スペシャルレジスタへ移動」MTSR、および「スペシャルレジスタから移動」MFSR命令がある。直列化を必要とするこのような命令を実行する前に、マイクロプロセッサ500は、この命令の前のすべての推論状態を直列化するか、または実行する。アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドによって製造されるAM29000マイクロプロセッサで用いられるのと同じ特殊レジスタブロックを、SRBSEC512として用いてもよい。
【0117】
ロード/ストアセクションLSSEC530は、他の機能ユニットと同じ態様で待合わせステーションを用いる。ロード/ストアセクション530は、データキャッシュ245からのデータのロードおよびデータキャッシュ245におけるデータのストアを制御する。しかしながら、命令の実行に関して、これは最も複雑な機能ユニットである。LSSECは、データキャッシュ(DCACHE)245およびメモリ管理ユニット(MMU)247と密に結合する。マイクロプロセッサ500は、データキャッシュ245または主メモリ255を変更する何らかの動作が未完了となり得ないように設計される。さらに、このような変更は、周りの命令に関してプログラム順に起こらなくてはならない。このことは、すべてのストアおよびデータキャッシュでミスしているロードの実行がROB240内のリタイア論理242と協働しなくてはならないことを意味する。このことは、対応するROBエントリにROBリタイア論理が出会うまでこれらの動作が待ち行列にされるFIFOである、アクセスバッファ605と呼ばれる機構を用いて行なわれる。
【0118】
データキャッシュ(DCACHE)245として用いることができるデータキャッシュの1つ、およびロード/ストアセクション(LSSEC)530として用いることができる1つのロード/ストアセクションは、同時係属中であり本譲受人に譲受された「高性能ロード/ストア機能ユニットおよびデータキャッシュ」(“High Performance Load/Store Functional Unit And Data Cache”)と題される米国特許出願連続番号第146,376号に記載され、その開示はここに引用によって援用される。命令キャッシュおよびデータキャッシュのアドレス指定に関するさらなる情報は、同時係属中であり、本譲受人に譲受された「線形アドレス可能なマイクロプロセッサキャッシュ」(“Linearly Addressable Microprocessor Cache")と題される同時係属中の米国特許出願連続番号第146,381号に記載され、その開示はここに引用によって援用される。
【0119】
アクセスバッファ605はLSSEC530内に位置される。一実施例において、アクセスバッファ605はミスしているロードまたはストア(ヒット/ミス)の2−4ワードFIFOである。ヒットしているストアは、それが実行されるべき次のものとなるまで書込まれない。しかしながら、アクセスまたはストアバッファによって、この状態は一時記憶装置に保持されることが可能となり、これはROBがレジスタ参照を転送するのと類似した態様でデータ参照を転送することができる。アクセスバッファは最後に、アクセスバッファの内容がプログラム順で次であるときにデータキャッシュ245(CACHE)に書込む。言い換えれば、アクセスバッファまたはストアバッファは、他のロード/ストア命令が処理され続けることが可能であるように1つまたはそれ以上のロード/ストア命令をストアするFIFOバッファである。たとえば、アクセスバッファ605は、後続のロードがロード/ストアユニットLSSEC530によって実行されている一方で、ストアを保持することができる。
【0120】
ストアバッファとしても知られるアクセスバッファ、およびデータキャッシュと関連して用いられるロード/ストア機能ユニットは、同時継続中で本譲受人に譲受された「高性能ロード/ストア機能ユニットおよびデータキャッシュ」と題される同時係属中の特許出願により詳細に述べられ、その開示をここに引用によって援用する。
【0121】
ROBリタイア論理242の機能は、どの命令がROB240からレジスタファイル235へと格納されるべきであるかを定めることである。ROBエントリのこの格納の基準は、エントリが有効かつ割当てられること、結果が機能ユニットから戻されていること、およびエントリが誤予測または例外事象でマークされていないことである。
【0122】
ストア動作は2つのオペランド、すなわちメモリアドレスおよびデータを必要とする。ストアが投入されると、これはLSSEC待合わせステーション600からアクセスバッファ605へと転送され、ストア結果状態がROB240に戻される。ストアは、データがまだ利用可能でなくても投入され得るが、アドレスはそこになくてはならない。この場合、アクセスバッファは待合わせステーションと類似した態様でタグを用いて、結果バス235からストアデータを選択する。ストアが投入される際、メモリ管理ユニット(MMU)247で高速変換バッファ(TLB)615のルックアップが行なわれ、データキャッシュがアクセスされてヒットについてチェックする。
【0123】
MMUからの物理アドレスおよび仮想アドレスのページ部分は、データキャッシュからのステータス情報とともにアクセスバッファに置かれる。言い換えれば、キャッシュは物理的にアドレスされる。TLBミスが起こると、これは結果状態に反映され、適切なトラップベクトルが結果バス2に送られ、この時点では他の動作は行なわれない。(ロードに関するTLBルックアップも同じように行なわれるが、何らかのトラップベクトルは結果バス1に進む。)
トラップベクトルは例外である。マイクロプロセッサ500はTLBトラップを取込み、新しいページを物理メモリにロードして、TLBを更新する。この動作には数百サイクルかかる可能性があるが、比較的頻繁には起こらない事象である。マイクロプロセッサ500はPCを止めて、マイクロプロセッサレジスタをストアし尽し、ベクトルを実行して、レジスタ状態を復元し、割込リターンを実行する。
【0124】
ストアがアクセスバッファの先頭に達すると(次いで空であればすぐに行なわれる)、ROB240が、対応するROBエントリが用済の段階に達したことを示すLSRETIREと符号を付される信号をアサートし、次いでキャッシュアクセスを進める。しかしながら、キャッシュが前のリフィルを完了させること、またはコヒーレンシー動作を行なうことでビジー状態であれば、遅延され得る。一方、ROB240は動作を続け、別のストア命令に出会うかもしれない。LSSECがそれを完了する準備ができる前にそのストア命令が用済とされないようにするために、以下のようにハンドシェイクが用いられる。LSSEC530はROB240に、LSDONEをアサートすることによってLSSECが動作を完了したときを示す信号を与える。ROB240は、前のストアが用済とされてからLSDONEを認めていなければ、ストア(またはロード)を停止することが認められる。
【0125】
データキャッシュ245においてヒットしているロード動作は、ROB240と協働されなくてもよい。しかしながら、ミスはROB240と協働されて、不必要なリフィルおよび誤予測された分岐を越えての無効な外部参照を避けなくてはならない。ロードが投入されると、(キャッシュがビジー状態でなければ)キャッシュアクセスがすぐに行なわれる。キャッシュにおいてヒットがあれば、結果が通常状態コードとともに結果バスを介してROBに戻される。ミスがあれば、ロードはアクセスバッファ605に置かれ、ロード_ミス結果コードが戻される。ROB240のリタイア論理242がこの条件に出会えば、これはLSRETIREをアサートして、ロード_有効結果状態コードとともに結果バスに置かれている所望のワードから、これが現われるとすぐにリフィルが始まる(リフィルが終了するのを待たない)。ROB240は、ストアの場合のようにLSRETIREをアサートする際にロードを用済とできないことが認められる。その代わりに、ROB240はデータが戻るのを待たなくてはならない。
【0126】
ロードは、アクセスバッファにおいて待っている、前の未完了のストア動作があっても処理され得る。ストアに関して順序通りでなくロードを行なうのを可能にする際に、マイクロプロセッサ500はロードが(プログラム順に関して)前のストアによってこれから変更される位置からは行なわれないことを確実にする。このことは、ロードアドレスをアクセスバッファ605内の何らかのストアアドレスと、キャッシュアクセスと並列して、比較することによって行なわれる。どれも一致しなければ、ロードは進められる。1つ一致するものがあれば(2つ以上の場合は最も最近のエントリ)、ストアデータがアクセスバッファ605からキャッシュデータの代わりに結果バス265に転送される。起こっているかもしれない何らかのキャッシュミスは無視される(すなわちリフィルは起こらない)。ストアデータがまだ存在しなければ、ロードはストアデータが到着するまで停止される。さらに、これらの動作は、望ましいことにはメモリアクセスが不必要に並列性を損なうことを防ぐ。
【0127】
ここでさらにロード/ストアについて検討する。1Kバイトおよび2Kバイトページサイズに関して、高速変換バッファ(TLB)のルックアップが、キャッシュアクセスに先立って行なわれる。これはさらなるサイクルのロード/ストア待ち時間を起こす。LSSECがロードまたはストアを「完了する」とき、これは関連するキャッシュ動作が完了することを意味しないことに注目されたい。そうではなく、ICACHEまたはDCACHE、BIU、および外部でリフィル等の動作がまだあるかもしれない。
【0128】
アクセスバッファ転送は、部分ワードロード/ストア動作のためには行なわれない。ワード−アドレス一致が検出され、かつロードとストアとの間で何らかのオーバーラップがあれば、ロードはキャッシュミスのように見えるようにされ、ストアの後に実行されるようにアクセスバッファ605で待ち行列にされる(実際にはキャッシュでヒットしているかもしれないし、していないかもしれない)。オーバーラップがなければ、ロードはアドレス一致がなかったかのように進められる。
【0129】
ロード/ストアマルチ命令は、直列化の態様で行なわれる、すなわちロード/ストアマルチ命令が実行されているとき、他のどの命令も並列して行なわれないことが認められる。ロードまたはストア(ロード/ストア)マルチ命令は、レジスタファイルへの、またはそこからのブロックの動きである。この命令は、所与のアドレス、所与のレジスタ、およびカウントフィールドを含む。ロード/ストアのマルチ命令の一例に、LOADM(C,A,B)があり、Cは行先レジスタ、Aはアドレスレジスタ、およびBは転送の数である。
【0130】
ロードミスは必ずしもリフィルを起こさないことも認められる。その代わりに、ページはキャッシュ不可能としてマークされるかもしれず、ロードがアクセスバッファから満たされているかもしれない。
【0131】
[III(D) 命令フロー−リオーダバッファおよび命令リタイア]
結果がROB240に戻されると、これらは結果タグによって特定されるエントリに書込まれ、これはROBの先頭および末尾ポインタの間の何らかの場所にある。ライトバック、ストアおよびロードミスの実行、トラップおよびPC0、PC1およびPC2の更新を制御するリタイア論理242は、プログラム順に有効結果を伴うエントリを見る。
【0132】
PC0、PC1およびPC2は、DEC、EXECおよびWRITEBACK0,1の値を含むマッピングレジスタである。信号DEC、EXECおよびWRITEBACK0,1は、スカラAM29000パイプラインからの段階であるデコード、実行およびライトバックを指し、AMD2900は、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドから入手可能なマイクロプロセッサである。これらの信号は、実行の際にパイプラインを再始動させるのに用いられる。遅延分岐のために2つ以上のPCが用いられる。PC0、PC1およびPC2は、割込またはトラップの際に用いられて、分岐誤予測または例外に出会うとマイクロプロセッサ500が戻り得る、DEC、EXECおよびWRITEBACK0、1の古い値を保持する。PC0、PC1およびPC2は、パイプラインを再始動させるために割込リターンの際に用いられ、リオーダバッファ240内のリタイア論理242内に含まれる。PC1は現在のリタイアPCをマッピングする。
【0133】
通常の結果を有するエントリに出会えば、結果オペランド(もしあれば)がエントリにおいて特定されたレジスタファイル(RF)235の位置に書込まれる。RF書込ポート(WR)は2つあるので、2つのオペランドが同時にレジスタファイルに格納され得る。ROB240は、さらに1つのストアおよび1つの分岐を用済とすることができ、最大で4つの命令を1マイクロプロセッササイクルについて用済とできる。
【0134】
CPSビットおよびFPSスティッキービット等の他の状態は、この時点で更新され得る。CPSは現在のプロセッサ状態を指し、CPSはプログラム状態および条件コードレジスタを示す。FPSは浮動小数点状態レジスタビットを指す。FPSは、浮動小数点機能ユニット525のための状態/条件コードレジスタを示す。FPSスティッキービットとは、セット条件によってセットされ、クリア条件でクリアされないビットのことである。FPSスティッキービットは、浮動小数点数の丸め制御のために用いられる。たとえば、マイクロプロセッサ500が値を減算するか、またはシフトすれば、いくつかの最下位ビット(LSB)が仮数部からシフトされる。FPSスティッキービットは、この条件が起こったという指示を与える。
【0135】
その結果がまだ戻されていないROB240内のエントリは、結果が戻ってくるまでそれ以上の処理を停止させる。そのエントリを越えるものは、たとえ有効であっても用済とはされない。ストア結果に出会えば、ROB240は、実際にストアを行なって命令を用済とするようにロード/ストアセクションにゴーアヘッド指示を与える。ロードミス結果に出会えば、ROB240はロードを実行するようにゴーアヘッド指示を与える。ロードが完了すると、要求されたロードオペランドはROB240にロードヒット状態とともに戻され、これが命令を用済とすることを可能にし、そのオペランドを待っている何らかの待合わせステーションによって認められる。分岐結果に出会えば、ROB240はこれを用いてPC1を更新する。
【0136】
マイクロプロセッサのアーキテクチャ状態は、プログラム内のリタイアPCの現在の状態である。マイクロプロセッサの推論状態は、FETCHPCの現在の値、デコーダおよびリオーダバッファ内のエントリのすべてである。これらは、ダイナミックに更新される現在の命令の推論キューである。例外または誤予測の際に、すべての推論状態はクリアされ得るが、アーキテクチャ状態は、これがレジスタファイルの現在の状態なので、クリアされ得ない。
【0137】
誤予測分岐遅延スロットを越える命令は、誤予測が明らかとなる前に実行され得ることを先に述べた。この発生は、ROB240によって区別される。誤予測が検出されると、いかなる未発行の命令もクリアされ、フェッチャ257が再び指示される。どの機能ユニットも誤予測を知らされない(しかしながら分岐ユニット520はその待合わせステーション550内の何らかの有効エントリにおける「キャンセル」ビットをセットし、そのためこれらの分岐は害を受けずに実行され、誤予測を起こすことなくROB240に戻される)。
【0138】
このような誤予測が起こると、ROB内の対応するエントリは誤予測されたものとして割当てられる。後続のエントリが機能ユニットから転送されるとき、これらは完了されているが誤予測されたものとしてマークされる。リオーダバッファ240内のリタイア論理242は、これらのエントリを無視して、割当から外す。
【0139】
同時に、発生/非発生および正確/不正確な予測を示す分岐結果状態がROB240に戻される。誤予測の結果は、ROBに、分岐エントリの後の2つ目から(遅延スロットを考慮して)末尾ポインタまでのすべてのエントリのキャンセルビットを直ちにセットさせる。この発生に続く第2のサイクルで、デコードがターゲット命令を発行し始め、これには通常通り末尾ポインタから始まってタグが割当てられる。キャンセルされたエントリにROBリタイア論理242が出会えば、これらは破棄される。ロード/ストアユニット530は、ROB240とロード/ストアセクションLSSEC530との間のLSCANCELラインを介して伝送されるLSCANCEL信号によってROBからゴーアヘッドで、待っている何らかのキャンセルを知らされる。LSCANCEL信号は、キャンセルされるべきアクセスバッファ605内の何らかの未処理のストアまたはロードミスを示す。アクセスバッファ605はFIFOとして動作して、次に古いストアはキャンセルされる命令である。ロード/ストアセクションLSSEC530およびアクセスバッファ(ストアバッファ)605として用いてもよいロード/ストアセクションおよびアクセスバッファの1つに関してのさらなる詳細は、「高性能ロード/ストア機能ユニットおよびデータキャッシュ」と題される同時係属中の米国特許出願連続番号第146,376号に記載され、その開示はここに引用によって援用される。
【0140】
ある特定の命令の実行の際に例外が起これば、どのグローバルアクションも要求されない。例外状態は単に、ROB240に戻される結果状態に反映される。適切なトラップベクトル数が、一般に通常の結果オペランドの代わりに戻される(これはRF更新が禁じられないときを除き、この場合にはROBはベクトル数を発生する)。トラップベクトル数とは、様々な種類のベクトルのうちのどれが起こったか、および特定のトラップの発生の際にどこに行くべきかを示す数である。トラップの発生となる典型的な例は、0での除算、算術的オーバーフロー、およびTLBページの欠如がある。ROB240が命令を用済とする処理の際に例外状態に出会えば、これは、ROB240からのすべてのエントリをクリアし、すべての機能ユニットにEXCEPTION信号をアサートしてこれら(およびIDECODE)をクリアし、Vfビットについてトラップベクトルを発生し、フェッチャ257に処理コードをトラップするように再び指示を与えることからなるトラップ動作を始める。Vfビットは、トラップが外部フェッチとして(ベクトルテーブルからのロードとして)発生すべきか、または定数をベクトル数と連結させて内部的に発生されるべきかを示す。Vfビットは、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドのAm29000マイクロプロセッサシリーズのアーキテクチャの特徴である。
【0141】
レジスタファイル235内にストアされたデータは、マイクロプロセッサの現在の実行状態を表わすことがわかる。しかしながら、ROB240にストアされたデータは、マイクロプロセッサの予測実行状態を表わす。命令が用済とされるべきとき、ROB240にストアされた対応する結果が、レジスタファイル235に送られ、それから用済とされる。
【0142】
[III(E) 命令フロータイミング]
命令フローのタイミングに関して、スーパースカラマイクロプロセッサ500の動作を説明するために、以下の表2が与えられる。表2は、マイクロプロセッサ500のパイプラインステージと、これらの各ステージの間に起こる重要な事象とを示す。パイプラインの段階は、表2の第1の列に挙げられる。
【0143】
【表2】
Figure 0003670039
【0144】
表2は、機能停止のない、マイクロプロセッサ500における基本的な整数命令の流れにおいて各相(各マイクロプロセッササイクルのPH1およびPH2)で何が起こるかと分岐訂正タイミング(かっこ内)を示す。
【0145】
[III(F) メモリ管理ユニット、データキャッシュおよびバスインタフェースユニット]
メモリ管理ユニット(MMU)247は、本質的には、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドによって製造されるAM29050マイクロプロセッサのものと同じである。MMU247は、命令フェッチおよびデータアクセスのために仮想アドレスを物理アドレスに変換する。AM29050とマイクロプロセッサ500との命令フェッチに関しての違いは、AM29050では、分岐先キャッシュBTCへの参照の際にMMUが調べられるが、一方、マイクロプロセッサ500は分岐先キャッシュを用いず、BTC参照のためにMMUを調べない。分岐先キャッシュは、分岐先のみのキャッシュである。分岐先キャッシュは、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドが製造するAm29050マイクロプロセッサのスカラパイプラインの一部を形成する。BTCは、1クロックサイクルにつき1度命令をフェッチする。
【0146】
命令フェッチアドレス変換のためのMMU247の必要をさらになくすために、ICACHE205は、キャッシュミスの際にICACHEが参照する1エントリ高速変換バッファ(TLB)615を含む。TLBは、1エントリTLBでヒットしない変換が必要なときにリフィルされる。したがって、TLB615は、MMUからの必要に応じてリフィルされる。MMU247はICACHE205と密に結合されるわけではないので、これはリフィル時間を短縮し、MMUに対する負荷を減じる。
【0147】
データキャッシュ245は、物理アドレス、2ウェイセットアソシアティブ8Kキャッシュとして構成される。この実施例では、4Kを下回るページサイズに関しては、アドレス変換がまず行なわれる。この要件は、1Kおよび2Kページサイズについて当てはまり、ヒットしているロードの待ち時間を2サイクルに増大する。しかしながら、キャッシュインデックスにおいて不確かな1ビットを有する4Kページサイズは、キャッシュを2つの4Kアレイに分割して扱われ、これによって2つの可能なブロックへのアクセスが可能になる。4ウェイ比較が、正しいものを選択するためにMMUからの2つの物理アドレスと2つのキャッシュタグとの間で行なわれる。
【0148】
データキャッシュ245は、コピーバック/ライトスルーが混合された方法をとる。より具体的には、書込ミスはライトスルーとして行なわれ、割当はなく、書込ヒットは、ロードによって前に割当てられたブロックに対してのみ起こり、キャッシュコヒーレンシーに依存してライトスルーを起こし得る。マイクロプロセッサ500は、マルチプロセッサシステムおよびMOESI−モディファイド・オーンド・エクスクルーシブ・シェアード・インバリッド(フューチャーバス)プロトコルを用いるキャッシュ可能メモリの効率的なI/Oのためにデータキャッシュコヒーレンシーをサポートする。MOESIプロトコルは、特定のキャッシュブロックの5つの状態のうちの1つを示す。図3ないし図5のマイクロプロセッサ500がMOESIプロトコルを用いるのに対して、後述の図10および11に示されるマイクロプロセッサは類似したMESIプロトコルを用いる。
【0149】
バスインタフェースユニット(BIU)260は、アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドが製造するAMD29030マイクロプロセッサと同じ外部インタフェースを用いる。さらに、BIU260は、アドレス、命令、およびデータのために単一の内部32ビットバス、すなわち内部アドレスデータ(IAD)バス250を用いる。
【0150】
この特定の実施例では、外部メモリとも称される主メモリ255は、I/Oとデータ/命令とのみを区別する単一の平らなスペースである。示される特定の実施例では、メモリ255はリードオンリーメモリ(ROM)を含まず、命令とデータとの区別を行なわない。他のタイプの外部メモリの構成を、主メモリ255として用いてもよい。
【0151】
図3ないし図5に示されるように、BIU260、ICACHE205、DCACHE245、MMU247およびSRBSEC512は、すべて32ビットIADバス250によって結合される。IADバス250は、キャッシュミスおよびコヒーレンシー動作の際の外部アクセスのために、主にBIU260とキャッシュ(ICACHE205、DCACHE245)との間の通信のために用いられる。IADバス250は、アドレスとデータの両方を扱う。これはスタティックバスであり、PH1の間はBIU260が駆動し、PH2の間は他のすべてのユニットが駆動する。IADバス250に対するいかなるリクエストも、図7に示されるバス調停ブロックによって与えられるバス調停および許可を通らなくてはならない。スペースを節約するために、バス調停ブロック700は、図3ないし図5のマイクロプロセッサ500のブロック図には図示しない。
【0152】
IADバスの調停は、調停動作の中で第1の優先順位を得るバス観察(キャッシュコヒーレンシーに関して)を含む。IADバスに対するリクエストは、PH1の早くに行なわれ、PH1の非常に遅くに応答される。機能ユニットがPH1でIADバスを許可されると、後続のPH2の間にアドレスをIADバスに送り、BIUによるある動作(たとえば命令フェッチ、ロード)をリクエストし得る。
【0153】
IADバス250は、外部バスおよびマイクロプロセッサ500内のすべての主要なアレイを互いに連結する、比較的低周波数のアドレス、データおよび制御バスである。IADバス250は、マッピングアレイへの特殊レジスタ更新、MMU変換、キャッシュリフィル、バス観察等の比較的低周波数の動作の転送を与える。本発明の一実施例では、IADバス250は、それにアドレスおよびデータがマルチプレクスされる32ビットを含む。IADバス250はまた、12の制御ライン、すなわちICACHE、DCACHE、TLB、SRBSEC、LSSECおよびBIUの各ブロックについての、それに結合される読出制御ラインおよび書込制御ラインを含む。
【0154】
図7に示されるIAD調停ブロック700は、どの構成要素(ICACHE205、BIU260、BRNSEC520、DCACHE245、SRBSEC512またはMMU247)がある特定の時間にIADバス250に対してアクセスを許可されるかを決定するために、リクエスト/許可プロトコルを用いる。BIU260を介して外部メモリ255が、バス観察の目的のために最高の優先順位を許可される。バス観察は、マイクロプロセッサ500のためのデータ一致プロトコルの一部である。マイクロプロセッサ500は、データキャッシュ内に局所的に保持される変更されたデータを含み得るので、このようなデータは、メモリへの書込が起こるときに更新される。マイクロプロセッサ500はまた、データキャッシュ内に局所的に保持される変更されたブロックへの読出が起こると、変更されたデータを与える。バス観察を備えたコピーバック機構が、マイクロプロセッサ500のキャッシュ動作において用いられる。
【0155】
図7に示されるように、IAD調停ブロック700とIACHE205、BIU260、BRNSEC520、DCACHE245、SRBSEC512またはMMU247の各々との間に、それぞれのリクエストラインが結合される。これらのリクエストラインの各々は制御論理705に結合され、その出力はドライバ710に結合される。IAD調停ブロック700は、ICACHE205、BIU260、BRNSEC520、DCACHE245、SRBSEC512またはMMU247のためのそれぞれの許可ラインを含む。特定の構成要素がIADバス250へのアクセスを求めると、その構成要素はIAD調停ブロック700と制御705とにリクエスト信号を送る。たとえば、BIUがメモリアクセスを行なうためにIADバス250へのアクセスを得たいと仮定する。この場合、BIU260は、IAD調停ブロック700および制御705にIADバスアクセスリクエストを送る。IAD調停ブロック700は、IADバス250に対するアクセスのリクエストが同時に複数存在するとき、リクエストの優先順位を決定する。調停ブロック700は、優先順位の方式に従ってそれがIADバスへのアクセスを許可されるべきだと決定した特定の装置の許可ラインに許可を投入する。この例では、許可信号はBIU許可ラインに投入され、BIU260はIADバス250へのアクセスを進める。
【0156】
制御回路705の出力はIADバス250に結合される。以下の構成要素ICACHE205、BIU260、BRNSEC520、SRBSEC512、DCACHE245およびMMU247の各々には、このような構成要素がIADバス250を駆動するのを可能にするドライバ回路710が備えられる。これらの構成要素の各々にはさらに、これらの構成要素がIADバス250からの値をラッチするのを可能にするラッチ715が備えられる。制御回路705は、IADバスのためのリクエスト許可プロトコルを与える。機能ユニットは局所的に、IADバスへのアクセスが求められていることを認め、調停ブロック700にリクエストを送る。調停ブロック700は最も優先順位の高いリクエストを受取り、それにしたがってアクセスを許可する。ラッチ715は、そのブロックに転送が起こっていれば、リクエストされたデータの読出を示す。ドライバ710は、局所的に利用可能な値の駆動を示し、別のブロックがそれを読出す他の何らかの位置を駆動する。IADバス250へのアクセスを得るためにこのバス調停を通るとある待ち時間が加わるが、それでも許容可能な性能を与えることが見いだされた。マイクロプロセッサ500にIADバス250を設けることは、IADバスに接続される上述のセクションすべての間に専用の経路を設けることよりもコスト効率がはるかに良い。
【0157】
図8は、マイクロプロセッサ500のパイプラインの複数の段階を通してのその選択された信号の状態を示すタイミング図である。図8は、逐次的処理のためのこのようなパイプラインを示す。対照的に、図9のタイミング図は、マイクロプロセッサ500の同様のタイミング図ではあるが、図9のタイミング図は分岐誤予測および回復が起こる場合のものである。
【0158】
より具体的には、図8および図9は、フェッチ、デコード、実行、結果/ROB(結果転送−結果がROBに転送される)、用尽/レジスタファイル(ライトバック−オペランドがROBからレジスタファイルに格納される)の5つの実効パイプライン段階を通してのマイクロプロセッサ500の動作を示す。マイクロプロセッサパイプラインの5段階は、これらのタイミング図の上部に横方向に挙げられる。これらのタイミング図を構成する信号は、図の左に縦方向に挙げられ、以下のとおりである。Ph1信号は、マイクロプロセッサ500のクロック信号である。FPC(31:0)はフェッチPCバス(FPC)である。IR0−3(31:0)は命令バスを表わす。タイミング図はまた、ROB内の特定のデコード命令が必要とする特定のオペランドを示すソースA/Bポインタを示す。タイミング図はまた、レジスタファイル/ROBアクセスを示すREGF/ROBアクセスを含む。Issue instr/dest tags 信号は、命令/行先タグの投入を示す。A/B read operand buses信号は、AおよびBオペランドバスを介してのAおよびBオペランドの転送を示す。Funct unit exec.信号は、機能ユニットでの投入された命令の実行を示す。Result bus arb信号は、結果バスに対する調停を示す。Result bus forward信号は、機能ユニットによって結果が発生された後の果バスを介しての結果の転送を示す。ROB write result信号は、結果がROBに書込まれることを示す。ROB tag forward 信号は、ROBから機能ユニットへのオペランドタグの転送を示す。REGF write/retire 信号は、ROBからレジスタファイルへの結果の格納を示す。PC(31:0)信号は、命令がもう推論的なものではないとして用済とされると必ず更新されるプログラムカウンタ(PC)を示す。
【0159】
図8のタイミング図では、パイプラインは逐次的な命令ストリームの実行に関して示される。この例では、予測実行経路が実際にとられ、キャッシュから直接利用可能である。簡単に言えば、フェッチパイプライン段階において、命令はマイクロプロセッサによる処理のためにキャッシュからフェッチされる。命令はデコードパイプライン段階でデコードされて、実行パイプライン段階で実行される。ソースオペランドバスおよび結果バスは、整数のサイズに対応する32ビットの幅であることがわかる。命令バスオペランドバスが倍精度浮動小数点演算のために64ビット値を駆動するには2サイクルが必要である。
【0160】
結果パイプライン段階では、オペランド値が、結果を発生した機能ユニットから実行のために他の機能ユニットに直接転送される。結果段階のクロック相PH1において、推論命令の位置に、何らかの状態とともに行先結果が書込まれる。言い換えれば、機能ユニットによって発生された結果はリオーダバッファ内のエントリに置かれ、このエントリは、割当てられているとともに有効であるという指示を与えられる。この態様で、リオーダバッファは、ここでは、要求されたオペランドに関してオペランドタグではなくオペランドデータを直接転送することができる。結果パイプライン段階のクロック相PH2において、新しく割当てられたタグが、タグがそのソースオペランドの1つであることを必要とする後続の命令によって検出される。これは図8のタイミング図において、図8の矢印に示されるようにソースA/BオペランドバスへのROBタグ転送を介した結果「c」の直接転送で示される。図8において、「a」および「b」は結果「c」をもたらすオペランドであり、「c」および「d」は結果「e」をもたらすオペランドであることがわかる。
【0161】
パイプラインの最後の段階である用尽パイプライン段階では、リアルプログラムカウンタ(PC)またはリタイアPCが保持される。用尽パイプライン段階のPH1クロック相において、動作の結果はリオーダバッファからレジスタファイルに書込まれ、リタイアPCはこのライトバックを反映するように更新される。言い換えれば、リタイアPCは、もう推論的なものではないとしてレジスタファイルに格納されたばかりの命令を含むように更新される。この命令のためのエントリまたはリオーダバッファ内の結果は割当から外される。エントリが割当から外されるので、レジスタ「c」の後続の参照は、リオーダバッファからの推論的読出ではなく、レジスタファイルからの読出となる。
【0162】
図9は、図8のタイミング図と同じ5パイプライン段階を示すが、図9のタイミング図は、分岐誤予測が起こるときのマイクロプロセッサ500の動作を示す。XFPCは、FPCバス信号の反転を示す。
【0163】
IV.スーパースカラマイクロプロセッサの代替実施例
上述のスーパースカラマイクロプロセッサの実施例は、命令opコードがすべて同じサイズであるRISCプログラムを処理するのに最も有利に用いられるが、マイクロプロセッサ800としてこれから説明するマイクロプロセッサの実施例は、opコードのサイズが可変である命令の処理が可能である。たとえば、マイクロプロセッサ800は、可変長opコードを用いるよく知られたインテル(Intel )(登録商標)命令セットによって用いられる、いわゆるX86命令を処理することができる。マイクロプロセッサ800は、上述のマイクロプロセッサ500のRISCコアに類似したRISCコアを用いる。「RISCコア」という用語は、マイクロプロセッサ500の機能ユニット、リオーダバッファ、レジスタファイルおよび命令デコーダを含む、本質的にRISC(縮小命令セットコンピュータ)のアーキテクチャであるマイクロプロセッサ500の中核を指す。
【0164】
マイクロプロセッサ800のアーキテクチャは、インテルX86命令セットに見られるようないわゆるCISC(完全命令セットコンピュータ)命令を取込み、これらの命令をRISC類似命令(ROP)に変換することができ、これらがRISCコアによって処理される。この変換プロセスは、図10および11に示されるマイクロプロセッサ800のデコーダ805で起こる。デコーダ805はCISC命令をデコードし、CISC命令をROPに変換し、ROPを実行のために機能ユニットに発行する。デコーダ805の動作および構造についてのさらなる詳細は、本譲受人に譲受された「スーパースカラ命令デコーダ」(“Superscalar Instrucion Decoder”)と題される同時係属中の米国特許出願連続番号第146,383号から見いだされ、その開示はここに引用によって援用される。
【0165】
マイクロプロセッサがそのRISCコアに1サイクルにつき多数の命令を供給する能力は、このスーパースカラマイクロプロセッサによって提供される著しい性能の向上の理由の1つである。命令キャッシュ(ICACHE)810は、バイトのキューまたはバイトキュー(バイトQ)815としてこの命令供給を行なう、マイクロプロセッサ800の構成要素である。本発明のこの特定の実施例では、命令キャッシュ810は16Kバイト実効4ウェイセットアソシアティブ線形アドレス命令キャッシュである。
【0166】
図10および11に示されるように、命令キャッシュ810のバイトQ815は、命令デコーダ805に供給される。命令デコーダ805は、それに与えられる各命令を1つ以上のROPにマッピングする。デコーダ805のROP発行ウィンドウ820は、ICACHE810からの命令がそれにマッピングされ得る4つの発行位置を含む。4つの発行位置は、D0、D1、D2、およびD3として示される。第1の例では、デコーダ805にバイトQ815によって与えられる命令は、2つのROP発行位置にマッピングされ得る命令であると仮定する。この場合、この第1の命令がデコーダ805に与えられると、デコーダ805は命令を発行位置D0に与えられる第1のROPと、発行位置D1に与えられる第2のROPとにマッピングする。後続の第2の命令が3つのROP位置にマッピング可能であると仮定する。この第2の命令がデコーダ805にバイトQ815によって与えられると、命令は発行位置D2に与えられる第3のROPと、発行位置D3に与えられる第4のROPとにマッピングされる。発行位置D0ないしD3にあるROPは機能ユニットに発行される。第2の命令がマッピングされる、残っている第3のROPは、このようなROPが発行され得る前に次の発行ウィンドウが処理されるのを待たなくてはならないことがわかる。
【0167】
命令キャッシュ810がどの特定のバイトをバイトQ815に送るかに関する情報は、命令キャッシュ810の入力である分岐予測ブロック825に含まれる。分岐予測ブロック825は、ブロック単位で次に予測された分岐位置を示す次ブロックアレイである。分岐予測機能ユニット835は、図3ないし図5に示されるマイクロプロセッサ500のBRNSEC520と類似した態様で、分岐を実行する。命令キャッシュ810にはまた、外部メモリからリクエストされた命令キャッシュミスをフェッチするプリフェッチャブロック830が備えられる。
【0168】
マイクロプロセッサ800は、デコーダ805の4つのROP位置がそれに投入され得る4つの整数機能ユニット、すなわち分岐機能ユニット835、ALU0/シフタ機能ユニット840、ALU1機能ユニット845、および特殊レジスタ機能ユニット850を含む。分岐機能ユニット835は、1クロックサイクルにつき1つの新しいROPが分岐機能ユニット835によって受入れられるように、1サイクルの待ち時間を有する。分岐ユニット835は2エントリ待合わせステーション835Rを含む。本明細書の目的のため、2エントリを含む待合わせステーションは、2つの待合わせステーションと同じであると考えられる。分岐機能ユニット835は、すべてのX86分岐、コールおよびリターン命令を扱う。これはまた条件付分岐ルーチンを扱う。
【0169】
ALU0/シフタ機能ユニット840は、1サイクルの待ち時間を示す。1クロックサイクルにつき1つの新しいROPがユニット840に受入れられる。ALU0/シフタ機能ユニット840は、2つまでの推論ROPを保持する2エントリ待合わせステーション840Rを含む。すべてのX86算術および論理計算は、この機能ユニットまたはその代わりに他方の算術論理装置ALU1 845に渡る。さらに、シフトローテートまたはファインドファーストワンのような命令は、ALU0/シフタ機能ユニット840に与えられる。
【0170】
ALU1機能ユニット845もまた、1サイクルの待ち時間を示す。1クロックサイクルにつき1の新しいROPがALU1機能ユニット845によって受入れられることがわかる。ALU1機能ユニットは、2つまでの推論ROPを保持する2エントリ待合わせステーション845Rを含む。すべてのX86算術および論理計算は、この機能ユニットかまたは他方の算術論理装置ALU0に渡る。ALU0およびALU1は、1サイクルにつき2つまでの整数結果演算を計算することを可能にする。
【0171】
特殊レジスタ機能ユニット850は、X86レジスタファイル855の外にある内部制御、ステータスおよびマッピング状態を扱うための特殊ブロックである。本発明の一実施例では、特殊レジスタ機能ユニット850は、ROPが特殊レジスタ機能ユニット850に投入されるときに未処理である推論状態がないので、待合わせステーションを持たない。特殊レジスタブロック850は、その構造および機能の点で、上述の特殊レジスタブロック512と類似している。
【0172】
ロード/ストア機能ユニット860および浮動小数点機能ユニット865は、デコーダ805のROP発行ウィンドウ820に結合される。ロード/ストア機能ユニット860は、複数エントリ待合わせステーション860Rを含む。浮動小数点機能ユニット865は2つの待合わせステーション865Rを含む。データキャッシュ870が、データのストアおよびそのための検索を与えるために、ロード/ストア機能ユニット860に結合される。浮動小数点機能ユニット865は、41ビット整数/浮動小数点演算混在バス875および結果バス880に連結される。より詳細には、オペランドバス875は、41ビット幅を示す8つの読出オペランドバスを含む。結果バス880は、41ビット幅を示す5つの結果バスを含む。浮動小数点ユニットの整数/浮動小数点混在オペランドおよび結果バスへの連結によって、推論整数および浮動小数点ROPの両方のために、1つのレジスタファイル855および1つのリオーダバッファ885を用いることが可能になる。2つのROPは80ビット拡張精度演算を形成し、これは浮動小数点待合わせステーション865Rから浮動小数点機能865内の80ビット浮動小数点コアに入力される。
【0173】
浮動小数点機能ユニット865の80ビット浮動小数点コアは、浮動小数点加算器、浮動小数点乗算器、および浮動小数点除算/平方根機能ユニットを含む。浮動小数点ユニット865内の浮動小数点加算器機能ユニットは、2サイクルの待ち時間を示す。浮動小数点加算器は、80ビットの拡張結果を計算し、これが転送される。浮動小数点乗算器は、拡張精度乗算演算のために6サイクルの待ち時間を示す。32X32乗算器が、単精度乗算演算のために用いられる。浮動小数点機能ユニット865内の32X32乗算器は、拡張精度を必要とする64ビット仮数演算のためにマルチサイクル化される。浮動小数点除算/平方根機能ユニットは、64ビット仮数を2ビット/クロックで計算するために基数−4対話型除算を用いる。
【0174】
A/Bオペランドバスのバス幅が41ビットであるこの実施例では、整数ユニットに延びるA/Bオペランドバスに関して、32ビットがオペランド専用であり、残りの9ビットが制御情報専用であることが認められる。A/Bオペランドバスのバス幅が41ビットではなく、32ビットまたは他のサイズである、本発明の他の実施例も企図されることに注目されたい。このような32ビットオペランドバス幅の構成では、オペランドバスから分離される制御ラインが、制御情報の伝送のために用いられる。
【0175】
ロードストア機能ユニット860は、4エントリ待合わせステーション860Rを含む。ロードストア機能ユニット860は、2つのロードまたはストア動作が1サイクルについて投入されることを可能にする。ロードストアセクションはまた、線形アドレスを計算し、メモリのリクエストされたセグメントへのアクセス権をチェックする。データキャッシュ870内のヒット/ミスのチェックに関してのロードまたはストア動作の待ち時間は1サイクルである。2つまでのロード動作が、同時にデータキャッシュ870にアクセスし、その動作を結果バス880に送ることができる。ロードストアセクション860は、整数および浮動小数点ロードおよびストア動作の両方を扱う。
【0176】
図10および11に示されるように、マイクロプロセッサ800は、リオーダバッファ885に結合されるレジスタファイル855を含む。レジスタファイル855およびリオーダバッファ885の両方が、オペランド振分回路890を介してオペランドバス875に結合される。レジスタファイル855、リオーダバッファ885およびオペランド振分回路890は協働して、オペランドを機能ユニットに与える。結果が機能ユニットから得られると、これらの結果はリオーダバッファ885に送られ、その中のエントリとしてストアされる。
【0177】
より詳細には、レジスタファイル855およびリオーダバッファ885は、プログラム実行の間のオペランドのためのストアを与える。レジスタファイル855は、整数および浮動小数点命令の両方のためのマッピングされたX86レジスタを含む。レジスタファイルは、中間計算を保持するための、ならびに整数および浮動小数点の一時レジスタを含む。本発明のこの特定の実施例では、レジスタファイル855内のすべてのレジスタは、8つの読出および4つの書込ラッチとして実現される。このように設けられた4つの書込ポートによって、1クロックについて2つまでのレジスタファイル行先が書込まれることを可能にする。これは、1ポートについて1つの整数値であるか、またはレジスタファイルに浮動小数点結果が書込まれている場合には、1ポートにつき浮動小数点値の半分であってもよい。8つの読出ポートによって、2つのソース読出動作を伴う4つのROPの各々が、1クロックサイクルについて投入されることが可能になる。
【0178】
リオーダバッファ885は、16までの推論ROPのキューを保持する、16エントリ環状FIFOとして構成される。リオーダバッファ885はしたがって、16のエントリを割当てることができ、その各々が整数結果または浮動小数点結果の半分を含むことができる。リオーダバッファ885は、1クロックサイクルにつき4つのROPを割当てることができ、1クロックサイクルにつき5までのROPを確立し、1クロックサイクルにつき4つまでのROPをレジスタファイル855に格納することができる。マイクロプロセッサ800の現在の推論状態は、必要に応じて後続の転送のためにリオーダバッファ885内に保持される。リオーダバッファ885はまた、各エントリについて各ROPの相対順序を示す状態を維持する。リオーダバッファ885はまた、割込またはトラップルーチンによる処理のためにミスしている分岐および例外をマークする。
【0179】
リオーダバッファ885は、8つのオペランドでそれぞれ8つのオペランドバス875を駆動できる。リオーダバッファ885は、5つの結果バス880を介して1サイクルにつき5つまでの結果を受取ることができる。オペランドバスは8つの41ビット整数/浮動小数点共通バスであることが認められる。8つのオペランドバスは、デコーダ805のROP発行ウィンドウ820内の4つのROP発行位置に対応する。4つのROP発行位置の各々は、ソースAオペランドおよびソースBオペランドを有することができる。このように形成される4つのAおよびB読出オペランド対の各々は、ROP発行ウィンドウ820内の固定ROPおよびソース読出位置専用である。
【0180】
レジスタファイル855およびリオーダバッファ885は、読出オペランドバス875を駆動するマイクロプロセッサ800内の装置である。デコードされたROPに関して推論の行先がなければ、すなわちROPによってリクエストされたオペランドがリオーダバッファになければ、レジスタファイルがそのオペランドを供給する。しかしながら、推論の行先が存在すれば、すなわちデコードされたROPによってリクエストされたオペランドがリオーダバッファ内にあれば、そのオペランドのためのリオーダバッファ内の最も新しいエントリが、対応するレジスタの代わりに機能ユニットに送られる。このリオーダバッファ結果値は、これがもしリオーダバッファ内に存在すれば推論結果であるか、または機能ユニット内でまだ完了されていない推論の行先に関するリオーダバッファタグでもあり得る。
【0181】
5つの結果バス880は41ビットバスである。読出オペランドおよび結果バスは、すべての整数機能ユニットの入力および出力であることがわかる。これらの同じ読出オペランドおよび結果バスはまた、浮動小数点機能ユニット865の浮動小数点待合わせステーション865Rの入力および出力である。浮動小数点待合わせステーション865Rは、41ビットオペランドおよび結果バスを、必要であればその構成する専用機能ユニットに送る80ビット拡張精度バスに変換する。
【0182】
マイクロプロセッサ800の整数および浮動小数点機能ユニットには、これらのユニットの待合わせステーションを介してROPの局所バッファ処理が与えられる。これらの機能ユニットのほとんどで、局所バッファ処理は、FIFOとして構成される2エントリ待合わせステーションの形をとる。このような待合わせステーションの目的は、デコーダ805の発行論理が、機能ユニットに推論ROPを、このような推論ROPのソースオペランドが現在利用可能であるかどうかに関わらず、送ることを可能にすることである。本発明のこの実施例では、したがって、長い計算またはロードが完了するのを待つことなく、多数の推論ROP(16まで)が投入され得る。この態様で、はるかに高い命令レベルの並列性が与えられ、マイクロプロセッサ800は、そのピーク性能に近く動作することが可能になる。
【0183】
待合わせステーションの各エントリは、2つのソースオペランドまたはタグと、各エントリに関連するopコードおよび行先に関しての情報を保持することができる。待合わせステーションはまた、リオーダバッファが未処理であるとマークしたソースオペランド結果(リオーダバッファがオペランド自体ではなくオペランドタグを与えることによってそれについてマークしたオペランド)を、このような結果を待っている他の機能ユニットに直接送ることができる。本発明のこの特定の実施例では、機能ユニットの待合わせステーションは、典型的には1クロックサイクルにつき新しいエントリを1つ受入れ、1サイクルにつき1つの新しいエントリを機能ユニットに送ることができる。
【0184】
これに対する例外は、その待合わせステーションから1クロックサイクルにつき2つのエントリを受入れ、かつ用済とすることができるロード/ストアセクション860である。ロード/ストアセクション860はまた、4つのエントリのより深い待合わせステーションFIFOを有する。
【0185】
すべての待合わせステーションのエントリは、例外が起こるようなことがあれば、1クロックサイクル以内に割当から外されることができる。分岐誤予測が起こると、中間結果が機能ユニットから流し出され、リオーダバッファからの割当から外される。
【0186】
マイクロプロセッサ800は、プリフェッチユニット830を介して命令キャッシュ810に、およびバスインタフェースユニット900に結合される内部アドレスデータバス895を含む。バスインタフェースユニット900は、主メモリまたは外部メモリ(図示せず)に結合され、そのためマイクロプロセッサ800には外部メモリアクセスが与えられる。IADバス895はまた、図10および11に示されるように、ロード/ストア機能ユニット860に結合される。
【0187】
データキャッシュ870は、ロード/ストアユニット860に結合される。本発明のある特定的な実施例では、データキャッシュ870は、8Kバイト、線形アドレス、2ウェイセットアソシアティブ、デュアルアクセスキャッシュである。アドレスおよびデータラインは、図示されるようにデータキャッシュ870をロード/ストア機能ユニット860に結合する。より具体的には、データキャッシュ870は、キャッシュ870とロード/ストアユニット860との間の2つの組のアドレスおよびデータ経路を含み、ロード/ストア機能ユニット860からの2つの同時アクセスを可能にする。これらの2つのアクセスは、16バイトデータキャッシュラインサイズに整列される、8ないし32ビットロードまたはストアアクセスであってもよい。データキャッシュ870は、16バイトラインまたはブロックに構成される。この特定的な実施例では、データキャッシュ870は線形にアドレスされるか、またはセグメントベースのアドレスからアクセスされ、ページテーブルベースの物理アドレスではない。データキャッシュ870は4つのバンクを含み、これらは、データキャッシュ内の1つのラインが4つのバンクの各々における4つのバイトを有するように構成される。したがって、2つのアクセスのビット[3:2]の線形アドレスが同じでないかぎり、2つのアクセスは同時にキャッシュ870内のデータアレイにアクセスすることができる。
【0188】
データキャッシュ870は、2ウェイアソシアティブである。これは、クロックの相PH1において2つの線形アドレスをとり、その4つのバンクにアクセスする。その結果としてのロード動作は、後続のクロック相PH2で完了し、結果バスのうちの1つを駆動することができる。機能ユニットによる結果バスのリクエストは、結果をライトバックしようとする他の機能ユニットからのリクエストと調停される。
【0189】
命令キャッシュ810およびデータキャッシュ870は、それぞれの命令キャッシュ線形タグアレイおよびデータキャッシュ線形タグアレイを含み、これらのキャッシュにストアされたデータエントリおよび命令のアドレスに対応する。図10および11に示されるように、マイクロプロセッサ800はまた、命令キャッシュ810およびデータキャッシュ870内のそれぞれ命令およびデータの物理アドレスを追跡するためにIADバス895に結合される物理タグI/Dブロック910を含む。より具体的には、物理タグI/Dブロック910は、これらのキャッシュの物理アドレスを維持する物理命令/データタグアレイを含む。ブロック910の物理命令タグアレイは、命令キャッシュ810の対応する線形命令タグアレイに関する構成を反映する。同様に、ブロック910内の物理データタグアレイの構成は、命令キャッシュ810内の対応する線形データタグアレイの構成を反映する。
【0190】
物理I/Dタグは、命令キャッシュタグであるかデータキャッシュタグであるかに依存して、有効、共有、および変更ビットを有する。データキャッシュ物理タグがセットされた変更ビットを有する場合には、これはリクエストされたデータエレメントが、線形データキャッシュ内の等価な位置にあることを示す。マイクロプロセッサ800は外部メモリへのバックオフサイクルを開始し、リクエストされた変更ブロックを、リクエストしている装置がそれを後で見ることができるメモリに書込む。
【0191】
高速変換バッファ(TLB915)が、図示のようにIADバス895と物理タグI/Dブロック910との間に結合される。TLB915は、128の線形−物理ページ変換アドレスおよび128までの4Kバイトページのためのページ権をストアする。この高速変換バッファアレイは、ランダムな置換えを有する4ウェイセットアソシアティブ構造として構成される。TLB915は、X86アーキテクチャのために規定される線形−物理アドレス変換機構を扱う。この機構は、最も最近の線形−物理アドレス変換のキャッシュを用いて、有効な変換のために外部ページテーブルを探すのを防ぐ。
【0192】
バスインタフェースユニット900は、IADバス895をメモリ等の外部装置にインタフェースさせる。IADバス895は、マイクロプロセッサ800の様々な構成要素を接続するのに用いられるグローバル64ビット共有アドレス/データ/制御バスである。IADバス895は、キャッシュブロックリフィル、ライトアウト変更ブロックのため、ならびに特殊レジスタユニット850、ロード/ストア機能ユニット860、データキャッシュ870、命令キャッシュ810、物理I/Dタグブロック910、高速変換バッファ915、およびバスインタフェースユニット900等の機能ブロックにデータおよび制御情報を渡すために用いられる。
【0193】
V.代替実施例の動作概説
CISCプログラムが実行されるとき、CISCプログラムの命令およびデータが、これらの命令およびデータをストアするのに用いられた何らかの記憶媒体から主メモリにロードされる。一旦、バスインタフェースユニット900に結合される主メモリにプログラムがロードされると、命令はプログラム順にデコーダ805に、機能ユニットによる発行および処理のためにフェッチされる。より具体的には、デコーダ805によって1度に4つの命令がデコードされる。命令は、主メモリからバスインタフェースユニット900に、IADバス895を介して、プリフェッチユニット830を通り、命令キャッシュ810に、そしてデコーダ805に流れる。命令キャッシュ810は、デコーダ805によってデコードされて発行されるべき命令の保管場所として機能する。命令キャッシュ810は、分岐予測ユニット835と関連して動作し、デコーダ805に、推論的に実行されるべき次の予測された命令ブロックである、4命令幅の命令ブロックを与える。
【0194】
より具体的には、命令キャッシュ810は、主メモリからバスインタフェースユニット900を介してフェッチされた命令ブロックを含む、ICSTOREと示されるストアアレイを含む。ICACHE810は、16バイトラインまたはブロックに構成される、16Kバイト実効線形アドレス命令キャッシュである。各キャッシュラインまたはブロックは、16のX86バイトを含む。各ラインまたはブロックはまた、各バイトについて5ビットプリデコード状態を含む。ICACHE810は、命令デコーダ805に次に予測されたX86命令バイトをフェッチする役目を果たす。
【0195】
ICACHE810は、FETCHPC(FPC)と示される推論プログラムカウンタを維持する。この推論プログラムカウンタFETCHPCは、キャッシュ情報を維持する以下の3つの別個のランダムアクセスメモリ(RAM)アレイにアクセスするために用いられる。より詳細には、キャッシュ情報を含む3つの上述のRAMアレイは、1)ストアアレイICSTORE内の対応するブロックに関するバイト有効ビットおよび線形タグを維持するアレイであるICTAGVを含む。キャッシュ内の各エントリは、16バイト有効ビットおよび20ビット線形タグを含む。この特定の実施例では、256のタグが用いられる。2)アレイICNXTBLKは、ストアアレイICSTORE内の対応するブロックに関する分岐予測情報を維持する。ICNXTBLKアレイは、各々が16Kバイト実効X86命令に対応する、256エントリの4つの組に構成される。この次ブロックアレイ内の各エントリは、シーケンシャルビット、最後に予測されたバイトおよびサクセッサインデックスから構成される。3)ICSTOREアレイは、X86命令バイトと5ビットのプリデコード状態とを含む。プリデコード状態は、各バイトと関連し、特定のバイトがマッピングされるROPの数を示す。このプリデコード情報は、命令のデコードを、これらがデコーダ805に与えられると速める。バイトキューまたはICBYTEQ815は、プリフェッチユニット830によってICACHE810に与えられる命令プリフェッチストリームの現在の推論状態を与える。ICACHE810として用いることができる命令キャッシュに関するより多くの情報は、同時係属中で本譲受人に譲受された、「可変バイト長命令に特に適した推論命令キューおよびそのための方法」と題する米国特許連続出願番号第145,902号に記載され、その開示がここに引用によって援用される。
【0196】
デコーダ805(IDECODE)は、マイクロプロセッサ800内の命令デコードおよび発行動作を実行する。より具体的には、デコーダ805は、デコード1およびデコード2と称するマイクロプロセッサパイプラインの2つの段階を実行する。デコード1の初めの間、プリフェッチされ、予測実行されたバイトはバイトキューの指定された充満位置に送られる。これらのバイトは次に、バイトキュー815内の独立バイトと併合される。デコード2パイプラインステージにおいて、リオーダバッファのエントリが、次のクロック相で投入され得る対応するROPに割当てられる。
【0197】
デコーダ805は、バイトキュー815から未処理のX86命令バイトおよびプリデコード情報を取入れ、これらをROP発行ユニット820内の4つのROP位置に割当てる。デコーダ805は、どの特定の機能ユニットに各ROPが伝送されるべきかを決定する。デコーダ805として用いることができるデコードの1つのより詳細な説明は、ディビッド・ビィ・ウィットおよびマイケル・ディ・ゴダード(Dabid B. Witt and Michael D. Goddard)による「スーパースカラ命令デコーダ」と題される米国特許出願連続番号第146,383号に記載され、その開示をここに引用によって援用する。ICACHEおよびデコーダ回路によって、マイクロプロセッサ800は、1クロックサイクルにつき4つのROPをデコードし、RISC類似データ経路に送ることができる。4つのROPは、機能ユニットに発行され、これが結果をリオーダバッファ885と、これらの結果を必要とする他の機能ユニットとに送る。
【0198】
レジスタファイル855およびリオーダバッファ885は、プログラムの流れにおける命令に推論実行を与えるようにともに動作する。マイクロプロセッサ800の整数コア、レジスタファイル855、リオーダバッファ885のより詳細な説明を、図12を参照して行なう。マイクロプロセッサ800の整数コアは、整数コア920として示され、分岐予測ユニット835、ALU0、ALU1、および特殊レジスタ860を含む。
【0199】
この特定の実施例において、レジスタファイル855は、12の32ビットレジスタ(整数レジスタ)と24の41ビットレジスタ(浮動小数点レジスタ)として構成される。これらのレジスタは、デコーダ805から並列して4つまでのROPに関してアクセスされる。デコーダ805によって与えられるレジスタファイルポインタは、どの特定のレジスタが特定のROPにおけるオペランド値としてリクエストされるか、およびアクセスのサイズを決定する。
【0200】
レジスタファイル855はマイクロプロセッサ800のアーキテクチャ状態を含む一方で、リオーダバッファ885はマイクロプロセッサ800の推論状態を含むことが認められる。レジスタファイル855のタイミングは、8つまでの並列読出ポインタで、デコーダ2パイプラインステージの相PH2でアクセスされるようにされる。これらの8つまでの読出ポインタの受取に応答して、レジスタファイル855は、このように選択されたオペランド値を、後続のクロックPH1相で対応するオペランドバスに送る。
【0201】
リオーダバッファ885をレジスタファイル855に結合する不能化バスが図12に示される。不能化バスは8ライン幅であり、リクエストされた読出値がリオーダバッファ885内の推論エントリとして見いだされたことを示す8つの無効信号を含む。この例では、レジスタファイル855は無効にされ、リクエストされた読出オペランド値をオペランドバスに置くことを許されない。その代わりに、推論エントリがリオーダバッファ885内に存在するので、リオーダバッファ885は、リクエストされた実際のオペランド値か、またはその値に関するオペランドタグを与える。
【0202】
リオーダバッファ885は、この特定の実施例では16のエントリを含み、推論ROP結果値のキューとして動作する。図13により詳細に示されるように、リオーダバッファ885は、キューの先頭および末尾に対応する2つのポインタ、すなわち先頭ポインタおよび末尾ポインタを含む。キューの割当の発行されるROPへのシフトは、これらのポインタを増分または減分することによって起こる。
【0203】
リオーダバッファ885に与えられる入力は、デコーダ805がそこで割当てようとするROPの数(1ブロックにつき4つまでのROP)、これらの4つのROPのためのソースオペランドポインタ値、およびそれぞれの行先ポインタ値を含む。リオーダバッファ885は次に、その現在の推論キューからこれらのエントリを割当てようとする。エントリスペースが発行されるROPのために利用可能であれば、エントリは末尾ポインタの後に割当てられる。
【0204】
より具体的には、エントリがデコーダ805からリクエストされると、キューの先頭から次のエントリが割当てられる。特定のエントリの数は、デコーダ805からのその特定のROPに関する行先タグとなる。行先タグは、実行されるべき特定の命令とともに、対応するROP位置で機能ユニットに送られる。「4ROP行先タグ」と示される専用行先タグバスは、図12において、リオーダバッファ885から整数コア920の機能ユニットへ、およびマイクロプロセッサ800の残りの機能ユニットへの出力として示される。機能ユニットはこのように、実行されるべき各ROPに関する行先情報を与えられ、そのため機能ユニットは効果的に結果バスを介してROPの結果がどこに送られるはずであるかを知る。
【0205】
上述のことより、推論実行された結果値またはオペランドは、このような結果オペランドがもはや推論ではなくなるまで、リオーダバッファ885内に一時的にストアされることが認められる。可能性のあるオペランド値のプールは、したがってリオーダバッファによって与えられ、デコーダ805によって与えられてデコードされる後続のROPによって用いられる。
【0206】
リオーダバッファ885内にエントリが存在するときには、元のレジスタ番号(すなわちEAX)が、特定のROP結果に関して割当てられたリオーダバッファエントリ内に保持される。図13は、先頭および末尾ポインタの間の推論状態にあるエントリを、これらのエントリ内の縦の破線で示す。各リオーダバッファエントリは、その元の行先レジスタ番号に参照し戻される。ROP発行ユニット820の4つのROP位置からの8つの読出ポインタ値のうちの何らかのものがエントリに関連する元のレジスタ番号に一致すると、そのエントリの結果データが、有効であれば転送され、またはそのエントリに関連する動作がまだ機能ユニットで未処理であればタグが転送される。
【0207】
リオーダバッファ885は、デコード805によって発行された新しいROPの正しい推論状態を、これらのROPをプログラム順に割当てることで維持する。4つのROPはその現在の位置からリオーダバッファキューの末尾位置まで、それらの読出オペランドのいずれかにおける一致を探しながらスキャンする。特定のリオーダバッファエントリにおいて一致が起これば、レジスタファイル855内の対応する読出ポートが不能化され、実際の結果オペランドまたはオペランドタグが、適切な機能ユニットによって受取られるようにオペランドバスに与えられる。この構成によって、動作に影響を与えることなく、リオーダバッファに存在する同じレジスタの複数の更新を可能にする。結果転送がこのように達成される。
【0208】
図13に示されるように、リオーダバッファ885は、リオーダバッファキューまたはアレイ930にストアされた結果オペランドの用尽を制御するリタイア論理925を含む。キュー930に格納された結果オペランドがもはや推論でなければ、このような結果オペランドはリタイア論理制御のもとでレジスタファイル855に転送される。これを起こすためには、ROPの格納をインタフェースするリタイア論理、レジスタファイルへのライトバック、最後の4つのROPエントリの状態がスキャンされる。リタイア論理925は、割当てられたROPエントリのうちのいくつが有効な結果を現在有しているかを決定する。リタイア論理はまた、これらのROPエントリのうちのいくつが、ライトバックのないROPに対して、レジスタファイルへのライトバック結果を有するかをチェックする。さらに、リタイア論理は、発生される分岐、ストアおよびロードミスについてスキャンする。完全な命令が最後の4つのROP内に存在すれば、このようなROPはレジスタファイルに格納される。しかしながら、ROPエントリをスキャンする間に、特定のROPにおいて例外が起こったことを示す状態が見いだされれば、その後のすべてのROPが無効にされ、トラップベクトルフェッチリクエストが、ROPエントリに格納された例外状態情報により形成される。
【0209】
さらに、リオーダバッファ内のROPをスキャンしている際に分岐誤予測状態に出会えば、誤予測された経路にあるとしてマークされなかった最初のROPに出会うまで、EIPレジスタの更新またはライトバックなく、リタイア論理はこれらのROPエントリを無効にする。リタイア論理925(図13参照)内に含まれるEIPレジスタ(図示せず)は、推論的ではない実行された命令を推論で実行された命令から分ける、実行下のプログラムにおけるロールする分解点を表わすリタイアPCまたはプログラムカウンタを保持する。EIPまたはリタイアPCは、リオーダバッファ885からレジスタファイル855への結果オペランドの格納の際に、このように格納された命令がもはや推論的ではないことを反映するように、継続的に更新される。リオーダバッファ885は推論状態を素早く追跡し、1クロックサイクルにつき複数のX86命令またはROPを用済とすることができることが認められる。マイクロプロセッサ800は、例外条件または分岐誤予測に出会えば、迅速に無効とし、正しい命令ストリームをフェッチし始めることができる。
【0210】
マイクロプロセッサ800の機能ユニットの一般的な構成を、ここで図14に例示的な目的のために示される一般化された機能ユニットブロック図を参照して説明する。opコード、Aオペランド、Bオペランド、および行先タグを含むROPは、図9の一般化された機能ユニットに発行されていることを思い起こされたい。図14の最も左の部分には、それに発行される命令から特定のAオペランドを選択する(1:4)Aオペランドマルチプレクサ932に4つのAオペランドバスが与えられることが認められる。同様の態様で、4つのBオペランドバスが、図14の機能ユニットが実行すべき対象の命令のための特定のBオペランドを選択する(1:4)Bオペランドマルチプレクサ935に結合される。4つの行先/opコードバスが、この機能ユニットによって実行されている特定の命令のためのopコードおよび行先タグを選択するマルチプレクサ940に結合される。
【0211】
この機能ユニットは、マルチプレクサ940への「ファインドファーストFUNCタイプ」入力でタイプバスをモニタする。より特定的には、機能ユニットは、その機能ユニットのタイプに一致する第1のROPを探し、1:4マルチプレクサ932、935、および940を可能化して、対応するオペランドおよびタグ情報を図14の機能ユニットの待合わせステーション1に送る。たとえば、実行ユニット945が算術論理装置1(ALU1)であり、かつマルチプレクサ940のTYPE入力で機能ユニットに与えられる命令タイプがADD命令であると仮定すると、発行された命令の行先タグ、opコード、Aオペランド、およびBオペランドが、選択マルチプレクサ932、935および940を介して待合わせステーション1に送られる。
【0212】
第2の待合わせステーション、すなわち待合わせステーション0が、待合わせステーション1と実行ユニット945との間に認められる。図14の機能ユニットは、このように2つの待合わせステーションを含むと言われ、または待合わせステーションは2つのエントリを保持することができると言う。この2エントリ待合わせステーションは、最も古いエントリが待合わせ0として示されるFIFOとして実現される。待合わせステーション0および1は、レジスタファイル855またはリオーダバッファ885のいずれかからオペランドバスを介して機能ユニットに何が送られたかに依存して、オペランドまたはオペランドタグのいずれかを保持することができる。
【0213】
その結果を5つの結果バスに与える他の機能ユニットからの結果の転送を達成するために、機能ユニットは、A転送論理950およびB転送論理955を有する。転送論理950は、ソースAオペランドに一致するタグを求めて5つの結果バスをスキャンし、一致が起これば、A転送論理950は、対応する結果バスを待合わせステーション1のAデータ部分960に送る。実際のAオペランドではなくAオペランドタグがマルチプレクサ932を介して送られると、Aオペランドタグは、Aタグ965と示される位置にストアされることに注目されたい。一致を求めて5つの結果バスにおいてスキャンされる結果タグと比較されるのは、Aタグ位置965にストアされたAオペランドタグである。同様の態様で、B転送論理955は、Bオペランドタグ位置970にストアされたBオペランドタグに一致する何らかの結果タグに関して5つの結果バスをスキャンする。一致が見いだされれば、対応する結果オペランドが結果バスから検索され、Bデータ位置975にストアされる。機能ユニットによって実行されているROPのopコードおよび行先タグは、タグおよびopコード位置980にストアされる。
【0214】
ROP命令を実行するのに必要なすべての情報が機能ユニット内で集められれば、ROP命令は実行のために実行ユニット945に投入される。より具体的には、AオペランドおよびBオペランドが、待合わせステーションによって実行ユニット945に送られる。その命令のためのopコードおよび行先タグが、タグおよびopコード位置980によって実行ユニット945に送られる。実行ユニットは命令を実行し、結果を発生する。実行ユニットは次に、アービトレータ(図示せず)に結果リクエスト信号を送ることで結果バスへのアクセスに対して調停する。実行ユニット945が結果バスへのアクセスを許可されると、結果許可信号がアービトレータから実行ユニット945によって受取られる。実行ユニット945はその結果を指定された結果バスに置く。
【0215】
この結果と同じタグを有する未処理のオペランドを有する他の機能ユニットに結果が転送される。結果はまた、実行されたROPの行先タグと関連するエントリでそこにストアするためにリオーダバッファ885にも与えられる。
【0216】
実用において、機能ユニットは、命令が実行している間結果バスに対して調停する。より具体的には、機能ユニットに有効エントリが存在するとき、すなわち実行のために必要なすべてのオペランド、opコード、および行先タグ情報が集めらたとき、命令は実行ユニット945に投入され、実行ユニット945が実際にその命令を実行している間、機能ユニットは結果バスに対して調停する。各待合わせステーションが行先タグとともに局所opコードのための記憶機構を含むことが認められる。このタグは、結果パイプラインステージの間にROPが最終的にライトバックする位置を示す。この行先タグはまた、待合わせステーション内の各エントリと保持され、そのFIFOを介して押される。
【0217】
一般化された機能ユニットブロック図を図14に関して説明したが、実行ユニット945は、分岐予測ユニット835、ALU0/シフタ840、ALU1
845、ロード/ストア860、浮動小数点ユニット865および特殊レジスタ850のいずれであってもよく、これらの特定の機能に関する適切な変更を加えてもよい。
【0218】
特定の機能ユニットへの結果バスの許可が行なわれると、結果値が結果バスに送られ、待合わせステーション内の対応するエントリがクリアされる。結果バスは、41ビットの結果と、行先タグと、通常、有効および例外等の状態指示情報とを含む。マイクロプロセッサ800のパイプライン化された動作において、上述の機能ユニットの動作のタイミングは、実行段階の間に起こる。クロック相PH1の間、オペランド、行先タグおよびopコードは、ROPが発行され、待合わせステーションに置かれる際に送られる。PH2クロック相の間、opコードによって説明される動作は、すべてのオペランドの準備ができていれば実行され、実行の間、機能ユニットは値をリオーダバッファに送返すために結果バスに対して調停する。
【0219】
図15は、分岐機能ユニット835のより詳細な図である。分岐機能ユニット835は、ジャンプ命令ならびにより複雑なコールおよびリターンマイクロルーチンを含む非逐次的フェッチをすべて扱う。分岐ユニット835は、待合わせステーション835Rと、予測発生分岐を追跡するための分岐FIFO980を含む。分岐機能ユニット835はまた、加算器985と、インクリメンタ990と、分岐予測コンパレータ995とを含み、これらはすべてPC相対分岐を扱うためのものである。
【0220】
分岐機能ユニット835は、図15に示される分岐予測発生FIFO980を用いて推論分岐を制御する。より具体的には、命令キャッシュ810によって予測されたすべての非順次的フェッチは、分岐予測FIFO980に送られ、その分岐のPC(プログラムカウンタ)とともにそこでラッチされる。この情報は、ターゲットバス(XTARGET)およびデコードPCバスに送られて、分岐機能ユニットに渡る。対応する分岐が後にデコードされ、投入されると、予測情報、オフセット、および分岐のPCが、分岐機能ユニット835によって局所的に計算される。一致が起これば、この結果はターゲットPCと一致を示す状態とともに、リオーダバッファ885に正しく送り返される。分岐誤予測が起これば、正しいターゲットが、フェッチを始めるために命令キャッシュ810へ送られ、またミスしている予測された分岐に含まれる後続のROPをキャンセルためにリオーダバッファ885へ送られる。この態様で、実行は正しいターゲットPCで再び始めることができ、このようにして実行プロセスの失敗を防ぐ。誤予測が起こると必ず、分岐機能ユニット835は、新しいターゲットアドレスとインデックスとの両方を、予測情報があったブロックに送り、このアレイを更新する。このことは、マイクロプロセッサが、予測アレイ情報を更新しながら同時に、命令の新しく正しいストリームをフェッチし始めることを意味する。マイクロプロセッサはまた、新しいブロックで予測情報にアクセスして、どのバイトが予測実行されるかを知ることに注目されたい。ICNXTBLKアレイは、予測情報がその第2のポートを介して更新され得るように、デュアルポートである。誤予測が起こるブロックからの予測情報は、逐次/非逐次、分岐位置、およびキャッシュアレイ内の予測実行される第1のバイトの位置等の情報である。
【0221】
加算器985およびインクリメンタ990は、現在の分岐命令の現在のPC+オフセット、および逐次的であれば次のPCの命令長+PCを局所的に計算する。これらの値は、コンパレータ995によって、局所分岐発生キュー(FIFO980)内の予測発生分岐と比較されて、このような分岐を予測する。
【0222】
ここで、マイクロプロセッサ800の動作をそのパイプラインステージを通して示すタイミング図を説明する前に、マイクロプロセッサ800の主な内部バスを概略的に説明する。バスラインの先頭のXは、一方の相でダイナミックにチャージされ、他方の相で条件付でアサートされる偽バスを示す。マイクロプロセッサ800の内部バスは以下のものを含む。
【0223】
FPC(31:0)−Ph1、スタティック。このフェッチPCバスは、命令キャッシュ810からバイトキュー815への推論命令プリフェッチのために用いられる。FPCバスは、図3ないし図5のマイクロプロセッサ500のFPCブロック207と実質的に同じ機能を果たす、ICACHE810内のFPCブロック813に結合される。
【0224】
XTARGET(41:0)−Ph1、ダイナミック。このバスは、誤予測分岐および例外を指示しなおすためにターゲットPCを命令キャッシュおよび分岐予測ユニット(825/835)に送る。
【0225】
XICBYTEnB(12:0)−Ph1、ダイナミック。このバスは、現在リクエストされているプリフェッチX86命令および対応するプリデコード情報の命令キャッシュストアアレイICSTOREの出力である。この特定の実施例では、サイクルにつき全部で16のバイトが、次に予測実行されたバイトがバイトキューの第1のオープンバイト位置を充満するように整列されてアサートすることができる。
【0226】
BYTEQn(7:0)−Ph1、スタティック。これは、命令キャッシュからフリフェッチされた予測実行X86命令バイトのキューを示す。この特定の実施例では、全部で16のバイトがデコーダ805のデコード経路に送られる。各バイトは、opコード位置、プリフィックスバイト、ならびに命令開始および終了位置に関しての命令キャッシュからのプリデコード情報を含む。各X86命令のROPサイズもまた、プリデコード情報に含まれる。各バイトに加えられるプリデコード情報は、バイトキュー内の1バイトについて全部で6ビットのストアを表わし、すなわち1有効ビット+5つのプリデコードビットを表わす。
【0227】
IAD(63:0)−Ph1、ダイナミック。IADバス895は、主なマイクロプロセッサ800のブロックのための一般的な相互接続バスである。これは、このようなブロック間と、外部メモリへの、およびそこからのアドレス、データ、および制御転送のために用いられ、図10および11に示されるとおりである。
【0228】
XRDnAB(40:0)−Ph1、ダイナミック。この符号は、機能ユニットに与えられる各ROPのためのソースオペランドAバスを表わし、オペランドバス875内に含まれる。より具体的には、これはROP0ないしROP3のための全部で4つの41ビットバスを含む。オペランドバスに含まれる対応するタグバスは、リオーダバッファ885からの実際のオペランドデータの代わりに、リオーダバッファ885からの転送されたタグが存在することを示す。
【0229】
XRDnBB(40:0)−Ph1、ダイナミック。この符号は、機能ユニットに送られる各ROPのためのソースオペランドBバスを示す。このバス構造は、ROP0ないしROP3のための4つの41ビットバスを含み、8つの読出オペランドバス875内に含まれる。対応するタグバスは、リオーダバッファ885からの実際のオペランドデータの代わりに、転送されたオペランドタグがこのバスに存在することを示すことがやはり認められる。
【0230】
XRESnB(40:0)−Ph1、ダイナミック。この符号は、8、16、32ビット整数、または80ビット拡張結果の1/2のための結果バス880を示す。対応するタグおよび状態バス882は、この結果バスでエントリを確立することがわかる。
【0231】
マイクロプロセッサ800は、フェッチ、デコード1、デコード2、実行、結果/ROBおよび用尽/レジスタファイルの段階を含む6段階パイプラインを含む。明瞭にするために、デコードステージは図16においてデコード1およびデコード2に分割されている。図16は、逐次的な実行が行なわれているときのマイクロプロセッサパイプラインを示す。連続するパイプライン段階は、図16の縦方向の列で表わされる。マイクロプロセッサ800において選択された信号は、パイプラインの種々の段階で現われることを横方向の列で表わす。
【0232】
図16の逐次実行パイプライン図は、以下の選択された信号を表わす。
「Ph1」は、システムクロック信号の前縁を表わす。システムクロック信号は、Ph1およびPh2成分の両方を含む。
【0233】
「FPC(31:0)」は、バイトキュー815からのフェッチPCバスを表わす。
【0234】
「ICBYTEnB(12:0)」は、バイトキュー815に結合される命令キャッシュ810のICSTOREアレイからのICBYTEバスである。
【0235】
「BYTEQn(7:0)」は、バイトキューバスである。
「ROPmux(3:0)」は、命令ブロックおよびプリデコード情報がデコーダに与えられていることを示すデコーダ信号である。
【0236】
「Source A/B pointers 」は、デコーダ805によってリオーダバッファ815に与えられるAおよびBオペランドのための読出/書込ポインタである。図10および11には明確に図示されないが、ソースポインタは、デコードブロックからレジスタファイルおよびリオーダバッファの両方への入力であるレジスタファイル値である。
【0237】
「REGF/ROB access 」は、機能ユニットへの伝送のためにオペランド値を得るためのレジスタファイルおよびリオーダバッファへのアクセスを示す。
【0238】
「Issue ROPs/dest tags」は、デコーダ805による機能ユニットへのROPおよび行先タグの投入を示す。
【0239】
「A/B read oper buses 」は、機能ユニットによる、そのためのAおよびBオペランドまたはタグを得るためのAおよびBオペランドバスの読出を示す。
【0240】
「Funct unit exec 」は、機能ユニットによる実行を示す。図16および図17において、符号a&b→cおよびc&d→eおよびc&g→は、任意の演算を表わし、「ソース1オペランド、ソース2オペランド→行先」の形である。より具体的には、示されるソースレジスタは、レジスタ、すなわち一時またはマッピングX86レジスタである。a&b→cの例では、「c」の値は行先を表わし、結果バスおよびリオーダバッファから、予測実行ストリームの次の参照への局所的な転送を示す。
【0241】
「Result Bus arb」は、結果をリオーダバッファ、およびこの結果に対応するオペランドタグを保持しているためにその結果を必要とするかもしれない他の何らかの機能ユニットに伝送するために、結果バス880へのアクセスを調停している時間を示す。
【0242】
「Result Bus forward」は、結果がある機能ユニットからこの結果を未処理のオペランドとして必要としている他の機能ユニットに転送している時間を示す。
【0243】
「ROB write result」は、機能ユニットからの結果がリオーダバッファに書込まれている時間を示す。
【0244】
「ROB tag forward 」は、リオーダバッファが機能ユニットに、現在まだ結果が出ていないオペランドの代わりにオペランドタグを転送している時間を示す。
【0245】
「REGF write/retire 」は、結果がリオーダバッファのFIFOキューからレジスタファイルに格納されている時間を示す。
【0246】
「EIP(31:0)」はリタイアPC値を示す。割込リターンは遅延分岐を持たないので、マイクロプロセッサは、わずか1つのPCで割込リターンの際に再始動できる。リタイアPC値またはEIPは、リオーダバッファ885のリタイア論理925内に含まれる。EIPは、マイクロプロセッサ500に関して既に説明したリタイアPCと類似している。リタイア論理925は、マイクロプロセッサ500のリタイア論理242に類似した機能を果たす。
【0247】
図16のタイミング図は、X86バイトの逐次的ストリームを実行しているマイクロプロセッサ800を示す。この例では、予測実行経路が実際に行なわれ、また命令キャッシュから直接利用可能である。
【0248】
命令処理の第1の段階は、命令フェッチである。図示のとおり、このクロックサイクルは命令キャッシュの動作を行なうのに費やされる。命令キャッシュ810は、クロックサイクルのPh1の間に新しいフェッチPC(FPC)を形成し、第2のクロックサイクルにおいて命令キャッシュのキャッシュアレイにアクセスする。フェッチPCプログラムカウンタ(タイミング図ではFPC(31:0)として示される)は、ストアアレイと並列して線形命令キャッシュのタグアレイにアクセスする。フェッチのクロック相Ph2の遅い時点で、線形タグがフェッチPC線形アドレスに一致するかどうかの決定がなされる。一致が起これば、予測実行されるバイトはバイトキュー815に転送される。
【0249】
命令キャッシュ内のタグおよびストアアレイにアクセスするのに加えて、フェッチPCはまたブロック予測アレイICNXTBLKにアクセスする。このブロック予測アレイは、どのX86バイトが予測実行されるかを識別し、次の予測実行されるブロックが逐次的であるか非逐次的であるかを識別する。Ph2でアクセスされるこの情報は、現在フェッチされているブロックのどのバイトがバイトキュー815に有効バイトとして送られるかを決定する。
【0250】
バイトキュー815は、前にフェッチされているが機能ユニットにまだ投入されておらずそこにストアされたX86バイトを現在有しているかもしれない。この場合には、バイト充満位置が命令キャッシュ810に示されて、第1の予測バイトをこの量だけシフトして、より古いX86バイトの後を充満する。
【0251】
フェッチのクロック相Ph2で分岐予測情報が起こるので、プリフェッチユニット830によってプリフェッチされるべき次のブロックは逐次的であっても非逐次的であってもよい、というのはどちらの場合にも、キャッシュアレイに再びアクセスするのに1クロックサイクルあるからである。したがって、分岐予測アレイによって、ブロック外の分岐が、次の逐次的ブロックにアクセスするのと同じ相対的性能を有することができ、性能の向上を与える。
【0252】
デコード1/デコード2パイプライン段階を次に説明する。デコード1の初めに、プリフェッチされ、予測実行されたバイトが、指定された充満位置でバイトキュー815に送られる。これは図16のタイミング図にICBYTEnB(12:0)として示され、デコード1のPh1でアサートする。これらのバイトは、バイトキュー内の何らかの未処理のバイトと併合される。バイトキューはプリデコード状態の5つのビットと、未処理のX86バイトとを含み、命令の境界がどこにあるかを示す。バイトキューの先頭は、次に予測実行されたX86命令の初めにある。デコード1のクロック相Ph1の中程で、命令キャッシュからの次のバイトのストリームが、バイトキュー815内の既存のバイトと併合され、併合されたストリームがスキャンのためにデコーダ805に与えられる。デコーダ805は、各命令がとるROPの数、および対応するROP投入位置D0、D1、D2、およびD3とopコードの整列を可能にするようにopコードの位置を決定し、ここでD0にあるROPが投入すべき次のROPである。デコーダ805は、バイトキュー815内の各X86命令のプログラムカウンタPCのコピーを、命令の境界間のバイト数をカウントするか、または命令キャッシュ内の分岐を検出して、その位置からフェッチされた第1のX86バイトにターゲットPC値を付けることによって維持する。
【0253】
opコードおよびROP位置付け情報、ならびにバイトキュー815にストアされた即値フィールドを用いることで、デコーダ805はデコード1のクロック相Ph2およびデコード2のクロック相Ph1の間に以下の情報をスタティックに決定する。すなわち、1)機能ユニット行先、2)ソースA/Bおよび行先オペランドポインタ値、3)ソースおよび行先動作のサイズ、および4)もしあれば、即値アドレスおよびデータ値である。デコード2のクロック相Ph1の終わりに、すべてのレジスタ読出および書込ポインタが解決され、動作が決定される。これは図16のタイミング図でソースA/Bポインタ値のアサートによって示される。
【0254】
図16のタイミング図に示されるデコード2パイプライン段階において、リオーダバッファエントリは、次のクロック相で投入され得る対応するROPに割当てられる。したがって、4つまでの付加的なROPが、デコード2のPh1クロック相の間に16エントリリオーダバッファ885内のエントリを割当てられる。デコード2のPh2クロック相の間、割当てられたすべてのROPに関するソース読出ポインタが、リオーダバッファに含まれる推論ROPのキューにアクセスしながら、同時にレジスタファイルから読出される。レジスタファイルおよびリオーダバッファアレイの両方のこの同時アクセスによって、マイクロプロセッサ800は、実際のレジスタファイル値を用いるか、またはリオーダバッファからオペランドもしくはオペランドタグを転送するかを後で選択することができる。Ph1においてリオーダバッファ内の4つのROPエントリをまず割当て、次にPh2でリオーダバッファをスキャンすることによって、まだ推論状態にあるすべての前のROPと発行されている現在のROPについて読出の従属性をマイクロプロセッサ800は同時に探すことができる。これは、図16のタイミング図に、REGF/ROBアクセスおよびタグのチェックによって示される。
【0255】
実行パイプライン段階において、ROPは、専用opコードバスおよび読出オペランドバスによって機能ユニットに投入される。専用opコードバスは、ROPのopコードを機能ユニットに送り、一方、読出オペランドバスはオペランドまたはオペランドタグをこのような機能ユニットに伝送する。オペランドバスがオペランドを機能ユニットに送っている間の時間は、図16のタイミング図では符号「A/B read operand buses」によって示される。
【0256】
実行パイプライン段階のPh1クロック相の後半で、機能ユニットはこのような機能ユニットにどのROPが投入されたか、およびこのような機能ユニット内の局所待合わせステーションから何らかの未処理のROPの投入準備ができているかを判断する。待合わせステーション内に含まれる最も古い命令が最初に実行されることが確実になるように、機能ユニットの待合わせステーションでFIFOが維持されることに注目されたい。
【0257】
命令が機能ユニット内で実行準備ができている場合には、実行パイプライン段階のPh1の遅くにこのような実行を始め、この段階のPh2にわたってスタティックに続く。Ph2の終わりに、機能ユニットは、図16の結果バスROB信号によって示されるように5つの結果バスのうちの1つに対して調停する。言い換えれば、結果バス調停信号がこの時間の間にアサートされる。機能ユニットが結果バスへのアクセスを許可されると、これは後続のPh1で割当てられた結果バスを駆動する。
【0258】
図16のタイミング図で示される結果パイプライン段階は、結果をある機能ユニットからこのような結果を必要としている別のものへと転送することを示す。結果パイプライン段階のクロック相Ph1において、推論ROPの位置は、行先結果および何らかの状態を伴ってリオーダバッファに書込まれる。リオーダバッファ内のこのエントリは、割当てられたとともに有効であるという指示を与えられる。一旦割当てられたエントリがこのように確立されると、リオーダバッファは、リクエストされた読出アクセスの受取の際に、オペランドタグではなくオペランドデータを直接転送することができる。結果パイプライン段階のクロック相Ph2において、新しく割当てられたタグが、そのソースオペランドの1つとしてこれを要求する後続のROPによって検出され得る。これは、図16のタイミング図において、「ROB tag forward 」を介してソースA/Bオペランドバスへの結果Cの直接転送として示される。
【0259】
用尽パイプライン段階は、図16のタイミング図のパイプラインの最終段階である。この段階は、EIPレジスタの形での真のプログラムカウンタ(リタイアPC)が維持され、バス指示EIP(31:0)によって示されるように更新される段階である。図16に示されるように、EIP(31:0)のタイミング図は、リオーダバッファからレジスタファイルへの命令の格納の際に、新しいPC(またはリタイアPC)が発生されるところを示す。リオーダバッファからレジスタファイルへの結果の格納の実際の動作は、図16の「REGF write/retier 」と符号を付される信号によって示される。図16において、用尽パイプライン段階のクロック相Ph1において、動作の結果はレジスタファイルに書込まれ、EIPレジスタはこの命令がもう実行されたことを反映するように更新される。リオーダバッファ内の対応するエントリは、値がリオーダバッファからレジスタファイルへと書込まれるのと同じクロック相Ph1において割当から外される。リオーダバッファ内のこのエントリが割当から外されたので、レジスタCへの後続の参照は、リオーダバッファからの推論読出ではなく、レジスタファイルからの読出となる。この態様で、マイクロプロセッサのアーキテクチャ状態が真に反映される。
【0260】
図17は、分岐誤予測の際のプロセッサ800のタイミング図である。図17のタイミング図は、以下を除いては図16のタイミング図と同じ信号タイプを示す。
【0261】
BRN_MISP信号は、分岐誤予測が起こったときを示す。
XTARGET(31:0)信号は、予測されたターゲット分岐命令が分岐ユニット835に送られるときを示す。
【0262】
図17のタイミング図は、分岐誤予測および回復の間のマイクロプロセッサ800のパイプラインの段階を示す。このタイミング図は、第1のサイクルが分岐の実行サイクルであり、かつ後続のサイクルが予測の訂正および新しい命令ストリームのフェッチに関わると仮定する。この特定の実施例において、誤予測された分岐命令の実行の完了から正しい経路の実行の開始まで3サイクルの遅延が存在することが認められる。
【0263】
図17に示されるパイプラインのフェッチ段階は、XTARGET(31:0)バスが、命令キャッシュ810に予測されたターゲットに関しての情報を与えるために、分岐機能ユニット835から命令キャッシュ810に駆動されることを除いては、図16の通常のフェッチ段階に類似している。分岐機能ユニットは、分岐誤予測が実際に起こったことを判断する、マイクロプロセッサ800のブロックであることが認められる。分岐機能ユニットはまた、正しいターゲットを計算する。このターゲットは、結果バス880を介して誤予測状態指示とともに結果がリオーダバッファに戻されるのと同じときに送られる。結果バスはまた、真の分岐が起こった場合に分岐命令を用済とする際にEIPレジスタを更新するための正しいPC値を含む。XTARGETバスは、フェッチされたPCバスに駆動され、命令キャッシュアレイがアクセスされる。ヒットが起これば、バイトは前と同様にバイトキューに送られる。
【0264】
誤予測が起これば、バイトキュー815内のすべてのバイトは、信号BRN_MISPのアサートで、フェッチの第1の相において自動的にクリアされる。訂正された経路がフェッチされ、デコードされるまでは、さらなるROPはデコーダ805から発行されない。
【0265】
誤予測の結果状態がリオーダバッファにフェッチパイプライン段階のクロック相Ph1において戻されるとき、誤予測状態指示が誤予測の後のすべての推論ROPに送られ、そのためこれらはレジスタファイルまたはメモリに書込を許されない。これらの命令が次に用済とされるべきとき、リオーダバッファ内のこれらのエントリは割当から外されて、さらなるROPが投入されることを可能にする。
【0266】
分岐誤予測の間のデコード1パイプライン段階に関して、訂正された経路をデコードするための経路の残りは、命令キャッシュ810のICNXTBLKアレイにおける予測情報の更新を除いて、逐次的なフェッチの場合と同じである。分岐の正しい方向が、予測アレイICNXTBLKの分岐が誤予測されたその中のキャッシュブロックに書込まれる。
【0267】
誤予測の間のパイプライン段階デコード2、実行、結果、用済は、図16で議論したものと実質的に同じである。
【0268】
VI.結論−スーパースカラ高性能特徴
マイクロプロセッサによって実行されるコードから実質的な並列性を引出すことで、本発明のマイクロプロセッサにおいて高性能が達成される。命令タグ付与、待合わせステーション、転送を伴う結果バスによって、オペランドハザードが無関係の命令の実行を妨げることを防ぐ。マイクロプロセッサのリオーダバッファ(ROB)は多数の利点を達成する。ROBは一種のレジスタ再指定を用いて、行先としての同じレジスタの異なる使用を区別し、そうでなければこれは並列性を損なってしまう恐れがある。リオーダバッファにストアされたデータはマイクロプロセッサの予測実行状態を表わし、一方レジスタファイルにストアされたデータはマイクロプロセッサの現在の実行状態を表わす。さらに、リオーダバッファは割込の際のプログラムの逐次的状態を守る。さらに、リオーダバッファは、未解決の条件付分岐を越える実行を許可することによりさらなる並列性を可能にする。並列性はさらに、高いバンド幅の命令フェッチを与えるオンボードの命令キャッシュ(ICACHE)によって、分岐の影響を最小にする分岐予測によって、そしてロードおよびストア動作に関する待ち時間を最小にするオンボードのデータキャッシュ(DCACHE)によってさらに促進される。
【0269】
本発明のスーパースカラプロセッサは、いくつかの構成要素を共有することによってダイの空間を効率的に利用して、性能を向上する。より具体的には、マイクロプロセッサの整数ユニットおよび浮動小数点ユニットは、共通の、共有データ処理バス上にある。これらの機能ユニットは、同じデータ処理バスにやはり結合される複数の待合わせステーションを含む。整数および浮動小数点機能ユニットは、データ処理バス上の共通の分岐ユニットを共有する。さらに、整数および浮動小数点機能ユニットは、共通デコーダおよび共通ロード/ストアユニット530を共有する。内部アドレスデータ(IAD)バスは、本発明のマイクロプロセッサのいくつかの構成要素間での局所的通信を与える。
【0270】
本発明のある好ましい特徴のみを、例示するために示したが、多くの変更および変形が起こるであろう。したがって、前掲の特許請求の範囲は本発明の真の精神に包含されるすべての変更および変形を含むと意図されることを理解されたい。
【図面の簡単な説明】
【図1】従来のスーパースカラマイクロプロセッサを示すブロック図である。
【図2】本発明の高性能スーパースカラマイクロプロセッサの一実施例の簡略化されたブロック図である。
【図3】本発明の高性能スーパースカラマイクロプロセッサの別の実施例の一部のより詳細なブロック図である。
【図4】本発明の高性能スーパースカラマイクロプロセッサの別の実施例の一部のより詳細なブロック図である。
【図5】本発明の高性能スーパースカラマイクロプロセッサの別の実施例の一部のより詳細なブロック図である。
【図6】結果バスに対して調停している際に機能ユニットが受ける優先順位を表わす図である。
【図7】本発明のマイクロプロセッサにおける内部アドレスデータバス調停構成のブロック図である。
【図8】図3ないし図5のマイクロプロセッサの、逐次処理の間のそのパイプラインの複数の段階を通してのタイミング図である。
【図9】図8のタイミング図と類似しているが、分岐誤予測および回復が起こる際のタイミング図である。
【図10】本発明のスーパースカラマイクロプロセッサの別の実施例のブロック図の一部である。
【図11】本発明のスーパースカラマイクロプロセッサの別の実施例のブロック図の一部である。
【図12】図10および図11のマイクロプロセッサのレジスタファイル、リオーダバッファおよび整数コアのブロック図である。
【図13】図12のリオーダバッファのより詳細なブロック図である。
【図14】図10および図11のマイクロプロセッサが用いる一般化された機能ユニットのブロック図である。
【図15】図10および図11のマイクロプロセッサが用いる分岐機能ユニットのブロック図である。
【図16】逐次実行の間の図10および図11のマイクロプロセッサの動作のタイミング図である。
【図17】分岐誤予測および回復の間の図10および図11のマイクロプロセッサの動作のタイミング図である。
【符号の説明】
200 マイクロプロセッサ
205 命令キャッシュ
210 命令デコーダ
215 整数コア
225 浮動小数点コア
235 レジスタファイル
240 リオーダバッファ

Claims (35)

  1. スーパースカラマイクロプロセッサであって、
    同じマイクロプロセッササイクル中に複数の命令をデコードするための複数命令デコーダを含み、前記デコーダは同じマイクロプロセッササイクル内に整数および浮動小数点命令の両方をデコードし、さらに
    前記デコーダに結合されるデータ処理バスと、
    前記データ処理バスに結合され、分岐予測時命令を推論実行する整数機能ユニットと、
    前記データ処理バスに結合され、分岐予測時命令を推論実行する浮動小数点機能ユニットと、
    前記データ処理バスに結合され、前記整数機能ユニットおよび前記浮動小数点機能ユニットにより共有され、分岐命令の分岐方向を推論する分岐予測ユニットと、
    前記データ処理バスに結合されて、前記整数機能ユニットおよび前記浮動小数点機能ユニットの両方によって用いられ、前記整数機能ユニットおよび前記浮動小数点機能ユニットの推論実行を可能とし、前記分岐予測推論実行時正しい分岐予測経路に存在するために非推論実行結果となった推論結果を用済みとして退出させかつ誤分岐予測経路の推論結果は非退出とする共通リオーダバッファと、
    前記リオーダバッファに結合されて、前記リオーダバッファから用済とされて退出された非推論実行結果を受入れて格納する共通レジスタファイルとを含む、スーパースカラマイクロプロセッサ。
  2. 前記整数機能ユニットが少なくとも1つの待合わせステーションを含む、請求項1に記載のマイクロプロセッサ。
  3. 前記整数機能ユニットが2つの待合わせステーションを含む、請求項1に記載のマイクロプロセッサ。
  4. 前記浮動小数点機能ユニットが少なくとも1つの待合わせステーションを含む、請求項1に記載のマイクロプロセッサ。
  5. 前記浮動小数点機能ユニットが2つの待合わせステーションを含む、請求項1に記載のマイクロプロセッサ。
  6. 前記データ処理バスは、
    複数のopコードバスと、
    複数のオペランドバスと、
    複数の命令タイプバスと、
    複数の結果バスと、
    複数の結果タグバスとを含む、請求項1に記載のマイクロプロセッサ。
  7. 前記オペランドバスがオペランドタグバスを含む、請求項6に記載のマイクロプロセッサ。
  8. 前記データ処理バスが予め定められたデータ幅を示し、前記リオーダバッファが、前記データ処理バス幅に等しい幅を示すエントリと、前記データ処理バスのデータ幅の倍数に等しい幅を示すエントリとをストアするメモリ手段を含む、請求項1に記載のマイクロプロセッサ。
  9. 前記デコーダが、プログラム順に整数および浮動小数点命令の両方を発行するための発行手段をさらに含む、請求項1に記載のマイクロプロセッサ。
  10. 前記浮動小数点機能ユニットが、複数のサイズを示すオペランドを処理する、請求項1に記載のマイクロプロセッサ。
  11. 前記浮動小数点機能ユニットが、単精度/倍精度浮動小数点機能ユニットを含む、請求項1に記載のマイクロプロセッサ。
  12. 前記複数命令デコーダが、1マイクロプロセッササイクルにつき4つの命令をデコードすることができる、請求項1に記載のマイクロプロセッサ。
  13. 前記マイクロプロセッサを、命令およびデータがストアされる外部メモリにインタフェースさせるためのバスインタフェースユニットと、
    前記バスインタフェースユニットに結合される内部アドレスデータ通信バスと、
    前記データ処理バスに結合されて、そこからロードおよびストア命令を受取るためのロード/ストア機能ユニットとを含み、前記ロード/ストア機能ユニットは、前記内部アドレスデータ通信バスに結合されて、前記外部メモリに前記ロード/ストア機能ユニットアクセスを与え、さらに
    前記内部アドレスデータ通信バスおよび前記デコーダに結合されて、前記デコーダに命令源を与える命令キャッシュと、
    前記内部アドレスデータ通信バスおよび前記ロード/ストア機能ユニットに結合されるデータキャッシュとをさらに含み、
    前記内部アドレスデータ通信バスは、アドレスおよびデータ情報を前記外部メモリ、前記命令キャッシュおよび前記データキャッシュ間で通信する、請求項1に記載のマイクロプロセッサ。
  14. 命令およびデータを前記マイクロプロセッサに与えるための外部メモリと組合わされる、請求項1に記載のマイクロプロセッサ。
  15. 前記複数のオペランドバスが、オペランドおよびオペランドタグの両方がそれに伝達されるバスである、請求項6に記載のマイクロプロセッサ。
  16. スーパースカラマイクロプロセッサであって、
    同じマイクロプロセッササイクル内に複数の命令をデコードするための複数命令デコーダを含み、前記デコーダは、同じマイクロプロセッササイクル内に整数および浮動小数点命令の両方をデコードし、さらに
    前記デコーダに結合されるデータ処理バスと、
    前記データ処理バスに結合される整数機能ユニットとを含み、前記整数機能ユニットは、前記マイクロプロセッサによる分岐予測時の推論実行を含む順序通りでない命令の実行を可能にするための複数の待合わせステーションを含み、さらに
    前記データ処理バスに結合される浮動小数点機能ユニットを含み、前記浮動小数点機能ユニットは、前記マイクロプロセッサによる分岐予測時の推論実行を含む順序通りでない命令の実行を可能にするための複数の待合わせステーションを含み、さらに
    前記データ処理バスに結合されて、前記整数機能ユニットおよび浮動小数点機能ユニットの両方によって、コンピュータプログラム内のどの分岐が発生されるかを推論的に予測するために用いられる分岐予測ユニットと、
    前記データ処理バスに結合されて、前記整数機能ユニットおよび前記浮動小数点機能ユニットの両方によって、そこから命令結果を受取って命令を推論的および順序通りではな
    く処理することを可能にするために用いられ、分岐予測推論実行時正しい分岐経路に存在するために非推論実行結果となった推論結果を用済みとして退出させ、かつ誤分岐予測経路の推論実行結果は非退出すとする共通リオーダバッファと、
    前記リオーダバッファに結合され、かつ前記整数機能ユニットおよび前記浮動小数点機能ユニットにより非推論実行を行うために用いられ、前記リオーダバッファから用済とされて退出された推論実行結果を受入れて格納するためのレジスタファイルと、
    前記データ処理バスに結合されて、前記整数機能ユニットおよび前記浮動小数点機能ユニットの両方によって、情報のロードおよびストアを可能にするために用いられるロード/ストア機能ユニットとを含む、スーパースカラマイクロプロセッサ。
  17. 前記データ処理バスは、
    複数のopコードバスと、
    複数のオペランドバスと、
    複数の命令タイプバスと、
    複数の結果バスと、
    複数の結果タグバスとを含む、請求項1に記載のマイクロプロセッサ。
  18. 前記オペランドバスがオペランドタグバスを含む、請求項1に記載のマイクロプロセッサ。
  19. 前記データ処理バスが予め定められたデータ幅を示し、前記リオーダバッファが、前記データ処理バス幅に等しい幅を示すエントリと、前記データ処理バスのデータ幅の倍数に等しい幅を示すエントリとをストアするためのメモリ手段を含む、請求項1に記載のマイクロプロセッサ。
  20. 前記デコーダが、プログラム順に整数および浮動小数点命令の両方を発行するための発行手段をさらに含む、請求項1に記載のマイクロプロセッサ。
  21. 前記浮動小数点機能ユニットが、複数のサイズを示すオペランドを処理する、請求項1に記載のマイクロプロセッサ。
  22. 前記浮動小数点機能ユニットが、単精度/倍精度浮動小数点機能ユニットを含む、請求項1に記載のマイクロプロセッサ。
  23. 前記複数命令デコーダが、1マイクロプロセッササイクルにつき4つの命令をデコードすることができる、請求項1に記載のマイクロプロセッサ。
  24. 前記マイクロプロセッサを、命令およびデータがストアされる外部メモリにインタフェースさせるためのバスインタフェースユニットと、
    前記バスインタフェースユニットに結合される内部アドレスデータ通信バスと、
    前記内部アドレスデータ通信バスおよび前記デコーダに結合されて、前記デコーダに命令源を供給する命令キャッシュと、
    前記内部アドレスデータ通信バスおよび前記ロード/ストア機能ユニットに結合されるデータキャッシュとをさらに含み、
    前記内部アドレスデータ通信バスは、前記外部メモリ、前記命令キャッシュおよび前記データキャッシュ間でアドレスおよびデータ情報を通信する、請求項1に記載のマイクロプロセッサ。
  25. 前記マイクロプロセッサに命令およびデータを与えるための外部メモリと組合わされる、請求項1に記載のマイクロプロセッサ。
  26. 前記複数のオペランドバスは、オペランドおよびオペランドタグの両方がそれに伝達されるバスである、請求項1に記載のマイクロプロセッサ。
  27. スーパースカラマイクロプロセッサであって、
    同じマイクロプロセッササイクル中で複数の命令をデコードするための複数命令デコーダと、
    整数命令を実行するように構成された整数機能ユニットと、
    浮動小数点命令を実行するように構成された浮動小数点機能ユニットと、
    前記命令デコーダに結合された共通リオーダバッファとを含み、前記リオーダバッファは、前記整数命令の推論実行を制御しかつ前記浮動小数点命令の推論実行を制御するよう
    に構成され分岐予測の推論実行時において正しい予測経路の推論結果を用済みとして退出させかつ誤分岐予測経路の推論結果を非退出としさらに前記リオーダバッファは、前記整数および浮動小数点命令の用尽を制御するように構成され、さらに
    前記リオーダバッファから用済とされて退出され推論実行結果を受入れて格納するための、前記リオーダバッファに結合された共通レジスタファイルを含む、スーパースカラマイクロプロセッサ。
  28. 前記整数および浮動小数点命令をストアするための、前記デコーダに結合された命令キャッシュをさらに含む、請求項2に記載のスーパースカラマイクロプロセッサ。
  29. 前記整数および浮動小数点命令は可変バイト長命令である、請求項2に記載のスーパースカラマイクロプロセッサ。
  30. 前記デコーダは、前記可変バイト長命令を固定長命令に変換するように構成される、請求項29に記載のスーパースカラマイクロプロセッサ。
  31. 前記デコーダは、所与の可変バイト長命令を複数の固定長命令に変換するように構成される、請求項3に記載のスーパースカラマイクロプロセッサ。
  32. 前記整数機能ユニットは、前記複数の固定長命令を並列に実行するように構成された複数の実行ユニットを含む、請求項3に記載のスーパースカラマイクロプロセッサ。
  33. 前記リオーダバッファは複数のストア場所を含み、その各々は、情報をストアして前記複数の固定長命令の対応するものの推論実行を制御するように構成される、請求項3に記載のスーパースカラマイクロプロセッサ。
  34. 前記リオーダバッファは、前記整数および浮動小数点命令の推論結果をストアするようにさらに構成される、請求項2に記載のスーパースカラマイクロプロセッサ。
  35. 前記整数機能ユニットは少なくとも1つの待合わせステーションを含む、請求項2に記載のスーパースカラマイクロプロセッサ。
JP26331794A 1993-10-29 1994-10-27 スーパースカラマイクロプロセッサ Expired - Fee Related JP3670039B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14638293A 1993-10-29 1993-10-29
US146382 1993-10-29

Publications (2)

Publication Number Publication Date
JPH07182160A JPH07182160A (ja) 1995-07-21
JP3670039B2 true JP3670039B2 (ja) 2005-07-13

Family

ID=22517120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26331794A Expired - Fee Related JP3670039B2 (ja) 1993-10-29 1994-10-27 スーパースカラマイクロプロセッサ

Country Status (4)

Country Link
US (7) US5651125A (ja)
EP (1) EP0651321B1 (ja)
JP (1) JP3670039B2 (ja)
DE (1) DE69429061T2 (ja)

Families Citing this family (336)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370623B1 (en) * 1988-12-28 2002-04-09 Philips Electronics North America Corporation Multiport register file to accommodate data of differing lengths
CA2016068C (en) * 1989-05-24 2000-04-04 Robert W. Horst Multiple instruction issue computer architecture
US5493687A (en) 1991-07-08 1996-02-20 Seiko Epson Corporation RISC microprocessor architecture implementing multiple typed register sets
US5961629A (en) * 1991-07-08 1999-10-05 Seiko Epson Corporation High performance, superscalar-based computer system with out-of-order instruction execution
US5539911A (en) 1991-07-08 1996-07-23 Seiko Epson Corporation High-performance, superscalar-based computer system with out-of-order instruction execution
US5398330A (en) * 1992-03-05 1995-03-14 Seiko Epson Corporation Register file backup queue
US5438668A (en) * 1992-03-31 1995-08-01 Seiko Epson Corporation System and method for extraction, alignment and decoding of CISC instructions into a nano-instruction bucket for execution by a RISC computer
EP0636256B1 (en) 1992-03-31 1997-06-04 Seiko Epson Corporation Superscalar risc processor instruction scheduling
DE69308548T2 (de) 1992-05-01 1997-06-12 Seiko Epson Corp Vorrichtung und verfahren zum befehlsabschluss in einem superskalaren prozessor.
US6735685B1 (en) 1992-09-29 2004-05-11 Seiko Epson Corporation System and method for handling load and/or store operations in a superscalar microprocessor
WO1994008287A1 (en) 1992-09-29 1994-04-14 Seiko Epson Corporation System and method for handling load and/or store operations in a superscalar microprocessor
EP1107111A3 (en) 1992-12-31 2002-02-06 Seiko Epson Corporation System and method for register renaming
US5628021A (en) 1992-12-31 1997-05-06 Seiko Epson Corporation System and method for assigning tags to control instruction processing in a superscalar processor
US5630082A (en) * 1993-10-29 1997-05-13 Advanced Micro Devices, Inc. Apparatus and method for instruction queue scanning
DE69427265T2 (de) 1993-10-29 2002-05-02 Advanced Micro Devices, Inc. Superskalarbefehlsdekoder
SG47981A1 (en) * 1994-03-01 1998-04-17 Intel Corp Pipeline process of instructions in a computer system
TW353732B (en) * 1994-03-31 1999-03-01 Ibm Processing system and method of operation
US5559976A (en) * 1994-03-31 1996-09-24 International Business Machines Corporation System for instruction completion independent of result write-back responsive to both exception free completion of execution and completion of all logically prior instructions
US5559975A (en) * 1994-06-01 1996-09-24 Advanced Micro Devices, Inc. Program counter update mechanism
US5649225A (en) * 1994-06-01 1997-07-15 Advanced Micro Devices, Inc. Resynchronization of a superscalar processor
US5632023A (en) * 1994-06-01 1997-05-20 Advanced Micro Devices, Inc. Superscalar microprocessor including flag operand renaming and forwarding apparatus
US5675758A (en) * 1994-11-15 1997-10-07 Advanced Micro Devices, Inc. Processor having primary integer execution unit and supplemental integer execution unit for performing out-of-order add and move operations
CN1326033C (zh) 1994-12-02 2007-07-11 英特尔公司 可以对复合操作数进行压缩操作的微处理器
JP3442175B2 (ja) * 1995-02-02 2003-09-02 株式会社リコー 中央演算処理装置
US5832297A (en) * 1995-04-12 1998-11-03 Advanced Micro Devices, Inc. Superscalar microprocessor load/store unit employing a unified buffer and separate pointers for load and store operations
US5692170A (en) * 1995-04-28 1997-11-25 Metaflow Technologies, Inc. Apparatus for detecting and executing traps in a superscalar processor
US5867726A (en) * 1995-05-02 1999-02-02 Hitachi, Ltd. Microcomputer
US5968169A (en) * 1995-06-07 1999-10-19 Advanced Micro Devices, Inc. Superscalar microprocessor stack structure for judging validity of predicted subroutine return addresses
US6112019A (en) * 1995-06-12 2000-08-29 Georgia Tech Research Corp. Distributed instruction queue
US7301541B2 (en) 1995-08-16 2007-11-27 Microunity Systems Engineering, Inc. Programmable processor and method with wide operations
US5742840A (en) * 1995-08-16 1998-04-21 Microunity Systems Engineering, Inc. General purpose, multiple precision parallel operation, programmable media processor
US6643765B1 (en) 1995-08-16 2003-11-04 Microunity Systems Engineering, Inc. Programmable processor with group floating point operations
US5987561A (en) * 1995-08-31 1999-11-16 Advanced Micro Devices, Inc. Superscalar microprocessor employing a data cache capable of performing store accesses in a single clock cycle
US5845323A (en) * 1995-08-31 1998-12-01 Advanced Micro Devices, Inc. Way prediction structure for predicting the way of a cache in which an access hits, thereby speeding cache access time
US5850563A (en) * 1995-09-11 1998-12-15 International Business Machines Corporation Processor and method for out-of-order completion of floating-point operations during load/store multiple operations
US5694565A (en) * 1995-09-11 1997-12-02 International Business Machines Corporation Method and device for early deallocation of resources during load/store multiple operations to allow simultaneous dispatch/execution of subsequent instructions
US5761105A (en) * 1995-09-26 1998-06-02 Advanced Micro Devices, Inc. Reservation station including addressable constant store for a floating point processing unit
US5878266A (en) * 1995-09-26 1999-03-02 Advanced Micro Devices, Inc. Reservation station for a floating point processing unit
US5748516A (en) * 1995-09-26 1998-05-05 Advanced Micro Devices, Inc. Floating point processing unit with forced arithmetic results
US5872947A (en) * 1995-10-24 1999-02-16 Advanced Micro Devices, Inc. Instruction classification circuit configured to classify instructions into a plurality of instruction types prior to decoding said instructions
US5881278A (en) * 1995-10-30 1999-03-09 Advanced Micro Devices, Inc. Return address prediction system which adjusts the contents of return stack storage to enable continued prediction after a mispredicted branch
US5864707A (en) 1995-12-11 1999-01-26 Advanced Micro Devices, Inc. Superscalar microprocessor configured to predict return addresses from a return stack storage
US5701508A (en) 1995-12-19 1997-12-23 Intel Corporation Executing different instructions that cause different data type operations to be performed on single logical register file
US5911057A (en) * 1995-12-19 1999-06-08 Texas Instruments Incorporated Superscalar microprocessor having combined register and memory renaming circuits, systems, and methods
US5940859A (en) 1995-12-19 1999-08-17 Intel Corporation Emptying packed data state during execution of packed data instructions
US5852726A (en) * 1995-12-19 1998-12-22 Intel Corporation Method and apparatus for executing two types of instructions that specify registers of a shared logical register file in a stack and a non-stack referenced manner
US6792523B1 (en) * 1995-12-19 2004-09-14 Intel Corporation Processor with instructions that operate on different data types stored in the same single logical register file
US5857096A (en) * 1995-12-19 1999-01-05 Intel Corporation Microarchitecture for implementing an instruction to clear the tags of a stack reference register file
US5778246A (en) * 1995-12-27 1998-07-07 Intel Corporation Method and apparatus for efficient propagation of attribute bits in an instruction decode pipeline
US5930490A (en) * 1996-01-02 1999-07-27 Advanced Micro Devices, Inc. Microprocessor configured to switch instruction sets upon detection of a plurality of consecutive instructions
JP3658072B2 (ja) * 1996-02-07 2005-06-08 株式会社ルネサステクノロジ データ処理装置およびデータ処理方法
SE509499C2 (sv) * 1996-05-03 1999-02-01 Ericsson Telefon Ab L M Metod och anordning för hantering av villkorliga hopp vid instruktionsbehandling i en pipeline-arkitektur
US6108769A (en) 1996-05-17 2000-08-22 Advanced Micro Devices, Inc. Dependency table for reducing dependency checking hardware
DE69728081T2 (de) * 1996-05-30 2004-08-19 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Schaltkreis zur Steuerung verzögerter Verzweigungsbefehle
US5784603A (en) * 1996-06-19 1998-07-21 Sun Microsystems, Inc. Fast handling of branch delay slots on mispredicted branches
US5652774A (en) * 1996-07-08 1997-07-29 International Business Machines Corporation Method and apparatus for decreasing the cycle times of a data processing system
US5802556A (en) * 1996-07-16 1998-09-01 International Business Machines Corporation Method and apparatus for correcting misaligned instruction data
US6049863A (en) * 1996-07-24 2000-04-11 Advanced Micro Devices, Inc. Predecoding technique for indicating locations of opcode bytes in variable byte-length instructions within a superscalar microprocessor
US5903740A (en) * 1996-07-24 1999-05-11 Advanced Micro Devices, Inc. Apparatus and method for retiring instructions in excess of the number of accessible write ports
US5867680A (en) * 1996-07-24 1999-02-02 Advanced Micro Devices, Inc. Microprocessor configured to simultaneously dispatch microcode and directly-decoded instructions
US5915110A (en) * 1996-07-26 1999-06-22 Advanced Micro Devices, Inc. Branch misprediction recovery in a reorder buffer having a future file
US5946468A (en) * 1996-07-26 1999-08-31 Advanced Micro Devices, Inc. Reorder buffer having an improved future file for storing speculative instruction execution results
US6058465A (en) * 1996-08-19 2000-05-02 Nguyen; Le Trong Single-instruction-multiple-data processing in a multimedia signal processor
US5882993A (en) 1996-08-19 1999-03-16 Advanced Micro Devices, Inc. Integrated circuit with differing gate oxide thickness and process for making same
JP2933027B2 (ja) * 1996-08-30 1999-08-09 日本電気株式会社 複数命令並列発行/実行管理装置
US5884062A (en) * 1996-08-30 1999-03-16 Texas Instruments Incorporated Microprocessor with pipeline status integrity logic for handling multiple stage writeback exceptions
JP2933026B2 (ja) * 1996-08-30 1999-08-09 日本電気株式会社 複数命令並列発行/実行管理装置
US6055598A (en) * 1996-09-26 2000-04-25 Vlsi Technology, Inc. Arrangement and method for allowing sequence-independent command responses across a computer bus bridge
US5991884A (en) * 1996-09-30 1999-11-23 Intel Corporation Method for reducing peak power in dispatching instructions to multiple execution units
US5754811A (en) * 1996-10-08 1998-05-19 Putrino; Michael Instruction dispatch queue for improved instruction cache to queue timing
WO1998020421A1 (en) * 1996-11-04 1998-05-14 Advanced Micro Devices, Inc. A way prediction structure
US6256745B1 (en) 1998-06-05 2001-07-03 Intel Corporation Processor having execution core sections operating at different clock rates
US6631454B1 (en) 1996-11-13 2003-10-07 Intel Corporation Processor and data cache with data storage unit and tag hit/miss logic operated at a first and second clock frequencies
US6175906B1 (en) 1996-12-06 2001-01-16 Advanced Micro Devices, Inc. Mechanism for fast revalidation of virtual tags
US5887160A (en) * 1996-12-10 1999-03-23 Fujitsu Limited Method and apparatus for communicating integer and floating point data over a shared data path in a single instruction pipeline processor
US5881306A (en) * 1996-12-17 1999-03-09 International Business Machines Corporation Instruction fetch bandwidth analysis
US6088793A (en) * 1996-12-30 2000-07-11 Intel Corporation Method and apparatus for branch execution on a multiple-instruction-set-architecture microprocessor
US5983321A (en) * 1997-03-12 1999-11-09 Advanced Micro Devices, Inc. Cache holding register for receiving instruction packets and for providing the instruction packets to a predecode unit and instruction cache
US6542998B1 (en) 1997-02-08 2003-04-01 Pact Gmbh Method of self-synchronization of configurable elements of a programmable module
US5881307A (en) * 1997-02-24 1999-03-09 Samsung Electronics Co., Ltd. Deferred store data read with simple anti-dependency pipeline inter-lock control in superscalar processor
US5909567A (en) * 1997-02-28 1999-06-01 Advanced Micro Devices, Inc. Apparatus and method for native mode processing in a RISC-based CISC processor
US5828873A (en) * 1997-03-19 1998-10-27 Advanced Micro Devices, Inc. Assembly queue for a floating point unit
US5887185A (en) * 1997-03-19 1999-03-23 Advanced Micro Devices, Inc. Interface for coupling a floating point unit to a reorder buffer
US5887161A (en) * 1997-03-31 1999-03-23 International Business Machines Corporation Issuing instructions in a processor supporting out-of-order execution
US5987235A (en) * 1997-04-04 1999-11-16 Advanced Micro Devices, Inc. Method and apparatus for predecoding variable byte length instructions for fast scanning of instructions
US5974535A (en) * 1997-05-09 1999-10-26 International Business Machines Corporation Method and system in data processing system of permitting concurrent processing of instructions of a particular type
US6122729A (en) * 1997-05-13 2000-09-19 Advanced Micro Devices, Inc. Prefetch buffer which stores a pointer indicating an initial predecode position
US5845101A (en) * 1997-05-13 1998-12-01 Advanced Micro Devices, Inc. Prefetch buffer for storing instructions prior to placing the instructions in an instruction cache
US5923898A (en) * 1997-05-14 1999-07-13 International Business Machines Corporation System for executing I/O request when an I/O request queue entry matches a snoop table entry or executing snoop when not matched
JPH10333908A (ja) * 1997-05-30 1998-12-18 Mitsubishi Electric Corp 分岐予測方法
US6009511A (en) * 1997-06-11 1999-12-28 Advanced Micro Devices, Inc. Apparatus and method for tagging floating point operands and results for rapid detection of special floating point numbers
US5898851A (en) * 1997-06-11 1999-04-27 Advanced Micro Devices, Inc. Method and apparatus for five bit predecoding variable length instructions for scanning of a number of RISC operations
US5940602A (en) * 1997-06-11 1999-08-17 Advanced Micro Devices, Inc. Method and apparatus for predecoding variable byte length instructions for scanning of a number of RISC operations
US5933626A (en) * 1997-06-12 1999-08-03 Advanced Micro Devices, Inc. Apparatus and method for tracing microprocessor instructions
US5930491A (en) * 1997-06-18 1999-07-27 International Business Machines Corporation Identification of related instructions resulting from external to internal translation by use of common ID field for each group
US6044222A (en) * 1997-06-23 2000-03-28 International Business Machines Corporation System, method, and program product for loop instruction scheduling hardware lookahead
US6052775A (en) * 1997-06-25 2000-04-18 Sun Microsystems, Inc. Method for non-intrusive cache fills and handling of load misses
US5884070A (en) * 1997-06-25 1999-03-16 Sun Microsystems, Inc. Method for processing single precision arithmetic operations in system where two single precision registers are aliased to one double precision register
US6085305A (en) * 1997-06-25 2000-07-04 Sun Microsystems, Inc. Apparatus for precise architectural update in an out-of-order processor
US6094719A (en) * 1997-06-25 2000-07-25 Sun Microsystems, Inc. Reducing data dependent conflicts by converting single precision instructions into microinstructions using renamed phantom registers in a processor having double precision registers
US6035388A (en) * 1997-06-27 2000-03-07 Sandcraft, Inc. Method and apparatus for dual issue of program instructions to symmetric multifunctional execution units
US6021489A (en) * 1997-06-30 2000-02-01 Intel Corporation Apparatus and method for sharing a branch prediction unit in a microprocessor implementing a two instruction set architecture
US5987259A (en) * 1997-06-30 1999-11-16 Sun Microsystems, Inc. Functional unit switching for the allocation of registers
US5978901A (en) * 1997-08-21 1999-11-02 Advanced Micro Devices, Inc. Floating point and multimedia unit with data type reclassification capability
US6289437B1 (en) * 1997-08-27 2001-09-11 International Business Machines Corporation Data processing system and method for implementing an efficient out-of-order issue mechanism
US5870575A (en) * 1997-09-22 1999-02-09 International Business Machines Corporation Indirect unconditional branches in data processing system emulation mode
US5864703A (en) * 1997-10-09 1999-01-26 Mips Technologies, Inc. Method for providing extended precision in SIMD vector arithmetic operations
US7197625B1 (en) * 1997-10-09 2007-03-27 Mips Technologies, Inc. Alignment and ordering of vector elements for single instruction multiple data processing
US6029244A (en) * 1997-10-10 2000-02-22 Advanced Micro Devices, Inc. Microprocessor including an efficient implementation of extreme value instructions
US6237077B1 (en) 1997-10-13 2001-05-22 Idea Corporation Instruction template for efficient processing clustered branch instructions
US6014739A (en) * 1997-10-27 2000-01-11 Advanced Micro Devices, Inc. Increasing general registers in X86 processors
US6032252A (en) * 1997-10-28 2000-02-29 Advanced Micro Devices, Inc. Apparatus and method for efficient loop control in a superscalar microprocessor
US5974542A (en) * 1997-10-30 1999-10-26 Advanced Micro Devices, Inc. Branch prediction unit which approximates a larger number of branch predictions using a smaller number of branch predictions and an alternate target indication
US6230259B1 (en) 1997-10-31 2001-05-08 Advanced Micro Devices, Inc. Transparent extended state save
US6157996A (en) * 1997-11-13 2000-12-05 Advanced Micro Devices, Inc. Processor programably configurable to execute enhanced variable byte length instructions including predicated execution, three operand addressing, and increased register space
CA2309926A1 (en) * 1997-11-14 1999-05-27 Erik Muench Method for maintaining the synchronized execution in fault resilient/fault tolerant computer systems
US6199154B1 (en) 1997-11-17 2001-03-06 Advanced Micro Devices, Inc. Selecting cache to fetch in multi-level cache system based on fetch address source and pre-fetching additional data to the cache for future access
US6112293A (en) * 1997-11-17 2000-08-29 Advanced Micro Devices, Inc. Processor configured to generate lookahead results from operand collapse unit and for inhibiting receipt/execution of the first instruction based on the lookahead result
US5974432A (en) * 1997-12-05 1999-10-26 Advanced Micro Devices, Inc. On-the-fly one-hot encoding of leading zero count
US5870578A (en) * 1997-12-09 1999-02-09 Advanced Micro Devices, Inc. Workload balancing in a microprocessor for reduced instruction dispatch stalling
US6134650A (en) * 1997-12-12 2000-10-17 Advanced Micro Devices, Inc. Apparatus and method for predicting a first scanned instruction as microcode instruction prior to scanning predecode data
US6061775A (en) * 1997-12-12 2000-05-09 Advanced Micro Devices, Inc. Apparatus and method for predicting a first microcode instruction of a cache line and using predecode instruction data to identify instruction boundaries and types
US6016545A (en) * 1997-12-16 2000-01-18 Advanced Micro Devices, Inc. Reduced size storage apparatus for storing cache-line-related data in a high frequency microprocessor
US6016533A (en) * 1997-12-16 2000-01-18 Advanced Micro Devices, Inc. Way prediction logic for cache array
US6157986A (en) * 1997-12-16 2000-12-05 Advanced Micro Devices, Inc. Fast linear tag validation unit for use in microprocessor
US6125441A (en) * 1997-12-18 2000-09-26 Advanced Micro Devices, Inc. Predicting a sequence of variable instruction lengths from previously identified length pattern indexed by an instruction fetch address
US6112018A (en) 1997-12-18 2000-08-29 Advanced Micro Devices, Inc. Apparatus for exchanging two stack registers
US5951671A (en) * 1997-12-18 1999-09-14 Advanced Micro Devices, Inc. Sharing instruction predecode information in a multiprocessor system
US6041405A (en) * 1997-12-18 2000-03-21 Advanced Micro Devices, Inc. Instruction length prediction using an instruction length pattern detector
US6018798A (en) * 1997-12-18 2000-01-25 Advanced Micro Devices, Inc. Floating point unit using a central window for storing instructions capable of executing multiple instructions in a single clock cycle
US6112296A (en) * 1997-12-18 2000-08-29 Advanced Micro Devices, Inc. Floating point stack manipulation using a register map and speculative top of stack values
US6012138A (en) * 1997-12-19 2000-01-04 Lsi Logic Corporation Dynamically variable length CPU pipeline for efficiently executing two instruction sets
US6047367A (en) * 1998-01-20 2000-04-04 International Business Machines Corporation Microprocessor with improved out of order support
US6009510A (en) * 1998-02-06 1999-12-28 Ip First Llc Method and apparatus for improved aligned/misaligned data load from cache
US5881260A (en) * 1998-02-09 1999-03-09 Hewlett-Packard Company Method and apparatus for sequencing and decoding variable length instructions with an instruction boundary marker within each instruction
US6065110A (en) * 1998-02-09 2000-05-16 International Business Machines Corporation Method and apparatus for loading an instruction buffer of a processor capable of out-of-order instruction issue
US6105129A (en) * 1998-02-18 2000-08-15 Advanced Micro Devices, Inc. Converting register data from a first format type to a second format type if a second type instruction consumes data produced by a first type instruction
US6175908B1 (en) 1998-04-30 2001-01-16 Advanced Micro Devices, Inc. Variable byte-length instructions using state of function bit of second byte of plurality of instructions bytes as indicative of whether first byte is a prefix byte
US6141745A (en) * 1998-04-30 2000-10-31 Advanced Micro Devices, Inc. Functional bit identifying a prefix byte via a particular state regardless of type of instruction
US6092182A (en) * 1998-06-24 2000-07-18 Advanced Micro Devices, Inc. Using ECC/parity bits to store predecode information
US6212621B1 (en) 1998-06-24 2001-04-03 Advanced Micro Devices Inc Method and system using tagged instructions to allow out-of-program-order instruction decoding
WO2000000878A2 (en) * 1998-06-26 2000-01-06 Chi Lan Wong Derek Methods for increasing instruction-level parallelism in microprocessors and digital systems
US6278838B1 (en) * 1998-06-26 2001-08-21 Lsi Logic Corporation Peak-ahead FIFO for DVD system stream parsing
US6988183B1 (en) 1998-06-26 2006-01-17 Derek Chi-Lan Wong Methods for increasing instruction-level parallelism in microprocessors and digital system
US6304953B1 (en) * 1998-07-31 2001-10-16 Intel Corporation Computer processor with instruction-specific schedulers
US6122656A (en) * 1998-07-31 2000-09-19 Advanced Micro Devices, Inc. Processor configured to map logical register numbers to physical register numbers using virtual register numbers
US6230262B1 (en) 1998-07-31 2001-05-08 Advanced Micro Devices, Inc. Processor configured to selectively free physical registers upon retirement of instructions
US6119223A (en) * 1998-07-31 2000-09-12 Advanced Micro Devices, Inc. Map unit having rapid misprediction recovery
US6240510B1 (en) * 1998-08-06 2001-05-29 Intel Corporation System for processing a cluster of instructions where the instructions are issued to the execution units having a priority order according to a template associated with the cluster of instructions
US6304960B1 (en) 1998-08-06 2001-10-16 Intel Corporation Validating prediction for branches in a cluster via comparison of predicted and condition selected tentative target addresses and validation of branch conditions
US6212622B1 (en) 1998-08-24 2001-04-03 Advanced Micro Devices, Inc. Mechanism for load block on store address generation
US6212623B1 (en) 1998-08-24 2001-04-03 Advanced Micro Devices, Inc. Universal dependency vector/queue entry
US6122727A (en) * 1998-08-24 2000-09-19 Advanced Micro Devices, Inc. Symmetrical instructions queue for high clock frequency scheduling
US6742111B2 (en) * 1998-08-31 2004-05-25 Stmicroelectronics, Inc. Reservation stations to increase instruction level parallelism
US6418527B1 (en) * 1998-10-13 2002-07-09 Motorola, Inc. Data processor instruction system for grouping instructions with or without a common prefix and data processing system that uses two or more instruction grouping methods
US6434689B2 (en) * 1998-11-09 2002-08-13 Infineon Technologies North America Corp. Data processing unit with interface for sharing registers by a processor and a coprocessor
US6223254B1 (en) * 1998-12-04 2001-04-24 Stmicroelectronics, Inc. Parcel cache
US6266763B1 (en) 1999-01-05 2001-07-24 Advanced Micro Devices, Inc. Physical rename register for efficiently storing floating point, integer, condition code, and multimedia values
SG81954A1 (en) * 1999-01-21 2001-07-24 Ibm Microprocessor with improved out of order support via register management with synchronization of multiple pipelines
US6260133B1 (en) * 1999-02-08 2001-07-10 Kabushiki Kaisha Toshiba Processor having operating instruction which uses operation units in different pipelines simultaneously
US6732259B1 (en) 1999-07-30 2004-05-04 Mips Technologies, Inc. Processor having a conditional branch extension of an instruction set architecture
US7242414B1 (en) 1999-07-30 2007-07-10 Mips Technologies, Inc. Processor having a compare extension of an instruction set architecture
US6178496B1 (en) * 1999-02-17 2001-01-23 Motorola, Inc. System for converting instructions, and method therefore
US6338133B1 (en) 1999-03-12 2002-01-08 International Business Machines Corporation Measured, allocation of speculative branch instructions to processor execution units
US20040158695A1 (en) 1999-05-03 2004-08-12 Laurent Ugen Method and apparatus for handling transfer of guarded instructions in a computer system
US7089404B1 (en) * 1999-06-14 2006-08-08 Transmeta Corporation Method and apparatus for enhancing scheduling in an advanced microprocessor
US6374345B1 (en) * 1999-07-22 2002-04-16 Advanced Micro Devices, Inc. Apparatus and method for handling tiny numbers using a super sticky bit in a microprocessor
US6714197B1 (en) 1999-07-30 2004-03-30 Mips Technologies, Inc. Processor having an arithmetic extension of an instruction set architecture
US6631392B1 (en) 1999-07-30 2003-10-07 Mips Technologies, Inc. Method and apparatus for predicting floating-point exceptions
US6697832B1 (en) 1999-07-30 2004-02-24 Mips Technologies, Inc. Floating-point processor with improved intermediate result handling
US7346643B1 (en) * 1999-07-30 2008-03-18 Mips Technologies, Inc. Processor with improved accuracy for multiply-add operations
US6912559B1 (en) 1999-07-30 2005-06-28 Mips Technologies, Inc. System and method for improving the accuracy of reciprocal square root operations performed by a floating-point unit
US7089367B1 (en) * 1999-08-11 2006-08-08 Intel Corporation Reducing memory access latencies from a bus using pre-fetching and caching
US6438664B1 (en) 1999-10-27 2002-08-20 Advanced Micro Devices, Inc. Microcode patch device and method for patching microcode using match registers and patch routines
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
US6542986B1 (en) 1999-11-09 2003-04-01 Advanced Micro Devices, Inc. Resolving dependencies among concurrently dispatched instructions in a superscalar microprocessor
US6539467B1 (en) * 1999-11-15 2003-03-25 Texas Instruments Incorporated Microprocessor with non-aligned memory access
US7107434B2 (en) * 1999-12-20 2006-09-12 Board Of Regents, The University Of Texas System, method and apparatus for allocating hardware resources using pseudorandom sequences
US6651161B1 (en) 2000-01-03 2003-11-18 Advanced Micro Devices, Inc. Store load forward predictor untraining
US6694424B1 (en) 2000-01-03 2004-02-17 Advanced Micro Devices, Inc. Store load forward predictor training
US6622237B1 (en) 2000-01-03 2003-09-16 Advanced Micro Devices, Inc. Store to load forward predictor training using delta tag
US6622235B1 (en) 2000-01-03 2003-09-16 Advanced Micro Devices, Inc. Scheduler which retries load/store hit situations
US6542984B1 (en) 2000-01-03 2003-04-01 Advanced Micro Devices, Inc. Scheduler capable of issuing and reissuing dependency chains
US6564315B1 (en) 2000-01-03 2003-05-13 Advanced Micro Devices, Inc. Scheduler which discovers non-speculative nature of an instruction after issuing and reissues the instruction
US6662361B1 (en) 2000-01-14 2003-12-09 International Business Machines Corporation Method, system, program, and data structures for transforming an instruction in a first bit architecture to an instruction in a second bit architecture
US6453405B1 (en) * 2000-02-18 2002-09-17 Texas Instruments Incorporated Microprocessor with non-aligned circular addressing
US8095508B2 (en) * 2000-04-07 2012-01-10 Washington University Intelligent data storage and processing using FPGA devices
US6711558B1 (en) * 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
US7139743B2 (en) * 2000-04-07 2006-11-21 Washington University Associative database scanning and information retrieval using FPGA devices
US6751724B1 (en) * 2000-04-19 2004-06-15 Motorola, Inc. Method and apparatus for instruction fetching
US6996596B1 (en) 2000-05-23 2006-02-07 Mips Technologies, Inc. Floating-point processor with operating mode having improved accuracy and high performance
US6735686B1 (en) * 2000-06-30 2004-05-11 Hitachi, Ltd. Data processing device including two instruction decoders for decoding branch instructions
US6877084B1 (en) 2000-08-09 2005-04-05 Advanced Micro Devices, Inc. Central processing unit (CPU) accessing an extended register set in an extended register mode
US6981132B2 (en) 2000-08-09 2005-12-27 Advanced Micro Devices, Inc. Uniform register addressing using prefix byte
US6633969B1 (en) 2000-08-11 2003-10-14 Lsi Logic Corporation Instruction translation system and method achieving single-cycle translation of variable-length MIPS16 instructions
US6804815B1 (en) * 2000-09-18 2004-10-12 Cisco Technology, Inc. Sequence control mechanism for enabling out of order context processing
US8058899B2 (en) 2000-10-06 2011-11-15 Martin Vorbach Logic cell array and bus system
US7149878B1 (en) * 2000-10-30 2006-12-12 Mips Technologies, Inc. Changing instruction set architecture mode by comparison of current instruction execution address with boundary address register values
US6553462B2 (en) * 2000-12-28 2003-04-22 International Business Machines Corporation Multiprocessor computer system with sectored cache line mechanism for load and store operations
US6484241B2 (en) * 2000-12-28 2002-11-19 International Business Machines Corporation Multiprocessor computer system with sectored cache line system bus protocol mechanism
US6571322B2 (en) * 2000-12-28 2003-05-27 International Business Machines Corporation Multiprocessor computer system with sectored cache line mechanism for cache intervention
US6449431B1 (en) * 2001-07-16 2002-09-10 Non Typical Inc. Enclosure for wildlife surveillance system and security apparatus therefore
US7711763B2 (en) * 2001-02-21 2010-05-04 Mips Technologies, Inc. Microprocessor instructions for performing polynomial arithmetic operations
US7599981B2 (en) 2001-02-21 2009-10-06 Mips Technologies, Inc. Binary polynomial multiplier
US7181484B2 (en) * 2001-02-21 2007-02-20 Mips Technologies, Inc. Extended-precision accumulation of multiplier output
US7162621B2 (en) 2001-02-21 2007-01-09 Mips Technologies, Inc. Virtual instruction expansion based on template and parameter selector information specifying sign-extension or concentration
US7444531B2 (en) 2001-03-05 2008-10-28 Pact Xpp Technologies Ag Methods and devices for treating and processing data
US9037807B2 (en) 2001-03-05 2015-05-19 Pact Xpp Technologies Ag Processor arrangement on a chip including data processing, memory, and interface elements
US7711926B2 (en) * 2001-04-18 2010-05-04 Mips Technologies, Inc. Mapping system and method for instruction set processing
US6804799B2 (en) * 2001-06-26 2004-10-12 Advanced Micro Devices, Inc. Using type bits to track storage of ECC and predecode bits in a level two cache
US7107439B2 (en) 2001-08-10 2006-09-12 Mips Technologies, Inc. System and method of controlling software decompression through exceptions
US7996827B2 (en) 2001-08-16 2011-08-09 Martin Vorbach Method for the translation of programs for reconfigurable architectures
US7716330B2 (en) 2001-10-19 2010-05-11 Global Velocity, Inc. System and method for controlling transmission of data packets over an information network
US7107433B1 (en) * 2001-10-26 2006-09-12 Lsi Logic Corporation Mechanism for resource allocation in a digital signal processor based on instruction type information and functional priority and method of operation thereof
US7114059B2 (en) * 2001-11-05 2006-09-26 Intel Corporation System and method to bypass execution of instructions involving unreliable data during speculative execution
US20030088758A1 (en) * 2001-11-08 2003-05-08 Matthew Becker Methods and systems for determining valid microprocessor instructions
CA2365375A1 (en) * 2001-12-18 2003-06-18 Ibm Canada Limited-Ibm Canada Limitee Optimizing source code for iterative execution
US8914590B2 (en) 2002-08-07 2014-12-16 Pact Xpp Technologies Ag Data processing method and device
US7093023B2 (en) * 2002-05-21 2006-08-15 Washington University Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto
JP3800533B2 (ja) * 2002-06-28 2006-07-26 富士通株式会社 プログラムカウンタ制御方法及びプロセッサ
US7406587B1 (en) * 2002-07-31 2008-07-29 Silicon Graphics, Inc. Method and system for renaming registers in a microprocessor
US7711844B2 (en) 2002-08-15 2010-05-04 Washington University Of St. Louis TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks
US20040128480A1 (en) * 2002-12-31 2004-07-01 Intel Corporation Register file read port to support uop fusion
US20040148497A1 (en) * 2003-01-27 2004-07-29 Ali Vahidsafa Method and apparatus for determining an early reifetch address of a mispredicted conditional branch instruction in an out of order multi-issue processor
US20040199749A1 (en) * 2003-04-03 2004-10-07 Robert Golla Method and apparatus to limit register file read ports in an out-of-order, multi-stranded processor
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
JP2006526227A (ja) 2003-05-23 2006-11-16 ワシントン ユニヴァーシティー Fpgaデバイスを使用するインテリジェントデータ記憶および処理
US7321964B2 (en) * 2003-07-08 2008-01-22 Advanced Micro Devices, Inc. Store-to-load forwarding buffer using indexed lookup
GB0320386D0 (en) * 2003-08-30 2003-10-01 Ibm A method, apparatus and computer program for executing a program
US20050050278A1 (en) * 2003-09-03 2005-03-03 Advanced Micro Devices, Inc. Low power way-predicted cache
US7117290B2 (en) 2003-09-03 2006-10-03 Advanced Micro Devices, Inc. MicroTLB and micro tag for reducing power in a processor
US7043626B1 (en) 2003-10-01 2006-05-09 Advanced Micro Devices, Inc. Retaining flag value associated with dead result data in freed rename physical register with an indicator to select set-aside register instead for renaming
US7167989B2 (en) * 2003-10-14 2007-01-23 Intel Corporation Processor and methods to reduce power consumption of processor components
US7707389B2 (en) * 2003-10-31 2010-04-27 Mips Technologies, Inc. Multi-ISA instruction fetch unit for a processor, and applications thereof
US7246215B2 (en) * 2003-11-26 2007-07-17 Intel Corporation Systolic memory arrays
GB2410097B (en) 2004-01-13 2006-11-01 Advanced Risc Mach Ltd A data processing apparatus and method for performing data processing operations on floating point data elements
US7340565B2 (en) * 2004-01-13 2008-03-04 Hewlett-Packard Development Company, L.P. Source request arbitration
US7409500B2 (en) * 2004-01-13 2008-08-05 Hewlett-Packard Development Company, L.P. Systems and methods for employing speculative fills
US8301844B2 (en) * 2004-01-13 2012-10-30 Hewlett-Packard Development Company, L.P. Consistency evaluation of program execution across at least one memory barrier
US7406565B2 (en) * 2004-01-13 2008-07-29 Hewlett-Packard Development Company, L.P. Multi-processor systems and methods for backup for non-coherent speculative fills
US8281079B2 (en) * 2004-01-13 2012-10-02 Hewlett-Packard Development Company, L.P. Multi-processor system receiving input from a pre-fetch buffer
US7360069B2 (en) * 2004-01-13 2008-04-15 Hewlett-Packard Development Company, L.P. Systems and methods for executing across at least one memory barrier employing speculative fills
US7376794B2 (en) * 2004-01-13 2008-05-20 Hewlett-Packard Development Company, L.P. Coherent signal in a multi-processor system
US7409503B2 (en) * 2004-01-13 2008-08-05 Hewlett-Packard Development Company, L.P. Register file systems and methods for employing speculative fills
US7383409B2 (en) * 2004-01-13 2008-06-03 Hewlett-Packard Development Company, L.P. Cache systems and methods for employing speculative fills
US7602785B2 (en) 2004-02-09 2009-10-13 Washington University Method and system for performing longest prefix matching for network address lookup using bloom filters
US7613950B2 (en) * 2004-02-27 2009-11-03 Hewlett-Packard Development Company, L.P. Detecting floating point hardware failures
JP2005276104A (ja) * 2004-03-26 2005-10-06 Nec Electronics Corp マイクロコンピュータ
US7395415B2 (en) * 2004-09-30 2008-07-01 Intel Corporation Method and apparatus to provide a source operand for an instruction in a processor
US7831642B1 (en) * 2004-09-30 2010-11-09 Symantec Operating Corporation Page cache management for a shared file
US7733347B2 (en) * 2004-11-05 2010-06-08 Microsoft Corporation Automated construction of shader programs
US7800620B2 (en) 2004-11-05 2010-09-21 Microsoft Corporation Optimizing automated shader program construction
EP1849095B1 (en) * 2005-02-07 2013-01-02 Richter, Thomas Low latency massive parallel data processing device
JP4952580B2 (ja) 2005-04-21 2012-06-13 富士通株式会社 プロセッサ装置
JP4837305B2 (ja) * 2005-05-10 2011-12-14 ルネサスエレクトロニクス株式会社 マイクロプロセッサ及びマイクロプロセッサの制御方法
US8161252B1 (en) * 2005-08-01 2012-04-17 Nvidia Corporation Memory interface with dynamic selection among mirrored storage locations
US7237095B1 (en) 2005-08-04 2007-06-26 Advanced Micro Devices, Inc. Optimum power efficient shifting algorithm for schedulers
US7376817B2 (en) * 2005-08-10 2008-05-20 P.A. Semi, Inc. Partial load/store forward prediction
US7328330B2 (en) * 2005-08-16 2008-02-05 International Business Machines Corporation Queue design supporting dependency checking and issue for SIMD instructions within a general purpose processor
US20070083737A1 (en) * 2005-08-16 2007-04-12 Ibm Corporation Processor with efficient shift/rotate instruction execution
US7373486B2 (en) * 2005-08-29 2008-05-13 P.A. Semi, Inc. Partially decoded register renamer
US20070198812A1 (en) * 2005-09-27 2007-08-23 Ibm Corporation Method and apparatus for issuing instructions from an issue queue including a main issue queue array and an auxiliary issue queue array in an information handling system
US7350056B2 (en) * 2005-09-27 2008-03-25 International Business Machines Corporation Method and apparatus for issuing instructions from an issue queue in an information handling system
US7996662B2 (en) * 2005-11-17 2011-08-09 Apple Inc. Floating point status/control register encodings for speculative register field
US7702629B2 (en) * 2005-12-02 2010-04-20 Exegy Incorporated Method and device for high performance regular expression pattern matching
US7954114B2 (en) 2006-01-26 2011-05-31 Exegy Incorporated Firmware socket module for FPGA-based pipeline processing
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
US7921046B2 (en) 2006-06-19 2011-04-05 Exegy Incorporated High speed processing of financial information using FPGA devices
US7840482B2 (en) 2006-06-19 2010-11-23 Exegy Incorporated Method and system for high speed options pricing
US20080072015A1 (en) * 2006-09-18 2008-03-20 Julier Michael A Demand-based processing resource allocation
US7620797B2 (en) * 2006-11-01 2009-11-17 Apple Inc. Instructions for efficiently accessing unaligned vectors
US7624251B2 (en) * 2006-11-01 2009-11-24 Apple Inc. Instructions for efficiently accessing unaligned partial vectors
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US8959500B2 (en) * 2006-12-11 2015-02-17 Nytell Software LLC Pipelined processor and compiler/scheduler for variable number branch delay slots
US7725690B2 (en) * 2007-02-13 2010-05-25 Advanced Micro Devices, Inc. Distributed dispatch with concurrent, out-of-order dispatch
JP5007860B2 (ja) * 2007-04-17 2012-08-22 エヌイーシーコンピュータテクノ株式会社 ベクトル処理装置
US7870350B1 (en) * 2007-06-07 2011-01-11 Nvidia Corporation Write buffer for read-write interlocks
US9015399B2 (en) * 2007-08-20 2015-04-21 Convey Computer Multiple data channel memory module architecture
US8561037B2 (en) * 2007-08-29 2013-10-15 Convey Computer Compiler for generating an executable comprising instructions for a plurality of different instruction sets
US9710384B2 (en) 2008-01-04 2017-07-18 Micron Technology, Inc. Microprocessor architecture having alternative memory access paths
US8095735B2 (en) 2008-08-05 2012-01-10 Convey Computer Memory interleave for heterogeneous computing
US7877559B2 (en) * 2007-11-26 2011-01-25 Globalfoundries Inc. Mechanism to accelerate removal of store operations from a queue
US7882325B2 (en) * 2007-12-21 2011-02-01 Intel Corporation Method and apparatus for a double width load using a single width load port
US10229453B2 (en) 2008-01-11 2019-03-12 Ip Reservoir, Llc Method and system for low latency basket calculation
US7913067B2 (en) * 2008-02-20 2011-03-22 International Business Machines Corporation Method and system for overlapping execution of instructions through non-uniform execution pipelines in an in-order processor
US8374986B2 (en) 2008-05-15 2013-02-12 Exegy Incorporated Method and system for accelerated stream processing
US8806505B1 (en) * 2008-06-30 2014-08-12 Bank Of America Corporation Service and project request processing within a business enterprise
CA3059606C (en) 2008-12-15 2023-01-17 Ip Reservoir, Llc Method and apparatus for high-speed processing of financial market depth data
US8539397B2 (en) * 2009-06-11 2013-09-17 Advanced Micro Devices, Inc. Superscalar register-renaming for a stack-addressed architecture
US8150902B2 (en) 2009-06-19 2012-04-03 Singular Computing Llc Processing with compact arithmetic processing element
US8423745B1 (en) 2009-11-16 2013-04-16 Convey Computer Systems and methods for mapping a neighborhood of data to general registers of a processing element
WO2012079041A1 (en) 2010-12-09 2012-06-14 Exegy Incorporated Method and apparatus for managing orders in financial markets
US9740494B2 (en) 2011-04-29 2017-08-22 Arizona Board Of Regents For And On Behalf Of Arizona State University Low complexity out-of-order issue logic using static circuits
US9286172B2 (en) * 2011-12-22 2016-03-15 Intel Corporation Fault-aware mapping for shared last level cache (LLC)
US10650452B2 (en) 2012-03-27 2020-05-12 Ip Reservoir, Llc Offload processing of data packets
US9990393B2 (en) 2012-03-27 2018-06-05 Ip Reservoir, Llc Intelligent feed switch
US10121196B2 (en) 2012-03-27 2018-11-06 Ip Reservoir, Llc Offload processing of data packets containing financial market data
US11436672B2 (en) 2012-03-27 2022-09-06 Exegy Incorporated Intelligent switch for processing financial market data
US9128725B2 (en) 2012-05-04 2015-09-08 Apple Inc. Load-store dependency predictor content management
US9600289B2 (en) 2012-05-30 2017-03-21 Apple Inc. Load-store dependency predictor PC hashing
US10430190B2 (en) 2012-06-07 2019-10-01 Micron Technology, Inc. Systems and methods for selectively controlling multithreaded execution of executable code segments
US9672044B2 (en) * 2012-08-01 2017-06-06 Nxp Usa, Inc. Space efficient checkpoint facility and technique for processor with integrally indexed register mapping and free-list arrays
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
EP2912579B1 (en) 2012-10-23 2020-08-19 IP Reservoir, LLC Method and apparatus for accelerated format translation of data in a delimited data format
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
US9977596B2 (en) 2012-12-27 2018-05-22 Dropbox, Inc. Predictive models of file access patterns by application and file type
US9336003B2 (en) * 2013-01-25 2016-05-10 Apple Inc. Multi-level dispatch for a superscalar processor
US10467010B2 (en) 2013-03-15 2019-11-05 Intel Corporation Method and apparatus for nearest potential store tagging
US10152327B2 (en) * 2013-03-15 2018-12-11 Intel Corporation Apparatus for gating a load operation based on entries of a prediction table
US9535744B2 (en) * 2013-06-29 2017-01-03 Intel Corporation Method and apparatus for continued retirement during commit of a speculative region of code
US9367317B2 (en) * 2013-07-03 2016-06-14 Intel Corporation Loop streaming detector for standard and complex instruction types
US10001993B2 (en) * 2013-08-08 2018-06-19 Linear Algebra Technologies Limited Variable-length instruction buffer management
US11768689B2 (en) 2013-08-08 2023-09-26 Movidius Limited Apparatus, systems, and methods for low power computational imaging
US9983990B1 (en) * 2013-11-21 2018-05-29 Altera Corporation Configurable storage circuits with embedded processing and control circuitry
US10616333B2 (en) * 2014-04-09 2020-04-07 Stmicroelectronics S.R.L. System for the management of out-of-order traffic in an interconnect network and corresponding method and integrated circuit
GB2541577A (en) 2014-04-23 2017-02-22 Ip Reservoir Llc Method and apparatus for accelerated data translation
US9710268B2 (en) 2014-04-29 2017-07-18 Apple Inc. Reducing latency for pointer chasing loads
US9824058B2 (en) * 2014-11-14 2017-11-21 Cavium, Inc. Bypass FIFO for multiple virtual channels
US9658963B2 (en) * 2014-12-23 2017-05-23 Intel Corporation Speculative reads in buffered memory
US9858078B2 (en) 2015-06-02 2018-01-02 International Business Machines Corporation Speculative load data in byte-write capable register file and history buffer for a multi-slice microprocessor
US11275590B2 (en) * 2015-08-26 2022-03-15 Huawei Technologies Co., Ltd. Device and processing architecture for resolving execution pipeline dependencies without requiring no operation instructions in the instruction memory
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US9870039B2 (en) 2015-12-15 2018-01-16 International Business Machines Corporation Reducing power consumption in a multi-slice computer processor
US10514925B1 (en) 2016-01-28 2019-12-24 Apple Inc. Load speculation recovery
US10437595B1 (en) 2016-03-15 2019-10-08 Apple Inc. Load/store dependency predictor optimization for replayed loads
US9825647B1 (en) * 2016-09-28 2017-11-21 Intel Corporation Method and apparatus for decompression acceleration in multi-cycle decoder based platforms
WO2018119035A1 (en) 2016-12-22 2018-06-28 Ip Reservoir, Llc Pipelines for hardware-accelerated machine learning
US11170463B2 (en) 2017-05-19 2021-11-09 Movidius Limited Methods, systems and apparatus to reduce memory latency when fetching pixel kernels
US11126663B2 (en) 2017-05-25 2021-09-21 Intel Corporation Method and apparatus for energy efficient decompression using ordered tokens
US11086625B2 (en) * 2019-09-10 2021-08-10 Apple Inc. Compression assist instructions
CN111459549B (zh) * 2020-04-07 2022-11-01 上海兆芯集成电路有限公司 具有高度领先分支预测器的微处理器
US11645238B2 (en) 2021-06-01 2023-05-09 International Business Machines Corporation Notifying a cache file system of changes to files in a source file system served from the cache file system
US11650957B2 (en) * 2021-06-01 2023-05-16 International Business Machines Corporation Receiving at a cache node notification of changes to files in a source file system served from a cache file system at the cache node
CN114116533B (zh) * 2021-11-29 2023-03-10 海光信息技术股份有限公司 利用共享存储器存储数据的方法
CN117348933B (zh) * 2023-12-05 2024-02-06 睿思芯科(深圳)技术有限公司 一种处理器及计算机***

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3781808A (en) * 1972-10-17 1973-12-25 Ibm Virtual memory system
AT354159B (de) * 1975-02-10 1979-12-27 Siemens Ag Assoziativspeicher mit getrennt assoziierbaren bereichen
US4161784A (en) * 1978-01-05 1979-07-17 Honeywell Information Systems, Inc. Microprogrammable floating point arithmetic unit capable of performing arithmetic operations on long and short operands
US4928223A (en) * 1982-10-06 1990-05-22 Fairchild Semiconductor Corporation Floating point microprocessor with directable two level microinstructions
US4713750A (en) * 1983-03-31 1987-12-15 Fairchild Camera & Instrument Corporation Microprocessor with compact mapped programmable logic array
US4807115A (en) * 1983-10-07 1989-02-21 Cornell Research Foundation, Inc. Instruction issuing mechanism for processors with multiple functional units
JPH0658631B2 (ja) * 1983-12-19 1994-08-03 株式会社日立製作所 デ−タ処理装置
US4992934A (en) * 1986-12-15 1991-02-12 United Technologies Corporation Reduced instruction set computing apparatus and methods
US4926322A (en) * 1987-08-03 1990-05-15 Compag Computer Corporation Software emulation of bank-switched memory using a virtual DOS monitor and paged memory management
US5222230A (en) * 1988-01-29 1993-06-22 Texas Instruments Incorporated Circuitry for transferring data from a data bus and temporary register into a plurality of input registers on clock edges
US5155817A (en) * 1988-04-01 1992-10-13 Kabushiki Kaisha Toshiba Microprocessor
US5056006A (en) * 1988-09-12 1991-10-08 General Electric Company Parallel processor with single program storage and sequencer and simultaneous instruction processing
US5067069A (en) * 1989-02-03 1991-11-19 Digital Equipment Corporation Control of multiple functional units with parallel operation in a microcoded execution unit
US5155816A (en) * 1989-02-10 1992-10-13 Intel Corporation Pipelined apparatus and method for controlled loading of floating point data in a microprocessor
US5155820A (en) * 1989-02-21 1992-10-13 Gibson Glenn A Instruction format with designations for operand lengths of byte, half word, word, or double word encoded in address bits
US5226126A (en) * 1989-02-24 1993-07-06 Nexgen Microsystems Processor having plurality of functional units for orderly retiring outstanding operations based upon its associated tags
US4940908A (en) * 1989-04-27 1990-07-10 Advanced Micro Devices, Inc. Method and apparatus for reducing critical speed path delays
CA2016068C (en) * 1989-05-24 2000-04-04 Robert W. Horst Multiple instruction issue computer architecture
US5129067A (en) * 1989-06-06 1992-07-07 Advanced Micro Devices, Inc. Multiple instruction decoder for minimizing register port requirements
US5136697A (en) * 1989-06-06 1992-08-04 Advanced Micro Devices, Inc. System for reducing delay for execution subsequent to correctly predicted branch instruction using fetch information stored with each block of instructions in cache
US5471593A (en) * 1989-12-11 1995-11-28 Branigin; Michael H. Computer processor with an efficient means of executing many instructions simultaneously
US5185868A (en) * 1990-01-16 1993-02-09 Advanced Micro Devices, Inc. Apparatus having hierarchically arranged decoders concurrently decoding instructions and shifting instructions not ready for execution to vacant decoders higher in the hierarchy
US5251306A (en) * 1990-01-16 1993-10-05 Advanced Micro Devices, Inc. Apparatus for controlling execution of a program in a computing device
US5226130A (en) * 1990-02-26 1993-07-06 Nexgen Microsystems Method and apparatus for store-into-instruction-stream detection and maintaining branch prediction cache consistency
US5077692A (en) * 1990-03-05 1991-12-31 Advanced Micro Devices, Inc. Information storage device with batch select capability
US5237700A (en) * 1990-03-21 1993-08-17 Advanced Micro Devices, Inc. Exception handling processor for handling first and second level exceptions with reduced exception latency
US5128888A (en) * 1990-04-02 1992-07-07 Advanced Micro Devices, Inc. Arithmetic unit having multiple accumulators
US5053631A (en) * 1990-04-02 1991-10-01 Advanced Micro Devices, Inc. Pipelined floating point processing unit
US5058048A (en) * 1990-04-02 1991-10-15 Advanced Micro Devices, Inc. Normalizing pipelined floating point processing unit
US5206828A (en) * 1990-04-02 1993-04-27 Advanced Micro Devices, Inc. Special carry save adder for high speed iterative division
US5095458A (en) * 1990-04-02 1992-03-10 Advanced Micro Devices, Inc. Radix 4 carry lookahead tree and redundant cell therefor
US5128891A (en) * 1990-04-02 1992-07-07 Advanced Micro Devices, Inc. High speed divider with square root capability
US5157780A (en) * 1990-06-12 1992-10-20 Advanced Micro Devices, Inc. Master-slave checking system
US5222244A (en) * 1990-12-20 1993-06-22 Intel Corporation Method of modifying a microinstruction with operands specified by an instruction held in an alias register
US5247644A (en) * 1991-02-06 1993-09-21 Advanced Micro Devices, Inc. Processing system with improved sequential memory accessing
DE69231011T2 (de) * 1991-02-08 2000-09-28 Fujitsu Ltd., Kawasaki Cachespeicher zur Verarbeitung von Befehlsdaten und Datenprozessor mit demselben
ATE291755T1 (de) * 1991-07-08 2005-04-15 Seiko Epson Corp Risc-prozessor mit erweiterbarer architektur
US5345569A (en) * 1991-09-20 1994-09-06 Advanced Micro Devices, Inc. Apparatus and method for resolving dependencies among a plurality of instructions within a storage device
US5438668A (en) * 1992-03-31 1995-08-01 Seiko Epson Corporation System and method for extraction, alignment and decoding of CISC instructions into a nano-instruction bucket for execution by a RISC computer
US5337415A (en) * 1992-12-04 1994-08-09 Hewlett-Packard Company Predecoding instructions for supercalar dependency indicating simultaneous execution for increased operating frequency
US5465373A (en) * 1993-01-08 1995-11-07 International Business Machines Corporation Method and system for single cycle dispatch of multiple instructions in a superscalar processor system
US5467473A (en) * 1993-01-08 1995-11-14 International Business Machines Corporation Out of order instruction load and store comparison
US5454117A (en) * 1993-08-25 1995-09-26 Nexgen, Inc. Configurable branch prediction for a processor performing speculative execution
IE80854B1 (en) * 1993-08-26 1999-04-07 Intel Corp Processor ordering consistency for a processor performing out-of-order instruction execution
US5500943A (en) * 1993-11-02 1996-03-19 Motorola, Inc. Data processor with rename buffer and FIFO buffer for in-order instruction completion

Also Published As

Publication number Publication date
JPH07182160A (ja) 1995-07-21
US5651125A (en) 1997-07-22
US5655098A (en) 1997-08-05
US5751981A (en) 1998-05-12
DE69429061T2 (de) 2002-07-18
US5867683A (en) 1999-02-02
US5664136A (en) 1997-09-02
EP0651321A1 (en) 1995-05-03
US5867682A (en) 1999-02-02
DE69429061D1 (de) 2001-12-20
US5655097A (en) 1997-08-05
EP0651321B1 (en) 2001-11-14

Similar Documents

Publication Publication Date Title
JP3670039B2 (ja) スーパースカラマイクロプロセッサ
JP3662296B2 (ja) スーパースカラマイクロプロセッサおよびropを処理する方法
US5832297A (en) Superscalar microprocessor load/store unit employing a unified buffer and separate pointers for load and store operations
JP3195378B2 (ja) 高性能プロセッサ用の分岐予測
JP2939003B2 (ja) 浮動小数点装置を有する高性能多重プロセッサ及びその性能を改良する方法
JP2962876B2 (ja) 内部プロセッサレジスターコマンドのi/o空間アドレスへの変換
US5887152A (en) Load/store unit with multiple oldest outstanding instruction pointers for completing store and load/store miss instructions
US5848433A (en) Way prediction unit and a method for operating the same
US5764946A (en) Superscalar microprocessor employing a way prediction unit to predict the way of an instruction fetch address and to concurrently provide a branch prediction address corresponding to the fetch address
EP0651323B1 (en) Microprocessors load/store functional units and data caches
US6240508B1 (en) Decode and execution synchronized pipeline processing using decode generated memory read queue with stop entry to allow execution generated memory read
US6151662A (en) Data transaction typing for improved caching and prefetching characteristics
US5968169A (en) Superscalar microprocessor stack structure for judging validity of predicted subroutine return addresses
US6604190B1 (en) Data address prediction structure and a method for operating the same
JP3751049B2 (ja) パイプラインプロセッサおよびその動作方法
US5870599A (en) Computer system employing streaming buffer for instruction preetching
US6189089B1 (en) Apparatus and method for retiring instructions in excess of the number of accessible write ports
JPH06103167A (ja) 多重プロセッサ・システムにおけるインヴァリデート及び戻りデータのための組合せキュー
JPH0695964A (ja) 多重プロセッサ・システム用のエラー遷移モード
JPH0695963A (ja) 高性能プロセッサ用のバス・プロトコール
KR19980079702A (ko) 저장 인스트럭션의 결과의 전달하는 방법 및 이를 구현한 프로세서
GB2287111A (en) Pipelined processing of instructions
US20030074530A1 (en) Load/store unit with fast memory data access mechanism
US5832249A (en) High performance superscalar alignment unit
US5822574A (en) Functional unit with a pointer for mispredicted resolution, and a superscalar microprocessor employing the same

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040420

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040716

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050208

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050413

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090422

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090422

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100422

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110422

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110422

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120422

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120422

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120422

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees