JPH10509819A

JPH10509819A - インターリーブされるキャッシュメモリアレイのインデッキシングとマルチプレキシング

Info

Publication number: JPH10509819A
Application number: JP8513403A
Authority: JP
Inventors: ケネスシーイェーガー
Original assignee: シリコングラフィックスインク．
Priority date: 1994-10-14
Filing date: 1995-10-13
Publication date: 1998-09-22
Also published as: EP1278125A2; EP0803095A4; US6594728B1; WO1996012229A1; EP0803095A1

Abstract

(57)【要約】ＣＰＵ（100）において、指令とデータをストアするキャッシュメモリアレイ(610)が使用される。インターリーブする２つのロジカルメモリアレイ（459a,459b）を使用して、メインメモリへのアクセス数を効果的に削減してキャッシュメモリ内のハイヒットレートが達成される。マルチプレクスサーキット（たとえば740）はアレイをより高密度であると共に、センスアンプを少ない個数で達成させる。

Description

【発明の詳細な説明】インターリーブされるキャッシュメモリアレイのインデッキシングとマルチプレキシング発明の背景本発明は、一般にコンピュータに関し、特に、キャッシュメモリに関する。コンピュータの発端以来、ＣＰＵ設計者は、コストの有効な手法で高速、かつ高性能のプロセッサーを設計することを余儀なくされてきた。例えば、特別なＣＰＵの高速バージョンが入手できるようになるにつれ、設計者は、ＣＰＵの処理量を改良する、簡単でかつコストの有効な手段として、ＣＰＵのクロック周波数をたびたび増加させることがある。ある時点以降、システムのメインメモリ（入力／出力）のスピードは、ＣＰＵがどれくらい速く動作することができるのか、ということについての限界要因となる。ＣＰＵの動作スピードがメインメモリの動作要求を超えるとき、ＣＰＵは、メモリがキャッチアップできるように１つあるいはそれ以上の待ち状態を発しなければならない。しかしながら、待ち状態は、ＣＰＵの性能上に有害な影響をもつ。ある例では、１つの待ち状態は、ＣＰＵの性能を約２０ー３０％減少させ得る。待ち状態は、より高速のメモリを使用することによって除去することが可能であるけれども、それは、非常に高価であり、非実用的かもしれない。典型的に、高速メモリチップの価格とその次の最高速グレードのものとの差は、５０ー１００％の範囲で変化し得る。このため、コストは、特に、大きなメモリを必要とするシステムにとっては、非常に高くなり得る。コストの有効な解決策は、種々のスピードとサイズの多重レベルのメモリから成る階層的なメモリを有するＣＰＵを提供することであった。もっとも速いメモリは、低速のメモリよりもビット当たりの単価が高いため、それらは、一般に小さなサイズになる。このような小さなメモリは、キャッシュとして引用され、マイクロプロセッサーに近接して配置されるか、あるいはマイクロプロセッサーと同一チップ内に集積される。概念的に、メモリコントローラは、プロセッサーによって現在使用される命令とデータを取り出し、キャッシュに供給する。プロセッサーは、命令やデータをフェッチするとき、最初にキャッシュをチェックする。制御論理は、要求された情報がキャッシュに蓄積されている（キャッシュヒット）かどうかを決定する。もし、キャッシュヒットが生じれば、ＣＰＵは、メインメモリに対してアクセスする必要はない。制御論理は、要求されたデータがキャッシュにあるかどうかを決定するために貴重なサイクルを使用する。しかしながら、メインメモリへのアクセスが非常に遅いので、このようなコストは受け入れられることができる。キャッシュヒット率が高ければ高いほど、ＣＰＵは、その処理を速く行うことができることが理解される。キャッシュが大きければ大きいほど、より多くのデータを蓄積でき、したがって、ヒットの可能性もより高くなることは明らかである。しかしながら、実際の世界では、マイクロプロセッサーの設計者は、ダイ上の限られた利用空間という事実のために、サイズの制約に常に直面している。より大きなダイサイズを使用すれば、効果的ではあるけれども、ダイサイズの増加に伴いコストが増加するため、実用的ではない。さらに、性能を低減させることなくキャッシュサイズを縮小することは、設計者に、ＣＰＵの他の機能ユニットの性能を改善させる。このため、最小限サイクル数を用いてヒットが生じたかどうかを決定することが可能な、かつチップ上で必要とされるスペースを縮小させつつも、高いヒット率を決定することが可能なキャッシュを設計することが必要である。発明の概要本発明は、コンピュータシステムにおいてキャッシュメモリを実行するための非常に有能なメカニズムを提供する。このメカニズムは、キャッシュメモリが、高いヒット率、高速アクセス時間、低いレイテンシイ（ｌａｔｅｎｃｙ）、および縮小された物理的サイズを持つことを可能にする。ある実施形態では、本発明は、レイテンシイを減少させるために、トランスレーションルックサイドバッファ（ＴＬＢ）と並列に動作するキャッシュを提供する。キャッシュは、共にインターリーブ（ｉｎｔｅｒｌｅａｖｅ）される２つの２−ウエイセットアソシエイテブアレイを含む。それぞれの２−ウエイセットアソシエイテブアレイは、２つのアレイを含み、各々は、それぞれタグとデータに関する。４つの独立に動作するキャッシュアレイを持つことによって、４つの命令までは、同時に動作することができる。各データアレイのビットは、２つの別々のアクセスパターンを許可するためにインターリーブされる。例えば、キャッシュがロードされるか、あるいはコピーバックされるとき、同一ブロック内の２つのダブルワードが同時にアクセスされる。キャッシュが読み出されるとき、同一のダブルワード位置は、セットを有する双方のブロックから同時に読み出される。さらに、マルチプレクサを使用することによって、読み書きするためのセンスアンプ数が減少され、これによって、ダイ上の貴重なスペースをかなり節約することができる。本発明の本質及び効果は、以下の詳細な説明および図面への参照をもって理解することができる。図面の簡単な説明図１は、スーパースカラープロセッサーの機能ブロック図を示し、図２は、ロード／ストアユニットの機能ブロック図を示し、図３は、キャッシュバンクのブロック図を示し、図４は、キャッシュデータアレイと制御論理（コントロールロジック）のブロック図を示し、図５は、キャッシュデータアレイの各バンク内のブロック組織を示し、図６は、キャッシュ制御論理の論理図を示し、図７は、キャッシュの２つのバンク間の接続を示し、図８は、キャッシュタグメモリと制御論理のブロック図を示し、図１０は、タグのビットフィールドを示し、図１１ａ−１１ｂは、タグチェック論理を示し、図１２は、キャッシュヒットパルスを発生するための論理図を示し、図１３は、キャッシュタグアレイのためのローデコーダのブロック図を示す。好ましい実施形態の詳細な説明内容Ｉ．スーパースカラープロセッサーアーキテクチャＡ．スーパースカラープロセッサーの概観Ｂ．動作 II．ロード／ストアユニットＡ．ロード／ストアユニットの概観 III．データキャッシュＡ．データキャッシュの概観Ｂ．データアレイ１．データアレイ組織２．データアレイ制御論理Ｃ．タグアレイ１．タグアレイ組織２．タグアレイ制御論理Ｄ．キャッシュインターフェースＩ．スーパースカラープロセッサーアーキテクチャ図１は、本発明に従い動作し、組み込まれた冗長マッピングメカニズムを含むスーパースカラープロセッサ１００の機能ブロック図を示す。以下に説明されるように、この冗長マッピングメカニズムは、ブランチの誤った予測からの効果的な復旧を可能にする。プロセッサー１００は、一般に、カリフォルニアのマウンテンヴュー、シリコングラッフィクス社によって開発されたスーパースカラープロセッサーＲ１００００を表し、これは、本発明の冗長マッピングメカニズムについての１つの適用例だけを提供する。Ａ．スーパースカラープロセッサーの概観スーパースカラープロセッサーは、１命令以上のフェッチと実行を並列に行うことができる。プロセッサー１００は、１サイクルにつき４命令をフェッチしデコードする。各デコードされた命令は、３つの命令キュー（待ち）の１つに付加される。これらのキューは、５つの実行パイプラインの各々に対してサイクル毎に新しい命令を発することができる。図１のブロック図は、命令パイプラインのステージを示すように配置され、種々のプロセッサーの要素間の機能的な相互接続を示す。一般に、命令フェッチとデコードは、ステージ１と２において実行され、命令は、ステージ３の種々のキュー（待ち）から発せられ、命令の実行は、ステージ４−７において実行される。図１を参照すると、一次命令キャッシュ１０２は、１サイクルにつき４つの連続する命令を読み出し、キャッシュブロック内のワード境界から開始する。ブランチターゲットキャッシュ１０４、命令レジスタ１０６、命令デコード、及び従属論理２００は、発せられた命令の部分を、浮動小数点（フローテイングポイント）マッピングテーブル２０４（６ビット単位で３２ワードのＲＡＭ）か、あるいは整数マッピングテーブル２０６（６ビット単位で３３ワードのＲＡＭ）に運ぶ。これらのテーブルは、以下に述べられる、“レジスターリネイミング（ｒｅｎａｉｍｉｎｇ）”動作を実行し、これは、命令実行中の値を保持するために、命令で識別された論理レジスタを物理レジスタ位置にリネイミングする。冗長マッピングメカニズムは、本発明に従いこれらのテーブルに組み込まれ、ブランチの誤った予測から効果的な復旧を容易にする。マッピングテーブル２０４と２０６は、浮動小数点フリーリスト２０８（６ビット単位で３２ワード）と、整数フリーリスト２１０（６ビット単位で３２ワード）とからもそれぞれ入力を受取る。双方のマッピングテーブルの出力は、順番にフリーリスト２０８と２１０の入力を供給するアクテイブリスト２１２に供給される。ブランチユニット２１４はまた、図１に示されるように、命令レジスタ１０６から情報を受取る。このユニットは、１サイクルにつき１ブランチ以上の処理をしない。ブランチユニットは、各条件付ブランチ毎に１エントリを含むブランチスタック２１６を含む。以下に述べるように、プロセッサー１００は、最もありそうな通路を予測し、かつその通路に沿って命令をデコードすることにより推論的に条件付ブランチを実行することができる。予測は、条件が既知となるときに確かめられる。もし、正しい通路が取られるならば、処理はその通路に沿って継続する。さもなくば、決定は反転されなければならず、すべての推論的にデコードされた命令は、中断される必要があり、プログラムカウンタとマッピングハードウエアを元に戻さなければならない。再び図１を参照すると、マッピングテーブル２０４と２０６は、３つの通常のパイプラインをサポートし、これらは５命令ユニットを含む。浮動小数点パイプラインは、浮動小数点マッピングテーブル２０４に結合される。浮動小数点パイプラインは、６４ロケーションの浮動小数点レジスタファイル３０２と連絡する１６エントリ命令キュー３００を含む。レジスタファイル３０２と命令キュー３００は、並列乗算ユニット４００と加算器４０４（浮動小数点ブランチ予測を確かめるために比較処理を他のもの中で実行する）に供給する。乗算ユニット４００はまた、除算ユニット４０８と平方根ユニット４１０に入力を提供する。第２に、整数パイプラインは、整数マッピングテーブル２０６に結合される。整数パイプラインは、６４ロケーションの整数レジスタファイル３０６と連絡する１６エントリ整数命令キュー３０４を含む。レジスタファイル３０６と命令キュー３０４は、演算論理ユニット（“ＡＬＵ”）ＡＬＵ♯１４１２（ＡＬＵ、シフター及び整数ブランチ比較器を含む）と、ＡＬＵ＃２４１４（ＡＬＵ、整数乗算器及び除算器を含む）に供給する。第３に、ロード／ストアパイプライン（あるいはロード／ストアユニット）４１６は、整数マッピングテーブル２０６に結合される。このパイプラインは、レジスタファイル３０６と連絡する１６エントリアドレスキュー３０８を含む。アドレスキュー３０８は、メモリアクセス命令のメモリ従属を追跡する能力を有するスーパースカラープロセッサーであることが好ましい。２−ウエイセットアソシエイテブデータキャッシュのアクセスでは、アドレスキュー３０８は、不必要なキャッシュスラッシングを防ぐために、アクセスの従属を同一キャッシュセットに負わせる。特に、アドレスキュー３０８は、順番以外で実行されるかもしれないメモリアクセス命令のメモリ従属を追跡するための、非常に効果的な装置である。この装置もまた、不必要なキャッシュスラッシングを防ぐために、メモリキャッシュセットの部分の特別な識別を提供する。アドレスキュー３０８は、セットアソシエイテブデータキャッシュをアクセスするのに使用される複数のエントリを保持する。このキュー３０８は、比較回路、ＲＡＭセルからなる第１のマトリックス、及びＲＡＭセルからなる第２のマトリックスを含む。比較回路は、新しいキューエントリから抽出された新規に計算された一部のアドレスを、前のいくつかのエントリの１つから抽出された以前に計算された一部のアドレスと比較する。ＲＡＭセルからなる第１のマトリックスは、新しいキューエントリによって使用されたキャッシュセットを使用するキューの以前のエントリのすべてを追跡する。ＲＡＭセルからなる第２のマトリックスは、次のロード命令によってアクセスされたデータキャッシュのデータの部分を蓄積するストア命令であるキューエントリを追跡する。アドレスキュー３０８は、許可されたアクセスのタイプ、つまりランダムかシーケンシャルかを識別するために、キャッシュに蓄積されたブロックに、状態ビットを割り当てることができる。レジスタファイル３０６とアドレスキュー３０８は、アドレススタック４２０に仮想アドレスエントリを順番に提供する整数アドレス計算ユニット４１８に供給する。これらの仮想アドレスは、ジョイントトランスレーションルックサイドバッファ（Joint Translation Lookaside Buffer：ＪＴＬＢ）で物理アドレスに変換され、データキャッシュ４２４をアクセスするために使用される。ＪＴＬＢ４２２は、矛盾する仮想アドレスがそこに蓄積されるのを防ぎ、かつ検出するためのトランスレーションバッファである。ＪＴＬＢ４２２は、仮想メモリアドレスを物理アドレスに変換するための非常に効果的なメカニズムである。ＪＴＬＢ４２２は、トランスレーションバッファをシャットダウンやリセットすることなしに、同一の仮想ページアドレスがトランスレーションバッファ内に蓄積されることを、正確に防止する。ＪＴＬＢ４２２は、第１の物理ページ値を蓄積するための第１のレジスタと、第２の物理ページ値を蓄積するための第２のレジスタと、ページサイズを表す値を蓄積するための第３のレジスタと、第１及び第２のレジスタに蓄積された値に対応する仮想アドレスを蓄積するための第４のレジスタと、現在の仮想アドレスを第３のレジスタの値と比較するための比較器とを含む。比較器は、比較された値が等しいかどうかの信号を発生する。この信号によって、第１か第２のレジスタのいずれかが読み出される。データキャッシュ４２４へのデータ入力及びそこからの出力は、ストアアライナー４３０とロードアライナー４２８をそれぞれ通過する。アドレススタック４２０とデータキャッシュ４２４は、外部のハードウエアコントローラとインターフェース４３４と連絡する。さらに、データキャッシュ４２４とコントローラ／インターフェース４３４は、二次キャッシュ４３２と連絡する。Ｂ．動作プロセッサー１００は、５つの機能ユニットにおいて命令実行をオーバーラップさせる多重実行のパイプラインを使用する。上述したように、これらのユニットは、２つの整数ＡＬＵ４１２、４１４、ロード／ストアユニット４１６、浮動小数点加算器４０４、及び浮動小数点乗算器４００を含む。各関連されたパイプラインは、命令を発するステージ、レジスタオペランドを読み取るステージ、命令を実行するステージ、及び結果を蓄積するステージを含む。また、３つの“反復”ユニット（すなわち、ＡＬＵ＃２４１４、浮動小数点除算ユニット４０８、及び浮動小数点平方根ユニット４１０）があり、これらはより複雑な結果を計算する。レジスタファイル３０２と３０６は、プロセッサー１００の機能ユニットをビジーに保つための多重の読み書きポートを持たねばならない。整数レジスタファイル３０６は、７つの読み取りポートと３つの書込みポートを有し、浮動小数点レジスタファイル３０２は、５つの読み取りポートと３つの書込みポートを有する。整数及び浮動小数点のパイプラインはそれぞれ、２つの設けられたオペランドポートと、１つの設けられた結果ポートを適切なレジスタファイル内において使用する。ロード／ストアユニット４１６は、アドレス計算のために２つの設けられた整数オペランドポートを使用する。ロード／ストアユニットはまた、２つのレジスタファイルにおいて共有された書込みポートと共有された読み出しポートを介して、整数値か浮動小数点値かのいずれかをロードし、あるいは蓄積する。これらの共有されたポートはまた、整数レジスタファイルと浮動小数点レジスタファイル間でデータを移動させるために使用される。パイプラインでは、各命令の実行は、より簡単な動作の連続に分割される。各動作は、ステージと呼ばれる個々のハードウエア部分によって行われる。各ステージは、その結果を次のステージへ渡す。通常、各命令は、各ステージの単一サイクルのみを要求し、各ステージは、前の命令が後のステージによって完了されている間に、新しい命令を開始することができる。このため、新しい命令が、各サイクル間でしばしば開始可能である。パイプラインは、命令が実行される速度を大幅に改良する。しかしながら、パイプラインの効果的な使用は、いくつかの命令が並列に実行されることを要求する。各命令結果は、命令がパイプラインに入った後の数サイクル間利用することができない。このため、新しい命令は、まだパイプラインの中にある命令結果に依存しなくてもよい。プロセッサー１００は、オリジナルのプログラム順で命令をフェッチし、デコードするが、これらの命令を順番以外で実行し、完了するかもしれない。一旦完了すると、命令は、オリジナルのプログラムの順序で、“グラジュエイト（グラジュエイト）、ｇｒａｄｕａｔｅ”される。フェッチ命令は、図１に示すように、命令キャッシュから命令を読み出すことによって実行される。命令デコード動作は、従属チェックとレジスタのリネイミング（以下に説明）を含み、これらは、命令デコード及び従属ロジック２００と、マッピングテーブル２０４か２０６によってそれぞれ行われる。上記のように識別された実行ユニットは、命令のオペランドからの演算結果を計算する。結果が計算されてレジスタファイル３０２か３０６によって識別された一時レジスタに蓄積されたとき、実行は完了される。最終的に、グラジュエイト（グラジュエイト）は、新しい固定値としてこの一時的な結果を引き渡す。命令は、その命令とすべての前の命令が首尾よく完了されたときのみ、グラジュエイトすることができる。命令がグラジュエイトされるまで、命令は中断することが可能であり、すべての前のレジスタとメモリ値が、例外を伴う正確な状態にリストア（復元）されることが可能である。この状態は、次の命令に割り当てられた一時的な物理レジスタを“アンーネイミング（ｕｎｎａｍｉｎｇ）”することによってリストアされる。レジスタは、古いデステイネーションレジスタを関連されたマッピングテーブルに書き込み、かつ新しいデステイネーションレジスタをフリーリストに戻すことによって、無名(unmamed)にされる。リネイミング(renaming)は、逆のプログラム順で行われ、最終的に論理レジスタが一度以上使用された。リネイミングの後、レジスタファイル３０２と３０６は、その例外より前の命令によって生成された固定値のみを含む。しかしながら、命令がグラジュエイトされると、すべての前の値は失われる。アクテイブリスト２１２は、プログラム順の”アクテイブ”命令のリストである。これは、命令が完了されたとか、あるいは例外を検出したというような状態を記録する。命令は、命令がデコードされたとき、その底部に付加される。完了された命令は、それがグラジュエイトするときに、その上部から除去される。 II．ロード／ストアユニットＡ．ロード／ストアユニット概観マイクロプロセッサーは、整数及び浮動小数点のレジスタ値をそれぞれ蓄積するために、レジスタファイル３０６と３０２を使用する。各ファイルの幅は、それ自体マイクロプロセッサーのデータパスの幅と等しい。物理レジスタは、完了されたけれども未だグラジュエイトされていない命令についての仮の結果を蓄積するためにも使用されるので、レジスタファイル３０２と３０６は、論理レジスタよりも多くの物理レジスタを含むべきである。ある実施例では、レジスタファイルは、６４の物理レジスタを含み、これは、論理レジスタ数の２倍である。多重の読み書きポートが、各レジスタファイルに提供され、これによって、データがマイクロプロセッサの種々の機能ユニットから並列に読み書きできるようになる。一次命令キャッシュ１０２、データキャッシュ４２４、及びブランチスタック２１６は、データパスによって相互に接続される。必要な配線を最小限にするために、機能ユニットはデータパスを共用する。データパスの共用は、バスコンテンション（競合）を生じさせる。この問題は、機能ユニットを相互接続するべき２相のマルチプレクスされた単方向データパスを使用することによって軽減される。ロード／ストアユニット４１６は、例えば、ロード、ストア（蓄積）、プリフェッチ及びキャッシュ命令のような、マイクロプロセッサーのレジスタファイルと、データキャッシュ４２４と、メインメモリとの間のデータ転送命令を容易にする。通常、メインメモリは、データキャッシュ４２４を介してアクセスされる。データキャッシュは、最近使用されたデータをローカルな高速バッファメモリに保持することによってメモリ性能を非常に改良する。マイクロプロセッサー１００は、データキャッシュを増大するための２次キャッシュを含む。スペースの利用可能性に依存して、二次キャッシュ４３２は、個別のチップとして実行することができる。すべての“キャッシュされる”動作は、最初にデータキャッシュ４２４をアクセスする。もし、データがそこに存在していれば（“キャッシュヒット”）、ロードが２サイクルで完了される。さもなくば、二次キャッシュへのアクセスが開始される。もし、“ヒット”したならば、一次キャッシュは、”リフィル（補充）、refilled）され”、ロードが少なくとも８サイクルを要する。さもなくば、メインメモリは、二つのキャッシュの補充（リフィル）とともに読み出されなければならない。このような場合、ロードは、かなり長い時間を要するであろう。マイクロプロセッサー１００は、キャッシュされる動作を”順番以外で”実行する。命令のアドレスは、たとえもし前の命令が有効になるべきインデックスレジスタを待っているにしても、インデックスが有効になるや否や計算されることが可能である。キャッシュミスは、後の命令を妨げず（”ノンブロッキング”）、ユニットは、８つのキャッシュミスが処理されるまでの間、新しい動作を開始することができる。 “キャッシュされない”動作は、キャッシュをバイパスし、常にシステムバスをアクセスする。典型的に、キャッシュされない動作は、入力／出力装置や特別の目的のメモリをアクセスする。キャッシュされない動作は、命令がグラジュエイトしかけているときにのみ実行される。キャッシュされない動作は、例外の事象で未処理であることは許されないので、オリジナルのプログラム順序で連続的に行われる。キャッシュされない書き込みと読み出しの双方は、Ｉ／Ｏサブシステムの状態を変更することができる。キャッシュされない動作は、アドレススタックに保持されるが、従属チェックはこれらについて一切行われない。キャッシュされないストアのオペランドは、ストアバッファにコピーされるが、ロードバイパスは一切生じ得ない。ストアがグラジュエイトするとき、バッファされたデータは外部インターフェースに転送される。キャッシュされない動作は、それらがグラジュエイトするまで遅延されるけれども、キャッシュされた動作は、順番以外で進行され得る。すなわち、次のキャッシュされるロードが実行可能であり、そして、キャッシュされたストアが、タグチェックとキャッシュリフィル（補充）を開始できる。プリフェッチ命令は、メモリブロックを一次キャッシュと二次キャッシュにフェッチするのに使用される。それらは、キャッシュをリフィルするために必要な遅延を減少させることによって性能を増加するために使用され、しかし、それらは、プログラムの論理実行には何ら影響がない。プリフェッチ命令は、予測可能なメモリアクセスをもつけれども高いキャッシュミス率をもつプログラムをかなり改良することができる。しかしながら、プリフェッチ命令の不適切な使用は、一般のメモリアクセスと干渉することによって性能を減少させ得る。プリフェッチ命令には２つのフォーマットがあり、その結果、”ベース＋オフセット”（ＰＲＥＦ、オペコード６３ｏｃｔａｌ）か、”ベース＋インデックス”（ＰＦＥＴＣＨ、オペコード２３機能１７ｏｃｔａｌ）のいずれかのアドレッシングが使用され得る。これらの命令は、ミップステクノロジー社のＭＩＰＳＲ１００００ーＭＩＰＳIV ＩＳＡマニュアル（１９９４）、Ｃ．プライスにおいて、定義されている。各フォーマットは、どのプリフェッチ動作が予期されるのかを示す５ビットの”ヒント（ｈｉｎｔ）”フィールドを含む。しかしながら、アーキテクチャは、プログラムの結果に影響しないため、ハードウエアの実行がヒントフィールドや全体の命令を無視することを許容する。もし、問題に遭遇すれば、プリフェッチ命令は、いかなる例外を発生することなく中止される。プリフェッチされたデータは、一次と二次のデータキャッシュの双方にロードされる。”ヒント”フィールドは双方のキャッシュに適用する。アドレスキューがプリフェッチ命令を実行するときに、外部インターフェースがビジーであるならば、そのキューは、その命令を後で再び試みるだろう。しかしながら、もし、アドレスされたキャッシュセットが、従属ロックか、前のリフィル動作のために、リフィルされることができない場合には、命令は、何ら動作を起こさせない。マイクロプロセッサー１００は、ヒントフィールドの下位３ビットしか使用しない。もし、ビット０がセットされるなら、キャッシュは、書込み可能な、キャッシュブロックの独占的なコピーを要求する。さもなくば、キャッシュは、キャッシュブロックの共用されたコピーを要求する。もし、ビット２がセットされるなら、ビット１は、キャッシュミスがある場合にはどのウエイがリフィルされるかを選択する。もし、選択されたウエイがロックされるか、すでに一次データキャッシュにリフィルである場合には、プリフェッチ命令は、何ら動作を起こさせない。プリフェッチ命令は、デコードされ、キューされ、発され、そして、他のメモリ動作のようにタグチェックされる。しかし、プリフェッチは、１つのタグチェックサイクル後に、”済み”を付される。もし、キャッシュヒット（要求された書き込み許可で）があると、命令は完了される。もし、ミスがあって、キャッシュブロックが利用されるならば、キャッシュのリフィル動作は外部インターフェースから要求される。リフィル状態は、キャッシュタグに記録される。しかしながら、アドレススタックのエントリが”済み”であるため、完了されるべきリフィルを待たない。ロード／ストアユニットは、推論的に命令を実行することができる。これらは、ブランチが逆の場合には中止される必要がある。もし、中止された命令が、キャッシュのリフィルを模倣するならば、リフィルの動作は完了されるにちがいない。これらのリフィルは、プロセッサーの命令にもはや対応しないので、オーファンス（orphans）と呼ばれる。プリフェッチ命令はまた、最初のタグサイクルが完了されるや否や”済み”となるので、オーファンスを生じさせる。このキャッシュブロックのアドレスタグは、キャッシュのリフィルが完了されるまで、”リフィリング（補充する）”状態で残る。もし、次の命令が、このキャッシュブロックをアドレスするならば、これは、”リフィルの待ち”状態で最初にこのブロックを使用することができる。 B.動作図２を参照すると、ロード／ストアユニット４１６は、アドレスキュー３０８、アドレススタック４２０、アドレス計算ユニット（ＡＣＵ）４１８、ストアアライナ４３０、ロードアライナ４２８、トランスレーションルックサイドバッファ（ＪＴＬＢ）４２２、及びデータキャッシュ４２４を含む。データキャッシュ４２４は、セットアソシエイテブデータキャッシュであり、キャッシュタグアレイ４５０、キャッシュデータアレイ６１０、及びタグチェックロジック６６０を含む。ＴＬＢとデータキャッシュは、ロード命令のためのレイテンシイを減少させるために並列に動作するように構成され、動作速度で約１５％の性能改善をする。アドレスキュー３０８は、レジスタファイル３０６とアドレス計算ユニット４１８と連絡する。アドレスキューは、環状のファーストイン−ファーストアウト（ＦＩＦＯ）バッファのように構成された１６エントリを含み、キャッシュを操作する、ロード、ストア、及び”キャッシュ”命令のようなすべてのメモリ命令の軌跡を保持する。メモリ命令がデコードされるとき、それは、キューの底で次の連続的なエントリに割り当てられる。命令がグラジュエイトするとき、それは、リストの上部から除去される。グラジュエイションは、命令がエラーなしで完了し、かつ前の命令がグラジュエイトされた場合に生じる。命令は、たとえそれらが順番通りに実行されないおそれがあるにしても、オリジナルのプログラムの順番でグラジュエイトされる。アドレスキューの各エントリは、表Ｉに例示されたいくつかの命令フィールドを含む。メモリ命令のオペランドが利用されるとき、アドレスキューは、実行のため必要なオペランドをＡＣＵ４１８に送る。”インデックスされた”動作に関し、ＡＣＵは、レジスタファイル３０６からベースレジスタとインデックスレジスタのオペランドを受け取る。他のロードやストア命令に関する限り、アドレスキューは、レジスタファイル３０６を介してのベースレジスタオペランドと中間値を直接提供する。ＡＣＣ４１８は、前のサイクル中に受け取ったオペランドに対応する仮想アドレスを計算する。説明したように、データキャッシュは仮想的にインデックスされ、物理的にタグ付けされる。仮想アドレスそれ自体は、２つの部分、つまり” タグ”と”インデックス”に分けられる。ＴＬＢ４２２が仮想アドレスを物理アドレスあるいは実ページアドレスにトランスレーションする間に、仮想アドレスのインデックスは、どのキャッシュ位置をアクセスするべきかを決定するためにキャッシュに送られる。ＴＬＢと仮想メモリのアーキテクチャは、共通で所有されて、共同のペンデイング出願１５ー４ー１７４．００／１２１７８ー５６０で詳細に説明される。実ページアドレスは、タグあるいは物理タグとして引用され、これはキャッシュタグアレイ６５０に蓄積される。ＴＬＢが仮想アドレスを物理アドレスにトランスレーションしている間、仮想インデックスは、データキャッシュデータアレイとキャッシュタグアレイのデータ及びタグをそれぞれアクセスするために使用される。この方法では、物理アドレス、タグ、及びデータは、同時に利用可能である。タグチェック６６０は、タグと物理アドレスとを比較し、そして、もし一致すれば、要求されたデータがデータキャッシュ内に存在することを示すためのヒット信号を発生する。要求されたデータは、下位アドレスビットに従ってロードアライナ４２８によって整合され、そして、整数レジスタファイル３０２か３０６の転送先に書き込まれる。ストアパスは、レジスタファイル３０２と３０６からデータキャッシュ４２４へレジスタ値を書き込むために提供される。ストアアライナ４３０は、キャッシュに書き込まれるべきデータを整合する。バイパスパス６０１は、キャッシュされない動作についてのデータがデータキャッシュをバイパスするようにする。さらに、バイパスパス３９０は、ロード／ストアユニットの性能を改良するために提供される。マイクロプロセッサーが、データが書き込まれている同一サイクル中にある位置を読み出しているとき、バイパスパス３９０は、データがレジスタファイルかメモリを迂回するようにする。例えば、実行ユニットの結果は、そのような結果がレジスタファイルに書き込まれる間に従属命令が実行できるように、オペランドレジスタに直接にマルチプレクスされることを可能にする。このバイパスは、オペランドレジスタ数が前の命令のデステイネーションレジスタ数と等しい時はいつでも選択される。物理タグと仮想インデックスは、アドレススタック４２０にも書き込まれ、アドレススタック４２０は、アドレスキューの論理的な部分であるけれどもレイアウトの考慮のために物理的に離される。マイクロプロセッサーは、アドレスキューの各命令に対応する物理メモリを蓄積するためにアドレススタック４２０を使用する。従って、アドレススタックは、アドレスキューと同じエントリ数で実行される。データは、アドレス計算シーケンス中にアドレススタック４２０にロードされる。 III．データキャッシュＡ．データキャッシュ概観データキャッシュの詳細と動作は、付録ＩとIIのように含まれる。データキャッシュ４２４は、メインメモリの”キャッシュできる”領域をアクセスする命令をロードしたり蓄積するために使用される。データキャッシュ４２４は、２つの同一バンク、バンク”０”とバンク”１”でインターリーブされる。図３を参照すると、各バンクは、タグキャッシュアレイ６５０とキャッシュデータアレイ６１０を含む。タグアレイは、データアレイのデータのブロックと関連されたタグを蓄積する。データアレイは、他方で、最近に使用されたメモリデータを保持する。１つの実施例では、マイクロプロセッサーは、３２Ｋバイトデータキャッシュを使用する。各データアレイはそれ自体、２５６の行あるいはワードラインに分割された１６Ｋバイトからなり、各々は、４ダブルワード（８ワード）からなる２つのブロックを含む。各ダブルワードは、６４ビットに８パリテイビットを加えた全部で７２ビットを有する。データアレイは、２つのダブルワードを並列にアクセスすることができる。タグアレイ６５０に関する限りでは、これは、各々３５ビットの６４の行を有し、２つの３２ビットタグを並列にアクセスすることができる。バンク０とバンク１は、独立に動作し、仮想インデックスの値に基づいてアクセスされる。タグとデータのアレイは、アドレスキュー、アドレススタック、ＡＣＵ、及び外部インターフェースからの要求に割り当てられる。ある命令は、タグとデータのアレイが独立に動作することを可能にする。例えば、ストア命令は、タグアレイしか要求せず、このためデータアレイはフリーのままである。こうして、４つの機能ユニットは、それらが必要とするキャッシュアレイに割り当てられるならば、おそらく同時に動作することができる。各バンクは、２−ウエイセットアソシエイテイブである。実際には、キャッシュデータアレイ６１０とキャッシュタグアレイ６５０は、それぞれ２つのサブアレイかウエイに分割され、共用されたインデックスビットを有するメインメモリアドレスがマップされる追加の位置を提供する。これは、キャッシュのスラッシングを減少させ、キャッシュサイズを増加させることなく、ヒット率を改善する。タグアレイ６５０のサブアレイは、ウエイ”０”とウエイ”１”として引用され、データアレイについては、サブーアレイ０とサブーアレイ１として引用される。こうして、タグアレイは、２つのタグ（タグ０とタグ１）を並列にアクセスすることができ、各データアレイは、２つのダブルワード（ａｒ０データとａｒ１データ）を並列にアクセスすることができる。ＣＰＵと外部”質問（interrog ate）”の動作に関して、もし、所望のデータを含んでいるならば、キャッシュのどのウエイかを決定するために、タグ０とタグ１は並列にチェックされる（読み取りと比較がなされる）。ウエイは記憶され、ストアをグラジュエイトしたり、あるいは外部のリフィルかライトバック動作のために後に使用される。アレイは、仮想アドレスのインデックス部分（ビット１３：０）を用いて“仮想的にインデックスされる”。ビット５は、バンク＃０かバンク＃１を選択する。ビット２：０は、ダブルワード内のバイトを選択し、ビット４：３は、ブロック内のダブルワードを選択する。ビット１３：６、これはアレイ内のブロックをアドレスし、２５６”ワードライン”の一つを選択するためにデコードされる。各ワードラインは、８つのダブルワード、あるいは２つのブロックを含む。ビットは、これらのブロック内のダブルワードがプロセッサーや外部インターフェースの動作のために区別してアクセスされるように、インターレースされる。プロセッサーは、ｔｏｗブロックを有するダブルワードを連結的にアクセスする。他方、外部インターフェースは、同一ブロック内の２つのダブルワードをアクセスする。個別のアドレスマルチプレクサがデータとタグのアレイのために提供される。マルチプレクサ６２１は、データアレイ６１０による使用のために、外部インターフェース、アドレスキュー、アドレススタック、及びＡＣＵの中からのアドレス入力を選択する。タグアレイに関する限り、マルチプレクサ６２０は、外部インターフェース、アドレススタック、あるいはＡＣＵからアドレス入力を選択する。マルチプレクサ６１０と６２０のための選択信号（タグの選択とデータの選択）は、アドレスキューによって発生され、そして、表IIに示されるように、どの機能ユニットが各アレイを制御しているかを決定するために、キャッシュ制御論理によってデコードされる。別のデータマルチプレクサがまた、タグとデータのアレイのために設けられる。マルチプレクサ６２５は、タグアレイに書き込みを行うために、外部インターフェースかＪＴＬＢのいずれかからアドレスを選択する。マルチプレクサ６３０と６３１は、データアレイに書き込むために、外部インターフェースかレジスタファイルからのデータを選択する。キャッシュ部分がアドレス選択値”００”によって示されたように使用されないとき、それはパワーダウンである。パワーダウンモードでは、アドレスデコーダは、それがワードラインを選択しないようにデイスエイブルされ、ダミーワードラインは、センスアンプのいずれもがターンオンしないように、デイスエイブルされる。デコーダは、第１レベルのゲートの余分の入力を用いてデイスエイブルされる。ある実施例では、データキャッシュは、リセット期間中にハードウエアによって初期化されない。これらの実施例は、データキャッシュの使用を開始する前に、すべてのタグを”無効”状態に初期化させるためのブートストラッププログラムを要求する。もし、ブロックが”無効”であれば、そのデータアレイの内容は使用されない。Ｂ．データアレイ１．データアレイの組織図４を参照すると、データアレイ６１０は２５６行を含む。デコーダ４５０は、ワードラインをハイに駆動することによってどの行がアクセスされるかを選択する。各ワードラインは、５７６のセル（５１２データビットと６４パリテイビット）あるいはビットからなる行を駆動し、そしてゲートされ、３２セル毎にバッファされる。５７６ビットは、４ダブルワード（１ワードは４バイトに等しい）を含む各ウェイをもつ１つのキャッシュセットに等しい。ダブルワード内の４６１によって表わされる各ビットは、８つのセル４６１ａー４６１ｈを含む。セルは、キャッシュの各ウエイの４ダブルワードの各々からの１ビットに対応する。各セルの上の数は、キャッシュのウエイを表し、下の数は、ウエイ内のダブルワード数を表す。マルチプレクサ４７０は、信号Ｓ０によって制御され、センスアンプ４７５に入力するために、４ビット（ブロック内の４ダブルワードの各々からの１つ）から１ビットを選択する。センスアンプの出力は、サブーアレイ０からのデータを表す。同様に、Ｓ１は、マルチプレクサ４７１とセンスアンプ４７６がサブアレイ１から読み出されるビットを制御する。マイクロプロセッサーは、種々のアクセスパターンのためにプロセッサーと外部インターフェースのアクセスに異なる信号Ｓ０とＳ１を使用する。外部インターフェース動作の選択信号は、仮想アドレスビット４とウエイビットを使用し、ＣＰＵアクセスは、アドレスビット４：３を使用する。ＣＰＵと外部インターフェースのためのアクセスパターンは、表IIIに示される。サブアレイ０とサブアレイ１からのデータは、レジスタファイルにロードされるか、外部インターフェースを介してメインメモリに書き込まれる。レジスタロードのため、データは、マルチプレクサ４８０と４８５による他のキャッシュバンクからの対応するサブアレイ０とサブアレイ１のデータとマルチプレクスされる。選択バンク信号（ビット５）は、適切なバンクからロードアライナ４２８ａと４２８ｂまでデータをそれぞれ通過させ、かつマルチプレクサ４８６に送る。キャッシュヒット信号は、タグチェックロジックから発生され、もしあるなら、どのデータがキャッシュから読み出されたかを確認（ｄｉｃｔａｔｅ）しておく命令する。キャッシュが読み出され、かつそのタグが有効なエントリを示すときはいつでも、すべてのバイトは、パリテイチェッカー４７７によって適当なパリテイチェックをされる。もし、ロード命令中にバイトにエラーがあるならば、プロセッサーは、”データキャッシュエラー”の例外を取る。メモリへの書き込みに関する限り、マルチプレクサ４９０と４９１は、仮想アドレスビット５によって示された所望のデータを選択する。それ以後、データは、位相マルチプレクサ回路４９５に進められ、この回路は、クロックサイクルΦ １の期間で第１のダブルワードを、同一クロックサイクルのΦ２期間で第２のダブルワードを書き込む。パリテイチェッカー４７８は、適当なパリテイのためにダブルワードのすべてのバイトをチェックし、もしエラーが発生したら、プロセッサーは、”外部インターフェースデータキャッシュエラー”の例外を取る。データは、レジスタファイルか、あるいは外部インターフェースのいずれかからキャッシュアレイに書き込まれる。レジスタファイルからのデータは、ストアアライナ４３０によって整合され、マルチプレクサ４８８と４８９によって外部インターフェースからのデータとマルチプレクスされる。マルチプレクサは、選択信号に従い、かつ、セルの各列の下に位置されたドライバ４６９ａー４６８ｈを介してキャッシュに書き込まれるデータを選択する。これらのドライバは、書き込まれているアドレスに従いイネーブルされる。レジスタストアのためにパリテイ発生器４９９ａによって発生された、あるいは外部インターフェースストアのためにパリテイ発生器４９９ｂにいよって発生された偶数パリテイビットは、データキャッシュに蓄積された各バイトに付加される。各パリテイビットは、そのバイトが書き込まれるときはいつも、書き込まれる。前述したように、データアレイは、２つの別のアクセスパターンに組織化される。ブロックを二次キャッシュにロードしたりコピーする間に、２つのデータアレイは、同一ブロック内の一対の隣接するダブルワードをアクセスする。タグチェックと同時に起こる読み出しに関し、各アドレスされたワードは、２つのブロックから読み出され、一致するタグを有するブロックが選択される。他のブロックからのデータは無視される。書き込みに関し、これはタグチェックが完了した後で生じるが、アドレスされたブロックだけが書き込まれる。図５を参照すると、キャッシュアレイの各ブロックは、いずれかのアクセスパターンを許可するために、２キャッシュウエイ間でワード４５５ー４５８が交替するように構成される。これは、アレイがキャッシュウエイに対応していないからである。ダブルワード０は、いずれかのアレイにあることができる。ブロック４５９ａにとって、偶数のダブルワード（Ａｄｒ［３］＝０）がアレイ０内にあり、奇数ダブルワードがアレイ１内にある。ブロック４５９ｂでは反転される。これは、もし、各ウエイからのデータラインが２−ダブルワードの幅でないならば、従来の２−ウエイセットアソシエイテブで不可能であったであろう、同一ウエイからの２つのダブルワードのアクセスを可能にする。これは、２倍のセンスアンプ数を必要とする。また、マルチプレクサを使用することによって、外部インターフェースは、クウオードワードアクセス内のダブルワードをスワップすることができる。センスアンプは、ラムセルと比べて、比較的大きい。キャッシュアレイの密度それ自体は、センスアンプの幅によって制限される。マルチプレクサを使用することによって、センスアンプ数は、４つの要因の一つによって減少され、これは、ラムセルがより高密度にパックされることを可能にする。結果として生じる利益は２倍である。第１に、セルを互いにより近接して配置させることが可能となることによって、アレイの伝播の遅延は減少される。第２に、チップ空間のかなりの節約は、コスト低減のためのダイサイズの減少に使用され、かつ／あるいは、ＣＰＵ性能を効率よく増加させるためにより積極的な機能ユニットの設計に使用される。図６を参照すると、各ラインの５７６セルが、ロード及びストアのアライナにおける配線を最小限にするパターンに配置される。ハイレベルで、ビットは、バイト内のそれらの位置によってインターレースされる。すなわち、各ダブルワードは、８つの８−ビットバイトを含み、これらのビットは各バイト内で０から７まで番号付けされ、これは、モジュロ８のビット数に等しい。すべての”ビット０”は、ともにグループ化され（ビット０、８、１６、２４、３２、４０、４８、５６）、それから、”ビット１．．．”等がグループ化される。各サブアレイにとって、各ビットグループ４８８内に３２セルがある。セルのレイアウト密度のために、行毎に単一のローカルワードラインのためだけの場所がある。これらの３２のセルは、ビットグループ内の８ビットの各々についての４つのセルから構成される。これらの４つのセルは隣接し、同一のセンスアンプに配線される。これらのセルの１つは、４ー１マルチプレクサによって選択され、これは、すでに説明した通りである。キャッシュアレイの各バンクは、下端部に沿って１４８のセンスアンプを含む。これらのうち、１４４のセンスアンプは、２つのアレイの各々について６４ビットのデータと８ビットのパリテイを読み出す。これらのセンスアンプの各々は、４つのセルの列の下方にあり、４ー１入力マルチプレクサを含む。２．データアレイ制御論理図７を参照すると、ロジック７００が、データキャッシュを制御する。データキャッシュの各バンクは、プロセッサーか外部インターフェースのいずれかによって、読み出されあるいは書き込まれる。２つの動作は、個々のバンクで同時に起こることが可能である。プロセッサーは、ダブルワード（６４ビット）内のバイトを書き込む。バイトマスクデコーダ７０１は、各バイトの書き込みを制御するために、アドレススタックからの８ビットバイトマスクをデコードする。書き込みは、もし、ストア命令がグラジュエイトし、かつそのバンクが選択される場合に、各バンクでイネーブルされる。外部インターフェースは、全体のクオードワード（１２８ビット）を書き込む。書き込みは、”リフィル”か”リフィル済み”のコマンドを用いてイネーブルされる。選択バンク信号は、どのバンクのキャッシュアレイが書き込まれるかを決定する。プロセッサーは、もし、その選択バンクが選択されたならば、キャッシュバンクを読み出す。外部インターフェースは、もし、コマンドが”データ読み出し” であるならば、キャッシュバンクを読み出す。選択バンク信号は、どのバンクデータが書き込まれたかを確認（ｄｉｃｔａｔｅ）しておく。図８は、８ビットスライスを例示し、これは、０ないしモジュロ８と等しい全ビットを含む。データキャッシュは、２つの同一のバンク７２０ａと７２０ｂを含み、各々は、欠陥カラムを置き換えるために使用され得る、メモリセルの冗長カラム７２５ａと７２５ｂを含む。これらのバンクは物理的に隣接され、これらの間のチャンネル７２７は、５００ミクロン幅の配線である。これらのレイアウトは、鏡像配置を成し、その結果、すべての読み書きアンプ７２６ａと７２６ｂは、チャンネルに隣接する。ＣＰＵと外部インターフェースは、それぞれデータキャッシュを読み書きする。ＣＰＵは、ダブルワード処理を行い、これは、６４ビットに８パリテイビットを加えたもの（全体で７２ビット）を含む。外部インターフェースは、クオードワード処理を行い、これは、１２８ビットに１６パリテイビットを加えたもの（全体で１４４ビット）を含む。配線を最小限にするために、このデータは、ダブルワードバス上に位相マルチプレクスされる。ＣＰＵと外部インターフェースはそれぞれ、読み書きのためにそれぞれ７２ビット幅の単一方向バス７３０と７３１を使用する。これらのバスは、チャンネルを共用することが出きる。各ＣＰＵバスは、データキャッシュの下方で完全な幅であるが、上方でゼロの幅に先細になり、各バスは、上方で完全な幅であるが、下方でゼロ幅に先細になる。これらのバスと関連された制御信号とは、３層メタルで配線される。チャンネルは配線制限される。外部インターフェースは、リフィル動作中のみデータキャッシュを書き込む。２つのダブルワードは、書き込みサイクルの前のサイクル中に転送される。最初のダブルワードは、位相ー１と位相ー２のラッチ７３５と７３６を用いて２度ラッチされる（これは、中央のサイクルでクロックされるエッジトリガレジスタを作る）。２番目のダブルワードは、サイクルの終わりで位相ー２のラッチ７３７でラッチされる。このデータは、次の位相１の間にいずれかのキャッシュバンクに書き込まれる。ウエイ０に関して、最初のダブルワードは乗算器７４５か７４６を介してサブアレイ０に書き込まれ、２番目のダブルワードは、マルチプレクサ７４７か７４８を用いてサブアレイ１に書き込まれる。ウエイ１に関して、ダブルワードは逆にされる。外部インターフェースは、ライトバック動作期間中にのみデータキャッシュを読み出す。これは、常にサイクルにつき１つのクオードワードを読む。このデータは、各センスアンプ内の位相ー１のラッチでラッチされる。このデータは、位相２と次の位相１の間に、２つのダブルワードに送られる。スピードに関して、送付するマルチプレクサ７４０は、クロック７４１ａと７４１ｂを用いて直接に選択される。この入力は、２つの７２ビットの４ー１マルチプレクサによって駆動される。２番目のダブルワードは、位相ー２のラッチでラッチされ、その結果、この出力は、次のサイクルの位相１の間に有効を維持する。各入力は、いずれかのバンクのいずれかのアレイから選択され得る。ウエイ０に関して、第１のダブルワードはアレイ０から選択され、第２のダブルワードはアレイ１から選択される。ウエイ１に関して、ダブルワードは逆にされる。キャッシュされないロード命令に関して、外部インターフェースデータは、データがキャッシュに書き込まれることがないことを除いて、フリーロード動作のように、ＣＰＵのロードアライナ４２８ａと４２８ｂへのキャッシュをバイパスする。キャッシュされないストア命令に関して、ＣＰＵデータは、キャッシュをバイパスし、次の位相２の間に外部インターフェースへ送られる。Ｃ．タグアレイ１．タグアレイの組織キャッシュタグアレイは、データアレイの各８−ワードブロックにつき３６ビットアドレスタグを蓄積し、かつ、データアレイの約８分の１のビットを持つ。各行につき６４ワードライン（データアレイの１／４）と２８８セル（半分以下）がある。このため、タグアクセス時間は、データアレイよりも高速である。キャッシュデータアレイと同様に、キャッシュタグアレイは、２つの同一のバンクに分割され、各々は、プロセッサーや外部の要求に対して独立に動作することができる。バンクは、ブロックアドレス（ビット＃５）の低位ビットによって選択される。キャッシュタグアレイは、仮想アドレスビット［１３：６］によってアドレスされ、これは、２つのブロックのセットを選択する。各バンクには２５６セットがある。各セットは、２つのブロックを含む。このため、２つのバンクは、１０２４ブロック（キャッシュサイズが３２Ｋバイトー３２バイト／ブロック）を含む。各セットの２つのタグは、並列に読み出され、キャッシュがアドレスされたデータを含むかどうか（”ヒット”）を決定するために、所望の物理アドレス（ビット３７：１２）と同時に比較される。図９は、タグバンクの１つと関連した制御論理を例示する。タグアレイは６４の行を含む。デコーダ７５２は、仮想アドレスビット１８：８を用いてワードラインをハイに駆動することによってどの行がアクセスされるかを選択する。各ワードライン７５３は、２８８（８つの３６ビットタグ）の行を駆動する。３６ビットは、４タグを含む各ウエイを持つ１つのタグセットに等しい。タグの各ビット７５１に関して、８セル７５５ａ−７５５ｈが設けられる。セルは、キャッシュの各ウエイの４つのタグの各々からの１ビットに対応する。３６ビットタグについて、これは３６回繰り返される。各セルの上の数はウエイを表し、下の数はウエイの行内のタグ数を表す。データアレイと異なって、タグビットは、各サブアレイが同一のウエイに属するタグのみを含むように、インターリーブされる。マルチプレクサ７５８は、信号の仮想アドレスビット７：６によって決定されるように、センスアンプ７６０に入力するために、４ビット（４タグの各々から１つ）から１ビットを選択する。センスアンプの出力は、ウエイ０からのタグデータ（タグ０）を表す。同様に、マルチプレクサ７５９とセンスアンプ７６１は、ウエイ１から選択されたタグデータ（タグ１）を出力する。この方法では、各セットからの２つのタグが並列に読み出される（バンク０からの２つとバンク１からの２つ）。再度、マルチプレクサの使用は、必要とされるセンスアンプ数を減少させる。各バンクは、４つのタグチェック比較器を有し、プロセッサ（７５６と７６６）についての２つと、外部インターフェース（７６３と７６８）についての２つである。各々は、キャッシュが、２つの独立２−ウエイセットアソシエイテブバンクでインターリーブされるため、２つの比較器を必要とする。各バンクは、プロセッサーか外部インターフェースのいずれかのために２つのタグを読み出すことができる。これらのタグ信号は、比較器の入力でマルチプレクサ７７０ー７７３を使用してマルチプレクスされる。マイクロプロセッサーは、ＪＴＬＢからトランスレートされた物理アドレスか、タグと比較するアドレススタックからのアドレスのいずれかを選択するために、マルチプレクサ７７６を使用する。ＪＴＬＢは、重要なタイミング通路である。比較の結果がキャッシュ”ヒット”信号である（もし、タグが存在すればヒットであり、タグが存在しなければミスである）。また、タグパリテイビットは、パリテイチェッカー７６７と７６８によってチェックされる。パリテイエラーは例外を引き起こす。外部インターフェースあるいはロード／ストアユニットのいずれかからのタグは、タグアレイに蓄積されることができる。マルチプレクサ７７５は、所望のタグとバッファ７５６ａー７５６ｈを選択し、これらは、仮想インデックスに従い選択的にイネーブルされ、データをタグの適切な位置に書き込む。パリテイ発生器は、タグがアレイに書き込まれるときはいつでもパリテイを発生する。図１０を参照すると、各タグは次のフィールドを含む；アドレス７８５、パリテイ７８６、ウエイ７８７、状態７８８、パリテイ７８９、修飾子８９０、及びＬＲＵ（最も少なく最近使用された）７９１である。タグフィールドは、表IVに述べられる。アドレスとタグビットは、個別の書き込みイネーブルを有し、このため、状態ビットは、アドレスビットを変更することなく修飾可能である。このため、これらのフィールドは、パリテイビット７８６と７８９を分離させる必要がある。ブロックが二次キャッシュからリフィルされるとき、二次キャッシュ内で見つかったウエイは、ブロックのデータキャッシュタグフィールド７８７に書き込まれる。この情報は、ブロックが二次キャッシュにライトバックされる場合に使用される。各データキャッシュブロックの状態は、３ビットコードによって決定される。このコードは、２ビット状態コード（ＴａｇＳｔ［１：０］）を有するリフィルビット（ＴａｇＳｔＭｏｄ［２］）を連鎖することによって形成される。これらは、７つの状態である。無効；Ｉｎｖａｌｉｄ（０００，”Ｎ”）：このブロックは空である。アドレスとデータフィールドは無視される。タグ比較器は、常に無効ブロックについて ”ミス”を発生する。共有；Ｓｈａｒｅｄ（００１，”Ｓ”）：このブロックは”共有される”。すなわち、このブロックの有効なコピーはまた他のキャッシュにも存在することができる。プロセッサーは、このブロックを読むことができるが、これを修飾することはできない。クリーンイクスクルーシブ；ＣｌｅａｎＥｘｃｌｕｓｉｖｅ（０１０，”Ｅ” ）：このキャッシュは、このキャッシュブロックの有効なコピーだけを含む。プロセッサーは、このブロックを読み出すことができるが、一次及び二次キャッシュの双方に”ダーテイ”をマークするまでは、それを修飾することができない。ダーテイイクスクルーシブ；ＤｉｒｔｙＥｘｃｌｕｓｉｖｅ（０１１，”Ｄ”）：このキャッシュは、このキャッシュブロックの有効なコピーだけを含む。これを読み書きすることができる。リフィルクリーン；ＲｅｆｉｌｌＣｌｅａｎ（１００，”ＲＣ”）：このキャッシュは、キャッシュのブロックをロードするためにリフィルをすでに開始し、戻されるべきデータを待つ。このリフィルは、ロード命令によって開始された。ブロックの状態は、共有（ｓｈａｒｅｄ）かあるいは独占的（ｅｘｃｌｕｓｉｖｅ）であることができる。アップグレード共有；ＵｐｇｒａｄｅＳｈａｒｅｄ（１０１，”ＵＳ”）：このキャッシュは、共有のブロックを含むが、これはダーテイーイクスクルーシブにアップグレードされることを要求された。これは、無効化をするために外部インターフェースを待っている。アップグレードクリーン；ＵｐｇｒａｄｅＣｌｅａｎ（１１０，”ＵＣ”）：このキャッシュは、クリーンイクスクルーシブブロックを含むが、ダーテイーイクスクルーシブにアップグレードされることを要求された。これは、二次キャッシュブロックを”ダーテイ”のようにマークするために、外部インターフェースを待っている。リフィルダーテイ；ＲｅｆｉｌｌＤｉｒｔｙ（”ＲＤ”）：このキャッシュは、キャッシュのブロックをロードするためにリフィルをすでに開始し、戻されるべきデータを待っている。このリフィルは、ストア命令によって開始され、そして、ブロックの状態は”ダーテイイクスクルーシブ”であるだろう。ＬＲＵフィールド７９１は、キャッシュの各セット内のどのブロックが最も少なく最近使用された（ＬＲＵ）かを示す。２つの古いブロックの１つを置き換える必要があるとき、ＬＲＵブロックは、統計学的に次に使用されそうもないため選択される。このビットは、プロセッサーがキャッシュリフィルを開始するときのみ使用され、選択されたキャッシュセットの双方のブロックは有効であり、ロックされない。（すべてのプログラムに対しての最高のアルゴリズムというわけではないけれども、ＬＲＵキャッシュ置換アルゴリズムは、通常ランダムな置換アルゴリズムより数パーセントのミス数を減少させる。）タグアレイは、１セットのキャッシュ（すなわち、２つのブロック）につき１ＬＲＵビットを含む。プロセッサーが、キャッシュのブロックに関してヒットを得るときはいつでも、このビットは、このセットの他のブロックを選択するために更新される。すなわち、このブロックは、他のブロックよりもより最近使用された。ミスが生じるとき、及び新しいブロックがキャッシュ内にリフィルされるとき、このビットは、他のブロックを選択するために更新される。一般に、Ｗビットはデータアレイ内に配置され、タグアレイ内ではない。上述したように、Ｗビットは、キャッシュリフィル、外部インターロゲイト（質問）、あるいはキャッシュ無効化のように、データがデータキャッシュから除去されるときはいつも読み出される。これらの動作は、Ｗビットをチェックするとともに、タグアレイの割り当てを要求する。従って、タグとデータのアレイ双方が割り当てられる必要がある。しかしながら、Ｗビットをタグアレイ内に配置させることによって、データアレイからデータを除去する動作は、タグアレイのみをアクセスする必要がある。これは、データアレイが別の実行ユニットに同時に割り当てられることを可能にし、こうして、マイクロプロセッサーの性能を改善する。ＬＲＵは、統計的にキャッシュにヒット率を増加させることによって、マイクロプロセッサーの性能を改善する。従って、これは性能上のみの特徴であり、これはアーキテクチャ的に定義されない。ヒットあるいはミスの結果を生じ得るタグチェックサイクルは、順番以外で発生することがあり、しかも、これらは、推論的に発生し得る。ＬＲＵビットそれ自体は、プログラムのデータ参照に正確に一致することを保証されるものではない。ＬＲＵビットは、特別の二重ポートＲＡＭセルを用いて構成される。第２のポートは、キャッシュヒットがあった場合に、プロセッサーのタグチェックサイクルの位相２中に、ＬＲＵビットを更新するために使用される。余分のポートは、標準の６トランジスタキャッシュセルよりも２つの余分のトランジスタを必要とする。ＬＲＵビットは、タグの残りとともに読み出すことができる。ＬＲＵビットは、タグが位相２の間に書き込まれたときに、２番目のポートを使用してのみ書き込まれる。３ビット修飾子フィールドは、ブロックの２ビット状態の内容を変更する。これらのビットは、ＬＲＵビットと同様に特別の二重ポートメモリセルで実行されるため、状態フィールドから分離される。このフィールドは、キャッシュヒットがあったか否かに基づいてタグチェックサイクルの位相２の間に書き込まれることができる。各行につき１２の修飾子セルがあり、これらは、各行の４つのブロックの各々について３ビット修飾子を蓄積する。３つのセンスアンプがある。これらのビットは、外部インターフェースが一次データキャッシュを詮索するときに読み出される。状態修飾子のビット２は、”リフィル”ビットである。これは、プロセッサーが外部インターフェース対してアップグレードか、あるいはリフィルの要求を発したことを示す。プロセッサーだけが、これをセットする。これは、プロセッサーがリフィルのコマンドを発した後の次のサイクル間に書き込まれる（タグの残りとともに）。あるいは、位相２の間に状態修飾子フィールドのみを変更することによってセットされ得る。状態修飾子のビット１は、各ブロックについて”書き込まれた”（”Ｗ”）ビットである。このビットは、データが一次データキャッシュに書き込まれ、かつ、これが二次キャッシュと一致しないことを示す。二次キャッシュにライトバックする必要があるかどうかを決定するためにキャッシュからブロックが除去されるときはいつも、外部インターフェースは、このビットを読み出す。ブロックがキャッシュにリフィルされるとき、このビットは、ロード命令のために最初’０ ’であるか、あるいはストア命令のために’１’である。ストア命令が、このブロックを使用するときはいつでも、後からセットされることが可能である。ビット０は、リフィル、あるいは書き込まれたビットのいずれもがセットされないときに、セットされる。このビットは、状態修飾子フィールドに関する奇数パリテイチェックとして働く。各有効状態は、１つの“１”ビットセットを有する。３ビットは、３つの状態を符号化する。各コードは、１ビットセットを持っているため、奇数パリテイを効率よく実行する。パリテイエラーは、もし他のパターンが読まれるなら、信号を発する。２．タグアレイ制御論理アドレスキューは、データキャッシュが要求するデータを含んでいるかどうかを決定するために”タグチェック”サイクルを実行する。外部インターフェースは、二次キャッシュブロックを無効化するときに、タグチェックサイクルを実行する。図１１ａは、タグチェック回路の１実施例を示す。２つの２８ービットアドレスタグ（物理アドレスビット３９：１２）への所望のアドレスは、それぞれイクスクルーシブーオアゲート８０１において対応するタグビットと比較される。簡潔のために、一つのゲートだけが例示されるが、当業者にとってビット毎に一つのゲートがあることは明らかであろう。もし、ビット位置が異なれば、ゲート８０１の出力は、”キャッシュミス”を示す論理”０”である。イクスクルーシブーオアゲートの出力は、Φ２の立ち上がりを用いて、２８ー入力ダイナミック” オア”ゲート８０２で結合される。ダイナミック”オア”はスタチックゲートよりも非常に高速であるが、クロックのタイミングとスキュー（ｓｋｅｗ）に依存する。ダイナミック”マッチ”ノード８０３は、Φ１間にハイにプリチャージされる。これは、もしアドレスビットが一致しない場合、Φ２間にデイスチャージされる。こうして信号は、”ヒット”についてハイを維持し、”ミス”はΦ２の開始直後にフォーリング（落下）エッジとなる。ダイナミックオアゲートの出力は、インバーター８０３によって反転され、これの出力は、”ミス”がある時に Φ２の開始後約２．５ゲートー遅延で上昇するパルスである。さもなくば、その出力はゼロを維持する。この明瞭な出力信号は、次の論理を単一のエッジ遷移に関して最適化させる。これはまた、長い距離を分散される６４ビットバス上のノイズを最小限にする。比較器８０５への余分の入力は、もし、ブロックの状態が“無効”であるならば、”ミス”を強要する。（ブロックは、もしタグの状態ＤＣ０Ｓｔａｔｅ［１：０１］が“００”であり、かつブロックが”リフィル“（ＤＣ０Ｍｏｄ［２］＝０）でないならば、無効である）。高速ダイナミック比較器８０５は、並列のトランジスタを有する論理オアゲートを実行するため、通常”キャッシュミス” のためのパルスを発生する。ダイナミックノードは、ハイにプリチャージされる。このノードは、ローにプルされ、入力ビットがミスマッチである場合に、出力パルスが発生される。このパルスの立ち上がりエッジは、ダイナミックあるいはバイアスされたロジックをスイッチングするために使用することができる。しかしながら、”ヒット”に関してはエッジがない。ウエイチェック論理８１１は、タグチェックサイクル中にキャッシュのどのウエイが所望のデータを含んでいるかを決定する。もし、いずれかのデータアレイが、ロード命令のために同時に読み出されている場合には、タグチェックは、その２つのウエイ間で選択する。さもなくば、”ウエイ”は、命令が再度試みられるまでアドレスキューに蓄積される。キャッシュ”ミス”パルス（ミスＡ；ＭｉｓｓＡ、ミスＢ；ＭｉｓｓＢ）は、データキャッシュの２つのウエイに対応する。しかしながら、上述したように、これらのウエイは、データアレイに対応しない。各キャッシュブロック内で、ダブルワードはアレイ間で交替する。偶数のダブルワード（Ａｄｒ［３］＝０）では、ウエイ０がアレイ０であり、ウエイ１がアレイ１である。奇数のダブルワード（Ａｄｒ［３］＝１）では、ウエイ０がアレイ１である、ウエイ１がアレイ０である。従って、２つのダイナミックの３−１マルチプレクサ（ミス０；Ｍｉｓｓ０、ミス１；Ｍｉｓｓ１）を用いて、Ａｄｒ［３］＝１であるとき、ミス信号は相互に交換される。都合上、１つのマルチプレクサ８１５のみが示されている。マルチプレクサ８１５は、ミスＡとミスＢ間で選択する。マルチプレクサの３番目の入力は、ウエイが既に知られているときに使用される。この回路は、Φ１間にプリチャージされる。すべての入力は、Φ ２でゲートされる。キャッシュ”ミス”パルスは、ダイナミックデータマルチプレクサ８２０を選択するために使用される。この回路は、実際に“アンド−オア”ゲートである。もし、ウエイ０にミスがあるならば、ウエイ１についてのデータが選択される。もし、ウエイ１にミスがあるならば、ウエイ０についてのデータが選択される。このため、もし双方のウエイがミスであるならば、双方のウエイについてのデータビットは論理的にオアされるが、この結果は使用されない（比較器は、”ミス ”についてのエッジのみを発生し、”ヒット“については発生しない。これは、厄介なものではあるが、ダイナミックマルチプレクサに何ら問題を生じさせるものではない。しかしながら、もしパスゲートマルチプレクサが使用されるならば、双方の入力をターンオンすることは、大きなノイズを生成する。）これは、各”ミス”信号が速度について最適化され得ることを意味し、乱調状態は生じない。ミスマルチプレクサは、長い配線と大きいバッファを駆動する。素早くローにスイッチするために、”ミス”信号にはｎチャンネルトランジスタが使用される。“既知”（ｋｎｏｗｎ）の入力は、高速にスイッチするため、より小さなトランジスタの使用を可能にする。最終的な”ミス”バッファは、６４のトランジスタと、データキャッシュの背に沿う約６０００ミクロンの配線を駆動する。図１１ｂを参照すると、論理回路８５０は、”ロードダン；ＬｏａｄＤｏｎｅ信号を命令キューとビジービットテーブルに提供する。この信号は、タグチェック回路の出力から得られ、プロセッサーが連続的に”ロード”命令を完了するときのサイクル中に発生されるようにすることができる。タグチェックサイクル中、キャッシュがアドレスされたデータを含み、かつ従属はその使用を全く妨げないことを示す。リフィルのサイクル中、二次キャッシュはアドレスデータを含み、かつＥＣＣエラーが全く検出されなかったことを示す。“ジャストロード；ＪｕｓｔＬｏａｄ”サイクル中、これはデータアレイのみを読み出すものであり、ＬｏａｄＤｏｎｅは、常に主張される。ＬｏａｄＤｏｎｅは、重要なパス信号である。速度に関して、ダイナミックロジックを用いて部分的に実行されるが、これは、一次キャッシュの状態ビットとヒット信号から駆動される。論理回路８５０は、ヒット信号のバッファリングに伴う遅延を防ぐために、タグヒット比較器に物理的に隣接する。示されるように、ＬｏａｄＤｏｎｅ信号は、２つの回路ステージ８５１と８５２で発生される。回路ステージ８５１は、ＩｇｎｏｒｅＨｉｔＢ、ＩｇｎｏｒｅＨｉｔＡ、ＭｉｓｓＡ、ＭｉｓｓＢに応答してＬｏａｄＭｉｓｓを発生する。 “ＬｏａｄＭｉｓｓ”信号は、いずれのキャッシュウエイも、適格な”ヒット “信号を発生しなかったことを示す。しかしながら、タグ比較器の出力（ＨｉｔＡとＨｉｔＢ）は、ゲートされる必要がある。アドレスキューは、ブロック間の従属を検出した場合、キャッシュのウエイのいずれかあるいは双方に関してキャッシュヒットを禁止する。キャッシュヒットはまた、もしブロックが未だリフィルされているならば、無視されなければならない。この場合、アドレスマッチとタグ比較器は、”ヒット”を発生するが、データは未だ利用することができない。リフィルに関して、タグ修飾子ビット２がセットされ、タグ状態は、００（リフィルクリーン；ＲｅｆｉｌｌＣｌｅａｎ）か、１１（リフィルダーテイ；ＲｅｆｉｌｌＤｉｒｔｙ）のいずれかである（ブロックがストア命令のためにアップグレードされるとき、タグ修飾子ビット２がまたセットされる。タグ状態は、０１か１０のいずれかである。キャッシュデータは、キャッシュ内で有効であり、ロードのために使用することができる）。回路ステージ８５２は、ＬｏａｄＭｉｓｓからのＬｏａｄＤｏｎｅ信号と、アドレスキュー、ＬｏａｄＤｏｎｅＤｅｆ，及びＬｏａｄＤｏｎｅＨｉｔによって送られた２つの制御信号とを駆動する。ＬｏａｄＤｏｎｅＤｅｆは、キャッシュヒット信号にかかわらず、“ロード済み；ＬｏａｄｉｓＤｏｎｅ”であることを示し、ＬｏａｄＤｏｎｅＨｉｔは、キャッシュヒットがある場合に、”ロード済み”であることを示す。表ＶはＬｏａｄＤｏｎｅ信号についての論理的な等式を示す。回路ステージ８５１と８５２は、４×３ダイナミック“アンド−オア”ゲートで実行されることができる。回路のクリテイカルなパス入力は、タグ比較器からの”ミス”パルスである。これらは、”ヒット“信号の補数であり、従って、この等価が補数される（５番目の条件であるＩｇｎｏｒｅＨｉｔＡ＆ＩｇｎｏｒｅＨｉｔＢは省かれた。キャッシュは、双方のウエイ上にヒットを同時に適切に発生することができないため、これは冗長である）。出力信号は、位相２中のパルスである。これは、長い配線を駆動するためにバッファされる。この立ち上がりエッジは、出力バッファのトランジスタのレシオを取ることによって速度に関して最適化される。図１２は回路８７０を示し、これは、各”キャッシュヒット”についてのＬＲＵとタグ修飾子回路にパルスを提供する。回路は、”ミス”信号を反転し、それをタイミングパルスでゲートする。グリッチを避けるために、タイミングパルスは、”ミス”信号がスイッチした後に開始する。この信号速度は、どのくらいの多くのビットが異なるのかということに依存し、これは、各々異なったビットが並列トランジスタの一つをターンオンさせるからである。スイッチングは、１ビットだけが異なるとき、最も遅い。タイミングパルスはダミー比較回路を用いて発生され、この回路は、単一ビットの差の時間をシミュレートする。この出力は、イネーブルとＴａｇＭｏｄ［２］でゲートされ、これは、もしブロックがリフィルされている場合、”ヒット”を禁止する。このようなゲートを介しての遅延は、スイッチングのグリッチを除去するタイミングマージンを提供する。図１３は、タグローデコーダ９００を示し、これは、どのワードラインが主張（アサート）されるかを選択する６ビットー６４ビットのローデコーダである。デコーダの入力は、アドレス計算ユニット、アドレススタック、あるいは外部インターフェースによって提供されるアドレスから選択される。アドレスは位相２の終わりでラッチされ、その結果、次の位相１期間でｗｏｌｄラインが駆動されている間は安定である。デコードは、プリデコードとドライバーに分けられる。プリデコーダ９０１において、上位３ビット（１３：１１）と下位３ビット（１０：８）は、３−８デコーダ９０２と９０３によってそれぞれ個別にデコードされる。各プリデコーダは、１つのハイ出力を有する。下位デコーダ９０３は、タグアレイをデスエイブルするために、すべての出力をローに強制することができ、これによって、タブアレイの最大電力消費を削減することができる。これらのデコーダは、中央でアレイに隣接する。出力は、ウエイ間の信号をローデコーダまで駆動する。各出力は、タグアレイ間に分散されることができる８つの負荷を駆動する。各アレイには、６４のワードラインドライバー９１０がある。１つのドライバーは、プリデコーダ９０１からの１つの入力を論理的にアンドすることによって選択される。”アンド“ゲートの出力は、各サイクルの終わりまで安定にするべきである。これは、次のサイクルの最初の半分の間に、パルスを発生するために Φ１でゲートされる。プリデコーダは、次のサイクル中で使用するために、その出力をラッチする特別の回路を有する。出力は位相１でラッチされ、他方、ワードラインは駆動されている。このラッチされた出力は、位相２で新しい入力の代わりに選択可能である。この選択は、選択信号の発生が遅すぎるため、プリデコーダの出力で行われる（もし、ラッチされたデコードが使用されるなら、ラッチは、出力に結合された入力とともに、次の位相１で透過される。これは、信号が等しいため、安定している）。選択信号は、キャッシュヒット信号に基づいている。プロセッサーによるタグチェックのため、タグは、キャッシュミスに伴う新しいアドレスとともに書込まれる。外部インターフェースによるインターロガイト（質問）のため、タグは、キャッシュヒットを伴う新しい状態とともに書込まれる。さもなくば、デコーダは、新しいロケーションを選択する。タグ状態は、プロセッサーと外部インターフェースの双方によって変更される。プロセッサーは、キャッシュブロックのリフィルを開始した後のサイクル中に新しいタグアドレスと状態を書込む。データはまだロードされていないので、状態は始めのうちは“リフィリング（Ｒｅｆｉｌｌｉｎｇ）”にある。リフィルが完了されたとき、外部インターフェースは、この状態をアップグレードする。二次キャッシュブロックが置換されたり、あるいは外部の干渉に応答するときも、データキャッシュの内容をチェックしなければならない。タグ書込みは、２つのユニットが同一ブロックを変更する際の干渉を防止するため、プロセッサーと外部インターフェース間で調整されなければならない。これは、大部分の状態を“原子的（Ａｔｏｍｉｃａｌｌｙ）に”変更させることによって簡単にされる。すなわち、いずれかのユニットがタグの状態を変更することを決定したときはいつも、次のサイクル上でそのタグを変更しなければならない、ということである。これは、アップグレードされる前に、他のいかなる動作もタグをアクセスすることを妨げる。プロセッサーは、それが、“リフィル”状態である間、タグを変更しない。従って、外部インターフェースは、各リフィル動作の終わりで、ブロックの新しい状態を簡単に書き込むことができる。ここでは、アトミック動作を必要としない。データキャッシュタグについての状態変更は、表VIにリストされる。表VIの最初の部分はプロセッサーの動作を示す。古い状態と修飾子ビット（及びキャッシュヒット、外部インターフェース”ビジー”信号、及びプロセッサーリフィルイネーブル）は、新しい状態と修飾子ビットを決定するためにデコードされる。下の部分は、外部インターフェース動作を示す。古い状態と修飾ビットはデコードされないが、キャッシュヒット信号が“マーク”（Ｍａｒｋ）動作のために使用される。新しい状態と修飾子ビットは、外部インターフェースによって提供される。アトミックタグ動作は、２つのサイクルを要求する。最初のサイクルは、タグを読み出し、かつタグチェックを行う。２番目のサイクルは、条件付で新しい値をタグに書込む。通常、最初のサイクルのみが要求される。例えば、データキャッシュは、典型的に９６％のヒット率を有し、このため、プロセッサーの２番目のサイクルは、その時間の４％しか必要とされない。キャッシュバンド幅の浪費を避けるために、第１のサイクルのみが割り当てられる。他のプロセッサーの動作は、第２のサイクル間に予定されることが可能である。もし、第２のサイクルが必要であれば、他の動作と衝突するかもしれない。そのような動作は中断され、いくつかのサイクル後に再び試みられる。外部インターフェースは、動作を再度試みることができない。外部インターフェースは、自分自身のチェックサイクル後に他の動作を予定しない。プロセッサーは、もし外部インターフェースが次のサイクルの使用を要求した場合には、リフィル動作を遅らせる。各キャッシュバンクは、そのタグのための個別の書込みイネーブルを持つ。プロセッサーは、状態とアドレスセクションの双方を書込む。外部インターフェースは、状態のみを書込む。表VIIは、バンク０についての書込みイネーブル信号を定義する。バンク１は、ビット５が“１”であることを除き、同様である。もし、リフィルが行われるか、あるいはタグチェックが、書込みを要求するならば、タグアレイへの書込みは、前サイクルでイネーブルされる。もし、キャッシュミスとリフィルがイネーブルされる場合には、プロセッサーは、タグチェック中にデータキャッシュリフィルを開始させることができる。リフィルは、すべての以下の条件が適合される場合に、イネーブルされる。これらの信号は、信号ＲｅｆＥｎに結合される。１．仮想アドレスは、“キャッシュできる”属性を選択する。（“ノンーコヒーレント”、“イクスクルーシブ”、あるいは“シェアード（共有される）”）２．命令は、“ＳｔｏｒｅＣｏｎｄｉｔｉｏｎａｌ”ではない。（ＳＣは、常に以下の“ＬｏａｄＬｉｎｋｅｄ”命令を伴い使用される。ＬＬは、もし必要ならば、キャッシュをリフィルする。ＳＣがグラジュエイトするときに、もし、アドレスされたブロックがもはやキャッシュ内にないならば、ＳＣは“失敗”であり、書込みは中止される。）３．外部インターフェースミスーハンドリングー表（Ｍｉｓｓ−Ｈｎｄｌｉｎｇ −Ｔａｂｌｅ）は、ビジーではない。（ＣＣＯＢｕｓｙビット１）４．もしライトバックが要求される場合、二次キャッシュの書込みバッファはビジーではない（ＣＣＯＢｕｓｙビット０）。これらの信号は、表に示されるように、各キャッシュウエイについて別個のＡｖＦｏｒＲｅｆ信号に結合される。５．古いキャッシュ状態修飾子は“リフィル”ではない（キャッシュブロックが ”リフィル”状態にあるとき、新しい動作が、そのブロックについての開始をする前に完了するよう外部インターフェースを待たなければならない。）。６．アドレスキューは、リフィルをイネーブルし、キャッシュのウエイが利用できることを示す（ＡＱＱＷａｖＯ：Ａｖ）ウエイは、すでにキューで“ロックされた”（ｌｏｃｋｅｄ）、あるいは“使用された”（Ｕｓｅｄ）ようなフラッグが付されている場合には、リフィルのために利用できない。これは、別のエントリが、実存するブロックを必要としていることを示し、その結果、置換されることはない。もし、現在の命令が、キャッシュデ従属をもつなら（ＤｅｐＲｏｗＣ）、１つのウエイは最も古い命令のためにリザーブされる必要があるため、いずれかのフラッグは２つのウエイを利用不可能にする。もし、外部インターフェースが次のサイクルで同一キャッシュバンクのタグアレイを使用するならば、ウエイはまたリフィルのために利用することはできない。タグチェックはサイクル“Ｃ２”であるため、この連結は、“サイクルＣ２” の使用ビットをチェックする（ＥｘｔＵｓｅＣＤ）。ブロックがデータキャッシュ内にリフィルされるときはいつも、タグ論理は、表VIIに示すように、キャッシュのどのウエイが置換されるかを決定する。もし、いずれかのウエイが”無効“であるならば、新しいブロックが、前のブロックを全く無効にすることなくロードされることが可能である。特に、もしブロック０が無効の場合、これは置換される。さもなくば、もしブロック１が無効ならば、これは置換される。もし、２つのブロックが有効ならば、キャッシュは、有効なブロックを置換しなければならない。しかしながら、これらのブロックは、置換のために利用されないかもしれない。キャッシュは、“リフィル”タグ状態、あるいはアドレスキューで”ロックされた“か”使用された“ブロックを保持しなければならない。もし、ブロックが”リフィル”状態であるならば、最初のリフィルが完了するまでは再度リフィルは行うことができない。もし、いずれのブロックも利用できない場合、新しいリフィルは開始され得ない。もし、１つのブロックだけが利用可能であるならば、それは置換される。もし２つのブロックが利用可能であれば、 “最も少なく最近使用された（ＬＲＵ）”ウエイがリフィルされる（次のサブセクションを参照）。ＲｅｆＥｎとＡｖＦｏｒＲｅｆ［１：０］信号は、サブセクション１６．３．８に記述される。タグは、もしその状態がゼロでないか、あるいはその状態修飾子が“リフィル”であるならば、“有効”である。ＬＲＵは、キャッシュタグアレイから読み出される。この表は２つの信号を生成する。ＤＣＢｅｇｉｎＲｅｆは、リフィル動作が開始されたことを示す。ＤＣＲｅｆＷａｙは、キャッシュのどのウエイがリフィルされるかを示す。Ｄ．キャッシュインターフェースデータキャッシュは、プロセッサーのロード／ストアユニットと外部インターフェースとインターフェースする。外部インターフェースは、プロセッサーとデータキャッシュに４ビットの”命令”コードを送り、実行している動作を示す。これらの命令は、表VIIIにリストされる。外部インターフェースは、実際のキャッシュ動作の前の２サイクルで、このような命令、新しい状態コード、状態修飾子、インデックスアドレス、タグアドレスを送る。キャッシュとアドレスキューはそれぞれ、次の２サイクル中での使用のために、これらのフィールドをパイプラインする。各々の外部命令に関して、表IXは、データキャッシュのデータアレイ、タグアレイ、及びアドレスキューで行われる動作をリストする。アドレスキューは、キャッシュのどのセクションが外部インターフェースによって必要とされているかを決定するために、このコードをデコードする。もし、外部インターフェースが“Ｍａｒｋｉｎｖａｌｉｄ”か“ＭａｒｋＳｈａｒｅｄ”の命令を送るなら、外部インターフェースは、次のサイクルで同一バンクのタグアレイに命令を送らない。これらの動作は、読み出し／変更／書込み動作を実行する。外部インターフェースは、プロセッサーに、新しい動作をいつ受け入れることができるかを示す”ビジー”信号を送る。ビット１は、ＭｉｓｓＨａｎｄｌｉｎｇ表がビジーかどうかを示す。もし、これがセットされれば、外部インターフェースは、新しい命令を受け入れることができない。ビット０は、ライトバックバッファがビジーかどうかを示す。もし、これがセットされれば、外部インターフェースは、一致しないブロックについてのリフィル要求を受け入れることができず、データは二次キャッシュにライトバックされる。サイクル”ＣＯ”中に、外部インターフェースは、アドレスキューに１０ビットの“インデックス”アドレス（ＥＸＯＩｎｄｅｘ［１３：４］とＥＸＯＷａｙ）を送り、２サイクル後に（サイクル”Ｃ２“）アクセスするデータキャッシュブロックを識別する。キューは、このブロックによって影響されるアクテイブな命令を識別するために連結比較ポートを使用する。データキャッシュは、次のサイクル（サイクル“Ｃ１”）中にデコードするためにアドレスを記録する。データキャッシュは、タグチェックサイクル中にアドレスとヒット信号を外部インターフェースに提供する。プロセッサタグチェックについて：（選択されたデータキャッシュバンクのタグセクションから）ＤＣ２ＣｐｕＶＡｄｒ［１３：０］：データキャッシュは、ＡＣＵからの仮想アドレスの“インデックス”ビットか、前のサイクル（“Ｃ１”）中のアドレススタックをマルチプレクスする。このアドレスは、“Ｃ２”までレジスタで遅延される。ＤＣ２ＣｐｕＰＡｄｒ［３９：１２］：データキャッシュは、ＴＬＢからトランスレートされた物理アドレスか、タグチェックサイクル中のアドレススタックをマルチプレクスする。５つの“ライトバッグ”フィールドは、キャッシュブロックを二次キャッシュに書込むために、アドレスと状態を提供する。もし、キャッシュがヒットするならば、これらのフィールドは、“ヒット”ウエイを選択する。さもなくば、もし、リフィルが開始されるなら、それらは、リフィルされているウエイを選択する。ＤＣ２ＷＢＴａｇ［２２：１２］：タグは、一次キャッシュよりも多くのインデックスビットを使用するため、二次キャッシュ内にデータを書込む位置の決定を助ける。ＤＣ２ＷＢＳｔａｔｅ［１：０］：ＤＣ２ＷＢＳＣＷａｙ：二次キャッシュ内のウエイ。ＤＣ２ＷＢＩｎｄｅｘ：外部インターフェースＴａｒチェックについて：（選択されたデータキャッシュバンクのタグセクションから）ＭＤＯＴａｇ「３９：１２」：このバスは双方向である。ＤＣ２ＲｄＳｔａｔｅ［１：０］ＤＣ２ＲｄＭｏｄ［２：０］ＤＣ２ＲｄＳＣＷａｙ：上記は本発明の好ましい実施例の完全な説明である一方、種々の変更、代替及び等価なものが用いられることが可能である。例えば、キャッシュは、ｎ−ウエイセットアソシエイテブキャッシュとして実行されることができる。他の変形は、種々のブロックサイズ及び種々のサイズのアドレスラインを含む。それ故、上記説明は、添付されたクレームによって定義される発明の範囲を限定するように解釈するべきではない。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９６年５月１４日【補正内容】【図４】【図５】【図７】【図１１】キャッシュが読み出されるとき、同一のダブルワード位置は、セットを有する双方のブロックから同時に読み出される。さらに、マルチプレクサを使用することによって、読み書きするためのセンスアンプ数が減少され、これによって、ダイ上の貴重なスペースをかなり節約することができる。本発明の本質及び効果は、以下の詳細な説明および図面への参照をもって理解することができる。図面の簡単な説明図１は、スーパースカラープロセッサーの機能ブロック図を示し、図２は、ロード／ストアユニットの機能ブロック図を示し、図３は、キャッシュバンクのブロック図を示し、図４は、キャッシュデータアレイと制御論理（コントロールロジック）のブロック図を示し、図５は、キャッシュデータアレイの各バンク内のブロック組織を示し、図６はデータキャッシュの各バンク内のビット構成を開示する。図７は、キャッシュ制御論理の論理図を示し、図８は、キャッシュの２つのバンク間の接続を示し、図９は、キャッシュタグメモリと制御論理のブロック図を示し、図１０は、タグのビットフィールドを示し、図１１ａ−１１ｂは、タグチェック論理を示し、図１２は、キャッシュヒットパルスを発生するための論理図を示し、図１３は、キャッシュタグアレイのためのローデコーダのブロック図を示す。好ましい実施形態の詳細な説明内容Ｉ．スーパースカラープロセッサーアーキテクチャＡ．スーパースカラープロセッサーの概観Ｂ．動作 II．ロード／ストアユニットＡ．ロード／ストアユニットの概観 III．データキャッシュＡ．データキャッシュの概観Ｂ．データアレイ１．データアレイ組織２．データアレイ制御論理Ｃ．タグアレイ１．タグアレイ組織２．タグアレイ制御論理Ｄ．キャッシュインターフェースＩ．スーパースカラープロセッサーアーキテクチャ図１は、本発明に従いキャッシュメモリを含むスーパースカラープロセッサ１００の機能ブロック図を示す。プロセッサー１００は、一般に、カリフォルニアのマウンテンヴュー、シリコングラッフィクス社によって開発されたスーパースカラープロセッサーＲ１００００を表し、これは、本発明のキャッシュメモリについての１つの適用例だけを提供する。Ａ．スーパースカラープロセッサーの概観スーパースカラープロセッサーは、１命令以上のフェッチと実行を並列に行うことができる。プロセッサー１００は、１サイクルにつき４命令をフェッチしデコードする。各デコードされた命令は、３つの命令キュー（待ち）の１つに付加される。これらのキューは、５つの実行パイプラインの各々に対してサイクル毎に新しい命令を発することができる。図１のブロック図は、命令パイプラインのステージを示すように配置され、種々のプロセッサーの要素間の機能的な相互接続を示す。一般に、命令フェッチとデコードは、ステージ１と２において実行され、命令は、ステージ３の種々のキュー（待ち）から発せられ、命令の実行は、ステージ４−７において実行される。図１を参照すると、一次命令キャッシュ１０２は、１サイクルにつき４つの連続する命令を読み出し、キャッシュブロック内のワード境界から開始する。ブランチターゲットキャッシュ１０４、命令レジスタ１０６、命令デコード、及び従属論理２００は、発せられた命令の部分を、浮動小数点（フローテイングポイント）マッピングテーブル２０４（６ビット単位で３２ワードのＲＡＭ）か、あるいは整数マッピングテーブル２０６（６ビット単位で３３ワードのＲＡＭ）に運ぶ。これらのテーブルは、以下に述べられる、“レジスターリネイミング（ｒｅｎａｉｍｉｎｇ）”動作を実行し、これは、命令実行中の値を保持するために、命令で識別された論理レジスタを物理レジスタ位置にリネイミングする。冗長マッピングメカニズムは、これらのテーブルに組み込まれ、ブランチの誤った予測から効果的な復旧を容易にする。マッピングテーブル２０４と２０６は、浮動小数点フリーリスト２０８（６ビット単位で３２ワード）と、整数フリーリスト２１０（６ビット単位で３２ワード）とからもそれぞれ入力を受取る。双方のマッピングテーブルの出力は、順番にフリーリスト２０８と２１０の入力を供給するアクテイブリスト２１２に供給される。ブランチユニット２１４はまた、図１に示されるように、命令レジスタ１０６から情報を受取る。このユニットは、１サイクルにつき１ブランチ以上の処理をしない。ブランチユニットは、各条件付ブランチ毎に１エントリを含むブランチスタック２１６を含む。プロセッサー１００は、最もありそうな通路を予測し、かつその通路に沿って命令をデコードすることにより推論的に条件付ブランチを実行することができる。通常、各命令は、各ステージの単一サイクルのみを要求し、各ステージは、前の命令が後のステージによって完了されている間に、新しい命令を開始することができる。このため、新しい命令が、各サイクル間でしばしば開始可能である。パイプラインは、命令が実行される速度を大幅に改良する。しかしながら、パイプラインの効果的な使用は、いくつかの命令が並列に実行されることを要求する。各命令結果は、命令がパイプラインに入った後の数サイクル間利用することができない。このため、新しい命令は、まだパイプラインの中にある命令結果に依存しなくてもよい。プロセッサー１００は、オリジナルのプログラム順で命令をフェッチし、デコードするが、これらの命令を順番以外で実行し、完了するかもしれない。一旦完了すると、命令は、オリジナルのプログラムの順序で、“グラジュエイト（グラジュエイト）、ｇｒａｄｕａｔｅ”される。フェッチ命令は、図１に示すように、命令キャッシュから命令を読み出すことによって実行される。命令デコード動作は、従属チェックとレジスタのリネイミングを含み、これらは、命令デコード及び従属ロジック２００と、マッピングテーブル２０４か２０６によってそれぞれ行われる。上記のように識別された実行ユニットは、命令のオペランドからの演算結果を計算する。結果が計算されてレジスタファイル３０２か３０６によって識別された一時レジスタに蓄積されたとき、実行は完了される。最終的に、グラジュエイト（グラジュエイト）は、新しい固定値としてこの一時的な結果を引き渡す。命令は、その命令とすべての前の命令が首尾よく完了されたときのみ、グラジュエイトすることができる。命令がグラジュエイトされるまで、命令は中断することが可能であり、すべての前のレジスタとメモリ値が、例外を伴う正確な状態にリストア（復元）されることが可能である。この状態は、次の命令に割り当てられた一時的な物理レジスタを“アンーネイミング（ｕｎｎａｍｉｎｇ）”することによってリストアされる。レジスタは、古いデステイネーションレジスタを関連されたマッピングテーブルに書き込み、かつ新しいデステイネーションレジスタをフリーリストに戻すことによって、無名(unmamed)にされる。リネイミング(renaming)は、逆のプログラム順で行われ、最終的に論理レジスタが一度以上使用された。リネイミングの後、レジスタファイル３０２と３０６は、その例外より前の命令によって生成された固定値のみを含む。しかしながら、命令がグラジュエイトされると、すべての前の値は失われる。マイクロプロセッサー１００は、データキャッシュを増大するための２次キャッシュを含む。スペースの利用可能性に依存して、二次キャッシュ４３２は、個別のチップとして実行することができる。すべての“キャッシュされる”動作は、最初にデータキャッシュ４２４をアクセスする。もし、データがそこに存在していれば（“キャッシュヒット”）、ロードが２サイクルで完了される。さもなくば、二次キャッシュへのアクセスが開始される。もし、“ヒット”したならば、一次キャッシュは、”リフィル（補充）、refilled）され”、ロードが少なくとも８サイクルを要する。さもなくば、メインメモリは読み出されなければならず二つのキャッシュもリファイルされなければならない。このような場合、ロードは、かなり長い時間を要するであろう。マイクロプロセッサー１００は、キャッシュされる動作を”順番以外で”実行する。命令のアドレスは、たとえもし前の命令が有効になるべきインデックスレジスタを待っているにしても、インデックスが有効になるや否や計算されることが可能である。キャッシュミスは、後の命令を妨げず（”ノンブロッキング”）、ユニットは、８つのキャッシュミスが処理されるまでの間、新しい動作を開始することができる。 “キャッシュされない”動作は、キャッシュをバイパスし、常にシステムバスをアクセスする。典型的に、キャッシュされない動作は、入力／出力装置や特別の目的のメモリをアクセスする。キャッシュされない動作は、命令がグラジュエイトしかけているときにのみ実行される。キャッシュされない動作は、例外の事象で未処理であることは許されないので、オリジナルのプログラム順序で連続的に行われる。キャッシュされない書き込みと読み出しの双方は、Ｉ／Ｏサブシステムの状態を変更することができる。キャッシュされない動作は、アドレススタックに保持されるが、従属チェックはこれらについて一切行われない。キャッシュされないストアのオペランドは、ストアバッファにコピーされるが、ロードバイパスは一切生じ得ない。ストアがグラジュエイトするとき、バッファされたデータは外部インターフェースに転送される。キャッシュされない動作は、それらがグラジュエイトするまで遅延されるけれども、キャッシュされた動作は、順番以外で進行され得る。すなわち、次のキャッシュされるロードが実行可能であり、そして、キャッシュされたストアが、タグチェックとキャッシュリフィル（補充）を開始できる。プリフェッチ命令は、メモリブロックを一次キャッシュと二次キャッシュにフェッチするのに使用される。それらは、キャッシュをリフィルするために必要な遅延を減少させることによって性能を増加するために使用され、しかし、それらは、プログラムの論理実行には何ら影響がない。プリフェッチ命令は、予測可能なメモリアクセスをもつけれども高いキャッシュミス率をもつプログラムをかなり改良することができる。リフィル状態は、キャッシュタグに記録される。しかしながら、アドレススタックのエントリが”済み”であるため、完了されるべきリフィルを待たない。ロード／ストアユニットは、推論的に命令を実行することができる。これらは、ブランチが逆の場合には中止される必要がある。もし、中止された命令が、キャッシュのリフィルを模倣するならば、リフィルの動作は完了されるにちがいない。これらのリフィルは、プロセッサーの命令にもはや対応しないので、オーファンス（orphans）と呼ばれる。プリフェッチ命令はまた、最初のタグサイクルが完了されるや否や”済み”となるので、オーファンスを生じさせる。このキャッシュブロックのアドレスタグは、キャッシュのリフィルが完了されるまで、”リフィリング（補充する）”状態で残る。もし、次の命令が、このキャッシュブロックをアドレスするならば、これは、”リフィルの待ち”状態で最初にこのブロックを使用することができる。 B.動作図２を参照すると、ロード／ストアユニット４１６は、アドレスキュー３０８、アドレススタック４２０、アドレス計算ユニット（ＡＣＵ）４１８、ストアアライナ４３０、ロードアライナ４２８、トランスレーションルックサイドバッファ（ＪＴＬＢ）４２２、及びデータキャッシュ４２４を含む。データキャッシュ４２４は、セットアソシエイテブデータキャッシュであり、キャッシュタグアレイ６５０、キャッシュデータアレイ６１０、及びタグチェックロジック６６０を含む。ＴＬＢとデータキャッシュは、ロード命令のためのレイテンシイを減少させるために並列に動作するように構成され、動作速度で約１５％の性能改善をする。アドレスキュー３０８は、レジスタファイル３０６とアドレス計算ユニット４１８と連絡する。アドレスキューは、環状のファーストイン−ファーストアウト（ＦＩＦＯ）バッファのように構成された１６エントリを含み、キャッシュを操作する、ロード、ストア、及び”キャッシュ”命令のようなすべてのメモリ命令の軌跡を保持する。メモリ命令がデコードされるとき、それは、キューの底で次の連続的なエントリに割り当てられる。命令がグラジュエイトするとき、それは、リストの上部から除去される。グラジュエイションは、命令がエラーなしで完了し、かつ前の命令がグラジュエイトされた場合に生じる。命令は、たとえそれらが順番通りに実行されないおそれがあるにしても、オリジナルのプログラムの順番でグラジュエイトされる。ストアパスは、レジスタファイル３０２と３０６からデータキャッシュ４２４へレジスタ値を書き込むために提供される。ストアアライナ４３０は、キャッシュに書き込まれるべきデータを整合する。バイパスパス６０１は、キャッシュされない動作についてのデータがデータキャッシュをバイパスするようにする。さらに、バイパスパス３９０は、ロード／ストアユニットの性能を改良するために提供される。マイクロプロセッサーが、データが書き込まれている同一サイクル中にある位置を読み出しているとき、バイパスパス３９０は、データがレジスタファイルかメモリを迂回するようにする。例えば、実行ユニットの結果は、そのような結果がレジスタファイルに書き込まれる間に従属命令が実行できるように、オペランドレジスタに直接にマルチプレクスされることを可能にする。このバイパスは、オペランドレジスタ数が前の命令のデステイネーションレジスタ数と等しい時はいつでも選択される。物理タグと仮想インデックスは、アドレススタック４２０にも書き込まれ、アドレススタック４２０は、アドレスキューの論理的な部分であるけれどもレイアウトの考慮のために物理的に離される。マイクロプロセッサーは、アドレスキューの各命令に対応する物理メモリを蓄積するためにアドレススタック４２０を使用する。従って、アドレススタックは、アドレスキューと同じエントリ数で実行される。データは、アドレス計算シーケンス中にアドレススタック４２０にロードされる。 III．データキャッシュＡ．データキャッシュ概観データキャッシュ４２４は、メインメモリの”キャッシュできる”領域をアクセスする命令をロードしたり蓄積するために使用される。データキャッシュ４２４は、２つの同一バンク、バング”０”とバンク”１”でインターリーブされる。アレイは、仮想アドレスのインデックス部分（ビット１３：０）を用いて“仮想的にインデックスされる”。ビット５は、バンク＃０かバンク＃１を選択する。ビット２：０は、ダブルワード内のバイトを選択し、ビット４：３は、ブロック内のダブルワードを選択する。ビット１３：６、これはアレイ内のブロックをアドレスし、２５６”ワードライン”の一つを選択するためにデコードされる。各ワードラインは、８つのダブルワード、あるいは２つのブロックを含む。ビットは、これらのブロック内のダブルワードがプロセッサーや外部インターフェースの動作のために区別してアクセスされるように、インターレースされる。プロセッサーは、２つのブロックを有するダブルワードを連結的にアクセスする。他方、外部インターフェースは、同一ブロック内の２つのダブルワードをアクセスする。個別のアドレスマルチプレクサがデータとタグのアレイのために提供される。マルチプレクサ６２１は、データアレイ６１０による使用のために、外部インターフェース、アドレスキュー、アドレススタック、及びＡＣＵの中からのアドレス入力を選択する。タグアレイに関する限り、マルチプレクサ６２０は、外部インターフェース、アドレススタック、あるいはＡＣＵからアドレス入力を選択する。マルチプレクサ６１０と６２０のための選択信号（タグの選択とデータの選択）は、アドレスキューによって発生され、そして、表IIに示されるように、どの機能ユニットが各アレイを制御しているかを決定するために、キャッシュ制御論理によってデコードされる。別のデータマルチプレクサがまた、タグとデータのアレイのために設けられる。マルチプレクサ６２５は、タグアレイに書き込みを行うために、外部インターフェースかＪＴＬＢのいずれかからアドレスを選択する。マルチプレクサ６３０と６３１は、データアレイに書き込むために、外部インターフェースかレジスタファイルからのデータを選択する。キャッシュ部分がアドレス選択値”００”によって示されたように使用されないとき、それはパワーダウンである。パワーダウンモードでは、アドレスデコーダは、それがワードラインを選択しないようにデイスエイブルされ、ダミーワードラインは、センスアンプのいずれもがターンオンしないように、デイスエイブルされる。デコーダは、第１レベルのゲートの余分の入力を用いてデイスエイブルされる。ある実施例では、データキャッシュは、リセット期間中にハードウエアによって初期化されない。これらの実施例は、データキャッシュの使用を開始する前に、すべてのタグを”無効”状態に初期化させるためのブートストラッププログラムを要求する。もし、ブロックが”無効”であれば、そのデータアレイの内容は使用されない。Ｂ．データアレイ１．データアレイの組織図４を参照すると、データアレイ６１０は２５６行を含む。デコーダ４５０は、ワードラインをハイに駆動することによってどの行がアクセスされるかを選択する。各ワードラインは、５７６のセル（５１２データビットと６４パリテイビット）あるいはビットからなる行を駆動し、そしてゲートされ、３２セル毎にバッファされる。５７６ビットは、４ダブルワード（１ワードは４バイトに等しい）を含む各ウェイをもつ１つのキャッシュセットに等しい。ダブルワード内の４６０によって表わされる各ビットは、８つのセル４６１ａー６１ｈを含む。セルは、キャッシュの各ウエイの４タブルワードの各々からの１ビットに対応する。各セルの上の数は、キャッシュのウエイを表し、下の数は、ウエイ内のダブルワード数を表す。マルチプレクサ４７０は、信号Ｓ０によって制御され、センスアンプ４７５に入力するために、４ビット（ブロック内の４ダブルワードの各々からの１つ）から１ビットを選択する。センスアンプの出力は、サブーアレイ０からのデータを表す。それ以後、データは、位相マルチプレクサ回路４９５に進められ、この回路は、クロックサイクルΦ１の期間で第１のダブルワードを、同一クロックサイクルの Φ２期間で第２のダブルワードを書き込む。パリテイチェッカー４７８は、適当なパリテイのためにダブルワードのすべてのバイトをチェックし、もしエラーが発生したら、プロセッサーは、”外部インターフェースデータキャッシュエラー ”の例外を取る。データは、レジスタファイルか、あるいは外部インターフェースのいずれかからキャッシュアレイに書き込まれる。レジスタファイルからのデータは、ストアアライナ４３０によって整合され、マルチプレクサ４８８と４８９によって外部インターフェースからのデータとマルチプレクスされる。マルチプレクサは、選択信号に従ってデータを選択し、セルの各列の下に位置されたドライバ４６９ａー４６８ｈを介してキャッシュに書き込む。これらのドライバは、書き込まれているアドレスに従いイネーブルされる。レジスタストアのためにパリテイ発生器４９９ａによって発生された、あるいは外部インターフェースストアのためにパリテイ発生器４９９ｂにいよって発生された偶数パリテイビットは、データキャッシュに蓄積された各バイトに付加される。各パリテイビットは、そのバイトが書き込まれるときはいつも、書き込まれる。前述したように、データアレイは、２つの別のアクセスパターンに組織化される。ブロックを二次キャッシュにロードしたりコピーする間に、２つのデータアレイは、同一ブロック内の一対の隣接するダブルワードをアクセスする。タグチェックと同時に起こる読み出しに関し、各アドレスされたワードは、２つのブロックから読み出され、一致するタグを有するブロックが選択される。他のブロックからのデータは無視される。書き込みに関し、これはタグチェックが完了した後で生じるが、アドレスされたブロックだけが書き込まれる。図５を参照すると、キャッシュアレイの各ブロックは、いずれかのアクセスパターンを許可するために、２キャッシュウエイ間でワード４５５−４５８が交替するように構成される。これは、アレイがキャッシュウエイに対応していないからである。ダブルワード０は、いずれかのアレイにあることができる。ブロック４５９ａにとって、偶数のダブルワード（Ａｄｒ［３］＝０）がアレイ０内にあり、奇数ダブルワードがアレイ１内にある。ブロック４５９ｂでは反転される。これは、もし、各ウエイからのデータラインが２−ダブルワードの幅でないならば、従来の２−ウエイセットアソシエイテブで不可能であったであろう、同一ウエイからの２つのダブルワードのアクセスを可能にする。これは、２倍のセンスアンプ数を必要とする。また、マルチプレクサを使用することによって、外部インターフェースは、クウオードワードアクセス内のダブルワードをスワップすることができる。Ｃ．タグアレイ１．タグアレイの組織キャッシュタグアレイは、データアレイの各８−ワードブロックにつき３６ビットアドレスタグを蓄積し、かつ、データアレイの約８分の１のビットを持つ。各行につき６４ワードライン（データアレイの１／４）と２８８セル（半分以下）がある。このため、タグアクセス時間は、データアレイよりも高速である。キャッシュデータアレイと同様に、キャッシュタグアレイは、２つの同一のバンクに分割され、各々は、プロセッサーや外部の要求に対して独立に動作することができる。バンクは、ブロックアドレス（ビット＃５）の低位ビットによって選択される。キャッシュタグアレイは、仮想アドレスビット［１３：６］によってアドレスされ、これは、２つのブロックのセットを選択する。各バンクには２５６セットがある。各セットは、２つのブロックを含む。このため、２つのバンクは、１０２４ブロック（キャッシュサイズが３２Ｋバイトー３２バイト／ブロック）を含む。各セットの２つのタグは、並列に読み出され、キャッシュがアドレスされたデータを含むかどうか（”ヒット”）を決定するために、所望の物理アドレス（ビット３７：１２）と同時に比較される。図９は、タグバンクの１つと関連した制御論理を例示する。タグアレイは６４の行を含む。デコーダ７５２は、仮想アドレスビット１８：８を用いてワードラインをハイに駆動することによってどの行がアクセスされるかを選択する。各ワードライン７５３は、２８８（８つの３６ビットタグ）の行を駆動する。３６ビットは、４タグを含む各ウエイを持つ１つのタグセットに等しい。タグの各ビット７５１に関して、８セル７５５ａ−７５５ｈが設けられる。セルは、キャッシュの各ウエイの４つのタグの各々からの１ビットに対応する。３６ビットタグについて、これは３６回繰り返される。各セルの上の数はウエイを表し、下の数はウエイの行内のタグ数を表す。データアレイと異なって、タグビットは、各サブアレイが同一のウエイに属するタグのみを含むように、インターリーブされる。マルチプレクサ７５８は、信号の仮想アドレスビット７：６によって決定されるように、センスアンプ７６０に入力するために、４ビット（４タグの各々から１つ）から１ビットを選択する。センスアンプの出力は、ウエイ０からのタグデータ（タグ０）を表す。同様に、マルチプレクサ７５９とセンスアンプ７６１は、ウエイ１から選択されたタグデータ（タグ１）を出力する。この方法では、各セットからの２つのタグが並列に読み出される（バンク０からの２つとバンク１からの２つ）。再度、マルチプレクサの使用は、必要とされるセンスアンプ数を減少させる。各バンクは、４つのタグチェック比較器を有し、プロセッサ（７５６と７６６）についての２つと、外部インターフェース（７６３と７６８）についての２つである。各々は、キャッシュが、２つの独立２−ウエイセットアソシエイテブバンクでインターリーブされるため、２つの比較器を必要とする。各バンクは、プロセッサーか外部インターフェースのいずれかのために２つのタグを読み出すことができる。これらのタグ信号は、比較器の入力でマルチプレクサ７７０ー７７３を使用してマルチプレクスされる。マイクロプロセッサーは、ＪＴＬＢからトランスレートされた物理アドレスか、タグと比較するアドレススタックからのアドレスのいずれかを選択するために、マルチプレクサ７７６を使用する。ＪＴＬＢは、重要なタイミング通路である。比較の結果がキャッシュ”ヒット”信号である（もし、タグが存在すればヒットであり、タグが存在しなければミスである）。また、タグパリテイビットは、パリテイチェッカー７６７と７６８によってチェックされる。パリテイエラーは例外を引き起こす。外部インターフェースあるいはロード／ストアユニットのいずれかからのタグは、タグアレイに蓄積されることができる。マルチプレクサ７７５は、データをタグの適切な位置に書き込むために、仮想インデックスに従い選択的にイネーブルされる所望のタグとバッファ７５６ａー５６ｈを選択する。パリテイ発生器は、タグがアレイに書き込まれるときはいつでもパリテイを発生する。図１０を参照すると、各タグは次のフィールドを含む；アドレス７８５、パリテイ７８６、ウエイ７８７、状態７８８、パリテイ７８９、修飾子８９０、及びＬＲＵ（最も少なく最近使用された）７９１である。タグフィールドは、表IVに述べられる。ブロックがキャッシュにリフィルされるとき、このビットは、ロード命令のために最初’０’であるか、あるいはストア命令のために’１’である。ストア命令が、このブロックを使用するときはいつでも、後からセットされることが可能である。ビット０は、リフィル、あるいは書き込まれたビットのいずれもがセットされないときに、セットされる。このビットは、状態修飾子フィールドに関する奇数パリテイチェックとして働く。各有効状態は、１つの“１”ビットセットを有する。３ビットは、３つの状態を符号化する。各コードは、１ビットセットを持っているため、奇数パリテイを効率よく実行する。パリテイエラーは、もし他のパターンが読まれるなら、信号を発する。２．タグアレイ制御論理アドレスキューは、データキャッシュが要求するデータを含んでいるかどうかを決定するために”タグチェック”サイクルを実行する。外部インターフェースは、二次キャッシュブロックを無効化するときに、タグチェックサイクルを実行する。図１１ａは、タグチェック回路の１実施例を示す。２つの２８ービットアドレスタグ（物理アドレスビット３９：１２）への所望のアドレスは、それぞれイクスクルーシブーオアゲート８０１において対応するタグビットと比較される。簡潔のために、一つのゲートだけが例示されるが、当業者にとってビット毎に一つのゲートがあることは明らかであろう。もし、ビット位置が異なれば、ゲート８０１の出力は、”キャッシュミス”を示す論理”０”である。イクスクルーシブーオアゲートの出力は、Φ２の立ち上がりを用いて、２８ー入力ダイナミック” オア”ゲート８０２で結合される。ダイナミック”オア”はスタチックゲートよりも非常に高速であるが、クロックのタイミングとスキュー（ｓｋｅｗ）に依存する。ダイナミック”マッチ”ノード８０３は、Φ１間にハイにプリチャージされる。これは、もしアドレスビットが一致しない場合、Φ２間にデイスチャージされる。こうして信号は、”ヒット”についてハイを維持し、”ミス”はΦ ２の開始直後にフォーリング（落下）エッジとなる。ダイナミックオアゲートの出力は、インバーター８０３によって反転され、これの出力は、”ミス”がある時にΦ２の開始後約２．５ゲートー遅延で上昇するパルスである。さもなくば、その出力はゼロを維持する。この明瞭な出力信号は、次の論理を単一のエッジ遷移に関して最適化させる。これはまた、長い距離を分散される６４ビットバス上のノイズを最小限にする。（５番目の条件であるＩｇｎｏｒｅＨｉｔＡ＆ＩｇｎｏｒｅＨｉｔＢは省かれた。キャッシュは、双方のウエイ上にヒットを同時に適切に発生することができないため、これは冗長である）。出力信号は、位相２中のパルスである。これは、長い配線を駆動するためにバッファされる。この立ち上がりエッジは、出力バッファのトランジスタのレシオを取ることによって速度に関して最適化される。図１２は回路８７０を示し、これは、各”キャッシュヒット“についてのＬＲＵとタグ修飾子回路にパルスを提供する。回路は、”ミス”信号を反転し、それをタイミングパルスでゲートする。グリッチを避けるために、タイミングパルスは、”ミス”信号がスイッチした後に開始する。この信号速度は、どのくらいの多くのビットが異なるのかということに依存し、これは、各々異なったビットが並列トランジスタの一つをターンオンさせるからである。スイッチングは、１ビットだけが異なるとき、最も遅い。タイミングパルスはダミー比較回路を用いて発生され、この回路は、単一ビットの差の時間をシミュレートする。この出力は、イネーブルとＴａｇＭｏｄ［２］でゲートされ、これは、もしブロックがリフィルされている場合、”ヒット”を禁止する。このようなゲートを介しての遅延は、スイッチングのグリッチを除去するタイミングマージンを提供する。図１３は、タグローデコーダ９００を示し、これは、どのワードラインが主張（アサート）されるかを選択する６ビットー６４ビットのローデコーダである。デコーダの入力は、アドレス計算ユニット、アドレススタック、あるいは外部インターフェースによって提供されるアドレスから選択される。アドレスは位相２の終わりでラッチされ、その結果、次の位相１期間でワードラインが駆動されている間は安定である。デコードは、プリデコードとドライバーに分けられる。プリデコーダ９０１において、上位３ビット（１３：１１）と下位３ビット（１０：８）は、３−８デコーダ９０２と９０３によってそれぞれ個別にデコードされる。各プリデコーダは、１つのハイ出力を有する。下位デコーダ９０３は、タグアレイをデスエイブルするために、すべての出力をローに強制することができ、これによって、タブアレイの最大電力消費を削減することができる。これらのデコーダは、中央でアレイに隣接する。出力は、ウエイ間の信号をローデコーダまで駆動する。各出力は、タグアレイ間に分散されることができる８つの負荷を駆動する。各アレイには、６４のワードラインドライバー９１０がある。１つのドライバーは、プリデコーダ９０１からの１つの入力を論理的にアンドすることによって選択される。”アンド“ゲートの出力は、各サイクルの終わりまで安定にするべきである。もし、キャッシュミスとリフィルがイネーブルされる場合には、プロセッサーは、タグチェック中にデータキャッシュリフィルを開始させることができる。リフィルは、すべての以下の条件が適合される場合に、イネーブルされる。これらの信号は、信号ＲｅｆＥｎに結合される。１．仮想アドレスは、“キャッシュできる”属性を選択する。（“ノンーコヒーレント”、“イクスクルーシブ”、あるいは“シェアード（共有される）”）２．命令は、“ＳｔｏｒｅＣｏｎｄｉｔｉｏｎａｌ”ではない。（ＳＣは、常に以下の“ＬｏａｄＬｉｎｋｅｄ”命令を伴い使用される。ＬＬは、もし必要ならば、キャッシュをリフィルする。ＳＣがグラジュエイトするときに、もし、アドレスされたブロックがもはやキャッシュ内にないならば、ＳＣは“失敗”であり、書込みは中止される。）３．外部インターフェースミスーハンドリングー表（Ｍｉｓｓ−Ｈｎｄｌｉｎｇ −Ｔａｂｌｅ）は、ビジーではない。（ＣＣＯＢｕｓｙビット１）４．もしライトバックが要求される場合、二次キャッシュの書込みバッファはビジーではない（ＣＣＯＢｕｓｙビット０）。これらの信号は、表に示されるように、各キャッシュウエイについて別個のＡｖＦｏｒＲｅｆ信号に結合される。５．古いキャッシュ状態修飾子は“リフィル”ではない（キャッシュブロックが ”リフィル”状態にあるとき、新しい動作が、そのブロックについての開始をする前に完了するよう外部インターフェースを待たなければならない。）。６．アドレスキューは、リフィルをイネーブルし、キャッシュのウエイが利用できることを示す（ＡＱＱＷａｖＯ：Ａｖ）ウエイは、すでにキューで“ロックされた”（ｌｏｃｋｅｄ）、あるいは”使用された”（Ｕｓｅｄ）ようなフラッグが付されている場合には、リフィルのために利用できない。これは、別のエントリが、実存するブロックを必要としていることを示し、その結果、置換されることはない。もし、現在の命令が、キャッシュデ従属をもつなら（ＤｅｐＲｏｗＣ）、１つのウエイは最も古い命令のためにリザーブされる必要があるため、いずれかのフラッグは２つのウエイを利用不可能にする。もし、外部インターフェースが次のサイクルで同一キャッシュバンクのタグアレイを使用するならば、ウエイはまたリフィルのために利用することはできない。タグチェックはサイクル“Ｃ２”であるため、この連結は、“サイクルＣ２” の使用ビットをチェックする（ＥｘｔＵｓｅＣＤ）。タグチェックはサイクル“Ｃ２”であるため、この連結は、“サイクルＣ２”の使用ビットをチェックする（ＥｘｔＵｓｅＣＤ）。ブロックがデータキャッシュ内にリフィルされるときはいつも、タグ論理は、表に示すように、キャッシュのどのウエイが置換されるかを決定する。もし、いずれかのウエイが”無効“であるならば、新しいブロックが、前のブロックを全く無効にすることなくロードされることが可能である。特に、もしブロック０が無効の場合、これは置換される。さもなくば、もしブロック１が無効ならば、これは置換される。もし、２つのブロックが有効ならば、キャッシュは、有効なブロックを置換しなければならない。しかしながら、これらのブロックは、置換のために利用されないかもしれない。キャッシュは、“リフィル”タグ状態、あるいはアドレスキューで”ロックされた“か”使用された“ブロックを保持しなければならない。もし、ブロックが”リフィル”状態であるならば、最初のリフィルが完了するまでは再度リフィルは行うことができない。もし、いずれのブロックも利用できない場合、新しいリフィルは開始され得ない。もし、１つのブロックだけが利用可能であるならば、それは置換される。もし、１つのブロックだけが利用可能であるならば、それは置換される。もし２つのブロックが利用可能であれば、“最も少なく最近使用された（ＬＲＵ）”ウエイがリフィルされる（次のサブセクションを参照）。ＲｅｆＥｎとＡｖＦｏｒＲｅｆ［１：０］信号は、サブセクション１６．３．８に記述される。タグは、もしその状態がゼロでないか、あるいはその状態修飾子が“リフィル”であるならば、“有効”である。ＬＲＵは、キャッシュタグアレイから読み出される。この表は２つの信号を生成する。ＤＣＢｅｇｉｎＲｅｆは、リフィル動作が開始されたことを示す。ＤＣＲｅｆＷａｙは、キャッシュのどのウエイがリフィルされるかを示す。Ｄ．キャッシュインターフェースデータキャッシュは、プロセッサーのロード／ストアユニットと外部インターフェースとインターフェースする。外部インターフェースは、プロセッサーとデータキャッシュに４ビットの”命令”コードを送り、実行している動作を示す。これらの命令は、表IXにリストされる。外部インターフェースは、実際のキャッシュ動作の前の２サイクルで、このような命令、新しい状態コード、状態修飾子、インデックスアドレス、タグアドレスを送る。キャッシュとアドレスキューはそれぞれ、次の２サイクル中での使用のために、これらのフィールドをパイプラインする。各々の外部命令に関して、表Ｘは、データキャッシュのデータアレイ、タグアレイ、及びアドレスキューで行われる動作をリストする。アドレスキューは、キャッシュのどのセクションが外部インターフェースによって必要とされているかを決定するために、このコードをデコードする。

Claims

【特許請求の範囲】１．幅が“ワード”として引用されるデータパスを有するプロセッサーにおいて、データ情報を蓄積し、かつタグとインデックスを有するアドレスによってアクセスされるメモリアレイは；複数のＲＡＭセルであって、前記複数のＲＡＭセルの各々は、その行と列が選択されるときにイネーブルされ、前記アレイの前記行は前記インデックスの上位部分によって選択され、前記行は複数のワードからなるデータのブロックを表し、各ワードは複数のビットからなり、前記インデックスの下位部分は複数の列を選択し、前記複数の列は１ワード長を表す、前記ＲＡＭセルと、複数のマルチプレクサであって、前記複数のマルチプレクサの各々は、前記ブロックの前記複数のワードから１ビットを選択する、前記複数のマルチプレクサと複数のセンスアンプであって、前記複数のセンスアンプの各々は、前記複数のマルチプレクサの１つに結合され、前記センスアンプは前記インデックスによって選択された１ワードを出力する、前記複数のセンスアンプと前記インデックス部分に従いどの行とワードが選択されるかを決定する制御ロジックとを有することを特徴とするメモリアレイ。２．請求の範囲第１項において、前記アレイは、第２のアレイにインターリーブされる第１のアレイを含み、各アレイは独立に動作することができることを特徴とするメモリアレイ。３．請求の範囲第２項において、前記第１と第２のアレイはそれぞれ、データを蓄積するためのデータアレイと、前記タグを蓄積するためのタグアレイとを含み、前記タグアレイは２つのデータワードをアクセスすることができ、前記タグアレイは２つのタグをアクセスすることができることを特徴とするメモリアレイ。４．請求の範囲第３項において、前記データアレイは、２−ウエイアソシエイテブであり、並列に２ワードをアクセスすることができることを特徴とするメモリアレイ。５．幅が“ワード”として引用されるデータパスを有するプロセッサーにおいて、データ情報を蓄積し、かつタグとインデックスを有するアドレスによってアクセスされるメモリアレイは；複数のＲＡＭセルであって、前記複数のＲＡＭセルの各々は、その行と列が選択されるときにイネーブルされ、前記アレイの前記行は前記インデックスの上位部分によって選択され、前記行は複数のワードからなるデータのブロックを表し、各ワードは複数のビットからなり、前記インデックスの下位部分は複数の列を選択し、前記複数の列は１ワード長を表す、前記ＲＡＭセルと、前記ブロックの前記複数のワードから１ビットを選択する手段と、複数のセンスアンプを出力する手段であって、前記複数のセンスアンプの各々は前記複数のマルチプレクサの１つに結合され、前記センスアンプは前記インデックスによって選択された１ワードを出力する、前記手段と、前記インデックス部分に従い選択された行とワードを決定する手段とを有することを特徴とするメモリアレイ。