JP2000215102A

JP2000215102A - プロセッサ用の進歩したメモリ階層構造

Info

Publication number: JP2000215102A
Application number: JP11287163A
Authority: JP
Inventors: Agarwala Sanjive; サンジブアガルワラ; Patrick W Bosshart; ダブリュ．ボスハートパトリック; Timothy Anderson; アンダーソンティモシイ
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1998-09-01
Filing date: 1999-09-01
Publication date: 2000-08-04
Also published as: ATE294415T1; EP0989496A3; EP0989496B1; DE69924939D1; DE69924939T2; EP0989496A2

Abstract

(57)【要約】【課題】進歩したキャッシュメモリ階層構造を提供す
る。【解決手段】本発明の多重レベルキャッシュメモリ階
層構造は、データ用の第１の複数のキャッシュレベル、
命令用の第２の複数のキャッシュレベル、および前記第
１および第２の複数のキャッシュレベルとその他のメモ
リとに接続されて動作する統合されたデータおよび命令
キャッシュレベルを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般的にコンピュー
タシステムとプロセッサ用の進歩したメモリ階層とに関
する。

【０００２】

【従来の技術】コンピュータ工業界ではコンピュータシ
ステムの性能向上が常に前進する目標である。性能向上
のための技術には、より高速のプロセッサ、より幅広い
バス、およびより深い命令パイプラインが含まれる。プ
ロセッサの性能が向上するにつれて、より高速なメモリ
アクセスに対する需要もまた増大している。メモリの階
層は、より高速のメモリアクセスに対する需要に応える
ための経済的な手段である。一般に、メモリの階層には
異なる速度および寸法のいくつかのメモリが含まれる。
メモリシステムは、プロセッサに近いメモリの各レベル
がより小型で、より高速で、更に通常はより高価である
ように設計される。メモリの各レベルには、通常、それ
より上位のメモリに含まれる情報のサブセットが含まれ
る。メモリ階層の最も下位の、すなわちプロセッサに最
も近い１レベルあるいは複数レベルはキャッシュを含む
のが普通である。キャッシュはデータ、命令、あるいは
その両方のために使用される。最も頻繁に使用されるデ
ータまたは命令を収納することがキャッシュメモリの目
的である。

【０００３】各キャッシュブロックには、そのブロック
が所望の情報を含んでいるかどうかを決定するために必
要な情報が付随している。例えば、ほとんどのキャッシ
ュが各ブロックに関するアドレスタグを有しており、そ
れをチェックすればそれがＣＰＵからのアドレスと一致
しているかどうかが決定できるようになっている。更
に、一般には有効ビットを使用して、そのキャッシュブ
ロックが有効な情報を含んでいるかどうかが決定される
ようになっている。

【０００４】キャッシュヒット時には、プロセッサはよ
り低速のメモリへアクセスすることなしに、キャッシュ
から情報を得る。キャッシュミス時には、プロセッサは
次のレベルのメモリまたはミスされたキャッシュの下位
のキャッシュへ行って、データを取り出そうと試みなけ
ればならず、次のレベルの先のメモリレベルまで行かな
ければならないこともある。キャッシュミス時には、所
望の情報を含むデータブロックは下位レベルのメモリか
らキャッシュへしばしば転送される。

【０００５】情報をキャッシュに配置するやり方は変化
する。キャッシュを直接マッピングしてもよいし、フル
アソシアティブにしても、あるいはセット・アソシアテ
ィブにしてもよい。直接マッピングされたキャッシュで
は、情報の与えられた１ブロックをストアするために１
つの場所しか存在しない。フルアソシアティブキャッシ
ュは、ブロックをキャッシュ内の任意の場所にストアす
ることを許可する。セットアソシアティブキャッシュで
は、キャッシュ内の、セット数に依存するいくつかの場
所のうちの１つにそのブロックをストアしてよい。例え
ば、２ウエイのセットアソシアティブキャッシュでは、
与えられるブロックをストアできる場所は２つ存在す
る。ブロックをストアできる１つの場所または複数の場
所はそのブロックアドレスに依存する。

【０００６】キャッシュへの書き込みには一般に２つの
オプションがある。ライトスルーオプションでは、情報
はキャッシュブロックとメインメモリブロックの両方へ
書き込まれる。ライトバックキャッシュオプションで
は、情報はキャッシュブロックのみへ書き込まれ、それ
が置換される時にだけ、そのキャッシュ内の修正された
ブロックがメインメモリへ書き込まれる。汚染（ｄｉｒ
ｔｙ）ビットと呼ばれる状態ビットがしばしば用いられ
て、そのブロックが汚染しているかあるいはクリーンで
あるかが表示される。１つのブロックは、もしそれがそ
のキャッシュにある間に修正されていれば汚染している
し、もし修正されていなければクリーンである。

【０００７】マルチプロセッサシステムでは、プロセッ
サがデータの最新コピーを使用していること、および一
時に１つ以上のプロセッサがそのデータを修正しないこ
とを保証するために、コヒーレンシプロトコルが必要と
される。一般に使用されるプロトコルは、キャッシュ中
のデータブロックの状態を外部メモリに対比して示すＭ
ＥＳＩプロトコルである。ＭＥＳＩプロトコルは４つの
状態：修正済み、排他的、共用、および無効を利用す
る。

【０００８】

【発明の解決しようとする課題】キャッシュの性能は、
ヒット時間、ミス率、およびミスペナルティに依存す
る。ヒット時間はそのキャッシュにアクセスするために
必要な時間である。ミス率はそのキャッシュに見つから
なかったアクセスの割合である。ミスペナルティはキャ
ッシュミスを処理するために要する時間である。もしキ
ャッシュ性能が良好であれば、キャッシュはメモリアク
セスのために要する時間を大幅に削減でき、それによっ
てコンピュータシステム全体の性能を向上できる。

【０００９】

【課題を解決するための手段】一般に、そして本発明の
１つの形態として、データ用の第１の複数キャッシュレ
ベル、命令用の第２の複数キャッシュレベル、および前
記第１および第２の複数キャッシュレベルと他のメモリ
とに接続されて動作する統合されたデータおよび命令キ
ャッシュレベルを含む階層構造の多重レベルキャッシュ
メモリサブシステムが提供される。

【００１０】本サブシステムの第１の複数キャッシュレ
ベルは好ましくは２である。本サブシステムの第２の複
数キャッシュレベルは好ましくは１である。本サブシス
テムの最下位レベルのデータキャッシュは、処理される
データ実行ユニットの数に等しいポート数に少なくとも
１つの付加的データポートを加えた数に等しいデータポ
ート数を有する。本サブシステムの最下位レベルの命令
キャッシュは、提供される命令デコーダ数に少なくとも
１を加えた数に等しい部品数を有する。

【００１１】進歩した多重レベルキャッシュコヒーレン
シプロトコルは、上位キャッシュ中へロードされて以
来、少なくとも部分的に修正されて、その上位キャッシ
ュ中で“修正済み”とマークされた内容を有するキャッ
シュラインを、そのラインに含まれる情報に関して、そ
の上位キャッシュからすぐ下位のキャッシュへ書き込む
こと、その下位キャッシュ中でそのラインを“修正済
み”として同定するようにマークすること、その下位キ
ャッシュ中にあるそのラインの少なくとも一部の内容を
変更すること、およびその下位キャッシュ中のそのライ
ンを上位キャッシュに対して修正済みとしてマークする
ことを含む。

【００１２】特に断らない限り、各図面において同じ参
照符号は対応する部品を指す。

【００１３】

【発明の実施の形態】図１Ａを参照しながら、その中に
本発明の好適実施例が組み込まれた例示スーパースカラ
パイプライン方式のマイクロプロセッサ１０を含む例示
データ処理システム２について説明しよう。ここに述べ
るシステム２およびマイクロプロセッサ１０のアーキテ
クチャはほんの一例であって、本発明が各種アーキテク
チャのプロセッサに利用できて、特にスーパースカラタ
イプのものに有利であることを理解されるべきである。
従って、当業者は本明細書を参照することによって本発
明をその他のそのようなプロセッサアーキテクチャ中に
実施することが容易に可能であろうことは理解されよ
う。

【００１４】図１Ａに示されるようなマイクロプロセッ
サ１０は、バスＢによって他のシステム装置につながれ
る。この例ではバスＢは単一バスとして示されている
が、例えば、ＰＣＩローカルバスアーキテクチャを採用
するコンピュータ分野で知られているように、異なる速
度およびプロトコルを有する複数のバスを代表している
ことはもちろんである。単一バスＢはここに単なる一例
として簡単のために示されているに過ぎない。システム
２は、通信ポート３（それはモデムポートおよびモデ
ム、ネットワークインタフェース、等を含むことができ
る）、グラフィックスディスプレイシステム４（それは
ビデオメモリ、ビデオプロセッサ、グラフィックスモニ
タを含むことができる）、典型的にはダイナミックラン
ダムアクセスメモリ（ＤＲＡＭ）によって実現されるメ
インメモリシステム５、入力装置６（それはキーボー
ド、ポインティングデバイス、およびそれのインタフェ
ース回路を含むことができる）、およびディスクシステ
ム８（それはハードディスクドライブ、フロッピディス
クドライブ、およびＣＤ−ＲＯＭドライブを含むことが
できる）のようなサブシステムを含む。従って、図１Ａ
のシステム２は、現在では当該分野で一般的な、ノート
ブックコンピュータ、デスクトップコンピュータ、ある
いはワークステーションに対応する。もちろん、当業者
には認識されるであろうように、マイクロプロセッサ１
０のその他のシステム構成も本発明から利益を得ること
ができる。

【００１５】マイクロプロセッサ１０は、バスＢにつな
がれ、マイクロプロセッサ１０とシステム２中のその他
の要素との間の通信を制御および実行するバスインタフ
ェースユニット（ＢＩＵ）１２を含む。ＢＩＵ１２はこ
の機能を実行するために適当な制御およびクロック回路
を含んでおり、それはオペレーション速度を増大するた
めの書き込みバッファと、内部マイクロプロセッサ１０
オペレーションの結果をバスＢのタイミング制約と同期
化するためのタイミング回路とを含んでいる。マイクロ
プロセッサ１０はまた、クロックおよび制御回路２０を
含んでおり、それはここの例示マイクロプロセッサ１０
では、バスＢからのバスクロックに基づいて内部クロッ
ク位相を発生する。内部クロック位相の周波数は、この
例では、バスクロック周波数の倍数として選択的にプロ
グラムされてよい。

【００１６】図１Ａで明らかなように、マイクロプロセ
ッサ１０は内部キャッシュメモリの３つのレベルを有す
る。それらの最上位のものはレベル２（Ｌ２）キャッシ
ュ１４であり、それはＢＩＵ１２につながれている。こ
の例で、レベル２キャッシュ１４は“統合化”キャッシ
ュ、すなわち、１つがコードとデータの両方をストアし
ており、バスＢからＢＩＵ１２を経由してすべてのキャ
ッシュ可能なデータおよびキャッシュ可能な命令を受信
するように構成されているため、マイクロプロセッサ１
０によって提供されるバストラヒックのほとんどがレベ
ル２キャッシュ１４を介して実現されるようになってい
る。もちろん、マイクロプロセッサ１０は特定のバス読
み出しおよび書き込みを“キャッシュ可能でない”とし
て取り扱うことによって、キャッシュ１４周りのバスト
ラヒックを実現することもできる。図１Ａに示されるよ
うに、レベル２キャッシュ１４は２つのレベル１キャッ
シュ１６につながれている。レベル１データ（Ｌ１Ｄ）
キャッシュ１６_dはデータ専用であり、他方、レベル１
命令（Ｌ１Ｉ）キャッシュ１６_iは命令専用である。マ
イクロプロセッサ１０による電力消費は、レベル１キャ
ッシュ１６の適当な１つのキャッシュミス時に、レベル
２キャッシュ１４のみにアクセスすることによって最小
化される。更に、データ側では、レベル０（Ｌ０）キャ
ッシュ１８が設けられており、それはこの例では、完全
に二重ポート化されたキャッシュである。すべてのキャ
ッシュは更に、必要なトランザクションを実行し、コヒ
ーレンシデータのような必要とされるデータを保持する
ための制御回路を含むことができる。

【００１７】図１Ａに示されるように、そして上で述べ
たように、マイクロプロセッサ１０はスーパースカラタ
イプのものである。この例で、マイクロプロセッサ１０
の内部には多重実行ユニットが設けられており、４つま
での命令が並行して同時に実行されることが可能となっ
ている。図１Ｂに示されるそれらの実行ユニット５４
は、条件分岐、整数および論理演算を処理するための２
つのＡＬＵ４２０、４２１、浮動小数点ユニット（ＦＰ
Ｕ）３０、２つのロード／ストアユニット４０₀、４
０₁、およびマイクロコントローラ４８を含む。この２
つのロード／ストアユニット４０はＬ０キャッシュ１８
への２つのポートを利用して、それへの真に並列的なア
クセスを許容しており、またレジスタファイル３９中の
レジスタへのロードおよびストアオペレーションを実行
する。一実施例では、レジスタファイル３９はオペラン
ドユニット４４中に含まれるかもしれない。マイクロデ
ータ変換検索バッファ（μＤＴＬＢ）３８が設けられ
て、論理データアドレスを物理アドレスへ変換するよう
になっている。

【００１８】これらの多重実行ユニット５４は、多重の
７ステージパイプラインによって制御される。それらの
ステージは次のようなものである。Ｆフェッチ：このステージは命令アドレスを発生し
て、命令キャッシュまたはメモリからその命令を読み出
す。ＰＤ０プレデコードステージ０：このステージは３つま
でのフェッチされた命令の長さとスタート位置とを決定
する。ＰＤ１プレデコードステージ１：このステージは命令バ
イトを抽出して、それらをデコード用の固定長フォーマ
ットへ再コード化する。ＤＣデコード：このステージは命令をアトミックオペ
レーション（ＡＯｐ）へ変換する。ＳＣスケジュール：このステージは４つまでのＡＯｐ
を適当な実行ユニットに割り当てる。ＯＰオペランド：このステージはＡＯｐによって表示
されるレジスタオペランドを取り出す。ＥＸ実行：このステージはＡＯｐおよび取り出したオ
ペランドに従って実行ユニットをランする。ＷＢライトバック：このステージは実行の結果をレジ
スタまたはメモリ中へストアする。

【００１９】図１Ａに戻ると、上で述べたパイプライン
ステージが、マイクロプロセッサ１０中の各種関数ブロ
ックによって実行される。フェッチユニット２６は、レ
ベル１命令キャッシュ１６_iに適用するために論理命令
アドレスを物理アドレスへ変換するマイクロ命令変換検
索バッファ（μＩＴＬＢ）２２を通して、命令ポインタ
から命令アドレスを発生する。命令キャッシュ１６_iは
フェッチユニット２６への命令データの流れを生成し、
後者はそれに従って命令コードを所望のシーケンスでプ
レデコードステージへ供給する。投機的実行（ｓｐｅｃ
ｕｌａｔｉｖｅｅｘｅｃｕｔｉｏｎ）は主としてフェッ
チユニット２６によって制御される。

【００２０】命令のプレデコードはマイクロプロセッサ
１０中で２つの部分、すなわちプレデコード０ステージ
２８とプレデコード１ステージ３２とに分割される。こ
れら２つのステージは別々のパイプラインステージとし
て動作し、また３つまでの命令をロケート（ｌｏｃａｔ
ｅ）しそれらをデコーダ３４へ供給するように一緒に動
作する。従って、マイクロプロセッサ１０中のパイプラ
インのプレデコードステージは３命令の幅になる。プレ
デコード０ユニット２８は上で述べたように、３命令
（それらは可変長でよい）ものサイズと位置とを決定す
るので、３つの命令リコグナイザ（ｒｅｃｏｇｎｉｚｅ
ｒ）を含んでいる。プレデコード１ユニット３２は、デ
コード作業を容易にするように、多重バイトの命令を固
定長フォーマットへ再コード化する。

【００２１】デコードユニット３４はこの例では４つの
命令デコーダを含んでおり、その各々がプレデコード１
ユニット３２から固定長命令を受信して、１から３のア
トミックオペレーション（ＡＯｐ）を生成することがで
きるようになっている。ＡＯｐは本質的にＲＩＳＣ命令
と等価である。４つのデコーダのうちの３つは並列的に
動作して、９までのＡＯｐをデコードユニット３４の出
力におけるデコードキューに配置してスケジューリング
待ちとする。４番目のデコーダは特別な場合のために取
っておく。スケジューラ３６はデコードユニット３４の
出力におけるデコードキューから４つまでのＡＯｐを読
み出して、それらのＡＯｐを適当な実行ユニット５４へ
割り当てる。更に、オペランドユニット４４は実行のた
めのオペランドを受信して準備する。図１Ａに示される
ように、オペランドユニット４４はマイクロコントロー
ラ４８およびマイクロコードＲＯＭ４６からマルチプレ
クサ４５を介して入力を受信し、命令の実行時に使用す
るためのレジスタオペランドをフェッチする。更に、こ
の例に従えば、オペランドユニット４４はストアされる
準備のできたレジスタへ結果を送るオペランド転送を実
行する。ロードおよびストアタイプのＡＯｐ用のアドレ
ス発生はオペランドユニット４４によって行うことがで
きる。あるいは、ロード／ストアユニット４０を用いて
ロードおよびストアＡＯｐ用のアドレス発生を実行して
もよい。

【００２２】マイクロコントローラ４８は、マイクロコ
ードＲＯＭ４６と組み合わされて、一般に１つのサイク
ル中で実行すべき最後のＡＯｐであるマイクロコードエ
ントリＡＯｐの実行時に、ＡＬＵ４２およびロード／ス
トアユニット４０を制御する。この例で、マイクロコン
トローラ４８は、それらのマイクロコード化されたマイ
クロ命令のためのこの制御を実行するために、マイクロ
コードＲＯＭ４６中にストアされたマイクロ命令を順序
付けする。マイクロコード化されたマイクロ命令の例
は、マイクロプロセッサ１０用として、複雑または稀に
しか使用されない命令、セグメントを修正したりレジス
タを制御する命令、例外および割り込みを処理する命
令、および多重サイクル命令（ＲＥＰ命令や、すべての
レジスタをＰＵＳＨしたりＰＯＰしたりする命令など）
を含む。

【００２３】マイクロプロセッサ１０はまた、製造の完
了、リセット、およびその他のイベント時に、マイクロ
プロセッサ１０のオペレーションの有効性を確認するた
めの特定の組み込み自己試験機能およびＪＴＡＧスキャ
ン試験のオペレーションを制御するための回路２４を含
む。

【００２４】図１Ａは新規な多重レベルメモリ階層を利
用するプロセッサを示している。多重レベル階層は、利
用可能なチップ面積の制約のもとで、性能およびパワー
を最適化するように構築できる。図２Ａを参照すると、
このメモリ階層５６は好ましくは、キャッシュ１４、１
６、１８、書き込みバッファ６０、６２、６４、変換検
索バッファ（ＴＬＢ）５０、２２、３８、および分岐タ
ーゲットバッファ（ＢＴＢ）５２を含む。このメモリ階
層５６の外部的な振る舞いは、各種の外部システムとの
インタフェースとなるように構成できる。例えば、メモ
リ階層５６はペンティアム^TMプロセッサと同じ外部的振
る舞いを提供できる。

【００２５】本発明の一実施例では、好ましくは４つの
キャッシュモジュール１４、１６_i、１６_d、１８が存在
する。それらをＬ０Ｄ、Ｌ１Ｄ、Ｌ１Ｉ、およびＬ２と
呼ぶことにしよう。２つのタイプのアクセス間の衝突な
しに、データアクセスバンド幅とともにフェッチバンド
幅も大きくするために、下位レベル（データ：Ｌ０Ｄお
よびＬ１Ｄ、命令：Ｌ１Ｉ）に別々のデータ１８、１６
_d、および命令１６_iキャッシュが存在することが好まし
い。最上位レベルのキャッシュ１４（Ｌ２）は、オンチ
ップキャッシュのヒット率を最大化し、それによってピ
ン上での電力消費を最小化して平均メモリアクセス時間
を促進する目的のために、データおよび命令ラインの両
方を保持するために使用されよう。その他のアドレッシ
ング法を使用してもよいが、もしすべてのキャッシュが
物理的にアドレス指定されれば、エイリアスによる仮想
アドレッシングに付随するコヒーレンシの問題は回避さ
れる。

【００２６】後続の段落は４つのキャッシュモジュール
を組み込む実施例について述べている。この説明は全体
のサイズ、ラインサイズ、アクセス時間、およびアソシ
アティブのような情報を含んでいる。それらはほんの例
示値にしか過ぎないことに注意されたい。本発明はそれ
らの値が別の実施例では変更できることを考慮に入れて
いる。

【００２７】一実施例では、Ｌ０Ｄキャッシュ１８は一
般にプロセッササイクルの約１／３という最高速のアク
セス時間を有しており、図１Ａに示されるようにロード
／ストアユニット４０に最も接近している。Ｌ０Ｄキャ
ッシュ１８はデータライン（またはブロック）をストア
し、それの全体のサイズは１ｋバイトであることが好ま
しい。Ｌ０Ｄラインは各々１６バイトで、４ウエイのセ
ットアソシアティブ構成に配置されることが好ましい。
一実施例では、Ｌ０Ｄ１８は単サイクルの読み出し／
書き込み（ｒ／ｗ）能力を備えるスーパースカラーキャ
ッシュである。Ｌ０Ｄ１８は従って、単一のクロック
サイクルで、１６バイトの整列したライン中で１から４
バイトの読み出し／書き込みを行うことができる。１バ
イトの読み出し／書き込みは１クロックを要する。もし
２から４バイトの読み出し／書き込みが１６バイト不整
列であれば、それは２クロックを要する。

【００２８】Ｌ０Ｄ１８で、クロック毎に、バック・
ツー・バックのｒ／ｗオペレーションが可能である。図
３の時間図はオペレーションのシーケンスを示してお
り、同じまたは異なるアドレスに対して、３クロックの
間に４読み出しと２書き込み（合計で６オペレーショ
ン）が行えることを示している。ｒｄ４およびｒｄ５は
ｗｒ２およびｗｒ３と同じアドレスに対して行えること
を注意しておく。従って、１つの書き込みと１つの読み
出しがＣｌｋ２中に同じ場所に対して実行できるので、
書き込まれたデータは読み出しポートにおいて有効であ
る。

【００２９】Ｌ１Ｄキャッシュ１６_dは次のレベルのデ
ータキャッシュであり、Ｌ０Ｄ１８からのミスを処理
する。Ｌ１Ｄ１６_dは好ましくは、３２バイトライン
と全体のサイズが８Ｋバイトである２ウエイのセットア
ソシアティブである。この実施例で、Ｌ１Ｄキャッシュ
１６_dは２ウエイのセットアソシアティブであるため、
それはＬ１Ｉ１６_iと同じＲＡＭアレイを使用して組
み込むことができる。Ｌ１Ｄキャッシュ１６_dはＬ０Ｄ
キャッシュ１８を包括しないので、Ｌ０Ｄ１８中には
ラインが存在するが、Ｌ１Ｄ１６_d中には存在しない
ラインがあろう。Ｌ１Ｄキャッシュ１６_dのアクセス時
間は１プロセッササイクルであることが好ましい。

【００３０】命令キャッシュ１６_i、Ｌ１Ｉは好ましく
は８Ｋバイトのサイズで、３２バイトラインを有し、２
ウエイのセットアソシアティブである。線形アドレスか
ら物理アドレスへの変換前のｘ８６アーキテクチャ中で
アドレッシング可能な最大のセットサイズは４Ｋバイト
であるため、もしｘ８６アーキテクチャを使用するので
あれば、Ｌ１Ｉ１６_iは２ウエイのセットアソシアテ
ィブであることが好ましい。線形および物理アドレスの
両方において、４Ｋバイトの境界内のアドレスビットは
同一である。従って、キャッシュセットのアドレッシン
グ可能性を４Ｋバイトに制限することによって、Ｌ１Ｉ
１６_iへのアクセスはアドレス変換とオーバーラップ
させることができる。Ｌ１Ｉキャッシュ１６_iのアクセ
ス時間は１プロセッササイクルである。

【００３１】Ｌ２キャッシュ１４は組み合わされたデー
タおよび命令キャッシュである。Ｌ１Ｄ１６_dおよび
Ｌ１Ｉ１６_iのミスは両方ともＬ２キャッシュ１４か
らサービスを受ける。Ｌ２キャッシュ１４は好ましく
は、６４Ｋバイトの、４ウエイのアソシアティブで、６
４バイトのスーパーラインを有する。各Ｌ２スーパーラ
インは２つの３２バイトラインを含む。もしペンティア
ム^TMプロセッサの要求との一貫性が望ましければ、外部
メモリコヒーレンスを３２バイト細分性（ｇｒａｎｕｌ
ａｒｉｔｙ）に保持しなければならない。Ｌ２キャッシ
ュ１４のアクセス時間は３サイクルであり、１つはタグ
検索用、残る２つはデータの読み出しと書き込み用であ
る。Ｌ２キャッシュ１４のアクセス時間はタグとデータ
の読み出しを同時に行うことによって２サイクルに短縮
できる。タグ検索を最初に行えば、データの存在する正
確なウエイが決定できる。従って、データを含むデータ
ｒａｍの部分のみをパワーアップすればよい。もし並列
検索が行われれば、すべてのウエイ、この例では４ウエ
イでデータｒａｍを読み出さなければならない。

【００３２】Ｌ２キャッシュ１４はメモリ階層の残りと
外部メモリとの間の機能的インタフェースであり、ＢＩ
Ｕ１２と共同して、メモリ階層との間でデータを出し入
れして外部システムとのコヒーレンスを保持することに
責任がある。Ｌ２キャッシュ１４はまた、このメモリ階
層中の他のキャッシュモジュール間でコヒーレンスを保
持する。

【００３３】多重レベルキャッシュシステムでは、キャ
ッシュ間、および外部メモリとの間でもコヒーレンスを
保持するためのシステムが要求される。コヒーレンシは
また、同一メモリへアクセスするマルチプロセッサシス
テムでも必要である。用語“汚染”は、問題のデータが
高位レベルのキャッシュと比べて異なっていることを表
示するために用いられよう。修正されたという用語は、
データが外部メモリと比べて異なっていることを示すた
めに使用されよう。キャッシュコヒーレンシを保持する
ためのプロトコルについて以下で更に説明しよう。

【００３４】一実施例では、Ｌ０Ｄ１８、Ｌ１Ｄ１
６_d、およびＬ２１４キャッシュがデータの８バイト
毎に１ビットの汚染ビットを保有している。別の実施例
では、Ｌ０Ｄ１８とＬ１Ｄ１６_dがデータの１６バ
イト毎に１つの汚染ビットを保有しており、Ｌ２１４
には汚染ビットは保持されない。汚染ビットは、次の上
位レベルのキャッシュまたはメインメモリ５へ書き込む
べきデータチャンクの数（ここに述べる実施例では８ま
たは１６バイトチャンク）を、修正されたものだけに
（対応する汚染ビットがセットされる）減らすために用
いられる。この選択的な書き込みは、外部バスＢのほ
か、キャッシュへの犠牲（ｖｉｃｔｉｍ）およびスヌー
プのライトバック間の電力を節約する。

【００３５】図２Ａに示されるように、メモリ階層５６
にはＢＩＵ１２によって制御される３種類の書き込みバ
ッファ６０、６２、６４がある。ライトスルーバッファ
（ＷＴＢ）６０は、キャッシュから外部メモリ５へのラ
イトスルーデータの倍長ワード（ｄｗｏｒｄ）分をいく
つか保持するために使用される。置換ライトバックバッ
ファ（ＲＷＢ）６２は好ましくは６４バイト幅のバッフ
ァであって、バスＢが利用できる時に外部メモリ５へラ
イトバックすべき、Ｌ２キャッシュ１４から戻された犠
牲データを保持するために使用される。スヌープライト
バックバッファ（ＳＷＢ）６４は好ましくは３２バイト
幅のバッファであって、外部スヌープ要求によって外部
メモリ５へライトバックされるＬ２キャッシュからの３
２バイトのサブラインを保持するために使用される。

【００３６】一実施例では、キャッシュ１４、１６、１
８、メインＴＬＢ５０、およびＢＴＢ５２はセットアソ
シアティブとして構成される。好ましくは、メインＴＬ
Ｂ５０、ＢＴＢ５２、Ｌ２キャッシュ１４、およびＬ０
Ｄキャッシュ１８は４ウエイのセットアソシアティブと
して構成され、またＬ１Ｄ１６_dおよびＬ１Ｉ１６_i
キャッシュは２ウエイのセットアソシアティブとして構
成される。μＤＴＬＢ３８およびμＩＴＬＢ２２はフル
アソシアティブであるのが好ましい。各ユニットは複数
のセットを有しており、各セットはウエイ数の等しい数
のラインを有している。

【００３７】メモリ階層５６は好ましくは、３つのＴＬ
Ｂ、メインＴＬＢ（ＴＬＢ）５０、マイクロデータＴＬ
Ｂ（μＤＴＬＢ）３８、およびマイクロ命令ＴＬＢ（μ
ＩＴＬＢ）２２を含む。メインＴＬＢ５０は好ましく
は、４Ｋページの変換用には１２８のエントリを、また
４Ｍページの変換用には４つの別々のエントリを含む。
１２８の４Ｋエントリは好ましくは４ウエイのセットア
ソシアティブ風に構成され、また４Ｍページはフルアソ
シアティブのように構成される。

【００３８】μＤＴＬＢ３８は好ましくは、Ｌ０Ｄ１
８へのデータアクセス間の高速なページ変換用にフルア
ソシアティブな構成で８エントリを含む。それはほんの
４Ｋページを含む。４Ｍページは合成された４Ｋページ
としてストアされる。μＤＴＬＢ３８は好ましくは、プ
ロセッサ１０中の２つのロード／ストアユニット４０に
対応して読み出し用に二重ポートとなっており、１つの
書き込みポートを有する。メモリアドレス発生、μＤＴ
ＬＢ３８（ページングが許可された時）を使用しての線
形から物理アドレスへの変換、およびＬ０Ｄ１８アク
セスはすべて１つプロセッササイクル中で完了する。も
し変換要求がμＤＴＬＢ３８中でミスすると、データア
クセスは停止されて、変換要求はメインＴＬＢ５０へ渡
される。

【００３９】μＩＴＬＢ２２は命令アクセス用の高速ペ
ージ変換のために使用されて、好ましくはフルアソシア
ティブで４エントリを有する。４Ｍページは合成された
４Ｋページとしてストアされる。μＩＴＬＢ２２はＬ１
Ｉ１６_iと同時にアクセスされ（ページングが許可さ
れた時）、Ｌ１Ｉタグの比較はページ変換が完了した後
で行われる。もし変換要求がμＩＴＬＢ２２中でミスす
ると、Ｌ１Ｉ１６_iは停止されて、変換要求はメイン
ＴＬＢ５０へ渡される。

【００４０】μＤＴＬＢ３８およびμＩＴＬＢ２２から
のミスはメインＴＬＢ５０によって処理される。メイン
ＴＬＢ５０は、変換テーブル、すなわちメインメモリ５
中のページテーブルエントリ（ｐｔｅ）およびページデ
ィレクトリエントリ（ｐｄｅ）をウオークスルー（ｗａ
ｌｋｔｈｒｏｕｇｈ）するステートマシンを有する。
しかし、ＴＬＢ５０要求はＬ２キャッシュ１４を通して
送られるので、いくつかのｐｄｅおよびｐｔｅが一時に
読み出されてＬ２キャッシュ１４にストアされる。それ
らのエントリへのそれ以上のＴＬＢ５０ミスに関して
は、それらのエントリはメインメモリ５の代わりにＬ２
キャッシュ１４から得られる。

【００４１】図４は一例として、Ｌ０Ｄキャッシュ１８
のデータｒａｍの論理レイアウトを示す。この例で、キ
ャッシュは４ウエイのセットアソシアティブであり１６
セットおよび１６バイトラインを備える。図５は図４に
示されるデータｒａｍの物理レイアウトの一例を提供す
る。物理ｒａｍはメモリの奇数および偶数バンクを含
む。各バンクは２つの隣接するエントリを有し、それら
は論理１６バイトラインの２つの奇数／偶数エントリを
含んでいる。各バンクの１６バイト出力は（４ウエイの
うちの）各ウエイに対する４バイトに対応する。

【００４２】図５に示される構造は、単一のクロックサ
イクル中に１６バイトの整列ライン内で１から４の隣接
するバイトの任意のものを、また２クロック中では１６
バイトの不整列ラインを読み出し／書き込みする能力を
提供するために使用することができる。以下の説明は、
図４および図５に示され上で説明したような例示Ｌ０Ｄ
キャッシュ１８を使用してこの能力を説明しているが、
以下に述べる技術は、整列あるいは不整列ラインのサブ
セットの読み出しまたは書き込みが必要とされる任意の
メモリにおいて使用できよう。すべてのアドレス／デー
タの意味論は“リトルエンディアン”フォーマット、す
なわち右から左へ増大する順序になっていることに注意
されたい。

【００４３】一実施例では、Ｌ０Ｄ１８へのアクセス
のために３２ビットアドレスが使用される。アドレスは
好ましくは次のように分割される。

【００４４】

【表１】ビット３１−８＝タグヒットを決定するためのタグ比較
のために２４ビットタグが使用される。ビット７−４＝１６セットへのアクセスを提供する４ビ
ットセットアドレスビット３−０＝１６バイトライン中のバイトオフセット

【００４５】１６バイト整列ライン内の任意の１から４
バイトを抽出するために、単一クロックサイクルが使用
される。これを行う機構は次のようになっている。

【００４６】１６バイトラインは次のように、４バイト
の奇数／偶数バンクを含むことができる。

【００４７】

【表２】

【００４８】１６バイト整列ライン内で任意の２から４
バイトを読み出すためには、１つの奇数バンクと１つの
偶数バンクとがアクセスされなければならない。奇数／
偶数バンクのこの対から、奇数／偶数対を整列およびシ
フトすることによって、任意のバイト整列した２から４
バイトが抽出できる。従って、それぞれ４バイトの奇数
／偶数対が選ばれ、偶数−奇数または奇数−偶数として
一緒にされて８バイトセグメント（それは整列された４
バイト）を形成する。次にセグメントは下方へ１から３
バイトシフトされて、バイト整列された１から４バイト
の結果が得られる。

【００４９】アドレスビット３−０は、１６バイト整列
ラインからどのバイトを抽出する必要があるかに関する
情報を運ぶ。アドレスビット１−０は１つの奇数／偶数
対の中でバイトオフセットを制御する。どの奇数／偶数
対を選ぶか、およびそれらをどの順序で配置するか（偶
数−奇数か、奇数−偶数か）の決定は次に示すように行
われる。

【００５０】

【表３】

【００５１】もし‘奇数バンク選択’が高レベルであれ
ば奇数１が選ばれ、もしそれが低レベルであれば奇数０
が選ばれる。‘偶数バンク選択’が高レベルであれば偶
数１が選ばれ、またそれが低レベルであれば偶数０が選
ばれる。‘上位半分として偶数’が高レベルの時は、選
ばれた奇数および偶数バンクから形成される８バイトの
高位４バイトとして偶数バイトを備えた８バイトチャン
クが形成される。‘上位半分として奇数’が高レベルの
時は、結果は上で述べた‘上位半分として偶数’の逆で
ある。

【００５２】以下は上述の方式を実演するための例であ
る。３２ビットアドレスが１６進数で０ｘ．．．．．５
であり、この番地からスタートする４バイトがアクセス
されると想定する。従って、次のラインから我々はバイ
ト８−５にアクセスしたい。

【００５３】

【表４】

【００５４】３−０アドレスビットは次のようになる。

【００５５】

【表５】

【００５６】従って、偶数バンク選択＝Ａ＜３＞ｘｏｒＡ２＞＝０ｘｏｒ１＝
１奇数バンク選択＝Ａ＜３＞＝０上位半分として偶数＝Ａ＜２＞＝１

【００５７】この結果、奇数０および偶数１が選択さ
れ、一緒に偶数１−奇数０として配置される。これか
ら、１６バイトラインから抽出される８バイトチャンク
は次のようになる。

【００５８】

【表６】

【００５９】次に、バイト整列したデータを抽出するた
めの右シフトインデックスを決定するためにＡ＜１−０
＞が使用される。この例では、Ａ＜１−０＞＝０１であ
る。従って、１バイトの右シフトは期待されるバイト整
列したデータを提供しよう。０ｂ０ａ０９０８０７０６
０５０４を１バイト右シフトすると、０ｂ０ａ０９０８
０７０６０５となり、期待されるデータとして最も右の
４バイトが得られる。

【００６０】１６バイトの不整列アクセスに対しては、
任意の２から４バイトのデータを抽出するために２クロ
ックが必要である。その機構は、上述の方式と、２クロ
ック中にデータを抽出するためのアドレス算出との組み
合わせを用いる。１６バイト不整列アクセスにおいて
は、必要とされるデータは２つの隣接する１６バイト整
列ラインに広がっている。例えば、もしアドレス０
ｘ．．．．．．０ｅにある４バイトが必要であれば、そ
れらは次のように抽出できる。

【００６１】

【表７】

【００６２】最初の１から３バイトは、上で説明した整
列方式を用いて、下位の１６バイトラインから抽出され
る。次に１６（１６進数で０ｘ１０）がアドレスに加算
されて、この計算結果が次の上位の１６バイトラインへ
のアドレスポインタとなる。次に、上述の方式を用い
て、上位の１６バイトラインから残りのバイトが抽出さ
れる。上述の工程は２つの４バイト整列したデータチャ
ンクを与える。最初のセグメントからのいくつかのバイ
トと、第２のセグメントからのいくつかのバイトとが選
ばれて期待された連続するデータを形成する。

【００６３】例えば、もしアドレス０ｘ．．．．．０ｅ
にある４バイトが必要なら、下位の１６バイトからのバ
イト１４および１５と、上位の１６バイトからのバイト
０および１が、１１１００ｆ０ｅの結果のために期待さ
れる。

【００６４】まず、所望データの最初の半分がセット０
から抽出される。このセットのアドレスは、アドレス０
ｘ．．．．０ｅのアドレスビットＡ＜７−４＞にある。Ａ＜３−０＞＝１１１０偶数バンク選択＝Ａ＜３＞ｘｏｒＡ＜２＞＝１ｘｏｒ１
＝０奇数バンク選択＝Ａ＜３＞＝１上位半分として偶数＝Ａ＜２＞＝１

【００６５】奇数１および偶数０が選ばれて、一緒に偶
数０−奇数１として配置される。従って、８バイトチャ
ンクが１６バイトラインから抽出されたことになる。

【００６６】

【表８】

【００６７】次に、２バイトの右シフトが行われて、下
位の１６バイトから４バイト０１０００ｆ０ｅが得られ
る。下位の１６バイトのバイト０と１が循環することに
注意されたい。

【００６８】上位１６バイトの該当部分を得るために、
アドレスに対して１６（０ｘ１０）が加算されて、新し
いアドレス０ｘ．．．．．１ｅが得られる。Ａ＜７−４
＞＝０ｘ１であるから、このアドレスはセット１を指
す。整列した奇数／偶数選択およびバイトローテーショ
ンが下位の１６バイトに対して実行され次に実行され
る。ａ＜３＝０＞＝１１１０偶数バンク選択＝Ａ＜３＞ｘｏｒＡ＜２＞＝１ｘｏｒ１
＝０奇数バンク選択＝Ａ＜３＞＝１上位半分として偶数＝Ａ＜２＞＝１

【００６９】従って、奇数１および偶数０が選ばれ、一
緒に偶数０−奇数１として配置される。これから、１６
バイトラインから抽出される８バイトチャンクは次のよ
うになる。

【００７０】

【表９】

【００７１】次に、２バイトの右シフトが実行されて、
１０ｆｅの４バイトが得られる。ここでも、上位１６バ
イトラインのバイト１４および１５の循環に注意された
い。２つの計算からの該当するバイトは次に多重化され
る。

【００７２】

【表１０】

【００７３】下位の半分からの‘０ｆ０ｅ’および上位
の半分からの‘１１１０’が選択されて、その結果、１
６バイトの不整列境界を横切って広がる４バイトが得ら
れる。上述の方法を用いて、それらのバイトは２クロッ
クで抽出できる。

【００７４】マイクロプロセッサは一般に、オンチップ
のキャッシュを許可または不許可のいずれかで動作でき
る。ペンティアム^TMプロセッサでは、メモリは、ペンテ
ィアムプロセッサ^TMユーザマニュアルの第１巻に従うペ
ージ変換テーブルにあるＣＲ０．ＣＤビットまたはＰＣ
Ｄビットを使用することによって、任意のデータまたは
命令ラインをキャッシングすることを妨げられる。キャ
ッシュが禁止される時は、すべてのメモリの読み出しお
よび書き込みはバスを使用して直接的に外部メインメモ
リに対して実行される。しかし、もしいくらかのデータ
がキャッシュにストアされた後でキャッシュが禁止され
たのであれば、キャッシュ禁止であってもキャッシュが
ヒットすることがあり得る。各種のケースについてペン
ティアム ^TMプロセッサユーザマニュアルの第１巻に述べ
られている。ペンティアム^TMでは個々のラインのキャッ
シュ能力は外部ピンＫＥＮ＃によって制御される。その
ような特徴点についての記述に関しては、ペンティアム
^TMプロセッサユーザマニュアルの第１巻を参照された
い。

【００７５】メモリ階層５６は、ライトスルー（ＷＴ）
またはライトバック（ＷＢ）のいずれかのモードで動作
することができる。ペンティアム^TMでは、ＷＢ／ＷＴモ
ードは、ページ変換テーブル（ペンティアム^TMプロセッ
サユーザマニュアルの第１巻を参照）のＰＷＴビット、
ＣＲ０．ＮＷビット、および、バスのＷＢ／ＷＴ＃ピン
によって制御される。ライトスルーモードでは、プロセ
ッサ中での書き込みアクセスはすべてバスＢ上へ通知さ
れる。ライトバックモードでは、キャッシュラインの書
き込みは通常はラインが内部Ｌ２キャッシュ１４から移
される時だけバスＢ上に現れるか、あるいは１ラインが
１つのプロセッサによって要求されて、別のプロセッサ
はそのラインの修正されたコピーを有するようになって
いる。

【００７６】一実施例では、内部および外部条件がキャ
ッシングを許容する時は、各種の読み出し／書き込みオ
ペレーションは好ましくはメモリ階層５６中で次のよう
に進行する。

【００７７】命令読み出し：命令フェッチの間、フェッ
チユニットは、命令を含むメモリの１６バイト量をＬ１
Ｉキャッシュ１６_iから要求する。もしそれらの１６バ
イトがＬ１Ｉ１６_i中に存在すれば（Ｌ１Ｉ中でヒッ
ト）、Ｌ１Ｉ１６_iは直ちにその１６バイト量をフェ
ッチユニット２６へ供給する。もしそれがミスであれ
ば、Ｌ１Ｉ１６_iはその要求をＬ２キャッシュ１４へ
送り出す。もしその要求がＬ２１４でヒットすれば、
３２バイトの１ラインがＬ１Ｉ１６_iへ供給される。
Ｌ１Ｉ１６_iはこのラインをストアして、要求された
１６バイト部分をフェッチユニット２６へ供給する。も
しその読み出し要求がＬ２１４でミスすれば、Ｌ２
１４は、ＢＩＵ１２に対してそのラインを（あるいはそ
のラインを含むスーパーラインを、これはそのスーパー
ライン中にその他のラインが存在するかどうかに依存す
る）メインメモリ５から得るように要求する。ＢＩＵ１
２はその（それら）ラインを８バイトチャンクでフェッ
チして、準備が整えば、それらをＬ２１４／Ｌ１Ｉ
１６_i／フェッチユニット２６へ通過させる。フェッチ
ユニット２６は、それらが準備できた時には８バイト部
分を消費する。データの最初の３２バイト（Ｌ１Ｉ１
６_iによって要求されたライン）が有効である時は、Ｌ
１Ｉ１６_iがそのラインをストアして、フェッチユニ
ット２６からの別の読み出し要求に対処する準備ができ
ている。Ｌ２キャッシュ１４が外部メモリ５からそのラ
イン（またはスーパーライン）を得た後で、それはその
ライン（またはスーパーライン）をストアして、別の要
求に対処する準備ができている。

【００７８】データ読み出し：データフェッチの間に、
ロード／ストアユニット４０（Ｌ／Ｓ０およびＬ／Ｓ
１）はＬ０Ｄキャッシュ１８へ１／２／４バイトの読み
出し要求をサブミットする。各Ｌ／Ｓユニット４０はＬ
０Ｄキャッシュ１８への専用の読み出しポートを有す
る。従って、Ｌ０Ｄ１８によって同じサイクル中に多
重読み出し要求が処理できる。もし読み出し要求がＬ０
Ｄ１８でヒットすれば、データが直ちに対応するＬ／
Ｓユニット４０へ供給される。もしその要求がミスすれ
ば、Ｌ０Ｄ１８はその要求をＬ１Ｄ１６_dへ送る。
（もし両方のＬ／Ｓユニット４０が読み出し要求を受け
て、両方がミスすれば、Ｌ／Ｓ０４０₀からの要求が先
に処理される）。もしＬ１Ｄ１６_dでヒットすれば、
Ｌ１Ｄ１６_dは１６バイトラインをＬ０Ｄ１８へ戻
す。Ｌ０Ｄ１８はその１６バイトラインをストアし
て、その要求しているＬ／Ｓユニット４０へ供給する。
もしそれがＬ１Ｄ１６_dでのミスであれば、その読み
出し要求はＬ２キャッシュ１４へ送られて、Ｌ２キャッ
シュ１４は、それが命令読み出しを処理する方法と同じ
ように、データ読み出しアクセスを処理する。もし読み
出し要求がキャッシュの１つでミスすれば、そのライン
が次の上位レベルキャッシュまたはメインメモリ５へ供
給されるまではそのキャッシュはブロックされることに
注意されたい。

【００７９】データ書き込み：データストアの間に、Ｌ
／Ｓユニット４０は１／２／４バイト書き込み要求をＬ
０Ｄ１８へサブミットする。もしそのラインがＬ０Ｄ
１８に存在すれば、そこで書き込みが実行される。更
に、もしそのラインがＬ０Ｄ１８で既に修正されていな
ければ、その書き込み要求はＬ１Ｄキャッシュ１６_dへ
も送られる。もしそのラインがＬ１Ｄ１６_dに存在す
れば、書き込みがＬ１Ｄ１６_dで実行される。更に、
もしそのラインがＬ１Ｄ１６_dで既に修正されていな
ければ、その書き込み要求はＬ２キャッシュ１４へも送
信される。Ｌ２キャッシュ１４中でのそのラインの状態
に関わらず、その書き込みは好ましくはＬ２１４では
決して実行されない。これは書き込みアクセスの間にＬ
２キャッシュ１４アレイをパワーオンすることを避ける
ために行われる。しかし、Ｌ２キャッシュ１４はもしそ
れがヒットすれば、そのラインに要求された状態変更を
実行する。更に、もしそれがヒットであれば、そしてそ
の書き込みがメインメモリ５へ書き込まれる必要があれ
ば、その書き込み要求はＢＩＵ１２へ送られる（これを
ライトスルーと呼ぶ）。もしそのラインがＬ０Ｄ１８
でミスすれば、その書き込み要求はＬ１Ｄ１６_dへ送
られて、その後でＬ０Ｄ１８は解放されてＬ／Ｓユニ
ット４０からの他の要求に応じることができる（Ｌ０Ｄ
１８は書き込みに関してはブロックされない）。もし
そのラインがＬ１Ｄ１６_dでミスすれば、その書き込
み要求はＬ２１４へ送られる。しかし、一実施例で
は、Ｌ１Ｄ１６_dは、Ｌ０Ｄ１８からの別の要求に応
えられる前に、Ｌ２１４がそれを手放すまで待つ。も
しこの書き込み要求がＬ２１４でミスすれば、それは
ＢＩＵ１２へ送られる。ＢＩＵ１２はその書き込み情報
を書き込みバッファ６０、６２、６４の１つにストアし
て、バスＢが有効になった時点でそれをバスＢに書き込
む。

【００８０】書き込み割り当て：キャッシュミスが発生
した時に、もし１つのキャッシュラインが満杯であれ
ば、そのラインは割り当てられるべきといえる。一実施
例では、メモリ階層の一部のみが書き込みミスの時にラ
インを割り当てる。Ｌ０Ｄ１８は好ましくは、書き込
みミス時にラインを割り当てないので、それは書き込み
に関してブロックしない。Ｌ１Ｄ１６_dは好ましく
は、それがＬ２１４でヒットした時だけ、書き込みミ
スでそのラインを割り当てる。もしそのアクセスがＬ２
１４でもミスすれば、そのラインは好ましくはＬ１Ｄ
１６_dでは割り当てられず、Ｌ１Ｄ１６_dは解放され
て他の要求に応じることができる。一般に、そのライン
は好ましくは書き込みミス時にＬ２キャッシュ１４に割
り当てられる。

【００８１】犠牲置換およびライトバック：Ｌ０Ｄ１
６_d、Ｌ１Ｄ１８、またはＬ２１４キャッシュでミ
スがあった時は、そして対応するキャッシュの中の関連
するセットに空の（無効な）ラインが存在しなければ、
そのセット中のラインの１つが選ばれて、次の上位レベ
ルのキャッシュまたはメモリからフェッチされるべき新
しいラインによって置き換えられる。置換すべきライン
は犠牲と呼ばれる。もし犠牲が対応するキャッシュ中で
汚染（ｄｉｒｔｙ）であれば、それは、新しいラインが
その場所に書き込まれる前に、次のレベルのキャッシュ
またはメモリへライトバックされなければならない。も
し犠牲がそのキャッシュの中で汚染していなければ、そ
れは単にフェッチされる新しいラインによって置き換え
られよう。

【００８２】Ｌ２キャッシュ１４周りのバイパス書き込
み：ロード／ストアユニット４０からのデータ書き込み
は好ましくは、Ｌ２キャッシュ１４中で決して実行され
ない。Ｌ０Ｄ１８／Ｌ１Ｄ１６_d中でコピーのみが
修正されて、そして／またはそのアクセスはメインメモ
リ５中で実行される。従って、Ｌ２キャッシュ１４中の
１つのラインのコピーが古いデータを有しているが、メ
インメモリ５およびＬ０Ｄ１８（および／またはＬ１
Ｄ１６_d）は同じ最新のデータを有しており、そのラ
インがメモリ階層中で修正済み状態にない可能性があ
る。しかし、このデータの不一致は誤った動作を生じる
ことはないであろう。ラインがＬ０Ｄ１８から置換さ
れる時は、それはＬ１Ｄ１６_dへライトバックされ、
同様に、それがＬ１Ｄ１６_dから置換される時は、そ
れはＬ２１４へライトバックされるので、修正された
データがメモリ階層中に保存されて、必要な時にはＬ／
Ｓ４０またはフェッチ２６ユニットによって使用され
る。

【００８３】ＴＬＢ読み出し：ＴＬＢ５０ミス時に、あ
るいはＴＬＢエントリ中の‘汚染’ビットがセットされ
る必要がある時は、メインＴＬＢ５０はアンロックされ
た読み出し要求をＬ２１４へ送る。Ｌ２キャッシュ１
４は、それがヒットすれば直ちに、ページテーブルエン
トリまたはページディレクトリエントリをＴＬＢ５０へ
供給する。ミスの場合には、Ｌ２キャッシュ１４はメイ
ンメモリ５からそのエントリをフェッチして、そのライ
ン（またはスーパーライン）をストアして、そのエント
リをＴＬＢ５０へ供給する。注意：ＴＬＢ５０からの書
き込み要求は好ましくはロックされており、そしてロッ
クされたアクセスはキャッシング不可能である。ロック
されたアクセスの間、ローカルバスの制御は、ロックさ
れた要求が完了するまでは別のバスコントローラへ渡さ
れない。

【００８４】Ｌ０Ｄ１８におけるデータアクセスの危
険：ロード／ストアユニット４０の両方が同じサイクル
でデータアクセスを必要とすることがあり得る。もし両
方の要求が同じアドレス（同じ１６バイトライン）に対
するものであり、少なくともその一方が書き込みアクセ
スであれば、それは危険な状態であって、Ｌ０Ｄキャッ
シュ１８はそのデータアクセスを進める前にその危険を
解決する。

【００８５】新しいラインをＬ／Ｓユニット４０へフェ
ッチする時は、もしキャッシュの１つのセットの中に空
きのラインがなければ（すなわち、セット中のすべての
ラインが有効なデータを含んでいる）、そのセットに新
しいラインをストアできる前に、現在のラインの１つを
置き換える必要がある。置換すべきラインは置換アルゴ
リズムによって決定される。それは異なるキャッシュユ
ニット毎に異なる。一実施例では、Ｌ１Ｄ１６_dおよ
びＬ１Ｉ１６_iキャッシュはＬＲＵ（リースト・リセ
ントリ・ユーズド）アルゴリズムを使用しており、一方
他のユニットは擬似ＬＲＵ（あるいはツリーＬＲＵ）ア
ルゴリズムを使用する。擬似ＬＲＵアルゴリズムは、Ｌ
ＲＵアルゴリズムにおいてしばしば維持されている詳細
な履歴を保持しないで、最も長時間にわたりアクセスさ
れていないウエイを記録しようとする。

【００８６】一実施例では、４ウエイのセットアソシア
ティブキャッシュ用の擬似またはツリーＬＲＵは図６に
示されるように、ｂ０−ｂ２の３ビットを含む。それら
３ビットの値は次にどのウエイを置換するかを表示す
る。各ヒットまたはミスにおいて、２つのビットをウエ
イ経路でフリップし、未使用ビットを運ぶことによって
次のＬＲＵが計算される。ミス時には、ウエイ経路は置
換されたウエイである。どのウエイでもヒットは起こり
える。ヒットが発生すると、２つのウエイ経路ビットが
フリップされて次のＬＲＵが得られる。例えば、もしＬ
ＲＵの値が０００（それぞれｂ２、ｂ１、およびｂ０）
であり、読み出しミスがあったとすれば、次のＬＲＵ値
は０１１（ウエイ経路がウエイ０であるため、キャリー
ｂ２、フリップｂ１、およびフリップｂ２）となろう。
もし次の動作がウエイ２でのヒットであれば、次のＬＲ
Ｕ値は１１０（ウエイ経路がウエイ２であるため、フリ
ップｂ２、キャリーｂ１、およびフリップｂ０）となろ
う。

【００８７】同じキャッシュへ並列的に多数の実行パイ
プラインがアクセスするようなスーパースカラマイクロ
プロセッサでは、キャッシュのコヒーレンシの他に、置
換方式の一貫性を維持する必要がある。一例での置換方
式はＬＲＵである。非スーパースカラ設計では、誤動作
するＬＲＵ方式は性能への影響以外に何ら機能的な問題
を引き起こすことはない。しかし、スーパースカラ設計
では、もし同じサイクル中で２つのキャッシュトランザ
クション間のＬＲＵ依存性が正しく処理されなければ、
機能的な問題が発生し得る。

【００８８】同じサイクル中に２つのパイプライン（パ
イプ）がＬ０キャッシュ１８の異なるセットへアクセス
すれば、それらの間には相互作用はなくて、それらは独
立して進行できる。しかし、２つのパイプが同じサイク
ル中にキャッシュの同じセットへアクセスする時は問題
が発生する。従来の、２つのパイプ間の相互作用を無視
するＬＲＵ置換方式は動作に失敗する。

【００８９】図７は、スーパースカラアーキテクチャの
２つのパイプＰ０、Ｐ１（ｐ０、ｐ１とも表記される）
がＬ０キャッシュ１８の同じセットへアクセスする時
の、それら２つのパイプ間のヒット／ミス（Ｈ／Ｍ）相
互作用を示している。Ｐ０に対するトランザクションは
同じサイクル中でＰ１のそれよりも時間的に進んでいる
ことが想定されている。図７の各行はＰ０およびＰ１に
対するトランザクションの独特な組み合わせを示す。最
初の列ｉｎは各トランザクション組に割り当てられる任
意の番号である。第２の列はＰ０に対するトランザクシ
ョンがヒットであるかミスであるかを表示する。第４の
列はＰ１に対するトランザクションがヒットであるかミ
スであるかを表示していた。列２および４に表示される
ヒットまたはミスは読み出しでも書き込みでも構わない
ことに注意されたい。第３列は、読み出しまたは書き込
みミスの場合のＰ０に対する置換ウエイを表示する。第
５列は、読み出しまたは書き込みミスの場合のＰ１に対
する置換ウエイを表示する。列６はキャッシュｒａｍか
ら読み出されたＬＲＵであり、列７は２つのパイプ中の
トランザクションに基づいてキャッシュｒａｍへライト
バックされたＬＲＵである。以下のＬＲＵ計算は擬似Ｌ
ＲＵ置換方式を使用する。しかし、以下で述べる多重実
行パイプラインにサービス提供するキャッシュに関する
置換方式一貫性の概念は多様な置換方式を用いても実現
できる。

【００９０】図７では：ｎｌ（Ａ）＝＞現在のＬＲＵ値Ａに基づく次のＬＲＵｎｌ（Ｂ）＝＞現在のＬＲＵ値Ｂに基づく次のＬＲＵｍｒｇ（Ｂ，Ａ）＝＞ＬＲＵ値ＢがＬＲＵ値Ａよりも優
先される場合のマージＬＲＵｍｒｇ（ｎｌ（Ｂ），Ｂ）＝＞ＮＥＸＴＬＲＵ値Ｂが
ＬＲＵ値Ｂよりも優先される場合のマージＬＲＵｔｈ＿ｐ０／１＝＞タグヒットｐ０／１ｎｌ（ｔｈ＿ｐ０／１）＝＞現在のヒットウエイに基づ
く次のＬＲＵ

【００９１】以下の関数は、最も最近使用されたウエイ
に基づいて、次のＬＲＵおよびマージＬＲＵの計算を詳
細に示す。

【００９２】ＮＸＴ＿ＬＲＵ（次のＬＲＵ）関数は現在
の単一パイプオペレーションに基づいて、ＬＲＵｒａｍ
へライトバックする必要があるＬＲＵを計算する。この
関数は２つのパイプ上での組み合わされた活動に基づい
て最終的なＬＲＵ値を決定しようとはしない。この関数
は３つの引数を取る。

【００９３】ｍｒｕ＿ｗａｙ＝＞は最も最近使用された
ウエイであり、それはヒットの場合はヒットウエイであ
り、ミスの場合は割り当てウエイである。４ウエイのセ
ットアソシアティブキャッシュではこの値が４ビットで
あり、各ビットが１つのウエイを表すことに注意された
い。

【００９４】ｖｈｉｔ＝＞は４ウエイのセットアソシア
ティブキャッシュでは４ビット値であって、各ビットが
１つのウエイに対応する。このビットは対応するウエイ
が有効なデータを有する時にセットされる。

【００９５】ＬＲＵ＝＞はＬＲＵｒａｍから読み出され
る３ビットＬＲＵである。

【００９６】ＮＸＴ＿ＬＲＵ関数は好ましくは、擬似Ｌ
ＲＵアルゴリズムに基づいて、最も最近使用されたウエ
イから遠く離れたウエイを指すための次のＬＲＵ値を計
算する。しかし、もしそのセットの中に無効な（ｖｈｉ
ｔによって決定される）任意のウエイがあれば、次のＬ
ＲＵはそのウエイを指す。従って、次の割り当てでは、
有効なウエイを置換するのではなく、無効なウエイが使
用される。

【００９７】ＮＸＴ＿ＬＲＵ＿ＷＢＥ（次のＬＲＵ書き
込みビット許可）は３ビットのうちのどの２ビットがＬ
ＲＵ更新時に更新されるかを決定する。これは、擬似Ｌ
ＲＵアルゴリズムでは３ビットのうちの２ビットだけを
更新する必要があるという事実に基づいている。

【００９８】ＭＥＲＧＥ＿ＬＲＵ（マージＬＲＵ）関数
は２つの入力ＬＲＵ値に基づいてＬＲＵ値を計算する。
ここで１つの入力ＬＲＵ値は出力の３ビットのうちから
２つをインパクトし、残りの出力ビットは他方の入力Ｌ
ＲＵから取り出される。この関数は、２つのパイプが同
じセットに対して作用する時に２つのパイプから２つの
次のＬＲＵをマージして、ライトバックすべき最終のＬ
ＲＵを決定するために使用される。

【００９９】図８では、進歩した回路が、ｍｒｕ＿ｗａ
ｙ、ｖｈｉｔ、およびＬＲＵに基づいて次のＬＲＵおよ
びマージＬＲＵを計算する。

【０１００】上述の関数に基づいて、図７は次のように
解析できる。

【０１０１】図７の行１および２は、Ｐ０またはＰ１の
いずれかで読み出しまたは書き込みヒットが１つだけ存
在する時のＬＲＵ更新のケースを示す。ＬＲＵｒａｍか
らのＬＲＵ読み出しはＡであり、最も最近使用されたウ
エイはそのヒットウエイである。単一パイプの活動から
これらのパラメータに基づいて次のＬＲＵが計算され
る。従って、次のＬＲＵで変更される２つのビットはヒ
ットウエイによって決定され、また変更のないビットは
現在のＬＲＵ値Ａから運ばれる。しかし、これと以下の
説明すべてにおいて、もし１以上の無効なウエイがセッ
ト中に存在すれば、次のＬＲＵは次に利用可能な無効な
ウエイである。

【０１０２】図７の行３は両方のパイプに読み出しまた
は書き込みヒットがある時のケースを示している。この
ケースについて考察する簡単な方法は、単一パイプに対
して２つの並列的なヒットの活動が逐次的に、Ｐ１活動
がＰ０活動よりも時間的に後になるように逐次的に発生
するかのように考えるものである。この効果はマージＬ
ＲＵ関数によって実現される。Ｐ０に対する次のＬＲＵ
に関する変更されるビットは、Ｐ０に対するヒットウエ
イによって決定され、Ｐ１に対する次のＬＲＵに関して
変更されるビットはＰ１に対するヒットウエイによって
決定されよう。これら２つの値が最終的なＬＲＵにマー
ジされる時は、Ｐ１に対する次のＬＲＵからの２つの変
更されたビットが用いられて、残りのビットはＰ０に対
する次のＬＲＵから得られる。

【０１０３】図７の行４および５は、それぞれＰ０また
はＰ１上で読み出しまたは書き込みミスがある時のケー
スを示す。ミス時には、ｒａｍから読み出されるＬＲＵ
が割り当て／置換のために選ばれたウエイを指す。次の
ＬＲＵは現在のＬＲＵから遠く離れたウエイを指すよう
に簡単に計算される。

【０１０４】図７の行６は、Ｐ０にミスがあり、Ｐ１に
ヒットがある時のケースを示す。これは特殊なケースで
あり、将来の依存性分析（ｆｕｔｕｒｅｄｅｐｅｎｄ
ｅｎｃｙａｎａｌｙｓｉｓ）が行われるべきである。
現在のＬＲＵがウエイ０を指し、Ｐ０上にミスがあっ
て、Ｐ１上にヒットがあり、Ｐ１が０ウエイのデータに
アクセスしているケースを想定しよう。通常は、Ｐ１の
活動に関わらず、Ｐ０はウエイ０に割り当てを行い、そ
れによって犠牲として現在のウエイ０のデータを書き出
し、所望の新しいデータを持ち込むであろう。その後
に、Ｐ１は以前のウエイ０のデータへアクセスしようと
試みて、ミスを得て、そのためＰ０オペレーションによ
って犠牲としてちょうど書き出されたデータを引き戻す
かもしれない。この非効率さは、もし割り当てウエイを
決定する前に、両パイプの活動を両方とも考慮すれば回
避できる。従って、Ｐ０によって使用される割り当てウ
エイは、ｒａｍから読み出された現在のＬＲＵとは単に
逆なように、Ｐ１ヒットに基づいて計算された次のＬＲ
Ｕに基づいている。もしＰ０用の割り当てウエイがＢで
あると決定したら、ｒａｍへライトバックされる最終的
なＬＲＵはＢの次のＬＲＵとなろう。ライトバックされ
る値は、Ｐ１の次のＬＲＵ（Ｂの次のＬＲＵ）とＰ０
（Ｂ）の次のＬＲＵのマージである。このマージの結果
はＢの次のＬＲＵと同じ値である。

【０１０５】図７で、行７はＰ０上にヒットがあり、Ｐ
１上にミスがあるケースを示している。これらのオペレ
ーションの実質の効果は、これら２つのオペレーション
が逐次的に発生したのと同じであろう。Ｐ０ヒットは、
次のＬＲＵ値、例えばＢを生じ、Ｐ０ヒットウエイから
遠く離れた方向を指す。Ｐ１はそれの割り当てウエイを
決定するために、このＢＬＲＵを用いて、ライトバッ
クされる最終のＬＲＵはＢの次のＬＲＵ（ｍｒｇ（ｎ１
（Ｂ），Ｂ））である。

【０１０６】図７の行８はＰ０とＰ１の両方にミスがあ
る時のケースを示している。Ｐ０はウエイＡへ割り当て
る。ここでＡはＬＲＵｒａｍから読み出された値であ
る。Ｐ０の次のＬＲＵはＢであり、それはＰ１による割
り当てのために使用される。ライトバックされる最終の
ＬＲＵはＢの次のＬＲＵである（ｍｒｇ（ｎ１（Ｂ），
Ｂ））。

【０１０７】この実施例の顕著な特徴および利点は次の
ものを含む：将来の依存性分析および活用（例えば、図
７の行６を参照）、効率的な無効ウエイ回復および使
用、およびセットマッチＬＲＵマージである。次のＬＲ
Ｕの計算で支配的な制約は、セット中に無効なウエイが
存在する場合にはいつでもＬＲＵがそのウエイを指すと
いうことである。この利点は次の読み出し／書き込みミ
ス割り当てのために無効なウエイを回復する。例えば、
もし両方のパイプがミスを有しており、２以上の無効な
ウエイが存在すれば、Ｐ０は第１の無効なウエイを割り
当てられ、Ｐ１は次の無効なウエイを割り当てられて、
その結果として効率的な無効ウエイの回復および使用が
できる。関数ＭＥＲＧＥ＿ＬＲＵに示されるように、Ｐ
１がＰ０よりも優先される場合に、両方のパイプトラン
ザクションがｒａｍ中でＬＲＵ更新のために使用される
ため、セットマッチＬＲＵマージが実現する。

【０１０８】メモリ階層５６は内部でも外部でも、ペン
ティアム^TMプロセッサ中のそれと同一のライトバックま
たはライトスルーＭＥＳＩキャッシュコヒーレンスプロ
トコルまたは任意のその他所望プロトコルのいずれかを
使用するシステム中で、外部メモリ５およびその他のキ
ャッシュとのコヒーレンスを維持することができる。一
実施例では、メモリ階層５６は、ＭＥＳＩ状態およびＬ
２キャッシュ１４によって管理される新規な２ビットデ
ィレクトリ方式を使用して、各所部品間で内部コヒーレ
ンスを維持する。

【０１０９】外部システムがバスＢ上でスヌープサイク
ル（または照会サイクル）を駆動する時は、その階層中
の他のキャッシュの助けを借りて、要求されるコヒーレ
ンス動作を取ることにＬ２キャッシュ１４が責任を持
つ。外部スヌープによるコヒーレンス動作の例は、もし
存在すればオンチップのキャッシュ中で１ラインを無効
化することであり、および／またはもし内部キャッシュ
中で修正されていればデータを供給して戻すことであ
る。

【０１１０】一実施例では、外部システム部品とのコヒ
ーレンスは３２バイト細分性に維持される。ＭＥＳＩの
ようなコヒーレンスプロトコルは、共有メモリ多重プロ
セッサシステム中でプロセッサ間のコヒーレンスを保証
する。もしＭＥＳＩプロトコルが使用されれば、メモリ
階層５６中の３２バイトの１ラインは次の４つの状態
（ＭＥＳＩ状態と呼ばれる）のうちの１つにあることが
できる。・修正済み（Ｍ）：メモリ階層５６中のコピーがそのシ
ステム中で有効な唯一のコピーである。このコピーは修
正されており、メインメモリ５のコピーはこのコピーと
一致していない。・排他（Ｅ）：メモリ階層５６中のコピーがシステム中
の唯一のコピーで、修正されているかもしれない。しか
し、このコピーはメインメモリ５のコピーと一致してい
る。・共有（Ｓ）：メインメモリ５中のコピーはメモリ階層
５６中のコピーと一致しており、プロセッサ１０の外部
のその他のキャッシュ中に１つのコピーが存在し得る。・無効（Ｉ）：メモリ階層５６中のそのラインのコピー
は有効なデータを含まない。

【０１１１】ＭＥＳＩ状態は、それが含むデータの各ラ
イン上の各キャッシュによって維持される。ＭＥＳＩ状
態はデータへのアクセスを制御するために使用されるの
で、１つのキャッシュだけが任意の時点で書き込み可能
なコピーを有しており、またプロセッサ１０およびその
他のデバイスがデータの最新コピーをキャッシュまたは
メインメモリ５中に配置することができる。

【０１１２】完全に空のキャッシュから出発して、メモ
リ階層５６がライトスルーモードで動作する時、すべて
の書き込みは外部バスＢへ直ちに送られ、そのラインは
ＥまたはＭ状態へは決してならない。それらの状態はラ
イトバックモードでのみ可能である。

【０１１３】一実施例では、Ｌ２１４またはＬ１Ｄ
１６_d中のライン（３２バイト）は４つの状態、Ｍ、
Ｅ、Ｓ、またはＩのすべてを取ることができる。Ｌ０Ｄ
１８中のラインは３つの状態、Ｍ、Ｓ、およびＩだけ
を取ることができる。Ｌ１Ｉ１６_i中のラインは２つの
状態、ＳおよびＩのみを取ることができる。Ｌ１Ｉ１６
_i中のラインは好ましくは修正されない。しかし、ライ
ンがＬ２１４中ではＭ状態にあるが、Ｌ１Ｉ１６_i
中ではＳ状態にあるということは可能である。このケー
スでは、データキャッシュ（Ｌ０Ｄ１８／Ｌ１Ｄ１
６_d／Ｌ２１４）中のコピーはＬ１Ｉ１６_i中と同じ値
を持たなければならない。

【０１１４】Ｌ２１４ラインは好ましくは６４バイト
幅で、３２バイトのサブラインを２つ含む。３２バイト
サブラインの各々には２ビット状態が付随する。サブラ
インがＬ２１４中で取ることのできる状態は、修正済
み、排他、共有、および無効（ＭＥＳＩ）である。従来
のペンティアム^TM信号を使用したライン読み出しおよび
書き込みの間のＬ２１４中の各種状態間の遷移が図９
および図１０に示されている。表１０のＳからＳ、また
はＳからＥへの状態遷移は直ちには起こらない。Ｌ２
１４は、最終状態へ変わる前にＢＩＵ１２が要求された
ライトスルーを完了して、ＷＢ／ＷＴ＃状態を戻すまで
待つ。その間に、それら２つのケースでの中間状態はＳ
であり、Ｌ２１４は他の内部の読み出し／書き込み要
求に自由に応えることができる。

【０１１５】好ましくは、Ｌ１Ｄ１６_d中のラインは
３２バイト幅で、各ラインには２ビット状態が付随す
る。Ｌ１Ｄ１６_d中の状態はＬ２１４のそれと同じ
意味を有する。遷移は図１１および図１２に示されてい
る。

【０１１６】好ましくは、Ｌ１Ｉ１６_i中のラインは
３２バイト幅で、その各々には１ビットの状態が付随し
ている。Ｉキャッシュ中のラインの可能な状態はＳおよ
びＩである。Ｌ１Ｉ１６_iラインは常にＳ状態でロー
ドされており、Ｌ１Ｉ１６_i中で置換される時、ある
いはＬ２１４がＬ１Ｉ１６_iに対してそのラインを
無効化するように依頼する時に、無効化される。

【０１１７】好ましくは、Ｌ０Ｄ１８中のラインは１
６バイト幅で、各々がそれに付随する２ビット状態を有
している。一実施例で、Ｌ０Ｄ１８中で可能な状態
は、共有、修正済み、および無効である。別の実施例で
は、Ｌ０Ｄ１８は、Ｅ状態も有する。Ｅ状態を持たな
いＬ０Ｄ１８用の状態遷移は図１３および図１４に、
それぞれ読み出しミスおよび書き込みについて示されて
いる。一般に、Ｌ０Ｄ１８中では、ＳとＥ状態が似てい
る。というのは、どちらの状態にあっても、Ｌ１Ｄ１
６_dへのライトスルーが行われるためである。従って、
いくつかの実施例では、状態を最小化するために、Ｌ０
Ｄ１８についてはＥ状態を除去することができる。

【０１１８】Ｌ２１４は、外部スヌープ要求毎に、そ
のラインがオンチップキャッシュのどれかに存在するか
どうかを決定するためにタグ検索を行う。スヌープまた
は照会サイクルは、オンチップキャッシュを備えるプロ
セッサまたはキャッシュコントローラへ送られて、その
キャッシュに特定のアドレスが存在するかどうかを決定
する。キャッシュの１つにラインが存在する時だけ、下
位レベルのキャッシュへの内部コヒーレンスアクション
が開始される。下位レベルキャッシュにラインが存在す
るかどうか、およびその下位レベルキャッシュ中のライ
ンの状態を知るために、Ｌ２キャッシュ１４は下位レベ
ルキャッシュに関する包括関係を維持しなければならな
い。一実施例では、Ｌ２キャッシュ１４中への包括は特
殊な意味を有する：もしＬＩＤ１６_d、Ｌ１Ｉ１
６_i、またはＬ０Ｄ１８中にラインが存在すれば、そ
のラインはＬ２１４にも存在しており、またもしライ
ンがＬ１Ｄ１６_dまたはＬ０Ｄ１８中で修正されて
いれば、Ｌ２１４コピー中のデータがＬ１Ｄ１６_d
またはＬ０Ｄ１８中のデータと時々異なるかもしれな
いが、Ｌ２１４中のそのラインのＭＥＳＩ状態もＭで
ある。

【０１１９】Ｌ２キャッシュ１４は以下の３つの機構を
使用して上述の包括関係を維持する。まず、キャッシュ
Ｌ１Ｄ１６_d、Ｌ１Ｉ１６_i、およびＬ０Ｄ１８の
１つにミスがあって、更にそのラインがそのキャッシュ
へメインメモリ５から持ち込まれたものであれば、その
ラインはまたＬ２キャッシュ１４中にもストアされる。
第２に、Ｌ０Ｄ１８／Ｌ１Ｄ１６_dに対して書き込
み要求がなされ、そこではそのラインがＭ状態になけれ
ば、書き込み要求はＬ２キャッシュ１４に対して可視と
され、それがラインの状態をＭへ変える。第３に、ライ
ンがＬ２キャッシュ１４から置換される時は、Ｌ１Ｄ
１６_d、Ｌ１Ｉ１６_i、またはＬ０Ｄ１８中の任意のコ
ピーは内部コヒーレンス機構を使用して無効化されて、
もしそのラインがメモリ階層５６中の外部メモリ５に対
して修正されていれば、それはメインメモリ５へライト
バックされる。

【０１２０】しかし、Ｌ２キャッシュ１４は好ましくは
ＴＬＢ５０エントリを包括しない。もしソフトウエアが
ページディレクトリまたはページテーブルエントリのど
れかを修正すれば、ＴＬＢ５０中の対応するエントリを
無効化することはそのソフトウエアの責任である。その
場合には、そのエントリへの後続のアクセスはＴＬＢ５
０中でミスとなって、正しいエントリはメモリ階層５６
または外部メモリ５によって供給される。

【０１２１】更に、Ｌ１Ｄキャッシュ１６_dは好ましく
はＬ０Ｄ１８中のエントリを包括しない。ラインがＬ
１Ｄ１６_dから置換される時は、それはＬ０Ｄ１８
中で無効化されない。Ｌ０Ｄ１８／Ｌ１Ｄ１６_dの
組み合わせヒット率は、Ｌ１Ｄ１６_dとＬ０Ｄ１８
との間の包括要求を回避することによって促進される。
しかしもしＬ２１４における外部スヌープの間にヒッ
トがあれば、Ｌ１Ｄ１６_dおよびＬ０Ｄ１８のタグが
両方同時にスイッチオンされて、それら各々の中のライ
ンの状態が決定される。一実施例では、通常のロード／
ストアオペレーションに対するスヌープの干渉を最小化
するために、Ｌ０Ｄ１８中に別のスヌープタグ用のｒ
ａｍが存在する。スヌープヒットｄｏが存在する時の
み、通常のロード／ストアオペレーションを停止しなけ
ればならない。スヌープミス時には、通常のロード／ス
トアオペレーションとの干渉はない。別個のスヌープタ
グｒａｍはまた、Ｌ１Ｄ１６_d用にも使用できる。し
かし、一般にＬ１Ｄ１６_dからＬ０Ｄ１８へのロード
／ストアトラフィックは実行ユニット４０からＬ０Ｄ１
８へのロード／ストアトラフィックよりも少ない。

【０１２２】メモリ階層５６中のメモリユニットの各々
に付随して、アドレスタグ、コヒーレンシデータ、およ
び置換データのような情報を保持するタグｒａｍがあ
る。各種ユニットのタグｒａｍに関するビットフィール
ドが図１５−図２０に示されている。

【０１２３】図２１を参照すると、一般に、もしキャッ
シュブロックが無効（そのキャッシュに包括されない）
で、そのブロック中のデータの読み出しが発生すれば、
そのキャッシュブロックがロードされ、共有または排他
のいずれかとしてマークされる。そのキャッシュブロッ
クをヒットするそれ以降の読み出しはＭＥＳＩ状態に対
してそれ以上の変化を引き起こさない。もしキャッシュ
ブロックがＭ状態にあれば、読み出しはＭＥＳＩ状態遷
移を引き起こさない。

【０１２４】排他状態でなく共有状態へのローディング
を選択することは、データや例えばＴＬＢ５０、２２、
３８および入力ピンからのその他の入力を読み出すバス
Ｂトランザクションのような外部の力の関数である。い
ずれの状態へのローディングも可能であるが、共有状態
へのローディングについて主として説明することにしよ
う。後のオペレーションがどのように働くかは、単にキ
ャッシュブロックの現在の状態の関数であるため、それ
が共有されるか排他的であるか、その機能について以下
で説明する。

【０１２５】もしキャッシュブロックが共有状態にあっ
て、書き込みが発生すれば、システムバスＢへのライト
スルーが発生して、それはその他すべてのキャッシュに
対して、もしかすると修正されたデータのライトバック
の後で、それらのコピーを無効化するように通知する。
それに続いて、そのキャッシュブロックは外部システム
からの入力に依存して、共有状態に留まるかあるいは共
有状態から排他状態へ移行する。バスへのライトスルー
の目的は、そのデータのすべての他の保有者がそのブロ
ックに対して変更があったことを知るようにすることで
ある。もしキャッシュブロックが排他状態にある時に書
き込みが発生すると、そのキャッシュブロックは修正済
み状態へ移行して、キャッシュブロックの汚染ビットが
セットされる。この第２の書き込みはライトスルーでは
なく、ライトバック方式を使用する。修正済み状態にお
いて、書き込みはそれ以上のＭＥＳＩ状態変化を引き起
こさない。

【０１２６】図２２−を参照しながら、書き込み割り当
て方式および書き込み割り当て無し方式を備えたキャッ
シュレベルの各々の状態の一実施例について説明する。
Ｌ２１４において、もし書き込みの割り当てが行われな
ければ、その書き込みは単にバスへ送られる。もし書き
込み割り当て戦略が使用されれば、まずバス上の書き込
みが行われて、次にバーストフィルが続く。ラインの状
態は、図９に示されるような外部因子に依存してＩ、
Ｓ、またはＥである。

【０１２７】Ｌ０Ｄ１８およびＬ１Ｄ１６_dに対し
て、もし方式が書き込み割り当て無しであれば、書き込
みはただ次のレベルへ送られるだけである。もし次のレ
ベルで読み出しヒットが発生すれば、そのデータはその
レベルにおいて書き込まれて、それに従ってキャッシュ
コヒーレンシ状態が更新される。もし方式が書き込み割
り当てであれば、そのキャッシュレベル、例えばＬ１Ｄ
１６_dは次のレベルのキャッシュ、この例ではＬ２
１４に対してその書き込みについて通知して、Ｌ２１
４からラインフィルを行う。その後、Ｌ１Ｄ１６_d中
で関連するバイトが修正される。Ｌ１Ｄ１６_dの最終
のＭＥＳＩ状態は現在のＬ２１４のＭＥＳＩ状態に依
存する。例えば、もしＬ２１４がＳであれば、Ｌ１Ｄ
１６_dはＳになろうし、もしＬ２１４がＥであれ
ば、Ｌ１Ｄ１６_dはＭとなるし、もしＬ２１４がＭ
であれば、Ｌ１Ｄ１６_dはＭとなろう。更に、Ｌ２
１４もそれのＭＥＳＩ状態を更新して、もしＬ２１４
のＭＥＳＩ状態がＳであれば、バス書き込みを行う。も
し状態がＳであれば、Ｌ２１４に関する最終のＭＥＳ
Ｉ状態は、外部条件に依存してＳかＥとなろう。もしＬ
２１４のＭＥＳＩ状態がＥまたはＭであれば、Ｌ２
１４に関する最終のＭＥＳＩ状態はＭとなろう。

【０１２８】例えばレベルＬ０１８、Ｌ１Ｄ１
６_d、およびＬ２１４を含む多重レベルキャッシュ階
層において、Ｌ２キャッシュ１４はシステムバスＢにつ
ながれ、Ｌ１Ｄキャッシュ１６_dは好ましくはＬ２キャ
ッシュ１４からロードされ、他方、Ｌ０キャッシュ１８
は好ましくはＬ１Ｄ１６_dからロードされる。以下の
説明で、キャッシュ階層の各レベルに対してＭＥＳＩま
たはその他のコヒーレンシプロトコルを適用できる。

【０１２９】もし読み出しミス時にキャッシュに対して
それの上位からローディングが行われれば、ロードされ
るキャッシュブロックの状態は図２３に示されるように
なる。キャッシュは上位ブロックの状態を取り上げる
が、例外としてその上位がＭ状態にある時は、ロードさ
れるブロックはＥ状態を得て、汚染ビットはセットされ
ない。このことは汚染ビットがセットされない限り、キ
ャッシュブロックはＭ状態に決してならないであろうと
いう単純さを提供する。ブロックごとに１つだけの汚染
ビットが保持される場合は、そのＭ状態が汚染の指標と
なり、そのほかに汚染ビットは必要ない。もし１つより
も多い汚染ビットがあれば、それらは汚染状態の詳細な
分解を保持するために使用することができる。

【０１３０】キャッシュの上位がＳ状態にある時は、デ
ータは他のキャッシュと共有できるため、ロードされる
キャッシュブロックはこれもその共有の知識を反映する
ためにＳ状態になければならない。そうでなければ、キ
ャッシュ上位はＥまたはＭ状態にあって、その他にその
データを保有しているものがないことを保証し、そして
ロードされるキャッシュブロックは、他のキャッシュか
らデータをフラッシュアウトするためにライトスルーが
必要ないことを表示するために、それらの状態（Ｓ状態
と逆の）の１つへ移行しなければならない。キャッシュ
ブロックがロードされる時、それはその上位と同じデー
タを含むので、その上位に対して修正されていない。こ
のことから、上位がＭ状態にある場合でも、そのキャッ
シュはＥ状態にロードされて、汚染ビットがセットされ
ないことを意味する。

【０１３１】もし書き込みミス時に、キャッシュがそれ
の上位からロードされれば、ロードされるキャッシュブ
ロックの状態は図２４に示されるようになる。

【０１３２】図２５を参照すると、もし多重レベルキャ
ッシュ読み出しがすべてのレベルでミスすれば、すべて
のレベルは共有状態へ移行する。最初の書き込みはすべ
てのレベルに対してライトスルーを実行し、システムバ
スＢへ出力する。次に、キャッシュのすべてのレベルが
排他状態へ移行する。システムバスＢへのライトスルー
は、バスＢ上の任意の他のキャッシュまたは関連する装
置に対してそれらの内容を無効化するように通知するた
めに必要である。後続の書き込みは最下位レベルのキャ
ッシュをＭ状態へ移行させる。修正されたブロックが下
位レベルのキャッシュから追い立てられて、それらの汚
染した犠牲ブロックがキャッシュの上位へ書き込まれる
時に、より上位レベルのキャッシュは単にＭ状態へ移行
する。

【０１３３】上述のシナリオで、修正済み状態は、その
キャッシュブロックがメインメモリ５に対して修正され
ていることあるいは汚染していることを示す。多重レベ
ルキャッシュ階層において、もし各レベルが上述の規則
に従えば、下位のキャッシュレベルが修正済みの状態に
ある時、それは、メインメモリ５と、それの上位キャッ
シュの両方に対して汚染している。もし多重レベルキャ
ッシュ階層において、すべてのレベルが修正済みとマー
クされれば、それらはすべてメインメモリ５よりもより
最新のデータを含む。しかし、Ｌ０Ｄ１８のデータは
Ｌ１Ｄ１６_dのものよりも新しく、後者は更にＬ２
１４のものよりも新しい。この最初の実施例は、キャッ
シュブロックがそれの上位に対してだけ汚染しており、
メインメモリ５に対しては汚染していないことを区別す
る能力を提供しないが、別の実施例ではこの目的のため
に付加的な機能が提供される。

【０１３４】上述の最初の実施例で、共有状態にあるブ
ロックに対する第１の書き込みはバスＢに対するライト
スルーを生ずる。しかし、別の実施例では、キャッシュ
階層のすべてのレベルに対するライトスルーは必要な
い。バスＢに対するライトスルーはキャッシュコヒーレ
ンシを有利に提供するが、キャッシュ階層内でこの代替
実施例のプロトコル方法および回路は、ブロックが共有
状態にある時には、ライトスルーではなくて、ライトバ
ックを使用する。

【０１３５】もしすべてのキャッシュレベルＬ０１
８、Ｌ１Ｄ１６_d、およびＬ２１４が共有状態にあ
って、書き込みが発生すれば、そのキャッシュ階層内で
ライトバックが使用される。従って、Ｌ０１８はＬ１
Ｄ１６_dおよびＬ２１４に対してローカルに汚染し
ているが、バスＢに対してライトスルーが実行されるた
めその他のキャッシュまたは装置中のデータは必要であ
れば無効化できる。この結果、Ｌ０キャッシュ１８ブロ
ックはＬ１Ｄ１６_dおよびＬ２１４に対して汚染し
ているが、メインメモリ５に対しては汚染していない。
言い換えれば、Ｌ０１８はそれの上位に対してローカ
ルに汚染しているが、全体としてのキャッシュシステム
はメインメモリ５と一致している。この代替実施例の利
点は最初のライトスルーが削除できることである。この
結果、Ｌ１Ｄ１６_dおよびＬ２１４に対するメモリト
ランザクションが少なくなって、それによって電力が節
約できる。

【０１３６】この最初の書き込みを実行する時、そして
ライトスルーの代わりにライトバックを実行する時、キ
ャッシュ上位Ｌ１Ｄ１６_dおよびＬ２１４のＭＥＳ
Ｉ状態は修正されなければならない。このオペレーショ
ンは、ｒａｍを通過するアドレス経路が書き込まれない
ことと、Ｌ１Ｄ１６_dおよびＬ２１４に関連するＬ
ＲＵ状態を更新する必要がないという意味で、タグのラ
イトスルーとして説明できる。上述の代替実施例で、Ｌ
１Ｄ１６_dはＳからＥへ移行し、タグのライトスルー
をＬ２１４まで送るため、後者もＳからＥへ移行す
る。データはメインメモリ５へ書き込まれるが、Ｌ１Ｄ
１６_dあるいはＬ２キャッシュ１４へは書き込まれな
い。次の書き込みが発生する時、Ｌ０１８はＥからＭ
へ移行する。図２６は、上で述べた代替実施例を組み込
んだシステム中で、異なるアクションシリーズに関する
Ｌ０１８、Ｌ１Ｄ１６_d、およびＬ２１４の状態
遷移を示している。

【０１３７】先に述べた第１システムの実施例で、汚染
ビットはキャッシュブロックがＭ状態にある時だけセッ
トできた。代替システム実施例では、汚染ビットはキャ
ッシュブロックがＳ、Ｅ、およびＭ状態にある場合にセ
ットできる。Ｍ状態にあるキャッシュブロックは存在す
るが、Ｅ状態にあるキャッシュブロックが存在しない場
合に、スヌープが発生する時は、メインメモリ５はその
キャッシュと一致しており、スヌープデータライトバッ
クが発生する必要がない。同時に、すべてのキャッシュ
ブロックの状態はＥからＳへ変更される。これによっ
て、汚染ビットがセットされたいくつかのキャッシュブ
ロックがＳ状態に残されるかもしれない。もしスヌープ
ヒットが発生して、いくつかのキャッシュブロックがＭ
状態にあれば、そのブロックはＳ状態へ移行する前にメ
インメモリへ書き出される必要がある。更に、部分的な
内部ライトバックを実行することができる。それによっ
て、メインメモリに取って代わるすべてのデータをアセ
ンブルするのにちょうど十分なように内部キャッシュレ
ベルをライトバックし、そしてその後にそれ以上のライ
トバックを停止する。

【０１３８】ブロックの汚染状態は好ましくはそれのＭ
ＥＳＩ状態とは独立している。任意の与えられたキャッ
シュのＭＥＳＩ状態は、そのキャッシュがそのデータの
単独所有者であるか、およびメインメモリ５がそのデー
タと一致しているかを表示する。汚染ビットはキャッシ
ュブロックが“相対的に”汚染していること、すなわ
ち、それの上位キャッシュに対して汚染していること、
あるいはＬ２１４の場合にはメインメモリ５に対して
汚染していることを表示する。

【０１３９】ミス時に、もしＬ０１８、Ｌ１Ｄ１６
_d、およびＬ２１４キャッシュブロックが排他状態に
ロードされれば、最初のライトスルーは有利に削除され
る。従って、そのキャッシュブロックに対してタグライ
トスルーオペレーションは必要ない。

【０１４０】このプロトコル方法および回路の付加的な
メリットとして、Ｌ１Ｄ１６_dおよびＬ２１４キャ
ッシュはバイト書き込みを実行する必要がなく、キャッ
シュブロック全体に書き込むか、あるいはそれに対して
汚染ビットが保持されているものに対応する大きさと等
しいデータの書き込みを実行すればよい。例えば、もし
Ｌ１Ｄ１６_dが３２バイトブロックと、８バイトの汚
染状態細分性（ブロック当たり４汚染ビット）を有して
いれば、Ｌ２１４は８バイトの細分性で書き込みがで
きる必要がある。

【０１４１】上で述べた回路および方法はタグのライト
スルーを実行するために使用できるが、データのライト
スルーには利用できないため、キャッシュのコヒーレン
シを維持するためにシステムバスへのライトスルーを実
行しながら、キャッシュ階層内での不必要なライトスル
ーを有利に削除する。

【０１４２】いったん、キャッシュへ１ラインが読み込
まれて、外部メモリを更新することなしに内部的に修正
されれば、それは必然的にバスＢへライトバックされな
ければならない。バスＢへキャッシュラインを書き出す
ことはそれが要する時間の点でかなり高価につく。プロ
セッサはキャッシュラインをバスＢへ書くために、各々
が６４ビットの転送を４回必要とするのが普通である。
標準的なキャッシュアーキテクチャは４個の６４ビット
チャンクのどれが実際に修正されたデータを含むかの記
録をつけない。本発明の一実施例は、ライン追い立て時
に６４ビット量のどれをライトバックする必要があるか
の記録をつけるキャッシュシステム５６、およびもしキ
ャッシュラインの６４ビットだけが汚染データを含んで
いれば６４ビットの単一の転送を実行し、そうでなけれ
ば２５６ビットのすべてをライトバックするようなＢＩ
Ｕ１２を提供する。

【０１４３】標準的なキャッシュアーキテクチャはキャ
ッシュの状態をライン・バイ・ライン方式で記録する。
この問題に対する解答は、１つのトランザクションとし
てバスＢへ書き出すことができるサブラインの部分毎に
状態を記録することである。言い換えれば、もしキャッ
シュラインをライトバックするために４回の転送が必要
であれば、そのラインの４つのセグメントすべてについ
て状態を記録する。この方式を我々の特別な場合に実施
すると、サブラインの４セグメントの各々について状態
の付加的ビットが必要とされる。我々はこれらのビット
を“汚染ビット”と呼んできた。これらのビットは、キ
ャッシュがライトバックモードにある時だけ重要にな
る。キャッシュがバスＢへの書き出しを送信しない時
は、キャッシュは４サブラインのどれがその汚染ビット
での書き込みによって影響されたかを記録する。キャッ
シュラインがキャッシュから追い出される時は、それら
の汚染ビットはＢＩＵ１２へ与えられる。もしそれらの
汚染ビットの１つだけがセットされれば、ＢＩＵ１２は
バス上で単一の６４ビット書き込みを実行するであろ
う。もし１よりも多い汚染ビットがセットされれば、標
準的な２５６ビットのキャッシュラインバーストライト
バックが発生しよう。

【０１４４】従来のＭＥＳＩプロトコルの枠組みの中
で、汚染ビット（単数または複数）はＭ状態でのみ重要
である。しかし、多重レベルキャッシュ階層５６では、
“汚染”には複数の概念が存在しよう。例えば、一実施
例では、下位のキャッシュは外部世界に対してはクリー
ンであるが、上位キャッシュに対して汚染しているとい
う概念を採用する。その結果、その状態は共有された汚
染、または排他的な汚染ということになろう。従って、
下位キャッシュの汚染ビットは、上位キャッシュに対し
て汚染しているのと、外部世界に対して汚染しているの
との両方の汚染に関する状態を維持するために有利に使
用できる。下位のキャッシュがＳまたはＥ状態にある時
は、汚染ビットは上位のキャッシュ状態に対する汚染の
記録をつけている。下位キャッシュがＭ状態にある時
は、汚染ビットは外部世界に対する汚染の記録をつけて
いる。すなわち、下位キャッシュがＭ状態にあって、そ
れが追い出され、それの上位キャッシュによって吸収さ
れる時は、下位キャッシュからの汚染ビットは上位キャ
ッシュの汚染ビットとマージされる。しかし、下位キャ
ッシュからのラインが追い出される時にＳまたはＥ状態
にあれば、汚染ビットは上位キャッシュに対して汚染し
ているが外部世界に対してはクリーンであることを意味
しているため、汚染ビットは上位キャッシュの汚染ビッ
トとマージされることはないであろう。

【０１４５】多重レベルコヒーレンシプロトコルの一実
施例では、キャッシュ階層の低レベルから高レベルへ認
識された修正データの不必要な更新は削除される。以下
の説明では、例示のためにＭＥＳＩプロトコルが使用さ
れている。しかし、以下に述べる実施例は他のコヒーレ
ンシプロトコルでも実行できよう。更に、Ｌ０キャッシ
ュ１８が以下の例で使用されているが、この概念は多重
レベルキャッシュ階層のすべてのレベルに適用できる。

【０１４６】先に述べた多重レベルキャッシュシステム
で、Ｌ１Ｄ１６_d（ＭＥＳＩ状態はＭ）中でラインが
修正されており、そのラインがＬ０１８には存在しな
い状況を考えてみよう。プロセッサパイプラインが同一
ラインから任意のデータを要求する時は、それはＬ１Ｄ
１６_dからフェッチされて、パイプラインへ供給され
るとともにＬ０１８へもキャッシュされる。ＭＥＳＩ
プロトコルによると、この新しくキャッシュされたＬ０
１８中のラインのＭＥＳＩ状態はＭ（修正済み）とマ
ークされる。このラインのデータはプロセッサによって
読み書きできて、そのＭＥＳＩ状態はＭのままに留ま
る。Ｌ０１８中のこのラインを追い出す必要がある時
はいつでも、それがＭ状態を有するというキャッシュコ
ヒーレンシを維持するためにＬ１Ｄ１６_dへそれをコ
ピーバックする必要がある。このラインはＭ状態でＬ０
１８へ持ち込まれたものであるから、このラインが実
際のＬ０１８中で修正されたかどうかは分からない。
この問題はキャッシュコヒーレンシプロトコルに新しい
状態を導入することによって解決できる。例えば、ＭＥ
ＳＩプロトコルで、その状態はＭＭ（修正済み−修正済
み）と呼ぶことができる。１つのキャッシュレベルにあ
る１つのラインが修正される時はいつでも、それはＭで
はなくてＭＭとマークされて、それによって、ラインが
Ｍ状態でキャッシュレベルへ割り当てられたが変更なし
にままであるのとは逆に、１つのキャッシュレベルで実
際に修正されたことを区別するようになっている。この
実施例は、キャッシュ階層中のラインが実際に修正され
たかどうかを有利に区別する。従って、メモリ階層５６
中の各種レベルのキャッシュ間で不必要なデータトラフ
ィックが削除されて、より高いスループットおよび電力
節約が可能となる。

【０１４７】別の実施例では、プロセッサの全体的な停
滞を減らすために、多重レベルキャッシュ階層に対して
条件付の書き込み−割り当て方式が設けられている。１
つのキャッシュ設計では、読み出し／書き込み割り当て
方式は、データのブロック／ラインをオンチップキャッ
シュに常駐させる時点を制御する。もしそのラインが読
み出しミスでキャッシュされれば、そのキャッシュは読
み出し−割り当て方式を有すると言われる。他方で、も
し書き込みがラインをミスした時にそのキャッシュ中へ
ラインが持ち込まれれば、そのキャッシュは書き込み−
割り当てと言われる（フェッチまたは書き込みとも言わ
れる）。もしその書き込みミスがちょうどメインメモリ
へ書き込まれて、その後にフェッチおよび割り当てが続
かなければ、そのキャッシュは書き込み−割り当て無し
であると言われる（ライトアラウンドとも言われる）。
ライトバックまたはライトスルーキャッシュではいずれ
かの書き込みミス方式が使用できる一方で、一般にライ
トバックキャッシュは書き込み−割り当て（そのライン
への後続の書き込みがオンチップキャッシュをヒットす
ることを期待して）を使用し、またライトスルーキャッ
シュはしばしば書き込み−割り当て無し（そのラインへ
の後続の書き込みが更にメインメモリへ行かなければな
らないであろうため）を使用する。

【０１４８】多重レベルキャッシュ階層では、ライトバ
ック／ライトスルー制御で以って、書き込み−割り当て
あるいは書き込み−割り当て無しのいずれも最適特性を
提供しない。もし書き込み−割り当て無しが使用されれ
ば、より大きいスループットを引き出すために並列に動
作することができた多重オンチップキャッシュの利点は
利用されないことになる。書き込み−割り当てを何もし
なければ、キャッシュヒット率は低下しよう。他方で、
キャッシュのすべてのレベルで書き込み−割り当てが常
時使用されれば、すべてのキャッシュレベルのホールド
が発生するため、利用可能な並列実行は利用できない。
例えば、Ｌ０Ｄレベル１８への書き込み−割り当てを幅
広く実行することは書き込みアクセスの間にＬ０Ｄキャ
ッシュ１８を不必要にホールドし、Ｌ／Ｓユニット４０
からの更なるＬ０Ｄアクセスを妨害することになろう。

【０１４９】従って、この実施例では、書き込み有りあ
るいは書き込み−割り当て無しの方式の両方の良い特性
が採用されている。書き込み−割り当て方式では、ライ
ンに対する最初の書き込み時に書き込み停止が発生す
る。書き込み−割り当て無し方式では、より長時間の書
き込み停止はないであろうが（ライトスルーバッファに
よる）、全体的により長時間の書き込みミスペナルティ
が存在する。従って、実行ユニット５４の最も近いキャ
ッシュレベル１８では、書き込み停止を最小化するため
に好ましくは書き込み−割り当て無しが行われる。メイ
ンメモリ５に最も近いキャッシュレベル１４では、後続
の書き込みを吸収してそれによって書き込み停止を減ら
すために好ましくは常に書き込み−割り当てが行われ
る。キャッシュ１６_dの中間レベルでは、好ましくは条
件付の書き込み−割り当てが行われる。もし中間レベル
１６_dで書き込みミスが階層中のキャッシュ１４の次の
レベルでヒットすれば（実行ユニット５４から遠ざか
る）、そのデータは次のレベル１４からフェッチされ
て、その書き込みは現在の中間レベル１６_dで割り当て
られ吸収される。もし現在の中間レベル１６_dでの書き
込みミスが次のレベル１４でミスすれば、好ましくは現
在の中間レベル１６_dでは書き込み−割り当て無しが行
われ、その書き込みミスは次のレベル１４へ送られて、
現在のレベル１６_dがその書き込みで利用される。

【０１５０】多重レベルキャッシュの異なるレベルにお
いて異なる書き込み割り当て方式を利用するアプローチ
を使用することによって、キャッシュのすべてのレベル
で同じ割り当て方式を使用する場合よりもより良い全体
的な性能が達成される。このアプローチの結果はシステ
ムスループットの増大とより高い性能である。上述の実
施例は、進歩した特性を与えるために、他の読み出し／
書き込み要求に自由に応えるように最下位レベルのキャ
ッシュ１８をしてある。上では一実施例について説明し
たが、書き込みを割り当てられる、あるいは割り当てら
れないレベルは、キャッシュサイズ、アクセス時間など
の変数に依存する。更に、上に述べた概念は任意の多重
レベルキャッシュ階層へ適用できよう。

【０１５１】マイクロプロセッサ１０のような多くのプ
ロセッサアーキテクチャは、１次（オンチップ）から２
次キャッシュ（オフチップ）への包括関係および一貫性
を維持するために照会、バック無効化、およびライトワ
ンス（ｗｒｉｔｅ−ｏｎｃｅ）方式を利用する。１次キ
ャッシュは単一レベルキャッシュでも多重レベルキャッ
シュ階層のものでもよい。照会およびバック無効化サイ
クルは、包括および一貫性を維持するためにプロセッサ
キャッシュ階層へ外部２次キャッシュによって生成され
るスヌープサイクルである。照会サイクルは、もしその
ラインがプロセッサキャッシュ中で修正済み状態にあれ
ば、ライトバックを引き起こす。バック無効化サイクル
は、もしスヌープされたアドレスがプロセッサキャッシ
ュをヒットすれば、プロセッサキャッシュ中のラインを
無効化するように外部キャッシュによって開始される。
ライトワンス方式は、外部キャッシュが常にプロセッサ
の潜在的な修正されたラインに気づいていることを保証
するために使用される。これは先に述べたように、包括
および一貫性を維持するために必要である。外部キャッ
シュは例えば、プロセッサを強制的にライトワンスモー
ドにするためにＭＥＳＩ状態制御プロセッサ入力信号
（ＷＢ／ＷＴ＃）を利用することができる。

【０１５２】ＷＢ／ＷＴ＃（ライトバック／ライトスル
ー）信号のような外部信号は、ライン単位でプロセッサ
データキャッシュラインをライトバックまたはライトス
ルーとして定義するために利用できる。その結果、この
信号はプロセッサデータキャッシュ中で、キャッシュラ
インがＳまたはＥのＭＥＳＩ状態にあることを指示する
ために用いることができる。外部キャッシュは、外部キ
ャッシュ自身がＥからＭ状態へ遷移をするか、あるいは
既にＭ状態にある場合にだけプロセッサがＥ状態になる
のを許容する（スヌープ応答待ち時間のため）。プロセ
ッサデータキャッシュ中のＳ状態ライン上の書き込み
は、一般にライトスルーオペレーションが実行されるよ
うにする。そのラインの最終のＭＥＳＩ状態（Ｓまたは
Ｅ）は、外部書き込みオペレーションの最後に外部キャ
ッシュによって駆動されるＷＢ／ＷＴ＃入力信号によっ
て決定される。こうして、プロセッサパイプラインは外
部書き込みが完了するまで停止される。

【０１５３】オンチップ多重レベルキャッシュ階層を備
えるプロセッサに対して、ライトスルーオペレーション
でパイプラインを停止することは好ましくない。本発明
の一実施例では、ここに説明したこの問題に対する解決
は、包括および一貫性のための所望のキャッシュコヒー
レンシ遷移にうまく従って、またプロセッサパイプライ
ンがライトスルーオペレーションで停止することを防止
して、それによりそのシステムからより高いスループッ
トを達成する。

【０１５４】一実施例は、メモリ階層のすべてのレベル
が外部状態制御信号（ＷＢ／ＷＴ＃）に依存するのと違
って、ライトスルーオペレーション時にメモリ階層の各
レベルに関する最終の状態を決定するための機構をパイ
プライン化する。これは、メモリ階層５６の下位レベル
（実行ユニット５４により近いもの）が、実行パイプラ
インへの停止信号を解放できる前に、トランザクション
が完了するのを待たなくてもよいようにする。このこと
は、次の命令が実行できる前の待ち時間を排除し、従来
の方法よりも高い動作性能を供与する。

【０１５５】３レベルのオンチップキャッシュを備える
メモリ階層５６用のパイプライン化されたライトワンス
ＭＥＳＩプロトコルについて以下に説明する。しかし、
ＭＥＳＩプロトコルは例示目的のために使用されてお
り、以下で説明する実施例は他のコヒーレンシプロトコ
ルと一緒に実現することもできよう。更に、このアプロ
ーチは、ｎレベルでｍの深さのコヒーレンシプロトコル
パイプライン化を備えるキャッシュへ一般化できる。例
えば、キャッシュＬ０１８、Ｌ１Ｄ１６_d、および
Ｌ２１４を含む３レベルキャッシュ階層５６は、外部
パイプライン５４へインタフェースされたＬ０１８
と、バスＢへのインタフェースされたＬ２１４とを有す
る。一実施例では、ライトスルーオペレーションでのＬ
０１８の最終のＭＥＳＩ状態は、Ｌ１Ｄ１６_d／Ｌ
２１４（上位者）の現在のＭＥＳＩ状態のみに依存し
て、ＷＢ／ＷＴ＃入力信号には依存しない。Ｌ１Ｄ１
６_dおよびＬ２１４は常に同じＭＥＳＩ状態を有し、
ライトスルーオペレーションのそれらの最終のＭＥＳＩ
状態はそれらの現在のＭＥＳＩ状態、ＰＷＴ、およびＷ
Ｂ／ＷＴ＃入力信号に依存する。図２７および図２８は
関連する状態遷移を詳細に説明する。

【０１５６】図２９は、プロセッサメモリ階層５６およ
び外部キャッシュの、プロセッサキャッシュラインが初
期には共有状態であった場合のライトスルーオペレーシ
ョンのシーケンスにおけるパイプラインＭＥＳＩ状態の
変化を要約する因果関係の表である。ＰＷＴは０である
と仮定する。線および方向矢印は因果関係を示す。例え
ば、表の行１に示されるように、１番目のライトスルー
はバスＢ書き込みをもたらす。バスＢ書き込みの後、外
部キャッシュの最終の状態はＥであり、ＷＢ／ＷＴ＃入
力信号は低レベルである。第１のライトスルーオペレー
ション時に、Ｌ０キャッシュ１８の最終の状態はＬ１Ｄ
１６_dの現在の状態によって決定される。従って、Ｌ
０１８はＳｄ（汚染ビットがセットされた共有状態）
になる。Ｌ１Ｄ１６_dおよびＬ２１４の最終状態
は、バスＢ書き込み後にＷＢ／ＷＴ＃が低レベルである
ため第１番目のライトスルーの後でもＳ状態に留まる。
２番目のライトスルーでは、Ｌ０１８は、Ｌ１Ｄ１
６_dの現在の状態に基づいて、再びＳｄ（共有、汚染し
た）状態に留まる。２番目のバスＢ書き込みの終わり
で、ＷＢ／ＷＴ＃信号入力が高レベル（１）であるの
で、Ｌ１Ｄ１６_dおよびＬ２１４はＥ状態へ遷移す
る。３番目のライトスルー時には、Ｌ１Ｄ１６_dの現
在のＥ状態に基づいてＬ０１８はＭ状態へ遷移し、プ
ロセッサがデータラインの排他的コピーを有しているの
で、バスＢでライトスルーが行われる。しかし、Ｌ１Ｄ
１６_dおよびＬ２１４もまた３番目のライトスルー
オペレーションでＥからＭ状態へ遷移する。この解決法
は、メモリ階層５６のためのライトスルー時にＭＥＳＩ
プロトコルをパイプライン化するという特色ある概念を
導入する。結果の利点はシステムスループットの増大と
より高い動作性能である。

【０１５７】プロセッサ１０が発生する書き込みはプロ
セッサメモリ階層５６でヒットするかもしれないが、
尚、キャッシュコヒーレンシプロトコルの要求によって
２次のオフチップメモリへ書き込まれなければならない
かもしれない。もしこのプロセッサが発生するバスＢへ
の書き込みがバス書き込みサイズの中で整列していれ
ば、それは１つのバスオペレーションのみを含むことに
なろう。しかし、プロセッサが発生する書き込みがバス
書き込みサイズ内で整列していなければ、それはバス不
整列データの２つの半分を書き込むための２つのバスオ
ペレーションを含むことになろう。バスサイクルはオン
チップ書き込みよりもかなり大きい電力を消費するの
で、バスＢトランザクションを最小化して、それにより
電力消費を削減することが好ましい。更に、システムの
性能を決定する場合に共有バスがボトルネックとなるた
め、バストラフィックの削減はこれもシステムスループ
ットの増大につながろう。以下に説明する実施例は、い
くつかの状況において、バス不整列ライトスルー書き込
みにおいて２つのバスオペレーションの１つを削減す
る。

【０１５８】本発明は、例えば任意の連続した８バイト
の整列した書き込みを処理できるバスＢを提供する。オ
ンチップメモリ階層は、例えば１から４連続バイトの１
６バイトの整列書き込みを処理することができる。この
ように、１６バイトの整列した、また４／８バイトの整
列してもいなくてもよい任意の読み出し／書き込みトラ
ンザクションが、プロセッサメモリ階層によって何らペ
ナルティなしで１クロックサイクルで処理できる。これ
は、４バイト境界を横切った２バイトまたは４バイトオ
ペランドを不整列と考えるペンティアム^TMプロセッサと
は異なる。更に、ペンティアム^TMプロセッサでは８バイ
ト境界を横切る８バイトオペランドが不整列である。ペ
ンティアム^TMバスは、８バイト境界で整列したデータの
任意の連続するバイトを１バスサイクルで書き込むこと
ができる。

【０１５９】一実施例では、プロセッサは４バイト不整
列ワードアクセスを分解して２つの別々のトランザクシ
ョンとすることができて、それによってバスは何ら不整
列な書き込みを見ることがない。更により有利なアプロ
ーチでは、プロセッサオンチップデータキャッシュ階層
ライン（単数また複数）の最終状態は好ましくは外部状
態制御プロセッサ入力信号によって決定される。例え
ば、ＷＢ／ＷＴ＃（ライトバック／ライトスルー）信号
はプロセッサデータキャッシュラインがライン単位での
ライトバックまたはライトスルーとして定義されること
を許容する。この結果、それはキャッシュラインがプロ
セッサキャッシュＬ２１４中でＳまたはＥ状態のいず
れにあるか決定する。Ｌ２キャッシュ１４の最終状態が
Ｓである時、それはアドレス指定されたデータがシステ
ム中の他の資源と共有されて、そのデータがシステムメ
モリ５と一致していることを意味する。Ｅ状態は、プロ
セッサがメインメモリ５と一致する、アドレス指定され
たデータの排他的コピーを有することを意味する。

【０１６０】バスＢ不整列ライトスルー書き込み時に、
本実施例は、第１サイクルの終わりでのキャッシュライ
ンの最終状態を利用して、バスＢ不整列書き込みの２番
目を行う必要があるか、あるいはそれを排除するかを判
断する。もし第１のバスＢ書き込みの終わりでのキャッ
シュラインの最終状態がＥであれば、それはこのキャッ
シュが排他的コピーを持っており、外部バスＢ書き込み
を行わずともそれをローカルに修正できることを意味す
る。従って、２番目の不整列バスＢ書き込みとなるはず
であったものがローカルなキャッシュデータ修正として
取り扱われて、それによって２番目のバスＢ書き込みが
排除される。Ｌ２キャッシュ１４ラインの最終状態は、
２番目の不整列バスＢ書き込みがローカルなオンチップ
キャッシュ１４で吸収されることからＥ状態ではなくＭ
状態になる。１番目のバスＢ書き込みの終わりでのＬ２
キャッシュラインの最終状態がもしＳであれば、それは
そのラインが共有のままに留まる必要があり、そのキャ
ッシュは通常のように、２番目のバスＢ不整列書き込み
に進むことを意味する。図３０は、バス不整列ライトス
ルー書き込みに含まれるバストランザクションの数およ
び状態遷移を要約している。上述のプロセスおよび回路
は、外部バスＢ書き込みが発生する３つの場合のうちの
１つにおいて、１つのバスサイクルを節約する。この方
法は、バスＢ不整列ライトスルー書き込みでバスＢトラ
ンザクションの数を有利に減らして、その結果、電力を
節約し、バスＢトラフィックを削減する。

【０１６１】一実施例では、図１５に示されるＬ２１
４タグｒａｍは、６４バイトのＬ２１４ライン当り２ビ
ットのディレクトリ情報を有しており、それは、メモリ
からＬ２キャッシュ１４を経由してデータを得る３つの
ユニットＬ１Ｄ１６_d、Ｌ１Ｉ１６_i、およびＴＬＢ
５０相互間でコヒーレンスを維持するためのものであ
る。Ｌ２１４中の２つのディレクトリ（ｄｉｒ）ビッ
トの符号化が図３１に示されている。

【０１６２】Ｌ２１４中の次のディレクトリ状態は図
３２に示されるように、現在のディレクトリ状態と、Ｔ
ＬＢ５０、Ｌ１Ｉ１６_i、およびＬ１Ｄ１６_dからの
読み出し／書き込みアクションに依存する。

【０１６３】一般に、従来の２ビットディレクトリ方式
は３つの状態（００、１０、１１）だけを有する。メモ
リ階層５６の一実施例では、汚染データはＬ２１４に
対して下位レベルのキャッシュに対して保存されてい
る。従って、第４の状態（０１）が２ビットディレクト
リ方式に追加されて、この能力を提供する。オペレーシ
ョンの詳細は図３３に示されている。

【０１６４】Ｌ１Ｄ１６_dまたはＬ１Ｉ１６_dへの内
部コヒーレンス（スヌープ）要求は、Ｌ２キャッシュ１
４において特殊なコヒーレンスアクションが要求される
時にディレクトリ状態に基づいてＬ２１４から生成さ
れる。この特殊なコヒーレンスアクションは、例えば以
下の状況の１つによって要求されよう。１．外部スヌープ：バスＢから外部スヌープ要求があ
って、そのスヌープアドレスがＬ２１４中でヒットで
ある時２．ＷＢＩＮＶＤ／フラッシュ：ＷＢＩＮＶＤ命令ま
たはバスＢ上のフラッシュ信号によって、マイクロコン
トローラがライトバックおよび無効化を依頼する。３．ロックされたアクセス：ロックされた読み出しア
クセスの間に、もしそのラインがキャッシュ階層中に存
在すれば、Ｌ２１４は下位レベルがコヒーレンスアク
ションを取ることを依頼する。４．ＴＬＢ５０読み出し：もしＴＬＢ５０からの読み
出し要求がＬ２１４中でヒットすれば、下位レベルキ
ャッシュからデータが集められて、ＴＬＢ５０へ供給さ
れる。５．Ｌ２１４置換：もしラインがＬ２１４から置
換されれば、Ｌ２１４は下位レベルでコヒーレンスア
クションを開始する。６．Ｌ１Ｉ１６_i読み出し：Ｌ１Ｉ１６_iがＬ２
１４に対して読み出し要求をサブミットし、Ｌ２１４
がＬ０Ｄ１８／Ｌ１Ｄ１６_dとデータ不一致を有す
る時は、Ｌ１Ｄ１６_dに対して内部スヌープコマンド
が発行されて、それがＬ１Ｉ１６_iへ供給される前に
正しいデータが得られる。７．Ｌ１Ｄ１６_d書き込み：もしあれば、Ｌ１Ｉ
１６_i中のコピーが無効化される。

【０１６５】Ｌ１Ｉ１６_i読み出しがあり、データ側
（Ｌ０Ｄ１８／Ｌ１Ｄ１６_d／Ｌ２１４）に修正
されたコピーが存在する時、あるいはＬ１Ｄ１６_d書
き込み要求があって、Ｌ１Ｉ１６_iにコピーが存在す
る時は、自己修正コードが実行されるか、あるいはコー
ドおよびデータ間で偽の共有が存在することに注意され
たい。更に、Ｌ１Ｄ１６_dからＬ２１４への犠牲ラ
イトバック時には、もし各３２バイトラインに付随する
ディレクトリ状態が存在すればディレクトリ状態は００
から０１へ変更可能である。しかし、もしディレクトリ
状態が６４バイトラインのみに対して保持されていれ
ば。Ｌ１Ｄ１６_dからＬ２１４への犠牲ライトバッ
ク時には、ディレクトリ状態は同じままに留まるべきで
ある。

【０１６６】Ｌ２１４からＬ１Ｄ１６_dへのスヌー
プインタフェースは好ましくは、信号Ｌ２＿ｔｏ＿Ｌ１
Ｄ＿ｐａ、Ｌ２＿ｔｏ＿Ｌ１Ｄ＿ｓｎｏｏｐ、Ｌ２＿ｔ
ｏ＿Ｌ１Ｄ＿ｉｎｖａｌ、Ｌ２＿ｔｏ＿Ｌ１Ｄ＿ｒｅｔ
ｕｒｎ＿ｄａｔａ、Ｌ１Ｄ＿ｔｏ＿Ｌ２＿ｄｏｎｅ、お
よびＬ１Ｄ＿ｔｏ＿Ｌ２＿ｓｎｏｏｐ＿ｄａｔａ＿ｒｅ
ａｄｙ信号を含む。同様に、Ｌ１Ｉ１６_iインタフェ
ースはＬ２＿ｔｏ＿Ｌ１Ｉ＿ｉｎｖａｌおよびＬ１Ｉ＿
ｔｏ＿Ｌ２＿ｄｏｎｅ信号によって制御される。もしＩ
キャッシュが修正されたデータを決して保有しなけれ
ば、Ｌ１Ｉ１６ _iに対してｓｎｏｏｐあるいはｒｅｔ
ｕｒｎ＿ｄａｔａ信号は不要であることに注意された
い。

【０１６７】もしＬ２＿ｔｏ＿Ｌ１Ｉ＿ｉｎｖａｌ信号
が能動的であれば、Ｌ１Ｉ１６_iはキャッシュライン
の状態をＩへ変更して、＿ｄｏｎｅ信号を戻す。Ｌ１Ｉ
１６_iへの＿ｉｎｖａｌコマンドは、Ｌ２１４中の
ディレクトリ状態がそれがコピー（１０、１１）を有す
ることを示しており、内部スヌープ条件が発生する時
（上の１、２、３、５、および７の状況）だけ与えられ
る。もしディレクトリ状態が６４バイト細分性（３２バ
イトの代わりに）に維持されていれば、Ｌ１Ｉ１６_iに
対して２つの無効化コマンドが発行されなければならな
い。

【０１６８】一実施例で、信号＿ｓｎｏｏｐ、＿ｉｎｖ
ａｌおよびｒｅｔｕｒｎ＿ｄａｔａを通してＬ１Ｄ１
６_dへ送られる内部スヌープコマンドが図３４に示され
ている。Ｌ１Ｄ１６_dへのスヌープコマンドは、内部
スヌープのための上述の条件の１つ（状況７を除く）が
存在し、Ｌ２１４のディレクタビットがＬ１Ｄ１６
_dを指す時に生成される。

【０１６９】Ｌ２１４によってＬ１Ｄ１６_dに対し
て各種状況について生成されるスヌープコマンドが図３
５に要約されている。スヌープコマンドが１１０（すな
わち、戻りデータは期待されない）である時は、Ｌ１Ｄ
１６_dおよびＬ０Ｄ１８は、２つのプロセッサクロ
ックサイクル内で状態変更が発生することを確実なもの
としなければならない。戻りデータが期待される場合に
ついては、＿ｓｎｏｏｐ＿ｄａｔａ＿ｒｅａｄｙおよび
＿ｄｏｎｅ信号を能動的な状態に戻すために使用される
サイクル数に上限はない。図３５に示されていない任意
の状況に対して、Ｌ２１４からＬ１Ｄ１６_dへのス
ヌープコマンドは０００となるべきである。

【０１７０】信頼性のある通信を維持するために、マル
チプロセッサシステムではロックされたアクセスが普通
に使用されている。例えば、１つのプロセッサがデータ
をメインメモリ５へ動かす時、もし他のプロセッサがそ
の時間にそれらのメモリ位置へアクセスしていれば、デ
ータの信頼性には疑問が生じる。メモリオペレーション
の完全性はロックされたアクセスを使用することを通し
て保護される。メモリ階層５６中のロックされたアクセ
スの２つのソースは、ＴＬＢ５０からのロックされた読
み出し修正書き込み（ｒ−ｍ−ｗ）要求と、マイクロコ
ントローラ４８によって生成されるロックされたアクセ
スである。ＢＩＵ１２はｒ−ｍ−ｗサイクルの期間の
間、バスＢ上のＬＯＣＫ＃信号をアサートする。ロック
されたアクセスはキャッシュ可能でない。しかし、１つ
のメモリ位置がプロセッサ１０によってロックなしでア
クセスされ、キャッシュ階層中にストアされた後で、同
じ位置に対してロックされたｒ−ｍ−ｗアクセスを開始
することは可能である。この場合に、ロックされた読み
出し部分の間、そのラインは、キャッシング可能でない
読み出し要求がバスＢ上に与えられる前にキャッシュ階
層から除去（ロック追い出しと呼ばれる）される。ロッ
ク追い出しの間、そのラインはすべてのキャッシュ中で
無効化されて、そしてもしそれがキャッシュの１つで修
正されれば、それはメモリ５へライトバックもされる。

【０１７１】ｘ８６アーキテクチャを採用する一実施例
では、ＴＬＢ５０からのロックされたアクセスにおい
て、メインＴＬＢ５０は、‘ａ’ビットまたは‘ｂ’ビ
ットをページディレクトリエントリ（ｐｄｅ）またはペ
ージテーブルエントリ（ｐｔｅ）中にセットする必要の
ある時にそれらの要求を発生する。それらのロックされ
た要求は４バイト整列しており、ＴＬＢ５０によって生
成されたｒ−ｍ−ｗアクセス毎に、１つのロックされた
読み出しに続く１つのロックされた書き込みが実行され
る。ＴＬＢ５０によって生成されるロックされたアクセ
スは好ましくはＬ２キャッシュ１４へ直接送られる（そ
れらは下位レベルのキャッシュを通らない）。

【０１７２】マイクロコントローラ４８からのロックさ
れたアクセスにおいて、マイクロコントローラ４８は、
セグメント記述子更新を更新する時、およびＴＳＳ（タ
スク状態セグメント）記述子試験のために、‘ｌｏｃ
ｋ’の接頭辞の付いた有効な命令、デフォルトでロック
される必要がある命令に対してロックされたｒ−ｍ−ｗ
アクセスを開始する。マイクロコントローラ４８によっ
て生成されるロックされたメモリアクセスは、いくつか
の工程で、好ましくは実行ユニット５４を通してＬ０Ｄ
キャッシュ１８へサブミットされる。それらの工程は演
算コードと個別オペレーションとの組み合わせを含む。

【０１７３】第１の工程は追い出しおよびベリファイで
ある。一実施例では、Ｌ０Ｄキャッシュ１８はそのロッ
クされたアクセスが３２バイト境界を横切って不整列し
ているかどうかをチェックし、またそのアクセスが４Ｋ
ページの境界を横切っているかどうかをチェックする。
もしそのアクセスが３２バイト境界を横切っていなけれ
ば、Ｌ０Ｄ１８は好ましくはＬ１Ｄ１６_dを通してＬ
２キャッシュ１４へ、ロック追い出し要求をサブミット
する。Ｌ２キャッシュ１４はその追い出しを実行する。
もしそのアクセスが３２バイト境界を横切っていれば、
Ｌ０Ｄ１８はＬ２１４へ２サイクルのロック追い出
しを開始する。更に、もしそのアクセスが４Ｋページ境
界を横切っていれば、Ｌ０Ｄ１８は更に、第２のロッ
ク追い出しのためのμＤＴＬＢ３８検索を実行する。こ
うして、バスＢ上のロックされた読み出しに先行して、
０、１、または２の犠牲ライトバックがあることにな
る。この犠牲ライトバックバーストサイクルはバスＢに
ロックされていない。もし追い出しおよびベリファイオ
ペレーションが例外なしに完了すれば、後続のロードお
よびストアオペレーションの間に発生できる例外は存在
しない。

【０１７４】第２の工程はロックされたロードである。
ロック追い出しが完了した後で、マイクロコードは、Ｌ
ＯＣＫ個別（ｄｉｓｃｒｅｔｅ）がセットされたＬ０Ｄ
１８へロードオペレーションを送る。一実施例では、
もしロックされたアクセスが８バイト不整列であれば、
ＢＩＵ１２はそれを２つの８バイト整列読み出しアクセ
スに分解する。もしそのアクセスが１６バイト不整列で
あれば、Ｌ０Ｄ１８はその要求を２つの別々のロック
された読み出しに分解してＬ２１４へサブミットす
る。両方の不整列ケースで、ＢＩＵ１２はバスＢ上でＳ
ＣＹＣ信号（スプリットサイクル：この信号はロックさ
れたオペレーションが不整列であることを示す）を能動
状態へ駆動して、ＬＯＣＫ＃信号はその読み出しの間は
能動状態に留まる。

【０１７５】第３の工程はロックされたストアである。
ロックされたロードに続いて、マイクロコードはストア
を発行する。ＬＯＣＫ個別はそのストアによってリセッ
トされよう。不整列のケースでは、ストアトランザクシ
ョンはロックされたロード工程と同じように分解され
る。

【０１７６】第４の工程はロックされたサイクルトラン
ザクションの終了である。メモリ階層５６はロックされ
たサイクルが終了するまでロックされたオペレーション
の準備を続ける。ロックされたサイクルを終了させるた
めに、マイクロコードは、実行ユニット５４へロード実
効アドレス（ＬＥＡ）演算コードが送られる間にＬＯＣ
Ｋ個別をリセットする。

【０１７７】オンチップのキャッシュサイズが増大する
につれて、それがキャッシュフラッシュを実行するため
に要する時間もまた増大する。特定のタイプのオペレー
ションに対しては、プロセッサ１０がオンチップキャッ
シュ中でデータを操作して、その後にキャッシュをフラ
ッシュすることによって、外部世界がその結果を見るよ
うにするのが普通である。そのようなタイプのオペレー
ション（一般的な例は画像処理である）に対しては、大
型のキャッシュサイズによる性能劣化は禁止するように
できる。従って、以下に１つの実施例が示されるが、そ
れによってキャッシュのちょうどライトバックの部分だ
けを実行できる。この機構を通して、メモリへ書き込む
必要のあるデータを含むキャッシュの部分だけがキャッ
シュからフラッシュされる。更に、１つの実施例が述べ
られており、その中ではプロセッサ１０はメモリブロッ
クの所有権を内部的に変更できるようになっている。そ
の結果、メモリブロック中の修正されたラインは外部世
界へライトバックされるが、それらのラインはキャッシ
ュに保持されている。このことはメモリのエリアをライ
トスルー領域からライトバック領域へ切り替えることを
可能とする。

【０１７８】多重バス−マスター環境において経験する
別の問題は外部スヌープである。外部スヌープは外部世
界からの特別なキャッシュラインの状態に関する問い合
わせである。プロセッサ１０は、プロセッサ１０がその
ラインをキャッシュしているかどうかを外部バスＢへ伝
えることによって応答するであろう。もしプロセッサ１
０がデータを修正していれば、それはそのラインを外部
システムへライトバックするであろう。しかし、多くの
装置がメモリブロックを扱う。１つの装置がそのメモリ
ブロックの所有権を要求する時は、それはそのブロック
内の各キャッシュラインに対して外部スヌープを実行し
なければならない。別の実施例について以下に述べる
が、それによればメモリの１つのブロック全体をスヌー
プする外部スヌープを、１つのオペレーションだけでも
って実行することができる。

【０１７９】これらの実施例は２つの独特のキャッシュ
演算コード、“追い出し”および“ライトバック”を利
用する。キャッシュが追い出し演算コードとその付随ア
ドレスを受信する時は、それは、供給されたアドレスが
そのキャッシュに含まれているかを調べるためのチェッ
クを行う。もしそのアドレスが存在すれば、キャッシュ
はそのラインの追い出しを実行する。すなわち、もしそ
のラインが修正済み状態にあれば、そのラインは外部バ
スＢへライトバックされて、そのラインはそのキャッシ
ュ中で無効化される。もしそのラインがキャッシュに存
在するが、修正されていなければ、そのラインは単に無
効化される。逆に、キャッシュが“ライトバック”演算
コードを受信する時は、もし参照されたラインが修正済
み状態であればそのラインはバスＢへライトバックされ
て、“未修正”とマークされる。もし参照されたライン
がキャッシュ中にあるが、修正済み状態でなければ、そ
のラインはそのキャッシュに留まる。しかし、プロセッ
サはそのラインの所有権を手放すであろう。ＭＥＳＩの
枠組みでは、これらの規則は図３６に示される関係へ翻
訳される。

【０１８０】ｘ８６のようないくつかのプロセッサアー
キテクチャでは現在、キャッシュライトバックを実行で
きる命令は命令セットの中に１つしかない。ｘ８６アー
キテクチャに関しては、これはＷＢＩＮＶＤ命令であ
る。この命令は全キャッシュをフラッシュし、その後そ
れを無効化するであろう。従って、ＷＢＩＮＶＤ命令の
後では、そのキャッシュは空になろう。部分的なキャッ
シュフラッシュを実行するためにはいくつかのやり方が
ある。１つの方法は、新しい演算コードを定義すること
である。この演算コードは２つのパラメータ、アドレス
とスカラとをその中に構築されよう。アドレスはメモリ
ブロックの底のアドレスであり、スカラはメモリブロッ
クのサイズである。もし現状のｘ８６命令セットとの一
貫性が望みであれば、標準的な“ｍｏｄ／ｒｍｒｅ
ｇ”バイトを使用すべきであり、それによってアドレス
およびスカラ値を記述する。別の可能性は、ＭＳＲ（マ
シン固有レジスタ）を定義するものであり、それは書き
込まれる時に部分的なキャッシュフラッシュを引き起こ
すであろう。その活動を開始するために使用される機構
がどのようなものであろうと、それは所望のアドレスブ
ロックに対してフラッシュを実行するであろう。このオ
ペレーションは次のように進行しよう（擬似コード
で）。

【０１８１】ブロックをライトバックおよび無効化する
ために：ｔｍｐ＿ａｄｄｒ＝ｉｎｉｔｉａｌ＿ａｄｄｒｅｓｓｗｈｉｌｅ（ｔｍｐ＿ａｄｄｒ＜ｉｎｉｔｉａｌ＿ａｄ
ｄｒｅｓｓ＋ｂｌｏｃｋ＿ｓｉｚｅ）Ｅｖｉｃｔ（ｔｍｐ＿ａｄｄｒ）ｔｍｐ＿ａｄｄｒ＝ｔｅｍｐ＿ａｄｄｒ＋ｌｉｎｅ＿ｓ
ｉｚｅ

【０１８２】ライトバックするが、ブロックの無効化は
しないために：ｔｍｐ＿ａｄｄｒ＝ｉｎｉｔｉａｌ＿ａｄｄｒｅｓｓｗｈｉｌｅ（ｔｍｐ＿ａｄｄｒ＜ｉｎｉｔｉａｌ＿ａｄ
ｄｒｅｓｓ＋ｂｌｏｃｋ＿ｓｉｚｅ）Ｗｒｉｔｅｂａｃｋ（ｔｍｐ＿ａｄｄｒ）ｔｍｐ＿ａｄｄｒ＝ｔｅｍｐ＿ａｄｄｒ＋ｌｉｎｅ＿ｓ
ｉｚｅ

【０１８３】ブロックスヌープは同様に機能するが、ア
ドレスおよびブロックサイズは外部バスＢから供給され
て、外部インタラプトがＢＩＵ１２によって生成されて
マイクロコントローラ４８への命令の流れをインタラプ
トする。これらの機構が図３７に示されている。図３７
を参照すると、ＢＩＵ中のレジスタ７０は外部スヌープ
のベースアドレスおよびブロックサイズをストアする。
“ブロックスヌープインタラプト要求”ラインが次に取
り上げられて、それは実行パイプライン５４にブロック
スヌープマイクロコードを開始させる。ブロックスヌー
プマイクロコードはスヌープのベースアドレスおよびブ
ロックサイズ情報をＢＩＵ１２から取り出して、次を実
行する。

【０１８４】ｔｍｐ＿ａｄｄｒ＝ｉｎｉｔｉａｌ＿ａｄ
ｄｒｅｓｓｗｈｉｌｅ（ｔｍｐ＿ａｄｄｒ＜ｉｎｉｔｉａｌ＿ａｄ
ｄｒｅｓｓ＋ｂｌｏｃｋ＿ｓｉｚｅ）｛Ｅｖｉｃｔ｜Ｗｒｉｔｅｂａｃｋ｝（ｔｍｐ＿ａｄｄ
ｒ）ｔｍｐ＿ａｄｄｒ＝ｔｅｍｐ＿ａｄｄｒ＋ｌｉｎｅ＿ｓ
ｉｚｅ

【０１８５】伝統的なアドレス発生技術のそれよりもよ
り優れた性能を許容する独特のアドレス発生をメモリ階
層５６において利用することができる。ｘ８６プロセッ
サでのアドレス発生の問題点は、２つの段階に分割され
る。基本的な流れは：実効アドレス―――＞線形アドレ
ス――＞物理アドレスである。物理アドレスはキャッシ
ュへ送られる最終アドレスである。

【０１８６】実効アドレスはメモリ場所の抽象的表現で
ある。実効アドレスはセグメントと、“ベース”レジス
タ、“インデックス”レジスタ、“スケール”レジス
タ、および“ディスプレイスメント”の組み合わせとで
定義される。実効アドレスの基本形はＳＥＧ：［ベース
＋インデックス＊スケール＋ディスプレイスメント］で
ある。ベース＋インデックス＊スケール＋ディスプレイ
スメントの値はセグメントへの“オフセット”として知
られている。ＳＥＧは“セグメント”として知られてお
り、各セグメントは付随する“セグメントベースアドレ
ス”を有し、それは線形アドレス空間でのセグメントの
出発点である。線形アドレスは“セグメントベース”＋
“オフセット”として計算される。図３８には効率的な
やり方で線形アドレスを発生する回路が示されている。

【０１８７】線形アドレスから物理アドレスへの変換は
一般にＴＬＢによって実行される。ｘ８６アーキテクチ
ャではアドレスは３２ビット幅であり、線形アドレスと
物理アドレスで下位１２ビットは常に同じである。従っ
て、線形アドレスの上位２０ビットだけを２０ビット物
理アドレスへ変換しなければならない。

【０１８８】上でＴＬＢの階層について述べたので、そ
れらを区別する必要がある。好ましくは、μｄＴＬＢ３
８はＬ０Ｄ１８用の物理アドレスを生成する。物理ア
ドレスを形成するために実際の線形アドレスを要求する
のではなく、図に示される回路は物理アドレスを生成
し、１ビットの“キャリー・イン”信号と、加算された
ときに線形アドレスを生成するはずの２つの数値を必要
とするだけである。例えば、もしａ＋ｂ＋ｃｉ＝ｌａ
で、ここでｌａが線形アドレスの上位２０ビットで、ａ
およびｂが２０ビット信号で、ｃｉが１ビット信号であ
れば、この回路はａ、ｂ、およびｃｉを見るだけで２０
ビットの物理アドレス変換を決定することができる。利
点は、ａおよびｂ信号が線形アドレスの上位２０ビット
よりもずっと早い段階で生成されることと、ｃｉが線形
アドレスの上位２０ビットの前少なくとも１ゲート遅延
で生成されることである。

【０１８９】ＮエントリでフルアソシアティブなμｄＴ
ＬＢ３８はＮ個の物理から線形へのアドレス変換を含
む。従って、それはＮ個の線形アドレス、そしてＮ個の
対応する物理アドレスを含むことになろう。もしＴＬＢ
がフルアソシアティブであれば、ＴＬＢにストアされる
物理アドレスに何も制約はない。別の人気のあるＴＬＢ
実施形態はダイレクトマップされたＴＬＢである。この
配置では、ＴＬＢ中に同時に存在できるアドレスにはい
くつかの制約があるが、アクセス時間は一般にフルアソ
シアティブ実施形態よりもずっと高速である。

【０１９０】キャリー・セーブ加算器は、３つの数値を
取って２つの数値を作り出す装置であり、それは一緒に
加算された場合に３つの入力数値の和を作り出す。この
ように、図のアドレス発生器からのＣＳＡの出力を用い
てμｄＴＬＢ３８へ信号を送ることができる。μｄＴＬ
Ｂ３８タグ比較回路の動作が図に示されている。この構
成はダイレクトマップされたｄＴＬＢ３８の速度性能
と、フルアソシアティブμｄＴＬＢ３８のアーキテクチ
ャ性能を提供している。図は“キャリー・セーブの連想
メモリ”をどのように構築するかを示している。これは
この概念の、よりハードウエア効率的な実施形態であ
る。

【０１９１】好適実施例についてこれまで詳細に説明し
てきた。本発明の範囲はここに述べたものと異なる実施
例で請求の範囲内に含まれるものを包含することを理解
されるべきである。例えば、上ではＭＥＳＩ的なキャッ
シュコヒーレンシプロトコルについて述べたが、その他
のキャッシュコヒーレンシプロトコルを使用することも
できる。上では本発明の完全な理解のために、特別な詳
細を用いたが、当業者であれば本発明がそれらの詳細な
しでも実施できることを理解されよう。更に、いくつか
の場合には、本発明を実施するために使用できるよく知
られた手順、方法、部品および回路について説明しなか
った。包含という用語は本発明の範囲について使用され
る場合には、非排他的と解釈されるべきである。本発明
の各種技術は、デジタル信号プロセッサを含むが、それ
に限定されるわけではない任意のタイプのプロセッサに
適用でき、またそれらによって利用される。

【０１９２】本発明は例示実施例に関連して説明してき
たが、この説明は限定的な意味のものではない。この説
明を参照すれば、本発明の他の実施例とともに例示実施
例に対する各種の修正および組み合わせが当業者には明
らかになろう。従って、特許請求の範囲はそのような修
正や実施例をカバーすることを意図している。

【図面の簡単な説明】

【図１Ａ】例示スーパースカラパイプライン方式のマイ
クロプロセッサ中に本発明のメモリ階層を採用した例示
データ処理システムを示す図。

【図１Ｂ】図１Ａのマイクロプロセッサ用の例示実行ユ
ニットを示す図。

【図２Ａ】図１Ａのマイクロプロセッサ用の本発明の多
重レベルメモリ階層を示す図。

【図２Ｂ】図２Ａの多重レベルメモリ階層の簡略化した
ブロック図。

【図３Ａ】クロックサイクルの関数としての、レベルゼ
ロデータ（Ｌ０Ｄ）キャッシュによる各種オペレーショ
ンの図表。

【図３Ｂ】クロックサイクルの関数としての、レベルゼ
ロデータ（Ｌ０Ｄ）キャッシュによる各種オペレーショ
ンの図表。

【図４】Ｌ０Ｄキャッシュデータメモリの論理レイアウ
ト図。

【図５】図４のメモリの物理レイアウト図。

【図６】４ウエイのアソシアティブキャッシュ用の擬似
ＬＲＵ状態トリー図。

【図７】図１ＡのマイクロプロセッサのＬ０Ｄキャッシ
ュで同一セットにアクセスする２つのパイプ（Ｐ０、Ｐ
１）間のヒット・オア・ミス相互関係図。

【図８】図７で使用されるような、ＭＲＵ−ｗａｙ、ｖ
ｈｉｔ、およびＬＲＵから次のＬＲＵおよびマージＬＲ
Ｕを計算するための回路図。

【図９】読み出しミスおよび書き込み割り当てのため
の、レベル２（Ｌ２）キャッシュライン状態遷移図。

【図１０】ヒット書き込み用のレベル２（Ｌ２）キャッ
シュライン遷移図。

【図１１】アンロックされた書き込み用のレベル１（Ｌ
１）データキャッシュライン状態遷移図。

【図１２】キャッシュ可能な読み出しミス用のＬ１デー
タキャッシュライン状態遷移図。

【図１３】キャッシュ可能な読み出しミス用のＬ０Ｄキ
ャッシュライン状態遷移図。

【図１４】アンロックされた書き込み用のＬ０Ｄキャッ
シュライン状態遷移図。

【図１５】好適なＬ２キャッシュタグ構造図。

【図１６】好適なＬ１データキャッシュタグ構造図。

【図１７】好適なＬ０データキャッシュタグ構造図。

【図１８】好適なＬ１命令キャッシュタグ構造図。

【図１９】好適なＴＬＢタグ構造図。

【図２０】好適なＢＴＢタグ構造図。

【図２１】読み出しの基づくキャッシュラインのための
初期および最終状態図。

【図２２】Ａ、Ｂ、およびＣは書き込みに基づく、１キ
ャッシュラインの初期および最終状態図。

【図２３】ＡおよびＢは、読み出しミスに関する、１キ
ャッシュおよびそれの上位キャッシュ中の１ラインの最
終状態図。

【図２４】書き込みミスに関する、１キャッシュおよび
それの上位キャッシュ中の１ラインの最終状態図。

【図２５】各種オペレーションのための多重レベルキャ
ッシュの第１実施例のラインの最終状態図。

【図２６】各種オペレーションのための多重レベルキャ
ッシュの異なる実施例のラインの最終状態図。

【図２７】ＡおよびＢはライトスルーに関する、Ｌ０Ｄ
キャッシュおよびＬ１／Ｌ２キャッシュの１ラインの初
期および最終状態図。

【図２８】選ばれた外部制御信号の関数としての、ライ
トスルーに関するＬ１／Ｌ２キャッシュの１ラインの初
期および最終状態図。

【図２９】初期の共有状態から出発するライトスルーオ
ペレーションのための、図２Ａのメモリ階層に関する状
態変化図。

【図３０】バス−位置不整ライトスルーに関する状態遷
移およびバストランザクションを示す図。

【図３１】Ｌ２キャッシュ中の２つのディレクトリビッ
ト用の例示エンコード方式を示す図。

【図３２】各種オペレーションの関数としてディレクト
リ状態を決定するためのステートマシン図。

【図３３】第４のディレクトリ状態が提供される時の、
各種オペレーションの関数としてのディレクトリ状態
図。

【図３４】内部スヌープコマンドのための符号化と、結
果のキャッシュオペレーションを示す図。

【図３５】Ｌ１Ｄキャッシュの各種オペレーションのた
めにＬ２キャッシュによって生成されるスヌープコマン
ドを示す図。

【図３６】キャッシュ演算コードの関数としての、キャ
ッシュ中の初期および最終ライン状態図。

【図３７】ブロックスヌープオペレーションを示す、図
１の一部分のブロック図。

【符号の説明】

２データ処理システム３通信ポート４グラフィックスディスプレイシステム５メインメモリシステム６入力装置８ディスクシステム１０マイクロプロセッサ１２バスインタフェースユニット（ＢＩＵ）１４レベル２キャッシュ１６レベル１データキャッシュ１８レベル０キャッシュ２０クロック発生および制御回路２２マイクロ命令変換検索バッファ２４制御回路２６フェッチユニット２８プレデコード０ステージ３０浮動小数点ユニット３２プレデコード１ステージ３４デコーダ３８変換検索バッファ３９レジスタファイル４０ロード・ストアユニット４２ＡＬＵ４４オペランドユニット４５マルチプレクサ４６マイクロコードＲＯＭ４８マイクロコントローラ５０変換検索バッファ５２分岐ターゲットバッファ５４多重実行ユニット５６メモリ階層６０ライトスルー書き込みバッファ６２ライトバック書き込みバッファ６４スヌープライトバック書き込みバッファ７０レジスタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ティモシイアンダーソンアメリカ合衆国，テキサス，ダラス，アンゴラストリート 9809

Claims

【特許請求の範囲】

【請求項１】階層構造の多重レベルキャッシュメモリ
サブシステムであって、データ用の第1の複数のキャッシュレベル、命令用の第２の複数のキャッシュレベル、および前記第
１および第２の複数のキャッシュレベルとその他のメモ
リとにつながれて動作する統合されたデータおよび命令
キャッシュレベル、を含むサブシステム。
【請求項２】請求項１に記載のサブシステムにおい
て、前記第１の複数のキャッシュレベルが２であるサブ
システム。
【請求項３】請求項１に記載のサブシステムにおい
て、前記第２の複数のキャッシュレベルが１であるサブ
システム。
【請求項４】請求項１に記載のサブシステムにおい
て、前記データキャッシュの下位レベルが、処理される
データ実行ユニットの数に等しいデータポート数に少な
くとも１つの付加的データポートを加えた数に等しい複
数のデータポートを有しているサブシステム。
【請求項５】請求項１に記載のサブシステムにおい
て、前記命令キャッシュの下位レベルが、処理される命
令でコーダの数に少なくとも１を加えた数に等しい複数
の部品を含んでいるサブシステム。
【請求項６】進歩した多重レベルキャッシュコヒーレ
ンシプロトコルであって、上位キャッシュ中へロードされて以来、少なくとも部分
的に修正されて、前記上位キャッシュ中で“修正済み”
とマークされた内容を有するキャッシュラインを、前記
ラインに含まれる情報に関して、前記上位キャッシュか
らすぐ下位のキャッシュへ書き込み、前記下位キャッシュ中で前記ラインを“修正済み”とし
て同定するようにマークし、前記下位キャッシュ中にある前記ラインの少なくとも一
部の内容を変更し、および前記下位キャッシュ中の前記
ラインを前記上位キャッシュに対して修正済みとしてマ
ークする、を含むプロトコル。