JPH04270431A

JPH04270431A - データ　処理装置のメモリ　システム

Info

Publication number: JPH04270431A
Application number: JP3085843A
Authority: JP
Inventors: Norman P Jouppi; ノーマン　ピー　ジョウピィ; Alan Eustace; アラン　ユーステース
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1990-03-27
Filing date: 1991-03-27
Publication date: 1992-09-25
Also published as: EP0449540A2; KR910017286A; EP0449540B1; DE69132201T2; EP0449540A3; DE69132201D1; KR930011345B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、データ処理におけるメモリ　　
ハイアラーキーの性能（パーフォーマンス）を向上する
システム及び方法に関する。とくに本発明はキャッシュ
（ＣＡＣＨＥ　）メモリのシステム　　パーフォーマン
ス（性能）を向上するシステム及び方法に関する。さら
に本発明は、キャッシュ　　メモリへのアクセスのミス
　　ペナルティ（性能低下）を大幅に減少させるシステ
ム及び方法に関する。

【０００２】

【従来の技術】キャッシュ（緩衝記憶）機能は、最近の
プロセッサの動作機能に極めて重要な効果をもっている
のでますます重要となってきている。表１は、キャッシ
ュ　　ミス時間と、マシンのパーフォーマンスのミスの
影響を示すものである。最近の１０年間に、主メモリの
アクセス時間よりもサイクル　　タイムが遙に急速に減
少している。インストラクション当りのマシン　　サイ
クルの平均数も顕著に減少しており、とくにコンプレッ
クス（総合）　　セット　　コンピュータ（ＣＩＳＣ）
　　マシンよりレジュースト（減少）　　インストラク
ション　　セット　　コンピュータ（ＲＩＳＣ）マシン
への転移（ｔｒａｎｓｉｔｉｏｎ）が含まれる場合、こ
れが著しい。これら２つの影響は相乗的であり、ミス動
作　　コストを極めて増大させる結果を招来する。例え
ば、ディジタル　　イクイップメント　　コーポレイシ
ョン　ＶＡＸ　１１／７８０　のキャッシュ　　ミスは
、平均インストラクション　　エクゼキューション（実
行）の６０％を要するのみである。従ってインストラク
ションがキャッシュ　　ミスを有していても、そのパー
フォーマンスは６０％のスロー　　ダウンを示すのみで
ある。しかしディジタル　　イクイップメント　　コー
ポレイション　　ＷＲＬ　の如き　ＲＩＳＣ　マシンが
ミスを有すると、そのコストはほぼ１０倍のインストラ
クション　　タイムとなる。とくにメモリ　　アクセス
　　タイムとマシン　　サイクル　　タイムの比が増加
すると、この傾向は継続する。将来、サイクル当りの２
つのインストラクションを遂行する超大形マシンで主メ
モリへ至るすべての通路のキャッシュ　　ミスは、１０
０　インストラクション　　タイム以上のコストを要す
ることとなる。良く知られているキャッシュ　　デザイ
ン技術を注意深く応用した場合でも、１００　インスト
ラクションタイム以上の主メモリ回転待時間（ｌａｔａ
ｎｃｙ　）を有するマシンでは、メモリハイアラーキー
の固有性能（パーフォーマンス）の半分以上を直に失い
易いこととなる。このことから最新のメモリ　　ハイー
ラーキーのハード　　ウエア及びソフト　　ウエアの双
方の研究が極めて重要となってきている。

【０００３】

【表１】

【０００４】

【発明の開示】本発明は、一般に第１キャッシュ　　メ
モリと第２メモリを有するメモリ　　システムに関する
。これらの第１キャッシュ　　メモリと第２メモリの間
にミス　　キャッシュを接続する。ミス　　キャッシュ
は、第１キャッシュ　　メモリよりも小さなメモリ容量
を有する。情報のアドレスを行うこれらの第１キャッシ
ュ　　メモリ、第２メモリ及びミス　　キャッシュにあ
る特定の手段を接続し、第１キャッシュメモリ内にアド
レス情報のミスが発生した際、情報をアドレスし、第１
キャッシュ　　メモリ及びミス　　キャッシュへの情報
の供給を行う。

【０００５】本発明によるメモリのアクセス方法は、第
１キャッシュ　　メモリをアドレスし、このアドレスに
応答する第１キャッシュ　　メモリ内にミスが発生する
か否かを確める。第１キャッシュ　　メモリ内にミスが
発生したときは、第２メモリより第１キャッシュ　　メ
モリへ、並びにミス　　キャッシュに情報が供給される
。

【０００６】本発明はさらに、第１キャッシュ　　メモ
リ、第２メモリ並びに付属のミス　　キャッシュで、第
１キャッシュ　　メモリよりも小容量を有し、第１キャ
ッシュ　　メモリと第２メモリ間に接続されているミス
　　キャッシュを有し、さらにこれらの第１キャッシュ
　　メモリ、第２メモリ及び付属のミス　　キャッシュ
に接続されており、第１キャッシュ　　メモリ内に情報
のアドレスのミスが生じたときは、第１キャッシュ　　
メモリ及び前記付属のミス　　キャッシュに情報を供給
する手段を具えたメモリ　　システムに関する。

【０００７】

【実施例】以下図面を参照して本発明を説明する。図１
は、メモリ　　システムの本発明に関係ある部分のみを
示す。同一のチップ２２上に、あるいは最新のパッケー
ジ技術によって製造された単一の高速モジュール上に、
ＣＰＵ　（中央処理ユニット）１２、フローティング　
　ポイント　　ユニット（ＦＰＵ　）１４、メモリ　　
マネージメント　　ユニット（ＭＭＵ　）１６（例えば
トランスレーション　　ルック・アサイド　　バッファ
あるいはＴＬＢ　）、及び第１レベル　　インストラク
ション及びデータ　　キャッシュ１８及び２０を設ける
。（以下本明細書においては、セントラル　　プロセッ
サ２４をシングル　　チップと称するが、これはチップ
またはモジュールを意味する。）このチップ２２のサイ
クル時間は、インストラクションの発出速度（レート）
よりも３〜８倍長い。（すなわち、３〜８インストラク
ションによって１つのオフ・チップ　　クロック　　サ
イクルとなる。）これは、サイクル当り多くのインスト
ラクションを発出すること（スーパー　　カレンダまた
は極めて長いインストラクション　　ロード　ＶＬＩＷ
　）により、極めて速いオン・チップ　　クロックを設
けるか（すなわち、通称スーパー　　パイプライニング
）、あるいは、システムの残部に対するよりもプロセッ
サ　　チップ２２に対し高速技術を用いる（例えば、　
ＧａＡｓ　対　ＢｉＣＭＯＳ　）ことによって達成でき
る。

【０００８】オン・チップ　　キュッシュ１８及び２０
の予期されるサイズ（寸法）は、プロセッサ２４の製造
技術によって異なるが、高速技術は一般に小サイズのオ
ン・チップキャッシュを要することとなる。例えば極め
て大きなオン・チップ　　キャッシュ１８及び２０がＣ
ＭＯＳに用いるに適しているが、ＧａＡｓまたはバイポ
ーラによるプロセッサには近接限界（ｎｅａｒ　ｔｅｒ
ｍ　）より小形のキャッシュ１８及び２０しか使用でき
ない。従ってＧａＡｓ及びバイポーラはより急速な動作
が可能であるが、これらの小形のキャッシュよりの高い
ミス　　レートによって、ＧａＡｓまたはバイポーラ　
　マシンと、稠密なＣＭＯＳ　　マシン間の実際のシス
テム　　パフォーマンス比は、これらのゲート速度の比
以下となる。これらすべての場合、第１レベル　　キャ
ッシュ１８及び２０は、直接マップされるものとした。これはもっとも早いアクセス時間を得られるからである
。オン・チップ　　キャッシュ１８及び２０のライン寸
法は、大体１６Ｂ　〜３２Ｂ　の範囲である。データ　
　キャッシュ２０は、ライト・スルーまたはライト・バ
ックの何れでも良い。本明細書ではこれらの長・短は論
じない。

【０００９】第２レベル　　キャッシュ２６は、５１２
ＫＢ　〜１６ＭＢの容量とし、超高速の静（スタティッ
ク）ＲＡＭ　より構成される。これは、第１レベル　　
キャッシュ１８，　２０と同じ理由で、直接マップされ
る。この大きさのキャッシュ２６のアクセス　　タイム
は１６〜３０ｎｓ程度である。これはこのキャッシュに
、４〜３０のインストラクションのアクセス　　タイム
を与える。このキャッシュ２６のアクセスタイムに比較
して、プロセッサ２４の相対速度は、第２レベル　　キ
ャッシュはパイプライン（制御）されるを要し、これに
よって充分な帯域幅を得るようにするを要する。例えば
第１レベル　　キャッシュ１８，　２０がライトスルー
　　キャッシュである場合を考える。各６または７イン
ストラクション毎に１つの平均速度でストア（蓄積）が
生ずるのが典型的であるため、パイプラインされていな
い外部キャッシュ２６は７インストラクション　　タイ
ムより大なるアクセス　　タイムに対してはトラフィッ
クの記憶を取扱うに充分な帯域幅を有していない。これ
迄何年もの間、キャッシュ　　メモリは主フレーム内で
、パイプライン制御されてきていた、しかしこれはワー
ク　　ステーションの最近の開発によるものである。最
近ＥＣＬ　Ｉ／０　及びレジスタまたは入力及び出力に
ラッチ２８を有するキャッシュ　　チップが開発されて
いる。これらはパイプラインされたキャッシュとして理
想的なものである。第２レベル　　キャッシュ内のパイ
プライン数は２〜３として良く、この数は、プロセッサ
　　チップ２２よりキャッシュ　　チップに至るパイプ
段２８、及びキャッシュ　　チップよりプロセッサ２４
に戻るパイプ段がフル（完全）または半（ハーフ）パイ
プ段であるかによって定まる。

【００１０】この速度（例えばＭＩＰ　当り数メガ　　
バイト）のプロセッサ２４に充分なメモリを与えるため
には、主メモリ３４は５１２ＭＢ　−４ＧＢ　の範囲で
あるを要する。これは約１０００個のドラムを含む１６
Ｍｂのドラム（ＤＲＡＭ）を使用することをも意味する
。主メモリ　　システム３４は第２レベル　　キャッシ
ュのアクセスに比し、大体約１０倍の長いアクセス　　
タイムを要する。かかる主メモリ３４へのアクセスタイ
ムは、多くのカードに分散している数千のドラム（ＤＲ
ＡＭ）中のアドレス及びデータ信号を抽出（ファン　　
アウト）ずるに要する時間がその主要部を占る。このた
めより高速なドラムが出現しても、主メモリへのアクセ
ス　　タイムは大体同じ程度に留まる。主メモリへのア
クセス　　タイムが大であることは、第２レベル　　キ
ャッシュのライン　　サイズを１２８　または２５６Ｂ
とするを要することとなる。例えば１６Ｂ　のみの場合
は、３２０ｎｓ　後に再回（リターン）することとなる
。これは５０ＭＢ／ｓｅｃのバスのバンド幅となる。こ
のバス　　バンド幅の１０ＭＩＰ　プロセッサは、１つ
のメモリ位置より他のメモリ位置へコピーをするとき、
バス　　バンド幅の制約を受けるので、１００　〜１０
００のＭＩＰ　プロセッサを使用してもその能力の追加
は僅かである。これはプロセッサのシステム性能（パー
フォーマンス）を考える上で極めて重要な点である。

【００１１】このベース　　ライン　　システム１０に
関しいくつかの観察を行うと次の如くである。第１にこ
のシステムのメモリ　　ハイアラーキーは、例えばＶＡ
Ｘ　１１／７８０のマシンと極めてよく類似しており、
ハイアラーキーの各レベルのみが１レベルＣＰＵ１２に
向って上に移動する。例えばＶＡＸ　１１／７８０の８
ＫＢ　のボードレベル　　キャッシュはオン・チップ移
動をする。早期のＶＡＸ　モデルの５１２ＫＢ　−１６
ＭＢ主メモリはボードレベル　　キャッシュ２６となっ
ていた。７８０　型の主メモリがはじめて入力トランス
ファー寸法が大となった（ここでは１２８−２５６Ｂ　
　対　ＶＡＸの５１２　ページ）。この方式（システム
）の主メモリ３４は、早期の７８０　型のディスク　　
サブシステムの寸法と同じで、ページング及びファイル
　　システム　　キャッシングの如き同じ機能を行う。

【００１２】システム１０のメモリ　　ハイアラーキー
　　パーフォーマンスの各段階にパラメータを付したも
のを図２に示した。このシステムに見積られた実際のパ
ラメータは次の如くである。インストラクション　　イ
ッシュウ　　レート　１，０００ＭＩＰ　、ファースト
　　レベル　　インストラクション　　４ＫＢ、４ＫＢ
データ　　キャッシュ　１６Ｂ　　ライン付、１ＭＢ　
第２レベル　　キャッシュ　１２８Ｂ　ライン付。ミス
　　ペナルティは、第１レベルに対し、２４インストラ
クション　　タイムであり、第２レベルに対し３２０　
インストラクション　　タイムである。テスト　　プロ
グラムの特性を表２に示す。これらのベンチマーク（水
準）は、現在使用されている多くのトレース（計画）に
比し、かなり長いものである。しかしこの作業にはマル
チプロセシングの効果はモデルされていない。

【００１３】図２に見られるように、殆どのベンチマー
クは、第１レベル　　キャッシュのミスで潜在性能（パ
ーフォーマンス）の半分以上を失っている。第２レベル
　　キャッシュ　　ミスによっては極く少いパーフォー
マンスが失われるのみでる。これは主として、実行プロ
グラム　　サイズに比較して第２レベル　　キャッシュ
のサイズが大であることによるものでる。大量のプログ
ラムによるより長いトレースは、極めて重要な第２レベ
ル　　キャッシュのミスを生ずる。本説明に用いる試験
例は、第２レベル　　キャッシュ機能の有意性に比し極
めて少いので、第２レベル　　キャッシュ　　ミスの詳
細は検査しない。

【表２】

【００１４】想定されるパラメータは所定範囲の極端の
もの（最大パーフォーマンス　　プロセッサに最小サイ
ズのキャッシュ）であるため、他の形態はメモリ　　ハ
イアラーキーのパーフォーマンスにおける対応のロスは
、これより少いものとなる。それにも拘らず、興味ある
範囲内での任意の形態は、メモリ　　ハイアラーキーの
潜在パーフォーマンスのかなりの比率部分を失う。これ
はシステムのパーフォーマンスの中の最大の部分は、メ
モリ　　ハイアラーキー　　パーフォーマンスの改良に
よって得られ、これはＣＰＵ　のパーフォーマンスをよ
り増加しようとする試みによって得られるものではない
ことを意味する。（後者は例えば、インストラクション
の並列発生をより増加させることにより。）以下本明細
書で述べる主課題は、低価格で、ベースライン　　メモ
リ　　ハイアラーキーのパーフォーマンスを改良向上さ
せることでる。最後に付け加えると、ＣＰＵ　コア（Ｃ
ＰＵ１２，　ＥＰＵ１４，　ＭＭＵ１６，　　第１レベ
ル　　キャッシュ１８及び２０を含む）のパーフォーマ
ンスのコンプロマイズ（妥協）を避けるため、研究すべ
き本技術に必要なすべての付加的ハードウエアはＣＰＵ
　コアの外側（すなわち、第１レベル　　キャッシュ１
８及び２０の下側）でなければならない。かくすること
により、これらの付加的ハードウエアはキャッシュ　　
ミスの際にのみ関与することとなり、通常のインストラ
クションの実行に絶対に（クリティカルに）必要な通路
内には存しなくなる。

【００１５】キャッシュのミスは４つのカテゴリーに分
類することができ、これらは次の如くである。コンフリクト（抵触）、……ｃｏｎｆｌｉｃｔコンパル
ソリ（強制）、……ｃｏｍｐｕｌｓｏｒｙキャパシティ
（容量）、……ｃａｐａｃｉｔｙコヒーレンス（凝集）
、……ｃｏｈｅｒｅｎｃｅコンフリクト　　ミスとは、
キャッシュが完全に付属的（アソシアティブ）であり、
少くとも最長時間未使用ＬＲＵ　（リースト　　リセン
トリィ　　ユースト）の入換え（リプレースメント）を
有しているときには起らないミスである。コンパルソリ
　　ミスとは、キャッシュが第１にデータの一部の最初
のものであるため、すべてのキャッシュ構成（オーガニ
ゼーション）に必然的なミスである。キャパシティ　　ミスとは、キャッシュのサイズが参照
間のデータを保持するに充分でないときに生ずる。コー
レンス　　ミスとは、マルチプロセッサ　　キャッシュ
　　コンシステンシィ（確実性）の保存を無効にすると
き以外には生じないミスである。

【００１６】直接マップされたキャッシュは、これらが
付属性（ａｓｓｏｃｉａｔｉｖｉｔｙ　）に欠けている
ためより多くのコンフリクト　　ミスを有するが、これ
らに対するアクセスタイム　　コストを考慮するとき、
これらのパーフォーマンスはセット・アソシアティブ　
　キャッシュよりも良い。実際上、究極的通路が時間を
要するＲＡＭ　のアクセスである場合に、この直接マッ
プ　　キャッシュのみが唯一のキャッシュ形態となる。コンフリクト　　ミスは、すべての直接マップ　　キャ
ッシュ　　ミスの２０％〜４０％の間にあることが一般
である。図３は、試験モデルに対するコンフリクトによ
りミスのパーセントを示すものである。第１レベル　　データ　　キャッシュ　　ミスの平均で
３０％は、コンフリクトによるものであり、また第１レ
ベル　　インストラクション　　キャッシュ　　ミスの
２０％はコンフリクトによるものである。これらはかな
り大きな比率であるため、直接マップ　　キャッシュ　
　メモリに限界的なアクセス通路を付加することなく、
或る程度の付加的付属性（ａｓｓｏｃｉａｔｉｖｉｔｙ
　）を与えることにより“我々の成果（ケーキ）を亨受
し、さらにその恩恵にあずかる（食べる）”ことが好適
である。

【００１７】図４のミス　　キャッシュ　　システム４
０に示す如く、チップ上の第１レベル　　キャッシュ２
０と第２レベル　　キャッシュへのアクセス　　ポート
の間に小形のミスキャシュ４２を配置することによって
直接マップ　キャッシュ２０の対応性を付加することが
できる。ミス　　キャッシュ４２は、データの２〜８程
度のキャッシュ線４４を有する小形の完全・アソシェテ
ィブ　　キャッシュである。ミスが発生すると、データは直接マップ　　キャッシュ
に戻されるのみでなく、ミス　　キャッシュ４２にも戻
され、ここにおいて、ＬＲＵ　（最長時間未使用）アイ
テムを入換える。上位キャッシュ２０が検算（ｐｒｏｖ
ｅ　）される毎に、ミス　　キャッシュ４２も検算され
る。上位キャッシュ２０内にミスが生じ、アドレスがミ
ス　　キャッシュ４２に一致しているときは、直接マッ
プ　　キャッシュ２０は次のサイクルでミス　　キャッ
シュ４２より再ロードされる。かくすると、長期のオフ
・チップ　　ペナルティが、短期のオンサイクル　　オ
ン・チップ　　ミスで置換えられる。この配置は、クリ
ティカルな通路が悪化されないという要求を満足する。その理由は、ミス　　キャッシュ自体はプロセッサの実
行の通常のクリティカル通路に存しないからである。

【００１８】コンフリクト　　ミスの除去において、種
々のミス　　キャッシュ構成の成功率を図５に示す。第
１に着目すべきことは、ミス　　キャッシュ４２によっ
て、インストラクション　　コンフリクト　　ミスより
も、より多くのデータ　　コンフリクト　　ミスが除か
れることである。これは次の如くして説明できる。ほとんどすべての場合
にあてはまるように、キャッシュ　　サイズよりもプロ
セジュア（手続）のサイズが小である限り、１つのプロ
セジュア内の各インストラクションは互にコンフリクト
を生じないように、インストラクション　　コンフリク
トは広く拡がる傾向がある。従ってインストラクション
　　コンフリクト　　ミスは他のプロセジュアが呼出さ
れるときに起り易い。ターゲット　　プロセジュアは、
呼出し（ｃａｌｌｉｎｇ　）プロセジュアに関し、すべ
ての個所にマップされるので、極めて多くのオーバーラ
ップを来す。各プロセジュアにおいて、６０の異なるイ
ンストラクションが実行されるとすると、試験される最
大寸法のミス　　キャッシュ４２内で、コンフリクトミ
スは１５ライン以上に分離される。換言すると、小さな
ミス　　キャッシュ４２は、全オーバー　　ラップを収
容しきれず、これを使用しうるようにする前に反復して
再ロード（ｒｅｌｏａｄ）する必要がある。この型式の
参照パターンは最悪のミスキャッシュ　　パーフォーマ
ンスを示す。

【００１９】一方、データ　　コンフリクトは極めて接
近した間隔で生じうる。２つのキャラクタ　　ストリン
グを比較する場合を考える。２つのストリングの比較点
が同じラインにマップするとすると、互に相異なるスト
リングへの交互の参照（リファレンス）は常にキャッシ
ュ内で失われる。この場合２つのエントリーのみのミス
キャッシュ４２によりこれらのコンフリクト　　ミスの
すべてが除かれる。これは他方のパーフォーマンスの極
端な場合であることは明らかであり、図５の結果は関連
のプログラムに基づくパーフォーマンスの範囲を示して
いる。それにも拘わらず４ＫＢ　データ　　キャッシュ
に対して、２つのエントリー４４のみのミス　　キャッ
シュ４２によって、データ　　キャッシュ　　コンフリ
クト　　ミスの平均２５％、または全データ　　キャッ
シュ　　ミス（図６）の１３％が除かれる。ミスキャッ
シュ４２を４つのエントリー４４に増加させると、３８
％のコンフリクト　　ミスが除去しうるか、全体で３６
％のデータ　　キャッシュ　　ミスが除かれる。４エン
トリー４４のミス　　キャッシュエントリーによる改良
は僅かであり、１５エントリーの４４を設けたときも、
データ　　キャッシュの全体の減少は、２５％増加した
のみであった。

【００２０】データ　　キャッシュ２０のサイズを倍増
させることによってミスが３２％減少するので、（デー
タ　　キャッシュ　　サイズを４Ｋより８Ｋに増加させ
ると、この指標値以上となる）、第１レベル　　キャッ
シュ２０内の各追加ラインは、約０．１３％だけミスの
数を減少させる。ミス　　キャッシュ４２は、記憶ビッ
ト当りにして、データ　　キャッシュ２０よりもより多
くの面積を必要とするが、２ライン　　ミス　　キャッ
シュ４２内の各ラインは、ミス率において５０倍の大き
さのマージンの改良を行うので、レイアウトのサイズの
差を補って余りがある。

【００２１】図５と図３とを対比すると、コンフリクト
によるミスのパーセントが高い程、ミス　　キャッシュ
４２がより有効にこれらのミスを消去することが判る。例えば、図３では、“ｍｅｔ　”は、全体のデータ　　
キャッシュ２０のミスに対し最高のコンフリクト　　ミ
スを示している。同様に“ｇｒｒ　”及び“ｙａｃｃ”
は、コンフリクト　　ミスの平均パーセントよりも大き
な比率を示している。ミス　　キャッシュ４２はこれら
のプログラムに対しても極めて大きな貢献をする。“ｌ
ｉｎｐａｃｋ　”と“ｃｃｏｍ”はコンフリクト　　ミ
スの最小パーセント値を示し、ミス　　キャッシュ４２
はすべてのプログラムのこれらのミスのごく数パーセン
トを取除く。これはプログラム　　データ　　コンフリ
クト　　ミスに大きな比率を有しているときは、全体の
密度の理由で、これらを或る程度粉砕（ｃｌｕｓｔｅｒ
　）すべきことを示している。これはプログラムが、少
数のコンフリクト　　ミス、例えばミス　　キャッシュ
より、給付（ｂｅｎｅｆｉｔ　）される“ｌｉｖｅｒ　
”の如きミスを含むことを妨げない。しかしコンフリク
トミスのパーセントが増加するにつれ、ミス　　キャッ
シュによるこれらのミスの除去率も増加する。

【００２２】直接マップ　　キャッシュとミス　　キャ
ッシュを有するシステムについて考える。ミスが生ずる
と、データは、ミス　　キャッシュと直接マップ　　キ
ャッシュの双方にロードされる。ある意味では、このデ
ータの二重操作は、ミス　　キャッシュ内の記憶蓄積ス
ペースを浪費する。ミス　　キャッシュ内の二重化され
るアイテム数は、１（ミス　　キャッシュ　　マップ内
のすべてのアイテムが直接マップ　　キャッシュ内のラ
インと同じになっている場合）より、エントリーの全数
（ミス　　キャッシュをヒットしない一連のミスが生ず
る場合）の範囲に亘る。

【００２３】ミス　　キャッシュ４２をより良好に使用
するため、図７のキャッシュ　　システム５０内に示す
小形の完全付属（アソシエティブ）ミス　　キャッシュ
５２に対する別の置換アルゴリズムを使用すごとができ
る。ミスにより要求されるデータをミスキャッシュ４２
内にロードする代りに、５４に示す如く、直接マップ　
　キッシュ２０よりビクティム　　ラインによって完全
付属ミス　　キャッシュ５２にロードすることができる
。これを“ビィクティム　　キャッシング（犠牲キャッ
シング）”と称する。ビィクティム　　キャッシングに
は、データ　　キャッシュ２０にも、ビィクティムキャ
ッシュ５２にも何れにもデータ　　ラインは現れない。これは、ビィクティムキャッシュ５２は、直接マップ　
　キャッシュ２０より放出されるアイテムのみがロード
されるからである。ビィクティム　　キャッシュ５２を
ヒットするような直接マップ　　キャッシュ２０内のミ
スの場合には、直接マップ　　キャッシュ　　ラインと
マッチするビィクティム　　キャッシュ　　ライン５６
の内容をスワップ（交換）する。

【００２４】参照ストリームによって、ビィクティム　
　キャッシュはミス　　キャッシュに小さなあるいは極
めて重大な改良の何れかを行うことができる。この利点
はミスキャッシュ内の二重化に対応して定まる。ビィク
ティム　　キャッシュは常にミスキャッシュの改良を行
う。

【００２５】１例として、コール　　サイトとコンフリ
クトを生ずる内側ループ内の小手続き（プロセジュア）
を呼出すインストラクション参照ストリームを考える。このプログラムのエクゼキーション（実行）は、ミス　
　キャッシュ４２内の位置数よりも大きなコンフリクト
　　ループに沿ったパス長を有することもある。この場
合、ミス　　キャッシュは価値を生じないこともある。その理由は、キャッシュ内に常時二重化アイテムがフラ
ッシュされるからである。しかし、これに代えてビィク
ティム　　キャッシュを使用すると、捕捉しうるパス長
はほぼ２倍となる。これは１組のコンフリクト　　イン
ストラクションが直接マップ　　キャッシュ２０内で生
きており、また他の１組がビィクティム　　キャッシュ
５２内で生きているからである。このループに沿ってエ
クゼキュションが進行するにつれて、これらのアイテム
のトレードが行われる。

【００２６】ビクティム　　キャッシングによって除か
れるコンフリクト　　ミスのパーセントを図８に示した
。１つのライン５６で構成されているビクティムキャッ
シュ５２は、必ず２つのライン４４で構成するを要する
ミス　　キャッシュ４２と逆に有用でさえある。ミス　
　キャッシュと比較してすべてのベンチマークは改善さ
れている。しかしベンチマークのインストラクション　
キャッシュ１８のパーフォーマンス及びデータ　　キャ
ッシュ２０のパーフォーマンスは長い連続参照ストリー
ム（例えば、“ｃｃｏｍ”及び“リンパック”）がもっ
とも改良されている。

【００２７】図９は、ビィクティム　　キャッシュによ
って得られたと思われるミスの全体の減少率を示す。図
６と図９との比較より判るように、ビィクティム　　キ
ャッシュ５２のパーフォーマンスは、２倍のエントリー
数を有しているミス　　キャッシュ４２よりも場合によ
って良好である。例えば“ｙａｃｃ”のデータ　　キャ
ッシュ２０のパーフォーマンスを、１・エントリービィ
クティム　　キャッシュ５２及び２・エントリー　　ミ
ス　　キャッシュ４２で考えて見る。ビィクティム　　
キャッシュ５２はビィクティムを放棄しないので、状況
によってビィクティム　　キャッシュはエントリー数が
２倍のミス　　キャッシュよりもミスの数が少くなる。例えば、新規なデータの評価に多くのキャッシュ　　ミ
スが生ずる（例えば、強制（ｃｏｍｐｕｌｓｏｒｙ）ミ
ス）ことを考えると、ミス　　キャッシュ４２とビィク
ティム　　キャッシュ５２の双方をフラッシュ　　アウ
トすることが有効である。次で他の新しいラインが参照
される場合を考えると、ミス　　キャッシュ４２を有す
るシステム４０と、ビィクティム　　キャッシュ５２を
有するシステム５０との双方にミスが生じている。ライ
ンの古い内容が次に参照されると、ミス　　キャッシュ
４２はこのアイテムを保有していないが、ビィクティム
　　キャッシュ５２はこれを保有している。従ってミス
　　キャッシュ４２を有するシステム４０は、メモリ　
　ハイアラーキーの次位のレベルで２つのミスを有する
が、ビィクティム　　キャッシュ５２を有するシステム
５０は１つのみのミスを有することとなる。

【００２８】図１０は、種々のサイズの直接マップ　　
データ　　キャッシュ２０をバックアップするときの、
１，２，４，１５エントリーのビィクティム　　キャッ
シュのパーフォーマンスを示す。一般に小さい方の数の
直接マップ　　キャッシュ２０が、ビィクティム　　キ
ャッシュ５２の付加によって、より多くの利益を得る。参考のため、各キャッシュ　　サイズに対するコンフリ
クト　　ミスの全パーセントを示してある。ビィクティ
ム　　キャッシュ５２のパーフォーマンス対直接マップ
　　キャッシュ２０のパーフォーマンスには２つのファ
クターが存する。その第１は、直接マップ　　キャッシ
ュ２０のサイズが大となるにつれ、ビィクティム　　キ
ャッシュ５２の相関的サイズは小となることである。直
接マップ　　キャッシュ２０が大となり、ライン　　サ
イズを小（１６Ｂ　）としている為、ビィクティム　　
キャッシュにより容易に除きうる稠密なマッピングのコ
ンフリクトの可能性が減少する。第２には１ＫＢより３
２ＫＢへ向ってコンフリクト　　ミスは僅か減少する。既述の如く、コンフリクトミスのパーセントが減少する
につれ、ビィクティム　　キャッシュ５２によって除か
れるミスのパーセントも減少する。しかし極めて大きな
キャッシュに対しては、コンフリクト　　ミスのパーセ
ントが増加するため、第１の効果がより大きな影響を及
ぼし、ビィクティム　　キャッシュ５２のパーフォーマ
ンスは僅かしか増加しない。

【００２９】図１１は、種々のライン　　サイズの４Ｋ
Ｂ直接マップ　　データ　　キャッシュ２０に対するビ
ィクティム　　キャッシュ５２のパーフォーマンスを示
す。予期したように、このレベルでライン　　サイズが
増加するにつれて、コンフリクト　　ミスの数も増加す
る。コンフリクト　　ミスのパーセントが増加すると、
ビィクティム　　キャッシュ５２によって除去されるか
かるミスのパーセントも増加する。ビィクティムキャッ
シュ５２を有するシステム５０は、長いライン　　サイ
ズにおいて、ビィクティム　　キャッシュを設けないも
のよりも利益を得る。その理由は、ビィクティムキャッ
シュ５２は、長いキャッシュ　　ラインより由来したコ
ンフリクトによるミスを除く助けをするからである。ビ
ィクティム　　キャッシュ５２内にデータ記憶のために
用いられる面積が一定に保持されるとしても（例えば、
ライン　　サイズが倍となると、エントリー数は半分に
カットされる）、ライン　　サイズが増加したとき、ビ
ィクティム　　キャッシュ５２のパーフォーマンスはよ
り改良されるか、少くとも同じ状態を保つ。

【００３０】キャッシュのサイズが増加すると、ミスの
大きなパーセントは、コンフリクト及びコンパルソリー
　　ミスとなり、キャパシティ　　ミスの比率は減少す
る。（キャッシュが全プログラムよりも大きい場合は、コン
パルソリー　　ミスのみが残るので、当然これを除く。）従ってビィクティム　　キャッシュ５２は、第２レベ
ルキャッシュ２６にも有効であると期待される。ライン
　　サイズの増加とともに、コンフリクト　　ミスの数
が増加するため、第２レベルキャッシュ２６のライン　
　サイズが大となると、ビィクティム　　キャッシュ５
２の潜在的有用性が増加する傾向にある。第１レベル　
　キャッシュ２０の場合と同様に、第２レベル　　キャ
ッシュ２６内でコンフリクト　　ミスのパーセントが大
となるにつれて、ビィクティム　　キャッシュ５２によ
って除かれるコンフリクト　　ミスのパーセントが大と
なる。

【００３１】ビィクティム　　キャッシュの興味ある一
面は、キャッシュのハイアラーキーにおけるインクルー
ジョン　　プロパーティ（算入特性）を冒涜（ｖｉｏｌ
ａｔｅ　）することである。これは、マルチプロセッサ
のキャッシュのコンシステンシィ（一貫性）のアルゴリ
ズムに悪影響を及ぼすだけでなく、キャッシュ　　シミ
ュレーションに用いられるアルゴリズムにも影響を及ぼ
す。例えば、所定のＣＰＵ　基準ストリーム上の第２レ
ベル　　キャッシュ２６に対するミスの数は、その頂上
（トップ）にある第１レベル　　キャッシュ２６のサイ
ズ（但し、ライン　　サイズではない）に無関係である
。しかしながらビィクティム　　キャッシュ５２は、第
１レベルのみでなく、第２レベルにおいてもコンフリク
トする多くのラインを含有することができる。このため
、第１レベル　　ビィクティム　　キャッシュ５２の使
用は、第２レベルにおけるコンフリクト　　ミスの数も
減少させることができる。第２レベル　　キャッシュ２
６に対するビィクティム　　キャッシュ５２の研究に当
り、第１レベル　　ビィクティム　　キャッシュ５２を
設ける場合と、設けない場合との両方の形態を考える必
要がある。

【００３２】メガ　　バイトの第２レベル　　キャッシ
ュ２６に対するビィクティム　　キャッシュ５２の念入
りな調査には、数百万のインストラクションのトレース
が必要となる。現在我々はより小さいテスト　　ケース
に対するビィクティム　　キャッシュのパフォーマンス
のみを有しており、多メガ　　バイトの第２レベル　　
キャッシュ２６に対するビィクティム　　キャッシュの
パフォーマンスを得ることについては目下取進め中であ
る。

【００３３】とくに第１レベルのオン・チップにおける
ミス　　キャッシュ４２のその他の重要な使途は、イー
ルド（歩留り）の向上である。すべてのインストラクシ
ョン及びデータ　　キャッシュ１８及び２０のバイトに
パリティが維持されており、データ　　キャッシュ２０
がライト・スルーである場合、キャッシュ　　パリティ
　　エラーはミスとして取扱うことができる。レフィル
　　パスがキャッシュをバイパスするときは、このスキ
ムは、ハードのエラーを有するチップを使用することを
許容する。（実際上、バイトのパリティに対しては、１
バイト当り、最大で１つの悪いビットがあるとすると、
キャッシュ内のすべてのビットの１／９　迄が誤ってい
ることもありうる。）残念乍ら、ミス　　キャッシュ４
２が存せず、ｌｉｎｐａｃｋ　（例えば、ｓａｘｐｙ）
の内側ループが欠陥のあるライン上にランドするか、構
造変数に用いる周波数が欠陥ライン上のものである場合
は、システムのパフォーマンスは大幅に低下（ｄｅｇｒ
ａｄｅ　）する、（例えば、あるコード　　セグメント
で係数４より大にデグレードする）。さらに、欠陥の位
置によって、ランダムの様相でパフォーマンスのデグレ
ードがチップ毎に変化する。これは、プロジェクトのエ
ンジニアリングの開発における潜在性イールドの強化を
制限する。しかしミス　　キャッシュ４２を付加するこ
とによって、欠陥を引起すパリティ　　ミスのペナルテ
ィは１サイクルのみとなり、これはオフ・チップ　　ミ
スよりもマシンのパフォーマンスに与えるインパクトは
遙に小となる。従って欠陥の数が小であり、ミス　　キ
ャッシュ４２で充分取扱えるものであれば、ハードの欠
陥のあるチップを生産系で使用することができる。もし
、ミス　　キャッシュ４２を、生産上の欠陥のあるシス
テムのパフォーマンスの改良に使用すべきときは、イン
ストラクション　　ミス　　キャッシュあるいは単に１
つのエントリーのみを有するミス　　キャッシュも有用
である。

【００３４】前に述べたビィクティム　　キャッシュ５
２はパリティ　　エラーに起因するミスの修正には有用
ではない。これはビィクティムがパリティ　　エラーで
コラプス（退化）しており、セーブに価しないからであ
。しかしビィクティム　　キャッシュ５２は次の如くの
変化を加えることによってエラー修正にも使用すること
ができる。キャッシュ　　ミスがパリティ　　エラーに
よって生ずる場合には、ビィクティムキャッシュ５２に
入力（ミス）データをロードし、ビィクティムをロード
しない。かくすると、通常のミスに対するビィクティム
　　キャッシュ５２のように動作し、ミス　　キャッシ
ュ４２はパリティ　　ミスに対し動作する。このような
僅かな変形によって、ミス　　キャッシュ４２がエラー
のレカバリーに用いられ、ビィクティムキャッシュのよ
り良好なパフォーマンスを組合せることができる。

【００３５】コンパルソリー（強制）ミスは、如何なる
キャッシュ構成でも、一部のデータに最初に参照される
ために必要とされるミスである。キャパシティ　　ミス
は、キャッシュの大きさが、参照の間にデータを充分保
持するものでないときに生ずるミスである。キャパシテ
ィ　　ミス及びコンパルソリー　　ミスを減少させる１
つの方法は、長いキャッシュ　　ライン　　サイズまた
はプレフェッチ方法の如きプレフェッチ技術を用いるこ
とである。しかしながら、ミスのレートを増加させるこ
となしに、また転送すべきデータの量を遙に増加させる
ことなしにライン　　サイズを任意に大とすることはで
きない。本章では、長いライン及び過剰のプレフェッチに関する
従来の問題を減少させ乍ら、キャパシティ　　ミス及び
コンパルソリーミスを減ずる技術を研究することとする
。

【００３６】ライン　　サイズが長くなると、各種の異
なるプログラム及びアクセス　　パターンに対し固定し
た転送（トランスファー）サイズを設ける点で不利益を
生ずる。プレフェッチ技術は、プログラムの実際のアク
セス　　パターンにより良く適合しているので興味があ
る。このことは、インストラクション　　ストリームま
たは、ユニット　　ストライド　　アレイ　　アクセス
の如き、長い準連続（ｑｕａｓｉ−ｓｅｑｕｅｎｔｉａ
ｌ）アクセス　　パターンのパフォーマンスの改良にと
くに重要である。

【００３７】３つのプレフェッチ　　アルゴリズムの詳
細な解析が、スミス　　アラン　　ジュニア（Ｓｍｉｔ
ｈ　Ａｌａｎ．　Ｊ．）により“Ｃａｃｈｅ　Ｍｅｍｏ
ｒｉｅ　”として、Ｃｏｍｐｕｔｉｎｇ　Ｓｅｒｖｅｙ
ｓ　１９８２，　９，　ｐｐ４７３−５３０　に発表さ
れている。プレフェッチでは、各参照後常にプレフェッ
チを行う。これは我々のベース　　システム１０では実
際的でない。その理由は、単一のレベル・２キャッシュ
　　レファレンス（参照）を必要とする時間内に数多く
のレベル・１　　キャッシュ　　アクセスが行われるか
らである。これはインストラクション　　キャッシュ１
８より、１サイクル当り複数のインストラクションをフ
ェッチし、同時に１サイクル当りデータ　　キャッシュ
２０にロードまたは蓄積を行うマシンにおいて特に事実
である。プレフェッチ・オン　　ミス（ミスの際のプレ
フェッチ）及びタグド・プレフェッチ（タグ付プレフェ
ッチ）はより有望な技術である。プレフェッチ・オン　
　ミスにおいては、ミスが生ずると、次のラインもプレ
フェッチする。この技術では、純粋シーケンシャル　　
レファレンス　　ストリームに対するミスの数を半分に
カットする。タグド・プレフェッチは、さらにこれより
良好である。この技術においては、各ブロックは付随す
るタグ　　ビットを有する。あるブロックがプレフェッ
チされると、そのタグ　　ビットは“０”（ゼロ）にセ
ットされる。このブロックが使用される毎にタグ　　ビ
ットは１にセットされる。このブロックが０より１に転
移する毎にその後続のブロックがプレフェッチされる。フェッチが充分急速に行われると、これにより純粋シー
ケンシャル　　リファレンス　　ストリーム内のミスの
数は０に減少する。残念乍ら、ベースシステム１０では
、レーテンシィ（潜在性）が極めて大であるためこれは
不可能である。図１２は、Ｃ　　コンパイラー　　ベン
チマークの遂行中に必要とするプレフェッチ　　ライン
に至る迄の時間（インストラクション　　発出迄の時間
）を示すものである。当然のことながら、ライン　　サ
イズは４インストラクション分であるため、マシンをキ
ャッシュされないストレート・ライン　　コードで維持
するためには、プレフェッチ　　ラインは、４インスト
ラクション時間内に受信されなければならない。ベース
　　システムでは、第２・レベル　　キャッシュ２６は
、アクセスに多くのサイクルを要し、かつマシンは各サ
イクル当り実際に数多くのインストラクションを発出す
るため、タグド　　プレフェッチのみが、所要のインス
トラクションを設けるのに、ワン・サイクル・アウト・
オブ　　メニー　　ヘッド　　スタートを有する。

【００３８】本発明で必要なことは、タグ転移の生ずる
前にプレフェッチをスタートさせることである。図１３
に示したシステム６０におけるストリーム　　バッファ
６２と称されるメカニズム（機構）によりこれを行うこ
とができる。ストリーム　　バッファ６２は、それぞれ
タグ６６より成る一連のエントリー６４、利用可能ビッ
ト６８及びデータライン７０より成る。

【００３９】ミスが発生すると、ストリーム　　バッフ
ァ６２は、ミス　　ターゲットより出発して、順次のラ
インのプレフェッチを開始する。各プレフェッチリクエ
ストが送出されると、このアドレスに対するタグ６６が
ストリーム　　バッファ６２に入力され、ここで利用で
きるビット６８は誤り（ｆａｌｓｅ　）としてセットさ
れる。プレフェッチ　　データ７０が戻ってくると、そ
のタグ６６と共にエントリー６４内に収納され、ここで
得られるビット６８は真値（ｔｒｕｅ）とされる。ミス
によってリクエストされる順次のラインは、キャッシュ
２０でなくバッファ６２に収納される。かくすることによって、必要でないデータによってキャ
ッシュ２０が汚染されることが防止される。

【００４０】次々のキャッシュへのアクセスにおいても
、これらのアドレスをストリームバッファ６２に記憶さ
れている第１アイテムと比較する。この参照において、
キャッシュ２０ではミスし、ストリーム　　バッファ６
２ではヒットしたとすると、キャシュ２０はストリーム
　　バッファ６２より単一サイクルで再ロードすること
が可能である。これはオフ・チップ　　ミス　　ペナル
ティよりも遙に急速である。ここにおけるストリーム　
　バッファ６２は簡単なＦＩＦＯ　　キュー（待合せ）
と考えられ、キューの初頭のもののみが、タグ比較器７
２を有しており、ストリーム　　バッファ６２より移動
されたエレメントは、如何なるラインをもスキップする
ことなしに順次厳密に移動させることを要する。この簡
単なモデルでは、非順番（ｎｏｎ−ｓｅｑｕｅｎｔｉａ
ｌ）ライン　　ミスは、キューの次の下位に要求される
ラインが既に出現していても、ストリーム　　バッファ
６２をフラッシュさせ、ミス　　アドレスより再スター
トさせる。以下に、既にフェッチしたラインを順番（シ
ーケンス）外としうるより複雑なストリーム　　バッフ
ァについて述べる。

【００４１】ライン６４がストリーム　　バッファ６２
よりキャッシュ２０に移されると、ストリーム　　バッ
ファ６２内のエントリーは１つだけシフトし、新規な後
続のアドレスがフェッチされる。次の後位アドレスはイ
ンクレメンタ７４によって発生される。第２レベル　　
キャッシュ２６へのパイプ　　ライン　　インタフェイ
スによって、ストリーム　　バッファ６２は第２レベル
　　キャッシュ２６の最大帯域幅に充填され、プロセス
にあたり、多くのキャッシュ　　ラインを同時にフェッ
チすることができる。例えば、インストラクション　　
キャッシュ１８のミスの１６Ｂ　ラインの再充足のレー
テンシィ（回転待ち時間…ｌａｔａｎｃｙ　）が１２サ
イクルと見なす。パイプ　　ラインされたメモリ　　イ
ンタフェイスで、各４サイクル毎に新しいライン　　リ
クエストを受入れられるものを考える。４・エントリー
　　ストリーム　　バッファ６２は、常時３つのリクエ
ストが待機している状態で、サイクル当り１つの速度で
４Ｂのインストラクションを与えることができる。従っ
て順次のインストラクション実行中、長いレーテンシィ
　　キャッシュ　　ミスは生じない。これは、同時には
１ラインのみしかプレフェッチされない純粋順次参照ス
トリームにおけるタグ付プレフェッチのパフォーマンス
と違っている。ここでは順次のインストラクションは、
各３サイクルに１つのインストラクションに等しい帯域
幅（すなわち、１２サイクル　　レーテンシィ／４イン
ストラクション　　各ライン当り）でのみ供給される。

【００４２】図１４は、それぞれ１６バイトのラインを
有し、４ＫＢインストラクション　　キャッシュ１８を
バックする４・エントリー　　インストラクション　　
ストリーム　　バッファ６２と、４ＫＢ　　データ　　
キャッシュ２０をバックするデータ　　ストリーム　　
バッファ６２のパフォーマンスを示す。この図は、バッ
ファが最初のミスで開始して、プレフェッチを許される
ライン数に基づき、除かれるミスの累計数を示すもので
ある。ほとんどのインストラクションの参照（レファレ
ンス）は、６番目の連続ラインがフェッチされる時まで
に、純粋な順番アクセス　　パターンを破り、一方多く
のデータ参照パターンはより早く終結する。これの例外
は、“ｌｉｖｅｒ　”に対するインストラクション参照
及び“ｌｉｎｐａｃｋ　”に対するデータ参照である。 “ｌｉｖｅｒ　”は、プログラムの１４のループが順次
実行され、初めの１４ループは一般に他の手続きをコー
ルしないか、あるいは過剰のブランチを行い、連続ミス
　　パターンを破るため、変則である可能性がある。“
ｌｉｎｐａｃｋ　”のデータ参照（レファレンス）パタ
ーンは次の如くして理解できる。ストリーム　　バッフ
ァ６２は、キャッシュ１８または２０がミスしたライン
を提供するのみの責務を有している。“ｌｉｎｐａｃｋ
”の内側のループ（例えば、ｓａｘｐｙ　）は、マトリ
ックスの１行と他の行との間の内積（ｉｎｎｅｒ　ｐｒ
ｏｄｕｃｔ　）を行う。１つの行の第１の使用により、
この行はキャッシュにロードされる。キャッシュの当該
の後続のミス（第１行のマッピング　　コンフリクトを
除く）の後、マトリックスの次位のラインが構成される
。マトリックスは過大であって、オン・チップ　　キャ
ッシュに適さないので、全マトリックスは各反復（ｉｔ
ｅｒａｔｉｏｎ　）毎にキャッシュを通過する。ストリ
ーム　　バッファ６２は第２レベル　　キャッシュ２６
によって提供される最大帯域幅でこれを行いうる。基準
ストリームがユニット・ストライドであるか、または各
第３ワードまたは最大で他へスキップすることはこれに
対し必須の要件である。非・ユニット・ストライド方向
にアレイがアクセスされると、（さらに、他のディメン
ションが、ノン・トライビアルである限り）ここに説明
したストリーム　　バッファ６２は僅かな利点しか有さ
なくなる。

【００４３】図１５は、３つの典型的なストリーム　　
バッファにおける帯域要求を示すものである。“ｃｃｏ
ｍ”に対するＩ・ストリームは極めて正規である。（イ
ンストラクション中に測定したとき。）平均として、各
４．２　インストラクション毎に１６Ｂ　ラインをフェ
ッチするを要する。プログラムが短いループに入ると、
ストリーム　　バッファ６２を参照する間隔が増加し、
例えば疑問（ｅｌｓｅ）クローズをスキップするような
場合の如く、プログラムが小幅の前方ジャンプを行うよ
うなときはこれは減少する。それにも拘らず、フェッチ
周波数は極めて規則正しい。このデータは、例えばディ
ジタルイクイップメント　　コーポレイション　　マル
チチタン　　ＣＰＵ　またはＭＩＰＳ　Ｒ２０００（商
品名）の如く、短い機能ユニット　　レーテンシー（回
転待ち時間）を有するマシンに対するものである。従っ
てインストラクション当りのサイクル数は、キャッシュ
　　ミスの無いとき、１に極めて近くなる。

【００４４】“ｌｉｎｐａｃｋ　”及び“ｃｃｏｍ”に
対するデータ　　ストリーム　　バッファの参照のタイ
ミングを図１５に示してある。“ｌｉｎｐａｃｋ　”に
対する新規な１６Ｂ　ラインの参照速度は、各２７イン
ストラクション当り、１である。 “ｌｉｎｐａｃｋ　”のこの部分は二重精密（ｄｏｕｂ
ｋ　ｐｒｅｃｉｓｉｏｎ　）であるため、この作業は、
各１３．５インストラクション当り、内側ループの新し
い反復（ｉｔｅｒａｔｉｏｎ　）を行う。これは希望値
よりも大である。この“ｌｉｎｐａｃｋ”のバージョン
はある程度ルーズであり、各アレイ素子に対するアドレ
ス計算を整数倍し、ループはアンロールされない。ルー
プがアンロールされ、広範な最適化（ｏｐｔｉｍｉｚａ
ｔｉｏｎ）が行われるとすると、参照のレート（比率）
は増加する。しかし、インストラクション側には存しな
いデータ側の記憶トラフィックに起因するインストラク
ション　　ストリームのレートよりも以下でなければな
らない。“ｃｃｏｍ”は興味あるトライモード（三モー
ド）のパーフォーマンスを有している。ミスに続いて、
後続のラインが使用されるとすると、平均でミス後、僅
か５サイクルで必要とされる。ミス後次の２つのライン
に対し、平均で各１０インストラクション毎に連続する
データ　　ライン（１６Ｂ　）が必要とされる。初めの
３つのラインがストリーム　　バッファ６２の殆どの（
８２％）利点を生ずる。その後は連続するラインは“ｌｉｎｐａｃｋ　”に近い
レート、すなわち平均で各２４インストラクション毎に
必要とされる。

【００４５】一般に、バック・アップのメモリが新規ワ
ード（４Ｂ）の各サイクルに平均帯域幅でデータを形成
することができると、ストリーム　　バッファ６２は連
続参照を維持することが可能となる。これはインストラ
クション　　ストリームに対し充分であり、かつ極めて
多く巻戻し（アンロール）されたブロックコピーにも充
分で、二重プレシジョン　　ロード及びメモリ（ｓｔｏ
ｒｅ　）を使用する。この帯域幅が得られないときは、
インストラクション　　ストリームバッファの利点は減
少し、ブロック　　コピー及び他の類似のオペレーショ
ンも負のインパクトを受ける。しかし各１．５　〜２サ
イクル当り１つの新しいワードを均等化（イコーリング
）する帯域幅は多くのデータに対し依然として充分役に
立つ。なおこれらの価は帯域幅に対するものであり、図
１２のプレフェッチ　　スキムにおいて要求される全レ
ーテンシィを達成するよりも遙に容易である。

【００４６】前章に述べたストリーム　　バッファ６２
は、インストラクション　　キャッシュ１８のミスを全
体で７２％取除くことができた。しかしデータ　　キャ
ッシュ２０のミスは、その２５％しか取除くことができ
ない。この理由の１つは、データの参照が、異なるデー
タ源よりのインタリーブされたデータ　　ストリームで
構成されていることによる。データの参照におけるスト
リーム　　バッファ６２のパフォーマンスの向上を図る
ため、マルチ・ウエイ　　ストリーム　　バッファ６２
のシステム８０をシュミレートした。（図１６）　　こ
のシステム８０は４個のストリーム　　バッファ６２を
並列にして構成されている。何れのストリーム　　バッ
ファ６２をもヒットしないデータキャッシュ２０にミス
が生ずると、最低頻度（ｌｅａｓｔ　ｒｅｃｅｎｔｌｙ
）でヒットされたストリーム　　バッファ６２をクリヤ
し（すなわちＬＲＵ　置換）、ミスのアドレスにおいて
フェッチを開始する。

【００４７】図１７はマルチ・ウエイ　　ストリーム　
　バッファ　　システム８０を我々のベンチマーク　　
セットで動作させたときのパフォーマンスを示す。予期
したように、インストラクション　　ストリームによる
パフォーマンスは本質的には変らなかった。これはイン
ストラクション　　ストリームに対しては、より簡単な
単一ストリームバッファ　　システム６０で充分間に合
うことを示している。しかし、マルチ・ウエイ　　ストリーム　　バッファ　
　システム８０は、データ側では画期的な性能向上改良
を示し、これは６つのプログラムに対しミスの４３％を
除去することができ、単一ストリーム　　バッファ　　
システム６０の性能のほぼ２倍であった。“ｌｉｖｅｒ
　”のマトリクス動作が最大の改良（減少を７％より６
０％に変えた）を示したが、すべてのプログラムが或程
度の改良を示した。“ｌｉｖｅｒ　”もそのデータ構造
に、ユニット　　ストライド　　アクセスを行うことを
付記する。

【００４８】以上の説明においては、ストリーム　　バ
ッファ６２に対し、単に１つのアドレスコンパレータの
みが設けられていた。これは、要求されたラインがスト
リームバッファ６２内であるが、コンパレータ７２に対
する第１位置にない場合には、ストリーム　　バッファ
６２は参照の際にミスをし、その内容はフラッシュされ
ることを意味する。このスキムに対し、明らかな改良を
行う１つは、コンパレータをストリーム　　バッファ６
２の各位置に設けることである。かくすると、例えば準
連続参照パターンによって、あるキャッシュ　　ライン
がスキップされても、ストリーム　　バッファ６２は、
キャッシュ　　ラインが既にフェッチされている限り依
然としてこれに供給を行うことが可能である。

【００４９】図１８は、３つの比較器（ｃｏｍｐａｒａ
ｔｏｒｓ）　を持つストリーム　　バッファの性能を示
す。疑似ストリーム　　バッファ（ｑｕａｓｉ−ｓｔｒ
ｅａｍ　ｂｕｆｆｅｒ）　は、命令キャッシュ　　ミス
の７６％を除去することができ、これは純粋逐次（ｐｕ
ｒｅｌｙ　ｓｅｑｕｅｎｔｉａｌ）　ストリーム　　バ
ッファよりも４％の改善であって、残留ミスの数の１４
％の減少をもたらす。このことは恐らく、”ｉｆ”ステートメント中の”ｔｈ
ｅｎ”クローズや”ｅｌｓｅ”クローズのようなコード
がスキップしたときに、疑似ストリーム　　バッファが
有用なフェッチを継続できる能力に依るものであろう。シミュレートされたこの変形は３つの比較器を持つので
、最大２つのキャッシュ　　ラインに加えて更に　３／
４までのキャッシュ　　ラインを、アラインメントによ
りどちらかの側で、最大合計１６ないし２２の命令に対
してスキップすることが出来た。このことは、ストリーム　　バッファがフラッシュされ
ることの起きない（分枝アラインメントによる）逐次ス
トリーム　　バッファでは、僅かに０ないし６命令しか
スキップしないのに対比される。

【００５０】疑似ストリーム　　バッファの余分の比較
器はまた、４方向（ｆｏｕｒ−ｗａｙ）データストリー
ム　　バッファの性能をも改善する。結局全体では、４
方向疑似ストリーム　　バッファはすべてのミスの４７
％を除去することができ、これは純粋逐次４方向ストリ
ーム　　バッファよりも４％の向上である。

【００５１】単一ストリーム　　バッファへ数個の余分
な比較器を設けるために所要のハードウェアの量は小さ
いものだから、疑似ストリーム　　バッファは、命令ス
トリームに対する逐次ストリーム　　バッファの有益な
一般化であるかのように思われる。それは、僅かに２つ
の比較器を付加することが、逐次ストリーム　　バッフ
ァを疑似ストリーム　　バッファに転換するのに要求さ
れるだけだからである。しかし、多方向（ｍｕｌｔｉ−
ｗａｙ）　データ疑似ストリーム　　バッファに対して
は、それは有用ではないかも知れない、と云うのは所要
の余分な比較器の数が何倍にも大きくなるであろうから
である。ソフトウェア探究での興味ある分野として、コ
ンパイラがコードを再編成し、データ　　レイアウトが
ストリーム　　バッファの用途を最大にする能力がある
。もし引照規準の逐次性（ｓｅｑｕｅｎｔｉａｌｉｔｙ
　ｏｆ　ｒｅｆｅｒｅｎｃｅｓ）　を最適化する技術が
成功するならば、ストリーム　　バッファへの余分な比
較器の必要性はさらに小さくなる。

【００５２】ストリーム　　バッファの性能を視野に収
めるために、このセクションではストリーム　　バッフ
ァの性能を以前に文献で検討したプリフェッチ技術に譬
えることにする。我々の６つのベンチマーク上での、ミ
スの際のプリフェッチ（ｐｒｅｆｅｔｃｈｏｎ　ｍｉｓ
ｓ）、タグ付プリフェッチ（ｔａｇｇｅｄ　ｐｒｅｆｅ
ｔｃｈ）　及び常時プリフェッチ（ａｌｗａｙｓ　ｐｒ
ｅｆｅｔｃｈ）　の性能が表３に示される。このデータ
は、１命令付与（ｏｎｅｉｎｓｔｒｕｃｔｉｏｎ−ｉｓ
ｓｕｅ）　の第２レベルキャッシュ回転待ち時間（ｌａ
ｔｅｎｃｙ）　を伴うこれらのプリフェッチ技術の使用
を前提にして、ミスの減少を示している。１命令付与の回転待ち時間は１マシーンサイクルより小
さいであろうから、また第２レベルキャッシュは典型的
に多くの　ＣＰＵサイクルの回転待ち時間を持つのだか
ら、このデータは全く非現実的なものであることに留意
されたい。それにも拘らず、これらの数字はこれらのプ
リフェッチ技術の性能の上限を与えるのである。この検
討におけるプリフェッチ　　アルゴリズムの性能は以前
の文献に示されたデータとよく一致している。上に引用
したスミス（Ｓｍｉｔｈ）　の論文では、１６Ｂライン
と８方向セット結合性（１６Ｂ　ｌｉｎｅｓ　ａｎｄ　
８−ｗａｙ　ｓｅｔ　ａｓｓｏｃｉａｔｉｖｉｔｙ）　
を伴う　８ＫＢ混合キャッシュ上のＰＤＰ−１１痕跡Ｔ
ＲＡＣＥ（ａ　ＰＤＰ−１１　ｔｒａｃｅ　ＴＲＡＣＥ
　ｏｎ　ａ　８ＫＢｍｉｘｅｄ　ｃａｃｈｅ）に対する
ミス　　レート（ｍｉｓｓ　ｒａｔｅ）　の減少は（混
合キャッシュだけしか検討されていないので）ミスの際
のプリフェッチに対して２７．８％、タグ付プリフェッ
チに対して５０．２％、常時プリフェッチに対して５１
．８％であることが判っている。

【００５３】表４では、表４からのプリフェッチの性能
を以前に示したストリーム　　バッファの性能と比較し
ている。命令の側では、単純単一ストリーム　　バッフ
ァ（ａ　ｓｉｍｐｌｅ　ｓｉｎｇｌｅ　ｓｔｒｅａｍ　
ｂｕｆｆｅｒ）６２はミスの際のプリフェッチを広いマ
ージンで出力実行している。このことは、純粋逐次引照
規準ストリーム（ａ　ｐｕｒｅｌｙ　ｓｅｑｕｅｎｔｉ
ａｌｒｅｆｅｒｅｎｃｅ　ｓｔｒｅａｍ）に対してミス
の際のプリフェッチはミスの数を因数２で減少させるの
みであろうから、驚くには当たらない。単純単一ストリ
ーム　　バッファシステム６０も疑似ストリーム　　バ
ッファ　　システム８０も共に、タグ付プリフェッチと
殆ど同じように機能している。トラフィックに関する限
り、ストリームバッファ６２はミスの後にタグ付プリフ
ェッチより多くフェッチするであろうが、しかしタグ転
移に際してはフェッチを開始しないだろうから、トラフ
ィック率の比較は今後の興味ある研究課題である。命令
ストリーム上のストリーム　　バッファ６２の性能は常
時プリフェッチより僅かに劣る。このことは、常時プリ
フェッチの性能が分枝を取らない命令の百分率に近似す
るから、また命令の減少に際し逐次プリフェッチによる
キャッシュ　　ミスの上限だから、驚くには当たらない
。しかし、ストリーム　　バッファ６２によるアプロー
チのトラフィック率は、常時プリフェッチよりもミスの
際のプリフェッチ又はタグ付プリフェッチのそれに遙か
に近いに相違ない。

【００５４】

【表３】

【００５５】

【表４】

【００５６】表４はまた、ストリーム　　バッファ６２
の性能を、データ引照のためのプリフェッチ技術に譬え
る。茲ではすべての型式の４方向ストリーム　　バッファ　
　システム８０がプリフェッチ戦術を出力実行する。こ
れは主として、プリフェッチ戦術が、たとえそれが必要
でない場合にさえも、プリフェッチされた項目を常にキ
ャッシュ内に置くからである。ストリーム　　バッファ
６２によるアプローチは、要請されたときにのみ項目を
キャッシュ２０内に動かすので、結果としてプリフェッ
チされたデータを常にキャッシュ２０内に置くよりも汚
染が少ない。このことは、データ引照規準の空間的所在
が命令引照規準の空間的所在よりも少ないのだから、ま
たプリフェッチされたデータはプリフェッチされた命令
よりも遙かに汚染となり易いのだから、データ引照にと
って特に重要である。

【００５７】ストリーム　　バッファ６２の相対的性能
及び理想的なプリフェッチ技術とは無関係に、ストリー
ム　　バッファによるアプローチは遙かに実行し易いも
のである。それはこのアプローチが（逐次引照規準パタ
ーンに対するミスの際のプリフェッチ又はタグ付プリフ
ェッチとは異なり）パイプライン化されたメモリ　　シ
ステムの利点を活用できるからである。それはまた、先
行のブロックが使用される前にブロックをフェッチする
ことを開始できるから、プリフェッチされたデータに対
する回転待ち時間への要求条件がプリフェッチ技術に較
べて低い。最後に、少なくとも命令のストリーム　　バ
ッファ６２に対しては、ストリーム　　バッファ６２が
特別に必要とする余分のハードウェアは、タグ付プリフ
ェッチが必要とする余分なタグ記憶部としばしば同程度
である。

【００５８】小さいミス　　キャッシュ４２（例えば　
２−８　エントリーの）は、１Ｋないし８Ｋバイトの範
囲の直接写像されたキャッシュ２０に対するデータ　　
キャッシュ衝突ミスの減少に効果的であることが示され
ている。それらは、キャッシュ中の同じラインに写像す
る２ないし４ライン間にミスが交互に生じる厳しい衝突
を、効果的に除去する。

【００５９】ビクティム　　キャッシュ５２は、小さい
付属キャッシュ５２の内のキャッシュ　　ミスのビクテ
ィムを、ターゲットに代わって救済するミスキャッシュ
化の改良である。ビクティム　　キャッシュ５２は、衝
突ミスを除去するのにミス　　キャッシュ４２よりもず
っと効果的である。ビクティム　　キャッシュ５２は、
ラインのサイズが増大し、衝突ミスの百分率が増加する
のに伴い一層有益である。衝突ミスの百分率が増加する
のに伴い、ビクティム　　キャッシュ５２により除去可
能なこれらのミスの百分比も増加し、その結果は、ビク
ティム　　キャッシュ５２の使用により可能な性能の改
善に対し更に険しい傾斜となるように、一般的には見受
けられる。

【００６０】ストリーム　　バッファ６２は、ミスした
キャッシュ　　ラインの後のキャッシュラインをプリフ
ェッチする。ストリーム　　バッファ６２は該ラインを
、不必要なキャッシュの汚染を避けるために（キャッシ
ュ　　ミスがもしあれば）キャッシュミスにより要請さ
れるまで記憶しておく。それは容量及び強制的なミスの
数を減少するのに特に有用である。それは、前に論じた
タグ付プリフェッチ又はミスの際のプリフェッチのよう
なプリフェッチ技術とは異なり、逐次引照規準に対する
パイプライン化されたメモリ　　システムで使用可能な
メモリ帯域幅を活用できる。ストリーム　　バッファ６
２はまた、他のプリフェッチ技術（常時プリフェッチさ
えも）より遙かに前以てデータをプリフェッチするから
、さらに長いメモリシステム回転待ち時間を許容できる
。ストリーム　　バッファ６２はまた、命令衝突ミスも
同じく相対的に逐次性を持つ傾向がある故、命令衝突ミ
スを補償することもできる。

【００６１】多方向ストリーム　　バッファ　　システ
ム８０は、同時に発生するいくつかのストリームをプリ
フェッチできるところの一組のストリーム　　バッファ
６２である。この検討では、プリフェッチ開始アドレス
が　ＬＲＵ　（ｌｅａｓｔ　ｒｅｃｅｎｔｌｙ　ｕｓｅ
ｄ　−最長時間未使用）　順ですべてのストリーム　　
バッファ６２に亙り置き換えられる。多重経路ストリー
ム　　バッファ６２は、アレイ操作（ａｒｒａｙ　ｏｐ
ｅｒａｔｉｏｎｓ）におけるようないくつかの異なる巨
大データ構造へのインターリーブされたアクセス（ｉｎ
ｔｅｒｌｅａｖｅｄａｃｃｅｓｓｅｓ）を含むデータ引
照に対し有用である。しかし、プリフェッチすることは
逐次ライン（ｓｅｑｕｅｎｔｉａｌ　ｌｉｎｅｓ）だか
ら、（２又は３の）単位幅（ｕｎｉｔ　ｓｔｒｉｄｅ）
のアクセス　　パターンのみが利益を受ける。

【００６２】ビクティム　　キャッシュ５２による性能
の改善及びストリームバッファ６２による性能の改善は
、データ引照規準に対し相対的に直交（ｒｅｌａｔｉｖ
ｅｌｙ　ｏｒｔｈｏｇｏｎａｌ）するものである。ビク
ティムキャッシュ５２は、引照規準がキャッシュ中の同
じラインに写像する２つの所在位置を交互に往き来する
ときに好適に働く。それはデータをプリフェッチする訳
ではなく、フェッチされたデータを使用可能に維持する
ためにずっとよい仕事をするだけである。しかるに、ス
トリーム　　バッファ６２は、データをプリフェッチす
ることにより性能の改善を達成する。それは衝突が時間的に広い間隔を持つのでない限り衝突
ミスを除去しない、そしてキャッシュ　　ミス引照スト
リームは多数の逐次アクセスから成るのである。これら
は正に、その相対的に小さい容量の故にビクティム　　
キャッシュ５２により旨く処理されない衝突ミスなので
ある。６つのベンチマークの一組に亙って平均的に、４エント
リーのビクティム　　キャッシュに当たった　４ＫＢの
直接写像されたデータ　　キャッシュ　　ミスの僅かに
　２．５％が、ｃｃｏｍ，ｍｅｔ，ｙａｃｃ，ｇｒｒ及
びｌｉｖｅｒｍｏｒｅ　に対して、４方向ストリーム　
　バッファにも当たるのである。対照的に、ｌｉｎｐａ
ｃｋ　はそのデータ　　アクセス　　パターンの故に、
ビクティム　　キャッシュに当たったものの５０％が４
方向ストリーム　　バッファにも当たるのである。しか
し、ｌｉｎｐａｃｋ　のキャッシュ　　ミスの僅かに４
％がビクティム　　キャッシュに当たる。それは６つの
ベンチマークのうちでビクティム　　キャッシュするこ
とからもたらす利益が最小であり、従ってこのことはま
だストリーム　　バッファとビクティム　　キャッシュ
することとの間の有意な量の重複ではない。

【００６３】図２０は、ベース　　システム１０に４エ
ントリー　　データビクティム　　キャッシュ５２と命
令ストリーム　　バッファ６２と４方向ストリーム　　
バッファ６２部分システムとを付加したものの性能を示
すグラフで、該システムは図１９Ａ　及び図１９Ｂ　に
システム１００　とされているものである。（該ベース
　　システムは、２４サイクル　　ミス　　ペナルティ
ズを持つオンチップ　４ＫＢ命令及び　４ＫＢデータ　
　キャッシュ、並びに　１２８バイト　　ライン及び３
２０　サイクル　　ミス　　ペナルティを持つ３段階第
２レベル１ＭＢキャッシュへの１６バイト　　ラインを
持つ。）図２０の下の実線はビクティム　　キャッシュ
又はバッファを持たない原のベース　　システムの性能
を表し、上の実線はバッファ及びビクティム　　キャッ
シュを持つ場合の性能を表している。これらの技術の組
合せは第１レベルのミス　　レートを、これらの特徴を
持たないベースライン　　システム１０のそれの半分未
満に減少させ、結果として６つのベンチマークに亙る平
均で　１４３％のシステム性能の改善がもたらされてい
る。これらの結果は、僅かの量のハードウェアの付加に
よりキャッシュ　　ミス　　レートを劇的に減少させ、
システム性能を改善したことを示している。

【図面の簡単な説明】

【図１】図１は、本発明に係わるようなベースライン　
　システムの概略ブロック図である。

【図２】図２は、本発明に係わらない図１のシステムの
性能を示すグラフである。

【図３】図３は、本発明に係わらない図１のシステムの
性能の別の面を示すグラフである。

【図４】図４は、本発明の実施例に係わる図１に示すシ
ステムの一部分の概略ブロック図である。

【図５】図５は、図４の部分に含まれるシステムの性能
のある１つの面を示すグラフである。

【図６】図６も、図４の部分に含まれるシステムの性能
のまた別の面を示すグラフである。

【図７】図７は、本発明のもう１つの実施例に係わる図
４の部分に対応するシステムの一部分の概略ブロック図
である。

【図８】図８は、図７の部分に含まれるシステムの性能
のある１つの面を示すグラフである。

【図９】図９も、図７の部分に含まれるシステムの性能
のある１つの面を示すグラフである。

【図１０】図１０も、図７の部分に含まれるシステムの
性能のある１つの面を示すグラフである。

【図１１】図１１も、図７の部分に含まれるシステムの
性能のある１つの面を示すグラフである。

【図１２】図１２は、本発明に係わらない図１のシステ
ムの性能のもう１つの別の面を示すグラフである。

【図１３】図１３は、本発明の更にもう１つの実施例に
係わる図４の部分に対応するシステムの一部分の概略ブ
ロック図である。

【図１４】図１４は、図１３の部分に含まれるシステム
の性能のある１つの面を示すグラフである。

【図１５】図１５も、図１３の部分に含まれるシステム
の性能のまた別の面を示すグラフである。

【図１６】図１６は、本発明の更にもう１つの実施例に
係わる図１３の部分に対応するシステムの一部分の概略
ブロック図である。

【図１７】図１７は、図１６の部分に含まれるシステム
の性能のある１つの面を示すグラフである。

【図１８】図１８も、図１６の部分に含まれるシステム
の性能のまた別の面を示すグラフである。

【図１９】図１９は、図１９Ａ　と図１９Ｂ　とを左右
に並べたものであり、図１９Ａ　と図１９Ｂ　とはそれ
ぞれ、本発明の更にもう１つの実施例を示す図７、図１
３及び図１６のシステム部分の組合せに一般的に対応す
るシステムの一部分の概略ブロック図の左半分と右半分
とを示す図である。

【図２０】図２０は、図１９Ａ　と図１９Ｂ　のシステ
ムの性能のある１つの面を示すグラフである。

【符号の説明】

１０　　メモリ　　システム（ベースライン　　システ
ム）１２　　ＣＰＵ　　（中央処理ユニット）１４　　
フローティング　　ポイント　　ユニット　（ＦＰＵ）
１６　　メモリ　　マネージメント　　ユニット　（Ｍ
ＭＵ）１８，２０　　　データ　　キャッシュ（第１レ
ベル）２２　　チップ（プロセッサ　　チップ）２４　
　セントラル　　プロセッサ　（中央処理装置）２６　
　第２レベル　　キャッシュ２８　　ラッチ３４　　主メモリ４０　　ミス　　キャッシュ　　システム４２　　ミス
　　キャッシュ４４　　キャッシュ　　ライン５０　　キャッシュ　　システム５２　　完全付属ミス　　キャッシュ（ビクティム　　
キャッシュ）５６　　ライン６０　　単一ストリーム　　バッファ　　システム６２
　　ストリーム　　バッファ６４　　エントリー６６　　タグ７０　　データ　　ライン７２　　比較器

Claims

【特許請求の範囲】

【請求項１】第１キャッシュ　　メモリ（１８，　２０
）と、第２メモリ（２６）と、これらの第１キャッシュ
　　メモリと第２メモリの間に接続されたストリーム　
　バッファ（６２）とを有し、さらに前記第１キャッシ
ュ　　メモリ、第２メモリ及びストリーム　　バッファ
に接続されている手段（１６）を有し、情報をアドレス
する第１キャッシュメモリ内にミスが生じたときは、該
手段は第１キャッシュ　　メモリ及びストリーム　　バ
ッファに情報をアドレスし、かつ情報を供給し、該情報
のアドレス及び供給手段は、前記第１キャッシュ　　メ
モリ内でミスされた情報を供給し、かつこのミスされた
情報に対するアドレスに後続する少くとも１つのアドレ
ス内の情報を前記ストリーム　　バッファに供給する手
段を含んでなるデータ処理装置のメモリシステム。
【請求項２】前記第１キャッシュ　　メモリがインスト
ラクション　　キャッシュ（１８）を含む請求項１記載
のメモリ　　システム。
【請求項３】前記第１キャッシュ　　メモリがさらにデ
ータ　　キャッシュ（２０）を含む請求項１記載のメモ
リ　　システム。
【請求項４】前記情報のアドレス及び供給手段は、前記
第１キャッシュ　　メモリとストリーム　　バッファと
に同時にアドレス情報を供給する手段を含んでなる請求
項１記載のメモリ　　システム。
【請求項５】前記情報のアドレス及び供給手段は、前記
第１キャッシュ　　メモリとストリーム　　バッファと
に同時に対応情報を供給する手段を含んでなる請求項１
記載のメモリ　　システム。
【請求項６】第１キャッシュ　　メモリと第２メモリの
間に接続された付加的な複数個のストリーム　　バッフ
ァを有し、前記情報アドレス及び供給手段は、第１キャ
ッシュメモリ内でミスされたデータを供給し、このミス
されたデータのアドレスの後続の少くとも１つのアドレ
ス内のデータを前記付加的の複数のストリームバッファ
に供給する手段を有してなる請求項１記載のメモリ　　
システム。
【請求項７】情報のアドレス及び供給手段が、ストリー
ム　　バッファの１つ及び第２メモリよりミスされた情
報を供給する手段を含む請求項１記載のメモリ　　シス
テム。
【請求項８】前記第１キャッシュ　　メモリを直接マッ
プ・キャッシュ　　メモリとする請求項１記載のメモリ
　　システム。
【請求項９】第１キャッシュ　　メモリ（１８，　２０
）、第２メモリ（２６）、及び第１キャッシュメモリよ
り小容量で、第１キャッシュ　　メモリと第２メモリの
間に接続された付属のミス　　キャッシュ（４２，　５
２）とを有し、さらに前記第１キャッシュ　　メモリ、
第２メモリ、及び付属のミス　　キャッシュに接続され
、アドレスされた情報に対し第１キャッシュ　　メモリ
内にミスが生じたときは、この第１キャッシュメモリ及
び付属のミス　　キャッシュに情報をアドレスし、情報
を供給する手段（１６）を具えてなるメモリ　　システ
ム。
【請求項１０】第１キャッシュ　　メモリがインストラ
クション　　キャッシュを有する請求項９記載のメモリ
　　システム。
【請求項１１】第１キャッシュ　　メモリがさらにデー
タ　　キャッシュを有する請求項１０記載のメモリ　　
システム。
【請求項１２】前記情報のアドレス及び供給手段は、第
１キャッシュ　　メモリ及び付属のミスキャッシュに同
時に情報のアドレスを供給する手段を含んでなる請求項
９記載のメモリ　　システム。
【請求項１３】前記情報のアドレス及び供給手段は、対
応の情報を前記第１キャッシュ　　メモリ及び付属のミ
ス　　キャッシュに供給する手段を含んでなる請求項１
０記載のメモリ　　システム。
【請求項１４】前記情報のアドレス及び供給手段は、前
記付属のミス　　キャッシュの１つ及び前記第２メモリ
より第１キャッシュ　　メモリへ情報を供給する手段を
含んでなる請求項１０記載のメモリ　　システム。
【請求項１５】前記第１キャッシュ　　メモリが直接マ
ップ　　キャッシュ　　メモリであり、情報のアドレス
及び供給手段は、前記付属のミス　　キャッシュの１つ
より情報を移動された直接マップ第１キャッシュ　　メ
モリ及び第２メモリより前記の付属ミスキャッシュに情
報を供給する手段を含む請求項１４記載のメモリシステ
ム。
【請求項１６】情報のアドレス及び供給手段が、パリテ
ィ　　エラーの際、正しい情報を、前記付属ミス　　キ
ャッシュより直接マップ　　第１キャッシュ　　メモリ
に供給する手段を有する請求項１５記載のメモリ　　シ
ステム。
【請求項１７】インストラクションの一部分を付加的に
含んでいるデータを前記情報が有しており、メモリ　　
システムは、前記直接マップ　　第１キャッシュ　　メ
モリと第２メモリの間に接続されたストリーム　　バッ
ファを付加的に有しており、前記情報のアドレス及び供
給手段は、前記直接マップ　　第１キャッシュ　　メモ
リ内でミスされたインストラクションを供給し、かつこ
のミスされたインストラクションのアドレスに後続する
少くとも１つのアドレスにおける情報を、該ストリーム
　　バッファに供給する手段を有してなる請求項１５記
載のメモリ　　システム。
【請求項１８】メモリ　　システムがさらに、前記直接
マップ　　第１キャッシュ　　メモリと第２メモリの間
に接続された複数個のストリーム　　バッファを有し、
前記情報のアドレス及び供給手段は、前記直接マップ　
　第１キャッシュ　　メモリでミスされたデータを供給
し、ミスされたデータのアドレスに後続する少くとも１
つのアドレスにおけるデータを前記付加的の複数個のス
トリーム　　バッファに供給する手段を有してなる請求
項１７記載のメモリ　　システム。
【請求項１９】第１キャッシュ　　メモリをアドレスし
、このアドレスに応答して第１キャッシュ　　メモリ内
にミスが生じたか否かを決定し、第１キャッシュ　　メ
モリ内にミスが生じたときは、第２メモリより第１キャ
ッシュ　　メモリ及びミスキャッシュに情報を供給する
ことを特徴とするメモリ　　アクセス方法。
【請求項２０】第１キャッシュ　　メモリと、ミス　　
キャッシュとに同時に情報アドレスを供給する請求項１
９記載のメモリ　　アクセス方法。
【請求項２１】第１キャッシュ　　メモリにミスが生じ
たときは、第２メモリより第１キャッシュ　　メモリ及
びミス　　キャッシュに対応の情報を供給する請求項１
９記載のメモリアクセス方法。
【請求項２２】第１キャッシュ　　メモリにミスが生じ
たときは、さらにミス　　キャッシュをアドレスし、ミ
ス　　キャッシュ内にミスが存しないときはこれに応答
してミス　　キャッシュより情報を供給し、第１キャッ
シュ　　メモリ及びミス　　キャッシュにミスが生じた
ときは、第２メモリより第１キャッシュ　　メモリ及び
ミス　　キャッシュに情報を供給する請求項１９記載の
メモリ　　アクセス方法。
【請求項２３】ミス　　キャッシュの１つ並びに第２メ
モリより移転した第１キャッシュ　　メモリよりの情報
をミス　　キャッシュに供給する請求項１９記載のメモ
リ　　アクセス方法。
【請求項２４】パリティ　　エラーを検出し、パリティ
　　エラーの存する場合には、ミス　　キャッシュより
第１キャッシュ　　メモリに対応の情報を供給するステ
ップを含んでなる請求項２３記載のメモリ　　アクセス
方法。
【請求項２５】データを有する情報が付加的にインスト
ラクションの一部を含み、さらに本方法は、第１キャッ
シュ　　メモリ内でミスされたインストラクションを第
１キャッシュ　　メモリに供給し、ミスされたインスト
ラクションに対するアドレスに後続する少くとも１つの
アドレス内の情報を供給するステップを有してなる請求
項２３記載のメモリ　　アクセス方法。
【請求項２６】第１キャッシュ　　メモリ内でミスされ
たデータを第１キャッシュメモリに供給し、ミスされた
データに対するアドレスに後続する少くとも１つのアド
レス内のデータを付加的な複数個のストリーム　　バッ
ファに供給するステップを含んでなる請求項２５記載の
メモリ　　アクセス方法。
【請求項２７】第１キャッシュ　　メモリをアドレスし
、このアドレスに応じてミスが発生したか否かを決定し
、第１キャッシュ　　メモリにミスが発生した場合は、
第２メモリより第１キャッシュ　　メモリ及びストリー
ム　　バッファに情報を供給するステップを有するメモ
リ　　アクセス方法。
【請求項２８】第１キャッシュ　　メモリ及びストリー
ム　　バッファに同時に情報アドレスを供給する請求項
２７記載のメモリ　　アクセス方法。
【請求項２９】第１キャッシュ　　メモリにミスが生じ
たときは、第２メモリより第１キャッシュ　　メモリ及
びストリーム　　バッファに対応の情報を供給する請求
項２７記載のメモリ　　アクセス方法。
【請求項３０】第１キャッシュ　　メモリ内でミスされ
た情報を第１キャッシュ　　メモリに供給し、かつこの
ミスされた情報及びミスされた情報のアドレスに後続す
る少くとも１つのアドレスの情報をストリーム　　バッ
ファに供給するステップを含んでなる請求項２９記載の
メモリ　　アクセス方法。
【請求項３１】ミスされた情報がインストラクションを
含む請求項３０記載のメモリ　　アクセス方法。
【請求項３２】第１キャッシュ　　メモリ内でミスされ
たデータを第１キャッシュメモリに供給し、ミスされた
データに対するアドレスに後続する少くとも１つのアド
レス内のデータを付加的な複数個のストリーム　　バッ
ファに供給するステップを有する請求項３１記載のメモ
リ　　アクセス方法。
【請求項３３】第１キャッシュ　　メモリ内にミスが発
生するとストリーム　　バッファをアドレスし、このア
ドレスに応答してストリーム　　バッファ内にミスが存
しないときはストリーム　　バッファより情報を供給し
、第１キャッシュ　　メモリ及びストリーム　　バッフ
ァより情報を供給し、第１キャッシュ　　メモリ及びス
トリーム　　バッファ内にミスが生じたときは前記情報
を第２メモリより第１キャッシュ　　メモリ及びストリ
ーム　　バッファに供給するステップを含む請求項２７
記載のメモリ　　アクセス方法。