JPH08272682A

JPH08272682A - ロード・バッファを備えたロード／ストア・ユニット内にて切り離されたタグ及びデータ・アレイへのアクセス方法及びそのアレイを有する装置

Info

Publication number: JPH08272682A
Application number: JP8027973A
Authority: JP
Inventors: Greenlay Dale; グリーンレイデール; Kohn Leslie; コーンレスリー; Iei Min; イエイミン; Williams Greg; ウイリアムズグレッグ
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1995-02-16
Filing date: 1996-02-15
Publication date: 1996-10-18
Anticipated expiration: 2016-02-15
Also published as: JP3875738B2; KR100397683B1; US5802575A; US5745729A; KR960032183A

Abstract

(57)【要約】【課題】プロセッサを停止させることなく、そのプロセ
ッサの１サイクル当たり１つというLOAD命令の処理量を
維持すること。【解決手段】機能ユニットは、データを格納するデータ
ＲＡＭ５９と、タグを格納するタグＲＡＭ５８と、複数
の記憶位置を管理するとともに、データＲＡＭ５９及び
タグＲＡＭ５８に接続されたメモリ管理ユニット５６
と、ＲＡＭ５８，５９及び管理ユニット５６に接続され
たロード・バッファ５４とを備える。タグＲＡＭ５８は
第１タグ５３を検索する第１ポート５７と、タグＲＡＭ
５８中の選択された記憶位置の第２タグを書き込むため
の第２ポート５５０とを有し、第１タグ５３の検索及び
第２タグの書き込みを同時に起こすことができる。管理
ユニット５６は、ユニット５６自身又はデータＲＡＭ５
９の何れかに対して行われる連続的なアクセスに対する
LOAD命令の待ち行列を形成するための１つ以上のエント
リを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はプロセッサのロード
／ストア・ユニットに係わる。詳しくは、ロード・バッ
ファ及びキャッシュの維持管理に関する。

【０００２】

【従来の技術】RISCとは縮小命令セット・コンピュータ
のことをいう。通常、RISCプロセッサは従来のCISC（複
合命令セット・コンピュータ）プロセッサよりも命令数
が少ない。使用命令数が少ないため、RISC技術を用いる
ことにより、RISCプロセッサのコンパイラを書き込むタ
スクが少なくともある程度、簡略化される。更に、最大
動作周波数を制限する使用頻度の低い複雑な命令より
も、むしろ使用頻度の高い重要な命令を実行し、かつ最
適化することについて焦点を当ててプロセッサのデザイ
ンを行うことができる。こうした理由及びその他の理由
により、ワーク・ステーション、更には末端のコンピュ
ータ製造業者の間ではRISCプロセッサが好評である。

【０００３】一般的に、RISCプロセッサではメモリに実
際にアクセスする命令は非常に少ない。実際に実現され
たものでは、メモリにアクセスするLOAD及びSTORE とい
う２つの命令のみを有するものがある。通常、並行処理
により同期及びメモリ更新を行うプロセッサによって、
多少特殊な「アトミック」（"atomic"）オペレーション
が支援される。ピーティーアール・プレンティス・ホー
ル社（PTR Prentice Hall ）発行、スパーク・インター
ナショナル社（SPARC International, Inc. ）、ディ
ー．エル．ウィーバー（D. L. Weaver）及びティー．ガ
ーモンド（T. Germond）編、「スパークアーキテクチ
ャ説明書バージョン９（The SPARC Architecture Man
ual, Version 9）」、１９９４年、第１７頁を参照され
たい。このような場合であっても、LOAD及びSTORは最も
使用頻度の高いメモリ・アクセス命令である。LOAD命令
を実行することにより、プロセッサのレジスタにはメイ
ン・メモリ・アドレスに存在するデータが書き込まれ
る。STORE 命令を実行することにより、メイン・メモリ
・アドレスにはプロセッサのレジスタに存在するデータ
が書き込まれる。従って、LOAD及びSTORE 命令はオペラ
ンドとしてレジスタ（１つ又は複数個）及び１つのメモ
リ・アドレスを指定する必要がある。幾つかの装置で
は、メモリ・アドレスを演算するために２つ若しくは１
つのレジスタ及び１つの即値が用いられているものがあ
る。多くの装置では、１つの命令を用いて１ワード以上
のデータを転送する数種類のLOAD及びSTORE を備えるた
め、２つ以上のソース・レジスタ又は宛先レジスタが存
在することがある。また、これらのソース・レジスタ又
は宛先レジスタはそれぞれSTORE 命令又はLOAD命令にお
いてオペランドとして指定される。

【０００４】図１はスーパースカラ・プロセッサ１２を
示す。スーパースカラ・プロセッサ１２はいくつかの並
行機能ユニット１０，１１を有している。通常のスーパ
ースカラ装置では浮動小数点、整数、分岐及びロード／
ストアの機能ユニットを備えている。従って、４つの命
令まで並行して実行することができる。また、大部分の
スーパースカラ・プロセッサは、少なくともある程度は
パイプライン化されている。パイプライン化により命令
はステージ内にて処理されるため、１つの命令の処理が
完了するまでに数クロック・サイクルを要する。しかし
ながら、パイプライン化されたプロセッサのアーキテク
チャでは、各ステージにて命令を常に処理しているた
め、複数の命令を同時に処理することができる。

【０００５】図２は、ロード／ストア・ユニット１０の
概略を示すブロック図である。ロード／ストア機能ユニ
ット１０の総処理量を最大にすべく、ロード・バッファ
２０が設けられている。そのため、即座にサービスされ
ることのないLOADであっても、ディスパッチされ得る。
また、LOADはプロセッサ１２の演算を停止させることな
く、サービス待ち可能である。ロード・バッファ２０は
先入れ先出し（FIFO）待ち行列であり、LOADのソース・
メモリ及び宛先レジスタを保持している。LOADの待ち行
列を保持することにより、現在のLOADの演算が完了後、
即座に別のLOADの演算を行えることから、LOAD及びSTOR
E 命令が用いるメモリ資源の利用が最大化される。

【０００６】キャッシングは、多層メモリ・システムを
用いて参照する記憶位置を利用するための一般的な技術
である。基本的な考えは少量の高速アクセス・メモリ
と、多量の低速アクセス・メモリとを編成することによ
り、ほとんどのアクセスが少量の高速メモリに対して行
われる。そのようなメモリ・システムの平均アクセス時
間は、少量の高速メモリの有効記憶容量が多量のメモリ
のそれと同一であるものよりも僅かに優れている。

【０００７】多層メモリ・システムの一般的な形態はキ
ャッシュ・メモリ、即ち索引バッファ・メモリである。
キャッシュ・メモリはプロセッサ１２とメイン・メモリ
との間に配置された比較的小さな特殊メモリ装置であ
る。キャッシュ・メモリは、プロセッサ１２によってア
クセスされそうなメモリからコピーされたワードを保持
している。キャッシュはメイン・メモリより高速である
ため、アクセス頻度の高い記憶位置がキャッシュ内で見
つかれば、ヒット率が高くなるとともに、メモリ・アク
セスの平均時間は短くなる。キャッシュにより実行され
る方法は、プロセッサによって最近使用された他のワー
ドの近くに位置するところのワードを保持することであ
る。この方法により利用される局所参照とは、短時間の
うちにメモリの小さな領域に群れをなすようにアクセス
するメモリ・アクセスの傾向をいう。

【０００８】キャッシュの記憶位置は冗長である。それ
は各記憶位置がより低速のメイン・メモリにも格納され
た情報のコピーに対して、更にアクセスし易くするよう
に用いられるという意味からである。このため、キャッ
シュの存在によりアドレス可能な全記憶容量は、プログ
ラマが見てとれるように増加するわけではない。むし
ろ、平易なプログラム方法において、キャッシュは同一
のアドレス空間内に存在する記憶位置への平均アクセス
時間を改善する。

【０００９】キャッシュはメイン・メモリよりもかなり
小型であるため、いつでもキャッシュされ得るのはメイ
ン・メモリの記憶位置の少量のみである。従って、一般
的にキャッシュ内に存在する各記憶位置、即ちキャッシ
ュ・ラインは概念的に、タグ・フィールド及び内容フィ
ールドという２つの部分を有する。読み出し又は書き込
み動作が要求されるとき、指定されたアドレスはキャッ
シュ内の一定のラインのタグ・フィールドと比較され
る。その比較により整合が生じれば、整合しているタグ
を含むキャッシュ・ラインの内容フィールドが読み出し
又は書き込まれる。メイン・メモリにアクセスする必要
はない。これはキャッシュ・ヒットとして知られてい
る。

【００１０】図２に示すロード／ストア・ユニットは全
てのLOAD命令を実行するとともに、一般的にメモリとの
間の全てのインターフェイスの役割を担う。同図に示す
ように、ロード／ストア・ユニットは集積回路上の内部
の１次キャッシュ２４を管理する。ロード／ストア・ユ
ニットは、メモリ管理ユニット２６に接続された外部の
２次キャッシュ２５との調整を行う。１次キャッシュ２
４は、ダイレクト・マッピングされたキャッシュであ
る。それは、キャッシュされる記憶位置のアドレスをキ
ャッシュ内の指定された記憶位置へマッピングするもの
である。

【００１１】ロード・バッファ２０の背後にある理論
は、内部キャッシュ２４に格納するには大きすぎるワー
キング・セット（working set ）を有するコードに対し
て、LOAD命令とその後続使用とが外部キャッシュ２５の
待ち時間を少なくとも充分に補うほど長く分離され得る
ことである。このように、データを即座に返還すること
が不可能なLOADはパイプラインを機能停止させるのでは
なく、データを返還することが可能になるまで緩衝処理
されるという点で、ロード・バッファ２０はロード／ス
トア・ユニット１０（図１に示す）及び他の機能ユニッ
トが幾分か切り離されることを許容する。即ち、この典
型的な例は、LOADが集積回路上の内部キャッシュ２４に
ミスし、外部キャッシュ２６にアクセスせねばならない
場合である。この場合、LOADはロード・バッファ２０内
に配置され、実行パイプラインはロードされているレジ
スタを必要とするまで、換言すれば「使用」命令に遭遇
するまで動作し続ける。

【００１２】図３は非連想又はダイレクト・マッピング
されたキャッシュ３０を示す。ダイレクト・マッピング
されたキャッシュ３０は、ヒットしたかを調べるために
キャッシュ３０内のアドレスを指定することにより、入
力メモリ・アドレス３２の下位ビット３１を用いる。こ
れらのビット３１はキャッシュ３０内の指標と呼ばれ
る。このため、記憶位置Ａはキャッシュ・ライン３３内
のみに存在でき、キャッシュ内にあるライン３３のアド
レス３２は、Ａのアドレスの下位ｋビットである。キャ
ッシュ３０中の１つのライン３３内のみでキャッシュさ
れるメモリ・アドレス３２が非常に拘束されることを許
容すれば、連想メモリよりも安価で高密度なランダム・
アクセス・メモリ（ＲＡＭ）を使用できる。ダイレクト
・マッピングされるキャッシュ３０の他の重要で魅力的
な特徴は、それがより簡素であるとともに、より少ない
回路構成しか必要としないことを考慮すれば、より高速
に動作する傾向にあることである。しかしながら、キャ
ッシュ・ライン３３の拘束により、同一のｋ個の下位ア
ドレス・ビット３１を共有する記憶位置は、また同一の
キャッシュ・ライン３３を共有することが必要になる。
各キャッシュ・ライン３３が、ある記憶位置の内容を記
憶するためのみに備えられる場合、同一の下位ｋのアド
レス・ビット３１を有する２つの記憶位置は同一のキャ
ッシュ・ライン３３に対して競合するため、同時にキャ
ッシュされ得ない。各キャッシュ・ライン３３内におい
て、データ３４はタグ３５と共に格納される。単純にア
ドレスを指定する目的では、タグ３５のほんの少数のみ
が、キャッシュ・ライン３３内に格納された記憶位置の
上位のアドレス・ビット３６となる。キャッシュ・ヒッ
トが起きたか否かを確定するために、入力メモリ・アド
レス３２の上位のアドレス・ビット３６が、入力された
メモリ・アドレス３２の下位のアドレス・ビット３１に
よってマッピングされた記憶位置内に格納されたタグ３
５と比較される。下位ビット３１によって指標付けされ
たキャッシュ・ライン３３内に格納されたタグ３５が、
入力されたメモリ・アドレスの上位ビット３６と一致し
ていれば、それはキャッシュ・ヒットである。

【００１３】図４に示すように、内部キャッシュ４０は
データメモリ４１及びタグメモリ４２という２つの別々
のメモリを備える。概念的に、その挙動は図３に示すキ
ャッシュ３０のそれと丁度同じである。これはデータ４
１及びタグ４２の両方の部位が同様の方法で指標付けさ
れるとともに、同じ数のラインを有するためである。デ
ータ・アレイ４１内の各データラインは、タグ・アレイ
４２と対応する位置に対応タグを有している。

【００１４】図２を再度参照すると、ロード・データが
外部キャッシュ２５から返還されるとき、そのデータは
内部キャッシュ２４に書き込まれる。この置き換え方法
の背後にある原理は、最近使用されたデータは近い将来
において再び使用される傾向にあるということである。
内部キャッシュ２４に書き込むということは、両データ
ＲＡＭ４１及びタグＲＡＭ４２（共に図４に示す）内の
適切なラインを置き換えることを意味する。

【００１５】LOADがディスパッチされたとき、ロード／
ストア・ユニット１０（図１に示す）は指定された記憶
位置が内部キャッシュ２４内にあるかどうかを調べる。
ヒットが起きたか否かを確定するために、適切なタグが
タグＲＡＭ４２（図４に示す）から検索されるととも
に、要求された記憶位置に対するアドレスの適切な部分
と比較される。これらのタグを検索している間、内部キ
ャッシュ２４にミスした古いLOAD命令はデータ及びタグ
情報を返還する。大部分のキャッシュ２４の置き換え方
法は、キャッシュ２４内にて最も新たに参照したデータ
を必要とするため、内部キャッシュ２４は前回のミスに
よって返還されたデータ及びタグを保持するために更新
されなければならない。そのため、同一の記憶位置が再
び要求されると、それらの記憶位置は内部キャッシュ２
４をヒットする。外部キャッシュ２５への待ち時間がゼ
ロではなく、ロード・バッファ２０は外部キャッシュ２
５にアクセスすべきLOADのサービスを遅らせる傾向にあ
るため、LOADがロード・バッファ内に配置されて数サイ
クル後に、外部キャッシュ２５からデータが返還され
る。古いLOADが外部キャッシュ２５からデータを返還し
ているのと同一のサイクルの間に新たなLOADがディスパ
ッチされているなら、内部キャッシュ２４のタグＲＡＭ
のデータ・ポート４３（図４に示す）に衝突が起きる。

【００１６】

【発明が解決しようとする課題】従来技術の問題は、１
つでもLOADが内部キャッシュ２４にミスすると、１サイ
クル当たりに１つというLOADの処理量が達成され得ない
ことである。コードの厳格なループは疑う余地なく１サ
イクル当たり１つのLOADを発行するため、たとえ全ての
LOADが内部キャッシュ２４にミスしたとしても、１サイ
クル当たり１つというLOADの処理量を維持することは重
要である。ロード・バッファの待ち行列２０の先頭にあ
る別のLOADが、前回の内部キャッシュ２４のミスにより
内部キャッシュ２４へデータを返還しているのと同一の
サイクル中に、内部キャッシュ２４に対するヒットを調
べるため、新たにディスパッチされたLOADがタグＲＡＭ
のポート４３（図４に示す）へのアクセスが必要である
なら、そのサイクル中にそれらの内の１つのみが処理さ
れる。１サイクル当たり１つのLOADが発行されれば、タ
グＲＡＭのデータ・ポート４３（図４に示す）は、内部
キャッシュ２４に対するヒットを調べるため各サイクル
の間に使用される。従って、ロード・バッファからの古
いLOADは、返還されたロード・データを書き込むべくタ
グＲＡＭにアクセスすることはできない。１サイクル当
たり１つのLOADが発行されれば、入力されたLOADのうち
の１つが内部キャッシュ２４にミスする時、最終的にプ
ロセッサは停止する。そして、その後の全てのLOADは、
ロード・バッファ２０内で待ち行列となる。ロード・バ
ッファ２０内のLOADはタグＲＡＭのポート４３（図４に
示す）にアクセスできないことから、ロード・バッファ
２０は自身が保持する如何なるLOADに対しても首尾よく
サービスできない。ロード・バッファ２０内に充分な数
のLOADが蓄積されて、ロード・バッファ２０のメモリの
空き領域がなくなることにより、そのサイクル中にLOAD
はディスパッチされ得ず、プロセッサ１２（図１に示
す）は次のサイクル中に停止する。

【００１７】この発明は前述した事情に鑑みてなされた
ものであって、その目的は、タグ・アレイ及びデータ・
アレイを同時にアクセスできることを許容し、プロセッ
サを停止させることなく、そのプロセッサの１サイクル
当たり１つのLOAD命令という処理量を維持することが可
能な方法及び装置を提供することにある。

【００１８】

【課題を解決するための手段】以下の手段により、上記
目的を達成するための方法及び装置が構成されている。

【００１９】プロセッサのロードストア・ユニットにお
いて、各サイクル中にLOAD命令を含む命令ストリームを
実行する際、プロセッサが停止することを防ぐために、
１サイクル当たり１つのLOAD命令という処理量を維持す
ることが望まれている。

【００２０】ロード・バッファはLOAD命令の待ち行列を
形成することから、新たなLOAD命令がキャッシュ・ヒッ
トであるかを調べるべくタグ・アレイにアクセスしてい
る時、キャッシュにミスした古いLOAD命令に対するキャ
ッシュのタグは後で返還する。従って、古い返還された
タグ及び新たなLOADは、キャッシュのタグ・アレイに対
して競合する。本発明に基づき、新たなLOAD命令がキャ
ッシュ・ヒットであるかを調べるべくタグ・アレイにア
クセスしているのと同一のサイクル中に、返還されてい
る古いLOAD命令のデータのミスによるタグ・アレイの同
時アクセスをキャッシュの２重ポートのタグ・アレイは
許容する。

【００２１】ロード／ストア・ユニットのキャッシュ内
のデータ・アレイ・アクセスからタグ・アレイ・アクセ
スを切り離すための、ロード・バッファ内のヒット・ビ
ットを演算しかつ管理するための方法及び装置により、
新たにディスパッチされたLOADは古いLOADが全て処理さ
れるまでロード・バッファ内の待ち行列で待機した後、
その新たなLOADがキャッシュをヒットするか否かを確定
する。このように、LOADがロード・バッファの待ち行列
の先頭に届くとき、タグＲＡＭは再びアクセスされる必
要はない。

【００２２】ロード・バッファ中のデータ構造は、本発
明の方法及び装置を容易にする。ロード・バッファのデ
ータ・エントリは、LOAD命令を処理し、かつ緩衝される
べき今後のLOAD命令に対するヒット・ビットを演算する
のに必要なヒット・ビット及び全ての情報を備えてい
る。

【００２３】キャッシュのデータ・アレイ部及びタグ・
アレイ部のアクセスが切り離されているLOAD命令をサー
ビスするための方法及び装置は、LOADがタグ・アレイに
再度アクセスすることなくロード・バッファ内にて遅延
した後、データ・アレイの遅延アクセスを許容する。そ
のため、１サイクル当たり１つのLOADという処理量の持
続が達成される。

【００２４】ロード・バッファ内における待ち行列の先
頭にLOADが届き、そのLOADは１次キャッシュをミスする
場合、かつロード・バッファ内の古い未決の各LOADがロ
ード・バッファの待ち行列の先頭に届くとすぐに、１次
キャッシュのヒットとなる場合、LOADがロード・バッフ
ァの待ち行列の先頭に届く前に、１次キャッシュをミス
するであろうLOADに対する外部キャッシュへのアクセス
が始まる。２次キャッシュのポインタはロード・バッフ
ァのエントリを参照する。そのエントリは外部キャッシ
ュにアクセス可能な最も古い未決のLOAD命令を含む。従
って、本発明に基づく方法及び装置は、ロード・バッフ
ァ内の２つの別々のLOADに対して、１次及び２次キャッ
シュへのアクセスが同時に起きることを許容する。

【００２５】

【発明の実施の形態】近年のプロセッサは、物理アドレ
ス空間とは別の仮想アドレス空間を支援する。仮想アド
レスは、プロセッサが記憶位置を指定するために用いる
ラベルである。プロセッサは、自身が仮想アドレスの記
憶位置にアクセスできる限り、実際に記憶位置が物理メ
モリ内のどこに存在するかについては関与しない。プロ
セッサ・アーキテクチャの仕様により、支援されるべき
一定の仮想アドレス空間が定義される。コンピュータ・
システムを管理するオペレーティング・システムは、仮
想アドレス空間からどのように物理メモリへマッピング
されるのかに関して、柔軟性がある。従って、仮想アド
レスから物理アドレスへの変換が必要となる。

【００２６】図５は、本発明に基づく機能ユニット５０
を示す概略的なブロック図である。ロード・バッファ５
４はタグＲＡＭ５８、データＲＡＭ５９及びメモリ管理
ユニット５６に接続されている。メモリ管理ユニット５
６はタグＲＡＭ５８及びデータＲＡＭ５９に接続される
とともに、両ＲＡＭ５８，５９を管理する。内部キャッ
シュ５１は、仮想的に指標付けされるとともに、物理的
にタグ付けされている。仮想的に指標付けされたキャッ
シュでは、仮想アドレスの下位ビットはキャッシュ・ラ
インへのダイレクト・マッピング、即ち指標付けを提供
するために使用される。これに対して、タグは物理アド
レスの一部としての上位ビットである。従って、キャッ
シュ・ヒットが起きたか否かを確定するために、上位の
物理アドレス・ビット５２は、指標によって参照される
キャッシュ・ラインに対するタグ・フィールド内に格納
されているタグ５３と比較される。

【００２７】未決のLOADは順に実行されるべきである。
LOADが命令ストリーム内に連続して存在するなら、それ
らのLOADが返還するデータは、命令ストリーム内に存在
した順にレジスタファイルへ書き込まれるべきである。
プログラマーがそれとは正反対の順に使用するする場
合、LOADは間違った順に返還されることが許容されるの
であれば、古いLOADにより新たなLOADの結果が消去され
てしまう。LOADが内部キャッシュ５１にミスする時、そ
のLOADはロード・バッファ５４の中で待ち行列をなす。
その次のサイクル中に、内部キャッシュ５１内でヒット
したLOADはディスパッチされることがある。その結果、
通常は検索が迅速に行われ、内部キャッシュ５１からデ
ータが返還されることになる。しかしながら、メモリ管
理ユニット５６を通じて第２キャッシュ・サブシステム
としての外部キャッシュ５５又はメイン・メモリにアク
セスすべき未決の古いLOAD命令が存在するため、新たな
LOADはロード・バッファ５４内で待ち行列をなす。その
ため、未決のLOADが返還するまでそのLOADは返還されな
い。LOADが順にデータを返還すべき第２の理由、或いは
より重要な理由は、ソフトウエアのトラップ及び割り込
みが実行し難くなることから、LOADを間違った順に（ア
ウト・オブ・オーダーで）実行するとロード／ストア・
ユニットの複雑さを大幅に増大させてしまうことであ
る。

【００２８】ソフトウエアのトラップ及び割り込みのよ
うな例外的な条件を取り扱うために、ロード・バッファ
５４内のLOADには最初にタグが付けられる。そのため、
LOADはパイプライン化されたプロセッサの全てのステー
ジを首尾よく通過することにより、そのLOADの実行が完
了する。これよりも前に、例外的な条件が起きるなら、
実行完了前の全てのLOADは消去されなければならないと
ともに、ロード・バッファ５４は「１つリセット」（"r
ewound" ）する。

【００２９】ロード・バッファ５４は順にデータをレジ
スタへ返還する。古いLOADが外部キャッシュ５５へのア
クセス待ちの状態であれば、内部キャッシュ５１をヒッ
トする新たなLOADをサービスする１つの方法は、新たな
LOADに対するデータを検索するとともに、古いLOADがそ
のデータを返還するまでそのデータを緩衝することであ
る。しかしながら、LOADが数ワードのデータを返還する
ことがあり、かついくつかのLOADが緩衝される必要があ
るため、この選択を実施することは非常に高価なものと
なる。この全てのロード・データを緩衝する必要がある
領域は、広すぎるため実際この選択を実施することはで
きない。

【００３０】本発明に基づき、外部キャッシュ５５から
古いLOADが返還されるのを待つ間、新たなLOADからのロ
ード・データを緩衝する代わりに、ロード・バッファ５
４は新たなLOADが内部キャッシュ５１にヒットしたかミ
スしたかを記録し、それが内部キャッシュ５１にヒット
したのであれば、その後に再び内部キャッシュ５１をア
クセスする。ヒット／ミスの確定に必要な唯一のメモリ
・ポートは、内部キャッシュ５１のタグ・ポート５７で
ある。従って、ロード・バッファ５４が空でない時、パ
イプラインへ入力され新たにディスパッチされたLOAD
は、内部キャッシュ５１のタグＲＡＭ５８の一部のみに
アクセスする。続いて、LOADがロード・バッファの待ち
行列の先頭に来るとともに、内部キャッシュ５１にヒッ
トしたことが記録される時、それは内部キャッシュ５１
のデータ５９の一部のみにアクセスすることから、タグ
ＲＡＭ５８を用いて新たにディスパッチされたLOADは影
響を受けない。

【００３１】内部キャッシュ５１を完全に更新するため
に、ロード・データが外部キャッシュ５５から返還され
る時、両タグＲＡＭ５８及びデータＲＡＭ５９は書き込
まれなければならない。ロード・バッファ５４が空であ
る場合、内部キャッシュ５１のデータＲＡＭ５９のポー
トは、内部キャッシュ５１にミスした古いLOADに対して
用いられる。その古いLOADは、外部キャッシュ５５から
返還されるとすぐに内部キャッシュ５１を満たす（割り
付ける）。しかしながら、タグ・ポート５７はヒットし
たかを調べるため、新たにディスパッチされたLOADによ
り使用されるので、そのポート５７は使用できない。本
発明に基づき、プロセッサ１２（図１に示す）を停止さ
せないようにすべく、かつ最適な性能を達成すべく、内
部キャッシュ５１のタグＲＡＭ５８は第２ポート５５０
を有する。そのポート５５０は主として、外部キャッシ
ュ５５にアクセスしたロード・バッファ５４内の古いLO
ADから返還されたデータを有するタグＲＡＭ５８を満た
すために備えられている。従って、タグＲＡＭ５８の第
１ポート５７は、内部キャッシュ５１にヒットしたかを
調べるべく新たにディスパッチされたLOADによって用い
られ、タグＲＡＭ５８の第２ポート５５０は、ロード・
バッファ５４内の古いLOADから返還された記憶位置のタ
グを有するタグＲＡＭ５８を満たすべく同時に用いられ
る。

【００３２】また、第２タグＲＡＭのポート５５０は、
多層キャッシュ及び／又は多重処理を行う環境において
便利である。キャッシュの一貫性を確実にする処理であ
る「詮索」（"snoops"）は、命令の発行を停止すること
なくこのポート５５０を使用することができる。ロード
・バッファ５４が空であれば、その詮索により並行して
サービスされ得る。ロード・バッファ５４が空でなけれ
ば、LOADは記録されたヒットしたビットと共に、通常の
待ち行列をなす。この場合、その詮索によりヒットした
これらのビットが適切に影響を受けることを保証する特
別な機構がある。

【００３３】本発明に基づき、ロード・バッファ５４へ
転送される各エントリは「ヒット・ビット」（"hit bi
t" ）６０（図６に示す）を有する。そのビット６０
は、LOADが最初にロード／ストア・ユニット１０（図１
に示す）へディスパッチされる時、指定された記憶位置
に対するタグがタグＲＡＭ５８内にあるか否かを示すも
のである。ロード・バッファ５４内にて待ち行列をなし
ていたLOADがついに待ち行列５５１の先頭に届く時に、
ヒット・ビットが活性状態（asserted）であれば、ロー
ド・バッファ５４によりデータ・アレイは盲目的にアク
セスされる。最初のヒット／ミスの確定とLOADがロード
・バッファ５４の待ち行列の先頭に届いた時との間の中
間の時間に、与えられたLOADのヒット／ミスの状態を変
更するという幾つかの事象が起きることがある。従っ
て、内部キャッシュ５１のヒット情報をログするととも
に、これらの事象が起きるように適切に維持管理するこ
とが重要である。

【００３４】ヒット・ビット６０（図６に示す）に影響
を及ぼす事象は、LOADがタグ・アレイ５８をアクセスし
た後であってデータ・アレイ５９をアクセスする以前
に、内部キャッシュ５１の状態を変更する。古いLOADの
割り付けが外部キャッシュ・ラインの内容を置き換える
時、最初の事象が起きる。ここで、そのラインはロード
・バッファ５４内の新たなLOADのソース・アドレスによ
ってマッピングされたものである。これにより内部キャ
ッシュ５１のヒットは内部キャッシュ５１のミスに変化
される。例えば、アドレスＸ，Ｙが同一の内部キャッシ
ュ・ラインへダイレクト・マッピングされる、以下に示
すプログラムの一部を参照されたい。ＬＯＡＤＸ，ｒ
０はメモリ・アドレスＸの内容をレジスタｒ０へロード
するという要求である。

【００３５】ＬＯＡＤＷ，ｒ1 ＬＯＡＤＸ，ｒ1 ＬＯＡＤＹ，ｒ2 ＬＯＡＤＺ，ｒ3 第１LOAD命令を実行する前に、Ｙが内部キャッシュ５１
内でキャッシュされたと仮定する。加えて、第１LOADは
内部キャッシュ５１にミスしたと仮定する。Ｙ（Ｘでは
ない）は関連したキャッシュ・ラインを占有しているこ
とから、第２LOADがディスパッチされるとミスが起き
る。第２LOADはロード・バッファ５４へ転送され、外部
キャッシュ５５に現在アクセスしている第１LOAD命令の
次に配置される。ここで、第３LOADがディスパッチされ
る。Ｙが内部キャッシュ５１内に位置することから、第
３LOADは内部キャッシュ５１にヒットする。第１LOADが
ミスした時、ロード・データ返還の適切な順序を維持す
るために、たとえ後続のLOADが内部キャッシュ５１にヒ
ットしても、後続のLOADはロード・バッファ５４内に緩
衝されなければならない。そのため、第３LOADはロード
・バッファ５４中へ転送され、第２LOADの次に配置され
る。外部キャッシュ５５が第１LOADを返還した後、第２
LOADは外部キャッシュ５５へアクセスし始める。第２LO
ADが返還する時、そのLOADは関連する内部キャッシュ・
ラインを割り付ける（満たす）。第３LOADがロード・バ
ッファ５４の待ち行列５５１の先頭に届く時、第２LOAD
が内部キャッシュ５１内のラインを書き直したことによ
り、指定されたデータはもう内部キャッシュ５１内には
ない。従って、第３LOADは古い第２LOADにより、ヒット
からミスへ変更される。

【００３６】ロード・バッファ５４内のLOADのヒット／
ミスの状態に影響を及ぼす別の事象は、古いLOADにより
指定されたデータの割り付けである。これは内部キャッ
シュ５１のミスから内部キャッシュ５１のヒットへの変
化に影響を及ぼす。例えば、以下に示すプログラムの一
部を参照されたい。

【００３７】ＬＯＡＤＷ，ｒ1 ＬＯＡＤＸ，ｒ2 ＬＯＡＤＸ，ｒ3 Ｗ及びＸは共に内部キャッシュ５１内にはないと仮定す
る。第１LOADがディスパッチされる時、ミスが起きて第
１LOADはロード・バッファ５４内に緩衝される。第２LO
ADがディスパッチされる時、ミスが起きて第２LOADは内
部キャッシュ５５に現在アクセスしている第１LOADの次
に位置するようにロード・バッファ５４に転送される。
第３LOADがディスパッチされる時、Ｘはまだ内部キャッ
シュ５１内にはないため、更にミスが起きる。しかしな
がら、第２LOADがロード・バッファ５４の待ち行列の先
頭に届いて内部キャッシュ５１を満たす時、Ｘはその後
に内部キャッシュ５１内に位置する。このため、第３LO
ADはＸに対して外部キャッシュ５５へ転送される必要は
なくなる。その代わりに、第３LOADに対するミスは第２
LOADによってヒットに変更される。

【００３８】本発明によれば、ロード・バッファの待ち
行列５５１の先頭にあるLOADに対して、外部キャッシュ
５５へのアクセスは、前回のLOADが外部キャッシュ５５
の使用を完了した後、可能な限り早く開始される。これ
は、そのLOADのヒット／ミスの状態が分かっているから
である。時には、外部キャッシュ５５へのアクセスは更
に早く起きることさえある。例えば、待ち行列５５１の
先頭にあるLOADが活性状態であるヒット・ビット６０
（図６に示す）を有するなら、それは外部キャッシュ５
５へアクセスする必要はない。このため、次に位置する
LOADが不活性状態（deasserted）であるヒット・ビット
６０（図６に示す）を有するなら、待ち行列の先頭の次
に位置するLOADは、外部キャッシュ５５へアクセスし始
めることができる。この方法を達成すべく、外部キャッ
シュ・ポインタが使用され、外部キャッシュ５５へアク
セスする必要がある最も古いロード・バッファエントリ
を指定する。外部キャッシュ５５のミス、即ち例外が存
在する場合、外部キャッシュ・ポインタは、内部キャッ
シュ５１をヒットした最も新たなLOADをとばしながら後
方へ向かっている間に、リセットする機能を備えたロー
ド／ストア・ユニットを提供する。

【００３９】ロード・バッファ５４の設計は、一旦LOAD
がロード・バッファ５４に入ってからのヒット又はミス
の状態を知ることに基づいているため、外部キャッシュ
５５へのアクセスを可能な限り早く開始できる。ロード
・バッファ５４の待ち行列５５１の先頭に届いた直後の
LOADのヒット状態は、LOADがタグＲＡＭ５８にアクセス
した時その最初の状態とは異なるという上記の２つの場
合に、古いLOADが内部キャッシュ５１に影響を及ぼすこ
とになる。従って、ロード・バッファ５４の新たなエン
トリに対するヒット・ビット６０（図６に示す）は、タ
グの比較５５２とロード・バッファ５４内に既に存在す
るLOADのアドレスとの結果から導出される。一旦ロード
・バッファ５４中に書き込まれると、ヒット・ビット６
０（図６に示す）は変更されない。このため、新たにデ
ィスパッチされたLOAD命令は、ロード・バッファ内で未
決のLOADと比較される。必要であれば、ヒット・ビット
６０はロード・バッファ５４へ転送される途中で変更さ
れる。例えば、同一のタグを伴い同一のラインに対する
別のLOADが生じた時、LOADが内部キャッシュ５１にミス
するとともに、外部キャッシュ５５にアクセスしている
なら、後者のLOADをヒットに変更することを前もって知
ることが望ましい。それにより、ロード／バッファ・ユ
ニット５０はそのLOADに対して外部キャッシュ５５へ出
向くことはない。同様に、第２LOADが同一のラインにあ
るが、そのLOADは内部キャッシュ５１内に存在するライ
ンのタグを有するなら、そのLOADが未決のLOADと置き換
えられることが望ましい。それにより、ロード／バッフ
ァ・ユニット５０は、そのLOADに対して実際にアクセス
が起きる前に、外部キャッシュ５５へのアクセスを開始
することができる。

【００４０】図６は、ロード・バッファ６５内の情報の
編成を示す。少なくとも、ロード・バッファ６５は宛先
レジスタ・アドレス６１、内部キャッシュ５１（図５に
示す）への指標６２、ロードされるメモリ・アドレスと
関連したタグ６３、及びロードされるメモリ・アドレス
のソース・アドレス６４を格納しなければならない。ロ
ードされるソース・アドレス６４に関しては、アーキテ
クチャ内の仮想から物理への変換を行う場所に依存し
て、ロード・バッファ６５は物理アドレス又は仮想アド
レスの何れかを格納する。どちらの場合においても、タ
グ６３又は指標６２の何れか、或いは両者６３，６２は
ソース・メモリ・アドレス６４の部分集合である。内部
キャッシュ５１（図５に示す）が仮想的に指標付けされ
るとともに、仮想的にタグ付けされているなら、タグ６
３及び指標６２は仮想アドレスとほぼ等しい。内部キャ
ッシュ５１（図５に示す）が物理的に指標付けされると
ともに、物理的にタグ付けされるなら、タグ６３及び指
標６２は物理アドレスとほぼ等しい。内部キャッシュ５
１（図５に示す）が仮想的に指標付けされるとともに、
物理的にタグ付けされるなら、タグ６３は物理アドレス
の上位ビットで表され、指標６２は仮想アドレスの下位
ビットで表される。内部キャッシュ５１（図５に示す）
が物理的に指標付けされるとともに、仮想的にタグ付け
されるなら、タグ６３は仮想アドレスの上位ビットで表
され、指標６２は物理アドレスの下位ビットで表され
る。図６に示すように、ロード・バッファ６５のデータ
編成は、仮想的に指標付けされるとともに、物理的にタ
グ付けされたキャッシュ５１を伴って使用されるように
なっている。そのキャッシュ５１内で行われる仮想から
物理へのアドレス変換は、ロード・バッファ６５内のエ
ントリに先立って行われる。従って、タグ６３は独立し
て格納されることはない。新たにディスパッチされたLO
ADがロード・バッファ６５内で待ち行列となる時、LOAD
のヒット・ビット６０の演算が行われる。「未処理のヒ
ット・ビット」（"raw hit bit" ）の値５５２（図５に
示す）は、LOADのアドレスによって指標付けされたタグ
ＲＡＭのエントリをそのアドレスのタグ６３と比較する
ことにより確定される。LOADのアドレスの指標６２は、
同時にロード・バッファ６５内の全ての指標と比較され
る。ロード・バッファ６５内の各エントリ６６に対し
て、先の比較により指標整合信号が生成される。指標整
合信号が活性状態であるそれらのエントリのみが、未処
理のヒット・ビット５５２（図５に示す）の値を変更で
きる。指標整合信号が活性状態である最新のエントリに
対して、LOADのアドレスのタグは指標整合信号が活性状
態である最新のエントリと比較される。これにより、
「タグ整合信号」（"tag match signal"）が生成され
る。全てのエントリに対して、指標整合信号、及びタグ
整合信号が活性状態であるとともに、未処理のヒット・
ビット５５２（図５に示す）が不活性状態であるなら、
新たなLOADに対するヒット・ビットは活性状態となる
（活性状態生成工程）。この場合、古いLOADは、新たに
ディスパッチされたLOADがロード・バッファの待ち行列
５５１（図５に示す）の先頭に届くまでに、内部キャッ
シュ５１（図５に示す）を指定されたデータで満たす。
このため、ミスがヒットに変更される。一方、全てのエ
ントリに対して、指標整合信号が活性状態であり、タグ
整合信号が不活性状態であるとともに、未処理のヒット
・ビット５５２（図５に示す）が活性状態であるなら、
新たなLOADに対するヒット・ビットは不活性状態となる
（不活性状態生成工程）。この場合、古いLOADは、新た
にディスパッチされたLOADがロード・バッファの待ち行
列５５２（図５に示す）の先頭に届くまでに、指定され
たデータを書き換える。このため、ヒットがミスに変更
される。複数のロード・バッファのエントリ６６が活性
状態の指標整合信号を有している場合、最新のエントリ
は、新たにディスパッチされたLOADのヒット・ビット６
０の確定を制御する。上述した論理は、以下の方法によ
り達成される。ロード・バッファ内に１つでも指標の一
致が見つかれば、新たにディスパッチされたLOADのヒッ
ト・ビット６０は、整合指標６２を有する最も新しいエ
ントリのタグ６３の整合信号の値を受け取る。ロード・
バッファ６５内に指標の一致が見つからなければ、ヒッ
ト・ビット６０は未処理のヒット・ビット５５２（図５
に示す）の値を受け取る。

【００４１】図７に示すように、４つの有効なエントリ
を有するハードウエアの構造は、ロード・バッファ内の
新しいエントリに対するヒット・ビット７０の値を生成
する。同図に示すように、指標₀ ７１とタグ₀ ７２はそ
れぞれ最も新しいエントリに対する指標６２とタグ６３
（共に図６に示す）を表し、指標₃ ７３とタグ₃ ８９は
それぞれ最も古いエントリに対する指標６２とタグ６３
（共に図６に示す）を表している。指標比較回路として
の比較器７４は、新しいロード指標７５をロード・バッ
ファ６５（図６に示す）内に現在ある全ての指標７６と
比較する（比較工程）。指標整合信号活性状態生成回路
としての優先順位回路７７は１つの出力（指標整合信
号）を活性状態にしたり、全く出力を活性状態にしなか
ったりする。最も新しいエントリからの活性状態である
整合信号のみが、優先順位回路７７の出力７８で活性状
態となる。活性状態の入力７９が全くなければ、活性状
態の出力７８も全く得られない。優先順位回路７７の出
力７８のうち１つが活性状態であれば、パス・ゲート８
０は対応するタグ８１をタグ比較バス８２上へ転送す
る。タグ比較回路としての比較器８３は新しいLOADのタ
グ８４を比較バス８２上のタグと比較する（比較工
程）。両者が同一であると検出されたなら、タグ整合信
号８５が活性状態となる。１つ以上の指標７６が一致し
たなら、論理和ゲート８６は、ヒット・ビットの値７０
に対するタグ整合信号８５を選択するために、ヒット・
ビット割り付け回路としてのマルチプレクサ８７へ制御
する。どの指標７６も一致しないなら、論理和ゲート８
６はヒット・ビットの値７０として未処理のヒット・ビ
ット８８を選択するために、マルチプレクサ８７へ制御
する。

【００４２】上述したヒット・ビットの演算を行うハー
ドウエアは、一例として表されている。同じ目的を達成
する多くの論理的な実現方法がある。例えば、比較器７
４の数を減らすことにより、ヒット・ビットを演算する
待ち時間を減少させるべく、各ロード・バッファエント
リに対する別々のタグ整合信号の生成を行ってもよい。
特許請求の範囲は、そのような多数の別の実施形態を含
んでいる。

【００４３】本発明の好ましい実施形態は、上述した全
ての特徴を含んでいる。図５は、好ましい実施形態に基
づいた機能ユニット５０の構造を示す概略的なブロック
図である。機能ユニット５０は、内部の１次キャッシュ
５１及び外部の２次キャッシュ５５を備えている。両キ
ャッシュ５０，５１はダイレクト・マッピングされる。
内部キャッシュ５１（図５に示す）はタグＲＡＭアレイ
５８及びデータＲＡＭアレイ５９に別れている。LOADは
指定されたソース・データに対する仮想アドレスを指定
する。タグＲＡＭ配列５８は２つのアクセス・ポート５
７，５５０を有する。第１アクセス・ポートとしての第
１ポート５７は主として、入力されたLOADのソース・ア
ドレス５５３に対するタグ５３の検索に用いられる。第
２アクセス・ポートとしての第２ポート５５０は主とし
て、内部キャッシュ５１中に割り付けられている記憶位
置に対する第２タグの書き込みに用いられる。２つのア
クセス・ポート５２，５５０が別々であるため、第１タ
グ５３の検索及び第２タグの書き込みを同時に行うこと
ができる。

【００４４】内部キャッシュ５１は仮想的に指標付けさ
れるとともに、物理的にタグ付けされている。外部キャ
ッシュ５５は物理的に指標付けされるとともに、仮想的
にタグ付けされている。そのため、仮想アドレスの下位
ビットは内部キャッシュ５１内のキャッシュ・ラインを
表し、物理アドレスの下位ビットは外部キャッシュ５５
内のキャッシュ・ラインを表している。両キャッシュ５
１，５５において、物理アドレスの上位ビットはタグを
表している。変換索引バッファ５５４（TLB ）はアドレ
ス変換器の一部を構成し、変換可能な仮想アドレスから
物理アドレスへの変換の一部を格納する。キャッシュ５
１，５５は物理的にタグ付けされているため、TLB ５５
４の出力５５５の上位ビット５２は、タグＲＡＭ５８か
ら検索されたタグ５３と比較される。タグ比較器５５６
（未処理ヒット比較回路、及び未処理ヒット・ビット活
性状態生成回路を構成する。）がその同一性を検出した
ら、指定されたデータは現在内部キャッシュ５１内に存
在することになる。ロード・バッファ５４が空であれ
ば、キャッシュ・ヒットにより内部キャッシュ５１のデ
ータＲＡＭ配列５９からデータを即座に返還できる。し
かしながら、全てのLOADがデータを順に返還する必要が
あることから、ロード・バッファ５４が空でない場合に
は、LOADは内部キャッシュ５１にヒットしたとしてもLO
ADは待ち行列をなす。ロード・バッファ５４が空でない
なら、それは１つ以上のLOADが内部キャッシュ５１にミ
スしたことが原因である。このため、後続のLOADは内部
キャッシュ５１をミスしたLOADを待たなければならな
い。

【００４５】ロード・バッファ５４内にて待ち行列をな
す前に内部キャッシュ５１にヒットしたLOADによって指
定されたデータは、そのLOADがロード・バッファ５４の
待ち行列５５１の先頭に届くまでに内部キャッシュ５１
から取り除かれる。このため、LOADが内部キャッシュ５
１の待ち行列５５１の先頭に届く時に、内部キャッシュ
５１内で指定されたデータが用いられるか否かを予測す
べく演算が行われる。演算は、タグ比較器５５６により
生成されたヒット信号５５２や、ロード・バッファ５４
内で待ち行列をなすLOADの指標６２及びタグ６３（共に
図６に示す）を含む。

【００４６】本発明は、幾つかの新規で非自明な特徴を
含む望ましい実施形態に関して詳述されている。この実
施形態は例として開示されている。本発明の趣旨を逸脱
しない範囲おいて、添付の特許請求の範囲によりカバー
されようとする創作力に富んだ特徴と均等なものが多々
ある。

【図面の簡単な説明】

【図１】スーパースカラ・プロセッサを示す概略的な
ブロック図。

【図２】ロード機能ユニットを示す概略的なブロック
図。

【図３】ダイレクト・マッピングされるキャッシュの
動作を示す図。

【図４】ダイレクト・マッピングされるキャッシュの
実行を示す図。

【図５】本発明に基づくロード機能ユニットを示す概
略的なブロック図。

【図６】本発明に基づくロード・バッファ内のデータ
の編成を示す図。

【図７】本発明に基づくヒット・ビットの演算を実行
するハードウエアを示す概略図。

【符号の説明】

５０…ロード／バッファ・ユニット、５１…内部キャッ
シュ、５２…物理アドレス・ビット、５３…第１タグ、
５４，６５…ロード・バッファ、５５…２次キャッシュ
としての外部キャッシュ、５６…メモリ管理ユニット、
５７…第１アクセス・ポートとしてのタグ・ポート、５
８…タグ・アレイ、５９…データ・アレイ、６０…ヒッ
ト・ビット、６２…指標、６３…タグ、７４…指標比較
回路、７７…指標整合活性状態生成回路としての優先順
位回路、８３…タグ比較回路としてのタグ比較器、８７
…ヒット・ビット割り付け回路としてのマルチプレク
サ、５５０…第２アクセス・ポートとしての第２ポー
ト、５５４…変換索引バッファ（５５４はアドレス変換
器の一部を構成する）、５５６…未処理ヒット比較回路
及び未処理ヒット・ビット活性状態生成回路としてのタ
グ比較器。

───────────────────────────────────────────────────── フロントページの続き (72)発明者デールグリーンレイアメリカ合衆国 95030 カリフォルニア州ロスゲトスオーバールックロード 18401 (72)発明者レスリーコーンアメリカ合衆国 94539 カリフォルニア州フレモントローズメアードライブ 43967 (72)発明者ミンイエイアメリカ合衆国 94301 カリフォルニア州パロアルトホーマーアヴェニュー 229 (72)発明者グレッグウイリアムズアメリカ合衆国 94301 カリフォルニア州パロアルトエヴェレットアヴェニュー 552

Claims

【特許請求の範囲】

【請求項１】選択された記憶位置からのデータを格納
するキャッシュのデータ・アレイと、選択された記憶位置のタグを格納するキャッシュのタグ
・アレイと、各記憶位置がデータを含み、その複数の記憶位置を管理
するとともに、キャッシュのデータ・アレイ及びキャッ
シュのタグ・アレイに接続されたメモリ・ユニットと、キャッシュのデータ・アレイ、キャッシュのタグ・アレ
イ及びメモリ・ユニットに接続されたロード・バッファ
とを備え、前記タグ・アレイは第１タグを検索するための第１アク
セス・ポートと、キャッシュのタグ・アレイ中に選択さ
れた記憶位置の第２タグを書き込むための第２アクセス
・ポートとを有し、第１タグの検索及び第２タグの書き
込みが同時に発生し得、かつ、前記メモリ・ユニットは、メモリ・ユニット自身又はキ
ャッシュのデータ・アレイの何れかに対する連続的なア
クセスついてのLOAD命令の待ち行列を形成するための１
つ以上のエントリを有するプロセッサの機能ユニット。
【請求項２】仮想アドレスの入力及び物理アドレスの
出力を有するアドレス変換器と、タグ・アレイの第１アクセス・ポートから検索された第
１タグをアドレス変換器からの物理アドレスの出力の一
部と比較するとともに、第１タグと物理アドレスの出力
の一部が一致する場合にヒット信号を活性状態にするタ
グ比較器とを更に備えた請求項１に記載のプロセッサの
機能ユニット。
【請求項３】メモリ・ユニットは、キャッシュのデー
タ・アレイに格納されるデータよりも多くのデータをキ
ャッシュするとともに、メモリ管理ユニットとのインタ
ーフェイスを提供する第２キャッシュ・サブシステムを
備えた請求項１に記載のプロセッサの機能ユニット。
【請求項４】アドレス変換器は、仮想アドレスから物
理アドレスへの変換可能な全ての変換の一部を管理する
変換索引バッファを備えた請求項２に記載のプロセッサ
の機能ユニット。
【請求項５】新たなLOAD命令はロードされる新たなLO
ADのアドレスを指定するとともに、新たなLOADの指標と
新たなLOADのタグとを有し、ロード・バッファはLOAD命
令の待ち行列を形成するとともに、タグと、指標と、各
LOAD命令に対するヒット・ビット情報と、指標整合信号
と、タグ整合信号とを管理し、ヒット・ビットの値は新
たなLOAD命令がロード・バッファ内で最も古いLOAD命令
になる時、LOAD命令により指定されたデータがキャッシ
ュ内に存在するか否かを示すことにより新たなLOAD命令
をサービスできる、新たなLOAD命令に対するヒット・ビ
ットの生成方法において、新たなLOADのタグをキャッシュ内に格納されたキャッシ
ュのタグと比較し、その比較により新たなLOADのタグと
キャッシュのタグとが同一であると検出された場合、未
処理のヒット・ビットを活性状態とし、その比較により
新たなLOADのタグとキャッシュのタグとが異なると検出
された場合、未処理のヒット・ビットを不活性状態とす
る比較工程と、新たなLOADの指標をロード・バッファ内に管理された各
指標と比較し、新たなLOADの指標が各LOAD命令に対する
各指標と等しい場合、ロード・バッファ内の一致したLO
AD命令に対する指標整合信号を活性状態とし、新たなLO
ADの指標が各LOAD命令に対する各指標と異なる場合、ロ
ード・バッファ内の不一致であったLOAD命令に対する指
標整合信号を不活性状態とする比較工程と、１つ以上の指標整合信号が活性状態である場合に、新た
なLOADのタグを、活性状態である指標整合信号を有する
最新のLOAD命令に対するロード・バッファ内に管理され
たタグと比較する比較工程と、 LOAD命令が活性状態の指標整合信号を全く備えていない
場合、未処理のヒット信号と同一の値をヒット・ビット
に割り付ける割り付け工程と、新たなLOADのタグと、活性状態の指標整合信号を有する
最新のLOAD命令に対してロード・バッファ内で管理され
るタグとが同一である場合、及び１つ以上のLOAD命令が
活性状態の指標整合信号を有する場合に、ヒット・ビッ
トを活性状態とする活性状態生成工程と、新たなLOADのタグと、活性状態の指標整合信号を有する
最新のLOAD命令に対してロード・バッファ内で管理され
るタグとが異なる場合、及び１つ以上のLOAD命令が活性
状態の指標を有する場合に、ヒット・ビットを不活性状
態とする不活性状態生成工程とを有する新たなLOAD命令
に対するヒット・ビットの生成方法。
【請求項６】新たなLOADのタグは、仮想アドレスに対
応する物理アドレスの上位ビットである請求項５に記載
の新たなLOAD命令に対するヒット・ビットの生成方法。
【請求項７】ロード・バッファ内で管理されるタグは
物理アドレスの上位ビットである請求項６に記載の新た
なLOAD命令に対するヒット・ビットの生成方法。
【請求項８】新たなLOADの指標は仮想アドレスの下位
ビットである請求項７に記載の新たなLOAD命令に対する
ヒット・ビットの生成方法。
【請求項９】ロード・バッファ内で管理される指標は
仮想アドレスの下位ビットである請求項８に記載の新た
なLOAD命令に対するヒット・ビットの生成方法。
【請求項１０】 LOAD命令の待ち行列を形成するロード
・バッファ内のLOAD命令を管理するためのロード・バッ
ファ・エントリにおいて、要求されたデータが検索されるべきソースを指定するソ
ース・アドレス情報と、要求されたデータが転送されるべき宛先を指定する宛先
アドレス情報と、 LOAD命令がサービスされる時、要求されたデータがキャ
ッシュ内にあるか否を示すヒット・ビットとを有するロ
ード・バッファ・エントリ。
【請求項１１】要求されたデータが格納され得るキャ
ッシュラインを指定する指標情報と、 LOAD命令がサービスされた後、キャッシュライン内に格
納される記憶位置を指定するタグ情報とを更に有する請
求項１０に記載のロード・バッファ・エントリ。
【請求項１２】タグ情報は物理アドレスの上位ビット
である請求項１１に記載のロード・バッファ・エント
リ。
【請求項１３】指標情報は仮想アドレスの下位ビット
である請求項１２に記載のロード・バッファ・エント
リ。
【請求項１４】ダイレクト・マッピングされるキャッ
シュを備えたシステムにて、メモリ・アドレスの内容に
対するLOAD命令をサービスする方法において、１つ以上の古いLOAD命令がダイレクト・マッピングされ
たキャッシュを変更する将来のある時期に、メモリ・ア
ドレスの内容がダイレクト・マッピングされたキャッシ
ュ内に存在するか否かを演算する演算工程と、ロード・バッファ内のメモリ・アドレスの内容に対する
LOAD命令の待ち行列を形成する待ち行列形成工程と、全ての古いLOAD命令が処理されるまで待機する待機工程
と、演算工程により、メモリ・アドレスの内容がダイレクト
・マッピングされたキャッシュ内に存在すると確定され
る場合、メモリ・アドレスの内容を検索するためにダイ
レクト・マッピングされたキャッシュにアクセスするア
クセス工程とを有するLOAD命令をサービスする方法。
【請求項１５】ダイレクト・マッピングされたキャッ
シュはタグ・アレイ及びデータ・アレイを有し、演算工
程の前に、メモリ・アドレスはタグの記憶位置へダイレクト・マッ
ピングされ、タグ・アレイ内のタグの記憶位置からタグ
を検索する検索工程と、検索工程が行われる時に、メモリ・アドレスの内容がダ
イレクト・マッピングされたキャッシュ内に存在するか
否かを確定する確定工程とを更に有する請求項１４に記
載のLOAD命令をサービスする方法。
【請求項１６】アクセス工程は検索工程を繰り返すこ
となく行われる請求項１５に記載のLOAD命令をサービス
する方法。
【請求項１７】タグ・アレイはランダム・アクセス・
メモリである請求項１５に記載のLOAD命令をサービスす
る方法。
【請求項１８】タグ・アレイは２重ポートを有する請
求項１７に記載のLOAD命令をサービスする方法。
【請求項１９】データ・アレイはランダム・アクセス
・メモリである請求項１５に記載のLOAD命令をサービス
する方法。
【請求項２０】キャッシュ、第２メモリ・システム及
びロード・バッファを有するシステムにおいて、ロード
・バッファは、LOAD命令が要求に従いキャッシュ又は第
２メモリ・システムの何れかへのアクセスを待つ間に、
LOAD命令を保持する先入れ先出しの待ち行列であり、ロ
ード・バッファは待ち行列位置の先頭を有し、キャッシ
ュへのアクセスは第１待ち時間を伴って起こり、第２メ
モリ・システムへのアクセスは第１待ち時間よりも長い
第２待ち時間を伴って起きるLOAD命令をサービスする方
法において、第１LOAD命令により要求されたデータがキャッシュ内に
ない時、待ち行列位置の先頭にある第１LOAD命令に対す
る第２メモリ・システムにアクセスするアクセス工程
と、第１LOAD命令により要求されたデータがキャッシュ内に
ある時、待ち行列位置の先頭にある第１LOAD命令に対す
るキャッシュをアクセスするアクセス工程と、第１LOAD命令が待ち行列位置の先頭にあり、かつ第１LO
AD命令がキャッシュをアクセスしている時、待ち行列の
先頭にまだ位置していない第２LOAD命令に対する第２メ
モリ・システムにアクセスするアクセス工程と、を有
し、キャッシュ及び第２メモリ・システムはそれぞれ第
１及び第２LOAD命令により同時にアクセスされ、全ての
LOAD命令はロード・バッファ内の順序と同一の順序で実
行されるLOAD命令をサービスする方法。
【請求項２１】第２メモリ・システムは２次キャッシ
ュである請求項２０に記載のLOAD命令をサービスする方
法。
【請求項２２】キャッシュは仮想的に指標付けされる
とともに、物理的にタグ付けされる請求項２１に記載の
LOAD命令をサービスする方法。
【請求項２３】２次キャッシュは物理的に指標付けさ
れ、物理的にタグ付けされる請求項２２に記載のLOAD命
令をサービスする方法。
【請求項２４】新たなLOAD命令はロードされる新たな
LOADのアドレスを指定するとともに、新たなLOADの指標
及び新たなLOADのタグを有し、ロード・バッファはLOAD
命令の待ち行列を形成するとともに、タグと、指標と、
各LOAD命令に対するヒット・ビット情報と、指標整合信
号と、タグ整合信号とを管理し、ヒット・ビットの値は
新たなLOAD命令がロード・バッファ内で最も古いLOAD命
令になる時、LOAD命令により指定されたデータがキャッ
シュ内に存在するか否を示して新たなLOAD命令がサービ
スされ得る、新たなLOAD命令に対するヒット・ビットの
生成装置において、新たなLOADのタグをキャッシュ内に格納されたキャッシ
ュのタグと比較するための未処理ヒット比較回路と、未処理ヒット比較回路が新たなLOADのタグとキャッシュ
のタグとが同一であると検出した場合、未処理のヒット
信号を活性状態とするとともに、未処理ヒット比較回路
が新たなLOADのタグとキャッシュのタグとが異なると検
出した場合、未処理のヒット・ビットを不活性状態とす
るための未処理ヒット・ビット活性状態生成回路と、新たなLOADの指標をロード・バッファ内に管理された指
標と比較するための指標比較回路と、新たなLOADの指標が各LOAD命令に対する各指標と等しい
場合、ロード・バッファ内の一致したLOAD命令に対する
指標整合信号を活性状態とするとともに、新たなLOADの
指標が各LOAD命令に対する各指標と異なる場合、ロード
・バッファ内の不一致であったLOAD命令に対する指標整
合信号を不活性状態とするための指標整合活性状態生成
回路と、１つ以上の指標整合信号が活性状態である場合に、新た
なLOADのタグと、指標整合信号を活性状態にする最新の
LOAD命令に対するロード・バッファ内に管理されたタグ
とを比較するタグ比較回路と、 LOAD命令が活性状態の指標整合信号を備えていない場
合、未処理のヒット信号と同一の値をヒット・ビットに
割り付けるとともに、新たなLOADのタグと、活性状態の
指標整合信号を有する最新のLOAD命令に対してロード・
バッファ内で管理されるタグとが同一である場合、及び
１つ以上のLOAD命令が活性状態の指標整合信号を有する
場合に、ヒット・ビットを活性状態とし、新たなLOADの
タグと、活性状態の指標整合信号を有する最新のLOAD命
令に対してロード・バッファ内で管理されるタグとが異
なる場合、及び１つ以上のLOAD命令の指標が活性状態で
ある場合に、ヒット・ビットを不活性状態とするための
ヒット・ビット割り付け回路とを有する新たなLOAD命令
に対するヒット・ビットの生成装置。
【請求項２５】新たなLOADのタグは、仮想アドレスに
対応する物理アドレスの上位ビットである請求項２４に
記載の新たなLOAD命令に対するヒット・ビットの生成装
置。
【請求項２６】ロード・バッファ内で管理されるタグ
は、物理アドレスの上位ビットである請求項２４に記載
の新たなLOAD命令に対するヒット・ビットの生成装置。
【請求項２７】新たなLOADの指標は仮想アドレスの下
位ビットである請求項２６に記載の新たなLOAD命令に対
するヒット・ビットの生成装置。
【請求項２８】ロード・バッファ内で管理される指標
は、仮想アドレスの下位ビットである請求項２７に記載
の新たなLOAD命令に対するヒット・ビットの生成装置。
【請求項２９】ダイレクト・マッピングされるキャッ
シュを備えたシステムにて、メモリ・アドレスの内容に
対してLOAD命令をサービスする装置において、１つ以上の古いLOAD命令がダイレクト・マッピングされ
たキャッシュを変更する将来のある時期に、メモリ・ア
ドレスの内容がダイレクト・マッピングされたキャッシ
ュ内に存在するか否かを演算するための演算回路と、ロード・バッファ内のメモリ・アドレスの内容に対する
LOAD命令の待ち行列を形成するための待ち行列形成回路
と、全ての古いLOAD命令が処理されるまで待機させるための
待機回路と、演算回路が、メモリ・アドレスの内容がダイレクト・マ
ッピングされたキャッシュ内に存在すると確定する場
合、メモリ・アドレスの内容を検索するためにダイレク
ト・マッピングされたキャッシュにアクセスするための
アクセス回路とを有するLOAD命令をサービスする装置。
【請求項３０】ダイレクト・マッピングされたキャッ
シュはタグ・アレイ及びデータ・アレイを有し、メモリ・アドレスがタグの記憶位置へダイレクト・マッ
ピングする、タグ・アレイ内のタグの記憶位置からタグ
を検索するための検索回路と、検索回路が検索を行う時に、メモリ・アドレスの内容が
ダイレクト・マッピングされたキャッシュ内に存在する
か否かを確定する確定回路とを有する請求項２９に記載
のLOAD命令をサービスする装置。
【請求項３１】アクセス回路及び検索回路は、それぞ
れダイレクト・マッピングされたキャッシュのアクセス
とタグの検索を同時に行わない請求項３０に記載のLOAD
命令をサービスする装置。
【請求項３２】タグ・アレイはランダム・アクセス・
メモリである請求項３０に記載のLOAD命令をサービスす
る装置。
【請求項３３】タグ・アレイは２重ポートを有する請
求項３２に記載のLOAD命令をサービスする装置。
【請求項３４】データ・アレイはランダム・アクセス
・メモリである請求項３０に記載のLOAD命令をサービス
する装置。
【請求項３５】キャッシュ、第２メモリ・システム及
びロード・バッファを有するシステムにおいて、ロード
・バッファは、LOAD命令が要求に従いキャッシュ又は第
２メモリ・システムの何れかへのアクセスを待つ間に、
LOAD命令を保持する先入れ先出しの待ち行列であり、ロ
ード・バッファは待ち行列位置の先頭を有し、キャッシ
ュへのアクセスは第１待ち時間を伴って起こり、第２メ
モリ・システムへのアクセスは第１待ち時間よりも長い
第２待ち時間を伴って起きるLOAD命令をサービスする装
置において、第１LOAD命令により要求されたデータがキャッシュ内に
ない時、待ち行列位置の先頭にある第１LOAD命令に対す
る第２メモリ・システムにアクセスするための第１アク
セス回路と、第１LOAD命令により要求されたデータがキャッシュ内に
ある時、待ち行列位置の先頭にある第１LOAD命令に対す
るキャッシュをアクセスするための第２アクセス回路
と、第１LOAD命令が待ち行列位置の先頭にあり、かつ第１LO
AD命令がキャッシュをアクセスしている時、待ち行列位
置の先頭にまだない第２LOAD命令に対する第２メモリ・
システムにアクセスするための第３アクセス回路と、を有し、キャッシュ及び第２メモリ・システムはそれぞ
れ第１及び第２LOAD命令により同時にアクセスされ、全
てのLOAD命令はロード・バッファ内の順序と同一の順序
で実行されるLOAD命令をサービスする装置。
【請求項３６】第２メモリ・システムは２次キャッシ
ュである請求項３５に記載のLOAD命令をサービスする装
置。
【請求項３７】キャッシュは仮想的に指標付けされ、
物理的にタグ付けされる請求項３６に記載のLOAD命令を
サービスする装置。
【請求項３８】２次キャッシュは物理的に指標付けさ
れ、物理的にタグ付けされる請求項３７に記載のLOAD命
令をサービスする装置。