JPH01251247A

JPH01251247A - キヤツシユメモリサブシステム

Info

Publication number: JPH01251247A
Application number: JP63319665A
Authority: JP
Inventors: Chiao-Mei Chuang; チイオ‐ミイ・チユアング; Richard E Matick; リチヤード・エドワード・マテイク; Fred T Tong; フレツド・ツウ・トング
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1988-02-22
Filing date: 1988-12-20
Publication date: 1989-10-06
Anticipated expiration: 2009-08-31
Also published as: JPH0668737B2; EP0330007A2; US4905188A; EP0330007A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は階層の１つのレベルがその上のレベルから　”
ページングされる記憶階層を有する計算機システムに関
する。”ページング”は一般にセグメント即ち”ページ
”がより高いレベルの階層からアクセスされる場合に用
いられる用語である。

本発明はメモリチップに適切な機能を組込む賢明な選択
及び方法によって記憶装置の総合的な性能をかなり改善
する方法を提供する。特に、本明細書に記述されるその
着想及び本質的な概念はキャッシュチップ構造の改良に
関連する。しかしながら、その概念は他の適切なレベル
の記憶階層にも利用可能であることは明白である。

Ｂ、従来技術ＣＰＵと主記憶装置の間の性能の大きな隔たりは将来の
いかなる高性能のプロセッサにとっても−それがマイク
ロプロセッサであっても、中規模ないしは大規模システ
ムであっても一キャッシュの使用が重要な要素になって
いる。しかしながら、キャッシュは該キャッシュをアク
セスする総平均時間が同じデータについて主記憶装置を
アクセスする総平均時間よりもずっと小さいときにだけ
価値がある。この総平均時間は（データがキャッシュに
常駐しているときの通常のアクセス時間）＋（キャッシ
ュ　”ミス”の場合に再ロードする加重平均時間）を含
む。

キャッシュは一般に普通のメモリアレイから設計され、
必要に応じて複雑なロジックを有する任意の他の所要の
ないしは所望の機能は外の場所に設計される。該所要の
機能は普通はうまく統合されてはいないので、余分な経
路遅延、チップの交差及び追加回路が必要となる０本発
明は、最小限のハードウェアの追加によって記憶システ
ム全体の性能を大幅に向上する。簡単でうまく統合され
た機能を有するキャッシュアレイチップを構築する方法
を開示する。この方法から得られる主要な改良点はキャ
ッシュ”ミス”による平均システム性能低下を最小限に
し、しかも通常の読取り／再書込みサイクル中に高速ア
クセスする手段を提供することである。

キャッシュの性能を改善するために産業界で行われてい
る一般的な方法は通常の高速なＲＡＭチップを使用しこ
れらのチップをプロセッサに近い速度でインタフェース
する因習的なものである。

しかしながら、この方法は理想的な解決からは程遠い、
プロセッサに役立つキャッシュ帯域幅を持たせ且つ再ロ
ード時間を最小にするという、きびしい上に矛盾する要
求は達成可能な性能をひどく制限することがある。

必要な高い性能を有する機能を提供するためキャッシュ
アレイが遂行しなければならない矛盾する要求がいくつ
かある。標準的なアレイ設計によりこれらの要求を実現
しようとすると逆に複雑なシステムになる。複雑さとそ
れに伴う高い費用は要求される機能を理解しこれらの機
能をアレイチップに適切に組込むことによりかなり減少
させることができる。これを理解するためには、基本的
なアクセス問題及び典型的な実現方法が考慮されなけれ
ばならない、このため、比較的簡単な単一ボートアレイ
チップにより実現されるごく一般的なタイプのキャッシ
ュ構成が一例として使われる。

次に単一ポートではあるが僅かに複雑さが増したアレイ
チップと、それに続いて、類似の構造ではあるが真の２
ポートアレイ（異なるアドレスへの２つの同時アクセス
が支援可能）を用いるチップについて説明する。これは
完全なキャッシュアレイ構造の実現に必要な外部構造の
複雑さを明白に示す。

次に、この複雑さのそれぞれの部分が更に賢明なキャッ
シュチップの設計によってどのように単純化されるかを
示す、この説明から、本発明がなぜマイクロコンピュー
タ、ミニコンピユータ又は大型コンピュータに使用可能
な現在の方法の究極の単純化であるかがわかる。２ポー
トアレイを必要としないのみならず、他の機能が付加さ
れない２ポートアレイは高価な上に不適当であり、それ
ゆえ、設計／性能のトレードオフが不十分であることも
わかる。以下の説明では、キャッシュとＣＰＵの間の経
路はサイクル当り１つの論理的なＣＰＵワードであるも
のと仮定する。同じサイクルで同時に複数の引数が取出
される複雑な構成の場合には、２ポートアレイが役立つ
こともあるが、あとで説明する再ロードとパフォーマン
スの統合された機能に関する設計問題は変らない。

低価格、高速のキャッシュを得るためには、設計者は一
般に後選択（ｌａｔｅ−ｓｅｌｅｃｔ）、セットアソシ
アティブ（ｓｅｔ−ａｓｓｏｃｉａｔｉｖｅ）方式のキ
ャッシュ構成を用いる。これは幾つかの可能な論理的機
能を並行して開始し、該サイクルで後にどの機能が正し
いかを決定する手段を提供する。そして後続するパイプ
ラインの段階で正しい機能が用いられる。

最初に、４ウ工イセツトアソシアテイブ方式でアドレス
可能なように構成された後選択型のキャッシュについて
考える。第２図で、通常の読取りアクセス中に、仮想ア
ドレスの一部は正しいかも知れない４つの可能なワード
、即ちセットＡ、Ｂ、Ｃ，Ｄの各々からの１ワードから
成る合同クラスを選択するのに用いられる。同時に、も
しあれば。

どのセットが該アクセスの正しい目的であるかを調べる
ため、合計仮想アドレスは変換ルックアサイドバッファ
ＴＬＢ及びキャッシュディレクトリを介して変換される
。もし１つが選択されれば、該サイクルで”後“に、適
切な後選択信号によって正しいワードがこれらのセット
の１つで使用可能になり、ＣＰＵ−キャッシュデータバ
スに乗せられる。

一般に、どのチップのデータ出力ポートも３状態ドライ
バにより実現されるので４ワードは同時にドツトＯＲ接
続することができる。１つのワードが使用可能になり且
つ１つのワードだけがＣＰＵ−キャッシュデータバスに
送り出されるように。

これらのドライバはデータイネーブル信号を出す。

書込みアクセス中に問題が生ずる。典型的な高速スタテ
ィックＦＥ前記憶チップはチップアクセスが開始される
前にチップ境界でデータが有効であることを必要とする
。後選択型キャッシュの設計の場合には、変換と並行し
てチップアクセスが開始されるのでデータは変換が完了
するまでは有効にはならないことが望ましいので、これ
は問題となる。典型的なキャッシュは２キャッシュサイ
クル−１つは読取リサイクル、もう１つは変更及び再書
込みサイクル−を必要とする読取り／変更／書込み動作
を用いるので、結果的にシステム性能が低下する０機能
的には、後書込み動作を実行できるキャッシュを有する
ことが望ましい、これはキャッシュ性能に大きな影響を
与えずに実行することが可能であるが、特殊なチップ設
計を必要とする。

変換がキャッシュ　”ミス”を表示する毎に、キャッシ
ュブロックは主記憶装置から取出されてキャッシュにロ
ードされなければならない、実行される命令毎に比較的
多数のプロセッササイクルを必要とする複合命令セット
コンピュータ（ＣＩＳＣ）の場合には、この比較的低速
な再ロードプロセスを可能にする十分な空きサイクルが
しばしばあり、システム性能の低下は許容できる。しか
しながら、プロセッサ設計は実行される命令毎のプロセ
ッササイクル数を減らす傾向になっているので、前記設
計は全体の記憶サブシステムの帯域幅にきびしい要求を
課すことになる０例えば、公開ジャーナル［参照文献２
の図６コは、実行される命令当り約１．２５サイクルを
達成するように設計された高性能のプロセッサパイプラ
インの場合、理想的な記憶システム（例えば、無限キャ
ッシュ）を仮定すると、典型的な設計の有限キャッシュ
の再ロードによる不利点は、再ロードの追加サイクル毎
にプロセッサによって実行される百方命令／秒（ＭＩＰ
Ｓ）の値が平均５％減少することがあることを示してい
る。従って高性能システムの場合、これは一般に再ロー
ドができるだけ速く起こることを必要とする。記憶アク
セス時間は普通は成る一定の値であるので、いったん最
初の主記憶アクセスが開始されると、各サイクルで複数
のワードを再ロードすることによって性能を上げること
ができる。

しかしながら、　”ミス”した際、複数ワードのキャッ
シュへの再ロードには幾つかの問題がある。

第一に、再ロードは”同じセット”中の連続する論理位
置に全てのワードを入れる。即ちセットＡ、Ｂ、Ｃない
しはＤに全てのワードを入れる必要がある０例えば、第
３図に示すように、キャッシュサイクル毎にＮワードが
再ロードされるものとすれば、全てのＮワード■／○ポ
ートはセットの１つにどうにか接続されなければならな
い、さらに幾つかの複雑な要求がある６例えば”ミス”
により再ロードする際、該再ロードと並行処理するため
ＣＰＵに”ロードスルー”することができるように”ミ
ス“を生じたワードから再ロードを開始すべきである。

これらの全ての要求は”各セット”からの１ワードがワ
ード境界でアクセスされる第２図に示す通常のアクセス
とは非常に異なる。これらの矛盾するアクセス要求はキ
ャッシュ設計」−の問題を生ずる。これらの要求が単一
アレイから始まり複雑な設計に至るまでどのように満た
されるか又は満たされているかについて以下壁つかの例
を示す。

最初に、チップ装置当りｌＣＰＵ論理ワードのアレイ設
計−ワードを構成するチップ装置はエチップないしは幾
つかのチップとすることができる−を許容するキャッシ
ュアレイチップが使用可能であると仮定する。論理ワー
ドを得るのに用いられる区画に入るチップ数はキャッシ
ュの太きさ及びチップのモジュール性−本説明では重要
ではない−の関数である。以下の説明では、簡略化のた
め、　′チップ装置”は１ワードをＣＰＵに又はＣＰＵ
から供給するようにバス接続されるものとするが、当業
者にはよく理解されるように、２以上のチップがあり、
且つ種々の構成がある。

このようなチップ装置により、各キャッシュサイクルで
複数ワード（例えばサイクル当り２．４又はそれ以上の
ワード）を再ロードすることができる、２ウエイないし
は４ウエイもしくはそれ以上のセットアソシアティブ方
式の後選択型キャッシュを構築することができる。これ
を達成する方法は全所要キャッシュ容量と、技術的に提
供可能なビット数／チップ、即ちチップのモジュール性
とシステムに関連する関数である０問題及びトレードオ
フを理解するために、■ワードＩ１０ボートを有する単
一ポートチップ装置が考慮されているものとする。更に
、所望の全キャッシュ容量及び利用可能なチップ装置密
度は合計して８チツプ装置を必要とするようになってい
るものとする。

もし４ウエイのセットアソシアティブ方式なら、これら
の８チツプ装置は、第４図に示すように、セット当り２
チツプ装置にマツピングする。このような場合、各セッ
トは２チツプ装置であり且つ２つの独立したＩ１０ポー
１〜が主記憶装置に使用可能であるので、再ロード当り
最大２ワードを再ロードすることができる０通常のＣＰ
Ｕアクセスでは、ワードアドレスビットは２列のチップ
装置のうちの一方の列をアクセスし、これらの４チツプ
装置の各々からの１ワードがアクセスされ、４セツトの
各々の１ワード、即ち合同クラスが該チップ装置の端に
保持される。後選択信号により４つのうちの１つが選択
され、ｃｐｕマルチプレクサを介してＣＰＵデータバス
に送り出される。各チップからのＩ１０ラインはたとえ
３状態ドライバからのものであっても、図示の場合のほ
かば。

ドツトＯＲ接続できないので、このマルチプレクサは明
らかに必要である。その理由は、再ロードでは２つの別
個のワード−列毎に１ワード−が主記憶装置と該アレイ
の間を移動するからである。このように、オフチップ（
ｏｆｆ−ｃｈｉＰ）マルチプレクサが必要となる。

チップ装置が１ポート設計のため、１つの重大な欠点は
、この構造が同時に再ロード及びＣＰ　ｔＪアクセスを
支援することができないことである。

これはアクセス干渉と性能低丁を生ずるが、その程度は
主記憶装置への別個の再ロード用インタフェースにより
減じることができる。しかしながら、１ボート設計には
起因しない別の制約は、この構成がサイクル当り３ワ一
ド以上の再ロードを支援できないことである１例えば、
もし再ロードサイクル当り４ワードの再ロードが要求さ
れたなら、たとえチップ装置が、再ロードのためポート
の１一つが主記憶装置への別個のバスに使われる２ボー
トアレイであったとしても、そのような構成では前記動
作の支援は不可能であった。これは、再ロードでは、セ
ットＡ、Ｂ、Ｃ又はＤの各々はチップ装置当り１ワード
エ１０．即ちセット当り最大２ワードの２チツプ装置に
だけ含まれるという事実に起因する。従って、再ロード
経路幅を拡大する１つの方法は追加のチップ装置を付加
することである。セット当り４つの１６チツプ装置の使
用は所望の４ワード再ロード経路を提供する。しかしな
がら、キャッシュ容量が２倍になっても、それに伴って
費用、容器の大きさ及び遅延も増大するので、一般には
許容されない。

基本的な設計上の問題は、システム要求がキャッシュ容
量を増すよりも速い速度で技術進歩がチップ当りのアレ
イビット密度を増すことである。

結局、システム当りのチップ装置数は時が経つにつれて
大幅に減少しており、産業界では多分この傾向が続くで
あろう、従って、　”次世代”のシステムの設計は一般
に利用可能なチップ装置が少なくなり、再ロード経路が
少なくなるかも知れない。

例えば、前述のキャッシュの次世代の設計の場合。

チップ密度は４倍に増加するのにキャッシュ容量は２倍
に増加するものとすると、必要とされるのは８チツプ装
置ではなく、４チツプ装置だけであるので、該キャッシ
ュ構成は１ワード再ロード経路しか提供せず、はなはだ
望ましくない、もし各チップ装置のＩ１０経路が１ワー
ドから２ワードに増加されていたなら、２ワード再ロー
ド経路が可能となったことは明白である。しかしながら
、これは実現するのに相当な費用を要する。なぜなら、
ＣＰＵへは１ワード経路しか要求されないので、最も重
要なパラメータ、即ちキャッシュ帯域幅を無、咽にする
からである。あとでわかるように他の解決方法も可能で
ある。

前述の設計では合計８つのチップ装置があるので、再ロ
ード中に６つのＩ１０ポートが遊休状態である可能性が
ある。もし各セットのワードを各チップ装置に広げるこ
とが可能であったなら、これらは再ロード経路帯域幅を
増やすのに使用可能であった。そうすれば再ロード中、
各チップ装置に１ワードを再ロードすることができ、こ
の場合にはサイクル当り最大８ワードの再ロードが可能
である。しかしながら、この改良は物理アレイ構造への
特殊な論理キャッシュブロック（交換可能単位）のマツ
ピング−ときには”ラテン方陣マツピング″［参照文献
３及び４　］と呼ばれるーを必要とする。４ウ工イセツ
トアソシアテイブ方式の後選択キャッシュ設計に関する
前述のキャッシュチップ装置を用いるこのマツピングは
４チツプ装置しか必要としない、（適切なインタフェー
スにより追加の４グループをこれらに付加することがで
きる）、典型的なキャッシュに必要な、少数のチップ装
置に結合された適切な再ロードインタフェースの欠如に
より、この比較的複雑なマツピングの要求が生ずる。

一般に、”ラテン方陣マツピングは複数ワードのキャッ
シュ再ロードを行うため下記のように利用される０通常
のアクセス中、各セットからの対　応するワード、例え
ば各セットＡ、Ｂ、Ｃ及びＤからのワード１から成る合
同クラスをアクセスするために同じアドレスが全てのチ
ップ装置に印加される。従って、これらの４ワードは各
チップ装置で同じアドレスになければならない、ワード
２．３．４等についても同様である。しかしながら。

再ロード中、１ワードだけを各チップ装置に書込むこと
ができ、同じサイクルで、例えばワードＡ０、Ａ１、Ａ
２及びＡ３を再ロードすることが望ましい、これが実行
されるのは、第５図に示すように、これらのワードの各
々が異なるチップ装置にある場合だけであることは明白
である。全ての他のグループの４ワードの場合も同様で
ある。

ラテン方陣マツピングはチップ装置での正しいワード配
置を提供するが、再ロード中に２つの間層に出会う、一
つの複雑さは、任意の所与のブロックの連続ワードが各
チップ装置で異なるアドレスに書込まれるので、各チッ
プは異なる（部分的に異なる）アドレスを受取らなけれ
ばならないことである。開始アドレスはどのセットが再
ロードされるかにより異なるので、再ロードのためのア
ドレス指定ロジック及びバスはずっと複雑になる。

更に複雑なのは、主記憶装置からの所与のワード、例え
ばワード１が、再ロードされるセットにより異なるチッ
プ装置に駐在しているため、キャッシュと主記憶装置の
間にリングシフト（ｒｊｎｇ−ｓｈｉｆｔ）データ位置
整合装置（ａｌｉｇｎｅｒ）を必要とすることである。

もう一つの複雑さは後選択型ロジックで生ずる。任意の
セットのワードが任意のチップ装置に駐在することがあ
るので、正しいチップ装置を使用可能にするためには、
後選択信号は該セットを選択しなければならないだけで
はなく、ラテン方陣マツピングにより適切なワード及び
セットにも整合しなければならない、最後に、各チップ
装置の単一ワードデータ経路Ｉ１０から生ずる複雑さが
ある６通常のアクセス中、４ワードは組合わされ、ＣＰ
Ｕへの又はＣＰＵからの１ワードになる。再ロードでは
、４ワードは切り離され、各チップ装置への１ワードＩ
１０が許されなければならない、前述の仮定されたチッ
プ装置の場合には、これはある種のオフチップマルチプ
レクサを必要とする。この機能を提供する多くの方法及
び場所があるが、それはどこかになければならない。

もしこの機能が第５図のように別個のチップに入れられ
るなら、余分なチップ交差及びマルチプレクサロジック
遅延が最も重要なアクセス経路に加えられ、すこぶる好
ましくない、理想的には、このマルチプレクサ機能は現
存するチップで実行されるべきであり遅延も互いにオー
バラップされるべきである０本発明により提案された機
能的に統合されるチップ構造はあとでわかるように前記
マルチプレクサ及び遅延をすっかり除去する。

アクセスのためこの構成が必要とする追加回路は全体の
問題のひとつの面に過ぎない、もうひとつの問題はたと
え再ロード帯域幅が改善されていてもなお理想とは程遠
いことである。各チップにはひとつのＩ１０ポートしか
ないので１通常のＣＰＵサイクルの場合でも又は再ロー
ドサイクルの場合でも、各システムクロックで可能なの
はひとつのアクセスだけである。”ミス”とそれに続く
再ロードは一般に”ミス”を生じたワードで開始するー
このワードは直ちにＣＰＵにロードスルーされ、ＣＰＵ
は処理を再開する。もし次のＣＰＵサイクルがキャッシ
ュアクセスを必要とするなら、センス及び再開始に関す
る適切なロジック制御によりＣＰＵ又は再ロードのどち
らかがが待機しなければならない、ＣＰＵ又は再ロード
待ちのどちらが選択されても、総合的なシステム性能は
低下する。もしストアイン式キャッシュが使用されるな
ら、同じアクセス干渉の問題から性能が更に低下する。

後者は、キャッシュは正しいデータの最新のコピーを含
むので、もしブロックが少しでも変更されていれば、そ
れを主記憶装置に再書込みして初めてキャッシュから除
去しうろことを意味する。高性能システムの場合、スト
アイン式キャッシュは価格性能比のすぐれた設計である
ので、これはアクセス干渉及び性能低下を生ずる機会が
更に多くなる。ラテン方陣マツピング方式のチップを改
良することができる幾つかの方法がある。第１の方法は
キャッシュチップを追加する単純な方法である。

重要な経路の電気的遅延を最小限にすると共にバス伝送
全体を簡略化するために、アレイ設計を妨げずに幾つか
の簡単な機能をキャッシュチップに付加することができ
る。即ちもっばらアレイ境界の周辺に機能が付加される
ので、１ボートアレイ構造はそのままである。チップ装
置の外部境界はＣＰＵへの別個の１ワードバス及び主記
憶装置へのもうひとつの１ワードバスを有するものと仮
定されているが、内部アレイへは１経路しかない。

これはチップ装置にマルチプレクサ機能（第５図のＭＵ
Ｘブロック）を偏えることにより実現される。更に、″
ロードスルー”経路を設けることにより一層の改良が得
られ、それは全て前記構成の制約の一部を除去するのに
役立つ、記憶アレイ自身は１ボート設計のままであるの
で、これは費用を最小にするとともにビット密度を最大
にする。

これを達成するのに必要な小量の多重化は大きな困難を
伴わずにチップに含ませることができる。

このようなチップ装置の機能的な構造を第１図（この説
明ではストアバック（Ｓｔｏｒｅ　Ｂａｃｋ）バッファ
を無視する）に示す、正しいアドレスをチップに提供す
るのに必要な前述のリングシフト位置整合装置はチップ
にはないが主記憶装置インタフェースの一部であること
は注目すべきである。更に、もしロードスルーバッファ
（ＬＴＢ）も第１図に示すように付加されれば、ある限
られた場合には更に改善が得られる０例えば、もしワー
ドＡＯの”読取り”アクセスが”ミス”を生じても各チ
ップがロードスルーバッファを有するなら、４ワードＡ
Ｏ１Ａ１、Ａ２及びＡ３がアレイ及びバッファの双方に
ロードされる。従って、これらのワードは次のサイクル
でこれらのバッファから得られる。４ワードは各サイク
ル毎に再ロードされるので、４ワードの最初のグループ
だけがロードスルーバッファにロードされ、次に再ロー
ドするワードはアレイにしか行かない。

もしこれらの最初の４ワードを識別するのに十分なロジ
ックが含まれているなら、それらはどれも必要に応じロ
ードスルー経路を介してＣＰＵにロードスルーすること
ができる。ワードＡＯをロードスルーしたあとの次のサ
イクルで、もしＣＰＵがワードＡ１、Ａ２ないしはＡ３
をアクセスすれば、次の４ワードのグループを主記憶装
置からキャッシュに再ロードするのを干渉することなく
適切なチップのロードスルーバッファからそれを取出す
ことができる。もちろん、もしＣＰＵがこれらのワード
のどれかを書込むか又はもしアクセスされるワードがロ
ードスルーバッファのどれかひとつ以外にあるなら、干
渉が生ずる。前記ロードスルーバッファは、順次的な傾
向がある命令取出しに役立つ、データ取出しはランダム
に行われる傾向があるので、ロードスルーバッファの価
値もいくらかは制限される。順次命令取出しの場合でさ
えも、ロードスルーバッファは必ずしも再ロードとＣＰ
Ｕアクセスの間の干渉を除去しない。

例えば、″ミス”を生ずるワードがＡ３であると仮定す
る０次の再ロードはＡＯ５Ａ１、Ａ２及びＡ３をロード
スルーバッファに入れる。続いて起こる命令取出しが次
にＡ４をアクセスする。Ａ４はロードスルーバッファに
はないので次の再ロードサイクルを待ち、アレイ自身を
アクセスしなければならない０次のＡ５の命令取出しは
このワードがロードスルーバッファにはない、よって干
渉が生じる。

もちろん、このケースで次に再ロードする４ワードのセ
ットをロードスルーバッファにラッチするのに複雑なロ
ジックが用いられることがあるが。

費用が高い上に効果が小さい９機能的に統合された本発
明のキャッシュはあとで分かるようにかなり改良された
設計である。いずれにしても、もし部分的にロードされ
たブロックのアクセスが可能なら、どのワードがアクセ
ス可能であるかを知るためにＣＰＵのロジックにワード
有効フラグが必要となる。

前述の説明から、キャッシュと主記憶装置の間のインタ
フェースはキャッシュとＣＰＵの間の場合とは全く異な
ることが分かる。これらの２つのインタフェースは異な
るアドレスで作動する２つのバスにより最高に満足され
るので、アレイの同時２つのランダムアクセスを許容す
る真に２ボートのアレイを用いるのが適切なようである
。これは可能であるが、これは、ある問題については必
要とする以上のものを提供するが、全ての問題を解決す
るのには十分ではないことが分かる。換言すれば、それ
は費用効率の改善に関する限り理想的な解決ではない。

次に、１つのポートが再ロードのため主記憶装置をイン
タフェースし、他のポートが通常のアクセスのためＣＰ
Ｕをインタフェースする２ポートチツプを用いて第６図
に示すように構成されたキャッシュについて説明する。

再ロードの場合、別個のリングシフト位置整合装置及び
シフトロジックと、チップ装置毎にアドレスロジックを
有する別個のアドレスバスはそれでも前と同様にしばし
ば要求される。各Ｉ１０ボートは別個にアドレス入力を
有するので、ＣＰＵアドレスは全てのチップ装置に１バ
スずつ分けることができる。

２つのポートはデータバスに別個のマルチプレクサを必
要とせず、それらはセル及び別個のワード／ビット線及
び復号器から成る更に複雑な構成に組込まれる。どのワ
ードが再ロードされているかを明確にするためもしロジ
ックがＣＰＵに保持されるなら、いったんワードがロー
ドされたのちは、ランダムアクセスがＣＰＵポートを介
して使用可能となるのでロードスルーバッファはもはや
必要としない、しかしながら、たとえ２ポートアレイが
用いられても、ロードスルー経路はなお必要とすること
がある。なぜなら、もし書込み及び同時読取りが同じセ
ルには許可されない、即ち同じワードを同時に読み書き
しないなら、２ポー１〜セル設計がかなり簡単になるか
らである。もしこれが該当するなら、別のロードスルー
経路が要求されるか、もしくはＣＰＵが再開始可能にな
る前に余分の遅延サイクルに出会う。

更に、２つのポートのアドレスを比較しアクセスを許可
するロジックはＣＰＵで行われなければならず、キャッ
シュは従属装置であるので、もし不適切に使用されれば
誤りを生ずる。前述のように再ロード時間に付加された
変更ブロックのストアバックは２ボート楕成の場合にも
異なるところはない、２ポ一トセル／アレイ設計自体は
追加のドライバ、復号器及び他の必要なロジックを含ま
ずに、１ポート設計よりも概ね３０〜５０％多くの領域
を使用し低速であるので、莫大な費用を支払っても、そ
の見返りに得るものは非常に少ない。

従って、このタイプの２ボートキヤツシユ設計はよい選
択ではないことは明白である。

参照文献リスＩ・ ■、マチイック　（Ｍａｔｉｃｋ）、　Ｒ，コンピュー
タ記憶システム及び技術（Ｃｏｍｐｕｔｅｒ　Ｓｔｏｒ
ａｇｅ　Ｓｙｓｔｅｍ　ａｎｄＴｅｃｈｎｏｌｏｇｙ）
、ジョン・ウィリー＆サンズ　（ＪｏｈｎＷｉｌｅｙ　
ａｎｄ　５ｏｎｓ）、　ＮＹ、　１９７７゜２、マチイ
ック　（Ｍａｔｉｃｋ）、　Ｒ，Ｅ、及びり、Ｔ、リン
グ（Ｌｉｎｇ）、マイクロプロセッサ設計上のアーキテ
クチャの意義　（Ａｒｃｈｉｔｅｃｔｕｒｅ　ｉｍｐｌ
ｉｃａｔｉｏｎ　ｉｎしｈｅ　ｄｅｓｉｇｎ　ｏｆ　ｍ
１ｃｒｏｐｒｏｃｅｓｓｏｒｓ）、　ＩＢＭシステムズ
ジャーナル（ＩＢＭ　Ｓｙｓｔｅｍｓ　Ｊｏｕｒｎａｌ
）、　Ｖｏｌ。

２３、　Ｎｏ、３．１９８４年、　ｐｐ、２６４−２８
０　（第６図）。

３、マン　（Ｍａｎｎ）　Ｉｌ、　Ｂ、、試験の分析と
設計（Ａｎａｌｙｓｉｓ　ａｎｄ　Ｄｅｓｉｇｎ　ｏｆ
　Ｅｘｐｅｒｉｍｅｎｔｓ）、　　ドーパ−出版社　（
Ｄｏｖｅｒ　Ｐｕｂｌｉｃａｔｉｏｎｓ）、ニューヨー
ク　　（Ｎｅｗ　　ｙｏｒｋ）、　　１９４９　　年　
。

４、シャオ（Ｈｓｉａｏ）、　Ｍ、　Ｙ、、　Ｄ、ボッ
セン（Ｂｏｓｓｅｎ）及びＲ，Ｔ、チェノ　（Ｃｈｉｅ
ｎ）、直交ラテン方陣コード　（Ｏｒｔｈｏｇｏｎａｌ
　Ｌａｔｉｎ　５ｑｕａｒｅ　Ｃｏｄｅｓ　）、ＩＢＭ
研究開発ジャーナル（ＩＢＭ　Ｊｏｒ、　Ｒｅ５ｅａｒ
ｃｈ　ａｎｄＤｅｖｅｌｏｐ＋＋＋ｅｎｔ）、１９７０
年　７月、ｐｐ、３９０−３９４゜５、シュスタ　（Ｓ
ｃｈｕｓｔｅｒ）、　Ｓ、、外、１５ナノ秒（ｎｓ）Ｃ
ＭＯ５・６４に−ＲＡＭ　（Ａ　１．５−ｎｓ　ＣＭＯ
５６４ＫＲＡＭ）ｊＥＥＥ、固体回路に関する議事録（
Ｊｏｕｒｎａｌ　ｏｆ　５ｏｌｉｄＳｔａｔｅ　Ｃｊｒ
ｃｕｉｔｓ）、Ｖｏｌ、　５Ｃ−２１，Ｎｏ、　５．１
９８６年。

ｐｐ、７０４−７１１゜６、フィアー　（Ｆｉｅｒ）、　Ｄ、外、　３６／７２
ｂ−ＣＭＯＳマイクロメインフレームチップセット（Ａ
　３６／７２ｂ　ＣＭＯ３Ｍｉｃｒｏ−ｍａｉｎｆｒａ
ｍｅ　Ｃｈｉｐ　５ｅｔ）ｊＥＥＥ国際固体回路会議０
ｎｔｅｒｎａｔｉｏｎａｌ　５ｏｌｊｄ　５ｔａｔｅ　
　Ｃ１ｒｃｕｉｔｓＣｏｎｆｅｒｅｎｃｅ）、　１９８
６年２月、技術報告書の要録（Ｄｉｇｅｓｔ　ｏｆ　Ｔ
ｅｃｈｎｉｃａｌ　Ｐａｐｅｒｓ）、ｐ、２６゜７、ア
ルパー（Ａｌｐｅｒ）、Ｄ、、　Ｄ、カーベリー（Ｃａ
ｒｂｅｒｒｙ）Ｍ、ヤマムラ　（Ｙａｍａｍｕｒａ）、
　Ｙ、チョウ　（Ｃｈｏｗ）、　Ｐ。

マツグ　（Ｍａｋ）、　３２ビツトプロセツサチツプに
よる主要システム機能の統合　（３２Ｂｉｔ　Ｐｒｏｃ
ｅｓｓｏｒＣｈｉｐ　Ｉｎｔｅｇｒａｔｅｓ　Ｍａｊｏ
ｒ　Ｓｙｓｔｅｍ　Ｆｕｎｃｔｉｏｎｓ）、エレクトロ
ニクス　（Ｅｌｅｃｔｒｏｎｉｃｓ）、　１９８３年７
月１４日、ｐｐ、　１１３−１１．９゜８、渡辺　（Ｗａｔａｎａｂｅ）、　Ｔ、、　８にバイ
ト知能キャッシュ記憶装置（Ａｎ　８Ｋ　ｂｙｔｅ　Ｉ
ｎｔｅｌ］ｉｇｅｎｔ　ＣａｃｈｅＭｅｍｏｒｙ）、　
ＩＥＥＥ国際固体回路会議（Ｉｎｔｅｒｎａｔｉｏｎａ
ｌＳｏｌｉｄ　５ｔａｔｅ　Ｃ１ｒｃｕｉｔｓ　Ｃｏｎ
ｆｅｒｅｎｃｅ）、　１９８７年　２月、技術報告書の
要録（Ｄｉｇｅｓｔ　ｏｆ　ＴｅｃｈｎｉｃａｌＰａｐ
ｅｒｓ）、ｐ、２６６゜９、アルシン　（Ａｌｓｉｎｇ）、　Ｃ，、外、マイク
ロコンピュータは本体のシューズを満たす（Ｍｉｎｉｃ
ｏｎｐｕｔｅｒＦｉｌｌｓ　Ｍａｉｎｆｒａｍｅ’ｓ　
５ｈｏｅｓ）、エレクトロニクス（Ｅｌｅｃｔｒｏｎｉ
ｃｓ）、１９８０年　５月２２日、　　ｐｐ、　　１３
０−１３７゜１０、マットソン　（Ｍａｔｔｓｏｎ）、
　Ｒ，ゲセイ　（Ｇｅｃｓｅｉ）。

スルフ　（Ｓｌｕｔｚ）、及びトライジャー　（Ｔｒａ
ｉｇｅｒ）。

記憶階層の評価技術（Ｅｖａｌｕａｔｉｏｎ　Ｔｅｃｈ
ｎｉｑｕｅｆｏｒ　Ｓｔｏｒａｇｅ　Ｈｉｅｒａｒｃｈ
ｙ）、　ＩＢＭシステムズジャーナル（ＩＢＭ　Ｓｙｓ
ｔｅｍｓ　Ｊｏｕｒｎａｌ）、　Ｖｏｌ、９．　Ｎｏ、
２゜１９７０年、　ｐ、　７８゜Ｃ６発明が解決しようとする課題種々のキャッシュ遅延／干渉問題を解決するために試み
られた現在よく知られている全てのキャッシュ構造は概
略上記のようないくつかの欠点を持っていることは前述
の説明で明らかである０本発明により提供されるのは、
記憶セル設計自体をあまり妨げずに、キャッシュ記憶装
置を有するチップに、重要な機能を直接搭載することが
できるキャッシュ構造である。このような設計は当然か
なり改善された再ロード機能ならびにストアバック機能
を与える。

本発明の主たる目的は総合キャッシュアクセス時間を十
分に改善する機能的なキャッシュチップ構造を提供する
ことである。

０９課題を解決するための手段本発明に従って、もし適切に統合されたキャッシュチッ
プが用いられるなら、キャッシュはシステムの性能を制
限する要素とはならないことが分かっている０本発明に
よって提供される主要な機能の改善は大別して２種類あ
る。第１は通常の読取り／書込み機能で、高速の、”後
選択”構成又は直列アクセスモード−両者は任意の程度
のセットアソシアティビティを提供され、事実上の１サ
イクル書込み動作を成し遂げることができる−でチップ
が使用されるのを許す、第２の機能は（アクセス”ミス
”による）キャッシュ再ロードに関係し、スタティック
ＲＡＭチップにうまく統合された幾つかの従属機能を提
供する。これらの従属機能は、特にストアイン式キャッ
シュ構成の場合に、再ロード時間をかなり減少させる。

本発明によるキャッシュチップ構成は”後選択”キャッ
シュの設計を可能にし、再ロードのためキャッシュアレ
イチップにキャッシュ再ロードバッファ、ストアパック
バッファ、及びロードスルー機能を設け、更に事実上の
１サイクル書込み動作を成し遂げるための遅延書込みイ
ネーブル機能を組込むことにより、はぼ透明な、複数ワ
ードの再ロードを成し遂げる比較的簡単な方法を提供す
る。

更に、１つはキャッシュアクセス用、他の１つはキャッ
シュ再ロード用の２つの別個の復号器が提供され、アク
セス又は再ロードに必要な異なるアドレス指定モードな
いしはアクセスモードを可能にする。

Ｅ、実施例本発明に従って、総合的な性能最適化を提供しつつＩ１
０ピン数を最小にするために幾つかのキー　＋ｆｆｉ能
がキャッシュアレイチップ上に置かれる。

これらの特殊な機能はキャッシュ再ロードバッファ（Ｃ
ＲＢ）、ストアパックバッファ（ＳＢＢ）、ロードスル
ーバッファ（ＬＴＢ）及び遅延書込みイネーブル機能を
含む。

キャッシュ再ロードバッファはＣＰＵが再ロードと同時
にキャッシュをアクセスすることを可能にするのに用い
られ、多数の異なるアクセスシーケンスに役立つことが
ある１例えば、キャッシュ”ミス”が生ずる毎にロード
スルーを用いる（命令とデータを組合せた）代表的な単
一のキャッシュシステムにおいて、再ロード中のキャッ
シュアクセスのシーケンスは下記のように、幾つかの可
能な経路をとることができる。

経路１：キャッシュ”ミス”は命令に関するものであり
、４ワードが再ロードプロセスの最初の部分でロードス
ルーされるものと仮定する。′ミス′。

を生じた命令は再ロードが完了する直前に復号される。

この命令はキャッシュアクセスを伴わないレジスタ命令
であったり、ロード、記憶ないしは分岐（ブランチ）命
令であったりすることがある。

もしそれがロード又は記憶なら、このキャッシュ参照が
成る別のブロック（データブロック）に対するものであ
り、現在再ロードされているブロックではない確率は極
めて高い（１００％に近い）。

もし該参照が分岐なら、平均して分岐目標はおおよそ６
バイト離れている一多くはずっと長いけれども−ので、
同じブロックにある確率は高い。

よって、ある分岐は作業セットの同じブロックに、ある
分岐は異なるブロックに対するものである。

最初の”ミス゛を生じたブロック入口点はどこ−たとえ
ブロックの最後の命令−でもよいので。

同じ参照ブロック対人なる参照ブロックの比率は動的に
大きく変る。これは、例えば、入口点が前の分岐の目標
であり、たまたまブロック境界がちょうどそこに置かれ
る場合にあてはまる。

もちろん、最初にロードスルーされた命令は、キャッシ
ュを参照しないレジスタ対レジスタ命令のこともある。

そして第２、第３・・・の命令が続く、ロードスルーさ
れた全ての命令はキャッシュをアクセスしない前記経路
をたどるか、又は同じブロック若しくは異なるブロック
をアクセスする。いずれにせよ、もし最初の”ミス”に
よる再ロードが完了する前に最初にロードスルーされた
命令が全て実行されるか５又はその代りに、１命令だけ
はロードスルーされるが分岐出力は生じないなら９次の
命令を取得するために再ロード中のブロックのアクセス
が必要である。

経路２：最初のキャッシュ　”ミス”はデータ、即ちロ
ード又は記憶に関するものと仮定する。″ミス”された
ワードだけがロードスルーされる。なぜならＣＰＵには
他のデータワードの宛先がないからである。しかし、こ
れはミスしたブロックアドレスと同じか又は異なる次の
キャッシュブロックアドレスにとってはあまり重要では
ない、ＣＰＵはロード／記憶”ミス”が生じたとき既に
キャッシュに駐在している、ある命令ブロックからの命
令を実行している０次の可能なキャッシュアクセスは同
じ再ロードデータブロックにあるデータ；異なるデータ
ブロック；実行中の同じ命令プロッり；分岐ないしはブ
ロック境界交差による異なる命令ブロックに対するもの
である。

前記経路はどちらも、典型的な場合について。

キャッシュ”ミス”と再ロードが進行中であってロード
スルーができるだけ速く実行を再開するために使われる
ときは必ず、再ロードの完了前に。

続いて同じ及び異なるキャッシュブロックへのアクセス
が要求される確率が高いことを表わす、従って、もし再
ロードプロセスが非常に高速であり且つ透明であるよう
に見せることが望ましいなら、再ロードが進行している
間に、キャッシュ内のブロック−再ロード中のブロック
とは異なる−を同時に参照できると共に、任意のワード
境界で、再ロード中の同じブロックを参照できることが
望ましい、同じブロックと異なるブロックの参照の比率
は動的に大きく異なるので、最大の性能を得るためには
、どちらの場合も許可することが望ましい。

ストアパックバッファはストアイン式キャッシュでは特
に役立つ一時バッファであり、変更されているキャッシ
ュブロックを置換する速度を上げるのに使用される。キ
ャッシュ”ミス”が起こり。

除去すべきブロックが変更されているときは必ず。

このブロックは唯一の有効なコピーであるから。

主記憶装置に再書込みされなければならない、キャッシ
ュブロックの約３０％が変更されている。

もし古いブロックが書戻され次いで新しいブロックが再
ロードされるまでＣＰＵが待機することが要求されるな
ら、かなりの時間遅延が生ずる。これは、新しいブロッ
クについて主記憶装置がアクセスされている間に該変更
された古いブロックをストアパックバッファに書込み、
そのあと、新しいブロックが再ロードされるまで待機し
てから主記憶装置に書戻すことにより改善される。それ
には、記憶装置アレイにインタフェースされるが。

そこからの分離及び独立したアンロードが可能な。

うまく統合された特別設定のＳＢＢを必要とする。

ロードスルー機能は再ロードプロセスの速度を更に上げ
る。複数ワード再ロードが用いられると、キャッシュ”
ミス”を生じたワードは他のワードと一緒に最初にアク
セスされキャッシュチップに渡される。キャッシュチッ
プは”ミス”を生じたワードを選択し、別個の内部経路
でＣＰＵデータバスに直接波して処理の続行を許す、も
しキャッシュ再ロードバッファが含まれないなら、後続
のワードも同じ理由でプロセッサにロードスルーするこ
とができる。しかしながら１本発明の良好な実施例では
、各サイクルで複数ワードが主記憶装置からキャッシュ
に再ロードされるのに対し、ＣＰＵには１ワードしかロ
ードスルーされない、従って、ロードスルー経路に加え
て、後続の計算機サイクルで”ロードスルー”する余分
なワードを保持する一時バッファの追加を必要とする。

良好な実施例では、より一般的なタイプのロードスルー
バッファとなるキャッシュ再ロードバッファが含まれる
が、それでも別個のロードスルー経路及び制御は必要で
ある。

後選択キャッシュの遅延書込みイネーブル機能は、１サ
イクル読取り動作に対応する１サイクル書込み動作をな
しとげるのを可能にする。これは。

既存のスタティックキャッシュチップが使用可能であり
、アレイないしは既存の回路を再設計せず単にチップの
周辺に所要の機能を付加することを願う場合に特に望ま
しい。

・・　ζ　　　　　　し　　　マ　・・　　　　ゝ高速
を実現するために、第２図に関連して先に説明したタイ
プの後選択キャッシュが使用される。

しかしながら、″ミス”に際し実際のキャッシュ再ロー
ド時間を少なくする試みは一般に複雑なアドレス指定及
び多重化機能並びに他の問題を生ずる。

先に示したようなラテン方陣マツピングの使用によりい
くらかの改善を得ることができる。しかしながら、それ
でもかなりの論理的並びにハードウェアの複雑さを必要
とし、追加チップの交差経路遅延を持込むので、高速性
能のための理想的な構成ではない。

好ましくない再ロード経路遅延を最小にし最高に統合さ
れた機能性を実現するためには、キャッシュアレイは特
別な方法でマツピングされなければならない、第５図の
論理物理マツピングの適当な変更、及びキャッシュチッ
プ上に適切な周辺回路を導入することにより、ラテン方
陣マツピングの複雑さ及び遅延を伴わずに後選択構成及
び複数ワード再ロードに適当な、理想的に統合されたシ
ステムを得ることができる。このマツピングはその使用
に関連して図示説明する。最初に、第５図のラテン方陣
マツピングを必要とした第１図の、簡単な１通常のＲＡ
Ｍチップについて再考察し。

幾つかの任意の段階でチップに機能を付加する。

本発明の良好な実施例である最後のバージョン（第１４
図）は機能的に統合されたチップを実現するため新しい
マツピング及び全ての前述の機能を用いる。これらの機
能の各々は互いに独立しているので単独ないしは他の機
能と組合せて使用できる。チップに付加された全ての望
ましい機能は新しいマツピングを必要とせず、実際に第
４図の”ラテン方陣”マツピングとともに使用すること
ができるが、そのときオフチップシフト及びアドレッシ
ング機能を必要とする。それにもかかわらず、今日使用
されているようなキャッシュシステムから開始し、もし
希望するなら、統合された機能性を少しずつ付加するこ
とができる。

第１図はストアパックバッファ及びロードスルーバッフ
ァが付加され、第５図に示すラテン方陣マツピングを使
用するように構成されている典型的なキャッシュチップ
の概要図を示す、このマツピング（図示せず）は第５図
の再ロード機能がオフチップで実行されることを必要と
する。

この場合のアドレス仕様−通常のアクセスと。

第５図の論理物理マツピングを有する”後選択”キャッ
シュ構成の倍ワード再ロードとをどちらも可能にする−
が第７図に示されている。変換機構（ＴＬＢ及びキャッ
シュブイレフｊ・す）をアクセスするためのアドレス仕
様、及びロードスルーバッファも示されている。ストア
パックアレイのアンローディングは極めて簡単な方法で
実行され、キャッシュアレイのアクセスから完全に独立
している。第７Ａ図〜第７Ｃ図の比較的複雑なアドレス
指定方式に較べて、第１４図に示すような本発明の最後
の良好な実施例は大幅に簡素化されている。それは偶数
／奇数アドレスに基づいて制御信号を検出し生成しなく
てもよく、更に、さもなければ再ロード、シフト、等に
必要な複雑な回路も除去される。これは次の説明から明
白である。

第１図の構成は標準スタティックＲＡＭ　（例えば、参
照文献５の１５ｎＳ−０ＭＯ８・６４Ｋ・ＲＡＭ）をベ
ースとするアレイにより開始することができる。典型的
なスタティックアレイは太い破線内に示す機能を含む、
全ての他の必要な機能は本質的に基本ＲＡＭアレイ枯造
を殆ど、ないしは全く変更せずにチップの周辺に付加す
ることができる。これは、チップ全体を設計又は再設計
しなくてもよいから極めて望ましく費用効率がよい。

付加される機能は：３状態ドライバ上の後選択イネーブ
ル；必要なら、関連する復号機能（復号を必要とするか
しないかはアレイ構造による）を持つストアパックバッ
ファ；ロードスルーバッファ；２　”）　（７）　？　
／Ｌ’チプレクサ１ＭＵＸＩＮ及びＭＵＸＯＵＴ、ない
しは同等の機能を持つ他のゲート配列；並びに遅延書込
みイネーブル機能である。ストアパックバッファ機能は
既存の回路を横切って既存のビット／センス線を、アレ
イの周辺にス１〜ラップすることにより得られる。そこ
では、追加のセンス増幅。

ラッチ及び、もし必要なら、復号も実行することができ
る。実際のストアパックバッファは記憶装置アレイ領域
から趙れた位置の多重ピットレジスタを用いることが可
能である。

ロードスルーバッファは単に入力イネーブル信号を持つ
３２ビツトのマスタ／スレーブレジスタである。２つの
マルチプレクサは図示のように２人力（７）　１−）　
（Ｍ口ＸＩＮ）、又は３人力の１−＋　　（ＭＵＸＯＵ
Ｔ）の入力選択信号を持つ標準タイプのＡＮＤ−ＯＲ選
択ゲートを用いることができる。

遅延書込みイネーブルは１サイクル書込み機能を提供す
るもので、下記の理由により必要とされる。典型的なス
タティックＦＥＴ−ＲＡＭは高速化のためにプリチャー
ジ式センス回路を用いる。

記憶サイクルは、いったん開始されると、完了するまで
進行し、続いて次のサイクルのためプリチャージされる
。よって、　”チップ選択”イネーブルパルスの始めに
”書込み”を開始すべきかどうかを識別しなければなら
ない、データイントライバはセルの状態を切換えること
ができないから、アレイをアクセスしく読取り）、次に
サイクルの終りで正しいワードを駆動してアレイに入れ
ることは通常は不可能である。しかしながら、通常の読
取り動作を実行する１サイクル、２ウ工イセツトアソシ
アテイブ方式の後選択型キャッシュの場合には、変換サ
イクルの始めに、各セットから１つずつの、２つの可能
なワードを読取ることが極めて望ましい０通常の書込み
動作の場合には、サイクルの終りの近くで後選択信号が
２つのセットＡまたはＢのどちらが正しいかを示したと
きデータを駆動して正しいワードに入れることが望まし
い。

この”遅延書込み“機能は下記のように達成することが
できる。信号Ｗが有効になることによって書込みが示さ
れると、アレイへの実際の内部チップ選択信号、　ＣＳ
　（データインバッファの活動を制御する）は後選択信
号が有効になるまで遅延される（注；　ＭＵＸＩＮへの
Ｅｌは遅延しなくてもよい、例えばドントケアである）
、全てのアドレス及びデータ線は、ずっと前にピンの位
置で有効になっているであろう（これらの有効化も遅延
ないしはスタガ（ｓｔａｇｇｅｒ）することができ、両
者は■１０ピンの過剰な同時切換えから生ずる“△工”
雑音を少なくする）、従って、この機能の完了に必要な
唯一の時間はデータを１康動してアレイに入れるのに必
要な時間である。

前記スタティックＲＡＭの場合、書込みは読取りよりも
速く、書込みに使用可能な時間−一通常の読取り動作が
データをチップからＣ１？　Ｕの方ヘゲートし、リング
シフトし且つレジスタファイルにラッチするのに要する
時間−もかなりある。

後者は一般にデータを駆動してアレイに入れるのに要す
る時間よりもずっと長く、よって遅延書込みは魅力のあ
るアプローチである０時間の制約が厳しい大型のシステ
ムには、ワードの復号と変換時間のオーバラップを考慮
し、内部のチップ選択信号によりワード線ドライバをイ
ネーブルできるものがあるが、これは通常の復号−ワー
ド駆動回路の変更を必要とする。これは必要なら可能で
ある。

後書込み機能を達成する代替方法は、たとえｎワードが
読取られセンスされていても、それらのうちのどれか１
つが、後選択信号により該サイクルの後の方で選択され
た場合に、オーバドライブされて記憶装置アレイのセル
の状態を変更することができるように、入力データバソ
ファをスタティック回路に再設計することである。どの
ような機能及び事象のシーケンスが必要かがわかると、
全体のチップ設計及び刻時（ｃｌｏｃｋｉｎｇ）の詳細
しだいで任意数の前記回路が当業者により可能になる。

ＣＭＯ５技術から作られたスタティックＲＡＭの場合、
前記”遅延書込み”機能は回避することができるが、ビ
ット／センス線回路の事実上の再設計−望ましくない−
を必要とする。セルの状態を切換えるためビット／セン
入線をオーバドライブするのに充分な能力以上のものを
持つ純粋のスタティック（プリチャージを用いない）デ
ータインバッファが使用可能である。それゆえ、読取り
後の後書込みを直に得ることができる。そのような場合
、後選択信号は、遅延書込みイネーブル回路に印加され
る代りに、信号Ｗにより書込みサイクルが指定される毎
に、適切に、ＭＵＸＩＮ又はデータインバッファへのイ
ネーブル信号として直に用いられる。

マルチプレクサ　（阿ＵＸＩＮ及びＭＵＸＯＵＴ）並び
に３状態ドライバへの他のイネーブル信号も示される。

データがＭＵＸＯＵＴを通る毎に、３状態ドライバが使
用可能にされなければならない、従ってＭＵＸＯＵＴへ
のイネーブル信号Ｅ１、Ｅｌ及びＥ３はこれらのドライ
バへのイネーブル信号としてＯＲ結合される。

データが主記憶装置からキャッシュに再ロードされてい
るときは必ず、ＭＵＸＩＮへのイネーブル信号Ｅ２は、
ロードスルーバッファへのイネーブル！、、Ｔ　Ｂ　、
及びＭｕｘｏｕｒ　ヘ（７）　（異なる時刻の）　Ｅｌ
、Ｅ３と同様に外部からチップに供給される。前者、即
ちＭＵＸＪＮへのＥｌは、再ロード−書込みサイクルで
ＯＲＩを介して内部チップ選択信号Ｃ３ｉにもなる。

本ス乏ニブ了ロー゛？− 第８図のチップは前記機能を全て可能にし、更に、第５
図及び第７Ａ図のマツピングとは異なるマツピングを用
いてオンチップ再ロードシフト機能を提供する。このマ
ツピングは第９図に示す。

このマツピングは第５図または第７Ｃ図のようにチップ
上の垂直な列（ｃｏｌｕｍｎ）でのセットのマツピング
というよりもむしろ水平である。第７Ｃ図の左チップの
上部の部分、即ちＡ偶数ワード、及び第７Ｃ図の右チッ
プの上部の部分、即ちＢ偶数ワードはどちらも第９図の
左チップに示す位置の１チツプにマツピングされる。同
様に、Ｂ奇数ワード及びＡ奇数ワードは図示のように右
チップにマツピングされる。偶数ワードだけが左チップ
に行き、奇数ワードだけが右チップに行くから、（第５
図に示すような）主記憶装置からのワードのシフ１−は
必要としない、読取りの場合には、アレイは各アイラン
ドからの１ワードが”読取られ”、それらの独立したデ
ータアウトバッファにラッチされる。書込みの場合には
、遅延書込みイネーブル信号が有効になった後、最初の
ステップは各アイランドから１ワードの読取りを試みる
ことになっているが、データインバッファは内部信号の
１つ、左アイランドイネーブルＥＬＩ、又は右アイラン
ドイネーブルＥＩＩＩにより、アイランドの１つを重ね
書きし新しいデータインを強制する。他のアイランドは
データアウトバッファへの通常の読取り動作を実行する
だけであるが、データには何も起こらない、即ち３状態
ドライバはイネーブルされない。

これらの動作は種々の方法で達成することができる０例
えば、もし左右のアイランドの再ロードイネーブル信号
が外部から別々のピンに供給されるなら、チップは第８
図に示すようになる。再ロード及び通常の書込みの両方
のアイランドイネーブルを達成するための１つの回路が
第１０図に（１ビツトだけ）示される。同じ機能を実行
できる他の回路があるが、その選択は基本となる特定の
アレイ及び許容される再設計の量による。いずれにせよ
、この構成ではどの時点でも１つのアイランドしか書込
まれないから、３２のデータインバッファを１組設けて
おけばよく、該バッファは図示の２つのアイランドに共
用される。外部からのアイランド再ロードイネーブル信
号、すなわち右アイランド再ロードＲＲＩ及び左アイラ
ンド再ロードＲＬＩ　（第８図）は、ＭＵＸＩＮの経路
２からのデータを用いて適切なアイランドへの書込み動
作が実行されることになっていることを示す、よってＭ
ＵＸＩＮのＥｌは１通常の書込み及び再ロード双方に使
用されるＥＲＩ又はＥＬＩと同様に、有効にされなけれ
ばならない、再ロード中は、アドレス変換は必要としな
いので遅延書込み動作も必要としない、例えば、アドレ
スはサイクルの始めに既知であり使用可能である。

通常の書込み、再ロード及び通常の読取りの所要の論理
動作は第８図のチップの場合には下記のようになる：正副班１話）：チップビンの初期状態外部のチップ選択ＣＳ　＝有効書込み＝有効アドレス線＝後選択信号の前に有効ＣＰＵからのデータイン＝後選択信号の前に有効旧ＪＸＩＮへのデータ経路１がドントケアのＥｌによっ
てイネーブルされる可能性があることを除くと、左後選
択ＬＳＬ又は右後選択ＬＳＲがサイクルの中程で有効に
なるまで、チップ上ではどのような動作も生じない、　
ＬＳＬ又はＬＳＲが有効になると、内部チップ選択信号
Ｃ５ｉは有効になり、　ＥＬＩ又はＥＲＩも有効になる
。

匪ユニ下再ロード中、変換を待ってから書込み動作を開始する必
要はない６従って、４つの内部信号、Ｃ５ｉ、肛ＸＩＮ
へのイネーブルＥ２、左又は右のアイランド選択のため
のイネーブルＥＬＩ又はＥ［を供給するため外部信号の
左／右アイランド再ロードがチップ選択と組合せて直に
用いられる。

通」Ｌカ」１取」１後選択キャッシュを読取る場合、アレイは変換プロセス
と並行してアクセスされる。各アイランドから１つずつ
計２ワードはＣ５本読取り信号が有効になると直ちにア
クセスされる。これらの２つのワードは２つのデータア
ウトバッファにラッチされる。後選択信号ＬＳＲ及びＬ
ＳＬの１つが有効になる毎に、ＭＵＸＯＵＴへの対応す
るＥｌ又はＥｌは有効となり、これらのワードの１つを
３状態ドライバを介してＣＰＵバスに接続する。

内部信号のおのおのは論理的に下記により構成される：ＥＬＩ＝　（書込み）本Ｃ５＊ＬＳＬ　（通常の書込み
遅延）＋ＲＬＩ　　　　　　　　（再ロード、遅延なし
）ＥＲＩ＝　（書込み）宰Ｃ５＊ＬＳＲ（通常の書込み
遅延）＋ＲＲＩ　　　　　　　　（再ロード、遅延なし
）ｃｓｉ＝ｃｓ＊（書込み）＊（ＬＳＬ＋ＬＳＲ）　（
通常の書込み遅延）＋０５本（読取り）　　（通２；１
゛の読取り、遅延なし）＋ｃｓネ（ｆ？ＲＩ＋Ｒｔ４）
　　　（再ロード、遅延なし）Ｅｌ（ＭＵＸＩＮ）＝Ｃ
３＊（ＲＩｔＩ＋ＲＬＩ）　　　（再ロードノミ）Ｅｌ
　（ＭＵＸＩＮ）＝Ｃ５＊（書込ミ）＊（ＬＳＩ＋ＬＳ
Ｌ）（通常の書込み遅延）オプションのＥｌ（ＭＵＸＩＮ）　＝（書込ミ）（遅延
なし、ドントケア）Ｅｌ　（ＭＩＪＸＯＵＴ）＝（読取り）＊ＬＳＩ？（左
アイランド後選択）Ｅｌ（ＭＵＸＯＵＴ）＝（読取り）
社Ｓ１．（右アイランド後選択）註：＊＝論理ＡＮＤ；
＋＝論理ｏｎＭＵＸＯＵＴへのイネーブルＥ３及びＥ４はロードスル
ー制御の一部であり、外部から供給される。

第８図に前記ロジック関係を示す、キャッシュ動作は一
度に１つしが実行できないから、外部信号の左／右アイ
ランド再ロードＲＩＪ／ｌ’？［が２つのアイランド後
選択信号ＬＳＬ／ＬＳＲと同時に有効になることは決し
てあり得ない、それゆえ、右アイランド再ロードと右後
選択を１本のピンに結合することができ、同様に左アイ
ランド再ロードと左後選択を１本のピンに結合すること
ができる。これは２本のピンを除去するが、新しいピン
”再ロード−書込み”が必要となり、正味１本のピンが
節約される。所要の内部信号を生成するためのロジック
は第１１図に示すように実現される。ロジックゲート数
の相違は１本のピンを節約するほかは意味がない、２つ
の方法のどちらを選択するかはＣＰＵによるこれらの外
部制御の生成に左右される。

この融通性に富む第８図のチップの場合、各アイランド
は、図示のように、ストアバックアレイへの別個のデー
タ経路を持たなければならない。

これはチップに追加回路を付加するが、第１図のチップ
に必要とされた複雑な１時間のかかる。オフチップシフ
トを除去する。最終的な結果はシステム性能のかなりの
改善及びシステム全体の望ましくない”グルー（ｇｌｕ
ｅ）”チップの除去である。

ストアバックアレイを主記憶装置にアンロードするのに
必要なロジック制御は簡単であるので図示しない。

第８図に組込まれた本発明のバージョンは良好なマツピ
ング及び所望のオンチップ機能の幾つかを含むが、１つ
の重大な制約を有する。即ち、再ロードを実行する際に
、もし情報がロードスルーバッファ内にあるなら、ＣＰ
Ｕは該再ロード中はキャッシュからの情報しか取得でき
ない、前にアレイにロードされたブロックからの情報、
又はロードスルーバッファにはない再ロードデータの要
求は、該再ロードが終了するまで待機しなければならな
い、この状況は、前述のように、起きることがあり、プ
ロセッササイクルを、特に命令当りの平均サイクル数が
減少すると、非常に無駄にすることがある。

第８図のチップ装置に簡単なキャッシュ再ロードバッフ
ァ　ＣＲＢを付加することにより、再ロードプロセスを
ほぼ透明にすることができる。この状態は２ワード再ロ
ード経路について第１２図に示すが、もっと大きい経路
も可能である１例えば、もし主記憶装置と各キャッシュ
チップ装置の間のバス幅が７２ビツト　（パリティを有
する８バイト）であれば、チップ上での適切な復号によ
り各サイクルで２つの偶数ワードを左チップに、２つの
奇数ワードを右チップに再ロードすることができる。

他の経路も可能である。第８図及び第１２図に示す各チ
ップ装置は、各チップの密度及びモジュール性により、
バンク即ちチップのグループとすることができる３例え
ば、もしチップがＣＰＵに対しては１８ビツトバス、主
記憶装置に対しては１８ビツトバスだけを有するなら、
２つの左チップ及び２つの右チップが必要になる。

再ロード中、主記憶装置から入ってくるデータは、ブロ
ック全体が再ロードされるまで、キャッシュ再ロードバ
ッファに入れられる。この再ロードが終了したのち、１
サイクルでブロック全体をキャッシュアレイに書込むこ
とができる。その間に、再ロードが進行しているうちに
、ＣＰＵはアレイの前にロードされたブロック、又はロ
ードスルーバッファに再ロードされたデータをアクセス
することができる。　ＣＲＢにはあるがロードスルーバ
ッファにはない再ロードデータは再ロードが終了するま
では、アクセスすることができない（これはあとで説明
する第１４図のバージョンで変更される）。

この簡単なキャッシュ再ロードバッファに必要な外部制
御及びオンチップ機能は第１３図（第１３Ａ図及び第１
３Ｂ図）に、示す、”ミス”が生ずると、　”ミス”を
生じたワードのアドレスは再ロードアドレスレジスタ　
ＲＡＲにラッチされ、再ロードラッチが有効にセットさ
れる（後者は不可欠ではないが、必要に応じて外部的に
設けることができる）、再ロードは”ミス”を生じたワ
ード対で始まる。主記憶装置の記憶制御装置ＳＣＵから
データが供給される毎に、データ有効信号ＤＶは有効と
なる。これは復号器ＲＬに再ロードアドレスレジスタ　
ＲＡＲの下位のアドレスビットを復号させ、入ってくる
データをＣＲＢ内の適切なワード位置に入れる。またＤ
Ｖ倍信号、後続するあるサイクルでの次の再ロードワー
ド対のため、　ＲＡＲアドレスを次の順次ワードに向け
て１だけ増分させる。再ロードワード対の間を任意のサ
イクル数が経過することができ、システムは自動的にそ
れに適応する。このプロセスは全てのデータがＣＲＢに
再ロードされるまで続く、その時点で、ＣＲＢからアレ
イへの書戻しを可能にするように１キヤツシユサイクル
がスチール（５ｔｅａｌ）されなければならない。

再ロードが進行している間に、プロセッサは読取り又は
書込みを要求することができる。チップはアクセスがア
レイに対するものか再ロードブロックに対するものかを
決定する。この実施例の場合、もしアクセスがアレイに
対するものなら、後選択信号が有効になると、チップは
アレイを読取りＣＰＵバスにデータをダンプする；もし
アクセスが書込み動作であったなら、後選択信号が有効
になると、アレイデータはＣＰＵバスからのデータによ
り重ね書きされる。もしチップがアクセスは再ロードブ
ロックに対するものであると決定すれば、アクセスは不
可能となり待ち例外検査（Ｗａｉｔ−Ｅｘｃｅｐｔｉｏ
ｎ−Ｃｈｅｃｋ）サイクルＷＥＣ信号が出される。アク
セスがアレイに対するものかＣＲＢに対するものかを決
定するために、再ロードブロックのアドレス及びセット
ＩＯは現在のアクセスのアドレス及びセットＩＤと比較
されなければならない。

第１３図（第１３Ａ図及び第１３Ｂ図）は再ロードブロ
ックのアドレスがチップの再ロードアドレスレジスタ　
ＲＡＲに記憶され、このレジスタの内容が入ってくるア
ドレスと比較される場合の実施例を示す、再ロードブロ
ックとアクセスされたブロックのセット　ＩＤも比較さ
れなければならない。

理想的には、再ロードブロックのセットＩＤもＲＡＲと
いっしょにチップに記憶され、このレジスタと入ってく
るセットＩＯ（第８図の後選択信号ＬＳＲ。

ＬＳＬ）のもうひとつの比較も行われる。これは第１３
図のチップには図示されない、この比較は再ロードアド
レスの比較と同様にチップ上で行われることが望ましい
が、チップ外でも構わない、それは速度対オンチップ機
能増加の技術上のトレードオフである。これらのオプシ
ョンが利用可能であることを示すために、セットＩＤ比
較はオフチップで実行され、その結果は第１３Ａ図に示
す”セラ）ＩＤ一致”信号としてオンチップに戻される
ものと仮定する。再ロード中にブロックアドレス又はセ
ットＩＤのどちらかの不一致信号は第１３Ａ図の”通常
アクセスイネーブル”信号を生じ、アレイからのデータ
の読取り又は書込みが行われる。どちらが一致してもア
クセスが開始されるのを禁じ、ＷＥＣ信号はキャッシュ
制御装置に返送される。これはたとえ所望のデータがロ
ードスルーバッファにあっても起こる１本実施例では、
キャッシュ制御装置は情報がロードスルーバッファにあ
るかどうかを識別し正しいワードをアクセスする制御信
号を送らなければならない。

より広く役立つキャッシュ再ロードバッファ構造を実現
することができる。これはロードスルーバッファを必要
とせず、キャッシュチップへの追加機能の導入を犠牲に
して制御の一部を簡略化する。前述の完全に機能的なＣ
ＲＢを有する良好な実施例を第１４図に示す、２ウ工イ
セツトアソシアテイブ方式の後選択構成が、ちょうど前
述のように、チップ当り、Ｂ　ビット／ブロックのキャ
ラシュー主記憶装置再ロードブロックの大きさ、主記憶
装置への３２ビツトデータ経路及びＣＰＵへの３２ビツ
ト経路とともに示される。

この構成では、オンチップ制御はチップへのアクセスを
調べ、内部的に活動の推移を決定する。

もし要求が読取りなら、チップはデータがアレイにある
か、又はそれがＣＲＢにおける有効なデータかを決定す
る。もしどちらかが真なら、その記憶位置が取出され、
データは外部からの制御を必要とせずにＣＰＵデータバ
スに乗せられる。もし要求が再ロードブロックに対する
ものであるがワードはまだ再ロードされてはいなければ
、チップは”待ち例外検査サイクル”信号ＷＥＣを出し
、キャッシュ制御装置は要求を再び出すか又は打ち切ら
なければならない、もし要求が書込みなら、チップはデ
ータがアレイにあるかＣＲＢにあるかを再度決定する。

もしアレイにあるなら、ワードは重ね書きされる。もし
書込みが既にＣＲＢに再ロードされた有効なワードに関
するものなら、そのワードは重ね書きされる。もしこの
ワードがまだＣｒ１Ｂに再ロードされていなければ、Ｗ
ＥＣ信号はチップにより有効にセットされ、制御装置は
再び書込み要求を出すか又は打ち切らなければならない
、チップは次の要求を同じように扱う−それは”再試行
”機能を持たないが、スレーブであるから、制御ピンに
現われる要求はなんでも実行する。

要求がアレイに対するものかＣＲＢに対するものかを決
定し、もし後者なら読取り又は書込みのだめＣＲＢをア
クセスするオンチップロジックを第１５図に示す、ワー
ド有効フラグＷ　は再ロードが開始される毎に０にリセ
ットされ、対応するワード又は複数ワードが主記憶装置
から再ロードされると１にセットされる。記憶制御装置
からのデータ有効信号ＤＶはこのセツティングを可能に
し、更に再ロードアドレスレジスタ　（ＲＡＲ）の適切
な下位アドレスビットを増分する。　ＲＡＲは再ロード
時に”ミス”を生じたワードのアドレスにより初期設定
され５従って正しいワード境界でロードを開始するよう
にセットされるーこのアドレスは”ミス”を生じたワー
ドのロードスルーを実行するのにも用いられる。セット
ＩＤ比較は、前述のように、オフチップから来るものと
仮定する。

ロードスルー経路及びストアパックバッファの制御のよ
うな追加制御そのものは、それらを実現するのに使用さ
れる実際のチップのモジュール性及びパラメータによっ
て異なるがそれらは簡単であり当業者には明白であるか
ら、説明を簡素化するためにもその詳細は図示しない。

第１６図（第１６Ａ図及び第１６Ｂ図）の流れ図は第１
４図、第１５図及び第１８図（第１８Ａ図及び第１８Ｂ
図）に示すような本発明の良好な実施例の動作を示す、
第１４図、第１５図及び第１８図に開示されたチップの
機能が与えられると、オンチップキャッシュの種々のア
ドレスの復号及びアレイのアクセスは完全にオンチップ
で実行される。しかしながら、種々のコマンド信号及び
アレイのアドレスは、第１４図、７１５図及び第１８図
に明白に示すように、通常のオフチップキャッシュ制御
装置から来なければならない、実際に、第１８図は第１
４図、第１５図の主要な機能構成要素を単一の図面に組
合せたものである。もちろん、第１４図の実施例は２ウ
ェイセットアソシアティブ方式キャッシュを示し、第１
８図は４ウ工イセツトアソシアテイブ方式キャッシュを
示す。

第１６図で、シーケンスを開始するには、最初に記憶制
御装置からの（システムアレイの）チップ選択線が有効
にならなければならない、最初の動作シーケンスの説明
は読取り又は書込みのどちらかのＣＰＵインタフェース
についてである。このシーケンスを開始するため、ブロ
ック１０でアクセスがアレイに対するものか又はＣＲＢ
に対するものかを調べる検査が行われる。この検査は比
較装置で行われ、要求されているアドレスは再ロートア
ドレスレジスタのアドレス−現にＣＲＢに記憶された（
又は記憶すべき）アドレスを指す−と比較される。もし
一致しないなら、システムはブロック１２に進む、もし
一致するなら、システムはブロック１８に進む、ブロッ
ク１２で、アレイは指定された行（ｒｏｗ）のアドレス
でアクセスされ、セットの各々にあるアドレス指定され
たワードが、図示のように、アレイの最下部のデータイ
ン／アウトバッファに入れられる。各ブロックの特定の
ワードはアレイの最下部で復号器に供給されたビットア
ドレスを介してアクセスされる。これは第１８図のチッ
プ装置アレイの最下部の復号器の上部部分−各セットか
らの３２ビツトの選択が実行される−に明白に示される
。もちろん。

”ヒツト”はキャッシュディレクトリの探索から決定さ
れるものとすると、次に読取り又は書込み動作のどちら
かが実行される。　”ヒツト”決定の結果はセットの１
つからの特定の論理ワードを選択させる。セット選択機
能は後選択信号−アクセスされたワードのどちらをアレ
イから読取り又はアレイに書込みすることになっている
かを示す−に構築される。

ブロック１４で、もし”読取り”信号が有効なら、後選
択信号はデータイン／アウトバッファに記憶されたワー
ドの１つをＣＰＵに転送する。

もし”書込み”信号が有効なら、後書込みイネーブル信
号により選択されたアレイ中の適切なワードへの（第１
４図に示すような）イン／アウトマルチプレクサ（ＭＩ
Ｘ　ｌＮ１０ＵＴ）を介して、ワードはチップアレイに
入れられる。

ブロック１６で、もしキャッシュ制御装置からの後選択
信号が有効ではないなら、それ以上は何も起こらず、チ
ップはキャッシュ制御装置から次のコマンドを受取るま
で待機する。これはキャッシュ”ミス”が生じている場
合の状況であり、その時点で、キャッシュ制御装置は”
ミス“シーケンスを開始し、該シーケンスは適切なアル
ゴリズムによりどのセットを交換すべきかを決定し、も
し必要なら、現にキャッシュにあるそのセットをストア
パックバッファを介して主記憶装置に書戻し、且つキャ
ッシュ再ロードバッファを介して主記憶装置からキャッ
シュに新しいデータをロードすることなどを含む。

ブロック１８はアクセスすべき特定のワードが現にＣＲ
Ｂに記憶されていることを表わす、完全なブロックがＣ
ＲＢに記憶されると仮定されるから。

特定のワードは全体のアドレスの適切なビットを復号す
ることにより指示されなければならない。

しかしながら、当業者には理解されているように、任意
の所与の時刻に、システムは先ず、データの一貫性を保
証するため新しいデータが記憶装置からアクセスされＣ
Ｒ［ｌに記憶されているかどうかを゛決定しなければな
らない、これは本システムではＣＲＢのワード毎に、Ｖ
ＦＲに記憶されているワードフラグＷｉをセットするこ
とによりなし遂げられる。ゆえに、アドレスにより指定
された特定のワードフラグが有効にならなければ、ＣＲ
Ｉｌにあるワードをアクセスす゛ることかできない、も
し適切なワードフラグが有効で且つ”読取り”信号が有
効なら、第１４図で、適切なワードがＣＲＢからＣＲＢ
　ＭＵＸＯＵＴ及びアレイＭＩＸ　ｌＮ１０Ｕ丁を介し
てｃＰＵバスニ送られる。

もし”書込み”動作がＣＲＢで実行されることになって
いるなら、再び適切なワードフラグが有効でなければな
らない、　′書込み”線が有効になると、第１４図に示
すように、ＣＰＵバスからアレイ　ＭＩＸ　ｌＮ１０Ｕ
Ｔを介して新しいワードのデータを受取り重ね書きＭＩ
Ｘを介してＣＲＢに入れる。第１８図では、”読取り”
動作及び”書込み”動作はチツブ装置アレイの右に示す
ＣＲＢデータＭＩＪＸを利用する。

もちろん、アクセス中の特定のワードはその適切なワー
ドフラグが有効にセットされたものと仮定して、前記動
作はＣＲＢアクセスサイクルを完了する。しかしながら
、もし所望のワードフラグが無効であったなら、所望の
ワードが主記憶装置からＣＲＢにまだロードされていな
かったことを表わす待ち例外検査（ＷＥＣ）がシステム
制御によりキャッシュ制御装置に送られ（第１５Ａ図）
、記憶装置アクセスは所定のサイクル数のあいだ”待ち
”状態に入り、そのあと要求されたデータは前のように
成功するまでアクセスされる。第１８図で、この信号は
ＣＲＢ制御ブロックから出る”例外”信号として示され
る。

次に説明する動作はキャッシュの再ロードを含む、これ
は最初にキャッシュにある変更されたブロックの現デー
タをストアバックバッファ（ＳＢＢ）を介して主記憶装
置に書戻し、次にキャッシュ再ロードバッファ（ＣＲＰ
、）を先ず再ロードしてからＣＲＢからのデータをキャ
ッシュに転送することを必要とする。これらの機能はブ
ロック２４．２６．２８及び３０を介してそれぞれなし
遂げられる。

キャッシュ　”ミス”が起きたとき、もし置換えられた
ブロックが変更されているなら、結帰ム５ＢＢ（ストア
バックバッファロード）′ａは有効になる。

この信号は上部の復号／選択復号器をイネーブルし、選
択されたセットからのデータの完全なブロックはストア
バックバッファに転送される。もちろん、特定のセット
は後選択信号自身により選択される。　ＳＢＢ　ｉｌＪ
御がらのストアバックカウンタもセットされる。これは
第１４図には図示されないが第１８図に図示され、５！
１Ｂからのデータの主記憶装置への順次転送を制御する
のに用いられる。第１４図の実施例で分がるように、主
記憶装置バスは３２ビツト幅でデータブロックは２５６
ビツ１−であるから、ＳＢＢにある全２５６ビツトを主
記憶装置に転送するシこは８サイクルが必要である。同
様に。

第１８図の実施例では、主記憶装置バスは６４ビツト幅
で示されているから、４サイクルしか必要としない、こ
れでブロック２４の手順を終る。

次に、５８Ｂの内容が主記憶装置に書込まれなければな
らない、これはブロック２６で実行される。

このブロックを開始するには、ＵＳＢＢ信号が有効でな
ければならない、これが生ずると、　ＳＢＢはアクセス
され、適切なワード、例えば、第１４図では３２ビット
；第１８図では６４ビツトが主記憶装置に送られ、そこ
でオフキャッシュ記憶制御により選択されたアドレスに
適切に記憶される。更に、ＳＢＢカウンタが増分され、
ＳＢＢに記憶されたブロックを構成するワードの全てが
主記憶装置に適切に転送されるまで、第２、第３、第４
１等のストアバックサイクルがあとに続く、これが生ず
ると、適切な記憶制御は手順が終了したことを示す。

次に生ずるのは、新しいデータブロックが主記憶装置か
らＣＲＢにロードされる動作でなければならない、′再
ロード”信号が有効であって”ＤＶ″（データ有効）信
号も有効であるときは、第１のワードは主記憶装置から
ＣＲＢに送られ、対応するワードフラグνｉは有効にセ
ットされ、ＲＡＲカウンタは増分されるので、再ロード
ブロックを構成する次のワードをＣＲＢ中の適当なワー
ド位置に入れられるようになる。このカウンタは第１４
図にはＣＲＢ制御にあるようには特に示されないが、第
１８図には示される。このカウンタはストアバックカウ
ンタとほぼ同じように作動し、主記憶装置バスに順次に
現われた３２又は６４ビツトをＣＲＢにある適切なワー
ド位置に記憶させる。この動作は完全なブロックが再ロ
ードされるまで続けられ。

その時点で手順は終了する。

最後の動作はＣＲ［ｌの内容をアレイに、そして置換ア
ルゴリズムによって決定されるような適切なセットに転
送することである。ブロック３０はこの動作を示す、も
しｔｌｃＲＢ”信号が有効なら、ＣＲＢＭＵＸＯＵＴは
ＣＲＢにあるデータを並列に、例えば、全２５６ビツト
をアレイの上部の復号器を介し且つ後選択線上のセット
信号によって決定されるようなアレイ内の適切なセット
に転送させる。第１８図で、　ＣＲＢの直ぐ下の３状態
出カはＩＪｃＲＢ”信号によって励起される。　ＣＲＢ
からアレイを再ロードする動作は１記憶サイクルで実行
される２例えば、置換される特定のセット内のデータブ
ロックを構成する全２５６ビツトがアレイ内の適切なセ
ットに送り込まれる。

上記はシステムの動作の高いレベルの機能の説明であり
、第１４図、第１５図及び第１８図に示すあらゆる個々
の機能装置を詳細に記述するものではないが、それらの
動作は当業者には周知であり明白であるので、全ての機
能の詳細な説明は不要であろう。

第１７図は本発明で使用する良好なアレイをマツピング
する記憶マツピング図である０図のマツピングは１例え
ば、第１８図の実施例で利用される４つのセットについ
て示しているが、マツピングは、第１４図の実施例の場
合のような、セットＡ及びセットＢだけを含むアレイに
も等しくうまく適用される。第１４図の実施例では、セ
ットＡは左アイランドにありセットＢは右アイランドに
ある０図示のように、同じ合同クラスにマツピングする
指示されたセットの完全なブロックのワードの全ては単
一の行にある。従って、所与のキャッシュアクセスでは
１通常のアクセスであっても再ロードアクセスであって
も、第１４図及び第１８図の双方においてアレイの側面
の復号器により概略示すように行アドレスが処理される
。最終的な選択はアレイの下部及び上部の復号器により
それぞれ行われる。ＣＰＵとインタフェースするアレイ
の下部での復号ないしは選択は２段階で実行される：最
初は正しくアドレス指定された各セットからのワードが
最初の段階で選択され１次にセット選択が後選択イネー
ブル信号によって実行されて、所望のセットの所望の３
２ビツトワードを、書込みサイクルでアレイに送るが又
は読取リサイクルでＣＰＵに送る。これは第１８図にき
わめて明白に図示されている。

同様に、上部の復号器はアドレス指定された４つのアレ
イの１つにある特定のデータブロックを構成するワード
の全てを選択し、　ＳＢＢ／ＣＲＢ／アレイデータバス
にそれらを送り込む、当業者には理解されているように
、この最後の選択はアレイの上部及び下部に接続されて
いるような概略図示された特別のＩ１０バッファに関連
した適切に統合されたビット線復号器を介して行われる
。更に、これらの復号器の′双方はアレイの上部又は下
部のどちらかに置くことができ、必要なことは各々がア
レイから来るセンス線（例えば、第１８図の実施例では
１０２４本）の全てに並列に接続され、通常の読取り／
書込みアクセスであっても再ロードであっても供給され
た特定のアドレス及び実行中の機能によって指定される
特定の復号器及びバッファでこれらの線が選択されるこ
とだけである。

前述のように、第１８図は第１４図及び第１５図に示す
良好な実施例の変形の高レベル機能ブロック図である。

それは本質的にはこれらの２つの図に示す単一チップ構
造に取付けられた主要な機能素子の連結である。第１５
図に示す詳細な論理回路は当業者には明白なことと思す
れるので（第１８図には）含まれていない、オンチップ
キャッシュアレイは２ウエイセツトアソシアテイブに代
えて４ウ工イセツトアソシアテイブ方式で示されている
。実際のチップ装置アレイも第１４図の場合のような２
つのアイランドに代えて単一のブロックで示されている
０図の種々のデータ経路に隣接する数字は関連するバス
に現われるビット数を表わす０機能装置ないしはブロッ
クは全て簡略名。

例えば、ＣＲＢ、ＳＢＢ、　ＲＡＲ，等により明示され
ている。

主記憶装置データバス及びＣＰＵ／キャッシュデータバ
スはアレイ、ストアパックバッファ及びキャッシュ再ロ
ードバッファを相互接続する内部のデータバスと同様に
明示されている。

第１８図の完全なキャッシュチップ構造の動作は、もち
ろん、２ウ工イセツトアソシアテイブ方式に代えて４ウ
工イセツトアソシアテイブ方式のキャッシュが記述され
るほかは第１４図及び第１５図で説明した動作と同じで
ある。ストアバックカウンタ及び再ロードカウンタの動
作は第１６図の流れ図に関連して前に説明されている。

第１８図の実施例は２５６にビットのチップ装置（３２
にバイト）を含み、６４バイトのキャッシュブロック（
ビット８Ｏ−ＢＳ）を使用する　６４にバイト　（前記
チップを２つ必要とする）４ウ工イセツトアソシアテイ
ブ方式の後選択キャッシュ構造の全アドレッシングビッ
トとともに示されている。完全な６４にバイトアレイの
フルアドレスは１６ビツト幅であり、ワード即ち行選択
を与える８ビットＡＯ−Ａ７と、上部及び下部の復号器
を適切にアクセスするのに利用される　６ビツトＢＯ−
ＢＳとを含む、最後に、適切なセットを選択する２つの
セットアソシアティブビットが含まれているが、これら
のビットはキャッシュ制御回路でオフチップで処理され
るので図示されず、セット選択は、前述のように、再ロ
ードなしニジは通常のアクセスの合同クラスから適切な
セットを選択する後選択信号を介して行われる。ＣＰＵ
の論理ワードは３２ビツトである。

再ロード経路はチップ当り８バイト、又は、もし前記チ
ップ装置が２つ使用されるなら　１６ノベイトである。

もし図示のものとは異なる幅を有するチップ装置が使用
されるなら他の構成も起こりうる。

当業者には明らかなように、所望の記憶幅を構成するに
は、適切な数の前記チップ装置が並列に使用される。し
かしながら、図示のような重要な制御構成は全て個々の
チップ装置に設置される。

２つの比較ブロックＣＯＭＰＩ及び（、ＯＭＰ２−その
１つは再ロードアドレスレジスタと現アクセスサイクル
の内容を比較し他の１つは現セットＩＤとの一致を決定
する−もオンチップで示されている。

しかしながら、どちらか一方又は両者はワードフラグレ
ジスタ　（ＶＦＲ）と同様にチップの最も重要な構造を
変えずにオフチップにすることができる。

第１５図には、　ＲＡＩＩの現在の内容を比較する比較
器が示されている。

下記の表１は第１図に示す最も低いレベルのキャッシュ
改善から始まり第１４図の良好な実施例の最も改善され
た最大限の特徴のバージョンに至る種々の実施例の特性
の一覧表である。

本発明は漸進的に複雑化された幾つかの実施例、例えば
、第１図、第８図、第１２図、第１４図及び第１８図に
関連して説明されているけれども。

本発明の精神及び範囲から逸脱することなくシステム構
造全体に更にそれ以上の変更を加えること表１も容易にできる。

例えば、良好なチップ装置構成で、再ロード経路で最大
の並行性を与えるために４つのセットの各々から少なく
とも１つの完全ブロックを単一の行アドレスに駐在させ
ることが要求される。これは、５ｒｌＢはキャッシュア
レイから１サイクルでロードされ、且つＣＲＢはアレイ
に１サイクルでアンロードされるという仕様から生ずる
。一般にこれらの動作の各々には２サイクル以上の遊休
サイクルがあるから、この制約は２ないし３サイクルで
ＳＢＢをアレイからロードし、ＣＲＢをアレイにアンロ
ードするように条件付けることにより和らげることがで
きる０例えば、もし２サイクルがこの動作のために選択
されれば、各セットからの完全な１ブロツクが２つの行
アドレスに駐在することができる。こ九は僅かな量のオ
ンチップ制御を付加するだけで、総合的なキャッシュ仕
様に更に柔軟性を与える。

第１８図に関連して前に言及したように、より大きい所
望の記憶サイズを実現するためキャッシュ全体は複数の
前記チップ装置から構築することができる。もちろん、
基本的なオンチップアーキテクチャは前記実施例と同じ
であり、唯一の相違は、当業者には理解されているよう
に、異なるアドレスのサブセットが全体のキャッシュ制
御装置から異なるチップに供給されることである。

級で本発明についての以上の説明はキャッシュシステムが２
つの異なるモード−通常のアクセス及び再ロード−で動
作することを明らかにしている０通常のアクセスでは、
典型的な高性能プロセッサは連続的にプロセッササイク
ル当り１ワードと２ワードの間の平均速度を要求するこ
とがある。

アクセス”ミス”が生ずる毎にシステム帯域幅の要求は
、理想的には１主記憶装置サイクルでロードされるべき
（ブロックサイズに等しい）複数ワードの単一バースト
となり、これはランダムな間隔でたまに起きる。あいに
く５後者の要求は実現するのが非常に困難であり費用が
かかる。その結果、実際のシステムでは性能が低下する
。これは再ロードの不利点を減する種々のキャッシュ構
成が試みられることになる０以上の長い説明のように、
普通のスタティックＲＡＭチップはキャッシュアレイに
おいて通常のアクセスのために最適化されるが、再ロー
ド経路にかなりの複雑さを生ずる。

この複雑さは再ロードのため実行する必要がある種々の
機能の間で幾つかの形をとる０本明細書に記載されたオ
ンチップキャッシュ構造はアレイ／チップ設計とシステ
ム全体の機能要求の間の最適のトレードオフを表わす構
造を含む、この構造におけるチップの賢明な構成により
、再ロードプロセスの大部分は１記憶サイクルで生ずる
ことが明白にされ、しかもなお、セットアソシアティブ
方式のキャッシュ構成を可能にする。内部アレイは１ボ
ートセル設計のみを必要とし、キャッシュブロックの物
理的アレイへのマツピングの適切な選択により追加の機
能は容易に統合される。従って、その最も広い概念で、
本発明は２つの別個の復号機能−１つは主記憶装置イン
タフェースに対するもの、１つはＣＰＵインタフェース
に対するもので、本明細書で開示された新しいマツピン
グと共にかなり改善されたキャッシュ記憶性能を提供す
る−を有する単一ボートキャッシュ記憶装置アレイ構造
を開示する。

Ｆ０発明の効果本発明に従って提供される機能的なキャッシュチップ構
造によって再ロード及びストアバック機能が改善され総
合キャッシュアクセス時間が改善される。

【図面の簡単な説明】

一第１図はキャッシュ使用に関する本発明に従って構築
された、再ロードシフト機能もキャッシュ再ロードバッ
ファも持たない改良されたスタティックＲＡＭチップの
データフローを示す高レベル機能ブロック図、第２図はＣＰＵと後選択４ウエイセツトアソシアテイブ
方式キャッシュ記憶装置の間のアドレス及びデータフロ
ー経路を示す高レベルデータフロー及び機能ブロック図
、第３図はサイクル毎にＮワードを（キャッシュに）再ロ
ードするための主記憶装置−キャッシュ間データ経路を
示す高レベルデータフロー及び機能ブロック図、第４図は単一ポートチップ装置を用いて構成された、セ
ット当り２チツプ装置を必要とする２ワード再ロード経
路を有する後選択４ウエイセツトアソシアテイブ方式キ
ャッシュのための主記憶装置−キャッシュ間のデータ経
路を示す高レベルデータフロー及び機能ブロック図。第５図は改善されたキャッシュ再ロード機能を４ワード
の主記憶装置−キャッシュ間データ経路を介して成し遂
げる　”ラテン方陣”マツピングを用いる４ウ工イセツ
トアソシアテイブ方式キャッシュのための主記憶装置／
ＣＰＵ−キャッシュ間データ経路を示す高レベルデータ
フロー及び機能ブロック図、第６図は各ポートに単一ワード／チップアクセス、及び
”ラテン方陣”マツピングを介する４ワード再ロードア
クセスを有する真の２ポートギャッシュアレイを用いる
後選択４ウエイセツトアソシアテイブ方式キャッシュの
ための主記憶装置−キャッシュ間のデータ経路を示す高
レベルデータフロー及び機能ブロック図、第７図は第７Ａ図〜第７Ｃ図の配列図、第７Ａ図〜第７
Ｃ図は代表的なキャッシュサブシステムのアドレス指定
及び生成を示すブロック図。第８図はオンチップ再ロード−シフト機能、左／右アイ
ランド再ロード信号、並びに外部的に別個のピンに供給
される左／右後選択信号を有するキャッシュチップを示
す、本発明に従って構築された第１図に類似の高レベル
機能ブロック図。第９図は第７図に示すようにキャッシュチップ上で行わ
れる再ロードシフトの場合のキャッシュ再ロード経路図
、第１０図は２つのアイランドのどちらかに対するデータ
インバッファの１セツトの多重化を含む。オンチップ再ロード−シフトの簡単な回路を示す機能ブ
ロック及び論理回路図、第１１図は後選択の右／左ピンと再ロードの右／左ピン
を結合するための回路の論理回路図、第１２図はオンチ
ップ再ロード−シフト、別個のロードスルーバッファが
増設されたストアパックバッファ及び簡単なキャッシュ
再ロードバッファのために変更されたマツピングを用い
る、本発明を更に変更したチップ組成及び構造を示す、
第１図及び第８図に類似の機能ブロック図、第１３図は
第１３Ａ図及び第１３Ｂ図の配列図、第１３Ａ図及び第
１３Ｂ図はキャッシュにおける異なるブロックに同時に
再ロードしアクセスすることを可能にする、第１１図の
構成の１チツプキヤツシユ再ロードバツフア制御の機能
ブロック図。第１４図はオンチップ再ロード、ストアパックバッファ
及び完全に機能的なキャッシュ再ロードバッファのため
に変更されたマツピングを用いる１チツプキヤツシユの
組成及び構造を示す、第１図、第８図及び第１２図に類
似の、本発明の良好な実施例を示す機能ブロック図、第１５図は第１５Ａ図及び第１５Ｂ図の配列図。第１５Ａ図及び第１５Ｂ図はキャッシュにおける同じブ
ロックないしは異なるブロックに同時に再ロードアクセ
スすることを可能にする。第１４図に示すキャッシュ再
ロードバッファ制御の機能ブロック図、第１６図は第１６Ａ図及び第１６Ｂ図の配列図、第１６
Ａ図及び第１６Ｂ図は第１４図、第１８Ａ図に示す本発
明の良好な実施例の変更されたキャッシュアレイの動作
シーケンスを示す高レベル流れ図。第１７図は４セツトの各々からのデータの完全な１ブロ
ツクが単一の行アドレスに駐在するチップ装置記憶アレ
イマツピングを示す図。第１８図は第１８Ａ図及び第１８Ｂ図の配列図、第１８
Ａ図及び第１８Ｂ図は第１４図、第１５図に示す本発明
の良好な実施例から少し変化した。単一形態に主機能装置、データ経路及び制御素子を含む
ブロック図である。ＣＲＢ・・・・キャッシュ再ロードバッファ、ＬＴＢ　
゛・・ロードスルーバッファ、　ＳＢＢ・・・・ストア
パックバッファ、　ＲＡＲ・・・・再ロードアドレスレ
ジスタ。ＳＣＵ・・・・記憶制御装置、ＴＬＢ・・・・変換ルッ
クアサイドバッファ。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　頓　　宮　　孝　　−（外１名） ′第　３　口ＡＶ−ッーンユ￥、５回詳　　　　　　Ｖ９央≧　　　　　　　　　扇終了笛１６０劣１８８　図

Claims

【特許請求の範囲】ｎウェイ・セットアソシアティブ方式のキャッシュアレ
イと、前記キャッシュアレイに接続され、ＣＰＵによる通常の
読取り又は書込みを行うための第１復号手段と、前記キャッシュアレイに接続され、主記憶装置との間で
複数ワードのデータブロックを転送するための第２復号
手段と、前記データブロックを保持するためのバッファ手段と、を具備するキャッシュメモリサブシステム。