JPH07502358A

JPH07502358A - マイクロプロセッサーのクロックに依るマルチプル・アクセスのためのインターリーブ・キャッシュ

Info

Publication number: JPH07502358A
Application number: JP5511814A
Authority: JP
Inventors: アルパート，ドナルド・ビイ; チョウドハリイ，マスタフィズ・アール; ミルズ，ジャック・ディ
Original assignee: インテル・コーポレーション
Priority date: 1991-12-23
Filing date: 1992-12-22
Publication date: 1995-03-09
Also published as: WO1993013481A1; US5559986A; GB2277181B; AU3330793A; GB9407321D0; GB2277181A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】発明の名称マイクロブクセ１サーのクロックに依るマルチプル・アクセスのためのインターリーブ・キャノン３発明の分野本発明は、マイクロプロセッサ−の分野、特に中央処理袋［（ＣＰＵ）と主記憶装置の間の記憶装置の階層レベルを表すインターリーブ・キャッシュ・メモリに関する。

発明の背景コンピュータ・／ステムの開発において、このような／ステムの速度と、大型で慢雑なプログラムを処理する性能を高めながら、それらのコストを低減することに主な重点がおかれている。コンピュータ・／ステムの性能を高めるには、より大型なプログラムがコンピュータ・／ステムに依って活用されるように、ランダム・アクセス・メモリ（ＲＡＭ）のサイズを大きくして、そのＲＡＭに対するアクセスに余裕を与える程度に速度に高速にする必要がある。アクセス速度を高速にするストレートフォワード方式は、更に高速に動作するコンポーネントを使用している。しかし、このような高速動作コンポーネントは、低速メモリ・コンポ −ネットより高価になる。

高速ＲＡＭの搭載に伴うコストを考慮して、高度コンピュータ・システムは、高速キャッシングを使用してメモリ・７ステムの動作速度を高めてきた。キャッシング・アレ７ジメントは、レギュラーＲＡＭのほかに小型の高速のメモリを搭載している。コマンドが発行されて、データが利用されると、インフ堵−メー／ヨノがＲＡＭから呼ばれて、このキャッシュ・メモリに記憶される。各々新い＼読取または書き込みコマンドが発行されると、／ステムは、高速メモリ・キャノ１５を調べて、インフオーメー７９ノがキャノンｊに記憶されて℃）るかどうｈ１決定する。インフォーメーノヨンがキャッシュ・メモリにあるときにはＲＡＭＩこ対するアクセスを要求せずにコマンドが処理されるか、またはデータにアクセスされる。インフオーメ−７Ｉ＋７がキャッシュ・メモリで利用できなし１時１こ、新しく＼データが主メモリからコピーされ、／ステムによる後の使用のためにキャッシュ・メモリに記憶される。高度にデザインされたシステムでは、調べられたインフォーメー／ヲノは、平均して９０％以上の時間にわたってキャッシュ・メモリにある。従って、キャッシュ・メモリを使用すると、コンピュータ・システムで用いられるメモリの全体的なオペレー／ｇン速度を実π的に高めることになる。

コンピュータ・システムのオペレー／ｍン速度を更に高めるために、高速のキャッシュ・メモリをプロセッサー・チップ上に直接関連づけることが望ましいことが分かった。例えば、８キロバイトのメモリから成るこのような小型の高速手ャノノユ・メモリをＣＩ”Ｕの他のエレメントと共にチップ上に直接与えると効果的であると思われる。このような構造は、種々のプロセスによって繰り返し用いられるイ／フォーメー７−Ｉンに対して、／ステムのオペレージ１ン速度を大幅に高めることができる。

一般的に、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）のような、スタティック・メモリがキャッシュ・メモリに対して用いられている。これらのメモリは、各々ｌビットのデータを記憶するためにセルを形成している複数の双安定回路（フリップフロップ）から作られている。メモリ・アレイにおいて、ビット・ラインは、データをセルから読み取るために用いられる。これらのビット・ラインは、人力データに依って決まる所望の状態へラインをドライブすることによって書き込みにも用いられる。

高度の性能をマイクロプロセッサ−で達成するための別のアプローチは、一般的にスーパースカラーと呼ばれる、クロック当たり複数の命令を実行することである。クロ、り当たり複数の命令を効果的に実行するために、マイクロプロ七ノサーは、オペランドが実行段階で障害にならないようにしなければならない。例えば、複数のオペランドがオフチップ・データ・キャッシュにアクセスする必要がある場合に障害が生じるおそれがある。従って、マイクロプロセッサ−は、ｌクロックで同時に複数のデータ参照を行うことができるデータ・キャッシュを必要とする。従来の技術では、複数のデータ参照を行うために、マルチボート技法が一般的に採用されている。このような技法のもとでは、同時データ参照の数と同じくらいの数多くのボートを備えたマルチボート・メモリ・セルが用いられている。

デュアルポート・スタティック・メモリ・セルも周知の従来技術である。成るこのようなセルの例がアメリカ特許Ｎｏ、　４．８２３．３１４に図示されている。デュアルポート・メモリ・セルは、メモリに対する複数のデータ参照を行うために、しばしば用いられている。しかし、デュアル・ボートＲＡＭセルは、６トラノジスタ・ノングル・ボー）ＳＲＡＭセルより２つ多いトランジスタと、２対のビット・ラインと、２つのワードラインを必要とする。更に、デュアルデート・セルのクロス結合インバーターのためのトランジスタは、余分な対のビット・ラインを駆動するために大型になる必要がある。対照的に、デュアル・ボートｓＲへＭは、ノングル・ボート・セルよりはるかに大型になり、ノングル・ボート・セルのサイズの約１７倍になる。更に、デュアル・ボート技法は、ノングル・ボート技法が要求するとυわれるセンスアップの数の２倍を要求する。デュアル・ボート非イノターリーブ技法も、センスアップの２倍の数がキャッシュに対するアクセス中に可能になるので、典ヤ的なノングル・ボート・キャッシュの電力の２倍になる。

メモリ・アクセス時間を短縮するために用いられる別の方法は、メモリ構成を最適にすることである。メモリは、ノングルワードではなく複数のワードの読取または書き込みが、１回でできるようにバンクに構成することができる。これらのバンクは一般的に１ワ一ド幅なので、バスとキャッシュの幅は変わる必要がない。従って、アドレスを複数のバンクに送ると、キャッシュは複数の参照を同時に読み取ることができる。バンクは書き込みオペレーン言ノにおいても効果的である。バック・トウ・バック書き込み方式は、前の書き込みオペレーションが終えるのを一般的に待たなければならないが、複数のバンク構成は、これらの書き込みが同じバンクにり１してなされない限り、ｌクロックで複数の書き込みを可能にする。

従来の技術では、複数のメモリ・コントローラーが、キセノ／：Ｌ・メモリ・バンクに対するアクセスを制御するために採用されている。メモリ・コントローラーは各々メモリ・バンクと関連づけられていた。複数のメモリ・コントローラーはバンクを独自に動作させる。例えば、入力デバイスは１つのコントローラーとそのメモリを使用し、キャッシュは別のものを使用し、ベクトル・ユニットは第３のものを使用すると思われる。実際に用いられるコントローラーの数は袴通は僅かである。このようなキャッシュ・メモリ・システムにおいて、コントローラーの数が僅かな時に、同じバンクに対して競合するメモリ参照の間のフンフリクトの可能性が大きくなる。従って、コンフリクトの機会を減少するために、数多くのバンクが必要とされる。

そこで、本発明は、マイクロプロセッサ−でクロック・サイクル当たり複数のデータ参照を行うことができるノングル・ボート・キャッシュ・メモリを提供する。クロック当たり複数のデータ・アクセスは、本発明のデータ・キャッシュがインターリーブされることによって可能になる。

発明の要約マイクロプロセッサ−の１クロツクでの複数のデータ・アクセスのためのインターリーブ・キャッシュについて説明される。キャッシュは、複数のバンクの７ングル・ボート・メモリ・セルを備えた記憶アレイを含んでいる。好ましい実施態様において、キャッシュは８バンクのメモリを備えている。キャッシュはバンク・セレクター・メカニズムとデータバスも含んでいる。バンク・セレクター・メカニズムは、マイクロプロセッサ−の複数の実行ユニットによるクロックでの複数のバンク・アクセスを可能にする。データバスは、マイクロプロセッサ−の実行ユニットと記憶アレイの間のデータバスを提供する。

本発明では、バンク・セレクター・メカニズムはデコード・ロジックとバンク・フットローラー・ロジックを含んでいる。デコード・ロジックは複数のデータ・アクセスのアドレスをデコードする。好ましい実施態様において、デコード・ロジ、りはデコーダのセットからなる。バンク・コントローラー・ロノｙりは、デコード・ロジックからデコードされたアドレスに相当するバンクの四ケーノ１ノにアクセスする。好ましい実施態様において、バンク・コントローラー・ロジ７りはマルチプレクサ−の七ノドになる。

本発明において、データバスは複数のデータ・ボートとデータバス・コントローラーを含んでいる。好ましい実施態様において、データ・ボートの数はマイクロブロセ、サーの実行ユニットの数と同じである。データバス・コツトローラーは、複数の実行ユニットがクロックで記憶アレイにアクセスするようにして、本発明のキャノ／、−の記憶アレイと実行ユニットの間のデータ転送を制御する。データバス・コントローラーは、そのデータ・アクセス要請に基づいて、実行ユニットの各々に対してデータを並べるための整列ロジックを含んでいる。好ましい実施態様において、データバス・コントローラーは、各々ポートに結合されているローチーターとマルチプレクサ−から構成されていて、マイクロプロセッサ− の各々実行ユニットに出入するデータの転送を制御する。

本発明は、記憶アレイの同じバンクに対する複数のデータ・アクセスが生じているかどうか決定するフンテンシプン・ロジックを更に含んでいる。この状Ｃになると、コンテノ／ＩＩン・ロジ、りは、それらが満足できるようにして、競合する複数のデータ・アクセスに優先順位を設定する。好ましい実施態様において、コアテン７ｇノ・ロジックは、複数のデータ・アクセスに対応するサイクル・タイプとアドレスを受けて、バンク・セレクターに送信して、記憶アレイの特定のバンクに対するデータ・アクセスを可能にする。バンク・セレクターに送られた信号は、好ましい実施態様においてマルチプレクサ−に対する入力と制御信号になる。本発明において、フッテン／ラン・ロジックは、ｌっだけのデータ・アクセスが生じるようにしているので、そのデータ・アクセスが置換（例えば、読取、書き込みなど）や試験または無効化サイクルである時に、全ての他のことを禁止にする。

本発明の記憶アレイは、センス回路を用いて、データをアレイから複数データのアクセス中に読み取っている。センス回路は、記憶アレイにおいて各々バンクに付随するセンスアンプを含んでいる。本発明のもとでは、アクセスされるメモリ・バンクにｆ１随するセンスアンプだけが作動される。このようにして、記憶アレイによって消費される電力が低減される。

図面のｎＩＩＩな説明本発明は、次に示す詳細な説明と本発明の好ましい実施態様の添付図面から更に十分に理解される、しかし、それらは、特定の実施態様に発明を限定するものでなく、説明と理解のために存在することを認識されるべきである。

ＩＩは、本発明のコンピュータ・／ステムのブロック図である。

図２は、本発明のマイクロプロセッサ−のブロック図である。

図３は、本発明のキャッシュのブロック図である。

図４は、本発明のメモリ・アレイのスタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）セルの好ましい実施態様を示す。

図５は、本発明の好ましい実施Ｉｌ！ｉ樟のブロック図である。

発明の詳細な説明マイクロプロセッサーの１クロツクで複数のデータ・アクセスを可能にするインターリーブ・データ・キヤノンコについて説明される。以降の説明では、本発明の好ましい実施ｇ様を十分に理解できるようにするために、バイト、ビット、デバイスなどの特定の数字のように、数多（の特有の詳細事項が予め定められている。本発明は、これらの指定された詳ＩＩＩ事項がなくても実現できることは、当業者にとって明らかであると思われる。また、周知の回路は、本発明にわいて不要な誤解を避けるために、詳細図ではなく、ブロック図の形式で図示されている。

本発明を説明する途中で、Ｉｎｔｅｌ　１５８６７Ｍと１８６０ＸＰＴＭマイクロプロセッサ−のような、成る特定のＣＰＵアーキテクチャ−またはマイクロプロセンサー・タイプあるいはその両方と共にインターリーブ・データ・キヤノンユが、しばしば用いている。これらの利用は、本発明に関して、好ましい実施態様を単純に反映しているにすぎない。本発明に具体的に用いられている概念は、他のプロセンサー・タイプとアーキテクチャ−にも応用できる、または拡張できることを認識されるべきである。

更に、本発明を説明する際に、＃照数字は、好ましい実施態様に特有の信号の本発明のコンピュータ・／ステムの概要図１に、本発明のコンピュータ・／ステムの概略がブＣ２ｙり図の形式で図示されている。図１は本発明のコンピュータ・／ステムの概略的な説明を与えるうえて有用であるが、数多（のシステムの詳細な事項が図示されていないことが理解される。本発明の開示に関して必要に応じて、更なる詳細事項が、この明細書に与えられている他の図面を引用して設定される。更に、本発明は、その好ましい実施態様、すなわち、後に述べられる請求の範囲に属することが、当業者によって認識されると思われる代替実施態様を引用して説明される。

図１に図示されているように、本発明の好ましい実施態様で用いられると思われる〕／ピユータ・／ステムは、インフオーメーンヨンを送るために！＜ス１０１に結合されている処理手段１０２と、処理手段＋０２のためにインフォーメーシ９ンと命令を記憶するためにバスｌｏｔに結合されているランダム・アクセス記憶袋ａ　（ＲＡＭ）または他の動的記憶装置１０４（主記憶装置として広く用いられている）と、処理手段１０２のために不揮発性イノフォーメーンツンと命令を記憶するためにバス１０１に結合されている読取専用記憶装置１４ｊ（ＲＯＭ）または他の不揮発性記憶装置＋０６、イノフ肯−メー７ＩＪノと命令を記憶するためにバス１０１に結合されている磁気ディスクやディスク・ドライブのようなデータ記憶袋Ｎ１０１と、インフォーメーンヨノをコンピュータ・ユーザに表示するためにバス１０１に結合されている陰極管や液晶表示装置などのような表示袋Ｆｆ１２１と、インフォーメー’／　ｍ　：／とコマンド選択をプロセッサー１０２に送るためにバス１０１に結合されている、英数字と他のキーなどを含めた英数字入力袋Ｗ１１２２と、カーノルの動きを制御するためのカーソル・コントロール１２を一般的に搭載している。／ステムは、コンピュータ・イメージを可視性の状態で表示するために、プロッターまたはプリンタのようなハード・コピー・デバイス１２４を搭載している。ハード・コピー・デバイス１２４は、プロセッサー１０２、主記憶装置＋０４、不揮発性記憶装置１０６、大容量記憶装置１０７にバス１０１を経由して結合されている。最後に、７ステムは、音声による記録と再生を行うために音声記録再生袋Ｗ　ｌ　２５も搭載している。

もちろん、本発明の成る具体的な実現と使用においては、前述のフノボーネントの全てを要求もしないし搭載もしていない。例えば、成る具体的な例では、インフォーメー／ヨンを／ステムに人力するためにキーボードとカーソル・フントロールが要求されないかも知れない。他の具体的な例では、インフ埼−メー７１ノを表示するための表示装置を与えることは要求されないかも知れない。

マイクロプロセッサーの概要図２は、本発明のマイクロプロセッサ−２００のブロック図を示している。好ましい実施態様において、マイクロプロセッサ−２４ＩＱは、複数の命令を直ちに実行できる１Ｍｅｌ　ｉ５８６ＴＭスーパースカラー・マイクロプロセッサ−である。図２において、マイクロプロセッサ−２００は、マイクロプロセッサ−によって実行される命令を主記憶装置からブリフェッチするためのブリフェアチャーすなわちイノストラり／１ン・キセノンユ手段２０１と、そのブリフェノチャー２０１でフェッチされた命令をデコードするためにブリフｙ−ノチャー２０１に結合されている命令デコーダ２０２とを備えている。デコーダ２０２は、１つは「Ｕ−バイブ」と呼ばれ、他の１つは［Ｖ−バイブｊと呼ばれる、２つの実行バイブライン・ユニット２０３と２０４に結合されている。デコーダ２０２は、両方のＵ−バイブ２０３とＶ−バイブ２０４に、デコードされた命令を同時に送る。好ましい実施態様において、Ｕ−バイブ２０３とＶ−バイブ２０４は、整数のバイブラインであり、互いに２つの整数の命令を各々クロ、り・サイクルで実行できる。それを行うために、各々パイプライン、Ｕ−バイブ２０３とＶ−バイブ２０４は、それ自身のアドレス生成ロジックと演算ロジックとキャッシュ・メモリ・インタフ、−スとのセットを備えている。好ましい実施態様は、デコードされた浮動小数点命令をデコーダ２０２からＵ−バイブ２０３とＶ−バイブ２０４を経由して受け取り且つこれらの命令を実行するために、Ｕ−バイブ２０３と ■−バイブ２０４に結合されている浮動小数？３．（ＦＰ）実行パイプライン２０５も備えている。ＦＰ実行パイプライン２０５は、それ目体の演算ロジックとメモリ・インタフェースも備えている。実行パイプライン２０３−２０５のメモリ・インタフェースは、全てデータ・キャッシュ２０６に結合されている。

キャッシュ・メモリ・イノタフエースは、データ・キセノ１５２０６に結合されているメモリ・バスから成る。メモリ・バスは、一般的に３２．６４または＋２３ビツト・ワイドの何れかになる。　Ｉｎｔｅｌ　８０５８６のデータバスの幅は　３２ビツト・ワイドである。実行パイプライン２０３−２０５は、データがメモリに書き戻されるまで、−・時的にデータ・キャッシュ２０６が記憶している最近に使用されたデータに月してデータ・牛ヤノ／ユ２０６にアクセスするために、キセノ７ユ・メモリ・インタフ、−スヲ使用する。データ・キャッシュ２０６はメモリ・バス・イノタフエース２０７にも結合されている。バス・インタフェースは、両方のブリフェオチャー２０１とデータ・キャッシュ２０６が主記憶装置にアクセスできるようにする（図１）。

Ｕ−バイブ２０３とＶ−バイブ２０４、およびＦｌ’パイブライノ２０５は、命令を同時に実行する。Ｕ−バイブ２０３とＶ−バイブ２０４によるこれらの命令の実行はデータに対するアクセスを要求する。これらはデータ参照と呼ばれる。

これらのデータ弁解は、データ・キャッシュ２０６のデータ、または要求されたデータがデータ・キャッシュ２０６にない時には主記憶装置のデータによって満足される。好ましい実施態様において、Ｕ−バイブ２０３とＶ−バイブ２０４は、データ・キャッシュ２０６が１クロツクによる複数のデータ参照を満足するようにして、データ・キセノン、　２０Ｂに同時にアクセスできる。これらのアクセスは、データ・キャッシュ読取または書き込みオペレーションになるとυわれる。

もちろん、本発明の成る具体的な例と使用は、前述のコンポーネントの全てを要求しないし備えてもいない、また、それにだけ限定されるわけでない。例尤ば、成る具体的な例において、マイクロプロセッサ−２００は数多くの更なる実行パイプラインを有すると考えられる。その場合、本発明のデータ・キセノン：Ｌ２０６は、同じクロックの間データ・キャッシュ２０６に対する実行パイプライン・アクセスの全てを可能にすると思われる。従って、本発明は、ｌクロックによる２つの同時データ・アクセスに限定されないし、実行パイプラインと同じ数のデータ参照を行うことが要求されるわけでもない。

キャッシュ・メモリの概要本発明のデータ・キャッシュは、データ・キャッシュ３ｏｏとして図３にブロック図の影式で図示されている。データ・キャッシュ３００は、主記憶装置の最近にアクセスされたエリアのコピーを含んでいる（図１）。データ・キセノン１３００の使用は局所性の原則に基づいている。この原則は、アイテムが参照されると、それが後で直ちに再び参照される傾向を示す（すなわち時間的に局所的）。

同様に、アイテムが参照されると、その近くのアイテムは、その後に直ちに参照される傾向を示す（すなわち空間的に局所的）。従って、キャッシュ・メモリを使用する理由は、頻繁に用いられるイ／フォーメー／ヲンに対する効率的なアクセスを与える、従って、処理速度を加速することにある。データ・キャｙ７ｘ３００は、アクセス・コントロール・ロジック３０１と、タグ検証と確認ブロック３０２と、データ・キャッシュ・メモリ３０３と、データバス３０４からなる。

好ましい実施態様において、データ・キャンノコ３００は、１２８セクトとして編成される２方式セット結合キ十ｌ／二であり、それぞれの七ノドが２つのラインを備えている。各々ラインは３２バイトのデータを備えている。データ・キヤ、、／ｘ３００の容量は８キロバイトのデータである。

１クロツクで複数のデータｔａを同時に行うため、データ・キャッシュ・メモリ３００がイノターリーブされる。インターリーブ技法は、キャッシュ・メモリ３０３をＮ［パック」に分割する必要がある（ここで、Ｎは２の累乗であり且つ選択されたアドレス境界で分割される整数である）。バンクの各々が独自にアドレスできる。キャッシュ・メモリ３０３が／ノグル・ポート・メモリ・アレイであっても、複数のデータ参照で同じバンクのアクセスを試みない限り、複数のデータ参照でバンクにアクセスする。それぞれバンクは全てのキャッシュ・ライ／に対してＭバイトのデータを含んでいる。各々バンクのバイト数が、与えられたキャッシュ・ライン・サイズに対してバイト数を決定する。逆にバック数でバイト数が決まる。好ましい実施朝帰では、データ・キャッシュ３００は２つの同時データ参照を行い、３２バイトのキャッシュ・ライン・サイズを有している。更に、インターリーブする境界は４バイト＋ｌｌ！？ｉ！になる。従って、データ・キャッシュ３００は、好ましいに施管様において８方式にイノターリーブされる（すなわち８バイト）。

アクセス・コントロール・ロジック３０１は、クロック毎に複数のデータ参照が連続レートでメモリ３０３にアクセスすることを可能にする。好ましい実施ｔＩ！、様において、データ　キャッシュ３００は、Ｕ−バイブとＶ−バイブ（図２）からなるそれぞれが２つの整数命令実行バイブうイノである２つのデータ参照をサポートする。

次に、アクセス・フットロール・ロジック３０１は、複数のデータ参照が同じサイクルで同じバンクのメモリ３０３のアクセスを希望する時を検出する（例九ば、同時に１１−−バイブ・メモリとＶ−バイブ・メモリが同じロケーノヨンを読み取る）。このようなデータ要請に対応して、アクセス・コントロール・ロジック３０１は、データ・アクセスに優先順位を設定して、それらが７リアルに行われることを可能にする。好ましい実施態様において、アクセス・フントロール・ロジック３０１は、同じバンクにλ１するアドレス衝突を検出するアドレス・コンパレータを有している。

タグ検証と確認ブロック３０２は、要二育されたデータがいまキャッシュ・メモリ３０３に存在するかどうかについて決定する。データがキセノ／３・メモリ３０３に存在する場合・キセノ／】°ヒツトであり、データがアクセスされる。データがキャッシュに存在しない場合、キャッシュ・ミスと呼ばれて、データはデータ・キャッシュ３００に依って主記憶装ｗ１（図１）がらフェッチされなければならない。好ましい実施態様で、決定は周知のタグ操作方式を用いて行われる。

データバス３０４は、実行バイブＵ、Ｖとキャッシュ・メモリ３０３との間のキャッシュ・メモリ３０３からアクセスされたデータのバスを与える。好ましい実施態様において、データバス３０４は、誤配置されたアドレスに対するアクセスを取り入れるロジックを備えている（例えば分割号イクル）。

結局、好ましい実施態様において、データ・キャノン、５３００は、多重処理の一貫性を完全に支えるライトバック・キャッシュとなる。これは、オーナー／ノブ・プロトコルとマイクロプロセッサ−（図２）で用られた状Ｃを維持するデータ・キャッシュ３００によって達成される。データ・キャッシュ３００の好ましい実施態様はライトパック・キャッシュであるが、それは、ラインごとの基準によるライトスルー・キャッシュとして構成されることができる。

好ましい実施態様において、キヤｙ７．３０３のメモリ・セルは、周知の相補形金属酸化膜半導体（ＣＭＯ３）プロセ／ングで作られる。図で、ｐチャンネル電界効果トランジスタは、トランジスタ・ゲート上に小さな円を用い、ｎチャンネル電界トランジスタは、ゲート上に円がないことから区別される。メモリは、通常の双安定（フリ、ブフロ、ブ）セルを用いている。

図４を見ると、好ましい実施態様の典型的な／／グル・メモリ・セルは、ＣＭＯＳスタティック・ラムセル４００として図示されている。セル４００は典型的な６個から成るトランジスタのスタティックＲＡＭ　（ＳＲＡＭ）セルである。しかし、本発明は６トランジスタＳＲＡＭセルに限定されない。例えば、いまの４トラ７ジス９ＳＲＡＭセルが用いられることができる。ＳＲＡＭセル４００は、数千回も繰り返され、なおかつ、データ・キャッシュ３００専用でなければならないグイ・エリアまたは固定エリア内部に取り入れられることができるキャッシュ・サイズの主な決定要素になる。図４を見ると、１ターミナルｎチヤンネル・トランジスタ４゜１がビット・ライン４０６に結合されている。トランジスタ４０１のゲートはワード・ライン４０５に結合されている。トランジスタ４０１の他のターミナルはノードＡに結合されている。ｎチャンネル・トランジスタ４０２の１つのターミナルはビット・ライン４０フに結合されている。トランジスタ４０２のゲートはワード・ライン４０５に結合されている。トランジスタ４０２の池のターミナルはノードＢに結合されている。インバーター４０３と４０４はクロスして結合されている。インバーター４０３の入力はノードＢに結合されている。インバーター４（１３の出力はノードＡに結合されている。インバーター４０４の入力と出力はノードＡとノードＢに各々結合されている。Ｉ・う／ジスタ４０１と４０２はバス・トランジスタとして作用する。好ましい実施憶様において、イノバーター４０３と４０４は、共にペアの補相形ｐチャンネルとｎチャンネル・トランジスタとなり、なおかっ、ＳＲＡＭセル４００の記憶要素を形成している。ＳＲＡＭセル４００の構成と動作は周知の技術である。

図５は、プロ、り図の形式で本発明の／ングル・ボート・インターリーブ・データ・キャッシュ５００の好ましい実施態様を示している。図５を見ると、デコーダ５０１はＵ−パイプ・セット・アドレスをその人力上に受けている。好ましい実施態様においてＵ−パイプ・セット・アドレスは７ビノト長である。デコーダ５０１の出力はマルチプレクサ−（Ｍ　Ｕ　Ｘ　）　５０３ａ−５０３ｈの各々の入力の１つに結合されている。デコーダ５０２の人力はＶ−パイプ・セ・ソト・アドレスに結合されている。好ましい実施態様においてＶ−パイプ・七ノド・アドレスは７ビノト長である。デコーダ５０２の出ツノはＭ　Ｕ　Ｘ　５０３ａ −５０３ｈの各々の他の入力の１つに結合されている。ＭＵ　Ｘ　５０３ａ−５Ｑ３ｈの出力は各々メモリ・バンク５Ｏ５ａ−５Ｏ５ｈの入力に結合されている。

アドレス・コノテノンワン・ロジック５０４はＭ　Ｕ　Ｘ　５Ｑ３ａ−５０３ｈの入力に結合、ｉｔｔている。センスアップ５０６ａ−５Ｏ６ｈは各々がメモリ・バイト５０Ｓａ−５Ｏ５ｈの各々に結合されている。センスアップ５Ｏ６ａ− ５０６ｈの出力はマルチプレクサ−／ローチーター５０７とマルチプレクサ−／ローチーター５０８に結合されている。好ましい実施態様において、マルチプレクサ−／ローチーター５０７と５０８は２５６ビツト・バスを用いてセンスアンプ５０６ａ−５０６ｈに結合されている。データ・キヤ、／ユ５００の各々マルチプレクサ−・′ローチーターはマルチプレクサ−とローチーターを有している。マルチプレクサ−／ローチーター５０７と５０８の出力は、各々バス５０９と５１０を用いて晶々Ｕ−バイブとＶ−パイプ実行コアに結合されている。好ましい実施態様において、バス５０９と５１０は各々３２ビツト・バスである。センスアップ５０６ａ−５０６ｈの出力もライトバック充填バッファー５１１に結合されている。好ましい実施態様において、ライトバック充填バッファー５１１は２５６ビノト・バッファーに結合されている。ライドバイト充填バッファー５１１もメモ１ルバス・インタフェースに結合されている（図２）。

読取オペレー／ｇンの際、２組のデコーダ、すなわち、デコーダ５ｏ１と５０２は、各々ｕ−パイプとｖ−パイプ・アドレスを受け取る。これらのアドレスはキセッ／ユ５００内のデータ１＃照に対応している。デコーダ５０１と５０２は、アドレスをデコードして、セット・ロケー７ｇノを得る。好ましい実施態様において、セット・アドレスは１２８セツトの任意の１つになることができる。２セツト・アドレスは、データ・キャノ／二５ｏｏにおいて、同じバンクに対してでも、同じセットになることができる。両方のデコードされたセット・アドレスは全てのマルチプレクサ−に送られる。好ましい実施態様において、デコードされたアドレスはＭ　Ｕ　Ｘ　５Ｏ３ａ−５０３ｈに送られる。Ｍ　Ｕ　Ｘ　５０３ａ−５０３ｈの各々はマルチプレクサ−のセントである。

Ｍ　Ｕ　Ｘ　５０３ａ−５０３ｈ　（７）出力は、各々メモリ・バンク　５０Ｓａ−５０５ｈの各々セットのワードラインに結合され、バンクの各々のＳＲＡＭセルのワードライン・ドライバーになり、なおかっ、独自にアドレスできるバンクの各々に対して要求される。従って、Ｍ　Ｕ　Ｘ　５０３ａ−５０３ｈは、デコードされたセット・アドレスをメモリ・バンク５０５ａ−５０５ｈのワードラインに各々ドライブする。Ｍ　Ｕ　Ｘ　５Ｏ３ａ−５０３ｈに関連するマルチプレクサ−の遅延は、キャッシュ５００のアクセス時間に最小限度の影響しか与えない。Ｍ　Ｕ　Ｘ　５０３ａ−５０３ｈは、アドレス弓ンテンン冒ン・ロジック５０４の選択信号にに、対応して、ワードラインにセット・アドレスをドライブするだけである。

アドレス・コンフリクト・ロジック５０４は、コンフリクトがＵ−パイプとＶ− パイプ・アドレス間に存在するがどうかについて決定する。コンフリクトは、複数のデータ参照が同じバンクに対しである場合に存在する。アドレス・コンテノ／ｇ’／・ロジック５０４は、アドレスとサイクルのタイプ（例えば読取と書き込みなど）を受けて、アドレスを比較する。好ましい実施態様において、アドレス・コンチン／Ｗノ・ロジック５０４は、下位アドレス・ビット２−４を比較するコンパレータを搭載している。コンフリクトが存在しない時に、アドレス・コノテノンワン・ロジック５０４は、適切なＭ　Ｕ　Ｘ　５Ｑ３ａ−５０３ｈを選択するので、選択されたマルチプレクサ−がアドレスをワードライ／にドライブできる。コンフリクトが生じた時に、アドレス・フンテンション・ロジック５０４は、コンフリクトする複数のデータ参照に優先順位を設定する。アドレス・コノテノンワン・ロジック５０４は、アーキテクチャ−によって且つオーダーまたは相互作用に依って定められる任意の優先順位技法を具体的に実現できる。好ましい実施態様において、アドレス・コノテノンワン・ロジック５０４はＶ−パイプ・データ参照を保留にして、Ｕ−パイプ・データ参照が最初に満足されるようにする。■−パイプ・データ参照は、次のサイクルで満足される。この技法はコンフリクトする複数のデータ参照を基本的に７リアルにする。従って、好ましい実施態様において、アドレス・コノテノンワン・ロジック５０４は、コンフリクトする複数のデータ参照を同じメモリ・バンクに、それらに優先順位を設定することによってシリアルにする。

コンフリクトは、置換、試験、無効化サイクルでも生じる。これらのサイクルの全てにおいて、全体のキヤ／／ユ・ラインは、ライトバック充填バンク５１１を介在してデータ・キャッシュ５００から読み取られたり書き込まれたりする。置換、試験、無効化サイクルを実施する際のライトバック充填バンク５１１の動作は周知の技術である。任意のこれらのサイクルにおいて、アドレス・コノテノンワン・ロジック５０４は、実行パイプライン（例えばＵ−パイプまたはＶ−パイプ）の１つで、全てのメモリ・バンク　５０５ａ−５０Ｓｈにアクセスできるようにする。

マルチプレクサ−が選択されると、バンクの適切なワードラインがオンする。

従って、複数のデータ７照がアドレス・コノテノンワン・ロジック５０４によって可能になり、複数のバンクのワードラインがオンする。各々選択されたバンクはそのデータ・アクセスのノースを把握していない。各々選択されたバックのデータは、３２ビツト・バス上で読み取られて、その各々センスアンプによってセンスされる。各々のバンクは独自にアドレス指定されているので、セ／スアンブ５０６ａ−５０６ｈは、アクセスされているバンクのデータだけを選別してセンスする。これはメモリ・アレイによる電力消費量を減少する。センスされたデータは、センスアップ５０６ａ−５０６ｈからマルチプレクサ−／ローチーター５０７と５０８に結合されている２５６ビノト・データバスに出力される。次に、センスされたデータは、マルチプレクサ−／ローチーター５０７と５０８にファンアウトする。キャッシュ５００のマルチプレクサ−・′ローチーター５０７と５０１１の各々がクロック・サイクルでアクセスされたバンクの全てから読み取られたデータの全てを受け取ることに注目されるべきである。

マルチプレクサ−／ローチーター５０７はＵ−パイプ・アドレスとＵ−パイプ・データ長も受け取る。マルチプレクサ−／ローチーター５０８もＶ−パイプ・アドレスとＶ−パイプ・データ長を受け取る。データ長はフェッチされるデータｍを意味している。これらのアドレスとデータ長は、マルチプレクサー／ローチーター５０７と５０８の出力を、マルチプレクサ−／ローチーター５０７が１１− パイプ・アドレスに関連するデータを選択し且つマルチプレクサ−／ローチーター５０８がＶ−パイプ・アドレスに関連するデータを選択するように制御する。

好才しい実施態様において、マルチブレクツ−／ローチーター５０７と５０８のマルチプレクサ−は８−１マルチプレクサ−である。好ましい実施態様において、マルチプレクサ−／ローチーター５０７と５０８のローチーターは、データがプロセッサー・コアに送られる前にデータを並べる。マルチプレクサー／ローチーター５０７と５０８のローチーターは最下位バイトのバス５０９と５１０上で要請された最下位バイトのデータ・アイテムを与える。ローチーターの動作は周知の技術である。

一旦マルチブレクサー／ローチーター５０７ど５ｏ８が適切なデータを選択し且つ任きに要求されたローチーターンが実施されると、データは、使用するために、各々、バス５０９と５１０の、その実行パイプＵまたはＶに送られる。

書き込みオペレー／ブノにおいて、キャッシュ５ｏｏは、データのバスが逆になることを除けば、読取オベレー／ｇノと同様に作動する。データは、マルチプレクサ−／ローチーター５０７と５０８を経由してメモリ・バック　５０５ａ−５０５ｈに進む。宛先設定アドレスはデコーダ５０１と５０２によってデコードされ、なおがっ、デコードされたアドレスはＭ　Ｕ　Ｘ　５０３ａ−５０３ｈに出力される。選択されたメモリ・バンクのワードラインは、アドレス・コンテ７ノコノ・ロジック５０４による、その選択によりイノする。イノしたワードラインに対応して、データは、周知の技術でデータ・キャッシュ５００に書き込まれる。

本発明は、全体のキャッシュ・ラインが任意の時にキャノ／：Ｌから読み取られる或いはそこに書き込まれることを必ずしも要求しないので、従来技術のインターリーブ・キャッシュより優れている。これは、バンクが異なっていても、複数のアクセスを同じキ十ノノユ・ラインに対して可能にする。このようにして、デ −タコノブリフトが現れる回数を少なくする。

好ましい実施態様において、イノターリーブ・キャノン二は、２つの同時データ参照を１クロツクで動作するようにして具体的に実現された。８方式インターリーブ・キヤ、ンユは、バンク・コノテン／Ｗンに起因する性能低下が僅かになったため、２方式または４方式インターリーブよりも好まれた。更に、８方式イ／ターリーブ・キャノン二は、４バイト・インターリーブ境界と３２ビ、ト・ライン・サイズが与えられ、デザインが単純化した。１６方式以上のインターリーブ・キャノン二と比べると、要求されるハードウェアも僅かになった。

本発明は、従来技術のデュアル・ポート・キヤノン二より優れている。デュアル・デート・キャノン二は、同じアドレスに対する同時読取と書き込みを検出する従属ロジックを要求する。バイト・フンフリクト・ロジックがデュアル・ボート技法より単純なロジックで同じロケーンｇノに対する参照のケースを防止するイノターリーブ・キャノン二にはこれが必要でない。

本発明のインターリーブ・キャノン二は同じンリフン・エリアに更に多くのデータを記憶できるので、本発明のインターリーブ技法はデュアル・ボート技法より優れている。そこで、オフ・チップ・データ参照の数を減少することができる。

本発明の数多くの変更と修正は前述の説明を読むと当業者には疑いもなく明らかになると思われるが、図解を用いて図示され説明された特定の実施塘様は如何なる場合でも限定されることを意図されていないことを認識されるべきである。

例九ば、本発明のデータ・キヤ、ツユの記憶アレイは任意の数のバンクに分割されると考えられる。従って、好ましい実施態様の詳細事項の引用は、発明の不可欠な要素と見なされる特徴だけを示す請求の節回を限定することを意図されていない。

従って、マイクロプロセッサ−のクロック毎に複数のデータ・アクセスを可能にするイノターリ−ブト・キャノン二が説明された。

フロントページの続き（８１）指定国　ＥＰ（ＡＴ、ＢＥ、ＣＨ，ＤＥ。

ＤＫ、ＥＳ、ＦＲ，ＧＢ、ＧＲ，ＩＥ、ＩＴ、ＬＵ、ＭＣ，ＮＬ、ＰＴ、ＳＥ）、０Ａ（ＢＦ、ＢＪ、ＣＦ、ＣＧ、　ＣＩ、　ＣＭ、　ＧＡ、　ＧＮ、　ＭＬ、　ＭＲ，ＳＮ、　ＴＤ。

ＴＧ）、　ＡＴ、　ＡＵ、　ＢＢ、　ＢＧ、　ＢＲ，ＣＡ、　ＣＨ。

Ｃ３，ＤＥ、ＤＫ、ＥＳ、ＦＩ、ＧＢ、ＨＵ、ＪＰ、ＫＰ、　ＫＲ，ＬＫ、　ＬＵ、　ＭＧ、　ＭＮ、　ＭＷ、　ＮＬ、　Ｎ。

、ＰＬ、ＲＯ，ＲＵ、ＳＤ、５Ｅ（７２）発明者　ミルズ、ジャック・ディアメリカ合衆国　９４０４３　カリフォルニア州・マウンテン　ビュー・トンプソン　スクエア・２１２

Claims

【特許請求の範囲】１．複数の実行ユニットを備え、その実行ユニットを用いて複数の命令を１クロック・サイクルで実行でき、更に複数の同時データ・アクセスが前記複数の命令の実行に対して要求されるマイクロプロセッサーに使用するキャッシュにおいて、前記データ・アクセスの各々が独自のアドレスを備えていて、複数のパンクのメモリ・セルを有する記憶アレイと、前記記憶アレイに結合され、前記複数の実行ユニットの前記複数のデータ・アクセスに応じて１クロックに前記記憶アレイの複数のパンクにアクセスする選択手段と、前記記憶アレイに結合され、前記１クロックでの複数のデータ・アクセスを実行するために前記記憶アレイと前記複数の実行ユニットの間にデータバスを形成させたデータバス手段を備えていることを特徴とするキャッシュ。２．前記パンク選択手段が、前記複数の同時データ・アクセスの各々に関連して各々アドレスをデコードするための複数のデコード手段と、前記記憶アレイのロケーションにアクセスするために前記複数のデコード手段に対応した複数のパンク選択手段であって、前記複数のパンク選択手段の各々が前記記憶アレイの前記パンクの１つに関連している前記複数のパンク選択手段を有していることを特徴とする請求の範囲第１項に記載のキャッシュ。３．前記複数のデコード手段が復数のデコーダを搭載していることを特徴とする請求の範囲第２項に記載のキャッシュ。４．前記複数のパンク選択手段が複数のマルチプレクサーを搭載していることを特徴とする請求の範囲第２項に記載のキャッシュ。５．前記データバス手段が、複数のデータバスであって、前記複数のデータバスの各々が前記実行ユニットの１つに対応している前記複数のデータバスと、前記記憶アレイと前記複数のデータバス間のデータの転送を制御するための制御手段を搭載していることを特徴とする請求の範囲第１項に記載のキャッシュ。６．前記制御手段が複数のマルチプレクサーを搭載していることを特徴とする請求の範囲第５項に記載のキャッシュ。７．前記複数の同時データ・アクセスに相応するコンテンション手段であって、２つ以上の前記複数のデータ・アクセスが前記記憶アレイの同じパンクに対して行っている際に、前記コンテンション手段が前記複数のデータ・アクセスに優先順位を設定し、なおかつ、前記２つ以上の前記複数のアクセスがシリアルに発生するようにして、前記複数のデータ・アクセスに優先順位を設定する前記コンテンション手段を更に搭載していることを特徴とする請求の範囲第１項に記載のキャッシュ。８．複数の実行ユニットを備えたマイクロプロセッサーに使用するインターリーブ・キャッシュであって、そのマイクロプロセッサーは前記実行ユニットを用いて複数の命令を１クロックで実行でき、更に前記キャッシュに対する複数の同時アクセスが前記複数の命令の実行に対してサイクルのタイプに基づいて要求され、前記データ・アクセスの各々が独自のアドレスを備えているインターリーブ・キャッシュにおいて、それぞれ独立してアドレス指定できるメモリ・セルの複数のパンクを備えている記憶アレイと、複数のデコード手段に結合されている複数のパンク選択手段であって、前記複数のパンクの１つが前記複数のパンク選択手段の１つに関達していて、適切にデコードされたアドレスを前記セルのパンクにドライブするための前記パンク選択手段と、前記複数の同時データ・アクセスの各々に関連して各々アドレスをデコードするための複数のデコード手段であって、前記複数のパンク選択手段の各々が前記デコードされたアドレスを前記デコード手段から受け取るように、前記複数のバンク選択手段に結合されている前記デコード手段と、データが前記記憶アレイと前記実行ユニットの間でクロック・サイクルで複数の回数にわたって転送されるようにして、複数のデータ・アクセスを取り入れるために前記記憶アレイに結合されている伝送手段とを有するインターリーブ・キャッシュ。９．前記パンク選択手段に結合されていて且つ前記複数のデータ・アクセスの前記アドレスと前記サイクルのタイプに応じるコンテンション・ロジック手段であって、前記復数のデータ・アクセスのアドレス間のアドレス衝突を検出するための前記コンテンション・ロジック手段を更に有し、アドレス衝突が検出されない時に前記複数のデータ・アクセスが同じサイクルで発生させる一方、アドレス衝突が検出された時には前記復数のデータ・アクセスに優先順位を設定するように前記パンク選択手段に送信し、アドレス衝突が生じる時に前記記憶アレイの同じパンクに対する前記複数のデータ・アクセスを競合するために複数のサイクルが要求されることを特徴とする請求の範囲第８項に記載のキャッシュ。１０．前記伝送手段が前記複数の同時データ・アクセス中にデータを並べるための整列手段を更に搭載していることを特徴とする請求の範囲第８項に記載のキャッシュ１１．前記コンチンション・ロジック手段は、前記複数のデータ・アクセスのなかの１つだけが、置換、試験、無効化サイクル中に前記記憶アレイにアクセスできるようにすることを特徴とする請求の範囲第９項に記載のキャッシュ。１２．複数の実行ユニットを備えたマイクロプロセッサーに使用するインターリーブ・キャッシュであって、前記マイクロプロセッサーは前記実行ユニットを用いて１クロックで複数の命令を実行できて、更にサイクルのタイプに基づいて前記キャッシュに対する複数の同時アクセスが前記複数の命令の実行のために要求され、前記データ・アクセスの各々が独自のアドレスを備えているインターリーブ・キャッシュにおいて、それぞれ独立してアドレス指定できるメモリ・セルの複数のパンクを備えている記憶アレイと、前記記憶アレイに結合されていて且つ前記複数のデータ・アクセスのアドレスに応じるパンク選択手段であって、前記アドレスに基づいて１クロックで前記記憶アレイの複数のパンクにアクセスする前記選択手段と、前記複数のデータ・アクセスに優先順位を設定するために前記パンク選択手段に結合されているコンテンション・ロジックであって、複数のデータ・アクセスが前記記憶アレイの同じパンクに対してなされているとき、前記復数のデータ・アクセスを終えるために前記複数のデータ・アクセスに優先順位を設定する前記コンテンション・ロジックと、各々のポートが前記実行ユニットの１つに対応している複数のデータ・ポートと、前記記憶アレイと前記複数のデータ・ポート間のデータの転送を制御するための制御手段を有しているインターリーブ・キャッシュ。１３．前記制御手段が、前記記憶アレイと前記複数のデータ・ポート間の転送中にデータを並べるための整列手段と、前記記憶アレイと前記実行ユニット間に於ける前記複数の同時データ・アクセス中に、前記実行ユニットの各々によるデータ・アクヤス・モードが正常に行われるように、データを転送するための選択手段を搭載していることを特徴とする請求の範囲第１２項に記載のキャッシュ。１４．前記制御手段が複数のマルチプレクサーと対応する複数のローチーターを搭載していて、なおかつ、前記複数のマルチプレクサーの１つと前記複数のローテーターの１つが前記複数のデータ・ポートの各々と関達していることを特徴とする請求の範囲第１３項に記載のキャッシュ。１５．前記パンク選択手段が、前記複数の同時データ・アクセスの各々と関連して各々アドレスをデコードするための複数のデコード手段と、前記記憶アレイのロケーションにアクセスするための前記複数のデコード手段に応じる複数のパンク選択手段であって、前記複数のパンク選択手段の各々が前記記憶アレイの前記パンクの１つと関達している前記複数のパンク選択手段を搭載していることを特徴とする請求の範囲第１２項に記載のキャッシュ。１６．電力消費量を低減するために、前記複数のパンクの各々がアクセスされるパンクのデータだけセンスするように選別して作動されるセンス手段を搭載していることを特徴とする請求の範囲第１項に記載のキャッシュ。