JP2009157775A

JP2009157775A - プロセッサ

Info

Publication number: JP2009157775A
Application number: JP2007337083A
Authority: JP
Inventors: Naonobu Sukegawa; 直伸助川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-12-27
Filing date: 2007-12-27
Publication date: 2009-07-16
Anticipated expiration: 2027-12-27
Also published as: JP4484923B2; US20090172288A1; US8234453B2

Abstract

【課題】複数のＬＳＩでプロセッサを構成する際に、回路構成を簡素にしながらキャッシュメモリの容量が異なるプロセッサを容易に構成する。
【解決手段】プロセッサを含む第１ＬＳＩと、キャッシュメモリを備えた第２ＬＳＩと、第１ＬＳＩと複数の第２ＬＳＩを接続する情報伝達経路とを備えたプロセッサであって、第１ＬＳＩは第２ＬＳＩに対してプロセッサが要求するデータのアドレス情報を情報伝達経路からブロードキャストするアドレス情報発行部を含み、第２ＬＳＩはキャッシュメモリ全体のアドレス情報の一部を格納する部分アドレス情報格納部と、アドレス情報に対応するデータを格納する部分データ格納部と、情報伝達経路にブロードキャストされたアドレス情報と部分アドレス情報格納部に格納されたアドレス情報を比較してキャッシュヒットを判定する比較部とを含み、複数の第２ＬＳＩの比較部が情報伝達経路にそれぞれ接続される。
【選択図】図１

Description

本発明は、プロセッサのキャッシュメモリの構造に関し、特に、複数のＬＳＩを積層してキャッシュメモリを構成する技術に関する。

近年、半導体製造技術の進歩による素子の微細化により、一つのダイに膨大な数のトランジスタを集積することが可能となり、複数または多数のプロセッサコアを一つのダイまたは一つのパッケージに集積することが可能となっている。複数のプロセッサコアを備えたマルチコアプロセッサなどでは、演算処理能力が飛躍的に増大している。

一方、プロセッサがデータなどの読み書きを行う主記憶として広く採用されているＤＲＡＭの転送速度は、上述のプロセッサの処理能力の向上に比して遅れており、プロセッサが主記憶にアクセスする際には大きなレイテンシを伴う。このため、近年のプロセッサでは、プロセッサコアと同一のダイまたは同一のパッケージにＬ２（Level ２）またはＬ３キャッシュを搭載して、プロセッサコアが直接主記憶にアクセスする頻度を低減する技術が広く採用されている(例えば、特許文献１またはＩＢＭ社のPowerシリーズ)。

また、プロセッサコアが主記憶にアクセスする際のレイテンシを低減するために、メモリコントローラをオンダイで実装する技術も広く採用されている。

上記のように、Ｌ２やＬ３キャッシュの容量を増大することで、プロセッサコアが主記憶をアクセスする頻度を低減できるが、オンダイでＬ２及びＬ３キャッシュを実装した場合、ダイの面積が増大することになり、プロセッサを製造する際には、ダイの面積の増大に応じて製品の歩留まりが悪化するという問題がある。

この問題を解決するために、プロセッサを構成するＬＳＩを複数の層に分けて、各ＬＳＩを積層することでひとつのパッケージにする技術が提案されている（例えば、非特許文献１）。非特許文献１の技術では、複数の層に分割したＬＳＩに断面方向で貫通した電極（貫通電極）を設けて積層したＬＳＩ同士を接続する。そして、プロセッサコアとＬ２キャッシュを複数の層に分割したＬＳＩにそれぞれ配置し、各層を積層することで一つのプロセッサを構成している。
特開２０００−６８４６０号 Feihui Li, Chrysostomos Nicopoulos, Thomas Richardson, Yuan Xie,Vijaykrishnan Narayanan, Mahmut Kandemir 共著、「Design and Management of 3D Chip Multiprocessors Using Network-in-Memory」、[online]、Dept. of CSE, The Pennsylvania State University 刊、[平成１９年１２月１日検索]、インターネット＜ＵＲＬ：http://www.cs.utah.edu/classes/cs7940-010-rajeev/sum06/papers/3disca06.pdf＞

近年では半導体の素子の微細化により、オンダイで実装するプロセッサコア数の増大が図られており、一つのダイに４ないし８個あるいはそれ以上のプロセッサコアを実装する技術が提案されており、主記憶の転送速度とプロセッサの処理能力の乖離はさらに進むことが予想され、この乖離を抑制するためにキャッシュメモリの大容量化が進むことも予想される。

ここで、非特許文献１のように一つの層にプロセッサコアとＬ２キャッシュを混在させた場合、複数の層を積層することでＬ２キャッシュの容量を増大することが可能となる。

しかしながら、上記従来例では、ひとつの層に複数のＬ２キャッシュが分散して配置されており、ひとつのＬ２キャッシュが１つのキャッシュノードを構成しているため、プロセッサパッケージ全体では、多数のキャッシュノードが各層に分散して配置されることになる。

このため、上記従来例では、キャッシュアクセスの際にタグとインデックスを比較する比較器やデータを読み書きするリードライト回路をノードの数に応じて配置する必要があり、各層のＬＳＩの回路構成が複雑になるという問題があった。さらに、上記従来例ではキャッシュノード毎に比較器やリードライト回路を設けるため、これらの回路面積の分だけ、１つのＬＳＩに搭載するキャッシュの容量が制限されるという問題があった。

また、上記従来例では、ひとつのＬＳＩ層にプロセッサコアとＬ２キャッシュを混在させるため、キャッシュメモリの容量のみを増減することが難しい、という問題があった。すなわち、上記従来例でプロセッサの用途に応じてキャッシュメモリの容量を増減させる場合、単純にＬＳＩ層の数を増減させるとプロセッサコアの数も増減することになり、プロセッサコアの数を一定にしてキャッシュメモリの容量を増減させるのは難しい、という問題があった。

そこで本発明は、上記問題点に鑑みてなされたもので、複数のＬＳＩでプロセッサを構成する際に、回路構成を簡素にしながらキャッシュメモリの容量が異なるプロセッサを容易に構成することを目的とする。

本発明は、演算処理を行うプロセッサを含む第１のＬＳＩと、データとアドレス情報を格納するキャッシュメモリを備えた第２のＬＳＩと、前記第１のＬＳＩと複数の第２のＬＳＩを接続する情報伝達経路とを備えたプロセッサであって、前記第１のＬＳＩは、前記複数の第２のＬＳＩに対して前記プロセッサがアクセスを要求するデータのアドレス情報を前記情報伝達経路からブロードキャストするアドレス情報発行部を含み、前記第２のＬＳＩは、キャッシュメモリ全体の記憶域のうちアドレス情報の一部を格納する部分アドレス情報格納部と、前記部分アドレス情報格納部に格納されたアドレス情報に対応するデータを格納する部分データ格納部と、前記情報伝達経路にブロードキャストされたアドレス情報と前記部分アドレス情報格納部に格納されたアドレス情報を比較してキャッシュヒットまたはキャッシュミスを判定する比較部と、を含み、前記第１のＬＳＩと複数の第２のＬＳＩの前記比較部が前記情報伝達経路にそれぞれ接続される。

また、前記第１のＬＳＩと、前記複数の第２のＬＳＩは、積層されてプロセッサを構成する。

また、前記第１のＬＳＩの下面に前記複数の第２のＬＳＩが積層され、前記情報伝達経路は、前記第２のＬＳＩに形成された貫通電極で構成される。

また、前記第１のＬＳＩと、前記複数の第２のＬＳＩは、インターポーザを介して結合される。

したがって、本発明は、第２のＬＳＩの数を変更することによりキャッシュメモリの容量の増減を容易に行うことができる。また、貫通電極を用いて各ＬＳＩを積層することで、回路構成を簡素にしながらキャッシュアクセスの高速化を図ることができる。

以下、本発明の一実施形態を添付図面に基づいて説明する。

図１は、第１の実施形態を示し、本発明を適用するプロセッサ１の断面方向の概略図である。

プロセッサ１は、基板６上に複数のＬＳＩチップを積層して構成される。複数のＬＳＩ（Large Scale Integration）チップは、基板６側からメモリコントローラＬＳＩ５、キャッシュＬＳＩ−Ｂ４、キャッシュＬＳＩ−Ａ３、ＣＰＵ−ＬＳＩ２の順に積層される。ＣＰＵ−ＬＳＩ２の上面はヒートスプレッダ７に覆われており、メモリコントローラＬＳＩ５の下面は基板６に指示される。各ＬＳＩチップは、後述するようにキャッシュＬＳＩ−Ａ、Ｂ内に形成した貫通電極４０、４１、４２を介して図中上下方向で接続される。なお、ヒートスプレッダ７の周縁は基板６に結合される。また、各ＬＳＩ２〜５は、板状のチップとして構成される。

キャッシュＬＳＩ−Ａ３（以下、キャッシュＬＳＩ−Ａとする）とキャッシュＬＳＩ−Ｂ４（以下、キャッシュＬＳＩ−Ｂとする）は、図３で示すように、ひとつのキャッシュメモリ３０を構成する。

メモリコントローラＬＳＩ５は、図１において、基板６のメモリバス８を介して外部の主記憶９に接続される。メモリコントローラＬＳＩ５は、ＣＰＵ−ＬＳＩ２からの要求に応じて主記憶９とキャッシュメモリ３０にアクセスしてデータの読み書きを行う。

ＣＰＵ−ＬＳＩ２は、図２にも示すように、演算処理を行う実行ユニット１０と、データやフラグを格納するレジスタ１１と、実行ユニット１０が要求するアドレスを格納し、キャッシュメモリを検索するアドレスリクエスタ１２と、キャッシュメモリ３０に格納されたデータのうち、最後に利用された（ヒットした）データと、利用されていない（ヒットしていない）データを識別する情報（以下、ＬＲＵ情報とする）を格納するＬＲＵ（Least Recently Used）情報格納部１３と、行（ＲＯＷ）と列（Column）で構成されたキャッシュメモリ３０の行方向を特定するロウ選択回路１４とを含んで構成される。なお、ＬＲＵ情報は、キャッシュラインの入れ替え（リフィルまたはリプレース）時に複数のロウのキャッシュラインのうち、ヒットしていないキャッシュラインまたは利用されてからの経過時間が最も長いキャッシュラインを特定するものであり、公知の手法により設定することができる。

また、ロウ選択回路１４は、キャッシュミスが発生した時にリプレースするキャッシュラインを決定するリプレースライン決定回路を含む。

ＬＲＵ情報格納部１３は、キャッシュライン毎の利用状態（ヒットの有無及び利用された順位）を示すＬＲＵ情報に加えて、キャッシュラインのデータが有効か無効かを示すバリッドビットや、キャッシュラインの内容がメモリから読まれたままであるか、書き換えられた部分があるかなどのキャッシュラインの状態を示す情報を含んでも良い。

＜キャッシュの回路構成＞
本第１実施形態では、図２に示すように、アドレスの幅が３２ビットで、１つのキャッシュＬＳＩに１行（ロウ）のキャッシュラインを備え、キャッシュラインが１０２４列の例を示す。そして、図１、図３のように２つのキャッシュＬＳＩ−Ａ、Ｂにより構成されたキャッシュメモリ３０は、２Ｗａｙセットアソシアティブで構成した例を示す。図３の例では、各キャッシュＬＳＩ−Ａ，Ｂの連想度Ｎ＝１で、キャッシュＬＳＩの数Ｍ＝２であるので、最大連想度はＮ×Ｍ＝２となる。なお、キャッシュメモリ３０は、例えば、ＣＰＵ−ＬＳＩ２のＬ２キャッシュを構成する。

ここで、キャッシュメモリ３０は、図３で示すように、アドレスなどの管理情報を格納するタグ３１と、キャッシュライン単位のデータを格納するデータメモリ３２の２つの領域を含んでいる。タグ３１とデータメモリ３２は、それぞれＲＯＷ方向で異なるキャッシュＬＳＩ−Ａ、Ｂの部分タグ２０と部分データメモリ２１で構成される。すなわち、キャッシュメモリ３０は、ロウ（Ｗａｙ）方向で独立したキャッシュＬＳＩ−Ａ、Ｂに分散して情報を格納する。したがって、キャッシュＬＳＩ−Ａ、Ｂの部分タグ２０は、それぞれキャッシュメモリ３０の全体の記憶域のうちの一部のロウ方向についてアドレス情報を格納し、部分データメモリ２１は、部分タグ２０のアドレス情報に対応するキャッシュラインのデータをそれぞれ格納する。すなわち、アドレス情報とデータを各キャッシュＬＳＩ−Ａ，Ｂ毎に分散して記憶する構成となる。

キャッシュＬＳＩ−Ａ、Ｂは同一の構成であり、以下ではキャッシュＬＳＩ−Ａについて説明する。図２において、キャッシュＬＳＩ−Ａは、主記憶９のデータをキャッシュライン単位で格納する部分データメモリ２１と、キャッシュライン毎のタグ（アドレス情報）を格納する部分タグ２０がキャッシュメモリ３０の記憶領域を構成する。

次に、キャッシュＬＳＩ−Ａは、ＣＰＵ−ＬＳＩ２のアドレスリクエスタ１２からのインデックスを受信し、受信したインデックスに基づいて部分タグ２０に格納されたタグのエントリを選択するエントリ選択デコーダ２２と、アドレスリクエスタ１２からのタグと部分タグ２０に格納されたタグを比較して一致するエントリを特定するタグ比較器２３と、部分データメモリ２１の内容を読み書きするデータメモリリードライト回路２４を備える。

アドレスリクエスタ１２がキャッシュＬＳＩ−Ａ、Ｂに発行するアドレス情報は、図２のように、アドレス幅が３２ビットでラインサイズが１２８Ｂｙｔｅの場合、上位１５ビットをタグとし、上位１６ビット目から２５ビット目までをインデックスとして使用する例を示す。

タグ比較器２３は、タグの比較に加えてキャッシュラインの入れ替え（リフィル）の際にはタグを更新する回路（タグ更新回路）を包含する。また、データメモリリードライト回路２４は、ＣＰＵ−ＬＳＩ２からのキャッシュアクセスがリードのときには、ヒットした部分データメモリ２１のデータを読み込んでからＣＰＵ−ＬＳＩ２のレジスタ１１に転送し、ＣＰＵ−ＬＳＩ２からのキャッシュアクセスがライトのときには、ヒットした部分データメモリ２１にＣＰＵ−ＬＳＩ２のレジスタ１１から読み込んだデータを書き込む。

なお、ＣＰＵ−ＬＳＩ２のキャッシュアクセスの動作については、上記従来例及び公知のｎＷａｙセットアソシアティブと同様であるので、ここでは詳述しない。

＜プロセッサの物理的構成＞
次に、複数のＬＳＩチップを積層したプロセッサ１の物理的な構成について説明する。図１において、ＣＰＵ−ＬＳＩ２は、図中左側からアドレスリクエスタ１２と、ＬＲＵ情報格納部１３と、レジスタ１１の順で配置される。なお、ＬＲＵ情報格納部１３は、図２に示したロウ選択回路１４を含む。

キャッシュＬＳＩ−Ａ、Ｂは、アドレスリクエスタ１２の直下にエントリ選択デコーダ２２を配置し、ＬＲＵ情報格納部１３の直下にタグ比較器２３を配置し、レジスタ１１の直下に部分データメモリ２１を配置する。なお、部分タグ２０はタグ比較器２３と部分データメモリ２１の間に配置される。

そして、プロセッサ１を構成するキャッシュＬＳＩ−Ａ、Ｂには、上面と下面を接続する貫通電極４０、４１、４２を設ける。

貫通電極４０は、エントリ選択デコーダ２２に形成されてアドレスリクエスタ１２からのアドレス情報（タグとインデックス）をキャッシュＬＳＩ−Ａ、Ｂ及びメモリコントローラＬＳＩ５にブロードキャストする情報伝達経路として機能する。このため、貫通電極４０は、タグとインデックスのビット数に応じた複数の信号線をキャッシュＬＳＩ−Ａ、Ｂの上面と下面を貫通する方向に形成したものである。

貫通電極４１は、タグ比較器２３に形成されて、タグ比較器２３からのキャッシュヒットまたはキャッシュミスを示す判定信号と、ロウ選択回路１４からの選択信号を転送する信号線をキャッシュＬＳＩ−Ａ、Ｂの上面と下面を貫通する方向に形成したものである。ただし、キャッシュＬＳＩ−Ａが使用する信号線とキャッシュＬＳＩ−Ｂが使用する信号線は異なるものである。例えば、判定信号を１ビット、選択信号を１ビットで構成した場合は、１枚のキャッシュＬＳＩ当たりに２本の信号線を設ければ良く、図１のように２枚のキャッシュＬＳＩ−Ａ、Ｂを使用する場合は、４本の信号線を設ければよい。なお、グラウンド信号は図示しない貫通電極を用いるものとする。

また、キャッシュＬＳＩを増減する場合には、キャッシュＬＳＩの最大数に応じた判定信号と選択信号の貫通電極４１を予め設けておけばよい。すなわち、キャッシュＬＳＩを最大４枚使用するプロセッサ１では、８本の信号線からなる貫通電極４１をキャッシュＬＳＩ−Ａ、Ｂに予め設けておく。

次に、貫通電極４２は、部分データメモリ２１に形成されてレジスタ１１とキャッシュＬＳＩ−Ａ、Ｂ及びメモリコントローラＬＳＩ５の間でデータをブロードキャストする情報伝達経路として機能する。このため、貫通電極４２は、データのビット数に応じた複数の信号線をキャッシュＬＳＩ−Ａ、Ｂの上面と下面を貫通する方向に形成したものであり、データが３２ビットであれば３２本の信号線からなる。

なお、ＣＰＵ−ＬＳＩ２の下面（キャッシュＬＳＩ−Ａに対向する面）には、アドレスリクエスタ１２の位置にタグとインデックスを送信する電極を設け、ＬＲＵ情報格納部１３（ロウ選択回路１４）の位置に判定信号と選択信号を送受信する電極（バンプ等）を設け、レジスタ１１の位置にデータを送受信する電極を設けておく。また、メモリコントローラＬＳＩ５の上面（キャッシュＬＳＩ−Ｂと対向する面）には、キャッシュＬＳＩ−Ｂの下面の貫通電極４０、４１、４２と接続する電極（バンプ等）を設けておく。なお、ＣＰＵ−ＬＳＩ２からメモリコントローラＬＳＩ５に対する制御信号などは、図示しない貫通電極等で送受信する。

ＣＰＵ−ＬＳＩ２の下面に接続されるキャッシュＬＳＩ−Ａは、上面の貫通電極４０をアドレスリクエスタ１２の電極に接続し、上面の貫通電極４１をＬＲＵ情報格納部１３（ロウ選択回路１４）の電極に接続し、上面の貫通電極４２をレジスタ１１の電極に接続する。

キャッシュＬＳＩ−Ａの下面は貫通電極４０、４１、４２を、キャッシュＬＳＩ−Ｂの上面の貫通電極４０、４１、４２に接続する。キャッシュＬＳＩ−Ｂの下面は、貫通電極４０、４１、４２をメモリコントローラＬＳＩ５の上面に設けた電極に接続する。

ＣＰＵ−ＬＳＩ２がキャッシュアクセス（リード）を行うと、アドレスリクエスタ１２から貫通電極４０を介してキャッシュＬＳＩ−Ａ、Ｂ及びメモリコントローラＬＳＩ５にタグとインデックスがブロードキャストされる。キャッシュＬＳＩ−Ａ（またはＢ）のタグ比較器２３がキャッシュヒットを判定すると、図２に示したデータメモリリードライト回路２４が部分データメモリ２１の該当データを貫通電極４２へ送信し、レジスタ１１へ書き込む。なお、キャッシュアクセスがライトの場合には、レジスタ１１がデータを貫通電極４２へ送信し、キャッシュヒットしたキャッシュＬＳＩ−Ａ、Ｂのデータメモリリードライト回路２４が該当キャッシュラインに書き込む。

一方、キャッシュＬＳＩ−Ａ、Ｂがキャッシュミスした場合は、メモリコントローラＬＳＩ５が貫通電極４１からキャッシュミスを検知し、アドレスリクエスタ１２がブロードキャストしたタグとインデックスから主記憶９にアクセスし、キャッシュミスしたキャッシュラインのデータを取得する。

メモリコントローラＬＳＩ５は、主記憶９から取得したデータを貫通電極４２へブロードキャストすることにより、キャッシュＬＳＩ−Ａ、Ｂのリフィルと、レジスタ１１への書き込みを同時に行うことができる。

このように、アドレスリクエスタ１２からのアドレス情報（タグとインデックス）と、タグ比較器２３からの判定信号及びロウ選択回路１４からの選択信号と、データを貫通電極４１〜４２でブロードキャストすることにより、低レイテンシイで複数のＬＳＩチップ間の通信を行うことが可能となる。

そして、プロセッサ１のキャッシュメモリ３０を増量するには、キャッシュＬＳＩ−ＢとメモリコントローラＬＳＩ５の間（またはＣＰＵ−ＬＳＩ２とキャッシュＬＳＩ−Ａの間）にキャッシュＬＳＩ−Ａ、Ｂと同様の構成のキャッシュＬＳＩを挿入することで、容易に増量することができる。

すなわち、本第１実施形態のキャッシュメモリ３０では、タグを格納する部分タグ２０と部分データメモリ２１をキャッシュＬＳＩ−Ａ、Ｂ側に分散して配置し、ＬＲＵ情報などの管理情報をＣＰＵ−ＬＳＩ２で集中して管理する構成を備え、さらに、各キャッシュＬＳＩ−Ａ、Ｂは、キャッシュメモリ３０のロウ方向でＬＳＩを独立させる構成となる。したがって、追加したキャッシュＬＳＩは、ロウ方向にキャッシュメモリ３０を拡大することができ、Ｗａｙ数を増大させることができる。例えば、キャッシュＬＳＩ−Ｂの下面と、メモリコントローラＬＳＩ５の上面の間にキャッシュＬＳＩを２枚追加すれば、４ＷＡＹセットアソシアティブのキャッシュメモリ３０に拡張することができる。つまり、キャッシュＬＳＩ当たりの連想度Ｎ＝２であり、キャッシュＬＳＩの数Ｍ＝４であるので、最大連想度は４となる。逆に、キャッシュメモリ３０を減らすことにより、Ｗａｙ数を低減して小容量のキャッシュメモリ３０を構成することができる。

また、タグをキャッシュＬＳＩ−Ａ、Ｂ側に配置することで、容量の大きなタグ情報をＣＰＵ−ＬＳＩ２に配置することなく、キャッシュＬＳＩの数（＝キャッシュ容量）に応じたサイズのタグを確保することが可能となる。

一方、ＬＲＵ情報は、タグに比して容量が小さく、集中して管理した方がどのキャッシュラインがリフィル可能であるかを迅速に判定できるので、ＣＰＵ−ＬＳＩ２に配置する。

次に、プロセッサ１のキャッシュメモリ３０を各ＬＳＩ２〜５を積層して３次元で実装する際には、図１で示したように、メモリコントローラＬＳＩ５を基板６側とすることで、主記憶９との通信を行うメモリバス８を容易に配置することができる。そして、メモリコントローラＬＳＩ５とＣＰＵ−ＬＳＩ２の間のキャッシュＬＳＩの数を増減させることで、プロセッサ１のキャッシュメモリ３０の容量に関する自由度を大幅に向上させることが可能となる。

さらに、ＣＰＵ−ＬＳＩ２をヒートスプレッダ７側に配置することで、プロセッサ１内のＬＳＩチップの中で最も発熱量の多いＣＰＵ−ＬＳＩ２を確実に冷却することができるのである。そして、ＣＰＵ−ＬＳＩ２とメモリコントローラＬＳＩ５の間に複数のキャッシュＬＳＩ−Ａ，Ｂを挟むように構成して貫通電極４０〜４２で接続したので、キャッシュＬＳＩの数を増減しても、プロセッサ１内の配線を変更する必要はなく、キャッシュ容量及びＷａｙ数の異なるプロセッサ１を容易に構成することが可能となる。

このように本発明によれば、キャッシュメモリ３０の容量が異なるプロセッサ１を容易に構成可能としながらも、情報をブロードキャストする貫通電極４０〜４２により高速なキャッシュアクセスとＣＰＵ−ＬＳＩ２の効果的な冷却を実現することが可能となるのである。

なお、上記第１実施形態では、キャッシュＬＳＩ−Ａ、Ｂを１ロウで構成する例を示したが、図４で示すように、１枚のキャッシュＬＳＩに複数のロウを配置することができる。この例では、各キャッシュＬＳＩ−Ａ，Ｂのキャッシュラインを２ロウとし、４Ｗａｙセットアソシアティブのキャッシュメモリとなる。この場合、キャッシュＬＳＩ当たりの連想度Ｎ＝２で、キャッシュＬＳＩの数Ｍ＝２であるから最大連想度はＮ×Ｍ＝４となる。

＜第２実施形態＞
図５は、第２の実施形態を示し、プロセッサ１の要部を示す断面図である。本第２実施形態は、前記第１実施形態のＬＲＵ情報格納部１３を変更したものである。ＣＰＵ−ＬＳＩ２には、前記第１実施形態のＬＲＵ情報格納部１３に代わって、どのキャッシュＬＳＩ−Ａ、Ｂがリフィル可能であるかを識別するチップＬＲＵ情報を保持するチップＬＲＵ情報格納部１３Ａとし、キャッシュＬＳＩ−Ａ、Ｂには各キャッシュＬＳＩ毎にどのキャッシュラインがリフィル可能かを識別する部分ＬＲＵ情報を保持する部分ＬＲＵ情報格納部１３０を設けたもので、その他の構成は前記第１実施形態と同様である。

ＬＲＵ情報は、前述したようにタグに比して容量は少ないが、キャッシュＬＳＩ−Ａ、Ｂのキャッシュラインが多い場合には、ＬＲＵ情報も増大することになる。そこで、図５で示すように、ＣＰＵ−ＬＳＩ２にはどのキャッシュＬＳＩが最も使われていないか（リフィル可能か）を示すチップＬＲＵ情報を保持し、キャッシュＬＳＩには、どのキャッシュラインが最も使われていないか（リフィル可能か）を示す部分ＬＲＵ情報を保持することで、ＣＰＵ−ＬＳＩ２のチップＬＲＵ情報格納部１３Ａの容量を低減できる。

そして、キャッシュラインの部分ＬＲＵ情報を各キャッシュＬＳＩの部分ＬＲＵ情報格納部１３０へ格納することにより、キャッシュＬＳＩの増減に応じて部分ＬＲＵ情報格納部１３０も増減することが可能となる。

これにより、チップＬＲＵ情報格納部１３Ａは、プロセッサ１に搭載するキャッシュＬＳＩの最大数に応じたチップＬＲＵ情報のみを格納すればよいので、ＣＰＵ−ＬＳＩ２の物量を低減して構成を簡素にすることができる。

＜第３実施形態＞
図６は、第３の実施形態を示し、プロセッサ１の要部を示す断面図である。本第３実施形態は、前記第１実施形態の貫通電極４０をパラレルの信号線からシリアルの信号線に変更し、各ＬＳＩにシリアル−パラレル変換回路を加えてビット列の情報を転送するものである。ＣＰＵ−ＬＳＩ２のアドレスリクエスタ１２にはシリアルの信号線の貫通電極４０Ａにアドレス情報を送信するパラレル−シリアル変換回路（Ｓｅｒ回路）１２０を設け、キャッシュＬＳＩ−Ａ、Ｂのエントリ選択デコーダ２２には、貫通電極４０Ａのシリアル信号をパラレル信号に変換するシリアル−パラレル変換回路（Ｄｅｓ回路）２２０を設け、メモリコントローラＬＳＩ５にもシリアル−パラレル変換回路（Ｄｅｓ回路）５２０を設けたもので、その他の構成は前記第１実施形態と同様である。

アドレス情報は、３２ビットや６４ビットなどビット数が多いため、貫通電極４０をパラレルの信号線で構成すると、貫通電極４０の回路面積が増大することになる。そこで、図６のように、アドレスリクエスタ１２のパラレル−シリアル変換回路１２０でシリアル信号に変換してからキャッシュＬＳＩ−Ａ、ＢやメモリコントローラＬＳＩ５へブロードキャストすることにより、貫通電極４０Ａの物量を低減し、ＣＰＵ−ＬＳＩ２及びメモリコントローラＬＳＩ５の電極も低減することが可能になる。なお、図示はしないが、データを転送する貫通電極４２についてもシリアル信号としてもよい。

＜第４実施形態＞
図７、図８は、第４の実施形態を示し、前記第１実施形態の各ＬＳＩを板状のインターポーザ６０で結合したＳＩＰ実装を適用した例であり、各ＬＳＩ２〜５の構成は前記第１実施形態と同様である。

図７は、インターポーザ６０上のプロセッサ１Ａの要部を示す平面図である。図８は、プロセッサ１Ａの断面図である。

図７において、インターポーザ６０上には図中上方からＣＰＵ−ＬＳＩ２、キャッシュＬＳＩ−Ａ，Ｂ及びメモリコントローラＬＳＩ５の順で各ＬＳＩが配置される。すなわち、板状のインターポーザ６０の上面には図８で示すように各ＬＳＩ２〜５が配置される。

そして、前記第１実施形態の貫通電極に代わって、インターポーザ６０上には、アドレスリクエスタ１２からのアドレス情報をキャッシュＬＳＩ−Ａ，Ｂ及びメモリコントローラＬＳＩ５へブロードキャストする配線６４０と、ＬＲＵ情報格納部１３からの選択信号とタグ比較器２３からの判定信号を各ＬＳＩへブロードキャストする配線６４１と、レジスタ１１とキャッシュＬＳＩ−Ａ，Ｂの部分データメモリ２１及びメモリコントローラＬＳＩ５の間でデータをブロードキャストする配線６４２が配置される。

この場合も前記第１実施形態と同様に、低レイテンシイで複数のＬＳＩチップ間の通信を行うことが可能となる。さらに、前記第１実施形態と同様に、インターポーザ６０を拡大してキャッシュＬＳＩ−ＢとメモリコントローラＬＳＩ５の間などに新たなキャッシュＬＳＩを追加することで、キャッシュメモリ３０の容量が異なるプロセッサ１Ａを容易に構成することができる。

＜第５実施形態＞
図９は、第５の実施形態を示し、前記図７，図８の第４実施形態に、図６に示した第３実施形態のシリアル信号を適用したもので、その他の構成は前記第４実施形態と同様である。

図９において、前記第４実施形態の配線６４０〜６４２をパラレルの信号線からシリアルの信号線に変更し、各ＬＳＩにシリアル−パラレル変換回路を加えたものである。ＣＰＵ−ＬＳＩ２のアドレスリクエスタ１２にはシリアルの信号線６５０にアドレス情報を送信するパラレル−シリアル変換回路（Ｓｅｒ回路）１２０を設け、キャッシュＬＳＩ−Ａ、Ｂのエントリ選択デコーダ２２には、信号線６５０のシリアル信号をパラレル信号に変換するシリアル−パラレル変換回路（Ｄｅｓ回路）２２０を設け、メモリコントローラＬＳＩ５にもシリアル−パラレル変換回路（Ｄｅｓ回路）５２０を設けたもので、その他の構成は前記第４実施形態と同様である。

この場合も、前記第３実施形態と同様にして、配線の物量を低減し、ＣＰＵ−ＬＳＩ２及びメモリコントローラＬＳＩ５の電極も低減することが可能になる。

以上のように、本発明は、複数のＬＳＩチップで構成されたプロセッサに適用することができる。

第１の実施形態を示し、本発明を適用するプロセッサの断面方向の概略図である。第１の実施形態を示し、プロセッサの要部を示すブロック図。第１の実施形態を示し、キャッシュメモリの記憶域を示すブロック図。第１の実施形態を示し、キャッシュメモリの他の形態の記憶域を示すブロック図。第２の実施形態を示し、プロセッサの断面方向の概略図。第３の実施形態を示し、プロセッサの断面方向の概略図。第４の実施形態を示し、プロセッサの断面方向の概略図。第４の実施形態を示し、プロセッサの断面図である。第５の実施形態を示し、プロセッサの断面方向の概略図。

符号の説明

１プロセッサ
２ＣＰＵ−ＬＳＩ
３キャッシュＬＳＩ−Ａ
４キャッシュＬＳＩ−Ｂ
５メモリコントローラＬＳＩ
６基板
７ヒートスプレッダ
８メモリバス
９主記憶
１０実行ユニット
１１レジスタ
１２アドレスリクエスタ
１３ＬＲＵ格納部
１４ロウ選択回路
２０部分タグ
２１部分データメモリ
２２エントリ選択デコーダ
２３タグ比較器
２４データメモリリードライト回路
４０〜４２貫通電極

Claims

演算処理を行うプロセッサを含む第１のＬＳＩと、
データとアドレス情報を格納するキャッシュメモリを備えた第２のＬＳＩと、
前記第１のＬＳＩと複数の第２のＬＳＩを接続する情報伝達経路とを備えたプロセッサであって、
前記第１のＬＳＩは、
前記複数の第２のＬＳＩに対して前記プロセッサがアクセスを要求するデータのアドレス情報を前記情報伝達経路からブロードキャストするアドレス情報発行部を含み、
前記第２のＬＳＩは、
キャッシュメモリ全体の記憶域のうちアドレス情報の一部を格納する部分アドレス情報格納部と、
前記部分アドレス情報格納部に格納されたアドレス情報に対応するデータを格納する部分データ格納部と、
前記情報伝達経路にブロードキャストされたアドレス情報と前記部分アドレス情報格納部に格納されたアドレス情報を比較してキャッシュヒットまたはキャッシュミスを判定する比較部と、を含み、
前記第１のＬＳＩと複数の第２のＬＳＩの前記比較部が前記情報伝達経路にそれぞれ接続されたことを特徴とするプロセッサ。
前記第１のＬＳＩと、前記複数の第２のＬＳＩは、積層されたことを特徴とする請求項１に記載のプロセッサ。
前記第２のＬＳＩは、連想度Ｎのセットアソシアティブのキャッシュメモリを構成し、前記複数の第２のＬＳＩの数がＭ枚のときに最大連想度がＮＸＭのキャッシュメモリとして機能することを特徴とする請求項１に記載のプロセッサ。
前記第１のＬＳＩは、
前記判定部がキャッシュミスを判定したときに、アドレス情報とデータを入れ替えるリプレースライン決定部を有し、当該リプレースライン決定部は、前記判定部がキャッシュヒットを判定したときに、前記複数の第２のＬＳＩのうちの何れがキャッシュヒットしたかを判定することを特徴とする請求項３に記載のプロセッサ。
前記情報伝達経路は、アドレス情報をシリアル信号で伝達することを特徴とする請求項１ないし請求項３の何れかひとつに記載のプロセッサ。
前記第１のＬＳＩの下面に前記複数の第２のＬＳＩが積層され、
前記情報伝達経路は、前記第２のＬＳＩに形成された貫通電極で構成されたことを特徴とする請求項２に記載のプロセッサ。
前記プロセッサの外部に配置された主記憶と通信を行うメモリコントローラを含む第３のＬＳＩをさらに備え、
前記第１のＬＳＩと第３のＬＳＩとの間に前記複数の第２のＬＳＩを積層したことを特徴とする請求項６に記載のプロセッサ。
前記第３のＬＳＩを支持する基板と、
前記基板に支持されて前記第１のＬＳＩに当接するヒートスプレッダと、をさらに備えたことを特徴とする請求項７に記載のプロセッサ。
前記第１のＬＳＩと、前記複数の第２のＬＳＩは、インターポーザを介して結合されたことを特徴とする請求項１に記載のプロセッサ。
前記第２のＬＳＩは、連想度Ｎのセットアソシアティブのキャッシュメモリを構成し、前記複数の第２のＬＳＩの数がＭ枚のときに最大連想度がＮＸＭのキャッシュメモリとして機能することを特徴とする請求項９に記載のプロセッサ。
前記第１のＬＳＩは、
前記判定部がキャッシュミスを判定したときに、アドレス情報とデータを入れ替えるリプレースライン決定部を有し、当該リプレースライン決定部は、前記判定部がキャッシュヒットを判定したときに、前記複数の第２のＬＳＩのうちの何れがキャッシュヒットしたかを判定することを特徴とする請求項１０に記載のプロセッサ。
前記情報伝達経路は、アドレス情報をシリアル信号で伝達することを特徴とする請求項９ないし請求項１１の何れかひとつに記載のプロセッサ。
演算処理を行うプロセッサを含む第１のＬＳＩと、
データとアドレス情報を格納するキャッシュメモリを備えた第２のＬＳＩと、
前記第１のＬＳＩと複数の第２のＬＳＩを接続する情報伝達経路とを備えたプロセッサであって、
前記プロセッサの外部に配置された主記憶と通信を行うメモリコントローラを含む第３のＬＳＩと、
前記第３のＬＳＩを支持する基板と、
前記基板に支持されて前記第１のＬＳＩに当接するヒートスプレッダと、を備え、
前記第２のＬＳＩが前記第１のＬＳＩと第３のＬＳＩの間に積層されたことを特徴とするプロセッサ。