JP2000293436A

JP2000293436A - パイプラインメモリシステムにおける複数のターゲットへの複数の未解決要求のサポート

Info

Publication number: JP2000293436A
Application number: JP2000081045A
Authority: JP
Inventors: Bi-Yu Pan; パンビ−ユ; Marc Tremblay; トレンブレイマーク
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1999-03-22
Filing date: 2000-03-22
Publication date: 2000-10-20
Anticipated expiration: 2020-03-22
Also published as: DE60030794D1; EP1039377A1; JP4585647B2; EP1039377B1; US6237066B1; KR20010014592A; KR100618248B1

Abstract

(57)【要約】【課題】既存のメモリシステムにおけるパフォーマン
スの制限を克服するメモリシステムを提供する。【解決手段】データキャッシュを有するコンピュータ
システムにおいて、複数のデータソースに対する実行エ
ンジンからの複数の未処理ロード要求をサポートする装
置であって、該実行エンジン、第１のデータソースおよ
び第２のデータソースに接続されたロード格納ユニット
であって、該第１のデータソースは該データキャッシュ
である、ロード格納ユニットと、該ロード格納ユニット
内にあるロードアドレスバッファであって、複数の未処
理ロード要求についてのアドレスを有するロードアドレ
スバッファと、１つのロード要求の間に該ロード格納ユ
ニットが受け取ったデータを格納するためのレジスタフ
ァイルと、該第１のデータソースおよび該第２のデータ
ソースの両方について、複数のロード要求が同時に未処
理状態となれるように、該ロードアドレスバッファ、該
レジスタファイル、該第１のデータソースおよび該第２
のデータソース間のデータフローを調節するように構成
されたコントローラと、を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータシス
テムの設計に関する。特に、本発明は、複数のターゲッ
トへの同時未処理要求をサポートするコンピュータシス
テム用ロード格納ユニットの設計に関する。

【０００２】

【従来の技術】最近のプロセッサ設計は、複数のパイプ
ライン機能ユニットを並列動作させることにより、高い
性能を実現している。これにより、ある所与のクロック
サイクルに対して、複数の演算処理を完了することがで
きる。そのようなプロセッサ設計に遅れを取らないため
に、メモリシステムは、複数のメモリアクセスをパイプ
ライン処理できるように改変されてきた。これにより、
既に出されたメモリアクセスが戻って来る前に、次のメ
モリアクセスを出すことが可能になる。これにより、全
体のメモリシステムスループットを大幅に高めることが
できる。

【０００３】

【発明が解決しようとする課題】しかしながら、プログ
ラムの実行中にコンピュータプログラムがデータソース
（ターゲット）を変更すると、通常、このようなパイプ
ライン式メモリシステムは停止してしまい、システムパ
フォーマンスが大幅に悪化することがある。例えば、プ
ログラムが、メインメモリに対する複数のパイプライン
式アクセス間に、グラフィックスコプロセッサにアクセ
スを行うと、メインメモリへのアクセスは停止する。こ
れは、多くの異なるデータソース（ターゲット）へのイ
ンターリーブアクセスをサポートするプロセッサ設計に
とっては重大な問題となり得る。例えば、ある所与のプ
ロセッサは、データキャッシュ、メインメモリ、グラフ
ィックスコプロセッサおよび様々なバスインターフェイ
スのデータにアクセス可能であり得る。

【０００４】さらに、このようなパイプライン式メモリ
システムが、ある所与のクロックサイクルについて出す
アクセス要求の数は、通常、最大１つである。これは、
複数の要求が複数のパイプライン式機能ユニットにより
同時に発生する場合、あるいは、リソースコンフリクト
に起因して複数の要求が１つのバッファに貯まっている
場合に、パフォーマンスを制限し得る。

【０００５】既存のメモリシステムにおけるこのような
パフォーマンスの制限を克服するメモリシステム設計が
必要とされている。

【０００６】

【課題を解決するための手段】本発明による装置は、デ
ータキャッシュを有するコンピュータシステムにおい
て、複数のデータソースに対する実行エンジンからの複
数の未処理ロード要求をサポートする装置であって、前
記実行エンジン、第１のデータソースおよび第２のデー
タソースに接続されたロード格納ユニットであって、前
記第１のデータソースは前記データキャッシュである、
ロード格納ユニットと、前記ロード格納ユニット内にあ
るロードアドレスバッファであって、複数の未処理ロー
ド要求についてのアドレスを有するロードアドレスバッ
ファと、１つのロード要求の間に前記ロード格納ユニッ
トが受け取ったデータを格納するためのレジスタファイ
ルと、前記第１のデータソースおよび前記第２のデータ
ソースの両方について、複数のロード要求が同時に未処
理状態となれるように、前記ロードアドレスバッファ、
前記レジスタファイル、前記第１のデータソースおよび
前記第２のデータソース間のデータフローを調節するよ
うに構成されたコントローラとを備えており、これによ
り、上記目的が達成される。

【０００７】ある実施形態によれば、この装置は、複数
の未処理格納要求のアドレスを有する格納アドレスバッ
ファと、前記複数の未処理格納要求のデータを有する格
納データバッファとをさらに備え、前記コントローラ
は、前記第１のデータソースおよび前記第２のデータソ
ースの両方について、複数の格納要求が同時に未処理状
態となれるように、前記第１のデータソース、前記第２
のデータソース、前記格納アドレスバッファおよび前記
格納データバッファ間のデータフローを調整するように
構成されていてもよい。

【０００８】ある実施形態によれば、前記ロード格納ユ
ニットはさらに第３のデータソースに接続されており、
前記コントローラは、前記第１のデータソース、前記第
２のデータソースおよび前記第３のデータソースについ
て、複数のロード要求が同時に未処理状態となれるよう
に、データフローを調整するように構成されていてもよ
い。

【０００９】ある実施形態によれば、前記ロード格納ユ
ニットは、第１の通信経路を介して前記データキャッシ
ュに接続されているとともに、前記第１の通信経路とは
別の第２の通信経路を介して前記第２のデータソースに
接続されていてもよい。

【００１０】ある実施形態によれば、「異常」を返すこ
とができるデータキャッシュに向けられたロード要求を
除いて、前記コンピュータシステムにおける前記複数の
データソースのそれぞれについて、ロード要求が「正
常」を返すように前記コントローラが構成されていても
よい。

【００１１】ある実施形態によれば、ロード要求が他の
データソースからのロード要求に関しては「異常」を返
すことができるように前記コントローラが構成されてい
てもよい。

【００１２】ある実施形態によれば、同じクロックサイ
クルにおいて複数のロード要求を異なるデータソースに
送ることができるように前記コントローラが構成されて
いてもよい。

【００１３】ある実施形態によれば、前記コントローラ
は、前記ロードアドレスバッファ内の各エントリについ
て別々の状態マシンを含んでいてもよい。

【００１４】ある実施形態によれば、前記第２のデータ
ソースは、コンピュータシステムバスへのインターフェ
ースを含んでいてもよい。

【００１５】ある実施形態によれば、前記第２のデータ
ソースは、ランダムアクセス半導体メモリを含んでいて
もよい。

【００１６】ある実施形態によれば、前記第２のデータ
ソースは、二次記憶装置を含んでいてもよい。

【００１７】ある実施形態によれば、前記第２のデータ
ソースは、コンピュータグラフィックスアクセラレー
タ、プロセッサおよびブリッジチップのうちの１つを含
んでいてもよい。

【００１８】ある実施形態によれば、前記ロードアドレ
スバッファ内の各エントリは、前記ロード要求のターゲ
ットを示す状態情報に関連付けられており、前記ターゲ
ットは、前記第１のデータソースおよび前記第２のデー
タソースのうちの１つを含んでいてもよい。

【００１９】ある実施形態によれば、前記ロードアドレ
スバッファ内の各エントリは、関連するロード要求中に
受け取ったデータがキャッシュ可能であるかどうかを示
す状態情報に関連付けられていてもよい。

【００２０】ある実施形態によれば、前記ロードアドレ
スバッファ内の各エントリは、関連するロード要求の状
態を示す状態情報に関連付けられていてもよい。

【００２１】ある実施形態によれば、前記ロードアドレ
スバッファ内の各エントリは、関連するロード要求のデ
スティネーションレジスタを示す状態情報に関連付けら
れていてもよい。

【００２２】ある実施形態によれば、前記ロード要求中
に受け取ったデータを、前記レジスタファイル内に格納
する前に、アラインするアラインメント回路をさらに備
えていてもよい。

【００２３】本発明による、別の装置は、データキャッ
シュを有するコンピュータシステムにおいて、複数のデ
ータソースに対する実行エンジンからの複数の未処理ロ
ードおよび格納要求をサポートする装置であって、前記
実行エンジン、第１のデータソースおよび第２のデータ
ソースに接続されたロード格納ユニットであって、前記
第１のデータソースは前記データキャッシュである、ロ
ード格納ユニットと、前記ロード格納ユニット内にある
ロードアドレスバッファであって、複数の未処理ロード
要求についてのアドレスを有するロードアドレスバッフ
ァと、１つのロード要求の間に前記ロード格納ユニット
が受け取ったデータを格納するためのレジスタファイル
と、複数の未処理格納要求のアドレスを有する格納アド
レスバッファと、前記複数の未処理格納要求のデータを
有する格納データバッファと、前記第１のデータソース
および前記第２のデータソースの両方について、複数の
ロード要求が同時に未処理状態となれるように、前記ロ
ードアドレスバッファ、前記レジスタファイル、前記第
１のデータソースおよび前記第２のデータソース間のデ
ータフローを調節するように構成されたコントローラと
を備え、前記コントローラはさらに、前記第１のデータ
ソースおよび前記第２のデータソースの両方について、
複数の格納要求が同時に未処理状態となれるように、前
記第１のデータソース、前記第２のデータソース、前記
格納アドレスバッファおよび前記格納データバッファ間
のデータフローを調整するように構成されており、これ
により、上記目的が達成される。

【００２４】ある実施形態によれば、前記ロード格納ユ
ニットはさらに第３のデータソースに接続されており、
前記コントローラは、前記第１のデータソース、前記第
２のデータソースおよび前記第３のデータソースについ
て、複数のロード要求が同時に未処理状態となれるよう
に、データフローを調整するように構成されていてもよ
い。

【００２５】ある実施形態によれば、前記ロード格納ユ
ニットは、第１の通信経路を介して前記データキャッシ
ュに接続されているとともに、前記第１の通信経路とは
別の第２の通信経路を介して前記第２のデータソースに
接続されていてもよい。

【００２６】ある実施形態によれば、「異常」を返すこ
とができるデータキャッシュに向けられたロード要求を
除いて、前記コンピュータシステムにおける前記複数の
データソースのそれぞれについて、ロード要求が「正
常」を返すように前記コントローラが構成されていても
よい。

【００２７】ある実施形態によれば、ロード要求が他の
データソースからのロード要求に関しては「異常」を返
すことができるように前記コントローラが構成されてい
てもよい。

【００２８】本発明による方法は、データキャッシュを
有するコンピュータシステムにおいて、複数のデータソ
ースに対する実行エンジンからの複数の未処理ロード要
求をサポートする方法であって、前記実行エンジンから
ロード要求を受け取るステップであって、前記ロード要
求は、第１のデータソースおよび第２のデータソースの
うちの１つを指定する、ステップと、前記ロード要求の
アドレスをロードアドレスバッファ内に格納するステッ
プであって、前記第１のデータソースおよび前記第２の
データソースの両方について、複数のロード要求が同時
に未処理状態となれるように、前記ロードアドレスバッ
ファは複数の未処理ロード要求のアドレスを有する、ス
テップと、前記ロード要求を前記第１のデータソースお
よび前記第２のデータソースのうちの１つに送るステッ
プであって、前記第１のデータソースは前記データキャ
ッシュである、ステップと、前記ロード要求に応答し
て、前記第１のデータソースおよび前記第２のデータソ
ースのうちの１つからのデータをレジスタファイル内に
受け取るステップとを包含しており、これにより、上記
目的が達成される。

【００２９】ある実施形態によれば、この方法は、前記
実行エンジンから格納要求を受け取るステップと、前記
格納要求のアドレスを格納アドレスバッファ内に格納す
るステップであって、前記第１のデータソースおよび前
記第２のデータソースの両方について、複数の格納要求
が同時に未処理状態となれるように、前記格納アドレス
バッファは複数の未処理格納要求のアドレスを有する、
ステップと、前記格納要求のデータを格納データバッフ
ァ内に格納するステップであって、前記格納データバッ
ファは前記複数の未処理格納要求のデータを有する、ス
テップとをさらに包含してもよい。

【００３０】ある実施形態によれば、前記ロード要求
は、さらに第３のデータソースにも向けられ得るもので
あり、前記第１のデータソース、前記第２のデータソー
スおよび前記第３のデータソースについて、複数のロー
ド要求が同時に未処理状態となれるものであってもよ
い。

【００３１】ある実施形態によれば、前記ロード要求を
前記第１のデータソースおよび前記第２のデータソース
のうちの１つに送るステップは、前記ロード要求を、第
１の通信経路を介して前記第１のデータソースに、そし
て、第２の通信経路を介して前記第２のデータソースに
送るステップを含み、前記第２の通信経路は前記第１の
通信経路とは別であってもよい。

【００３２】ある実施形態によれば、前記第１のデータ
ソースおよび前記第２のデータソースのうちの１つから
前記データを受け取るステップは、前記第２のデータソ
ースからデータ「正常」を受け取り、前記第１のデータ
ソースからデータ「異常」を受け取るステップを含んで
いてもよい。

【００３３】ある実施形態によれば、前記第１のデータ
ソースおよび前記第２のデータソースのうちの１つから
前記データを受け取るステップは、前記データを第３の
データソースから受け取るステップを含み、前記第２の
データソースおよび前記第３のデータソース間では前記
データが「異常」として受け取られ得るようになってい
てもよい。

【００３４】

【発明の実施の形態】以下の説明は、当業者に対して本
発明を生産および使用するために、特定の用途およびそ
の用途に関する要件のコンテキストにおいてなされるも
のである。本発明の精神および範囲を逸脱することな
く、当業者であれば、本明細書中に開示した実施形態の
様々な改変例が可能であり、また、本明細書中に示す一
般的原則を、他の実施形態および他の用途に応用するこ
とができる。従って、本発明の範囲は、ここに示す実施
形態の範囲に限定されるものではなく、本明細書中に開
示する原理および特徴によって規定される最も広い範囲
が本発明の範囲である。

【００３５】（コンピュータシステム）図１は、本発明
のある実施形態におけるコンピュータシステムを示す。
このコンピュータシステムの回路の大部分は、半導体チ
ップ１５２内に設けられている。

【００３６】コンピュータシステムは、２つの実行エン
ジン１０６および１０８を含むことに留意すべきであ
る。実行エンジン１０６および１０８はそれぞれ、複数
の命令を含むストリームを受け取り、特定のデータ項目
に対して、指定された処理を実行する。実行エンジン１
０６および１０８は、演算処理およびデータ移動処理を
含む中央処理装置（ＣＰＵ）の機能を実行する。実行エ
ンジン１０６および１０８は、それぞれレジスタファイ
ル１１０および１１２を含むことに留意すべきである。
レジスタファイル１１０および１１２は、それぞれ実行
エンジン１０６および１０８によって処理されるデータ
項目を格納するために用いられる。但し、本発明の別の
実施形態においては、実行エンジン１０６および１０８
は、実行エンジン１０６と１０８とで共有されるオーバ
ーラップレジスタにアクセスする。

【００３７】実行エンジン１０６および１０８は、それ
ぞれ、命令フェッチユニット１２８および１２６から命
令ストリームを受け取る。より具体的には、命令フェッ
チユニット１２８は、ランダムアクセスメモリ（ＲＡ
Ｍ）１５０から命令ストリームを受け取る。この命令ス
トリームは、メモリインターフェース１３２、内部バス
インターフェースユニット（ＢＩＵ）１１８、および命
令キャッシュ１２７を通って、命令フェッチユニット１
２８に送られる。命令フェッチユニット１２８は、受け
取った命令ストリームをパイプライン制御ユニット１２
４を介して実行エンジン１０６へと送る。同様に、命令
フェッチユニット１２６は、ランダムアクセスメモリ
（ＲＡＭ）１５０から命令ストリームを受け取る。この
命令ストリームは、メモリインターフェース１３２、内
部バスインターフェースユニット１１８、および命令キ
ャッシュ１２５を通って、命令フェッチユニット１２６
に送られる。命令フェッチユニット１２６は、受け取っ
た命令ストリームをパイプライン制御ユニット１２２を
介して実行エンジン１０８へと送る。

【００３８】ＲＡＭ１５０は、コンピュータシステムの
メインメモリを構成するものであり、コードおよび／ま
たはデータを格納するランダムアクセス可能なコンピュ
ータメモリのあらゆるタイプを含む。命令キャッシュ１
２７および１２５は、それぞれ実行エンジン１０６およ
び１０８によって実行される命令を格納できるあらゆる
タイプのキャッシュメモリを含む。命令フェッチユニッ
ト１２８および１２６は、命令に対するアクセスを調整
し、パイプライン制御ユニット１２４および１２２は、
それぞれ、これらの命令をパイプライン方式で実行でき
るように、スケジューリングの調整を行う。

【００３９】実行エンジン１０６および１０８は、それ
ぞれ、ロード格納ユニット１０２および１０４からデー
タを受け取る。ロード格納ユニット１０２および１０４
は、データキャッシュ１１４、バスインターフェイス１
２０および１３６、周辺バスインターフェイス１３４、
メモリインターフェイス１３２、ならびにジオメトリデ
コンプレッサ１３０を含む多数のソースに対するデータ
の送受信を調整する。

【００４０】図示した実施形態において、周辺バスイン
ターフェイス１３４は、ディスク１４８に接続されたバ
ス１３８に接続されている。ディスク１４８は、ディス
クまたはテープドライブのような、コンピュータデータ
用のあらゆるタイプの不揮発性記憶装置を含む二次記憶
装置である。ディスク１４８はまた、周辺バス１３８に
取り付けられるあらゆるタイプの周辺装置を含み得る。
図示した実施形態の改変例においては、バス１３８はＰ
ＣＩバスを含む。

【００４１】バスインターフェイス１３６は、ホストシ
ステム１４６に接続されたバス１４０に接続される。こ
れにより、ホストシステム１４６を操作するユーザが、
演算タスクを実行エンジン１０６および１０８にダウン
ロードすることが可能となる。また、バスインターフェ
イス１２０は、グラフィックスアクセラレータ１４４に
接続されたバス１４２に接続されることに留意された
い。グラフィックスアクセラレータ１４４は、グラフィ
ックス演算を行うあらゆるタイプの回路であり得る。ジ
オメトリデコンプレッサ１３０もまた、グラフィックス
アクセラレータである。但し、ジオメトリデコンプレッ
サ１３０内の回路は、圧縮された形式で受け取られるグ
ラフィックスデータを解凍する特定のタスクを行うよう
に設計されている。

【００４２】ロード格納ユニット１０２は、別々のデー
タパスを介してデータキャッシュ１１４およびインター
フェイス１２０に接続されている。これにより、データ
キャッシュ１１４およびバスインターフェース１２０に
同時にアクセスすることが可能になる。同様に、ロード
格納ユニット１０４は、別々のデータパスを介してデー
タキャッシュ１１４およびバスインターフェース１２０
に接続されている。このシステムは、ロード格納ユニッ
ト１０２および１０４の両方に接続された単一のデュア
ルポートデータキャッシュ１１４を含むことに留意され
たい。データキャッシュ１１４は、実行エンジン１０６
および１０８によって処理されるデータを格納できるあ
らゆるタイプのキャッシュメモリを含み得る。

【００４３】内部バスインターフェースユニット１１８
は、半導体チップ１５２内に複数のデータパスおよびス
イッチング回路を有し、これにより、ロード格納ユニッ
ト１０２および１０４を複数のデータソース（ターゲッ
ト）に接続する。より具体的には、内部バスインターフ
ェースユニット１１８は、ロード格納ユニット１０２お
よび１０４を、メモリインターフェース１３２、周辺バ
スインターフェース１３４、バスインターフェース１２
０、バスインターフェース１３６およびジオメトリデコ
ンプレッサ１３０に接続する。

【００４４】図１に示すシステムの動作時の処理は概ね
以下の通りである。上記のように、ＲＡＭ１５０から、
メモリインターフェース１３２および内部バスインター
フェースユニット１１８を介して、各命令フェッチユニ
ット１２８および１２６にそれぞれ命令ストリームが読
み出される。これらの命令ストリームは、それぞれ、パ
イプライン制御ユニット１２４および１２２を介して実
行エンジン１０６および１０８に送られる。これらの命
令ストリームを実行する際、実行エンジン１０６および
１０８は、それぞれ、ロード格納ユニット１０２および
１０４と、各実行エンジン１０６および１０８内のレジ
スタファイル１１０および１１２との間でデータを転送
する。ロード格納ユニット１０２および１０４は、デー
タキャッシュ１１４、バスインターフェース１２０、メ
モリインターフェース１３２、周辺バスインターフェー
ス１３４、バスインターフェース１３６およびジオメト
リデコンプレッサ１３０を含む複数のソースからデータ
を受け取る。

【００４５】（ロード格納ユニット）図２は、本発明の
ある実施形態によるロード格納ユニット１０２の内部構
造の一部を示す。ロード格納ユニット１０２は、ロード
バッファ２１０、格納データバッファ２３０および格納
アドレスバッファ２２０を含む複数の機能ユニットを有
する。これらの機能ユニットは、ＬＳＵコントローラ２
５０の制御下で動作する。

【００４６】ロードバッファ２１０は、アライナ（ａｌ
ｉｇｎｅｒ）２０７、データキャッシュレジスタ２０
４、ＭＵＸ２０６、レジスタ２０８およびアレイ２１６
を含む複数の構成要素を有する。ＭＵＸ２０６は、内部
バスインターフェースユニット１１８およびバスインタ
ーフェース１２０の出力のうちの一方を選択してレジス
タ２０８への入力とする。アライナ２０７は、データキ
ャッシュ１１４以外の複数のソースから受け取った複数
ワードのデータに対してバイトアラインメント処理を行
う。データキャッシュ１１４から受け取ったデータは、
データキャッシュ１１４内の回路によってアライン（ａ
ｌｉｇｎ）される。アレイ２１６は、５つのロードアド
レスについてのエントリ（例えば、ロードアドレスエン
トリ２１１、２１２、２１３、２１４および２１５）を
有する。これらの５つのロードアドレスにより、最大５
つの未処理ロード要求のアドレスを格納できる。これら
のロード要求は、ロード格納ユニット１０２に接続され
たデータソース（ターゲット）（例えば、データキャッ
シュ１１４、バスインターフェース１２０、メモリイン
ターフェース１３２、周辺バスインターフェース１３
４、バスインターフェース１３６およびジオメトリデコ
ンプレッサ１３０）のいずれに対するものであり得る。
例えば、３つのアドレスがデータキャッシュ１１４への
未処理要求に関連付けられたものであり、２つのアドレ
スがＲＡＭ１５０への未処理要求に関連付けられたもの
であり得る。

【００４７】ロードバッファ２１０内の回路は、アレイ
２１６内の各エントリについて別々の状態マシンを有す
るＬＳＵコントローラ２５０の制御下で動作する。ロー
ドバッファ２１０内の回路は、概ね以下のように動作す
る。ロード要求を受け取ると、システムは、そのロード
要求のアドレスを、アレイ２１６内のエントリ内にある
追加状態情報と共に格納する。次に、システムは、指定
されたデータソースに対するロード要求を出す。要求さ
れたデータがデータキャッシュ１１４から返されると、
そのデータはデータキャッシュレジスタ２０４内に記録
される。そのデータは、データキャッシュレジスタ２０
４から、実行エンジン１０６（図１参照）内のレジスタ
ファイル１１０内にある指定されたレジスタ内に送られ
る。要求されたデータが他のソースから返された場合、
そのデータは、ＭＵＸ２０６およびアライナ２０７を介
してレジスタ２０８内に送られる。そのデータは、レジ
スタ２０８から、実行エンジン１０６内のレジスタファ
イル１１０内にある指定されたレジスタ内に送られる。
データが返されると、アドレスアレイ２１６内の対応す
るエントリが、新たなロード要求のために再使用できる
ように無効化される。

【００４８】データキャッシュ１１４に対する要求は、
「異常」を返す場合がある。本システムをこのように設
計している理由は、要求によっては、キャッシュフォー
ルトを生じて非常に長い処理時間を要するものもあるか
らである。一部の要求が「異常」を返すことを可能にす
ることによって、キャッシュヒットを生じる要求が、キ
ャッシュミスを生じる要求を待つ必要がなくなる。但
し、データキャッシュ１１４以外のデバイスに対する要
求は、「正常」に返されなければならないことに留意さ
れたい。これは、ある所与のデバイスについて、そのデ
バイスが出した全ての要求が「正常」に返されることを
意味する。但し、デバイス間においては、要求が「異
常」を返してもよい。

【００４９】格納処理は、格納データバッファ２３０お
よび格納アドレスバッファ２２０を用いて行われる。格
納データバッファ２３０は、アレイ２４０およびアライ
ナ２３９を有する。アレイ２４０は、最大８個の未処理
格納要求のデータ（例えば、格納データ２３１、２３
２、２３３、２３４、２３５、２３６、２３７および２
３８）を格納する８個のエントリを有する。格納アドレ
スバッファ２２０は、対応するアドレスと、これらの格
納要求に関連付けられた他の状態情報とを有する。格納
アドレスバッファ２２０は、格納アドレスバッファ２２
１、２２２、２２３、２２４、２２５、２２６、２２７
および２２８を有する。

【００５０】格納データバッファ２３０および格納アド
レスバッファ２２０は、格納アドレスバッファ２２０内
の各エントリについて別々の状態マシンを有するＬＳＵ
コントローラ２５０の制御下で動作する。格納データバ
ッファ２３０および格納アドレスバッファ２２０内の回
路は、概ね以下のように動作する。格納要求を受け取る
と、システムは、その格納要求のアドレスを、格納アド
レスバッファ２２０内のエントリ内にある追加状態情報
と共に格納する。この格納要求に関連付けられたデータ
は、格納データバッファ２３０内のアレイ２４０内にあ
る対応するエントリ内にロードされる。次に、システム
は、指定されたターゲットに格納要求を出す。最終的に
データがターゲットに書き出されると、格納データバッ
ファ２３０および格納アドレスバッファ２２０内にある
対応するエントリが、新たな格納要求のために再使用で
きるように無効化される。

【００５１】（ロードアドレスバッファエントリ）図３
は、本発明のある実施形態によるロードバッファ２１０
内のアレイ２１６内にある所与のエントリにおいて保持
される情報の一部を示す。本実施形態において、エント
リは、ある特定エントリの状態を示す３または４ビット
の状態情報を含む。この状態情報は、対応するロード要
求の進行にともなって更新される。以下、図４を参照し
ながら、ある所与のエントリについての状態図を説明す
る。エントリは、そのロード要求についてのターゲット
（データソース）３０４を指定するための４ビットをも
含む。例えば、ターゲットは、図１に示したデータキャ
ッシュ１１４またはジオメトリデコンプレッサ１３０で
あり得る。エントリは、その特定のエントリがデータキ
ャッシュ１１４に格納すべきデータに対応するかどうか
を示すキャッシュ可能ビット３０６をも含む。さらに、
エントリは、その特定のエントリがその時点で使用中で
あるかどうかを特定する「使用中」ビット３０８を含
む。さらに、エントリは、ロード要求に対して、実行エ
ンジン１０６内のデスティネーションレジスタを指定す
るレジスタ指定子３０９を含む。さらに、アドレス３１
０は、ロード要求のアドレスを有する。

【００５２】（ロードアドレスバッファエントリの状態
マシン）図４は、本発明のある実施形態によるロードバ
ッファ２１０内の所与のエントリについての状態図であ
る。本システムは、通常、アイドル状態４０２から始ま
る。実行エンジン１０６から新たなロード命令が到着す
ると、システムは、以下に示す２つの選択肢の一方を選
択する。即ち、あるロード要求がその時点でキューに入
っている場合、システムは、ロード要求が到着したが、
データキャッシュ１１４または内部バスインターフェー
スユニット１１８には送られていない状態である状態４
０４に移行する。その時点でキューにロード要求が全く
入っておらず且つそのアクセスがキャッシュ可能である
場合、システムは、直接、データキャッシュアクセスが
開始される状態である状態４０６に移行する。その時点
でキューにロード要求が全く入っておらず且つそのアク
セスがキャッシュ可能ではない場合、システムは、状態
４１２に移行する。

【００５３】状態４０４において、そのアクセスがキャ
ッシュ可能である場合、システムは、データキャッシュ
アクセスが開始される状態である状態４０６に移行し、
そのアクセスがキャッシュ可能でない場合には、状態４
１２に移行して、内部バスインターフェースユニット１
１８へのアクセス待ちとなる。

【００５４】状態４０６において、システムは、データ
キャッシュアクセスを開始する。キャッシュヒットがあ
れば、そのデータ項目がデータキャッシュによって直ち
に生成され、そのロード要求の処理が完了する。その
後、システムは、アイドル状態４０２に戻り、新たなロ
ード要求を受ける。キャッシュミスがあった場合、シス
テムが状態４０８に進んでデータキャッシュアクセスが
終了し、システムは次にメインメモリへのアクセスを開
始して状態４１２に進む。状態４１２において、メイン
メモリアクセスが開始され、内部バスインターフェース
ユニット１１８へのアクセス待ちとなる。アクセスが、
同じキャッシュラインに対する最近のキャッシュミスに
よって、現在メインメモリから検索中のキャッシュライ
ンである場合、システムは状態４１０に移行して、その
未処理キャッシュアクセスが完了するのを待つ。その未
処理キャッシュアクセスが完了すると、システムは、状
態４０６に戻ってキャッシュアクセスを継続する。

【００５５】状態４１２において、システムは、内部バ
スインターフェースユニット１１８へのアクセス待ち状
態である。このアクセスは、（キャッシュ可能アクセス
の場合）メインメモリに対するアクセスであってもよい
し、あるいは、（非キャッシュ可能アクセスの場合）内
部バスインターフェースユニット１１８に接続された別
のターゲットに対するアクセスであってもよい。状態４
１２において、システムは、内部バスインターフェース
ユニット１１８へのアクセス待ち状態である。アクセス
が許可されると、システムは、システムが内部バスイン
ターフェースユニット１１８を介してアクセス要求を出
して要求したデータが返されるのを待つ状態である状態
４１４に進む。システムは、次に、要求したデータを受
け取る状態である状態４１６に進む。要求されたデータ
が複数のワードにまたがっている場合もあるので、デー
タの受信は複数のデータ転送を必要とし得る。

【００５６】最後に、システムは、ロード処理を完了
し、アイドル状態４０２に戻る。但し、新たなロード要
求が未処理である場合、システムは、アイドル状態４０
２をスキップして、状態４０４に直接進んで新たなロー
ド処理を開始する。

【００５７】ロード格納ユニット１０２は、データキャ
ッシュ１１４、内部バスインターフェースユニット１１
８およびバスインターフェース１２０に接続される３つ
の別々のポートを有する。これにより、システム状態マ
シンが平行ディスパッチをサポートしていれば、ロード
格納ユニット１０２が、３つの要求を平行にディスパッ
チすることが可能になる。ロード格納ユニット１０４も
同様に、データキャッシュ１１４、内部バスインターフ
ェースユニット１１８およびバスインターフェース１２
０に接続される３つの別々のポートを有する。

【００５８】（格納アドレスバッファエントリの状態マ
シン）図５は、本発明のある実施形態による格納アドレ
スバッファ内の所与のエントリについての状態図であ
る。本システムは、通常、アイドル状態５０２から始ま
る。新たな格納命令が到着すると、システムは、システ
ムが格納データバッファ２３０および格納アドレスバッ
ファ２２０内にある格納要求をロードする状態である状
態５０４に進む。

【００５９】状態５０４において、そのアクセスがキャ
ッシュ可能アクセスである場合、システムは、データキ
ャッシュアクセスが開始される状態である状態５０６に
移行し、そのアクセスがキャッシュ可能アクセスでない
場合には、システムは状態５１４に移行して、内部バス
インターフェースユニット１１８へのアクセス待ちとな
る。

【００６０】状態５０６において、システムは、データ
キャッシュアクセスを開始する。キャッシュヒットがあ
れば、システムは、アイドル状態５０２に戻る前に、デ
ータをキャッシュに書き出す状態である状態５１０に進
む。キャッシュミスがあった場合、システムが状態５０
８に進んでデータキャッシュアクセスが終了し、システ
ムは次にメインメモリへのアクセスを開始して状態５１
４に進む。状態５１４において、メインメモリアクセス
が開始され、内部バスインターフェースユニット１１８
へのアクセス待ちとなる。アクセスが、同じキャッシュ
ラインに対する最近のキャッシュミスによって、現在メ
インメモリから検索中のキャッシュラインである場合、
システムは状態５１２に移行して、その未処理キャッシ
ュアクセスが完了するのを待つ。その未処理キャッシュ
アクセスが完了すると、システムは、状態５０６に戻っ
てキャッシュアクセスを継続する。

【００６１】状態５１４において、システムは、内部バ
スインターフェースユニット１１８へのアクセス待ち状
態である。このアクセスは、（キャッシュ可能アクセス
の場合）メインメモリに対するアクセスであってもよい
し、あるいは、（非キャッシュ可能アクセスの場合）内
部バスインターフェースユニット１１８に接続された別
のターゲットに対するアクセスであってもよい。状態５
１４において、システムは、内部バスインターフェース
ユニット１１８を介してアクセス要求を出して、内部バ
スインターフェースユニット１１８へのアクセスが許可
されるのを待つ。アクセスが許可されると、システム
は、状態５１６に進み、要求されたデータが返されるの
を待つ。次に、システムは、状態５１８に進み、要求さ
れたデータが受け取られる。実際には、データキャッシ
ュ１１４内のコントローラは、ロード格納ユニット１０
２によって格納すべきデータとＲＡＭ１５０から受け取
るキャッシュラインとを組み合わせることに留意された
い。

【００６２】最後に、システムは格納処理を完了し、ア
イドル状態５０２に戻る。但し、新たな格納要求が未処
理である場合、システムは、アイドル状態５０２をスキ
ップして、状態５０４に直接進んで新たな格納処理を開
始する。

【００６３】ロード格納ユニット１０２および１０４
は、（データキャッシュ１１４、内部バスインターフェ
ースユニット１１８およびバスインターフェース１２０
に接続される）３つの別々のポートを有するが、レジス
タファイル１１０および１１２へのリターンは、実際に
は、シリアル化される。また、アクセスの優先順位は、
データキャッシュ１１４へのアクセスが１番目であり、
内部バスインターフェースユニット１１８へのアクセス
が２番目であり、そして、バスインターフェース１２０
へのアクセスが３番目である。

【００６４】本発明のある実施形態は、コンピュータシ
ステムにおいて、複数のデータソースに対する実行エン
ジンからの複数の未処理ロードおよび／または格納要求
をサポートする装置を提供する。本装置は、前記実行エ
ンジン、第１のデータソースおよび第２のデータソース
に接続されたロード格納ユニットを含む。ロード格納ユ
ニットは、ロードアドレスバッファを含む。ロードアド
レスバッファは、複数の未処理ロード要求についてのア
ドレスを有する。ロード格納ユニットはまた、前記第１
のデータソースおよび前記第２のデータソースの両方に
ついて、複数のロード要求が同時に未処理状態となれる
ように、前記ロードアドレスバッファ、前記レジスタフ
ァイル、前記第１のデータソースおよび前記第２のデー
タソース間のデータフローを調節するように構成された
コントローラを含む。これらのロード要求は、「異常」
を返すことができるデータキャッシュに向けられたロー
ド要求を除いて、前記コンピュータシステムにおける前
記複数のデータソースのそれぞれについて、ロード要求
が「正常」を返す。ロード要求は、他のデータソースか
らのロード要求に関しては「異常」を返すことができ
る。本発明のある局面によれば、ロード格納ユニット
は、複数の未処理格納要求のアドレスを有する格納アド
レスバッファと、前記複数の未処理格納要求のデータを
有する格納データバッファとをさらに含む。前記コント
ローラは、さらに、前記第１のデータソースおよび前記
第２のデータソースの両方について、複数の格納要求が
同時に未処理状態となれるように、前記第１のデータソ
ース、前記第２のデータソース、前記格納アドレスバッ
ファおよび前記格納データバッファ間のデータフローを
調整するように構成されている。

【００６５】本発明の実施形態に関する上記の記載は、
例示および説明のためになされたものであり、本発明の
実施形態はこれだけではなく、上記の記載によって、本
明細書中に開示された形態のみに本発明が限定されるわ
けではない。当業者であれば、多数の改変例および変形
例をなすことが可能である。さらに、上記の開示内容
は、本発明の範囲を限定するものではなく、本発明の範
囲は、上掲の特許請求の範囲によって規定されるもので
ある。

【００６６】

【発明の効果】したがって、上述した本発明により、既
存のメモリシステムにおけるパフォーマンスの制限を克
服するメモリシステムが提供される。

【図面の簡単な説明】

【図１】本発明のある実施形態よるコンピュータシステ
ムを示す。

【図２】本発明のある実施形態によるロード格納ユニッ
トの内部構造の一部を示す。

【図３】本発明のある実施形態によるロードバッファ内
の所与のエントリについて保持される情報の一部を示
す。

【図４】本発明のある実施形態によるロードバッファ内
の所与のエントリについての状態図である。

【図５】本発明のある実施形態による格納アドレスバッ
ファ内の所与のエントリについての状態図である。

【符号の説明】

１０２ロード格納ユニット１０４ロード格納ユニット１０６実行エンジン１０８実行エンジン１１０レジスタファイル１１２レジスタファイル１１４データキャッシュ１１８内部バスインターフェースユニット１２０バスインターフェイス１２２パイプライン制御ユニット１２４パイプライン制御ユニット１２５命令キャッシュ１２６命令フェッチユニット１２７命令キャッシュ１２８命令フェッチユニット１３０ジオメトリデコンプレッサ１３２メモリインターフェース１３４周辺バスインターフェース１３６バスインターフェース１３８バス１４０バス１４２バス１４４グラフィックスアクセラレータ１４６ホスト１４８ディスク１５０ＲＡＭ１５２半導体チップ２０４データキャッシュレジスタ２０６ＭＵＸ２０８レジスタ２１０ロードバッファ２１１〜２１５ロードアドレスエントリ２１６アレイ２２０〜２２８格納アドレスバッファ２３０格納データバッファ２３１〜２１８格納データ２３９アライナ２４０アレイ２５０ＬＳＵコントローラ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ビ−ユパンアメリカ合衆国カリフォルニア 95014, カパーチノ，メリットドライブ 19961 (72)発明者マークトレンブレイアメリカ合衆国カリフォルニア 94025, メンロパーク，ハンナウェイ 140

Claims

【特許請求の範囲】

【請求項１】データキャッシュを有するコンピュータ
システムにおいて、複数のデータソースに対する実行エ
ンジンからの複数の未処理ロード要求をサポートする装
置であって、該実行エンジン、第１のデータソースおよび第２のデー
タソースに接続されたロード格納ユニットであって、該
第１のデータソースは該データキャッシュである、ロー
ド格納ユニットと、該ロード格納ユニット内にあるロードアドレスバッファ
であって、複数の未処理ロード要求についてのアドレス
を有するロードアドレスバッファと、１つのロード要求の間に該ロード格納ユニットが受け取
ったデータを格納するためのレジスタファイルと、該第１のデータソースおよび該第２のデータソースの両
方について、複数のロード要求が同時に未処理状態とな
れるように、該ロードアドレスバッファ、該レジスタフ
ァイル、該第１のデータソースおよび該第２のデータソ
ース間のデータフローを調節するように構成されたコン
トローラと、を備えた、装置。
【請求項２】複数の未処理格納要求のアドレスを有す
る格納アドレスバッファと、該複数の未処理格納要求のデータを有する格納データバ
ッファと、をさらに備え、前記コントローラは、前記第１のデータソースおよび前
記第２のデータソースの両方について、複数の格納要求
が同時に未処理状態となれるように、該第１のデータソ
ース、該第２のデータソース、該格納アドレスバッファ
および該格納データバッファ間のデータフローを調整す
るように構成されている、請求項１に記載の装置。
【請求項３】前記ロード格納ユニットはさらに第３の
データソースに接続されており、前記コントローラは、
前記第１のデータソース、前記第２のデータソースおよ
び該第３のデータソースについて、複数のロード要求が
同時に未処理状態となれるように、データフローを調整
するように構成されている、請求項１に記載の装置。
【請求項４】前記ロード格納ユニットは、第１の通信
経路を介して前記データキャッシュに接続されていると
ともに、該第１の通信経路とは別の第２の通信経路を介
して前記第２のデータソースに接続されている、請求項
１に記載の装置。
【請求項５】「異常」を返すことができるデータキャ
ッシュに向けられたロード要求を除いて、前記コンピュ
ータシステムにおける前記複数のデータソースのそれぞ
れについて、ロード要求が「正常」を返すように前記コ
ントローラが構成されている、請求項１に記載の装置。
【請求項６】ロード要求が他のデータソースからのロ
ード要求に関しては「異常」を返すことができるように
前記コントローラが構成されている、請求項５に記載の
装置。
【請求項７】同じクロックサイクルにおいて複数のロ
ード要求を異なるデータソースに送ることができるよう
に前記コントローラが構成されている、請求項１に記載
の装置。
【請求項８】前記コントローラは、前記ロードアドレ
スバッファ内の各エントリについて別々の状態マシンを
含む、請求項１に記載の装置。
【請求項９】前記第２のデータソースは、コンピュー
タシステムバスへのインターフェースを含む、請求項１
に記載の装置。
【請求項１０】前記第２のデータソースは、ランダム
アクセス半導体メモリを含む、請求項１に記載の装置。
【請求項１１】前記第２のデータソースは、二次記憶
装置を含む、請求項１に記載の装置。
【請求項１２】前記第２のデータソースは、コンピュ
ータグラフィックスアクセラレータ、プロセッサおよび
ブリッジチップのうちの１つを含む、請求項１に記載の
装置。
【請求項１３】前記ロードアドレスバッファ内の各エ
ントリは、前記ロード要求のターゲットを示す状態情報
に関連付けられており、該ターゲットは、前記第１のデ
ータソースおよび前記第２のデータソースのうちの１つ
を含み得る、請求項１に記載の装置。
【請求項１４】前記ロードアドレスバッファ内の各エ
ントリは、関連するロード要求中に受け取ったデータが
キャッシュ可能であるかどうかを示す状態情報に関連付
けられている、請求項１に記載の装置。
【請求項１５】前記ロードアドレスバッファ内の各エ
ントリは、関連するロード要求の状態を示す状態情報に
関連付けられている、請求項１に記載の装置。
【請求項１６】前記ロードアドレスバッファ内の各エ
ントリは、関連するロード要求のデスティネーションレ
ジスタを示す状態情報に関連付けられている、請求項１
に記載の装置。
【請求項１７】前記ロード要求中に受け取ったデータ
を、前記レジスタファイル内に格納する前に、アライン
するアラインメント回路をさらに備えた、請求項１に記
載の装置。
【請求項１８】データキャッシュを有するコンピュー
タシステムにおいて、複数のデータソースに対する実行
エンジンからの複数の未処理ロードおよび格納要求をサ
ポートする装置であって、該実行エンジン、第１のデータソースおよび第２のデー
タソースに接続されたロード格納ユニットであって、該
第１のデータソースは該データキャッシュである、ロー
ド格納ユニットと、該ロード格納ユニット内にあるロードアドレスバッファ
であって、複数の未処理ロード要求についてのアドレス
を有するロードアドレスバッファと、１つのロード要求の間に該ロード格納ユニットが受け取
ったデータを格納するためのレジスタファイルと、複数の未処理格納要求のアドレスを有する格納アドレス
バッファと、該複数の未処理格納要求のデータを有する格納データバ
ッファと、該第１のデータソースおよび該第２のデータソースの両
方について、複数のロード要求が同時に未処理状態とな
れるように、該ロードアドレスバッファ、該レジスタフ
ァイル、該第１のデータソースおよび該第２のデータソ
ース間のデータフローを調節するように構成されたコン
トローラと、を備え、該コントローラはさらに、該第１のデータソースおよび
該第２のデータソースの両方について、複数の格納要求
が同時に未処理状態となれるように、該第１のデータソ
ース、該第２のデータソース、該格納アドレスバッファ
および該格納データバッファ間のデータフローを調整す
るように構成されている、装置。
【請求項１９】前記ロード格納ユニットはさらに第３
のデータソースに接続されており、前記コントローラ
は、前記第１のデータソース、前記第２のデータソース
および該第３のデータソースについて、複数のロード要
求が同時に未処理状態となれるように、データフローを
調整するように構成されている、請求項１８に記載の装
置。
【請求項２０】前記ロード格納ユニットは、第１の通
信経路を介して前記データキャッシュに接続されている
とともに、該第１の通信経路とは別の第２の通信経路を
介して前記第２のデータソースに接続されている、請求
項１８に記載の装置。
【請求項２１】「異常」を返すことができるデータキ
ャッシュに向けられたロード要求を除いて、前記コンピ
ュータシステムにおける前記複数のデータソースのそれ
ぞれについて、ロード要求が「正常」を返すように前記
コントローラが構成されている、請求項１８に記載の装
置。
【請求項２２】ロード要求が他のデータソースからの
ロード要求に関しては「異常」を返すことができるよう
に前記コントローラが構成されている、請求項１８に記
載の装置。
【請求項２３】データキャッシュを有するコンピュー
タシステムにおいて、複数のデータソースに対する実行
エンジンからの複数の未処理ロード要求をサポートする
方法であって、該実行エンジンからロード要求を受け取るステップであ
って、該ロード要求は、第１のデータソースおよび第２
のデータソースのうちの１つを指定する、ステップと、該ロード要求のアドレスをロードアドレスバッファ内に
格納するステップであって、該第１のデータソースおよ
び該第２のデータソースの両方について、複数のロード
要求が同時に未処理状態となれるように、該ロードアド
レスバッファは複数の未処理ロード要求のアドレスを有
する、ステップと、該ロード要求を該第１のデータソースおよび該第２のデ
ータソースのうちの１つに送るステップであって、該第
１のデータソースは該データキャッシュである、ステッ
プと、該ロード要求に応答して、該第１のデータソースおよび
該第２のデータソースのうちの１つからのデータをレジ
スタファイル内に受け取るステップと、を包含する、方
法。
【請求項２４】前記実行エンジンから格納要求を受け
取るステップと、該格納要求のアドレスを格納アドレスバッファ内に格納
するステップであって、前記第１のデータソースおよび
前記第２のデータソースの両方について、複数の格納要
求が同時に未処理状態となれるように、該格納アドレス
バッファは複数の未処理格納要求のアドレスを有する、
ステップと、該格納要求のデータを格納データバッファ内に格納する
ステップであって、該格納データバッファは該複数の未
処理格納要求のデータを有する、ステップと、をさらに
包含する、請求項２３に記載の方法。
【請求項２５】前記ロード要求は、さらに第３のデー
タソースにも向けられ得るものであり、前記第１のデー
タソース、前記第２のデータソースおよび該第３のデー
タソースについて、複数のロード要求が同時に未処理状
態となれる、請求項２３に記載の方法。
【請求項２６】前記ロード要求を前記第１のデータソ
ースおよび前記第２のデータソースのうちの１つに送る
ステップは、該ロード要求を、第１の通信経路を介して
該第１のデータソースに、そして、第２の通信経路を介
して該第２のデータソースに送るステップを含み、該第
２の通信経路は該第１の通信経路とは別である、請求項
２３に記載の方法。
【請求項２７】前記第１のデータソースおよび前記第
２のデータソースのうちの１つから前記データを受け取
るステップは、該第２のデータソースからデータ「正
常」を受け取り、該第１のデータソースからデータ「異
常」を受け取るステップを含む、請求項２３に記載の方
法。
【請求項２８】前記第１のデータソースおよび前記第
２のデータソースのうちの１つから前記データを受け取
るステップは、該データを第３のデータソースから受け
取るステップを含み、該第２のデータソースおよび該第
３のデータソース間では該データが「異常」として受け
取られ得る、請求項２７に記載の方法。