JP3876033B2 - 順不同に命令を実行するコンピュータのためのシステム - Google Patents

順不同に命令を実行するコンピュータのためのシステム Download PDF

Info

Publication number
JP3876033B2
JP3876033B2 JP01234497A JP1234497A JP3876033B2 JP 3876033 B2 JP3876033 B2 JP 3876033B2 JP 01234497 A JP01234497 A JP 01234497A JP 1234497 A JP1234497 A JP 1234497A JP 3876033 B2 JP3876033 B2 JP 3876033B2
Authority
JP
Japan
Prior art keywords
address
odd
instructions
processor
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01234497A
Other languages
English (en)
Other versions
JPH09244951A (ja
Inventor
グレッグ・レサルター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JPH09244951A publication Critical patent/JPH09244951A/ja
Application granted granted Critical
Publication of JP3876033B2 publication Critical patent/JP3876033B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0844Multiple simultaneous or quasi-simultaneous cache accessing
    • G06F12/0846Cache with multiple tag or data arrays being simultaneously accessible
    • G06F12/0851Cache with interleaved addressing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Advance Control (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般にコンピュータ・プロセッサ・アーキテクチャに関し、特に、順不同に命令を実行するプロセッサからデータ・キャッシュへのアドレスのスループットを増加させ、それによって性能を高めるアドレス集合システムおよび方法に関する。
【0002】
【従来の技術】
一般に、コンピュータ・プロセッサ(処理ユニット)は、システムの演算を指示する制御ユニット、および計算演算を実施する算術論理ユニット(ALU)からなる。プロセッサの設計は、1つまたは複数のレジスタ組の選択、これらレジスタ間の通信経路、およびこれらがどのように動作するか指示し、制御する手段を伴う。普通、プロセッサは、主メモリに保有される一連の命令からなるプログラムによって指示される。各々の命令は、通常長さが1または複数ワードの1グループのビットであり、プロセッサによって実行される演算を明示する。一般に、プロセッサの基本サイクルは、(a)命令を主メモリから命令レジスタへフェッチするステップと、(b) その命令を解読する(すなわちそれが示すなされるべきことを判断する。各々の命令は、実施される演算および演算が適用されるデータを示す)ステップと、(c)その命令によって明示される演算を実行するステップと、(d)次の命令が位置するところを判断するステップとを含む。普通、次の命令とは、現在の命令のすぐ後に続くものである。
【0003】
しかし、2またはそれ以上のスカラ演算が並行に実施されるスーパースカラ・プロセッサのような高性能なプロセッサにおいて、プロセッサは、順不同である、またはプロセッサを駆動するソフトウェアによって規定される順序と一貫しない順序である命令を実施するように設計されることができる。これらのシステムで、命令は、それらがプログラムによって規定されるシーケンスに現れるときに対し、それらが実行されることができるときに実行される。さらに、順不同の命令の実行の後、その結果は、命令の順序と一致するように最終的に並べ替えられる。
【0004】
性能を最適化するために、キャッシュ・メモリがしばしばコンピュータのプロセッサに関連して用いられる。キャッシュ・メモリは、コンピュータのプロセッサと主メモリの間に位置する高速なバッファである。プロセッサで現在使用中のデータおよび命令は、キャッシュ・メモリへ移動させられ、それによって2つの利益をもたらす。第1に、プロセッサのメモリ要求に関する平均アクセス時間が低減され、プロセッサのスループットを増加させる。第2に、それによって利用可能なメモリ帯域幅のプロセッサの利用が低減されるので、システム・バス上のその他のデバイスは、プロセッサのじゃまをすることなくメモリを使用することができる。このようにキャッシュ・メモリは、主メモリからプロセッサへの命令およびデータのフローの速度を上げるために使用される。主メモリのサイクル時間は、典型的にプロセッサのクロッキング速度よりも遅いので、このキャッシュ・ファンクションが重要である。
【0005】
プロセッサがあるデータラインについてデータ・キャッシュにアクセスするとき、プロセッサはそのキャッシュにアドレスを送る。キャッシュは、アドレスからキャッシュ索引を解析し、所望のデータラインを含みうる1つまたは複数の記憶位置を選択するためにそれを使用する。キャッシュは、いくつかの設計で、1または複数の位置に対応する実ページ番号(RPN)であるタグ、およびそのタグに対応するデータラインが有効であるか無効であるかを示すステータス・インジケータ(indicator)を出力する。
【0006】
典型的にキャッシュに関連する支援回路は、ステータス・インジケータおよびタグを受け取る。ステータス・インジケータが無効データを示すとき、支援回路は「ミス(miss)」表示をプロセッサに送り、その場合、プロセッサはそのデータラインについて主メモリをアクセスしなければならない。ステータス・インジケータが有効データを示すとき、支援回路は、キャッシュが所望のデータラインを現在格納しているか判断するために、タグをアドレスの残りのものと比較する。キャッシュが、タグの比較によって判断されるように要求されるデータラインを持たないとき、支援回路は、「ミス」表示をプロセッサに送り、その場合、プロセッサはそのデータラインについて主メモリをアクセスしなければならない。キャッシュが、タグの比較によって判断されるように要求されるデータラインを持つとき、支援回路は、「ヒット(hit)」表示をプロセッサに送り、要求されるデータラインを読み取るようにプロセッサを促進する。
【0007】
命令の順不同の実行を実施するプロセッサでは、データ・キャッシュへの複数の同時のアクセスを行ない、プロセッサからキャッシュ・メモリへのスループットおよびプロセッサの速度全体を高めることが望ましい。1つのポートがキャッシュ・メモリへの各々のアクセスに対応する複数のポートを持つキャッシュ・メモリを利用することが可能である。しかしこの解法は、これらのキャッシュの設計が高価であるため望ましくなく、大きいオフチップ・キャッシュを実現する安価なプロセッサおよびコンピュータの大量生産には適さない。
【0008】
【発明が解決しようとする課題】
本発明の目的は、上述されるような従来技術の不適当な点および不足した点を克服することである。
【0009】
本発明の別の目的は、順不同に命令を実行するプロセッサの性能を改善することである。
【0010】
本発明の別の目的は、コンピュータのプロセッサに関連するデータ・キャッシュ(DCACHE)への複数のアクセスを安価に実現するシステムおよび方法を提供することである。
【0011】
本発明の別の目的は、プロセッサによるDCACHEのアドレッシングおよびDCACHEからプロセッサへのデータ転送の効率を増大させるシステムおよび方法を提供することである。
【0012】
本発明の別の目的は、DCACHEから関連するプロセッサへのデータのスループットを増加させ、信頼性を保証するシステムおよび方法を提供することである。
【0013】
【課題を解決するための手段】
簡単に言うと、本発明は、プロセッサに関連するDCACHEの読み取りポートの使用を最大限にすることによって、順不同に命令を実行するプロセッサの性能を高めるアドレス集合システムを提供する。本質的に、プロセッサは、例えばメモリ待ち行列(MQUEUE)のような命令並べ替え機構の命令によって生成される複数のアドレスを、ランダム・アクセス・メモリ(RAM)のような対応する単一ポートの記憶装置からなるそれぞれのキャッシュ・バンクに送るように構成される。好ましい実施例で、奇数メモリ・アドレスおよび偶数メモリ・アドレスは、各々のサイクルの間に同時にDCACHEに送られる。
【0014】
アーキテクチャで、プロセッサは、命令キャッシュ(ICACHE)、ICACHEから命令を取り出す命令フェッチ機構(IFETCH)、IFETCHから命令を受け取り、その命令を算術命令およびメモリ命令にソートするソート機構、およびソート機構からメモリ命令を受け取り、順不同に命令を実行することを許すMQUEUEのような並べ替え機構を含む。MQUEUEは、複数のアドレス並べ替えバッファ・スロット(ARBSLOT)、奇数バンク・アービトレータおよび偶数バンク・アービトレータを含む。ARBSLOTの各々は、アドレスを維持し、アドレスが奇数であるか偶数であるか判断し、アドレスが奇数であるか偶数であるかに依存して、それぞれの奇数または偶数要求のいずれかを生成する。奇数および偶数バンク・アービトレータは、それぞれ奇数および偶数アドレスに関連する要求を受け取り、アドレスをキャッシュへ出力するようにスロットを制御する。
【0015】
またこの発明は、プロセッサでデータ・アドレスを処理し、プロセッサからデータ・キャッシュへのデータ・アドレスのスループットを増加させる新しい方法を提供する。広く概念化されるような方法は、キャッシュに複数の独立したバンクを維持するステップと、プロセッサでデータ・アドレスを集めるステップと、データ・アドレスの各々をバンクの中の特定の一つに割り当てるステップと、プロセッサの1サイクルの間に、バンクの各々にアドレスを伝達するステップとを含む。
【0016】
【発明の実施の形態】
図1に示されるように、本発明のアドレス集合システム80(より詳しくは図3を参照)および関連する方法は、コンピュータ11内で実現され、特に、プロセッサ14内の命令フェッチ/実行システム12のメモリ待ち行列(MQUEUE)38b、およびコンピュータ11のプロセッサ14に接続されるデータ・キャッシュ(DCACHE)24に関連する。一般に、コンピュータ11は、プロセッサ14、プロセッサ14を駆動するソフトウェア(S/W)18をもつ主メモリ16、参照矢印23で示されるように、プロセッサ14と相互接続するランダム・アクセス・メモリ(RAM)のような単一ポートの記憶装置の形式のDCACHE24、およびプロセッサ14および主メモリ16と相互接続する1または複数のバスのようなシステム・インターフェース22からなる。演算において、プロセッサ14の命令フェッチ/実行システム12がソフトウェア18を実行するとき、プロセッサ14で現在使用中のデータは、MQUEUE38bの命令の制御によってDCACHE24へ転送され、それによってプロセッサのメモリ要求に関する平均アクセス時間を減少させ、システム・インターフェース22のトラフィックを最小限にする。最後に、新しいアドレス集合システム100を除いては、前述のコンピュータ構成要素およびそれらの相互作用はすべて従来技術でよく知られており、理解されていることを述べなければならない。
【0017】
DCACHE24の典型的なキャッシュ・ラインは、タグ、ステータス・インジケータおよびデータを含む。所望のデータラインを含みうる1つまたは複数の記憶位置を選ぶために、キャッシュ索引が、DCACHE24に送られ、DCACHE24で使用される。キャッシュ索引の受領に応答して、DCACHE24は、1つまたは複数の位置に対応し、好ましい実施例において実ページ番号(RPN)であるタグ、タグに対応するデータラインが有効であるか無効であるか示すステータス・インジケータ、および有効または無効でありうるデータを出力する。典型的に、ステータス・インジケータは以下の状態を示す。「無効」は、存在するデータがないことを意味する。「有効、共有(valid shared)」は、データは存在するが、どこかほかに位置することがありえることを意味する。「有効、専有、クリーン(valid private clean)」は、ラインが唯一のコピーをもち、DCACHE24がまだラインに書き込みをしていないことを意味する。「有効、専有、ダーティ(valid private dirty)」は、ラインが唯一のコピーをもち、DCACHE24がすでにラインに書き込みをしている(従ってラインを主メモリ16へコピーする必要がある)ことを意味する。
【0018】
DCACHE24に関連するタグ比較機構228(図示せず)は、ステータス・インジケータおよびタグを受け取る。ステータス・インジケータが無効データを示すとき、タグ比較機構は、「ミス」表示をプロセッサ14へ送り、その場合プロセッサ14は、そのデータラインについて主メモリ16にアクセスする。ステータス・インジケータが有効なデータを示すとき、タグ比較機構は、DCACHE24が所望のデータラインを現在格納しているかどうか判断するために、タグをアドレスの残りのものと比較する。DCACHE24が、タグ比較によって判断されるように、要求されるデータラインを持たないとき、タグ比較機構は、「ミス」表示をプロセッサ14へ送り、その場合プロセッサ14は、そのデータラインについて主メモリ16をアクセスする。DCACHE24が、タグ比較によって判断されるように、要求されるデータラインをもつ場合、タグ比較機構は、「ヒット」表示をプロセッサ14へ送り、要求されるデータラインを読み取るようにプロセッサ14を促進する。
【0019】
命令フェッチ/実行システム12の可能な実施例が、図2のブロック図によって示される。図2で示すように、命令フェッチ/実行システム12は、命令をソフトウェア18(図1)から格納する命令キャッシュ(ICACHE)26をもつ。命令フェッチ機構(IFETCH)28はICACHE26と連絡し、最終の実行のためにICACHE26から命令を取り出す。好ましい実施例では、IFETCH28は、一度に4命令(各々32ビット)をフェッチし、その命令をソート機構32へ転送する。
【0020】
ソート機構32は、各々の命令が、算術論理ユニット(ALU)またはメモリのどちらに向けられているか判断し、それに応じて、対応する参照矢印36a、36bで示されるように命令を算術論理ユニット待ち行列(AQUEUE)38aおよびMQUEUE38bへそれぞれ分配する。
【0021】
AQUEUE38aは複数のALU命令処理機構39a(好ましい実施例で数は28)を含み、それらは、参照矢印43で示されるように算術論理ユニット42へ指示されるそれぞれの命令を格納するレジスタ41aを持つ。AQUEUE38aの命令は、任意の可能な順序で(好ましくはデータフロー形態で)実行され、それらが完了するとき、その結果が捕らえられ、完了とマークされる。
【0022】
AQUEUE38aによって制御されるALU42は、インターフェース45で示されるように、リネーム(rename)・レジスタ44a、44bおよび汎用レジスタ46からオペランドを取り出すことができる。ALU42がオペランド上に演算したあと、演算の結果は、参照矢印49で示されるように、AQUEUEリネーム・レジスタ44aに格納される。
【0023】
MQUEUE38bは、複数の命令処理機構39bを含む。それぞれの命令処理機構39bは、それぞれのメモリ命令を格納するレジスタ41bを含み、また参照数字48によって表示される、それぞれのアドレスを格納するアドレス並べ替えバッファ・スロット(ARBSLOT、好ましい実施例で数は28である)を含む。MQUEUE38bの中のメモリ命令は、メモリへの「ロード」および「格納」として分類されることができる。「ロード」は、データをメモリ(DCACHE24または主メモリ16)からレジスタへ転送する要求であり、「格納」は、データをレジスタからメモリへ転送する要求である。
【0024】
命令の実行の間に、第1のフェーズは、アドレスを計算するために、規定される数学的演算をオペランドに実行することを伴い、第2のフェーズは、計算されたアドレスに基づくデータについてメモリ/キャッシュをアクセスすることを伴う。MQUEUE38bは、任意の可能な順序で(好ましくはデータフロー形態で)各々の命令および実行の2つのフェーズ(アドレス計算およびメモリ/キャッシュ・アクセス)を実行する。命令が完了すると、その結果は、MQUEUEリネーム・レジスタ44bによって捕らえられ、命令は、MQUEUE38bで完了とマークされる。好ましい実施例において、MQUEUE38bは、1サイクルあたり4命令(各々32ビット)までをソート機構32から受け取り、参照矢印51bによって示されるように、1サイクルあたり2命令(32ビット)までを退去機構52へ転送する。
【0025】
より詳しくは、命令の実行の第1フェーズの間に、アドレスはアドレス計算器58によって生成される。アドレス計算器58は、リネーム・レジスタ44bから取り出されるオペランドに基づいてアドレスを計算し、参照矢印62で示されるように、MQUEUE38bの中の命令に対応するARBSLOT48へ(実または仮想)アドレスを渡す。命令による計算の制御は、図2の参照矢印64で示される。メモリの命令の実行の第2フェーズが遂行されるとき、計算されたアドレス(キャッシュ索引を含む)が、参照矢印54で示されるようにDCACHE24へ転送され、DCACHE24でロードまたは格納を達成する。好ましい実施例では、可能であれば2つのアドレスが、各々のサイクルにMQUEUE38bからDCACHE24へ転送される。DCACHE24がアドレスを処理すると、データ結果は、参照矢印56で示されるようにリネーム・レジスタ44bへ転送される。
【0026】
退去機構52は、参照矢印51a、51bで示されるように、待ち行列38a、38bの各々から実行された命令を受け取る(好ましくは1サイクルあたり2つの32ビット)。退去機構52は、命令の結果をアーキテクチャの状態に付する。ソフトウェア18(図1)は、退去機構52によってアーキテクチャの状態に変換されない結果には気付かない。退去機構52は、それぞれ参照矢印73、74で示されるように、命令の結果を命令の属性に依存して汎用レジスタ46および/または制御レジスタ72へ移動させることにより、ソフトウェア18によって規定されるプログラムの順序で待ち行列38a、38bの命令を退去させ、そして参照矢印76a、76bで示されるように、命令の結果がリネーム・レジスタ44a、44bから汎用レジスタ46へ渡される。
【0027】
退去機構52がDCACHE24のデータラインへの格納をもたらす命令を退去させるとき、退去機構52は、データラインをDCACHE24へ送り、ラインに対応するステータス・インジケータに「ダーティ」とマークし、ラインが変わり、主メモリ16でのラインを更新するために最終的に主メモリ16に送られなければならないことを示す。
【0028】
また退去機構52は、命令に関連する例外があるかどうか判断するための論理をもつ。例外とは、現在退去させている命令の1つに対応する特別な状況を示すフラグである。例外が起きた場合、退去機構52は、例外を示した命令の後に続く待ち行列38a、38b内のすべての命令を捨て、IFETCH28に、再実行のために未解決の命令をもう一度取り出させる、または特別な状況を扱うための特別なソフトウェアを取り出させる。
【0029】
アドレス集合システムおよび方法
ここで本発明のアドレス集合システム80が、図3を参照して記述される。アドレス集合システムに従って、プロセッサ14は、複数のアドレスを、DCACHE24を形成する対応する単一ポートの記憶装置のそれぞれのキャッシュ・バンクへ送るように構成される。好ましい実施例で、奇数メモリ・アドレスおよび偶数メモリ・アドレスは、各サイクルの間に同時にDCACHEの奇数および偶数キャッシュへ送られる。
【0030】
アドレス集合システム80は、図3に示されるように、主にMQUEUE38bに位置する資源を通って実現される。アドレス計算器28は加算器82a、82bを伴い、それらの各々は、リネーム・レジスタ44bから2つの入力オペランド84(図1の参照矢印45)を受け取る。加算器82a、82bは、それらそれぞれの入力オペランド84に演算して、アドレス62a、62bをそれぞれ生成する。
【0031】
この発明に従って構築されるMQUEUE38bは、1つが各々のアドレスを格納する複数のARBSLOT48を含む。好ましい実施例では、28のARBSLOT48があるが、任意の数が用いられることができる。奇数バンク・アービトレータ84aおよび偶数バンク・アービトレータ84bは両方とも、それぞれ矢印86a、86bで示されるように、ARBSLOT48の各々と連絡する。典型的に、2つのアドレスが各サイクルの間にMQUEUE38bによってDCACHE24へ送られ、好ましい実施例では、一方が奇数であり、他方が偶数である。奇数および偶数アドレスは、参照矢印88a、88bによって示されるようにそれぞれARBSLOT48から出力される、またはバイパス・パス92a、92bから出力される。本質的に、バイパス・パス92a、92bはそうするように制御されるとき、それぞれの入力62a、62b上のアドレスを直接DCACHE24へ送る。バイパス・パス92a、92bは、DCACHE24へ転送される準備をしている有効なアドレス(奇数または偶数キャッシュポートのいずれかに関する)がないときに利用されるので、サイクルが消費されず、高性能が達成される。
【0032】
MQUEUE38bの各々の命令は、その依存の状態がいったんクリアになると、そのアドレスを計算する。アドレスが計算されると、命令はこのステータスを示し、アドレスがDCACHE24へ送り出されるようにMQUEUE38bに要求する。裁定(arbitration)論理、すなわち命令に対応するアドレスが奇数であるか偶数であるかに依存する奇数バンク・アービトレータ84aまたは偶数バンク・アービトレータ84bはいずれも、アドレスをDCACHE24に送り出すときおよび送り出すかどうかを判断する。対応するアービトレータ84a、84bは、最も古いアドレス(奇数または偶数のいずれも)を選び、最も古いものを送り出す。
【0033】
MQUEUE38bの命令は、オペランドが利用可能になるとき、順不同に実行する。それゆえ、アドレスは順不同に計算され、MQUEUE38bによって受け取られるアドレスは順不同でありえる。しかし、MQUEUE38bからDCACHE24へ送られるアドレスの順序は、ソフトウェア18(図1)によって規定される順序で優先順位をつけられる。この実施例は、優先順位が最も古い命令に与えられるので性能の利点をもたらし、その形状は、アドレスをソフトウェア18(図1)へ最適にインターフェースする。
【0034】
さらに図3に示されるように、マルチプレクサ機構93は、MQUEUE38bからの直接のおよびバイパスのパスを扱う。マルチプレクサ機構93は、アドレス88a、92aおよび88b、92bをそれぞれMQUEUE38bから受け取るマルチプレクサ(MUX)94a、94bを含む。本質的に、マルチプレクサ94a、94bは、アドレスがARBSLOT48からDCACHE24に伝達されるか、または代替としてアドレスがバイパス・パス92a、92bからDCACHE24に伝達されるかを制御する。マルチプレクサ94a、94bは、参照矢印96で示されるように奇数または偶数アービトレータ84a、84bによって制御される。マルチプレクサ94a、94bは、参照矢印99a、99bで示されるように、選ばれたアドレスをそれぞれの奇数および偶数バンク98a、98bへ転送する。典型的な演算で、奇数アドレスおよび偶数アドレスは、1サイクルの間にDCACHE24へ転送される。時には奇数または偶数アドレスのどちらかのみ利用可能であり、その場合、1つの奇数または偶数アドレスだけが特定のサイクルの間にDCACHE24へ転送される。しかし、上述の筋書きはまれである。最後に、マルチプレクサ94a、94bは、DCACHE24のポートを要求するARBSLOT48がないときにバイパス・パス92a、92bを選ぶように制御される。
【0035】
アドレスを奇数および偶数組にソートし、アービトレータ84a、84bに関する要求を生成するための、各々のARBSLOT48に関連する論理が、図4に明らかにされる。図4を参照して、各々のアドレスは、ARBSLOTレジスタ104に格納される。各々のアドレスは、DCACHE24にアクセスするためのキャッシュ索引101、1つまたは複数の奇数/偶数(O/E)ビット102、DCACHE24と相対的なバイト・オフセットを構成する複数のビット103を含む。典型的に、キャッシュがアクセスされるとき、バイト・オフセット103は無視される。上述の要素は、好ましい実施例において連続している。
【0036】
各々のARBSLOT48は、レジスタ104のO/Eビット102を調べて、ミスに従属する(dependent-on-miss、DM)入力114の反転(〜DM)と、キャッシュ・アドレス有効入力(CA_VALID)116と、アービトレータ84aについて奇数要求107またはアービトレータ84bについて偶数要求109を導出する、またはどちらも導出しないためのキャッシュ未決定入力(CP)118とを受け取る。アーキテクチャに関して、ARBSLOT48の論理は、DM入力から〜DMを生成するためのインバータ112、O/Eビット102から〜O/Eを生成するためのインバータ113、奇数要求を生成するためのAND論理106、偶数要求109を生成するためのAND論理108を含む。奇数および偶数の要求107、109は、それぞれ奇数および偶数アービトレータ84a、84bへ送られる(図3)。
【0037】
AND論理106への入力は、O/Eビット102、信号〜DM114'、このARBSLOT48レスが有効アドレスを含むか含まないかを示す信号CA_VALID116、アドレスがDCACHE24へ送られる必要があるかないかを示す信号CP118である。信号CA_VALID116およびCP118は両方とも、生成される要求107、109について順にアサートされなければならない。ARBSLOT48が、DCACHE24にはないがすでに主メモリ16(図1)から要求されているデータを現在必要とするとき、DM入力114がアサートされる(〜DMはアサートから外される(deasserted))。このミスデータに従属するすべてのARBSLOT48は、アサートされるDM入力114を与えられ、対応するARBSLOT48は、主メモリ16からデータを要求することを控える。例として、DM入力114を生成するために利用されうる回路は、この発明者によって、同日に出願されている「Miss Tracking System And Method」というタイトルの同時継続出願特許の明細書に詳細に記述されている。
【0038】
偶数要求109を生成するAND論理108は、〜O/E102、〜DM114'、CA_VALID116およびCP118を受け取る。上述の信号すべてがアサートされるとき、AND論理108は、偶数アービトレータ84bについて偶数要求109を生成する。
【0039】
各々の奇数および偶数バンク・アービトレータ84a、84b(図3)の可能な実現に関連する特定の論理が、図5ないし図8を参照して詳細に述べられる。簡潔にするために、アービトレータ84a、84bのうちの一方だけに関する論理が、図5ないし図7に示され、この後に記述されるが、論理は他方に関しても大体同じであることが理解されなければならない。
【0040】
好ましい実施例で、図5のアービトレータ84は、MQUEUE38b内に位置する最も古い命令を判断し、送り出すように設計される。ARBSLOT48はそれぞれ、1つの要求(REQ[27:0]のうちの1つ)を各々のアービトレータ84に提供する。これらの要求REQ[27:0]に基づいて、アービトレータ84(奇数または偶数)は、各サイクルの間に1つのARBSLOT48(奇数または偶数)にのみアドレスを送り出す能力を許可する。この点で、アービトレータ84は、ARBSLOT48にそれぞれGRANT[27:0]を与える。
【0041】
アーキテクチャにおいて、図5に示されるように、各々のアービトレータ84は、最も古い8要求のグループ(すなわちREQ[27:24]、REQ[23:16]、REQ[15:8]、REQ[7:0]のうちの1つ。好ましい実施例ではARBSLOT48および命令は28しかないので、4番目のグループは4しかもたないことに注意されたい)を判断するための最も古い論理121を含む。最も古い論理121は、4つの退去ポインタRET[25, 17, 9, 1]を受け取り、参照矢印122で示されるように、1つがそれぞれの8要求のグループに対応する4つの信号OLD[3:0]を出力する。退去ポインタRET[27:0]は、退去すべき次の2命令が位置するところを示す。所与の時間に、上述の退去ポインタのうち2つがアサートされ、それによって最も古い要求REQ[27:0]を示す。本質的に、退去ポインタRET[27:0]は、アサートされる変数(「1」)を含むチェーンの中の2つのラッチをもつ循環シフト・チェーンから生成され、それら退去ポインタの各々は、関連するMQUEUE命令が退去するときは必ず、アサートから外される変数(「0」)へ移行する。
【0042】
下位完了(low done)論理124は、最も古い要求のグループの最初の半分が送り出しを完了したかどうか判断する。例えば、要求REQ[7:0]が最も古いグループであると仮定する。この筋書きで、下位完了論理124は、要求REQ[3:0]がすでに退去しているかどうか判断する。下位完了論理124は、それに入力される入力退去ポインタRET[25, 21, 17, 13, 9, 5, 1]に基づいて、参照矢印126で示されるように、この情報を示す1つの信号(LOW_DONE)を出力する。
【0043】
各々の4要求のグループ(すなわちREQ[27:24, 23:20, 19:16, 15:12, 11:8, 7:4, 3:0]は、グループに集められ、OR論理へ送られる。簡潔にするために、最初の2つの4要求のグループ([REQ[7:4, 3:0])のみ図5に示される。図示されるように、参照番号131-134、136-139で示される各々の4要求のグループ(REQ[7:4、3:0])は、それぞれOR論理141、142へ伝達され、参照数字143、144で示されるように対応する信号REQOR[0]、REQOR[1]を生成する。ゆえにOR演算は、REQOR[27:0]に基づいてREQOR[6:0]をもたらす。
【0044】
許可判断論理146は、REQ[27:0]に基づく信号OLD[3:0]122、LOW_DONE126、およびREQOR[6:0]を受け取る。上述の信号の論理状態に基づいて、許可判断論理146は、対応する許可信号GRANT[27:0]の1つをアサートすることにより、ARBSLOT48の1つからアドレスを送り出す。
【0045】
最も古い論理の好ましい実施例は、図6で明らかにされる。図6に示されるように、最も古い論理121は、退去ポインタRET[25, 17, 9, 1]に基づいて、どの8要求のグループが最も古いかを示すために1ビットを設定する循環変化チェーン161を実現する。チェーン161は、退去ポインタRET[1] 164によって作動し、最も古い信号OLD[0] 168を提供するマスター/スレーブ・ラッチ(M/S)166に接続されるトランジスタ162と、退去ポインタRET[9] 174によって作動し、M/Sラッチ166と最も古い信号OLD[1] 178を提供するM/Sラッチ176の間に接続されるトランジスタ172と、退去ポインタRET[17] 184によって作動し、M/Sラッチ176と最も古い信号OLD[2] 188を提供するM/Sラッチ186の間に接続されるトランジスタ182と、退去ポインタRET[25] 194によって作動し、M/Sラッチ186と最も古い信号OLD[3] 198を生成するM/Sラッチ196の間に接続されるトランジスタ192とを含む。対応する参照数字164、174、184、194で示される退去ポインタRET[25, 17, 9, 1]は、退去すべき次の2命令が位置するところを示すことを思い出されたい。所与の時間に、OLD[3:0]の1つがアサートされ、最も古い8要求の組を示す。
【0046】
下位完了論理124の好ましい実施例は、図7に示される。図7を参照して、下位完了論理124は、それぞれの参照数字201-208によって示される退去ポインタRET[29, 25, 21, 17, 13, 9, 5, 1]の状態に基づいて、信号LOW_DONE126を生成する。下位完了論理124はラッチ211を含み、それは、その設定(SET)およびクリア(CLR)入力でそれぞれ退去ポインタRET[9,5] 201、202を受け取り、ワイヤ-OR出力126に接続されるソース216を持つトランジスタ214を作動させる出力212を生成する。ラッチ221は、その設定およびクリア入力でそれぞれ退去ポインタRET[17, 13] 203、204を受け取り、ワイヤ-OR出力126に接続されるソース226をもつトランジスタ224を作動させる出力222を生成する。ラッチ231は、その設定およびクリア入力でそれぞれ退去ポインタRET[25, 21] 205、206を受け取り、ワイヤ-OR出力126に接続されるソース236をもつトランジスタ234を作動させる出力232を生成する。ラッチ241は、その設定およびクリア入力で退去ポインタRET[27, 1]207、208を受け取り、ワイヤ-OR出力126に接続されるソース246をもつトランジスタ244を作動させる出力242を生成する。前述の配置によって、下位完了論理124は、最も古い8のグループのどちらの半分がすでに退去しているか判断する。
【0047】
最も古い命令を識別する必要はなく、最も古い4命令の組を識別しさえすればよいことに留意されたい。最も古い命令と最も若い有効な命令の間には常にギャップがあり、この論理は必ずしも最も古い命令を選択する必要がないので、これで十分である。
【0048】
許可判断論理146(図5)を実現する好ましい実施例が、図8で詳細に明らかにされる。図8を参照すると、許可判断論理146は、入力OLD[3:0]、LOW_DONEおよびREQOR[6:0]を受け取る資格(qualify)論理252を含む。資格論理252は、図8に示されるように、上述の入力に基づいてブール方程式およびOR論理254、256を実現し、一連の資格信号QUAL[6:0]を生成する。簡潔にするために、最初の8要求REQ[7:0]についてのブール方程式と、参照数字258、259で示されるようにそれらの対応する結果の資格信号QUAL[1:0]のみが図8に示される。しかし、ブール方程式のパターンは、繰り返し行われる。資格信号QUAL[6:0]は、どの4要求のグループが、次の送り出し許可について注目されるかを示す。したがって、要求REQ[7:0]のケースでは、資格信号QUAL[1,0]は、どの4要求が(REQ[7:4]またはREQ[3:0]のどちらが)送り出しを許可するために次に注目されるべきか示す。
【0049】
さらに許可判断論理146は、複数のAND論理機構を含み、簡潔にするために参照数字261-268で示されるように、最初の8つだけが図示されている。最初の8つのAND論理機構261-268は、GRANT[7:0]を生成するために、資格信号QUAL[1:0]、REQ[7:0]および〜REQ[6:0]を評価する。
【0050】
より詳しくは、AND論理261は、資格信号QUAL[0]および要求REQ[0]を受け取り、それに基づいて、最初のARBSLOTが送り出すか否か判断する許可信号GRANT[0]を生成する。AND論理262は、要求REQ[1]、〜REQ[0]およびQUAL[0]を受け取り、参照数字152で示されるように、対応するARBSLOT48が送り出すときを判断するために対応するARBSLOT48に送られる許可信号GRANT[1]を生成する。AND論理263は、要求REQ[2]、〜REQ[1]、〜REQ[0]およびQUAL[0]を受け取り、それに基づいて、参照数字153で示されるように、対応するARBSLOT48が送り出すときを判断するために対応するARBSLOT48に送られる許可信号GRANT[2]を生成する。AND論理264は、REQ[3]、〜REQ[2]、〜REQ[1]、〜REQ[0]およびQUAL[0]を受け取り、それに基づいて、参照数字154で示されるように、対応するARBSLOT48が送り出すときを判断するために対応するARBSLOT48に送られる許可信号GRANT[3]をする。AND論理265は、REQ[4]およびQUAL[1]を受け取り、それに基づいて、参照数字155で示されるように、対応するARBSLOT48が送り出すときを判断するために、対応するARBSLOT48に送られる許可信号GRANT[4]を判断する。AND論理266は、REQ[5]、〜REQ[4]およびQUAL[1]を受け取り、それに基づいて、参照数字156で示されるように、対応するARBSLOT48が送り出すときを判断するために対応するARBSLOT48に送られる許可信号GRANT[5]を判断する。AND論理267は、REQ[6]、〜REQ[5]、〜REQ[4]、およびQUAL[1]を受け取り、それに基づいて、参照数字157で示されるように、対応するARBSLOT48が送り出すときを判断するために対応するARBSLOT48に送られる許可信号GRANT[6]を生成しする。AND論理268は、REQ[7]、〜REQ[6]、〜REQ[5]、〜REQ[4]およびQUAL[1]を受け取り、それに基づいて、参照数字158で示されるように、対応するARBSLOT48がそのアドレスを送り出すときを判断するために対応するARBSLOT48に送られる許可信号GRANT[7]を生成する。
【0051】
上述した発明の好ましい実施例に、多くの変形や修正が行われることができる。例として、プロセッサ14の待ち行列38a、38bは、予約ステーションを含む適当な命令並べ替え機構によって置き換えられることができる。
【0052】
本発明は例として次の実施態様を含む。
(1)順不同に命令を実行するコンピュータ(11)のシステム(80)であって、
複数のバンク(98a、98b)をもつデータ・キャッシュ(24)と、
1プロセッサ・サイクルの間に、複数のアドレスを、対応する複数のキャッシュ・バンク(98a、98b)へ同時に送られるように構成されるプロセッサ(14)と、
を備える上記システム。
(2)上記アドレスが、奇数バンク(98a)および偶数バンク(98b)に指向される奇数データ・アドレスおよび偶数データ・アドレスをもつ、
上記(1)のシステム(80)。
(3)順不同に命令を実行し、上記順不同の命令に従って上記データ・アドレスを受け取る、上記プロセッサ(14)に関連する手段(48)を備える、
上記(1)のシステム(80)。
【0053】
(4)上記プロセッサ(14)は、
命令キャッシュ(26)と、
上記命令キャッシュ(26)から命令を取り出す命令フェッチ機構(28)と、
上記命令フェッチ機構(28)から命令を受け取るように構成され、上記命令を算術命令およびメモリ命令にソートするように構成されるソート機構(32)と、
各々がアドレスを維持するように、上記アドレスが奇数であるか偶数であるか判断するように、そして上記アドレスが奇数であるか偶数であるかに依存してそれぞれの奇数および偶数要求(86a、86b)を生成するように構成される、複数のアドレス並べ替えバッファ・スロット(48)をもつ、上記ソート機構(32)から上記メモリ命令を受け取るように構成される上記メモリ待ち行列(38b)と、
上記奇数および偶数要求(86a、86b)をそれぞれ受け取るように、またデータを上記データキャッシュ(24)へ出力するために上記アドレス並べ替えバッファ(48)を制御するように構成される奇数および偶数バンク・アービトレータと、
を備える、上記(2)のシステム(80)。
【0054】
(5)上記キャッシュが複数の単一ポートのランダム・アクセス・メモリを含む、上記(2)のシステム(80)。
(6)上記奇数および偶数バンク・アービトレータは、上記奇数および偶数の命令のうちのどれがそれぞれ最も早く受け取られるかを判断するように構成され、また上記最も早い奇数および偶数の命令が上記データキャッシュ(24)に一緒に送られるように構成される、
上記(4)のシステム(80)。
【0055】
(7)プロセッサ(14)でデータ・アドレスを処理し、プロセッサ(14)からデータ・キャッシュ(24)へのデータ・アドレス(99a、99b)のスループットを増加させる方法(80)であって、
上記キャッシュに複数の独立したバンク(98a、98b)を維持するステップと、
上記プロセッサ(14)でデータ・アドレス(62a、62b)を集めるステップと、
各々の上記データ・アドレス(99a、99b)を上記バンク(98a、98b)の特定の一つに割り当てるステップと、
上記プロセッサ(14)の1サイクルの間に、アドレス(99a、99b)を上記バンク(98a、98b)の各々に伝達するステップと、
を含む上記方法(80)。
【0056】
(8)さらに、
上記データ・アドレス(99a、99b)を上記プロセッサ(14)の奇数および偶数データ・アドレス(99a、99b)へソートするステップと、
上記プロセッサ(14)の上記1サイクルの間に、奇数データ・アドレス(99a)、その後に偶数データ・アドレス(99b)を伝達するステップと、
を含む、上記(7)の方法。
(9)さらに、
上記キャッシュ(24)の各々の上記バンク(98a、98b)について単一ポートのランダム・アクセス・メモリを利用するステップと、
を含む、
上記(7)の方法(80)。
(10)さらに、
順不同に命令を実行するステップと、
上記順不同の命令に従って上記データ・アドレス(99a、99b)を計算するステップと、
を含む、上記(7)の方法(80)。
【0057】
【発明の効果】
本発明によると、プロセッサからデータ・キャッシュへの複数のアクセスを安価に実現し、データのスループットを高めることにより、順不同に命令を実行するプロセッサの性能を改善することができる。
【図面の簡単な説明】
【図1】本発明のアドレス集合システムを実現するコンピュータを示すブロック図。
【図2】図1のプロセッサの命令フェッチ/実行システムおよびその図1のプロセッサに関連するデータキャッシュ(DCACHE)との関係を示すブロック図。
【図3】図1の新しいアドレス集合システムの可能な実施例を示すブロック図。
【図4】アドレスを奇数および偶数の組にソートするための、図3の各々のアドレス並べ替えバッファ・スロット(ARBSLOT)の論理の可能な実施例を示すブロック図。
【図5】図3のアービトレータの可能な実施例を示す、アーキテクチャ全体の高レベルのブロック図。
【図6】図5の最も古い論理のブロック図。
【図7】図5の下位完了論理のブロック図。
【図8】図5の許可判断論理のブロック図。
【図9】図5の許可判断論理のブロック図。
【図10】図5の許可判断論理のブロック図。
【符号の説明】
24 データ・キャッシュ(DCASH)
26 命令キャッシュ(ICASHE)
29 命令フェッチ機構(IFETCH)
32 ソート機構(SORT)
38b メモリ待ち行列(MQUEUE)
48 アドレス並べ替えバッファ・スロット(ARBSLOT)
84a 奇数アービトレータ
84b 偶数アービトレータ
86a 奇数要求
86b 偶数要求
98a 奇数バンク
98b 偶数バンク

Claims (3)

  1. 順不同に命令を実行するコンピュータのシステムであって、
    奇数バンクと偶数バンクをもつデータ・キャッシュと、
    1プロセッサ・サイクルの間に、対応する複数のキャッシュ・バンクへ複数のアドレスを同時に送るように構成されるプロセッサと、を有し、
    該プロセッサは、
    命令を取り出すよう構成された命令フェッチ機構と、
    前記命令フェッチ機構から命令を受け取るように構成され、前記命令を算術命令およびメモリ命令にソートするように構成されるソート機構と、を備えており、
    前記ソート機構から前記メモリ命令を受け取るように構成される待ち行列と、を有し、
    該待ち行列は、
    各々がアドレスを維持するように、前記アドレスが奇数であるか偶数であるか判断するように、そして前記アドレスが奇数であるか偶数であるかに依存してそれぞれの奇数および偶数要求を生成するように構成される、複数のアドレス並べ替えバッファ・スロットと、
    前記奇数および偶数要求をそれぞれ受け取るように、また奇数および偶数アドレスを前記データキャッシュへ出力するために前記アドレス並べ替えバッファ・スロットを制御するように構成されるバンク・アービトレーション機構と、を備える、
    順不同に命令を実行するコンピュータのシステム。
  2. 順不同に命令を実行するコンピュータの性能を向上するシステムであって、
    奇数バンクと偶数バンクをもつデータ・キャッシュと、
    プロセッサと、を有し、
    該プロセッサは、
    命令を取り出す命令フェッチ手段と、
    前記命令フェッチ手段から命令を受け取り、前記命令を算術命令およびメモリ命令にソートするソート手段と、
    前記ソート手段から前記メモリ命令を受け取る待ち行列手段と、を備えており、
    該待ち行列手段は、
    各々がアドレスを維持するように、前記アドレスが奇数であるか偶数であるか判断するように、そして前記アドレスが奇数であるか偶数であるかに依存してそれぞれの奇数および偶数要求を生成するように構成される、複数のアドレス並べ替えバッファ・スロットと、
    前記奇数および偶数要求をそれぞれ受け取るように、また前記アドレスを1プロセッサ・サイクルの間に前記データキャッシュの各バンクへ出力するために前記アドレス並べ替えバッファスロットを制御するように構成されるバンク・アービトレーション手段と、を備える、
    順不同に命令を実行するコンピュータの性能を向上するシステム。
  3. 順不同に命令を実行するコンピュータのシステムであって、
    複数のバンクをもつデータ・キャッシュと、
    1プロセッサ・サイクルの間に、対応する複数のキャッシュ・バンクへ複数のアドレスを同時に送るように構成されるプロセッサであって、該アドレスが、奇数バンクおよび偶数バンクに指向される奇数データ・アドレスおよび偶数データ・アドレスを有する、プロセッサと、
    命令キャッシュから該命令を取り出す命令フェッチ機構と、
    前記命令フェッチ機構から命令を受け取るように構成され、前記命令を算術命令およびメモリ命令にソートするように構成されるソート機構と、
    前記ソート機構から前記メモリ命令を受け取るように構成されるメモリ待ち行列と、を有し、
    該メモリ待ち行列は、
    各々がアドレスを維持するように、前記アドレスが奇数であるか偶数であるか判断するように、そして前記アドレスが奇数であるか偶数であるかに依存してそれぞれの奇数および偶数要求を生成するように構成される、複数のアドレス並べ替えバッファ・スロットと、
    前記奇数および偶数要求をそれぞれ受け取るように、またデータを前記データキャッシュへ出力するために前記アドレス並べ替えバッファスロットを制御するように構成される奇数および偶数バンク・アービトレータと、を備える、
    順不同に命令を実行するコンピュータのシステム。
JP01234497A 1996-03-01 1997-01-27 順不同に命令を実行するコンピュータのためのシステム Expired - Fee Related JP3876033B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US609,821 1996-03-01
US08/609,821 US5761713A (en) 1996-03-01 1996-03-01 Address aggregation system and method for increasing throughput to a multi-banked data cache from a processor by concurrently forwarding an address to each bank

Publications (2)

Publication Number Publication Date
JPH09244951A JPH09244951A (ja) 1997-09-19
JP3876033B2 true JP3876033B2 (ja) 2007-01-31

Family

ID=24442487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01234497A Expired - Fee Related JP3876033B2 (ja) 1996-03-01 1997-01-27 順不同に命令を実行するコンピュータのためのシステム

Country Status (4)

Country Link
US (1) US5761713A (ja)
JP (1) JP3876033B2 (ja)
DE (1) DE19650520A1 (ja)
GB (1) GB2310741B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895469A (en) * 1996-03-08 1999-04-20 Vlsi Technology, Inc. System for reducing access times for retrieving audio samples and method therefor
US5752259A (en) * 1996-03-26 1998-05-12 Advanced Micro Devices, Inc. Instruction cache configured to provide instructions to a microprocessor having a clock cycle time less than a cache access time of said instruction cache
US6016532A (en) * 1997-06-27 2000-01-18 Sun Microsystems, Inc. Method for handling data cache misses using help instructions
US5878252A (en) * 1997-06-27 1999-03-02 Sun Microsystems, Inc. Microprocessor configured to generate help instructions for performing data cache fills
US6101577A (en) * 1997-09-15 2000-08-08 Advanced Micro Devices, Inc. Pipelined instruction cache and branch prediction mechanism therefor
US6892294B1 (en) 2000-02-03 2005-05-10 Hewlett-Packard Development Company, L.P. Identifying execution ready instructions and allocating ports associated with execution resources in an out-of-order processor
US7664918B2 (en) * 2006-07-24 2010-02-16 Sun Microsystems, Inc. Handling fetch requests that return out-of-order at an instruction fetch unit
US8386753B2 (en) * 2009-04-14 2013-02-26 International Business Machines Corporation Completion arbitration for more than two threads based on resource limitations
US9158541B2 (en) * 2010-11-03 2015-10-13 Apple Inc. Register renamer that handles multiple register sizes aliased to the same storage locations

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3699533A (en) * 1970-10-29 1972-10-17 Rca Corp Memory system including buffer memories
US4381541A (en) * 1980-08-28 1983-04-26 Sperry Corporation Buffer memory referencing system for two data words
EP0055579B1 (en) * 1980-12-31 1991-03-20 Bull HN Information Systems Inc. Cache memories with double word access
US4439827A (en) * 1981-12-28 1984-03-27 Raytheon Company Dual fetch microsequencer
US4724518A (en) * 1983-07-29 1988-02-09 Hewlett-Packard Company Odd/even storage in cache memory
US4818932A (en) * 1986-09-25 1989-04-04 Tektronix, Inc. Concurrent memory access system
US4918587A (en) * 1987-12-11 1990-04-17 Ncr Corporation Prefetch circuit for a computer memory subject to consecutive addressing
CA2000031A1 (en) * 1988-10-20 1990-04-20 Robert W. Horst Cache memory supporting fast unaligned access
US5342990A (en) * 1990-01-05 1994-08-30 E-Mu Systems, Inc. Digital sampling instrument employing cache-memory
JPH0437935A (ja) * 1990-06-01 1992-02-07 Hitachi Ltd キャッシュメモリを有する計算機
US5434989A (en) * 1991-02-19 1995-07-18 Matsushita Electric Industrial Co., Ltd. Cache memory for efficient access with address selectors
AU3330793A (en) * 1991-12-23 1993-07-28 Intel Corporation Interleaved cache for multiple accesses per clock in a microprocessor
US5420997A (en) * 1992-01-02 1995-05-30 Browning; Gary A. Memory having concurrent read and writing from different addresses
JP2549256B2 (ja) * 1992-12-01 1996-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 浮動小数点プロセッサへデータを転送する方法及び装置
JPH06242951A (ja) * 1992-12-22 1994-09-02 Toshiba Corp キャッシュメモリシステム
US5467473A (en) * 1993-01-08 1995-11-14 International Business Machines Corporation Out of order instruction load and store comparison
JPH0756815A (ja) * 1993-07-28 1995-03-03 Internatl Business Mach Corp <Ibm> キャッシュ動作方法及びキャッシュ

Also Published As

Publication number Publication date
GB2310741B (en) 2000-09-20
GB9702534D0 (en) 1997-03-26
JPH09244951A (ja) 1997-09-19
GB2310741A (en) 1997-09-03
DE19650520A1 (de) 1997-09-04
US5761713A (en) 1998-06-02

Similar Documents

Publication Publication Date Title
US5809275A (en) Store-to-load hazard resolution system and method for a processor that executes instructions out of order
CN101221493B (zh) 用于并行处理的方法和设备
CN100367257C (zh) 并行处理器体系结构的sdram控制器
JP4045062B2 (ja) ロード命令を実行する方法、プロセッサ、およびシステム
US5251306A (en) Apparatus for controlling execution of a program in a computing device
CA2383528C (en) Branch instruction for processor
JP3509067B2 (ja) ストア命令転送方法およびプロセッサ
JP3876034B2 (ja) 主メモリへの帯域幅を保持するシステム
JPH10124391A (ja) マージされたストア・オペレーションによってストア集束を行うためのプロセッサ及び方法
WO2001016702A1 (en) Register set used in multithreaded parallel processor architecture
IE990754A1 (en) An apparatus for software initiated prefetch and method therefor
US6301654B1 (en) System and method for permitting out-of-order execution of load and store instructions
US6324640B1 (en) System and method for dispatching groups of instructions using pipelined register renaming
KR19990072272A (ko) 로드/로드검출및재정렬방법
US20040216103A1 (en) Mechanism for detecting and handling a starvation of a thread in a multithreading processor environment
JP3876033B2 (ja) 順不同に命令を実行するコンピュータのためのシステム
JPH02239331A (ja) データ処理システム及びその命令実行を促進する方法
US5802340A (en) Method and system of executing speculative store instructions in a parallel processing computer system
US6240507B1 (en) Mechanism for multiple register renaming and method therefor
US6209073B1 (en) System and method for interlocking barrier operations in load and store queues
US5894569A (en) Method and system for back-end gathering of store instructions within a data-processing system
US5926645A (en) Method and system for enabling multiple store instruction completions in a processing system
US7191309B1 (en) Double shift instruction for micro engine used in multithreaded parallel processor architecture
US5758117A (en) Method and system for efficiently utilizing rename buffers to reduce dispatch unit stalls in a superscalar processor
US8683181B2 (en) Processor and method for distributing load among plural pipeline units

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060718

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061030

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees