JP2021051727A

JP2021051727A - グラフアプリケーション内の圧縮されたリストに効率的にアクセスするための間接参照のロード及びストアへのｉｓａサポートのシステム及び方法

Info

Publication number: JP2021051727A
Application number: JP2020109873A
Authority: JP
Inventors: パロウスキーロバート; Pawlowski Robert; ハーガンシュミテルスコット; Hagan Schmittel Scott; フライマンジョシュア; Fryman Joshua; ヘイルマンウィム; Heirman Wim; ハワードジェイソン; Howard Jason; モアアンキット; More Ankit; スミスシャデン; Smith Shaden; クラインスコット; Cline Scott
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-09-23
Filing date: 2020-06-25
Publication date: 2021-04-01
Also published as: US10929132B1; CN112540791A; EP3796158B1; EP3796158A1

Abstract

【課題】グラフアプリケーション内の圧縮されたグラフィックリストに効率的にアクセスするマルチレベル間接参照ロード及びストア単一命令を提供する。【解決手段】パイプライン間接参照システム１００は、Ｌｏａｄ．ｉｎｄ単一命令を実行する。第１のデータ位置１１５と関連する第１の演算エンジン１１０は、ロードストアキュー１０５から間接参照要求ＩＮＤ−ＩＮＤ−ＬＤを受信し、第２の演算エンジン１２０と関連する第２のデータ位置１２５を計算する。第２の演算エンジン１２０は、間接参照要求ＩＮＤ−ＬＤに応答して、第３の演算エンジン１３０と関連する第３のデータ位置１３５を計算する。さらに、第３の演算エンジン１３０は、間接参照要求ＯＰ−ｌｏａｄに応答して、第３のデータ位置１３５からデータを受信して、ロードストアキュー１０５に受信データをロードする。以上により圧縮されたグラフィックリストへのアクセスを実行する。【選択図】図１

Description

本発明の分野は、概して、コンピュータプロセッサアーキテクチャに関し、より具体的には、グラフアプリケーション内の圧縮されたリストに効率的にアクセスするための間接参照のロード及びストアのシステム及び方法である。

大きな疎行列は、圧縮行格納方式（ＣＳＲ）フォーマットに圧縮される。ＣＳＲフォーマットは、疎行列における０でないエントリのベクトル化されたリストである。ＣＳＲフォーマットで表された疎行列は、３つの１次元のアレイを有する。対象の位置を発見する前に、各間接参照のロード又はストアは、予め構築された隣接するインデックスの読み込みがメモリ内のリストから実行されて、対象の値の位置を発見すべく隣接するインデックスの値がデリファレンスされて、ロード又はストア要求がその最終的な値に送信されるという点で、性能オーバーヘッドを増加させる。

グラフアプリケーション内の圧縮されたリストに効率的にアクセスする間接参照のロード及びストアをサポートすることによって、プロセッサの必要性、例えば、複数の演算を単一の命令に組み合わせる能力を提供すること、を満たすのに役立ち得、これは、総レイテンシを減らし、コード効率を高める。

本発明が例示する目的で図示され、添付図面の図に限定されない。添付図面において、同様の参照符号は、類似の要素を示す。

本発明の一実施形態による、多重間接参照に基づくパイプライン間接参照システムアーキテクチャのブロック図を示す。

本発明の一実施形態による、単一間接参照に基づくパイプライン間接参照システムのブロック図を示す。

本明細書で詳述されるような、圧縮されたグラフィックリストにアクセスする方法の複数の実施形態の例を示す。

本明細書で詳述されるいくつかの実施形態による、３つの演算に対する命令の定義を示す表を示す。

本発明の一実施形態による、二重間接参照ロードを実行する例示的な疑似コードを示す。

本発明の一実施形態による、例示的なｂａｓｅ＋ｏｆｆｓｅｔアドレスフォーマットを示す。

本発明の複数の実施形態による、汎用ベクトル向け命令フォーマット及びその命令テンプレートを示すブロック図である。本発明の複数の実施形態による、汎用ベクトル向け命令フォーマット及びその命令テンプレートを示すブロック図である。

本発明の複数の実施形態による、例示的な特定ベクトル向け命令フォーマットを示す。本発明の複数の実施形態による、例示的な特定ベクトル向け命令フォーマットを示す。本発明の複数の実施形態による、例示的な特定ベクトル向け命令フォーマットを示す。本発明の複数の実施形態による、例示的な特定ベクトル向け命令フォーマットを示す。

本発明の一実施形態による、レジスタアーキテクチャのブロック図である。

本発明の複数の実施形態による、例示的なインオーダパイプライン及び例示的なレジスタリネーム、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

本発明の複数の実施形態による、プロセッサに含まれる、例示的な実施形態のインオーダアーキテクチャコア及び例示的なレジスタリネーム、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

より具体的な例示的インオーダコアアーキテクチャのブロック図を示し、そのコアはチップ内の（同じタイプ及び／又は異なるタイプの他のコアを含む）いくつかのロジックブロックのうちの１つである。より具体的な例示的インオーダコアアーキテクチャのブロック図を示し、そのコアはチップ内の（同じタイプ及び／又は異なるタイプの他のコアを含む）いくつかのロジックブロックのうちの１つである。

本発明の複数の実施形態による、１つより多くのコアを有し得、統合メモリコントローラを有し得、統合グラフィックを有し得る、プロセッサ１７００のブロック図である。

例示的なコンピュータアーキテクチャのブロック図である。例示的なコンピュータアーキテクチャのブロック図である。例示的なコンピュータアーキテクチャのブロック図である。例示的なコンピュータアーキテクチャのブロック図である。

本発明の複数の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令に変換するソフトウェア命令コンバータの使用を対比するブロック図である。

以下の説明において、多くの具体的な詳細が明記される。しかしながら、本発明の複数の実施形態がこれらの具体的な詳細なしに実施され得ることが理解される。他の例では、この説明の理解を曖昧にしないために、周知の回路、構造、及び技術が詳細に示されていない。

本明細書における「一実施形態」、「実施形態」、「例示的な実施形態」等への言及は、説明される実施形態が特定の機能、構造、又は特性を含み得るが、あらゆる実施形態が必ずしも特定の機能、構造、又は特性を含まなくてもよいことを示す。さらに、そのような文言が必ずしも同一の実施形態を指すものではない。さらに、特定の機能、構造、又は特性が実施形態に関連して説明されるとき、明示的に説明されているか否かに関わらず、他の複数の実施形態に関連しているそのような機能、構造、又は特性に影響を与えることは、当業者の知識の範囲内であると考えられる。

パイプライン間接参照システムは、リストデータ構造、グラフアプリケーション内の圧縮されたリスト（例えば、圧縮されたグラフィックリスト）、又は任意の他の適切なリストにアクセスするシステムである。圧縮されたリストは、間接参照要求を介してアクセスされ得る。本明細書で使用されるように、用語「間接参照要求」は、間接参照のロード演算、間接参照のストア演算、及び／又はストア確認応答を含むグラフアプリケーション内の圧縮されたリストにアクセスすることへの要求を指すのに使用され得る。

本明細書で説明されるように、圧縮されたリストへの効率的なアクセスのために間接参照のロード及びストアをサポートすることは、複数の演算を単一の命令に結合し、コード効率を高めるリモートアドレス計算をサポートすることによって、性能改善を提供する。さらに、本明細書で説明されるように、間接参照のロード及びストアをサポートすることは、演算ごとのレイテンシを減らしつつ、メモリアクセスごとのラウンドトリップレイテンシを取り除く。

例えば、パイプライン間接参照システムは、圧縮されたグラフィックリストにアクセスする単一の命令をフェッチして復号することから開始する。圧縮されたグラフィックリストが、ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信することによって、アクセスされる。第２の演算エンジンと関連している第２のデータ位置が、第１の演算エンジンによって計算される。第３の演算エンジンと関連している第３のデータ位置が第２の演算エンジンによって計算され、データ応答が第３のデータ位置からデータを受信することに応答して、ロードストアキューに提供される。

図１は、本発明の一実施形態による、多重間接参照を有するパイプライン間接参照システムアーキテクチャのブロック図を示す。示されるように、パイプライン間接参照システム１００は、ロードストアキュー（例えば、ＬＳＱ１０５）、１又は複数の演算エンジン（例えば、演算エンジン１１０、１２０、及び１３０）、１又は複数のデータ位置（例えば、データ位置１１５、１２５、及び１３５）、並びに１又は複数の追加のシステム、コンポーネント等と通信可能に、且つ、動作可能に連結されるパイプライン１０２を含む。パイプライン間接参照システム１００は、図１に示されるものより多くの、少ない、及び／又は異なるコンポーネント／システムを含み得、その結果、本開示の原理、方法、システム、処理等は、任意の他パイプライン間接参照システム構成と共に適用可能であることが意図されていることが理解されるべきである。本開示の原理は、当該原理が様々な他の用途にも適用され得ることを企図することも理解されるべきである。

示されるように、パイプライン間接参照システム１００は、パイプライン１０２を含む。単一の命令（例えば、ｌｏａｄ．ｉｎｄ命令、ｓｔｏｒｅ．ｉｎｄ命令等）が、パイプライン１０２でパイプライン間接参照システム１００に発行される。いくつかの実施形態において、間接参照レベルは、間接参照のロード演算及び／又は間接参照のストア演算に対して判断され得る。間接参照レベルは、マルチレベルの間接参照（例えば、二重間接参照）、又は単一レベルの間接参照（例えば、単一間接参照）を示し得る。本明細書で説明されるように、間接参照レベル（例えば、ＬＥＶ−ＩＮＤ修飾子）が１に設定される場合、その後、最終的なデータ位置のアドレスをデリファレンスする間接参照要求（例えば、間接参照ロード又は間接参照ストア要求）が、少なくとも２つのデータ位置（例えば、次のリスト位置）に提供され得る。

これに関して、ＬＳＱ１０５は、演算エンジン１１０に間接参照要求（例えば、ＩＮＤ−ＩＮＤ−ＬＤパケット等の二重間接参照）を含む単一の命令を発行する。本明細書で使用されるように、用語「ロードストアキュー（ＬＳＱ）」は、１又は複数の命令と関連しているデータ及び／又は情報をストアするキューを参照するのに使用され得る。いくつかの実施形態において、ＬＳＱ１０５にストアされたデータは、命令、１又は複数の演算エンジン（例えば、演算エンジン１１０、１２０、１３０等）、又は任意の他の適切なコンポーネント間で渡され得、又は別の方法で提供され得る。演算エンジン（例えば、演算エンジン１１０）がリストメモリの近くに配置され得る。

間接参照要求は、データ位置１１５から第１のポインタを読み出すよう演算エンジン１１０に命令し得る。本明細書で使用されるように、用語「データ位置」が、スクラッチパッドメモリ、ダブルデータレート（ＤＤＲ）メモリ、又は任意の他の適切なストレージ位置を参照するのに使用され得る。データ位置１１５からの第１のポインタは、第２のポインタの位置を判断するのに利用され得る。

次に、演算エンジン１１０は、次のポインタ位置（例えば、本明細書の図４の表内で参照されるものとして、ｒ３等のレジスタ）を計算し得、又は別の方法で判断し得る。例えば、演算エンジン１１０は、次のポインタ位置が演算エンジン１２０と関連しているデータ位置１２５であると判断し得る。演算エンジン１１０は、演算エンジン１２０に間接参照要求を送信し得、渡し得、又はそうでなければ提供し得る。例えば、演算エンジン１１０は、演算エンジン１２０に間接参照要求（例えば、ＩＮＤ−ＬＤパケット）を送信し得、又は別の方法で提供し得る。いくつかの実施形態において、演算エンジン１１０は、演算エンジン１２０に提供するために、間接参照要求（例えば、これに限定されないが、ＩＮＤ−ＬＤパケット等の第２の間接参照要求）を生成し得る。間接参照要求は、（図４を参照して本明細書で説明されるものとして）データ位置１２５でポインタを計算するｒ４等の第２のレジスタを含み得る。

データ位置１２５で、演算エンジン１２０は、メモリからポインタを読み出し得、次のポインタ位置がデータ位置１３５であることを判断するのにレジスタ値を使用してポインタ計算を実行し得る。演算エンジン１２０は、その後、間接参照要求（例えば、演算ロード要求）をデータ位置１３５に送信し、これは、データ位置１３５で演算エンジン１３０によって読み出され、又は別の方法で受信される。

データが、間接参照要求に応答してデータ位置１３５から演算エンジン１３０によって読み込まれ、データ応答（例えば、データ値、データ確認応答、又はこれらの組み合わせ）がＬＳＱ１０５に提供（例えば、送信）される。

図２は、本発明の一実施形態による、パイプライン間接参照システムアーキテクチャのブロック図を示す。単一の命令（例えば、ｌｏａｄ．ｉｎｄ命令）が、パイプライン１０２でパイプライン間接参照システム１００に発行される。ＬＳＱ１０５は、演算エンジン２１０に提供される間接参照要求（例えば、ＩＮＤ−ＬＤパケット等の単一間接参照）を含む単一の命令を発行する。間接参照レベル（例えば、ＬＥＶ−ＩＮＤ修飾子）が０に設定される場合、ストア又はロードがデータ位置（例えば、データ位置２１５及び／又は２２５等のデリファレンスされた位置）に提供されて、データ応答（例えば、データ値、データ確認応答、又はこれらの組み合わせ）がＬＳＱ１０５にリターンされる。

したがって、演算エンジン２１０は、間接参照要求（例えば、ＩＮＤ−ＬＤパケット）を受信し得る。データ位置２１５で、演算エンジン２１０は、メモリからポインタを読み出し得、次のポインタ位置がデータ位置２２５であることを判断するのにレジスタ値を使用してポインタ計算を実行し得る。次に、演算エンジン２１０は、演算エンジン２２０に間接参照要求を送信し得、又は別の方法で提供し得る。例えば、演算エンジン２１０は、データ位置２２５に間接参照要求（例えば、演算ロード要求）を送信し得、又は別の方法で提供し得、これは、データ位置２２５で演算エンジン２２０によって読み出され、又はそうでなければ受信される。

データが、間接参照要求に応答してデータ位置２２５から演算エンジン２２０によって読み込まれ、データ応答（例えば、データ値、データ確認応答、又はこれらの組み合わせ）がＬＳＱ１０５に提供（例えば、送信）される。

図３は、圧縮されたグラフィックリストにアクセスする複数の実施形態の例を示す。図３は、パイプラインに発行された命令（例えば、ｌｏａｄ．ｉｎｄ命令）に応答してトリガされる。方法の処理が、これに限定されないが、本明細書で詳述されるようなプロセッサを含むプロセッサ又はコアのコンポーネントによって実行される。

図３は、圧縮されたグラフィックリストにアクセスする単一の命令を実行するプロセッサの一実施形態を示す。３０１では、プロセッサが、フェッチ回路を使用して、単一の命令をフェッチする。単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む。有利には、単一の命令に複数の演算（例えば、リストロード、ポインタデリファレンス、間接参照のロード演算、又はデータロード／ストア）を含めることは、リモートアドレス計算をサポートし、メモリアクセスごとのラウンドトリップレイテンシを取り除くことによって、コード効率を高めて演算ごとのレイテンシを減少させる。

フェッチされた単一の命令が復号される。例えば、フェッチされた単一の命令が、本明細書で詳細されるような復号回路によって復号される。復号された単一の命令の実行は、間接参照要求を受信することによって圧縮されたグラフィックリストへのアクセスをもたらす。間接参照要求は、間接参照の演算を含む。間接参照の演算は、間接参照のロード演算又は間接参照のストア演算を含み得る。いくつかの実施形態において、間接参照レベルは、間接参照のロード演算及び／又は間接参照のストア演算に対して判断され得る。これに関して、間接参照レベルは、マルチレベルの間接参照又は単一レベルの間接参照を示し得る。いくつかの実施形態において、マルチレベルの間接参照は、複数の個々のロードを含む。いくつかの実施形態において、マルチレベルの間接参照は、複数の個々のストアを含む。いくつかの実施形態において、マルチレベルの間接参照は、１又は複数の個々ロード及び１又は複数の個々のストアの組み合わせを含む。単一レベルの間接参照は、個々のロード又は個々のストアを含む。

いくつかの実施形態において、間接参照要求は、ロードストアキューと関連しているアドレスを含み得る。ロードストアキューと関連しているアドレスが、パイプライン間接参照システムの１又は複数の演算エンジンでロードストアキューにデータをリターンする間接参照要求に含まれ得る。いくつかの実施形態において、ロードストアキューのアドレスが、間接参照要求の位置と関係なく、首尾よくデータをリターンする各間接参照要求で送信され得る。

いくつかの実施形態において、間接参照要求が、ロードストアキュー（ＬＳＱ）から、第１の演算エンジンで受信され得る。第１の演算エンジンは、第１のデータ位置と関連している。データ位置は、パイプライン間接参照システム内のメモリ位置を含む。

プロセッサは、実行回路（図１１Ａ及び図１１Ｂを参照して本明細書で説明されるように、例えば、メモリインタフェースでの既存のアトミック実行ユニット）を使用して、圧縮されたグラフィックリストにアクセスする復号された単一の命令を実行することによって、復号された単一の命令に応答する。３０５では、プロセッサは、第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算する。これに関して、第１の演算エンジンは、第１のデータ位置（例えば、第１の演算エンジンと関連している第１の位置）から第１のポインタを読み出す。第１のポインタは、第２のポインタの位置を判断するのに利用され得る。プロセッサは、第１のポインタに従って判断された位置に基づいて、第２のポインタと関連している第２のデータ位置を計算し得る。次に、プロセッサは、判断された第２のデータ位置で第２の演算エンジンに間接参照要求を提供し得る。

３０７では、プロセッサは、第２の演算エンジンによって、間接参照要求に応答して第３の演算エンジンと関連している第３のデータ位置を計算する。プロセッサは、第２のデータ位置から第２のポインタを読み出し得、それに応じて、第３のポインタと関連している第３のデータ位置を計算し得る。プロセッサは、その後、第２の演算エンジンによって、第３の演算エンジンに間接参照要求を提供し得る。

３０９では、プロセッサは、第３の演算エンジンによって、第３のデータ位置からデータを受信したことに応答して、ロードストアキューにデータ応答を提供する。例えば、演算エンジンは、第３のデータ位置からデータを読み込み、データ応答（例えば、データ確認応答）をロードストアキューに送信する。

図４は、いくつかの実施形態による、３つの演算に対する命令の定義を示す表を示す。示されるように、表は、間接参照のロード及びストア演算、記述、並びにパイプライン間接参照システム１００への入力を含む。これらの演算のそれぞれは、パイプライン間接参照システム１００の１又は複数の演算エンジン（例えば、演算エンジン１１０、１２０及び１３０）によってサポートされる。パイプライン間接参照システム１００は、マルチスレッドのパイプラインの形態を取り得る。いくつかの実施形態において、一旦メモリ演算が発行されると、そのスレッドは、演算が完了するまでわきに退かれる。スレッドは、その後、有利にパイプラインに再び入り得、転送する必要性を除去する。いくつかの実施形態において、間接参照の演算（例えば、ｌｏａｄ．ｉｎｄ又はｓｔｏｒｅａｃｋ．ｉｎｄ等の任意の演算）が、間接参照の演算が完了するまで待機するように、マルチスレッドのパイプラインは、フェンシングすることを含み得る。

ＬＳＱ１０５は、リストメモリ（例えば、ｒ２内のアドレス又はｒ２のアドレス）の近くに配置された演算エンジン（例えば、演算エンジン１１０、１２０及び１３０）に要求を送信する。演算エンジンは、その後、リスト読み込み及びデリファレンスを実行する。間接参照レベル（例えば、ＬＥＶ−ＩＮＤ修飾子）が１に設定される複数の実施形態において、その後、最終的なデータ位置（例えば、データ位置１３５）のアドレスをデリファレンスする間接参照要求が、少なくとも２つのデータ位置（例えば、データ位置１１５及び１２５のような次のリスト位置）に提供され得る。いくつかの実施形態において、間接参照要求（例えば、二重間接参照）は、レジスタｒ４等のオペランドを含んで、次のデータ位置をデリファレンスする第２のポインタをサポートし得る。オペランドｒ４は、同一のベース値を再使用すべく、互いに隣接するデータ構造を配置する任意の要求を有利に除去する新しいデータ構造にベース値を提供し得る。最終的なデータ位置のアドレスがデリファレンスされるとき、データ応答（例えば、データ値、データ確認応答、又はこれらの組み合わせ）が、ＬＳＱ１０５にリターンされる。

間接参照レベル（例えば、ＬＥＶ−ＩＮＤ修飾子）が０設定される場合、ストア又はロード（例えば、ＩＮＤ−ＬＤ）がデータ位置（例えば、データ位置２１５及び／又は２２５等のデリファレンスされた位置）に提供されて、データ応答（例えば、データ値、データ確認応答、又はこれらの組み合わせ）がＬＳＱ１０５にリターンされる。

図５は、本明細書で説明されるような一実施形態による、二重間接参照ロードを実行する例示的な疑似コードを示す。ループが、頂点ｖごとに、その隣接する頂点にわたって実行される。二重間接参照ロードが、コードｌｏｇｐｒｉｍｅｓ［ｌａｂｅｌｖｅｃ［ｎｅｉｇｈｂｏｒｓ［ｉ］］として３行目に示される。間接参照のロードからのリターン値は、「ｓｕｍ」に累算されるｔである。単一の機械コード命令として書き込まれると、二重間接参照コードは、
Ｌｏａｄ．ｉｎｄｒｅｔ＿ｒｅｇ，ｎｅｉｇｈｂｏｒｓ［ｉ］，ｌａｂｅｌｖｅｃ＿ｂａｓｅ，ｌｏｇｐｒｉｍｅｓ＿ｂａｓｅ，
ＳＩＺＥ＝６４，ＡＭ＝Ｏ，ＯＳ＝６４，ＯＴ＝Ｕ，ＬＥＶ−ＩＮＤ＝１
と変換する。

Ｒｅｔ＿ｒｅｇ：データがロードされるローカルレジスタ

ｎｅｉｇｈｂｏｒｓ［ｉ］：どこにポインタの第１の「リスト」が配置されるかを指示する上記のコードセグメントからの変数である。

Ｌａｂｅｌｖｅｃ＿ｂａｓｅ：これは、第１の間接参照に「ｂａｓｅ＋ｏｆｆｓｅｔ」アドレスデリファレンスを実行するアドレス値である。

Ｌｏｇｐｒｉｍｅｓ＿ｂａｓｅ：これは、第２の間接参照に「ｂａｓｅ＋ｏｆｆｓｅｔ」アドレスデリファレンスを実行するアドレス値である。

図６は、本明細書で説明されるような一実施形態による、例示的なｂａｓｅ＋ｏｆｆｓｅｔアドレスフォーマットを示す。いくつかの実施形態において、疎グラフ及び行列に対するデータ構造（例えば、圧縮行格納方式）は、整数の隣接するブロックとしてメモリ内の頂点又は列ＩＤを表す。これらの整数は、不均一な配置（例えば、ギャザー、スキャタ、又はブロードキャスト）のデータ構造にインデックスを付けるのに使用され得る。いくつかの実施形態において、演算エンジン（例えば、演算エンジン１１０、１２０、及び１３０）は、オフセットフォーマットのリストで表されるリストを解釈し得る。これに関して、ベース値（例えば、６４ビット正規アドレス）及びパックされたオフセットリストのアドレスが、別個のレジスタとしての演算の一部として提供され得る。メモリにストアされたリストは、その後、要素のカウントを表す整数を含み得る。有利には、これは、個々の要素サイズでＩＤをスケーリングすることなく、元のＩＤ（例えば、頂点ＩＤ）の提供を可能にする。いくつかの実施形態において、リスト内の整数は、スケーラブルな下限からスケーラブル上限までの値域を定め得る（例えば、整数は、これに限定されないが、４バイト、８バイト等のようなｘバイト数である得る）。代替的又はさらに、整数は符号付き又は符号なしであり得る。

３２ビット符号なし整数オフセットの値が示される。ここで、ＡＭ＝Ｏ、ＯＴ＝Ｕ、及びＯＳ＝３２ビットである。リストのベースアドレスは、ｒＳｒｃ（ｒ２）である。６４ビットのアドレス値への整数オフセットの変換が、式Ｄｅｓｔ＿ａｄｄｒ＝（Ｏｆｆｓｅｔ＿０×ＳＩＺＥ）＋ｒ３に従って実行され得る。整数は、ベース値ｒ３からの距離（例えば、ＳＩＺＥのデータ要素内の距離）を表す。対象のデータ要素の位置は、ＳＩＺＥで乗算され、ｒ３に追加された整数オフセットである。

本明細書で詳述されるのは、上記の説明された命令を実行するハードウェア、ソフトウェア等の例である。例えば、以下で説明することは、フェッチ、復号、スケジューリング、実行、リタイア等のような、様々なパイプラインステージを含む命令実行の態様を詳述する。

命令セット

命令セットは、１又は複数の命令フォーマットを含み得る。所与の命令フォーマットは、数ある中でも、実行される演算（例えば、オペコード）及び演算が実行されるオペランド、及び／又は他のデータフィールド（例えば、マスク）を指定する様々なフィールド（例えば、ビット数、ビットの位置）を定義し得る。いくつかの命令フォーマットが、命令テンプレート（又はサブフォーマット）の定義を通じて、さらに分類される。例えば、所与の命令フォーマットの命令テンプレートが、命令フォーマットのフィールドの異なるサブセットを有するように定義され得（含まれるフィールドが、通常同一の順序であるが、含まれるフィールドがより少ないので、少なくともいくつかは異なるビット位置を有する）、及び／又は異なって解釈される所与のフィールドを有するように定義され得る。したがって、命令セットアーキテクチャ（ＩＳＡ）の各命令が、所与の命令フォーマットを使用して（及び、定義される場合、命令フォーマットの命令テンプレートの所与の１つで）表され、演算及びオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコードと、そのオペコードを指定するオペコードフィールド及びオペランド（ソース１／デスティネーション及びソース２）を選択するオペランドフィールドを含む命令フォーマットを有し、命令ストリーム内にこのＡＤＤ命令が出現すると、特定のオペランドを選択するオペランドフィールドに特定の内容を有する。

本明細書で説明される本発明の複数の実施形態が、異なるフォーマットで具現化され得る。さらに、例示的なシステム、アーキテクチャ及びパイプラインが、以下で詳述される。本発明の複数の実施形態が、そのようなシステム、アーキテクチャ、及びパイプライン上で実行され得るが、詳述されたものに限定されない。

命令セットは、１又は複数の命令フォーマットを含み得る。所与の命令フォーマットは、数ある中でも、実行される演算（例えば、オペコード）及びその演算が実行されるオペランド、及び／又は他のデータフィールド（例えば、マスク）を指定する様々なフィールド（例えば、ビット数、ビットの位置）を定義し得る。いくつかの命令フォーマットが、命令テンプレート（又はサブフォーマット）の定義を通じて、さらに分類される。例えば、所与の命令フォーマットの命令テンプレートが、命令フォーマットのフィールドの異なるサブセットを有するように定義され得（含まれるフィールドが、通常同一の順序であるが、含まれるフィールドがより少ないので、少なくともいくつかは異なるビット位置を有する）、及び／又は異なって解釈される所与のフィールドを有するように定義され得る。したがって、ＩＳＡの各命令が、所与の命令フォーマットを使用して（及び、定義される場合、命令フォーマットの命令テンプレートの所与の１つで）表され、演算及びオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコードと、そのオペコードを指定するオペコードフィールド及びオペランド（ソース１／デスティネーション及びソース２）を選択するオペランドフィールドを含む命令フォーマットを有し、命令ストリーム内にこのＡＤＤ命令が出現すると、特定のオペランドを選択するオペランドフィールドに特定の内容を有する。アドバンストベクトルエクステンション（ＡＶＸ）（ＡＶＸ１及びＡＶＸ２）と称され、ベクトルエクステンション（ＶＥＸ）符号化スキームを使用するＳＩＭＤ拡張機能のセットが、リリース及び／又は公開されている（例えば、インテル（登録商標）６４及びＩＡ−３２アーキテクチャソフトウェア開発者マニュアル、２０１４年９月を参照、及び、インテル（登録商標）アドバンストベクトルエクステンションプログラミングリファレンス、２０１４年１０月を参照）。
例示的な命令フォーマット

本明細書で説明される本発明の複数の実施形態は、異なるフォーマットで具現化され得る。さらに、例示的なシステム、アーキテクチャ、及びパイプラインが、以下で詳述される。本発明の複数の実施形態が、そのようなシステム、アーキテクチャ、及びパイプライン上で実行され得るが、詳述されたものに限定されない。
汎用ベクトル向け命令フォーマット

ベクトル向け命令フォーマットは、ベクトル命令に適した命令フォーマットである（例えば、ベクトル演算に固有の特定のフィールドが存在する）。ベクトル及びスカラ演算の両方がベクトル向け命令フォーマットによってサポートされている複数の実施形態が説明されているが、代替的な複数の実施形態は、ベクトル向け命令フォーマットのベクトル演算のみを使用する。

図１２Ａ〜図１２Ｂは、本発明の複数の実施形態による、汎用ベクトル向け命令フォーマット及びその命令テンプレートを示すブロック図である。図７は、本発明の複数の実施形態による、汎用ベクトル向け命令フォーマット及びそのクラスＡ命令テンプレートを示すブロック図であり、一方で、図８は、本発明の複数の実施形態による、汎用ベクトル向け命令フォーマット及びそのクラスＢ命令テンプレートを示すブロック図である。具体的には、クラスＡ及びクラスＢ命令テンプレートが定義される汎用ベクトル向け命令フォーマット８００は、その両方が非メモリアクセス８０５命令テンプレート及びメモリアクセス８２０命令テンプレートを含む。ベクトル向け命令フォーマットとの関連で汎用という用語は、いかなる特定の命令セットにも結び付けられていない命令フォーマットを指す。

ベクトル向け命令フォーマットが、３２ビット（４バイト）又は６４ビット（８バイト）のデータ要素幅（又はサイズ）を有する６４バイトのベクトルオペランド長（又はサイズ）（したがって、６４バイトのベクトルは、１６個のダブルワードサイズ要素、又は、代替的に、８個のクワッドワードサイズ要素のいずれかで構成される）と、１６ビット（２バイト）又は８ビット（１バイト）のデータ要素幅（又はサイズ）を有する６４バイトのベクトルオペランド長（又はサイズ）と、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）、又は８ビット（１バイト）のデータ要素幅（又はサイズ）を有する３２バイトのベクトルオペランド長（又はサイズ）と、及び３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）、又は８ビット（１バイト）のデータ要素幅（又はサイズ）を有する１６バイトのベクトルオペランド長（又はサイズ）とをサポートする本発明の複数の実施形態が説明されるが、代替的な複数の実施形態は、より多い、より少ない、又は異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有するより多い、より少ない及び／又は異なるベクトルオペランドサイズ（例えば、２５６バイトベクトルのオペランド）をサポートし得る。

図７におけるクラスＡ命令テンプレートは、１）非メモリアクセス８０５命令テンプレート内に示される、非メモリアクセス、フルラウンド制御タイプ演算８１０命令テンプレート、及び、非メモリアクセス、データ変換タイプ演算８１５命令テンプレートと、２）メモリアクセス８２０命令テンプレート内に示される、メモリアクセス、一次的８２５命令テンプレート及びメモリアクセス、非一時的８３０命令テンプレートとを含む。図８におけるクラスＢ命令テンプレートは、１）非メモリアクセス８０５命令テンプレート内に示される、非メモリアクセス、書き込みマスク制御、部分ラウンド制御タイプオペレーション８１２命令テンプレート、及び非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプオペレーション８１７命令テンプレートと、２）メモリアクセス８２０命令テンプレート内に示される、メモリアクセス、書き込みマスク制御８２７命令テンプレートとを含む。

汎用ベクトル向け命令フォーマット８００は、図７〜図８に示される順序で以下に列挙される以下のフィールドを含む。

フォーマットフィールド８４０−このフィールド内の固有値（命令フォーマット識別子の値）は、ベクトル向け命令フォーマットを、したがって、命令ストリームのベクトル向け命令フォーマット内の命令の出現を一意に識別する。このように、このフィールドは、汎用ベクトル向け命令フォーマットのみを有する命令セットに必要ではないという意味では、任意選択的である。

基本演算フィールド８４２−その内容は、異なる基本演算を区別する。

レジスタインデックスフィールド８４４−その内容は、直接又はアドレス生成を介して、ソース及びデスティネーションオペランドの位置を、それらがレジスタ内又はメモリ内にあることを指定する。これは、Ｐ×Ｑ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）個のレジスタファイルからＮ個のレジスタを選択する十分なビット数を含む。一実施形態において、Ｎは３つのソース及び１つのデスティネーションレジスタまでであり得るが、代替的な複数の実施形態は、より多い、又はより少ないソース及びデスティネーションレジスタをサポートし得る（例えば、これらのソースのうちの１つがデスティネーションとしても動作する２つのソースまでをサポートし得、これらのソースのうちの１つがデスティネーションとしても動作する３つのソースまでをサポートし得、２つのソース及び１つのデスティネーションまでをサポートし得る）。

修飾子フィールド８４６−その内容は、メモリアクセスを指定する汎用ベクトル命令フォーマット内の命令の出現を、そうしないものから区別し、すなわち、非メモリアクセス８０５命令テンプレートとメモリアクセス８２０命令テンプレートとを区別する。メモリアクセス演算は、メモリ階層に読み込み及び／又は書き込みを行い（場合によっては、レジスタ内の値を使用してソース及び／又はデスティネーションアドレスを指定する）、一方、非メモリアクセス演算は、これを行わない（例えば、ソース及びデスティネーションはレジスタである）。一実施形態において、このフィールドはまた、メモリアドレス計算を実行する３つの異なる方法の中から選択するが、代替的な複数の実施形態は、メモリアドレス計算を実行するより多い、より少ない、又は異なる方法をサポートし得る。

拡張演算フィールド８５０−その内容は、基本演算に加えて、様々な異なる演算のうちどの演算が実行されるかを区別する。このフィールドは、コンテキスト固有である。本発明の一実施形態において、このフィールドは、クラスフィールド８６８、アルファフィールド８５２、及びベータフィールド８５４に分割される。拡張演算フィールド８５０は、共通グループの演算が２，３、又は４の命令ではなく、単一の命令で実行されることを可能にする。

スケールフィールド８６０−その内容は、メモリアドレス生成（例えば、２^{ｓｃａｌｅ}×インデックス＋ベースを使用するアドレス生成）に対するインデックスフィールドの内容をスケーリングすることを可能にさせる。

変位フィールド８６２Ａ−その内容は、メモリアドレス生成（例えば、２^{ｓｃａｌｅ}×インデックス＋ベース＋変位を使用するアドレス生成用）の一部として使用される。

変位係数フィールド８６２Ｂ（変位係数フィールド８６２Ｂのすぐ上の変位フィールド８６２Ａの並置が、一方又は他方が使用されることを示すことに留意されたい）−その内容が、アドレス生成の一部として使用される。それは、メモリアクセスのサイズ（Ｎ）でスケーリングされる変位係数を指定する。−ここで、Ｎはメモリアクセス（例えば、２^{ｓｃａｌｅ}×インデックス＋ベース＋スケーリングされた変位を使用するアドレス生成用）内のバイト数である。冗長下位ビットが無視され、よって、有効なアドレスを計算する際に使用される最終的な変位を生成すべく、変位係数フィールドの内容が、メモリオペランドの総サイズ（Ｎ）で乗算される。Ｎの値が、フルオペコードフィールド８７４（本明細書で後述される）及びデータ操作フィールド８５４Ｃに基づいて、ランタイムでプロセッサハードウェアによって判断される。変位フィールド８６２Ａ及び変位係数フィールド８６２Ｂは、それらが非メモリアクセス８０５命令テンプレートに使用されない、及び／又は異なる複数の実施形態が２つのうちの１つのみを実装してよい、若しくは２つのうちのいずれも実装しなくてよいという意味では任意選択的である。

データ要素幅フィールド８６４−その内容は、多数のデータ要素幅のうちのどのデータ要素幅が使用されるのかを区別する（いくつかの実施形態では全ての命令に対して、他の複数の実施形態ではいくつかの命令に対してのみ）。このフィールドは、１つのデータ要素幅のみがサポートされ、及び／又は複数のデータ要素幅がオペコードのいくつかの態様を使用してサポートされる場合、不要であるという意味では、任意選択的である。

書き込みマスクフィールド８７０−その内容は、データ要素位置ごとに、デスティネーションベクトルオペランド内のそのデータ要素位置が基本演算及び拡張演算の結果を反映するか否かを制御する。クラスＡ命令テンプレートは、マージング−書き込みマスキングをサポートし、一方で、クラスＢ命令テンプレートは、マージング−書き込みマスク及びゼロ化−書き込みマスキングの両方をサポートする。マージングのとき、ベクトルマスクは、デスティネーション内の要素の任意のセットが（基本演算及び拡張演算によって指定される）任意の演算の実行中に更新から保護されることを可能にし、他の一実施形態では、対応するマスクビットが０を有するデスティネーションの各要素の古い値を保持する。対照的に、ゼロ化のとき、ベクトルマスクは、デスティネーション内の要素の任意のセットが（基本演算及び拡張演算によって指定される）任意の演算の実行中にゼロ化されることを可能にし、一実施形態では、対応するマスクビットが０値を有するときに、デスティネーションの要素が０に設定される。この機能のサブセットは、実行されている演算のベクトル長（すなわち、修正されている要素の、最初から最後までの範囲）を制御する能力である。しかしながら、修正される要素が連続している必要はない。したがって、書き込みマスクフィールド８７０は、ロード、ストア、算術、論理等を含む部分的なベクトル演算を可能にする。書き込みマスクフィールド８７０の内容が、多数の書き込みマスクレジスタのうち、使用されるべき書き込みマスクを含む１つの書き込みマスクレジスタを選択する（したがって、書き込みマスクフィールド８７０の内容は、実行されるマスキングを間接的に識別する）本発明の複数の実施形態が説明されるが、代替的な複数の実施形態は、これに代えて又はこれに加えて、マスク書き込みフィールド８７０の内容が、実行されるマスキングを直接指定することを可能にする。

即値フィールド８７２−その内容は、即値の指定を可能にさせる。このフィールドは、即値をサポートしない汎用ベクトル向けフォーマットの実装に存在せず、即値を使用しない命令に存在しないという意味では任意選択的である。

クラスフィールド８６８−その内容は、異なるクラスの命令を区別する。図７〜図８を参照して、このフィールドの内容は、クラスＡ命令とクラスＢ命令との間で選択する。図７〜図８において、角が丸い四角形は、固有値がフィールドに存在することを示すのに使用される（例えば、図７〜図８中、クラスフィールド８６８に対し、それぞれクラスＡ８６８Ａ及びクラスＢ８６８Ｂ）。
クラスＡの命令テンプレート

クラスＡの非メモリアクセス８０５命令テンプレートの場合、アルファフィールド８５２がＲＳフィールド８５２Ａとして解釈され、その内容は、異なる拡張演算タイプのうちのどの拡張演算タイプが実行されるかを区別し（例えば、ラウンド８８５２Ａ．１及びデータ変換８５２Ａ．２が非メモリアクセス、ラウンドタイプ演算８１０及び非メモリアクセス、データ変換タイプ演算８１５命令テンプレートに対してそれぞれ指定される）、その一方で、ベータフィールド８５４は、指定されたタイプの演算のどれが実行されるかを区別する。非メモリアクセス８０５命令テンプレートにおいて、スケールフィールド８６０、変位フィールド８６２Ａ、及び変位スケールフィールド８６２Ｂが存在しない。
非メモリアクセス命令テンプレート−フルラウンド制御タイプ演算

非メモリアクセスフルラウンド制御タイプ演算８１０命令テンプレートにおいて、ベータフィールド８５４がラウンド制御フィールド８５４Ａとして解釈され、その内容が静的ラウンドを提供する。説明される本発明の複数の実施形態において、ラウンド制御フィールド８５４Ａは、全浮動小数点例外抑制（ＳＡＥ）フィールド８５６及びラウンド演算制御フィールド８５８を含むが、代替的な複数の実施形態は、これらの概念の両方をサポートし得、同一フィールドに符号化し得、又はこれらの概念／フィールドの一方又は他方のみを有してよい（例えば、ラウンド演算制御フィールド８５８のみを有し得る）。

ＳＡＥフィールド８５６−その内容は、例外イベント報告を無効にするか否かを区別する。ＳＡＥフィールド８５６の内容が、抑制が有効であることを示すとき、所与の命令は、いかなる種類の浮動小数点例外フラグを報告せず、いかなる浮動小数点例外ハンドラを立ち上げない。

ラウンド演算制御フィールド８５８−その内容は、ラウンド演算のグループのうちのどのラウンド演算を実行すべきか（例えば、切り上げ、切り捨て、０へのラウンド、及び最近接へのラウンド）を区別する。したがって、ラウンド演算制御フィールド８５８は、命令ごとにラウンドモードを変更することを可能にさせる。プロセッサがラウンドモードを指定するための制御レジスタを含む本発明の一実施形態において、ラウンド演算制御フィールド８５０の内容は、そのレジスタ値をオーバーライドする。
非メモリアクセス命令テンプレート−データ変換タイプ演算

非メモリアクセスデータ変換タイプ演算８１５命令テンプレートにおいて、ベータフィールド８５４がデータ変換フィールド８５４Ｂとして解釈され、その内容は、多数のデータ変換のうちのどのデータ変換が実行されるか（例えば、非データ変換、スウィズル、ブロードキャスト）を区別する。

クラスＡのメモリアクセス８２０命令テンプレートの場合、アルファフィールド８５２がエビクションヒントフィールド８５２Ｂとして解釈され、その内容は、エビクションヒントのうちのどのエビクションヒントが使用されるべきかを区別し（図７では、一時的８５２Ｂ．１及び非一時的８５２Ｂ．２は、それぞれ、メモリアクセス、一次的８２５命令テンプレート、及びメモリアクセス、非一時的８３０命令テンプレートについて指定される）、一方で、ベータフィールド８５４がデータ操作フィールド８５４Ｃとして解釈され、その内容は、多数のデータ操作演算（プリミティブとしても知られる）のうちのどのデータ操作演算が実行されるべきか（例えば、非操作、ブロードキャスト、ソースのアップコンバージョン、デスティネーションのダウンコンバージョン）を区別する。メモリアクセス８２０命令テンプレートは、スケールフィールド８６０を含み、任意選択的に変位フィールド８６２Ａ又は変位スケールフィールド８６２Ｂを含む。

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロード及びメモリへのベクトルストアを実行する。通常のベクトル命令と同様に、ベクトルメモリ命令は、データ要素ごとの方法でメモリから／メモリにデータを転送し、ここで、実際に転送される要素が、書き込みマスクとして選択されるベクトルマスクの内容によって指示される。
メモリアクセス命令テンプレート−一時的

一時的データは、キャッシュから利益を受けるのに十分早く再使用される可能性が高いデータである。しかしながら、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含む、異なる方法でそれを実装し得る。
メモリアクセス命令テンプレート−非一時的

非一時的データは、第１のレベルキャッシュでのキャッシュから利益を受けるのに十分早く再使用される可能性が低いデータであり、エビクションの優先権が与えられるべきである。しかしながら、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含む、異なる方法でそれを実装し得る。
クラスＢの命令テンプレート

クラスＢの命令テンプレートの場合、アルファフィールド８５２が、書き込みマスク制御（Ｚ）フィールド８５２Ｃとして解釈され、その内容は、書き込みマスクフィールド８７０によって制御される書き込みマスキングがマージングするべきかゼロ化すべきかを区別する。

クラスＢの非メモリアクセス８０５命令テンプレートの場合、ベータフィールド８５４の一部がＲＬフィールド８５７Ａとして解釈され、その内容は、異なる拡張演算タイプのうちのどの拡張演算タイプが実行されるかを区別し（例えば、ラウンド８５７Ａ．１及びベクトル長（ＶＳＩＺＥ）８５７Ａ．２が非メモリアクセス、書き込みマスク制御、部分ラウンド制御タイプオペレーション８１２命令テンプレート、及び非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプオペレーション８１７命令テンプレートに対してそれぞれ指定される）、その一方で、ベータフィールド８５４の残りが、指定されたタイプの演算のどれが実行されるかを区別する。非メモリアクセス８０５命令テンプレートにおいて、スケールフィールド８６０、変位フィールド８６２Ａ、及び変位スケールフィールド８６２Ｂが存在しない。

非メモリアクセス、書き込みマスク制御、部分ラウンド制御タイプオペレーション８１０命令テンプレートにおいて、ベータフィールド８５４の残りは、ラウンド演算フィールド８５９Ａとして解釈され、例外イベント報告が無効にされる（所与の命令は、いかなる種類の浮動小数点例外フラグを報告せず、いかなる浮動小数点例外ハンドラも立ち上げない）。

ラウンド演算制御フィールド８５９Ａ−ラウンド演算制御フィールド８５８と同じように、その内容は、ラウンド演算のグループうちのどのラウンド演算を実行すべきか（例えば、切り上げ、切り捨て、０へのラウンド、及び最近接へのラウンド）を区別する。したがって、ラウンド演算制御フィールド８５９Ａは、命令ごとにラウンドモードを変更することを可能にさせる。プロセッサがラウンドモードを指定するための制御レジスタを含む本発明の一実施形態において、ラウンド演算制御フィールド８５０の内容は、そのレジスタ値をオーバーライドする。

非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプオペレーション８１７命令テンプレートにおいて、ベータフィールド８５４の残りがベクトル長フィールド８５９Ｂとして解釈され、その内容は、多数のデータベクトル長のうちのどのデータベクトル長が実行されるべきか（例えば、１２８、２５６、又は５１２バイト）を区別する。

クラスＢのメモリアクセス８２０命令テンプレートの場合、ベータフィールド８５４の一部がブロードキャストフィールド８５７Ｂとして解釈され、その内容は、ブロードキャストタイプデータ操作演算が実行されるべきか否かを区別し、一方で、ベータフィールド８５４の残りが、ベクトル長フィールド８５９Ｂとして解釈される。メモリアクセス８２０命令テンプレートは、スケールフィールド８６０を含み、任意選択的に変位フィールド８６２Ａ又は変位スケールフィールド８６２Ｂを含む。

汎用ベクトル向け命令フォーマット８００に関して、フォーマットフィールド８４０、基本演算フィールド８４２、及びデータ要素幅フィールド８６４を含むフルオペコードフィールド８７４が示される。フルオペコードフィールド８７４がこれらのフィールドの全てを含む一実施形態が示されるが、それらの全てをサポートしない複数の実施形態では、フルオペコードフィールド８７４は、これらのフィールドの全より少ないフィールドを含む。フルオペコードフィールド８７４は、演算コード（オペコード）を提供する。

拡張演算フィールド８５０、データ要素幅フィールド８６４、及び書き込みマスクフィールド８７０は、これらの機能が汎用ベクトル向け命令フォーマットで命令ごとに指定されることを可能にする。

書き込みマスクフィールド及びデータ要素幅フィールドの組み合わせは、マスクが異なるデータ要素幅に基づいて適用されることを可能にするという点で、分類された命令を作成する。

クラスＡ及びクラスＢ内で発見される様々な命令テンプレートが異な状況で有益である。本発明のいくつかの実施形態において、プロセッサ内の異なるプロセッサ又は異なるコアは、クラスＡのみ、クラスＢのみ、又は両クラスをサポートし得る。例えば、汎用コンピューティング向けの高性能汎用アウトオブオーダコアは、クラスＢのみをサポートし得、主にグラフィック及び／又は科学（スループット）コンピューティング向けのコアは、クラスＡのみをサポートし得、両方向けのコアは、両方をサポートし得る（当然ながら、両クラスからのテンプレート及び命令のいくつかの混合を有するが、両クラスからの全てのテンプレート及び命令を有さないコアは、本発明の範囲内である）。また、単一のプロセッサは、複数のコアを含み得、その全てが同一クラスをサポートする、又はその中の異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックコア及び汎用コアを有するプロセッサにおいて、主にグラフィック及び／又は科学コンピューティング向けのグラフィックコアのうちの１つのコアが、クラスＡのみをサポートし得、一方で、１又は複数の汎用コアが、クラスＢのみをサポートする汎用コンピューティング向けのアウトオブオーダ実行及びレジスタリネームを有する高性能汎用コアであり得る。別個のグラフィックコアを有さない他のプロセッサは、クラスＡ及びクラスＢの両方をサポートするもう１つの汎用インオーダ又はアウトオブオーダコアを含み得る。当然ながら、本発明の異なる複数の実施形態において、１つのクラスからの機能はまた、他クラスで実装され得る。高水準言語で書き込まれたプログラムは、１）実行用ターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、又は、２）全てのクラスの命令の異なる組み合わせを使用して書き込まれた代替のルーチンを有し、コードを現在実行しているプロセッサによってサポートされる命令に基づいて実行するルーチンを選択する制御フローコードを有する形式を含む様々な異なる実行可能な形式に変換される（例えば、ジャストインタイムでコンパイルされ又は静的コンパイルされる）。
例示的な特定ベクトル向け命令フォーマット

図９Ａは、本発明の複数の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図９Ａは、フィールドの位置、サイズ、解釈、及び順序、並びにそれらのフィールドのうちのいくつかのの値を指定するという意味では、特有である特定ベクトル向け命令フォーマット９００を示す。特定ベクトル向け命令フォーマット９００が、ｘ８６命令セットを拡張するのに使用され得、したがって、いくつかのフィールドは、既存のｘ８６命令セット及びその拡張（例えば、ＡＶＸ）で使用されるフィールドと類似又は同一である。このフォーマットは、拡張を有する既存のｘ８６命令セットのプレフィクス符号化フィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、及び即値フィールドと一致したままである。図８のフィールドが図９Ａのどのフィールドにマッピングされるかを示す。

本発明の複数の実施形態が例示目的で汎用ベクトル向け命令フォーマット８００との関連で特定ベクトル向け命令フォーマット９００を参照して説明されるが、本発明は、特許請求される場合を除いて、特定ベクトル向け命令フォーマット９００に限定されないことが理解されるべきである。例えば、汎用ベクトル向け命令フォーマット８００は、様々なフィールドに対して様々な可能なサイズを企図するが、特定ベクトル向け命令フォーマット９００が特定のサイズおフィールドを有するものとして示される。具体的な例として、データ要素幅フィールド８６４が特定ベクトル向け命令フォーマット９００内の１つビットフィールドとして示されるが、本発明はそのように限定されない（すなわち、汎用ベクトル向け命令フォーマット８００は、他のサイズのデータ要素幅フィールド８６４を企図する）。

汎用ベクトル向け命令フォーマット８００は、図９Ａに示される順序で以下に列挙される以下のフィールドを含む。

ＥＶＥＸプレフィクス（バイト０−３）９０２−４バイト形式で符号化される。

フォーマットフィールド８４０（ＥＶＥＸバイト０、ビット［７：０］）−第１のバイト（ＥＶＥＸバイト０）はフォーマットフィールド８４０であり、それは０ｘ６２（本発明の一実施形態において、ベクトル向け命令フォーマットを区別するのに使用される一意の値）を含む。

第２−第４バイト（ＥＶＥＸバイト１−３）は、特定の機能を提供する多数のビットフィールドを含む。

ＲＥＸフィールド９０５（ＥＶＥＸバイト１、ビット［７−５］−ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］−Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］−Ｘ）、及び８５７ＢＥＸバイト１、ビット［５］−Ｂ）で構成される。ＥＶＥＸ．Ｒビットフィールド、ＥＶＥＸ．Ｘビットフィールド、及びＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同じ機能を提供し、１の補数形式を使用して符号化される、すなわち、ＺＭＭ０は１１１１Ｂとして符号化され、ＺＭＭ１５は００００Ｂとして符号化される。命令の他のフィールドは、当技術分野で知られているレジスタインデックスの下位３ビット（ｒｒｒ、ｘｘｘ、及びｂｂｂ）を符号化し、その結果、Ｒｒｒｒ、Ｘｘｘｘ、及びＢｂｂｂは、ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、及びＥＶＥＸ．Ｂを追加することによって形成され得る。

ＲＥＸ'フィールド８１０−これは、ＲＥＸ'フィールド８１０の第１の部分であり、拡張された３２レジスタセットの上位１６又は下位１６のいずれかを符号化するのに使用されるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］−Ｒ'）である。本発明の一実施形態において、このビットは、下記に示される他のビットと共に、そのリアルオペコードバイトが６２であるＢＯＵＮＤ命令から（周知のｘ８６３２ビットモードで）区別するためにビット反転フォーマットで格納されるが、ＭＯＤＲ／Ｍフィールド（以下で説明される）では、ＭＯＤフィールド内の１１の値を受理しない。本発明の代替的な複数の実施形態は、これ及び以下の他に示されるビットを反転フォーマットで格納しない。１の値が、下位１６個のレジスタを符号化するのに使用される。言い換えれば、Ｒ'Ｒｒｒｒは、他のフィールドからのＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒ、及び他のＲＲＲを結合することによって形成される。

オペコードマップフィールド９１５（ＥＶＥＸバイト１、ビット［３：０］−ｍｍｍｍ）−その内容は、暗示される先行オペコードバイト（０Ｆ、０Ｆ３８、又は０Ｆ３）を符号化する。

データ要素幅フィールド８６４（ＥＶＥＸバイト２、ビット［７］−Ｗ）−表記ＥＶＥＸ．Ｗによって表される。ＥＶＥＸ．Ｗは、データタイプ（３２ビットデータ要素又は６４ビットデータ要素のいずれか）の粒度（サイズ）を定義するのに使用される。

ＥＶＥＸ．ｖｖｖｖ９２０（ＥＶＥＸバイト２、ビット［６：３］−ｖｖｖｖ）−ＥＶＥＸ．ｖｖｖｖの役割は、以下のものを含み得る。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定された第１のソースレジスタオペランドを符号化し、２又はこれより多いソースオペランドを有する命令に有効である。２）ＥＶＥＸ．ｖｖｖｖは、特定のベクトルシフトに対して１の補数形式で指定される、デスティネーションレジスタオペランドを符号化する。３）ＥＶＥＸ．ｖｖｖｖはいかなるオペランドも符号化せず、フィールドは予約され、１１１１ｂを含むべきである。したがって、ＥＶＥＸ．ｖｖｖｖフィールド９２０は、反転（１の補数）形式で格納された第１のソースレジスタ指示子の下位４ビットを符号化する。命令に応じて、追加の異なるＥＶＥＸビットフィールドが、指示子サイズを３２レジスタに拡張するのに使用される。

ＥＶＥＸ．Ｕ８６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］−Ｕ）−ＥＶＥＸ．Ｕ＝０である場合、それはクラスＡ又はＥＶＥＸ．Ｕ０を示し、ＥＶＥＸ．Ｕ＝１である場合、それはクラスＢ又はＥＶＥＸ．Ｕ１を示す。

プレフィクス符号化フィールド９２５（ＥＶＥＸバイト２、ビット［１：０］−ｐｐ）−基本演算フィールドに追加ビットを提供する。ＥＶＥＸプレフィクスフォーマットでレガシＳＳＥ命令にサポートを提供することに加えて、これはＳＩＭＤプレフィクスを圧縮するという利点も有する（ＳＩＭＤプレフィクスを表すために１バイトを要求するのではなく、ＥＶＥＸプレフィクスは２ビットのみを要求する）。一実施形態において、レガシフォーマットとＥＶＥＸプレフィクスフォーマットの両方でＳＩＭＤプレフィクス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を使用するレガシＳＳＥ命令をサポートするために、これらのレガシＳＩＭＤプレフィクスはＳＩＭＤプレフィクス符号化フィールドに符号化され、ランタイムで、復号器のＰＬＡに提供されるより前に、レガシＳＩＭＤプレフィクスに拡張される（そのため、ＰＬＡは、修正なしにこれらのレガシ命令のレガシフォーマット及びＥＶＥＸフォーマットの両方を実行できる）。より新しい命令が、オペコード拡張としてＥＶＥＸプレフィクス符号化フィールドの内容を直接使用できるが、特定の実施形態は、整合性のために同様方法で拡張するが、これらのレガシＳＩＭＤプレフィクスによって異なる意味が指定されることを可能にさせる。代替的な複数の実施形態は、２ビットのＳＩＭＤプレフィクス符号化をサポートするようＰＬＡを再設計し得、したがって、拡張を要求しない。

アルファフィールド８５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ、ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．書き込みマスク制御、及びＥＶＥＸ．Ｎとしても知られ、αでも示されている）−前述されたように、このフィールドはコンテキスト固有である。

ベータフィールド８５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ、ＥＶＥＸ．ｓ_２−０、ＥＶＥＸ．ｒ_２−０、ＥＶＥＸ．ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られ、βββでも示されている）−前述されたように、このフィールドはコンテキスト固有である。

ＲＥＸ'フィールド８１０−これは、ＲＥＸ'フィールドの残りであり、拡張された３２個のレジスタセットの上位１６又は下位１６のいずれかを符号化するのに使用され得るＥＶＥＸ．Ｖ'ビットフィールド（ＥＶＥＸバイト３、ビット［３］−Ｖ'）である。このビットは、ビット反転フォーマットで格納される。１の値が、下位１６個のレジスタを符号化するのに使用される。言い換えれば、Ｖ'ＶＶＶＶは、ＥＶＥＸ．Ｖ'及びＥＶＥＸ．ｖｖｖｖを結合することによって形成される。

書き込みマスクフィールド８７０（ＥＶＥＸバイト３、ビット［２：０］−ｋｋｋ）−その内容は、前述されたように書き込みマスクレジスタ内のレジスタのインデックスを指定する。本発明の一実施形態において、固有値ＥＶＥＸ．ｋｋｋ＝０００は、特定の命令に対して書き込みマスクが使用されないことを暗示する特別な動作を有する（これは、全てのものにハードワイヤリングされた書き込みマスクの使用を含む様々な方法又はマスキングハードウェアをバイパスするハードウェアで実装され得る）。

リアルオペコードフィールド９３０（バイト４）は、オペコードバイトとしても知られる。オペコードの一部は、このフィールドで指定される。

ＭＯＤＲ／Ｍフィールド９４０（バイト５）は、ＭＯＤフィールド９４２、Ｒｅｇフィールド９４４、及びＲ／Ｍフィールド９４６を含む。前述されたように、ＭＯＤフィールド９４２の内容は、メモリアクセス演算と非メモリアクセス演算との間を区別する。Ｒｅｇフィールド９４４の役割は、デスティネーションレジスタオペランド若しくはソースレジスタオペランドのいずれかを符号化する、又は、オペコード拡張として処理され、いずれの命令オペランドも符号化するのに使用されない、という２つの状況に要約され得る。Ｒ／Ｍフィールド９４６の役割は、メモリアドレスを参照する命令オペランドを符号化すること、又はデスティネーションレジスタオペランド若しくはソースレジスタオペランドのいずれかを符号化することを含み得る。

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）−前述されたように、スケールフィールド８５０の内容は、メモリアドレス生成のために使用される。ＳＩＢ．ｘｘｘ９５４及びＳＩＢ．ｂｂｂ９５６−これらのフィールドの内容は、レジスタインデックスＸｘｘｘ及びＢｂｂｂに関して以前に参照されている。

変位フィールド８６２Ａ（バイト７−１０）−ＭＯＤフィールド９４２が１０を含むとき、バイト７−１０は変位フィールド８６２Ａであり、それは、レガシ３２ビット変位（ｄｉｓｐ３２）と同じように機能し、バイト粒度で機能する。

変位係数フィールド８６２Ｂ（バイト７）−ＭＯＤフィールド９４２が０１を含むとき、バイト７は変位係数フィールド８６２Ｂである。このフィールド位置は、レガシｘ８６命令セット８ビット変位（ｄｉｓｐ８）の位置と同一であり、これは、バイト粒度で機能する。ｄｉｓｐ８は符号拡張されているので、−１２８バイトオフセットと１２７バイトオフセットとの間のみでアドレス指定され得る。６４バイトのキャッシュラインに関して、ｄｉｓｐ８は、４つの本当に有用な値−１２８、−６４、０及び６４のみに設定され得る８ビットを使用する。より広い範囲がしばしば必要とされるので、ｄｉｓｐ３２が使用される。しかしながら、ｄｉｓｐ３２は、４バイトを要求するｄｉｓｐ８及びｄｉｓｐ３２と対照的に、変位係数フィールド８６２Ｂがｄｉｓｐ８の再解釈であり、変位係数フィールド８６２Ｂを使用するとき、実際の変位が、メモリオペランドアクセスのサイズ（Ｎ）で乗算された変位係数フィールドの内容によって判断される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これは、平均命令長（変位に使用されるが、はるかに広い範囲を有する単一のバイト）を減少させる。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であるという想定に基づいており、よって、アドレスオフセットの冗長下位ビットは符号化される必要がない。言い換えれば、変位係数フィールド８６２Ｂは、レガシｘ８６命令セットの８ビット変位を置換する。したがって、変位係数フィールド８６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎにオーバーロードされる点のみを除いて、ｘ８６命令セットの８ビット変位と同じ方法で符号化される（そのため、ＭｏｄＲＭ／ＳＩＢ符号化ルールに変更されない）。言い換えれば、符号化ルール又は符号化長に変更は存在しないが、（バイトごとのアドレスオフセットを取得するために、メモリオペランドのサイズによって変位をスケーリングする必要がある）ハードウェアによる変位値の解釈にのみ変更が存在する。即値フィールド８７２は、前述されたように演算する。
フルオペコードフィールド

図９Ｂは、本発明の一実施形態による、フルオペコードフィールド８７４を構成する特定ベクトル向け命令フォーマット９００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド８７４は、フォーマットフィールド８４０、基本演算フィールド８４２、及びデータ要素幅（Ｗ）フィールド８６４を含む。基本演算フィールド８４２は、プレフィクス符号化フィールド９２５、オペコードマップフィールド９１５、及びリアルオペコードフィールド９３０を含む。レジスタインデックスフィールド

図９Ｃは、本発明の一実施形態による、レジスタインデックスフィールド８４４を構成する特定ベクトル向け命令フォーマット９００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド８４４は、ＲＥＸフィールド９０５、ＲＥＸ'フィールド９１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド９４４、ＭＯＤＲ／Ｍ．ｒ／Ｍフィールド９４６、ＶＶＶＶフィールド９２０、ｘｘｘフィールド９５４、及びｂｂｂフィールド９５６を含む。
拡張演算フィールド

図９Ｄは、本発明の一実施形態による、拡張演算フィールド８５０を構成する特定ベクトル向け命令フォーマット９００のフィールドを示すブロック図である。クラス（Ｕ）フィールド８６８が０を含むとき、それはＥＶＥＸ．Ｕ０（クラスＡ８６８Ａ）を表し、それが１を含むとき、それは、ＥＶＥＸ．Ｕ１（クラスＢ８６８Ｂ）を表す。Ｕ＝０であり、且つ、ＭＯＤフィールド９４２が１１を含む（非メモリアクセス演算を意味する）とき、アルファフィールド８５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）が、ＲＳフィールド８５２Ａとして解釈される。ＲＳフィールド８５２Ａが１を含む（ラウンド８５２Ａ．１）とき、ベータフィールド８５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）が、ラウンド制御フィールド８５４Ａとして解釈される。ラウンド制御フィールド８５４Ａは、１つビットのＳＡＥフィールド８５６及び２ビットのラウンド演算フィールド８５８を含む。ＲＳフィールド８５２Ａが０を含む（データ変換８５２Ａ．２）とき、ベータフィールド８５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）が、３ビットのデータ変換フィールド８５４Ｂとして解釈される。Ｕ＝０であり、且つ、ＭＯＤフィールド９４２が００、０１、又は１０を含む（メモリアクセス演算を意味する）とき、アルファフィールド８５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）がエビクションヒント（ＥＨ）フィールド８５２Ｂとして解釈され、ベータフィールド８５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）が３ビットのデータ操作フィールド８５４Ｃとして解釈される。

Ｕ＝１であるときアルファフィールド８５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）が、書き込みマスク制御（Ｚ）フィールド８５２Ｃとして解釈される。Ｕ＝１であり、且つ、ＭＯＤフィールド９４２が１１を含む（非メモリアクセス演算を意味する）とき、ベータフィールド８５４の一部（ＥＶＥＸバイト３、ビット［４］−Ｓ_０）がＲＬフィールド８５７Ａとして解釈され、それが１を含む（ラウンド８５７Ａ．１）とき、ベータフィールド８５４の残り（ＥＶＥＸバイト３、ビット［６−５］−Ｓ_２−１）がラウンド演算フィールド８５９Ａとして解釈され、一方で、ＲＬフィールド８５７Ａが０を含む（ＶＳＩＺＥ８５７．Ａ２）とき、ベータフィールド８５４の残り（ＥＶＥＸバイト３、ビット［６−５］−Ｓ_２−１）がベクトル長フィールド８５９Ｂ（ＥＶＥＸバイト３、ビット［６−５］−Ｌ_１−０）として解釈される。Ｕ＝１であり、且つ、ＭＯＤフィールド９４２が００、０１、又は１０を含む（メモリアクセス演算を意味する）とき、ベータフィールド８５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）がベクトル長フィールド８５９Ｂ（ＥＶＥＸバイト３、ビット［６−５］−Ｌ_１−０）及びブロードキャストフィールド８５７Ｂ（ＥＶＥＸバイト３、ビット［４］−Ｂ）として解釈される。
例示的なレジスタアーキテクチャ

図１０は、本発明の一実施形態による、レジスタアーキテクチャ１０００のブロック図である。示される一実施形態において、５８ビット幅である３２個のベクトルレジスタ１０１０が存在し、これらのレジスタが、ｚｍｍ０〜ｚｍｍ３１として参照される。下位１６個のｚｍｍレジスタの下位２５６ビットが、レジスタｙｍｍ０〜１６に重ね合わされる。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）が、レジスタｘｍｍ０〜１５に重ね合わされる。特定ベクトル向け命令フォーマット１３００は、以下の表に示されるように、これらの重ね合わされたレジスタファイルで演算する。

言い換えれば、ベクトル長フィールド８５９Ｂは、最大長と１又は複数の他のより短い長さとの間で選択し、そのようなより短い長さの各々は先行する長さの半分の長さであり、ベクトル長フィールド８５９Ｂを有さない命令テンプレートが、最大ベクトル長で演算する。さらに、一実施形態において、特定ベクトル向け命令フォーマット１３００のクラスＢ命令テンプレートが、パックド又はスカラ単一／倍精度浮動小数点データ及びパックド又はスカラ整数データで演算する。スカラ演算は、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタで最下位のデータ要素位置で実行される演算であり、より上位のデータ要素位置が、実施形態に応じて、命令以前のままで残されるか、又はゼロ化されるかのいずれかである。

書き込みマスクレジスタ１０１５−示される一実施形態において、各６４ビットサイズの８個の書き込みマスクレジスタ（ｋ０からｋ７）が存在する。代替的な実施形態において、書き込みマスクレジスタ１０１５は、１６ビットサイズである。前述されたように、本発明の一実施形態において、ベクトルマスクレジスタｋ０は、書き込みマスクとして使用されることができず、通常ｋ０を示す符号化が書き込みマスクに使用されるとき、それは、０ｘＦＦＦＦのハードワイヤリングされた書き込みマスクを選択し、その命令についての書き込みマスキングを実質的に無効にする。

汎用レジスタ１０２５−示される一実施形態において、メモリオペランドをアドレス指定するために既存のｘ８６アドレス指定モードと共に使用される１６個の６４ビット汎用レジスタが存在する。これらのレジスタが、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ及びＲ８からＲ１５の名称で参照される。

ＭＭＸパックド整数フラットレジスタファイル１０５０がエイリアスされるスカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）１０４５−示される一実施形態において、ｘ８７スタックは、ｘ８７命令セット拡張を使用する３２／６４／８０ビット浮動小数点データにスカラ浮動小数点演算を実行するのに使用される８要素スタックであり、一方で、ＭＭＸレジスタが、６４ビットパックド整数データに演算を実行し、ＭＭＸとｘｍｍレジスタとの間で実行されるいくつかの演算に対するオペランドを保持する使用される。

本発明の代替的な複数の実施形態は、より広い又はより狭いレジスタを使用し得る。さらに、本発明の代替的な複数の実施形態は、より多い、より少ない、又は異なるレジスタファイル及びレジスタを使用し得る。
例示的なコアアーキテクチャ、プロセッサ、及びコンピュータアーキテクチャ

プロセッサコアが、異なる方法で、異なる目的のために、異なるプロセッサで実装され得る。例えば、そのようなコアの実装は、１）汎用コンピューティング向けの汎用インオーダコア、２）汎用コンピューティング向けの高性能汎用アウトオブオーダコア、３）主に、グラフィック及び／又は科学（スループット）コンピューティング向けの専用コアを含み得る。異なるプロセッサの実装は、１）汎用コンピューティング向けの１又は複数の汎用インオーダコア、及び／又は汎用コンピューティング向けの１又は複数の汎用アウトオブオーダコアを含むＣＰＵ、２）主にグラフィック及び／又は科学（スループット）向けの１又は複数の専用コアを含むコプロセッサを含み得る。そのような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、これは、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同一のパッケージ内の別個のダイ上のコプロセッサ、３）ＣＰＵと同一のダイ上のコプロセッサ（この場合、そのようなコプロセッサは、場合によっては、統合グラフィック及び／又は科学（スループット）ロジック等の専用ロジック、又は専用コアと称される）、４）同一のダイ上に、説明されたＣＰＵ（場合によっては、アプリケーションコア又はアプリケーションプロセッサと称される）と、上述されたコプロセッサと、追加機能とを含み得るシステムオンチップを含み得る。例示的なコアアーキテクチャが次に説明され、例示的なプロセッサ及びコンピュータアーキテクチャの説明が続く。
例示的なコアアーキテクチャ
インオーダ及びアウトオブオーダコアブロック図

図１１Ａは、本発明の複数の実施形態による、例示的なインオーダパイプライン及び例示的なレジスタリネーム、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図１１Ｂは、本発明の複数の実施形態による、プロセッサに含まれる、例示的な実施形態のインオーダアーキテクチャコア及び例示的なレジスタリネーム、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図１１Ａ〜図１１Ｂの実線のボックスは、インオーダパイプライン及びインオーダコアを示し、一方で、破線のボックスのオプションの追加は、レジスタリネーム、アウトオブオーダ発行／実行パイプライン、及びコアを示す。インオーダの態様がアウトオブオーダの態様のサブセットであると仮定して、アウトオブオーダの態様が説明される。

図１１Ａにおいて、プロセッサパイプライン１１００は、フェッチステージ１１０２、長さ復号ステージ１１０４、復号ステージ１１０６、割り当てステージ１１０８、リネームステージ１１１０、スケジューリング（ディスパッチ又は発行としても知られている）ステージ１５１２、レジスタ読み込み／メモリ読み込みステージ１１１４、実行ステージ１１１２、ライトバック／メモリ書き込みステージ１１１８、例外処理ステージ１１２２、及びコミットステージ１１２４を含む。

図１１Ｂは、実行エンジンユニット１１５０に連結されるフロントエンドユニット１１３０を含むプロセッサコア１１９０を示し、両方がメモリユニット１１７０に連結される。コア１１９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、復号命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、又は、ハイブリッド若しくは代替的なコアタイプであり得る。さらに他のオプションとして、コア１１９０は、例えば、ネットワーク若しくは通信コア、圧縮エンジン、コプロセッサコア、汎用計算グラフィック処理ユニット（ＧＰＧＰＵ）コア、グラフィックコア、又は同様のもののような専用コアであり得る。

フロントエンドユニット１１３０は命令キャッシュユニット１１３４に連結される分岐予測ユニット１１３２を含み、命令キャッシュユニット１１３４は命令トランスレーションルックアサイドバッファ（ＴＬＢ）１１３６に連結され、ＴＬＢ１１３６は命令フェッチユニット１１３８に連結され、命令フェッチユニット１１３８は復号ユニット１１４０に連結される。復号ユニット１１４０（又は復号器）は、命令を復号し得、１又は複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令、又は他の制御信号を出力として生成し得、これらは、元の命令から復号され、又は別の方法で元の命令を反映し、又は元の命令から導出される。復号ユニット１１４０は、様々な異なるメカニズムを使用して実装され得る。適切なメカニズムの例は、これに限定されないが、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリーメモリ（ＲＯＭ）等を含む。一実施形態において、コア１１９０は、特定のマクロ命令用のマイクロコードを（例えば、復号ユニット１１４０内に、又はそうでなければ、フロントエンドユニット１１３０内に）格納するマイクロコードＲＯＭ又は他の媒体を含む。復号ユニット１１４０が、実行エンジンユニット１１５０内のリネーム／アロケータユニット１１５２に連結される。

実行エンジンユニット１１５０は、リタイアメントユニット１１５４及び１又は複数のスケジューラユニット１１５６のセットに連結されるリネーム／アロケータユニット１１５２を含む。スケジューラユニット１１５６は、予約ステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表す。スケジューラユニット１１５６が、物理レジスタファイルユニット１１５８に連結される。物理レジスタファイルユニット１１５８のそれぞれは、１又は複数の物理レジスタファイルを表し、それらのうちの異なる１つ１つは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）等のような、１又は複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット１１５８は、ベクトルレジスタユニット、書き込みマスクレジスタユニット、及びスカラレジスタユニットを含む。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、及び汎用レジスタを提供し得る。物理レジスタファイルユニット１１５８は、レジスタリネーム及びアウトオブオーダ実行が（例えば、リオーダバッファ及びリタイアメントレジスタファイルを使用すること、将来ファイル、履歴バッファ、及びリタイアメントレジスタファイルを使用すること、レジスタマッピング及びレジスタのプールを使用すること等で）実装され得る様々な方法を示すために、リタイアメントユニット１１５４によって重ね合わされる。リタイアメントユニット１１５４及び物理レジスタファイルユニット１１５８は、実行クラスタ１１６０に連結される。実行クラスタ１１６０は、１又は複数の実行ユニット１１６２のセット及び１又は複数のメモリアクセスユニット１１６４のセットを含む。実行ユニット１１６２は、様々な演算（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に実行し得る。いくつかの実施形態は、特定の機能又は機能のセットに専用の多数の実行ユニットを含み得るが、他の複数の実施形態は、１つのみの実行ユニット又は全てが全ての機能を実行する複数の実行ユニットを含み得る。スケジューラユニット１１５６、物理レジスタファイルユニット１１５８、及び実行クラスタ１１６０は、特定の実施形態が特定のタイプのデータ／演算のための別個のパイプライン（例えば、スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、及び／又は各々がそれ自身のスケジューラユニット、物理レジスタファイルユニット、及び／又は実行クラスタを有するメモリアクセスパイプライン−別個のメモリアクセスパイプラインの場合、このパイプラインの実行クラスタのみがメモリアクセスユニット１１６４を有する特定の実施形態が実装される）を作成するので、場合によっては複数であるように示されている。別個のパイプラインが使用される場合、これらのパイプラインの１又は複数はアウトオブオーダ発行／実行であり得、残りがインオーダであり得ることも理解されるべきである。

メモリアクセスユニット１１６４のセットはメモリユニット１１７０に連結され、メモリユニット１１７０は、レベル２（Ｌ２）キャッシュユニット１１７６に連結されたデータキャッシュユニット１１７４に連結されたデータＴＬＢユニット１１７２を含む。１つの例示的な実施形態において、メモリアクセスユニット１１６４は、ロードユニットと、ストアアドレスユニットと、ストアデータユニットとを含み得、これらのそれぞれが、メモリユニット１１７０内のデータＴＬＢユニット１１７２に連結される。命令キャッシュユニット１１３４は、メモリユニット１１７０内のレベル２（Ｌ２）キャッシュユニット１１７６にさらに連結される。Ｌ２キャッシュユニット１１７６は、１又は複数の他のレベルのキャッシュに連結され、最終的にはメインメモリに連結される。

例として、例示的なレジスタリネーム、アウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプライン１１００を実装し得る。１）命令フェッチ１１３８は、フェッチステージ１１０２及び長さ復号ステージ１１０４を実行する。２）復号ユニット１１４０は、復号ステージ１１０６を実行する。３）リネーム／アロケータユニット１１５２は、割り当てステージ１１０８及びリネームステージ１１１０を実行する。４）スケジューラユニットは、スケジューリングステージ１５１２を実行する。５）物理レジスタファイルユニット１１５８及びメモリユニット１１７０は、レジスタ読み込み／メモリ読み込みステージ１１１４を実行し、実行クラスタ１１６０は、実行ステージ１１１２を実行する。６）メモリユニット１１７０及び物理レジスタファイルユニット１１５８は、ライトバック／メモリ書き込みステージ１１１８を実行する。７）様々なユニットが、例外処理ステージ１１２２に関与し得る。８）リタイアメントユニット１１５４及び物理レジスタファイルユニット１１５８は、コミットステージ１１２４を実行する。

コア１１９０は、本明細書で説明された命令を含む、１又は複数の命令セット（例えば、（より新しいバージョンで追加された、いくつかの拡張を有する）ｘ８６命令セット、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓの（ＮＥＯＮ等の任意選択的な追加拡張を有する）ＡＲＭ命令セット）をサポートし得る。一実施形態において、コア１１９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションによって使用される演算がパックドデータを使用して実行されることを可能にさせる。

コアは、マルチスレッディング（２又はこれより多くの並列セットの演算又はスレッドの実行）をサポートし得、タイムスライスマルチスレッディング、（単一物理コアが、物理コアが同時にマルチスレッディングしているスレッドのそれぞれに論理コアを提供する）同時マルチスレッディング、又はそれらの組み合わせ（例えば、インテル（登録商標）ハイパースレッディングテクノロジーにおけるような、タイムスライスフェッチ及び復号並びにその後の同時マルチスレッディング）を含む様々な方法でサポートし得ることが理解されるべきである。

レジスタリネームは、アウトオブオーダ実行との関連で説明されるが、レジスタリネームは、インオーダアーキテクチャで使用され得ることが理解されるべきである。プロセッサの示された実施形態はまた、別個の命令及びデータキャッシュユニット１１３４／１１７４並びに共有Ｌ２キャッシュユニット１１７６を含むが、代替的な複数の実施形態は、例えば、レベル１（Ｌ１）内部キャッシュ又は複数レベルの内部キャッシュ等の命令及びデータの両方のための単一の内部キャッシュを有し得る。いくつかの実施形態において、システムは、内部キャッシュと、コア及び／又はプロセッサの外部にある外部キャッシュとの組み合わせを含み得る。代替的に、全てのキャッシュが、コア及び／又はプロセッサの外部にあり得る。
具体的な例示的インオーダコアアーキテクチャ

図１２Ａ〜図１２Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロック図を示し、そのコアはチップ内の（同じタイプ及び／又は異なるタイプの他のコアを含む）いくつかのロジックブロックのうちの１つである。論理ブロックは、用途に応じて、高帯域幅相互接続ネットワーク（例えば、リングネットワーク）を介して、いくつかの固定機能ロジック、メモリＩ／Ｏインタフェース、及び他の必要なＩ／Ｏロジックと通信する。

図１２Ａは、本発明の複数の実施形態による、オンダイ相互接続ネットワーク１２０２への単一のプロセッサコアの接続、及びレベル２（Ｌ２）キャッシュ１２０４のそのローカルサブセットと併せた、単一のプロセッサコアのブロック図である。一実施形態において、命令復号器１２００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ１２０６は、スカラユニット及びベクトルユニットへのキャッシュメモリに対する低レイテンシなアクセスを可能にする。一実施形態において（設計を簡略化するために）スカラユニット１２０８及びベクトルユニット１２１０が別個のレジスタセット（それぞれ、スカラレジスタ１２１２及びベクトルレジスタ１２１４）を使用し、それらの間のデータ転送がメモリに書き込まれ、その後、レベル１（Ｌ１）キャッシュ１２０６から読み戻されるが、本発明の代替的な複数の実施形態は、異なるアプローチ（例えば、単一のレジスタセットを使用する、又はデータが書き込み及び読み戻しなしに２つレジスタファイル間で転送されることを可能にする通信経路を含む）を使用し得る。

Ｌ２キャッシュ１２０４のローカルサブセットは、プロセッサコアあたり１つの、別個のローカルサブセットに分割されたグローバルＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュ１２０４のそれ自身のローカルサブセットへの直接アクセス経路を有する。プロセッサコアにより読み込まれるデータは、そのＬ２キャッシュサブセット１２０４に格納され、他のプロセッサコアがそれら自身のローカルＬ２キャッシュサブセットにアクセスすることと並行して迅速にアクセスされ得る。プロセッサコアによって書き込まれたデータが、それ自身のＬ２キャッシュサブセット１２０４に格納され、必要な場合、他のサブセットからフラッシュされる。リングネットワークは、共有データに対するコヒーレンシを保証する。リングネットワークは、プロセッサコア、Ｌ２キャッシュ、及び他の論理ブロック等のエージェントがチップ内でお互いと通信することを可能するように双方向である。各リングデータ経路は、一方向あたり１０１２ビット幅である。

図１２Ｂは、本発明の複数の実施形態による、図１２Ａのプロセッサコアの一部の拡大図である。図１２Ｂは、Ｌ１キャッシュ１２０４の一部であるＬ１データキャッシュ１２０６Ａと、ベクトルユニット１２１０及びベクトルレジスタ１２１４に関するより詳細とを含む。具体的には、ベクトルユニット１２１０は、１２幅ベクトル処理ユニット（ＶＰＵ）（１２幅ＡＬＵ１２２８を参照）であり、これは、整数命令、単精度浮動命令、及び倍精度浮動命令のうちの１又は複数を実行する。ＶＰＵは、スウィズルユニット１２２０を用いたレジスタ入力のスウィズルと、数値変換ユニット１２２２Ａ−Ｂを用いた数値変換と、メモリ入力に対する複製ユニット１２２４を用いた複製とをサポートする。書き込みマスクレジスタ１２２６は、結果として生じるベクトル書き込みをプレディケートすることを可能にする。

図１３は、本発明の複数の実施形態による、１つより多くのコアを有し得、統合メモリコントローラを有し得、統合グラフィックを有し得るプロセッサ１３００のブロック図である。図１３の実線のボックスは、単一のコア１３０２Ａ、システムエージェント１３１０、１又は複数のバスコントローラユニット１３１２のセットを有するプロセッサ１３００を示し、一方、破線のボックスのオプションの追加は、複数のコア１３０２Ａ−Ｎ、システムエージェントユニット１３１０内の１又は複数の統合メモリコントローラユニット１３１４のセット、及び専用ロジック１３０８を有する代替のプロセッサ１３００を示す。

したがって、プロセッサ１３００の異なる実装は、１）（１又は複数のコアを含み得る）統合グラフィック及び／又は科学（スループット）ロジックである専用ロジック１３０８、及び、１又は複数の汎用コアであるコア１３０２Ａ−Ｎ（例えば、汎用インオーダコア、汎用アウトオブオーダコア、これら２つの組み合わせ）を有するＣＰＵと、２）主にグラフィック及び／又は科学（スループット）向けの多数の専用コアであるコア１３０２Ａ−Ｎを有するコプロセッサと、３）多数の汎用インオーダコアであるコア１３０２Ａ−Ｎを有するコプロセッサとを含み得る。したがって、プロセッサ１３００は、例えば、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ（汎用グラフィック処理ユニット）、（３０又はこれより多くのコアを含む）高スループット多統合コア（ＭＩＣ）コプロセッサ、組み込みプロセッサ、又は同様のものであるような、汎用プロセッサ、コプロセッサ、又は専用プロセッサであり得る。プロセッサは、１又は複数のチップ上に実装され得る。プロセッサ１３００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、又はＮＭＯＳ等の多数の処理技術のいずれを使用して、１又は複数の基板の一部であり得、及び／又は１又は複数の基板上に実装され得る。

メモリ階層は、コア内の１又は複数のレベルのキャッシュと、共有キャッシュユニット１３０６のセット又は１若しくは複数の共有キャッシュユニット１３０６と、統合メモリコントローラユニット１３１４のセットに連結された外部メモリ（不図示）とを含む。共有キャッシュユニットのセット１３０６は、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）又は他のレベルのキャッシュ等の１又は複数の中間レベルキャッシュ、最終レベルキャッシュ（ＬＬＣ）、及び／又はこれらの組み合わせを含み得る。一実施形態において、リングベースの相互接続ユニット１３１２は、統合グラフィックロジック１３０８（統合グラフィックロジック１３０８は、専用ロジックの例であり、本明細書では専用ロジックとも称される）、共有キャッシュユニットのセット１３０６、及びシステムエージェントユニット１３１０／統合メモリコントローラユニット１３１４を相互接続するが、代替的な複数の実施形態は、そのようなユニットを相互接続するための任意の数の周知技術を使用し得る。一実施形態において、コヒーレンシが１又は複数キャッシュユニット１３０６とコア１３０２Ａ−Ｎとの間で維持される。

いくつかの実施形態において、１又は複数のコア１３０２Ａ−Ｎは、マルチスレッディングが可能である。システムエージェント１３１０は、コア１３０２Ａ−Ｎを調整して演算するこれらのコンポーネントを含む。システムエージェントユニット１３１０は、例えば、電力制御ユニット（ＰＣＵ）及び表示ユニットを含み得る。ＰＣＵは、コア１３０２Ａ−Ｎ及び統合グラフィックロジック１３０８の電力状態を調整するために必要なロジック及びコンポーネントであり得、又は当該ロジック及びコンポーネントを含み得る。表示ユニットは、１又は複数の外部接続ディスプレイを駆動するためのものである。

コア１３０２Ａ−Ｎは、アーキテクチャ命令セットに関して同種又は異種であり得、すなわち、２又はこれより多いコア１３０２Ａ−Ｎが同一の命令セットを実行することが可能であってよく、一方で、他のコアが命令セットのサブセット又は異なる命令セットのみを実行することが可能であってよい。
例示的なコンピュータアーキテクチャ

図１４〜図１７は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、携帯情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、及び様々な他の電子デバイスのための当技術分野で知られた他のシステム設計及び構成にも適している。概して、本明細書で開示されたようなプロセッサ及び／又は他の実行ロジックを組み込むことが可能な多様なシステム又は電子デバイスは、概して適している。

ここで図１４を参照すると、本発明の一実施形態による、システム１４００のブロック図が示されている。システム１４００は、コントローラハブ１４２０に連結される、１又は複数のプロセッサ１４１０、１４１５を含み得る。一実施形態において、コントローラハブ１４２０は、グラフィックメモリコントローラハブ（ＧＭＣＨ）１４９０及び入力／出力ハブ（ＩＯＨ）１４５０（別個のチップ上にあり得る）を含む。ＧＭＣＨ１４９０は、メモリ１４４０及びコプロセッサ１４４５が連結されるメモリ及びグラフィックコントローラを含む。ＩＯＨ１４５０は、入力／出力（Ｉ／Ｏ）デバイス１４６０をＧＭＣＨ１４９０に連結する。代替的に、メモリ及びグラフィックコントローラの一方又は両方は、（本明細書で説明されるように）プロセッサ内に統合され、メモリ１４４０及びコプロセッサ１４４５は、プロセッサ１４１０とＩＯＨ１４５０を有する単一のチップ内のコントローラハブ１４２０とに直接連結される。

追加のプロセッサ１４１５の任意選択的な性質は、破線で図１４に示される。各プロセッサ１４１０、１４１５は、本明細書で説明される１又は複数の処理コアを含み得、プロセッサ１３００のいくつかのバージョンであり得る。

メモリ１４４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、又はこれら２つの組み合わせであり得る。少なくとも１つの実施形態について、コントローラハブ１４２０は、フロントサイドバス（ＦＳＢ）等のマルチドロップバス、ＱｕｉｃｋＰａｔｈインターコネクト（ＱＰＩ）等のポイントツーポイントインタフェース、又は同様の接続１４９５を介して、プロセッサ１４１０、１４１５と通信する。

一実施形態において、コプロセッサ１４４５は、例えば、高スループットＭＩＣプロセッサ、ネットワーク若しくは通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ、又は同様のもののような、専用プロセッサである。一実施形態において、コントローラハブ１４２０は、統合グラフィックアクセラレータを含み得る。

アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性、電力消費特性等を含む利点の一連のメトリックスに関して、物理リソース１４１０、１４１５の間には様々な差異が存在し得る。

一実施形態において、プロセッサ１４１０は、一般的なタイプの演算を処理するデータを制御する命令を実行する。命令内にコプロセッサ命令が組み込まれ得る。プロセッサ１４１０は、これらのコプロセッサ命令を付属のコプロセッサ１４４５によって実行されるべきタイプであるとして認識する。したがって、プロセッサ１４１０は、コプロセッサバス又は他の相互接続上で、これらのコプロセッサ命令（又は、コプロセッサ命令を表す制御信号）をコプロセッサ１４４５に発行する。コプロセッサ１４４５は、受信したコプロセッサ命令を受理し、これらを実行する。

ここで、図１５を参照すると、本発明の一実施形態による、第１のより具体的な例示的システム１５００のブロック図が示されている。図１５に示されるように、マルチプロセッサシステム１５００は、ポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続１５５０を介して連結される第１のプロセッサ１５７０及び第２のプロセッサ１５８０を含む。プロセッサ１５７０及び１５８０のそれぞれは、プロセッサ１３００のいくつかのバージョンであり得る。本発明の一実施形態において、プロセッサ１５７０及び１５８０は、それぞれプロセッサ１４１０及び１４１５であり、一方、コプロセッサ１５３８はコプロセッサ１４４５である。他の実施形態において、プロセッサ１５７０及び１５８０は、それぞれプロセッサ１４１０及びコプロセッサ１４４５である。

プロセッサ１５７０及び１５８０は、それぞれ、統合メモリコントローラ（ＩＭＣ）ユニット１５７２及び１５８２を含むものとして示される。プロセッサ１５７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ−Ｐ）インタフェース１５７６及び１５７８を含み、同様に、第２のプロセッサ１５８０は、Ｐ−Ｐインタフェース１５８６及び１５８８を含む。プロセッサ１５７０、１５８０は、ポイントツーポイント（Ｐ−Ｐ）インタフェース１５５０を介し、Ｐ−Ｐインタフェース回路１５７８、１５８８を使用して情報を交換し得る。図１５に示されるように、ＩＭＣ１５７２及び１５８２は、プロセッサをそれぞれのメモリ、すなわち、メモリ１５３２及びメモリ１５３４に連結し、は、これらは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であり得る。

プロセッサ１５７０、１５８０は、各々、ポイントツーポイントインタフェース回路１５７６、１５９４、１５８６、１５９８を使用して、個々のＰ−Ｐインタフェース１５５２、１５５４を介して、チップセット１５９０と情報を交換し得る。チップセット１５９０は、高性能インタフェース１５９２を介して、コプロセッサ１５３８と任意選択的に情報を交換し得る。一実施形態において、コプロセッサ１５３８は、例えば、高スループットＭＩＣプロセッサ、ネットワーク若しくは通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ、又は同様のもののような、専用プロセッサである。

共有キャッシュ（不図示）は、いずれかのプロセッサ内に又は両方のプロセッサの外部に含まれ得、さらに、Ｐ−Ｐ相互接続を介してプロセッサと接続され得、その結果、プロセッサが低電力モードに置かれた場合、いずれか又は両方のプロセッサのローカルキャッシュ情報は、共有キャッシュに格納され得る。

チップセット１５９０は、インタフェース１５９６を介して第１のバス１５１６に連結され得る。一実施形態において、第１のバス１５１６は、ペリフェラルコンポーネントインタコネクト（ＰＣＩ）バス、又はＰＣＩエクスプレスバス若しくは他の第３世代Ｉ／Ｏ相互接続バス等のバスであり得るが、本発明の範囲はこれに限定されない。

図１５に示されるように、様々なＩ／Ｏデバイス１５１４が、第１のバス１５１６を第２のバス１５２０に連結するバスブリッジ１５１８と共に、第１のバス１５１６に連結され得る。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、（例えば、グラフィックアクセラレータ又はデジタル信号処理（ＤＳＰ）ユニットのような）アクセラレータ、フィールドプログラマブルゲートアレイ、又は任意の他のプロセッサ等の１又は複数の追加プロセッサ１５１５は、第１のバス１５１６に連結される。一実施形態において、第２のバス１５１６は、ローピンカウント（ＬＰＣ）バスであり得る。一実施形態において、例えば、キーボード及び／又はマウス１５２２、通信デバイス１５２７、並びに、命令／コード及びデータ１５３０を含み得るディスクドライブ又は他の大容量ストレージデバイス等のストレージユニット１５２８を含む、様々なデバイスが、第２のバス１５１６に連結され得る。さらに、オーディオＩ／Ｏ１５２４が、第２のバス１５１６に連結され得る。他のアーキテクチャが可能であることも留意されたい。例えば、図１５のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバス又は他のそのようなアーキテクチャを実装し得る。

ここで図１６を参照すると、本発明の一実施形態による、第２のより具体的な例示的システム１６００のブロック図が示されている。図１５及び図１６の同様の要素は同様の参照符号を有し、図１６の他の態様を曖昧にすることを回避すべく、図１５の特定の態様が図１６から省略されている。

図１６は、プロセッサ１５７０、１５８０がそれぞれ統合メモリ及びＩ／Ｏ制御ロジック（「ＣＬ」）１５７２及び１５８２を含み得ることを示す。したがって、ＣＬ１５７２、１５８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図１６は、メモリ１５３２、１５３４がＣＬ１５７２、１５８２に連結されることのみならず、Ｉ／Ｏデバイス１６１４が制御ロジック１５７２、１５８２にも連結されることを示す。レガシＩ／Ｏデバイス１６１５が、チップセット１５９０に連結される。

ここで図１７を参照すると、本発明の一実施形態による、ＳｏＣ１７００のブロック図が示されている。図１３における同様の要素は、同様の参照符号を有する。また、破線のボックスは、より高度なＳｏＣ上の任意選択的な機能である。図１７において、相互接続ユニット１７０２は、キャッシュユニット１３０４Ａ−Ｎ及び共有キャッシュユニット１３０６を含む、１又は複数のコア１３０２Ａ−Ｎのセットを含む、アプリケーションプロセッサ１７１０と、システムエージェントユニット１３１０と、バスコントローラユニット１３１６と、統合メモリコントローラユニット１３１４と、統合グラフィックロジック、イメージプロセッサ、オーディオプロセッサ、及びビデオプロセッサを含み得るコプロセッサ１７１６のセット又は１又は複数のコプロセッサ１７１６と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット１７３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット１７３２と、１又は複数の外部ディスプレイに連結するための表示ユニット１７４０とに連結される。一実施形態において、コプロセッサ１７２０は、例えば、ネットワーク若しくは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサ、又は同様のもののような、専用プロセッサを含む。

本明細書で開示されたメカニズムの複数の実施形態は、ハードウェア、ソフトウェア、ファームウェア、又はそのような実装アプローチの組み合わせで実装され得る。本発明の複数の実施形態は、少なくとも１つのプロセッサと、（揮発性メモリ及び不揮発性メモリ及び／又はストレージ要素を含む）ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを備えるプログラマブルシステム上で実行するコンピュータプログラム又はプログラムコードとして実装され得る。

図１５に示されたコード１５３０等のプログラムコードは、本明細書で説明された機能を実行し、出力情報を生成するために、入力命令に適用され得る。出力情報は、既知の方法で１又は複数の出力デバイスに適用され得る。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）又はマイクロプロセッサ等のプロセッサを有する任意のシステムを含む。

プログラムコードは、処理システムと通信するために、高レベル手続型プログラミング言語又はオブジェクト指向型プログラミング言語で実装され得る。プログラムコードはまた、必要に応じて、アセンブリ言語又は機械言語で実装され得る。実際に、本明細書で説明されたメカニズムは、いかなる特定のプログラミング言語に範囲が限定されるものではない。いずれの場合でも、言語は、コンパイル型言語又はインタープリタ型言語であり得る。

少なくとも１つの実施形態の１又は複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体に格納された代表的な命令によって実装され得、これは、機械によって読み込まれるとき、本明細書で説明された技術を実行するロジックを機械に製造させる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に格納され得、実際にロジック又はプロセッサを作成する製造機械にロードするために様々な顧客又は製造施設に供給され得る。

そのような機械可読ストレージ媒体は、これらに限定することなしに、ハードディスク、フロッピーディスクと、光ディスクと、コンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）と、書き換え可能のコンパクトディスク（ＣＤ−ＲＷ）と、磁気光ディスクとを含む任意の他のタイプのディスク、リードオンリーメモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）等のランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）、磁気若しくは光カード等の半導体デバイス、又は電子命令を格納するのに適した任意の他のタイプの媒体等のストレージ媒体を含む、機械又はデバイスによって製造又は形成された物品の、非一時的で有形の配置を含み得る。

したがって、本発明の複数の実施形態はまた、本明細書で説明された構造、回路、装置、プロセッサ、及び／又はシステム機能を定義する、命令を含む、又はハードウェア記述言語（ＨＤＬ）等の設計データを含む、非一時的で有形の機械可読媒体を含む。そのような複数の実施形態はまた、プログラム製品と称され得る。
（バイナリ変換、コードモーフィング等を含む）エミュレーション

場合によっては、命令をソース命令セットからターゲット命令セットに変換するのに命令コンバータが使用され得る。例えば、命令コンバータは、命令をコアによって処理される１又は複数の他の命令に（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）翻訳し、モーフィングし、エミュレートし、又は別の方法で変換し得る。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、又はこれらの組み合わせで実装され得る。命令コンバータは、プロセッサ上、プロセッサ外、又は一部がプロセッサ上で一部がプロセッサ外であり得る。

図１８は、本発明の複数の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令に変換するソフトウェア命令コンバータの使用を対比するブロック図である。示された実施形態において、命令コンバータはソフトウェア命令コンバータであるが、代替的に、命令コンバータはソフトウェア、ファームウェア、ハードウェア、又はこれらの様々な組み合わせで実装され得る。図１８は、高水準言語１８０２のプログラムが、少なくとも１つのｘ８６命令セットコア１８１６を有するプロセッサによってネイティブに実行され得るｘ８６バイナリコード１８０６を生成するのにｘ８６コンパイラ１８０４を使用してコンパイルされ得ることを示す。少なくとも１つのｘ８６命令セットコアを有するプロセッサ１８１６は、少なくとも１つのｘ８６命令セットコアを有するインテルプロセッサと実質的に同一の結果を実現すべく、（１）インテルｘ８６命令セットコアの命令セットの実質的部分、又は（２）少なくとも１つのｘ８６命令セットコアを有するインテルプロセッサを起動することを目的とする、オブジェクトコードバージョンのアプリケーション若しくは他のソフトウェアを互換性があるように実行し、又は別の方法で処理することによって、少なくとも１つのｘ８６命令セットコアを有するインテルプロセッサと実質的に同一の機能を実行できる任意のプロセッサを表す。ｘ８６コンパイラ１８０４は、追加のリンク処理があってもなくても、少なくとも１つのｘ８６命令セットコア１８１６を有するプロセッサ上で実行できるｘ８６バイナリコード１８０６（例えば、オブジェクトコード）を生成するよう動作可能であるコンパイラを表す。同様に、図１８は、高水準言語１８０２のプログラムが、少なくとも１つのｘ８６命令セットコア１８１４を有さないプロセッサ（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰ命令セットを実行する、及び／又はカリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを有するプロセッサ）によってネイティブに実行され得る代替的な命令セットバイナリコード１８１０を生成するのに代替的な命令セットコンパイラ１８０８を使用してコンパイルされ得ることを示す。命令コンバータ１８１２が、ｘ８６命令セットコアを有さないプロセッサ１８１４によってネイティブに実行され得るコードにｘ８６バイナリコード１８０６を変換するのに使用される。この変換されたコードは、代替的な命令セットバイナリコード１８１０と同一である可能性が低い。なぜなら、これが可能な命令コンバータは作成するのが困難であるからである。しかしながら、変換されたコードは、一般的な演算を実現し、代替的な命令セットからの命令で構成される。したがって、命令コンバータ１８１２は、エミュレーション、シミュレーション、又は任意の他の処理を介して、ｘ８６命令セットプロセッサ若しくはコアを有さないプロセッサ又は他の電子デバイスがｘ８６バイナリコード１８０６を実行することを可能にする、ソフトウェア、ファームウェア、ハードウェア、又はこれらの組み合わせを表す。

さらなる例：

（例１）圧縮されたグラフィックリストにアクセスする単一の命令をフェッチするフェッチ回路と、上記フェッチされた単一の命令を復号する復号回路と、ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、上記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算すること、上記第２の演算エンジンによって、上記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を計算すること、及び、上記第３の演算エンジンによって、上記第３のデータ位置からデータを受信することに応答して、上記ロードストアキューにデータ応答を提供することによって、上記圧縮されたグラフィックリストへのアクセスをもたらす上記復号された単一の命令を実行する実行回路を備える、プロセッサ。

（例２）上記単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む、例１のプロセッサ。

（例３）上記第１の演算エンジンは、上記第１のデータ位置から第１のポインタを読み出し、第２のポインタと関連している上記第２のデータ位置を計算する、例１のプロセッサ。

（例４）上記第２の演算エンジンは、上記第２のデータ位置から上記第２のポインタを読み出し、第３のポインタと関連している上記第３のデータ位置を計算する、例３のプロセッサ。

（例５）データ位置はパイプライン間接参照システム内のメモリ位置を含む、例１のプロセッサ。

（例６）上記間接参照要求は、上記間接参照要求は多重間接参照又は単一間接参照のうちの少なくとも１つを含む、例１のプロセッサ。

（例７）上記間接参照要求は間接参照の演算を含み、上記間接参照の演算は間接参照のロード演算又は間接参照のストア演算を含む、例１のプロセッサ。

（例８）上記間接参照のロード演算又は上記間接参照のストア演算の間接参照のレベルを判断することをさらに含む、例７のプロセッサ。

（例９）上記データ応答は、データ値又はデータ確認応答のうちの少なくとも１つを含む、例１のプロセッサ。

（例１０）上記間接参照要求は上記ロードストアキューと関連しているアドレスを含み、上記ロードストアキューと関連している上記アドレスが上記間接参照要求で送信されて、上記パイプライン間接参照システムの１又は複数の演算エンジンで上記ロードストアキューにデータをリターンする、例１のプロセッサ。

（例１１）フェッチ回路及び復号回路を使用して、圧縮されたグラフィックリストにアクセスする単一の命令をフェッチして復号する段階と、ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、上記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を判断すること、上記第２の演算エンジンによって、上記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を判断すること、及び、上記第３の演算エンジンによって、上記第３のデータ位置からデータを受信することに応答して、上記ロードストアキューにデータ応答を提供することによって、実行回路を使用して、上記復号された命令に応答する段階とを備える方法。

（例１２）上記単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む、例１１の方法。

（例１３）上記第１の演算エンジンは、上記第１のデータ位置から第１のポインタを読み出し、第２のポインタと関連している上記第２のデータ位置を計算する、例１１の方法。

（例１４）上記第２の演算エンジンは、上記第２のデータ位置から上記第２のポインタを読み出し、第３のポインタと関連している上記第３のデータ位置を計算する、例１１の方法。

（例１５）上記間接参照要求は間接参照レベルを含み、上記間接参照レベルはマルチレベルの間接参照を示す、例１１の方法。

（例１６）上記間接参照要求は間接参照の演算を含み、上記間接参照の演算は間接参照のロード演算又は間接参照のストア演算を含む、例１１の方法。

（例１７）上記データ応答はデータ値を含む、例１１の方法。

（例１８）上記間接参照要求は上記ロードストアキューと関連しているアドレスを含み、上記ロードストアキューと関連している上記アドレスが上記間接参照要求で送信されて、上記パイプライン間接参照システムの１又は複数の演算エンジンで上記ロードストアキューにデータをリターンする、例１１の方法。

（例１９）メモリと、プロセッサであって、圧縮されたグラフィックリストにアクセスする単一の命令をフェッチするフェッチ回路と、上記フェッチされた単一の命令を復号する復号回路と、ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、上記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算すること、上記第２の演算エンジンによって、上記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を計算すること、及び、上記第３の演算エンジンによって、上記第３のデータ位置からデータを受信することに応答して、上記ロードストアキューにデータ応答を提供することによって、上記圧縮されたグラフィックリストへのアクセスをもたらす上記復号された単一の命令を実行する実行回路とを有する、プロセッサとを備える、システム。

（例２０）上記データ応答は、データ値又はデータ確認応答のうちの少なくとも１つを含む、例１９のシステム。
［その他の可能な項目］
［項目１］
圧縮されたグラフィックリストにアクセスする単一の命令をフェッチするフェッチ回路と、
上記フェッチされた単一の命令を復号する復号回路と、
ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、
上記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算すること、
上記第２の演算エンジンによって、上記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を計算すること、及び
上記第３の演算エンジンによって、上記第３のデータ位置からデータを受信することに応答して、上記ロードストアキューにデータ応答を提供すること
によって、上記圧縮されたグラフィックリストへのアクセスをもたらす上記復号された単一の命令を実行する実行回路と
を備える、プロセッサ。
［項目２］
上記単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む、項目１に記載のプロセッサ。
［項目３］
上記第１の演算エンジンは、
上記第１のデータ位置から第１のポインタを読み出し、
第２のポインタと関連している上記第２のデータ位置を計算する、
項目１に記載のプロセッサ。
［項目４］
上記第２の演算エンジンは、
上記第２のデータ位置から上記第２のポインタを読み出し、
第３のポインタと関連している上記第３のデータ位置を計算する、
項目３に記載のプロセッサ。
［項目５］
データ位置はパイプライン間接参照システム内のメモリ位置を含む、項目１に記載のプロセッサ。
［項目６］
上記間接参照要求は多重間接参照又は単一間接参照のうちの少なくとも１つを含む、項目１に記載のプロセッサ。
［項目７］
上記間接参照要求は間接参照の演算を含み、上記間接参照の演算は間接参照のロード演算又は間接参照のストア演算を含む、項目１に記載のプロセッサ。
［項目８］
上記間接参照のロード演算又は上記間接参照のストア演算の間接参照のレベルを判断することをさらに含む、項目７に記載のプロセッサ。
［項目９］
上記データ応答はデータ値又はデータ確認応答のうちの少なくとも１つを含む、項目１に記載のプロセッサ。
［項目１０］
上記間接参照要求は上記ロードストアキューと関連しているアドレスを含み、上記ロードストアキューと関連している上記アドレスが上記間接参照要求で送信されて、上記パイプライン間接参照システムの１又は複数の演算エンジンで上記ロードストアキューにデータをリターンする、項目１に記載のプロセッサ。
［項目１１］
フェッチ回路及び復号回路を使用して、圧縮されたグラフィックリストにアクセスする単一の命令をフェッチして復号する段階と、
ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、
上記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を判断すること、
上記第２の演算エンジンによって、上記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を判断すること、及び
上記第３の演算エンジンによって、上記第３のデータ位置からデータを受信することに応答して、上記ロードストアキューにデータ応答を提供すること
によって、実行回路を使用して、上記復号された命令に応答する段階と、
を備える、方法。
［項目１２］
上記単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む、項目１１に記載の方法。
［項目１３］
第１の演算エンジンは、
上記第１のデータ位置から第１のポインタを読み出し、
第２のポインタと関連している上記第２のデータ位置を計算する、
項目１１に記載の方法。
［項目１４］
上記第２の演算エンジンは、
上記第２のデータ位置から上記第２のポインタを読み出し、
第３のポインタと関連している上記第３のデータ位置を計算する、
項目１１に記載の方法。
［項目１５］
上記間接参照要求は間接参照レベルを含み、上記間接参照レベルはマルチレベルの間接参照を示す、項目１１に記載の方法。
［項目１６］
上記間接参照要求は間接参照の演算を含み、上記間接参照の演算は間接参照のロード演算又は間接参照のストア演算を含む、項目１１に記載の方法。
［項目１７］
上記データ応答はデータ値を含む、項目１１に記載の方法。
［項目１８］
上記間接参照要求は上記ロードストアキューと関連しているアドレスを含み、上記ロードストアキューと関連している上記アドレスが上記間接参照要求で送信されて、上記パイプライン間接参照システムの１又は複数の演算エンジンで上記ロードストアキューにデータをリターンする、項目１１に記載の方法。
［項目１９］
メモリと、
プロセッサであって、
圧縮されたグラフィックリストにアクセスする単一の命令をフェッチするフェッチ回路と、
上記フェッチされた単一の命令を復号する復号回路と、
ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、
上記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算すること、
上記第２の演算エンジンによって、上記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を計算すること、及び
上記第３の演算エンジンによって、上記第３のデータ位置からデータを受信することに応答して、上記ロードストアキューにデータ応答を提供すること
によって、上記圧縮されたグラフィックリストへのアクセスをもたらす上記復号された単一の命令を実行する実行回路と
を有する、プロセッサと
を備える、システム。
［項目２０］
上記データ応答はデータ値又はデータ確認応答のうちの少なくとも１つを含む、項目１９に記載のシステム。

Claims

圧縮されたグラフィックリストにアクセスする単一の命令をフェッチするフェッチ回路と、
前記フェッチされた単一の命令を復号する復号回路と、
ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、
前記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算すること、
前記第２の演算エンジンによって、前記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を計算すること、及び
前記第３の演算エンジンによって、前記第３のデータ位置からデータを受信することに応答して、前記ロードストアキューにデータ応答を提供すること
によって、前記圧縮されたグラフィックリストへのアクセスをもたらす前記復号された単一の命令を実行する実行回路と
を備える、プロセッサ。
前記単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む、請求項１に記載のプロセッサ。
前記第１の演算エンジンは、
前記第１のデータ位置から第１のポインタを読み出し、
第２のポインタと関連している前記第２のデータ位置を計算する、
請求項１又は２に記載のプロセッサ。
前記第２の演算エンジンは、
前記第２のデータ位置から前記第２のポインタを読み出し、
第３のポインタと関連している前記第３のデータ位置を計算する、
請求項３に記載のプロセッサ。
データ位置はパイプライン間接参照システム内のメモリ位置を含む、請求項１から４のいずれか一項に記載のプロセッサ。
前記間接参照要求は多重間接参照又は単一間接参照のうちの少なくとも１つを含む、請求項１に記載のプロセッサ。
前記間接参照要求は間接参照の演算を含み、前記間接参照の演算は間接参照のロード演算又は間接参照のストア演算を含む、請求項１に記載のプロセッサ。
前記間接参照のロード演算又は前記間接参照のストア演算の間接参照のレベルを判断することをさらに含む、請求項７に記載のプロセッサ。
前記データ応答はデータ値又はデータ確認応答のうちの少なくとも１つを含む、請求項１から８のいずれか一項に記載のプロセッサ。
前記間接参照要求は前記ロードストアキューと関連しているアドレスを含み、前記ロードストアキューと関連している前記アドレスが前記間接参照要求で送信されて、パイプライン間接参照システムの１又は複数の演算エンジンで前記ロードストアキューにデータをリターンする、請求項１に記載のプロセッサ。
フェッチ回路及び復号回路を使用して、圧縮されたグラフィックリストにアクセスする単一の命令をフェッチして復号する段階と、
ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、
前記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を判断すること、
前記第２の演算エンジンによって、前記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を判断すること、及び
前記第３の演算エンジンによって、前記第３のデータ位置からデータを受信することに応答して、前記ロードストアキューにデータ応答を提供すること
によって、実行回路を使用して、前記復号された命令に応答する段階と、
を備える、方法。
前記単一の命令は、リストロード、ポインタデリファレンス、間接参照のロード演算、又は間接参照のストア演算のうちの少なくとも１つを含む、請求項１１に記載の方法。
第１の演算エンジンは、
前記第１のデータ位置から第１のポインタを読み出し、
第２のポインタと関連している前記第２のデータ位置を計算する、
請求項１１又は１２に記載の方法。
前記第２の演算エンジンは、
前記第２のデータ位置から第２のポインタを読み出し、
第３のポインタと関連している前記第３のデータ位置を計算する、
請求項１１から１３のいずれか一項に記載の方法。
前記間接参照要求は間接参照レベルを含み、前記間接参照レベルはマルチレベルの間接参照を示す、請求項１１に記載の方法。
前記間接参照要求は間接参照の演算を含み、前記間接参照の演算は間接参照のロード演算又は間接参照のストア演算を含む、請求項１１に記載の方法。
前記データ応答はデータ値を含む、請求項１１に記載の方法。
前記間接参照要求は前記ロードストアキューと関連しているアドレスを含み、前記ロードストアキューと関連している前記アドレスが前記間接参照要求で送信されて、パイプライン間接参照システムの１又は複数の演算エンジンで前記ロードストアキューにデータをリターンする、請求項１１に記載の方法。
メモリと、
プロセッサであって、
圧縮されたグラフィックリストにアクセスする単一の命令をフェッチするフェッチ回路と、
前記フェッチされた単一の命令を復号する復号回路と、
ロードストアキューから、第１のデータ位置と関連している第１の演算エンジンで、間接参照要求を受信すること、
前記第１の演算エンジンによって、第２の演算エンジンと関連している第２のデータ位置を計算すること、
前記第２の演算エンジンによって、前記間接参照要求に応答して、第３の演算エンジンと関連している第３のデータ位置を計算すること、及び
前記第３の演算エンジンによって、前記第３のデータ位置からデータを受信することに応答して、前記ロードストアキューにデータ応答を提供すること
によって、前記圧縮されたグラフィックリストへのアクセスをもたらす前記復号された単一の命令を実行する実行回路と
を有する、プロセッサと
を備える、システム。
前記データ応答はデータ値又はデータ確認応答のうちの少なくとも１つを含む、請求項１９に記載のシステム。