JP2023048102A

JP2023048102A - 共有プリフェッチ命令およびサポート

Info

Publication number: JP2023048102A
Application number: JP2022110690A
Authority: JP
Inventors: ヒューズクリストファー; Christopher Hughes; ワンジェ; Zhe Wang; バウムダン; Baum Dan; ハイネッケアレクサンダー; Heinecke Alexander; ジョーガナスエヴァンゲロス; Georganas Evangelos; シャンリンシャン; Lingxiang Xiang; ヌズマンジョセフ; Nuzman Joseph; グプタリツ; Gupta Ritu
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-09-25
Filing date: 2022-07-08
Publication date: 2023-04-06
Also published as: EP4155911A1; CN115878506A; US20230101512A1

Abstract

【課題】共有プリフェッチ命令を処理する装置、方法、プログラム及び非一時的機械可読媒体を提供する。【解決手段】方法は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドと、を有する単一命令をのインスタンスをフェッチすること、を含む。オペコードは、回路が、ソースオペランドで指定されたバイトを含む提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものである。要求者は、共有プリフェッチ命令を有していたコアであり、オペコード自体または他のインジケータは、バイトが共有状態で格納されるためのものであることを規定し、プリフェッチするバイトは、最終レベルキャッシュ（ＬＬＣ）に格納される。【選択図】図１０

Description

今日の多くのプロセッサは、シングルスレッドアプリケーションを実行するために最適化される。これには、キャッシュ階層で行われるポリシーおよび設計決定が含まれる。スレッドがロードまたはストアを実行するとき、ハードウェアは、タッチされているデータがそのスレッドにとってプライベートであると仮定することが多い。一部のサーバプロセッサでは、例えば、全てのキャッシュにミスするロードでは、データは、排他的な状態で要求側コアのＬ２キャッシュにインストールされ、共有ＬＬＣキャッシュにはインストールされない。

本開示による様々な例が、以下の図面に関連して説明される。

例による、プロセッサに含まれ得る例示的な中央処理装置（ＣＰＵ）複合体のブロック図である。

例による、プロセッサに含まれ得る例示的なキャッシュ階層のブロック図である。

コヒーレントエージェントを使用する例を示す。

例による、共有プリフェッチ命令を少なくとも部分的に実装するプロセッサ内のキャッシュを示すブロック図である。

共有プリフェッチ命令なしでメインメモリ内で開始するデータの処理の例を示す。

共有プリフェッチ命令ありでメインメモリ内で開始するデータの処理の例を示す。

共有プリフェッチ命令なしで修正状態（Ｍ）のコアのプライベートキャッシュ内で開始するデータの処理の例を示す。

共有プリフェッチ命令ありで修正状態（Ｍ）のコアのプライベートキャッシュ内で開始するデータの処理の例を示す。

共有プリフェッチ命令などの命令を処理するためのハードウェアの例を示す。

共有プリフェッチ命令を処理するために実行される方法のいくつかの例を示す。

例示的なシステムの例を示す。

１つよりも多くのコアを有することができ、統合メモリコントローラを有することができ、統合グラフィックスを有することができるプロセッサの例のブロック図を示す。

例による、例示的なインオーダパイプライン、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

例によるプロセッサに含まれる、インオーダアーキテクチャコアの例示的な実施形態、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

図１３（Ｂ）の実行ユニット回路などの、実行ユニット回路の例を示す。

いくつかの例によるレジスタアーキテクチャのブロック図である。

命令フォーマットの例を示す。

アドレシングフィールドの例を示す。

第１のプレフィクスの例を示す。

第１のプレフィクス１６０１（Ａ）のＲ、Ｘ、およびＢフィールドがどのように使用されるかの例を示す。第１のプレフィクス１６０１（Ａ）のＲ、Ｘ、およびＢフィールドがどのように使用されるかの例を示す。第１のプレフィクス１６０１（Ａ）のＲ、Ｘ、およびＢフィールドがどのように使用されるかの例を示す。第１のプレフィクス１６０１（Ａ）のＲ、Ｘ、およびＢフィールドがどのように使用されるかの例を示す。

第２のプレフィクスの例を示す。第２のプレフィクスの例を示す。

第３のプレフィクスの例を示す。

例による、ソース命令セットにおけるバイナリ命令をターゲット命令セットにおけるバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図を示す。

本開示は、共有データのプリフェッチのための命令のための方法、装置、システム、および非一時的コンピュータ可読記憶媒体に関する。

バックグラウンドのキャッシングポリシーの欠点は、マルチスレッドアプリケーションを実行するときに、ハードウェアがデータを準最適な方法で処理し得ることである。本明細書では、一般的／重大なケースであるため、読み出し共有データを処理することに焦点を当てて詳細に説明する。読み出し共有データの場合、それを可能な限り迅速に共有キャッシュにインストールして、後のリーダが共有キャッシュ内でヒットするようにする利点があり得る。代替案は、スヌープまたはメモリ階層の次のレベルへの冗長アクセスを必要とするものである。

いくつかの例では、サーバＣＰＵおよび／またはチップセットは、データが１つのコアのプライベートキャッシュにあり、別のコアがデータを要求するときにスヌープを使用する。クリーンなデータの場合、スヌープされると、データは共有キャッシュにインストールされる。読み出し共有データが非常に多数のコアによって共有される場合、これらのスヌープはアクセスのごく一部であり、重要ではない。しかしながら、適度な数のコア（例えば、２、４、または８）によって共有されるデータの場合、これらのスヌープのコストは非常に大きくなり得る。このコストは、より長い待ち時間、より高いメッシュトラフィック、およびキャッシングエージェント（キャッシングおよびホームエージェント（ＣＨＡ）と呼ばれることもある）に対する圧力の増加の形態で生じる。

いくつかのシステムは、共有キャッシュにデータをプッシュするためにスレッドによって使用され得るキャッシュラインデモート（ＣＬＤＥＭＯＴＥ）命令を含むことに留意されたい。いくつかの命令セットアーキテクチャ（ＩＳＡ）は、メモリ動作が、データが属するべきキャッシュのレベルで指定する（または示唆する）ことを可能にする。これは、キャッシュ階層の全てのレベル（例えば、Ｔ０）へのデータのプリフェッチ、レベル２キャッシュ以上（例えば、Ｔ１）へのデータのプリフェッチ、レベル３キャッシュ以上へのデータのプリフェッチ、もしくは実装固有の選択（例えば、Ｔ２）、ならびに／または非一時的キャッシュ構造およびプロセッサに近い位置へのデータのプリフェッチなどの示唆を含み、キャッシュ汚染を最小限に抑える（例えば、ＮＴＡ）。

データの一部が共有されていることを知ることで、ハードウェアは、それを他の場合とは異なるキャッシュに配置し、および／または他の場合とは異なるコヒーレンス状態にデータを置くことができる。これにより、共有データのコヒーレンストラフィック量が減少し、キャッシュヒット率が増加する。これにより、性能（オンダイメッシュおよび様々なキャッシュ上の待ち時間の低減および圧力の低減による）および電力効率が改善される。

共有アドレス空間およびハードウェアのキャッシュコヒーレンスを有するアーキテクチャでは、通常、ハードウェアは、スレッドが「プライベート」データ、すなわちそのスレッドによってのみタッチされたデータ、または「共有」データ、すなわち複数のスレッドによってタッチされたデータをロード／格納しようとしているときの違いを容易に区別することができない。メモリ／キャッシュ階層に応じて、プライベートデータと共有データを異なる方法で処理することには利点があり得る。そのようなシステムでは、ソフトウェアは、共有データにタッチしようとしていることを知ることができ、その情報をハードウェアに伝達することができ、データのより効率的な処理を可能にする。

本明細書では、プリフェッチされるデータが他のスレッドによって共有されることを示唆してプリフェッチを実行する命令およびそのサポートの例を詳細に説明する。最も重要なケースは、他のスレッドによって読み出し共有されるデータに関するものである。いくつかの例では、モデル固有レジスタ（ＭＳＲ）内のビットは、設定されると、少なくともいくつかのソフトウェアプリフェッチ命令が共有データにタッチしているかのように挙動するように挙動を変更する。

特に、いくつかの例では、「共有プリフェッチ」命令ＰＲＥＦＥＴＣＨＳｍ８が記載される。この命令の実行は、データが複数のスレッドによって共有されることをハードウェアに示唆しながら、Ｍ８によって指定されたバイトを含むメモリからのデータのラインのプリフェッチを引き起こす。

図１は、例による、プロセッサに含まれ得る例示的な中央処理装置（ＣＰＵ）複合体のブロック図である。いくつかの例では、Ｌ３キャッシュは、４コアモジュール（ＣＰＵ複合体またはＣＣＸと称される）に分割された８ＭＢの１６ウェイキャッシュであり、コアごとに２ＭＢ「スライス」のＬ３キャッシュを提供する。しかしながら、ＣＣＸ内のＬ３キャッシュスライスは、Ｌ３キャッシュが共有キャッシュであるように実装される。複数のＣＣＸが、単一のプロセッサ（例えば、２つのＣＣＸは１６ＭＢのＬ３キャッシュを形成する）に含まれ得る。各ＣＣＸ上の８ＭＢキャッシュは別個であるため、データが必要かどうかを判定するために他のＬ３キャッシュへの適切なフックを有する４コアモジュールごとの最終レベルキャッシュとして機能する（Ｌ３キャッシュ設計に含まれるプロトコルは、各コアが他のコアの各々のＬ３キャッシュにアクセスすることを可能にする）。したがって、これらのＬ１、Ｌ２、およびＬ３キャッシュはコヒーレントキャッシュであり、ＣＣＸ内およびＣＣＸ間のＬ３キャッシュスライスは、キャッシュコヒーレントインターコネクト（キャッシュコヒーレントファブリックとも称される）によって接続されている。

図２は、例による、プロセッサに含まれ得る例示的なキャッシュ階層のブロック図である。図２において、キャッシュ階層２００は、Ｌ１ｉ－キャッシュ２１０ＡおよびＬ１ｄ－キャッシュ２１０Ｂ（まとめて、Ｌ１キャッシュ２１０）と、Ｌ２命令およびデータキャッシュ２２０と、レベル３（Ｌ３）命令およびデータキャッシュ２３０とを含む。いくつかの例では、Ｌ１キャッシュ２１０およびＬ２キャッシュ２２０の両方がプライベート／ローカルライトバックキャッシュであり、一方、Ｌ３キャッシュ２３０は犠牲キャッシュである。いくつかの例では、Ｌ１ｉ－キャッシュ２１０Ａは６４ＫＢの４ウェイキャッシュであり、Ｌ１ｄ－キャッシュ２１０Ｂは３２ＫＢの８ウェイキャッシュであり、Ｌ２キャッシュ２２０は５１２ＫＢの８ウェイキャッシュであり、レベル３（Ｌ３）キャッシュ２３０は８ＭＢの１６ウェイキャッシュである。
メモリ構成の特徴

例によるプロセッサコア、プロセッサ、およびシステムは、メモリの構成および使用に関連する様々な特徴を含むことができる。いくつかのそのような特徴は、以下の非限定的な例を使用して別々に説明されるが、例は、そのような特徴の任意の組み合わせを含むことができる。
例示的なメモリ階層

図３は、例による、メモリ階層を示すブロック図である。図示のメモリ階層は、様々なプロセッサコア、コアクラスタ、ＣＣＸ、プロセッサ、コンピュータアーキテクチャなどと共に実装することができる。図３は、コヒーレントエージェント３００およびコヒーレントエージェント３０１、ならびに「...」および点線のボックスを使用したコヒーレントエージェント３０２によって表される他のコヒーレントエージェントの可能性を示す。図３のメモリ階層は、コヒーレントキャッシュ３０４Ａ、インターコネクト３２０、およびダウンストリームメモリ３３０を含む。異なる例は、コヒーレントキャッシュ３０４Ａの一部として異なる数のキャッシュおよびキャッシュレベルを実装することができる。コヒーレントエージェントおよびコヒーレントキャッシュは、キャッシュコヒーレンシプロトコル（例えば、「修正」、「排他的」、「共有」、および「無効」のキャッシュコヒーレンシプロトコル状態を使用するＭＥＳＩプロトコル；「転送」のキャッシュコヒーレンシプロトコル状態を追加するＭＥＳＩＦプロトコル；代わりに「所有」のキャッシュコヒーレンシプロトコル状態を追加するＭＯＥＳＩプロトコル；ならびに他のそのようなキャッシュコヒーレンシプロトコル）を使用してキャッシュコヒーレンシが維持されるキャッシュコヒーレンスドメインの一部である。

コヒーレントエージェント３００は、キャッシュ階層の連続的に下位レベルの１つまたは複数のキャッシュを介してインターコネクト３２０に結合される。キャッシュ階層は、キャッシュ階層の最上位レベルにあり、コヒーレントエージェント３００に結合されているキャッシュと、キャッシュ階層の最下位レベルにあり、インターコネクト３２０に結合されているキャッシュ（例えば、Ｌ３キャッシュ３１５）（したがって、このキャッシュは最下位レベルキャッシュまたは最終レベルキャッシュ（ＬＬＣ）と称される）と、上位レベルのキャッシュのうちの１つおよび下位レベルのキャッシュのうちの１つに結合されているキャッシュ階層の中間レベルにある０個以上のキャッシュ（例えば、Ｌ２キャッシュ３１０）とを含む（例えば、図３は、インターコネクト３２０に結合されたＬ３キャッシュ３１５に結合されたＬ２キャッシュ３１０に結合されたＬ１キャッシュ３０５に結合されたコヒーレントエージェント３００を示す）。

コヒーレントエージェント３０１もまた、１つまたは複数のレベルのキャッシュを介してインターコネクトに結合される。図３は、Ｌ３キャッシュ３１５に結合された任意のＬ２キャッシュ３１１に結合された任意のＬ１キャッシュ３０６に結合されたコヒーレントエージェント３０１を示す。さらに、図３はまた、任意のコヒーレントエージェント３０２がインターコネクト３２０に直接結合され得る（すなわち、いかなるコヒーレントキャッシュも有しない）ことも示している。

連続するレベルのキャッシュを介してインターコネクト３２０に結合されるコヒーレントエージェントを含む接続性に加えて、またはその代わりに、特定の例は、（例えば、点線３３５、３３６、３３７、および３３８によってそれぞれ示されているように、コヒーレントエージェント３００をインターコネクト３２０に直接結合する、コヒーレントエージェント３００をＬ２キャッシュ３１０に直接結合する、Ｌ１キャッシュ３０５をインターコネクト３２０に直接結合する、および／またはＬ２キャッシュ３１０をインターコネクト３２０に直接結合する）直接またはより直接的な通信を可能にする他の接続性を実装する。

インターコネクト３２０は、ダウンストリームメモリ３３０に（例えば、１つまたは複数のメモリコントローラ（図示せず）のセットを介して）結合される。ダウンストリームメモリ３３０は、コヒーレントキャッシュ３０４よりも下位レベルのメモリ階層にあり、１つまたは複数のタイプのメモリおよび／またはメモリの階層（例えば、揮発性メモリおよび／または不揮発性メモリ、メインメモリ、メモリマップド入力／出力（ＭＭＩＯ）、メモリ側キャッシュ、２レベルメモリ（２ＬＭ）、ＤＲＡＭ、フラッシュ、相変化メモリ、３ＤＸｐｏｉｎｔ（商標））を含むことができる。

インターコネクト３２０（キャッシュコヒーレントインターコネクト、ファブリック、インターコネクト、アンコアの一部、インターコネクトネットワーク、インターコネクトユニットとも称される）は、コヒーレントキャッシュ３０４にスヌープを発行し、そこから任意の応答を受信するためのスヌープコントローラ３２５を含む。スヌープコントローラ３２５は、スヌープを発行するためのスヌープ発生器３２６と、いくつかの例では、任意の応答を受信するためのスヌープレスポンダ３２７とを含む。さらに、いくつかの例では、インターコネクト３２０はＬ３キャッシュ３１５とダウンストリームメモリ３３０との間にあるものとして示されているが、代替の例は、別の位置でインターコネクト３２０を実装することができる（例えば、Ｌ２キャッシュとＬ３キャッシュとの間で、インターコネクト３２０から（例えば、ホームエージェントとして）ダウンストリームメモリ３３０へのセットもしくは１つもしくは複数のメモリコントローラ、またはＬ３キャッシュ３１５とダウンストリームメモリ３３０との間のセットもしくは１つもしくは複数のメモリコントローラのいずれか）。インターコネクト３２０（例えば、スヌープコントローラ３２５の一部として）は、スヌープフィルタ（図示せず）などの他の項目を含むことができる。

異なる例は、（中央処理装置（ＣＰＵ）としても知られる）汎用コアとして異なる数のコヒーレントエージェントを用いて実装されてもよい。例えば、いくつかの例では、コヒーレントエージェント３００はコアであり、コヒーレントエージェント３１はコアであり、コアである０個以上の追加のコヒーレントエージェントがあり、他のタイプのエージェント（例えば、ほんの数例を挙げると、汎用プロセッサ、サーバプロセッサもしくはサーバ環境で使用するための処理要素、コプロセッサ（例えば、セキュリティコプロセッサ）高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックスアクセラレータもしくはデジタル信号処理（ＤＳＰ）ユニット、暗号化アクセラレータ、固定機能アクセラレータ、機械学習アクセラレータ、ネットワーキングアクセラレータ、またはコンピュータビジョンアクセラレータなど）、フィールドプログラマブルゲートアレイ、または任意の他のプロセッサもしくは処理デバイス）である０個以上の追加のコヒーレントエージェントがある。

いくつかの例では、コヒーレントエージェントおよびコヒーレントキャッシュ３０４は、図３のように実装される。例えば、ＣＣＸには、コア、コアごとのプライベート／ローカルＬ１キャッシュ、コアごとのプライベート／ローカルＬ２キャッシュ、および共有Ｌ３キャッシュである４つのコヒーレントエージェントがあり、単一のプロセッサに結合された複数のＣＣＸがあり得る。Ｌ１およびＬ２キャッシュはライトバックキャッシュであり、Ｌ２キャッシュは包括的キャッシュであり、Ｌ３キャッシュは犠牲キャッシュである。さらに、Ｌ３キャッシュ３１５は、モジュール（ＣＣＸ）内の複数のコヒーレントエージェント（例えば、４コアでコアあたり２ＭＢ、合計８ＭＢ）間、および任意に１つまたは複数のそのようなモジュール（例えば、１６ＭＢのＬ３キャッシュを形成するために、各々が８ＭＢを有する２つのＣＣＸ）間でスライスに分割される。図３は、コヒーレントエージェント３００のＬ３キャッシュスライス３１６およびコヒーレントエージェント３０１のＬ３キャッシュスライス３１７を用いてこれを示す。インターコネクト３２０は、例えば、１）ＣＣＸ内のインターコネクトのみ、２）ＣＣＸ内およびＣＣＸ間のインターコネクト、３）異なるＣＣＸ内の別個のインターコネクト、ならびにＣＣＸ間のインターコネクトを表すことができる。異なる例は、リング、複数のリング、ポイントツーポイントリンク、共有バスなどのうちの１つまたは複数を含め、インターコネクト３２０を異なって実装することができる。ホームエージェントおよびキャッシングエージェントを実装する例では、インターコネクト３２０は、キャッシングエージェントを含むと考えられる。

図３のコヒーレントエージェントのうちの１つまたは複数、または全ては、共有プリフェッチ命令を実行するように実装されてもよい。共有プリフェッチ命令を現在実行しているコヒーレントエージェントは、「発行エージェント」、「発行コヒーレントエージェント」、または「第１のエージェント」であり、そのキャッシュは、発行エージェントのＬｘキャッシュと称される（ここで、ｘは、１、２、または３であってもよく、Ｌ３キャッシュがスライスで実装される場合、それは発行エージェントのＬ３キャッシュスライスである）。以下の説明では、これはコヒーレントエージェント３００である。共有プリフェッチ命令を現在実行していないコヒーレントエージェントは、「コヒーレントだが非発行エージェント」、「非発行エージェント」、「非発行コヒーレントエージェント」、または「第２のエージェント」と称され（上述したように、複数の第２のエージェントが存在してもよいが、簡略化のために以下で１つを説明する）、そのキャッシュは、第２のエージェントのＬｘキャッシュと称される（ここで、ｘは、１、２、または３であってもよく、Ｌ３キャッシュがスライスで実装される場合、それは第２のエージェントのＬ３キャッシュスライスである）。
例示的なキャッシュアーキテクチャ

図４は、例による、共有プリフェッチ命令を少なくとも部分的に実装するプロセッサ内のキャッシュを示すブロック図である。図４はＬｘキャッシュ４５０を含み、ｘはキャッシュ階層内のレベル（例えば、１、２、３）を示す。Ｌｘキャッシュ４５０は、ヒット／ミスの検出、キャッシュラインへの書き込み／読み出しの実行、スヌープの受信（したがって、いくつかの例では、キャッシュコントローラ４５１はスヌープインタフェースを含み、いくつかの例では、スヌープコントローラ４４３を含む）などを含む、キャッシュの動作を制御するためのキャッシュコントローラ４５１を含む。キャッシュコントローラは、エントリ４６０を有するタグアレイ４５５を含み（「タグ状態」と称されることもあるものを含む）、Ｌｘキャッシュ４５０は、対応するキャッシュライン４７０を有するデータアレイ４５６を含む。各エントリ４６０は、所与のアドレスがキャッシュライン４７０の対応するもの内のデータをヒットまたはミスするかどうかを判定するために使用されるタグを格納するためのタグフィールド４６１を含む。さらに、各エントリ４６０は、キャッシュライン４７０の対応するものに格納されるデータの属性を格納するための１つまたは複数の属性フィールド４６２（「タグ状態」と称されることもある）のセットを含む。属性フィールド４６２は、キャッシュライン４７０の対応するものに格納されたデータの現在のキャッシュコヒーレンシプロトコル状態を示す値を格納するためのキャッシュコヒーレンシプロトコル状態フィールド４６５を含む。属性フィールド４６２は、任意に、ゼロラインフィールド４６６、ポイズンフィールド４６７、誤り訂正符号フィールド（図示せず）などの他のフィールドを含むことができる。図４は、タグアレイ内にある属性フィールド４６２を示しているが、代替の例は、これらのフィールドを別個の状態アレイ（図示せず）に実装することができる。いくつかの例では、所与のキャッシュラインは、ポイズンフィールド４６７に複数のポイズン指示（例えば、６４バイトキャッシュラインの２つの３２バイトチャンクに対して１つ）を有し得る。図４は別個のポイズンフィールド４６７を示しているが、代替の例は、ポイズン指示を別のフィールド（例えば、誤り訂正符号（ＥＣＣ）フィールドまたはキャッシュコヒーレンシプロトコル状態フィールド）にエンコードすることができる。

（例えば、タグフィールド４６１内のタグに基づいて）キャッシュ内のヒットに応答して、キャッシュコントローラ４５１は、ヒットについてのキャッシュコヒーレンシプロトコル状態フィールド４５６（例えば、そのタグが一致したタグフィールド４６１に対応するキャッシュコヒーレンシプロトコル状態フィールド４５６）内のキャッシュコヒーレンシプロトコル状態に応答するための回路（例えば、キャッシュコヒーレンシプロトコル状態回路または他の回路）を含み、この応答は、例同士の間で、および様々な要因（例えば、キャッシュルックアップが書き込みコマンド、読み出しコマンド、スヌープ（および場合によってはスヌープのタイプ）に応答して開始されたかどうか）に基づいて異なる。例えば、いくつかの例では、以下でより詳細に説明するように、応答は、キャッシュコヒーレンシプロトコル状態が、書き込みコマンドおよび／または特定のタイプのスヌープに応答してキャッシュラインを変更するキャッシュ権限（例えば、「修正」または「排他的」状態）を付与するものであるかどうかを判定するためのものである。いくつかの例では、キャッシュコントローラ４５１は、１）コマンド（例えば、書き込みコマンド、読み出しコマンド、スヌープコマンド）に応答してキャッシュにヒットまたはミスがあるかどうかを判定するためのヒットミス回路（図示せず）と、２）スヌープを受信し、応答メッセージをスヌープに送信するためのスヌープインタフェース（図示せず）に結合されたスヌープコントローラ４４３と、３）キャッシュライン読み出し回路（図示せず）およびキャッシュライン書き込み回路（図示せず）とを含む。

そのような命令の概念的な利点を実証するために、以下の図は、２つのケース、すなわち、メインメモリで開始するデータと、１つのコアのプライベートキャッシュでダーティに開始するデータのための命令がある場合およびこの命令がない場合での、コアの外部（アンコアとも呼ばれる）の挙動を示す。

図５は、共有プリフェッチ命令なしでメインメモリ内で開始するデータの処理の例を示す。ここで、第１のリーダであるコア０５０１は、ＬＬＣ５０３でミスし、ＤＲＡＭからデータをフェッチし、そのプライベートキャッシュ内のデータを排他的状態（Ｅ）に置く。これは、ラインがプライベートであり、コア０５０１が最終的にラインを書き込む場合にうまく機能する。しかしながら、読み出し共有の場合には最適ではない。ここで、第２のリーダであるコア１５０５は、ＬＬＣ５０３でミスし、コア０５０１からのデータのコピーをスヌープし（これにより、状態を共有状態（Ｓ）に変化させ）、これはまた、共有状態のＬＬＣ５０３およびコア１５０３へのラインのコピーの配置をトリガする。最後に、第３のリーダであるコア２５０７がＬＬＣ５０３内でヒットする。

図６は、共有プリフェッチ命令ありでメインメモリ内で開始するデータの処理の例を示す。共有プリフェッチ命令を使用するソフトウェアの場合、第１のリーダ（コア０６０１）は、共有プリフェッチ命令を使用してデータにタッチする。これは、アンコアへの異なる種類の要求をトリガし、タッチされているデータが共有データとして扱われるべきであることをアンコアに通知する。図示されるように、コア０６０１からの共有プリフェッチは、共有されたコード読み出しをトリガする。これは、キャッシングエージェント／最終レベルキャッシュ（ＬＬＣ）に、データを共有状態（Ｓ）でＬＬＣ６０３にインストールし、コピーをコア０６０１に返して共有状態（Ｓ）で格納するように命令する。後のリーダであるコア１６０５およびコア２６０７の両方は、ＬＬＣ６０３内の共有データにヒットする。この図は、コア１６０５およびコア２６０７が通常の読み出しを実行していることを示しているが、実際には、誰が最初にラインにタッチするか分からないため、共有プリフェッチも発行する可能性が高い。

図７は、共有プリフェッチ命令なしで修正状態（Ｍ）のコアのプライベートキャッシュ内で開始するデータの処理の例を示す。ここで、第１のリーダであるコア０７０１は、ＬＬＣ７０３でミスし、コア１の７０５プライベートキャッシュからデータをスヌープする。コヒーレンスプロトコルは、Ｍ２Ｉ（ｍｏｄｉｆｉｅｄ－ｔｏ－ｉｎｖａｌｉｄ）フローを使用し、これにより、ラインの所有権がコア１７０５からコア０７０１に移行する。これは、コア０７０１がラインに書き込み続ける場合には良好に機能するが、読み出し共有の場合には最適ではない。ここで、コア１７０５は、次にデータを読み出し、それ自体のプライベートキャッシュ（以前にラインのコピーを有していたとしても）およびＬＬＣ７０３でミスし、コア０７０１からラインをスヌープし返す。これは、ＬＬＣ７０３内へのラインのコピーの配置をトリガする。最後に、第３のリーダであるコア２７０７がＬＬＣ７０３内でヒットする。

図８は、共有プリフェッチ命令ありで修正状態（Ｍ）のコアのプライベートキャッシュ内で開始するデータの処理の例を示す。第１のリーダ（コア０８０１）は、共有プリフェッチ命令を使用してデータにタッチする。前のケース（ＤＲＡＭ内のデータ）と同様に、コア０８０１からの共有プリフェッチは、共有されたコード読み出しをトリガする。これは、データを共有状態でＬＬＣ８０３にインストールし、コピーをコア０８０３に返すようにＬＬＣ８０３に命令する。データは修正状態でコア１の８０５キャッシュで開始するため、ハードウェアはＭ２Ｓ（ｍｏｄｉｆｉｅｄ－ｔｏ－ｓｈａｒｅｄ）フローを使用してコア１の８０５プライベートキャッシュからデータをスヌープし、コア１の８０５プライベートキャッシュにラインのコピーを残す。後にコア１８０５がラインを読み出すと、それはそのプライベートキャッシュ内でヒットする（これによりトラフィックが発生しないため、図には示されていない）。最後に、コア２が８０７を読み出すと、それはＬＬＣ８０３内でヒットする。

上記の図から分かるように、読み出し共有データの場合、単一のプライベートキャッシュに配置しようとするのではなく共有キャッシュにラインをインストールすると、コヒーレンストランザクションが大幅に減少する。

いくつかの例では、アプリケーション内の既存のプリフェッチ命令の一部または全てをオーバーライドし、それらを共有プリフェッチとして扱うメカニズムが使用される。オーバーライドはソフトウェアによって行われ、構成レジスタ、機械固有レジスタ、範囲レジスタ、ページテーブルエントリ内の新しいビット、またはプリフェッチ命令のサブセット（特定のオペコードおよび／または特定のＩＰ）および／またはデータもしくは命令アドレスの範囲／セットを指定するための別のメカニズムを介して行われ得る。オーバーライドを担当するコアまたはアンコア内のハードウェアは、プリフェッチ命令がオーバーライドのターゲットであることを検出し、その挙動を変更する。

図９は、共有プリフェッチ命令などの命令を処理するためのハードウェアの例を示す。示されるように、記憶装置９０３は、実行されるべき共有プリフェッチ命令９０１を格納する。

命令９０１はデコード回路９０５によって受信される。例えば、デコード回路９０５は、フェッチロジック／回路からこの命令を受信する。

少なくとも１つの命令フォーマットのより詳細な例は後に詳述される。デコード回路９０５は、命令を１つまたは複数の演算にデコードする。いくつかの例では、このデコードは、実行回路（例えば、実行回路９０９）によって実行される複数のマイクロ演算を生成することを含む。デコード回路９０５はまた、命令プレフィクスをデコードする。

いくつかの例では、レジスタリネーミング、レジスタ割り当て、および／またはスケジューリング回路９０７は、１）論理オペランド値を物理オペランド値（例えば、いくつかの例ではレジスタエイリアステーブル）にリネーミングすること、２）デコードされた命令にステータスビットおよびフラグを割り当てること、ならびに３）命令プールの中から実行回路による実行のためのデコードされた命令をスケジューリングする（例えば、いくつかの例ではリザベーションステーションを使用して）こと、のうちの１つまたは複数の機能を提供する。

レジスタ（レジスタファイル）および／またはメモリ９０８は、実行回路９０９によって操作される命令のオペランドとしてデータを格納する。例示的なレジスタタイプは、パックドデータレジスタ、汎用レジスタ、および浮動小数点レジスタを含む。

実行回路９０９は、デコードされた命令を少なくとも部分的に実行する。例示的な詳細な実行回路が図１、図３、図１３（Ｂ）などに示されている。デコードされた命令の実行により、実行回路およびキャッシュコヒーレンシ回路（例えば、スヌープコントローラ、コヒーレントエージェント、キャッシュコントローラなど）に、ソースオペランドで指定されたバイトを含むメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納する。要求者は、共有プリフェッチ命令を有していたコアであることに留意されたい。

いくつかの例では、リタイアメント／ライトバック回路９１１は、命令をアーキテクチャ的にコミットおよびリタイアする。

共有プリフェッチ命令のフォーマットのいくつかの例は、ＰＲＥＦＥＴＣＨＳＭ８である。いくつかの例では、ＰＲＥＦＥＴＣＨＳは、命令のオペコードニーモニックである。Ｍ８は、プリフェッチされるデータが存在するメモリアドレスのための少なくとも１つのフィールドである。オペコードは、ソースオペランド（Ｍ８）で指定されたバイトを含むメモリからのデータのラインのフェッチが、いくつかの例では共有状態でローカルキャッシュに格納されるためのものであることを示すことに留意されたい。いくつかの例では、プリフェッチされるデータが共有状態で格納されるためのものであるという指示は、ＲＥＧフィールド'ＢＦＧ４４などのＭｏｄＲ／Ｍバイト１７４４のビットを利用すること、ＭＳＲ内のビットを利用することなどの異なる方法で行われる。ソースオペランドＭ８は、バイトメモリ位置である。

図１０は、共有プリフェッチ命令を処理するために実行される方法のいくつかの例を示す。例えば、図１３（Ｂ）に示されるプロセッサコア、以下に詳述されるパイプラインなどが本方法を実行する。

１００１において、単一の共有プリフェッチ命令のインスタンスがフェッチされる。単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、オペコードは、回路が、ソースオペランドで指定されたバイトを含む提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものである。要求者は、共有プリフェッチ命令を有していたコアであることに留意されたい。実装に応じて、オペコード自体または他のインジケータは、バイトが共有状態で格納されるためのものであることを規定する。さらに、いくつかの例では、バイトはＬＬＣに格納される。

いくつかの例では、第１の命令セットの単一命令のフェッチされたインスタンスが、１００２において、第２の命令セットの１つまたは複数の命令に変換される。

単一命令、または第２の命令セットの１つまたは複数の変換された命令のインスタンスが、１００３において、デコードされる。いくつかの例では、変換およびデコードはマージされる。

１００５において、デコードされた命令のソースオペランドに関連するデータ値が取得される。

１００７において、第２の命令セットのデコードされた命令は、本明細書に詳述されているような実行回路（ハードウェア）によって実行される。共有プリフェッチ命令の場合、実行により、回路に、ソースオペランドで指定されたバイトを含む提供されたアドレスでメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納させる。要求者は、共有プリフェッチ命令を有していたコアであることに留意されたい。実装に応じて、オペコード自体または他のインジケータは、バイトが共有状態で格納されるためのものであることを規定する。さらに、いくつかの例では、バイトはＬＬＣに格納される。

いくつかの例では、１００９において命令はコミットまたはリタイアされる。
例示的なコンピュータアーキテクチャ

例示的なコンピュータアーキテクチャを以下に詳細に説明する。ラップトップ、デスクトップ、およびハンドヘルドＰＣ、携帯用情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、携帯型メディアプレーヤ、ハンドヘルドデバイス、ならびに様々な他の電子デバイスのための、当技術分野において既知の他のシステム設計および構成も好適である。一般に、本明細書に開示されるプロセッサおよび／または他の実行ロジックを組み込むことができる多種多様なシステムまたは電子デバイスが概して好適である。

図１１は、例示的なシステムの例を示す。マルチプロセッサシステム１１００は、ポイントツーポイントインターコネクトシステムであり、ポイントツーポイントインターコネクト１１５０を介して結合された第１のプロセッサ１１７０および第２のプロセッサ１１８０を含む複数のプロセッサを含む。いくつかの例では、第１のプロセッサ１１７０および第２のプロセッサ１１８０は同種である。いくつかの例では、第１のプロセッサ１１７０および第２のプロセッサ１１８０は異種である。

プロセッサ１１７０および１１８０は、それぞれが統合メモリコントローラ（ＩＭＣ）ユニット回路１１７２および１１８２を含んで示されている。プロセッサ１１７０はまた、そのインターコネクトコントローラユニットの一部として、ポイントツーポイント（Ｐ－Ｐ）インタフェース１１７６および１１７８を含む。同様に、第２のプロセッサ１１８０は、Ｐ－Ｐインタフェース１１８６および１１８８を含む。プロセッサ１１７０、１１８０は、Ｐ－Ｐインタフェース回路１１７８、１１８８を使用してポイントツーポイント（Ｐ－Ｐ）インターコネクト１１５０を介して情報を交換することができる。ＩＭＣの１１７２および１１８２は、プロセッサ１１７０、１１８０をそれぞれのメモリ、すなわち、メモリ１１３２およびメモリ１１３４に結合し、これらは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であり得る。

プロセッサ１１７０、１１８０は各々、ポイントツーポイントインタフェース回路１１７６、１１９４、１１８６、１１９８を使用して個々のＰ－Ｐインターコネクト１１５２、１１５４を介してチップセット１１９０と情報を交換することができる。チップセット１１９０は、任意に、高性能インタフェース１１９２を介してコプロセッサ１１３８と情報を交換することができる。いくつかの例では、コプロセッサ１１３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサなどの専用プロセッサである。

プロセッサが低電力モードに置かれると、いずれかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュ内に格納され得るように、共有キャッシュ（図示せず）は、プロセッサ１１７０、１１８０のいずれかの中、または両方のプロセッサの外部に含まれ得、さらにＰ－Ｐインターコネクトを介して複数のプロセッサに接続される。

チップセット１１９０は、インタフェース１１９６を介して第１のインターコネクト１１１６に結合することができる。いくつかの例では、第１のインターコネクト１１１６は、周辺構成要素インターコネクト（ＰＣＩ）のインターコネクト、またはＰＣＩＥｘｐｒｅｓｓインターコネクトもしくは別のＩ／Ｏインターコネクトなどのインターコネクトであり得る。いくつかの例では、インターコネクトのうちの１つはプロセッサ１１７０、１１８０、および／またはコプロセッサ１１３８に関連する電力管理操作を実行する、回路、ソフトウェア、および／またはファームウェアを含み得る電力制御ユニット（ＰＣＵ）１１１７に結合される。ＰＣＵ１１１７は、制御情報を電圧レギュレータに提供して、電圧レギュレータに適切な調節電圧を生成させる。ＰＣＵ１１１７はまた、生成された動作電圧を制御するために制御情報を提供する。様々な例では、ＰＣＵ１１１７は、ハードウェアベースの電力管理を実行するために、様々な電力管理ロジックユニット（回路）を含み得る。そのような電力管理は、完全にプロセッサにより制御されてもよく（例えば、様々なプロセッサハードウェアによって制御され、かつ、ワークロードおよび／または電力、熱、または他のプロセッサ制約によってトリガされ得る）、および／または、電力管理は、外部ソース（プラットフォームまたは電力管理ソースまたはシステムソフトウェアなど）に応答して実行されてよい。

ＰＣＵ１１１７は、プロセッサ１１７０および／またはプロセッサ１１８０とは別個のロジックとして存在するものとして示されている。他の場合では、ＰＣＵ１１１７は、プロセッサ１１７０または１１８０のコア（図示せず）のうちの所与の１つまたは複数上で実行し得る。いくつかの場合では、場合によってはＰＣＵ１１１７は、Ｐコードと称される、それ自体の専用電力管理コードを実行するように構成されたマイクロコントローラ（専用もしくは汎用）または他の制御ロジックとして実装されてもよい。さらに他の例では、ＰＣＵ１１１７によって実行される電力管理操作は、プロセッサの外部にある別個の電力管理集積回路（ＰＭＩＣ）または別の構成要素などによって、外部でプロセッサに実装されてもよい。さらに他の例では、ＰＣＵ１１１７によって実行される電力管理操作は、ＢＩＯＳまたは他のシステムソフトウェア内で実装されてもよい。

様々なＩ／Ｏデバイス１１１４は、第１のインターコネクト１１１６を第２のインターコネクト１１２０に結合するインターコネクト（バス）ブリッジ１１１８と共に、第１のインターコネクト１１１６に結合されてもよい。いくつかの例では、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックスアクセラレータもしくはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または任意の他のプロセッサなどの１つまたは複数の追加のプロセッサ１１１５が第１のインターコネクト１１１６に結合される。いくつかの例では、第２のインターコネクト１１２０は、低ピンカウント（ＬＰＣ）インターコネクトであり得る。例えば、キーボードおよび／またはマウス１１２２、通信デバイス１１２７、ならびに記憶ユニット回路１１２８を含む様々なデバイスが第２のインターコネクト１１２０に結合され得る。記憶ユニット回路１１２８は、いくつかの例では、命令／コードおよびデータ１１３０を含むことができるディスクドライブまたは他の大容量記憶デバイスであってもよい。さらに、オーディオＩ／Ｏ１１２４が第２のインターコネクト１１２０に結合され得る。上に説明されるポイントツーポイントアーキテクチャ以外のアーキテクチャが可能であることに留意されたい。例えば、ポイントツーポイントアーキテクチャの代わりに、マルチプロセッサシステム１１００などのシステムは、マルチドロップインターコネクトまたは他のそのようなアーキテクチャを実装し得る。
例示的なコアアーキテクチャ、プロセッサ、およびコンピュータアーキテクチャ

プロセッサコアは、異なる態様で、異なる目的のために、異なるプロセッサにおいて実装され得る。例えば、そのようなコアの実装は、１）汎用コンピューティングを意図する汎用インオーダコア、２）汎用コンピューティングを意図する高性能汎用アウトオブオーダコア、３）主にグラフィックおよび／またはサイエンティフィック（スループット）コンピューティングを意図する専用コアを含み得る。異なるプロセッサの実装は、１）汎用コンピューティングを意図する１つまたは複数の汎用インオーダコア、および／または汎用コンピューティングを意図する１つまたは複数の汎用アウトオブオーダコアを含むＣＰＵ、ならびに２）主にグラフィックおよび／またはサイエンティフィック（スループット）を意図する１つまたは複数の専用コアを含むコプロセッサを含み得る。そのような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、異なるコンピュータシステムアーキテクチャは、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同一のパッケージにおける別個のダイ上のコプロセッサ、３）ＣＰＵと同じダイ上のコプロセッサ（この場合、そのようなコプロセッサは、場合によっては統合グラフィックスおよび／またはサイエンティフィック（スループット）ロジックなどの専用ロジック、または専用コアと称される）、および４）説明されたＣＰＵ（場合によっては、アプリケーションコアもしくはアプリケーションプロセッサと称される）と同じダイ上に、上述のコプロセッサ、および追加の機能性を含み得るシステムオンチップを含み得る。例示的なコアアーキテクチャが次に説明され、例示的なプロセッサおよびコンピュータアーキテクチャの説明が続く。

図１２は、１つよりも多くのコアを有することができ、統合メモリコントローラを有することができ、統合グラフィックスを有することができるプロセッサ１２００の例のブロック図を示す。実線のボックスは、単一のコア１２０２Ａと、システムエージェント１２１０と、１つまたは複数のインターコネクトコントローラユニット回路１２１６のセットとを有するプロセッサ１２００を示す一方、任意選択的な点線のボックスの追加は、複数のコア１２０２（Ａ）～（Ｎ）と、システムエージェントユニット回路１２１０における１つまたは複数の統合メモリコントローラユニット回路１２１４のセットと、専用ロジック１２０８と、１つまたは複数のインターコネクトコントローラユニット回路１２１６のセットとを有する代替的なプロセッサ１２００を示す。プロセッサ１２００は、図１１のプロセッサ１１７０もしくは１１８０、またはコプロセッサ１１３８もしくは１１１５のうちの１つであってもよいことに留意されたい。

したがって、プロセッサ１２００の異なる実装は、１）統合グラフィックスおよび／またはサイエンティフィック（スループット）ロジックである専用ロジック１２０８（図示しないが、１つまたは複数のコアを含んでよい）と、１つまたは複数の汎用コアであるコア１２０２（Ａ）～（Ｎ）（例えば、汎用インオーダコア、汎用アウトオブオーダコア、または２つの組み合わせ）とを有するＣＰＵ、２）グラフィックおよび／またはサイエンティフィック（スループット）を主に意図する多数の専用コアであるコア１２０２（Ａ）～（Ｎ）を有するコプロセッサ、ならびに３）多数の汎用インオーダコアであるコア１２０２（Ａ）～（Ｎ）を有するコプロセッサを含んでよい。したがって、プロセッサ１２００は、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット回路）、高スループット多集積コア（ＭＩＣ）コプロセッサ（３０以上のコアを含む）、組み込みプロセッサなどの、汎用プロセッサ、コプロセッサ、または専用プロセッサであってよい。プロセッサは、１つまたは複数のチップ上に実装され得る。プロセッサ１２００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳなどのいくつかのプロセス技術のいずれかを使用して、１つまたは複数の基板の一部であってもよく、および／または１つまたは複数の基板上に実装されてもよい。

メモリ階層は、コア１２０２（Ａ）～（Ｎ）内のキャッシュユニット回路１２０４（Ａ）～（Ｎ）、１つまたは複数の共有キャッシュユニット回路１２０６のセット、および、統合メモリコントローラユニット回路１２１４のセットに結合された外部メモリ（図示せず）の１つまたは複数のレベルを含む。１つまたは複数の共有キャッシュユニット回路１２０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの１つまたは複数の中間レベルキャッシュ、または最終レベルキャッシュ（ＬＬＣ）などの他のレベルのキャッシュ、および／またはそれらの組み合わせを含んでよい。いくつかの例では、リングベースのインターコネクトネットワーク回路１２１２が、専用ロジック１２０８（例えば、統合グラフィックスロジック）、共有キャッシュユニット回路１２０６のセット、およびシステムエージェントユニット回路１２１０をインターコネクトする一方、代替の例は、そのようなユニットをインターコネクトするために任意の数の周知技術を使用する。いくつかの例では、１つまたは複数の共有キャッシュユニット回路１２０６とコア１２０２（Ａ）～（Ｎ）との間でコヒーレンシが保持される。

いくつかの例では、コア１２０２（Ａ）～（Ｎ）のうちの１つまたは複数は、マルチスレッディングすることが可能である。システムエージェントユニット回路１２１０は、これらの１２０２（Ａ）～（Ｎ）を調整および動作させる構成要素を含む。システムエージェントユニット回路１２１０は、例えば、電力制御ユニット（ＰＣＵ）回路および／またはディスプレイユニット回路（図示せず）を含んでよい。ＰＣＵは、コア１２０２（Ａ）～（Ｎ）および／または専用ロジック１２０８（例えば、統合グラフィックスロジック）の電力状態を調節するのに必要なロジックおよび構成要素であってもよく、または含んでもよい。ディスプレイユニット回路は、１つまたは複数の外部接続されたディスプレイを駆動するためのものである。

コア１２０２（Ａ）～（Ｎ）は、アーキテクチャ命令セットに関して同種であっても異種であってもよい。すなわち、コア１２０２（Ａ）～（Ｎ）のうちの２つ以上が同じ命令セットを実行することができる一方で、他のコアはその命令セットのサブセットまたは異なる命令セットのみを実行することができる。
例示的なコアアーキテクチャ
インオーダおよびアウトオブオーダコアのブロック図

図１３（Ａ）は、例による、例示的なインオーダパイプライン、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図１３（Ｂ）は、例によるプロセッサに含まれる、インオーダアーキテクチャコアの例示的な実施形態、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図１３（Ａ）～図１３（Ｂ）における実線のボックスは、インオーダパイプラインおよびインオーダコアを示す一方、任意選択的な点線のボックスの追加は、レジスタリネーミング用のアウトオブオーダ発行／実行パイプラインとコアとを示す。インオーダの態様がアウトオブオーダの態様のサブセットであると仮定して、アウトオブオーダの態様が説明される。

図１３（Ａ）において、プロセッサパイプライン１３００は、フェッチステージ１３０２、任意選択のレングスデコードステージ１３０４、デコードステージ１３０６、任意選択の割り当てステージ１３０８、任意選択のリネーミングステージ１３１０、スケジューリング（ディスパッチまたは発行としてもまた知られる）ステージ１３１２、任意選択のレジスタ読み出し／メモリ読み出しステージ１３１４、実行ステージ１３１６、ライトバック／メモリ書き込みステージ１３１８、任意選択の例外処理ステージ１３２２、および任意選択のコミットステージ１３２４を含む。それらのプロセッサパイプラインステージのそれぞれにおいて１つまたは複数の演算が実行されてよい。例えば、フェッチステージ１３０２の間に、１つまたは複数の命令が命令メモリからフェッチされ、デコードステージ１３０６の間に、１つまたは複数のフェッチされた命令はデコードされ得、転送されたレジスタポートを使用したアドレス（例えば、ロードストアユニット（ＬＳＵ）アドレス）が生成され得、分岐転送（例えば、即時オフセットまたはリンクレジスタ（ＬＲ））が実行され得る。いくつかの例では、デコードステージ１３０６およびレジスタ読み出し／メモリ読み出しステージ１３１４は、１つのパイプラインステージに組み合わされ得る。いくつかの例では、実行ステージ１３１６の間に、デコードされた命令が実行され得、アドバンスドマイクロコントローラバス（ＡＨＢ）インタフェースへのＬＳＵアドレス／データのパイプライン処理が実行され得、乗算および加算の演算が実行され得、分岐結果を用いた算術演算が実行され得るなどである。

例として、例示的なレジスタリネーミング用のアウトオブオーダ発行／実行コアアーキテクチャは、次のようにパイプライン１３００を実装してよい。１）命令フェッチ１３３８が、フェッチおよびレングスデコードステージ１３０２および１３０４を実行する。２）デコードユニット回路１３４０が、デコードステージ１３０６を実行する。３）リネーミング／割り当てユニット回路１３５２が、割り当てステージ１３０８およびリネーミングステージ１３１０を実行する。４）スケジューラユニット回路１３５６が、スケジュールステージ１３１２を実行する。５）物理レジスタファイルユニット回路１３５８およびメモリユニット回路１３７０が、レジスタ読み出し／メモリ読み出しステージ１３１４を実行し、実行クラスタ１３６０が、実行ステージ１３１６を実行する。６）メモリユニット回路１３７０および物理レジスタファイルユニット回路１３５８が、ライトバック／メモリ書き込みステージ１３１８を実行する。７）様々なユニット（ユニット回路）が、例外処理ステージ１３２２に関与してよい。８）リタイアメントユニット回路１３５４および物理レジスタファイルユニット回路１３５８が、コミットステージ１３２４を実行する。

図１３（Ｂ）は、実行エンジンユニット回路１３５０に結合されたフロントエンドユニット回路１３３０を含むプロセッサコア１３９０を示し、両方がメモリユニット回路１３７０に結合されている。コア１３９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってもよい。さらに別の選択肢として、コア１３９０は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット（ＧＰＧＰＵ）コアまたはグラフィックスコアなどの専用コアであってよい。

フロントエンドユニット回路１３３０は、命令キャッシュユニット回路１３３４に結合された分岐予測ユニット回路１３３２を含み得、命令キャッシュユニット回路１３３４は、命令変換索引バッファ（ＴＬＢ）１３３６に結合され、ＴＬＢ１３３６は、命令フェッチユニット回路１３３８に結合され、命令フェッチユニット回路１３３８は、デコードユニット回路１３４０に結合される。いくつかの例では、命令キャッシュユニット回路１３３４は、フロントエンドユニット回路１３３０よりもむしろ、メモリユニット回路１３７０に含まれる。デコードユニット回路１３４０（またはデコーダ）は、命令をデコードし、元の命令からデコード、もしくは別様にそれらを反映する、もしくはそれらから導出される、１つまたは複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号を出力として生成してよい。デコードユニット回路１３４０はさらに、アドレス生成ユニット回路（ＡＧＵ、図示せず）を含み得る。いくつかの例では、ＡＧＵは、転送されたレジスタポートを使用してＬＳＵアドレスを生成し、さらに、分岐転送（例えば、即時オフセット分岐転送、ＬＲレジスタ分岐転送など）を実行し得る。デコードユニット回路１３４０は、様々な異なるメカニズムを使用して実装されてもよい。好適なメカニズムの例には、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）などが含まれるが、それらに限定されない。いくつかの例では、コア１３９０は、特定のマクロ命令のマイクロコードを（例えば、デコードユニット回路１３４０内に、またはそうでなければフロントエンドユニット回路１３３０内に）格納するマイクロコードＲＯＭ（図示せず）または他の媒体を含む。いくつかの例では、デコードユニット回路１３４０は、プロセッサパイプライン１３００のデコードまたは他のステージの間に生成された、デコードされた演算、マイクロタグ、またはマイクロ演算を保持／キャッシュするためのマイクロ演算（ｍｉｃｒｏ－ｏｐ）または演算キャッシュ（図示せず）を含む。デコードユニット回路１３４０は、実行エンジンユニット回路１３５０において、リネーミング／割り当てユニット回路１３５２と結合されてよい。

実行エンジン回路１３５０は、リタイアメントユニット回路１３５４および１つまたは複数のスケジューラ回路１３５６のセットに結合されたリネーミング／割り当てユニット回路１３５２を含む。スケジューラ回路１３５６は、複数のリザベーションステーション、中央命令ウィンドウなどを含む任意の数の異なるスケジューラを表す。いくつかの例では、スケジューラ回路１３５６は、算術ロジックユニット（ＡＬＵ）スケジューラ／スケジューリング回路、ＡＬＵキュー、算術生成ユニット（ＡＧＵ）スケジューラ／スケジューリング回路、ＡＧＵキューなどを含むことができる。スケジューラ回路１３５６は、物理レジスタファイル回路１３５８に結合される。物理レジスタファイル回路１３５８のそれぞれは、１つまたは複数の物理レジスタファイルを表し、それらの異なるものは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）などの、１つまたは複数の異なるデータタイプを格納する。いくつかの例では、物理レジスタファイルユニット回路１３５８は、ベクトルレジスタユニット回路、ライトマスクレジスタユニット回路、およびスカラレジスタユニット回路を含む。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、汎用レジスタなどを提供し得る。物理レジスタファイルユニット回路１３５８は、リタイアメントユニット回路１３５４（リタイアキューまたはリタイアメントキューとしてもまた知られる）とオーバーラップしており、（例えば、リオーダバッファ（ＲＯＢ）およびリタイアメントレジスタファイルを使用する、将来のファイル、履歴バッファ、およびリタイアメントレジスタファイルを使用する、レジスタマップおよびレジスタのプールを使用するなど）レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々なやり方を示す。リタイアメントユニット回路１３５４および物理レジスタファイル回路１３５８は、実行クラスタ１３６０に結合される。実行クラスタ１３６０は、１つまたは複数の実行ユニット回路１３６２のセットおよび１つまたは複数のメモリアクセス回路１３６４のセットを含む。実行ユニット回路１３６２は、様々な算術、ロジック、浮動小数点、または他のタイプの演算（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）について実行してよい。いくつかの例は、特定の機能または機能のセットに専用の多くの実行ユニットまたは実行ユニット回路を含み得る一方、他の例は、１つのみの実行ユニット回路、または全ての機能を全て実行する複数の実行ユニット／実行ユニット回路を含み得る。特定の例は、特定のタイプのデータ／演算に対する別個のパイプラインを形成するので（例えば、それら自体のスケジューラ回路、物理レジスタファイルユニット回路、および／または実行クラスタをそれぞれ有するスカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／またはメモリアクセスパイプラインであり、別個のメモリアクセスパイプラインの場合、特定の例は、このパイプラインの実行クラスタのみがメモリアクセスユニット回路１３６４を有するように実装される）、スケジューラ回路１３５６、物理レジスタファイルユニット回路１３５８、および実行クラスタ１３６０は、場合によっては複数あるように示される。別個のパイプラインが使用される場合、これらのパイプラインのうちの１つまたは複数はアウトオブオーダ発行／実行であってよく、残りはインオーダであってよいこともまた理解されたい。

いくつかの例では、実行エンジンユニット回路１３５０は、アドバンスドマイクロコントローラバス（ＡＨＢ）インタフェース（図示せず）、アドレスフェーズおよびライトバック、データフェーズロード、ストア、および分岐へのロードストアユニット（ＬＳＵ）アドレス／データのパイプライン処理を実行し得る。

メモリアクセス回路１３６４のセットは、メモリユニット回路１３７０に結合され、メモリユニット回路１３７０は、レベル２（Ｌ２）キャッシュ回路１３７６に結合されたデータキャッシュ回路１３７４に結合されたデータＴＬＢユニット回路１３７２を含む。１つの例示的な実施形態では、メモリアクセスユニット回路１３６４は、ロードユニット回路、ストアアドレスユニット回路、およびストアデータユニット回路を含み得、これらのそれぞれは、メモリユニット回路１３７０内のデータＴＬＢ回路１３７２に結合される。命令キャッシュ回路１３３４は、さらに、メモリユニット回路１３７０内のレベル２（Ｌ２）キャッシュユニット回路１３７６に結合される。いくつかの例では、命令キャッシュ１３３４およびデータキャッシュ１３７４は、Ｌ２キャッシュユニット回路１３７６、レベル３（Ｌ３）キャッシュユニット回路（図示せず）、および／またはメインメモリ内の単一命令およびデータキャッシュ（図示せず）に組み合わされる。Ｌ２キャッシュユニット回路１３７６は、１つまたは複数の他のレベルのキャッシュ、および最終的にはメインメモリに結合される。

コア１３９０は、本明細書において説明される命令を含む、１つまたは複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンを追加された、いくつかの拡張を伴う）、ＭＩＰＳ命令セット、ＡＲＭ命令セット（ＮＥＯＮなどの任意選択の追加拡張を伴う）をサポートし得る。いくつかの例では、コア１３９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションにより使用される演算がパックドデータを使用して実行されることを可能にする。
例示的な実行ユニット回路

図１４は、図１３（Ｂ）の実行ユニット回路１３６２などの、実行ユニット回路の例を示す。示されるように、実行ユニット回路１３６２は、１つもしくは複数のＡＬＵ回路１４０１、ベクトル／ＳＩＭＤユニット回路１４０３、ロード／ストアユニット回路１４０５、および／または分岐／ジャンプユニット回路１４０７を含んでもよい。ＡＬＵ回路１４０１は、算術演算および／またはブール演算を実行する。ベクトル／ＳＩＭＤユニット回路１４０３は、（ＳＩＭＤ／ベクトルレジスタなどの）パックドデータに対してベクトル／ＳＩＭＤ演算を実行する。ロード／ストアユニット回路１４０５は、データをメモリからレジスタにロードする、またはレジスタからメモリに格納するためのロードおよびストア命令を実行する。ロード／ストアユニット回路１４０５はまた、アドレスを生成し得る。分岐／ジャンプユニット回路１４０７は、命令に依存して、メモリアドレスへの分岐またはジャンプを生じさせる。浮動小数点ユニット（ＦＰＵ）回路１４０９は、浮動小数点演算を実行する。実行ユニット回路１３６２の幅は、実施形態に依存して変化し、１６ビットから１，０２４ビットまでの範囲をとり得る。いくつかの例では、２つ以上のより小さい実行ユニットが論理的に組み合わされて、より大きい実行ユニットを形成する（例えば、２つの１２８ビット実行ユニットが論理的に組み合わされて、２５６ビット実行ユニットを形成する）。
例示的なレジスタアーキテクチャ

図１５は、いくつかの例によるレジスタアーキテクチャ１５００のブロック図である。示されるように、幅が１２８ビットから１，０２４ビットまで変化するベクトル／ＳＩＭＤレジスタ１５１０がある。いくつかの例では、ベクトル／ＳＩＭＤレジスタ１５１０は物理的に５１２ビットであり、マッピングに依存して、より下位のビットのいくつかのみが使用される。例えば、いくつかの例では、ベクトル／ＳＩＭＤレジスタ１５１０は５１２ビットであるＺＭＭレジスタであり、下位２５６ビットはＹＭＭレジスタに使用され、下位１２８ビットはＸＭＭレジスタに使用される。したがって、レジスタのオーバーレイがある。いくつかの例では、ベクトル長フィールドは、最大長、および１つまたは複数の他のより短い長さのうちから選択され、そのような各々のより短い長さは、先述の長さの半分の長さである。スカラ演算は、ＺＭＭ／ＹＭＭ／ＸＭＭレジスタ内の最下位のデータ要素位置で実行される演算であり、より上位のデータ要素位置は、実施形態に依存して、命令の前のそれらと同じ状態のままにされるか、またはゼロにされるかのいずれかである。

いくつかの例では、レジスタアーキテクチャ１５００はライトマスク／プレジケートレジスタ１５１５を含む。例えば、いくつかの例では、それぞれ１６ビット、３２ビット、６４ビット、または１２８ビットのサイズの、８つのライトマスク／プレジケートレジスタ（場合によって、ｋ０からｋ７と呼ばれる）がある。ライトマスク／プレジケートレジスタ１５１５は、マージ（例えば、任意の演算の実行の間に、デスティネーションにおける要素の任意のセットが更新から保護されることを可能にする）、および／またはゼロ化（例えば、ゼロ化ベクトルマスクは、任意の演算の実行の間に、デスティネーションにおける要素の任意のセットがゼロにされることを可能にする）を可能にし得る。いくつかの例では、所与のライトマスク／プレジケートレジスタ１５１５の各データ要素位置は、デスティネーションのデータ要素位置に対応する。他の例では、ライトマスク／プレジケートレジスタ１５１５はスケーラブルであり、所与のベクトル要素に関する設定された数のイネーブルなビットからなる（例えば、６４ビットのベクトル要素ごとに８のイネーブルなビット）。

レジスタアーキテクチャ１５００は、複数の汎用レジスタ１５２５を含む。これらのレジスタは、１６ビット、３２ビット、６４ビットなどであってよく、スカラ演算に使用されてよい。いくつかの例では、これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８からＲ１５の名称で参照される。

いくつかの例では、レジスタアーキテクチャ１５００は、６４ビットパックド整数データに対して演算を実行するために、ならびに、ＭＭＸとＸＭＭレジスタとの間で実行されるいくつかの演算のためのオペランドを保持するために、ｘ８７命令セット拡張またはＭＭＸレジスタを使用して３２／６４／８０ビット浮動小数点データ上でのスカラ浮動小数点演算に使用されるスカラ浮動小数点レジスタ１５４５を含む。

１つまたは複数のフラグレジスタ１５４０（例えば、ＥＦＬＡＧＳ、ＲＦＬＡＧＳなど）が、算術演算、比較演算、およびシステム動作に関するステータスおよび制御情報を格納する。例えば、１つまたは複数のフラグレジスタ１５４０は、キャリー、パリティ、補助キャリー、ゼロ、符号、およびオーバーフローなどの、条件コード情報を格納してよい。いくつかの例では、１つまたは複数のフラグレジスタ１５４０は、プログラムステータスおよび制御レジスタと呼ばれる。

セグメントレジスタ１５２０は、メモリへのアクセスに使用するためのセグメントポイントを含む。いくつかの例では、これらのレジスタは、ＣＳ、ＤＳ、ＳＳ、ＥＳ、ＦＳ、およびＧＳの名称で参照される。

機械固有レジスタ（ＭＳＲ）１５３５は、プロセッサ性能についての制御および報告を行う。大部分のＭＳＲ１５３５は、システムに関する機能を処理するが、アプリケーションプログラムにアクセスすることができない。機械チェックレジスタ１５６０は、ハードウェアエラーの際に検出および報告するために使用される制御、ステータス、およびエラー報告ＭＳＲからなる。

１つまたは複数の命令ポインタレジスタ１５３０は命令ポインタ値を格納する。制御レジスタ１５５５（例えば、ＣＲ０～ＣＲ４）は、プロセッサの動作モード（例えば、プロセッサ１１７０、１１８０、１１３８、１１１５、および／または１２００）および現在実行中のタスクの特性を決定する。デバッグレジスタ１５５０は、プロセッサまたはコアのデバッグ動作のモニタリングを制御し、可能とする。

メモリ管理レジスタ１５６５は、保護されたモードメモリ管理に使用されるデータ構造の位置を指定する。これらのレジスタは、ＧＤＴＲ、ＩＤＲＴ、タスクレジスタ、およびＬＤＴＲレジスタを含んでもよい。

代替の例は、より広いか、またはより狭いレジスタを使用し得る。さらに、代替の例は、より多い、より少ない、または異なるレジスタファイルおよびレジスタを使用してもよい。
命令セット

命令セットアーキテクチャ（ＩＳＡ）は、１つまたは複数の命令フォーマットを含み得る。所与の命令フォーマットは、とりわけ、実行されるべき演算（例えば、オペコード）およびその演算が実行されるべきオペランドを指定する様々なフィールド（例えば、ビットの数、ビットの位置）、ならびに／または他のデータフィールド（例えば、マスク）を定義してよい。いくつかの命令フォーマットは、さらに、命令テンプレート（またはサブフォーマット）の定義を介して分解される。例えば、所与の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義され（含まれるフィールドは通常同じ順序であるが、含まれるフィールドがより少ないため少なくともいくつかは異なるビット位置を有する）、および／または所与のフィールドが異なって解釈されるように定義されてもよい。したがって、ＩＳＡの各命令は、所与の命令フォーマット（および定義されている場合、その命令フォーマットの命令テンプレートのうちの所与の１つ）を使用して表現され、演算およびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコード、ならびに当該オペコードを指定するオペコードフィールドおよびオペランド（ソース１／デスティネーション、およびソース２）を選択するオペランドフィールドを含む命令フォーマットを有し、命令ストリームにおけるこのＡＤＤ命令が生じることにより、特定オペランドを選択するオペランドフィールドに具体的な内容を有する。
例示的な命令フォーマット

本明細書に説明される命令の例は、異なるフォーマットで具現化され得る。さらに、例示的なシステム、アーキテクチャ、およびパイプラインが以下で詳述される。命令の例は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行されてもよいが、詳述されたものに限定されるものではない。

図１６は、命令フォーマットの例を示す。示されるように、命令は、１つまたは複数のプレフィクス１６０１、オペコード１６０３、アドレシング情報１６０５（例えば、レジスタ識別子、メモリアドレシング情報など）、変位値１６０７、および／または即値１６０９のための１つまたは複数のフィールドを含むが、それらに限定されるものではない、複数の構成要素を含んでよい。いくつかの命令は、フォーマットのフィールドのいくつかまたは全てを利用するが、他のものは、オペコード１６０３のフィールドを使用するのみであってよいことに留意されたい。いくつかの例では、示される順序は、それらのフィールドがエンコードされるべき順序であるが、しかしながら、他の例では、それらのフィールドは、異なる順序で、組み合わされて、などでエンコードされてもよいことが理解されるべきである。

プレフィクスフィールド１６０１は、使用される場合、命令を修正する。いくつかの例では、１つまたは複数のプレフィクスが、ストリング命令（例えば、０ｘＦ０、０ｘＦ２、０ｘＦ３など）を反復するために、セクションオーバーライド（例えば、０ｘ２Ｅ、０ｘ３６、０ｘ３Ｅ、０ｘ２６、０ｘ６４、０ｘ６５、０ｘ２Ｅ、０ｘ３Ｅなど）を提供するために、バスロック動作を実行するように、ならびに／または、オペランド（例えば、０ｘ６６）およびアドレスサイズ（例えば、０ｘ６７）を変更するために使用される。特定の命令は、必須のプレフィクス（例えば、０ｘ６６、０ｘＦ２、０ｘＦ３など）を必要とする。これらのプレフィクスの特定のものは、「レガシ（ｌｅｇａｃｙ）」プレフィクスと見なされてよい。他のプレフィクスは、その１つまたは複数の例が本明細書に詳述されており、特定のレジスタを指定することなどの、さらなる能力を示すか、および／またはそれを提供する。他のプレフィクスは通常、「レガシ」プレフィクスに続く。

オペコードフィールド１６０３は、命令のデコードの際に実行されるべき演算を、少なくとも部分的に定義するために使用される。いくつかの例では、オペコードフィールド１６０３においてエンコードされるプライマリオペコードは、１、２、または３バイトの長さである。他の例では、プライマリオペコードは異なる長さであってよい。追加の３ビットオペコードフィールドが、場合によって、別のフィールドにおいてエンコードされる。

アドレシングフィールド１６０５は、メモリまたは１つまたは複数のレジスタ内の位置などの、命令の１つまたは複数のオペランドをアドレシングするように使用される。図１７は、アドレシングフィールド１６０５の例を示す。この説明図において、任意選択のＭｏｄＲ／Ｍバイト１７０２および任意選択のスケール、インデックス、ベース（ＳＩＢ）バイト１７０４が示される。ＭｏｄＲ／Ｍバイト１７０２およびＳＩＢバイト１７０４は、最大２つのオペランドの命令をエンコードするために使用され、そのそれぞれは、直接レジスタまたは有効メモリアドレスである。それらのフィールドのそれぞれは任意選択的であり、全ての命令がそれらのフィールドのうちの１つまたは複数を含むとは限らないことに留意されたい。ＭＯＤＲ／Ｍバイト１７０２は、ＭＯＤフィールド１７４２、レジスタフィールド１７４４、およびＲ／Ｍフィールド１７４６を含む。

ＭＯＤフィールド１７４２の内容は、メモリアクセスモードおよび非メモリアクセスモードを区別する。いくつかの例では、ＭＯＤフィールド１７４２がｂ１１の値を有する場合、レジスタ直接アドレシングモードが利用され、そうでなければ、レジスタ間接アドレシングが使用される。

レジスタフィールド１７４４は、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードし得、またはオペコード拡張をエンコードし得、任意の命令オペランドをエンコードするためには使用され得ない。レジスタインデックスフィールド１７４４の内容は、直接またはアドレス生成を介して、（レジスタ内またはメモリ内のいずれかにある）ソースまたはデスティネーションオペランドの位置を指定する。いくつかの例では、レジスタフィールド１７４４は、より大きいアドレシングを可能にするために、プレフィクス（例えば、プレフィクス１６０１）からの追加ビットで補足される。

Ｒ／Ｍフィールド１７４６は、メモリアドレスを参照する命令オペランドをエンコードするために使用されてよく、またはデスティネーションレジスタオペランドもしくはソースレジスタオペランドのいずれかをエンコードするために使用されてよい。Ｒ／Ｍフィールド１７４６は、いくつかの例ではアドレシングモードを規定するために、ＭＯＤフィールド１７４２と組み合わされてよいことに留意されたい。

ＳＩＢバイト１７０４は、アドレスの生成に使用される、スケールフィールド１７５２、インデックスフィールド１７５４、およびベースフィールド１７５６を含む。スケールフィールド１７５２は、スケーリング係数を示す。インデックスフィールド１７５４は、使用するインデックスレジスタを指定する。いくつかの例では、インデックスフィールド１７５４は、より大きいアドレシングを可能にするために、プレフィクス（例えば、プレフィクス１６０１）からの追加ビットで補足される。ベースフィールド１７５６は、使用するベースレジスタを指定する。いくつかの例では、ベースフィールド１７５６は、より大きいアドレシングを可能にするために、プレフィクス（例えば、プレフィクス１６０１）からの追加ビットで補足される。実際には、スケールフィールド１７５２の内容は、メモリアドレス生成のためのインデックスフィールド１７５４の内容のスケーリングを可能とする（例えば、２^スケール＊インデックス＋ベースを使用するアドレス生成）。

いくつかのアドレシング形式は、変位値を利用してメモリアドレスを生成する。例えば、メモリアドレスは、２^スケール＊インデックス＋ベース＋変位、インデックス＊スケール＋変位、ｒ／ｍ＋変位、命令ポインタ（ＲＩＰ／ＥＩＰ）＋変位、レジスタ＋変位などに従って生成されてよい。変位は、１バイト、２バイト、４バイトなどの値であってよい。いくつかの例では、変位フィールド１６０７はこの値を提供する。さらに、いくつかの例では、変位係数の使用は、変位値が、ベクトル長、ｂビットの値、および命令の入力要素サイズに基づいて決定されるスケーリング係数Ｎと組み合わせてｄｉｓｐ８を乗算することによって計算される圧縮変位スキームを示すアドレシングフィールド１６０５のＭＯＤフィールドでエンコードされる。変位フィールド１６０７には、変位値が格納される。

いくつかの例では、即値フィールド１６０９が命令の即値を指定する。即値は１バイト値、２バイト値、４バイト値などとしてエンコードされてよい。

図１８は、第１のプレフィクス１６０１（Ａ）の例を示す。いくつかの例では、第１のプレフィクス１６０１（Ａ）はＲＥＸプレフィクスのいくつかの例である。このプレフィクスを使用する命令は、汎用レジスタ、６４ビットパックドデータレジスタ（例えば、単一命令多重データ（ＳＩＭＤ）レジスタ、もしくはベクトルレジスタ）、ならびに／または、制御レジスタおよびデバッグレジスタ（例えば、ＣＲ８－ＣＲ１５およびＤＲ８－ＤＲ１５）を指定し得る。

第１のプレフィクス１６０１（Ａ）を使用する命令は、以下のフォーマットに依存して、３ビットフィールドを使用して最大３つのレジスタを指定し得る。１）ＭｏｄＲ／Ｍバイト１７０２のｒｅｇフィールド１７４４およびＲ／Ｍフィールド１７４６を使用する。２）ｒｅｇフィールド１７４４およびベースフィールド１７５６およびインデックスフィールド１７５４を使用することを含む、ＳＩＢバイト１７０４と共にＭｏｄＲ／Ｍバイト１７０２を使用する。または、３）オペコードのレジスタフィールドを使用する。

第１のプレフィクス１６０１（Ａ）において、ビット位置７：４は０１００としてセットされる。ビット位置３（Ｗ）は、オペランドサイズを決定するために使用され得るが、オペランド幅を決定するのみでなくてもよい。したがって、Ｗ＝０の場合、オペランドサイズはコードセグメント記述子（ＣＳ．Ｄ）によって決定され、Ｗ＝１の場合、オペランドサイズは６４ビットである。

ＭＯＤＲ／Ｍｒｅｇフィールド１７４４およびＭＯＤＲ／ＭＲ／Ｍフィールド１７４６は、単独ではそれぞれ８のレジスタのみアドレシング可能であるが、別のビットの追加が、１６（２^４）のレジスタがアドレシングされることを可能にすることに留意されたい。

第１のプレフィクス１６０１（Ａ）において、ビット位置２（Ｒ）は、ＭＯＤＲ／Ｍｒｅｇフィールド１７４４の拡張であってよく、そのフィールドが汎用レジスタ、６４ビットパックドデータレジスタ（例えば、ＳＳＥレジスタ）、または制御もしくはデバッグレジスタをエンコードする場合、ＭｏｄＲ／Ｍｒｅｇフィールド１７４４を修正するために使用されてよい。Ｒは、ＭｏｄＲ／Ｍバイト１７０２が他のレジスタを指定するか、拡張オペコードを定義する場合には、無視される。

ビット位置１（Ｘ）Ｘビットは、ＳＩＢバイトインデックスフィールド１７５４を修正してよい。

ビット位置Ｂ（Ｂ）Ｂは、ＭｏｄＲ／ＭＲ／Ｍフィールド１７４６またはＳＩＢバイトベースフィールド１７５６のベースを修正してよく、または、汎用レジスタ（例えば、汎用レジスタ１５２５）へのアクセスに使用されるオペコードレジスタフィールドを修正してよい。

図１９（Ａ）～図１９（Ｄ）は、第１のプレフィクス１６０１（Ａ）のＲ、Ｘ、およびＢフィールドがどのように使用されるかの例を示す。図１９（Ａ）は、ＳＩＢバイト１７０４がメモリアドレシングに使用されない場合、ＭＯＤＲ／Ｍバイト１７０２のｒｅｇフィールド１７４４およびＲ／Ｍフィールド１７４６を拡張するために使用される第１のプレフィクス１６０１（Ａ）からのＲおよびＢを示す。図１９（Ｂ）は、ＳＩＢバイト１７０４が使用されない場合（レジスタ－レジスタアドレシング）、ＭＯＤＲ／Ｍバイト１７０２のｒｅｇフィールド１７４４およびＲ／Ｍフィールド１７４６を拡張するために使用される第１のプレフィクス１６０１（Ａ）からのＲおよびＢを示す。図１９（Ｃ）は、ＳＩＢバイト１７０４がメモリアドレシングに使用される場合、ＭＯＤＲ／Ｍバイト１７０２のｒｅｇフィールド１７４４およびインデックスフィールド１７５４およびベースフィールド１７５６を拡張するために使用される第１のプレフィクス１６０１（Ａ）からのＲ、Ｘ、およびＢを示す。図１９（Ｄ）は、レジスタがオペコード１６０３においてエンコードされる場合、ＭＯＤＲ／Ｍバイト１７０２のｒｅｇフィールド１７４４を拡張するために使用される第１のプレフィクス１６０１（Ａ）からのＢを示す。

図２０（Ａ）～図２０（Ｂ）は、第２のプレフィクス１６０１（Ｂ）の例を示す。いくつかの例では、第２のプレフィクス１６０１（Ｂ）はＶＥＸプレフィクスのいくつかの例である。第２のプレフィクス１６０１（Ｂ）のエンコードは、命令が２より多いオペランドを有することを可能にし、ＳＩＭＤベクトルレジスタ（例えば、ベクトル／ＳＩＭＤレジスタ１５１０）が、６４ビットよりも長くなる（例えば、１２８ビットおよび２５６ビット）ことを可能にする。第２のプレフィクス１６０１（Ｂ）の使用は、３オペランド（またはより多い）構文を提供する。例えば、以前の２オペランド命令は、ソースオペランドを上書きするＡ＝Ａ＋Ｂなどの演算を実行した。第２のプレフィクス１６０１（Ｂ）の使用は、オペランドが、Ａ＝Ｂ＋Ｃなどの非破壊演算を実行することを可能にする。

いくつかの例では、第２のプレフィクス１６０１（Ｂ）には、２バイト形式と３バイト形式の２つの形式がある。２バイトの第２のプレフィクス１６０１（Ｂ）は、主に１２８ビット、スカラ、およびいくつかの２５６ビット命令に使用され、３バイトの第２のプレフィクス１６０１（Ｂ）は、第１のプレフィクス１６０１（Ａ）のコンパクトな代替および３バイトオペコード命令を提供する。

図２０（Ａ）は、第２のプレフィクス１６０１（Ｂ）の２バイト形式の例を示す。一例では、フォーマットフィールド２００１（バイト０２００３）は値Ｃ５Ｈを含む。一例では、バイト１２００５はビット［７］において「Ｒ」値を含む。この値は、第１のプレフィクス１６０１（Ａ）の同じ値の補数である。ビット［２］はベクトルの長さ（Ｌ）を規定するために使用される（０の値はスカラまたは１２８ビットベクトルであり、１の値は２５６ビットベクトルである）。ビット［１：０］は、いくつかのレガシプレフィクスと外延性同等のオペコードを提供する（例えば、００＝プレフィクスなし、０１＝６６Ｈ、１０＝Ｆ３Ｈ、および１１＝Ｆ２Ｈ）。ｖｖｖｖとして示されるビット［６：３］は、以下のように使用され得る。１）反転（１の補数）形式で指定され、２以上のソースオペランドを有する命令に有効である、第１のソースレジスタオペランドをエンコードする。２）特定のベクトルシフトのために１の補数形式で指定される、デスティネーションレジスタオペランドをエンコードする。または、３）いかなるオペランドもエンコードせず、フィールドはリザーブされ、１１１１ｂなどの特定の値を含むべきである。

このプレフィクスを使用する命令は、ＭｏｄＲ／ＭＲ／Ｍフィールド１７４６を使用して、メモリアドレスを参照する命令オペランドをエンコードしてよく、またはデスティネーションレジスタオペランドもしくはソースレジスタオペランドのいずれかをエンコードしてよい。

このプレフィクスを使用する命令は、ＭｏｄＲ／Ｍｒｅｇフィールド１７４４を使用して、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードしてよく、オペコード拡張として扱われてよく、いずれの命令オペランドをエンコードするために使用されなくてよい。

４つのオペランドをサポートする命令構文、ｖｖｖｖに関して、ＭｏｄＲ／ＭＲ／Ｍフィールド１７４６およびＭｏｄＲ／Ｍｒｅｇフィールド１７４４は、４つのオペランドのうちの３つをエンコードする。即値１６０９のビット［７：４］は、次に、第３のソースレジスタオペランドをエンコードするために使用される。

図２０（Ｂ）は、３バイト形式の第２のプレフィクス１６０１（Ｂ）の例を示す。一例では、フォーマットフィールド２０１１（バイト０２０１３）は値Ｃ４Ｈを含む。バイト１２０１５は、ビット［７：５］において、第１のプレフィクス１６０１（Ａ）の同じ値の補数である、「Ｒ」、「Ｘ」、および「Ｂ」を含む。バイト１２０１５のビット［４：０］（ｍｍｍｍｍとして示される）は、必要に応じて、１つまたは複数の示唆されるリーディング（ｌｅａｄｉｎｇ）オペコードバイトをエンコードする内容を含む。例えば、００００１は０ＦＨリーディングオペコードを示唆し、０００１０は０Ｆ３８Ｈリーディングオペコードを示唆し、０００１１はリーディング０Ｆ３ＡＨオペコードを示唆する、などである。

バイト２２０１７のビット［７］は、プロモート可能なオペランドサイズを決定することを補助することを含め、第１のプレフィクス１６０１（Ａ）のＷと同様に使用される。ビット［２］はベクトルの長さ（Ｌ）を規定するために使用される（０の値はスカラまたは１２８ビットベクトルであり、１の値は２５６ビットベクトルである）。ビット［１：０］は、いくつかのレガシプレフィクスと外延性同等のオペコードを提供する（例えば、００＝プレフィクスなし、０１＝６６Ｈ、１０＝Ｆ３Ｈ、および１１＝Ｆ２Ｈ）。ｖｖｖｖとして示されるビット［６：３］は、以下のように使用され得る。１）反転（１の補数）形式で指定され、２以上のソースオペランドを有する命令に有効である、第１のソースレジスタオペランドをエンコードする。２）特定のベクトルシフトのために１の補数形式で指定される、デスティネーションレジスタオペランドをエンコードする。または、３）いかなるオペランドもエンコードせず、フィールドはリザーブされ、１１１１ｂなどの特定の値を含むべきである。

図２１は、第３のプレフィクス１６０１（Ｃ）の例を示す。いくつかの例では、第１のプレフィクス１６０１（Ａ）はＥＶＥＸプレフィクスのいくつかの例である。第３のプレフィクス１６０１（Ｃ）は４バイトプレフィクスである。

第３のプレフィクス１６０１（Ｃ）は、６４ビットモードにおいて３２のベクトルレジスタ（例えば、１２８ビット、２５６ビット、および５１２ビットレジスタ）をエンコードし得る。いくつかの例では、ライトマスク／オペマスク（図１５などの前の図におけるレジスタの説明を参照）またはプレディケーションを利用する命令が、このプレフィクスを利用する。オペマスクレジスタは、条件処理または選択制御を可能にする。そのソース／デスティネーションオペランドがオペマスクレジスタであり、オペマスクレジスタの内容を単一の値として扱うオペマスク命令は第２のプレフィクス１６０１（Ｂ）を使用してエンコードされる。

第３のプレフィクス１６０１（Ｃ）は、命令クラスに特有の機能をエンコードし得る（例えば、「ロード＋ｏｐ」セマンティクスを有するパックド命令が、埋め込み型ブロードキャスト機能をサポート可能であり、丸めセマンティクスを有する浮動小数点命令が、静的丸め機能をサポート可能であり、非丸め演算セマンティクスを有する浮動小数点命令が、「全例外抑制」機能をサポート可能である、などである）。

第３のプレフィクス１６０１（Ｃ）の第１のバイトは、一例では６２Ｈの値を有する、フォーマットフィールド２１１１である。後続のバイトはペイロードバイト２１１５～２１１９と称され、１つまたは複数のフィールド（本明細書に詳述される）の形式において特定の機能を提供するＰ［２３：０］の２４ビット値を集合的に形成する。

いくつかの例では、ペイロードバイト２１１９のＰ［１：０］は、下位の２つのｍｍｍｍｍビットと同一である。Ｐ［３：２］は、いくつかの例ではリザーブされている。ビットＰ［４］（Ｒ'）は、Ｐ［７］およびＭｏｄＲ／Ｍｒｅｇフィールド１７４４と組み合わされた場合、上位の１６のベクトルレジスタセットへのアクセスを可能にする。Ｐ［６］はまた、ＳＩＢタイプアドレシングが必要とされない場合、上位の１６のベクトルレジスタへのアクセスを提供し得る。Ｐ［７：５］は、ベクトルレジスタ、汎用レジスタ、メモリアドレシングのためのオペランド指定修正ビットであるＲ、ＸおよびＢからなり、ＭｏｄＲ／Ｍレジスタフィールド１７４４およびＭｏｄＲ／ＭＲ／Ｍフィールド１７４６と組み合わされた場合、下位の８つのレジスタを超えて次のセットの８つのレジスタへのアクセスを可能にする。Ｐ［９：８］は、いくつかのレガシプレフィクスと外延性同等のオペコードを提供する（例えば、００＝プレフィクスなし、０１＝６６Ｈ、１０＝Ｆ３Ｈ、および１１＝Ｆ２Ｈ）。Ｐ［１０］は、いくつかの例では、固定値１である。ｖｖｖｖとして示されるＰ［１４：１１］は、以下のために使用され得る。１）反転（１の補数）形式で指定され、２以上のソースオペランドを有する命令に有効である、第１のソースレジスタオペランドをエンコードする。２）特定のベクトルシフトのために１の補数形式で指定される、デスティネーションレジスタオペランドをエンコードする。または、３）いかなるオペランドもエンコードせず、フィールドはリザーブされ、１１１１ｂなどの特定の値を含むべきである。

Ｐ［１５］は、第１のプレフィクス１６０１（Ａ）および第２のプレフィクス１６１１（Ｂ）のＷと同様であり、オペコード拡張ビットまたはオペランドサイズプロモーションとして機能し得る。

Ｐ［１８：１６］は、オペマスク（ライトマスク）レジスタ（例えば、ライトマスク／プレジケートレジスタ１５１５）におけるレジスタのインデックスを指定する。いくつかの例では、特定の値ａａａ＝０００は、特定の命令のために非オペマスクが使用されることを示唆する、特別な挙動を有する（これは、全ての１に対するハードワイヤされたオペマスクの使用、またはマスキングハードウェアをバイパスするハードウェアの使用を含む、様々な態様で実装され得る）。マージする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（基本演算および拡張演算により指定された）任意の演算の実行の間に更新から保護されることを可能にし、他のいくつかの例では、対応するマスクビットが０を有するデスティネーションの各要素の古い値を維持する。対照的に、ゼロ化する場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが、（基本演算および拡張演算において指定された）任意の演算の実行の間にゼロにされることを可能にし、いくつかの例では、対応するマスクビットが０値を有する場合、デスティネーションの要素は０に設定される。この機能のサブセットは、実行されている演算のベクトル長（すなわち、修正される要素の、最初の要素から最後の要素までの範囲）を制御する能力であるが、しかしながら、修正される要素が連続している必要はない。したがって、オペマスクフィールドは、ロード、ストア、演算、論理などを含む部分ベクトル演算を可能とする。オペマスクフィールドの内容が、使用されるオペマスクを含む多くのオペマスクレジスタのうちの１つを選択する（およびしたがって、オペマスクフィールドの内容が、実行される当該マスキングを間接的に識別する）例が説明されているが、代替の例は、これに代えて、または追加して、マスク書き込みフィールドの内容が、実行されるマスキングを直接に指定することを可能にする。

Ｐ［１９］は、Ｐ［１９］を使用して上位の１６のベクトルレジスタにアクセス可能な非破壊ソース構文内の第２のソースベクトルレジスタをエンコードするために、Ｐ［１４：１１］と組み合わされ得る。Ｐ［２０］は、異なるクラスの命令にわたって異なり、ベクトル長さ／丸め制御指定フィールド（Ｐ［２２：２１］）の意味に影響を与え得る、複数の機能をエンコードする。Ｐ［２３］は、マージ処理・ライトマスク処理のためのサポート（例えば、０にセットされた場合）、または、ゼロ化およびマージ処理・ライトマスク処理のためのサポート（例えば、１にセットされた場合）を示す。

第３のプレフィクス１６０１（Ｃ）を使用した命令におけるレジスタのエンコードの例示的な例が以下の表に詳述される。

プログラムコードは、本明細書で説明される機能を実行し、出力情報を生成するために、入力命令に適用されてよい。出力情報は、１つまたは複数の出力デバイスに既知の様式で適用されてよい。この適用の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロプロセッサなどのプロセッサを有する任意のシステムを含む。

プログラムコードは、処理システムと通信するために、高級手続き型またはオブジェクト指向型プログラミング言語において実装されてよい。プログラムコードはまた、所望の場合、アセンブリ言語または機械言語で実装されてもよい。実際には、本明細書で説明されたメカニズムは、いかなる特定のプログラミング言語にも範囲が限定されるものではない。いずれの場合でも、言語は、コンパイル型言語またはインタープリタ型言語であってよい。

本明細書に開示されるメカニズムの例は、ハードウェア、ソフトウェア、ファームウェア、またはそのような実装手法の組み合わせで実装され得る。例は、少なくとも１つのプロセッサと、（揮発性および不揮発性メモリおよび／または格納要素を含む）ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを備えるプログラム可能なシステム上で実行されるコンピュータプログラムまたはプログラムコードとして実装されてもよい。

少なくともいくつかの例の１つまたは複数の態様は、プロセッサ内の様々なロジックを表す、機械可読媒体上に格納された代表的な命令により実装され得、命令は、機械により読み出されると、当該機械に本明細書で説明される技術を実行させるためのロジックを生成させる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に格納され、ロジックまたはプロセッサを実際に作成する製造機械にロードするために、様々な顧客または製造設備に供給されてもよい。

そのような機械可読記憶媒体は、限定するものではないが、機械またはデバイスにより製造または形成される、非一時的で有形な構造の物品を含み得、これには、ハードディスク、フロッピーディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、書き換え可能コンパクトディスク（ＣＤ－ＲＷ）、および光磁気ディスクなどの他のタイプのディスクを含む記憶媒体、リードオンリメモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）などの半導体デバイス、磁気もしくは光カード、または電子命令を格納するのに好適な他のタイプの媒体が含まれる。

したがって、例はまた、本明細書に説明される構造体、回路、装置、プロセッサ、および／またはシステム機能を定義するハードウェア記述言語（ＨＤＬ）などの命令を含むか、または設計データを含む非一時的有形機械可読媒体も含む。そのような例も、プログラム製品と称され得る。
エミュレーション（バイナリ変換、コードモーフィングなどを含む）

いくつかの場合では、ソース命令セットからターゲット命令セットへと命令を変換するために、命令コンバータ使用され得る。例えば、命令コンバータは、命令を、コアによって処理されるべき１つまたは複数の他の命令へと変換し（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）、モーフィングし、エミュレートし、または別様に変換することができる。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせで実装されてもよい。命令コンバータは、オンプロセッサ、オフプロセッサ、または一部がオンプロセッサで一部がオフプロセッサであってよい。

図２２は、例による、ソース命令セットにおけるバイナリ命令をターゲット命令セットにおけるバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図を示す。示された実施形態では、命令コンバータはソフトウェア命令コンバータであるが、代替的には、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装されてもよい。図２２は、高級言語２２０２におけるプログラムが、第１のＩＳＡコンパイラ２２０４を使用してコンパイルされて、少なくとも１つの第１の命令セットコアを有するプロセッサ２２１６によりネイティブに実行され得る第１のＩＳＡバイナリコード２２０６を生成し得ることを示す。少なくとも１つの第１のＩＳＡ命令セットコアを有するプロセッサ２２１６は、少なくとも１つの第１のＩＳＡ命令セットコアを有するプロセッサと実質的に同じ結果を実現するために、（１）第１のＩＳＡ命令セットコアの命令セットの実質的部分、または（２）少なくとも１つの第１のＩＳＡ命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサ上で実行することを目標とされたアプリケーションもしくは他のソフトウェアのオブジェクトコードのバージョンを互換的に実行する、または別様に処理することにより、少なくとも１つの第１のＩＳＡ命令セットコアを有するＩｎｔｅｌプロセッサと実質的に同じ機能を実行できる任意のプロセッサを表す。第１のＩＳＡコンパイラ２２０４は、追加のリンケージ処理を用いてまたは用いないで、少なくとも１つの第１のＩＳＡ命令セットコアを有するプロセッサ２２１６上で実行され得る第１のＩＳＡバイナリコード２２０６（例えば、オブジェクトコード）を生成するように動作可能なコンパイラを表す。同様に、図２２は、高級言語２２０２におけるプログラムが、第１のＩＳＡ命令セットコアなしのプロセッサ２２１４によってネイティブに実行され得る代替的な命令セットバイナリコード２２１０を生成するために、代替的な命令セットコンパイラ２２０８を使用してコンパイルされ得ることを示す。命令コンバータ２２１２は、第１のＩＳＡバイナリコード２２０６を、第１のＩＳＡ命令セットコアなしのプロセッサ２２１４によってネイティブに実行され得るコードに変換するために使用される。この変換済みコードは、これを可能にする命令コンバータを作成することは困難であるため、代替の命令セットバイナリコード２２１０と同じである可能性は低いが、しかしながら、変換済みコードは一般的な演算を実現し、代替的な命令セットからの命令で構成される。したがって、命令コンバータ２２１２は、エミュレーション、シミュレーション、または任意の他のプロセスを通じて、第１のＩＳＡ命令セットプロセッサもしくはコアを有さない、プロセッサまたは他の電子デバイスが第１のＩＳＡバイナリコード２２０６を実行することを可能にするソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを表す。

「いくつかの例」「例示的な実施形態」などへの言及は、説明された当該実施形態が、特定の特徴、構造、または特性を含み得ることを示すが、全ての実施形態が、必ずしも当該特定の特徴、構造、または特性を含まなくてもよい。さらに、そのような語句は、必ずしも同じ実施形態に言及するわけではない。さらに、いくつかの例に関連して特定の特徴、構造または特性が説明されている場合、明示の説明の有無に関わらず、他の例に関連して、そのような特徴、構造または特性に影響が及ぶことは、当業者の知識の範囲内であると考えられる。

例としては、以下が挙げられるが、これらに限定されない。
１．単一命令をデコードするためのデコーダ回路であって、単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、オペコードは、回路が、ソースオペランドで指定されたバイトを含む提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、１バイトのデータは共有状態で格納されるためのものである、デコーダ回路と、
オペコードに従ってデコードされた命令を実行する実行回路と
を備える、装置。
２．オペコードは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例１に記載の装置。
３．モデル固有レジスタは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例１に記載の装置。
４．アドレシングフィールドの１つまたは複数のビットは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例１に記載の装置。
５．ソースオペランドのためのフィールドは、メモリ位置を識別するためのものである、例１～４のいずれか一項に記載の装置。
６．１バイトのデータは、最終レベルキャッシュ内にも共有状態で格納されるためのものである、例１～５のいずれか一項に記載の装置。
７．実行回路は、キャッシュコヒーレンシ回路を少なくとも含む、例１～６のいずれか一項に記載の装置。
８．単一命令をデコードする段階であって、単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、オペコードは、回路が、ソースオペランドで指定されたバイトを含む提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、１バイトのデータは共有状態で格納されるためのものである、デコードする段階と、
オペコードに従ってデコードされた命令を実行する段階と
を備える、方法。
９．オペコードは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例８に記載の方法。
１０．モデル固有レジスタは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例８に記載の方法。
１１．アドレシングフィールドの１つまたは複数のビットは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例８に記載の方法。
１２．ソースオペランドのためのフィールドは、メモリ位置を識別するためのものである、例８～１１のいずれか一項に記載の方法。
１３．１バイトのデータは、最終レベルキャッシュ内にも共有状態で格納されるためのものである、例８～１２のいずれか一項に記載の方法。
１４．実行する段階は、少なくともキャッシュコヒーレンシ回路を利用する、例８～１３のいずれか一項に記載の方法。
１５．機械によって処理されたときに、機械に方法を実行させる単一命令の少なくとも１つのインスタンスを格納した非一時的機械可読媒体であって、方法は、
単一命令のインスタンスをデコードする段階であって、単一命令のインスタンスは、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、オペコードは、回路が、ソースオペランドで指定されたバイトを含む提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、１バイトのデータは共有状態で格納されるためのものである、デコードする段階と、
オペコードに従ってデコードされた命令を実行する段階と
を含む、非一時的機械可読媒体。
１６．オペコードは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例１５に記載の非一時的機械可読媒体。
１７．モデル固有レジスタは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例１５に記載の非一時的機械可読媒体。
１８．アドレシングフィールドの１つまたは複数のビットは、１バイトのデータが共有状態で格納されるためのものであることを示すためのものである、例１５に記載の非一時的機械可読媒体。
１９．ソースオペランドのためのフィールドは、メモリ位置を識別するためのものである、例１５～１８のいずれか一項に記載の非一時的機械可読媒体。
２０．１バイトのデータは、最終レベルキャッシュ内にも共有状態で格納されるためのものである、例１５～１９のいずれか一項に記載の非一時的機械可読媒体。

さらに、上で説明された様々な例において、別途具体的に記載されなければ、語句「Ａ、Ｂ、またはＣのうちの少なくとも１つ」などの選言的文言は、Ａ、ＢまたはＣのいずれか、またはそれらの任意の組み合わせ（例えば、Ａ、Ｂ、および／またはＣ）を意味すると理解されるよう意図される。したがって、選言的文言は、所与の実施形態がそれぞれ存在するためにＡのうちの少なくとも１つ、Ｂのうちの少なくとも１つ、またはＣのうちの少なくとも１つを必要とすることを意味するようには意図されておらず、また意味するように理解されるべきでもない。

したがって、明細書および図面は、限定的意味ではなく、むしろ例示的意味に関するとされるべきである。しかしながら、様々な修正および変更が、請求項に記載されたように開示のより広い趣旨および範囲から逸脱することなくこれらになされてよいことは明らかであろう。
［他の可能な項目］
［項目１］
単一命令をデコードするためのデコーダ回路であって、前記単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、前記オペコードは、回路が、前記ソースオペランドで指定された前記バイトを含む前記提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、前記１バイトのデータは共有状態で格納されるためのものである、デコーダ回路と、
前記オペコードに従って前記デコードされた命令を実行する実行回路と
を備える、装置。
［項目２］
前記オペコードは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目１に記載の装置。
［項目３］
モデル固有レジスタは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目１に記載の装置。
［項目４］
アドレシングフィールドの１つまたは複数のビットは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目１に記載の装置。
［項目５］
前記ソースオペランドのための前記フィールドは、メモリ位置を識別するためのものである、項目１に記載の装置。
［項目６］
前記１バイトのデータは、最終レベルキャッシュ内にも前記共有状態で格納されるためのものである、項目１に記載の装置。
［項目７］
前記実行回路は、キャッシュコヒーレンシ回路を少なくとも含む、項目１に記載の装置。
［項目８］
単一命令をデコードする段階であって、前記単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、前記オペコードは、回路が、前記ソースオペランドで指定された前記バイトを含む前記提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、前記１バイトのデータは共有状態で格納されるためのものである、デコードする段階と、
前記オペコードに従って前記デコードされた命令を実行する段階と
を備える、方法。
［項目９］
前記オペコードは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目８に記載の方法。
［項目１０］
モデル固有レジスタは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目８に記載の方法。
［項目１１］
アドレシングフィールドの１つまたは複数のビットは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目８に記載の方法。
［項目１２］
前記ソースオペランドのための前記フィールドは、メモリ位置を識別するためのものである、項目８に記載の方法。
［項目１３］
前記１バイトのデータは、最終レベルキャッシュ内にも前記共有状態で格納されるためのものである、項目８に記載の方法。
［項目１４］
前記実行する段階は、少なくともキャッシュコヒーレンシ回路を利用する、項目８に記載の方法。
［項目１５］
機械によって処理されたときに、前記機械に方法を実行させる単一命令の少なくとも１つのインスタンスを格納した非一時的機械可読媒体であって、前記方法は、
前記単一命令の前記インスタンスをデコードする段階であって、前記単一命令の前記インスタンスは、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、前記オペコードは、回路が、前記ソースオペランドで指定された前記バイトを含む前記提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、前記１バイトのデータは共有状態で格納されるためのものである、デコードする段階と、
前記オペコードに従って前記デコードされた命令を実行する段階と
を含む、非一時的機械可読媒体。
［項目１６］
前記オペコードは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目１５に記載の非一時的機械可読媒体。
［項目１７］
モデル固有レジスタは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目１５に記載の非一時的機械可読媒体。
［項目１８］
アドレシングフィールドの１つまたは複数のビットは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、項目１５に記載の非一時的機械可読媒体。
［項目１９］
前記ソースオペランドのための前記フィールドは、メモリ位置を識別するためのものである、項目１５に記載の非一時的機械可読媒体。
［項目２０］
前記１バイトのデータは、最終レベルキャッシュ内にも前記共有状態で格納されるためのものである、項目１５に記載の非一時的機械可読媒体。

Claims

単一命令をデコードするためのデコーダ回路であって、前記単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、前記オペコードは、回路が、前記ソースオペランドで指定された前記バイトを含む前記提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、前記１バイトのデータは共有状態で格納されるためのものである、デコーダ回路と、
前記オペコードに従って前記デコードされた命令を実行する実行回路と
を備える、装置。
前記オペコードは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項１に記載の装置。
モデル固有レジスタは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項１に記載の装置。
アドレシングフィールドの１つまたは複数のビットは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項１に記載の装置。
前記ソースオペランドのための前記フィールドは、メモリ位置を識別するためのものである、請求項１～４のいずれか一項に記載の装置。
前記１バイトのデータは、最終レベルキャッシュ内にも前記共有状態で格納されるためのものである、請求項１～４のいずれか一項に記載の装置。
前記実行回路は、キャッシュコヒーレンシ回路を少なくとも含む、請求項１～４のいずれか一項に記載の装置。
単一命令をデコードする段階であって、前記単一命令は、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、前記オペコードは、回路が、前記ソースオペランドで指定された前記バイトを含む前記提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、前記１バイトのデータは共有状態で格納されるためのものである、デコードする段階と、
前記オペコードに従って前記デコードされた命令を実行する段階と
を備える、方法。
前記オペコードは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項８に記載の方法。
モデル固有レジスタは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項８に記載の方法。
アドレシングフィールドの１つまたは複数のビットは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項８に記載の方法。
前記ソースオペランドのための前記フィールドは、メモリ位置を識別するためのものである、請求項８～１１のいずれか一項に記載の方法。
前記１バイトのデータは、最終レベルキャッシュ内にも前記共有状態で格納されるためのものである、請求項８～１１のいずれか一項に記載の方法。
前記実行する段階は、少なくともキャッシュコヒーレンシ回路を利用する、請求項８～１１のいずれか一項に記載の方法。
コンピュータに、
単一命令の少なくとも１つのインスタンスをデコードする手順であって、前記単一命令の前記インスタンスは、オペコードのための少なくとも１つのフィールドと、少なくとも１バイトのデータをメモリアドレスに提供するためのソースオペランドのための少なくとも１つのフィールドとを有し、前記オペコードは、回路が、前記ソースオペランドで指定された前記バイトを含む前記提供されたアドレスにおいてメモリからデータのラインをフェッチし、そのバイトを要求者にとってローカルな少なくとも１つのキャッシュに格納するためのものであることを示すためのものであり、前記１バイトのデータは共有状態で格納されるためのものである、デコードする手順と、
前記オペコードに従って前記デコードされた命令を実行する手順と
を実行させる、コンピュータプログラム。
前記オペコードは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項１５に記載のコンピュータプログラム。
モデル固有レジスタは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項１５に記載のコンピュータプログラム。
アドレシングフィールドの１つまたは複数のビットは、前記１バイトのデータが前記共有状態で格納されるためのものであることを示すためのものである、請求項１５に記載のコンピュータプログラム。
前記ソースオペランドのための前記フィールドは、メモリ位置を識別するためのものである、請求項１５に記載のコンピュータプログラム。
前記１バイトのデータは、最終レベルキャッシュ内にも前記共有状態で格納されるためのものである、請求項１５に記載のコンピュータプログラム。
請求項１５～１９のいずれか一項に記載のコンピュータプログラムを格納する、非一時的機械可読媒体。