JP2022526224A

JP2022526224A - 適応的な相互接続ルーティングのためのシステム、装置及び方法

Info

Publication number: JP2022526224A
Application number: JP2021549813A
Authority: JP
Inventors: シン，テジパル; ヒレウィッツ，イェディディア; ヴァルマ，アンクシュ; リウ，イェン‐チェン; ヴイ．シストラ，クリシュナカント; チェンバレン，ジェフリー
Original assignee: インテルコーポレイション
Priority date: 2019-03-26
Filing date: 2020-03-04
Publication date: 2022-05-24
Anticipated expiration: 2040-03-04
Also published as: US11256657B2; JP7495422B2; BR112021016708A2; CN113366458A; EP3948553A4; KR20210133221A; US20200311018A1; WO2020197725A1; EP3948553A1

Abstract

一実施形態において、装置は、複数の処理回路を結合する相互接続を含む。当該相互接続は、第１の処理回路と第２の処理回路との間に結合されるパイプ段回路を含み得る。パイプ段回路は、当該相互接続を介して信号を受信する第１の入力と、信号を出力する第１の出力とを持つパイプ段コンポーネントと、該パイプ段コンポーネントの第１の出力から信号を受信する第１の入力と、バイパス経路を介して信号を受信する第２の入力とを持つ選択回路とを含むことができ、該選択回路は、パイプ段コンポーネントの第１の出力から受信される信号又はバイパス経路を介して受信される信号を出力するように動的に制御可能である。他の実施形態も記述されて特許請求される。

Description

実施形態は、相互接続（インターコネクト）の動的制御に関する。

現代のプロセッサは典型的に、コアと付加的な処理回路とで形成される。コア及び他の回路を結合するために、様々な相互接続構造が使用される。処理回路の面積増加は、その動作電圧範囲全体にわたって、相互接続構造における周波数の難題を生じさせる。相互接続通信経路と相互接続のロジックとの間で、動作特性（例えば、周波数／電圧（Ｆ／Ｖ）カーブで特定される電圧及び周波数）間のギャップが増大している。相互接続通信経路に関するＦ／Ｖカーブが、動作電圧を制限し、それに従って、最適でない電力プロファイルで相互接続全体を動作させることがあり、より高い電圧でこのギャップが増大する。相互接続通信経路は、相互接続全体のうちの小さなコンポーネントであり得るので、それに相互接続の電力プロファイルを定めさせるのは最適ではない。電力制約環境における現行技術では、人為的に高い電圧で相互接続を動作させることは性能損失を引き起こす。

本発明の一実施形態に従ったシステムの一部のブロック図である。本発明の一実施形態に従ったプロセッサのブロック図である。本発明の他の一実施形態に従ったマルチドメインプロセッサのブロック図である。複数のコアを含むプロセッサの一実施形態である。本発明の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。更なる他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。より更なる一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。本発明の他の一実施形態に従ったプロセッサのブロック図である。本発明の一実施形態に従った代表的なＳｏＣのブロック図である。本発明の一実施形態に従ったＳｏＣの他の一例のブロック図である。それとともに実施形態が使用され得るシステムの一例のブロック図である。それとともに実施形態が使用され得るシステムの他の一例のブロック図である。代表的なコンピュータシステムのブロック図である。本発明の一実施形態に従ったシステムのブロック図である。一実施形態に従った動作を実行する集積回路を製造するために使用されるＩＰコア開発システムを示すブロック図である。本発明の一実施形態に従った制御可能なパイプ段回路のブロック図である。一実施形態に従った相互接続上でのサイクルレイテンシの動的制御を示すブロック図である。図１９Ａ－１９Ｂは、本発明の一実施形態に従った方法のフロー図である。図１９Ａ－１９Ｂは、本発明の一実施形態に従った方法のフロー図である。本発明の他の一実施形態に従った方法のフロー図である。プロセッサの相互接続回路に関する周波数－電圧カーブのグラフである。

様々な実施形態において、相互接続構造は、相互接続上に制御可能なレイテンシを動的に構成するための回路を含む。より具体的には、実施形態において、１つ以上のパイプ段が、動的に、相互接続の通信経路に追加されたり、それから除去されたりし得る。相互接続構造へのそのような動的な更新は、性能状態変化プロセスのコンテキストで発生し得る。このコンテキストにおいては、電圧及び／又は周波数が変化しない場合にも、パイプ段動作を動的に更新することが可能である。ここでの実施形態は、メッシュインターコネクトのコンテキストにて説明されるが、この技術が他の相互接続構造にも適用可能であることを理解されたい。

一実施形態において、高周波数のメッシュレイテンシに敏感ではないワークロードのために、そのようなパイプ段が付加され、低周波数でそれらは電力管理（power management；ＰＭ）制御下で動的に除去され得る。斯くして、実施形態は、相互接続通信経路の性能状態が、相互接続のロジックの性能状態を追跡することを可能にする。すなわち、実施形態は、相互接続Ｆ／Ｖカーブが、面積及び電力の要求を増加させることなく、メッシュストップ及び関連ロジックに関するスケーラブルコヒーレントファブリック（scalable coherent fabric；ＳＣＦ）ＩＰＦ／Ｖカーブを追跡することを可能にする。実施形態で、メッシュＦ／Ｖカーブは、ＳＣＦＩＰＦ／Ｖカーブと比較してのリミッタとならないように最適化される。ファブリック上のレイテンシクリティカルなホップに対して、追加のパイプ段が、例えばＦ／Ｖカーブ上の所定のポイントにて挿入され得る。

一実施形態において、メッシュファブリックは水平及び垂直リングファブリックの組み合わせである。この構成では、任意の所与の電圧においてメッシュファブリック又はＩＰＦ／Ｖカーブ上に留まる柔軟性があり、それが、より高い電力での低レイテンシファブリック動作、又はより高レイテンシのファブリック動作での電力節減の間での動的な選択を可能にする。加えて、より低い電圧では、ワークロード要求に基づいてメッシュ帯域幅が増加され得る。電力節減は、同じ電圧において、より高い周波数での動作を可能にすることによって達成され得る。より低い電圧においてメッシュ上にいっそう高い帯域幅を可能にすることにより、メッシュ帯域幅及び電力の両方が重要な、機械学習ワークロードのような特定のワークロードの効率が上昇する。

以下の実施形態は、例えば計算プラットフォーム又はプロセッサにおいてなど、特定の集積回路におけるエネルギー節約及びエネルギー効率を参照して説明されるが、他の実施形態は、他のタイプの集積回路及び論理デバイスに適用可能である。ここに記載される実施形態の技術及び教示と同様のものが、より良いエネルギー効率及びエネルギー節約の恩恵をやはり受け得る他のタイプの回路又は半導体デバイスに適用され得る。例えば、開示される実施形態は、如何なる特定のタイプのコンピュータシステムにも限定されない。すなわち、開示される実施形態は、サーバコンピュータ（例えば、タワー、ラック、ブレード、マイクロサーバなど）、通信システム、ストレージシステム、任意の構成のデスクトップコンピュータ、ラップトップ、ノートブック、及びタブレットコンピュータ（２：１タブレット、ファブレットなどを含む）に及ぶ数多くの異なるシステムタイプで使用されることができ、また、例えばハンドヘルド装置、システム・オン・チップ（ＳｏＣ）、及び組み込みアプリケーションなどの他のデバイスでも使用され得る。ハンドヘルド装置の一部の例は、例えばスマートフォンなどの携帯電話、インターネットプロトコル装置、デジタルカメラ、携帯情報端末（ＰＤＡ）、及びハンドヘルドＰＣを含む。組み込みアプリケーションは典型的に、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコンピュータ（ＮｅｔＰＣ）、セットトップボックス、ネットワークハブ、ワイドエリアネットワーク（ＷＡＮ）スイッチ、ウェアラブル装置、又は以下に教示される機能及び動作を実行することができる任意の他のシステムを含み得る。また、実施形態は、例えば移動電話、スマートフォン及びファブレットなどの標準的な音声機能を有するモバイル端末、及び／又は多くのウェアラブル、タブレット、ノートブック、デスクトップ、マイクロサーバ、サーバなどの、標準的な無線音声機能の通信能力を持たない非モバイル端末に実装され得る。さらに、ここに記載される装置、方法、及びシステムは、物理的なコンピューティング装置に限定されず、エネルギー節約及び効率のためのソフトウェア最適化にも関係し得る。以下の説明にてただちに明らかになるように、ここに記載される方法、装置、及びシステムの実施形態（ハードウェア、ファームウェア、ソフトウェア、又はこれらの組み合わせのいずれを参照していようと）は、例えば米国経済の大部分を網羅するプロダクトの電力節約及びエネルギー効率などの“グリーン技術”の将来にとって不可欠である。

次に図１を参照するに、本発明の一実施形態に従ったシステムの一部のブロック図が示されている。図１に示すように、システム１００は、図示のようにマルチコアプロセッサであるプロセッサ１１０を含む様々なコンポーネントを含み得る。プロセッサ１１０は、外部電圧レギュレータ１６０を介して電源１５０に結合されることができ、外部電圧レギュレータ１６０は、第１の電圧変換を実行して、プロセッサ１１０に一次レギュレート電圧を提供し得る。

見てとれるように、プロセッサ１１０は、複数のコア１２０_ａ－１２０_ｎを含む単一ダイのプロセッサとし得る。また、各コアに集積電圧レギュレータ（integrated voltage regulator；ＩＶＲ）１２５_ａ－１２５_ｎが付随するようにすることができ、ＩＶＲは、一次レギュレート電圧を受けて、該ＩＶＲが付随するプロセッサの１つ以上のエージェントに供給される動作電圧を生成する。従って、ＩＶＲ実装は、個々のコア各々の電圧ひいては電力及び性能の、細かい粒度での制御を可能にするように提供され得る。従って、各コアは、独立した電圧及び周波数で動作することができ、大きな柔軟性を可能にするとともに、電力消費を性能とバランスさせるための幅広い機会を提供する。一部の実施形態において、複数のＩＶＲの使用は、コンポーネントを別々の電力プレーンにグループ分けし、電力がＩＶＲによってレギュレートされてそのグループ内のコンポーネントのみに供給されるようにすることを可能にする。電力管理において、プロセッサがある特定の低電力状態に置かれるときに、所与の電力プレーンの１つのＩＶＲが電力を下げられるか切られるかする一方で、他の電力プレーンの別のＩＶＲがアクティブのままである又はフルに電力供給されることができる。

なおも図１を参照するに、プロセッサ内には、入力／出力インタフェース１３２、別のインタフェース１３４、及び集積メモリコントローラ１３６を含む更なるコンポーネントが存在し得る。見てとれるように、これらのコンポーネントの各々が、別の集積電圧レギュレータ１２５_ｘによって電力供給され得る。一実施形態において、インタフェース１３２は、物理層、リンク層、及びプロトコル層を含む複数レイヤを含んだキャッシュコヒーレントプロトコルにおいてポイント・ツー・ポイント（ＰｔＰ）リンクを提供するものであるＩｎｔｅｌ（登録商標）ＱＰＩ（Quick Path Interconnect）インターコネクト向けの動作を可能にし得る。代わって、インタフェース１３４は、ペリフェラルコンポーネントインターコネクトエクスプレス（ＰＣＩｅ^ＴＭ）プロトコルを介して通信してもよい。

プロセッサ１１０に対する電力管理動作を実行するための、ハードウェア、ソフトウェア、及び／又はファームウェアを含み得るものである電力制御ユニット（ＰＣＵ）１３８も示されている。見てとれるように、ＰＣＵ１３８は、デジタルインタフェースを介して外部電圧レギュレータ１６０に制御情報を提供し、該電圧レギュレータに適切なレギュレートされた電圧を生成させる。ＰＣＵ１３８はまた、別のデジタルインタフェースを介してＩＶＲ１２５に制御情報を提供し、生成される動作電圧を制御する（又は、対応するＩＶＲを低電力モードで無効にさせる）。様々な実施形態において、ＰＣＵ１３８は、ハードウェアベースの電力管理を実行する多様な電力管理論理ユニットを含み得る。そのような電力管理は、全体がプロセッサ制御されてもよく（例えば、様々なプロセッサハードウェアによってであり、ワークロード及び／又は電力、熱若しくは他のプロセッサ制約によってトリガされ得る）、及び／又は電力管理は、外部ソース（例えば、プラットフォーム又は管理電力管理ソース若しくはシステムソフトウェア）に応答して実行されてもよい。

また、図１は、ＰＣＵ１３８が別個の処理エンジン（これはマイクロコントローラとして実装され得る）である実装を示しているが、理解されたいことには、一部の実施形態では、専用の電力コントローラに加えて又は代えて、各コアが、電力制御エージェントを含むか、それに付随されるかして、いっそう自律的に、電力消費を独立して制御するようにしてもよい。一部のケースでは、階層的な電力管理アーキテクチャが提供され、ＰＣＵ１３８が、コア１２０の各々に付随した対応する電力管理エージェントと通信する。ＰＣＵ１３８に含まれる１つの電力管理論理ユニットは、例えば、ここに記載されるように動作電圧に少なくとも部分的に基づいてレイテンシを動的に制御するファブリックなどの、相互接続構造のルーティングを動的に制御する相互接続更新制御回路とし得る。

説明を容易にするために図示していないが、理解されたいことには、プロセッサ１１０内には、追加の制御回路や、例えば１つ以上のレベルのキャッシュメモリ階層などといった内部メモリなどのその他のコンポーネントなどの、更なるコンポーネントが存在し得る。また、図１の実装は集積電圧レギュレータを備えるように示されているが、実施形態はそのように限定されるものではない。

なお、ここに記載される電力管理技術は、オペレーティングシステム（ＯＳ）ベースの電力管理（ＯＳＰＭ）機構とは独立であり且つそれに対して補完的であるとし得る。一例のＯＳＰＭ技術によれば、プロセッサは、いわゆるＰ０からＰＮまでのＰ状態である様々な性能状態又はレベルで動作することができる。一般に、Ｐ１性能状態は、ＯＳによって要求される最高保証性能状態に対応し得る。このＰ１状態に加えて、ＯＳは、更に高い性能状態すなわちＰ０状態を要求することができる。このＰ０状態は、故に、電力量及び／又は熱量が利用可能であるときにプロセッサハードウェアが、プロセッサ又はその少なくともその一部を、保証周波数よりも高い周波数で動作するように設定することができるという、日和見モード状態又はターボモード状態とし得る。多くの実装において、プロセッサは、製造中に該プロセッサにヒューズによって又はその他によって書き込んで、その特定のプロセッサの最大ピーク周波数を超える、Ｐ１保証最大周波数よりも高い、複数のいわゆるビン周波数を含むことができる。さらに、一ＯＳＰＭ機構によれば、プロセッサは様々な電力状態又はレベルで動作することができる。電力状態に関して、ＯＳＰＭ機構は、一般にＣ０、Ｃ１－Ｃｎ状態なるＣ状態として参照される複数の異なる電力消費状態を指定し得る。あるコアがアクティブであるとき、それはＣ０状態で動作し、コアがアイドルであるとき、それは、コア非ゼロＣ状態（例えば、Ｃ１－Ｃ６状態）とも呼ばれるコア低電力状態に置かれることができ、これらの各Ｃ状態が低めの電力消費レベルにある（Ｃ６の方がＣ１よりも深い低電力状態である等々であるように）。

理解されたいことには、異なる実施形態では数多くの異なるタイプの電力管理技術が個別に又は組み合わせて使用され得る。代表的な例として、電力コントローラが、特定の状況において電力消費を低減させるように１つ以上のコア又は他のプロセッサロジックの動作電圧及び／又は動作周波数が動的に制御されるものである何らかの形態の動的電圧・周波数スケーリング（dynamic voltage frequency scaling；ＤＶＦＳ）によって電力管理されるように、プロセッサを制御し得る。一例として、ＤＶＦＳは、最低電力消費レベルで最適なパフォーマンスを提供するために、カリフォルニア州サンタクララのインテル社から入手可能なＥｎｈａｎｃｅｄＩｎｔｅｌＳｐｅｅｄＳｔｅｐ^ＴＭ技術を用いて行われ得る。他の一例において、ＤＶＦＳは、１つ以上のコア又は他の計算エンジンが条件（例えば、ワークロード及び利用可能性）に基づいて保証動作周波数よりも高い周波数で動作することを可能にするために、ＩｎｔｅｌＴｕｒｂｏｏｓｔ^ＴＭ術を用いておこなわれてもよい。

実施形態は、サーバプロセッサ、デスクトッププロセッサ、モバイルプロセッサなどを含む様々な市場向けのプロセッサに実装されることができる。次に図２を参照するに、本発明の一実施形態に従ったプロセッサのブロック図が示されている。図２に示すように、プロセッサ２００は、複数のコア２１０_ａ－２１０_ｎを含むマルチコアプロセッサとし得る。一実施形態において、そのようなコアは各々、独立した電力ドメインのものとすることができ、ワークロードに基づいてアクティブ状態及び／又は最大性能状態を出入りするように構成されることができる。これら様々なコアは、相互接続２１５を介して、様々なコンポーネントを含むシステムエージェント２２０に結合され得る。見てとれるように、システムエージェント２２０は、最終レベルキャッシュとし得る共有キャッシュ２３０を含むことができる。加えて、システムエージェントは、例えばメモリバスを介してシステムメモリ（図２には示さず）と通信する集積メモリコントローラ２４０を含み得る。システムエージェント２２０はまた、ここに記載される電力管理技術を実行するためのロジックを含み得るものである様々なインタフェース２５０及び電力制御ユニット２５５を含み得る。図示した実施形態において、電力制御ユニット２５５は、ここに記載されるように例えばパイプ段を動的に挿入又は除去することによって、例えばファブリックなどの相互接続上のレイテンシを動的に制御し得るものである相互接続更新制御回路２５８を含んでいる。

さらに、インタフェース２５０ａ－２５０ｎにより、例えば周辺装置及び大容量ストレージなどの様々なオフチップコンポーネントへの接続を為すことができる。図２の実施形態ではこの特定の実装を有するように示されているが、本発明の範囲は、これに関して限定されるものではない。

次に図３を参照するに、他の一実施形態に従ったマルチドメインプロセッサのブロック図が示されている。図３の実施形態に示すように、プロセッサ３００は複数のドメインを含んでいる。具体的には、コアドメイン３１０が複数のコア３１０_０－３１０_ｎを含むことができ、グラフィックスドメイン３２０が１つ以上のグラフィックスエンジンを含むことができ、そして、システムエージェントドメイン３５０が更に存在してもよい。一部の実施形態において、システムエージェントドメイン３５０は、コアドメインとは独立した周波数で実行することができ、また、ドメイン３１０及び３２０が高電力状態及び低電力状態に動的に出入りするように制御され得るように電力制御イベント及び電力管理を扱うために、常時、電力オンのままにされることができる。ドメイン３１０及び３２０の各々は、異なる電圧及び／又は電力で動作することができる。なお、３つのドメインのみを有するように示されているが、理解されたいことには、本発明の範囲は、これに関して限定されるものではなく、他の実施形態では更なるドメインが存在することができる。例えば、各々が少なくとも１つのコアを含む複数のコアドメインが存在してもよい。

一般に、各コア３１０は更に、様々な実行ユニット及び追加の処理要素に加えて、低レベルキャッシュを含み得る。そして、これら様々なコアが、互いに結合され得るとともに最終レベルキャッシュ（ＬＬＣ）３４０_０－３４０_ｎの複数ユニットで形成される共有キャッシュメモリに結合され得る。様々な実施形態において、ＬＬＣ３４０は、これらのコア及びグラフィックスエンジンの間だけでなく様々なメディア処理回路の間で共有され得る。見てとれるように、斯くしてリングインターコネクト３３０がこれらのコアをともに結合するとともに、コア、グラフィックスドメイン３２０、及びシステムエージェント回路３５０の間の相互接続を提供する。一実施形態において、相互接続３３０は、コアドメインの一部とすることができる。しかしながら、他の実施形態において、リングインターコネクトは、それ自身のドメインのものであってもよい。

更に見てとれるように、システムエージェントドメイン３５０は、結合されるディスプレイの制御及びそれへのインタフェースを提供し得るディスプレイコントローラ３５２を含み得る。更に見てとれるように、システムエージェントドメイン３５０は、ここに記載される電力管理技術を実行するロジックを含むことができる電力制御ユニット３５５を含み得る。図示した実施形態において、電力制御ユニット３５５は、ここに記載されるように例えばパイプ段の強制又は除去によって相互接続を通じての通信のルーティングを動的に制御し得るものである相互接続更新制御回路３５８を含んでいる。

図３にて更に見てとれるように、プロセッサ３００は更に、例えばダイナミックランダムアクセスメモリ（ＤＲＡＭ）などのシステムメモリへのインタフェースを提供し得る集積メモリコントローラ（ＩＭＣ）３７０を含むことができる。プロセッサと他の回路との間の相互接続を可能にするために、複数のインタフェース３８０_０－３８０_ｎが存在し得る。例えば、一実施形態において、１つ以上のＰＣＩｅ^ＴＭンタフェースとともに少なくとも１つのダイレクトメディアインタフェース（ＤＭＩ）インタフェースが設けられ得る。さらには、追加のプロセッサ又は他の回路などの他のエージェント同士の間での通信を提供するために、１つ以上のＱＰＩインタフェースも設けられ得る。図３の実施形態ではこのハイレベルで示されているが、理解されたいことには、本発明の範囲は、これに関して限定されるものではない。

図４を参照するに、複数のコアを含むプロセッサの一実施形態が示されている。プロセッサ４００は、例えばマイクロプロセッサ、埋め込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、ハンドヘルドプロセッサ、アプリケーションプロセッサ、コプロセッサ、システム・オン・チップ（ＳｏＣ）、又はコードを実行する他のデバイスなどの、任意のプロセッサ又は処理デバイスを含む。プロセッサ４００は、一実施形態において、非対称コア又は対称コア（図示した実施形態）を含み得る少なくとも２つのコア、コア４０１及び４０２、を含む。しかしながら、プロセッサ４００は、対称又は非対称とし得る如何なる数の処理要素を含んでもよい。

一実施形態において、処理要素は、ソフトウェアスレッドをサポートするハードウェア又はロジックを指す。ハードウェア処理要素の例は、例えば実行状態若しくはアーキテクチャ状態などのプロセッサに関する状態を保持することが可能な、スレッドユニット、スレッドスロット、スレッド、プロセスユニット、コンテキスト、コンテキストユニット、論理プロセッサ、ハードウェアスレッド、コア、及び／又は任意の他の要素を含む。換言すれば、処理要素は、一実施形態において、例えばソフトウェアスレッド、オペレーティングシステム、アプリケーション、又は他のコードなどのコードと独立に関連付けられることが可能な任意のハードウェアを指す。物理プロセッサは典型的に、例えばコア又はハードウェアスレッドなどの任意数の他の処理要素を含み得るものである集積回路を指す。

コアは、しばしば、独立したアーキテクチャ状態を維持することが可能な集積回路上に置かれたロジックを指し、独立して維持される各アーキテクチャ状態が、少なくとも一部の専用実行リソースと関連付けられる。コアとは対照的に、ハードウェアスレッドは典型的に、独立したアーキテクチャ状態を維持することが可能な集積回路上に置かれた任意のロジックを指し、独立して維持される複数のアーキテクチャ状態が、実行リソースへのアクセスを共有する。理解され得るように、特定のリソースが共有され、他のリソースがあるアーキテクチャ状態に専用にされる場合、ハードウェアスレッドという用語とコアという用語との間の線引きが重なり合う。更には、しばしば、コア及びハードウェアスレッドは、オペレーティングシステムによって、個別の論理プロセッサとして見られ、オペレーティングシステムは、各論理プロセッサ上での演算を個別にスケジュールすることができる。

物理プロセッサ４００は、図４に例示するように、コア４０１及びコア４０２という２つのコアを含んでいる。ここでは、コア４０１及び４０２を、対称コア、すなわち、同じ構成、機能ユニット、及び／又はロジックを有するコアとして考える。他の一実施形態では、コア４０１はアウト・オブ・オーダプロセッサコアを含む一方で、コア４０２はイン・オーダプロセッサコアを含む。しかしながら、コア４０１及び４０２は、例えばネイティブコア、ソフトウェア管理コア、ネイティブの命令セットアーキテクチャ（ＩＳＡ）を実行するように適応されたコア、変換されたＩＳＡを実行するように適応されたコア、協調設計コア、又は他の知られたコアなど、任意のタイプのコアから個別に選択され得る。加えて、コア４０１及び４０２は、マルチスレッドサポートに関して同じに構成されてもよいし、異なって構成されてもよい。すなわち、ここでの実施形態によれば、コア４０１、４０２の一方若しくは両方がＭＴサポートを有効にされてもよいし、いずれも有効にされなくてもよい。

しかし、議論を更に進めるため、コア４０２内のユニットは同様にして動作するので、以下、コア４０１内に例示する機能ユニットを更に詳細に説明する。図示のように、コア４０１は、ハードウェアスレッドスロット４０１ａ及び４０１ｂとしても参照することがある２つのハードウェアスレッド４０１ａ及び４０１ｂを含んでいる。従って、例えばオペレーティングシステムなどのソフトウェアエンティティは、一実施形態において、プロセッサ４００を４つの別々のプロセッサ、すなわち、４つのソフトウェアスレッドを同時に実行することが可能な４つの論理プロセッサ又は処理要素として見ることが可能である。上で示唆したように、第１のスレッドはアーキテクチャ状態レジスタ４０１ａと関連付けられ、第２のスレッドはアーキテクチャ状態レジスタ４０１ｂと関連付けられ、第３のスレッドはアーキテクチャ状態レジスタ４０２ａと関連付けられ、そして、第４のスレッドはアーキテクチャ状態レジスタ４０２ｂと関連付けられ得る。ここで、アーキテクチャ状態レジスタ（４０１ａ、４０１ｂ、４０２ａ、及び４０２ｂ）の各々は、上述のように、処理要素、スレッドスロット、又はスレッドユニットと称されることがある。図示のように、アーキテクチャ状態レジスタ（ＡｒｃｈＲｅｇ）４０１ａは、アーキテクチャ状態レジスタ４０１ｂ内に複製され、故に、個々のアーキテクチャ状態／コンテキストは、論理プロセッサ４０１ａ及び論理プロセッサ４０１ｂのために格納されることが可能である。コア４０１内で、例えばアロケータ・リネーマブロック４３０における命令ポインタ及びリネームロジックなどの、より小さい他のリソースも、スレッド４０１ａ及び４０１ｂに対して複製され得る。例えばリオーダ／リタイアメントユニット４３５内のリオーダバッファ、ＩＬＴＢ４２０、ロード／ストアバッファ、及びキューなどの、一部のリソースは、パーティショニングを通して共有され得る。例えば汎用内部レジスタ、（１つ以上の）ページテーブルベースレジスタ、低レベルデータキャッシュ及びデータＴＬＢ４１５、（１つ以上の）実行ユニット４４０、及びアウト・オブ・オーダユニット４３５の部分などの、他のリソースは完全に共有され得る。

プロセッサ４００は、しばしば、完全に共有されるか、パーティションを通して共有されるか、又は処理要素によって／対して専用にされるかし得るものである他のリソースを含む。図４には、プロセッサの例示的な論理ユニット／リソースを有する純粋に例示的なプロセッサの一実施形態が示されている。なお、プロセッサは、これらの機能ユニットのうちのいずれかを含んだり省略したりすることができるとともに、図示されていない任意の他の知られた機能ユニット、ロジック、又はファームウェアを含むことができる。図示のように、コア４０１は、単純化された代表的なアウト・オブ・オーダ（ＯＯＯ）プロセッサコアを含んでいる。しかし、異なる実施形態ではイン・オーダプロセッサが利用されてもよい。ＯＯＯコアは、実行される／採択される分岐を予測する分岐ターゲットバッファ４２０、及び命令に関するアドレス変換エントリを格納する命令－変換バッファ（Ｉ－ＴＬＢ）４２０を含んでいる。

コア４０１は更に、フェッチされたエレメントを復号するためにフェッチユニット４２０に結合された復号モジュール４２５を含んでいる。フェッチロジックは、一実施形態において、それぞれスレッドスロット４０１ａ、４０１ｂと関連付けられた個々のシーケンサを含む。通常、コア４０１は、プロセッサ４００上で実行可能な命令を定義／規定するものである第１のＩＳＡと関連付けられる。しばしば、第１のＩＳＡの一部であるマシンコード命令が、実行されるべき命令又は演算を参照／指定するものである命令の一部（オペコードと呼ばれる）を含む。復号ロジック４２５は、以下の回路を含み、すなわち、それらのオペコードからこれらの命令を認識し、復号した命令を、第１のＩＳＡによって定められる処理用のパイプラインに渡す回路を含む。例えば、デコーダ４２５は、一実施形態において、例えばトランザクション命令などの特定の命令を認識するように設計又は適応されたロジックを含む。デコーダ４２５による認識の結果として、アーキテクチャ又はコア４０１は、特定の予め定められたアクションをとって、その適切な命令に関連するタスクを実行する。言及しておくことが重要なことには、ここに記載されるタスク、ブロック、演算、及び方法のいずれも、単一又は複数の命令に応答して実行されることができ、それらのうちの一部は新規の命令であることもあるし、旧来の命令であることもある。

一例において、アロケータ・リネーマブロック４３０は、例えば命令処理結果を記憶するためのレジスタファイルなどのリソースを予約するアロケータを含む。しかしながら、スレッド４０１ａ及び４０１ｂは、アウト・オブ・オーダ実行が可能であってもよく、その場合、アロケータ・リネーマブロック４３０は、例えば命令結果を追跡するためのリオーダバッファなどの他のリソースも予約する。ユニット４３０はまた、プログラム／命令参照レジスタをプロセッサ４００の内部の他のレジスタにリネームするレジスタリネーマを含み得る。リオーダ／リタイアメントユニット４３５は、アウト・オブ・オーダ実行と、後の、アウト・オブ・オーダ実行された命令のイン・オーダリタイアメントとをサポートするために、例えば上述のリオーダバッファ、ロードバッファ、及びストアバッファなどのコンポーネントを含む。

スケジューラ及び（１つ以上の）実行ユニットのブロック４４０は、一実施形態において、実行ユニット上の命令／演算をスケジュールするスケジューラユニットを含む。例えば、浮動小数点命令が、利用可能な浮動小数点実行ユニットを有する実行ユニットのポート上にスケジュールされる。情報命令処理結果を格納するために、実行ユニットに関連付けられたレジスタファイルも含められる。例示的な実行ユニットは、浮動小数点実行ユニット、整数実行ユニット、ジャンプ実行ユニット、ロード実行ユニット、ストア実行ユニット、及び他の知られた実行ユニットを含む。

下位データキャッシュ及びデータ変換バッファ（Ｄ－ＴＬＢ）４５０が、（１つ以上の）実行ユニット４４０に結合される。データキャッシュは、メモリコヒーレンシ状態に保持され得るものである例えばデータオペランドなどの最近使用／演算されたエレメントを格納する。Ｄ－ＴＬＢは、最近の仮想／線形－物理アドレス変換を格納する。一具体例として、プロセッサは、物理メモリを複数の仮想ページに分割するページテーブル構造を含み得る。

ここで、コア４０１及び４０２は、最近フェッチされたエレメントをキャッシュするものである、より上位の又は更に外のキャッシュ４１０へのアクセスを共有する。なお、より上位又は更に外は、キャッシュレベルが増すこと又は（１つ以上の）実行ユニットから更に遠ざかることを指す。一実施形態において、より上位のキャッシュ４１０は、例えば第２レベル又は第３レベルのデータキャッシュなど、プロセッサ４００のメモリ階層内の最後のキャッシュである最終レベルデータキャッシュである。しかしながら、より上位のキャッシュ４１０は、命令キャッシュと関連付けられたり、それを含んだりしてもよいものであるので、そのように限定されるものではない。代わりに、最近復号されたトレースを格納するために、デコーダ４２５の後に、一種の命令キャッシュであるトレースキャッシュが結合されてもよい。

図示した構成において、プロセッサ４００はまた、バスインタフェースモジュール４０５と、本発明の一実施形態に従って電力管理を実行し得るものである及び電力コントローラ４６０とを含んでいる。このシナリオでは、バスインタフェース４０５は、例えばシステムメモリ及び他のコンポーネントなどの、プロセッサ４００の外部の装置と通信する。

メモリコントローラ４７０は、例えば１つ以上のメモリなどの他の装置とインタフェースをとり得る。一例において、バスインタフェース４０５は、メモリとインタフェースをとるためのメモリコントローラ及びグラフィックスプロセッサとインタフェースをとるためのグラフィックスコントローラとのリングインターコネクトを含む。ＳｏＣ環境では、高い機能性及び低い消費電力の小さなフォームファクタを提供するよう、例えばネットワークインタフェース、コプロセッサ、メモリ、グラフィックスプロセッサ、及び任意の他の知られたコンピュータデバイス／インタフェースなどの、もっと多くのデバイスが、単一のダイ又は集積回路上に集積され得る。

次に図５を参照するに、本発明の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図５に示すように、プロセッサコア５００は、多段パイプライン型アウト・オブ・オーダプロセッサとし得る。コア５００は、集積電圧レギュレータ又は外部電圧レギュレータから受け取り得るものである受けた動作電圧に基づいて、様々な電圧で動作し得る。

図５にて見てとれるように、コア５００はフロントエンドユニット５１０を含んでおり、これは、実行すべき命令をフェッチし、それら命令をプロセッサパイプラインでの後の使用のために準備するために使用され得るものである。例えば、フロントエンドユニット５１０は、フェッチユニット５０１、命令キャッシュ５０３、及び命令デコーダ５０５を含み得る。一部の実装において、フロントエンドユニット５１０は更に、マイクロコードストレージ及びマイクロ演算ストレージと共に、トレースキャッシュを含んでもよい。フェッチユニット５０１は、例えばメモリ又は命令キャッシュ５０３から、マクロ命令をフェッチし、それらマクロ命令を、それらをプリミティブへと、すなわち、プロセッサによる実行のためのマイクロ演算へと復号する命令デコーダ５０５に送り得る。

フロントエンドユニット５１０と実行ユニット５２０との間に、マイクロ命令を受け取って、それらを実行のために準備するために使用され得るアウト・オブ・オーダ（ＯＯＯ）エンジン５１５が結合される。より具体的には、ＯＯＯエンジン５１５は、マイクロ命令フローを並べ替えて、実行に必要な様々なリソースを割り当てるために、及び、例えばレジスタファイル５３０及び拡張レジスタファイル５３５などの様々なレジスタファイル内のストレージ位置に対する論理レジスタのリネームを提供するために、様々なバッファを含み得る。レジスタファイル５３０は、整数演算及び浮動小数点演算のための別々のレジスタファイルを含み得る。拡張レジスタファイル５３５は、レジスタ当たり例えば２５６又は５１２ビットといった、ベクトルサイズのユニット向けのストレージを提供し得る。設定、制御、及び追加演算の目的のために、一組のマシン固有レジスタ（ＭＳＲ）５３８も存在してコア５００内の（及びコア外部の）様々なロジックにアクセス可能にされ得る。なお、マルチスレッド化をサポートする目的で、様々なレジスタファイル内の複数セットのレジスタが、それらが異なるスレッドによって同時に使用され得るように提供されてもよい。しかし、フロントエンドユニット５１０及び実行ユニット５２０を含め、コア５００の残りの構造は複製されないことに留意されたい。

実行ユニット５２０内には、例えば、数多の特殊化されたハードウェアの中でもとりわけ、様々な整数、浮動小数点、及び単一命令複数データ（ＳＩＭＤ）の論理ユニットを含め、様々なリソースが存在し得る。例えば、そのような実行ユニットは、とりわけ、数多のそのような実行ユニットの中でもとりわけ、１つ以上の算術論理ユニット（ＡＬＵ）５２２及び１つ以上のベクトル実行ユニット５２４を含み得る。

実行ユニットからの結果は、リオーダバッファ（ＲＯＢ）５４０というリタイアメントロジックに提供され得る。より具体的には、ＲＯＢ５４０は、実行される命令に関連する情報を受信する様々なアレイ及びロジックを含み得る。この情報は、次いで、命令が正当に退去させられて結果データがプロセッサのアーキテクチャ状態にコミットされるかを判定するため、又は命令の適切な退去を妨げる１つ以上の例外が発生したかを判定するために、ＲＯＢ５４０によって検査される。当然ながら、ＲＯＢ５４０は、リタイアメントに関連する他の操作も取り扱い得る。

図５に示すように、ＲＯＢ５４０はキャッシュ５５０に結合され、キャッシュ５５０は、一実施形態において低レベルキャッシュ（例えば、Ｌ１キャッシュ）とし得るが、本発明の範囲は、これに関して限定されるものではない。また、実行ユニット５２０は、キャッシュ５５０に直接的に結合されることができる。キャッシュ５５０から、より上位のキャッシュ、システムメモリなどとのデータ通信が行われ得る。図５の実施形態においてはこのハイレベルで示されているが、理解されたいことには、本発明の範囲はこれに関して限定されるものではない。例えば、図５の実装は、例えばＩｎｔｅｌ（登録商標）ｘ８６命令セットアーキテクチャ（ＩＳＡ）のものなどのアウト・オブ・オーダマシンに関するものであるが、本発明の範囲は、これに関して限定されるものではない。すなわち、他の実施形態は、イン・オーダプロセッサにて実装されてもよいし、例えばＡＲＭベースのプロセッサなどの縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサにて実装されてもよいし、あるいは、エミュレーションエンジン及び関連論理回路を介して異なるＩＳＡの命令及び演算をエミュレートすることができる別のタイプのＩＳＡのプロセッサにて実装されてもよい。

次に図６を参照するに、他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図６の実施形態において、コア６００は、電力消費を低減させるように設計された比較的限られたパイプライン深さを持った、例えばＩｎｔｅｌ（登録商標）Ａｔｏｍ^ＴＭベースのプロセッサなどの、異なるマイクロアーキテクチャの低電力コアとし得る。見てとれるように、コア６００は、命令デコーダ６１５に命令を提供するように結合された命令キャッシュ６１０を含んでいる。分岐予測器６０５が命令キャッシュ６１０に結合され得る。なお、命令キャッシュ６１０は更に、例えばＬ２キャッシュなどの別レベルのキャッシュメモリ（図６では図示の容易さのために示していない）に結合されてもよい。代わって、命令デコーダ６１５は、復号した命令を、保管及び所与の実行パイプラインへの送達のために、発行（イシュー）キュー６２０に提供する。マイクロコードＲＯＭ６１８が命令デコーダ６１５に結合される。

浮動小数点パイプライン６３０は、例えば１２８、２５６又は５１２ビットなどの所与のビットの複数のアーキテクチャレジスタを含み得る浮動小数点レジスタファイル６３２を含む。パイプライン６３０は、パイプラインの複数の実行ユニットのうちの１つで実行する命令をスケジュールする浮動小数点スケジューラ６３４を含む。図示した実施形態において、そのような実行ユニットは、ＡＬＵ６３５、シャッフルユニット６３６、及び浮動小数点加算器６３８を含んでいる。次いで、これらの実行ユニットで生成された結果を、レジスタファイル６３２のバッファ及び／又はレジスタに提供し返すことができる。理解されたいことには、これら僅かな例の実行ユニットを有するように示されているが、当然ながら、他の一実施形態では追加の又は異なる浮動小数点実行ユニットが存在し得る。

整数パイプライン６４０も設けられ得る。図示した実施形態において、パイプライン６４０は、例えば１２８又は２５６ビットなどの所与のビットの複数のアーキテクチャレジスタを含み得る整数レジスタファイル６４２を含んでいる。パイプライン６４０は、パイプラインの複数の実行ユニットのうちの１つで実行する命令をスケジュールする整数スケジューラ６４４を含む。図示した実施形態において、そのような実行ユニットは、ＡＬＵ６４５、シフタユニット６４６、及びジャンプ実行ユニット６４８を含んでいる。次いで、これらの実行ユニットで生成された結果を、レジスタファイル６４２のバッファ及び／又はレジスタに提供し返すことができる。理解されたいことには、これら僅かな例の実行ユニットを有するように示されているが、当然ながら、他の一実施形態では追加の又は異なる整数実行ユニットが存在し得る。

メモリ実行スケジューラ６５０が、ＴＬＢ６５４にも結合されるアドレス生成ユニット６５２における実行のためのメモリ動作をスケジュールし得る。見てとれるように、これらの構造はデータキャッシュ６６０に結合することができ、データキャッシュ６６０は、次いでＬ２キャッシュメモリを含むキャッシュメモリ階層の更なるレベルに結合するＬ０及び／又はＬ１データキャッシュとし得る。

アウト・オブ・オーダ実行のサポートを提供するため、アウト・オブ・オーダ実行された命令をリタイアメントのために順序通りに並べ替えるように構成されるものであるリオーダバッファ６８０に加えて、アロケータ／リネーマ６７０を設けられ得る。図６の例示ではこの特定のパイプラインアーキテクチャを有するように示されているが、理解されたいことには、数多くの変形及び代替が可能である。

なお、例えば図５及び図６のマイクロアーキテクチャに従ってなど、非対称コアを有するプロセッサにおいては、電力管理の理由で、コア間でワークロードが動的に交換され得る。何故なら、それらのコアは、異なるパイプライン設計及び深さを持つが、同一又は関連するＩＳＡのものとし得るからである。そのような動的なコアスワッピングは、ユーザアプリケーションに対して（及び恐らくはカーネルに対しても）トランスペアレントなやり方で実行され得る。

図７を参照するに、更なる他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図７に例示するように、コア７００は、非常に低い電力消費レベルで実行するための多段インオーダパイプラインを含み得る。そのような一例として、プロセッサ７００は、カリフォルニア州サニーベールのアームホールディング社から入手可能なＡＲＭＣｏｒｔｅｘＡ５３設計に従ったマイクロアーキテクチャを有し得る。一実装において、３２ビット及び６４ビットの両方のコードを実行するように構成された８段パイプラインが設けられ得る。コア７００は、命令をフェッチしてそれらを復号ユニット７１５に提供するように構成されたフェッチユニット７１０を含んでおり、復号ユニット７１５は、例えばＡＲＭｖ８ＩＳＡなどの所与のＩＳＡのマクロ命令といった命令を復号し得るものである。更に言及しておくことには、復号された命令を格納するために、キュー７３０が復号ユニット７１５に結合し得る。復号された命令は発行ロジック７２５に提供され、そこで、復号された命令が、複数の実行ユニットのうちの所与の１つに発行され得る。

図７を更に参照するに、発行ロジック７２５は、複数の実行ユニットのうちの１つに命令を発行し得る。図示した実施形態では、それらの実行ユニットは、整数ユニット７３５、乗算ユニット７４０、浮動小数点／ベクトルユニット７５０、デュアル発行ユニット７６０、及びロード／ストアユニット７７０を含んでいる。これら様々な実行ユニットの結果は、ライトバックユニット７８０に提供され得る。理解されたいことには、図示の容易さのために単一のライトバックユニットが示されているが、一部の実装では、実行ユニットの各々に別々のライトバックユニットが付随してもよい。さらに、理解されたいことには、図７に示したユニット及びロジックの各々はハイレベルで表されているが、特定の一実装は、より多くの又は異なる構造を含み得る。図７においてのようにパイプラインを有する１つ以上のコアを用いて設計されるプロセッサは、モバイル装置からサーバシステムにまでわたる数多くの異なる最終製品にて実装され得る。

図８を参照するに、より更なる一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図８に例示するように、コア８００は、非常に高い性能レベル（図７のコア７００よりも高い電力消費レベルで発生し得る）で実行するための多段マルチ発行アウト・オブ・オーダパイプラインを含み得る。そのような一例として、プロセッサ８００は、ＡＲＭＣｏｒｔｅｘＡ５７設計に従ったマイクロアーキテクチャを有し得る。一実装において、３２ビット及び６４ビットの両方のコードを実行するように構成された１５（又はそれより多く）段パイプラインが設けられ得る。さらに、このパイプラインは、３（又はそれより多く）ワイド及び３（又はそれより多く）発行オペレーションを提供し得る。コア８００は、命令をフェッチしてそれらをデコーダ／リネーマ／ディスパッチャ８１５に提供するように構成されたフェッチユニット８１０を含んでおり、デコーダ／リネーマ／ディスパッチャ８１５は、例えばＡＲＭｖ８命令セットアーキテクチャのマクロ命令といった命令を復号し、命令内のレジスタ参照をリネームし、そして、命令を（最終的には）選択された実行ユニットへとディスパッチし得る。復号された命令はキュー８２５に格納され得る。なお、図８では図示の容易さのために単一のキュー構造が示されているが、理解されたいことには、複数の異なるタイプの実行ユニットの各々に対して別々のキューが設けられてもよい。

発行ロジック８３０も図８に示されており、そこから、キュー８２５に格納された復号された命令が、選択された実行ユニットに発行され得る。発行ロジック８３０はまた、特定の一実施形態において、発行ロジック８３０が結合する複数の異なるタイプの実行ユニットの各々に対して別個の発行ロジックを有するように実施されてもよい。

復号された命令が、複数の実行ユニットのうちの所与の１つに発行され得る。図示した実施形態では、それらの実行ユニットは、１つ以上の整数ユニット８３５、乗算ユニット８４０、浮動小数点／ベクトルユニット８５０、分岐ユニット８６０、及びロード／ストアユニット８７０を含んでいる。一実施形態において、浮動小数点／ベクトルユニット８５０は、１２８ビット又は２５６ビットのＳＩＭＤ又はベクトルデータを取り扱うように構成され得る。より更には、浮動小数点／ベクトル実行ユニット８５０は、ＩＥＥＥ－７５４倍精度浮動小数点演算を実行することができる。これら様々な実行ユニットの結果は、ライトバックユニット８８０に提供され得る。なお、一部の実装では、実行ユニットの各々に別々のライトバックユニットが付随してもよい。さらに、理解されたいことには、図８に示したユニット及びロジックの各々はハイレベルで表されているが、特定の一実装は、より多くの又は異なる構造を含み得る。

なお、例えば図７及び図８のマイクロアーキテクチャに従ってなど、非対称コアを有するプロセッサにおいては、電力管理の理由でワークロードが動的に交換され得る。何故なら、それらのコアは、異なるパイプライン設計及び深さを持つが、同一又は関連するＩＳＡのものとし得るからである。そのような動的なコアスワッピングは、ユーザアプリケーションに対して（及び恐らくはカーネルに対しても）トランスペアレントなやり方で実行され得る。

図５－図８のいずれか１つ以上においてのようにパイプラインを有する１つ以上のコアを用いて設計されるプロセッサは、モバイル装置からサーバシステムにまでわたる数多くの異なる最終製品にて実装され得る。次に図９を参照するに、本発明の他の一実施形態に従ったプロセッサのブロック図が示されている。図９の実施形態において、プロセッサ９００は、複数のドメインを含むＳｏＣとすることができ、それらドメインの各々が、独立した動作電圧及び動作周波数で動作するように制御され得る。例示的な一具体例として、プロセッサ９００は、例えばｉ３、ｉ５、ｉ７などのＩｎｔｅｌ（登録商標）ＡｒｃｈｉｔｅｃｔｕｒｅＣｏｒｅ^ＴＭベースのプロセッサ、又はインテル社から入手可能な別のそのようなプロセッサとし得る。しかしながら、例えば、ＡｐｐｌｅＡ７プロセッサ、ＱｕａｌｃｏｍｍＳｎａｐｄｒａｇｏｎプロセッサ、又はＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓＯＭＡＰプロセッサなどの他の実施形態には、例えば、カリフォルニア州サニーベールのアドバンストマイクロデバイス社（ＡＭＤ）から入手可能なもの、アームホールディング社又はそのライセンシーからのＡＲＭベースの設計、又はカリフォルニア州サニーベールのＭＩＰＳテクノロジーズ社又はそのライセンシー若しくは採用者からのＭＩＰＳベースの設計などの、他の低電力プロセッサが存在し得る。このようなＳｏＣは、例えばスマートフォン、タブレットコンピュータ、ファブレットコンピュータ、Ｕｌｔｒａｂｏｏｋ^ＴＭコンピュータ、又は他のポータブルコンピューティング装置若しくはコネクテッド装置などの低電力システムで使用され得る。

図９に示すハイレベル図において、プロセッサ９００は、複数のコアユニット９１０_０－９１０_ｎを含んでいる。各コアユニットが、１つ以上のプロセッサコア、１つ以上のキャッシュメモリ、及び他の回路を含み得る。各コアユニット９１０は、１つ以上の命令セット（例えば、ｘ８６命令セット（より新しいバージョンで追加された幾つかの拡張を有する）、ＭＩＰＳ命令セット、ＡＲＭ命令セット（例えばＮＥＯＮなどのオプションの追加拡張を有する））若しくは他の命令セット、又はこれらの組み合わせをサポートし得る。なお、これらコアユニットの一部は、異種のリソース（例えば、異なる設計のもの）であってもよい。さらに、このようなコアは各々、一実施形態において共有レベル（Ｌ２）キャッシュメモリとし得るキャッシュメモリ（図示せず）に結合され得る。様々なプログラム及び他のデータを記憶するために、不揮発性ストレージ９３０が使用され得る。例えば、このストレージは、マイクロコードの少なくとも一部、例えばＢＩＯＳなどのブート情報、又は他のシステムソフトウェアなどを格納するために使用され得る。

各コアユニット９１０はまた、例えばプロセッサの更なる回路への相互接続を可能にするバスインタフェースユニットなどのインタフェースを含み得る。一実施形態において、各コアユニット９１０は、一次キャッシュコヒーレントなオンダイ相互接続として作用し得るコヒーレントファブリックに結合し、それが次に、メモリコントローラ９３５に結合する。そして、メモリコントローラ９３５が、例えばＤＲＡＭなどのメモリ（図９では図示の容易さのために示していない）との通信を制御する。

プロセッサ内に、コアユニットに加えて、少なくとも１つのグラフィックスユニット９２０を含む更なる処理エンジンが存在し、該更なる処理エンジンは、グラフィックス処理を実行するとともにグラフィックスプロセッサ上で汎用演算（いわゆるＧＰＧＰＵ演算）を実行し得る１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含み得る。さらに、少なくとも１つの画像信号プロセッサ９２５が存在し得る。信号プロセッサ９２５は、ＳｏＣの内部又はオフチップのいずれかの１つ以上のキャプチャデバイスから受信する入力画像データを処理するように構成され得る。

他のアクセラレータも存在し得る。図９の例示では、ビデオコーダ９５０が、ビデオ情報の符号化及び復号を含むコーディング操作を実行し、例えば、高精細度映像コンテンツに対するハードウェア加速サポートを提供する。システムの内部及び外部ディスプレイに対するサポートを提供することを含め、表示操作を加速するためにディスプレイコントローラ９５５が更に設けられ得る。加えて、例えばセキュアなブート動作及び様々な暗号化演算などのセキュリティ処理を実行するために、セキュリティプロセッサ９４５が存在してもよい。

これらのユニットの各々が、自身の電力消費を、電力マネジャ９４０を介して制御されてもよく、電力マネジャ９４０は、ここに記載される様々な電力管理技術及び選択的なＭＴ設定制御を実行する制御ロジックを含み得る。

一部の実施形態において、ＳｏＣ９００は更に、様々な周辺デバイスが結合し得るコヒーレントファブリックに結合された非コヒーレントファブリックを含んでもよい。１つ以上のインタフェース９６０ａ－９６０ｄが、１つ以上のオフチップデバイスとの通信を可能にする。このような通信は、数多のタイプの通信プロトコルの中でもとりわけ、例えばＰＣＩｅ^ＴＭ、ＧＰＩＯ、ＵＳＢ、Ｉ^２Ｃ、ＵＡＲＴ、ＭＩＰＩ、ＳＤＩＯ、ＤＤＲ、ＳＰＩ、ＨＤＭＩ（登録商標）などの、多様な通信プロトコルを介し得る。図９の実施形態ではこのハイレベルで示されているが、理解されたいことには、本発明の範囲はこれに関して限定されるものではない。

次に図１０を参照するに、代表的なＳｏＣのブロック図が示されている。図示した実施形態において、ＳｏＣ１０００は、スマートフォン又は例えばタブレットコンピュータ若しくは他のポータブルコンピューティング装置などの他の低電力装置への組み込みのために最適化される低電力動作用に構成されたマルチコアＳｏＣとし得る。一例として、ＳｏＣ１０００は、例えばアウト・オブ・オーダコア及びイン・オーダコアといった、高めの電力のコア及び／又は低電力コアの組み合わせなどの、非対称な又は異なるタイプのコアを用いて実装され得る。異なる実施形態において、これらのコアは、Ｉｎｔｅｌ（登録商標）Ａｒｃｈｉｔｅｃｔｕｒｅ^ＴＭコア設計又はＡＲＭアーキテクチャ設計に基づき得る。更なる他の実施形態において、Ｉｎｔｅｌ（登録商標）コアとＡＲＭコアとの混ぜ合わせが所与のＳｏＣ内に実装されてもよい。

図１０にて見てとれるように、ＳｏＣ１０００は、複数の第１のコア１０１２_０－１０１２_３を有する第１のコアドメイン１０１０を含んでいる。一例において、これらのコアは、例えばイン・オーダコアなどの低電力コアとし得る。一実施形態において、これら第１のコアは、ＡＲＭＣｏｒｔｅｘＡ５３コアとして実装され得る。そして、これらのコアは、コアドメイン１０１０のキャッシュメモリ１０１５に結合する。さらに、ＳｏＣ１０００は第２のコアドメイン１０２０を含んでいる。図１０の例示において、第２のコアドメイン１０２０は、複数の第２のコア１０２２_０－１０２２_３を有している。一例において、これらのコアは、第１のコア１０１２よりも高電力消費のコアとし得る。一実施形態において、第２のコアは、ＡＲＭＣｏｒｔｅｘＡ５７コアとして実装され得るものであるアウト・オブ・オーダコアとし得る。そして、これらのコアは、コアドメイン１０２０のキャッシュメモリ１０２５に結合する。なお、図１０に示した例は各ドメイン内に４つのコアを含んでいるが、理解されたいことには、他の例では、より多数又は少数のコアが所与のドメイン内に存在し得る。

図１０を更に参照するに、グラフィックスドメイン１０３０も設けられており、これは、例えば、コアドメイン１０１０及び１０２０の１つ以上のコアによって与えられるグラフィックスワークロードを独立して実行するように構成された１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含み得る。一例として、ＧＰＵドメイン１０３０は、グラフィックス及び表示レンダリング演算を提供することに加えて、多様なスクリーンサイズに対する表示サポートを提供するために使用され得る。

見てとれるように、これらの様々なドメインはコヒーレントインターコネクト１０４０に結合し、コヒーレントインターコネクト１０４０は、一実施形態において、次いで集積メモリコントローラ１０５０に結合するキャッシュコヒーレントな相互接続ファブリックとし得る。コヒーレントインターコネクト１０４０は、一部の例において、例えばＬ３キャッシュなどの共有キャッシュメモリを含み得る。一実施形態において、メモリコントローラ１０５０は、例えばＤＲＡＭの複数のチャネルなど、複数のチャネルでのオフチップメモリとの通信を提供するダイレクトメモリコントローラとし得る（図１０では図示の容易さのために示していない）。

異なる例ではコアドメインの数が変わり得る。例えば、モバイルコンピューティング装置への組み込みに適した低電力ＳｏＣでは、図１０に示すような限られた数のコアドメインが存在し得る。より更には、そのような低電力ＳｏＣにおいて、より高電力のコアを含むコアドメイン１０２０は、より少ない数のそのようなコアを有していてもよい。例えば、一実装において、低減された電力消費レベルでの動作を可能にするよう、２つのコア１０２２が設けられ得る。さらに、異なるコアドメインはまた、異なるドメイン間でのワークロードの動的スワッピングを可能にするために、割り込みコントローラに結合されてもよい。

更なる他の実施形態では、例えばデスクトップ、サーバ、高性能コンピューティングシステム、基地局などの他のコンピューティング装置への組み込みのために、ＳｏＣを、より高い性能（及び電力）レベルにスケーリングすることができるという点で、より多数のコアドメイン及び追加のオプションのＩＰロジックが存在してもよい。そのような一例として、各々が所与の数のアウト・オブ・オーダコアを持つ４つのコアドメインが設けられ得る。より更には、オプションのＧＰＵサポート（一例としてＧＰＧＰＵの形態をとり得る）に加えて、特定の機能（例えば、ウェブサービス、ネットワーク処理、又は交換など）に対して最適化されたハードウェアサポートを提供する１つ以上のアクセラレータも設けられ得る。さらに、そのようなアクセラレータをオフチップコンポーネントに結合するために入力／出力インタフェースが存在してもよい。

次に図１１を参照するに、ＳｏＣの他の一例のブロック図が示されている。図１１の実施形態において、ＳｏＣ１１００は、マルチメディアアプリケーション、通信、及び他の機能のために高い性能を可能にする様々な回路を含み得る。従って、ＳｏＣ１１００は、例えばスマートフォン、タブレットコンピュータ、及びスマートＴＶなどの多種多様なポータブル装置及び他の装置への組み込みに適している。図示した例において、ＳｏＣ１１００は中央プロセッサユニット（ＣＰＵ）ドメイン１１１０を含んでいる。一実施形態において、ＣＰＵドメイン１１１０内に複数の個々のプロセッサコアが存在し得る。一例として、ＣＰＵドメイン１１１０は、４つのマルチスレッドコアを有するクワッドコアプロセッサとし得る。そのようなプロセッサは、同種のプロセッサであってもよいし、異種のプロセッサであってもよく、例えば、低電力プロセッサコアと高電力プロセッサコアとの混ぜ合わせとし得る。

次に、グラフィックスを扱うとともにＡＰＩを計算するために、１つ以上のＧＰＵで高度なグラフィックス処理を実行するようにＧＰＵドメイン１１２０が設けられる。ＤＳＰユニット１１３０が、マルチメディア命令の実行中に生じ得る高度な計算に加えて、例えば音楽再生及びオーディオ／ビデオなどの低電力マルチメディアアプリケーションを扱うための１つ以上の低電力ＤＳＰを提供し得る。そして、通信ユニット１１４０が、例えばセルラー通信（３Ｇ／４ＧＬＴＥを含む）や、Ｂｌｕｅｔｏｏｔｈ^ＴＭ及びＩＥＥＥ８０２．１１などの無線ローカルエリアプロトコルなどの、様々な無線プロトコルを介した接続を提供する様々なコンポーネントを含み得る。

より更には、ユーザジェスチャの処理を含め、高精細度ビデオ及びオーディオコンテンツのキャプチャ及び再生を実行するために、マルチメディアプロセッサ１１５０が用いられ得る。センサユニット１１６０が、複数のセンサ、及び／又は所与のプラットフォーム内に存在する様々なオフチップセンサへのインタフェースをとるためのセンサコントローラを含み得る。静止画カメラ及びビデオカメラを含め、プラットフォームの１つ以上のカメラからのキャプチャコンテンツに関する画像処理を実行するために、画像信号プロセッサ１１７０が１つ以上の別個のＩＳＰを備え得る。

表示プロセッサ１１８０が、ディスプレイ上での再生のためにコンテンツを無線通信する能力を含め、所与のピクセル密度の高精細ディスプレイへの接続に対するサポートを提供し得る。より更には、位置特定ユニット１１９０が、複数のＧＰＳコンステレーションに対するサポートを有するＧＰＳ受信器を含み、そのようなＧＰＳ受信器を用いて得られる高精度なポジショニング情報をアプリケーションに提供し得る。理解されたいことには、図１１の例にはこの特定のコンポーネントセットを有するように示されているが、数多くの変形及び代替が可能である。

次に図１２を参照するに、それとともに実施形態が使用され得るシステムの一例のブロック図が示されている。見てとれるように、システム１２００は、スマートフォン又は他のワイヤレス通信機とし得る。ベースバンドプロセッサ１２０５が、当該システムから送信される又は当該システムによって受信される通信信号に関する様々な信号処理を実行するように構成される。そして、ベースバンドプロセッサ１２０５はアプリケーションプロセッサ１２１０に結合される。アプリケーションプロセッサ１２１０は、数多くの周知のソーシャルメディアアプリ及びマルチメディアアプリなどのユーザアプリケーションに加えて、ＯＳ及び他のシステムソフトウェアを実行するために、当該システムのメインＣＰＵとし得る。アプリケーションプロセッサ１２１０は更に、装置に関する多様な他のコンピューティング演算を実行するように構成されることができ、また、ここに記載されるように、ＭＴ演算のためにコアのサブセットを選択的に有効にすることができる選択的ＭＴサポートのために静的又は動的に構成されることができる。

そして、アプリケーションプロセッサ１２１０は、例えばタッチスクリーンディスプレイといったユーザインタフェース／ディスプレイ１２２０に結合することができる。さらに、アプリケーションプロセッサ１２１０は、フラッシュメモリ１２３０とする不揮発性メモリ及びダイナミックランダムアクセスメモリ（ＤＲＡＭ）１２３５とするシステムメモリを含むメモリシステムに結合し得る。更に見てとれるように、アプリケーションプロセッサ１２１０は更に、ビデオ及び／又は静止画像を記録することができる１つ以上の画像キャプチャデバイスなどのキャプチャデバイス１２４０に結合する。

なおも図１２を参照するに、加入者識別モジュールと、場合によりセキュアストレージ及び暗号プロセッサと、を有するユニバーサル集積回路カード（ＵＩＣＣ）１２４０も、アプリケーションプロセッサ１２１０に結合されている。システム１２００は更に、アプリケーションプロセッサ１２１０に結合し得るセキュリティプロセッサ１２５０を含んでいてもよい。複数のセンサ１２２５がアプリケーションプロセッサ１２１０に結合して、例えば加速度計及び他の環境情報などの多様な検知情報の入力を可能にし得る。オーディオ出力装置１２９５が、例えば、音声通信や再生若しくはストリーミングオーディオデータといった形態で、音を出力するためのインタフェースを提供し得る。

更に図示するように、ＮＦＣアンテナ１２６５を介してＮＦＣ近距離場内で通信する近距離無線通信（ＮＦＣ）非接触インタフェース１２６０が設けられている。図１２には別個のアンテナが示されているが、理解されたいことには、一部の実装では、様々な無線機能を実現するために１つのアンテナ又は異なるアンテナセットが設けられてもよい。

プラットフォームレベルの電力管理を行うために、ＰＭＩＣ１２１５がアプリケーションプロセッサ１２１０に結合している。この目的のために、ＰＭＩＣ１２１５は、所望に応じた特定の低電力状態に入るようにアプリケーションプロセッサ１２１０に電力管理要求を発行し得る。さらに、プラットフォーム制約に基づいて、ＰＭＩＣ１２１５はまた、システム１２００の他のコンポーネントの電力レベルも制御し得る。

通信が送受信されることを可能にするために、様々な回路がベースバンドプロセッサ１２０５とアンテナ１２９０との間に結合され得る。具体的には、無線周波数（ＲＦ）トランシーバ１２７０及び無線ローカルエリアネットワーク（ＷＬＡＮ）トランシーバ１２７５が存在し得る。一般に、ＲＦトランシーバ１２７０は、例えば符号分割多元接続（ＣＤＭＡ）、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、ロングタームエボリューション（ＬＴＥ）、又は他のプロトコルに従ってなど、例えば３Ｇ又は４Ｇ無線通信プロトコルなどの所与の無線通信プロトコルに従って無線データ及びコールを送受信するために使用され得る。加えて、ＧＰＳセンサ１２８０が存在してもよい。例えばＡＭ／ＦＭといったラジオ信号及び他の信号の受信又は送信などの、他の無線通信も提供され得る。さらに、ＷＬＡＮトランシーバ１２７５を介して、ローカルな無線通信も実現されることができる。

次に図１３を参照するに、それとともに実施形態が使用され得るシステムの他の一例のブロック図が示されている。図１３の例示において、システム１３００は、例えばタブレットコンピュータ、２：１タブレット、ファブレット、又は他のコンバーチブルな若しくはスタンドアロンのタブレットシステムなどの、モバイル低電力システムとし得る。図示のように、ＳｏＣ１３１０が存在し、装置のアプリケーションプロセッサとして動作するように構成され得る。

多様なデバイスがＳｏＣ１３１０に結合し得る。図示の例では、メモリサブシステムが、ＳｏＣ１３１０に結合されたフラッシュメモリ１３４０及びＤＲＡＭ１３４５を含んでいる。さらに、タッチパネル１３２０がＳｏＣ１３１０に結合されて、タッチパネル１３２０のディスプレイ上に仮想キーボードを設けることを含め、表示能力及びタッチを介したユーザ入力を提供する。有線ネットワーク接続を提供するために、ＳｏＣ１３１０は、イーサネット（登録商標）インタフェース１３３０に結合している。周辺ハブ１３２５がＳｏＣ１３１０に結合されて、例えば様々なポート又は他のコネクタのいずれかによってシステム１３００に結合され得るようになど、様々な周辺装置とインタフェースをとることを可能にする。

ＳｏＣ１３１０内の内部電力管理回路及び機能に加えて、ＰＭＩＣ１３８０がＳｏＣ１３１０に結合されて、例えば、当該システムがバッテリ１３９０によって電力供給されるのは、それともＡＣアダプタ１３９５を介してＡＣ電力によって電力供給されるのかに基づいて、プラットフォームベースの電力管理を提供する。この電源ベースの電力管理に加えて、ＰＭＩＣ１３８０は更に、環境及び使用条件に基づいてプラットフォーム電力管理活動を実行し得る。より更には、ＰＭＩＣ１３８０は、ＳｏＣ１３１０内での様々な電力管理アクションを引き起こすために、制御及びステータス情報をＳｏＣ１３１０に通信し得る。

なおも図１３を参照するに、無線能力を提供するために、ＷＬＡＮユニット１３５０がＳｏＣ１３１０に結合され、ひいてはアンテナ１３５５に結合される。様々な実装において、ＷＬＡＮユニット１３５０は、１つ以上の無線プロトコルに従って通信を提供し得る。

更に例示するように、複数のセンサ１３６０がＳｏＣ１３１０に結合し得る。これらのセンサは、ユーザジェスチャセンサを含め、様々な加速度計、環境センサ、及び他のセンサを含み得る。最後に、オーディオ出力装置１３７０へのインタフェースを提供するために、オーディオコーデック１３６５がＳｏＣ１３１０に結合されている。理解されたいことには、図１３ではこの特定の実装を有するように示されているが、当然ながら、数多くの変形及び代替が可能である。

次に図１４を参照するに、例えばノートブック、Ｕｌｔｒａｂｏｏｋ^ＴＭ又は他の小型フォームファクタシステムなどの代表的なコンピュータシステムのブロック図が示されている。プロセッサ１４１０は、一実施形態において、マイクロプロセッサ、マルチコアプロセッサ、マルチスレッドプロセッサ、超低電圧プロセッサ、埋め込みプロセッサ、又は他の知られた処理要素を含む。図示した実装では、プロセッサ１４１０は、メイン処理ユニットとして、及びシステム１４００の様々なコンポーネントのうちの多くと通信する中央ハブとして機能する。一例として、プロセッサ１４００は、ＳｏＣとして実装される。

プロセッサ１４１０は、一実施形態において、システムメモリ１４１５と通信する。例示的な一例として、システムメモリ１４１５は、所与の量のシステムメモリを提供するために、複数のメモリデバイス又はモジュールにより実装される。

例えばデータ、アプリケーション、及び１つ以上のオペレーティングシステムなどの情報の永続的な保管を提供するために、大容量ストレージ１４２０もプロセッサ１４１０に結合し得る。様々な実施形態において、より薄くて軽量なシステム設計を可能にするとともに、システム応答性を改善するために、この大容量ストレージはＳＳＤにより実装されてもよく、あるいは、大容量ストレージは、システム活動の再始動時に高速パワーアップを行うことができるように、より少量のＳＳＤストレージが、電力停止イベントの間コンテキスト状態及び他のそのような情報の不揮発性記憶を可能にするＳＳＤキャッシュとして作用するようにして、主にハードディスクドライブ（ＨＤＤ）を用いて実装されてもよい。これまた図１４に示すように、フラッシュデバイス１４２２が、例えばシリアルペリフェラルインタフェース（ＳＰＩ）を介してプロセッサ１４１０に結合され得る。このフラッシュデバイスは、システムの基本入出力ソフトウェア（ＢＩＯＳ）及び他のファームウェアを含むシステムソフトウェアの不揮発性記憶を提供し得る。

様々な入力／出力（Ｉ／Ｏ）装置がシステム１４００内に存在し得る。図１４の実施形態には、タッチスクリーン１４２５を更に提供する高精細ＬＣＤ又はＬＥＤパネルとし得るディスプレイ１４２４が具体的に示されている。一実施形態において、ディスプレイ１４２４は、高性能グラフィックスインターコネクトとして実装されることができるディスプレイインターコネクトを介してプロセッサ１４１０に結合され得る。タッチスクリーン１４２５は、別のインターコネクトを介してプロセッサ１４１０に結合されてもよく、それは、一実施形態においてＩ^２Ｃインターコネクトとすることができる。図１４に更に示すように、タッチスクリーン１４２５に加えて、タッチによるユーザ入力はタッチパッド１４３０を介して行われることもできる。タッチパッド１４３０は、シャーシ内に構成されてもよく、これまた、タッチスクリーン１４２５と同じＩ^２Ｃインターコネクトに結合され得る。

知覚によるコンピューティング及び他の目的のために、様々なセンサが、システム内に存在し得るとともに、様々なやり方でプロセッサ１４１０に結合され得る。ある一定の慣性センサ及び環境センサは、例えばＩ^２Ｃインターコネクトを介してなどで、センサハブ１４４０を通じてプロセッサ１４１０に結合し得る。図１４に示した実施形態において、これらのセンサは、加速度計１４４１、周辺光センサ（ＡＬＳ）１４４２、方位計１４４３、及びジャイロスコープ１４４４を含み得る。他の環境センサは、一部の実施形態ではシステム管理バス（ＳＭＢｕｓ）を介してプロセッサ１４１０に結合する１つ以上の熱センサ１４４６を含み得る。

やはり図１４にて見てとれるように、様々な周辺装置が、ローピンカウント（ＬＰＣ）インターコネクトを介してプロセッサ１４１０に結合し得る。図示した実施形態では、様々なコンポーネントを、埋め込みコントローラ（ＥＣ）１４３５を通して結合することができる。そのようなコンポーネントは、キーボード１４３６（例えば、ＰＳ２インタフェースを介して結合される）、ファン１４３７、及び熱センサ１４３９を含むことができる。一部の実施形態において、タッチパッド１４３０はまた、ＰＳ２インタフェースを介してＥＣ１４３５に結合してもよい。さらに、トラステッドプラットフォームモジュール（ＴＰＭ）１４３８などのセキュリティプロセッサも、このＬＰＣインターコネクトを介してプロセッサ１４１０に結合し得る。

システム１４００は、無線によるものを含め、多様なやり方で外部装置と通信することができる。図１４に示した実施形態には、それらの各々が特定の無線通信プロトコル用に構成された無線機に対応し得る様々な無線モジュールが存在している。例えば近距離などの短距離における無線通信のための一手法は、ＮＦＣユニット１４４５を介してとすることができ、これは、一実施形態において、ＳＭＢｕｓを介してプロセッサ１４１０と通信し得る。なお、このＮＦＣユニット１４４５を介して、互いに近接した装置同士が通信してもよい。

図１４にて更に見てとれるように、更なる無線ユニットが、ＷＬＡＮユニット１４５０及びＢｌｕｅｔｏｏｔｈユニット１４５２を含む他の短距離無線エンジンを含むことができる。ＷＬＡＮユニット１４５０を用いてＷｉ－Ｆｉ^ＴＭ通信を実現することができる一方で、Ｂｌｕｅｔｏｏｔｈユニット１４５２を介して、短距離Ｂｌｕｅｔｏｏｔｈ^ＴＭ通信を行うことができる。これらのユニットは、所与のリンクを介してプロセッサ１４１０と通信し得る。

さらに、例えばセルラー式又は他の無線広域プロトコルに従った無線広域通信を、ＷＷＡＮユニット１４５６を介して行うことができ、そして、ＷＷＡＮユニット１４５６は、加入者識別モジュール（ＳＩＭ）１４５７に結合し得る。加えて、位置情報の受信及び使用を可能にするために、ＧＰＳモジュール１４５５も存在し得る。なお、図１４に示した実施形態では、ＷＷＡＮユニット１４５６と、例えばカメラモジュール１４５４などの集積キャプチャデバイスとが、所与のリンクを介して通信し得る。

集積カメラモジュール１４５４は、蓋に組み込まれることができる。オーディオ入力及び出力を提供するために、デジタル信号プロセッサ（ＤＳＰ）１４６０によりオーディオプロセッサを実装することができ、これは、ハイレゾリューションオーディオ（ＨＤＡ）リンクを介してプロセッサ１４１０に結合し得る。同様に、ＤＳＰ１４６０は、集積されたコーダ／デコーダ（ＣＯＤＥＣ）及び増幅器１４６２と通信することができ、そして、それは、シャーシ内に実装され得る出力スピーカ１４６３に結合し得る。同様に、増幅器及びＣＯＤＥＣ１４６２は、マイクロフォン１４６５からのオーディオ入力を受信するように結合されることができ、マイクロフォン１４６５は、一実施形態において、デュアルアレイマイクロフォン（例えば、デジタルマイクロフォンアレイなど）により実装されることができ、高品質のオーディオ入力を提供して、システム内の様々な動作の音声作動制御を可能にする。なお、また、オーディオ出力は、増幅器／ＣＯＤＥＣ１４６２からヘッドフォンジャック１４６４に提供されることができる。図１４の実施形態ではこれらの特定のコンポーネントを有するように示されているが、理解されたいことには、本発明の範囲は、これに関して限定されるものではない。

実施形態は、数多くの異なるシステムタイプで実施され得る。次に図１５を参照するに、本発明の一実施形態に従ったシステムのブロック図が示されている。図１５に示すように、マルチプロセッサシステム１５００は、ポイント・ツー・ポイント相互接続システムであり、ポイント・ツー・ポイントインターコネクト１５５０を介して結合された第１のプロセッサ１５７０及び第２のプロセッサ１５８０を含んでいる。図１５に示すように、プロセッサ１５７０及び１５８０の各々は、第１及び第２のプロセッサコア（すなわち、プロセッサ１５７４ａ及び１５７４ｂ、並びにプロセッサコア１５８４ａ及び１５８４ｂ）を含むマルチコアプロセッサとし得るが、可能性として、当該プロセッサ内にはもっと多くのコアが存在し得る。これらのプロセッサの各々が、プロセッサベースの電力管理を実行するＰＣＵ１５７５、１５８５を含むことができ、ＰＣＵ１５７５、１５８５はまた、ここに記載されるように、動作電圧に少なくとも部分的に基づいて、レイテンシを制御するためにパイプ段を含めること及び除去することによって相互接続ルーティングを動的に制御する。

なおも図１５を参照するに、第１のプロセッサ１５７０は更に、メモリコントローラハブ（ＭＣＨ）１５７２と、ポイント・ツー・ポイント（Ｐ－Ｐ）インタフェース１５７６及び１５７８とを含んでいる。同様に、第２のプロセッサ１５８０は、ＭＣＨ１５８２と、Ｐ－Ｐインタフェース１５８６及び１５８８とを含んでいる。図１５に示すように、ＭＣＨの１５７２及び１５８２は、プロセッサを、それぞれのプロセッサにローカルに取り付けられるシステムメモリの部分とし得るものであるメモリ１５３２及びメモリ１５３４というそれぞれのメモリに結合する。第１のプロセッサ１５７０及び第２のプロセッサ１５８０は、それぞれ、Ｐ－Ｐインターコネクト１５６２及び１５６４を介してチップセット１５９０に結合され得る。図１５に示すように、チップセット１５９０は、Ｐ－Ｐインタフェース１５９４及び１５９８を含んでいる。

さらに、チップセット１５９０は、Ｐ－Ｐインターコネクト１５３９によってチップセット１５９０を高性能グラフィックスエンジン１５３８と結合するインタフェース１５９２を含んでいる。そして、チップセット１５９０は、インタフェース１５９６を介して第１のバス１５１６に結合され得る。図１５に示すように、第１のバス１５１６には、第１のバス１５１６を第２のバス１５２０に結合するバスブリッジ１５１８と共に、様々な入力／出力（Ｉ／Ｏ）装置１５１４が結合され得る。第２のバス１５２０には、一実施形態において、例えば、キーボード／マウス１５２２、通信装置１５２６、及びコード１５３０を含み得る例えばディスクドライブ若しくは他の大容量ストレージなどのデータストレージユニット１５２８を含む、様々な装置が結合され得る。さらに、オーディオＩ／Ｏ１５２４が第２のバス１５２０に結合されてもよい。実施形態は、例えばスマートセルラー電話、タブレットコンピュータ、ネットブック、又はＵｌｔｒａｂｏｏｋ^ＴＭなどのモバイル装置を含め、他のタイプのシステムに組み込まれることができる。

図１６は、一実施形態に従った動作を実行する集積回路を製造するために使用され得るＩＰコア開発システム１６００を示すブロック図である。ＩＰコア開発システム１６００は、より大きな設計に組み込まれることが可能な、又は集積回路（例えば、ＳｏＣ集積回路）全体を構築するために使用されることが可能な、モジュール式の再利用可能な設計を生成するために使用され得る。設計設備１６３０は、高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）にてＩＰコア設計のソフトウェアシミュレーション１６１０を生成することができる。ソフトウェアシミュレーション１６１０は、ＩＰコアの挙動を設計、テスト、及び検証するために使用されることができる。次いで、シミュレーションモデル１６１２から、レジスタ転送レベル（ＲＴＬ）設計を作成又は合成することができる。ＲＴＬ設計１６１５は、ハードウェアレジスタ間でのデジタル信号の流れをモデル化する集積回路の挙動の抽象概念であり、モデル化されたデジタル信号を用いて実行される関連ロジックを含む。ＲＴＬ設計１６１５に加えて、論理レベル又はトランジスタレベルでのより低レベル設計も、作成、設計、又は合成され得る。従って、初期設計及びシミュレーションの特定の詳細は様々であり得る。

ＲＴＬ設計１６１５又はそれと同等なものは、設計設備によってさらに、ハードウェア記述言語（ＨＤＬ）、又は物理設計データの何らかの他の表現、とし得るものであるハードウェアモデル１６２０へと合成され得る。ＨＤＬは、ＩＰコア設計を検証するために更にシミュレーション又はテストされ得る。ＩＰコア設計は、第三者の製造設備１６６５への送達のために、不揮発性メモリ１６４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を使用して格納されることができる。それに代えて、ＩＰコア設計は、有線接続１６５０又は無線接続１６６０上で（例えば、インターネットを介して）伝送されてもよい。そして、製造設備１６６５は、少なくとも部分的にＩＰコア設計に基づく集積回路を製造することができる。製造される集積回路は、ここに記載される少なくとも１つの実施形態に従った動作を行うように構成されることができる。

次に図１７を参照するに、本発明の一実施形態に従った制御可能なパイプ段回路のブロック図が示されている。図１７に示すように、パイプ段回路１７００は、例えばメッシュインターコネクトなどの相互接続内の様々な位置に実装され得る。パイプ段回路１７００では、相互接続経路の長さの動的制御が可能にされる。斯くして、メッシュストップ間又はインターコネクト間での通信の動的なサイクル制御が実現され得る。

より具体的には、図１７に示すように、パイプ段回路１７００は、それに沿って信号が通信される入力信号ライン１７０５を含む。見てとれるように、信号はパイプ段１７１０に提供される。一実施形態において、パイプ段１７１０は、例えばＤ型ラッチといったラッチ回路として実装され得る。他のケースでは、例えばフリップフロップ又は他のシーケンシャル回路など、他のパイプ段がパイプ段コンポーネントとして使用されてもよい。一実施形態において、パイプ段１７１０は、パイプ段１７１０の入力で受信した入力信号が、ファブリッククロックの所与のサイクルにおいて、パイプ段１７１０の出力から第１の出力信号ライン１７１５を介して出力されるように、単一サイクルレイテンシを提供し得る。

図示のように、出力信号ライン１７１５は、一実施形態においてマルチプレクサとして実装され得るものである選択回路１７２０の第１の入力に結合している。更に図示するように、入力信号ライン１７０５から直接受信された信号が、バイパス経路１７３０を介して選択回路１７２０の別の入力に提供される。

動的制御に基づいて、例えば、電力コントローラから受信した制御信号の制御下で、選択回路１７２０は、単一サイクルレイテンシ（バイパス経路１７３０を用いて実現される）又は複数サイクルレイテンシ（パイプ段１７１０を通じて提供される信号を用いて実現される）のいずれかで、入力信号を第２の出力信号ライン１７２５を介して出力し得る。理解されたいことには、図１７の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図１８を参照するに、一実施形態に従った相互接続上でのサイクルレイテンシの動的制御を例示するブロック図が示されている。図１８の左側に示すように、プロセッサ１８００は相互接続１８１０を含む。図示の容易さのためにリングインターコネクトが示されているが、理解されたいことには、実施形態は、メッシュインターコネクト、トーラス又は他の２Ｄ若しくは３Ｄ相互接続構造、又は他の接続ファブリックを含め、数多くの他のタイプの相互接続構造に適用可能である。

図１８の左側を参照するに、相互接続１８１０は、複数のコア１８２０_１－１８２０_６に結合している。図示の容易さのために６つの代表的なコアが示されているが、他の実施形態ではより多数又は少数のコアが存在し得る。さらに、より一般的に理解されたいことには、相互接続１８１０は、コア、グラフィックスプロセッサ、入力／出力装置、又は他の周辺装置などを含む多様な異なるタイプの処理回路に結合する。そして、多くのケースで、相互接続１８１０は、そのようなコンポーネントに、相互接続１８１０に沿った通信の出入りを可能にする回路を含む所謂メッシュストップによって結合し得る。そして、より一般的には、各コア１８２０は、相互接続１８１０を所与のメッシュストップに相互接続することを示している。

図１８の左側に更に示すように、相互接続１８１０は、複数の追加のパイプ段１８２５_１－１８２５_４を含んでいる。図示のように、各パイプ段１８２５は、対応するコア１８２０間に適応され得る（従って、より具体的には、相互接続１８１０に沿った別々のメッシュストップ間に配置され得る）。一実施形態において、各パイプ段１８２５は、概して、図１７のパイプ段回路１７００の形態をとり得る（従って、パイプ段コンポーネント、バイパス経路、マルチプレクサ若しくは他の選択回路、及び制御入力を含み得る）。従って、図１８の左側のプロセッサ１８００は、パイプ段１８２５がメッシュストップ間に複数サイクルレイテンシを提供することが可能にされた、動的動作における場合を例示している。従って、この状態での動作中、パイプ段において発生される遅延の結果として、（パイプ段が非アクティブである状況と比較して）相互接続１８１０に沿った通信レイテンシが増加し得る。しかしながら、理解されたいことには、この場合における相互接続１８１０は、より低い電圧レベルで動作し得る。斯くして、より大きい電圧ヘッドルーム（従って、電力ヘッドルーム）が存在することができ、それを、プロセッサ１８００の追加リソースに動的且つ柔軟に提供することができる。例えば、１つ以上のコア１８２０は、より高い電圧（及び周波数）で動作するように制御されて、高められた性能（例えば、１サイクル当たりの命令実行数に関して）を可能にし得る。アクティブなパイプ段１８２５を有するこの動作は、例えば、相互接続１８１０上の最小限のトラフィックとともに比較的高い計算ワークロードが発生しているときなど、ワークロードの分析に少なくとも部分的に基づいて始まり得る。

図１８の左側を更に参照するに、バッファ１８３０が相互接続１８１０に結合している。バッファ１８３０は、性能状態遷移の間に、すなわち、動的な電圧／周波数変更が相互接続１８１０に対して為されるべきときに、相互接続１８１０に沿って進むメッセージを格納するための複数の個別のバッファ要素を含むキューとして実装され得るドレイン／リプレイバッファである。一実施形態において、バッファ１８３０は、メッシュストップの数に依存してもよく、一例として、メッシュストップと同じ数の個別のバッファを含み得る。例えば、垂直リング上に２０個のメッシュストップが存在する場合、２０というバッファ深さがあるとし得る。バッファ１８３０は、性能状態遷移の時点で相互接続１８１０に残っている例えばメッセージ又は他のパケットなどの通信を受信して格納する先入れ先出し（ＦＩＦＯ）構造として実装されることができ、その詳細については更に後述する。斯くして、バッファ１８３０は、そのような性能状態変化が、相互接続１８１０からその通信を排出しないやり方で行われることを可能にし、無排出の性能状態変化の遷移レイテンシを維持管理することによって、性能状態遷移それ自体のレイテンシ及び通信がダウンする時間を短縮する。

なおも図１８を参照するに、右側にプロセッサ１８００’が示されている。より具体的には、プロセッサ１８００’は、プロセッサ１８００と同じプロセッサであるが、メッシュストップ間に結合された追加のパイプ段が（例えば、そのようなパイプ段回路のマルチプレクサへの適切な制御信号によって）有効にされない異なる時点で示されている。従って、相互接続１８１０は、コア１８２０_１－１８２０_６のみに結合するように示されている。動作中のこの時点では、相互接続１８１０は単一サイクルレイテンシで動作し得る。相互接続１８１０は、より高い電圧レベルで動作して、メッシュストップ間に適応されたパイプ段回路を動的に除去する（例えば、バイパスする）ことによって、この単一サイクルレイテンシの実現を可能にし得る。理解されたいことには、図１８の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図１９Ａ－１９Ｂを参照するに、本発明の一実施形態に従った方法のフロー図が示されている。より具体的には、図１９Ａ及び１９Ｂに示す方法１９００は、ここに記載されているように低減されたレイテンシでファブリック構造への動的な性能状態変化を実行方法である。従って、方法１９００は、例えばメッシュコントローラ又は他の相互接続コントローラなどの制御回路を用いて実行されることができ、該制御回路は、ハードウェア回路、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせとして実装され得る。

図示のように、方法１９００は、電力コントローラからパイプドレイン信号を受信することによって開始する（ブロック１９１０）。このパイプドレイン信号は、ファブリックへの性能状態変化が発生する（及び／又はパイプ段の挿入又は除去プロセスが発生する）という決定に応答して、相互接続内で受信され得る。このパイプドレイン信号に応答して、ブロック１９２０にて、相互接続への新たなメッセージの注入が阻止され得る。この目的のために、相互接続コントローラは、ブロック信号をメッシュストップに通信して、それらが新たなメッセージをファブリックに注入することを防止し得る。

その後、ファブリックは、ファブリックからメッセージを排出しようと、現在の周波数で動作し続け得る。この目的のために、相互接続に係属中のメッセージは、それらが宛先メッシュストップにシンクされ得るようにファブリックを横断し得る（そのようなメッシュストップ内に十分なクレジットが存在し、クレジットされたメッセージを受け入れることができると仮定して）。リングインターコネクトの場合、メッシュは、例えば２巡りといった複数回の周回の間、現在のクロック周波数に従って動作し続け得る。従って、この場合、リングインターコネクトに関するこの１回目のファブリック横断は、リング上での完全な周回とし得る（ブロック１９３０）。なおも図１９Ａを参照するに、ファブリックの２回目の横断において、１つ以上のデッドロック防止（anti-deadlock）スロットがクリアされ得る（ブロック１９４０）。そのようなスロットは、さもなければ、あるメッシュストップ又はファブリックの他の部分にデッドロックを生じさせてしまうことになるメッセージを輸送する。

なおも図１９Ａを参照するに、次にブロック１９５０にて、全てのバウンストラフィック（すなわち、相互接続になおも係属中のメッセージ）が、ドレイン－リプレイキューへと排出され得る。なお、この構成では、性能状態変化を実行するのに先立つファブリックからのメッセージの排出がなく、性能状態変化に入るまでの時間のレイテンシが改善される。

残存トラフィックがこのキューに排出されたこの時点で、性能状態変化が実行され得る（ブロック１９６０）。この目的のために、ファブリックの動作電圧及び周波数のうち一方以上を更新することができる。パイプ段における増加の目的では、この性能状態変化は、少なくともファブリックの電圧を低下させるためとし得る。そして、このようなパイプ段の除去の場合には、性能状態変化は、少なくとも電圧を上昇させるためとし得る。

いずれにせよ、この性能状態変化が発効された後の図１９Ｂを次に参照するに、例えば所定数のクロックサイクルの間、メッシュストップからファブリックへの新たなメッセージの注入が阻止され得る（ブロック１９７０）。次に、ブロック１９８０にて、１つ以上のデッドロック防止スロットがクリアされ、更新されたファブリック構成のために再初期化され得る。例えば、パイプ段がファブリックに追加されるとき、１つ以上の追加のデッドロック防止スロットを設けることができ、同様に、パイプ段がファブリックから除去されるとき、１つ以上のデッドロック防止スロットを除去することができる。

次に、ブロック１９９０にて、バウンストラフィックが、デッドロック防止スロットではないスロットに注入され得る。このようなバウンストラフィックがドレイン－リプレイキューから取り出されて相互接続上に挿入されることで、これらのメッセージが自身の宛先に関連するメッシュストップに流れ込むことが可能になる。最後に、ブロック１９９５にて、ファブリックへの新たなメッセージの注入が阻止されなくされ得る。従って、この時点で、メッシュストップは、新たなメッセージ又は他のパケットをファブリックに自由に注入することができる。理解されたいことには、図１９Ａ－１９Ｂにおいてのような実施形態では、ファブリックの電圧及び／又は周波数に関する性能状態変化を、短縮されたレイテンシで行うことができ、性能が向上される。さらに、ドレイン－リプレイキューの存在を所与として、この性能状態変化に先立ってファブリックからメッセージを完全に排出する必要が回避されるので、複雑さも低減され得る。従って、方法１９００では、クレジットされた全てのメッセージがファブリックから排出されるとともに、バウンスメッセージが性能状態遷移前にドレイン－リプレイキューに格納される。性能状態遷移後に、バウンスメッセージがドレイン－リプレイキューからファブリックに再生される。理解されたいことには、図１９Ａ－１９Ｂの実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図２０を参照するに、本発明の他の一実施形態に従った方法のフロー図が示されている。より具体的には、方法２０００は、相互接続のパイプ段構造への動的変化がいつ適切であるかを決定する方法である。一実施形態において、方法２０００は、例えばＰＣＵなどの電力コントローラによって実行され得る。従って、方法２０００は、ハードウェア回路、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実行され得る。

図示のように、方法２０００は、相互接続の動作電圧が第１の閾値未満であるかを判定することによって開始する（菱形２０１０）。一実施形態において、この第１の閾値は、相互接続が低性能レベルで動作するように、比較的低い動作電圧に対応し得る。この状況では、相互接続は、通信経路にパイプ段コンポーネントを含めることによって増大されたレイテンシで動作し得る。この目的のために、制御がブロック２０２０に移り、そこで、相互接続のパイプ段回路がパイプ段コンポーネントを通信経路に挿入することが可能にされ得る。より具体的には、例えば図１７及び図１８に関して上述したように、電力コントローラが、パイプ段回路のマルチプレクサ又は他の選択回路に制御信号を送信して、それらに、メッシュストップ間又は他のインターコネクト続点ポイント間で、複数サイクルレイテンシで動作させることができる。なお、相互接続が複数サイクルレイテンシで動作することができる低減された電圧レベルでは、追加の電圧ヘッドルームが存在することができ、それを、電力コントローラによって、例えばこのヘッドルームを活用し得るコア又は他の処理ユニットなどの、プロセッサの他のリソースに分配することができる。

なおも図２０を参照するに、そうでなく、相互接続電圧がこの第１の閾値レベルを超えていると判定された場合、制御が菱形２０３０に移り、電圧が第２の閾値レベル未満であるかを判定する。そうである場合、制御がオプションの菱形２０４０に移り、コアワークロードが所与のワークロード閾値を超えているかを判定する。なお、このオプションの判定を用いることで、相互接続を複数サイクル動作で制御すべきか、それとも単一サイクル動作で制御すべきかについて、柔軟な決定が為され得る。コア活動がワークロード閾値未満である状況では、恐らくは、相互接続内にパイプ段コンポーネントを含めることで生じる追加のレイテンシは懸念されることでなく、それ故に、制御がブロック２０２０に移り、そこで、相互接続はそれらのパイプ段コンポーネントを挿入するように制御されることができ、上述のように、相互接続の動作電圧を低下が可能にされる。

そうでなく、ワークロードが所与のワークロード閾値を超えていると菱形２０４０で判定された場合には（又は、この判定が行われない状況においては）、制御がブロック２０５０に移り、そこで、パイプ段コンポーネントを除去するようにパイプ段回路が制御され得る。従って、電力コントローラは、マルチプレクサ又は他の選択回路に制御信号を送信して、それらに、１つ以上のパイプ段コンポーネントを通して受信した信号ではなく、バイパス経路を介して受信した信号を通すようにさせ得る。

さらに図２０を参照するに、相互接続電圧がこの第２の閾値レベルを超えていると判定された場合、制御が菱形２０６０に移り、電圧が、より高い第３の閾値未満であるかを判定する。そうである場合、制御が上述のブロック２０５０に移り、そこで、相互接続上のレイテンシを低減させるよう、パイプ段コンポーネントが除去されるように相互接続が制御される。

なおも図２０を参照するに、そうでなく、相互接続電圧がこの第３の閾値を超えていると判定された場合、制御がブロック２０７０に移り、そこで、パイプ段コンポーネントが相互接続に挿入されるように相互接続を制御することができる。斯くして、相互接続は複数サイクルレイテンシで動作し得る。しかしながら、このような動作は、そうでなくて単一サイクルレイテンシで動作しようとする場合に動作することになるよりも低い電圧レベルでのものである。理解されたいことには、図２０の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。例えば、他の実施形態では、より多数又は少数の閾値及び判定が存在することができる。

一実施形態において、ハイレベルでは、Ｆ／Ｖカーブ上に、以下の２つの遷移タイプ、すなわち、パイプ段がそれらのゾーン内で静止して保たれ、それらのゾーン間で変化される複数の静的ゾーンと、パイプ段がそのゾーン内で（性能状態遷移プロセスの間に）変化されることができる少なくとも１つの動的ゾーンとの、２つの遷移タイプが存在する。

次に図２１を参照するに、相互接続の相互接続回路に関する周波数－電圧カーブのグラフが示されている。図示のように、第１のカーブ２１１０は通信ファブリックに関するカーブであり、カーブ２１２０は相互接続のメッシュストップ及び他の処理回路に関するカーブである。図示のように、これらのカーブは４つの動作ゾーンに分割される。ほとんどの電圧点にわたって、ＩＰロジックは、より低い電圧で同じ動作周波数を達成することができる。ＳＣＦＩＰのような高度にマルチインスタンスのＩＰでは、同じ周波数でのこの電圧低減は、かなりの電力低減を実現することができ、それが性能改善となる。

図２１に更に示されるように、電力管理（ＰＭ）制御の観点からの動作は、これらのＦ／Ｖカーブを複数のゾーン（このケースでは４つが示されている）に分割することによって示される。このゾーン分けは、異なるワークロードに対して、ＳＣＦＩＰのＦ／Ｖ動作範囲を調整する。複数の閾値Ｚ１－Ｚ４が存在し、それらの各々が、図２０に関して上述した判定が行われる閾値電圧のうちの異なる１つに対応し得る。低電圧動作（Ｚ１）では、ワークロード性能はメッシュレイテンシに敏感でなく、それ故に、パイプ段をファブリックに追加して、電圧を低下させ、電力をコアドメインに移すことができる。例えば図２１のゾーンＺ１といった低メッシュ電圧モードで動作するとき、メッシュレイテンシは性能に影響せず、電力節減が性能（例えば、コア束縛ワークロードに関して）を向上させることができる。

電圧低下に伴って動的電力及びリーク電力の両方が減少する。電圧の関数としての回路の動的及びリーク電力は、動的電力＝ＣＶ^２Ｆ（Ｖ：電圧、Ｆ：周波数、Ｃ：キャパシタンス）、及びリーク電力＝Ｉ_ｉＶであり、ここで、Ｉ_ｉはサブスレッショルドリークであり、電圧（Ｖ）の関数である。高電圧動作（Ｚ４）では、ワークロードが低レイテンシのためにメッシュ周波数に敏感であり且つ電圧を上げるための電力ヘッドルームが存在する場合、より高い周波数動作が可能にされる。従って、このシナリオでは、閾値Ｚ４より上で、メッシュ上の最小パイプ段で動作が行われる。

実施形態は、レイテンシを損なうことなく、より良い電力及びより良いメッシュファブリック帯域幅プロファイルを届け得る。このような利点が実現され得るのは、メッシュファブリック自体がＳＣＦドメイン電力のうちの小さい部分であり得るから（ファブリックデータ経路シーケンシャルが、全体のＳＣＦドメインシーケンシャル／ゲートカウント／面積のうちの極めて小さな部分であり得るから）である。従って、従来のように、ファブリックのニーズのために全体のＳＣＦドメイン電圧を固定することは最適でない。実施形態は、この従属性を除去し、より高い電圧で電力を節約する。さらに、ファブリックは（コアドメインと比較して）ＲＣ支配的であるので、ファブリックは、後述するように、より高い周波数動作に関して、ＳＣＦＩＰと比較していっそう高い電圧で動作し得る。高電圧では、選択回路がパイプ段コンポーネントを挿入し、ファブリックを、タイミングクリティカルでないものにし得る。当然ながら、電圧周波数カーブ及び閾値の両方についてのこれらの代表的な値は、単に例示的なものであり、他の実施形態では数多くの異なる値が可能である。

以下の例は、更なる実施形態に関する。

一例において、装置は、各々が命令を実行する複数の処理回路と、前記複数の処理回路を結合する相互接続とを含む。該相互接続は、前記複数の処理回路のうちの第１の処理回路と前記複数の処理回路のうちの第２の処理回路との間に結合されるパイプ段回路を有する。該パイプ段回路は、前記相互接続を介して信号を受信する第１の入力と、前記信号を出力する第１の出力とを持つパイプ段コンポーネントと、前記パイプ段コンポーネントの前記第１の出力から前記信号を受信する第１の入力と、バイパス経路を介して前記信号を受信する第２の入力とを持つ選択回路とを有し、該選択回路は、制御信号に基づいて、前記パイプ段コンポーネントの前記第１の出力から受信される前記信号又は前記バイパス経路を介して受信される前記信号を出力するように、動的に制御可能である。

一例において、前記選択回路は、前記バイパス経路を介して受信される前記信号に対して遅延された前記信号を前記パイプ段コンポーネントから受信する。

一例において、前記相互接続は、複数のメッシュストップを持つメッシュインターコネクトと、前記複数のメッシュストップのうちの少なくとも一部の間に介在する複数のパイプ段回路とを有する。

一例において、前記複数のパイプ段回路は、前記メッシュインターコネクトの垂直部分に結合された前記複数のメッシュストップのうちの前記少なくとも一部の間に介在し、前記メッシュインターコネクトの水平部分に結合された前記複数のメッシュストップの部分は、パイプ段回路の介在なしに互いに結合される。

一例において、当該装置は更に、前記相互接続の動作電圧に少なくとも部分的に基づいて前記選択回路に前記制御信号を提供する電力コントローラ、を有する。

一例において、前記電力コントローラは、前記相互接続の前記動作電圧が閾値レベル未満であるとき、前記制御信号を提供して、前記選択回路に、前記パイプ段コンポーネントから受信される前記信号を出力させる。

一例において、前記電力コントローラは、前記複数の処理回路のうちの少なくとも１つのワークロードに更に基づいて前記制御信号を提供して、前記選択回路に、前記パイプ段コンポーネントから受信される前記信号を出力させる。

一例において、当該装置は更に、相互接続コントローラと、前記相互接続に結合されたキューとを有し、前記相互接続コントローラが、前記相互接続への性能状態変化に先立って、前記相互接続上に係属中の１つ以上のメッセージが当該キューに格納されるようにする。

一例において、前記性能状態変化の後、前記相互接続コントローラは、前記複数の処理回路が新たなメッセージを前記相互接続に注入することを可能にするのに先立って、前記キューに前記１つ以上のメッセージを前記相互接続に出力させる。

一例において、前記パイプ段コンポーネントは、前記相互接続の動作電圧が閾値レベルを超えるときに、前記相互接続の通信経路に動的に挿入され、前記パイプ段コンポーネントは、シーケンシャル回路を有する。

他の一例において、方法は、プロセッサの相互接続のコントローラにて、前記プロセッサの電力コントローラからのパイプドレイン信号を受信し、前記パイプドレイン信号に応答して、前記相互接続上の１つ以上の係属中のメッセージが、前記相互接続に結合されたキューに格納されるようにし、前記相互接続に性能状態変化を生じさせ、その後、前記１つ以上の係属中のメッセージが前記キューから排出されて前記相互接続上に注入されるようにする、ことを有する。

一例において、当該方法は更に、前記性能状態変化に先立ち、単一サイクル構成で動作するように１つ以上のパイプ段回路を制御し、前記性能状態変化の後に、複数サイクル構成で動作するように前記１つ以上のパイプ段回路を制御する、ことを有する。

一例において、当該方法は更に、前記相互接続の動作電圧が閾値レベルを超えているときに、前記単一サイクル構成で動作するように前記１つ以上のパイプ段回路を制御し、前記相互接続の動作電圧が閾値レベル未満であるときに、前記複数サイクル構成で動作するように前記１つ以上のパイプ段回路を制御する、ことを有する。

一例において、当該方法は更に、前記１つ以上の係属中のメッセージの前記相互接続を排出することなく、前記相互接続への前記性能状態変化を実行する、ことを有する。

一例において、当該方法は更に、前記パイプドレイン信号に応答して、前記相互接続に結合された１つ以上のエージェントがメッセージを前記相互接続上に注入することを防止し、前記１つ以上のメッセージが前記キューから排出された後に、前記１つ以上のエージェントが前記メッセージを前記相互接続上に注入することを可能にする、ことを有する。

一例において、当該方法は更に、第１の性能状態で動作するように前記相互接続の通信経路回路を制御し、第２の性能状態で動作するように前記相互接続の論理回路を制御し、前記第１の性能状態は前記第２の性能状態よりも低い、ことを有する。

他の一例において、命令を含んだコンピュータ読み取り可能媒体が、上の例のうちのいずれかの方法を実行する。

他の一例において、データを含んだコンピュータ読み取り可能媒体が、少なくとも１つの機械によって使用されて、上の例のうちのいずれか１つの方法を実行する少なくとも１つの集積回路を製造する。

他の一例において、装置が、上の例のうちのいずれか１つの方法を実行する手段を有する。

他の一例において、システムは、チップ・オン・チップと、該システム・オン・チップに結合されたシステムメモリとを含む。前記システム・オン・チップは、各々が命令を実行する複数のコアと、該複数のコアを結合するメッシュインターコネクトとを有する。該メッシュインターコネクトは、複数のメッシュストップが結合された垂直メッシュであり、当該垂直メッシュに沿って複数のパイプ段回路が介在し、該複数のパイプ段回路の各々が、当該垂直メッシュから信号を受信する第１の入力と、前記信号を出力する第１の出力とを持つパイプ段コンポーネントと、前記パイプ段コンポーネントの前記第１の出力から前記信号を受信する第１の入力と、当該垂直メッシュから前記信号を受信する第２の入力とを持つ選択回路であり、当該選択回路は、前記パイプ段コンポーネントの前記第１の出力から受信される前記信号又は当該垂直メッシュから受信される前記信号を出力するように動的に制御可能である、選択回路と、を有する、垂直メッシュと、前記複数のメッシュストップが結合された水平メッシュと、を有する。前記システム・オン・チップは更に、前記メッシュインターコネクトの動作電圧に少なくとも部分的に基づいて前記選択回路を制御する電力コントローラ、を含む。

一例において、当該システムは更に、前記メッシュインターコネクトに結合され、前記メッシュインターコネクトへの性能状態変化に先立って前記メッシュインターコネクト上に係属中の１つ以上のメッセージを格納するキュー、を含む。

一例において、前記電力コントローラは、前記メッシュインターコネクトの前記動作電圧が閾値レベルを超えるときには、前記複数のパイプ段回路に単一サイクル構成で動作させ、前記メッシュインターコネクトの前記動作電圧が前記閾値レベル未満であるときには、前記複数のパイプ段回路に複数サイクル構成で動作させる。

一例において、前記電力コントローラは、前記垂直メッシュ及び前記水平メッシュに第１性能状態で動作させ、前記複数のメッシュに第２性能状態で停止させ、前記第１性能状態は前記第２性能状態よりも低い。

理解されたいことには、上の例の様々な組み合わせが可能である。

なお、用語“circuit（回路）”及び“circuitry（回路）”は、ここでは交換可能に使用される。ここで使用されるとき、これらの用語及び用語“ロジック”は、単独で又は任意の組み合わせで、アナログ回路、デジタル回路、ハードワイヤード回路、プログラマブル回路、プロセッサ回路、マイクロコントローラ回路、ハードウェア論理回路、状態マシン回路、及び／又は他のタイプの物理的ハードウェアコンポーネントを指すように使用される。実施形態は、数多くの異なるタイプのシステムにおいて使用され得る。例えば、一実施形態において、ここに記載される様々な方法及び技術を実行するように通信装置を構成することができる。当然ながら、本発明の範囲は通信装置に限定されず、代わりに、他の実施形態は、命令を処理する他のタイプの装置に向けられてもよいし、あるいは、コンピューティング装置上で実行されることに応答して、該装置にここに記載される１つ以上の方法及び技術を実行させる命令を含んだ１つ以上の機械読み取り可能媒体に向けられてもよい。

実施形態は、コードにて実装されて、命令を格納する非一時的な記憶媒体に格納されてもよく、それを用いて、システムを、当該命令を実行するようにプログラムすることができる。実施形態はまた、データにて実装されて、非一時的な記憶媒体に格納されてもよく、それが少なくとも１つのマシンによって使用される場合に、該少なくとも１つのマシンに、１つ以上の動作を実行する少なくとも１つの集積回路を製造させる。より更なる実施形態は、命令を含んだコンピュータ読み取り可能記憶媒体にて実装されてもよく、それがＳｏＣ又は他のプロセッサに製造されるときに、該ＳｏＣ又は他のプロセッサを、１つ以上の動作を実行するように構成する。記憶媒体は、以下に限られないが、フロッピーディスク（登録商標）、光ディスク、ソリッドステートドライブ（ＳＳＤ）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、書き換え可能コンパクトディスク（ＣＤ－ＲＷ）、及び光磁気ディスクを含む任意のタイプのディスク、例えば読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）、磁気カード若しくは光カード、又は電子命令を格納するのに適した任意の他のタイプの媒体を含み得る。

限られた数の実施形態に関して本発明を説明したが、当業者は、それらから数多の変更及び変形を理解することになる。意図されることには、添付の請求項は、本発明の真の精神及び範囲に入る全てのそのような変更及び変形に及ぶものである。

Claims

各々が命令を実行する複数の処理回路と、
前記複数の処理回路を結合する相互接続であり、当該相互接続は、
前記複数の処理回路のうちの第１の処理回路と前記複数の処理回路のうちの第２の処理回路との間に結合されるパイプ段回路であり、
当該相互接続を介して信号を受信する第１の入力と、前記信号を出力する第１の出力とを持つパイプ段コンポーネントと、
前記パイプ段コンポーネントの前記第１の出力から前記信号を受信する第１の入力と、バイパス経路を介して前記信号を受信する第２の入力とを持つ選択回路であり、当該選択回路は、制御信号に基づいて、前記パイプ段コンポーネントの前記第１の出力から受信される前記信号と、前記バイパス経路を介して受信される前記信号とのうちの一方を出力するように、動的に制御可能である、選択回路と、
を有するパイプ段回路、
を有する相互接続と、
電力コントローラであり、前記相互接続の動作電圧が、前記相互接続が低動作電圧で動作することに対応する閾値レベル未満である、ことに応答して、前記選択回路に、前記パイプ段コンポーネントから受信される前記信号を出力させ、且つ利用可能な電力を少なくとも１つの他の装置リソースに分配する電力コントローラと、
を有する装置。
前記選択回路は、前記バイパス経路を介して受信される前記信号に対して遅延された前記信号を前記パイプ段コンポーネントから受信する、請求項１に記載の装置。
前記相互接続は、
複数のメッシュストップを持つメッシュインターコネクトと、
前記複数のメッシュストップのうちの少なくとも一部の間に介在する複数のパイプ段回路と、
を有する、請求項２に記載の装置。
前記複数のパイプ段回路は、前記メッシュインターコネクトの垂直部分に結合された前記複数のメッシュストップのうちの前記少なくとも一部の間に介在し、前記メッシュインターコネクトの水平部分に結合された前記複数のメッシュストップの部分は、パイプ段回路の介在なしに互いに結合される、請求項３に記載の装置。
前記電力コントローラは、前記相互接続の前記動作電圧に少なくとも部分的に基づいて前記選択回路に前記制御信号を提供する、請求項１乃至４のいずれか一項に記載の装置。
前記電力コントローラは、前記動作電圧が前記閾値レベルよりも高いときに、前記複数の処理回路のうちの少なくとも１つのワークロードに更に基づいて前記制御信号を提供して、前記選択回路に、前記パイプ段コンポーネントから受信される前記信号を出力させる、請求項５に記載の装置。
相互接続コントローラと、
前記相互接続に結合されたキューであり、前記相互接続コントローラが、前記相互接続への性能状態変化に先立って、前記相互接続上に係属中の１つ以上のメッセージが当該キューに格納されるようにする、キューと、
を更に有する請求項１乃至６のいずれか一項に記載の装置。
前記性能状態変化の後、前記相互接続コントローラは、前記複数の処理回路が新たなメッセージを前記相互接続に注入することを可能にするのに先立って、前記キューに前記１つ以上のメッセージを前記相互接続に出力させる、請求項７に記載の装置。
前記パイプ段コンポーネントは、前記相互接続の動作電圧が第２の閾値レベルを超えるときに、前記相互接続の通信経路に動的に挿入され、前記パイプ段コンポーネントは、シーケンシャル回路を有する、請求項１乃至８のいずれか一項に記載の装置。
プロセッサの相互接続のコントローラにて、前記プロセッサの電力コントローラからのパイプドレイン信号を受信し、
前記パイプドレイン信号に応答して、前記相互接続上の１つ以上の係属中のメッセージが、前記相互接続に結合されたキューに格納されるようにし、
前記相互接続に性能状態変化を生じさせ、
その後、前記１つ以上の係属中のメッセージが前記キューから排出されて前記相互接続上に注入されるようにし、
前記相互接続の動作電圧が閾値レベル未満であるとき、前記性能状態変化に先立ち、単一サイクル構成で動作するように１つ以上のパイプ段回路を制御し、前記パイプ段回路のうち少なくとも１つがパイプ段コンポーネントを有し、
前記相互接続の前記動作電圧が前記閾値レベルよりも高いとき、前記性能状態変化の後に、複数サイクル構成で動作するように前記１つ以上のパイプ段回路を制御し、前記複数サイクル構成における前記１つ以上のパイプ段回路の動作は、前記単一サイクル構成における前記１つ以上のパイプ段回路の動作よりも低い電圧レベルにおいてである、
ことを有する方法。
前記相互接続の動作電圧が第２の閾値レベルを超えているときに、前記単一サイクル構成で動作するように前記１つ以上のパイプ段回路を制御し、
前記相互接続の動作電圧が前記閾値レベル未満であるときに、前記複数サイクル構成で動作するように前記１つ以上のパイプ段回路を制御する、
ことを更に有する請求項１０に記載の方法。
前記１つ以上の係属中のメッセージの前記相互接続を排出することなく、前記相互接続への前記性能状態変化を実行する、ことを更に有する請求項１０又は１１に記載の方法。
前記パイプドレイン信号に応答して、前記相互接続に結合された１つ以上のエージェントがメッセージを前記相互接続上に注入することを防止し、
前記１つ以上のメッセージが前記キューから排出された後に、前記１つ以上のエージェントが前記メッセージを前記相互接続上に注入することを可能にする、
ことを更に有する請求項１０乃至１２のいずれか一項に記載の方法。
第１の性能状態で動作するように前記相互接続の通信経路回路を制御し、
第２の性能状態で動作するように前記相互接続の論理回路を制御し、前記第１の性能状態は前記第２の性能状態よりも低い、
ことを更に有する請求項１０乃至１３のいずれか一項に記載の方法。
実行されるときに請求項１０乃至１４のいずれか一項に記載の方法を実行するコンピュータ読み取り可能命令を含んだコンピュータ読み取り可能記憶媒体。
請求項１０乃至１４のいずれか一項に記載の方法を実行する手段を有する装置。
チップ・オン・チップであり、
各々が命令を実行する複数のコアと、
前記複数のコアを結合するメッシュインターコネクトであり、当該メッシュインターコネクトは、
複数のメッシュストップが結合された垂直メッシュであり、当該垂直メッシュに沿って複数のパイプ段回路が介在し、該複数のパイプ段回路の各々が、
当該垂直メッシュから信号を受信する第１の入力と、前記信号を出力する第１の出力とを持つパイプ段コンポーネントと、
前記パイプ段コンポーネントの前記第１の出力から前記信号を受信する第１の入力と、当該垂直メッシュから前記信号を受信する第２の入力とを持つ選択回路であり、当該選択回路は、複数サイクル構成を介して前記パイプ段コンポーネントの前記第１の出力から受信される前記信号又は単一サイクル構成を介して当該垂直メッシュから受信される前記信号を出力するように動的に制御可能である、選択回路と、
を有する、垂直メッシュと、
前記複数のメッシュストップが結合された水平メッシュと、
を有する、メッシュインターコネクトと、
前記メッシュインターコネクトの動作電圧に少なくとも部分的に基づいて前記選択回路を制御する電力コントローラであり、前記複数サイクル構成における前記パイプ段コンポーネントの動作は、前記単一サイクル構成における前記パイプ段コンポーネントの動作よりも低い電圧レベルにおいてである、電力コントローラと、
を有するシステム・オン・チップ、及び
前記システム・オン・チップに結合されたシステムメモリ、
を有するシステム。
前記メッシュインターコネクトに結合され、前記メッシュインターコネクトへの性能状態変化に先立って前記メッシュインターコネクト上に係属中の１つ以上のメッセージを格納するキュー、を更に有する請求項１７に記載のシステム。
前記電力コントローラは、前記メッシュインターコネクトの前記動作電圧が閾値レベルを超えるときには、前記複数のパイプ段回路に単一サイクル構成で動作させ、前記メッシュインターコネクトの前記動作電圧が前記閾値レベル未満であるときには、前記複数のパイプ段回路に複数サイクル構成で動作させる、請求項１７又は１８に記載のシステム。
前記電力コントローラは、前記垂直メッシュ及び前記水平メッシュに第１性能状態で動作させ、前記複数のメッシュに第２性能状態で停止させ、前記第１性能状態は前記第２性能状態よりも低い、請求項１７乃至１９のいずれか一項に記載のシステム。
各々が命令を実行するための複数の処理手段と、
前記複数の処理手段を結合するための相互接続手段であり、当該相互接続手段は、
前記複数の処理手段のうちの第１の処理手段と前記複数の処理手段のうちの第２の処理手段との間に結合されるパイプ段手段であり、
当該相互接続手段を介して信号を受信する第１の入力と、前記信号を出力する第１の出力とを持つパイプ段コンポーネントと、
前記パイプ段コンポーネントの前記第１の出力から前記信号を受信するための第１の入力と、バイパス経路を介して前記信号を受信するための第２の入力とを持つ選択手段であり、当該選択手段は、制御信号に基づいて、複数サイクル構成を介して前記パイプ段コンポーネントの前記第１の出力から受信される前記信号又は単一サイクル構成を介して前記バイパス経路を介して受信される前記信号を出力するように、動的に制御可能であり、前記複数サイクル構成における前記パイプ段コンポーネントの動作は、前記単一サイクル構成における前記パイプ段コンポーネントの動作よりも低い電圧レベルにおいてである、選択手段と、
を有するパイプ段手段、
を有する、
装置。
前記選択手段は、前記バイパス経路を介して受信される前記信号に対して遅延された前記信号を前記パイプ段コンポーネントから受信する、請求項２１に記載の装置。
前記相互接続手段は、
複数のメッシュストップを持つメッシュインターコネクト手段と、
前記複数のメッシュストップのうちの少なくとも一部の間に介在する複数のパイプ段手段と、
を有する、請求項２２に記載の装置。