JP2021099785A

JP2021099785A - コンピュータアプリケーションを異種システムのために分配する自動学習技術

Info

Publication number: JP2021099785A
Application number: JP2020155791A
Authority: JP
Inventors: アール．ハギガットモハマド; R Haghighat Mohammad; バーグソーキサラ; Baghsorkhi Sara
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-12-20
Filing date: 2020-09-16
Publication date: 2021-07-01
Also published as: DE102020130528A1; US20200133537A1; US11520501B2; KR20210080173A; TW202129492A; CN113010468A

Abstract

【課題】関数に関連付けられる優先順位付けデータ構造を識別する技術のためのシステムを提供する。【解決手段】優先順位付けデータ構造は、優先順でハードウェアリソースタイプをリストする。また、技術は、第１のタイプのハードウェアリソースが利用可能である場合、第１のタイプのハードウェアリソースを機能に割り当てることができ、第１のタイプのハードウェアリソースは、優先順位付けデータ構造において最も優先順位が高い。さらに、技術は、第１のタイプのハードウェアリソースが利用可能でない場合、優先順に、第２のタイプのハードウェアリソースを関数に割り当てることができる。【選択図】図５

Description

実施形態は、概して、アプリケーション分配（partitioning）に関する。より詳細には、実施形態は、異種システムのためにコンピュータアプリケーションを分配する（partition）ための自動学習技術に関する。

所与のコンピュータアプリケーション（例えば、ソフトウェア）は、典型的には、コンピューティングシステム内の特定のプロセッサ（例えば、中央処理装置／ＣＰＵ）上で実行されるように書かれる。しかし、新しいタイプのプロセッサ（例えば、特殊な目的のアクセラレータ）が開発されるにつれて、アプリケーションが新しいプロセッサ上で効率的に実行することを可能にすることは、アプリケーションコードのコストと時間がかかる書き換えを伴うことがある。たとえアプリケーションが異種のプロセッサセットを含むコンピューティングシステム上で実行するように書かれていても、アプリケーションが異種のプロセッサセットを有するコンピューティングシステム上で効率的に実行することを可能にすることは、依然として、アプリケーションコードのコストと時間のかかる書き換えを伴う可能性がある。

実施形態の様々な利点は、以下の明細書および添付の特許請求の範囲を読むことによって、および以下の図面を参照することによって、当業者に明らかになるであろう。

一実施形態によるソフトウェアスタックの一例のブロック図である。一実施形態によるライブラリバージョンのセットの一例のブロック図である。実施形態によるテレメトリデータの例のブロック図である。実施形態によるテレメトリデータの例のブロック図である。一実施形態によるプロセッサディスパッチテーブルの一例のブロック図である。一実施形態によるスケジューラを作動させる方法の一例のフローチャートである。一実施形態による性能が高められたコンピューティングシステムを作動させる方法の一例のフローチャートである。一実施形態による性能が高められたコンピューティングシステムの一例のブロック図である。一実施形態による半導体装置の一例の説明図である。一実施形態のプロセッサの一例のブロック図である。一実施形態による、マルチプロセッサベースのコンピューティングシステムの一例のブロック図である。

次に、図１を参照すると、例えば、ＯＮＥＡＰＩなどの統合プログラミングモデルのためのソフトウェアスタック２０が示されている。図示された統合ソフトウェアスタック２０は、レベル０インタフェース２２、レベル０インタフェース２２の下のシステムソフトウェア（ＳＷ）２４、レベル０インタフェース２２の上のシステムソフトウェア２６、および開発者インタフェース２８を含む。レベル０インタフェース２２の下のシステムソフトウェア２４は、異種セットのプロセッサ３６と通信する。異種セットのプロセッサ３６は、例えば、ＣＰＵ（例えば、スカラー演算および／または関数をサポートし得る）、ＧＰＵ（例えば、ベクトル演算および／または関数をサポートし得るグラフィック処理ユニット）、ＡＩ（人工知能）アクセラレータ（例えば、マトリックス演算および／または関数をサポートし得る）、およびＦＰＧＡ（例えば、空間演算および／または関数をサポートし得るフィールドプログラマブルゲートアレイ）などのハードウェアを含んでもよい。さらに、開発者インタフェース２８は、最適化されたミドルウェアおよび関連するフレームワークと対話し、これは、次に、１つまたは複数の最適化されたアプリケーション３８をサポートする。

一実施形態では、スタック２０の自動分配器（auto-partitioner）部分は、例えば、プロセッサディスパッチテーブル（ＰＤＴ）データベース３２、メモリ割り当てテーブル（ＭＡＴ）データベース３４などの優先順位付けデータ構造を維持するスケジューラ３０を含む。一例では、スケジューラ３０は、優先順位付けデータ構造を使用して、異種セットのプロセッサ３６にわたるライブラリ関数の実行を自動的に分配する。より詳細に説明するように、ＰＤＴデータベース３２は、プロセッサタイプを優先順に、かつ、関数毎にリストし得る。例えば、一組のライブラリ４０は、異種セットのプロセッサ３６内の各タイプのプロセッサのために構築される関数（function）を含んでもよい。このような場合、図示されたＰＤＴデータベース３２は、どのプロセッサタイプが当該関数（the function in question）を実行するための最も高い優先順位を有するか、どのプロセッサタイプが当該関数を実行するための次に高い優先順位を有するか、などを指定する。同様に、ＭＡＴデータベース３４は、どのメモリタイプ（例えば、キャッシュ、揮発性メモリ、不揮発性メモリ）が当該関数のデータ構造に対して最も高い記憶優先順位を有するか、どのメモリタイプが当該関数のデータ構造に対して次に高い記憶優先順位を有するかを指定することができる。一例では、優先順位付けデータ構造は、関数の実行中に収集されるテレメトリ情報に基づいて生成される。従って、図示された優先順位付けデータ構造は、より最適な実行構成が関数毎に自動的に識別されることを可能にすることによって、性能、電力／エネルギ効率、および／またはスケーラビリティを向上させ得る。実際、優先順位付けデータ構造を経時的に更新することによって、図示されたスタック２０は、異種セットのプロセッサ３６のセットにわたって関数を分配するための自動学習ソリューションを提供する。

図２は、複数のライブラリバージョン５０を示しており、ＣＰＵライブラリ５０ｂ、ＧＰＵライブラリ５０ｃ、ＡＩライブラリ５０ｄ、ＦＰＧＡライブラリ５０ｅを構築するために、ベースライブラリ５０ａ（「Ｌｉｂｋ」）を用いている。図示された例では、ベースライブラリ５０ａの各関数（「Ｆｕｎｃ＿１」〜「Ｆｕｎｃ＿ｍ」）は、ベースライブラリ５０ａの他のバージョン５０に対応するものを有している。特定のライブラリバージョン５０、またはその下にある関数（underlying functions）の一部が、与えられたタイプのプロセッサ上で利用できない場合、そのような条件はスケジューラおよび／またはアプリケーションリンカに示され得る。

図３Ａは、関数識別子（ＩＤ）６６、第１のテレメトリレコード６２、第２のテレメトリレコード６４などを含むテレメトリ情報６０（例えば、プロファイル情報）の一例を示す。図示されたテレメトリレコード６２、６４は、関数ＩＤ６６に対応する関数の連続的な実行のための、例えば、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、消費電力などの作動条件を追跡する。テレメトリレコード６２、６４はまた、関数実行の時刻、性能および電力プロファイル特性などを詳細に記録し（document）得る。ハードウェア能力の利用（例えば、単一命令多重データ／ＳＩＭＤベクトル命令の使用）、グラフィックス能力の利用、および階層型メモリサブシステム（tiered memory subsystem）（例えば、永続メモリを含む）におけるキャッシュレベルの利用などの情報も収集され得る。一例では、そのような情報は、そのようなプロファイルが収集されるトレーニングセッション中に一度作成される。

他の実施形態では、テレメトリ情報６０は、経時的に（例えば、ユーザによって決定されるように選択的にまたは周期的に）関数の実行と共に繰り返し収集される。従って、第１のテレメトリレコード６２は当該関数の第１の実行に対応し、第２のテレメトリレコード６４は当該関数の第２の実行に対応する等である。このようなアプローチは、利用予測が信頼できないまたは予測できないマルチテナントコンピューティングアーキテクチャにおいて特に有利であり得る。追跡された作動状態は、実行から実行へおよび関数から関数へと変化し得るが、例えば、既に説明したＰＤＴデータベース３２（図１）および／またはＭＡＴデータベース３４（図１）などの優先順位付けデータ構造の自動生成を容易にし得る。

図３Ｂは、関数ＩＤ７２と単一のテレメトリレコード７４とを含むテレメトリ情報７０の一例を示す。図示されたテレメトリレコード７４は、関数ＩＤ７２に対応する関数の連続的に実行のための、例えば、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、消費電力などの動作条件を追跡する。従って、図示された解決策は、システムが経時的な関数として関数実行についてより多く学習するにつれて、レコード７４が動的データモデルとして機能する各関数について、一つのテレメトリレコード７４のみを維持する。このようなアプローチは、任意の多数回実行される関数を扱う場合に特に有用であり得る。さらに別の実施形態では、関数は、対応する動的プロファイル情報を有していなくてもよいが、システム作成者は、静的に、例えば、スケジューリングプロセスにおいてターゲティングするプロセッサの提案された順序の表示（例えば、最初に、特別なアクセラレータを試み、次に、特定のＧＰＵを試み、ＣＰＵを最後に試みる）などの関数に関する情報を提供してもよい。

図４は、プロセッサディスパッチテーブル（ＰＤＴ）８０を示す。既に述べたように、関数テレメトリ情報は、ＰＤＴ８０を作成するために使用され、このＰＤＴ８０は、異種システム内のプロセッサに関数をマッピングする。他の実施形態では、プロファイル情報は、開発者／ユーザのヒントおよび発見的手法によって強化、置き換え、または上書きすることができる。一実施形態では、ＰＤＴ８０は、所与の関数の実行のために異種システムのプロセッサをターゲティングするための好ましい順序を指定する。単純な実施形態では、ＰＤＴ８０は、各要素がターゲットプロセッサのＩＤであるソートされた配列（array）である。一実施形態では、第１の要素は、所与の関数の実行のための最も高い優先順位（例えば、最も好ましい）のプロセッサを指定する。このような場合、ＰＤＴの第２の要素は、所与の関数を実行するためのプロセッサの２番目の選択肢を指定するなどである。図示の例では、最も優先順位の高いプロセッサのタイプは「アクセラレータ１」、次に優先順位の高いプロセッサのタイプは「アクセラレータ２」などである。例えば、関数に対応するテレメトリ情報がワイドベクトル命令の多用を示す場合、そのような知識は、関数の実行のためにプロセッサが選択する優先順位に反映され得る。換言すれば、スケジューラは、比較的広い命令を有するプロセッサ上で関数を実行しようと試みることができる。

優先順位付けデータ構造の別のタイプは、メモリ割り当て（例えば、レイアウト）テーブル（ＭＡＴ）であり、これは、関数を含む計算ユニットの選択データ構造のためのメモリの割り当てをガイドする。一実施形態では、ＭＡＴは、アプリケーションまたは関数の以前の実行からの開発者の知識および関数のダイナミックテレメトリプロファイルをキャプチャする。システムエージェントは、選択されたデータ構造（例えば、大きな配列またはバッファ）が特定のメモリユニットにマッピングされた以前の実行の実行特性を分析し得る。一例では、エージェントは、次に、アプリケーションまたは関数の実行中にメモリアロケータによって使用されるデータ構造に対応するメモリ割り当てのための優先順位テーブルを作成する。したがって、ＭＡＴの優先リストは関数のデータ構造に対しては［ｃａｃｈｅ＝＞ＲＡＭ＝＞永続ストレージ］であるが、ＭＡＴの優先リストは関数の別のデータ構造に対しては［ＲＡＭ＝＞永続ストレージ］であり得る。ＰＤＴと同様に、ＭＡＴは、システムがアプリケーションまたは関数の実行特性についてより多くを自動的に学習するにつれて進化し得る。このように、新しい実行（runs）からの学習は、将来の実行の挙動をさらに改善するために使用される。特定の実施形態では、ＭＡＴの範囲は、単一のコンピューティングシステムの構成要素を超えて、例えば、構成要素に分けられた階層型メモリアーキテクチャシステムなどのアーキテクチャをカバーするように拡大される。

図５は、スケジューラを動作させる方法９０を示す。この方法９０は、概して、例えば、既に説明したスケジューラ３０（図１）などのスケジューラに実装され得る。より詳細には、本方法９０は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、ファームウェア、フラッシュメモリなどのような機械またはコンピュータ可読記憶媒体に記憶された一組のロジック命令として１つまたは複数のモジュールに、例えば、プログラマブルロジックアレイ（ＰＬＡ）、ＦＰＧＡ、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）などの設定可能ロジックに、例えば、特定用途向け集積回路（ＡＳＩＣ）、相補型金属酸化物半導体（ＣＭＯＳ）またはトランジスタ−トランジスタロジック（ＴＴＬ）技術などの回路技術を使用する固定機能ロジックハードウェアに、またはそれらの任意の組合せに、実装され得る。

例えば、方法９０に示された動作を実行するためのコンピュータプログラムコードは、JAVA（登録商標）、SMALLTALK（登録商標）、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。加えて、ロジック命令は、アセンブラ命令、ＩＳＡ命令、機械語命令、機械依存命令、マイクロコード、状態設定データ、集積回路の構成データ、電子回路および／またはハードウェア（例えば、ホストプロセッサ、中央処理装置／ＣＰＵ、マイクロコントローラなど）に固有の他の構造構成要素をパーソナライズする状態情報を含んでもよい。

図示された処理ブロック９２は、関数に関連付けられる（例えば、専用の）優先順位付けデータ構造（例えば、ＰＤＴ、ＭＡＴ）を識別することを提供し、優先順位付けデータ構造は、ハードウェアリソースタイプを優先順にリストする。ブロック９２はまた、収集されたテレメトリ情報に基づいて優先順位付けデータ構造を生成および／または修正することを含み得る。この点に関し、ブロック９２は、パフォーマンスを改善する（例えば、高性能プロセッサを優先することによって）、電力消費を低減する（例えば、低電力プロセッサを優先することによって）などのように、優先順位付けデータ構造を設計し得る。実際、マッピングは時刻に特有であることさえある。

ハードウェアリソースのタイプがブロック９４において選択され得、ブロック９６は、選択されたハードウェアリソースのタイプが利用可能であるかどうかを決定する。そうであれば、選択されたハードウェアリソースタイプは、ブロック９８において関数に割り当てられる（例えば、割り当てられる）。選択されたハードウェアリソースタイプが利用できない場合、図示された方法９０はブロック９４に戻り、優先順で次のタイプのハードウェアリソースを選択する。

したがって、優先順位付けデータ構造の中で最も高い優先順位を持つリソースのタイプが利用可能である場合、そのタイプのリソースが関数に割り当てられる。そうでなければ、第２のタイプのハードウェアリソース（優先順における）が関数に割り当てられ、第２のタイプのハードウェアリソースは次に利用可能なタイプのハードウェアリソースである。すでに述べたように、ハードウェアリソースタイプは、プロセッサタイプ（例えば、ＰＤＴの場合）および／またはメモリタイプ（例えば、ＭＡＴの場合）であり得る。従って、図示された方法９０は、より最適な実行構成が関数毎に自動的に識別されることを可能にすることによって、性能、効率、および／またはスケーラビリティを向上させる。さらに、優先順位付けデータ構造が経時的に更新され得るため、新しいタイプのハードウェアリソースが開発されるにつれて、アプリケーションコードのコストおよび時間のかかる書き換えが回避され得る。

図６は、性能が高められたコンピューティングシステムを動作させる方法１０１を示す。方法１０１は、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ファームウェア、フラッシュメモリなどの機械可読またはコンピュータ可読記憶媒体に格納された一組のロジック命令として１つまたは複数のモジュールにおいて、例えばＰＬＡ、ＦＰＧＡ、ＣＰＬＤなどの設定可能ロジックにおいて、例えばＡＳＩＣ、ＣＭＯＳまたはＴＴＬ技術などの回路技術を用いて固定機能ロジックハードウェアにおいて、またはそれらの任意の組み合わせで実装され得る。

一般に、アプリケーション／関数スケジューラ１００は、実行のための関数（またはアプリケーション）を構成し、関数実行のためのメモリを割り当てる際に、プロセッサディスパッチテーブル１０２およびメモリ割り当てテーブル１０４のグローバルデータベースを活用し得る。特定の実施形態では、実行に関する新しいテレメトリ情報が、新しい情報に基づいてＰＤＴ１０２およびＭＡＴ１０４を改訂するエージェントによって使用されるために記録される。例えば、アプリケーション／関数は、処理ブロック１０６において特定のプロセッサ／メモリ構成で実行し得、実行テレメトリプロファイルはブロック１０８において収集される（gathered）（例えば、収集される（collected））。一実施形態では、実行アナライザが、ブロック１１０においてテレメトリ情報（例えば、プロファイル、履歴）を作成／更新する。図示の例では、テレメトリ情報の収集および優先順位付けデータ構造の更新が、関数の複数の実行のために繰り返される。

従って、図示された方法１０１は、コンピュータアプリケーションを異種システムに分配するための自動学習ソリューションを提供する（例えば、アプリケーションコードの高価で時間のかかる書き換えを回避する）。加えて、テレメトリ情報は、関数の各実行に対して異なるテレメトリレコードに格納され得る（例えば、図３Ａを参照）、または関数の各実行に対して同じテレメトリレコードに格納され得る（例えば、図３Ｂを参照）。一実施形態では、スケジューラ１００は、テレメトリ情報に基づいて優先順位付けデータ構造を生成及び修正する。

次に図７を参照すると、性能が高められたコンピューティングシステム１７０が示されている。システム１７０は、概して、コンピューティング機能（例えば、パーソナルデジタルアシスタント／ＰＤＡ、ノートコンピュータ、タブレットコンピュータ、コンバーチブルタブレット、サーバ）、通信機能（例えば、スマートフォン）、イメージング機能（例えば、カメラ、ビデオカメラ）、メディア再生機能（例えば、スマートテレビ／ＴＶ）、ウェアラブル機能（例えば、時計、アイウェア、ヘッドウェア、履物、ジュエリー）、車両機能（例えば、自動車、トラック、モータサイクル）、ロボット機能（例えば、自律ロボット）など、またはそれらの任意の組み合わせを有する電子デバイス／プラットフォームの一部であり得る。図示の例では、システム１７０は、システムメモリ１７６に結合された集積メモリコントローラ（ＩＭＣ）１７４を有するホストプロセッサ１７２を含む。

図示されたシステム１７０はまた、システムオンチップ（ＳｏＣ）として、半導体ダイ１８２上にホストプロセッサ１７２及びグラフィックスプロセッサ１８０と共に実装された入出力（ＩＯ）モジュール１７８を含む。図示されたＩＯモジュール１７８は、例えば、ディスプレイ１８４（例えば、タッチスクリーン、液晶ディスプレイ／ＬＣＤ、発光ダイオード／ＬＥＤディスプレイ）、ネットワークコントローラ１８６（例えば、有線および／または無線）、および大容量記憶装置１８８（例えば、ハードディスクドライブ／ＨＤＤ、光ディスク、ソリッドステートドライブ／ＳＳＤ、フラッシュメモリ）と通信する。

一実施形態では、ホストプロセッサ１７２、グラフィックスプロセッサ１８０および／またはＩＯモジュール１７８は、システムメモリ１７６および／または大容量記憶装置１８８から検索されたプログラム命令１９０を実行して、すでに説明した方法９０（図５）および／または方法１０１（図６）の１つまたは複数の態様を実行する。従って、図示された命令１９０の実行は、コンピューティングシステム１７０に、関数の実行中にテレメトリ情報を収集させるとともにテレメトリ情報に基づいて優先順位付けデータ構造を生成させ、優先順位付けデータ構造は優先順にハードウェアリソースタイプをリストする。一例では、命令１９０の実行はまた、コンピューティングシステム１７０に、関数の複数の実行中にテレメトリ情報を収集させ、テレメトリ情報に基づいて優先順位付けデータ構造を修正させる。

一実施形態では、図示された命令１９０の実行はまた、第１のタイプのハードウェアリソースが利用可能であり、第１のタイプのハードウェアリソースが優先順位データ構造において最も高い優先順位を有する場合、コンピューティングシステム１７０に第１のタイプのハードウェアリソースを機能に割り当てさせる。加えて、命令１９０の実行は、第１のタイプのハードウェアリソースが利用可能でない場合、コンピューティングシステム１７０に第２のタイプのハードウェアリソースを、優先順位で、関数に割り当てさせ得る。
一実施形態では、第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースである。すでに論じたように、ハードウェアリソースタイプは、プロセッサタイプ、メモリタイプなどであり得る。従って、コンピューティングシステム１７０は、少なくとも、優先順位付けデータ構造を使用して、より最適な実行構成が自動的に識別され、関数毎に使用されることを可能にする程度まで、性能が向上される。

図８は、半導体パッケージ装置１９２を示す。図示された装置１９２は、１つまたは複数の基板１９４（例えば、シリコン、サファイア、ガリウムヒ素）および基板（複数可）１９４に結合されたロジック１９６（例えば、トランジスタアレイおよび他の集積回路／ＩＣ構成要素）を含む。ロジック１９６は、少なくとも部分的に、設定可能なロジックまたは固定機能ロジックハードウェアに実装され得る。一例では、ロジック１９６は、既に説明した方法９０（図５）および／または方法１０１（図６）の１つまたは複数の態様を実装する。したがって、ロジック１９６は、関数の実行中にテレメトリ情報を収集し得るとともにテレメトリ情報に基づいて優先順位付けデータ構造を生成し得、優先順位付けデータ構造は、優先順でハードウェアリソースタイプをリストする。一例では、ロジック１９６はまた、関数の複数の実行中にテレメトリ情報を収集し、テレメトリ情報に基づいて優先順位付けデータ構造を修正する。

一実施形態では、ロジック１９６は、第１のタイプのハードウェアリソースが利用可能である場合、第１のタイプのハードウェアリソースを関数に割り当て、第１のタイプのハードウェアリソースは、優先順位付けデータ構造において最も高い優先順位を有する。加えて、ロジック１９６は、第１のタイプのハードウェアリソースが利用可能でない場合、優先順において、第２（２番目）のタイプのハードウェアリソースを関数に割り当て得る。一例では、第２のタイプのハードウェアリソースは、次に使用可能なタイプのハードウェアリソースである。すでに論じたように、ハードウェアリソースタイプは、プロセッサタイプ、メモリタイプなどであり得る。従って、装置１９２は、少なくとも、優先順位付けデータ構造を使用して、より最適な実行構成が自動的に識別され、関数毎に使用されることを可能にする程度まで、性能が向上される。

一例では、ロジック１９６は、基板（複数可）１９４内に配置される（例えば、埋め込まれる）トランジスタチャネル領域を含む。したがって、ロジック１９６と基板（複数可）１９４との間のインタフェースは、階段接合ではない。また、ロジック１９６は、基板（複数可）１９４の初期ウエハ上に成長されるエピタキシャル層を含むと考えられ得る。

図９は、一実施形態によるプロセッサコア２００を示す。プロセッサコア２００は、マイクロプロセッサ、埋め込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、またはコードを実行するための他のデバイスなど、任意のタイプのプロセッサのコアであり得る。図９には１つのプロセッサコア２００のみが示されているが、処理要素は、代替的には、図９に示されたプロセッサコア２００のうちの１つより多くを含み得る。プロセッサコア２００は、シングルスレッドコアであり得る、または少なくとも１つの実施形態では、プロセッサコア２００は、コア当たり２つ以上のハードウェアスレッドコンテキスト（または「ロジックプロセッサ」）を含み得るという点で、マルチスレッドであり得る。

図９はまた、プロセッサコア２００に結合されたメモリ２７０を示す。メモリ２７０は、当業者に知られているかまたはそうでなければ利用可能であるような、広範な種類のメモリ（メモリ階層の種々の層を含む）のいずれかであり得る。メモリ２７０は、プロセッサコア２００によって実行されることになる１つまたは複数のコード２１３命令（複数可）を含み、コード２１３は、すでに説明した方法９０（図５）および／または方法１０１（図６）の１つまたは複数の態様を実装し得る。プロセッサコア２００は、コード２１３によって示される命令のプログラムシーケンスに従う。各命令は、フロントエンド部分２１０に入り、１つまたは複数のデコーダ２２０によって処理され得る。デコーダ２２０は、その出力として、予め規定されたフォーマットの固定幅マイクロオペレーションなどのマイクロオペレーションを生成し得る、または、オリジナルのコード命令を反映する他の命令、マイクロ命令、もしくは制御信号を生成し得る。図示されたフロントエンド部分２１０はまた、レジスタリネームロジック２２５およびスケジューリングロジック２３０を含み、これらは概してリソースを割り当て、実行のための変換命令に対応する動作をキューに入れる（queue）。

プロセッサコア２００は、一組の実行ユニット２５５−１〜２５５−Ｎを有する実行ロジック２５０を含むように示されている。いくつかの実施形態は、特定の関数または関数セットに専用のいくつかの実行ユニットを含み得る。他の実施形態は、１つの実行ユニットのみまたは特定の機能を実行できる１つの実行ユニットを含み得る。図示された実行ロジック２５０は、コード命令によって指定された動作を実行する。

コード命令によって指定された動作の実行の完了後、バックエンドロジック２６０は、コード２１３の命令を撤収する（retires）。一実施形態では、プロセッサコア２００は、順不同の実行を可能にするが、命令の順番の撤収（retirement）を必要とする。撤収ロジック２６５は、当業者に知られた種々の形態（例えば、リオーダバッファ等）を取ることができる。このようにして、プロセッサコア２００は、コード２１３の実行中に、少なくとも、デコーダによって生成される出力、レジスタリネームロジック２２５によって利用されるハードウェアレジスタおよびテーブル、ならびに実行ロジック２５０によって修正される任意のレジスタ（図示せず）に関して、変換される。

図９には示されていないが、処理要素は、プロセッサコア２００を有するチップ上の他の要素を含み得る。例えば、処理要素は、プロセッサコア２００と共にメモリ制御ロジックを含み得る。処理要素は、Ｉ／Ｏ制御ロジックを含み得る、および／またはメモリ制御ロジックと一体化されたＩ／Ｏ制御ロジックを含み得る。処理要素はまた、１つまたは複数のキャッシュを含み得る。

次に、図１０を参照すると、一実施形態によるコンピューティングシステム１０００の実施形態のブロック図が示される。図１０には、第１の処理要素１０７０および第２の処理要素１０８０を含むマルチプロセッサシステム１０００が示されている。２つの処理要素１０７０および１０８０が示されているが、システム１０００の実施形態は、１つのそのような処理要素のみを含んでもよいことが理解されるべきである。

システム１０００は、ポイントツーポイント相互接続システムとして示され、第１の処理要素１０７０および第２の処理要素１０８０は、ポイントツーポイント相互接続１０５０を介して結合される。図１０に示された相互接続のいずれかまたは全ては、ポイントツーポイント相互接続ではなくマルチドロップバスとして実装され得ることが理解されるべきである。

図１０に示すように、処理要素１０７０および１０８０の各々は、第１および第２のプロセッサコア（すなわち、プロセッサコア１０７４ａおよび１０７４ｂ、ならびにプロセッサコア１０８４ａおよび１０８４ｂ）を含む、マルチコアプロセッサであり得る。そのようなコア１０７４ａ、１０７４ｂ、１０８４ａ、１０８４ｂは、図９に関連して上述したものと同様の方法で命令コードを実行するように構成され得る。

各処理要素１０７０、１０８０は、少なくとも１つの共有キャッシュ１８９６ａ、１８９６ｂを含み得る。共有キャッシュ１８９６ａ、１８９６ｂは、それぞれ、コア１０７４ａ、１０７４ｂ、および１０８４ａ、１０８４ｂなどの、プロセッサの１つまたは複数の構成要素によって利用されるデータ（例えば、命令）を記憶し得る。例えば、共有キャッシュ１８９６ａ、１８９６ｂは、プロセッサの構成要素によるより速いアクセスのために、メモリ１０３２、１０３４に記憶されたデータをローカルにキャッシュし得る。１つまたは複数の実施形態では、共有キャッシュ１８９６ａ、１８９６ｂは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、または他のレベルのキャッシュ、最後のレベルキャッシュ（ＬＬＣ）、および／またはそれらの組み合わせなどの１つまたは複数の中間レベルキャッシュを含み得る。

２つの処理要素１０７０、１０８０のみで示されるが、本実施形態の範囲は、それに限定されないことが理解されるべきである。他の実施形態では、１つまたは複数の追加の処理要素が、所与のプロセッサ内に存在し得る。代替的には、処理要素１０７０、１０８０の１つまたは複数は、アクセラレータまたはフィールドプログラマブルゲートアレイなどのプロセッサ以外の要素であり得る。例えば、追加の処理要素（複数可）は、第１のプロセッサ１０７０と同じである追加のプロセッサ（複数可）、第１のプロセッサ１０７０に対して異種または非対称である追加のプロセッサ（複数可）、アクセラレータ（例えば、グラフィックスアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニット）、フィールドプログラマブルゲートアレイ、または任意の他の処理要素を含み得る。アーキテクチャ、マイクロアーキテクチャ、熱、電力消費特性などを含むメトリックのスペクトルに関して、処理要素１０７０、１０８０の間には、様々な相違があり得る。これらの相違は、実際上、処理要素１０７０、１０８０の間の非対称性および異種性として現れ得る。少なくとも１つの実施形態について、種々の処理要素１０７０、１０８０は、同一のダイパッケージ内に存在し得る。

第１の処理要素１０７０は、メモリコントローラロジック（ＭＣ）１０７２並びにポイントツーポイント（Ｐ−Ｐ）インタフェース１０７６および１０７８をさらに含み得る。同様に、第２の処理要素１０８０は、ＭＣ１０８２ならびにＰ−Ｐインタフェース１０８６および１０８８を含み得る。図１０に示すように、ＭＣ１０７２および１０８２は、プロセッサをそれぞれのメモリ、すなわち、メモリ１０３２およびメモリ１０３４に結合し、これらは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であり得る。ＭＣ１０７２および１０８２は、処理要素１０７０、１０８０に統合されて示されているが、代替の実施形態では、ＭＣロジックは、その中に統合されるのではなく、処理要素１０７０、１０８０の外側の別々のロジックであってもよい。

第１の処理要素１０７０および第２の処理要素１０８０は、それぞれＰ−Ｐ相互接続１０７６、１０８６を介して、Ｉ／Ｏサブシステム１０９０に結合され得る。図１０に示すように、Ｉ／Ｏサブシステム１０９０は、Ｐ−Ｐインタフェース１０９４および１０９８を含む。さらに、Ｉ／Ｏサブシステム１０９０は、Ｉ／Ｏサブシステム１０９０を高性能グラフィックスエンジン１０３８と結合するためのインタフェース１０９２を含む。一実施形態では、バス１０４９は、グラフィックスエンジン１０３８をＩ／Ｏサブシステム１０９０に結合するために使用され得る。代替的には、ポイントツーポイント相互接続が、これらの構成要素を結合し得る。

次に、Ｉ／Ｏサブシステム１０９０は、インタフェース１０９６を介して第１のバス１０１６に結合され得る。一実施形態では、第１のバス１０１６は、周辺機器相互接続（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバスもしくは他の第３世代Ｉ／Ｏ相互接続バスなどのバスであり得るが、実施形態の範囲はそれらに限定されない。

図１０に示すように、種々のＩ／Ｏデバイス１０１４（例えば、バイオメトリクススキャナ、スピーカ、カメラ、センサ）が、第１のバス１０１６を第２のバス１０２０に結合し得るバスブリッジ１０１８と共に、第１のバス１０１６に結合され得る。一実施形態では、第２のバス１０２０は、ｌｏｗｐｉｎｃｏｕｎｔ（ＬＰＣ）バスであり得る。一実施形態では、例えば、キーボード／マウス１０１２、通信デバイス（複数可）１０２６、および、コード１０３０を含み得るディスクドライブまたは他の大容量記憶装置などのデータストレージユニット１０１９を含む、種々の装置が、第２のバス１０２０に結合され得る。図示されたコード１０３０は、すでに説明した方法９０（図５）および／または方法１０１（図６）の１つまたは複数の態様を実装し得る。さらに、オーディオＩ／Ｏ１０２４が、第２のバス１０２０に結合され得るとともに、バッテリ１０１０が、コンピューティングシステム１０００に電力を供給し得る。

他の実施形態が考えられることに留意されたい。例えば、図１０のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバスまたは他のそのような通信トポロジを実装し得る。また、図１０の要素は、代替的には、図１０に示されているよりも多いまたは少ない集積チップを使用して分配されてもよい。

追加の注記および例:

例１は、ネットワークコントローラと、ネットワークコントローラに結合されたプロセッサと、プロセッサに結合されたメモリとを備えた性能が高められたコンピューティングシステムを含み、このメモリは、一組の実行可能なプログラム命令を含み、この命令は、プロセッサによって実行されるとき、コンピューティングシステムに、関数に関連付けられる優先順位付けデータ構造を識別させ、優先順位付けデータ構造は、ハードウェアリソースタイプを優先順にリストし、第１のタイプのハードウェアリソースが利用可能である場合に、第１のタイプのハードウェアリソースを関数に割り当てさせ、第１のタイプのハードウェアリソースは、優先順位付けデータ構造において最も高い優先順位を有し、第１のタイプのハードウェアリソースが利用可能でない場合、優先順に、第２のタイプのハードウェアリソースを関数に割り当てさせ、ハードウェアリソースのタイプは、プロセッサタイプ又はメモリタイプのうちの１つである。

例２は、例１のコンピューティングシステムを含み、命令は、実行されるとき、コンピューティングシステムに、関数の実行中に、テレメトリ情報を収集させ、テレメトリ情報に基づいて優先順位付けデータ構造を生成させ、第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであるものであり、テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含むものであり、優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである。

例３は、例１のコンピューティングシステムを含み、命令は、実行されるとき、コンピューティングシステムに、関数の複数の実行中にテレメトリ情報を収集させ、テレメトリ情報に基づいて優先順位付けデータ構造を修正させる。

例４は、例３のコンピューティングシステムを含み、命令は、実行されるとき、コンピューティングシステムに、第１のテレメトリ情報を第１のテレメトリレコードに記憶させ、第１のテレメトリ情報は、関数の第１の実行と関連付けられ、第２のテレメトリ情報を第２のテレメトリレコードに記憶させ、第２のテレメトリ情報は、関数の第２の実行と関連付けられる。

例５は、例３のコンピューティングシステムを含み、命令は、実行されるとき、コンピューティングシステムに、第１のテレメトリ情報をテレメトリレコードに記憶させ、第１のテレメトリ情報は関数の第１の実行に関連付けられ、第２のテレメトリ情報をテレメトリレコードに記憶させ、第２のテレメトリ情報は関数の第２の実行に関連付けられる。

例６は、１つまたは複数の基板と、１つまたは複数の基板に結合されるロジックとを有する半導体装置を含み、ロジックは、少なくとも部分的に、設定可能なロジックまたは固定機能のハードウェアロジックのうちの１つまたは複数で実装され、１つまたは複数の基板に結合されるロジックは、関数に関連付けられる優先順位付けデータ構造を識別し、優先順位付けデータ構造は、優先順でハードウェアリソースのタイプをリストし、第１のタイプのハードウェアリソースが利用可能である場合に、第１のタイプのハードウェアリソースを関数に割り当て、第１のタイプのハードウェアリソースは、優先順位付けデータ構造において最も高い優先順位を有し、第１のタイプのハードウェアリソースが利用可能でない場合に、優先順に、第２のタイプのハードウェアリソースを関数に割り当てる。

例７は、例６の半導体装置を含み、１つまたは複数の基板に結合されるロジックは、関数の実行中にテレメトリ情報を収集するものであり、テレメトリ情報に基づいて優先順位付けデータ構造を生成するものであり、第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであり、テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含むものであり、優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである。

例８は、例６の半導体装置を含み、１つまたは複数の基板に結合されるロジックは、関数の複数の実行中にテレメトリ情報を収集するものであり、テレメトリ情報に基づいて優先順位付けデータ構造を修正するものである。

例９は、例８の半導体装置を含み、１つまたは複数の基板に結合されるロジックは、第１のテレメトリ情報を第１のテレメトリレコードに記憶するものであり、第１のテレメトリ情報は、関数の第１の実行と関連付けられ、第２のテレメトリ情報を第２のテレメトリレコードに記憶するものであり、第２のテレメトリ情報は、関数の第２の実行と関連付けられる。

例１０は、例８の半導体装置を含み、１つまたは複数の基板に結合されたロジックは、第１のテレメトリ情報をテレメトリレコードに記憶するものであり、第１のテレメトリ情報は、関数の第１の実行と関連付けられ、第２のテレメトリ情報はテレメトリレコードに記憶するものであり、第２のテレメトリ情報は、関数の第２の実行と関連付けられる。

例１１は、例６〜１０のいずれか１つの半導体装置を含み、ハードウェアリソースのタイプはプロセッサタイプである。

例１２は、例６〜１０のいずれか１つの半導体装置を含み、ハードウェアリソースのタイプはメモリタイプである。

例１３は、一組の実行可能なプログラム命令を含む少なくとも１つのコンピュータ可読記憶媒体を含み、命令は、コンピューティングシステムによって実行されるとき、コンピューティングシステムに、関数に関連付けられる優先順位付けデータ構造を識別させ、優先順位付けデータ構造はハードウェアリソースのタイプを優先順にリストし、第１のタイプのハードウェアリソースが利用可能である場合に第１のタイプのハードウェアリソースを関数に割り当てさせ、第１のタイプのハードウェアリソースは優先順位付けデータ構造において最も高い優先順位を有し、第１のタイプのハードウェアリソースが利用可能でない場合に、優先順に、第２のタイプのハードウェアリソースを関数に割り当てさせる。

例１４は、例１３の少なくとも１つのコンピュータ可読記憶媒体を含み、命令は、実行されるとき、コンピューティングシステムに、関数の実行中にテレメトリ情報を収集させ、テレメトリ情報に基づいて優先順位付けデータ構造を生成させ、第２のタイプのハードウェアリソースは次に利用可能なタイプのハードウェアリソースであり、テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含み、優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである。

例１５は、例１３の少なくとも１つのコンピュータ可読記憶媒体を含み、命令は、実行されるとき、コンピューティングシステムに、関数の複数の実行中にテレメトリ情報を収集させ、テレメトリ情報に基づいて優先順位付けデータ構造を修正させる。

例１６は、例１５の少なくとも１つのコンピュータ可読記憶媒体を含み、命令は、実行されるとき、コンピューティングシステムに、第１のテレメトリ情報を第１のテレメトリレコードに記憶させ、第１のテレメトリ情報は、関数の第１の実行に関連付けられ、第２のテレメトリ情報を第２のテレメトリレコードに記憶させ、第２のテレメトリ情報は、関数の第２の実行に関連付けられる。

例１７は、例１５の少なくとも１つのコンピュータ可読記憶媒体を含み、命令は、実行されるとき、コンピューティングシステムに、第１のテレメトリ情報をテレメトリレコードに記憶させ、第１のテレメトリ情報は関数の第１の実行と関連付けられ、第２のテレメトリ情報をテレメトリレコードに記憶させ、第２のテレメトリ情報は関数の第２の実行と関連付けられる。

例１８は、例１３〜１７のいずれか１つの少なくとも１つのコンピュータ可読記憶媒体を含み、ハードウェアリソースのタイプはプロセッサタイプである。

例１９は、例１３〜１７のいずれか１つの少なくとも１つのコンピュータ可読記憶媒体を含み、ハードウェアリソースのタイプはメモリタイプである。

例２０は、性能が高められたコンピューティングシステムを動作させる方法を含み、方法は、関数に関連付けられる優先順位付けデータ構造を識別するステップであって、優先順位付けデータ構造は優先順でハードウェアリソースタイプをリストする、ステップと、第１のタイプのハードウェアリソースが利用可能である場合に、第１のタイプのハードウェアリソースを関数に割り当てるステップであって、第１のタイプのハードウェアリソースは優先順位付けデータ構造において最も高い優先順位を有する、ステップと、第１のタイプのハードウェアリソースが利用可能でない場合に、優先順に、第２のタイプのハードウェアリソースを関数に割り当てるステップであって、ハードウェアリソースのタイプは、プロセッサタイプまたはメモリタイプのうちの１つである、ステップとを含む。

例２１は、例２０の方法を含み、さらに、関数の実行中にテレメトリ情報を収集するステップと、テレメトリ情報に基づいて優先順位付けデータ構造を生成するステップであって、第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであり、テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含み、優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである、ステップとを含む。

例２２は、例２１の方法を含み、さらに、関数の複数の実行中にテレメトリ情報を収集するステップと、テレメトリ情報に基づいて優先順位付けデータ構造を修正するステップとを含む。

例２３は、例２２の方法を含み、さらに、第１のテレメトリ情報を第１のテレメトリレコードに記憶することであって、第１のテレメトリ情報は関数の第１の実行に関連付けられる、記憶することと、第２のテレメトリ情報を第２のテレメトリレコードに記憶することであって、第２のテレメトリ情報は関数の第２の実行に関連付けられる、記憶することとを含む。

例２４は、例２２の方法を含み、さらに、第１のテレメトリ情報をテレメトリレコードに記憶するステップであって、第１のテレメトリ情報は関数の第１の実行に関連付けられる、ステップと、第２のテレメトリ情報をテレメトリレコードに記憶するステップであって、第２のテレメトリ情報は関数の第２の実行に関連付けられる、ステップとを含む。

例２５は、例２０〜２４のいずれか１つの方法を実行するための手段を含む。

従って、本明細書に記載される技術は、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、並びに他の特殊なアクセラレータおよび異種の階層型メモリサブシステムを含む異種のコンピュータシステムのためにコンピュータアプリケーションを自動的に分配するシステムの設計を可能にする。この技術は、例えば、種々のコンピューティングおよびメモリタイプにマッピングすることができるＯＮＥＡＰＩなどの統合プログラミングモデルに基づいている。また、この技術は、遅延、帯域幅、スループット、電力消費、およびコストの点で、特定のサービスレベルアグリーメント（ＳＬＡ）を有するドメイン固有のアプリケーションまたはアプリケーションに対して高度に最適化されたコンピュータシステムを設計するために使用され得る。この技術は、計算プリミティブの計算特性（例えば、性能、電力）に関する動的テレメトリおよびプロファイルフィードバックに加えて、既知のアルゴリズム、プリミティブ、およびコードレットの性能特性に関する静的な事前知識を使用し得る。従って、この技術は、最良の計算プロセッサ上で動作するようにコンピュータアプリケーションを自動的に分配し得る。また、この技術は、システムがアプリケーションを実行する際に学習するインテリジェントな方法で使用され得、その結果、自動的なアプリケーション分配のための学習システムが得られる。加えて、本明細書に記載される技術は、プログラミングの容易さに直接依存し得る、市販までの時間（ＴＴＭ）を短縮し得る。また、この技術は、計算及びコストの要件を満たす計算プラットフォームの開発も可能にする。

実施形態は、全てのタイプの半導体集積回路（ＩＣ）チップでの使用に適用可能である。これらのＩＣチップの例は、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ（ＰＬＡ）、メモリチップ、ネットワークチップ、システムオンチップ（ＳｏＣ）、ＳＳＤ／ＮＡＮＤコントローラＡＳＩＣなどを含むが、これらに限定されない。加えて、いくつかの図面では、信号線は線で表される。あるものは、より多くの構成要素信号パスを示すために異なり得る、多数の構成要素信号パスを示すために、数字ラベルを有し得る、および／または、一次情報フロー方向を示すために、１つまたは複数の端部に矢印を有し得る。しかし、これは限定する方法で解釈されるべきではない。むしろ、回路のより容易な理解を容易にするために、１つまたは複数の例示的な実施形態に関連して、このような追加の詳細が使用され得る。任意の表現された信号線は、追加情報を有するか否かにかかわらず、実際には、複数の方向に移動し得るとともに任意の適切なタイプの信号方式、例えば、差動ペア、光ファイバ線、および／またはシングルエンド線で実現されるデジタルまたはアナログ線で実現され得る１つまたは複数の信号を含む。

例示的なサイズ／モデル／値／範囲が与えられることがあるが、実施形態は同じものに限定されない。製造技術（例えば、フォトリソグラフィー）は、時間の経過とともに成熟するので、より小さなサイズのデバイスが製造されることが期待される。加えて、ＩＣチップおよび他のコンポーネントへの良く知られた電力／接地接続は、図示および説明を簡単にするために、また実施形態の特定の態様を不明瞭にしないために、図中に示されても示されなくてもよい。さらに、構成は、実施形態を不明瞭にすることを避けるために、また、このようなブロック図の構成の実施に関する詳細が、実施形態が実施されることになるコンピューティングシステムに大きく依存するという事実を考慮して、ブロック図の形式で示され得る、すなわち、このような詳細は、当業者の範囲内であるべきである。例示的な実施形態を説明するために特定の詳細（例えば、回路）が記載されている場合、実施形態は、これらの特定の詳細を伴わずに、またはそれらの変更を伴って実施されることができることは当業者に明らかであるべきである。本願の記載は、よって、限定するものでなく例証するものとしてみなすこととする。

用語「結合される」は、本明細書において、問題の構成要素間の直接的または間接的な任意のタイプの関係を指すために使用することができ、電気的、機械的、流体的、光学的、電磁的、電気機械的または他の接続に適用することができる。さらに、用語「第１」、「第２」などは、議論を容易にするためにのみ使用することができ、特に指示がない限り、特別な時間的または年代順の意味を持たない。

この出願及び特許請求の範囲において使用されるとき、用語「のうちの１つまたは複数」によって接合されるアイテムのリストは、列挙された用語の任意の組み合わせを意味し得る。例えば、「Ａ、Ｂ又はＣのうちの１つまたは複数」という用語は、Ａ；Ｂ；Ｃ；Ａ及びＢ；Ａ及びＣ；Ｂ及びＣ；又はＡ、Ｂ及びＣ；を意味し得る。

当業者は、前述の説明から、実施形態の広範な技術が種々の形態で実施可能であることを理解するであろう。従って、実施形態をその特定の例に関連して説明したが、図面、明細書、および以下の特許請求の範囲の検討により、他の修正が当業者に明らかになるので、実施形態の真の範囲はそのように限定されるべきではない。

Claims

コンピューティングシステムであって：
ネットワークコントローラと；
前記ネットワークコントローラに結合されたプロセッサと；
前記プロセッサに結合されるメモリであって、前記メモリは一組の実行可能なプログラム命令を含み、前記命令は、前記プロセッサによって実行されるとき、前記コンピューティングシステムに：
関数に関連付けられる優先順位付けデータ構造を識別させ、前記優先順位付けデータ構造は、ハードウェアリソースタイプを優先順にリストし、
第１のタイプのハードウェアリソースが利用可能である場合に、前記第１のタイプのハードウェアリソースを前記関数に割り当てさせ、前記第１のタイプのハードウェアリソースは、前記優先順位付けデータ構造において最も高い優先順位を有し、
前記第１のタイプのハードウェアリソースが利用可能でない場合、前記優先順に、第２のタイプのハードウェアリソースを前記関数に割り当てさせ、前記ハードウェアリソースのタイプは、プロセッサタイプ又はメモリタイプのうちの１つである、
メモリと；
を有する、
コンピューティングシステム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
前記関数の実行中に、テレメトリ情報を収集させ；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を生成させ、前記第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであるものであり、前記テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含むものであり、前記優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つであるものである；
請求項１に記載のコンピューティングシステム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
前記関数の複数の実行中にテレメトリ情報を収集させ；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を修正させる；
請求項１に記載のコンピューティングシステム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
第１のテレメトリ情報を第１のテレメトリレコードに記憶させ、前記第１のテレメトリ情報は、前記関数の第１の実行と関連付けられ；
第２のテレメトリ情報を第２のテレメトリレコードに記憶させ、前記第２のテレメトリ情報は、前記関数の第２の実行と関連付けられる；
請求項３に記載のコンピューティングシステム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
第１のテレメトリ情報をテレメトリレコードに記憶させ、前記第１のテレメトリ情報は前記関数の第１の実行に関連付けられ；
第２のテレメトリ情報をテレメトリレコードに記憶させ、前記第２のテレメトリ情報は前記関数の第２の実行に関連付けられる；
請求項３に記載のコンピューティングシステム。
１つまたは複数の基板と、
前記１つまたは複数の基板に結合されるロジックであって、前記ロジックは、少なくとも部分的に、設定可能なロジックまたは固定機能のハードウェアロジックのうちの１つまたは複数で実装され、前記１つまたは複数の基板に結合される前記ロジックは：
関数に関連付けられる優先順位付けデータ構造を識別し、前記優先順位付けデータ構造は、優先順でハードウェアリソースのタイプをリストし；
第１のタイプのハードウェアリソースが利用可能である場合に、前記第１のタイプのハードウェアリソースを前記関数に割り当て、前記第１のタイプのハードウェアリソースは、前記優先順位付けデータ構造において最も高い優先順位を有し、
前記第１のタイプのハードウェアリソースが利用可能でない場合に、前記優先順に、第２のタイプのハードウェアリソースを前記関数に割り当てる；
半導体装置。
前記１つまたは複数の基板に結合される前記ロジックは：
前記関数の実行中にテレメトリ情報を収集するものであり；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を生成するものであり、前記第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであり、前記テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含むものであり、前記優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである；
請求項６に記載の半導体装置。
前記１つまたは複数の基板に結合される前記ロジックは：
前記関数の複数の実行中にテレメトリ情報を収集するものであり；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を修正するものである；
請求項６に記載の半導体装置。
前記１つまたは複数の基板に結合されるロジックは：
第１のテレメトリ情報を第１のテレメトリレコードに記憶するものであり、前記第１のテレメトリ情報は、前記関数の第１の実行と関連付けられ；
第２のテレメトリ情報を第２のテレメトリレコードに記憶するものであり、前記第２のテレメトリ情報は、前記関数の第２の実行と関連付けられる；
請求項８に記載の半導体装置。
前記１つまたは複数の基板に結合された前記ロジックは：
第１のテレメトリ情報をテレメトリレコードに記憶するものであり、前記第１のテレメトリ情報は、前記関数の第１の実行と関連付けられ；
第２のテレメトリ情報は前記テレメトリレコードに記憶するものであり、前記第２のテレメトリ情報は、前記関数の第２の実行と関連付けられる；
請求項８に記載の半導体装置。
前記ハードウェアリソースのタイプはプロセッサタイプである、
請求項６乃至１０のいずれか１項に記載の半導体装置。
前記ハードウェアリソースのタイプはメモリタイプである、
請求項６乃至１０のいずれか１項に記載の半導体装置。
一組の実行可能なプログラム命令を含むコンピュータプログラムであって、前記命令は、コンピューティングシステムによって実行されるとき、前記コンピューティングシステムに：
関数に関連付けられる優先順位付けデータ構造を識別させ、前記優先順位付けデータ構造はハードウェアリソースのタイプを優先順にリストし；
第１のタイプのハードウェアリソースが利用可能である場合に前記第１のタイプのハードウェアリソースを前記関数に割り当てさせ、前記第１のタイプのハードウェアリソースは前記優先順位付けデータ構造において最も高い優先順位を有し；
前記第１のタイプのハードウェアリソースが利用可能でない場合に、前記優先順に、第２のタイプのハードウェアリソースを前記関数に割り当てさせる；
コンピュータプログラム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
前記関数の実行中にテレメトリ情報を収集させ；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を生成させ、前記第２のタイプのハードウェアリソースは次に利用可能なタイプのハードウェアリソースであるものであり、前記テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含むものであり、前記優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである；
請求項１３に記載のコンピュータプログラム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
前記関数の複数の実行中にテレメトリ情報を収集させ；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を修正させる；
請求項１３に記載のコンピュータプログラム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
第１のテレメトリ情報を第１のテレメトリレコードに記憶させ、前記第１のテレメトリ情報は、前記関数の第１の実行に関連付けられ；
第２のテレメトリ情報を第２のテレメトリレコードに記憶させ、前記第２のテレメトリ情報は、前記関数の第２の実行に関連付けられる；
請求項１５に記載のコンピュータプログラム。
前記命令は、実行されるとき、前記コンピューティングシステムに：
第１のテレメトリ情報をテレメトリレコードに記憶させ、前記第１のテレメトリ情報は前記関数の第１の実行と関連付けられ；
第２のテレメトリ情報を前記テレメトリレコードに記憶させ、前記第２のテレメトリ情報は前記関数の第２の実行と関連付けられる；
請求項１５に記載のコンピュータプログラム。
前記ハードウェアリソースのタイプはプロセッサタイプである、
請求項１３乃至１７のいずれか１項に記載のコンピュータプログラム。
前記ハードウェアリソースのタイプはメモリタイプである、
請求項１３乃至１７のいずれか１項に記載のコンピュータプログラム。
関数に関連付けられる優先順位付けデータ構造を識別するステップであって、前記優先順位付けデータ構造は優先順でハードウェアリソースタイプをリストする、ステップと；
第１のタイプのハードウェアリソースが利用可能である場合に、前記第１のタイプのハードウェアリソースを前記関数に割り当てるステップであって、前記第１のタイプのハードウェアリソースは前記優先順位付けデータ構造において最も高い優先順位を有する、ステップと；
前記第１のタイプのハードウェアリソースが利用可能でない場合に、前記優先順に、第２のタイプのハードウェアリソースを前記関数に割り当てるステップであって、前記ハードウェアリソースのタイプは、プロセッサタイプまたはメモリタイプのうちの１つである、ステップと；を含む、
方法。
前記関数の実行中にテレメトリ情報を収集するステップと；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を生成するステップであって、前記第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであり、前記テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含み、前記優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである、ステップと；をさらに含む、
請求項２０に記載の方法。
前記関数の複数の実行中にテレメトリ情報を収集するステップと；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を修正するステップと；をさらに含む、
請求項２１に記載の方法。
第１のテレメトリ情報を第１のテレメトリレコードに記憶するステップであって、前記第１のテレメトリ情報は前記関数の第１の実行に関連付けられる、ステップと；
第２のテレメトリ情報を第２のテレメトリレコードに記憶するステップであって、前記第２のテレメトリ情報は前記関数の第２の実行に関連付けられる、ステップと；をさらに含む、
請求項２２に記載の方法。
第１のテレメトリ情報をテレメトリレコードに記憶するステップであって、前記第１のテレメトリ情報は前記関数の第１の実行に関連付けられる、ステップと；
第２のテレメトリ情報を前記テレメトリレコードに記憶するステップであって、前記第２のテレメトリ情報は前記関数の第２の実行に関連付けられる、ステップと；をさらに含む、
請求項２２に記載の方法。
関数に関連付けられる優先順位付けデータ構造を識別する手段であって、前記優先順位付けデータ構造は、ハードウェアリソースタイプを優先順にリストする、手段と；
第１のタイプのハードウェアリソースが利用可能である場合に、前記第１のタイプのハードウェアリソースを前記関数に割り当てる手段であって、前記第１のタイプのハードウェアリソースは、前記優先順位付けデータ構造において最も高い優先順位を有する、手段と；
前記第１のタイプのハードウェアリソースが利用可能でない場合、前記優先順に、第２のタイプのハードウェアリソースを前記関数に割り当てる手段であって、前記ハードウェアリソースのタイプは、プロセッサタイプ又はメモリタイプのうちの１つである、手段と；
を有する、
半導体装置。
前記関数の複数の実行中にテレメトリ情報を収集する手段と；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を生成する手段であって、前記第２のタイプのハードウェアリソースは、次に利用可能なタイプのハードウェアリソースであり、前記テレメトリ情報は、パラメータサイズおよび値、メモリ要件、実行時間、スレッドの数、または電力消費のうちの１つまたは複数を含み、前記優先順位付けデータ構造は、プロセッサディスパッチテーブルまたはメモリ割り当てテーブルのうちの１つである、手段と；をさらに有する、
請求項２５に記載の半導体装置。
前記関数の複数の実行中にテレメトリ情報を収集する手段と；
前記テレメトリ情報に基づいて前記優先順位付けデータ構造を修正する手段と；をさらに有する、
請求項２６に記載の半導体装置。
第１のテレメトリ情報を第１のテレメトリレコードに記憶する手段であって、前記第１のテレメトリ情報は前記関数の第１の実行に関連付けられる、手段と；
第２のテレメトリ情報を第２のテレメトリレコードに記憶する手段であって、前記第２のテレメトリ情報は前記関数の第２の実行に関連付けられる、手段と；をさらに有する、
請求項２７に記載の半導体装置。
第１のテレメトリ情報をテレメトリレコードに記憶する手段であって、前記第１のテレメトリ情報は前記関数の第１の実行に関連付けられる、手段と；
第２のテレメトリ情報を前記テレメトリレコードに記憶する手段であって、前記第２のテレメトリ情報は前記関数の第２の実行に関連付けられる、手段と；をさらに有する、
請求項２７に記載の半導体装置。