JP2022522320A

JP2022522320A - 光ネットワークを用いた再構成可能な計算ポッド

Info

Publication number: JP2022522320A
Application number: JP2021522036A
Authority: JP
Inventors: パティル，ニシャント; ジョウ，シアン; スウィング，アンドリュー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-03-06
Filing date: 2019-12-18
Publication date: 2022-04-18
Anticipated expiration: 2039-12-18
Also published as: BR112021007538A2; US20210286656A1; KR102625118B1; KR20210063382A; KR20230141921A; WO2020180387A1; CN112889032A; US20230161638A1; CN117873727A; CN112889032B; EP3853732A1; JP2023078228A; US20200285524A1; US11537443B2; US11042416B2; KR102583771B1; JP7242847B2

Abstract

光ネットワークを用いて計算ノードのビルディングブロックのクラスタを生成するための方法、システムおよび装置。一態様において、方法は、計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含む。要求データは、計算ノードのｎ次元目標構成を指定する。各々がｍ次元構成の計算ノードを含む１組のビルディングブロックを含むスーパポッドから、組み合わせられると、要求データによって指定された目標構成に一致するビルディングブロックの部分セットを選択する。１組のビルディングブロックは、１つ以上の光回路スイッチを含む光ネットワークに接続される。ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成する。ワークロードクラスタの生成は、ワークロードクラスタの各次元のための１つ以上の光回路スイッチのそれぞれのルーティングデータを構成することを含む。

Description

背景
いくつかの計算ワークロード、例えば機械学習トレーニングは、ワークロードを効率的に処理するために多くの処理ノードを必要とする。処理ノードは、相互接続ネットワークを介して互いに通信することができる。例えば、機械学習トレーニングの場合、処理ノードは、互いに通信することによって、最適な深層学習モデルに収束することができる。相互接続ネットワークは、処理ユニットが収束を達成する速度および効率にとって重要である。

機械学習および他のワークロードのサイズおよび複雑性が変化するため、複数の処理ノードを含むスーパコンピュータの固定した構成は、スーパコンピュータの利用可能性、拡張性および性能を制限してしまう場合がある。例えば、複数の処理ノードからなる特定の構成を接続する固定の相互接続ネットワークを有するスーパコンピュータのいくつかの処理ノードが故障した場合、スーパコンピュータは、故障した処理ノードを置換することができないため、利用可能性および性能が低下する。また、いくつかの特定の構成の性能は、故障したノードに関係なく他の構成の性能よりも高くなる場合がある。

概要
本明細書は、光ネットワークを用いて、ワークロードクラスタを生成する計算ノードのスーパポートを再構成できる技術を説明する。

概して、本明細書に記載された主題の１つの発明的態様は、計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含む方法に具現化することができる。要求データは、計算ノードのｎ（ｎは、２以上である）次元目標構成を指定する。各々がｍ（ｍは、２以上である）次元構成の計算ノードを含む１組のビルディングブロックを含むスーパポッドから、組み合わせられると、要求データによって指定されたｎ次元目標構成に一致するビルディングブロックの部分セットを選択する。上記の１組のビルディングブロックは、ｎ次元の各次元のための１つ以上の光回路スイッチを含む光ネットワークに接続される。ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成する。ワークロードクラスタは、特定の計算ワークロードの計算または実行に専用の計算ノードのクラスタである。生成することは、ワークロードクラスタの各次元について、当該次元のための１つ以上の光回路スイッチのそれぞれのルーティングデータを構成することを含む。ワークロードクラスタの各次元にそれぞれ対応するルーティングデータは、ワークロードクラスタの各次元に沿って、計算ワークロードのデータをどのように計算ノードの間にルーティングすることを指定する。ワークロードクラスタ内の計算ノードは、計算ワークロードを実行する。

これらおよび他の実装は、必要に応じて、以下の特徴のうち、１つ以上を含むことができる。いくつかの態様において、要求データは、異なる種類の計算ノードを指定する。ビルディングブロックの部分セットを選択することは、要求データによって指定される各種類の計算ノードについて、指定された種類の１つ以上の計算ノードを含むビルディングブロックを選択することを含むことができる。

いくつかの態様において、スーパポッドの各次元のそれぞれのルーティングデータは、１つ以上の光回路スイッチのうちの１つについて光回路スイッチルーティングテーブルを含む。いくつかの態様において、光ネットワークは、ｎ次元の各次元について、当該次元に沿った計算ノードの間にデータをルーティングする当該光ネットワークの１つ以上の光回路スイッチを含む。各ビルディングブロックは、当該ビルディングブロックの各次元に沿った複数のセグメントの計算ノードを含むことができる。光ネットワークは、各次元の各セグメントについて、ワークロードクラスタ内の各ビルディングブロックに対応する計算ノードセグメントの間にデータをルーティングする当該光ネットワークの光回路スイッチを含むことができる。

いくつかの態様において、各ビルディングブロックは、３次元トーラス状計算ノードまたはメッシュ状計算ノードのうちの１つを含む。いくつかの態様において、スーパポッドは、複数のワークロードクラスタを含み、各ワークロードクラスタは、ビルディングブロックの異なる部分セットを含み、他のワークロードクラスタとは異なるワークロードを実行することができる。

いくつかの態様は、ワークロードクラスタの特定のビルディングブロックが故障したことを示すデータを受信することと、利用可能なビルディングブロックを用いて特定のビルディングブロックを置換することとを含む。利用可能なビルディングブロックを用いて特定のビルディングブロックを置換することは、ワークロードクラスタの特定のビルディングブロックと１つ以上の他のビルディングブロックとの間のデータルーティングを停止するように、光ネットワークの１つ以上の光回路スイッチのデータルーティングを更新することと、ワークロードクラスタの利用可能なビルディングブロックと１つ以上の他のビルディングブロックとの間にデータをルーティングするように、光ネットワークの１つ以上の光回路スイッチのデータルーティングを更新することとを含むことができる。

いくつかの態様において、組み合わせられると、要求データによって指定されたｎ次元目標構成に一致するビルディングブロックの部分セットを選択することは、要求データによって指定されたｎ次元構成が、スーパポッド内の利用可能且つ健全な第２の量のビルディングブロックを超える第１の量のビルディングブロックを必要とすることを判断することと、要求データによって指定されたｎ次元構成が、スーパポッド内の利用可能且つ健全な第２の量のビルディングブロックを超える第１の量のビルディングブロックを必要とするという判断に応じて、計算ワークロードより低い優先度を有し且つスーパポッドの他のビルディングブロックによって実行されている１つ以上の第２の計算ワークロードを特定こと、および１つ以上の第２の計算ワークロードの１つ以上のビルディングブロックを、計算ワークロードのワークロードクラスタに割り当て直すこととを含む。ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成することは、１つ以上の第２の計算ワークロードの１つ以上のビルディングブロックをビルディングブロックの部分セットに含めることを有することができる。

いくつかの態様において、ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成することは、ワークロードクラスタの各次元について、１つ以上の第２の計算ワークロードの１つ以上のビルディングブロックの各ビルディングブロックが、１つ以上の第２の計算ワークロードのビルディングブロックではなく、ワークロードクラスタの他のビルディングブロックと通信するように、当該次元のための１つ以上の光回路スイッチの各々のルーティングデータを再構成することを含む。

本明細書に記載された主題は、以下の１つ以上の利点を実現するように、特定の実施形態に実装されてもよい。光ネットワークを用いて、ワークロードを実行するための計算ノードのクラスタを動的に構成することによって、他の計算ノードで故障したまたはオフラインした計算ノードを容易に置換できるため、計算ノードの利用可能性がより高くなる。計算ノードの柔軟構成によって、計算ノードの性能がより高くなり、各ワークロードを実行するための計算ノードの適切な数をより効率で割り当てることができ、各ワークロードを実行するための計算ノードの構成を最適化（または改善）することができる。複数の種類の計算ノードを含むスーパポッドを使用して、例えば、データセンタまたは他の場所において互いに物理的に近接する（例えば、同一のラックにおいて互いに接続されるおよび／または隣接する）計算ノードに限定されず、計算ノードの適切な数および構成だけでなく、各ワークロードを実行するための計算ノードの適切な種類を含むワークロードクラスタを生成することができる。代わりに、光ネットワークは、様々な形状のワークロードクラスタを可能にする。これらのワークロードクラスタにおいて、計算ノードは、互いに任意の物理的位置に配置されても、互いに隣接するように動作する。

また、光ネットワークを用いてポッドを構成することによって、故障の隔離およびワークロードのより良いセキュリティを提供する。例えば、いくつかの従来のスーパコンピュータは、スーパコンピュータを構成する様々なコンピュータの間にトラフィックをルーティングする。１台のコンピュータが故障すると、通信経路が中断する。光ネットワークを用いてデータを迅速に再ルーティングすることができ、および／または利用可能な計算ノードを用いて故障した計算ノードを置換することができる。また、光回路スイッチング（ＯＣＳ）スイッチによって提供されたワークロード間の物理的分離、例えば、異なる光路の物理的分離は、脆弱なソフトウェアを使用した分離を管理することに比べて、同一のスーパポートに実行されている様々なワークロード間により良いセキュリティを提供する。

また、光ネットワークを用いてビルディングブロックを接続することによって、パケットスイッチングネットワークに比べて、ビルディングブロックの間にデータを送信する遅延を低減することができる。例えば、パケットスイッチングの場合、スイッチがパケットを受信し、バッファリングし、別のポートで再び送信する必要があるため、遅延が長くなる。ＯＣＳスイッチを用いてビルディングブロックを接続することによって、途中でパケットスイッチングまたはバッファリングを行わない真のエンドツーエンド光路を提供することができる。

以下、図面を参照して、前述した主題の様々な特徴および利点を説明する。さらなる特徴および利点は、本明細書および特許請求の範囲に記載された主題から明らかである。

例示的な処理システムが、計算ノードのワークロードクラスタを生成し、ワークロードクラスタを用いて計算ワークロードを実行する環境を示すブロック図である。例示的な論理スーパポッド、およびスーパポッド内の一部のビルディングブロックから生成された例示的なワークロードクラスタを示す図である。例示的なビルディングブロック、およびビルディングブロックを用いて生成された例示的なワークロードクラスタを示す図である。計算ノードから光回路スイッチング（ＯＣＳ）スイッチまでの例示的な光リンクを示す図である。ビルディングブロックを形成するための論理的計算トレイを示す図である。１つの次元を省略した例示的なビルディングブロックのサブブロックを示す図である。例示的なビルディングブロックを示す図である。スーパポッドのＯＣＳファブリックトポロジを示す図である。例示的なスーパポッドの構成要素を示す図である。ワークロードクラスタを生成し、ワークロードクラスタを用いて計算ワークロードを実行するための例示的なプロセスを示す流れ図である。故障したビルディングブロックを置換するように、光ネットワークを再構成するための例示的なプロセスを示す流れ図である。

詳細な説明
様々な図面において、同様の参照番号および名称は、同様の要素を示す。

一般的に、本明細書に記載されたシステムおよび技術は、光ネットワークファブリックを構成することによって、スーパポッドから計算ノードのワークロードクラスタを生成することができる。スーパポッドとは、光ネットワークを介して互いに接続されている計算ノードからなる複数のビルディングブロックのグループである。例えば、スーパポッドは、相互に接続された１組のビルディングブロックを含むことができる。各ビルディングブロックは、ｍ次元構成、例えば２次元構成または３次元構成の複数の計算ノードを含むことができる。

ユーザは、特定のワークロードを実行するために目標構成の計算ノードを指定することができる。例えば、ユーザは、機械学習ワークロードを提供し、機械学習演算を実行するための目標構成の計算ノードを指定することができる。目標構成は、ｎ（ｎは、例えば２以上である）次元の各次元に沿った計算ノードの数を定義することができる。すなわち、目標構成は、ワークロードクラスタのサイズおよび形状を定義することができる。例えば、一部の機械学習モデルおよび計算は、非正方形トポロジでより良好に機能する。

また、帯域幅の断面積は、例えば、データの転送を待機する計算ノードまたはアイドル計算サイクルから離脱する計算ノードにわたる計算を制限する可能性がある。計算ノードの全体にわたってワークをどのように割り当てるかおよびネットワークを介して様々な次元でどのくらいのデータを転送する必要があるかによって、ワークロードクラスタの形状は、ワークロードクラスタ内の計算ノードの性能に影響を及ぼす可能性がある。

全ての計算ノードを用いて全ての計算ノードデータトラフィックを計算するワークロードの場合、立方体状のワークロードクラスタは、計算ノード間のホップ数を最小化することができる。ワークロードは、多くのローカル通信を有し、特定の次元に沿ってデータを隣接する１組の計算ノードに転送し、これらの隣接通信の多くを一体に連鎖する場合、他の次元よりも特定の次元に沿ってより多くの計算ノードを有する構成が有利である。したがって、ワークロードクラスタ内の計算ノードの構成を指定することをユーザに可能にさせることよって、ユーザは、ワークロードを実行するためにより良い性能をもたらす構成を指定することができる。

異なる種類の計算ノードがスーパポッドに含まれる場合、要求は、ワークロードクラスタに含まれる各種類の計算ノードの数を指定することもできる。これによって、ユーザは、特定のワークロードを実行するためにより良好に動作する計算ノードの構成を指定することができる。

ワークロードスケジューラは、例えば、ビルディングブロックの利用可能性、ビルディングブロックの健全性（例えば、動作中または故障中）、および／またはスーパポッド内のワークロードの優先度（例えば、スーパポッドの計算ノードによって実行されるワークロードの優先度）に基づいて、ワークロードクラスタのビルディングブロックを選択することができる。ワークロードスケジューラは、選択されたビルディングブロックを特定するデータおよびビルディングブロックの目標構成を光回路スイッチング（ＯＣＳ）マネージャに提供することができる。ＯＣＳマネージャは、ビルディングブロックを互いに接続するように、光ネットワークの１つ以上のＯＣＳスイッチを構成することによって、ワークロードクラスタを生成することができる。その後、ワークロードスケジューラは、ワークロードクラスタ内の計算ノード上で計算ワークロードを実行することができる。

ワークロードクラスタ内のビルディングブロックのうちの１つが故障した場合、単にＯＣＳスイッチを再構成することによって、別のビルディングブロックを用いて故障したビルディングブロックを迅速に置換することができる。例えば、ワークロードスケジューラは、故障したビルディングブロックを置換するように、スーパポッドから、利用可能なビルディングブロックを選択することができる。ワークロードスケジューラは、選択されたビルディングブロックを用いて故障したビルディングブロックを置換するように、ＯＣＳマネージャに命令することができる。その後、ＯＣＳマネージャは、選択されたビルディングブロックをワークロードクラスタ内の他のビルディングブロックに接続し、故障したビルディングブロックをワークロードクラスタ内のビルディングブロックに接続しないように、ＯＣＳスイッチを再構成することができる。

図１は、例示的な処理システム１３０が、計算ノードのワークロードクラスタを生成し、ワークロードクラスタを用いて計算ワークロードを実行する環境１００を示すブロック図である。処理システム１３０は、データ通信ネットワーク１２０、例えばローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、モバイルネットワーク、またはそれらの組み合わせを介して、ユーザ装置１１０から、計算ワークロード１１２を受信することができる。例示として、ワークロード１１２は、ソフトウェアアプリケーション、機械学習モデル、例えば、機械学習モデルのトレーニングおよび／または使用、ビデオの符号化および復号、ならびにデジタル信号処理ワークロードを含む。

ユーザは、ワークロード１１２を実行するために要求される計算ノードのクラスタ１１４を指定することができる。例えば、ユーザは、要求される計算ノードのクラスタの目標形状および目標サイズを指定することができる。すなわち、ユーザは、複数の次元に沿った計算ノードの数量および計算ノードの形状を指定することができる。例えば、計算ノードが３次元ｘ、ｙおよびｚに沿って配置されている場合、ユーザは、各次元の計算ノードの数を指定することができる。また、ユーザは、クラスタに含まれる１つ以上の種類の計算ノードを指定することができる。以下で説明するように、処理システム１３０は、異なる種類の計算ノードを含むことができる。

以下で説明するように、処理システム１３０は、ビルディングブロックを用いて、目標形状および目標サイズのクラスタに合致するワークロードクラスタを生成することができる。各ビルディングブロックは、ｍ次元、例えば３次元に配置された複数の計算ノードを含むことができる。したがって、ユーザは、複数の次元の各次元のビルディングブロックの数を指定することにより、目標形状および目標サイズを指定することができる。例えば、処理システム１３０は、ユーザ装置１１０にユーザインターフェイスを提供することができる。このユーザインターフェイスによって、ユーザは、各次元に沿った最大数のビルディングブロックを選択することができる。

ユーザ装置１１０は、ワークロード１１２と、要求されるクラスタ１１４を指定するデータとを処理システム１３０に提供することができる。例えば、ユーザ装置１１０は、ネットワーク１２０を介して、ワークロード１１２と、要求されるクラスタ１１４を指定するデータとを含む要求データを処理システム１３０に提供することができる。

処理システム１３０は、セルスケジューラ１４０および１つ以上のセル１５０を含む。セル１５０は、１つ以上のスーパポッドからなるグループである。例えば、図示されたセル１５０は、４つのスーパポッド１５２～１５８を含む。各スーパポッド１５２～１５８は、本明細書においてビルディングブロックプールとも称される１組のビルディングブロック１６０を含む。この例において、各スーパポッド１５２～１５８は、６４個のビルディングブロック１６０を含む。しかしながら、スーパポッド１５２～１５８は、他の数のビルディングブロック１６０、例えば、２０、５０、１００、または別の適切な数のビルディングブロック１６０を含むことができる。また、スーパポッド１５２～１５８は、異なる数のビルディングブロック１６０を含むことができる。例えば、スーパポッド１５２は、６４個のビルディングブロックを含むことができ、スーパポッド１５２は、１００個のビルディングブロックを含む。

以下でより詳細に説明するように、各ビルディングブロック１６０は、２次元以上に配置された複数の計算ノードを含むことができる。例えば、ビルディングブロック１６０は、３次元に沿って配置された６４個の計算ノード、具体的には各次元に沿って配置された４つの計算ノードを含むことができる。本明細書において、このような計算ノードの構成は、ｘ次元に沿って配置された４つの計算ノード、ｙ次元に沿って配置された４つの計算ノード、およびｚ次元沿って配置された４つの計算ノードを含む４×４×４ビルディングブロックとして呼ばれる。他の数の次元、例えば２次元および各次元に沿って他の数の計算ノード、例えば３×１、２×２×２、６×２、２×３×４も可能である。

また、ビルディングブロックは、１つのみの計算ノードを含んでもよい。しかしながら、後述するように、ワークロードクラスタを生成するために、ビルディングブロック間の光リンクは、ビルディングブロックを互いに接続するように構成されている。したがって、より小さいビルディングブロック、例えば１つのみの計算ノードを含むビルディングブロックは、より高い柔軟性でワークロードクラスタを生成することができるが、より多くのＯＣＳスイッチ構成およびより多くの光ネットワーク要素（例えば、ケーブルおよびスイッチ）を必要とする。ビルディングブロック内の計算ノードの数は、所望のワークロードクラスタの柔軟性と、ワークロードクラスタを生成するために互いに接続する必要のあるビルディングブロックと、必要なＯＣＳスイッチの数との間のトレードオフに基づいて、選択されてもよい。

ビルディングブロック１６０の各計算ノードは、特定用途向け集積回路（ＡＳＩＣ）、例えば機械学習ワークロード用のテンソル処理ユニット（ＴＰＵ）、グラフィック処理ユニット（ＧＰＵ）、または他の種類の処理ユニットを含むことができる。例えば、各計算ノードは、処理ユニットを含む単一のプロセッサチップであってもよい。

いくつかの実装形態において、スーパポッド内の全てのビルディングブロック１６０は、同様の計算ノードを有する。例えば、スーパポッド１５２は、機械学習ワークロードを実行するために、６４個のビルディングブロックを含み、各ビルディングブロックは、４×４×４構成の６４個のＴＰＵを有することができる。また、スーパポッドは、異なる種類の計算ノードを含むことができる。例えば、スーパポッド１５４は、ＴＰＵを有する６０個のビルディングブロックと、機械学習ワークロード以外のタスクを実行する専用処理ユニットを有する４個のビルディングブロックとを含むことができる。このようにして、ワークロードを実行するためのワークロードクラスタは、異なる種類の計算ノードを含むことができる。スーパポッドは、冗長性のためにおよび／またはスーパポッド内で複数のワークロードの実行を可能にするために、各種類の計算ノードからなる複数のビルディングブロックを含むことができる。

いくつかの実装形態において、スーパポッド内の全てのビルディングブロック１６０は、同様の構成、例えば同様のサイズおよび形状を有する。例えば、スーパポッド１５２内の各ビルディングブロック１６０は、４×４×４構成を有することができる。また、スーパポッドは、異なる構成のビルディングブロックを含むことができる。例えば、スーパポッド１５４は、３２個の４×４×４構成のビルディングブロックと、３２個の１６×８×１６構成のビルディングブロックとを含むことができる。異なるビルディングブロック構成は、同様のまたは異なる計算ノードを含むことができる。例えば、ＴＰＵを含むビルディングブロックは、ＧＰＵを含むビルディングブロックとは異なる構成を有してもよい。

スーパポッドは、異なる階層のビルディングブロックを含むことができる。例えば、スーパポッド１５２は、４×４×４構成を有する基本ビルディングブロックを含むことができる。また、スーパポッド１５２は、より多くの計算ノードからなる中級ビルディングブロックを含むことができる。例えば、中級ビルディングブロックは、例えば８つの基本ビルディングブロックから形成された８×８×８構成を有することができる。このようにして、基本ビルディングブロックを接続することによってより大きなワークロードクラスタを生成することよりも、中級ビルディングブロックを用いて、少ないリンクでより大きなワークロードクラスタを生成することができる。また、スーパポッドに基本ビルディングブロックを含むことによって、中級ビルディングブロック内の計算ノードの数を必要としないより小さなワークロードクラスタを柔軟的に形成することができる。

セル１５０内のスーパポッド１５２～１５８は、同様のまたは異なる種類の計算ノードからなるビルディングブロックを含むことができる。例えば、セル１５０は、ＴＰＵビルディングブロックからなる１つ以上のスーパポッドと、ＧＰＵビルディングブロックからなる１つ以上のスーパポッドとを含むことができる。セル１５０内の異なるスーパポッド１５２～１５８のビルディングブロックのサイズおよび形状は、同様であってもよく、異なってもよい。

また、各セル１５０は、共有データストレージ１６２および共有補助計算要素１６４を含む。セル１５０内の各スーパポッド１５２～１５８は、共有データストレージ１６２を使用して、例えばスーパポッド１５２～１５８に実行されているワークロードによって生成されたデータを記憶することができる。共有データストレージ１６２は、ハードドライブ、ソリッドステートドライブ、フラッシュメモリ、および／または他の適切なデータ記憶装置を含むことができる。共有補助計算要素は、セル１５０内で共有されるＣＰＵ（例えば、汎用ＣＰＵ装置）、ＧＰＵ、および／または他のアクセラレータ（例えば、ビデオ復号アクセラレータまたは画像復号アクセラレータ）を含むことができる。また、補助計算要素１６４は、ストレージ機器、メモリ機器、および／またはネットワークを介して計算ノードによって共有され得る他の計算要素を含むことができる。

セルスケジューラ１４０は、ユーザ装置１１０から受信した各ワークロードを実行するために、セル１５０および／またはセル１５０のスーパポッド１５２～１５８を選択することができる。セルスケジューラ１４０は、ワークロードを実行するために指定された目標構成、スーパポッド１５２～１５８内のビルディングブロック１６０の利用可能性、およびスーパポッド１５２～１５８内のビルディングブロックの健全性に基づいて、スーパポッドを選択することができる。例えば、セルスケジューラ１４０は、ワークロードを実行するために、目標構成のワークロードクラスタを生成するように十分な数の利用可能且つ健全なビルディングブロックを少なくとも含むスーパポッドを選択することができる。要求データが計算ノードの種類を指定する場合、セルスケジューラ１４０は、指定された種類の計算ノードを含む十分な数の利用可能且つ健全なビルディングブロックを少なくとも含むスーパポッドを選択することができる。

以下で説明するように、各スーパポッド１５２～１５８は、ワークロードスケジューラおよびＯＣＳマネージャを含んでもよい。セルスケジューラ１４０がセル１５０のスーパポッドを選択する場合、セルスケジューラ１４０は、そのスーパポッド１５０のワークロードスケジューラに、ワークロードおよび要求されたクラスタを指定するデータを提供することができる。以下でより詳細に説明するように、ワークロードスケジューラは、ビルディングブロックの利用可能性および健全性、必要に応じてスーパポッド内のワークロードの優先度に基づいて、スーパポッドのビルディングブロックから、ワークロードクラスタを生成するように接続すべき１組のビルディングブロックを選択することができる。例えば、以下で説明するように、ワークロードスケジューラがスーパポッド内の利用可能且つ健全なビルディングブロックの数よりも多くのビルディングブロックを含むワークロードクラスタを要求する要求を受信する場合、ワークロードスケジューラは、より低い優先度ワークロードを実行するためのビルディングブロックを、要求されたワークロードクラスタに割り当て直すことができる。ワークロードスケジューラは、選択されたビルディングブロックを特定するデータを、ＯＣＳマネージャに提供することができる。ＯＣＳマネージャは、ビルディングブロックを互いに接続するように１つ以上のＯＣＳスイッチを構成することによって、ワークロードクラスタを生成することができる。その後、ワークロードスケジューラは、ワークロードクラスタ内の計算ノード上でワークロードを実行することができる。

いくつかの実装形態において、セルスケジューラ１４０は、例えば、ワークロードを実行するためにスーパポッド１５２～１５８を選択するときに、様々なセル１５０とスーパポッド１５２～１５８との間のロードをバランスする。例えば、ワークロードを処理する能力のあるビルディングブロックを含む２つ以上のスーパポッドの間に１つのスーパポッドを選択する場合、セルスケジューラ１４０は、最も高い能力を有するスーパポッド、例えば、最も利用可能且つ健全なビルディングブロック、または全体的な能力が最も高いセルのスーパポッドを選択することができる。利用可能且つ健全なビルディングブロックは、別のワークロードを実行していないまたは起動中のワークロードクラスタの一部ではない且つ故障していないビルディングブロックである。セルスケジューラは、ビルディングブロックのインデックスを記憶することができる。各ビルディングブロックのインデックスは、ビルディングブロックが健全（例えば、故障していない）であるかおよび／または利用可能（例えば、別のワークロードを実行していないまたは起動中のワークロードクラスタの一部）であるかを示すデータを含むことができる。

いくつかの実装形態において、セルスケジューラ１４０は、ワークロードを実行するための目標構成を決定することができる。例えば、セルスケジューラ１４０は、ワークロードの推定される計算需要および利用可能な１つ以上の種類の計算ノードのスループットに基づいて、ビルディングブロックの目標構成を決定することができる。この例において、セルスケジューラ１４０は、決定された目標構成をスーパポッドのワークロードスケジューラに提供することができる。

図２は、例示的な論理スーパポッド２１０と、スーパポッド２１０内の一部のビルディングブロックから生成された例示的なワークロードクラスタ２２０、２３０、および２４０とを示す図である。この例において、スーパポッド２１０は、６４個のビルディングブロックを含み、各ビルディングブロックは、４×４×４構成を有する。本明細書の多くの例において、４×４×４構成のビルディングブロックを説明したが、当該技術は、他の構成のビルディングブロックに適用されてもよい。

後述するように、スーパポッド２１０内の斜線付きビルディングブロックは、ワークロードに割り当てられるビルディングブロックである。白いビルディングブロックは、利用可能且つ健全なビルディングブロックである。黒いビルディングブロックは、例えば故障によってワークロードクラスタの生成に使用できない不健全なビルディングブロックである。

ワークロードクラスタ２２０は、スーパポッド２１０のビルディングブロックのうち、４つの４×４×４ビルディングブロックを含む８×８×４ポッドである。すなわち、ワークロードクラスタ２２０は、ｘ次元に沿った８つの計算ノードと、ｙ次元に沿った８つの計算ノードと、ｚ次元に沿った４つの計算ノードとを有する。各ビルディングブロックが各次元に沿って４つの計算ノードを有するため、ワークロードクラスタ２２０は、ｘ次元に沿った２つのビルディングブロックと、ｙ次元に沿った２つのビルディングブロックと、ｚ次元に沿った１つのビルディングブロックとを含む。

スーパポッド２１０内での、それらの位置を示すように、ワークロードクラスタ２２０の４つのビルディングブロックは、斜線で示されている。図示のように、ワークロードクラスタ２２０のビルディングブロックは、互いに隣接していない。以下でより詳細に説明するように、光ネットワークを使用することによって、スーパポッド２１０内のビルディングブロックの相対位置に関係なく、スーパポッド２１０内のビルディングブロックの任意の組み合わせから、ワークロードクラスタを生成することができる。

ワークロードクラスタ２３０は、スーパポッド２１０のビルディングブロックのうち、８つのビルディングブロックを含む８×８×８ポッドである。具体的には、ワークロードクラスタ２３０は、各次元に沿って２つのビルディングブロックを含む。これによって、ワークロードクラスタ２３０は、各次元に沿って８つの計算ノードを含む。スーパポッド２１０内での、それらの位置を示すように、ワークロードクラスタ２３０内のビルディングブロックは、縦線で示されている。

ワークロードクラスタ２４０は、スーパポッド２１０のビルディングブロックのうち、３２個のビルディングブロックを含む１６×８×１６ポッドである。具体的には、ワークロードクラスタ２４０は、ｘ次元に沿った４つのビルディングブロックと、ｙ次元に沿った２つのビルディングブロックと、ｚ次元に沿った４つのビルディングブロックとを含む。これによって、このワークロードクラスタは、ｘ次元に沿った１６個の計算ノードと、ｙ次元に沿った８つの計算ノードと、ｚ次元に沿った１６個の計算ノードとを含む。スーパポッド２１０内での、それらの位置を示すように、ワークロードクラスタ２４０内のビルディングブロックは、網目で示されている。

ワークロードクラスタ２２０、２３０および２４０は、単にワークロードを実行するために生成され得るスーパポッド２１０のクラスタのいくつかの例である。ワークロードクラスタは、多くの他の構成を有してもよい。例示のワークロードクラスタ２２０、２３０および２４０は、矩形を有するが、他の形状を有してもよい。

ワークロードクラスタ２２０、２３０および２４０を含むワークロードクラスタの形状は、物理的な形状ではなく、論理的な形状である。光ネットワークは、論理構成においてワークロードクラスタが物理的に接続されるように、ビルディングブロックが各次元に沿って互いに通信するように構成される。しかしながら、物理的なビルディングブロックおよび対応する計算ノードは、様々な方法でデータセンタ内で物理的に配置されてもよい。ワークロード２２０、２３０および２４０のビルディングブロックは、スーパポッド２１０内の全てのビルディングブロックが光ネットワークに接続されることを除いて、スーパポッド２１０内のビルディングブロック間の物理的関係に関係なく、任意の利用可能且つ健全なビルディングブロックから選択することができる。例えば、上記で説明され、図２に図示されたように、ワークロードクラスタ２２０、２３０および２４０は、物理的に隣接していないビルディングブロックを含む。

さらに、ワークロードクラスタの論理構成は、スーパポッド内のビルディングブロックの物理的構成によって制限されない。例えば、８行および８列のビルディングブロックを配置すると共に、ｚ次元に沿って１つのみのビルディングブロックを配置してもよい。しかしながら、ｚ次元に沿って複数のビルディングブロックを含む論理構成を作成するように光ネットワークを構成することによって、ワークロードクラスタを構成することができる。

図３は、例示的なビルディングブロック３１０、およびビルディングブロック３１０を用いて生成された例示的なワークロードクラスタ３２０、３３０および３４０を示す図である。ビルディングブロック３１０は、各次元に沿った４つの計算ノードを含む４×４×４ビルディングブロックである。この例において、各次元のビルディングブロック３１０の各次元は、１６個のセグメントを含み、各セグメントは、４つの計算ノードを含む。例えば、ビルディングブロック３１０の上部には、１６個の計算ノードがある。１６個の計算ノードのうち、ｙ次元に沿ったセグメントは、１つの計算ノードと、ビルディングブロック３１０の底部の対応する最後の計算ノードを含む３つの他の計算ノードとを含む。例えば、ｙ次元に沿った１つのセグメントは、計算ノード３０１～３０４を含む。

ビルディングブロック３１０内の計算ノードは、導電性材料作られた内部リンク３１８、例えば銅ケーブルを介して互いに接続することができる。各次元の各セグメント内の計算ノードは、内部リンク３１８を介して接続することができる。例えば、１つの内部リンク３１８は、計算ノード３０１を計算ノード３０２に接続する。また、１つの内部リンク３１８は、計算ノード３０２を計算ノード３０３に接続する。別の内部リンク３１８は、計算ノード３０３を計算ノード３０４に接続する。同様に、他のセグメント内の計算ノードを接続することによって、ビルディングブロック３１０の計算ノード間の内部データ通信を提供することができる。

また、ビルディングブロック３１０は、ビルディングブロック３１０を光ネットワークに接続するための外部リンク３１１～３１６を含む。光ネットワークは、ビルディングブロック３１０を他のビルディングブロックに接続する。この例において、ビルディングブロック３１０は、ｘ次元に１６個の外部入力リンク３１１を含む。すなわち、ビルディングブロック３１０は、ｘ次元に沿った１６個のセグメントの各セグメントについて外部入力リンク３１１を含む。同様に、ビルディングブロック３１０は、ｘ次元に沿った各セグメントについて外部出力リンク３１２と、ｙ次元に沿った各セグメントについて外部入力リンク３１３と、ｙ次元に沿った各セグメントについて外部出力リンク３１４と、ｚ次元に沿った各セグメントについて外部入力リンク３１５と、ｚ次元に沿った各セグメントについて外部出力リンク３１６とを含む。いくつかのビルディングブロックは、４次元以上の構成、例えばトーラスを有することができるため、ビルディングブロック３１０は、ビルディングブロック３１０の各次元について同様の外部リンクを含むことができる。

各外部リンク３１１～３１６は、対応する計算ノードのセグメント上の計算ノードを光ネットワークに接続するための光ファイバリンクであってもよい。例えば、各外部リンク３１１～３１６は、対応する計算ノードを光ネットワークのＯＣＳスイッチに接続することができる。以下で説明するように、光ネットワークは、ビルディングブロック３１０のセグメントの各次元について１つ以上のＯＣＳスイッチを含むことができる。すなわち、ｘ次元の外部リンク３１１、３１２は、外部リンク３１３および３１４とは異なるＯＣＳスイッチに接続される。以下に詳細に説明するように、ＯＣＳスイッチは、ビルディングブロックを他のビルディングブロックに接続することによって、ワークロードクラスタを生成するように構成されてもよい。

ビルディングブロック３１０は、４×４×４メッシュ構成を有する。４×４×４（または他のサイズ）のビルディングブロックは、他の構成を有してもよい。例えば、ビルディングブロック３１０は、ワークロードクラスタ３２０と同様に、ラップアラウンドトーラスリンクを含む３次元トーラス構成を有してもよい。ワークロードクラスタ３２０は、ラップアラウンドトーラスリンク３２１～３２３を形成するように光ネットワークを構成することによって、単一のメッシュビルディングブロック３１０から生成されてもよい。

トーラスリンク３２１～３２３は、各セグメントの一端と当該セグメントの他端との間のラップアラウンドデータ通信を提供する。例えば、トーラスリンク３２１は、ｘ次元に沿った各セグメントの各端部に配置された計算ノードを、当該セグメントの他方の端部に配置された計算ノードに接続する。トーラスリンク３２１は、計算ノード３２５を計算ノード３２６に接続するリンクを含むことができる。同様に、トーラスリンク３２２は、計算ノード３２５を計算ノード３２７に接続するリンクを含むことができる。

トーラスリンク３２１～３２３は、導電性ケーブル、例えば銅ケーブルであってもよく、または光リンクであってもよい。例えば、トーラスリンク３２１～３２３の光リンクは、対応する計算ノードを１つ以上のＯＣＳスイッチに接続することができる。ＯＣＳスイッチは、各セグメントの一端から各セグメントの他端にデータをルーティングするように構成することができる。ビルディングブロック３１０は、各次元についてＯＣＳスイッチを含むことができる。例えば、トーラスリンク３２１は、第１のＯＣＳスイッチに接続することができ、第１のＯＣＳスイッチは、ｘ次元に沿った各セグメントの一端とｘ次元に沿った各セグメントの他端との間にデータをルーティングすることができる。同様に、トーラスリンク３２２は、第２のＯＣＳスイッチに接続することができ、第２のＯＣＳスイッチは、ｙ次元に沿った各セグメントの一端とｙ次元に沿った各セグメントの他端との間にデータをルーティングすることができる。トーラスリンク３２２は、第３のＯＣＳスイッチに接続することができ、第３のＯＣＳスイッチは、ｚ次元に沿った各セグメントの一端とｚ次元に沿った各セグメントの他端との間にデータをルーティングすることができる。

ワークロードクラスタ３３０は、４×８×４ポッドを生成する２つのビルディングブロック３３８および３３９を含む。ビルディングブロック３３８および３３９の各々は、ビルディングブロック３１０またはワークロードクラスタ３２０と同様であってもよい。２つのビルディングブロックは、外部リンク３３７を介してｙ次元に沿って接続される。例えば、１つ以上のＯＣＳスイッチは、ビルディングブロック３３８のｙ次元セグメントとビルディングブロック３３９のｙ次元セグメントとの間にデータをルーティングするように構成されてもよい。

また、１つ以上のＯＣＳスイッチは、全ての３次元に沿って、各セグメントの一端と各セグメントの他端との間にラップアラウンドリンク３３１～３３３を形成するように構成されてもよい。この例において、ラップアラウンドリンク３３３は、ビルディングブロック３３８のｙ次元セグメントの一端をビルディングブロック３３９のｙ次元セグメントの一端に接続することによって、２つのビルディングブロック３３８および３３９を組み合わせることによって生成されたｙ次元セグメントに完全なラップアラウンド通信を提供する。

ワークロードクラスタ３４０は、８×８×８クラスタを生成する８つのビルディングブロック（１つは図示せず）を含む。各ビルディングブロック３４８は、ビルディングブロック３１０と同様であってもよい。ｘ次元に沿って接続されたビルディングブロックは、外部リンク３４５Ａ～３５４Ｃを介して接続される。同様に、ｙ次元に沿って接続されたビルディングブロックは、外部リンク３４４Ａ～３４４Ｃを介して接続され、ｚ次元に沿って接続されたビルディングブロックは、外部リンク３４６Ａ～３４６Ｃを介して接続される。例えば、１つ以上のＯＣＳスイッチは、ｘ次元セグメントの間にデータをルーティングするように構成されてもよく、１つ以上のＯＣＳスイッチは、ｙ次元セグメントの間にデータをルーティングするように構成されてもよく、１つ以上のＯＣＳスイッチは、ｚ次元セグメントの間にデータをルーティングするように構成されてもよい。各次元に沿って、図３に示されていないビルディングブロックを隣接するビルディングブロックに接続する追加の外部リンクがある。また、１つ以上のＯＣＳスイッチは、３次元の全てに沿って、各セグメントの一端と各セグメントの他端との間にラップアラウンドリンク３４１～３４３を形成するように構成されてもよい。

図４は、計算ノードからＯＣＳスイッチまでの例示的な光リンク４００を示す図である。スーパポッドの計算ノードは、データセンタラックのトレイに設置されてもよい。各計算ノードは、６つの高速電気リンクを含むことができる。そのうち２つの電気リンクは、計算ノードの回路基板に接続されてもよく、４つの電気リンクは、ポート４１０、例えばＯＳＦＰ（Octal Small Form Factor Pluggable）ポートに接続されている外部電気コネクタ、例えばＯＳＦＰコネクタにルーティングされてもよい。この例において、ポート４１０は、電気リンク４１２を介して光モジュール４２０に接続される。光モジュール４２０は、必要に応じて、大きなデータセンタに配置された計算ノード間のデータ通信を提供するために、電気リンクを、外部リンクの長さで延在する、例えば１キロメートル（ｋｍ）を超えて延長する光リンクに変換することができる。光モジュールの種類は、ビルディングブロックとＯＣＳスイッチとの間の必要な長さおよびリンクの所望の速度および帯域幅に基づいて、変更されてもよい。

光モジュール４２０は、光ファイバケーブル４２２および４２４介してサーキュレータ４３０に接続される。光ファイバケーブル４２２は、光モジュール４２０からサーキュレータ４３０にデータを送信するための１つ以上の光ファイバケーブルを含むことができる。光ファイバケーブル４２４は、サーキュレータ４３０からデータを受信するための１つ以上の光ファイバケーブルを含むことができる。例えば、光ファイバケーブル４２２および４２４は、双方向光ファイバまたは単方向ＴＸ／ＲＸ光ファイバの対を含むことができる。サーキュレータ４３０は、光ファイバの数を減らすことができる（例えば、単方向光ファイバを双方向光ファイバに変換することによって、２対の光ファイバケーブル４３２を一対に減らすことができる）。これは、典型的に、一体に変換された一対の光路（２つのファイバ）を収容する、ＯＣＳスイッチ４４０の単一のＯＣＳポート４４５に一致する。いくつかの実装形態において、サーキュレータ４３０は、光モジュール４２０に一体化されてもよく、または光リンク４００から省略されてもよい。

図５～７は、複数の計算トレイを用いて４×４×４ビルディングブロックを形成する方法を示す。同様の技術を用いて、他のサイズおよび形状のビルディングブロックを形成することができる。

図５は、４×４×４ビルディングブロックを形成するための論理的計算トレイ５００を示す。４×４×４ビルディングブロックの基本ハードウェアブロックは、２×２×１トポロジを有する単一の計算トレイ５００である。この例では、計算トレイ５００は、ｘ次元に沿った２つの計算ノード、ｙ次元に沿った２つの計算ノード、およびｚ次元に沿った１つの計算ノードを含む。例えば、計算ノード５０１および５０２は、ｘ次元セグメントを形成し、計算ノード５０３および５０４は、ｘ次元セグメントを形成する。同様に、計算ノード５０１および５０３は、ｙ次元セグメントを形成し、計算ノード５０２および５０４は、ｙ次元セグメントを形成する。

各計算ノード５０１～５０４は、内部リンク５１０、例えばプリント回路基板上の銅ケーブルまたはトレースを介して、２つの他の計算ノードに接続される。また、各計算ノードは、４つの外部ポートに接続される。計算ノード５０１は、外部ポート５２１に接続される。同様に、計算ノード５０２は、外部ポート５２２に接続され、計算ノード５０３は、外部ポート５２３に接続され、計算ノード５０４は、外部ポート５２４に接続される。上述したように、外部ポート５２１～５２４は、計算ノードをＯＣＳスイッチに接続するＯＳＦＰポートまたは他のポートであってもよい。これらのポートは、銅ケーブルまたは光ファイバケーブルに取り付けられた光ファイバモジュールを収容することができる。

計算ノード５０１～５０４の各々の外部ポート５２１～５２４は、１つのｘ次元ポートと、１つのｙ次元ポートと、２つのｚ次元ポートとを含む。その理由は、各計算ノード５０１～５０４は、既に内部リンク５１０を介してｘ次元およびｙ次元に沿った別の計算ノードに接続されているからである。２つのｚ次元外部ポートを含むことによって、各計算ノード５０１～５０４は、ｚ次元に沿った２つの計算ノードに接続することができる。

図６は、１次元（ｚ次元）を省略した例示的なビルディングブロックのサブブロック６００を示す図である。具体的には、サブブロック６００は、２×２構成の計算トレイ、例えば、図１の２×２構成の計算トレイ５００によって形成された４×４×１ブロックである。サブブロック６００は、４つの２×２構成の計算トレイ６２０Ａ～６２０Ｄを含む。各計算トレイ６２０Ａ～６２０Ｄは、４つの２×２×１構成の計算ノード６２２を含む図５の計算トレイ５００と同様であってもよい。

計算トレイ６２０Ａ～６２０Ｄの計算ノード６２２は、内部リンク６３１～６３４、例えば銅ケーブルを介して接続されてもよい。例えば、計算トレイ６２０Ａの２つの計算ノード６２２は、内部リンク６３２を介して、ｙ次元に沿って計算トレイ６２０Ｂの２つの計算ノード６２２に接続される。

また、各計算トレイ６２０Ａ～６２０Ｄの２つの計算ノード６２２は、ｘ次元に沿って外部リンク６４０に接続される。同様に、各計算トレイ６２０Ａ～６２０Ｄの２つの計算ノードは、ｙ次元に沿って外部リンク６４１に接続される。具体的には、各ｘ次元セグメントの端部に配置された計算ノードおよび各ｙ次元セグメントの端部に配置された計算ノードは、外部リンク６４０に接続される。これらの外部リンク６４０は、例えば図４の光リンク４００を介して、計算ノード、すなわち、計算ノードを含むビルディングブロックをＯＣＳスイッチに接続する光ファイバケーブルであってもよい。

４×４×４ビルディングブロックは、ｚ次元に沿って、サブブロック６００のうちの４つを互いに接続することによって形成されてもよい。例えば、各計算トレイ６２０Ａ～６２０Ａの計算ノード６２２は、内部リンクを介して、ｚ次元に配置された他のサブブロック６００上の対応する計算トレイの１つまたは２つの計算ノードに接続することができる。各ｚ次元セグメントの端部に配置された計算ノードは、ｘ次元セグメントおよびｙ次元セグメントの端部に配置された計算ノードと同様に、ＯＣＳスイッチに接続されている外部リンク６４０を含むことができる。

図７は、例示的なビルディングブロック７００を示す図である。ビルディングブロック７００は、ｚ次元に沿って接続された４つのサブブロック７１０Ａ～７１０Ｄを含む。各サブブロック７１０Ａ～７１０Ｄは、図６のサブブロック６００と同様であってもよい。図７は、ｚ次元に沿ったサブブロック７１０Ａ～７１０Ｄの間の接続の一部を示している。

具体的には、ビルディングブロック７００は、ｚ次元に沿って、サブブロック７１０Ａ～７１０Ｄの計算トレイ７１５の対応する計算ノード７１６の間の内部リンク７３０～７３３を含む。例えば、内部リンク７３０は、ｚ次元に沿った計算ノード０のセグメントを接続する。同様に、内部リンク７３１は、ｚ次元に沿った計算ノード１のセグメントを接続し、内部リンク７３２は、ｚ次元に沿った計算ノード８のセグメントを接続し、内部リンク７３３は、ｚ次元に沿った計算ノード９のセグメントを接続する。図示されていないが、同様の内部リンクは、計算ノード２～７およびＡ～Ｆのセグメントを接続する。

また、ビルディングブロック７００は、ｚ次元に沿った各セグメントの端部に配置された外部リンク７２０を含む。図示は、計算ノード０、１、８および９のセグメントの外部リンク７２０のみを示しているが、計算ノード２～７およびＡ～Ｆの各他のセグメントも外部リンク７２０を含む。外部リンクは、ｘ次元およびｙ次元セグメントの端部に配置された外部リンクと同様に、セグメントをＯＣＳスイッチに接続することができる。

図８は、スーパポッドのＯＣＳファブリックトポロジ８００を示す図である。この例において、ＯＣＳファブリックトポロジは、６４個のビルディングブロック８０５、すなわち、ビルディングブロック０～６３を含むスーパポッドの４×４×４ビルディングブロックの各次元に沿って、各セグメントの別個のＯＣＳスイッチを含む。４×４×４ビルディングブロック８０５は、ｘ次元に沿った１６個のセグメントと、ｙ次元に沿った１６個のセグメントと、ｚ次元に沿った１６個のセグメントとを含む。この例において、ＯＣＳファブリックトポロジは、１６個のｘ次元ＯＣＳスイッチと、１６個のｙ次元ＯＣＳスイッチと、１６個のｚ次元ＯＣＳスイッチとを含み、合計で４８個のＯＣＳスイッチは、様々なワークロードクラスタを形成するように構成することができる。

ｘ次元の場合、ＯＣＳファブリックトポロジ８００は、ＯＣＳスイッチ８１０を含む１６個のＯＣＳスイッチを含む。各ビルディングブロック８０５は、ｘ次元に沿った各セグメントのＯＣＳスイッチ８１０に接続された外部入力リンク８１１および外部出力リンク８１２を含む。これらの外部リンク８１１および８１２は、図４の光学リンク４００と同様であってもよく、類似であってもよい。

ｙ次元の場合、ＯＣＳファブリックトポロジ８００は、ＯＣＳスイッチ８２０を含む１６個のＯＣＳスイッチを含む。各ビルディングブロック８０５は、ｙ次元に沿った各セグメントのＯＣＳスイッチ８１０に接続された外部入力リンク８２１および外部出力リンク８２２を含む。これらの外部リンク８２１および８２２は、図４の光学リンク４００と同様であってもよく、類似であってもよい。

ｚ次元の場合、ＯＣＳファブリックトポロジ８００は、ＯＣＳスイッチ８３０を含む１６個のＯＣＳスイッチを含む。各ビルディングブロック８０５は、ｙ次元に沿った各セグメントのＯＣＳスイッチ８１０に接続された外部入力リンク８２１および外部出力リンク８２２を含む。これらの外部リンク８２１および８２２は、図４の光学リンク４００と同様であってもよく、類似であってもよい。

他の例において、複数のセグメントは、例えば、スーパポッド内のＯＣＳの基数および／またはビルディングブロックの数に応じて、同一のＯＣＳスイッチを共有することができる。例えば、１つのＯＣＳスイッチがスーパポッド内の全てのビルディングブロックの全てのｘ次元セグメントについて十分な数のポートを有する場合、全てのｘ次元セグメントを当該ＯＣＳスイッチに接続することができる。別の例において、１つのＯＣＳスイッチが十分な数のポートを有する場合、各次元の２つのセグメントは、当該ＯＣＳスイッチを共有することができる。しかしながら、スーパポッドの全てのビルディングブロックのセグメントを同一のＯＣＳスイッチに接続することによって、単一のルーティングテーブルを用いて、これらのセグメントの計算ノードの間のデータ通信を行うことができる。また、各セグメントまたは各次元の別個のＯＣＳスイッチを使用することによって、故障の対応および診断を単純化することができる。例えば、特定のセグメントまたは特定の次元のデータ通信に問題が存在する場合、特定のセグメントまたは特定の次元に複数のＯＣＳを使用した場合よりも、潜在的に故障したＯＣＳを特定することがより容易であろう。

図９は、例示的なスーパポッド９００の構成要素を示す図である。例えば、スーパポッド９００は、図１の処理システム１３０のスーパポッドのうち、１つのスーパポッドであってもよい。例示的なスーパポッド９００は、６４個の４×４×４ビルディングブロック９６０を含み、これらのビルディングブロック９６０を使用して、計算ワークロード、例えば機械学習ワークロードを実行するためのワークロードクラスタを形成することができる。上述したように、各４×４×４ビルディングブロック９６０は、３次元の各次元に沿って配置された４つの計算ノードからなる３２個の計算ノードを含む。例えば、ビルディングブロック９６０は、上述したビルディングブロック３１０、ワークロードクラスタ３２０、またはビルディングブロック７００と同様であってもよく、類似であってもよい。

例示的なスーパポッド９００は、光ネットワーク９７０を含み、光ネットワーク９７０は、各ビルディングブロック９６０の９６個の外部リンク９３１、９３２および９３３を介して、ビルディングブロックに接続された４８個のＯＣＳスイッチ９３０、９４０および９５０を含む。各外部リンクは、図４の光学リンク４００と同様または類似の光ファイバリンクであってもよい。

光ネットワーク９７０は、図８のＯＣＳファブリックトポロジ８００と同様に、各ビルディングブロックの各次元の各セグメントについてＯＣＳスイッチを含む。ｘ次元の場合、光ネットワーク９７０は、ｘ次元に沿った各セグメントに１つずつ配置された１６個のＯＣＳスイッチ９５０を含む。また、光ネットワーク９７０は、各ビルディングブロック９６０について、ｘ次元に沿ったビルディングブロック９６０の各セグメントに対応する入力外部リンクおよび出力外部リンクを含む。これらの外部リンクは、セグメント上の計算ノードを当該セグメントのＯＣＳスイッチ９５０に接続する。各ビルディングブロック９６０がｘ次元に沿った１６個のセグメントを含むため、光ネットワーク９７０は、各ビルディングブロック９６０のｘ次元セグメントを当該セグメントに対応するＯＣＳスイッチ９５０に接続するための３２個の外部リンク９３３（すなわち、１６の入力リンクおよび１６の出力リンク）を含む。

ｙ次元の場合、光ネットワーク９７０は、ｙ次元に沿った各セグメントに１つずつ配置された１６個のＯＣＳスイッチ９３０を含む。また、光ネットワーク９７０は、各ビルディングブロック９６０について、ｙ次元に沿ったビルディングブロック９６０の各セグメントに対する入力外部リンクおよび出力外部リンクを含む。これらの外部リンクは、セグメント上の計算ノードを当該セグメントのＯＣＳスイッチ９３０に接続する。各ビルディングブロック９６０がｙ次元に沿った１６個のセグメントを含むため、光ネットワーク９７０は、各ビルディングブロック９６０のｙ次元セグメントを当該セグメントに対応するＯＣＳスイッチ９３０に接続するための３２個の外部リンク９３１（すなわち、１６の入力リンクおよび１６の出力リンク）を含む。

ｚ次元の場合、光ネットワーク９７０は、ｙ次元に沿った各セグメントに１つずつ配置された１６個のＯＣＳスイッチ９３２を含む。また、光ネットワーク９７０は、各ビルディングブロック９６０に対して、ｚ次元に沿ったビルディングブロック９６０の各セグメントに対応する入力外部リンクおよび出力外部リンクを含む。これらの外部リンクは、セグメント上の計算ノードを当該セグメントのＯＣＳスイッチ９４０に接続する。各ビルディングブロック９６０がｚ次元に沿った１６個のセグメントを含むため、光ネットワーク９７０は、各ビルディングブロック９６０のｚ次元セグメントを当該セグメントに対応するＯＣＳスイッチ９４０に接続するための３２個の外部リンク９３２（すなわち、１６の入力リンクおよび１６の出力リンク）を含む。

ワークロードスケジューラ９１０は、ワークロードと、ワークロードを実行するために要求されるビルディングブロック９６０のクラスタを指定するデータとを含む要求データを受信することができる。要求データは、ワークロードの優先度を含んでもよい。優先度は、高、中または低のレベルで表すことができ、また例えば１～１００の範囲または別の適切な範囲で数値的に表すことができる。例えば、ワークロードスケジューラ９１０は、ユーザ装置またはセルスケジューラ、例えば図１のユーザ装置１１０またはセルスケジューラ１４０から、要求データを受信することができる。上述したように、要求データは、計算ノードのｎ次元目標構成、例えば計算ノードを含むビルディングブロックの目標構成を指定することができる。

ワークロードスケジューラ９１０は、要求データによって指定された目標構成に一致するワークロードクラスタを生成するために、１組のビルディングブロック９６０を選択することができる。例えば、ワークロードスケジューラ９１０は、スーパポッド９００において利用可能且つ健全な１組のビルディングブロックを特定することができる。上述したように、利用可能且つ健全なビルディングブロックは、別のワークロードを実行していないまたは起動中のワークロードクラスタの一部ではない且つ故障していないビルディングブロックである。

例えば、ワークロードスケジューラ９１０は、スーパポッド内の各ビルディングブロック９６０の状態を示す状態データを、例えばデータベースの形で記憶および更新することができる。ビルディングブロック９６０の利用可能状態は、ビルディングブロック９６０がワークロードクラスタに割り当てられるか否かを示すことができる。ビルディングブロック９６０の健全状態は、当該ビルディングブロックが動作中であるかまたは故障中であるかを示すことができる。ワークロードスケジューラ９１０は、ワークロードに割り当てられていないことを示す利用可能状態および動作中であることを示す健全状態を有するビルディングブロック９６０を特定することができる。ビルディングブロック９６０がワークロードに割り当てられた場合、例えば、ワークロードを実行するためのワークロードクラスタを生成するために使用されている場合、または健全状態が動作中から故障中にもしくはその逆に変化した場合、ワークロードスケジューラは、それに応じてビルディングブロック９６０の状態データを更新することができる。

ワークロードスケジューラ９１０は、特定された複数のビルディングブロック９６０から、目標構成によって定義された数に一致する数のビルディングブロック９６０を選択することができる。要求データが１つ以上の種類の計算ノードを指定する場合、ワークロードスケジューラ９１０は、特定されたビルディングブロック９６０から、要求された種類の計算ノードを含むビルディングブロックを選択することができる。例えば、要求データが、２つのＴＰＵビルディングブロックおよび２つのＧＰＵビルディングブロックからなる２×２構成のビルディングブロックを指定する場合、ワークロードスケジューラ９１０は、２つの利用可能且つ健全なＴＰＵビルディングブロックと、２つの利用可能且つ健全なＧＰＵビルディングブロックとを選択することができる。

また、ワークロードスケジューラ９１０は、スーパポッド内で実行中の各ワークロードの優先度と、要求データに含まれたワークロードの優先度とに基づいて、ビルディングブロック９６０を選択することができる。スーパポッド９００が要求されたワークロードを実行するためのワークロードクラスタを生成するのに十分の利用可能且つ健全なビルディングブロックを有しない場合、ワークロードスケジューラ９１０は、要求されたワークロードよりも低い優先度を有するワークロードがスーパポッド９００内で実行されているか否かを判断することができる。要求されたワークロードよりも低い優先度を有するワークロードが実行されている場合、ワークロードスケジューラ９１０は、１つ以上のより低い優先度のワークロードを実行するワークロードクラスタのビルディングブロックを、要求されるワークロードを実行するためのワークロードクラスタに割り当て直すことができる。例えば、ワークロードスケジューラ９１０は、より低い優先度のワークロードを終了させる、より低い優先度のワークロードを遅らせる、またはより低い優先度のワークロードのためのワークロードクラスタのサイズを減らすことによって、より高い優先度のワークロードのためのビルディングブロックを解放することができる。

ワークロードスケジューラ９１０は、単に光ネットワークを再構成すること（例えば、以下で説明するようにＯＣＳスイッチを構成すること）によって、ビルディングブロックを１つのワークロードクラスタから別のワークロードクラスタに割り当て直すことができる。これによって、このビルディングブロックは、より低い優先度のワークロードを実行するためのビルディングブロックではなく、より高い優先度のワークロードを実行するためのビルディングブロックに接続される。同様に、より高い優先度のワークロードを実行するためのビルディングブロックが故障した場合、ワークロードスケジューラ９１０は、光ネットワークを再構成することによって、より低い優先度のワークロードを実行するためのワークロードクラスタ内のビルディングブロックを、より高い優先度のワークロードを実行するためのワークロードクラスタに割り当て直すことができる。

ワークロードスケジューラ９１０は、ジョブごとの構成データ９１２を生成して、スーパポッド９００のＯＣＳマネージャ９２０に提供することができる。ジョブごとの構成データ９１２は、ワークロードを実行するために選択されたビルディングブロック９６０およびビルディングブロックの構成を指定することができる。例えば、構成は、２×２構成である場合、ビルディングブロック配置するするための４つのスポットを含む。ジョブごとの構成データは、選択されたビルディングブロック９６０を４つのスポットにそれぞれ配置することを指定することができる。

ジョブごとの構成データ９１２は、各ビルディングブロックの論理識別子を用いて、選択されたビルディングブロック９６０を特定することができる。例えば、各ビルディングブロック９６０は、固有の論理識別子を含むことができる。特定の実施例において、６４個のビルディングブロック９６０に０～６３の数字を付与することができ、これらの数字は、固有の論理識別子であってもよい。

ＯＣＳマネージャ９２０は、ジョブごとの構成データ９１２を用いてＯＣＳスイッチ９３０、９４０および／または９５０を構成することによって、ジョブごとの構成データによって指定された構成に一致するワークロードクラスタを生成する。各ＯＣＳスイッチ９３０、９４０および９５０は、ＯＣＳスイッチの物理ポートの間にデータをルーティングするときに使用されるルーティングテーブルを含む。例えば、第１のビルディングブロックのｘ次元セグメントの出力外部リンクが、対応する第２のビルディングブロックのｘ次元セグメントの入力外部リンクに接続されていると仮定する。この場合、ｘ次元セグメントのＯＣＳスイッチ９５０のルーティングテーブルは、これらのセグメントが接続されているＯＣＳスイッチの物理ポートの間のデータがこれらの物理ポートの間にルーティングされることを示す。

ＯＣＳマネージャ９２０は、各ＯＣＳスイッチ９２０、９３０および９４０の各ポートを各ビルディングブロックの各論理ポートにマッピング（対応付け）するポートデータを記憶することができる。ビルディングブロックの各ｘ次元セグメントのポートデータは、外部入力リンクがＯＣＳスイッチ９５０のどの物理ポートに接続されているか、外部出力リンクがＯＣＳスイッチ９５０のどの物理ポートに接続されているかを指定することができる。スーパポッド９００の各ビルディングブロック９６０の各次元のポートデータは、同様のデータを含むことができる。

ＯＣＳマネージャ９２０は、ポートデータを用いてＯＣＳスイッチ９３０、９４０および／または９５０のルーティングテーブルを構成することによって、ワークロードを実行するためのワークロードクラスタを生成することができる。例えば、第１のビルディングブロックがｘ次元に沿って第２のビルディングブロックの左側に配置される２×１構成で、第１のビルディングブロックを第２のビルディングブロックに接続しようとすると仮定する。ＯＣＳマネージャ９２０は、第１のビルディングブロックのｘ次元セグメントと第２のビルディングブロックのｘ次元セグメントとの間にデータをルーティングするために、ｘ次元のＯＣＳスイッチ９５０のルーティングテーブルを更新する。ビルディングブロックの各ｘ次元セグメントを接続する必要があるため、ＯＣＳマネージャ９２０は、各ＯＣＳスイッチ９５０のルーティングテーブルを更新することができる。

ＯＣＳマネージャ９２０は、各ｘ次元セグメントのＯＣＳスイッチ９５０のルーティングテーブルを更新することができる。具体的には、ＯＣＳマネージャ９２０は、ルーティングテーブルを更新することによって、第１のビルディングブロックのセグメントが接続されているＯＣＳスイッチ９５０の物理ポートを、第２のビルディングブロックのセグメントが接続されているＯＣＳスイッチの物理ポートにマッピングすることができる。各ｘ次元セグメントが入力リンクおよび出力リンクを含むため、ＯＣＳマネージャ９２０は、第１のビルディングブロックの入力リンクが第２のビルディングブロックの出力リンクに接続され、第１のビルディングブロックの出力リンクが第２のビルディングブロックの入力リンクに接続されるように、ルーティングテーブルを更新することができる。

ＯＣＳマネージャ９２０は、各ＯＣＳスイッチから現在のルーティングテーブルを取得することによって、ルーティングテーブルを更新することができる。他の例において、ＯＣＳマネージャ９２０は、適切なルーティングテーブルを更新し、更新されたルーティングテーブルを適切なＯＣＳスイッチに送信することができる。他の例において、ＯＣＳマネージャ９２０は、更新を指定する更新データをＯＣＳスイッチに送信することができ、ＯＣＳスイッチは、更新データに従ってルーティングテーブルを更新することができる。

更新されたルーティングテーブルでＯＣＳスイッチを構成した後、ワークロードクラスタが生成される。次いで、ワークロードスケジューラ９１０は、ワークロードクラスタ内の計算ノードに、ワークロードを実行させることができる。例えば、ワークロードスケジューラ９１０は、ワークロードをワークロードクラスタ内の計算ノードに提供して実行させることができる。

ワークロードの実行が終了した後、ワークロードスケジューラ９１０は、ワークロードクラスタを生成するために使用された各ビルディングブロックの状態を利用可能状態に戻すように、各ビルディングブロックの状態を更新することができる。また、ワークロードスケジューラ９１０は、ワークロードクラスタを生成するために使用されたビルディングブロックの間の接続を解除するように、ＯＣＳマネージャ９２０に命令することができる。したがって、ＯＣＳマネージャ９２０は、ビルディングブロックの間にデータをルーティングするために使用されたＯＣＳスイッチの物理ポート間のマッピングを解除するように、ルーティングテーブルを更新することができる。

このように、ＯＣＳスイッチを用いて光ファブリックトポロジを構成することにより、ワークロードを実行するためのワークロードクラスタを生成することによって、スーパポッドは、複数のワークロードを動的且つ安全にホストすることができる。ワークロードスケジューラ９２０は、新しいワークロードが受信されると、即座にワークロードクラスタを生成し、ワークロードが処理されると、即座にワークロードクラスタを解放することができる。ＯＣＳスイッチによって提供されたセグメント間のルーティングは、従来のスーパコンピュータよりも、同一のスーパポッドに実行されている異なるワークロードの間により良好なセキュリティを提供する。例えば、ＯＣＳスイッチは、ワークロードの間のエアギャップを用いて、ワークロードを物理的に分離する。従来のスーパコンピュータは、ソフトウェアを用いてワークロードを分離する。このため、情報が漏洩しやすい。

図１０は、ワークロードクラスタを生成し、ワークロードクラスタを用いて計算ワークロードを実行するための例示的なプロセス１０００を示す流れ図である。プロセス１０００の動作は、１つ以上のデータ処理装置を含むシステムによって実行されてもよい。例えば、プロセス１０００の動作は、図１の処理システム１３０によって実行されてもよい。

システムは、要求される計算ノードのクラスタを指定する要求データを受信する（１０１０）。要求データは、ユーザ装置から受信されてもよい。要求データは、計算ワークロードと、計算ノードのｎ次元目標構成を指定するデータとを含むことができる。例えば、要求データは、計算ノードを含むビルディングブロックのｎ次元目標構成を指定することができる。

いくつかの実装形態において、要求データは、ビルディングブロックを生成するための計算ノードの種類を指定することができる。スーパポッドは、異なる種類の計算ノードからなるビルディングブロックを含むことができる。例えば、スーパポッドは、各々が４×４×４構成のＴＰＵを含む９０個のビルディングブロックと、２×１構成の専用計算ノードを含む１０個の専用ビルディングブロックとを含むことができる。要求データは、各種類の計算ノードからなるビルディングブロックの数およびこれらのビルディングブロックの構成を指定することができる。

システムは、１組のビルディングブロックを含むスーパポッドから、要求されたクラスタを生成するためのビルディングブロックの部分セット（サブセット）を選択する（１０２０）。上記で説明したように、スーパポッドは、３次元構成の計算ノード、例えば４×４×４構成の計算ノードを含む１組のビルディングブロックを含むことができる。システムは、目標構成によって定義された数量に一致する数量のビルディングブロックを選択することができる。上述したように、システムは、健全であり且つ要求されたクラスタを生成するために利用可能なビルディングブロックを選択することができる。

ビルディングブロックの部分セットは、ビルディングブロックの適切な部分セットであってもよい。適切な部分セットは、１組のビルディングブロックのうちの全てのメンバーを含まない部分セットである。例えば、全てのビルディングブロックよりも少ないビルディングブロックは、目標構成の計算ノードに一致するワークロードクラスタを生成するために必要とされてもよい。

システムは、選択された計算ノードの部分セットを含むワークロードクラスタを生成する（１０３０）。このワークロードクラスタは、要求データによって指定された目標構成に一致する構成のビルディングブロックを含むことができる。例えば、要求データが４×８×４構成の計算ノードを指定する場合、ワークロードクラスタは、図３のワークロードクラスタ３３０のように配置された２つのビルディングブロックを含むことができる。

ワークロードクラスタを生成するために、システムは、ワークロードクラスタの各次元についてルーティングデータを構成することができる。例えば、上述したように、スーパポッドは、ビルディングブロックの各次元について１つ以上のＯＣＳスイッチを含む光ネットワークを含むことができる。ある次元のためにルーティングデータは、１つ以上のＯＣＳスイッチのためにルーティングテーブルを含むことができる。図９を参照して上述したように、ＯＣＳスイッチのルーティングテーブルは、各次元に沿った計算ノードの適切なセグメントの間にデータをルーティングするように構成されてもよい。

システムは、ワークロードクラスタ内の計算ノードに、計算ワークロードを実行させる（１０４０）。例えば、システムは、計算ワークロードをワークロードクラスタ内の計算ノードに提供することができる。計算ワークロードが実行されている間に、構成されたＯＣＳスイッチは、ワークロードクラスタのビルディングブロックの間にデータをルーティングすることができる。構成されたＯＣＳスイッチは、計算ノードが目標構成において物理的に接続されていなくても物理的に接続されていたように、ビルディングブロックの計算ノードの間にデータをルーティングすることができる。

例えば、ある次元の各セグメントの計算ノードは、異なるビルディングブロック内のセグメントの他の計算ノードと単一の物理セグメントに物理的に接続されるように、ＯＣＳスイッチを介して、データを異なるビルディングブロック内のセグメントの他の計算ノードに通信することができる。この構成のワークロードクラスタは、途中でパケットスイッチングまたはバッファリングを行わない真のエンドツーエンド光路を提供することができるため、パケットスイッチングネットワークとは異なる。パケットスイッチングの場合、スイッチがパケットを受信し、バッファリングし、別のポートで再び送信する必要があるため、遅延が長くなる。

計算ワークロードの実行が終了した後、システムは、他のワークロードを実行するために、例えばビルディングブロックの状態を利用可能な状態に更新し、ワークロードクラスタのビルディングブロックの間にデータをルーティングしないようにデータルーティングを更新することによって、ビルディングブロックを解放することができる。

図１１は、故障したビルディングブロックを置換するように、光ネットワークを再構成するための例示的なプロセス１１００を示す流れ図である。プロセス１１００の動作は、１つ以上のデータ処理装置を含むシステムによって実行されてもよい。例えば、プロセス１１００の動作は、図１の処理システム１３０によって実行されてもよい。

システムは、ワークロードクラスタ内の計算ノードに、計算ワークロードを実行させる（１１１０）。例えば、システムは、ワークロードクラスタを生成し、計算ノードに、図１０のプロセス１０００に従って計算ワークロードを実行させることができる。

システムは、ワークロードクラスタのビルディングブロックが故障したことを示すデータを受信する（１１２０）。例えば、ビルディングブロックの１つ以上の計算ノードが故障した場合、別の要素、例えば監視要素は、ビルディングブロックが故障したと判断し、ビルディングブロックが故障したことを示すデータをシステムに送信することができる。

システムは、利用可能なビルディングブロックを特定する（１１３０）。例えば、システムは、ワークロードクラスタの他のビルディングブロックと同様のスーパポッドにおいて、利用可能且つ健全なビルディングブロックを特定することができる。システムは、例えば、システムによって記憶されたビルディングブロックの状態データに基づいて、利用可能且つ健全なビルディングブロックを特定することができる。

システムは、特定された利用可能なビルディングブロックを用いて、故障したビルディングブロックを置換する（１１４０）。システムは、特定された利用可能なビルディングブロックで故障したビルディングブロックを置換するように、ビルディングブロックを接続する光ネットワークの１つ以上のＯＣＳスイッチのデータルーティングを更新することができる。例えば、システムは、ワークロードクラスタの他のビルディングブロックと故障したビルディングブロックとの間の接続を解除するように、１つ以上のＯＣＳスイッチのルーティングテーブルを更新することができる。また、システムは、特定されたビルディングブロックをワークロードクラスタの他のビルディングブロックに接続するように、１つ以上のＯＣＳスイッチのルーティングテーブルを更新するができる。

システムは、特定されたビルディングブロックを、故障したビルディングブロックスポットの論理スポットに論理的に配置することができる。上述したように、ＯＣＳスイッチのルーティングテーブルは、あるビルディングブロックのセグメントに接続されたＯＣＳスイッチの物理ポートを、対応する別のビルディングブロックのセグメントに接続されたＯＣＳスイッチの物理ポートにマッピングすることができる。この場合、システムは、故障したビルディングブロックではなく、特定された利用可能なビルディングブロックの対応するセグメントとのマッピングを更新することによって、置換を行うことができる。

例えば、故障したビルディングブロックの特定のｘ次元セグメントの入力外部リンクがＯＣＳスイッチの第１のポートに接続され、特定された利用可能なビルディングブロックの対応するｘ次元セグメントの入力外部リンクがＯＣＳスイッチの第２のポートに接続されていると仮定する。さらに、ルーティングテーブルが第１のポートを、別のビルディングブロックの対応するｘ次元セグメントに接続されているＯＣＳスイッチの第３のポートにマッピングすると仮定する。置換を行うために、システムは、第１のポートを第３のポートにマッピングするのではなく、第２のポートを第３のポートにマッピングすることによって、ルーティングテーブルのマッピングを更新することができる。システムは、故障したビルディングブロックの各セグメントに対して同様のことを行うことができる。

本明細書に記載された主題および動作の実施形態は、本明細書に開示された構造およびそれらの均等物を含むデジタル電子回路、コンピュータソフトウェア、ファームウェア、ハードウェア、またはそれらの１つ以上の組み合わせで実現されてもよい。本明細書に記載された主題の実施形態は、１つ以上のコンピュータプログラム、すなわち、コンピュータ記憶媒体上にエンコードされ、データ処理装置によって実行されるまたはデータ処理装置の動作を制御するためのコンピュータプログラム命令の１つ以上のモジュールとして実現されてもよい。代替的にまたは追加的に、プログラム命令は、データ処理装置によって実行されるために、適切な受信装置に送信される情報をエンコードするように人工的に生成された伝搬信号、例えば機械によって生成された電気信号、光信号、または電磁信号にエンコードされてもよい。コンピュータ記憶媒体は、コンピュータ可読記憶装置、コンピュータ可読記憶基板、ランダムアクセスメモリアレイもしくは装置またはシリアルアクセスメモリアレイもしくは装置、またはそれらの１つ以上の組み合わせであってもよく、またはそれらに含まれてもよい。さらに、コンピュータ記憶媒体は、伝搬信号ではないが、人工的に生成された伝搬信号にエンコードされるコンピュータプログラム命令のソースまたはインストール先であってもよい。また、コンピュータ記憶媒体は、１つ以上の別個の物理的な要素または媒体（例えば、複数のＣＤ、ディスク、または他の記憶装置）であってもよく、またはそれらに含まれてもよい。

本明細書に記載された動作は、データ処理装置によって１つ以上のコンピュータ可読ストレージ装置に記憶されたデータまたは他のソースから受信されたデータに対して実行された動作として実現されてもよい。

「データ処理装置」という用語は、例えば、プログラム可能なプロセッサ、コンピュータ、システムオンチップ、またはそれらの組み合わせを含む、データを処理するための全ての種類の機器、装置、およびマシンを含む。装置は、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を含むことができる。また、装置は、ハードウェアのほかに、当該コンピュータプログラムの実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらの組み合わせを構成するコードを含むことができる。装置および実行環境は、様々な異なるコンピューティングモデルインフラストラクチャ、例えばウェブサービス、分散コンピューティングインフラストラクチャ、およびグリッドコンピューティングインフラストラクチャを実現することができる。

（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られている）コンピュータプログラムは、コンパイル型またはインタプリタ型言語、宣言または手続き型言語を含む任意のプログラミング言語で記述されてもよく、独立型プログラム、モジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境に適切に使用できる他のユニット含む任意の形で展開されてもよい。コンピュータプログラムは、ファイルシステム内のファイルに対応してもよいが、必ずしも対応する必要はない。プログラムは、他のプログラムまたはデータ（例えば、マークアップ言語文書に格納された１つ以上のスクリプト）を保持するファイルの一部、当該プログラム専用の単一のファイル、または複数の連携ファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル）に格納されてもよい。コンピュータプログラムは、１台のコンピュータ、または一箇所に配置されもしくは複数の箇所に分散され、通信ネットワークによって相互接続された複数のコンピュータ上で展開され、実行されてもよい。

本明細書に記載されたプロセスおよび論理フローは、１つ以上のプログラム可能なプロセッサによって実行されてもよい。１つ以上のプログラム可能なプロセッサは、動作を実行するように、入力データを処理して、出力を生成することによって１つ以上のコンピュータプログラムを実行する。また、プロセスおよび論理フローは、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行されてもよく、装置は、専用論理回路として実装されてもよい。

コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサ、専用マイクロプロセッサ、および任意の種類のデジタルコンピュータの１つ以上のプロセッサを含む。一般的に、プロセッサは、読み取り専用メモリ、ランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令に従って動作を実行するためのプロセッサと、命令およびデータを記憶するための１つ以上のメモリ装置とを含む。一般的に、コンピュータはまた、データを記憶するための１つ以上の大容量記憶装置、例えば磁気ディスク、光磁気ディスクまたは光ディスクを含むか、または１つ以上の大容量記憶装置からデータを受信する、または１つ以上の大容量記憶装置にデータを転送する、またはその両方を行うように１つ以上の大容量記憶装置に動作可能に結合される。しかしながら、コンピュータは、そのような装置を有する必要はない。さらに、コンピュータは、別の装置、例えば携帯電話、携帯情報端末（ＰＤＡ）、モバイルオーディオプレーヤまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、または携帯記憶装置（例えば、ＵＳＢフラッシュドライブ）に組み込むことができる。コンピュータプログラム命令およびデータの記憶に適した装置は、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭおよびフラッシュメモリ装置などの半導体メモリ装置、例えば内部ハードディスクまたは取外し可能なディスクなどの磁気ディスク、光磁気ディスク、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての不揮発性メモリ、媒体、およびメモリ装置を含む。プロセッサおよびメモリは、専用論理回路によって補足されてもよく、または専用論理回路に組み込まれてもよい。

ユーザとの対話を提供するために、本明細書に記載された主題の実施形態は、情報をユーザに表示するための表示装置、例えばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ、およびユーザがコンピュータに入力を提供することができるキーボードおよびポインティング装置、例えばマウスまたはトラックボールを含むコンピュータ上で実装されてもよい。他の種類の装置を使用して、ユーザとの相互作用を提供することもできる。ユーザに提供されるフィードバックは、例えば、任意の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってもよい。ユーザから受信される入力は、音響入力、音声入力、または触覚入力を含んでもよい。さらに、コンピュータは、ユーザによって使用されている装置に文書を送信し、当該装置から文書を受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアント装置上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

本明細書に記載された主題の実施形態は、バックエンドコンポーネントを含むコンピューティングシステム、例えばデータサーバに実装されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム、例えばアプリケーションサーバに実装されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム、例えばユーザが本明細書に記載された主題の実装形態と相互作用することができるグラフィカルユーザインターフェイスまたはウェブブラウザ、または上述したバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントの任意の組み合わせを備えるクライアントコンピュータに実装されてもよい。システムの構成要素は、任意のデジタルデータ通信媒体、例えば通信ネットワークによって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）およびワイドエリアネットワーク（ＷＡＮ）、インターネットワーク（例えば、インターネット）、およびピアツーピアネットワーク（例えば、アドホックピアツーピアネットワーク）を含む。

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般的に互いに遠隔であり、一般的に通信ネットワークを介して相互作用する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって形成される。いくつかの実施形態において、サーバは、（例えば、クライアント装置と対話するユーザにデータを表示させ、ユーザ入力を受信するために）データ（例えば、ＨＴＭＬページ）をクライアント装置に送信する。サーバは、クライアント装置で生成されたデータ（例えば、ユーザインタラクションの結果）をクライアント装置から受信することができる。

本明細書は、多くの具体的な実装詳細を含むが、これらの実装詳細は、発明の範囲または請求範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態に関して本明細書に記載された特定の特徴は、任意の組み合わせで単一の実施形態に実装されてもよい。逆に、単一の実施形態に関して記載された様々な特徴は、別々にまたは任意の適切なサブコンビネーションで複数の実施形態に実装されてもよい。さらに、特徴がある組み合わせで作用し、その組み合わせで作用すると主張したとしても、必要に応じて、主張した組み合わせから１つ以上の特徴を除去することができ、主張した組み合わせをサブコンビネーションに分割することができる。

同様に、特定の順序で動作を図面に示しているが、これは、望ましい結果を達成するために、これらの動作を図示された特定の順序でまたは順次に実行する必要、または図示された全ての動作を実行する必要があるとして理解すべきではない。特定の状況によって、マルチタスクおよび並列処理が有利であり得る。さらに、上述した実施形態における様々なシステム要素の分離は、全ての実施形態においてそのような分離が必要であるとして理解すべきではなく、記載されたプログラム要素およびシステムは、一般的に、単一のソフトウェア製品に一体化されてもよく、または複数のソフトウェア製品にパッケージ化されてもよいと理解すべきである。

したがって、本発明の特定の実施形態を説明してきた。他の実施形態は、特許請求の範囲に含まれる。場合によって、特許請求の範囲に記載された動作は、異なる順序で実行されても、望ましい結果を達成することができる。さらに、添付の図面に示されたプロセスは、望ましい結果を達成するために、必ずしも図示された特定の順序でまたは順次に実行される必要がない。いくつかの実装形態において、マルチタスクおよび並列処理が有利であり得る。

Claims

１つ以上のデータ処理装置によって実行される方法であって、前記方法は、
計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含み、前記要求データは、前記計算ノードのｎ（ｎは、２以上である）次元目標構成を指定し、
各々がｍ（ｍは、２以上である）次元構成の計算ノードを含む１組のビルディングブロックを含むスーパポッドから、組み合わせられると、前記要求データによって指定された前記ｎ次元目標構成に一致する前記ビルディングブロックの部分セットを選択することを含み、前記１組のビルディングブロックは、前記ｎ次元の各次元のための１つ以上の光回路スイッチを含む光ネットワークに接続され、
前記ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成することを含み、
前記生成することは、
前記ワークロードクラスタの各次元について、当該次元のための前記１つ以上の光回路スイッチのそれぞれのルーティングデータを構成することを含み、前記ワークロードクラスタの各次元にそれぞれ対応する前記ルーティングデータは、前記ワークロードクラスタの前記次元に沿って、前記計算ワークロードのデータをどのように前記計算ノードの間にルーティングすることを指定し、
前記ワークロードクラスタの前記計算ノードに、前記計算ワークロードを実行させることを含む、方法。
前記要求データは、異なる種類の計算ノードを指定し、
前記ビルディングブロックの部分セットを選択することは、前記要求データによって指定される各種類の計算ノードについて、前記指定された種類の１つ以上の計算ノードを含むビルディングブロックを選択することを含む、請求項１に記載の方法。
前記スーパポッドの各次元のそれぞれの前記ルーティングデータは、前記１つ以上の光回路スイッチのうちの１つについて光回路スイッチルーティングテーブルを含む、請求項１に記載の方法。
前記光ネットワークは、前記ｎ次元の各次元について、当該次元に沿った計算ノードの間にデータをルーティングする当該光ネットワークの１つ以上の光回路スイッチを含む、請求項１に記載の方法。
各ビルディングブロックは、当該ビルディングブロックの各次元に沿った複数のセグメントの計算ノードを含み、
前記光ネットワークは、各次元の各セグメントについて、前記ワークロードクラスタ内の各ビルディングブロックに対応する計算ノードセグメントの間にデータをルーティングする当該光ネットワークの光回路スイッチを含む、請求項４に記載の方法。
各ビルディングブロックは、３次元トーラス状計算ノードまたはメッシュ状計算ノードのうちの１つを含む、請求項１に記載の方法。
前記スーパポッドは、複数のワークロードクラスタを含み、
各ワークロードクラスタは、前記ビルディングブロックの異なる部分セットを含み、他のワークロードクラスタとは異なるワークロードを実行する、請求項１に記載の方法。
前記ワークロードクラスタの特定のビルディングブロックが故障したことを示すデータを受信することと、
利用可能なビルディングブロックを用いて前記特定のビルディングブロックを置換することとをさらに含む、請求項１に記載の方法。
利用可能なビルディングブロックを用いて前記特定のビルディングブロックを置換することは、
前記ワークロードクラスタの前記特定のビルディングブロックと１つ以上の他のビルディングブロックとの間のデータルーティングを停止するように、前記光ネットワークの１つ以上の光回路スイッチのデータルーティングを更新することと、
前記ワークロードクラスタの前記利用可能なビルディングブロックと前記１つ以上の他のビルディングブロックとの間にデータをルーティングするように、前記光ネットワークの前記１つ以上の光回路スイッチのデータルーティングを更新することとを含む、請求項８に記載の方法。
組み合わせられると、前記要求データによって指定される前記ｎ次元目標構成に一致する前記ビルディングブロックの部分セットを選択することは、
前記要求データによって指定された前記ｎ次元構成が、前記スーパポッド内の利用可能且つ健全な第２の量のビルディングブロックを超える第１の量のビルディングブロックを必要とすることを判断することと、
前記要求データによって指定された前記ｎ次元構成が、前記スーパポッド内の利用可能且つ健全な前記第２の量のビルディングブロックを超える前記第１の量のビルディングブロックを必要とするという判断に応じて、
前記計算ワークロードより低い優先度を有し且つ前記スーパポッドの他のビルディングブロックによって実行されている１つ以上の第２の計算ワークロードを特定すること、および、
前記１つ以上の第２の計算ワークロードの１つ以上のビルディングブロックを、前記計算ワークロードのための前記ワークロードクラスタに割り当て直すこととを含み、
前記ビルディングブロックの部分セットを含む前記計算ノードの前記ワークロードクラスタを生成することは、前記１つ以上の第２の計算ワークロードの前記１つ以上のビルディングブロックを前記ビルディングブロックの部分セットに含めることを有する、請求項１に記載の方法。
前記ビルディングブロックの部分セットを含む計算ノードの前記ワークロードクラスタを生成することは、前記ワークロードクラスタの各次元について、前記１つ以上の第２の計算ワークロードの前記１つ以上のビルディングブロックの各ビルディングブロックが、前記１つ以上の第２の計算ワークロードのビルディングブロックではなく、前記ワークロードクラスタの他のビルディングブロックと通信するように、当該次元のための前記１つ以上の光回路スイッチの各々のルーティングデータを再構成することを含む、請求項１０に記載の方法。
システムであって、
データ処理装置、
コンピュータプログラムをエンコードしたコンピュータ記憶媒体とを備え、
前記プログラムは、前記データ処理装置によって実行されると、前記データ処理装置に以下の動作を実行させるデータ処理装置命令を含み、前記動作は、
計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含み、前記要求データは、前記計算ノードのｎ（ｎは、２以上である）次元目標構成を指定し、
各々がｍ（ｍは、２以上である）次元構成の計算ノードを含む１組のビルディングブロックを含むスーパポッドから、組み合わせられると、前記要求データによって指定された前記ｎ次元目標構成に一致する前記ビルディングブロックの部分セットを選択することを含み、前記１組のビルディングブロックは、前記ｎ次元の各次元のための１つ以上の光回路スイッチを含む光ネットワークに接続され、
前記ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成することを含み、
前記生成することは、
前記ワークロードクラスタの各次元について当該次元のための前記１つ以上の光回路スイッチのそれぞれのルーティングデータを構成することを含み、前記ワークロードクラスタの各次元にそれぞれ対応する前記ルーティングデータは、前記ワークロードクラスタの前記次元に沿って、前記計算ワークロードのデータをどのように前記計算ノードの間にルーティングすることを指定し、
前記ワークロードクラスタの前記計算ノードに、前記計算ワークロードを実行させることを含む、システム。
前記要求データは、異なる種類の計算ノードを指定し、
前記ビルディングブロックの部分セットを選択することは、前記要求データによって指定された各種類の計算ノードについて、前記指定された種類の１つ以上の計算ノードを含むビルディングブロックを選択することを含む、請求項１２に記載のシステム。
前記スーパポッドの各次元のそれぞれの前記ルーティングデータは、前記１つ以上の光回路スイッチのうちの１つについて光回路スイッチルーティングテーブルを含む、請求項１２に記載のシステム。
前記光ネットワークは、前記ｎ次元の各次元について、当該次元に沿った計算ノードの間にデータをルーティングする当該光ネットワークの１つ以上の光回路スイッチを含む、請求項１２に記載のシステム。
各ビルディングブロックは、当該ビルディングブロックの各次元に沿った複数のセグメントの計算ノードを含み、
前記光ネットワークは、各次元の各セグメントについて、前記ワークロードクラスタ内の各ビルディングブロックに対応する計算ノードセグメントの間にデータをルーティングする当該光ネットワークの光回路スイッチを含む、請求項１５に記載のシステム。
各ビルディングブロックは、３次元トーラス状計算ノードまたはメッシュ状計算ノードのうちの１つを含む、請求項１２に記載のシステム。
前記スーパポッドは、複数のワークロードクラスタを含み、
各ワークロードクラスタは、前記ビルディングブロックの異なる部分セットを含み、他のワークロードクラスタとは異なるワークロードを実行する、請求項１２に記載のシステム。
前記動作は、
前記ワークロードクラスタの特定のビルディングブロックが故障したことを示すデータを受信することと、
利用可能なビルディングブロックを用いて前記特定のビルディングブロックを置換することとを含む、請求項１２に記載のシステム。
コンピュータプログラムをエンコードした非一時コンピュータ記憶媒体であって、前記プログラムは、前記データ処理装置によって実行されると、前記データ処理装置に以下の動作を実行させるデータ処理装置命令を含み、前記動作は、
計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含み、前記要求データは、前記計算ノードのｎ（ｎは、２以上である）次元目標構成を指定し、
各々がｍ（ｍは、２以上である）次元構成の計算ノードを含む１組のビルディングブロックを含むスーパポッドから、組み合わせられると、前記要求データによって指定された前記ｎ次元目標構成に一致する前記ビルディングブロックの部分セットを選択することを含み、前記１組のビルディングブロックは、前記ｎ次元の各次元のための１つ以上の光回路スイッチを含む光ネットワークに接続され、
前記ビルディングブロックの部分セットを含む計算ノードのワークロードクラスタを生成することを含み、
前記生成することは、
前記ワークロードクラスタの各次元について、当該次元のための前記１つ以上の光回路スイッチのそれぞれのルーティングデータを構成することを含み、前記ワークロードクラスタの各次元にそれぞれ対応する前記ルーティングデータは、前記ワークロードクラスタの前記次元に沿って、前記計算ワークロードのデータをどのように前記計算ノードの間にルーティングすることを指定し、
前記ワークロードクラスタの前記計算ノードに、前記計算ワークロードを実行させることを含む、非一時コンピュータ記憶媒体。