JP2015512584A

JP2015512584A - パケットフロー相互接続ファブリック

Info

Publication number: JP2015512584A
Application number: JP2015501921A
Authority: JP
Inventors: ウィリアムドレス
Original assignee: ライトフリートコーポレイション
Priority date: 2012-03-21
Filing date: 2013-03-21
Publication date: 2015-04-27
Also published as: EP2829078A1; WO2013142742A1; US20140314099A1; CN104185999A; US9674116B2; KR20140139032A

Abstract

方法は、複数のポートを含むパケットフローモジュールを動作させる段階を含み、複数のポートの各々は、双方向及び論理的に独立した通信チャネルの少なくとも１つのペアを含む。装置は、複数のポートを含むパケットフローモジュールを含み、複数のポートの各々は、双方向及び論理的に独立した通信チャネルの少なくとも１つのペアを含む。【選択図】図１７

Description

本発明は、一般に、コンピュータシステム及び／又はそのサブシステム並びにネットワーク及び／又はそのサブシステムのための相互接続の分野に関する。より詳細には、本発明は、（１）パケットフローモジュールに関し、パケットフローモジュールは、極めて大型コンピュータシステムのための（２）パケットフロー相互接続ファブリックを構築するために使用される。

大部分のコンピュータ相互接続は、現在のところ、限定的な数のノード又はエンドポイントを提供している。より大きな相互接続は通常、１つの相互接続モジュールを、ツリー、ファットツリー、及び様々な異なるトポロジーで構成されたスイッチの他のネットワーク（スイッチ型ファブリックとして公知）の形式の別の相互接続モジュールに結合することによって、イーサネット（Ｅｔｈｅｒｎｅｔ）（登録商標）及びＩｎｆｉｎｉＢａｎｄ（ＩｎｆｉｎｉＢａｎｄ）のようなパケットスイッチから構築される。

米国特許７，９７０，２７９号

Widrow and Lehr,"20 Years of Adaptive Neural Networks", Proc. IEEE, 78(9), 1990 Charles Clos,"A study of non-blocking switching networks,"Bell System Technical Journal 32(2), pp. 406-424, 1953

このようなネットワークにおける各スイッチは、１又はそれ以上のホストコンピュータに接続され、及び１又はそれ以上の記憶デバイスに接続することができる。加えて、スイッチ対スイッチ接続及びスイッチ対コンセントレータ（集信装置）接続が存在することができる。スイッチ対スイッチ接続は一般に、異なるホスト間の通信ボトルネックを軽減するためにスイッチ対ホスト又はスイッチ対ストレージ接続よりも高い帯域幅のものである。コンセントレータはまた、レベル２スイッチとも呼ばれ、１又はそれ以上のスイッチから入力を取り、１又はそれ以上のスイッチ型ファブリックと他のパケットネットワークへのゲートウエイのような他のデバイスとの間でブリッジを形成する。次に高いレベルでは、このようなスイッチ型ファブリックは、レベル３スイッチによって互いに結合される。これらの実施構成におけるデータの流れは、データ経路に関するグローバルアルゴリズム並びにスイッチ対スイッチトラフィックのためのメッセージのパッキング及び個々のエンドポイント（ホストコンピュータ又は記憶デバイス）への分散のためのこのようなメッセージのアンパッキングによって内部的に管理しなくてはならない。

本開示の以下の実施形態に対する必要性がある。当然ながら、本開示は、これらの実施形態に限定されるものではない。

本開示の実施形態によれば、本方法は、複数のポートを含むパケットフローモジュールを作動させる段階を含み、複数のポートの各々は、双方向の論理的に独立した通信チャネルのペアを少なくとも含む。本開示の別の実施形態によれば、本機械は、複数のポートを含むパケットフローモジュールを備え、複数のポートの各々は、双方向の論理的に独立した通信チャネルのペアを少なくとも含む。

本開示のこれらの及び他の実施形態は、以下の説明及び添付の図面と共に検討したときにより良く評価及び理解されるであろう。しかしながら、以下の説明は、本開示の様々な実施形態及びその多数の特定の詳細を示しており、例証の目的のために与えられたものであり、限定を意味するものではない点を理解されたい。多くの置換、変更、追加及び／又は再構成を本開示の実施形態の範囲内で行うことができ、本開示の実施形態は、全てのこのような置換、変更、追加及び／又は再構成を含む。

本明細書に添付され本明細書の一部を形成する図面は、本発明の特定の態様を示すために含まれている。本発明、及び本発明と共に提供される構成要素及びシステムの動作の明白な概念は、図面に示される例示的及び従って限定ではない実施形態を参照することによって容易に明らかになるであろう。本発明は、本明細書に提示される説明と組み合わせてこれらの図面の１又はそれ以上を参照することによってより良く理解することができる。図面に示される特徴は必ずしも縮尺通りでない点に留意されたい。

従来技術としてｎノードを完全に相互接続する直接ブロードキャスト光学的相互接続を示す図である。従来技術として相互接続スイッチの「ポッド」を示す図である。パケットフローモデルを取得するための図１の修正を示す図である。パケットフローモジュールベースのポッドトポロジーを取得するための図２の修正を示す図である。パケットフローモジュールに基づくＣｌｏｓネットワークを示す図である。パケットフローモジュールのポッドに基づくＣｌｏｓネットワークを示す図である。パケットフローモジュール又はパケットフローモジュールのポッドに基づく規則的グリッドネットワークを示す図である。３レベルツリーとして構成された３スイッチング層を示す図である。一般的なバイナリツリートポロジーを示す図である。１２ポートｆノードを有する完全なファットツリーを示す図である。双方向リンクを有する対称Ｃｌｏｓトポロジーを示す図である。増大対称Ｃｌｏｓトポロジーを示す図である。修正されたＣｌｏｓネットワークを示す図である。修正されたＣｌｏｓネットワークのｐ³特性を示す図である。標準的な２次元グリッド上に空間を開けて配置されたメッシュ相互接続を示す図である。規則的グリッド上の３次元メッシュを示す図である。光学的イン−アウトシステムとして修正されたＤＢＯＩ相互接続を示す図である。双方向の論理的に独立したチャネル（ポート）を有する修正されたＣｌｏｓネットワークを示す図である。表１を示す図である。表２を示す図である。表３を示す図である。表４を示す図である。表５を示す図である。表６を示す図である。表７を示す図である。表８を示す図である。表９を示す図である。表１０を示す図である。式（１）を示す図である。式（２）を示す図である。式（３）を示す図である。式（４）を示す図である。式（５）を示す図である。式（６）を示す図である。式（７）を示す図である。式（８）を示す図である。式（９）を示す図である。式（１０）を示す図である。式（１１）を示す図である。式（１２）を示す図である。式（１３）を示す図である。式（１４）を示す図である。式（１５）を示す図である。式（１６）を示す図である。式（１７）を示す図である。式（１８）を示す図である。式（１９）を示す図である。

本開示において提示される実施形態及びその様々な特徴及び利点の詳細は、添付の図面で例示示され且つ以下の説明において詳述される非限定的な実施形態を参照して十分に解説される。公知の出発材料、処理技術、構成要素及び装置の説明は、詳細な本開示の実施形態を不必要に曖昧にしないように省略される。しかしながら、詳細な説明及び特定の実施例は、単に例証として与えられており、限定としてではない点を理解されたい。ベースとなる本発明の概念の範囲内の様々な置換、変更、追加及び／又は再構成は、本開示から当業者には明らかになるであろう。

データセンタ、クラウドコンピューティング、通信に使用されるパケットスイッチングシステム、及び高性能コンピューティングアプリケーションに対して想定される今日のコンピューティングクラスタは、何千及び最終的には何百万ものエンドポイントに対応することが意図される。相互接続拡張に関する本方法は、通常はサーバ又はエンドノードのグループがレベル１スイッチと接続され、レベル１スイッチのバンクはレベル２スイッチに接続され、レベル２スイッチのグループはレベル３スイッチに接続される階層方式で、多ノードシステムにおける各ノードが他の何れかのノードにも確実に接続できるようにするために様々なデバイスを使用する。何れかの所与のノード対ノード接続の可能性は、必ずしも恒久的に確立される必要はなく、又は必要な時及び必要に応じてこのような接続を確立することができる。例えば、スイッチ及び内部の関連するルーティングハードウエア、及びソフトウエア制御、これらのスイッチドネットワークは、競合パケット経路におけるメッセージトラフィックによって内部的にブロックされる状態になる可能性がある。この管理は、ファブリック内のスイッチパターンを制御してファブリックのグローバル状態を監視するための大きなルーティングテーブル及び専用ソフトウエアを必要とする。スイッチネットワークにおけるパケット輻輳に加えて、データは、離散的ホップの形態でスイッチからスイッチに渡さなければならないことが多く、遅延及びブロッキングが各段階で起こる可能性がある場合、一連の段階でノード対ノード通信が起こり、所与のメッセージはスイッチが開くのを待機することが必要となる可能性がある。

スイッチのこのようなスイッチ型ファブリックにおける多様なハードウエア要素の異種混在の性質が、データセンタ、コンピューティング又はストレージクラウド、もしくはスーパーコンピュータクラスタを構築及び維持するために付加的な複雑さ及びコストを課すことは、サーバファーム及び他の大型コンピュータシステムの分野では公知である。

本発明は、スイッチ型ファブリックにおける異種ハードウエア要素に対する必要性を回避し、相互接続ファブリックにおけるスイッチ全体に対する必要性を排除する。本発明は、単一の均一な相互接続モジュールに基づいて単一の相互接続ファブリックを構築し、数千から数万、数百万、及びそれをはるかに超える範囲の複数のエンドポイント又はノードに対応することを可能にする。エンドノードの各ペアの間で、複数の可能性のあるデータ経路が実施可能であり、データパケット又はメッセージは、テーブル、スパニングツリー、又は他のファブリック規模の制御機構手段を有することなくルーティングされる。

本開示は、ホストコンピュータインタフェース（ＰＣＩエクスプレス又は類似のインタフェースデバイスなど）を光学的接続（好ましい実施形態では）と置き換えて、従来のブロードキャスト機能によるパケットフロー及び分散機能に対応するために電気−光学ネットワークインタフェースコントローラ（ＥＯＮＩＣ）のルーティング論理を再構成する、既に開示されている相互接続（例えば米国特許７，９７０，２７９号を参照のこと）の修正形態を提示する。

以下の検討において、「ファブリック」又は「相互接続ファブリック」は、多数のコンピューティングノード及び／又はストレージノードを相互接続するための広範囲にわたるハードウエア構成を指すために曖昧に用いられる一般的用語である。技術用語としては、「ファブリック」は、「相互接続」と同義であることが多い使い易い用語となっている。

「アーキテクチャ」は、通信ネットワークの設計を意味し、物理的構成要素、機能的機構、データフォーマット、及び動作手順を含む。「トポロジー」は、ネットワークの様々のノード間の相互接続パターンを指す。物理的トポロジーは、ケーブル及びネットワークノードの構成を指す。トポロジーとは、ノード、リンク、及び到達可能性を包含するグラフ理論的概念であり、他方、アーキテクチャはエンジニアリングを意味する。２つの用語は誤って同義的に使用されることが多い。

相互接続ファブリックの「直径」は、何れかのペア間の最短経路のエンドポイントの全てのペアにわたる最大値である。直径は、１つのノードから別のノードにデータを送信する時に遭遇する可能性のあるデータホップの数の尺度である。「バイセクション帯域幅」は、ファブリックを２つの等しい独立した部分に分離するために分断しなくてはならない幾つかの双方向接続である。「到達可能性」は、何れかの２つのファブリックノード間の可能性のある経路（ループなし）の数である。最大及び最小到達可能性が存在することができる。

「ポッド」は、各モジュールがｐポートを包含し、各層がｐ／２モジュールを包含する場合の２層の完全接続されたｐ同一スイッチ又はブロードキャストモジュールのセットである。

本発明及びその様々な特徴及び利点の詳細は、添付図面に示され以下の説明で詳述される非限定的な実施形態を参照して完全に解説される。公知の出発材料、処理技術、構成要素及び装置の説明は、本発明を不必要に曖昧にしないように省略される。しかしながら、本発明の好ましい実施形態を示す詳細な説明及び特定の実施例は、単に例証として与えられており、限定としてではない点を理解されたい。ベースとなる本発明の概念の精神及び／又は範囲内にある様々な置換、変更、追加及び／又は再構成は、本開示から当業者には明らかになるであろう。

本明細書に引用される米国特許は、意図される目的を満たす実施形態を開示している。米国特許第７，４５０，８５７号、７，６３０，６４８号、７，７９６，８８５号、７，９７０，７２９号、及び８，０８１，８７６号の全内容は、本明細書において引用により明確に組み入れられる。加えて、スイッチに対する「ポッド」概念は、Ｖａｈｄａｔ等によって開発され、２０１０年１月２８日に公開された米国特許出願２０１０／００２０８０６、２００７年１１月２９日に公開された２００７／０２７６８７２、及び２０１１年１２月８日に公開された２０１１／０３０２３４６において参照される。２０１０年１月２８日に公開された２０１０／００２０８０６、２００７年１１月２９日に公開された２００７／０２７６８７２、及び２０１１年１２月８日に公開された２０１１／０３０２３４６の全内容は、本明細書に引用により明確に組み入れられる。

ポッド概念は、実際には、Ｗｉｄｒｏｗによって開発された２層ニューラルネットワークの変形形態であり（特に図１１及び以下の説明において、１９９０年ＩＥＥＥ、７８（９）、Ｗｉｄｒｏｗ及びＬｅｈｒによる「適応ニューラルネットワークの２０年」を参照）、ここでは外部で動作されるルーティングスイッチは、フィードバック処理を介して「学習する」適応重みのセットを交換する。ニューラルネット学習処理は、格納されたパターンに従ってスイッチ位置を決定する事前に決められたルーティングテーブルに直接類似しており、次にこれらのスイッチ位置は、バイナリニューラルネットワーク重みのセット（「オープン」又は「クローズ」状態の何れか）に等価である。

ポッド及び２層ニューラルネットワークのトポロジーが等価であり、パケットフローポッドのトポロジーに等価であるが、後者の概念は実質的に異なり、その内部アーキテクチャによってスイッチポッド及びその２層ニューラルネットワークアンセスタとは容易に区別できる。パケットフローポッドでは、各入力におけるデータが分散され、各々及び全てのポッド出力上に同時に存在する可能性がある。データパケット又はメッセージ構造は、メッセージを適切な出力に向けるヘッダを包含し、メッセージが不適切な出力に到達しないようにフィルタリングする。

一般に、本発明の概念は、光学信号、光学及び電気（デジタル）信号の混合、並びに純粋な電気（デジタル）信号によるデータの分散及び収集を含むことができる。本発明の関連は、インコヒーレント光及び／又はコヒーレント光送信によるデータの転送を含むことができる。本発明の関連は、音響送信によるデータの転送を更に含むことができる。本発明の物理的な関連は、特に複数のエンドポイント、コンピュータ、コンピューティングデバイス、及び／又はストレージデバイス間の高速及び大容量データ転送のためにネットワーク、ノード、回路基板及び／又はモデムを含むことができる。

本発明は、超高速の転送を実施するために精密なタイミングを使用したパルス幅変調及び復調を含むことができる。本発明は、無線用の自由空間伝送又は同軸ケーブル又はデータバス又は電線、及び光用の自由空間伝送又は光導体又は光ファイバを含むことができる。

本発明は、ビットストリームによる搬送波の高速変調を含むことができ、該変調は、任意選択的に、全てのデジタル処理において起こる。本発明は、ビットストリームを回復するための搬送波の高速復調を含むことができ、該復調は任意選択的に全てのデジタル処理において起こる。

本発明は、上述されたように符号化されたキャリアを変調及び検出するための全デジタル処理を含むことができる。存在する場合、変調器及び復調器のアナログ部分は、当業者に公知の一般的な位相、周波数、及び増幅デバイスである。

本発明は、相互接続ファブリックノードの幾つかのトポロジーの何れかを含むことができ、ここでファブリックノードは、本発明の主題であるパケットフローモジュール；又はこのようなパケットフローモジュールのポッド、或いは、このようなパケットフローモジュールのポッドのポッド（以下繰り返し）である。

図１（従来技術）は、米国特許第７，９７０，２７９号において最近記載されているように、ブロードキャスト光に基づく典型的なｎ方向（又はｎ×ｎ）相互接続（「Ｎ方向シリアルチャネル相互接続」）を示す。この図は、入力から（通常はｎノード又はエンドポイントから）出力まで（通常は同じｎノード又はエンドポイントまで）の完全に接続されたｎ×ｎ相互接続を描いている。

図１を参照すると、ｎホストコンピュータからのｎ入力１００上の電気データ（２つの矢印の末端間に連続した点線を付けた濃い２方向矢印によって示される）が、ＥＯＮＩＣでラベル付けされた電気−光学ネットワークインタフェースコントローラモジュール１１０において（好ましい実施形態では）レーザによって変調光に変換される。変調された光は、ｎシングルモード光ファイバ１２５（白抜きの先頭部を有する方向付矢印によって示される）に沿ってｎ出口１２０（破線の矢印によって示される）でＥＯＮＩＣ１１０から出る。これらのファイバ１２５は、入力１３０（破線によって示される）で光学モジュール１４０（直接ブロードキャスト光学相互接続用の「ＤＢＯＩ」でラベル付けされている）に入る。各光学信号は、同じ信号がモジュール１４０の全ての部分に到達するようにスプレッド又はスプリットによって分散（ブロードキャスト）される。このブロードキャスト分散は、１５０のラベルが付けられた複数のファンアウト及びファンイン線によって示され、これは、モジュール１４０の分散キャビティ内の光の連続スプレッド又は分散を表すことを意味する。好ましい実施形態では、これらの線１５０は、入力１３０の各々からブロードキャストされる光の分散と出力線１６０の各々への収集を概略的に示している。本明細書における「光」の使用は、図１によって示されるようにして操作できる情報のあらゆるキャリアが本発明の関連において有効であるような光学的手段に本発明を限定することを意図するものではない。上記に引用された各特許によって説明される相互接続の光学形態において、幾つかの入力からブロードキャストされた光は、レンズによって収集されて、マルチモードファイバのバンドルである（白抜きの先頭部を有する一方向矢印によって示される）出力１６０上に集束され、ここで各バンドルは、光学ケースにおけるｎ個の個々のファイバ又は電気ケースにおけるｎ個の個々の送信回線又はケーブルを有する。

４つの収集ポイントの各々（矢印１６０の尾部）は、ｎ個の入力１３０の入力データストリームの４つの複製としてｎ個の信号を包含する。ＤＢＯＩ相互接続のオリジナルの実施構成では、ｎは３２であり、各入力ストリームは、３２データストリームの各々の複製を提供するために光学ファンアウトデバイスによって４つの方向に分割される。次に、これらの光学信号は、４つの検出器アレイ又は光ファイババンドルに結合され、各々がオリジナルの３２入力データストリームのコピーを包含する。従って、ブロードキャスト分散モジュール１４０を出る４つのデータストリーム１６０が描かれている。これらの詳細は、上記に引用された特許において説明されている。ｎ＝３２及び光学ファンアウトが４であるこの特定の実施例は、単に例証の目的で選択されたものである。他の選択も可能である。例えば、７２方向相互接続は、図１に示された４の代わりに１６０のラベルが付けられた９出力バンドルに至る９倍の光学又は電気ファンアウトを有することができる。

モジュール１１０又はモジュール１４０の何れかの内部にはスイッチ又はルーティング機構が存在しない点に特に留意されたい。すなわち、パケットは、光学パルスへの変換後に、どのような障害もなくｎ入力１００の何れかからモジュール１４０の４ｎ出力の何れかに自由に流れることができる。別に記載されるように、図１によって表されたアセンブリ内にデータ輻輳は存在することはできない。

４つのバンドル１６０は、ｎ光学検出器の４つのセット（モジュール１１０に包含され図示せず）に接続され、ここで光学パルスが電気的デジタルデータに再変換される。実際には、モジュール１１０は、符号化された宛先並びにＥＯＮＩＣモジュール１１０の出力１００で潜在的なポートコンテンションを解消するために必要なフロー制御回路に従って様々なデジタルデータストリームを収集、格納、及びフィルタリングする付加的な手段を包含し、その信号は、双方向リンク１００の出口接続に沿った送信に適切な電気信号である。次に、フィルタリングされた電気信号は、出力１００に沿ってホストエンドポイントに渡される。これらの事柄は、上記に引用された各米国特許、特に米国特許第７，９７０，２７９号において保護されており、従って、回路の正確な構成及び正確な機能はここで扱う必要はない。

図２（従来技術）は、各横列がｐ／２スイッチからなる２つの完全に接続された横列でｐスイッチを結合する一般に理解される方法を示している。ｐスイッチの各々は、ｐ全二重通信ポートを有する。図では、ｐ＝６であり、各横列に３スイッチからなる２つの横列が存在する。各ｐポートスイッチの接続の半分は、２つの横列を完全に接続するのに使用され、半分はポッド外部の接続であり、ｐ²／２接続は、ファブリック構造における低レベルからのポッドへの入力として機能し（一般的には、コンピューティングノード又はエンドポイントへの接続）であり、残りのｐ²／２接続は、ファブリックにおける次に高いレベルへのポッドの「出力」と概念的に呼ばれる。当然ながら、ポッドは、出力が入力になり逆もまた同様であるように、逆にチューニングすることができるよう完全に対称的である。

図２を参照すると、６つのスイッチ２００は各々、小さな円によって示されるｐ全二重ポート２２０を有する（図の各スイッチ２００は、ｐ＝６のようなポート、各スイッチ２００の「上部」に示されたｐ／２又は３ポート及び各スイッチの「下部」の３ポートを有する）。これ例図は、データが各スイッチ２００の下部から「前方」又は上方向に対する各スイッチ２００の上部に渡されることを示すものとし、ポート２２０及びスイッチング要素２１０の全二重性質に起因して、信号はまた、スイッチング要素２１０のセットの閉鎖パターンを変えることなく同じ方式で上部から下部に渡すことができる。上述したように、各スイッチ２００の下部半分の各ポート２２０は、スイッチング要素２１０（ファブリックのルーティングテーブルにおけるグローバルスイッチパターンによって一般的に外部で制御される）によって各スイッチ２００の上部半分のポート２２０の１又はそれ以上に接続される。二重接続２２５（図の下部での全二重通信を示すための二重矢印の列として図示される）及び二重接続２４０（図の上部での全二重通信を示すための二重矢印の列として図示される）が、ポッドへの「入力」及び「出力」として働くスイッチ又はターミナルエンドポイント（図示せず）に接続し、その宛先は、信号の実際の移動方向とは無関係である。スイッチの２つの列の間の接続２３０（全二重通信を示すための二重矢印の列として図示される）は、ニューラルネット及び相互接続に関する論文で公知である完全に接続された２層ネットワークを作成するための内部接続を提供する。

所与のスイッチパターンが、１つの層上に存在する何れかのポート２２０上の所与の信号が他の層又は同じ層における何れかの選択されたポート２２０に到達するのを阻止又は遮ることができる点に留意されたい。加えて、同じポッド内の通信では、スイッチパターンが、スイッチ２００の１つの列から渡されて次に二重チャネル２２５又は２４０の何れかに沿って必ずしもポットから出る必要もなく他の列に戻ることによって、下部（上部）−列ポート２２０を別の下部（上部）−列ポート２２０に接続できるようになる。これらのパターンを達成するスイッチ２１０の特定のインスタンスを、例示のケースにおいてｎ＝３の場合に標準的なｎ×ｎクロスバースイッチで見つけることができる。

全二重スイッチによって課せられる制限の実施例として、別のスイッチ上のポート又はエンドポイントポートとすることができるラベルＡの付いたポート２５０を検討する。Ａが、別のスイッチ上のポート又はエンドポイントポートとすることができる２５１のラベルの付いたポートＢに接続され、メッセージ又はパケットのシリーズがＡからＢに送信されるようになっているスイッチパターンを考えてみる。別のスイッチ上のポート又はエンドポイントポートとすることができるＣのラベルの付いたポート２５２からメッセージが同時に発生した場合、その宛先は、ＡからＢのメッセージが完了するまでメッセージが遮られるラベル２５０の付いた第１ポートＡである。この遮断は、スイッチの二重性質に起因するものであり、ファブリックスイッチの２つのセットを有し、１つがデータ各移動方向に対するものであることでのみ防ぐことができ、通常は起こらないことである。

図３は、図１に示された構成を再配列した図であり、ここではホストエンドポイントから又はホストエンドポイントへの電気接続は存在しない。本構成は、上述されたように各個々のメッセージパケットの動的ルーティングに応じた何れかの入力チャネルから何れか及び全ての出力チャネルへの光学的な流れを表すものとする。

図３を参照すると、他のこのようなブロードキャスト分散モジュールから、又は最終的には適切なＥＯＮＩＣ（図１の光学出力１２０など）における電気−光変換に続くホストエンドポイントからの光学信号を包含するｎシングルモード光学入力ファイバ３１０（好ましい実施形態）が、光学モジュール３００の入力側に提示されている。モジュール３００は、上述され且つブロードキャスト分散動作を概略的に示す線３２０によって示されたブロードキャスト方式でその入力３１０の各々を分散する。上述したように、分散光学信号は、マルチモードファイバ３３０によって示される４つの物理的区分の各々（好ましい実施形態）、各バンドルが全てのｎ入力信号３１０のコピーを包含するような方式で収集される。（上述したように、この特定の例図は４つの区分を使用するが、本発明はこの実施に限定されない。）

各別々のＥＯＮＩＣモジュール３４０は、光ファイババンドル３３０におけるｎ個の別々の光信号を受信する。これらのｎ光信号は、検出器及び電子機器（図示しないが引用特許において記載されている）によって電気信号に変換される。次に電気信号は、現在電子形式である幾つかのメッセージの宛先ヘッダに従って論理によって分散及び収集される（図示しないが引用特許において記載されている処理）。次に、適切な電気データストリームが、各ＥＯＮＩＣモジュール３４０におけるｎ／４モジュレータ及びレーザの何れか又は全てに提示される。ｎ到来光データストリーム３１０は次に、シングルモード出力ファイバ３５０上に存在するｎ光送出データストリーム間で分散される。

上記のように、特定の経路決定及びフロー制御に対処するための中間及び一時的ストレージ、論理を含む付加的な回路は、図３に示されたパケットフローモジュールを機能的に拡張するが、本発明の範囲又は目的を変えることなく又は実質的に変更することなく、何れの実際の実施構成にも組み入れることができる。

光学モジュール３００への入力を含む光ファイバ３１０は、ＥＯＮＩＣ３４０の出力を含む光ファイバ３５０から独立している点に留意されたい。すなわち、図３に表されたパケットフローモジュールへのポートの数がｐ（ここでｐは上記の説明のｎと同じ）であるが、各ポートは、実際には双方向（及び論理的に独立した）通信チャネルのペアである。これは、ペアが１つのユニットとしてスイッチされる点でｐポートのペアの各々が互いに論理的に結び付けられているスイッチモジュールとは対照的である（勿論、方向の各々に対する完全なスイッチ型ファブリックが存在しない限り）。パケットフローモジュールはスイッチモジュールとは機能的に著しく異なるのは、この基本的なアーキテクチャの区別のためである。

図４は、図２で導入されたポッドトポロジーを表しているが、上記に提示されたようにパケットフローモジュールによって実施（アーキテクト）される。ポートの数は、分かり易いように６に低減されており、実際には、図４に表された各ネットワークノードに対するポートの数は、図３におけるパケットフローモジュールの双方向通信ペアの数である。この数は、既存の実施構成において通常は３２又は７２である。

図４を参照すると、６つのパケットフローモジュール４００の各々は、小さな円によって示されるようにｐ個の双方向及び独立ポート４２０を有する。トポロジーは図２と同一であるが、モジュールの構成及び機能、及びひてはポット自体は全く異なる。各モジュール４００の完全に接続された連続ブロードキャスト性質が、図面において何れかのパターン又は記号の存在なしに示され、各モジュール４００の中空の内部部分を指し示す矢印４１０によって示されている。ポッドに向けた白抜きの先頭部を有する矢印によって示されるように、双方向線４２５又は４４０の何れかを介してモジュール４００の上部列の上部又は下部列の下部にてポート４２０を介してポッドに流れる光信号（好ましい実施形態）は、モジュール４００の上部列の上部又は下部列の下部における他のポート４２０の各々に同時に（原理上実際にはないとしても、ポッドに入るメッセージのヘッダに応じて）存在する。次に、このような信号は、ポッドから離れる向きの白抜きの先頭部を有する矢印によって示されるように、双方向線４２５又は４４０の何れかに沿ってポッドから（この場合も同様に、ポッドの入るメッセージのヘッダに応じて）離れることができる。

上記の図２と同様に、トポロジーは、完全に相互接続された２層システムを必要とし、その接続は、白抜きの先頭部を有する反対方向の矢印のペアによって表される双方向線４３０によって形成される。

詳細には、入り口ポート４２０の何れかからその出口ポート４２の何れかに信号を分散するためにこのパケットフローポッドに必要なスイッチ設定のグローバルパターンは存在しない点に留意されたい。また、ポッドの上部又は下部列に沿った又はポッドを含むモジュールの上部又は下部列に沿ったポートの何れかのペアからの仮想接続もまた、逆方向の仮想接続を必要としない点に留意されたい。すなわち、ポート及びブロードキャスト分配機構の双方向性質は、パケットフロー経路が独立していることを意味し、この独立性は、ポッドの全帯域幅並びにこのようなパケットフローモジュール又はパケットフローポッドによって構成された何れかのファブリックも潜在的に利用可能であることを意味する。

双方向ポートの汎用性の１つの実施例として、別のポッド上のポート又はエンドポイントポートとすることができるＡのラベルの付いたポート４５０を考えることとし、ポート４５０が、別のポッド上のポート又はエンドポイントポートとすることができるＢのラベルの付いたポート４５１にメッセージ又はパケットのシリーズをリレーする処理の途中であると仮定する。別のポッド上のポート又はエンドポイントポートとすることができるＣのラベルが付いたポート４５２が、ポート４５０にメッセージをリレーする必要がある場合、このような送信は、ＡからＢへのメッセージによって遮られず、すなわち、何れの所与のポートも異なるポートからデータを受信すると同時に、１又はそれ以上のポートにデータを送信することができる。

この挙動は、スイッチの全二重性質が与えられた場合に帯域幅の約半分が実際に使用していないスイッチモジュール又はポッドのケースと対照させる。

図５は、対称Ｃｌｏｓファブリックを表し（ＣｈａｒｌｅｓＣｌｏｓ、「非ブロッキングスイッチングネットワークの研究」ベルシステムテクニカルジャーナル３２（２）、４０６−４２４ページ１９５３年）、ここで、１つの入力（下部列）モジュール当たりの入力ポートの数は、３つの列の各々におけるモジュールの数に等しく、１つの出力（上部列）当たりの出力ポートの数は３つの列の各々におけるモジュールの数に同様に等しい。図５に示された事例では、パケットフローモジュールとエンドポイントとの間の接続は双方向であり、下部でのエンドポイントは上部でのエンドポイントとは異なり、対応するエンドポイントの数を効率的に倍加することを意味する。

図５を参照すると、幾つかのエンドポイント５００が、図の上部及び下部列で小さな円によって表されている。ファブリックノード５１０、５２０、及び５３０は、図３に示されるようにパケットフローモジュールであり、ここで図５によって表されるファブリックにおける各パケットフローモジュールは、ｐ＝８双方向ポートを有する。ノード５１０の列は、ｐ／２（すなわち、この実施例では４）１６エンドポイント５００への双方向接続５４０、及びノード５２０の中間列へのｐ／２双方向接続５５０を有する。また、パケットフローモジュール５２０の中間列は各々、パケットフローモジュール５３０の下部列へのｐ／２双方向接続を有し、この各々はまた、エンドポイント５００の下部列へのｐ／２双方向接続５４０を備えたｐ／２ポートを有する。このように、３ｐパケットフローモジュールの完全に飽和されたセットは、（ｐ／２）²エンドポイント又は例図では３２エンドポイントに対する完全に相互接続された非ブロッキングファブリックを提供する。単一行５２０を超えて中間列の数を増やすことができる。この増大は、何れか２つのエンドポイント間のより大きな経路冗長性を可能にする（本明細書で使用する「飽和」は、全てのポートが接続を有することを意味する。）

Ｌを対称Ｃｌｏｓトポロジーにおける列又はレベルの数とすると、分析は、このトポロジーによって対応されるエンドポイントの数が（ｐ／２）²であり、Ｌ（ｐ／２）パケットフローモジュールを必要とすることを示しており、これによって、各パケットフローモジュールに対してｐ／（２Ｌ）エンドポイントが存在し、これはファブリックハードウエアの観点で特に効率的なアーキテクチャではないが、次の図に対する背景として機能する。

図６は、パケットフローモジュールのポッドから構成された対称Ｃｌｏｓファブリックを表している。図５との唯一の違いは、ｐポート各々のパケットフローモジュールの代わりに、ｐ²／２ポートのパケットフローポッドに基づくファブリックのアーキテクチャである。（ここで、本開示のあらゆる場所で、ｐは、相互接続ファブリックを構成するのに使用されるパケットフローモジュールにおけるポートの数である。）

図６を参照すると、トポロジーは、図５のトポロジーと同一であるが、パケットフローモジュール当たりのポートの数は、この実施例では、図５で使用されるｐ＝８ではなくｐ＝４である。図面における要素は、上記と同じ機能を有し、エンドノード６００、及び３つの列におけるパケットフローモジュール、６１０、６２０、及び６３０がある。エンドポイント６００とファブリックノードの外側列６１０及び６３０との間の双方向接続が線６４０によって示されている。中間列６２０と２つの外側列６１０及び６３０との間の双方向接続は、線６５０及び６６０それぞれによって示されている。

分析は、このトポロジーによって対応されるエンドポイントの数が（ｐ／２）⁴であり２Ｌ（ｐ／２）³パケットフローモジュールを必要とすることを示している。従って、パケットフローモジュール当たりのポート小さな数ｐは、多数のエンドポイントに対応することができる（ｐ＝３２に対して６５，５３６エンドポイント及びｐ＝７２に対して１，６７９，６１６エンドポイント）。

各パケットフローモジュール６１０、６２０、及び６３０は、この図では、バブル６７０によって表されるパケットフローポッドであり、８ポートを有するポッドを含む４つの各々が４ポートパケットフローモジュールを包含する。

これらの２つの例証の目的は、多数のエンドポイントに対して相互接続ファブリックを構築する時のパケットフローポッド概念のパワーを示すことである。

図７は、ファブリックノードとして、パケットフローモジュール又はパケットフローモジュールのポッドを有する２次元規則的グリッドファブリックを表している。

図７を参照すると、９つのパケットフローモジュール７００が、一辺が３個の規則的グリッドで配列されて示されている。４つの双方向接続７２０が、各モジュール７００からその４つの最も近い近傍まで形成される。各パケットフローモジュールがｐ双方向ポートを有すると仮定すると、（ｐ−４）エンドポイントポート７１０が、エンドポイント（例えばコンピューティングノード、サーバ、ストレージノードなど）への双方向接続のための各ファブリックノードに留まる（７００によって示される）。グリッドアレイからの双方向接続７３０ポイントアウトは、（１）行又は列の形態で（２次元の場合）より多くのモジュール７００を取り付けるため、又は（２）オープングリッドトポロジーをトーラストポロジーに変換するために使用される。また、ファブリックノード７００の数を増やすことで、ファブリック直径（何れかの２つのファブリックノード間の最も遠いホップ距離）及びひいては最大ネットワークメッセージレイテンシーを増加させる。

上述のアーキテクチャに対する変形形態は、双方向接続７２０及び７３０の二重又は三重（又はそれ以上）をノード対ノード通信に割り当てて、これに対応してエンドノード７１０に対して抑えるようにすることになる。従って、ノード間帯域幅を必要に応じて増加させることができる。

より高次元の規則的グリッドファブリックも実施可能である点に留意されたい。例えば、ＣｒａｙのＧｅｍｉｎｉ相互接続及び富士通のＴｏｆｕ相互接続は両方とも、３次元トーラスを形成するラップアラウンド接続を備えた３次元グリッドである。トロイダル構成は、何れかの２つのファブリックノード間の潜在的経路の数を大幅に増加させると同時に、バイセクション帯域幅を二倍にし且つネットワーク直径を半分にする。

当然ながら、何れのパケットフローノード７００もパケットフローモジュールのポッドと交換することができる（図６において提案される）。このポッド拡張は、ファブリックノード当たりの何れかの所望の帯域幅及び何れかの所望のエンドポイントの数を有するパケットフローファブリックを生成する。

図５、６、及び７に提示されるトポロジー、及び含意的に大きなデータセンタ（ツリー、ファットツリー、トーラス、及びＶａｈｄａｔによって紹介されたＣｌｏｓ／ファットツリーなど）で有用とすることができる他のこのようなトポロジーは、新規ではない。また、ポッド概念を使用してこれらのトポロジーの何れかを拡張することは、本明細書で初めて明示的に提示され新規であるが、上記に記載したＶａｈｄａｔ等による研究が与えられた場合に予想されなかったものとして特許請求することはできない。しかしながら、上述されたようなパケットフローモジュールで実施され、又はこのようなパケットフローモジュールのポッドによって実施されるこれらのトポロジーの何れか及び全てのアーキテクチャは、確かに両方とも新しく、スイッチ型ファブリック又はスイッチ相互接続における過去の研究によって予想されず、導き出されないものである。すなわち、上記で提示されたパケットフローファブリック、及び含意的に他の何れかのトポロジーに基づく何れのパケットフローファブリックは、直接ブロードキャスト光学相互接続を異なる固有の内部アーキテクチャのパケットフローモジュールに変換することなく、以前には実施可能ではなかった新しい手法を提示する。

この主張に対する理由は２つの要素からなり、（１）パケットフローモジュールの双方向性質、及び（２）これらの相互接続によって対応される潜在的なエンドポイントの大きな数である。スイッチ型ファブリックは、上述の方式で明らかに拡張することができ、４８又はそれ以上のポートのスイッチを何百万ものコンピューティングノードに対応するよう構築できると同時に、このような大きなファブリックの明白なトップダウン管理は、不可能ではないにしても困難なタスクになる。ルーティングテーブルの構成及びプルーニング（刈り込み）が安定していないアルゴリズムを包含すること、及び今日の次善の方法が、必要とされる極めて大きなルーティングテーブルを作成、維持、検索、及び共有するための不満足な解決策を助長させる妥協策を使用していることは公知である。

本発明の主要な利点は、ファブリックにおけるスイッチを無くすことによって、複雑なルーティング方式が必要でなくなる点である。メッセージルーティングは、グローバルなトップダウンファブリック制御及びモニタリングを必要とすることなく、各ファブリックノード内でのローカルに決定される処理となる。

本発明の別の利点は、ファブリック全帯域幅が利用可能であるが、この帯域幅の約５０％が、全二重ポート及び接続の性質に起因してスイッチ型ファブリックにおいて効果的に遮断されることである。

大型コンピュータシステム用の相互接続に関する更なる詳細
本開示のこの部分は、多数のエンドポイントに対応するためのＬｉｇｈｔｆｌｅｅｔ直接ブロードキャスト相互接続を拡張する際の問題を検討する。詳細には、クラウドコンピューティング、サーバファーム、スーパーコンピューティング、ストレージファーム、及びテレコミュニケーションインスタレーションにおける接続性の問題が考察される。現在使用されている幾つかの手法は、Ｌｉｇｈｔｆｌｅｅｔ相互接続によって可能になる類似の方法と比較及び対比される。

サーバ、高性能コンピューティングノード、ストレージノード、ゲートウエイ、又は通信ポイントとすることができるエンドポイントの大型システムに対処する場合の中心となる問題は、スケーラビリティであり、すなわち、より多くのノードを含むように相互接続を容易に拡張できるかということである。一般的なコモディティ相互接続は、接続ポートの制限された数を有するスイッチに基づいており、これによって、（水平方向の）スケーラビリティの問題は、ポートが制限された多数のモジュールを相互接続するスケーラビリティとなる。一定のトポロジー（ノードの構成）は、メッシュ、スター、及びツリーである最も頻度の高いものと共通で使用される。ハイブリッド形態（例えば、メッシュのツリー）も使用される。

序文に続く第１段落は、ネットワークトポロジーの問題を考察し、異なるトポロジーが異なる強さ及び弱さを有することを示し、トレードオフは、通常、スケーラビリティ、ノード間の帯域幅、サービスされるノードの数、ネットワーク直径（ノード間の経路距離の尺度）、及び到達可能性又は経路冗長性（２つのノード間の利用可能な経路の数）の間で行われる。２つの主なパラメータは、直径（ノード間のレイテンシーを決定する）及び帯域幅である。直径と帯域幅又は直径とスケーラビリティとの間のトレードオフが評価される。本論文の第１部分の目的は、同一のファブリックモジュールに基づいてファブリックトポロジーを選択する方法を示すことである。

第２の段落は、ファブリック管理に関し、スイッチシステムにおけるパケットトラフィックの制御をＬｉｇｈｔｆｌｅｅｔ相互接続に対する修正に基づくパケットフローシステムにおいて実施可能な制御と対比させる。パケットルーティングのこの新しい方法は、数百のサーバの小企業から数百万のノードを有する極めて大きなサーバファーム及びパケットルーティングシステムまで、全てのスケールでの相互接続全体にわたって動作する。提案のルーティング方法は、スイッチ型ファブリックに特有のスケール問題を回避する。システム全体のグローバル管理を必要とする鉄道又は航空機トラフィックと比較したスケジュールされておらず且つローカルに制御される自動車トラフィックに類似している。

序文
背景
Ｌｉｇｈｔｆｌｅｅｔ株式会社は、コンピューティングノード間のタイトな結合を提供する新規の相互接続ファブリックを発明し、特許権を受け、また開発をおこなっている。基本発明は、最大１２８のコンピューティングノード（ｃノード又はエンドポイント）及びこれを超えるものをファブリック内輻輳の可能性なしに完全相互接続することを可能にする。すなわち、ｃノード間の全ての経路は厳密に非ブロッキングであり、各エンドポイントは、経路ルーティングのソフトウエア制御を必要とすることなく、他の全てのエンドポイントに同時にブロードキャストすることができる。

本開示の一部である、ＤＢＯＩと呼ばれるＬｉｇｈｔｆｌｅｅｔのダイレクトブロードキャスト光学相互接続（ＤｉｒｅｃｔＢｒｏａｄｃａｓｔＯｐｔｉｃａｌＩｎｔｅｒｃｏｎｎｅｃｔ）の特性は、このような相互接続ファブリックの特性を考察し、Ｌｉｇｈｔｆｌｅｅｔデバイスが８つの基本相互接続特性（帯域幅、程度、直径、レイテンシー、容量、輻輳、データスキュー、及び経路自由性）において最適であることを示している。ＤＢＯＩが厳密に非ブロッキングであるので、ファブリック内輻輳がなく、よって、付加的通信オーバヘッドを有するスケーラビリティのＡｍｄａｈｌの法則の下での挙動はほぼ理想的である。

本開示の一部であるＤＢＯＩ性能特性は、相互接続ファブリックの付加的な特性を考察し、相互接続の機能的な利点を示し、進歩する通信技術の下でのその競争上の利点を考察する。ビットレート、ブロードキャスト、及びＤＢＯＩシステム内のメッセージの応答時間変動がどのように改善されたかに関する主題が全て網羅される。更に、幾つかのプログラミングモデルが提示される。

本開示のこの部分の目的は、これをタイトクラスタに対する効果的な解決策にする不可欠の理想的な特性の多くを保持しながら、数千から数百万のエンドポイントを相互接続するために基本的ＤＢＯＩをどのように使用できるかを示すことである。基本的な考えは、ＤＢＯＩモジュールのネットワークを形成することであり、各ＤＢＯＩモジュールは、ネットワークファブリック（又はｆノード）におけるノードとして機能を果たすと同時に、各ｆノードにて論理的に常駐するコンピューティングノード又はエンドポイント（ｃノード）のタイトクラスタのためのブロードキャスト相互接続としても機能することができる。これは、データセンタが現在構築されている方式と一定の類似性を有する。

ブロードキャスト機能が維持されている間、ファブリック直径は、１ユニットの理想を超えて増加することになり、メッセージがｆノード間を移動する時に２つの任意のｃノード間のメッセージレイテンシーが増加することを意味する。しかしながら、以下に示されるように、ＤＢＯＩｆノードの結果として生じるファブリックの多くの望ましい特性が保持される。スイッチ相互接続のネットワーク（スイッチ型ファブリックとして公知）よりも優れたＤＢＯＩのネットワークの利点が同様に考察される。このようにして構成されたＤＢＯＩファブリックは、ユビキタススイッチ型ファブリックと区別するためにデータ又はパケットフローファブリックと呼ぶことができる。

「ファブリック」又は「相互接続ファブリック」は、多数のコンピューティングノード及び／又はストレージノードを相互接続するための広範囲のハードウエア構成を指すのに曖昧に用いられる一般的用語である。技術用語としては、「ファブリック」は、「相互接続」と同義であることが多い使い易い用語となっている。

問題の提示
主な課題：スケーラビリティ及び管理
データセンタ（サーバファーム、ストレージファーム、「クラウド」コンピューティングインスタレーション）並びにＨＰＣ又は高性能コンピューティング（科学、研究、政府アプリケーション）、企業コンピューティング（データベース、オートメーション、注文処理、スケジューリング、アカウンティング、及び情報管理のような特定のビジネスアプリケーション専用の大きなシステム）、及びテレコミュニケーションで使用されるラージスケールパケットスイッチングシステムは全て、ハーネスに対する圧迫を生じており、所与のインスタレーションに利用可能なコンピューティングリソースのセット全体をコヒーレントにアクセス及び制御する単一の均一な手段の下でコンピューティングリソースの数がますます増大している。例えば、データセンタの必要性は、専用ＨＰＣインスタレーションよりも１００，０００サーバマークを現在上回っている。企業インスタレーションは、これらほどの大きな数には未だ到達していないが、その必要性は増大しており、計算リソースの拡張に対する要求の欠如によってではなく、インスタレーションコストによって制限されている場合が多い。

コモディティスイッチ（イーサネットベースのハードウエアなど）及び市販のＩｎｆｉｎｉＢａｎｄスイッチに基づく研究では、極めて多数のコンピューティングリソースをコヒーレントシステムに効果的且つ安価に統合するという課題を扱うことを試みている。研究機関（例えば、データセンタ及びクラウドコンピューティングに関わる営利企業）によって費やされる取り組みの多くは、ソフトウエア上の技術革新を用いてスイッチ型ファブリックの機能を拡張することに主としてフォーカスされると同時に、新しいネットワーキングトポロジー及びアーキテクチャを提案している。例えば、約３６又は４８のポートを超えるＩｎｆｉｎｉＢａｎｄ及びイーサネットスイッチは、以下に論じられる３層Ｃｌｏｓネットワークに基づいている。多くのベンダーが特許請求していることにも関わらず、この構造は、実際には、特定の容易に発見されるトラフィックパターンをブロッキングする。

数万のサーバから数十万のセンタまでの今日の相互接続ファブリックを拡張するのに伴う主要な問題は、とりわけ、（対応される帯域幅及びノードの数における）スケーラビリティ、相互接続管理（ルーティング、スパニングツリーメンテナンス、ファブリックの状態の制御及びモニタリングに必要なソフトウエア及びハードウエア）、及び困難な又は融通性のない通信プロトコルに関するものである。帯域幅容量を「アグリゲーション」及び「コア」レベルに引き上げるハイエンドスイッチ及びルータの場合でも、最良のトポロジーは、ｃノード又は「エッジ」レベルで見られるアグリゲート帯域幅の何分の一しかサポートしない。ファブリックに利用可能な結果として得られる非均一な帯域幅は、システム性能を制限し、ユーザレベルでのソフトウエア管理を複雑にする。加えて、スイッチング又はルーティングの各レベルは、一般に、その固有の制御及び監督ソフトウエアを必要とし、これらは、ルーティング衝突を最小にするために従来よりも大きなルーティングテーブルを維持することに起因して、レベルに関して複雑さが増大する可能性がある。これは、ソフトウエア管理問題を更に悪化させる。

「スケーラビリティ」は、「水平」又は「拡大」の意味と、「垂直」又は「増大」の意味の両方で使用され、この用語が頻繁に使用されるとしても決まった又は明確な定義はない。水平スケーリングは、より多くのコンピューティングノードを追加することを意味し、垂直スケーリングは単に、より多くの容量を既存のノードに追加することを意味する。場合によっては、データセンタにおけるスケーラビリティは、単に、あらゆるホストがそのポート全帯域幅で他の何れかのホストと通信できる可能性として定義される。幾分より明確な用語では、スケーラブルシステムとは、その性能が追加ハードウエアに比例して向上するシステムのことである。用語の量的使用では、スケーラビリティは、ｃノードの数がｆノードポートの数の増加に伴ってどれほど増大するかを示すことができる。用語「拡張性」という用語は、このスケーラビリティの後者の使用を示すことが多い。

従って、今日のデータセンタの需要を満足させる場合の主な課題は、数千のｃノードを超えて数十万又は数百万にまでスケーリングする方法、及びこのような大きなシステムを効果的に管理する方法である。

二次的課題：レイテンシー、帯域幅、及び到達可能性
大きなシステムの効果的且つ効率的な統合に影響を与える他の課題は、レイテンシー及び経路到達可能性（２つのエンドポイントが通信できる潜在的に利用可能な経路の数）、冗長性（障害時に利用可能なハードウエア）並びに水平及び垂直スケーラビリティを含む。多くのアプリケーションにおいて、レイテンシーは、ルーティングテーブルから、又は２つの通信エンドポイント間のツリー又は他のノード構造の既知の距離から予測可能である場合が多いので、レイテンシーは、ノード間の帯域幅ほど重要ではない。

これらの課題は、小型から中型サイズのインスタレーションにおいて満足のいくように対処されているが、次世代インスタレーションでは、ファブリック及びその管理が数百万のｃノードに拡張すると、これらの制約を満足させることは、多くの場合、利用可能な満足のいく解決策がほとんど又は全くなく解決が困難であると思われる。本開示のこの部分の目的は、ＤＢＯＩ相互接続に基づくパケットフローファブリックの観点から問題を考えることによって、単純で十分に乗り越えられる解決策をどのように達成できるかを示すことである。

スイッチアーキテクチャでは、高到達可能性を活用することにより輻輳の可能性を増大させるという単純な理由から、到達可能性はレイテンシー又は帯域幅ほど重要ではない。トポロジーが高到達可能性を提供する場合には、可能性のある経路選択のセットは、多くの場合、ソフトウエアによる管理可能な数にまでプルーニングされることが多く、結果として、構造的に実施可能であるよりも少ないルートを有する最適以下のスパニングツリーをもたらす。

高性能コンピューティング（ＨＰＣ）では、帯域幅は、最優先課題であることが多く、レイテンシー二次的な役割を果たす。これは、Ｔｏｐ５００．ｏｒｇｓｉｔｅに挙げられた相互接続トポロジーから明らかである。トップ性能ＨＰＣは、３Ｄトロイダルトポロジーを有し、優良な到達可能性及び帯域幅を有するが、ツリー構造と比較した場合にトポロジーレイテンシーが劣悪である。（劣悪なトポロジカルレイテンシーは、通常は付加的なハードウエア及びソフトウエアを犠牲にして、総メッセージレイテンシーを向上させるための高速回路及び様々な動的アルゴリズムルーティング手段を伴うアーキテクチャ選択によって改善できることが多い）。

高到達可能性は、ｆノードが故障した場合にｃノード間の通信を維持するための経路冗長性及び基盤を提供するが、過剰である可能性がある。ルーティングテーブルは、効率的な配信を保証する選択が行えるように、最良の経路を反映しなくてはならない。高到達可能性では、このようなテーブルのサイズは、大量のメモリを消費して優良経路の検索時間を増大させるほど大きくなり、従って、メッセージレイテンシーが増大する可能性がある。一般的な解決策は、管理可能なサイズまでテーブルをプルーニングして到達可能性を効果的に低減することである。加えて、今日の相互接続で使用されるスイッチは、通常、輻輳を検出及び制御するための専用ハードウエアを有する。単純なスイッチング機能を超えたこのような管理ハードウエアは、データプレーンをシャドーする制御プレーンによって補足されることが多い。

ルーティングテーブルのないスイッチレスファブリックでは、到達可能性を活用する幾つかの方法があり、各ノードに到達したときに全ての可能性のある順方向経路上ので単にブロードキャストするか、又はメッセージを最も近い非ビジーｆノードに向ける。グリッド又は３Ｄトーラス上では、最適経路はノード間の最短マンハッタン距離である。他のトポロジーでは、効率的なパケットフロールーティングを達成するための同様に単純なローカルアルゴリズムが存在する。

データセンタの実施例
データセンタ相互接続は、一般に、リーフとしてサーバ又はコンピューティングノードを有する２層又は３層ツリーで構成されたスイッチング及びルーティングモジュール（上記ではｆノードと呼ばれる）のネットワークからなる。一般的な手法は、サーバのラックをマルチポート「トップ−オブ−ラック」（ＴＯＲ）スイッチと相互接続することである。一般的な構成では、ラックは４０サーバを包含し、ＴＯＲスイッチは４８ポートを有し、そのうちの８つは層２スイッチに接続される。ラックは、列をなして配列され、「エンド−オブ−ロー」（ＥＯＲ）スイッチが、ＴＯＲスイッチからのトラフィックを連結させる。ＥＯＲスイッチは、９６又は１２８ポートを有することが多い。複数の列が、最大２８８ポートを有することができる（一般的には、各列に１２スイッチを有する２４ポートクロスポイントスイッチの３つの層からなる）「コア」スイッチと呼ばれることが多い層３スイッチをフィードする。３つの各層が帯域幅ボトルネックを生じるので、これによってラック対ラック通信が、層２及び層３スイッチの帯域幅によって制限される点に留意されたい。加えて、このトポロジーは、ツリーにおけるより高次の各層において次第に専門化されより高価なスイッチモジュールを必要とする。

この１つに類似したファブリックが、Ａｌ−Ｆａｒｅｓ等による実施例として提示されており、［１］ここでは、１１，５２０サーバを有するデータセンタに対して各々が１２ラックの２４列からなる相互接続が記載されている。図１５は、「共通データセンタ相互接続トポロジー」として参照文献１に与えられた実施例を再現している。これは、先行する段落において記載されるように各エッジスイッチが現在では約４０サーバをサポートしている点で実際のデータセンタ使用における単純化を表している。

図１５は、３レベルツリーとして構成された３つのスイッチング層を示している。ホスト対スイッチリンク（緑）はギガビットイーサネットであり、スイッチ間のリンク（赤）は１０ギガビットイーサネットである。

ツリー構造が（レベル数の対数に比例して）適正なレイテンシーを提供するが、レベル間の帯域幅は、実際には減少し、帯域幅スケーラビリティの欠如をもたらす（すなわち、上記の実施例のように４０サーバが存在する場合、ツリーの次のレベルに対しては８つの等価リンクしか存在しない）。加えて、管理の複雑さはレベルと共に増大し、より大きなルーティングテーブルが必要となる。幾つかのスイッチの出力層は通常、データコンセントレータを利用し、より高い帯域幅ポートを使用するが、上位レベルでの帯域幅は、エンドポイント又はツリーのリーフに対しては総帯域幅のほんのわずかである。これは、多くの相互接続トポロジーに関して当てはまるが、スイッチ又はその他のツリー構造は、恐らくは、ノード対ノード距離が増加したときの帯域幅を減少させる点で最悪の違反である。ファットツリーの使用（以下）は、帯域幅問題を軽減するが、これを取り除くことはない。上記の実施例は、主にネットワークトポロジーの結果であり特定のアーキテクチャ（ハードウエア）ではない、帯域幅とレイテンシーとの間のトレードオフを示している。

「アーキテクチャ」は、通信ネットワークの設計を指し、物理的な構成要素、機能的編成、データフォーマット、及び動作手順を含む。「トポロジー」は、ネットワークの様々なノード間の相互接続のパターンを指す。物理的トポロジーは、ケーブル及びネットワークノードの構成を指す。トポロジーは、ノード、リンク、及び到達可能性を包含するグラフ理論的な概念であり、他方、アーキテクチャは、エンジニアリングを指す。２つの用語は同義的に使用されることが多い。

高性能コンピューティングの実施例
高性能コンピュータ（ＨＰＣ）又はスーパーコンピュータで見られることが多い方式は、各ｆノードがそれに最も近い近傍に接続されている、ｆノードの規則的グリッドを使用することである。ｆノードは、ホスト自体に組み入れられるか、又はホストチャネルアダプタ（ＨＣＡ）の一部であることが多い。ＣｒａｙのＧｅｍｉｎｉ［２］及び富士通のＴｏｆｕ［３］の両方は、各ｆノードが東及び西方向、北及び南方向、並びに上及び下方向でそれに最も近い近傍に接続される、ｆノードのグリッドである３次元トーラスを使用する。すなわち、各ｆノードは、６双方向又は二重接続を有し、その各々は、帯域幅を拡張するためにマルチデータチャネルを保持することができる。トーラスを形成するために、３Ｄグリッドの上部表面（上方向）のｆノードは、下部（下方向）上の対応するｆノードに接続するために周囲に配置され、構造の他の面も同様である。

ｆノードの規則的グリッド又はトーラスにおけるトラフィックは、多くの場合、ＩｎｆｉｎｉＢａｎｄベースのトーラスと同様にスイッチによってルーティングされる。一般に、効率的な方式におけるｆノードからｆノードへのデータフローは、ノードホップの要求数を形成後に指定宛先に到着する。ファブリック直径、及び従ってメッセージレイテンシーは、ｃノードの数の立方根（３Ｄファブリックにおける）にほぼ比例する。

高性能コンピューティングでは、アーキテクチャが、ｆノード間の通信接続及びｆノードからｃノードへの接続のための専用ハードウエアからなることが多い。優れた帯域幅性能に関わらず、このような解決策は、広範囲の商業市場よりも特定の機械用に設計されることが多いデータセンタ及びクラウドコンピューティングで使用するには単純に高価すぎる。

現在の解決策
データセンタサイズを増加させることによって遭遇するこれらの主要な課題に対する解決策は、現在のところ、低レイテンシー及び高帯域幅の制約が与えられた場合に、スケーラビリティ及びファブリック管理の特定の問題に対する満足のいく回答を見つけることを求めて研究されている。作業は、「スケーラブルイーサネット」アーキテクチャ［４］の範囲で、及びＩｎｆｉｎｉＢａｎｄを更に大きなシステムに拡張する際に行われてきた。Ｃｉｓｃｏ及びＨｅｗｌｅｔｔ−Ｐａｃｋａｒｄのような主要事業者の一部は、ＩｎｆｉｎｉＢａｎｄがそれ独自の固有の問題を有するとしても、大きなデータセンタの需要に対処するためにその専用のＩｎｆｉｎｉＢａｎｄ製品を拡張することを期待している。

ＨＰＣ手法とは別に、業界では、何れの解決策もＩｎｆｉｎｉＢａｎｄ又はイーサネットに基づく既存のハードウエアを包含しなければならないと大部分が判断しているように見え、従って、取り組みの大部分は、スイッチの大きなファブリックを管理する問題を克服するためにソフトウエアの次善策に投入されている。参照１及び以下に示される他の論文から、現在の取り組みの大部分がイーサネットを大きなデータセンタにすることに集中していることが明らかである。一例として、ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＪｏｕｒｎａｌの最新号は、表向きはクラウドに向けられているイーサネットルーティングにおけるある特定の進歩を論じており、これにより「フラットアドレススペースによってかなり大きな層２クラウドが作成されるのを可能にする」［５］。

コモディティハードウエアに寄せられたこの期待は、イーサネット及びそのプロトコルの広範囲の習熟並びにイーサネットデバイス及びモジュールの「コモディティ」性質を考慮すると、予想されることである。これらの習熟した解決策が妥当な限界を超えることは本開示のこの部分の見解であり、以下の内容がレイテンシー、到達可能性、及び帯域幅の制約を満たすと同時に主要な問題に対するより単純で安価な解決策への道を拓くことになると期待される。

高効率ＶＬＳＩ設計であることに起因して、今日のイーサネット及びＩｎｆｉｎｉＢａｎｄスイッチは、単純なクロスオーバ（クロスバー、クロスポイント）又はスイッチング要素のマトリックスに基づいている。ｎポイントを接続するこのようなスイッチは、ｎ入力回線をｎ出力回線に接続するｎ＾２スイッチング要素を有し、従って、大きなｎにスケーリングする問題を有する。何れの入力回線も出力回線の何れかの単一の回線に接続することができ、或いは、出力回線のどれにも接続しなくてもよい。このようなスイッチは、他の何れかの経路と干渉する経路がないので、厳密には非ブロッキングである。スイッチモジュールは、一般に、入力チャネルバッファ、出力チャネルバッファ、ルーティング及びポート仲裁論理によってクロスバーを取り囲む。全体性は、輻輳識別、フロー制御及び他の管理機能のための別々の管理モジュールによって制御される。

レガシー方式
ほとんどのスイッチ相互接続モジュールが元々はｃノードの制限された数に対応するように設計されているので、これらのデバイスからｆノードによって大きなネットワークを構築ことは、一般に、レイテンシー、帯域幅、スケーラビリティ、ハードウエアコスト、及びソフトウエア管理の間の妥協を伴う。より大きな相互接続は、一般に、様々の異なるトポロジーで構成できるスイッチのネットワーク形式で１つのモジュールを別のモジュールに結合することによって、より小さな相互接続モジュールから構築される。最も一般的な構成は、ストレージノード、コンピューティングノード、及び他のこのようなネットワークへのゲートウエイの異種混合に対応するスイッチの非構造メッシュの構成である。非構造メッシュは、ｆノードの効率的な構成ではなく、また、ｃノードの大きな数に対して容易に管理可能なネットワークをもたらすものでもない。

このようなネットワークにおける各スイッチは、１又はそれ以上のホストコンピュータに接続し、また、１又はそれ以上のストレージデバイスに接続することができる。加えて、スイッチ対スイッチ接続及びスイッチ対コンセントレータ接続が存在することができる。スイッチ対スイッチ接続は、一般に、スイッチ対ホスト又はスイッチ対ストレージ接続よりも高帯域幅のものである。コンセントレータは、高レベルスイッチに組み入れられることが多く、１又はそれ以上のスイッチ型ファブリックと他のデータネットワークへのゲートウエイのような他のデバイスとの間のブリッジを提供して、１又はそれ以上のスイッチから入力を取る。これらのシステムを介したデータの送信は、既存のトラフィックを考慮に入れて、宛先として内部的に管理しなくてはならない。ツリーのより高レベルでは、例えば、メッセージは、より高い帯域幅でスイッチ対スイッチトラフィック用にパッケージされて、個々のエンドポイント（ホストコンピュータ又はストレージデバイス）に分散するようアンパックされる必要がある。

上述したように、研究者は、コモディティスイッチ、特にＩｎｆｉｎｉＢａｎｄ及びイーサネット系に関する相互接続問題に対処しようとしている。研究者らが示す目標は、一般に、「スケーラブルで、容易に管理可能であり、耐故障で、効率的な」並びに費用対効果の高いデータセンタである。これらの問題に対する１つの解決策は、トポロジーの選択にあると思われる。しかしながら、特定のトポロジーは、ｃノードの大きな数に対応するのに効果的であるが、大きなルーティング情報ベース（ＲＩＢ）の形式が大きくなるほどファブリック管理の難しさが増大し、ソフトウエアの高度さも増し、又はシステム性能に影響を与える付加的な管理トラフィックも増大する。

スーパーコンピュータインスタレーションは、一般に、これらのクラスのうちの１つに従う計画された相互接続に有利に働く。他方、データセンタは、専門スイッチによって結合されゲートウエイによって拡張される相互接続の異種混合からなることが多い。相互接続及びゲートウエイの両方は、アーキテクチャの再設計又はノードの再構成なしにｃノードの数を大きなネットワークに拡張することを可能にする目的で、非構造メッシュで接続される。この計画されていない有機的拡張は、ブロードキャストの間のデータスキュー（到着の不確実性）、予測できない大きなレイテンシー、及びメッセージを失う輻輳ネットワークをもたらし、結果としてシステム性能の劣化を生じる再送信を必要とする。

帯域幅中心又はレイテンシー−中心ネットワークのどちらが重要であるか？これは、ネットワーク設計における重要な問題である。ノード帯域幅は、アーキテクチャの課題であり、例えば、高帯域幅構成要素を使用する際、又はファブリックにおける各ｆノードを複製することによって通信チャネルを複製する際に、所与のノードに対するハードウエアリソースを増加させることに関する問題である場合が多い。レイテンシーへのネットワーク直径の寄与は、常に物理的トポロジーに依存する。例えば、レイテンシーは、３次元メッシュに対してｍ＾（１／３）として増大するが、ツリー構造に対してはｌｏｇｍだけ増大し、ここでｍはｆノードの数である。

現在の解決策に対する批評
現時点での困難さは、イーサネット、ＩｎｆｉｎｉＢａｎｄ、又は専用であるかどうかに関わらず、スイッチの使用から大きなデータセンタステムによって課せられる問題を克服しようとすることである。新しいファブリックトポロジーがこれらの問題の一部に対処しているが、スイッチの使用は、ファブリック内のメッセージのトップダウンルーティングに関連する幾つかの問題を依然として引き起こす。過去のファブリック管理解決策は、人間が利用しなくてはならない特別な取り組みによって示されるような大きな数のエンドポイントにスケーラブルできないことが多い。

現在の解決策は、以下の３つの領域に対処することができない：増加する複雑さ及び高コストのスイッチの階層を有する異種ハードウエア、ポートコンテンションに加えてスイッチングの各レベルでの輻輳、及び有用な性能を獲得するためのスパニングツリーアルゴリズム及び分散ルーティングテーブルに対する必要性。

新しいトポロジーは、スケーラビリティの問題及び異種混在問題を解決すると同時に、ｃノードの極めて大きな数に拡張されたときにファブリック管理の問題を明確に示す。スパニングツリー及びルーティングテーブルの使用は、相対的に小さなインスタレーションに対して更に扱い難くなり、より大きなインスタレーションに対しては、大きな到達可能性及び低レイテンシーの制約下でのファブリック管理問題が扱い難いものになる可能性がある。

ネットワークトポロジーに関する以下の段落は、これらの課題の一部を明確にしなければならず、スイッチレスＤＢＯＩｆノードのパケットフローの性質が与えられた場合、重要な制約を満たしながら、これらの困難さに対する満足のいく解決策を示す。

ネットワークトポロジー
序文
共通の分類に基づく可能性のあるネットワークトポロジーの大きな数が存在するが［６］、本開示のこの部分は、サーバファーム、クラウドコンピューティング、及び高性能コンピューティングにおいて最も一般的に見られるトポロジーのうちの幾つかに集中するであろう。具体的には、考慮されるトポロジーは、ツリー構造、規則的メッシュ及びトーラスファブリックに対する変形形態、及び１９５３Ｃｌｏｓネットワークの修正形態になるであろう［７］。

これらの様々な相互接続のベースとなるアーキテクチャは、スイッチモジュールのネットワークに基づき、この場合スイッチモジュールは、一般に、イーサネット［８］又はＩｎｆｉｎｉＢａｎｄ［９］スイッチのような市販されているマルチポートデバイスである。当該文献で見られる実施例の幾つかの例証を除いて、異種モジュールが使用される場合、以下の実施例のほとんどは、全てのｆノードが互換可能であり、同一の機能を有する等価のハードウエアモジュールからなる均一なアーキテクチャを考慮することになる。この理由は、インスタレーションの単純さ及び費用対効果の高さ、並びにファブリック管理及びメンテナンスの容易さである。

本開示のこの部分の主な目的は、上記で紹介されたＤＢＯＩモジュールに対する相互接続アーキテクチャをベースとする方法を示して、イーサネット、ＩｎｆｉｎｉＢａｎｄ、及び専用の解決策に優るＤＢＯＩの利点を提示することである。異種アーキテクチャの高コスト及び過剰な複雑さを避けるために、検討されるファブリックは、同一のｆノードを有することにする。すなわち、対象となるアーキテクチャは全て、均一な設計及び機能の互換可能なモジュラーファブリックに基づくことになる。

選択されたトポロジー
以下の段落において分析するためにどのファブリックを選択するかの基準は、２つの因子に依存し、ファブリック均質性及びトポロジーの単純さである。

ファブリックの均質性は、同じｆノード及びｆノード間の接続がファブリック全体を通して使用される点でアーキテクチャが均一であることを意味する。これは、図１５で上述されたアーキテクチャとは完全に対照的である。トポロジーの単純さは、ゲートウエイによって結合されたファブリックのような混合トポロジーが回避されることを意味する。これら２つの基準に準拠することによって、結果として生じるファブリックは、分析が単純であり、構築及び維持が容易で高価ではない。

ツリートポロジー
単純なツリートポロジーは、直径及びスケーラビリティの観点からの最良の選択の１つである。ｎリーフ又はｃノードでは、レベルの数はｌｏｇ（対数）ｎに比例する。図９に示されたツリーでは、各ノードに対して下向きに２つのリンクがあり、レベルの数はｌｏｇ₂ｎである。

図９は、一般的なバイナリツリートポロジーを示している。ｆノードは青色であり、リーフ又はｃノードはオレンジ色である。各双方向リンクは同じ帯域幅を有し、各ｆノードは、次に低いレベルへの２つの下向きリンクと、次に高いレベルへの上向きに接続する１つのポートとを有する。ルートノードは、リーフの何れかと同様にゲートウエイへの接続を有することができる。構造は、サブツリーがリーフを置き換えることができ、新しいツリーを作成するという意味で再帰的である。完全なツリーは、各レベルのサブツリーが同一であるツリーである。

ｃノードの数
ポートのｋがツリー内の双方向トラフィックに対して確保され、各リーフノードが１つのポートを使用するｐポートを有するモジュールに基づくツリーでは、ツリーにおけるレベルの関数としてのｃノードの数は、次式で与えられる。
式（１）
ここでｌは、ツリーにおけるレベルの数である。例えば、図９では、左ブランチは、３レベル、ｐ＝３及びｋ＝１を備えた７ｆノード及び８ｃノードを有する。ツリーのアリティはｐ／ｋ−１、又は２（すなわち、バイナリ）である。

各ｆノードに対して２４ダウンリンク及び８アップリンクを有する３２ポートモジュールでは、７レベルツリーに対して可能なノードの数は、１７，４９６である。各ｆノードは、３つの（アリティが３）低レベルｆノード及び１つの高レベルｆノードに接続されることになる。この数は、直径がレベルに比例して増加する（具体的には２ｌ−１として）間にレベルと共に指数的に増大する。関係付けられる量、すなわち２つのノード間の距離は、移動しなければならないリンクの数であり、別に記載されるように、この距離は、２つの通信ノードを包含するサブツリーの直径である。

スケーラビリティ（１）
サブツリーを追加してリーフの１つを交換することによって、ｃノードの数は、ｆノードの数が１ずつ増える間にｐ−ｋ−１ずつ増える。この関係は何れのレベルでも保たれる。ツリーの下部での各ｆノードがｐ−ｋｃノードに関連付けられるので、シングルノードスケーラビリティは、これらの２つの数の比となり、すなわち、次式になる。
式（２）
これは常に１未満である。１に近いスケーラビリティは、ツリートポロジーを選択して強力なポイントである。

レイテンシー及び直径
ツリー構造のレイテンシーはまた、ネットワーク直径が２ｌ−１である（レイテンシーが直径＋一定のオーバヘッドに比例する）ので全く適正であり、直径は次式の通りである。
式（３）
この低直径は、ツリートポロジーを選択した主ポイントの１つである。

ｆノードの数
各々がｐポートを有するモジュールの数ｍ、は、ツリーの各レベルにおけるモジュールを合計することによって見出され、次式の通りである。
式（４）

密度
ここで、密度は、ｃノードの数とｆノードの数との比であり、付加的ｃノードを追加するコストの尺度である。完全な式は次式のように与えられる。
式（５）
ここでαは、上記で定義されたようにアリティである。この式は、多くのレベルツリーに対してｐ−２ｋを近似し、この数が２又はそれ以上である時にツリー構造に対する更に別の引数である。

バイセクション帯域幅
バイセクション帯域幅は、ツリーを２つの等しい部分に分割するために分断しなければならない接続の数である。図を参照すると、値が単純にルートノードに入る接続の半分であることが容易に分かる。
式（６）
バイセクション帯域幅に対するこの多少劣悪な値は、ツリー構造に対する主引数である。

総ポート及び接続
双方向ポートの数は次式で与えられる。
式（７）

ファブリックでは、各ポートは、スイッチ型ファブリックに対する二重接続及びＤＢＯＩベースのモジュールに対する双方向接続によって別のポートに接続される。ツリーのリーフにおけるポートはｃノードに接続される。

到達可能性（２つのノード間の経路における）
何れか２つのｃノード間の可能性のある経路の数は、メッセージがツリーを横断する時に取ることができる可能性のある接続をカウントして、何れか２つのｆノード間の経路の多重性を考慮に入れることによって見つけることができる。
式（８）
ｌ^*は、２つのｃノードを接続するサブツリーにおけるレベルの数である。同じレベル上の２つのノードに対して、到達可能性はかなり小さい点に留意されたい。これは、通信ノード間の距離が増すにつれて深刻な問題になる、２つの近接ノード間のトラフィックが重いファブリックトラフィックによって著しく損なわれるようなものではないので、それほどには制限されない。有用であることが多い関連の尺度は、特定の到達可能性又は経路密度（ｃノードの数によって分割された潜在的な経路の数）である。

スケーラビリティ（２）
ツリーのサイズは、ツリーを二倍にして両方の半分を新しいルートノードに接続することによって二倍にすることができる。このような倍加のためのネットワークリソースの数とコンピューティングリソースの数との比として定義される倍加スケーラビリティ、すなわちＳは、次式で与えられる。
式（９）
ここで、式は、ｆノードのレベル又は数が増えるにつれて１に近付く。この近理想のスケーラビリティは、ツリートポロジーを選択する適正な引数である。

要約
表１は、ｐポートモジュールから構築されたツリーの特性の要約である。ファブリックスケーラビリティがほぼ１であり、これは、本開示のこの部分で使用される定義の下で実施可能な最大値である点に留意されたい。

ツリートポロジーの主な欠点は、その帯域幅特性にある。ノード対ノードトラフィック、特に異なるサブツリー上のノード間のトラフィックは、より多くのノードがサブツリー全体にわたって通信しようとするときに、リンクにより厳しい要求を課す。高レベルのリンクは、トラフィックによってすぐに輻輳する可能性があるが、トラフィックがクリアされるまで効果的にサブツリーをシャットオフする。

評価：レベル間のマルチリンクを有するツリートポロジーは、ノードの数がレベルと共に指数的に増大する近最適スケーラビリティを有する。直径、及び従ってレイテンシーは小さく、ノード到達可能性は異なるサブツリー上のノード間で低く、サブツリーサイズと共に減少する。加えて、ノード密度（１ｆノード当たりのｃノードの数）は適度に良好で、１ｆノード当たりのポートの数より幾分小さい。ノード間の帯域幅は、マルチディスタントノードが同時に通信する必要がある時に現れる帯域幅ボトルネックによって制限されている。バイセクション帯域幅は同様に少なく、本質的には最小である。ツリートポロジーは、良好なスケーラビリティ、低レイテンシー、及びｃノードの大きな数が重要である時に最も有用である。

ファットツリートポロジー
序文
ファットツリーは、元はＬｅｉｓｅｒｓｏｎ［１０］によって論じられているが、レベル間のリンクの帯域幅が、ｃノード間のトラフィックを適切に処理するために増加するという利点を有する。理想的には、総帯域幅は、リーフ又はｃノードレベルから始まってレベル間で一定になる。この条件は、図１５に示されたファットツリーのような今日の商用スイッチ（ＩｎｆｉｎｉＢａｎｄ又はイーサネットの何れでも）を使用するツリー構造にとって実現可能ではない。ファットツリーのノード到達可能性は、２つのノードを接続する何れかのサブツリーを通る付加的な潜在的経路に起因して単純なツリーよりも遙かに改善される。低メッセージレイテンシーの利点は、単純なツリーのようにファットツリーに対して保たれる。

シンプルツリーのスケーラビリティの利点は、スケーラビリティが選択されたｆノード上のｃノードを幾つかのｆノードによって置き換えることによって達成されるので、ファットツリーにおいては失われる。ファットツリーでは、全てのポートが、ｃノード又は他のｆノードへのリンクによって使用され、ファブリックを飽和させる。常にｃノードをｆノードに置き換えることができるが、レベルと共に増加するリンク数のアーキテクチャが破壊される。結果として生じるツリー構造は、確かにツリートポロジーを有するが、ファットツリーのアーキテクチャではない。この理由のため、厳密な意味でのスケーラビリティはゼロでなければならない。

ファットツリーは、ＩｎｆｉｎｉＢａｎｄクラスタの好ましいトポロジーであることが多いが、スイッチファットツリーの欠点は、レベルが増大したときに、スイッチ及びコンセントレータが高コストで複雑であることである。この理由のため、単純なスイッチに基づいてファブリックを構築する他の手段がこの研究の主題である（以下を参照）。このセクションの序文では、ファブリックが理想的には同一のｆノードから構築されるべきであることが明記されていた。

倍加ファットツリー
良好な到達可能性、帯域幅、及び小直径を有するファットツリーの特定の事例は、「倍加」ファットツリーであり、ここではｆノード間の接続の数が各レベルで二倍になる（又は他の何らかの一定の乗数で増加する）。各ｃノードは、ｆノードの下部列への１つの接続を有し、各下部列ｆノードは、ｆノードの次の列の各々への２つの接続を有し、以下同様である。一般に、倍加とは、各ｆノードによって所有されるポートの数が２の累乗であることを示している。全てのマルチポート相互接続が、２の累乗に基づくわけではないので、一般的なケースを考察するのは有益である。１ｆノード当たりのポートの素数ｐ（例えば、７ポート）に対して、ツリーには１つのノードしかなく、換言すると、ツリーは単純に、取り付けられたｃノードとの相互接続からなる。図１０は、ｆノードポートの数ｐが幾つかの素因数を有する一般的なケースを示している。ｆノードのアリティがリーフからルートに低下する点に留意されたい。

図１０は、１２ポートｆノードを有する完全なファットツリーの図である。ｆノードは青色であり、リーフ又はｃノードはオレンジ色であり、ｃノードの１つのブランチだけが示されている。エッジ又はリーフの帯域幅は、ｃノードに対して１に正規化される。各ｆノードからの帯域幅は、２の因数だけ増加する（このケースでは）。１２の因数は、３、２、２、１であり、よって、ルートレベルのサブツリーの数が第１因数すなわち３である。低レベルから高レベルへの接続の数は、常に合計すると利用可能ポート数になる。この実施例では３レベルを有する。

ｐが素数でも必ずしも２の累乗でもない一般的なケースは、シンプルツリーの場合のように良好なレイテンシーを有するファブリック、及びシンプルツリーよりも優れた向上した帯域幅及び経路到達可能性を結果として生じることが分かる。様々な特性の値に対する閉形式表現は、ポートの数ｐの素数の積及び差に基づくように単純に有益ではない。補遺は、倍加ファットツリーの構成に対するアルゴリズムを提供し、表２は、ｐの幾つかの異なる値に対する幾つかの特定の実施例を与える。

表２では、１２のラベルが付けられた縦列が上記の図１０に対応する。３２ポートの縦列は、３２方向ＤＢＯＩ相互接続に対応し、４８ポートモジュールは、イーサネット及びＩｎｆｉｎｉＢａｎｄデバイスの両方に共通して見られる。７２ポートエントリは、ＤＢＯＩファミリの別の要素を表す。

係数ファットツリー（上記に例示）は、第１の２つの因数をルートレベルに組み入れることによって平らにすることができる。従って、因数分解４^*２^*２^*２によって、３２ポートを有するｆノードを用いて、上記の表に示された５レベル構造と同じｃノードの数によって４レベルツリーを構成することができる。密度は、わずかに小さくなるだけであるが、直径は１単位減少し、レベルの小さな数に対しては有意となる可能性がある。因数が２の累乗ではないツリーのレベルを折り畳むことは、常に少ないｃノードを生じることになる点に留意されたい。

要約
ファットツリーファブリックは、全てのポートが使用され（ツリーが飽和される）、更にｃノードをｆノードに置き換えることがトポロジーを維持しながらもアーキテクチャを「破壊する」ことになるので、スケーラブルではない。すなわち、トポロジーは、ツリーのトポロジーのままであるが、ファットツリーのアーキテクチャは、このような追加後にこれ以上保持されない。

ファットツリーがシンプルツリーよりも優れた顕著な帯域幅改善を示す場合、帯域幅は、特に到来クエリが全てのノードを包含するパラレルサーチを要求する（例えば、全てのｃノード又はウェブページ検索に一般的に存在する逆の索引を使用したデータベースサーチが多数のサーバからの情報を要求する）アプリケーションにおいて課題として残されたままである。これらのアクセス制約の結果、多くのｃノードが頻繁な通信を必要として、恐らくは全ツリーにわたり、従って、輻輳及びボトルネックを生じる。上記のように、ノード対ノードトラフィックは、ファブリックを迅速に圧倒することができる。

評価：ファットツリートポロジーは、小さな直径（従って、低レイテンシー）を有すると同時に多数のｃノードをサポートする。ノード到達可能性は、シンプルツリーよりも確実に改善されるが、ディスタントノードに対しては小さいままである。ノード密度（１ｆノード当たりのｃノードの数）は、以前と同じぐらいに留まる。帯域幅はシンプルツリーよりも優れた改善を示すが、これは、複数のディスタントノードが同時に通信する必要がある時に現れる帯域幅ボトルネックによって制限される。バイセクション帯域幅は依然として不良である。ファットツリーはシンプルツリーよりも改善されているが、帯域幅及び到達可能性で依然として不足している。何れのツリー構造に対する最適引数も、低レイテンシーのままである。

Ｃｌｏｓトポロジー
Ｃｌｏｓトポロジー（参照７を参照）は、元々は、３層のスイッチによって出力層に結合されたノードの入力層からなっていた。入力層及び出力層の両方にｎのノードが存在する。第１スイッチ層は、各々がｎ入力及びｍ出力を有するｒスイッチを有し、中間層は、各々がｒ^*ｒスイッチを有するｍを有し、第３層は、各々がｍ^*ｎスイッチを有するｒを有していた。対称Ｃｌｏｓネットワークは、ｒ＝ｍ＝ｎを用いることによって定義することができる。ｃノードの数を二倍にする変形形態は、全てのノード間に双方向リンクを有する。図１１は、双方向リンク及び１ｆノード当たり８ポートを備えた対称Ｃｌｏｓネットワークを示している。（ｐポートを備えた単一ｆノードは、厳密にｐ個のｃノードをサポートする）。以下に示されたＣｌｏｓネットワークは、ｐのみの双方向ポートを備えたｆノードを使用して、２（ｐ／２）＾２ｃノードをサポートする。

図１１は、双方向リンクを有する対称Ｃｌｏｓトポロジーの図である。この実施例は、８ポートモジュールによって構成されている。

表３は、対称Ｃｌｏｓトポロジーの特性を要約しており、各値に対する記号表示を示している。

ツリートポロジー（未使用のポート又はルートレベルのポートを有する）とは異なり、ｃノードの数を拡張するための利用可能なノードは存在せず、すなわち、Ｃｌｏｓネットワークはスケーラブルではない。実際には、これは、全ての利用可能なポートが使用されるので「飽和」と呼ぶことができる。ｃノードの数を増やす唯一の方法は、より多くのポートを有するｆノードを使用することである。当然ながら、１又はそれ以上のｃノードを別のネットワークへのゲートウエイによって置き換えることができるが、これは、トポロジーを破壊し、システム全体にわたってリップする問題を引き起こし、メッセージ受け渡し、ルーティングテーブル、及びアルゴリズムなどに影響を与える。

図１１のファブリックは中間層が取り除かれているが、ＲＩＳＣＳＰシステム［１１］においてＩＢＭによって使用された。しかしながら、結果として生じる２層ネットワークがブロッキングされていることは容易に分かる。これはＣｌｏｓネットワークに似ているが、特に特定の緩やかな条件下で、Ｃｌｏｓネットワークが再配列可能に非ブロッキングであることが公知であるので、２層システムは、Ｃｌｏｓファミリであるとは考えられない。（ｍ＝ｎを有する上記のネットワークは、参照７で考察されるように再配列可能に非ブロッキングである）。しかしながら、経路再配列に必要な時間は、パケットネットワークにおいて法外なものであり、ほとんど使用されない。従って、３層Ｃｌｏｓは、ブロッキングネットワークと考えなくてはならならず、Ｃｌｏｓトポロジーに基づいてスイッチされる何れの層も同様である。

ポートが一方向として構成される場合、ネットワークは、全てのポートが飽和される前に二倍のｆノードの数を有するｃノードの二倍の数をサポートする。この場合、ファブリックの下部列は、ｐ²エンドポイントへの入力を包含し、上位行は、ファブリックから同じエンドポイントへの出力を包含する。

このネットワークは、全てのポートが使用されている時は厳密な意味でスケーラブルではなく、ｃノードをｆノードに置き換えることでトポロジーを「破壊」することになる。

評価：全てのポートの間の双方向リンクを有する対称Ｃｌｏｓトポロジーは、小さな直径（従って低レイテンシー）、適切な密度（ツリートポロジーと同程度）、及び適切なバイセクション帯域幅を有する。付加的な中間層を追加することは、ｃノード間の到達可能性又は経路冗長性並びにバイセクション帯域幅を大幅に増大させる。全てのポートが完全に占有されるので、スケーラビリティは存在しない。低レイテンシー、高到達可能性、及び高バイセクション帯域幅が重要である場合、Ｃｌｏｓトポロジーは小さなインスタレーション（約５０００ｃノード未満）に対する適切な選択肢である。

増大Ｃｌｏｓネットワーク
上記と同じＣｌｏｓネットワークを維持するが、参照１にて定義されるように「ポッド」からなるようｆノードを再アーキテクトする場合、ｐ＾４にスケールするネットワークが取得され、従って、この増大ファブリックをより大きな数のｃノードに拡張する。この新しいアーキテクチャは、正規Ｃｌｏｓネットワークよりも高い帯域幅及び経路到達可能性を有すると同時に、２ｌユニットだけレイテンシーを増加させ、ここでレベルの数ｌは、上記で定義されたものである。Ｃｌｏｓトポロジーの厳密なファブリックスケーラビリティが存在しないにも関わらず、同じｆノード（ｐポートが本開示のこの部分全体を通して行われる）を使用するこの方法によって極めて大きなネットワークを構築することができる。図１９はこの構成を示している。

図１２は、増大対称Ｃｌｏｓトポロジーの図である。トポロジーは、上記の図１１と同一であるが、全体が４ポートｆノードから構成されている。ポッド又は合成ｆノードが、Ｃｌｏｓファブリックの右側に拡大図で示されている。

表４は、このポッドベースアーキテクチャの特性を要約している。

図１２の右側に示された合成ノードにおけるｆノードの各々は、この実施例ではｐ＝４であるｐポートモジュールから構成される。合成ｆモジュール又はポッドは、ｐ／２ノード各々の２つの完全に接続された列を備えたサブファブリックとして構築されている。この構築はトポロジーを不変性のままにし、ｆノードがｆノードのポッドによって置き換えられる。ｃノードの数がｐ⁴として増加し、単純な対称Ｃｌｏｓファブリックよりも効果的に遙かに速い点に留意されたい。しかしながら、多くのポートがポッド内で消費され、エンドポイント専用ではないので、密度（１つのｆノード当たりのｃノードの数）は、ｆノードポートの同じ数に対して半分である。当然、多くのｃノードをサポートするためのコストは、ファブリックハードウエアにおいて増加する。

評価：全てのポート間の双方向リンクを有する増大Ｃｌｏｓトポロジーは、小さな直径（従って低レイテンシー）を有する。そのバイセクション帯域幅は、対称Ｃｌｏｓファブリックよりも大幅に改善されるが、密度は減少している。上記のように、付加的な中間層が、更に低い密度を犠牲にしてｃノード間の到達可能性又は経路冗長性を大幅に増大させる。増大Ｃｌｏｓトポロジーは、約５０万と最大数千万のｃノード間の大きなインスタレーションに対する適切な選択肢である。より小さな数のｃノードは、単純にファブリックの部分実装によって実施可能である。

修正Ｃｌｏｓトポロジー
Ｖａｈｄａｔ及び共同研究者［１２］、及び参照１は、上記に定義された厳密な意味ではスケーラブルでないが、何れの２つのノード間の再配列可能な非ブロッキング接続を可能にする、Ｃｌｏｓネットワークの変形形態を提示している。著者注記。

「［修正されたＣｌｏｓ］トポロジーの利点は、全てのスイッチング要素が同一であり、我々に通信アーキテクチャにおけるスイッチの全てについて安価なコモディティ部品の活用を可能にすることである。更に［このファブリックは］再配列可能な非ブロッキングであり、任意の通信パターンに対して、トポロジーにおけるエンドホストに利用可能な帯域幅全てを飽和することになる経路の何らかのセットが存在することを意味する。」（参照１から）
図１３は、提案された修正Ｃｌｏｓネットワークを示す図である。

この非ブロッキングの判定は証明なしに行われ、第１レベルの出口ポートの数が参照７で説明されたホスト又はエッジレベルの出口ポートの数より大きいか又は等しい場合に、再配列可能な非ブロッキングであることが証明できるＣｌｏｓネットワークを備えたそのトポロジーの部分的な類似性に依存している。実際には、「再配列可能」修正子は、一般に、複雑なソフトウエア、バッファ、並びにフラッディング及びメッセージ再順序付けを包含するサポートテーブル又はルーティング法を必要とする。

このトポロジーが１つのモジュール当たりのポートの数をどのようにスケーリングするかを示すために、１つのモジュール当たり６ポートを有する図１４を検討する。トップ又はコア層に９モジュール、及び６ポッドの各々に６モジュールが存在する点に留意されたい（図１３では、４グループの各々に４モジュール及びコア層に４モジュールが存在する）。

図１４は、修正されたＣｌｏｓネットワークのｐ＾３特性を示す図である。この実施例では、ｆノードは６双方向ポートを有する（ｃノードもその接続も示されていない）。

要約
これらの２つの図（１３及び１４）から、ｐポートを有するモジュールを使用することによって可能になるエンドポイント、モジュール、及び接続の数を推測することは簡単である。バイセクション帯域幅及び到達可能性はまた、カウンティングエクササイズを通過した後で明らかになる。代替として、値は、ポートの数、ポッド構成、及びポート飽和制限、及びエッジ又はｃノードレベルを上回るレベルの数から推定することができる。直径は、何れかのツリー様構造と同様に、レベルの数の二倍未満の数に等しいままである。表５は、修正Ｃｌｏｓトポロジーの要約を提示している。

このネットワークは、全てのポートが使用される時にはスケーラブルではなく、ｃノードをｆノードに置き換えることでトポロジーを「破壊」することになる。しかしながら、上記のように、トポロジーを変えることなくこのファブリックをｃノードの大きな数に増大させる方法が存在する。

評価；修正Ｃｌｏｓトポロジーは、対称Ｃｌｏｓトポロジーに対して多くの点で類似している。最も興味深いずれは、そのｐ＾３ｃノードスケーラビリティである。加えて、このトポロジーは、小さな直径（従って低レイテンシー）、中程度の密度（コンピュートハードウエアとネットワークハードウエアとの比）、及び良好なバイセクション帯域幅を有する。このトポロジーは、ｆノードポートの数による密度及び水平スケーリングにおける前のセクションの２つのＣｌｏｓネットワークの間にある。

増大修正Ｃｌｏｓトポロジー
対称Ｃｌｏｓファブリックが（ｐ＾４）としてポート数でスケーリングするよう増大させることができるように、修正Ｃｌｏｓファブリックもまた、（ｐ＾６）としてポート数によってスケーリングするポッド概念によって増大させることができる。当然ながら、ポッドは、少ないポートだけを含むモジュールによっても極めて大きなファブリックを達成するように再帰的にネスト化することができる。極めて高いバイセクション帯域幅及び到達可能性を有し、適度なレイテンシー及びコンピュータリソース対ファブリックハードウエアの良好な比を備えた何億ものｃノードに対応するファブリックが、このトポロジーによって実施可能である。

相互接続モジュールのサブネットワークを含むポッドを扱う場合、用語「ｆノード」を特定のネットワークにおけるトポロジーノードを指すようにしておくのが好都合である。当該ノードを含む相互接続又はスイッチモジュールからファブリックノード又はｆノードを区別するために、このようなモジュールを「ｐモジュール」と呼び、ｐポートを有する同じサイズのモジュールがポッドを構成するのに使用されることを示している。この用語は、増大Ｃｌｏｓネットワーク及びｆノードがｐモジュールのポッドである何れかのファブリックにおいてのみ意味がある。参照１に与えられた修正Ｃｌｏｓファブリックの定義は、ｐポートモジュールを使用しており、これによって宛先「ｆノード」が当該ケースで保持されることになる点に留意されたい。

修正Ｃｌｏｓネットワークの各ｆノードは、ポッドによって置き換えられ（次いで、ポッドは、ポッドのポッドになる）、更に各ポッドは、各々がｐモジュールのｐからなる。これは、ポッドのポッドを構成するために直接的であるので、明らかに再帰的ファブリックであり、そのため、密度、帯域幅、及び到達可能性において改善されると同時にｐによって迅速にスケーリングするファブリックをもたらす。表６は、ポッドを増大した修正Ｃｌｏｓネットワークの特性を表している。

評価：増大された修正Ｃｌｏｓトポロジーは、修正Ｃｌｏｓトポロジーの特徴の全てを有するが、低密度、極めて多くのｃノード、遙かに大きなバイセクション帯域幅及び到達可能性を有し、全て直径の２^*増加（１未満）を犠牲にしている。極めて大きなネットワークでは、このトポロジーは、最も期待できるトポロジーの１つであるが、低ｃノード密度に起因して高コストである。

メッシュ／グリッド
メッシュは一般的にコストの高いファイバチャネルスイッチを必要とするので、最も高価なトポロジーであると一般的に考えられている。この視点は、規則的グリッドトポロジーの特別なケースでも存在するように思われる。メッシュスケーラビリティはまた、最適として認識され、メッシュは良好な帯域幅スケーラビリティ（以下）を有する。次の段落から分かるように、ファイバチャネルスイッチに対する必要性は、メッシュアーキテクチャに固有のものではない。

規則的グリッドトポロジーの特性は、多くのスーパーコンピュータ設計のための明確な選択になり、この場合、高到達可能性、バイセクション帯域幅、及び拡張可能性（水平スケーラビリティ）が重要である。

図１５は、規則的２次元グリッド上に間隔を置いて配置されたメッシュ相互接続を示している。両方向矢印によって表されるノードの各々の間に双方向接続が存在する。接続されていない矢印の端は、他の類似のｆノード／ｃノード組合せに接続され、又はトーラスを形成する最も遠いグリッドパートナーに接続するためにラップアラウンドすることができる。

図１５は、規則的グリッド上の２次元メッシュの図である。９つのｆノードが、対応する９つのｃノード複合体（同心のオレンジの円）と共に示されている（青い円）。各ｆノードは、高帯域幅の双方向接続（黒の両方向矢印）によって南北及び東西方向にその４つの最近の隣接ノードに接続されている。ｃノード複合体は、個々のｃノードの少なくとも１つ及び恐らくは１２又はそれ以上を包含する。

到達可能性
到達可能性又は２次元における経路数は、２つの格子ポイント間の格子上を進む可能性のある経路の数として２項係数によって与えられる。これらの経路の各々は、２つのポイント間の最短マンハッタン距離を表し、すなわち、これらの経路の全ては、等しい長さであり、経路選択の多様性を提供し、各々が同じレイテンシーを有する。この数の導出により、２Ｄグリッドにおいて以下の式が得られる。
式（１０）
ここでΔｘ及びΔｙは、ｘ及びｙ方向におけるグリッド距離である。これは、多項式係数を介して明確な方法で３次元及びそれよりも高次元に一般化する。３次元では、可能性のある経路の数は次式となる。
式（１１）

スケーラビリティ
フリー接続の１つで付加的なｆノードにリンクすることによって、ｐ−ｋｃノードの総数がファブリックに追加される。この追加は、ｆノードがエッジ全体（２Ｄの場合）に沿って又は全面にわたって（３Ｄの場合）追加されない限りフリー接続の数を増加させる。密度は一定のままであり、従ってスケーラビリティは一貫して最適である。

要約
表７は、規則的メッシュトポロジーの特性を要約している。表７では、帯域幅の単位は、ｆノード間のリンクの数である。各リンクが複数のチャネルを有する場合、真の帯域幅の数は、チャネル多重度によって乗算しなくてはならない。すなわち、各リンクがｑ並列接続を包含する場合、接続の数及びバイセクション帯域幅の両方は、ｑの因数だけ増加しなくてならない。従って、２ｄｍ→２ｄｑｍ、及びＤ₁、Ｄ₂．．．Ｄ_d-1→ｑｘＤ₁Ｄ₂．．．Ｄ_d-1である。

本開示のこの部分において検討される他のファブリックと同様、規則的メッシュは、ポッド概念（合成ｆノード）を使用して増大させることができる。各ｐモジュールがｐポートを有する場合、レベル１のポッド又はｆノードは、ファブリックモジュールの各々のようにｐ²／２ポートを有することになる。すなわち、上記の表では、増大ファブリックを取得するためにｐをｐ²／２によって置き換える。ファブリックモジュール間及びファブリックモジュールとｃノード間の通信のための利用可能なポートの数は、ｐからｐ²／２に増大し、通信ポートとｃノードとの間の異なる区分を可能にする。すなわち、メッシュにおけるリンクの帯域幅を増加させることができ、又はサポートされるｃノードの数を増加させることができ、或いは両方が可能である。ポッド概念は単に、規則的メッシュファブリックの設計における融通性を向上させる。

トーラス
トーラストポロジーは、規則的メッシュトポロジーのエッジ又は面の「ラップアラウンド」によって達成される。エッジ（又は面）でのｆノードが、反対側のエッジ（又は面）上のｆノードに接続される。図１５では、右のｆノードが左のｆノードに結合され、上のｆノードが下のｆノードに結合される。このトポロジーは、ＨＰＣ領域における専用相互接続において見出されることが多い。Ｔｏｆｕ及びＧｅｍｉｎｉ３Ｄ相互接続について上記で言及された。

ラップアラウンド構造が与えられた場合、トーラスのバイセクション帯域幅は、対応する規則的グリッドメッシュの二倍であり、直径は半分にカットされ、トーラスを規則的メッシュの効率的な実施構成にする。トロイダルトポロジーは、１のスケーラビリティを維持し、密度は影響を受けない。

超立方体はトーラスのサブセットである。具体的には、ｄ次元超立方体相互接続は、正確に２^dノードを有するｄ次元のトーラスである。このような超立方体は、ｆノードの各々中のｃノードに対するローカル相互接続ファブリックとして機能することが多い。１つの実施例として、Ｔｏｆｕ相互接続［参照３］では、ｆノードグリッドは、３次元トロイダリトポロジーを有し、各ｆノードは、４次元超立方体構成における１２のｃノードを包含する（ｃノードの４つは除去され、数が１２にまで低減される）。この構成は、大まかに「６次元」トポロジーと呼ばれ、実際には、各ｆノードに位置付けられたｃノードの縮小４Ｄ超立方体を備えたｆノードの３次元ファブリックである。

図１６は、２７のｆノードを有する３次元における規則的メッシュ又はグリッドを示している。６面の各々に存在する接続を用いて、３次元の各々においてメッシュを大きなサイズに拡大し、トロイダルトポロジーを提供するために反対側の面にラップアラウンドする。

図１６は、規則的グリッド上の３次元メッシュの図である。青い球体はｆノードを表し、オレンジの球体はｃノードへの接続を表し、緑のパイプはｆノード間の双方向接続を表す。各ｆノードは６つの双方向接続を有し、１つがその最も近いグリッド近傍ノードの各々に接続している。６面上のダングリング接続は、３Ｄグリッドを拡張するため、又は３Ｄトーラスを形成するための「ラップアラウンド」のために使用される。

ＤＢＯＩ相互接続の場合、ｃノードの各々は、隣接するｆノードに接続するために使用されないポートによって各ｆノードで相互接続することができる。これは、上述された超立方体よりもｃノードのグループにおいてより効率的な相互接続であり、単位直径による単一送信マルチキャスト相互接続であり、従って最小レイテンシーである。

帯域幅スケーラビリティ
多次元グリッドのかなり大きな直径にも関わらず、トーラス構成は、ハイエンドスーパーコンピュータの多くで見られる。この理由の１つは、各ｆノードが複数のｐポート通信モジュール又はスイッチからなることができ、必要に応じて帯域幅を効果的に増大させることができる点である。例えば、３次元トーラスでは、各ｆノードは、その最も近いグリッド近傍ノードへの６つの接続と、及び上記の様に、メッシュノードに関連付けられるｃノードへのｐ−２ｄ接続とを有する。７２ポート相互接続モジュールは、６グリッドリンクの各々において６チャネルを有するこのトポロジーにおけるｆノードとして機能し、ローカルｃノードと通信するために３６ポートを残しておくことができる。次いで、このメッシュノードは、１から３６のｃノードをサポートすることができ、利用可能な帯域幅は、単一のｃノードに転向され、又は複数のｃノード間に均一に分散される。

帯域幅の倍加は、これらの７２ポート相互接続のうちの２つを各ｆノードに割り当てることによって達成可能であり、１４４の通信ポートが、ファブリック通信及びコンピュータリソース間で必要に応じて分散される。この融通性及び帯域幅スケーラビリティは、スーパーコンピューティングにおけるトーラストポロジーの使用に対する理由の１つである。スイッチレスのＤＢＯＩ相互接続の出現で、トーラストポロジーは、ＨＰＣコミュニティの外部で利用可能になるはずである。

到達可能性
ラップアラウンドの実現性に起因して、トーラス上の可能性のある経路の数は、規則的グリッドにおいて上記で見出されたものよりも遙かに多い。ラップアラウンドの場合、経路は、必ずしも直接経路と同じマンハッタン距離又はレイテンシーを有する必要はなく、２つの通信するｆノードのロケーションに応じてより短く又はより長くすることができる。２次元の場合、考慮すべき４つの可能性があり、すなわち、ラップアラウンドのない直接距離、ｙ方向にラップアラウンドを有してｘ方向で直接、ｘ方向のラップアラウンドを有してｙ方向で直接、及び両方向でラップアラウンド。

これらの経路の各々は、異なるマンハッタン距離及び従って異なるレイテンシーを有することができる。２次元では、可能性のある経路数の式は次式となる。
式（１２）
ここで^*はラップアラウンドを指し、Ｄ_x及びＤ_yは、ｘ及びｙ方向におけるグリッドの長さである。可能性のある経路の総数は、ブラケットにおける４つの式の和である。３次元における対応する式は、８つの可能性のある経路式を有し、結果の表示はこの考察に付加するものは何もないが、数は、上記に示されたのと同じようにして導き出される。要約すると、可能性のある経路距離の数はほぼ、２の次元数乗となる。従って、可能性のある経路の数が重要である場合、高次元トーラスが恐らくは最適のトポロジーである。

評価：トロイダルトポロジーは、バイセクション帯域幅を倍加し、対応するグリッドトポロジーの到達可能性の二倍以上を有する。トーラスは主に、ＨＰＣで使用され、ファブリックのスケーリング特性は、単純な既存のｆノード接続を使用して任意にグリッドを増大させることができる。帯域幅スケーラビリティは、将来のデータセンタにおいて有用であることが分かる。

ファブリックトポロジーの要約
この段落に提示されるトポロジーの分析は、制限された通信ポート数を有する市販の相互接続を備えた大きなデータセンタの必要性に対処する目的に基づいて、ポート駆動であった。主な制約は、同じモジュールがファブリック全体で使用される設計の均質性であった。

他のトポロジーを検討することができる。例えば、ＣｏｎｎｅｃｔｉｏｎＭａｃｈｉｎｅにおいて１９８０年代に使用された「ハイパーツリー」相互接続は、１つのこのような可能性である。しかしながら、ハイパーツリーは、ファットツリーに関係付けられ、あまり頻繁には使用されず、よって現時点では別個の分析は必要ではない。

様々なトポロジーの特性の要約
表８は、上記で分析された３つの基本トポロジー（ツリー、Ｃｌｏｓ、及びグリッド又はトーラス）の関連の特性を要約している。ファットツリーは、形式的表現が複雑であるために、この表には含まれていない（ファットツリーは、以下の表の数値例に含まれる）。様々なエントリの形式（例えば、ｃノードの数）は、表示された３つのトポロジカルファミリ（ツリーベースのトポロジー、Ｃｌｏｓベースのトポロジー、及びグリッドベースのトポロジー）が実際に存在することを明確に示している。トポロジーの各々は、ファブリック構成の単位としてのｐモジュールに基づき、様々なネットワークにおけるノードはファブリックノード又はｆノードである。

表８は、設計目的のこれらのトポロジーの本質的な特性を比較する場合に有用であり、恐らくは、関連の大きさになった時には有益ではない。以下の段落は、基本的な構築ブロックのように３２ポート相互接続で利用可能な実際の数の一部を表している。

この表８の主な使用は、密度、直径（レイテンシー）、及び帯域幅の間の優先選択を行うことができる相互接続ファブリックの設計においてである。個々の式は、可能性のある基本トレードオフを示している。例えば、６次数のＣｌｏｓファブリック（「増大修正されたＣｌｏｓ」）は、第２次数Ｃｌｏｓファブリックよりも遙かに高い帯域幅を有するが、より大きな直径を有する。

数字の表
表９は、３２ポートのｐモジュールで構築された様々なファブリックについての数値を示している。ツリーの実施例及びグリッドの実施例は飽和されておらず、これらが更に大きなシステムにまで拡張（又は小さなシステムに縮小）できることを意味している。Ｃｌｏｓトポロジーの４つのフレーバは、全ての利用可能なｐモジュールポートは、ｐモジュール間又はエッジｐモジュールからｃノードへの何れかのファイバ接続によって占有されている点で、ファットツリーと同様に飽和される。

表１０は、７２ポートのｐモジュールに基づく類似の表である。実用的な僅かな意味もなく天文学的数字であっても、増大Ｃｌｏｓ及び増大ＭＣｌｏｓのエントリが含まれている。７２ポートの場合、トーラスの実施例におけるｆノード間により多くの帯域幅を割り当てることができ、表に示されるようにバイセクション帯域幅を増加させる。明らかに、増大した修正Ｃｌｏｓトポロジーに必要な黙示的接続の大きな数は適切ではなく、これらの表における対応する列は例証の目的に過ぎない。

７つの事例の各々における経路の数（到達可能性）を比較すると、ルーティングテーブルが必須である場合にスイッチアーキテクチャにおける可能性のある経路のセットの検索を制限するためにファットツリー及びトーラス（更に、可能であればツリー及び増大修正Ｃｌｏｓ）ファブリックが、幾らか注意深いルーティング管理を必要とすることは明らかである。

コメント：
飽和のためにＣｌｏｓファブリックを構築する必要はない（部分的ファブリックが有用とすることができる）。

グリッド又はトーラストポロジーは、より大きなファブリックに最も容易に拡張可能である。

ファブリックポート及びエンドポイントをファブリックに相互接続するのに必要な接続（ケーブル、光ファイバなど）の数は、上記の表のポートの数とｃノードの数を加えたものの半分である。

トポロジー選択に関する所見
２つのツリートポロジーは、最低バイセクション帯域幅及び最高密度、並びに中間のレイテンシー（直径）を有する。これは、トポロジー選択における基本的トレードオフであり、帯域幅は重要であるか否か？到達可能性（経路）は良好でるようであるが、１つのノード当たりの経路は逆に不十分であり、ツリーが輻輳問題を有することを示している。ファブリックノード間の帯域幅が主な問題である場合、ｆノード間に複数のポートを有するトーラストポロジーは、好ましい選択肢とすることができる。恐らくは専用スイッチを備えた実施構成及び管理の高コストに起因して、３次元トーラストポロジーは、スーパーコンピュータインスタレーションにおいてのみ見られるようである。これらの問題は、ファブリックモジュールがスイッチレスである（これは次の段落の主題である）場合にはもはや重要ではなく、トーラスが将来のデータセンタにおいてより使用されると考えていることが予想される。

経路密度（ｃノードの数によって分割された潜在的な経路の数）は、ツリートポロジーに対して極めて低いが、Ｃｌｏｓトポロジーでは１／２（０．５）であり、トーラスに対しては極めて大きくなる可能性がある。この経路密度は、ファブリックにおける潜在的輻輳の尺度並びに自己回復に対する耐性の尺度であり、トポロジー選択における可能性のある優先要因になる。ファブリック管理は、大きな経路密度を有するシステムに関する主要な検討材料となる。スイッチパターンは、一般的に経路プルーニング及びスパニングツリーの構成による経路の多様性を考慮に入れなければならない。このような経路削減は、スイッチレスファブリックには必要ではない。

上記の２つの表は、トポロジー及びファブリックモジュール又は特定のｆノードアーキテクチャの第１パス選択に使用することができる。例えば、高密度（計算コストに対して低ファブリックコスト）が重要である場合、ファットツリー又はグリッドトポロジーを選択することができる。バイセクション帯域幅が重要である場合、修正又は増大Ｃｌｏｓトポロジーが好適であることは明白である。拡張性及びノード帯域幅が重要である場合、トーラスが有利である。レイテンシーが重要であるが帯域幅があまり重要でない場合、ツリートポロジーがより好適な選択肢とすることができる。

トポロジー選択のためのこの方法は、高到達可能性（経路）及びバイセクション帯域幅によって獲得された計算効率を考慮しておらず、また、ｃノード数の増加に伴うコストの増加及びファブリック管理の複雑さも考慮していない点に留意されたい。

上記の２つのテーブルは、上記で行ったものよりもより確実な方式の統計的推定を行うことを可能にする。数値表に基づくこのような相関関係は、記号表現を比較するよりも解釈が容易である。ファブリックのタイプのこの小さな数及びｐモジュールポートの２つの値に基づいて、特定の相関関係がほぼ一致し、決定方式における表８から直接結論を引き出すことができることを意味する。例えば、ｐモジュールとｃノードの数の間の明らかな相関関係は、ｐモジュールとバイセクション帯域幅との間と同様に一致に極めて近く、これは、予想されるように、３２ポートモジュールと７２ポートモジュールの両方に対して成立する。

このような相関関係の助けによってトポロジーの選択に関する幾つかの結論に達することができる。特に、帯域幅、冗長性又は到達可能性（経路）、及びレイテンシーに関する結論を引き出すことができる。

帯域幅：ファブリックハードウエアの量によって決定される
バイセクション帯域幅とｐモジュールの数との間の相関関係が基本的に一致することを上記の表から推測することができる。従って、帯域幅の増加は、ｆノードの数を増やすのに使用される付加的なハードウエアを犠牲にして得られる。別に記載されるように、高バイセクション帯域幅が重要である場合、ファブリックは大きな数のｆノードを必要とし、インスタレーションのコストが増大する。これは、特に驚くべきことではないが、表８における量的表現が潜在的な設計を比較する上で有用である。

レイテンシー：トポロジーによって決定される
上記の表から、ツリーＣｌｏｓ及び修正Ｃｌｏｓトポロジーが最低レイテンシーを有することが明らかである。スケーラブルであるツリー様トポロジーでは、直径及び従ってレイテンシーが、ノードの数の対数として増大し、ノードの大きな数に対して、ツリー構造がＣｌｏｓトポロジーよりも多くのレイテンシーを示すことを意味する。Ｃｌｏｓトポロジーの直径は、全てのＣｌｏｓトポロジーが一定の３層を有する（増大ケースが内部サブネットワークに基づいており、よってポッドがネスト化されたときにｐモジュールの点で直径が増加する）ので、ｆノードポートの数と共に一定のままである。トーラスの直径は、（３次元で）ｆノードの数として１／３の累乗まで、及び二次元で平方根として増大する。従って、ノードの大きな数に対して、Ｃｌｏｓトポロジーは、最低直径、及び従って最低レイテンシーを有する。しかしながら、以下で分かるように、ファブリックアーキテクチャはまた、メッセージレイテンシーにおいて重要な役割を果たす。

到達可能性：トポロジーによって決定される
２つのエンドポイント間の可能性のある経路の数の間の相関関係は、上記の表の最左列に列挙された残りの特性のセットよりも低いか又は逆相関の何れかである。しかしながら、ポート値の２つのセット（例えば３２及び７２）に対する経路間の相関関係は、約９０％を上回り、経路の数は、個々の特性の何れかよりもトポロジーと相関関係があることを意味する。

スケーラビリティ：トポロジーによって決定される
ファブリックサイズがｆノード又はポッドにおけるポートの数によって決定されるので、Ｃｌｏｓトポロジーはスケーラブルではない。しかしながら、Ｃｌｏｓファブリックは、ノードの最大数に対して設計され、上述のように部分的に実装することができ、ファットツリートポロジーと同様である。

２つのスケーラブルトポロジーがツリー及びトーラスであり、両方とも一致するスケーラビリティを有し、別のｆノードの追加により、ｃノードの数が比例的に増大する。トーラスの欠点は、その大きな直径であるが、ツリーは、トーラスと比較した場合に不十分なバイセクション帯域幅及び経路冗長性を有する。

ブロッキング
エンドノードの数が最低（エッジ）レベルからツリーの次のレベルまでのリンクの数より大きいので、ツリートポロジーは、一般的に無条件にブロッキングする。他のトポロジーが条件的にブロッキングし、例えば、他の経路をブロックする対称Ｃｌｏｓにおけるトラフィックパターンを見つけることは自明である。中間層におけるモジュールの数を二倍にすることによってこの欠点を克服することができるが、結果として生じるファブリックは、同一のモジュールからはもはや構成されない。

経路の数は、Ｃｌｏｓファブリックにおけるレベルの数を増加させることによって大幅に拡張することができる。結果として生じるネットワークは、ブロッキングの可能性がより低いが、増大するファブリックハードウエア及びより大きな直径を犠牲にしている。

取り付けられたエンドポイントの数がファブリックリンクの数よりも大きくなるので、次元がｐ／４未満である場合にはトーラスはブロッキングする。これは、高次元トロイダルトポロジーがＣｌｏｓトポロジーより優れた別の利点を有することができることを示唆している。

所与のアプリケーションに対する最適トポロジーの選択は、複数の妥協を伴う多くの因子に依存する。

パケットフローファブリック
序文
上記のトポロジーに関する説明から、主なトレードオフは、ｃノード当たりのｆノードの数（「密度」又はファブリックハードウエアオーバヘッド）と、ｃノード当たりの潜在的な経路の数（「特定の」到達可能性又は経路密度）並びにバイセクション帯域幅及び密度の間にあり、高ノード密度は、低経路密度及び低バイセクション帯域幅に相関付けられる（それぞれの相関係数は逆相関である）。ツリーをスパニングする必要性により、使用可能な経路密度が低減され、その結果、ツリートポロジーがより好ましいと思われ、高経路密度を有し、従って低輻輳を提示することになる。すなわち、潜在的な経路の数が十分活用できる場合、Ｃｌｏｓ及びトーラストポロジーは、ツリートポロジーよりも優れているように思われる。別に記載されるように、潜在的な経路の数がスパニングツリーアルゴリズムによって制限される場合、ツリーは好ましいトポロジーになる。ノード密度及びバイセクション帯域幅は決定因子になり、不十分な帯域幅及び高輻輳の両方を有するとしても、ツリー及びファットツリー構造がノード−密度尺度を決定付ける。経路管理によって課せられるこれらの二次的な懸念事項により、レイテンシー及び帯域幅の一次設計考慮事項を犠牲にしてトポロジーの選択が左右される。

データセンタを大きな数のエンドポイントに拡張するときに、スイッチ型ファブリックは、効率的なトラフィック管理及びスイッチ制御に必要なルーティングテーブルの大きな数及びサイズに起因して管理できなくなる傾向がある。これは、ＩｎｆｉｎｉＢａｎｄ実施構成において特に顕著である。また、スパニングツリーアルゴリズムが不安定な［参照５］であり、参照１２に記載されるように全てのスイッチがルーティングテーブルの複数の複製に反映されたトポロジーを「学習する」ことを要求することは公知である。

ブロードキャスト又はマルチキャスト動作下では、複数のチャネルを順次的又は並行して開かなくてはならない。従って、ブロードキャスト又はマルチキャスト動作は、ファブリックの大部分を同時又は順次的に取り込み、長い全体的期間ではあるが小さな部分では、階層化スイッチにおいて輻輳をもたらす可能性がある時間的及び空間的高トラフィック条件の両方をもたらす。これらの問題は、ＤＢＯＩｆノードに基づくパケットフローファブリックでは生じることはない。

この段落では、発明者らは、パケットフローをサポートするファブリックノードを作成するのに必要なＤＢＯＩ修正を説明し、その基本的特性がスイッチ型ファブリックよりも優れている極めて大きく回復機能のあるネットワークを作成する方法を示している。パケットフローモジュールの２つの主な特性は以下の通りである。
１．スイッチが存在しないこと
２．ルーティング及び転送情報ベースが存在せず、ファブリック内のメッセージフローを管理する難しさを対応して増大させることなく、ノードの極めて大きな数に拡張することができるファブリックを構成することが重要である。

次の段落では、これらの２つの主な特性が、このような大きく効率的なファブリックを構成できる必要な構造をどのように提供するかを考察する。

スケーラビリティ、トラフィック管理、入力及び出力待ち行列管理、輻輳管理、及び低バイセクション帯域幅のような、スイッチ型ファブリックにおいて遭遇する問題の多くは、最初の背景の段落で紹介した光学的相互接続に基づくパケットフローモジュールを使用して克服することができる。

パケットフローｆノード
パケットフローｆノードは、オリジナルのＤＢＯＩの単純な修正形態であるが、スイッチ型ファブリックよりも優れた多くの利点をもたらす。

オリジナルＤＢＯＩモジュール
当初設計及び構成されたように、ＤＢＯＩシステムは、１つの光学的モジュールと、４つの電気−光学モジュール（３２方向バージョン）とからなる。８つの異なるホストから、一般的にはＰＣＩ−エクスプレスインタフェースからのシリアル形式の電気信号は、４つの電気−光学モジュール又は電気−光学ネットワークインタフェースコントローラ（ＥＯＮＩＣ）の各々に入力される。レーザドライバ及びレーザは、各ＥＯＮＩＣ基板の第１セクションに位置付けられ、ここで電気信号がシングルモードレーザで連続光パルスのストリームに変換される。これらの光学データはシングルモード光ファイバを通じてＤＢＯＩ光学モジュールに送信され、ここで４^*８光学ビームの各々が拡大されて４つの等しいビームに分割される。３２ビームの各々の４つの複製の各々は、異なる収集レンズに送られて、３２ボールレンズの４つの出口アレイに各々集束され、３２ビームの４セットの各々をマルチモードファイバの４つのバンドルに結合する。次に各バンドルは、変調光の形式でオリジナルの３２電気信号の複製を包含する。

３２ファイバの各バンドルは、４つの同一のＥＯＮＩＣモジュールの１つに接続し、ここで光学信号が検出されてシリアル電気信号に変換される。各ＥＯＮＩＣモジュールでは、３２データストリームが論理によってフィルタリングされ、その結果、特定のモジュールによって対応される８つのエンドポイントの何れかのためのものである信号だけが、ファンアウトデバイスに渡され、該ファンアウトデバイスは、各信号（渡すことが許可された）を８つの複製に分割し、８つのエンドポイントの各々に対して可能性がある１つが、当該特定のＥＯＮＩＣモジュールによって対応される。フィルタリング論理の別の段階の後に処理されるファンインは、例えばホストコンピュータに好適なＰＣＩフォーマットへの信号の変換の前に出口ポイントの各々にて行われる。ファンイン段階の論理は、３２信号の各々をフィルタリングし、目標エンドポイントに対する信号だけを渡すことを可能にする。

幾つかのフィルタリングステーションの各々はまた、電子データパケットを、ファーストイン、ファーストアウト方式で一時的に格納するデータバッファを使用する。加えて、各バッファは、存在するデータの量をモニタするための論理を有する。何れかのバッファが、当該バッファを空にすることができる受信側エンドポイントホストよりも迅速に入れられる場合（例えば、マルチストリームが同じエンドポイントに同時に向けられる場合）、ＥＯＮＩＣにおける論理は、当該のエンドポイントに対応するレーザからブロードキャストされる制御パケットを生成する。この機構は、送信を中止するために潜在的にオーバフローするバッファに対する優先順位パケットを用いて当該特定のエンドポイントへの何れの送信者にも通知することによって、対応するバッファにおける潜在的なオーバフローに関するフロー制御を提供する。このようなフロー制御メッセージは短く、数バイトの長さであり、対応するＥＯＮＩＣによってＤＢＯＩに迅速に投入することができ、ここでこれらは、その意図された受信者によって迅速に受信及び処理される。

本質的に、オリジナルのＤＢＯＩは、情報を配信するため光学機器を使用する電気−電気分散デバイスである。光学段階は、ＤＢＯＩのボリュームのような大きな距離にわたって、更に過大なキャパシタンスが電気信号を遅らせる可能性がある光ファイバに沿った高速及び信頼性のあるブロードキャスト配信を可能にする。後続の電気的処理は、ＥＯＮＩＣにおけるより短い経路を通じて行われる。

パケットフローアーキテクチャに対する修正
入力及び出力の両方がシングルモードファイバを通じて搬送される光学分野におけるパケットフローモジュールとして機能するためのＤＢＯＩを生じさせるために（例えば、データセンタにおけるラック間の必要な距離に対応するために）、ＥＯＮＩＣは、光学モジュールが変更されていないままである間に修正される。これは、例えば、同じ光学モジュールがデータセンタ全体を通して使用できるようにし、これによって大量生産の互換性の高い部品をもたらし、コストダウンを行う。当然ながら、ＥＯＮＩＣモジュールの２つの特性があり、１つはｃノードにインタフェースするよう設計されており、１つはｆノードにインタフェースするよう設計されている。

図１７は、パケットフロー構成におけるＤＢＯＩを示している。このＤＢＯＩｆモジュールは、上記のように、２つの別個の部分からなる。光学又はＤＢＯＩモジュール１７１０は、データセンタの何れのポイントからも発生することができる３２シングルモードファイバ入力１７２０を有し、４つのＥＯＮＩＣモジュール１７３０は各々、データセンタのあらゆる場所への宛先を有することができる８つのシングルモード出力ファイバ１７４０を有する。短いマルチモードファイバは、ブロードキャストモード下で光学ＤＢＯＩモジュールにおいて発生する光学的に分散される信号をＥＯＮＩＣモジュールの各々によって分散及び収集可能にする（この場合も同様に、各ＥＯＮＩＣモジュールは、３２入力の各々の同一の複製を受信する）。

図１７は、外部の光ファイバ接続のみによる光学インアウトシステムとして修正されたＤＢＯＩ相互接続を示す図である。修正は、電気−光学モジュール（ＥＯＮＩＣ）だけで行われ、光学モジュール（ＤＢＯＩ）には触れることはない。分かり易くするために、図は、１６対１６分散モジュールにおける１６の入力及び４出力の４つのグループを示している。既存の実施構成は、３２対３２分散チャネル及び７２対７２分散チャネル用である。入力の各１つは、出力の１つと論理的に対にすることができ、（ここでは）１６双方向光チャネルを結果として生じる。ミラーは、図１７には図示していないが、ＤＢＯＩ入力が出力としてモジュールの同じ面になることを物理的に可能にし、そのモジュールの長さを半分にする。

ＤＢＯＩｆモジュールの入力の何れか１つに提示されるデータは、パケットのヘッダに包含される宛先情報に応じて、出力の何れか、出力の全てから出ることができ、又は出力の何れからも出なくてもよい。逆に、クロスポイント又はマトリクススイッチに入るパケットは、何れの出口ポートにも存在せず、又は単一の出口ポートにだけ存在することができる。これは、スイッチにおけるマルチキャストをホストのデータ構造又はクロススポイント（スイッチ）に追加された特別なハードウエアによって管理しなくてはならないことを意味する。ＤＢＯＩにおけるマルチキャストは、宛先又はグループアドレスによって決定され、分岐が自然に起こるジャンクションで並行して発生する。

上記に示された分散モジュールは、あらゆる種類の光信号をブロードキャスト、マルチキャスト、又はポイントツーポイントとして分散することを可能にするので、「光データフロー」という用語は自然な記述であると思われるが、内部ブロードキャストに続くフィルタリング決定がパケットヘッダに基づいて行われるので、より適切な用語としては、転送、フィルタリング、及び増幅の目的のためにのみ光パケットが電気信号に変換される「光パケットフロー」になるであろう。「パケットフロー」という省略表現は、この用語が稀にではあるがこれまでに使用されていたとしても、適切な選択であると思われる。

パケットフローアーキテクチャの利点
パケットフローアーキテクチャは、スイッチアーキテクチャよりも優れた性能及び管理の利点を示す。

物理層としてのＤＢＯＩ
ＤＢＯＩモジュールは、その最も単純な機能的形式においてその物理層と同一である。全ての送信側及び全ての受信側チャネルが互いに独立して完全に接続されており、独立して及び同時にメッセージを送信及び受信することができるので、結果として生じるネットワークファブリックは、何れのタイプのネットワークプロトコル及びユーザによって要求されるファブリック管理を容易にサポートする。所与のアプリケーション又は並行オペレーティングシステムが、特定のプロトコル又はメッセージ受け渡しインタフェースを予期し、又はスイッチ型ファブリック管理（ルーティングテーブル、スパニングツリーなど）をサポートする場合には、ＤＢＯＩシステムはスイッチ型ファブリックを直接交換し、様々なコマンドをＤＢＯＩ固有のコマンド（宛先指定など）又は単純なｎｏ−ｏｐｓ（特定のルーティング要求のための）に翻訳するシンプルラッパーを用いて変化していないメッセージ及び制御構造をサポートすることができる。直接交換ＤＢＯＩは、オリジナルのアーキテクチャよりも高速でより効率的になる。通信コードを書き換えてＤＢＯＩの強度を利用することによって、更に高い効率性が得られることになる。

全帯域幅の利用
スイッチ型ファブリックは、一般に、例えばデータ転送の持続時間の間で状態が固定されるスイッチのネットワークを通じてノードａからノードｂへの経路を開く。この経路の二重の性質が十分に活用されることはほとんどないが、その双方向性の潜在的能力は、ｂからａに確認応答を送るよう転送中のある時間において要求された場合に必要となる。多くの小さな同時双方向メッセージが存在する場合を除いて、スイッチ型ファブリックの帯域幅の約半分は使用されない。二重メッセージの能力は必要とされるが、それでも、そのベースとなるハードウエアは、およそ５０％の割合で活用されていない。

このことは、使用されるか否かに関わらず、逆経路に対する潜在的能力が存在しなくてはならないので、重大な関心事とは見なされない可能性がある。しかしながら、二重経路が設定されると、送信側ノードもまた、その到来ポートが確保される点に留意されたい。すなわち、特定のノードに送信している間は、他の何れかのノードからメッセージを受信することはできない。受信できない間に経路設定の多くの又は全てのノードによってこの効果が拡大されることで、最大でファブリック帯域幅の半分が利用できなくなることが分かる。この場合、スイッチ型ファブリックの理論バイセクション帯域幅の最大５０％の推定低下がある可能性が高い。

パケットフローモジュールの双方向性の汎用性の１つの実施例として、上述の修正Ｃｌｏｓファブリックを検討する。図１８は、４つの双方向ポート１８２０を有するｆノード１８１０に基づくこのようなファブリックを示している。図１８の左下のエンドポイント１を検討する。赤い矢印は、このｃノードが、ｃノード１３にデータを送信中のビジー状態であることを示す。これらのデータが選択された経路を横断している間でも、例えば、ｃノード１０は、データを同じｃノード１に送信することができる。この双方向性は、パケットフローファブリックの効率を大幅に拡張するＤＢＯＩｆモジュールのアーキテクチャ上の特徴である。

何れかのメッセージ転送の間の逆方向に対する必要性は、長いか短いかに関わらず、不適切な到着、不完全なるメッセージ、メッセージ損失、及び他の可能性のある有用な管理タスクに関する確認応答又は通知を目的としている。しかしながら、このようなブックキーピングメッセージの長さは一般的に数バイトであり、一次メッセージよりも短い大きさの程度であることが多い。当然ながら、多くのファブリックにおいて、逆経路は、実際には、二重チャネルを同期状態にしておくためにヌルのストリームを単に包含する。よって、双方向で送信されている実際のビットが存在することができる場合、二重チャネルは、処理ノードに関連した情報の観点からすると高度に非対称である。

パケットフローファブリックは、利用可能な帯域幅の完全利用を可能にする。

レイテンシーの改善
スイッチ型ファブリックにおいて、データ転送のために設定された実際の経路は、２つのファブリックノード又はエンドノード間の一時的な接続である。この理由のために、経路が閉じられる度にビットシリアル同期を再設定しなければならず、或いは、ファブリック全体を同期方式で作動させなければならない。第１の技術（データ生成法）は、メッセージビットが到着する前に同期を行う時間を考慮に入れるために、メッセージ開始シーケンスを送信しなければならないので、追加のレイテンシーをメッセージに追加する。第２の技術（パイロット周波数法）は、同期信号をファブリックの全てのエンドポイントに拡散するためにハードウエアの付加的な層を必要とする。

低レイテンシーは、効率的なキャッシュコヒーレントメッセージ、共有メモリデータ交換、ハンドシェーキング、及びバリア同期のための必要条件である。

再同期レイテンシーは、ノード間のマイクロ秒レベル以下のレイテンシー全体への主要な寄与要素とすることができる。増加するレイテンシーに加えて、再同期は、同じメッセージの複製を受信するエンドポイント間の差分レイテンシーに影響を与えるので、データスキューの一因となる。これは、マルチキャストが送信側でスキューがほとんど又は全くない状態で同期できる場合でも当てはまる。このようなスキューの脅威は、一般的には、バリア同期によって克服され、効果的なレイテンシーに加えて、更に長い遅延に役立つ。

ＤＢＯＩは、別個のシングル送信ブロードキャストチャネルからなるので、全ての受信側経路は、実際のメッセージが存在しない場合でもヌルシーケンスが送信されるときにこれらのビットストリームとの同期を維持する。これは、例えば、メッセージを受信するのに必要とされる位相ロックループにおける付加的な収集時間が存在しないことを意味する。この同期は、補助的なパイロット信号を必要とせずに、各ＥＯＮＩＣにおけるＤＢＯＩアーキテクチャ内で行われる。これらのヌルシーケンスは、有効パケットがメッセージの開始を知らせる短いヘッダシーケンスによって認識された場合には無視される。

レイテンシーの全ての他のソースは等しく、パケットフローファブリックはスイッチ型ファブリックよりも低いレイテンシー及び少ないスキューを示す。

拡張フロー制御
独立した双方向チャネルを備えたパケットフローアーキテクチャによって実施可能になる付加的な特徴は、短い高優先順位の制御メッセージを送信及び受信するための効率的機構の可能性である。ｃノード間のフロー制御は、オリジナルのＤＢＯＩ実施構成の特徴である。フロー制御概念をｆノードに拡張することにより、最近傍状態情報、障害ノードを検出するためのハートビートメッセージ、ハンドシェーキングパケット、及び効率的且つ高速の同期メッセージを効率的に共有可能になる。

構成によって、パケットフローアーキテクチャにおける出口ポートは、入口ポートから独立している。出口ポートだけが、出口バッファ、バッファモニタリング論理、及びパケット生成及び送信論理からなるフロー制御機能を有する。ＥＯＮＩＣにおいて生成された制御パケットは、標準パケットを超えた送信優先順位を有する。これは、出口ポートの各々に存在する通常の出口バッファと並行して動作する優先順位バッファによって達成される。出口ポートが現在のフレームの送信を終了すると、優先順位バッファがチェックされ、何れかの優先順位フレームが次のメッセージフレームに優先することを可能にする。データパケットは、６４Ｂ６６Ｂフレームからなり、優先順位メッセージは単一のフレームを用いる。従って、優先順位パケットによって生じる最大遅延は単一フレームである。

優先順位パケットの受信時には、優先順位パケットがｆノード用か又はｃノード用とすることができるので、状況は幾分複雑である。識別に続き、ｃノード優先順位パケットは、適切な出口バッファに到達するまで標準的論理に続いてＥＯＮＩＣを通過する。ここで、パケットは、次のパケットが標準的メッセージバッファから取り除かれる前に調べられる優先順位出口バッファに向けられる。出力バッファにおいて優先順位フレームが存在する場合には、標準的バッファの何れかのコンテンツにわたって選択されてｃノードによって読み取られる。

優先順位パケットが別のｆノード用である場合、当該パケットは、上述されたように標準的論理に従い、宛先ｆノードへの次の送信を待機している適切な優先順位バッファ内に配置される。優先順位パケットが受信側ｆノード用である場合、標準のパケット処理論理の前に検出器バッファにてタグ付けされて、適切なｆノード制御論理に送信され、ここで以下のことを行うために用いることができる。

１．ローカルの最近ノードのステータステーブル（「利用可能」、「障害敗」など）を更新すること。
２．出口ポートの何れかからの送信を中断又は再開するための制御信号を提供すること。
３．使用及びステータスデータを収集してモニタリングシステムに送信すること。
又は、
４．他の実施可能な中でも、ファブリックにおけるｆノードの位置（ツリー又はＣｌｏｓレベル、ポッドＩＤ、メッシュインデックスなど）に関する情報を提供すること。

バッファサイズの問題は、一般に、普遍的解決策が存在しないことによって起こる。大きなバッファは、フロー制御機構が管理する前に多数のパケットを待ち行列に入れることができる。しかしながら、このサイズは、フロー制御がソースにおいてカットオフされる前に、未達のメッセージを受け付けるのに十分大きいものでなくてはならない。このより低い限界は、ネットワークのサイズ、標準パケットの長さ、ファブリック全体に渡る優先順位メッセージのレイテンシー、及びファブリック直径によって決まる。場合によっては、ファブリック及びそのメッセージトラフィックのシミュレーションが必要になる可能性がある。

優先順位パケットは、一般に、標準的メッセージに比較して極めて短く、ＥＯＮＩＣにおけるこれらの処理は、内部論理の大部分をバイパスする。１０ギガビット／秒データチャネル内のファブリックでは、優先順位フレームにおける一般的なエンドツーエンドレイテンシーは、ノード間の送信、検出、識別、及び受信側ｆノード内の処理に対してほぼ数十ナノ秒程度である。

冗長経路の完全利用
何れか２つのｃノード間の可能性のある経路のセットは、ローカル輻輳が起こった場合の通信冗長性の手段を提供し、及びｆノードに障害が生じた場合の「自己回復」のためのベースを提供し、一般的には、このセットが大きくなるほどより堅牢なシステムを保証する。しかしながら、大きなルーティングテーブルを各ｆノードで維持しなくてはならないスイッチ型ファブリックでは、スパニングツリーアルゴリズムが、一般に、許容可能な経路の数を管理可能なサイズまでプルーニングし、従って、全ての付加的な接続性を排除することによって輻輳及びノード障害の問題に対するスイッチ型ファブリックの応答を制限する。

パケットフローファブリックでは、各転送決定がローカルな決定である場合、経路のプルーニング又は包括的なルーティングテーブルに対する必要性はない。要約すれば、スパニングツリー管理システムは単に必要ではない。

これらの２つのトポロジーが極めて大きな経路冗長性をもたらすので、スイッチ型ファブリックにおける経路プルーニングの必要性は、Ｃｌｏｓネットワーク及びトーラスから離れてトポロジーの選択を偏らせる点に留意すべきであり、すなわち、冗長性が使用されない場合には、何故ハードウエアに対する代償が生じるのか？

冗長経路の全セットがパケットフローファブリックで使用可能である。

パケットフローファブリック管理
中心的課題
ファブリック管理における中心的課題は、可能性のあるエンドポイントコンテンション及びファブリック輻輳にも関わらず、何れかの特定のメッセージがその宛先に到達するのを保証することである。このような管理は、効率的に、ソース及び宛先間の最小遅延で行わなくてはならない。上記に示されたように、スイッチ型ファブリックの管理は、大型コンピュータシステムの設計及び実施構成における中心的課題であり、ファブリックハードウエア及びメンテナンスを上回るコストが課せられる。参加ノードの数が増加するにつれて、ファブリック管理はより複雑になり、達成するのが難しく、高コストになる。問題となっているのは、ファブリック全体を通して分散される最新の複製を備えて従来よりも大きなルーティングテーブルを維持することである。

「輻輳」は、他の何れかのメッセージが第１経路を設定したスイッチの何れかを使用するのを阻止する経路が選択されたときに、スイッチ相互接続において発生する。良好な例示は、クロスストラフィックを停止することによってトラフィック光によりトラフィックが進むのを可能にするトラフィック制御である。「コンテンション」は、複数のメッセージが同じエンドポイント又はファブリックポートに向けられたときに相互接続又はファブリックのエッジで発生する。良好な比喩としては、全ての乗客が飛行機の同じドアから同時に出ようとすることである。これらのファブリック問題の両方は、経路ブロッキングの結果である。

サーバファームにおいてデータ項目へのアクセスを改善するために考案されたプロトコルの多くは、スイッチ型ファブリックの性質によって課せられる構造上の問題に対する次善策として存在する。同様に、（ファブリックアーキテクチャから独立した）一般的なアクセス方法の実施構成の詳細は、選択されたプロトコルと良好に機能する特定のトポロジー及びアーキテクチャの選択を決定付け、ほとんどが最適設計方法ではない。

スイッチ型ファブリック（スイッチ及びルータのネットワーク）とは対照的に、ＤＢＯＩに基づくファブリックは、パケットフローファブリックであり、スイッチ及びハードウエア実行ルーティングが必要ではなく、このようなルーティングがシステム性能を向上させることもないことを意味する。スイッチング及びスイッチドネットワークの管理に関連付けられるハードウエアは、これらのファブリックには存在せず、単純で維持し易いシステムをもたらす。

ノード−ローカル決定に基づくアクティブパケットフローファブリック管理の実施構成は、近傍ノード間で渡されてｆノード出口ポートに対応する小さなテーブルにおいてローカルに維持されるローカル輻輳に関するステータス情報を交換することによって達成される。各ｆノードは、ファブリック内のその特定のロケーションに関する情報を有する（Ｃｌｏｓネットワーク内の行及び列、ツリーネットワーク内のレベル及び順序、並びに３次元トーラスにおけるＸＹＺインデックスなど）。ノードロケーションに関するこのファブリック規模の知識以外に、パケットルーティングに必要な情報は、近傍のファブリックノード間でステータスデータを交換することによって取得される。

ある段階で、ファブリックに入る前又は恐らくはマルチプロセッサシステム自体へのゲートウエイにおいて、ＩＰアドレス又はデータベースポインタのような標準的アドレスは、相互接続ファブリック内の宛先アドレスに変換され、又は宛先アドレスによってカプセル化される。このようなアドレスは、少なくとも、宛先ｃノード及び当該ｃノードに位置付けられた何れかのターゲットプロセス又はコンピューティングコアの表示と共に宛先ｆノードの物理的なロケーションへの参照を包含する必要がある。自由形式データベース又はコンテンツアドレス指定可能システムでは、どの情報が捜されているかに関する仕様（例えば、ハッシュインデックスの形式の）だけで十分とすることができる。現時点では、ビットストリームからのパケットのフレーミング及びチェックサム及びエラー訂正コードの質問のような信頼できるメッセージ受け渡しシステムに必要な多くの付加的な詳細に対応する必要はなく、パケットフローシステムにおけるパケットがスイッチ型ファブリックにおけるパケットとそれほど異なっていないことに気付くだけでよい。単純に、ファブリックに入るパケットが送信前のビットストリームにおけるフレーミング動作の後で通常の方式で構成されると仮定する。通常のチェックサム及びエラー訂正コードは、符号化された宛先アドレスと共に存在する。詳細には、宛先アドレスは、宛先ｆノードのロケーションを指定するインデックスからなることができる。２つの方法の間の本質的な違いは、スイッチパケットがグローバルルーティングテーブルによってその宛先に向けられるのに対して、フローパケットは、辿る特定の経路における各ｆノードに対しローカルの情報を使用してその宛先への独自の道を見つけることである。各ステップでは、パケットがソースから宛先への前進において送信又は破棄される。

ノード障害及び回復
何れの特定のｆノードも障害を生じる可能性がある。ノードの障害は、一般に優先順位ハートビートパケットを用いて、又はハンドシェーキング中のクエリに対する応答の不存在を通知することによって（例えば、ＡＣＫ／ＮＡＣＫ機構を介して）、ノードの近傍ノードによって認識されなければならない。このような障害からの回復は、一般に、「自己回復」と呼ばれる。

「自己回復」機能は、１つのノードが機能停止するか又は接続不良になった時にルーティングベースのネットワークが動作するのを可能にする。結果として、ネットワークにおけるソースと宛先との間には１つよりも多い経路が存在することが多いので、ネットワークは一般的には極めて信頼性がある。

パケットフローモジュールの導入によって、ルーティング決定はローカル動作になり、グローバル管理構造に対する必要性が排除される。ローカルには、宛先ヘッダを備えた受信されたパケット上で動作するファブリックノードにおける単純状態機械は、自己管理及び自己修復を行うファブリックをもたらすことができる。要約すると、自己編成及び自己ルーティングシステムを取得することができる。

トーラスルーティング
グリッド又はトーラスにおける自己ルーティングは最も単純なケースであるので、最初に説明する。他のトポロジーは、この段落で説明する特徴の一部、特にフロー制御及び優先順位パケットを利用している。

スパニングツリールーティング（スイッチ型ファブリック）
グリッド又はトーラスにおける離れたノード間の可能性のある経路の大きな数（迂回路又はループなし）が与えられた場合（式１１を参照）、スパニングツリーのプルーニングは、このようなファブリックを管理するための中心的な課題となる。（グリッドでは）距離尺度がマンハッタン基準に従う限り、全ての適切に選択された経路が等距離である点に留意されたい。トーラスでは、経路の８つの可能性のあるセットの少なくとも１つが最小であり、よって、適切なプルーニングアルゴリズムは、最小セットを識別し、その他を破棄する必要がある。しかしながら、この最小セットは、２つのエンドポイント間の相対的距離に依存し、このことは、ファブリック全体にわたって変化し、典型的パケットに対し極めて多数の選択を提示する。

当該ノードから到達可能な全ての可能性のある宛先（すなわち全部）を反映する巨大なスパニングツリーを各ノードにて格納しなければならないか、又はパケットがノードに入る度に（不安定な）スパニングツリーアルゴリズムによってスパニングツリーを再度コンピュータ処理してプルーニングしなければならない。

パケットフロールーティング（パケットフローファブリック）
各ｆノードがファブリックにおけるその固有の位置の内部表現を有するような、ｆノードの２次元ネットワークを検討する。このような位置の表現は、ペア｛ｎ_x，ｎ_y｝に基づき、ここでｎは、グリッド内のｆノードにインデックスを付ける整数であり、添え字は２つのグリッド次元又は方向を示す。例えば、｛０，０｝は、図１５のグリッドの左下隅のｆノードを示すことができる。ノード｛ｘ，ｙ｝が宛先ヘッダ｛ａ，ｂ｝を有するパケットを受信すると仮定する。パケットが何れかのｆノードから離れることができる４つの可能性のある経路が存在する（単純で特別な取り扱いケースであるファブリックのエッジ又はコーナ上のノードの特別ケースを除いて）。特別なケースでは、宛先が発信元ｃノードと同じｆノードにある場合、単純に適切なｃノード経路上のｆノードから出る。

Δｘ＝｜ｘ−ａ｜及びΔｙ＝｜ｙ−ｂ｜のように現在の位置と宛先の間の差分の絶対値を形成することによって経路差をコンピュータ計算する。Δｘ及びΔｙが共にゼロである場合、パケットは、その宛先ｆノードにあり、パケットヘッダの第２部分に包含される宛先ｃノードに渡すことができる。Δｓの１つがゼロであり他がゼロでない場合、（以下に説明される例外は別として）パケットに対する出口の選択肢は１つしかない。この単一の選択を識別するために、Δ_xがゼロでなくΔ_yがゼロであると仮定し、２つの差｜ｘ−ａ−１｜及び｜ｘ−ａ＋１｜を形成し、２つの近傍ｆノードと宛先との間の経路のｘ方向に沿った距離をコンピュータ計算する。他の選択が宛先から取り出されると、小さな差を有するポートが選択される。

両方の差がゼロでない場合、出口ポートに対して２つの等しく有効な選択が存在し、２つの選択は、上述のようにｘ方向に対して±１の差、及び同様の方式でｙ方向に対して±１の差を形成することによって見つけることができる。小さな差を有するｙポートが選択されたのと同様に、小さな差を有するｘポートが選択される。ターゲットに向けたリードとこれらの間の任意の選択の両方を行うことができるので、指示されたｘポート又は示されたｙポートの何れかが有効な出口ポートである。このようにして、パケットは、ローカル情報だけを使用して最短経路のセットの１つの要素に沿った適切な宛先への経路を見つける。「任意の」選択が以下に説明されるように外部因子に依存する可能性があるので、特定の経路を予測することはできない。

３次元グリッドは、ｆノードロケーション及び宛先アドレスを指定する３つの数字を有し、３つの差分及び６つの可能性のある方向以外は上述のものと同じである出口アルゴリズムを備える。エッジの差分は、誤った出口ポートを示す−１に自動的に設定され、トーラスの場合の計算は、対応するメッシュサイズの長さ（当然ながら、ｆノードの数で測定した）を法としている。

この基本的なルーティング方法は、パケットフローグリッド又はトーラス内で動作するよう保証される。しかしながら、ダウンストリームｆノードにて輻輳の可能性を生じることがあるファブリックにおける重いトラフィックが存在する場合に重要となる可能性のある改善が存在する。このような輻輳は、その経路を発見したときに所与のパケットに利用可能な出口ポートのセットに対するコンテンションとして現れ、次の段落で説明するルーティングアルゴリズムにおいて検討する。

このアルゴリズムは各ｆノードにローカルであり、汎用プロセッサよりも状態機械において実装するのに実行が十分簡単である点に留意されたい。

受信側ノードのビジー状態を示す出口ポートテーブルに従って、２又は３（３Ｄケース）の別の等しい選択間の決定を行うことができる。これらの小さなテーブル（次元に応じて各々４又は６ビット）は、上述されたように優先順位パケットによって維持されている。

パケットフロールーティングアルゴリズムへの拡張
各出口ポートは、当該ポートに対する到来パケット速度がその出口速度を超えた時にパケットが蓄積する関連バッファを有する。通常のトラフィック条件下で、各パケットは、該パケットが入るとすぐにこの出口バッファから取り出され、よって最小遅延又はレイテンシーのペナルティが存在する（バッファは、ファーストインファーストアウト待ち行列として機能し、受信時にパケットを単に送信する）。しかしながら、高トラフィック条の下では、何れかの出口バッファは、空になるよりも速く満たし始めることができる。バッファ容量に達しそうになった場合、フロー制御機構が働き、優先順位メッセージが上述のように適切な近傍ノードに送信される。

上記の段落で説明されたように何れかの優先順位メッセージが調べられ、その宛先がローカルｃノードである場合は渡されるだけである。メッセージが受信側ｆノードに対するフロー制御メッセージである場合、対応する出口待ち行列において「送信中止」事象を起動し、当該バッファの制御機構に「ビジー」又はロックビットを設定する。何れかの他の優先順位メッセージは、適切な出口ポートで単に渡される。

ターゲットノードにおける出口バッファが空になり始めると、経路がクリアであることを示す別の優先順位メッセージが送信される。このようにして、何れのデータも失うことなく重いトラフィック負荷を管理することができる。出口バッファにおいて、又は前のｆノードの出口バッファからパケットを転送する際の遅延によって、或いは最終的には発信元ｃノードからの保留送信を遅延させることによって、特定のパケットをうまく遅延させることができる。

ノード障害及びファブリック堅牢性
何れの特定のｆノードも障害が生じる可能性がある。障害が起こった場合、ルーティング機能が失われ、ローカルｃノードへのアクセスが失われる。ファブリック規模のハートビート機構又は近傍ｆノードへの不定期クエリを用いて、応答していない又は障害が生じたｆノードを識別することができる。（障害が生じたｃノードを同様の方法で識別することができる。）

障害が生じたノードにパケットがアクセスしようとするときには、ルーティングアルゴリズムは、上記の差分の１つを増加させ、説明されたように利用可能なステータス情報に一致する迂回路ルーティングを選択する。１つの迂回路ステップが形成されると、パケットは、迂回路に向けた発信元ｆノードがパケットループに対するガードとして可能性のある経路のセットから一時的に取り除かれるという条件で、新しいファブリック位置から進む。

グリッド又はトーラスにおけるパケットフロールーティングは、使用するのに最も簡単で最も効果的なローカル機構とすることができ、トーラスを形成し、ある意味で好ましいトポロジーである。

Ｃｌｏｓルーティング
このケースの拡張によって高レベルファブリックが処理されるので、ここでは３レベルファブリックだけを検討する。３レベルＣｌｏｓファブリックに対して３つのケースが存在する。通信ｃノードは以下の通りである（図１１を参照）。
１．同じｆノード上
２．同じ行（横列）上
又は、
３．ファブリックの両側上

同じ縦列に存在する通信ｃノードは、同じｆノード（ケース１）又はファブリックの反対側（ケース３）上の何れかにある。ケース１では、発信元ｃノードと同じｆノードの宛先を有するパケットは、単に、適切なｃノード出口上でｆノードから出て、何れかのポートコンテンションが上述のフロー制御機構によって処理される。

発信元ｃノードと同じ行（横列）における宛先を有するパケット（ケース２）は、３レベル構造における可能性のある単一のｆノード出口しか持たない。この出口を用いなければならず、ポートコンテンションは、中間層又は発信元層のｆノードであるかどうかに関わらず、フロー制御機構によって処理される。

ケース３では、各ｆノードがファブリックにおけるその位置（レベル又は行（横列）インデックス及び列（縦列）インデックス）を知っていると仮定する。１／４ｐ²への宛先１は下半分にあり、１／４ｐ²＋１−１／２ｐ²が上半分にあり、ここでｐは、前の段落におけるｆノードのポートの数である。従って、ノードインデックス及び宛先ノードインデックスを送信する段階を含む単純なコンピュータ計算により、どのケースが動作中であるかが決定される。

ケース３の状況を管理するための最も簡単な方法は、ランダム又はラウンドロビン方式で出口ポートを選択し、フロー制御に宛先に向かう途中で遭遇する可能性のあるコンテンションを処理させることである。多くのアプリケーションに対しては恐らくは満足できるが、この方法の欠点は、出口ポートのトラフィック非依存の選択が最適でないことである。例えば、順方向におけるコンテンションは、次善の選択の１又はそれ以上をレンダーし、結果として生じるポートコンテンションに寄与する可能性がある（ｆノードの３つのレベルの何れかにおいて起こる可能性がある）。

より制御可能な出口ポート選択方法は、１つが各ｆノードの各側面に対するものであるテーブルのセットを有することになる。テーブルは、本質的に、ビジーな出口ポートを有する宛先経路におけるｆノードに対応するシングルビットメモリセルからなるマップとすることができる。これらのテーブルの更新は、近傍ｆノードにおけるそれぞれのポートの状態の変化を反映する優先順位パケットによって行われる。

受信側ｆノードにおける所与の入口ポートは、送信側ｆノードの対応する出口ポートがビジーである場合にのみビジーであり、よって、入口ポートに対するテーブル及び方策を提供する必要がない点に留意されたい。

修正されたＣｌｏｓルーティング
修正されたＣｌｏｓネットワークは、全てのｃノードが同じ側又は横列上にあり（図１３を参照）、上述と同じ方式で大半が処理されるので、最初の２つのケースだけを示す。

ポッドベースのルーティング
ポッド内の各パケットフローノードがその出口ポートに対するテーブルを維持しなくてはならないので、ポッドの使用（前の段落において説明された）は、基本的には維持しなければならないポートマップの数を増加させる。この変更以外に、ローカルルーティング法は、Ｃｌｏｓファブリック下で上述されたものとほぼ同じである。

ツリー及びファットツリールーティング
Ｃｌｏｓ及びツリートポロジーの両方がマルチレベルシステムであるので、ツリー及びファットツリー構造におけるパケットフロールーティングの処理は、上記のＣｌｏｓの記載と同様である。主な違いは、当該方法が選択された場合の出口ポートステータステーブルの構成及び維持にある。他の場合には、優先順位フロー制御パケットは、様々なサブツリーを通って流れ、パケットが識別されたポートから離れるのを停止又は遅延させ、或いは、要求に応じて代替のポートの選択を強制する。

ブロードキャストルーティング及びパケット識別子
システム内で生成された各非優先順位パケットに対して連続して又は単調に増加する識別子（ＩＤ）の生成にｃノードタスクを専用にすることによって、ｆノードの固有のブロードキャスト機能に基づくルーティングシステムが可能である。確かに、このような方法の最良の用途は、ネットワークトラフィックが飽和ポイントにプッシュされないケースになるが、その実施構成は直接的であり、データベースアクセス及び維持並びに通信ネットワークにおけるルーティングなど、大きなクラスの問題を潜在的に解決する。

ＩＤ生成器は、送信のためのパケットをファブリックにアセンブリするプロセスにおいて何れかのｃノードからの優先順位パケットを介して新しいＩＤに対する要求を受信する。パケット送信は、新しいＩＤが生成器によって（一般的にはカウンタを増分することによって）コンピュータ計算されて別の優先順位メッセージを介して要求側タスクによって受信されるまで遅延されることになる。この場合も同様に、優先順位メッセージは小さく且つ速く、この方法を可能性のある魅力的な代替策にする。

異なる開始番号又は特定の生成器によるＩＤへのインジケータビット接頭辞を有する異なるカウンタを使用して、複数の生成器が実施可能である。従って、特定のｃノードは、これらのクエリをその固有の生成器に配向し、単一の生成器の過負荷を低減する。代替として、ＩＤ生成器は、分散サービスとしてファブリックに内蔵することができる。

ブロードキャストルーティングの理想は、直接的であり、ｆノード上の出口ポートの各々から受信したパケットを単にブロードキャストする（当該ｆノード専用でない限り、当然ながらこの場合には、宛先ｃノードに配信される）。同様の方法は、「フラッデイング」として文献において見つけることができ、一般的にはルーティングと対比される［参照１６を参照］。

パケットがその宛先にて受信されると、当該ＩＤはＩＤバッファに配置され、これによって後続のパケットをチェックし、これらが以前に見たことがある場合には廃棄することができる。パケットが受信されたときのＩＤバッファの検索は、前の段落で説明されたフィルタリングプロセスの一部である。ＩＤバッファは、ファブリックサイズに応じて特定の事前設定された長さを有し、ＩＤは、新しいＩＤが到着した時に外される。このようにして、ＩＤは、遅延を生じるパケットをフィルタリングできるようにする特定の有限永続性を有する。

複製パケットの不可避の増大を低減するために、各ブロードキャストは、宛先アドレスによって決定された「前方」方向及びブロードキャスティングｆノードのファブリック内アドレスでのみ送信しなくてはならない。

要約
本開示のこの部分は、直接ブロードキャスト光学モジュールに基づく大型コンピュータ相互接続における新しい概念を提示している。相互接続ファブリックにおけるノードとして使用するために修正されたこのノードは、宛先仕様に基づくパケットのためのフィルタリング論理を提供する電気光学セクションと共に、３２又は７２の何れか（本実施構成では）の双方向及び独立ポートを有する。序文の段落は、Ｌｉｇｈｔｆｌｅｅｔ相互接続の短い背景を提示し、将来の必要性を満足させるために今日のデータセンタを拡張する場合の主な問題点を論じている。今日の解決策に関する短い論評は、トポロジー及び特定のパケットフローモジュールにおける以下の段落に対する段階を設定する。要約すると、今日の解決策は、以下の３つの領域で不十分である。

増大する複雑さ及び高コストのスイッチの階層を備えた異種ハードウエア
ポートコンテンションに加えてスイッチイン（階層化スイッチ）の各レベルでの輻輳
及び、
有用な性能を獲得するためのスパニングツリーアルゴリズム及び動的ルーティングソフトウエアに対する必要性

大きなスケールの相互接続において提案されるパケットフローモジュールの使用に対する背景を提供するために、最大数百万のエンドポイント及びそれ以上に対応する幾つかのネットワークトポロジーについて論じた。ネットワークトポロジーの段落で提示された様々なトポロジーの特性の詳細な開発は、設計又は比較ツールに対する基礎として（例えば、スプレッドシート形式で又は小さな独立アプリケーションとして）使用することができる。このようなツールは、データセンタの設計及びハードウエアの選択を実質的にサポートすることができる。この段落の結論は、ファブリックは、同じ単純な相互接続モジュールがファブリック全体を通して使用される場合に極めて大きなデータセンタに対応するよう容易にスケーリングできることである。

パケットフローファブリックにおける第３の段落は、オリジナルのＬｉｇｈｔｆｌｅｅｔ相互接続に対する修正を提示しており、何れかの通信ファブリックにおけるノードとして対応するのに理想的な最適分散モジュールにどのようにしてなったかを示している。パケットフロー概念の特定の利点が詳細に論じられ、スイッチベースのファブリックに優る主な利点が強調されている。これらの利点は、均一な、大量生産のスイッチレスブロードキャストモジュール、ローカルトラフィック制御のための優先順位パケットの使用、ファブリック帯域幅のフルの潜在的利用、スイッチによって提供されるものに優る改善されたレイテンシー及び少ないスキュー、ローカルレベルでのファブリックトラフィック管理（マネージャが要求されない）を含む。

ノード障害の回復（自己回復作用）
この第３の段落の最後の小段落は、第２段落で論じられた幾つのトポロジーに対して最適化された高レベルのアルゴリズムを提示している。これらのアルゴリズムは、パケットが、宛先仕様を取得するためにヘッダを復号するためのわずかな遅延でファブリックを「流れる」ことを可能にする。ファブリック輻輳及びポートコンテンションの問題は、短い優先順位パケットを用いてローカルのファブリックノードレベルで効果的に且つ迅速に管理される。この結果、グローバルルーティングテーブル及びスパニングツリーアルゴリズムを必要とすることなく、極めて大きなファブリックをローカルで管理することができることになる。パケットフローファブリックのこの後者の特性は、ファブリック管理を大きなシステムにスケーリングすることに伴う今日の問題が、本開示のこの部分で提案されるファブリックにおいては問題にならないことを意味する。

ファットツリーアルゴリズム
表９及び１０の様々な特性に値を割り当てるためのアルゴリズムは、１を除いて降順にｐの素因数（基本モジュールにおけるポートの数）を順序付けることから始まる。レベルの数ｌは、素因数のリストの長さである。素因数を次式とする。
式（１３）

ルートノードは、第１素因数ｐ₁に等しいブランチの数を有し、ｌレベルが存在する。ツリーにおける各ノードへの接続数は、合計してｐにならなくてはならず、よって、ｐ₁ブランチの各々はｐ／ｐ₁接続を保持する。次のレベルでは、ｐ₁ノードが存在し、各ノードは各ブランチにおけるｐ／ｐ₁／ｐ₂接続を有するｐ１ｐ２−ｐ２ブランチを有する。積と差分のこのシステムは、ノードの下部列からｃノードのリーフまでの各ブランチにおけるｐ／（ｐ₁．．．ｐ_l）＝１接続でエッジが達するまで続く。具体的には、以下の式になる。
式（１４）
ｋ番目のレベルからのブランチ、ここでｋ＝２，．．．，ｌ及び、
式（１５）
ｋ番目のレベルと次の下部レベルとの間の接続。ｋ＝１はルートレベルを表し、ｃ₁＝ｐ／ｐ₁の場合にｂ₁＝ｐ₁であり、また、チェックとして、ブランチの数×ブランチ当たりの接続の数＋ノードから次の高レベルまでのブランチ当たりの接続の数は、ポートの数に等しい、すなわち、
式（１６）
である。

ｃノードの数は、次式のようにブランチ値の全ての積である。
式（１７）
また、ｆノードの数は、次式のように部分ブランチにわたる総和である。
式（１８）

同じサブツリーにはない何れかの２つのｃノード間の経路の数は、ツリーを昇って横断する可能性のある経路の数とツリーを下る数との積であり、すなわち次式となる。
式（１９）
また、バイセクション帯域幅はわずかｐ／２である。

例えば、図１０のようにｐ＝１２である場合、素因数のリストは｛３，２，２｝であり、ルートノードから３つのブランチが存在し、各ブランチは、１２／３又は４の接続を包含する。ブランチのリストは、ルートレベルから始まり、次に｛３，４，１０｝であり、各レベルからのブランチにおける接続の数は｛４，２，１｝である。ｃノードの数は、３ｘ４ｘ１０、すなわち１２０であり、ｆノードの数は、１＋３＋１２、すなわち１６である。経路の数は（４ｘ２ｘ１）²すなわち６４であり、バイセクション帯域幅は１２／２、すなわち６である。

ｐが２の累乗である場合に、接続の数は各レベルで２倍になる点に留意されたい。任意のｐに対して、接続は、式１５に示されるように素因数の部分積に応じて増加する。

記載された実施形態及び実施例は、単に例証の目的のものであり、限定を意図するものではない。本開示の実施形態は別々に実施することができるが、本開示の実施形態を関連付けられるシステムに統合することもできる。本明細書で開示された本開示の実施形態の全ては、本開示の観点から過度の実験を行うことなく実施及び使用することができる。本開示の実施形態は、本明細書に記載された理論的な記載（あるとすれば）によって限定されない。本開示の実施形態の個々の段階は、開示の方法で実行する必要はなく、又は開示される順序で結合される必要はないが、何れか及び全ての方法で実行できる及び／又は何れか及び全ての順序で結合することができる。本開示の実施形態の個々の構成要素は、開示される構成に結合する必要はないが、何れか及び全ての構成に結合することができる。本開示の実施形態の特徴の様々な置換、変更、追加及び／又は再構成は、ベースとなる本発明の概念の範囲から逸脱することなく行い得る。開示される要素及び各開示される実施形態の特徴の全てを、このような要素又は特徴が相互に排他的である場合を除いて、開示される要素及びあらゆる他の開示される実施形態の特徴に結合することができ、又はこれに置き換えることができる。添付の請求項及びその等価物によって定義されるベースとなる本発明の概念の範囲は、全てのこのような置換、変更、追加及び／又は再構成を網羅する。

添付の請求項は、ミーンズプラスファンクションの限定が、「のための手段」「のための機構」及び／又は「のための段階」という表現を使用して所与の請求項に明示的に記載されない限り、このような限定を含むものと解釈すべきではない。本発明の下位の実施形態は、添付の独立請求項及びその等価物によって正確に説明される。本発明の特定の実施形態は、添付の従属請求項及びその等価物によって区別される。

参照
１．ＭｏｈａｍｍａｄＡｌ−Ｆａｒｅｓ、ＡｌｅｘａｎｄｅｒＬｏｕｋｉｓｓａｓ、及びＡｍｉｎＶａｈｄａｔ、「スケーラブルコモディティデータセンタニューヨークアーキテクチャ」、ＳＩＧＣＯＭＭ´０８、２００８年８月１７日−２２日、米国合衆国、ワシントン、シアトル。
２．例えば、ｈｔｔｐ：／／ｗｗｗ．ｔｈｅｒｅｇｉｓｔｅｒ．ｃｏ．ｕｋ／２０１０／０５／２５／ｃｒａｙ＿ｘｅ６＿ｂａｋｅｒ＿ｇｅｍｉｎｉ／を参照のこと。
３．ＹｕｉｃｈｉｒｏＡｊｉｍａ、ＳｈｉｎｊｉＳｕｍｉｍｏｔｏ、ＴｏｓｈｉｙｕｋｉＳｈｉｍｉｚｕ、「Ｔｏｆｕ：エグザスケールコンピュータのためのＡ６Ｄメッシュ／トーラス相互接続」コンピュータ、ｖｏｌ４２、ｎｏ．１１、３６−４０ページ、２００９年１１月、ｄｏｉ：１０．１１０９／ＭＣ．２００９．３７０。
４．ＣｈａｎｇｈｏｏｎＫｉｍ、ＭａｔｔｈｅｗＣａｅｓａｒ、ＪｅｎｎｉｆｅｒＲｅｘｆｏｒｄ、「シアトルにおけるフラッドレス：大企業のためのスケーラブルイーサネットアーキテクチャ」ＳＩＧＣＯＭＭ´０８、２００８年８月１７日−２２日、米国合衆国、ワシントン、シアトル。
５．ＲａｄｉａＰｅｒｌｍａｎ及びＤｏｎａｌｄＥａｓｔｅｒｌａｋｅ、「ＴＲＩＬＬの紹介」インターネットプロトコルジャーナル、１４（３）、２０１１年、ｐｐ．２、Ａｉ２０。
６．例として、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｎｅｔｗｏｒｋ＿ｔｏｐｏｌｏｇｙを参照のこと。
７．例として、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｃｌｏｓ＿ｎｅｔｗｏｒｋを参照のこと。
８．例として、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｅｔｈｅｒｎｅｔ＿ｓｗｉｔｃｈを参照のこと。
９．例として、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／ＩｎｆｉｎｉＢａｎｄを参照のこと。
１０．ＣｈａｒｌｅｓＥ．Ｌｅｉｓｅｒｓｏｎ、「ファットツリー、ハードウエア有効スーパーコンピューティングのためのユニバーサルネットワーク」ＩＥＥＥＴｒａｎｓ．Ｃｏｍｐ、Ｖｃ−３４、Ｎ１０、８９２−９０１ページ、１９８５年１０月。
１１．ＳｔｅｆａｎＧｏｅｄｅｃｋｅｒ及びＡｄｏｌｆｙＨｏｉｓｉｅ、数字的に集中したコードの性能最適化、工業及び応用数学学会、フィラデルフィア、２００１年（グーグルブックから利用可能）。
１２．ＲａｄｈｉｋａＮｉｒａｎｊａｎＭｙｓｏｒｅ、ＡｄｒｅｅａｓＰａｍｂｏｒｉｓ、ＮａｔｈａｎＦａｒｒｉｎｇｔｏｎ、ＮｅｌｓｏｎＨａｕｎｇ、ＰａｒｄｉｓＭｉｒｉｍ、ＳｉｖａｓａｎｋａｒＲａｄｈａｋｒｉｓｈｎａｎ、ＶｉｒｋｒａｎＳｕｂｒａｍａｎｙａ、及びＡｍｉｎＶａｈｄａｔ、「ポートランド：スケーラブルフォルト−耐性層２データセンタニューヨークファブリック」ＳＩＧＣＯＭＭ´０９、２００９年８月１７日―２１日、スペイン、バルセロナ。

１７１０光学又はＤＢＯＩモジュール
１７２０シングルモードファイバ入力
１７３０ＥＯＮＩＣモジュール
１７４０シングルモード出力ファイバ

Claims

双方向及び論理的に独立した通信チャネルの少なくとも１つのペアを各々が有する複数のポートを備えたパケットフローモジュールを動作させる段階を含む方法。
前記パケットフローモジュールを動作させる段階が、直接ブロードキャスト光学相互接続を動作させる段階と、前記直接ブロードキャスト光学相互接続に結合された電気−光学ネットワークインタフェースコントローラを動作させる段階と、を含む、請求項１に記載の方法。
前記電気−光学ネットワークインタフェースコントローラを動作させる段階が、複数の光学入力を介してデータを受信する段階と、複数の光学出力を介してデータを送信する段階と、を含む、請求項２に記載の方法。
前記複数の光学入力の各々を介して送信する段階が、シングルモード光ファイバを介して送信する段階を含む、請求項３に記載の方法。
前記複数の光学出力の各々を介して受信する段階が、シングルモード光ファイバを介して受信する段階を含む、請求項３に記載の方法。
前記パケットフローモジュールとｆノードとの間でデータを転送する段階を更に含む、請求項１に記載の方法。
前記パケットフローモジュールとｃノードとの間でデータを転送する段階を更に含む、請求項１に記載の方法。
複数のポートを含むパケットフローモジュールであって、前記複数のポートの各々が双方向及び論理的に独立した通信チャネルの少なくとも１つのペアを含む、パケットフローモジュールを備えた装置。
前記パケットフローモジュールが、直接ブロードキャスト光学相互接続と、前記直接ブロードキャスト光学相互接続に結合された電気−光学ネットワークインタフェースコントローラとを含む、請求項８に記載の装置。
前記電気−光学ネットワークインタフェースが、複数の光学入力及び複数の光学出力を含む、請求項９に記載の装置。
ｉ）前記複数の光学入力の各々及びｉｉ）前記複数の光学出力の各々が、シングルモード光ファイバを含む、請求項１０に記載の方法。
前記パケットフローモジュールに結合されたｆノードを更に備える、請求項８に記載の装置。
前記パケットフローモジュールに結合されたｃノードを更に備える、請求項８に記載の装置。
請求項８の複数の装置を備えたパケットフローポッド。
請求項１４の複数のパケットフローポッドを含む通信ネットワーク相互接続ファブリック。
本明細書に実質的に記載されている装置／方法。
パケットフローモジュールを動作させる段階を含む方法。
パケットフローモジュールを含む装置。