JP2015512584A - パケットフロー相互接続ファブリック - Google Patents

パケットフロー相互接続ファブリック Download PDF

Info

Publication number
JP2015512584A
JP2015512584A JP2015501921A JP2015501921A JP2015512584A JP 2015512584 A JP2015512584 A JP 2015512584A JP 2015501921 A JP2015501921 A JP 2015501921A JP 2015501921 A JP2015501921 A JP 2015501921A JP 2015512584 A JP2015512584 A JP 2015512584A
Authority
JP
Japan
Prior art keywords
node
nodes
fabric
packet flow
topology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015501921A
Other languages
English (en)
Inventor
ウィリアム ドレス
ウィリアム ドレス
Original Assignee
ライトフリート コーポレイション
ライトフリート コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ライトフリート コーポレイション, ライトフリート コーポレイション filed Critical ライトフリート コーポレイション
Publication of JP2015512584A publication Critical patent/JP2015512584A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/62Wavelength based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/04Interdomain routing, e.g. hierarchical routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/35Switches specially adapted for specific applications
    • H04L49/356Switches specially adapted for specific applications for storage area networks
    • H04L49/357Fibre channel switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Abstract

方法は、複数のポートを含むパケットフローモジュールを動作させる段階を含み、複数のポートの各々は、双方向及び論理的に独立した通信チャネルの少なくとも1つのペアを含む。装置は、複数のポートを含むパケットフローモジュールを含み、複数のポートの各々は、双方向及び論理的に独立した通信チャネルの少なくとも1つのペアを含む。【選択図】図17

Description

本発明は、一般に、コンピュータシステム及び/又はそのサブシステム並びにネットワーク及び/又はそのサブシステムのための相互接続の分野に関する。より詳細には、本発明は、(1)パケットフローモジュールに関し、パケットフローモジュールは、極めて大型コンピュータシステムのための(2)パケットフロー相互接続ファブリックを構築するために使用される。
大部分のコンピュータ相互接続は、現在のところ、限定的な数のノード又はエンドポイントを提供している。より大きな相互接続は通常、1つの相互接続モジュールを、ツリー、ファットツリー、及び様々な異なるトポロジーで構成されたスイッチの他のネットワーク(スイッチ型ファブリックとして公知)の形式の別の相互接続モジュールに結合することによって、イーサネット(Ethernet)(登録商標)及びInfiniBand(InfiniBand)のようなパケットスイッチから構築される。
米国特許7,970,279号
Widrow and Lehr,"20 Years of Adaptive Neural Networks", Proc. IEEE, 78(9), 1990 Charles Clos,"A study of non-blocking switching networks,"Bell System Technical Journal 32(2), pp. 406-424, 1953
このようなネットワークにおける各スイッチは、1又はそれ以上のホストコンピュータに接続され、及び1又はそれ以上の記憶デバイスに接続することができる。加えて、スイッチ対スイッチ接続及びスイッチ対コンセントレータ(集信装置)接続が存在することができる。スイッチ対スイッチ接続は一般に、異なるホスト間の通信ボトルネックを軽減するためにスイッチ対ホスト又はスイッチ対ストレージ接続よりも高い帯域幅のものである。コンセントレータはまた、レベル2スイッチとも呼ばれ、1又はそれ以上のスイッチから入力を取り、1又はそれ以上のスイッチ型ファブリックと他のパケットネットワークへのゲートウエイのような他のデバイスとの間でブリッジを形成する。次に高いレベルでは、このようなスイッチ型ファブリックは、レベル3スイッチによって互いに結合される。これらの実施構成におけるデータの流れは、データ経路に関するグローバルアルゴリズム並びにスイッチ対スイッチトラフィックのためのメッセージのパッキング及び個々のエンドポイント(ホストコンピュータ又は記憶デバイス)への分散のためのこのようなメッセージのアンパッキングによって内部的に管理しなくてはならない。
本開示の以下の実施形態に対する必要性がある。当然ながら、本開示は、これらの実施形態に限定されるものではない。
本開示の実施形態によれば、本方法は、複数のポートを含むパケットフローモジュールを作動させる段階を含み、複数のポートの各々は、双方向の論理的に独立した通信チャネルのペアを少なくとも含む。本開示の別の実施形態によれば、本機械は、複数のポートを含むパケットフローモジュールを備え、複数のポートの各々は、双方向の論理的に独立した通信チャネルのペアを少なくとも含む。
本開示のこれらの及び他の実施形態は、以下の説明及び添付の図面と共に検討したときにより良く評価及び理解されるであろう。しかしながら、以下の説明は、本開示の様々な実施形態及びその多数の特定の詳細を示しており、例証の目的のために与えられたものであり、限定を意味するものではない点を理解されたい。多くの置換、変更、追加及び/又は再構成を本開示の実施形態の範囲内で行うことができ、本開示の実施形態は、全てのこのような置換、変更、追加及び/又は再構成を含む。
本明細書に添付され本明細書の一部を形成する図面は、本発明の特定の態様を示すために含まれている。本発明、及び本発明と共に提供される構成要素及びシステムの動作の明白な概念は、図面に示される例示的及び従って限定ではない実施形態を参照することによって容易に明らかになるであろう。本発明は、本明細書に提示される説明と組み合わせてこれらの図面の1又はそれ以上を参照することによってより良く理解することができる。図面に示される特徴は必ずしも縮尺通りでない点に留意されたい。
従来技術としてnノードを完全に相互接続する直接ブロードキャスト光学的相互接続を示す図である。 従来技術として相互接続スイッチの「ポッド」を示す図である。 パケットフローモデルを取得するための図1の修正を示す図である。 パケットフローモジュールベースのポッドトポロジーを取得するための図2の修正を示す図である。 パケットフローモジュールに基づくClosネットワークを示す図である。 パケットフローモジュールのポッドに基づくClosネットワークを示す図である。 パケットフローモジュール又はパケットフローモジュールのポッドに基づく規則的グリッドネットワークを示す図である。 3レベルツリーとして構成された3スイッチング層を示す図である。 一般的なバイナリツリートポロジーを示す図である。 12ポートfノードを有する完全なファットツリーを示す図である。 双方向リンクを有する対称Closトポロジーを示す図である。 増大対称Closトポロジーを示す図である。 修正されたClosネットワークを示す図である。 修正されたClosネットワークのp3特性を示す図である。 標準的な2次元グリッド上に空間を開けて配置されたメッシュ相互接続を示す図である。 規則的グリッド上の3次元メッシュを示す図である。 光学的イン−アウトシステムとして修正されたDBOI相互接続を示す図である。 双方向の論理的に独立したチャネル(ポート)を有する修正されたClosネットワークを示す図である。 表1を示す図である。 表2を示す図である。 表3を示す図である。 表4を示す図である。 表5を示す図である。 表6を示す図である。 表7を示す図である。 表8を示す図である。 表9を示す図である。 表10を示す図である。 式(1)を示す図である。 式(2)を示す図である。 式(3)を示す図である。 式(4)を示す図である。 式(5)を示す図である。 式(6)を示す図である。 式(7)を示す図である。 式(8)を示す図である。 式(9)を示す図である。 式(10)を示す図である。 式(11)を示す図である。 式(12)を示す図である。 式(13)を示す図である。 式(14)を示す図である。 式(15)を示す図である。 式(16)を示す図である。 式(17)を示す図である。 式(18)を示す図である。 式(19)を示す図である。
本開示において提示される実施形態及びその様々な特徴及び利点の詳細は、添付の図面で例示示され且つ以下の説明において詳述される非限定的な実施形態を参照して十分に解説される。公知の出発材料、処理技術、構成要素及び装置の説明は、詳細な本開示の実施形態を不必要に曖昧にしないように省略される。しかしながら、詳細な説明及び特定の実施例は、単に例証として与えられており、限定としてではない点を理解されたい。ベースとなる本発明の概念の範囲内の様々な置換、変更、追加及び/又は再構成は、本開示から当業者には明らかになるであろう。
データセンタ、クラウドコンピューティング、通信に使用されるパケットスイッチングシステム、及び高性能コンピューティングアプリケーションに対して想定される今日のコンピューティングクラスタは、何千及び最終的には何百万ものエンドポイントに対応することが意図される。相互接続拡張に関する本方法は、通常はサーバ又はエンドノードのグループがレベル1スイッチと接続され、レベル1スイッチのバンクはレベル2スイッチに接続され、レベル2スイッチのグループはレベル3スイッチに接続される階層方式で、多ノードシステムにおける各ノードが他の何れかのノードにも確実に接続できるようにするために様々なデバイスを使用する。何れかの所与のノード対ノード接続の可能性は、必ずしも恒久的に確立される必要はなく、又は必要な時及び必要に応じてこのような接続を確立することができる。例えば、スイッチ及び内部の関連するルーティングハードウエア、及びソフトウエア制御、これらのスイッチドネットワークは、競合パケット経路におけるメッセージトラフィックによって内部的にブロックされる状態になる可能性がある。この管理は、ファブリック内のスイッチパターンを制御してファブリックのグローバル状態を監視するための大きなルーティングテーブル及び専用ソフトウエアを必要とする。スイッチネットワークにおけるパケット輻輳に加えて、データは、離散的ホップの形態でスイッチからスイッチに渡さなければならないことが多く、遅延及びブロッキングが各段階で起こる可能性がある場合、一連の段階でノード対ノード通信が起こり、所与のメッセージはスイッチが開くのを待機することが必要となる可能性がある。
スイッチのこのようなスイッチ型ファブリックにおける多様なハードウエア要素の異種混在の性質が、データセンタ、コンピューティング又はストレージクラウド、もしくはスーパーコンピュータクラスタを構築及び維持するために付加的な複雑さ及びコストを課すことは、サーバファーム及び他の大型コンピュータシステムの分野では公知である。
本発明は、スイッチ型ファブリックにおける異種ハードウエア要素に対する必要性を回避し、相互接続ファブリックにおけるスイッチ全体に対する必要性を排除する。本発明は、単一の均一な相互接続モジュールに基づいて単一の相互接続ファブリックを構築し、数千から数万、数百万、及びそれをはるかに超える範囲の複数のエンドポイント又はノードに対応することを可能にする。エンドノードの各ペアの間で、複数の可能性のあるデータ経路が実施可能であり、データパケット又はメッセージは、テーブル、スパニングツリー、又は他のファブリック規模の制御機構手段を有することなくルーティングされる。
本開示は、ホストコンピュータインタフェース(PCIエクスプレス又は類似のインタフェースデバイスなど)を光学的接続(好ましい実施形態では)と置き換えて、従来のブロードキャスト機能によるパケットフロー及び分散機能に対応するために電気−光学ネットワークインタフェースコントローラ(EONIC)のルーティング論理を再構成する、既に開示されている相互接続(例えば米国特許7,970,279号を参照のこと)の修正形態を提示する。
以下の検討において、「ファブリック」又は「相互接続ファブリック」は、多数のコンピューティングノード及び/又はストレージノードを相互接続するための広範囲にわたるハードウエア構成を指すために曖昧に用いられる一般的用語である。技術用語としては、「ファブリック」は、「相互接続」と同義であることが多い使い易い用語となっている。
「アーキテクチャ」は、通信ネットワークの設計を意味し、物理的構成要素、機能的機構、データフォーマット、及び動作手順を含む。「トポロジー」は、ネットワークの様々のノード間の相互接続パターンを指す。物理的トポロジーは、ケーブル及びネットワークノードの構成を指す。トポロジーとは、ノード、リンク、及び到達可能性を包含するグラフ理論的概念であり、他方、アーキテクチャはエンジニアリングを意味する。2つの用語は誤って同義的に使用されることが多い。
相互接続ファブリックの「直径」は、何れかのペア間の最短経路のエンドポイントの全てのペアにわたる最大値である。直径は、1つのノードから別のノードにデータを送信する時に遭遇する可能性のあるデータホップの数の尺度である。「バイセクション帯域幅」は、ファブリックを2つの等しい独立した部分に分離するために分断しなくてはならない幾つかの双方向接続である。「到達可能性」は、何れかの2つのファブリックノード間の可能性のある経路(ループなし)の数である。最大及び最小到達可能性が存在することができる。
「ポッド」は、各モジュールがpポートを包含し、各層がp/2モジュールを包含する場合の2層の完全接続されたp同一スイッチ又はブロードキャストモジュールのセットである。
本発明及びその様々な特徴及び利点の詳細は、添付図面に示され以下の説明で詳述される非限定的な実施形態を参照して完全に解説される。公知の出発材料、処理技術、構成要素及び装置の説明は、本発明を不必要に曖昧にしないように省略される。しかしながら、本発明の好ましい実施形態を示す詳細な説明及び特定の実施例は、単に例証として与えられており、限定としてではない点を理解されたい。ベースとなる本発明の概念の精神及び/又は範囲内にある様々な置換、変更、追加及び/又は再構成は、本開示から当業者には明らかになるであろう。
本明細書に引用される米国特許は、意図される目的を満たす実施形態を開示している。米国特許第7,450,857号、7,630,648号、7,796,885号、7,970,729号、及び8,081,876号の全内容は、本明細書において引用により明確に組み入れられる。加えて、スイッチに対する「ポッド」概念は、Vahdat等によって開発され、2010年1月28日に公開された米国特許出願2010/0020806、2007年11月29日に公開された2007/0276872、及び2011年12月8日に公開された2011/0302346において参照される。2010年1月28日に公開された2010/0020806、2007年11月29日に公開された2007/0276872、及び2011年12月8日に公開された2011/0302346の全内容は、本明細書に引用により明確に組み入れられる。
ポッド概念は、実際には、Widrowによって開発された2層ニューラルネットワークの変形形態であり(特に図11及び以下の説明において、1990年IEEE、78(9)、Widrow及びLehrによる「適応ニューラルネットワークの20年」を参照)、ここでは外部で動作されるルーティングスイッチは、フィードバック処理を介して「学習する」適応重みのセットを交換する。ニューラルネット学習処理は、格納されたパターンに従ってスイッチ位置を決定する事前に決められたルーティングテーブルに直接類似しており、次にこれらのスイッチ位置は、バイナリニューラルネットワーク重みのセット(「オープン」又は「クローズ」状態の何れか)に等価である。
ポッド及び2層ニューラルネットワークのトポロジーが等価であり、パケットフローポッドのトポロジーに等価であるが、後者の概念は実質的に異なり、その内部アーキテクチャによってスイッチポッド及びその2層ニューラルネットワークアンセスタとは容易に区別できる。パケットフローポッドでは、各入力におけるデータが分散され、各々及び全てのポッド出力上に同時に存在する可能性がある。データパケット又はメッセージ構造は、メッセージを適切な出力に向けるヘッダを包含し、メッセージが不適切な出力に到達しないようにフィルタリングする。
一般に、本発明の概念は、光学信号、光学及び電気(デジタル)信号の混合、並びに純粋な電気(デジタル)信号によるデータの分散及び収集を含むことができる。本発明の関連は、インコヒーレント光及び/又はコヒーレント光送信によるデータの転送を含むことができる。本発明の関連は、音響送信によるデータの転送を更に含むことができる。本発明の物理的な関連は、特に複数のエンドポイント、コンピュータ、コンピューティングデバイス、及び/又はストレージデバイス間の高速及び大容量データ転送のためにネットワーク、ノード、回路基板及び/又はモデムを含むことができる。
本発明は、超高速の転送を実施するために精密なタイミングを使用したパルス幅変調及び復調を含むことができる。本発明は、無線用の自由空間伝送又は同軸ケーブル又はデータバス又は電線、及び光用の自由空間伝送又は光導体又は光ファイバを含むことができる。
本発明は、ビットストリームによる搬送波の高速変調を含むことができ、該変調は、任意選択的に、全てのデジタル処理において起こる。本発明は、ビットストリームを回復するための搬送波の高速復調を含むことができ、該復調は任意選択的に全てのデジタル処理において起こる。
本発明は、上述されたように符号化されたキャリアを変調及び検出するための全デジタル処理を含むことができる。存在する場合、変調器及び復調器のアナログ部分は、当業者に公知の一般的な位相、周波数、及び増幅デバイスである。
本発明は、相互接続ファブリックノードの幾つかのトポロジーの何れかを含むことができ、ここでファブリックノードは、本発明の主題であるパケットフローモジュール;又はこのようなパケットフローモジュールのポッド、或いは、このようなパケットフローモジュールのポッドのポッド(以下繰り返し)である。
図1(従来技術)は、米国特許第7,970,279号において最近記載されているように、ブロードキャスト光に基づく典型的なn方向(又はn×n)相互接続(「N方向シリアルチャネル相互接続」)を示す。この図は、入力から(通常はnノード又はエンドポイントから)出力まで(通常は同じnノード又はエンドポイントまで)の完全に接続されたn×n相互接続を描いている。
図1を参照すると、nホストコンピュータからのn入力100上の電気データ(2つの矢印の末端間に連続した点線を付けた濃い2方向矢印によって示される)が、EONICでラベル付けされた電気−光学ネットワークインタフェースコントローラモジュール110において(好ましい実施形態では)レーザによって変調光に変換される。変調された光は、nシングルモード光ファイバ125(白抜きの先頭部を有する方向付矢印によって示される)に沿ってn出口120(破線の矢印によって示される)でEONIC110から出る。これらのファイバ125は、入力130(破線によって示される)で光学モジュール140(直接ブロードキャスト光学相互接続用の「DBOI」でラベル付けされている)に入る。各光学信号は、同じ信号がモジュール140の全ての部分に到達するようにスプレッド又はスプリットによって分散(ブロードキャスト)される。このブロードキャスト分散は、150のラベルが付けられた複数のファンアウト及びファンイン線によって示され、これは、モジュール140の分散キャビティ内の光の連続スプレッド又は分散を表すことを意味する。好ましい実施形態では、これらの線150は、入力130の各々からブロードキャストされる光の分散と出力線160の各々への収集を概略的に示している。本明細書における「光」の使用は、図1によって示されるようにして操作できる情報のあらゆるキャリアが本発明の関連において有効であるような光学的手段に本発明を限定することを意図するものではない。上記に引用された各特許によって説明される相互接続の光学形態において、幾つかの入力からブロードキャストされた光は、レンズによって収集されて、マルチモードファイバのバンドルである(白抜きの先頭部を有する一方向矢印によって示される)出力160上に集束され、ここで各バンドルは、光学ケースにおけるn個の個々のファイバ又は電気ケースにおけるn個の個々の送信回線又はケーブルを有する。
4つの収集ポイントの各々(矢印160の尾部)は、n個の入力130の入力データストリームの4つの複製としてn個の信号を包含する。DBOI相互接続のオリジナルの実施構成では、nは32であり、各入力ストリームは、32データストリームの各々の複製を提供するために光学ファンアウトデバイスによって4つの方向に分割される。次に、これらの光学信号は、4つの検出器アレイ又は光ファイババンドルに結合され、各々がオリジナルの32入力データストリームのコピーを包含する。従って、ブロードキャスト分散モジュール140を出る4つのデータストリーム160が描かれている。これらの詳細は、上記に引用された特許において説明されている。n=32及び光学ファンアウトが4であるこの特定の実施例は、単に例証の目的で選択されたものである。他の選択も可能である。例えば、72方向相互接続は、図1に示された4の代わりに160のラベルが付けられた9出力バンドルに至る9倍の光学又は電気ファンアウトを有することができる。
モジュール110又はモジュール140の何れかの内部にはスイッチ又はルーティング機構が存在しない点に特に留意されたい。すなわち、パケットは、光学パルスへの変換後に、どのような障害もなくn入力100の何れかからモジュール140の4n出力の何れかに自由に流れることができる。別に記載されるように、図1によって表されたアセンブリ内にデータ輻輳は存在することはできない。
4つのバンドル160は、n光学検出器の4つのセット(モジュール110に包含され図示せず)に接続され、ここで光学パルスが電気的デジタルデータに再変換される。実際には、モジュール110は、符号化された宛先並びにEONICモジュール110の出力100で潜在的なポートコンテンションを解消するために必要なフロー制御回路に従って様々なデジタルデータストリームを収集、格納、及びフィルタリングする付加的な手段を包含し、その信号は、双方向リンク100の出口接続に沿った送信に適切な電気信号である。次に、フィルタリングされた電気信号は、出力100に沿ってホストエンドポイントに渡される。これらの事柄は、上記に引用された各米国特許、特に米国特許第7,970,279号において保護されており、従って、回路の正確な構成及び正確な機能はここで扱う必要はない。
図2(従来技術)は、各横列がp/2スイッチからなる2つの完全に接続された横列でpスイッチを結合する一般に理解される方法を示している。pスイッチの各々は、p全二重通信ポートを有する。図では、p=6であり、各横列に3スイッチからなる2つの横列が存在する。各pポートスイッチの接続の半分は、2つの横列を完全に接続するのに使用され、半分はポッド外部の接続であり、p2/2接続は、ファブリック構造における低レベルからのポッドへの入力として機能し(一般的には、コンピューティングノード又はエンドポイントへの接続)であり、残りのp2/2接続は、ファブリックにおける次に高いレベルへのポッドの「出力」と概念的に呼ばれる。当然ながら、ポッドは、出力が入力になり逆もまた同様であるように、逆にチューニングすることができるよう完全に対称的である。
図2を参照すると、6つのスイッチ200は各々、小さな円によって示されるp全二重ポート220を有する(図の各スイッチ200は、p=6のようなポート、各スイッチ200の「上部」に示されたp/2又は3ポート及び各スイッチの「下部」の3ポートを有する)。これ例図は、データが各スイッチ200の下部から「前方」又は上方向に対する各スイッチ200の上部に渡されることを示すものとし、ポート220及びスイッチング要素210の全二重性質に起因して、信号はまた、スイッチング要素210のセットの閉鎖パターンを変えることなく同じ方式で上部から下部に渡すことができる。上述したように、各スイッチ200の下部半分の各ポート220は、スイッチング要素210(ファブリックのルーティングテーブルにおけるグローバルスイッチパターンによって一般的に外部で制御される)によって各スイッチ200の上部半分のポート220の1又はそれ以上に接続される。二重接続225(図の下部での全二重通信を示すための二重矢印の列として図示される)及び二重接続240(図の上部での全二重通信を示すための二重矢印の列として図示される)が、ポッドへの「入力」及び「出力」として働くスイッチ又はターミナルエンドポイント(図示せず)に接続し、その宛先は、信号の実際の移動方向とは無関係である。スイッチの2つの列の間の接続230(全二重通信を示すための二重矢印の列として図示される)は、ニューラルネット及び相互接続に関する論文で公知である完全に接続された2層ネットワークを作成するための内部接続を提供する。
所与のスイッチパターンが、1つの層上に存在する何れかのポート220上の所与の信号が他の層又は同じ層における何れかの選択されたポート220に到達するのを阻止又は遮ることができる点に留意されたい。加えて、同じポッド内の通信では、スイッチパターンが、スイッチ200の1つの列から渡されて次に二重チャネル225又は240の何れかに沿って必ずしもポットから出る必要もなく他の列に戻ることによって、下部(上部)−列ポート220を別の下部(上部)−列ポート220に接続できるようになる。これらのパターンを達成するスイッチ210の特定のインスタンスを、例示のケースにおいてn=3の場合に標準的なn×nクロスバースイッチで見つけることができる。
全二重スイッチによって課せられる制限の実施例として、別のスイッチ上のポート又はエンドポイントポートとすることができるラベルAの付いたポート250を検討する。Aが、別のスイッチ上のポート又はエンドポイントポートとすることができる251のラベルの付いたポートBに接続され、メッセージ又はパケットのシリーズがAからBに送信されるようになっているスイッチパターンを考えてみる。別のスイッチ上のポート又はエンドポイントポートとすることができるCのラベルの付いたポート252からメッセージが同時に発生した場合、その宛先は、AからBのメッセージが完了するまでメッセージが遮られるラベル250の付いた第1ポートAである。この遮断は、スイッチの二重性質に起因するものであり、ファブリックスイッチの2つのセットを有し、1つがデータ各移動方向に対するものであることでのみ防ぐことができ、通常は起こらないことである。
図3は、図1に示された構成を再配列した図であり、ここではホストエンドポイントから又はホストエンドポイントへの電気接続は存在しない。本構成は、上述されたように各個々のメッセージパケットの動的ルーティングに応じた何れかの入力チャネルから何れか及び全ての出力チャネルへの光学的な流れを表すものとする。
図3を参照すると、他のこのようなブロードキャスト分散モジュールから、又は最終的には適切なEONIC(図1の光学出力120など)における電気−光変換に続くホストエンドポイントからの光学信号を包含するnシングルモード光学入力ファイバ310(好ましい実施形態)が、光学モジュール300の入力側に提示されている。モジュール300は、上述され且つブロードキャスト分散動作を概略的に示す線320によって示されたブロードキャスト方式でその入力310の各々を分散する。上述したように、分散光学信号は、マルチモードファイバ330によって示される4つの物理的区分の各々(好ましい実施形態)、各バンドルが全てのn入力信号310のコピーを包含するような方式で収集される。(上述したように、この特定の例図は4つの区分を使用するが、本発明はこの実施に限定されない。)
各別々のEONICモジュール340は、光ファイババンドル330におけるn個の別々の光信号を受信する。これらのn光信号は、検出器及び電子機器(図示しないが引用特許において記載されている)によって電気信号に変換される。次に電気信号は、現在電子形式である幾つかのメッセージの宛先ヘッダに従って論理によって分散及び収集される(図示しないが引用特許において記載されている処理)。次に、適切な電気データストリームが、各EONICモジュール340におけるn/4モジュレータ及びレーザの何れか又は全てに提示される。n到来光データストリーム310は次に、シングルモード出力ファイバ350上に存在するn光送出データストリーム間で分散される。
上記のように、特定の経路決定及びフロー制御に対処するための中間及び一時的ストレージ、論理を含む付加的な回路は、図3に示されたパケットフローモジュールを機能的に拡張するが、本発明の範囲又は目的を変えることなく又は実質的に変更することなく、何れの実際の実施構成にも組み入れることができる。
光学モジュール300への入力を含む光ファイバ310は、EONIC340の出力を含む光ファイバ350から独立している点に留意されたい。すなわち、図3に表されたパケットフローモジュールへのポートの数がp(ここでpは上記の説明のnと同じ)であるが、各ポートは、実際には双方向(及び論理的に独立した)通信チャネルのペアである。これは、ペアが1つのユニットとしてスイッチされる点でpポートのペアの各々が互いに論理的に結び付けられているスイッチモジュールとは対照的である(勿論、方向の各々に対する完全なスイッチ型ファブリックが存在しない限り)。パケットフローモジュールはスイッチモジュールとは機能的に著しく異なるのは、この基本的なアーキテクチャの区別のためである。
図4は、図2で導入されたポッドトポロジーを表しているが、上記に提示されたようにパケットフローモジュールによって実施(アーキテクト)される。ポートの数は、分かり易いように6に低減されており、実際には、図4に表された各ネットワークノードに対するポートの数は、図3におけるパケットフローモジュールの双方向通信ペアの数である。この数は、既存の実施構成において通常は32又は72である。
図4を参照すると、6つのパケットフローモジュール400の各々は、小さな円によって示されるようにp個の双方向及び独立ポート420を有する。トポロジーは図2と同一であるが、モジュールの構成及び機能、及びひてはポット自体は全く異なる。各モジュール400の完全に接続された連続ブロードキャスト性質が、図面において何れかのパターン又は記号の存在なしに示され、各モジュール400の中空の内部部分を指し示す矢印410によって示されている。ポッドに向けた白抜きの先頭部を有する矢印によって示されるように、双方向線425又は440の何れかを介してモジュール400の上部列の上部又は下部列の下部にてポート420を介してポッドに流れる光信号(好ましい実施形態)は、モジュール400の上部列の上部又は下部列の下部における他のポート420の各々に同時に(原理上実際にはないとしても、ポッドに入るメッセージのヘッダに応じて)存在する。次に、このような信号は、ポッドから離れる向きの白抜きの先頭部を有する矢印によって示されるように、双方向線425又は440の何れかに沿ってポッドから(この場合も同様に、ポッドの入るメッセージのヘッダに応じて)離れることができる。
上記の図2と同様に、トポロジーは、完全に相互接続された2層システムを必要とし、その接続は、白抜きの先頭部を有する反対方向の矢印のペアによって表される双方向線430によって形成される。
詳細には、入り口ポート420の何れかからその出口ポート42の何れかに信号を分散するためにこのパケットフローポッドに必要なスイッチ設定のグローバルパターンは存在しない点に留意されたい。また、ポッドの上部又は下部列に沿った又はポッドを含むモジュールの上部又は下部列に沿ったポートの何れかのペアからの仮想接続もまた、逆方向の仮想接続を必要としない点に留意されたい。すなわち、ポート及びブロードキャスト分配機構の双方向性質は、パケットフロー経路が独立していることを意味し、この独立性は、ポッドの全帯域幅並びにこのようなパケットフローモジュール又はパケットフローポッドによって構成された何れかのファブリックも潜在的に利用可能であることを意味する。
双方向ポートの汎用性の1つの実施例として、別のポッド上のポート又はエンドポイントポートとすることができるAのラベルの付いたポート450を考えることとし、ポート450が、別のポッド上のポート又はエンドポイントポートとすることができるBのラベルの付いたポート451にメッセージ又はパケットのシリーズをリレーする処理の途中であると仮定する。別のポッド上のポート又はエンドポイントポートとすることができるCのラベルが付いたポート452が、ポート450にメッセージをリレーする必要がある場合、このような送信は、AからBへのメッセージによって遮られず、すなわち、何れの所与のポートも異なるポートからデータを受信すると同時に、1又はそれ以上のポートにデータを送信することができる。
この挙動は、スイッチの全二重性質が与えられた場合に帯域幅の約半分が実際に使用していないスイッチモジュール又はポッドのケースと対照させる。
図5は、対称Closファブリックを表し(Charles Clos、「非ブロッキングスイッチングネットワークの研究」ベルシステムテクニカルジャーナル32(2)、406−424ページ 1953年)、ここで、1つの入力(下部列)モジュール当たりの入力ポートの数は、3つの列の各々におけるモジュールの数に等しく、1つの出力(上部列)当たりの出力ポートの数は3つの列の各々におけるモジュールの数に同様に等しい。図5に示された事例では、パケットフローモジュールとエンドポイントとの間の接続は双方向であり、下部でのエンドポイントは上部でのエンドポイントとは異なり、対応するエンドポイントの数を効率的に倍加することを意味する。
図5を参照すると、幾つかのエンドポイント500が、図の上部及び下部列で小さな円によって表されている。ファブリックノード510、520、及び530は、図3に示されるようにパケットフローモジュールであり、ここで図5によって表されるファブリックにおける各パケットフローモジュールは、p=8双方向ポートを有する。ノード510の列は、p/2(すなわち、この実施例では4)16エンドポイント500への双方向接続540、及びノード520の中間列へのp/2双方向接続550を有する。また、パケットフローモジュール520の中間列は各々、パケットフローモジュール530の下部列へのp/2双方向接続を有し、この各々はまた、エンドポイント500の下部列へのp/2双方向接続540を備えたp/2ポートを有する。このように、3pパケットフローモジュールの完全に飽和されたセットは、(p/2)2エンドポイント又は例図では32エンドポイントに対する完全に相互接続された非ブロッキングファブリックを提供する。単一行520を超えて中間列の数を増やすことができる。この増大は、何れか2つのエンドポイント間のより大きな経路冗長性を可能にする(本明細書で使用する「飽和」は、全てのポートが接続を有することを意味する。)
Lを対称Closトポロジーにおける列又はレベルの数とすると、分析は、このトポロジーによって対応されるエンドポイントの数が(p/2)2であり、L(p/2)パケットフローモジュールを必要とすることを示しており、これによって、各パケットフローモジュールに対してp/(2L)エンドポイントが存在し、これはファブリックハードウエアの観点で特に効率的なアーキテクチャではないが、次の図に対する背景として機能する。
図6は、パケットフローモジュールのポッドから構成された対称Closファブリックを表している。図5との唯一の違いは、pポート各々のパケットフローモジュールの代わりに、p2/2ポートのパケットフローポッドに基づくファブリックのアーキテクチャである。(ここで、本開示のあらゆる場所で、pは、相互接続ファブリックを構成するのに使用されるパケットフローモジュールにおけるポートの数である。)
図6を参照すると、トポロジーは、図5のトポロジーと同一であるが、パケットフローモジュール当たりのポートの数は、この実施例では、図5で使用されるp=8ではなくp=4である。図面における要素は、上記と同じ機能を有し、エンドノード600、及び3つの列におけるパケットフローモジュール、610、620、及び630がある。エンドポイント600とファブリックノードの外側列610及び630との間の双方向接続が線640によって示されている。中間列620と2つの外側列610及び630との間の双方向接続は、線650及び660それぞれによって示されている。
分析は、このトポロジーによって対応されるエンドポイントの数が(p/2)4であり2L(p/2)3パケットフローモジュールを必要とすることを示している。従って、パケットフローモジュール当たりのポート小さな数pは、多数のエンドポイントに対応することができる(p=32に対して65,536エンドポイント及びp=72に対して1,679,616エンドポイント)。
各パケットフローモジュール610、620、及び630は、この図では、バブル670によって表されるパケットフローポッドであり、8ポートを有するポッドを含む4つの各々が4ポートパケットフローモジュールを包含する。
これらの2つの例証の目的は、多数のエンドポイントに対して相互接続ファブリックを構築する時のパケットフローポッド概念のパワーを示すことである。
図7は、ファブリックノードとして、パケットフローモジュール又はパケットフローモジュールのポッドを有する2次元規則的グリッドファブリックを表している。
図7を参照すると、9つのパケットフローモジュール700が、一辺が3個の規則的グリッドで配列されて示されている。4つの双方向接続720が、各モジュール700からその4つの最も近い近傍まで形成される。各パケットフローモジュールがp双方向ポートを有すると仮定すると、(p−4)エンドポイントポート710が、エンドポイント(例えばコンピューティングノード、サーバ、ストレージノードなど)への双方向接続のための各ファブリックノードに留まる(700によって示される)。グリッドアレイからの双方向接続730ポイントアウトは、(1)行又は列の形態で(2次元の場合)より多くのモジュール700を取り付けるため、又は(2)オープングリッドトポロジーをトーラストポロジーに変換するために使用される。また、ファブリックノード700の数を増やすことで、ファブリック直径(何れかの2つのファブリックノード間の最も遠いホップ距離)及びひいては最大ネットワークメッセージレイテンシーを増加させる。
上述のアーキテクチャに対する変形形態は、双方向接続720及び730の二重又は三重(又はそれ以上)をノード対ノード通信に割り当てて、これに対応してエンドノード710に対して抑えるようにすることになる。従って、ノード間帯域幅を必要に応じて増加させることができる。
より高次元の規則的グリッドファブリックも実施可能である点に留意されたい。例えば、CrayのGemini相互接続及び富士通のTofu相互接続は両方とも、3次元トーラスを形成するラップアラウンド接続を備えた3次元グリッドである。トロイダル構成は、何れかの2つのファブリックノード間の潜在的経路の数を大幅に増加させると同時に、バイセクション帯域幅を二倍にし且つネットワーク直径を半分にする。
当然ながら、何れのパケットフローノード700もパケットフローモジュールのポッドと交換することができる(図6において提案される)。このポッド拡張は、ファブリックノード当たりの何れかの所望の帯域幅及び何れかの所望のエンドポイントの数を有するパケットフローファブリックを生成する。
図5、6、及び7に提示されるトポロジー、及び含意的に大きなデータセンタ(ツリー、ファットツリー、トーラス、及びVahdatによって紹介されたClos/ファットツリーなど)で有用とすることができる他のこのようなトポロジーは、新規ではない。また、ポッド概念を使用してこれらのトポロジーの何れかを拡張することは、本明細書で初めて明示的に提示され新規であるが、上記に記載したVahdat等による研究が与えられた場合に予想されなかったものとして特許請求することはできない。しかしながら、上述されたようなパケットフローモジュールで実施され、又はこのようなパケットフローモジュールのポッドによって実施されるこれらのトポロジーの何れか及び全てのアーキテクチャは、確かに両方とも新しく、スイッチ型ファブリック又はスイッチ相互接続における過去の研究によって予想されず、導き出されないものである。すなわち、上記で提示されたパケットフローファブリック、及び含意的に他の何れかのトポロジーに基づく何れのパケットフローファブリックは、直接ブロードキャスト光学相互接続を異なる固有の内部アーキテクチャのパケットフローモジュールに変換することなく、以前には実施可能ではなかった新しい手法を提示する。
この主張に対する理由は2つの要素からなり、(1)パケットフローモジュールの双方向性質、及び(2)これらの相互接続によって対応される潜在的なエンドポイントの大きな数である。スイッチ型ファブリックは、上述の方式で明らかに拡張することができ、48又はそれ以上のポートのスイッチを何百万ものコンピューティングノードに対応するよう構築できると同時に、このような大きなファブリックの明白なトップダウン管理は、不可能ではないにしても困難なタスクになる。ルーティングテーブルの構成及びプルーニング(刈り込み)が安定していないアルゴリズムを包含すること、及び今日の次善の方法が、必要とされる極めて大きなルーティングテーブルを作成、維持、検索、及び共有するための不満足な解決策を助長させる妥協策を使用していることは公知である。
本発明の主要な利点は、ファブリックにおけるスイッチを無くすことによって、複雑なルーティング方式が必要でなくなる点である。メッセージルーティングは、グローバルなトップダウンファブリック制御及びモニタリングを必要とすることなく、各ファブリックノード内でのローカルに決定される処理となる。
本発明の別の利点は、ファブリック全帯域幅が利用可能であるが、この帯域幅の約50%が、全二重ポート及び接続の性質に起因してスイッチ型ファブリックにおいて効果的に遮断されることである。
大型コンピュータシステム用の相互接続に関する更なる詳細
本開示のこの部分は、多数のエンドポイントに対応するためのLightfleet直接ブロードキャスト相互接続を拡張する際の問題を検討する。詳細には、クラウドコンピューティング、サーバファーム、スーパーコンピューティング、ストレージファーム、及びテレコミュニケーションインスタレーションにおける接続性の問題が考察される。現在使用されている幾つかの手法は、Lightfleet相互接続によって可能になる類似の方法と比較及び対比される。
サーバ、高性能コンピューティングノード、ストレージノード、ゲートウエイ、又は通信ポイントとすることができるエンドポイントの大型システムに対処する場合の中心となる問題は、スケーラビリティであり、すなわち、より多くのノードを含むように相互接続を容易に拡張できるかということである。一般的なコモディティ相互接続は、接続ポートの制限された数を有するスイッチに基づいており、これによって、(水平方向の)スケーラビリティの問題は、ポートが制限された多数のモジュールを相互接続するスケーラビリティとなる。一定のトポロジー(ノードの構成)は、メッシュ、スター、及びツリーである最も頻度の高いものと共通で使用される。ハイブリッド形態(例えば、メッシュのツリー)も使用される。
序文に続く第1段落は、ネットワークトポロジーの問題を考察し、異なるトポロジーが異なる強さ及び弱さを有することを示し、トレードオフは、通常、スケーラビリティ、ノード間の帯域幅、サービスされるノードの数、ネットワーク直径(ノード間の経路距離の尺度)、及び到達可能性又は経路冗長性(2つのノード間の利用可能な経路の数)の間で行われる。2つの主なパラメータは、直径(ノード間のレイテンシーを決定する)及び帯域幅である。直径と帯域幅又は直径とスケーラビリティとの間のトレードオフが評価される。本論文の第1部分の目的は、同一のファブリックモジュールに基づいてファブリックトポロジーを選択する方法を示すことである。
第2の段落は、ファブリック管理に関し、スイッチシステムにおけるパケットトラフィックの制御をLightfleet相互接続に対する修正に基づくパケットフローシステムにおいて実施可能な制御と対比させる。パケットルーティングのこの新しい方法は、数百のサーバの小企業から数百万のノードを有する極めて大きなサーバファーム及びパケットルーティングシステムまで、全てのスケールでの相互接続全体にわたって動作する。提案のルーティング方法は、スイッチ型ファブリックに特有のスケール問題を回避する。システム全体のグローバル管理を必要とする鉄道又は航空機トラフィックと比較したスケジュールされておらず且つローカルに制御される自動車トラフィックに類似している。
序文
背景
Lightfleet株式会社は、コンピューティングノード間のタイトな結合を提供する新規の相互接続ファブリックを発明し、特許権を受け、また開発をおこなっている。基本発明は、最大128のコンピューティングノード(cノード又はエンドポイント)及びこれを超えるものをファブリック内輻輳の可能性なしに完全相互接続することを可能にする。すなわち、cノード間の全ての経路は厳密に非ブロッキングであり、各エンドポイントは、経路ルーティングのソフトウエア制御を必要とすることなく、他の全てのエンドポイントに同時にブロードキャストすることができる。
本開示の一部である、DBOIと呼ばれるLightfleetのダイレクトブロードキャスト光学相互接続(Direct Broadcast Optical Interconnect)の特性は、このような相互接続ファブリックの特性を考察し、Lightfleetデバイスが8つの基本相互接続特性(帯域幅、程度、直径、レイテンシー、容量、輻輳、データスキュー、及び経路自由性)において最適であることを示している。DBOIが厳密に非ブロッキングであるので、ファブリック内輻輳がなく、よって、付加的通信オーバヘッドを有するスケーラビリティのAmdahlの法則の下での挙動はほぼ理想的である。
本開示の一部であるDBOI性能特性は、相互接続ファブリックの付加的な特性を考察し、相互接続の機能的な利点を示し、進歩する通信技術の下でのその競争上の利点を考察する。ビットレート、ブロードキャスト、及びDBOIシステム内のメッセージの応答時間変動がどのように改善されたかに関する主題が全て網羅される。更に、幾つかのプログラミングモデルが提示される。
本開示のこの部分の目的は、これをタイトクラスタに対する効果的な解決策にする不可欠の理想的な特性の多くを保持しながら、数千から数百万のエンドポイントを相互接続するために基本的DBOIをどのように使用できるかを示すことである。基本的な考えは、DBOIモジュールのネットワークを形成することであり、各DBOIモジュールは、ネットワークファブリック(又はfノード)におけるノードとして機能を果たすと同時に、各fノードにて論理的に常駐するコンピューティングノード又はエンドポイント(cノード)のタイトクラスタのためのブロードキャスト相互接続としても機能することができる。これは、データセンタが現在構築されている方式と一定の類似性を有する。
ブロードキャスト機能が維持されている間、ファブリック直径は、1ユニットの理想を超えて増加することになり、メッセージがfノード間を移動する時に2つの任意のcノード間のメッセージレイテンシーが増加することを意味する。しかしながら、以下に示されるように、DBOIfノードの結果として生じるファブリックの多くの望ましい特性が保持される。スイッチ相互接続のネットワーク(スイッチ型ファブリックとして公知)よりも優れたDBOIのネットワークの利点が同様に考察される。このようにして構成されたDBOIファブリックは、ユビキタススイッチ型ファブリックと区別するためにデータ又はパケットフローファブリックと呼ぶことができる。
「ファブリック」又は「相互接続ファブリック」は、多数のコンピューティングノード及び/又はストレージノードを相互接続するための広範囲のハードウエア構成を指すのに曖昧に用いられる一般的用語である。技術用語としては、「ファブリック」は、「相互接続」と同義であることが多い使い易い用語となっている。
問題の提示
主な課題:スケーラビリティ及び管理
データセンタ(サーバファーム、ストレージファーム、「クラウド」コンピューティングインスタレーション)並びにHPC又は高性能コンピューティング(科学、研究、政府アプリケーション)、企業コンピューティング(データベース、オートメーション、注文処理、スケジューリング、アカウンティング、及び情報管理のような特定のビジネスアプリケーション専用の大きなシステム)、及びテレコミュニケーションで使用されるラージスケールパケットスイッチングシステムは全て、ハーネスに対する圧迫を生じており、所与のインスタレーションに利用可能なコンピューティングリソースのセット全体をコヒーレントにアクセス及び制御する単一の均一な手段の下でコンピューティングリソースの数がますます増大している。例えば、データセンタの必要性は、専用HPCインスタレーションよりも100,000サーバマークを現在上回っている。企業インスタレーションは、これらほどの大きな数には未だ到達していないが、その必要性は増大しており、計算リソースの拡張に対する要求の欠如によってではなく、インスタレーションコストによって制限されている場合が多い。
コモディティスイッチ(イーサネットベースのハードウエアなど)及び市販のInfiniBandスイッチに基づく研究では、極めて多数のコンピューティングリソースをコヒーレントシステムに効果的且つ安価に統合するという課題を扱うことを試みている。研究機関(例えば、データセンタ及びクラウドコンピューティングに関わる営利企業)によって費やされる取り組みの多くは、ソフトウエア上の技術革新を用いてスイッチ型ファブリックの機能を拡張することに主としてフォーカスされると同時に、新しいネットワーキングトポロジー及びアーキテクチャを提案している。例えば、約36又は48のポートを超えるInfiniBand及びイーサネットスイッチは、以下に論じられる3層Closネットワークに基づいている。多くのベンダーが特許請求していることにも関わらず、この構造は、実際には、特定の容易に発見されるトラフィックパターンをブロッキングする。
数万のサーバから数十万のセンタまでの今日の相互接続ファブリックを拡張するのに伴う主要な問題は、とりわけ、(対応される帯域幅及びノードの数における)スケーラビリティ、相互接続管理(ルーティング、スパニングツリーメンテナンス、ファブリックの状態の制御及びモニタリングに必要なソフトウエア及びハードウエア)、及び困難な又は融通性のない通信プロトコルに関するものである。帯域幅容量を「アグリゲーション」及び「コア」レベルに引き上げるハイエンドスイッチ及びルータの場合でも、最良のトポロジーは、cノード又は「エッジ」レベルで見られるアグリゲート帯域幅の何分の一しかサポートしない。ファブリックに利用可能な結果として得られる非均一な帯域幅は、システム性能を制限し、ユーザレベルでのソフトウエア管理を複雑にする。加えて、スイッチング又はルーティングの各レベルは、一般に、その固有の制御及び監督ソフトウエアを必要とし、これらは、ルーティング衝突を最小にするために従来よりも大きなルーティングテーブルを維持することに起因して、レベルに関して複雑さが増大する可能性がある。これは、ソフトウエア管理問題を更に悪化させる。
「スケーラビリティ」は、「水平」又は「拡大」の意味と、「垂直」又は「増大」の意味の両方で使用され、この用語が頻繁に使用されるとしても決まった又は明確な定義はない。水平スケーリングは、より多くのコンピューティングノードを追加することを意味し、垂直スケーリングは単に、より多くの容量を既存のノードに追加することを意味する。場合によっては、データセンタにおけるスケーラビリティは、単に、あらゆるホストがそのポート全帯域幅で他の何れかのホストと通信できる可能性として定義される。幾分より明確な用語では、スケーラブルシステムとは、その性能が追加ハードウエアに比例して向上するシステムのことである。用語の量的使用では、スケーラビリティは、cノードの数がfノードポートの数の増加に伴ってどれほど増大するかを示すことができる。用語「拡張性」という用語は、このスケーラビリティの後者の使用を示すことが多い。
従って、今日のデータセンタの需要を満足させる場合の主な課題は、数千のcノードを超えて数十万又は数百万にまでスケーリングする方法、及びこのような大きなシステムを効果的に管理する方法である。
二次的課題:レイテンシー、帯域幅、及び到達可能性
大きなシステムの効果的且つ効率的な統合に影響を与える他の課題は、レイテンシー及び経路到達可能性(2つのエンドポイントが通信できる潜在的に利用可能な経路の数)、冗長性(障害時に利用可能なハードウエア)並びに水平及び垂直スケーラビリティを含む。多くのアプリケーションにおいて、レイテンシーは、ルーティングテーブルから、又は2つの通信エンドポイント間のツリー又は他のノード構造の既知の距離から予測可能である場合が多いので、レイテンシーは、ノード間の帯域幅ほど重要ではない。
これらの課題は、小型から中型サイズのインスタレーションにおいて満足のいくように対処されているが、次世代インスタレーションでは、ファブリック及びその管理が数百万のcノードに拡張すると、これらの制約を満足させることは、多くの場合、利用可能な満足のいく解決策がほとんど又は全くなく解決が困難であると思われる。本開示のこの部分の目的は、DBOI相互接続に基づくパケットフローファブリックの観点から問題を考えることによって、単純で十分に乗り越えられる解決策をどのように達成できるかを示すことである。
スイッチアーキテクチャでは、高到達可能性を活用することにより輻輳の可能性を増大させるという単純な理由から、到達可能性はレイテンシー又は帯域幅ほど重要ではない。トポロジーが高到達可能性を提供する場合には、可能性のある経路選択のセットは、多くの場合、ソフトウエアによる管理可能な数にまでプルーニングされることが多く、結果として、構造的に実施可能であるよりも少ないルートを有する最適以下のスパニングツリーをもたらす。
高性能コンピューティング(HPC)では、帯域幅は、最優先課題であることが多く、レイテンシー二次的な役割を果たす。これは、Top500.org siteに挙げられた相互接続トポロジーから明らかである。トップ性能HPCは、3Dトロイダルトポロジーを有し、優良な到達可能性及び帯域幅を有するが、ツリー構造と比較した場合にトポロジーレイテンシーが劣悪である。(劣悪なトポロジカルレイテンシーは、通常は付加的なハードウエア及びソフトウエアを犠牲にして、総メッセージレイテンシーを向上させるための高速回路及び様々な動的アルゴリズムルーティング手段を伴うアーキテクチャ選択によって改善できることが多い)。
高到達可能性は、fノードが故障した場合にcノード間の通信を維持するための経路冗長性及び基盤を提供するが、過剰である可能性がある。ルーティングテーブルは、効率的な配信を保証する選択が行えるように、最良の経路を反映しなくてはならない。高到達可能性では、このようなテーブルのサイズは、大量のメモリを消費して優良経路の検索時間を増大させるほど大きくなり、従って、メッセージレイテンシーが増大する可能性がある。一般的な解決策は、管理可能なサイズまでテーブルをプルーニングして到達可能性を効果的に低減することである。加えて、今日の相互接続で使用されるスイッチは、通常、輻輳を検出及び制御するための専用ハードウエアを有する。単純なスイッチング機能を超えたこのような管理ハードウエアは、データプレーンをシャドーする制御プレーンによって補足されることが多い。
ルーティングテーブルのないスイッチレスファブリックでは、到達可能性を活用する幾つかの方法があり、各ノードに到達したときに全ての可能性のある順方向経路上ので単にブロードキャストするか、又はメッセージを最も近い非ビジーfノードに向ける。グリッド又は3Dトーラス上では、最適経路はノード間の最短マンハッタン距離である。他のトポロジーでは、効率的なパケットフロールーティングを達成するための同様に単純なローカルアルゴリズムが存在する。
データセンタの実施例
データセンタ相互接続は、一般に、リーフとしてサーバ又はコンピューティングノードを有する2層又は3層ツリーで構成されたスイッチング及びルーティングモジュール(上記ではfノードと呼ばれる)のネットワークからなる。一般的な手法は、サーバのラックをマルチポート「トップ−オブ−ラック」(TOR)スイッチと相互接続することである。一般的な構成では、ラックは40サーバを包含し、TORスイッチは48ポートを有し、そのうちの8つは層2スイッチに接続される。ラックは、列をなして配列され、「エンド−オブ−ロー」(EOR)スイッチが、TORスイッチからのトラフィックを連結させる。EORスイッチは、96又は128ポートを有することが多い。複数の列が、最大288ポートを有することができる(一般的には、各列に12スイッチを有する24ポートクロスポイントスイッチの3つの層からなる)「コア」スイッチと呼ばれることが多い層3スイッチをフィードする。3つの各層が帯域幅ボトルネックを生じるので、これによってラック対ラック通信が、層2及び層3スイッチの帯域幅によって制限される点に留意されたい。加えて、このトポロジーは、ツリーにおけるより高次の各層において次第に専門化されより高価なスイッチモジュールを必要とする。
この1つに類似したファブリックが、Al−Fares等による実施例として提示されており、[1]ここでは、11,520サーバを有するデータセンタに対して各々が12ラックの24列からなる相互接続が記載されている。図15は、「共通データセンタ相互接続トポロジー」として参照文献1に与えられた実施例を再現している。これは、先行する段落において記載されるように各エッジスイッチが現在では約40サーバをサポートしている点で実際のデータセンタ使用における単純化を表している。
図15は、3レベルツリーとして構成された3つのスイッチング層を示している。ホスト対スイッチリンク(緑)はギガビットイーサネットであり、スイッチ間のリンク(赤)は10ギガビットイーサネットである。
ツリー構造が(レベル数の対数に比例して)適正なレイテンシーを提供するが、レベル間の帯域幅は、実際には減少し、帯域幅スケーラビリティの欠如をもたらす(すなわち、上記の実施例のように40サーバが存在する場合、ツリーの次のレベルに対しては8つの等価リンクしか存在しない)。加えて、管理の複雑さはレベルと共に増大し、より大きなルーティングテーブルが必要となる。幾つかのスイッチの出力層は通常、データコンセントレータを利用し、より高い帯域幅ポートを使用するが、上位レベルでの帯域幅は、エンドポイント又はツリーのリーフに対しては総帯域幅のほんのわずかである。これは、多くの相互接続トポロジーに関して当てはまるが、スイッチ又はその他のツリー構造は、恐らくは、ノード対ノード距離が増加したときの帯域幅を減少させる点で最悪の違反である。ファットツリーの使用(以下)は、帯域幅問題を軽減するが、これを取り除くことはない。上記の実施例は、主にネットワークトポロジーの結果であり特定のアーキテクチャ(ハードウエア)ではない、帯域幅とレイテンシーとの間のトレードオフを示している。
「アーキテクチャ」は、通信ネットワークの設計を指し、物理的な構成要素、機能的編成、データフォーマット、及び動作手順を含む。「トポロジー」は、ネットワークの様々なノード間の相互接続のパターンを指す。物理的トポロジーは、ケーブル及びネットワークノードの構成を指す。トポロジーは、ノード、リンク、及び到達可能性を包含するグラフ理論的な概念であり、他方、アーキテクチャは、エンジニアリングを指す。2つの用語は同義的に使用されることが多い。
高性能コンピューティングの実施例
高性能コンピュータ(HPC)又はスーパーコンピュータで見られることが多い方式は、各fノードがそれに最も近い近傍に接続されている、fノードの規則的グリッドを使用することである。fノードは、ホスト自体に組み入れられるか、又はホストチャネルアダプタ(HCA)の一部であることが多い。CrayのGemini[2]及び富士通のTofu[3]の両方は、各fノードが東及び西方向、北及び南方向、並びに上及び下方向でそれに最も近い近傍に接続される、fノードのグリッドである3次元トーラスを使用する。すなわち、各fノードは、6双方向又は二重接続を有し、その各々は、帯域幅を拡張するためにマルチデータチャネルを保持することができる。トーラスを形成するために、3Dグリッドの上部表面(上方向)のfノードは、下部(下方向)上の対応するfノードに接続するために周囲に配置され、構造の他の面も同様である。
fノードの規則的グリッド又はトーラスにおけるトラフィックは、多くの場合、InfiniBandベースのトーラスと同様にスイッチによってルーティングされる。一般に、効率的な方式におけるfノードからfノードへのデータフローは、ノードホップの要求数を形成後に指定宛先に到着する。ファブリック直径、及び従ってメッセージレイテンシーは、cノードの数の立方根(3Dファブリックにおける)にほぼ比例する。
高性能コンピューティングでは、アーキテクチャが、fノード間の通信接続及びfノードからcノードへの接続のための専用ハードウエアからなることが多い。優れた帯域幅性能に関わらず、このような解決策は、広範囲の商業市場よりも特定の機械用に設計されることが多いデータセンタ及びクラウドコンピューティングで使用するには単純に高価すぎる。
現在の解決策
データセンタサイズを増加させることによって遭遇するこれらの主要な課題に対する解決策は、現在のところ、低レイテンシー及び高帯域幅の制約が与えられた場合に、スケーラビリティ及びファブリック管理の特定の問題に対する満足のいく回答を見つけることを求めて研究されている。作業は、「スケーラブルイーサネット」アーキテクチャ[4]の範囲で、及びInfiniBandを更に大きなシステムに拡張する際に行われてきた。Cisco及びHewlett−Packardのような主要事業者の一部は、InfiniBandがそれ独自の固有の問題を有するとしても、大きなデータセンタの需要に対処するためにその専用のInfiniBand製品を拡張することを期待している。
HPC手法とは別に、業界では、何れの解決策もInfiniBand又はイーサネットに基づく既存のハードウエアを包含しなければならないと大部分が判断しているように見え、従って、取り組みの大部分は、スイッチの大きなファブリックを管理する問題を克服するためにソフトウエアの次善策に投入されている。参照1及び以下に示される他の論文から、現在の取り組みの大部分がイーサネットを大きなデータセンタにすることに集中していることが明らかである。一例として、Internet Protocol Journalの最新号は、表向きはクラウドに向けられているイーサネットルーティングにおけるある特定の進歩を論じており、これにより「フラットアドレススペースによってかなり大きな層2クラウドが作成されるのを可能にする」[5]。
コモディティハードウエアに寄せられたこの期待は、イーサネット及びそのプロトコルの広範囲の習熟並びにイーサネットデバイス及びモジュールの「コモディティ」性質を考慮すると、予想されることである。これらの習熟した解決策が妥当な限界を超えることは本開示のこの部分の見解であり、以下の内容がレイテンシー、到達可能性、及び帯域幅の制約を満たすと同時に主要な問題に対するより単純で安価な解決策への道を拓くことになると期待される。
高効率VLSI設計であることに起因して、今日のイーサネット及びInfiniBandスイッチは、単純なクロスオーバ(クロスバー、クロスポイント)又はスイッチング要素のマトリックスに基づいている。nポイントを接続するこのようなスイッチは、n入力回線をn出力回線に接続するn^2スイッチング要素を有し、従って、大きなnにスケーリングする問題を有する。何れの入力回線も出力回線の何れかの単一の回線に接続することができ、或いは、出力回線のどれにも接続しなくてもよい。このようなスイッチは、他の何れかの経路と干渉する経路がないので、厳密には非ブロッキングである。スイッチモジュールは、一般に、入力チャネルバッファ、出力チャネルバッファ、ルーティング及びポート仲裁論理によってクロスバーを取り囲む。全体性は、輻輳識別、フロー制御及び他の管理機能のための別々の管理モジュールによって制御される。
レガシー方式
ほとんどのスイッチ相互接続モジュールが元々はcノードの制限された数に対応するように設計されているので、これらのデバイスからfノードによって大きなネットワークを構築ことは、一般に、レイテンシー、帯域幅、スケーラビリティ、ハードウエアコスト、及びソフトウエア管理の間の妥協を伴う。より大きな相互接続は、一般に、様々の異なるトポロジーで構成できるスイッチのネットワーク形式で1つのモジュールを別のモジュールに結合することによって、より小さな相互接続モジュールから構築される。最も一般的な構成は、ストレージノード、コンピューティングノード、及び他のこのようなネットワークへのゲートウエイの異種混合に対応するスイッチの非構造メッシュの構成である。非構造メッシュは、fノードの効率的な構成ではなく、また、cノードの大きな数に対して容易に管理可能なネットワークをもたらすものでもない。
このようなネットワークにおける各スイッチは、1又はそれ以上のホストコンピュータに接続し、また、1又はそれ以上のストレージデバイスに接続することができる。加えて、スイッチ対スイッチ接続及びスイッチ対コンセントレータ接続が存在することができる。スイッチ対スイッチ接続は、一般に、スイッチ対ホスト又はスイッチ対ストレージ接続よりも高帯域幅のものである。コンセントレータは、高レベルスイッチに組み入れられることが多く、1又はそれ以上のスイッチ型ファブリックと他のデータネットワークへのゲートウエイのような他のデバイスとの間のブリッジを提供して、1又はそれ以上のスイッチから入力を取る。これらのシステムを介したデータの送信は、既存のトラフィックを考慮に入れて、宛先として内部的に管理しなくてはならない。ツリーのより高レベルでは、例えば、メッセージは、より高い帯域幅でスイッチ対スイッチトラフィック用にパッケージされて、個々のエンドポイント(ホストコンピュータ又はストレージデバイス)に分散するようアンパックされる必要がある。
上述したように、研究者は、コモディティスイッチ、特にInfiniBand及びイーサネット系に関する相互接続問題に対処しようとしている。研究者らが示す目標は、一般に、「スケーラブルで、容易に管理可能であり、耐故障で、効率的な」並びに費用対効果の高いデータセンタである。これらの問題に対する1つの解決策は、トポロジーの選択にあると思われる。しかしながら、特定のトポロジーは、cノードの大きな数に対応するのに効果的であるが、大きなルーティング情報ベース(RIB)の形式が大きくなるほどファブリック管理の難しさが増大し、ソフトウエアの高度さも増し、又はシステム性能に影響を与える付加的な管理トラフィックも増大する。
スーパーコンピュータインスタレーションは、一般に、これらのクラスのうちの1つに従う計画された相互接続に有利に働く。他方、データセンタは、専門スイッチによって結合されゲートウエイによって拡張される相互接続の異種混合からなることが多い。相互接続及びゲートウエイの両方は、アーキテクチャの再設計又はノードの再構成なしにcノードの数を大きなネットワークに拡張することを可能にする目的で、非構造メッシュで接続される。この計画されていない有機的拡張は、ブロードキャストの間のデータスキュー(到着の不確実性)、予測できない大きなレイテンシー、及びメッセージを失う輻輳ネットワークをもたらし、結果としてシステム性能の劣化を生じる再送信を必要とする。
帯域幅中心又はレイテンシー−中心ネットワークのどちらが重要であるか?これは、ネットワーク設計における重要な問題である。ノード帯域幅は、アーキテクチャの課題であり、例えば、高帯域幅構成要素を使用する際、又はファブリックにおける各fノードを複製することによって通信チャネルを複製する際に、所与のノードに対するハードウエアリソースを増加させることに関する問題である場合が多い。レイテンシーへのネットワーク直径の寄与は、常に物理的トポロジーに依存する。例えば、レイテンシーは、3次元メッシュに対してm^(1/3)として増大するが、ツリー構造に対してはlog mだけ増大し、ここでmはfノードの数である。
現在の解決策に対する批評
現時点での困難さは、イーサネット、InfiniBand、又は専用であるかどうかに関わらず、スイッチの使用から大きなデータセンタステムによって課せられる問題を克服しようとすることである。新しいファブリックトポロジーがこれらの問題の一部に対処しているが、スイッチの使用は、ファブリック内のメッセージのトップダウンルーティングに関連する幾つかの問題を依然として引き起こす。過去のファブリック管理解決策は、人間が利用しなくてはならない特別な取り組みによって示されるような大きな数のエンドポイントにスケーラブルできないことが多い。
現在の解決策は、以下の3つの領域に対処することができない:増加する複雑さ及び高コストのスイッチの階層を有する異種ハードウエア、ポートコンテンションに加えてスイッチングの各レベルでの輻輳、及び有用な性能を獲得するためのスパニングツリーアルゴリズム及び分散ルーティングテーブルに対する必要性。
新しいトポロジーは、スケーラビリティの問題及び異種混在問題を解決すると同時に、cノードの極めて大きな数に拡張されたときにファブリック管理の問題を明確に示す。スパニングツリー及びルーティングテーブルの使用は、相対的に小さなインスタレーションに対して更に扱い難くなり、より大きなインスタレーションに対しては、大きな到達可能性及び低レイテンシーの制約下でのファブリック管理問題が扱い難いものになる可能性がある。
ネットワークトポロジーに関する以下の段落は、これらの課題の一部を明確にしなければならず、スイッチレスDBOIfノードのパケットフローの性質が与えられた場合、重要な制約を満たしながら、これらの困難さに対する満足のいく解決策を示す。
ネットワークトポロジー
序文
共通の分類に基づく可能性のあるネットワークトポロジーの大きな数が存在するが[6]、本開示のこの部分は、サーバファーム、クラウドコンピューティング、及び高性能コンピューティングにおいて最も一般的に見られるトポロジーのうちの幾つかに集中するであろう。具体的には、考慮されるトポロジーは、ツリー構造、規則的メッシュ及びトーラスファブリックに対する変形形態、及び1953Closネットワークの修正形態になるであろう[7]。
これらの様々な相互接続のベースとなるアーキテクチャは、スイッチモジュールのネットワークに基づき、この場合スイッチモジュールは、一般に、イーサネット[8]又はInfiniBand[9]スイッチのような市販されているマルチポートデバイスである。当該文献で見られる実施例の幾つかの例証を除いて、異種モジュールが使用される場合、以下の実施例のほとんどは、全てのfノードが互換可能であり、同一の機能を有する等価のハードウエアモジュールからなる均一なアーキテクチャを考慮することになる。この理由は、インスタレーションの単純さ及び費用対効果の高さ、並びにファブリック管理及びメンテナンスの容易さである。
本開示のこの部分の主な目的は、上記で紹介されたDBOIモジュールに対する相互接続アーキテクチャをベースとする方法を示して、イーサネット、InfiniBand、及び専用の解決策に優るDBOIの利点を提示することである。異種アーキテクチャの高コスト及び過剰な複雑さを避けるために、検討されるファブリックは、同一のfノードを有することにする。すなわち、対象となるアーキテクチャは全て、均一な設計及び機能の互換可能なモジュラーファブリックに基づくことになる。
選択されたトポロジー
以下の段落において分析するためにどのファブリックを選択するかの基準は、2つの因子に依存し、ファブリック均質性及びトポロジーの単純さである。
ファブリックの均質性は、同じfノード及びfノード間の接続がファブリック全体を通して使用される点でアーキテクチャが均一であることを意味する。これは、図15で上述されたアーキテクチャとは完全に対照的である。トポロジーの単純さは、ゲートウエイによって結合されたファブリックのような混合トポロジーが回避されることを意味する。これら2つの基準に準拠することによって、結果として生じるファブリックは、分析が単純であり、構築及び維持が容易で高価ではない。
ツリートポロジー
単純なツリートポロジーは、直径及びスケーラビリティの観点からの最良の選択の1つである。nリーフ又はcノードでは、レベルの数はlog(対数)nに比例する。図9に示されたツリーでは、各ノードに対して下向きに2つのリンクがあり、レベルの数はlog2nである。
図9は、一般的なバイナリツリートポロジーを示している。fノードは青色であり、リーフ又はcノードはオレンジ色である。各双方向リンクは同じ帯域幅を有し、各fノードは、次に低いレベルへの2つの下向きリンクと、次に高いレベルへの上向きに接続する1つのポートとを有する。ルートノードは、リーフの何れかと同様にゲートウエイへの接続を有することができる。構造は、サブツリーがリーフを置き換えることができ、新しいツリーを作成するという意味で再帰的である。完全なツリーは、各レベルのサブツリーが同一であるツリーである。
cノードの数
ポートのkがツリー内の双方向トラフィックに対して確保され、各リーフノードが1つのポートを使用するpポートを有するモジュールに基づくツリーでは、ツリーにおけるレベルの関数としてのcノードの数は、次式で与えられる。
式(1)
ここでlは、ツリーにおけるレベルの数である。例えば、図9では、左ブランチは、3レベル、p=3及びk=1を備えた7fノード及び8cノードを有する。ツリーのアリティはp/k−1、又は2(すなわち、バイナリ)である。
各fノードに対して24ダウンリンク及び8アップリンクを有する32ポートモジュールでは、7レベルツリーに対して可能なノードの数は、17,496である。各fノードは、3つの(アリティが3)低レベルfノード及び1つの高レベルfノードに接続されることになる。この数は、直径がレベルに比例して増加する(具体的には2l−1として)間にレベルと共に指数的に増大する。関係付けられる量、すなわち2つのノード間の距離は、移動しなければならないリンクの数であり、別に記載されるように、この距離は、2つの通信ノードを包含するサブツリーの直径である。
スケーラビリティ(1)
サブツリーを追加してリーフの1つを交換することによって、cノードの数は、fノードの数が1ずつ増える間にp−k−1ずつ増える。この関係は何れのレベルでも保たれる。ツリーの下部での各fノードがp−kcノードに関連付けられるので、シングルノードスケーラビリティは、これらの2つの数の比となり、すなわち、次式になる。
式(2)
これは常に1未満である。1に近いスケーラビリティは、ツリートポロジーを選択して強力なポイントである。
レイテンシー及び直径
ツリー構造のレイテンシーはまた、ネットワーク直径が2l−1である(レイテンシーが直径+一定のオーバヘッドに比例する)ので全く適正であり、直径は次式の通りである。
式(3)
この低直径は、ツリートポロジーを選択した主ポイントの1つである。
fノードの数
各々がpポートを有するモジュールの数m、は、ツリーの各レベルにおけるモジュールを合計することによって見出され、次式の通りである。
式(4)
密度
ここで、密度は、cノードの数とfノードの数との比であり、付加的cノードを追加するコストの尺度である。完全な式は次式のように与えられる。
式(5)
ここでαは、上記で定義されたようにアリティである。この式は、多くのレベルツリーに対してp−2kを近似し、この数が2又はそれ以上である時にツリー構造に対する更に別の引数である。
バイセクション帯域幅
バイセクション帯域幅は、ツリーを2つの等しい部分に分割するために分断しなければならない接続の数である。図を参照すると、値が単純にルートノードに入る接続の半分であることが容易に分かる。
式(6)
バイセクション帯域幅に対するこの多少劣悪な値は、ツリー構造に対する主引数である。
総ポート及び接続
双方向ポートの数は次式で与えられる。
式(7)
ファブリックでは、各ポートは、スイッチ型ファブリックに対する二重接続及びDBOIベースのモジュールに対する双方向接続によって別のポートに接続される。ツリーのリーフにおけるポートはcノードに接続される。
到達可能性(2つのノード間の経路における)
何れか2つのcノード間の可能性のある経路の数は、メッセージがツリーを横断する時に取ることができる可能性のある接続をカウントして、何れか2つのfノード間の経路の多重性を考慮に入れることによって見つけることができる。
式(8)
*は、2つのcノードを接続するサブツリーにおけるレベルの数である。同じレベル上の2つのノードに対して、到達可能性はかなり小さい点に留意されたい。これは、通信ノード間の距離が増すにつれて深刻な問題になる、2つの近接ノード間のトラフィックが重いファブリックトラフィックによって著しく損なわれるようなものではないので、それほどには制限されない。有用であることが多い関連の尺度は、特定の到達可能性又は経路密度(cノードの数によって分割された潜在的な経路の数)である。
スケーラビリティ(2)
ツリーのサイズは、ツリーを二倍にして両方の半分を新しいルートノードに接続することによって二倍にすることができる。このような倍加のためのネットワークリソースの数とコンピューティングリソースの数との比として定義される倍加スケーラビリティ、すなわちSは、次式で与えられる。
式(9)
ここで、式は、fノードのレベル又は数が増えるにつれて1に近付く。この近理想のスケーラビリティは、ツリートポロジーを選択する適正な引数である。
要約
表1は、pポートモジュールから構築されたツリーの特性の要約である。ファブリックスケーラビリティがほぼ1であり、これは、本開示のこの部分で使用される定義の下で実施可能な最大値である点に留意されたい。
ツリートポロジーの主な欠点は、その帯域幅特性にある。ノード対ノードトラフィック、特に異なるサブツリー上のノード間のトラフィックは、より多くのノードがサブツリー全体にわたって通信しようとするときに、リンクにより厳しい要求を課す。高レベルのリンクは、トラフィックによってすぐに輻輳する可能性があるが、トラフィックがクリアされるまで効果的にサブツリーをシャットオフする。
評価:レベル間のマルチリンクを有するツリートポロジーは、ノードの数がレベルと共に指数的に増大する近最適スケーラビリティを有する。直径、及び従ってレイテンシーは小さく、ノード到達可能性は異なるサブツリー上のノード間で低く、サブツリーサイズと共に減少する。加えて、ノード密度(1fノード当たりのcノードの数)は適度に良好で、1fノード当たりのポートの数より幾分小さい。ノード間の帯域幅は、マルチディスタントノードが同時に通信する必要がある時に現れる帯域幅ボトルネックによって制限されている。バイセクション帯域幅は同様に少なく、本質的には最小である。ツリートポロジーは、良好なスケーラビリティ、低レイテンシー、及びcノードの大きな数が重要である時に最も有用である。
ファットツリートポロジー
序文
ファットツリーは、元はLeiserson[10]によって論じられているが、レベル間のリンクの帯域幅が、cノード間のトラフィックを適切に処理するために増加するという利点を有する。理想的には、総帯域幅は、リーフ又はcノードレベルから始まってレベル間で一定になる。この条件は、図15に示されたファットツリーのような今日の商用スイッチ(InfiniBand又はイーサネットの何れでも)を使用するツリー構造にとって実現可能ではない。ファットツリーのノード到達可能性は、2つのノードを接続する何れかのサブツリーを通る付加的な潜在的経路に起因して単純なツリーよりも遙かに改善される。低メッセージレイテンシーの利点は、単純なツリーのようにファットツリーに対して保たれる。
シンプルツリーのスケーラビリティの利点は、スケーラビリティが選択されたfノード上のcノードを幾つかのfノードによって置き換えることによって達成されるので、ファットツリーにおいては失われる。ファットツリーでは、全てのポートが、cノード又は他のfノードへのリンクによって使用され、ファブリックを飽和させる。常にcノードをfノードに置き換えることができるが、レベルと共に増加するリンク数のアーキテクチャが破壊される。結果として生じるツリー構造は、確かにツリートポロジーを有するが、ファットツリーのアーキテクチャではない。この理由のため、厳密な意味でのスケーラビリティはゼロでなければならない。
ファットツリーは、InfiniBandクラスタの好ましいトポロジーであることが多いが、スイッチファットツリーの欠点は、レベルが増大したときに、スイッチ及びコンセントレータが高コストで複雑であることである。この理由のため、単純なスイッチに基づいてファブリックを構築する他の手段がこの研究の主題である(以下を参照)。このセクションの序文では、ファブリックが理想的には同一のfノードから構築されるべきであることが明記されていた。
倍加ファットツリー
良好な到達可能性、帯域幅、及び小直径を有するファットツリーの特定の事例は、「倍加」ファットツリーであり、ここではfノード間の接続の数が各レベルで二倍になる(又は他の何らかの一定の乗数で増加する)。各cノードは、fノードの下部列への1つの接続を有し、各下部列fノードは、fノードの次の列の各々への2つの接続を有し、以下同様である。一般に、倍加とは、各fノードによって所有されるポートの数が2の累乗であることを示している。全てのマルチポート相互接続が、2の累乗に基づくわけではないので、一般的なケースを考察するのは有益である。1fノード当たりのポートの素数p(例えば、7ポート)に対して、ツリーには1つのノードしかなく、換言すると、ツリーは単純に、取り付けられたcノードとの相互接続からなる。図10は、fノードポートの数pが幾つかの素因数を有する一般的なケースを示している。fノードのアリティがリーフからルートに低下する点に留意されたい。
図10は、12ポートfノードを有する完全なファットツリーの図である。fノードは青色であり、リーフ又はcノードはオレンジ色であり、cノードの1つのブランチだけが示されている。エッジ又はリーフの帯域幅は、cノードに対して1に正規化される。各fノードからの帯域幅は、2の因数だけ増加する(このケースでは)。12の因数は、3、2、2、1であり、よって、ルートレベルのサブツリーの数が第1因数すなわち3である。低レベルから高レベルへの接続の数は、常に合計すると利用可能ポート数になる。この実施例では3レベルを有する。
pが素数でも必ずしも2の累乗でもない一般的なケースは、シンプルツリーの場合のように良好なレイテンシーを有するファブリック、及びシンプルツリーよりも優れた向上した帯域幅及び経路到達可能性を結果として生じることが分かる。様々な特性の値に対する閉形式表現は、ポートの数pの素数の積及び差に基づくように単純に有益ではない。補遺は、倍加ファットツリーの構成に対するアルゴリズムを提供し、表2は、pの幾つかの異なる値に対する幾つかの特定の実施例を与える。
表2では、12のラベルが付けられた縦列が上記の図10に対応する。32ポートの縦列は、32方向DBOI相互接続に対応し、48ポートモジュールは、イーサネット及びInfiniBandデバイスの両方に共通して見られる。72ポートエントリは、DBOIファミリの別の要素を表す。
係数ファットツリー(上記に例示)は、第1の2つの因数をルートレベルに組み入れることによって平らにすることができる。従って、因数分解4***2によって、32ポートを有するfノードを用いて、上記の表に示された5レベル構造と同じcノードの数によって4レベルツリーを構成することができる。密度は、わずかに小さくなるだけであるが、直径は1単位減少し、レベルの小さな数に対しては有意となる可能性がある。因数が2の累乗ではないツリーのレベルを折り畳むことは、常に少ないcノードを生じることになる点に留意されたい。
要約
ファットツリーファブリックは、全てのポートが使用され(ツリーが飽和される)、更にcノードをfノードに置き換えることがトポロジーを維持しながらもアーキテクチャを「破壊する」ことになるので、スケーラブルではない。すなわち、トポロジーは、ツリーのトポロジーのままであるが、ファットツリーのアーキテクチャは、このような追加後にこれ以上保持されない。
ファットツリーがシンプルツリーよりも優れた顕著な帯域幅改善を示す場合、帯域幅は、特に到来クエリが全てのノードを包含するパラレルサーチを要求する(例えば、全てのcノード又はウェブページ検索に一般的に存在する逆の索引を使用したデータベースサーチが多数のサーバからの情報を要求する)アプリケーションにおいて課題として残されたままである。これらのアクセス制約の結果、多くのcノードが頻繁な通信を必要として、恐らくは全ツリーにわたり、従って、輻輳及びボトルネックを生じる。上記のように、ノード対ノードトラフィックは、ファブリックを迅速に圧倒することができる。
評価:ファットツリートポロジーは、小さな直径(従って、低レイテンシー)を有すると同時に多数のcノードをサポートする。ノード到達可能性は、シンプルツリーよりも確実に改善されるが、ディスタントノードに対しては小さいままである。ノード密度(1fノード当たりのcノードの数)は、以前と同じぐらいに留まる。帯域幅はシンプルツリーよりも優れた改善を示すが、これは、複数のディスタントノードが同時に通信する必要がある時に現れる帯域幅ボトルネックによって制限される。バイセクション帯域幅は依然として不良である。ファットツリーはシンプルツリーよりも改善されているが、帯域幅及び到達可能性で依然として不足している。何れのツリー構造に対する最適引数も、低レイテンシーのままである。
Closトポロジー
Closトポロジー(参照7を参照)は、元々は、3層のスイッチによって出力層に結合されたノードの入力層からなっていた。入力層及び出力層の両方にnのノードが存在する。第1スイッチ層は、各々がn入力及びm出力を有するrスイッチを有し、中間層は、各々がr*rスイッチを有するmを有し、第3層は、各々がm*nスイッチを有するrを有していた。対称Closネットワークは、r=m=nを用いることによって定義することができる。cノードの数を二倍にする変形形態は、全てのノード間に双方向リンクを有する。図11は、双方向リンク及び1fノード当たり8ポートを備えた対称Closネットワークを示している。(pポートを備えた単一fノードは、厳密にp個のcノードをサポートする)。以下に示されたClosネットワークは、pのみの双方向ポートを備えたfノードを使用して、2(p/2)^2cノードをサポートする。
図11は、双方向リンクを有する対称Closトポロジーの図である。この実施例は、8ポートモジュールによって構成されている。
表3は、対称Closトポロジーの特性を要約しており、各値に対する記号表示を示している。
ツリートポロジー(未使用のポート又はルートレベルのポートを有する)とは異なり、cノードの数を拡張するための利用可能なノードは存在せず、すなわち、Closネットワークはスケーラブルではない。実際には、これは、全ての利用可能なポートが使用されるので「飽和」と呼ぶことができる。cノードの数を増やす唯一の方法は、より多くのポートを有するfノードを使用することである。当然ながら、1又はそれ以上のcノードを別のネットワークへのゲートウエイによって置き換えることができるが、これは、トポロジーを破壊し、システム全体にわたってリップする問題を引き起こし、メッセージ受け渡し、ルーティングテーブル、及びアルゴリズムなどに影響を与える。
図11のファブリックは中間層が取り除かれているが、RISC SPシステム[11]においてIBMによって使用された。しかしながら、結果として生じる2層ネットワークがブロッキングされていることは容易に分かる。これはClosネットワークに似ているが、特に特定の緩やかな条件下で、Closネットワークが再配列可能に非ブロッキングであることが公知であるので、2層システムは、Closファミリであるとは考えられない。(m=nを有する上記のネットワークは、参照7で考察されるように再配列可能に非ブロッキングである)。しかしながら、経路再配列に必要な時間は、パケットネットワークにおいて法外なものであり、ほとんど使用されない。従って、3層Closは、ブロッキングネットワークと考えなくてはならならず、Closトポロジーに基づいてスイッチされる何れの層も同様である。
ポートが一方向として構成される場合、ネットワークは、全てのポートが飽和される前に二倍のfノードの数を有するcノードの二倍の数をサポートする。この場合、ファブリックの下部列は、p2エンドポイントへの入力を包含し、上位行は、ファブリックから同じエンドポイントへの出力を包含する。
このネットワークは、全てのポートが使用されている時は厳密な意味でスケーラブルではなく、cノードをfノードに置き換えることでトポロジーを「破壊」することになる。
評価:全てのポートの間の双方向リンクを有する対称Closトポロジーは、小さな直径(従って低レイテンシー)、適切な密度(ツリートポロジーと同程度)、及び適切なバイセクション帯域幅を有する。付加的な中間層を追加することは、cノード間の到達可能性又は経路冗長性並びにバイセクション帯域幅を大幅に増大させる。全てのポートが完全に占有されるので、スケーラビリティは存在しない。低レイテンシー、高到達可能性、及び高バイセクション帯域幅が重要である場合、Closトポロジーは小さなインスタレーション(約5000cノード未満)に対する適切な選択肢である。
増大Closネットワーク
上記と同じClosネットワークを維持するが、参照1にて定義されるように「ポッド」からなるようfノードを再アーキテクトする場合、p^4にスケールするネットワークが取得され、従って、この増大ファブリックをより大きな数のcノードに拡張する。この新しいアーキテクチャは、正規Closネットワークよりも高い帯域幅及び経路到達可能性を有すると同時に、2lユニットだけレイテンシーを増加させ、ここでレベルの数lは、上記で定義されたものである。Closトポロジーの厳密なファブリックスケーラビリティが存在しないにも関わらず、同じfノード(pポートが本開示のこの部分全体を通して行われる)を使用するこの方法によって極めて大きなネットワークを構築することができる。図19はこの構成を示している。
図12は、増大対称Closトポロジーの図である。トポロジーは、上記の図11と同一であるが、全体が4ポートfノードから構成されている。ポッド又は合成fノードが、Closファブリックの右側に拡大図で示されている。
表4は、このポッドベースアーキテクチャの特性を要約している。
図12の右側に示された合成ノードにおけるfノードの各々は、この実施例ではp=4であるpポートモジュールから構成される。合成fモジュール又はポッドは、p/2ノード各々の2つの完全に接続された列を備えたサブファブリックとして構築されている。この構築はトポロジーを不変性のままにし、fノードがfノードのポッドによって置き換えられる。cノードの数がp4として増加し、単純な対称Closファブリックよりも効果的に遙かに速い点に留意されたい。しかしながら、多くのポートがポッド内で消費され、エンドポイント専用ではないので、密度(1つのfノード当たりのcノードの数)は、fノードポートの同じ数に対して半分である。当然、多くのcノードをサポートするためのコストは、ファブリックハードウエアにおいて増加する。
評価:全てのポート間の双方向リンクを有する増大Closトポロジーは、小さな直径(従って低レイテンシー)を有する。そのバイセクション帯域幅は、対称Closファブリックよりも大幅に改善されるが、密度は減少している。上記のように、付加的な中間層が、更に低い密度を犠牲にしてcノード間の到達可能性又は経路冗長性を大幅に増大させる。増大Closトポロジーは、約50万と最大数千万のcノード間の大きなインスタレーションに対する適切な選択肢である。より小さな数のcノードは、単純にファブリックの部分実装によって実施可能である。
修正Closトポロジー
Vahdat及び共同研究者[12]、及び参照1は、上記に定義された厳密な意味ではスケーラブルでないが、何れの2つのノード間の再配列可能な非ブロッキング接続を可能にする、Closネットワークの変形形態を提示している。著者注記。
「[修正されたClos]トポロジーの利点は、全てのスイッチング要素が同一であり、我々に通信アーキテクチャにおけるスイッチの全てについて安価なコモディティ部品の活用を可能にすることである。更に[このファブリックは]再配列可能な非ブロッキングであり、任意の通信パターンに対して、トポロジーにおけるエンドホストに利用可能な帯域幅全てを飽和することになる経路の何らかのセットが存在することを意味する。」(参照1から)
図13は、提案された修正Closネットワークを示す図である。
この非ブロッキングの判定は証明なしに行われ、第1レベルの出口ポートの数が参照7で説明されたホスト又はエッジレベルの出口ポートの数より大きいか又は等しい場合に、再配列可能な非ブロッキングであることが証明できるClosネットワークを備えたそのトポロジーの部分的な類似性に依存している。実際には、「再配列可能」修正子は、一般に、複雑なソフトウエア、バッファ、並びにフラッディング及びメッセージ再順序付けを包含するサポートテーブル又はルーティング法を必要とする。
このトポロジーが1つのモジュール当たりのポートの数をどのようにスケーリングするかを示すために、1つのモジュール当たり6ポートを有する図14を検討する。トップ又はコア層に9モジュール、及び6ポッドの各々に6モジュールが存在する点に留意されたい(図13では、4グループの各々に4モジュール及びコア層に4モジュールが存在する)。
図14は、修正されたClosネットワークのp^3特性を示す図である。この実施例では、fノードは6双方向ポートを有する(cノードもその接続も示されていない)。
要約
これらの2つの図(13及び14)から、pポートを有するモジュールを使用することによって可能になるエンドポイント、モジュール、及び接続の数を推測することは簡単である。バイセクション帯域幅及び到達可能性はまた、カウンティングエクササイズを通過した後で明らかになる。代替として、値は、ポートの数、ポッド構成、及びポート飽和制限、及びエッジ又はcノードレベルを上回るレベルの数から推定することができる。直径は、何れかのツリー様構造と同様に、レベルの数の二倍未満の数に等しいままである。表5は、修正Closトポロジーの要約を提示している。
このネットワークは、全てのポートが使用される時にはスケーラブルではなく、cノードをfノードに置き換えることでトポロジーを「破壊」することになる。しかしながら、上記のように、トポロジーを変えることなくこのファブリックをcノードの大きな数に増大させる方法が存在する。
評価;修正Closトポロジーは、対称Closトポロジーに対して多くの点で類似している。最も興味深いずれは、そのp^3cノードスケーラビリティである。加えて、このトポロジーは、小さな直径(従って低レイテンシー)、中程度の密度(コンピュートハードウエアとネットワークハードウエアとの比)、及び良好なバイセクション帯域幅を有する。このトポロジーは、fノードポートの数による密度及び水平スケーリングにおける前のセクションの2つのClosネットワークの間にある。
増大修正Closトポロジー
対称Closファブリックが(p^4)としてポート数でスケーリングするよう増大させることができるように、修正Closファブリックもまた、(p^6)としてポート数によってスケーリングするポッド概念によって増大させることができる。当然ながら、ポッドは、少ないポートだけを含むモジュールによっても極めて大きなファブリックを達成するように再帰的にネスト化することができる。極めて高いバイセクション帯域幅及び到達可能性を有し、適度なレイテンシー及びコンピュータリソース対ファブリックハードウエアの良好な比を備えた何億ものcノードに対応するファブリックが、このトポロジーによって実施可能である。
相互接続モジュールのサブネットワークを含むポッドを扱う場合、用語「fノード」を特定のネットワークにおけるトポロジーノードを指すようにしておくのが好都合である。当該ノードを含む相互接続又はスイッチモジュールからファブリックノード又はfノードを区別するために、このようなモジュールを「pモジュール」と呼び、pポートを有する同じサイズのモジュールがポッドを構成するのに使用されることを示している。この用語は、増大Closネットワーク及びfノードがpモジュールのポッドである何れかのファブリックにおいてのみ意味がある。参照1に与えられた修正Closファブリックの定義は、pポートモジュールを使用しており、これによって宛先「fノード」が当該ケースで保持されることになる点に留意されたい。
修正Closネットワークの各fノードは、ポッドによって置き換えられ(次いで、ポッドは、ポッドのポッドになる)、更に各ポッドは、各々がpモジュールのpからなる。これは、ポッドのポッドを構成するために直接的であるので、明らかに再帰的ファブリックであり、そのため、密度、帯域幅、及び到達可能性において改善されると同時にpによって迅速にスケーリングするファブリックをもたらす。表6は、ポッドを増大した修正Closネットワークの特性を表している。
評価:増大された修正Closトポロジーは、修正Closトポロジーの特徴の全てを有するが、低密度、極めて多くのcノード、遙かに大きなバイセクション帯域幅及び到達可能性を有し、全て直径の2*増加(1未満)を犠牲にしている。極めて大きなネットワークでは、このトポロジーは、最も期待できるトポロジーの1つであるが、低cノード密度に起因して高コストである。
メッシュ/グリッド
メッシュは一般的にコストの高いファイバチャネルスイッチを必要とするので、最も高価なトポロジーであると一般的に考えられている。この視点は、規則的グリッドトポロジーの特別なケースでも存在するように思われる。メッシュスケーラビリティはまた、最適として認識され、メッシュは良好な帯域幅スケーラビリティ(以下)を有する。次の段落から分かるように、ファイバチャネルスイッチに対する必要性は、メッシュアーキテクチャに固有のものではない。
規則的グリッドトポロジーの特性は、多くのスーパーコンピュータ設計のための明確な選択になり、この場合、高到達可能性、バイセクション帯域幅、及び拡張可能性(水平スケーラビリティ)が重要である。
図15は、規則的2次元グリッド上に間隔を置いて配置されたメッシュ相互接続を示している。両方向矢印によって表されるノードの各々の間に双方向接続が存在する。接続されていない矢印の端は、他の類似のfノード/cノード組合せに接続され、又はトーラスを形成する最も遠いグリッドパートナーに接続するためにラップアラウンドすることができる。
図15は、規則的グリッド上の2次元メッシュの図である。9つのfノードが、対応する9つのcノード複合体(同心のオレンジの円)と共に示されている(青い円)。各fノードは、高帯域幅の双方向接続(黒の両方向矢印)によって南北及び東西方向にその4つの最近の隣接ノードに接続されている。cノード複合体は、個々のcノードの少なくとも1つ及び恐らくは12又はそれ以上を包含する。
到達可能性
到達可能性又は2次元における経路数は、2つの格子ポイント間の格子上を進む可能性のある経路の数として2項係数によって与えられる。これらの経路の各々は、2つのポイント間の最短マンハッタン距離を表し、すなわち、これらの経路の全ては、等しい長さであり、経路選択の多様性を提供し、各々が同じレイテンシーを有する。この数の導出により、2Dグリッドにおいて以下の式が得られる。
式(10)
ここでΔx及びΔyは、x及びy方向におけるグリッド距離である。これは、多項式係数を介して明確な方法で3次元及びそれよりも高次元に一般化する。3次元では、可能性のある経路の数は次式となる。
式(11)
スケーラビリティ
フリー接続の1つで付加的なfノードにリンクすることによって、p−k cノードの総数がファブリックに追加される。この追加は、fノードがエッジ全体(2Dの場合)に沿って又は全面にわたって(3Dの場合)追加されない限りフリー接続の数を増加させる。密度は一定のままであり、従ってスケーラビリティは一貫して最適である。
要約
表7は、規則的メッシュトポロジーの特性を要約している。表7では、帯域幅の単位は、fノード間のリンクの数である。各リンクが複数のチャネルを有する場合、真の帯域幅の数は、チャネル多重度によって乗算しなくてはならない。すなわち、各リンクがq並列接続を包含する場合、接続の数及びバイセクション帯域幅の両方は、qの因数だけ増加しなくてならない。従って、2dm→2dqm、及びD1、D2...Dd-1→qxD12...Dd-1である。
本開示のこの部分において検討される他のファブリックと同様、規則的メッシュは、ポッド概念(合成fノード)を使用して増大させることができる。各pモジュールがpポートを有する場合、レベル1のポッド又はfノードは、ファブリックモジュールの各々のようにp2/2ポートを有することになる。すなわち、上記の表では、増大ファブリックを取得するためにpをp2/2によって置き換える。ファブリックモジュール間及びファブリックモジュールとcノード間の通信のための利用可能なポートの数は、pからp2/2に増大し、通信ポートとcノードとの間の異なる区分を可能にする。すなわち、メッシュにおけるリンクの帯域幅を増加させることができ、又はサポートされるcノードの数を増加させることができ、或いは両方が可能である。ポッド概念は単に、規則的メッシュファブリックの設計における融通性を向上させる。
トーラス
トーラストポロジーは、規則的メッシュトポロジーのエッジ又は面の「ラップアラウンド」によって達成される。エッジ(又は面)でのfノードが、反対側のエッジ(又は面)上のfノードに接続される。図15では、右のfノードが左のfノードに結合され、上のfノードが下のfノードに結合される。このトポロジーは、HPC領域における専用相互接続において見出されることが多い。Tofu及びGemini 3D相互接続について上記で言及された。
ラップアラウンド構造が与えられた場合、トーラスのバイセクション帯域幅は、対応する規則的グリッドメッシュの二倍であり、直径は半分にカットされ、トーラスを規則的メッシュの効率的な実施構成にする。トロイダルトポロジーは、1のスケーラビリティを維持し、密度は影響を受けない。
超立方体はトーラスのサブセットである。具体的には、d次元超立方体相互接続は、正確に2dノードを有するd次元のトーラスである。このような超立方体は、fノードの各々中のcノードに対するローカル相互接続ファブリックとして機能することが多い。1つの実施例として、Tofu相互接続[参照3]では、fノードグリッドは、3次元トロイダリトポロジーを有し、各fノードは、4次元超立方体構成における12のcノードを包含する(cノードの4つは除去され、数が12にまで低減される)。この構成は、大まかに「6次元」トポロジーと呼ばれ、実際には、各fノードに位置付けられたcノードの縮小4D超立方体を備えたfノードの3次元ファブリックである。
図16は、27のfノードを有する3次元における規則的メッシュ又はグリッドを示している。6面の各々に存在する接続を用いて、3次元の各々においてメッシュを大きなサイズに拡大し、トロイダルトポロジーを提供するために反対側の面にラップアラウンドする。
図16は、規則的グリッド上の3次元メッシュの図である。青い球体はfノードを表し、オレンジの球体はcノードへの接続を表し、緑のパイプはfノード間の双方向接続を表す。各fノードは6つの双方向接続を有し、1つがその最も近いグリッド近傍ノードの各々に接続している。6面上のダングリング接続は、3Dグリッドを拡張するため、又は3Dトーラスを形成するための「ラップアラウンド」のために使用される。
DBOI相互接続の場合、cノードの各々は、隣接するfノードに接続するために使用されないポートによって各fノードで相互接続することができる。これは、上述された超立方体よりもcノードのグループにおいてより効率的な相互接続であり、単位直径による単一送信マルチキャスト相互接続であり、従って最小レイテンシーである。
帯域幅スケーラビリティ
多次元グリッドのかなり大きな直径にも関わらず、トーラス構成は、ハイエンドスーパーコンピュータの多くで見られる。この理由の1つは、各fノードが複数のpポート通信モジュール又はスイッチからなることができ、必要に応じて帯域幅を効果的に増大させることができる点である。例えば、3次元トーラスでは、各fノードは、その最も近いグリッド近傍ノードへの6つの接続と、及び上記の様に、メッシュノードに関連付けられるcノードへのp−2d接続とを有する。72ポート相互接続モジュールは、6グリッドリンクの各々において6チャネルを有するこのトポロジーにおけるfノードとして機能し、ローカルcノードと通信するために36ポートを残しておくことができる。次いで、このメッシュノードは、1から36のcノードをサポートすることができ、利用可能な帯域幅は、単一のcノードに転向され、又は複数のcノード間に均一に分散される。
帯域幅の倍加は、これらの72ポート相互接続のうちの2つを各fノードに割り当てることによって達成可能であり、144の通信ポートが、ファブリック通信及びコンピュータリソース間で必要に応じて分散される。この融通性及び帯域幅スケーラビリティは、スーパーコンピューティングにおけるトーラストポロジーの使用に対する理由の1つである。スイッチレスのDBOI相互接続の出現で、トーラストポロジーは、HPCコミュニティの外部で利用可能になるはずである。
到達可能性
ラップアラウンドの実現性に起因して、トーラス上の可能性のある経路の数は、規則的グリッドにおいて上記で見出されたものよりも遙かに多い。ラップアラウンドの場合、経路は、必ずしも直接経路と同じマンハッタン距離又はレイテンシーを有する必要はなく、2つの通信するfノードのロケーションに応じてより短く又はより長くすることができる。2次元の場合、考慮すべき4つの可能性があり、すなわち、ラップアラウンドのない直接距離、y方向にラップアラウンドを有してx方向で直接、x方向のラップアラウンドを有してy方向で直接、及び両方向でラップアラウンド。
これらの経路の各々は、異なるマンハッタン距離及び従って異なるレイテンシーを有することができる。2次元では、可能性のある経路数の式は次式となる。
式(12)
ここで*はラップアラウンドを指し、Dx及びDyは、x及びy方向におけるグリッドの長さである。可能性のある経路の総数は、ブラケットにおける4つの式の和である。3次元における対応する式は、8つの可能性のある経路式を有し、結果の表示はこの考察に付加するものは何もないが、数は、上記に示されたのと同じようにして導き出される。要約すると、可能性のある経路距離の数はほぼ、2の次元数乗となる。従って、可能性のある経路の数が重要である場合、高次元トーラスが恐らくは最適のトポロジーである。
評価:トロイダルトポロジーは、バイセクション帯域幅を倍加し、対応するグリッドトポロジーの到達可能性の二倍以上を有する。トーラスは主に、HPCで使用され、ファブリックのスケーリング特性は、単純な既存のfノード接続を使用して任意にグリッドを増大させることができる。帯域幅スケーラビリティは、将来のデータセンタにおいて有用であることが分かる。
ファブリックトポロジーの要約
この段落に提示されるトポロジーの分析は、制限された通信ポート数を有する市販の相互接続を備えた大きなデータセンタの必要性に対処する目的に基づいて、ポート駆動であった。主な制約は、同じモジュールがファブリック全体で使用される設計の均質性であった。
他のトポロジーを検討することができる。例えば、Connection Machineにおいて1980年代に使用された「ハイパーツリー」相互接続は、1つのこのような可能性である。しかしながら、ハイパーツリーは、ファットツリーに関係付けられ、あまり頻繁には使用されず、よって現時点では別個の分析は必要ではない。
様々なトポロジーの特性の要約
表8は、上記で分析された3つの基本トポロジー(ツリー、Clos、及びグリッド又はトーラス)の関連の特性を要約している。ファットツリーは、形式的表現が複雑であるために、この表には含まれていない(ファットツリーは、以下の表の数値例に含まれる)。様々なエントリの形式(例えば、cノードの数)は、表示された3つのトポロジカルファミリ(ツリーベースのトポロジー、Closベースのトポロジー、及びグリッドベースのトポロジー)が実際に存在することを明確に示している。トポロジーの各々は、ファブリック構成の単位としてのpモジュールに基づき、様々なネットワークにおけるノードはファブリックノード又はfノードである。
表8は、設計目的のこれらのトポロジーの本質的な特性を比較する場合に有用であり、恐らくは、関連の大きさになった時には有益ではない。以下の段落は、基本的な構築ブロックのように32ポート相互接続で利用可能な実際の数の一部を表している。
この表8の主な使用は、密度、直径(レイテンシー)、及び帯域幅の間の優先選択を行うことができる相互接続ファブリックの設計においてである。個々の式は、可能性のある基本トレードオフを示している。例えば、6次数のClosファブリック(「増大修正されたClos」)は、第2次数Closファブリックよりも遙かに高い帯域幅を有するが、より大きな直径を有する。
数字の表
表9は、32ポートのpモジュールで構築された様々なファブリックについての数値を示している。ツリーの実施例及びグリッドの実施例は飽和されておらず、これらが更に大きなシステムにまで拡張(又は小さなシステムに縮小)できることを意味している。Closトポロジーの4つのフレーバは、全ての利用可能なpモジュールポートは、pモジュール間又はエッジpモジュールからcノードへの何れかのファイバ接続によって占有されている点で、ファットツリーと同様に飽和される。
表10は、72ポートのpモジュールに基づく類似の表である。実用的な僅かな意味もなく天文学的数字であっても、増大Clos及び増大MClosのエントリが含まれている。72ポートの場合、トーラスの実施例におけるfノード間により多くの帯域幅を割り当てることができ、表に示されるようにバイセクション帯域幅を増加させる。明らかに、増大した修正Closトポロジーに必要な黙示的接続の大きな数は適切ではなく、これらの表における対応する列は例証の目的に過ぎない。
7つの事例の各々における経路の数(到達可能性)を比較すると、ルーティングテーブルが必須である場合にスイッチアーキテクチャにおける可能性のある経路のセットの検索を制限するためにファットツリー及びトーラス(更に、可能であればツリー及び増大修正Clos)ファブリックが、幾らか注意深いルーティング管理を必要とすることは明らかである。
コメント:
飽和のためにClosファブリックを構築する必要はない(部分的ファブリックが有用とすることができる)。
グリッド又はトーラストポロジーは、より大きなファブリックに最も容易に拡張可能である。
ファブリックポート及びエンドポイントをファブリックに相互接続するのに必要な接続(ケーブル、光ファイバなど)の数は、上記の表のポートの数とcノードの数を加えたものの半分である。
トポロジー選択に関する所見
2つのツリートポロジーは、最低バイセクション帯域幅及び最高密度、並びに中間のレイテンシー(直径)を有する。これは、トポロジー選択における基本的トレードオフであり、帯域幅は重要であるか否か?到達可能性(経路)は良好でるようであるが、1つのノード当たりの経路は逆に不十分であり、ツリーが輻輳問題を有することを示している。ファブリックノード間の帯域幅が主な問題である場合、fノード間に複数のポートを有するトーラストポロジーは、好ましい選択肢とすることができる。恐らくは専用スイッチを備えた実施構成及び管理の高コストに起因して、3次元トーラストポロジーは、スーパーコンピュータインスタレーションにおいてのみ見られるようである。これらの問題は、ファブリックモジュールがスイッチレスである(これは次の段落の主題である)場合にはもはや重要ではなく、トーラスが将来のデータセンタにおいてより使用されると考えていることが予想される。
経路密度(cノードの数によって分割された潜在的な経路の数)は、ツリートポロジーに対して極めて低いが、Closトポロジーでは1/2(0.5)であり、トーラスに対しては極めて大きくなる可能性がある。この経路密度は、ファブリックにおける潜在的輻輳の尺度並びに自己回復に対する耐性の尺度であり、トポロジー選択における可能性のある優先要因になる。ファブリック管理は、大きな経路密度を有するシステムに関する主要な検討材料となる。スイッチパターンは、一般的に経路プルーニング及びスパニングツリーの構成による経路の多様性を考慮に入れなければならない。このような経路削減は、スイッチレスファブリックには必要ではない。
上記の2つの表は、トポロジー及びファブリックモジュール又は特定のfノードアーキテクチャの第1パス選択に使用することができる。例えば、高密度(計算コストに対して低ファブリックコスト)が重要である場合、ファットツリー又はグリッドトポロジーを選択することができる。バイセクション帯域幅が重要である場合、修正又は増大Closトポロジーが好適であることは明白である。拡張性及びノード帯域幅が重要である場合、トーラスが有利である。レイテンシーが重要であるが帯域幅があまり重要でない場合、ツリートポロジーがより好適な選択肢とすることができる。
トポロジー選択のためのこの方法は、高到達可能性(経路)及びバイセクション帯域幅によって獲得された計算効率を考慮しておらず、また、cノード数の増加に伴うコストの増加及びファブリック管理の複雑さも考慮していない点に留意されたい。
上記の2つのテーブルは、上記で行ったものよりもより確実な方式の統計的推定を行うことを可能にする。数値表に基づくこのような相関関係は、記号表現を比較するよりも解釈が容易である。ファブリックのタイプのこの小さな数及びpモジュールポートの2つの値に基づいて、特定の相関関係がほぼ一致し、決定方式における表8から直接結論を引き出すことができることを意味する。例えば、pモジュールとcノードの数の間の明らかな相関関係は、pモジュールとバイセクション帯域幅との間と同様に一致に極めて近く、これは、予想されるように、32ポートモジュールと72ポートモジュールの両方に対して成立する。
このような相関関係の助けによってトポロジーの選択に関する幾つかの結論に達することができる。特に、帯域幅、冗長性又は到達可能性(経路)、及びレイテンシーに関する結論を引き出すことができる。
帯域幅:ファブリックハードウエアの量によって決定される
バイセクション帯域幅とpモジュールの数との間の相関関係が基本的に一致することを上記の表から推測することができる。従って、帯域幅の増加は、fノードの数を増やすのに使用される付加的なハードウエアを犠牲にして得られる。別に記載されるように、高バイセクション帯域幅が重要である場合、ファブリックは大きな数のfノードを必要とし、インスタレーションのコストが増大する。これは、特に驚くべきことではないが、表8における量的表現が潜在的な設計を比較する上で有用である。
レイテンシー:トポロジーによって決定される
上記の表から、ツリーClos及び修正Closトポロジーが最低レイテンシーを有することが明らかである。スケーラブルであるツリー様トポロジーでは、直径及び従ってレイテンシーが、ノードの数の対数として増大し、ノードの大きな数に対して、ツリー構造がClosトポロジーよりも多くのレイテンシーを示すことを意味する。Closトポロジーの直径は、全てのClosトポロジーが一定の3層を有する(増大ケースが内部サブネットワークに基づいており、よってポッドがネスト化されたときにpモジュールの点で直径が増加する)ので、fノードポートの数と共に一定のままである。トーラスの直径は、(3次元で)fノードの数として1/3の累乗まで、及び二次元で平方根として増大する。従って、ノードの大きな数に対して、Closトポロジーは、最低直径、及び従って最低レイテンシーを有する。しかしながら、以下で分かるように、ファブリックアーキテクチャはまた、メッセージレイテンシーにおいて重要な役割を果たす。
到達可能性:トポロジーによって決定される
2つのエンドポイント間の可能性のある経路の数の間の相関関係は、上記の表の最左列に列挙された残りの特性のセットよりも低いか又は逆相関の何れかである。しかしながら、ポート値の2つのセット(例えば32及び72)に対する経路間の相関関係は、約90%を上回り、経路の数は、個々の特性の何れかよりもトポロジーと相関関係があることを意味する。
スケーラビリティ:トポロジーによって決定される
ファブリックサイズがfノード又はポッドにおけるポートの数によって決定されるので、Closトポロジーはスケーラブルではない。しかしながら、Closファブリックは、ノードの最大数に対して設計され、上述のように部分的に実装することができ、ファットツリートポロジーと同様である。
2つのスケーラブルトポロジーがツリー及びトーラスであり、両方とも一致するスケーラビリティを有し、別のfノードの追加により、cノードの数が比例的に増大する。トーラスの欠点は、その大きな直径であるが、ツリーは、トーラスと比較した場合に不十分なバイセクション帯域幅及び経路冗長性を有する。
ブロッキング
エンドノードの数が最低(エッジ)レベルからツリーの次のレベルまでのリンクの数より大きいので、ツリートポロジーは、一般的に無条件にブロッキングする。他のトポロジーが条件的にブロッキングし、例えば、他の経路をブロックする対称Closにおけるトラフィックパターンを見つけることは自明である。中間層におけるモジュールの数を二倍にすることによってこの欠点を克服することができるが、結果として生じるファブリックは、同一のモジュールからはもはや構成されない。
経路の数は、Closファブリックにおけるレベルの数を増加させることによって大幅に拡張することができる。結果として生じるネットワークは、ブロッキングの可能性がより低いが、増大するファブリックハードウエア及びより大きな直径を犠牲にしている。
取り付けられたエンドポイントの数がファブリックリンクの数よりも大きくなるので、次元がp/4未満である場合にはトーラスはブロッキングする。これは、高次元トロイダルトポロジーがClosトポロジーより優れた別の利点を有することができることを示唆している。
所与のアプリケーションに対する最適トポロジーの選択は、複数の妥協を伴う多くの因子に依存する。
パケットフローファブリック
序文
上記のトポロジーに関する説明から、主なトレードオフは、cノード当たりのfノードの数(「密度」又はファブリックハードウエアオーバヘッド)と、cノード当たりの潜在的な経路の数(「特定の」到達可能性又は経路密度)並びにバイセクション帯域幅及び密度の間にあり、高ノード密度は、低経路密度及び低バイセクション帯域幅に相関付けられる(それぞれの相関係数は逆相関である)。ツリーをスパニングする必要性により、使用可能な経路密度が低減され、その結果、ツリートポロジーがより好ましいと思われ、高経路密度を有し、従って低輻輳を提示することになる。すなわち、潜在的な経路の数が十分活用できる場合、Clos及びトーラストポロジーは、ツリートポロジーよりも優れているように思われる。別に記載されるように、潜在的な経路の数がスパニングツリーアルゴリズムによって制限される場合、ツリーは好ましいトポロジーになる。ノード密度及びバイセクション帯域幅は決定因子になり、不十分な帯域幅及び高輻輳の両方を有するとしても、ツリー及びファットツリー構造がノード−密度尺度を決定付ける。経路管理によって課せられるこれらの二次的な懸念事項により、レイテンシー及び帯域幅の一次設計考慮事項を犠牲にしてトポロジーの選択が左右される。
データセンタを大きな数のエンドポイントに拡張するときに、スイッチ型ファブリックは、効率的なトラフィック管理及びスイッチ制御に必要なルーティングテーブルの大きな数及びサイズに起因して管理できなくなる傾向がある。これは、InfiniBand実施構成において特に顕著である。また、スパニングツリーアルゴリズムが不安定な[参照5]であり、参照12に記載されるように全てのスイッチがルーティングテーブルの複数の複製に反映されたトポロジーを「学習する」ことを要求することは公知である。
ブロードキャスト又はマルチキャスト動作下では、複数のチャネルを順次的又は並行して開かなくてはならない。従って、ブロードキャスト又はマルチキャスト動作は、ファブリックの大部分を同時又は順次的に取り込み、長い全体的期間ではあるが小さな部分では、階層化スイッチにおいて輻輳をもたらす可能性がある時間的及び空間的高トラフィック条件の両方をもたらす。これらの問題は、DBOIfノードに基づくパケットフローファブリックでは生じることはない。
この段落では、発明者らは、パケットフローをサポートするファブリックノードを作成するのに必要なDBOI修正を説明し、その基本的特性がスイッチ型ファブリックよりも優れている極めて大きく回復機能のあるネットワークを作成する方法を示している。パケットフローモジュールの2つの主な特性は以下の通りである。
1.スイッチが存在しないこと
2.ルーティング及び転送情報ベースが存在せず、ファブリック内のメッセージフローを管理する難しさを対応して増大させることなく、ノードの極めて大きな数に拡張することができるファブリックを構成することが重要である。
次の段落では、これらの2つの主な特性が、このような大きく効率的なファブリックを構成できる必要な構造をどのように提供するかを考察する。
スケーラビリティ、トラフィック管理、入力及び出力待ち行列管理、輻輳管理、及び低バイセクション帯域幅のような、スイッチ型ファブリックにおいて遭遇する問題の多くは、最初の背景の段落で紹介した光学的相互接続に基づくパケットフローモジュールを使用して克服することができる。
パケットフローfノード
パケットフローfノードは、オリジナルのDBOIの単純な修正形態であるが、スイッチ型ファブリックよりも優れた多くの利点をもたらす。
オリジナルDBOIモジュール
当初設計及び構成されたように、DBOIシステムは、1つの光学的モジュールと、4つの電気−光学モジュール(32方向バージョン)とからなる。8つの異なるホストから、一般的にはPCI−エクスプレスインタフェースからのシリアル形式の電気信号は、4つの電気−光学モジュール又は電気−光学ネットワークインタフェースコントローラ(EONIC)の各々に入力される。レーザドライバ及びレーザは、各EONIC基板の第1セクションに位置付けられ、ここで電気信号がシングルモードレーザで連続光パルスのストリームに変換される。これらの光学データはシングルモード光ファイバを通じてDBOI光学モジュールに送信され、ここで4*8光学ビームの各々が拡大されて4つの等しいビームに分割される。32ビームの各々の4つの複製の各々は、異なる収集レンズに送られて、32ボールレンズの4つの出口アレイに各々集束され、32ビームの4セットの各々をマルチモードファイバの4つのバンドルに結合する。次に各バンドルは、変調光の形式でオリジナルの32電気信号の複製を包含する。
32ファイバの各バンドルは、4つの同一のEONICモジュールの1つに接続し、ここで光学信号が検出されてシリアル電気信号に変換される。各EONICモジュールでは、32データストリームが論理によってフィルタリングされ、その結果、特定のモジュールによって対応される8つのエンドポイントの何れかのためのものである信号だけが、ファンアウトデバイスに渡され、該ファンアウトデバイスは、各信号(渡すことが許可された)を8つの複製に分割し、8つのエンドポイントの各々に対して可能性がある1つが、当該特定のEONICモジュールによって対応される。フィルタリング論理の別の段階の後に処理されるファンインは、例えばホストコンピュータに好適なPCIフォーマットへの信号の変換の前に出口ポイントの各々にて行われる。ファンイン段階の論理は、32信号の各々をフィルタリングし、目標エンドポイントに対する信号だけを渡すことを可能にする。
幾つかのフィルタリングステーションの各々はまた、電子データパケットを、ファーストイン、ファーストアウト方式で一時的に格納するデータバッファを使用する。加えて、各バッファは、存在するデータの量をモニタするための論理を有する。何れかのバッファが、当該バッファを空にすることができる受信側エンドポイントホストよりも迅速に入れられる場合(例えば、マルチストリームが同じエンドポイントに同時に向けられる場合)、EONICにおける論理は、当該のエンドポイントに対応するレーザからブロードキャストされる制御パケットを生成する。この機構は、送信を中止するために潜在的にオーバフローするバッファに対する優先順位パケットを用いて当該特定のエンドポイントへの何れの送信者にも通知することによって、対応するバッファにおける潜在的なオーバフローに関するフロー制御を提供する。このようなフロー制御メッセージは短く、数バイトの長さであり、対応するEONICによってDBOIに迅速に投入することができ、ここでこれらは、その意図された受信者によって迅速に受信及び処理される。
本質的に、オリジナルのDBOIは、情報を配信するため光学機器を使用する電気−電気分散デバイスである。光学段階は、DBOIのボリュームのような大きな距離にわたって、更に過大なキャパシタンスが電気信号を遅らせる可能性がある光ファイバに沿った高速及び信頼性のあるブロードキャスト配信を可能にする。後続の電気的処理は、EONICにおけるより短い経路を通じて行われる。
パケットフローアーキテクチャに対する修正
入力及び出力の両方がシングルモードファイバを通じて搬送される光学分野におけるパケットフローモジュールとして機能するためのDBOIを生じさせるために(例えば、データセンタにおけるラック間の必要な距離に対応するために)、EONICは、光学モジュールが変更されていないままである間に修正される。これは、例えば、同じ光学モジュールがデータセンタ全体を通して使用できるようにし、これによって大量生産の互換性の高い部品をもたらし、コストダウンを行う。当然ながら、EONICモジュールの2つの特性があり、1つはcノードにインタフェースするよう設計されており、1つはfノードにインタフェースするよう設計されている。
図17は、パケットフロー構成におけるDBOIを示している。このDBOI fモジュールは、上記のように、2つの別個の部分からなる。光学又はDBOIモジュール1710は、データセンタの何れのポイントからも発生することができる32シングルモードファイバ入力1720を有し、4つのEONICモジュール1730は各々、データセンタのあらゆる場所への宛先を有することができる8つのシングルモード出力ファイバ1740を有する。短いマルチモードファイバは、ブロードキャストモード下で光学DBOIモジュールにおいて発生する光学的に分散される信号をEONICモジュールの各々によって分散及び収集可能にする(この場合も同様に、各EONICモジュールは、32入力の各々の同一の複製を受信する)。
図17は、外部の光ファイバ接続のみによる光学インアウトシステムとして修正されたDBOI相互接続を示す図である。修正は、電気−光学モジュール(EONIC)だけで行われ、光学モジュール(DBOI)には触れることはない。分かり易くするために、図は、16対16分散モジュールにおける16の入力及び4出力の4つのグループを示している。既存の実施構成は、32対32分散チャネル及び72対72分散チャネル用である。入力の各1つは、出力の1つと論理的に対にすることができ、(ここでは)16双方向光チャネルを結果として生じる。ミラーは、図17には図示していないが、DBOI入力が出力としてモジュールの同じ面になることを物理的に可能にし、そのモジュールの長さを半分にする。
DBOI fモジュールの入力の何れか1つに提示されるデータは、パケットのヘッダに包含される宛先情報に応じて、出力の何れか、出力の全てから出ることができ、又は出力の何れからも出なくてもよい。逆に、クロスポイント又はマトリクススイッチに入るパケットは、何れの出口ポートにも存在せず、又は単一の出口ポートにだけ存在することができる。これは、スイッチにおけるマルチキャストをホストのデータ構造又はクロススポイント(スイッチ)に追加された特別なハードウエアによって管理しなくてはならないことを意味する。DBOIにおけるマルチキャストは、宛先又はグループアドレスによって決定され、分岐が自然に起こるジャンクションで並行して発生する。
上記に示された分散モジュールは、あらゆる種類の光信号をブロードキャスト、マルチキャスト、又はポイントツーポイントとして分散することを可能にするので、「光データフロー」という用語は自然な記述であると思われるが、内部ブロードキャストに続くフィルタリング決定がパケットヘッダに基づいて行われるので、より適切な用語としては、転送、フィルタリング、及び増幅の目的のためにのみ光パケットが電気信号に変換される「光パケットフロー」になるであろう。「パケットフロー」という省略表現は、この用語が稀にではあるがこれまでに使用されていたとしても、適切な選択であると思われる。
パケットフローアーキテクチャの利点
パケットフローアーキテクチャは、スイッチアーキテクチャよりも優れた性能及び管理の利点を示す。
物理層としてのDBOI
DBOIモジュールは、その最も単純な機能的形式においてその物理層と同一である。全ての送信側及び全ての受信側チャネルが互いに独立して完全に接続されており、独立して及び同時にメッセージを送信及び受信することができるので、結果として生じるネットワークファブリックは、何れのタイプのネットワークプロトコル及びユーザによって要求されるファブリック管理を容易にサポートする。所与のアプリケーション又は並行オペレーティングシステムが、特定のプロトコル又はメッセージ受け渡しインタフェースを予期し、又はスイッチ型ファブリック管理(ルーティングテーブル、スパニングツリーなど)をサポートする場合には、DBOIシステムはスイッチ型ファブリックを直接交換し、様々なコマンドをDBOI固有のコマンド(宛先指定など)又は単純なno−ops(特定のルーティング要求のための)に翻訳するシンプルラッパーを用いて変化していないメッセージ及び制御構造をサポートすることができる。直接交換DBOIは、オリジナルのアーキテクチャよりも高速でより効率的になる。通信コードを書き換えてDBOIの強度を利用することによって、更に高い効率性が得られることになる。
全帯域幅の利用
スイッチ型ファブリックは、一般に、例えばデータ転送の持続時間の間で状態が固定されるスイッチのネットワークを通じてノードaからノードbへの経路を開く。この経路の二重の性質が十分に活用されることはほとんどないが、その双方向性の潜在的能力は、bからaに確認応答を送るよう転送中のある時間において要求された場合に必要となる。多くの小さな同時双方向メッセージが存在する場合を除いて、スイッチ型ファブリックの帯域幅の約半分は使用されない。二重メッセージの能力は必要とされるが、それでも、そのベースとなるハードウエアは、およそ50%の割合で活用されていない。
このことは、使用されるか否かに関わらず、逆経路に対する潜在的能力が存在しなくてはならないので、重大な関心事とは見なされない可能性がある。しかしながら、二重経路が設定されると、送信側ノードもまた、その到来ポートが確保される点に留意されたい。すなわち、特定のノードに送信している間は、他の何れかのノードからメッセージを受信することはできない。受信できない間に経路設定の多くの又は全てのノードによってこの効果が拡大されることで、最大でファブリック帯域幅の半分が利用できなくなることが分かる。この場合、スイッチ型ファブリックの理論バイセクション帯域幅の最大50%の推定低下がある可能性が高い。
パケットフローモジュールの双方向性の汎用性の1つの実施例として、上述の修正Closファブリックを検討する。図18は、4つの双方向ポート1820を有するfノード1810に基づくこのようなファブリックを示している。図18の左下のエンドポイント1を検討する。赤い矢印は、このcノードが、cノード13にデータを送信中のビジー状態であることを示す。これらのデータが選択された経路を横断している間でも、例えば、cノード10は、データを同じcノード1に送信することができる。この双方向性は、パケットフローファブリックの効率を大幅に拡張するDBOI fモジュールのアーキテクチャ上の特徴である。
何れかのメッセージ転送の間の逆方向に対する必要性は、長いか短いかに関わらず、不適切な到着、不完全なるメッセージ、メッセージ損失、及び他の可能性のある有用な管理タスクに関する確認応答又は通知を目的としている。しかしながら、このようなブックキーピングメッセージの長さは一般的に数バイトであり、一次メッセージよりも短い大きさの程度であることが多い。当然ながら、多くのファブリックにおいて、逆経路は、実際には、二重チャネルを同期状態にしておくためにヌルのストリームを単に包含する。よって、双方向で送信されている実際のビットが存在することができる場合、二重チャネルは、処理ノードに関連した情報の観点からすると高度に非対称である。
パケットフローファブリックは、利用可能な帯域幅の完全利用を可能にする。
レイテンシーの改善
スイッチ型ファブリックにおいて、データ転送のために設定された実際の経路は、2つのファブリックノード又はエンドノード間の一時的な接続である。この理由のために、経路が閉じられる度にビットシリアル同期を再設定しなければならず、或いは、ファブリック全体を同期方式で作動させなければならない。第1の技術(データ生成法)は、メッセージビットが到着する前に同期を行う時間を考慮に入れるために、メッセージ開始シーケンスを送信しなければならないので、追加のレイテンシーをメッセージに追加する。第2の技術(パイロット周波数法)は、同期信号をファブリックの全てのエンドポイントに拡散するためにハードウエアの付加的な層を必要とする。
低レイテンシーは、効率的なキャッシュコヒーレントメッセージ、共有メモリデータ交換、ハンドシェーキング、及びバリア同期のための必要条件である。
再同期レイテンシーは、ノード間のマイクロ秒レベル以下のレイテンシー全体への主要な寄与要素とすることができる。増加するレイテンシーに加えて、再同期は、同じメッセージの複製を受信するエンドポイント間の差分レイテンシーに影響を与えるので、データスキューの一因となる。これは、マルチキャストが送信側でスキューがほとんど又は全くない状態で同期できる場合でも当てはまる。このようなスキューの脅威は、一般的には、バリア同期によって克服され、効果的なレイテンシーに加えて、更に長い遅延に役立つ。
DBOIは、別個のシングル送信ブロードキャストチャネルからなるので、全ての受信側経路は、実際のメッセージが存在しない場合でもヌルシーケンスが送信されるときにこれらのビットストリームとの同期を維持する。これは、例えば、メッセージを受信するのに必要とされる位相ロックループにおける付加的な収集時間が存在しないことを意味する。この同期は、補助的なパイロット信号を必要とせずに、各EONICにおけるDBOIアーキテクチャ内で行われる。これらのヌルシーケンスは、有効パケットがメッセージの開始を知らせる短いヘッダシーケンスによって認識された場合には無視される。
レイテンシーの全ての他のソースは等しく、パケットフローファブリックはスイッチ型ファブリックよりも低いレイテンシー及び少ないスキューを示す。
拡張フロー制御
独立した双方向チャネルを備えたパケットフローアーキテクチャによって実施可能になる付加的な特徴は、短い高優先順位の制御メッセージを送信及び受信するための効率的機構の可能性である。cノード間のフロー制御は、オリジナルのDBOI実施構成の特徴である。フロー制御概念をfノードに拡張することにより、最近傍状態情報、障害ノードを検出するためのハートビートメッセージ、ハンドシェーキングパケット、及び効率的且つ高速の同期メッセージを効率的に共有可能になる。
構成によって、パケットフローアーキテクチャにおける出口ポートは、入口ポートから独立している。出口ポートだけが、出口バッファ、バッファモニタリング論理、及びパケット生成及び送信論理からなるフロー制御機能を有する。EONICにおいて生成された制御パケットは、標準パケットを超えた送信優先順位を有する。これは、出口ポートの各々に存在する通常の出口バッファと並行して動作する優先順位バッファによって達成される。出口ポートが現在のフレームの送信を終了すると、優先順位バッファがチェックされ、何れかの優先順位フレームが次のメッセージフレームに優先することを可能にする。データパケットは、64B66Bフレームからなり、優先順位メッセージは単一のフレームを用いる。従って、優先順位パケットによって生じる最大遅延は単一フレームである。
優先順位パケットの受信時には、優先順位パケットがfノード用か又はcノード用とすることができるので、状況は幾分複雑である。識別に続き、cノード優先順位パケットは、適切な出口バッファに到達するまで標準的論理に続いてEONICを通過する。ここで、パケットは、次のパケットが標準的メッセージバッファから取り除かれる前に調べられる優先順位出口バッファに向けられる。出力バッファにおいて優先順位フレームが存在する場合には、標準的バッファの何れかのコンテンツにわたって選択されてcノードによって読み取られる。
優先順位パケットが別のfノード用である場合、当該パケットは、上述されたように標準的論理に従い、宛先fノードへの次の送信を待機している適切な優先順位バッファ内に配置される。優先順位パケットが受信側fノード用である場合、標準のパケット処理論理の前に検出器バッファにてタグ付けされて、適切なfノード制御論理に送信され、ここで以下のことを行うために用いることができる。
1.ローカルの最近ノードのステータステーブル(「利用可能」、「障害敗」など)を更新すること。
2.出口ポートの何れかからの送信を中断又は再開するための制御信号を提供すること。
3.使用及びステータスデータを収集してモニタリングシステムに送信すること。
又は、
4.他の実施可能な中でも、ファブリックにおけるfノードの位置(ツリー又はClosレベル、ポッドID、メッシュインデックスなど)に関する情報を提供すること。
バッファサイズの問題は、一般に、普遍的解決策が存在しないことによって起こる。大きなバッファは、フロー制御機構が管理する前に多数のパケットを待ち行列に入れることができる。しかしながら、このサイズは、フロー制御がソースにおいてカットオフされる前に、未達のメッセージを受け付けるのに十分大きいものでなくてはならない。このより低い限界は、ネットワークのサイズ、標準パケットの長さ、ファブリック全体に渡る優先順位メッセージのレイテンシー、及びファブリック直径によって決まる。場合によっては、ファブリック及びそのメッセージトラフィックのシミュレーションが必要になる可能性がある。
優先順位パケットは、一般に、標準的メッセージに比較して極めて短く、EONICにおけるこれらの処理は、内部論理の大部分をバイパスする。10ギガビット/秒データチャネル内のファブリックでは、優先順位フレームにおける一般的なエンドツーエンドレイテンシーは、ノード間の送信、検出、識別、及び受信側fノード内の処理に対してほぼ数十ナノ秒程度である。
冗長経路の完全利用
何れか2つのcノード間の可能性のある経路のセットは、ローカル輻輳が起こった場合の通信冗長性の手段を提供し、及びfノードに障害が生じた場合の「自己回復」のためのベースを提供し、一般的には、このセットが大きくなるほどより堅牢なシステムを保証する。しかしながら、大きなルーティングテーブルを各fノードで維持しなくてはならないスイッチ型ファブリックでは、スパニングツリーアルゴリズムが、一般に、許容可能な経路の数を管理可能なサイズまでプルーニングし、従って、全ての付加的な接続性を排除することによって輻輳及びノード障害の問題に対するスイッチ型ファブリックの応答を制限する。
パケットフローファブリックでは、各転送決定がローカルな決定である場合、経路のプルーニング又は包括的なルーティングテーブルに対する必要性はない。要約すれば、スパニングツリー管理システムは単に必要ではない。
これらの2つのトポロジーが極めて大きな経路冗長性をもたらすので、スイッチ型ファブリックにおける経路プルーニングの必要性は、Closネットワーク及びトーラスから離れてトポロジーの選択を偏らせる点に留意すべきであり、すなわち、冗長性が使用されない場合には、何故ハードウエアに対する代償が生じるのか?
冗長経路の全セットがパケットフローファブリックで使用可能である。
パケットフローファブリック管理
中心的課題
ファブリック管理における中心的課題は、可能性のあるエンドポイントコンテンション及びファブリック輻輳にも関わらず、何れかの特定のメッセージがその宛先に到達するのを保証することである。このような管理は、効率的に、ソース及び宛先間の最小遅延で行わなくてはならない。上記に示されたように、スイッチ型ファブリックの管理は、大型コンピュータシステムの設計及び実施構成における中心的課題であり、ファブリックハードウエア及びメンテナンスを上回るコストが課せられる。参加ノードの数が増加するにつれて、ファブリック管理はより複雑になり、達成するのが難しく、高コストになる。問題となっているのは、ファブリック全体を通して分散される最新の複製を備えて従来よりも大きなルーティングテーブルを維持することである。
「輻輳」は、他の何れかのメッセージが第1経路を設定したスイッチの何れかを使用するのを阻止する経路が選択されたときに、スイッチ相互接続において発生する。良好な例示は、クロスストラフィックを停止することによってトラフィック光によりトラフィックが進むのを可能にするトラフィック制御である。「コンテンション」は、複数のメッセージが同じエンドポイント又はファブリックポートに向けられたときに相互接続又はファブリックのエッジで発生する。良好な比喩としては、全ての乗客が飛行機の同じドアから同時に出ようとすることである。これらのファブリック問題の両方は、経路ブロッキングの結果である。
サーバファームにおいてデータ項目へのアクセスを改善するために考案されたプロトコルの多くは、スイッチ型ファブリックの性質によって課せられる構造上の問題に対する次善策として存在する。同様に、(ファブリックアーキテクチャから独立した)一般的なアクセス方法の実施構成の詳細は、選択されたプロトコルと良好に機能する特定のトポロジー及びアーキテクチャの選択を決定付け、ほとんどが最適設計方法ではない。
スイッチ型ファブリック(スイッチ及びルータのネットワーク)とは対照的に、DBOIに基づくファブリックは、パケットフローファブリックであり、スイッチ及びハードウエア実行ルーティングが必要ではなく、このようなルーティングがシステム性能を向上させることもないことを意味する。スイッチング及びスイッチドネットワークの管理に関連付けられるハードウエアは、これらのファブリックには存在せず、単純で維持し易いシステムをもたらす。
ノード−ローカル決定に基づくアクティブパケットフローファブリック管理の実施構成は、近傍ノード間で渡されてfノード出口ポートに対応する小さなテーブルにおいてローカルに維持されるローカル輻輳に関するステータス情報を交換することによって達成される。各fノードは、ファブリック内のその特定のロケーションに関する情報を有する(Closネットワーク内の行及び列、ツリーネットワーク内のレベル及び順序、並びに3次元トーラスにおけるXYZインデックスなど)。ノードロケーションに関するこのファブリック規模の知識以外に、パケットルーティングに必要な情報は、近傍のファブリックノード間でステータスデータを交換することによって取得される。
ある段階で、ファブリックに入る前又は恐らくはマルチプロセッサシステム自体へのゲートウエイにおいて、IPアドレス又はデータベースポインタのような標準的アドレスは、相互接続ファブリック内の宛先アドレスに変換され、又は宛先アドレスによってカプセル化される。このようなアドレスは、少なくとも、宛先cノード及び当該cノードに位置付けられた何れかのターゲットプロセス又はコンピューティングコアの表示と共に宛先fノードの物理的なロケーションへの参照を包含する必要がある。自由形式データベース又はコンテンツアドレス指定可能システムでは、どの情報が捜されているかに関する仕様(例えば、ハッシュインデックスの形式の)だけで十分とすることができる。現時点では、ビットストリームからのパケットのフレーミング及びチェックサム及びエラー訂正コードの質問のような信頼できるメッセージ受け渡しシステムに必要な多くの付加的な詳細に対応する必要はなく、パケットフローシステムにおけるパケットがスイッチ型ファブリックにおけるパケットとそれほど異なっていないことに気付くだけでよい。単純に、ファブリックに入るパケットが送信前のビットストリームにおけるフレーミング動作の後で通常の方式で構成されると仮定する。通常のチェックサム及びエラー訂正コードは、符号化された宛先アドレスと共に存在する。詳細には、宛先アドレスは、宛先fノードのロケーションを指定するインデックスからなることができる。2つの方法の間の本質的な違いは、スイッチパケットがグローバルルーティングテーブルによってその宛先に向けられるのに対して、フローパケットは、辿る特定の経路における各fノードに対しローカルの情報を使用してその宛先への独自の道を見つけることである。各ステップでは、パケットがソースから宛先への前進において送信又は破棄される。
ノード障害及び回復
何れの特定のfノードも障害を生じる可能性がある。ノードの障害は、一般に優先順位ハートビートパケットを用いて、又はハンドシェーキング中のクエリに対する応答の不存在を通知することによって(例えば、ACK/NACK機構を介して)、ノードの近傍ノードによって認識されなければならない。このような障害からの回復は、一般に、「自己回復」と呼ばれる。
「自己回復」機能は、1つのノードが機能停止するか又は接続不良になった時にルーティングベースのネットワークが動作するのを可能にする。結果として、ネットワークにおけるソースと宛先との間には1つよりも多い経路が存在することが多いので、ネットワークは一般的には極めて信頼性がある。
パケットフローモジュールの導入によって、ルーティング決定はローカル動作になり、グローバル管理構造に対する必要性が排除される。ローカルには、宛先ヘッダを備えた受信されたパケット上で動作するファブリックノードにおける単純状態機械は、自己管理及び自己修復を行うファブリックをもたらすことができる。要約すると、自己編成及び自己ルーティングシステムを取得することができる。
トーラスルーティング
グリッド又はトーラスにおける自己ルーティングは最も単純なケースであるので、最初に説明する。他のトポロジーは、この段落で説明する特徴の一部、特にフロー制御及び優先順位パケットを利用している。
スパニングツリールーティング(スイッチ型ファブリック)
グリッド又はトーラスにおける離れたノード間の可能性のある経路の大きな数(迂回路又はループなし)が与えられた場合(式11を参照)、スパニングツリーのプルーニングは、このようなファブリックを管理するための中心的な課題となる。(グリッドでは)距離尺度がマンハッタン基準に従う限り、全ての適切に選択された経路が等距離である点に留意されたい。トーラスでは、経路の8つの可能性のあるセットの少なくとも1つが最小であり、よって、適切なプルーニングアルゴリズムは、最小セットを識別し、その他を破棄する必要がある。しかしながら、この最小セットは、2つのエンドポイント間の相対的距離に依存し、このことは、ファブリック全体にわたって変化し、典型的パケットに対し極めて多数の選択を提示する。
当該ノードから到達可能な全ての可能性のある宛先(すなわち全部)を反映する巨大なスパニングツリーを各ノードにて格納しなければならないか、又はパケットがノードに入る度に(不安定な)スパニングツリーアルゴリズムによってスパニングツリーを再度コンピュータ処理してプルーニングしなければならない。
パケットフロールーティング(パケットフローファブリック)
各fノードがファブリックにおけるその固有の位置の内部表現を有するような、fノードの2次元ネットワークを検討する。このような位置の表現は、ペア{nx,ny}に基づき、ここでnは、グリッド内のfノードにインデックスを付ける整数であり、添え字は2つのグリッド次元又は方向を示す。例えば、{0,0}は、図15のグリッドの左下隅のfノードを示すことができる。ノード{x,y}が宛先ヘッダ{a,b}を有するパケットを受信すると仮定する。パケットが何れかのfノードから離れることができる4つの可能性のある経路が存在する(単純で特別な取り扱いケースであるファブリックのエッジ又はコーナ上のノードの特別ケースを除いて)。特別なケースでは、宛先が発信元cノードと同じfノードにある場合、単純に適切なcノード経路上のfノードから出る。
Δx=|x−a|及びΔy=|y−b|のように現在の位置と宛先の間の差分の絶対値を形成することによって経路差をコンピュータ計算する。Δx及びΔyが共にゼロである場合、パケットは、その宛先fノードにあり、パケットヘッダの第2部分に包含される宛先cノードに渡すことができる。Δsの1つがゼロであり他がゼロでない場合、(以下に説明される例外は別として)パケットに対する出口の選択肢は1つしかない。この単一の選択を識別するために、ΔxがゼロでなくΔyがゼロであると仮定し、2つの差|x−a−1|及び|x−a+1|を形成し、2つの近傍fノードと宛先との間の経路のx方向に沿った距離をコンピュータ計算する。他の選択が宛先から取り出されると、小さな差を有するポートが選択される。
両方の差がゼロでない場合、出口ポートに対して2つの等しく有効な選択が存在し、2つの選択は、上述のようにx方向に対して±1の差、及び同様の方式でy方向に対して±1の差を形成することによって見つけることができる。小さな差を有するyポートが選択されたのと同様に、小さな差を有するxポートが選択される。ターゲットに向けたリードとこれらの間の任意の選択の両方を行うことができるので、指示されたxポート又は示されたyポートの何れかが有効な出口ポートである。このようにして、パケットは、ローカル情報だけを使用して最短経路のセットの1つの要素に沿った適切な宛先への経路を見つける。「任意の」選択が以下に説明されるように外部因子に依存する可能性があるので、特定の経路を予測することはできない。
3次元グリッドは、fノードロケーション及び宛先アドレスを指定する3つの数字を有し、3つの差分及び6つの可能性のある方向以外は上述のものと同じである出口アルゴリズムを備える。エッジの差分は、誤った出口ポートを示す−1に自動的に設定され、トーラスの場合の計算は、対応するメッシュサイズの長さ(当然ながら、fノードの数で測定した)を法としている。
この基本的なルーティング方法は、パケットフローグリッド又はトーラス内で動作するよう保証される。しかしながら、ダウンストリームfノードにて輻輳の可能性を生じることがあるファブリックにおける重いトラフィックが存在する場合に重要となる可能性のある改善が存在する。このような輻輳は、その経路を発見したときに所与のパケットに利用可能な出口ポートのセットに対するコンテンションとして現れ、次の段落で説明するルーティングアルゴリズムにおいて検討する。
このアルゴリズムは各fノードにローカルであり、汎用プロセッサよりも状態機械において実装するのに実行が十分簡単である点に留意されたい。
受信側ノードのビジー状態を示す出口ポートテーブルに従って、2又は3(3Dケース)の別の等しい選択間の決定を行うことができる。これらの小さなテーブル(次元に応じて各々4又は6ビット)は、上述されたように優先順位パケットによって維持されている。
パケットフロールーティングアルゴリズムへの拡張
各出口ポートは、当該ポートに対する到来パケット速度がその出口速度を超えた時にパケットが蓄積する関連バッファを有する。通常のトラフィック条件下で、各パケットは、該パケットが入るとすぐにこの出口バッファから取り出され、よって最小遅延又はレイテンシーのペナルティが存在する(バッファは、ファーストインファーストアウト待ち行列として機能し、受信時にパケットを単に送信する)。しかしながら、高トラフィック条の下では、何れかの出口バッファは、空になるよりも速く満たし始めることができる。バッファ容量に達しそうになった場合、フロー制御機構が働き、優先順位メッセージが上述のように適切な近傍ノードに送信される。
上記の段落で説明されたように何れかの優先順位メッセージが調べられ、その宛先がローカルcノードである場合は渡されるだけである。メッセージが受信側fノードに対するフロー制御メッセージである場合、対応する出口待ち行列において「送信中止」事象を起動し、当該バッファの制御機構に「ビジー」又はロックビットを設定する。何れかの他の優先順位メッセージは、適切な出口ポートで単に渡される。
ターゲットノードにおける出口バッファが空になり始めると、経路がクリアであることを示す別の優先順位メッセージが送信される。このようにして、何れのデータも失うことなく重いトラフィック負荷を管理することができる。出口バッファにおいて、又は前のfノードの出口バッファからパケットを転送する際の遅延によって、或いは最終的には発信元cノードからの保留送信を遅延させることによって、特定のパケットをうまく遅延させることができる。
ノード障害及びファブリック堅牢性
何れの特定のfノードも障害が生じる可能性がある。障害が起こった場合、ルーティング機能が失われ、ローカルcノードへのアクセスが失われる。ファブリック規模のハートビート機構又は近傍fノードへの不定期クエリを用いて、応答していない又は障害が生じたfノードを識別することができる。(障害が生じたcノードを同様の方法で識別することができる。)
障害が生じたノードにパケットがアクセスしようとするときには、ルーティングアルゴリズムは、上記の差分の1つを増加させ、説明されたように利用可能なステータス情報に一致する迂回路ルーティングを選択する。1つの迂回路ステップが形成されると、パケットは、迂回路に向けた発信元fノードがパケットループに対するガードとして可能性のある経路のセットから一時的に取り除かれるという条件で、新しいファブリック位置から進む。
グリッド又はトーラスにおけるパケットフロールーティングは、使用するのに最も簡単で最も効果的なローカル機構とすることができ、トーラスを形成し、ある意味で好ましいトポロジーである。
Closルーティング
このケースの拡張によって高レベルファブリックが処理されるので、ここでは3レベルファブリックだけを検討する。3レベルClosファブリックに対して3つのケースが存在する。通信cノードは以下の通りである(図11を参照)。
1.同じfノード上
2.同じ行(横列)上
又は、
3.ファブリックの両側上
同じ縦列に存在する通信cノードは、同じfノード(ケース1)又はファブリックの反対側(ケース3)上の何れかにある。ケース1では、発信元cノードと同じfノードの宛先を有するパケットは、単に、適切なcノード出口上でfノードから出て、何れかのポートコンテンションが上述のフロー制御機構によって処理される。
発信元cノードと同じ行(横列)における宛先を有するパケット(ケース2)は、3レベル構造における可能性のある単一のfノード出口しか持たない。この出口を用いなければならず、ポートコンテンションは、中間層又は発信元層のfノードであるかどうかに関わらず、フロー制御機構によって処理される。
ケース3では、各fノードがファブリックにおけるその位置(レベル又は行(横列)インデックス及び列(縦列)インデックス)を知っていると仮定する。1/4p2への宛先1は下半分にあり、1/4p2+1−1/2p2が上半分にあり、ここでpは、前の段落におけるfノードのポートの数である。従って、ノードインデックス及び宛先ノードインデックスを送信する段階を含む単純なコンピュータ計算により、どのケースが動作中であるかが決定される。
ケース3の状況を管理するための最も簡単な方法は、ランダム又はラウンドロビン方式で出口ポートを選択し、フロー制御に宛先に向かう途中で遭遇する可能性のあるコンテンションを処理させることである。多くのアプリケーションに対しては恐らくは満足できるが、この方法の欠点は、出口ポートのトラフィック非依存の選択が最適でないことである。例えば、順方向におけるコンテンションは、次善の選択の1又はそれ以上をレンダーし、結果として生じるポートコンテンションに寄与する可能性がある(fノードの3つのレベルの何れかにおいて起こる可能性がある)。
より制御可能な出口ポート選択方法は、1つが各fノードの各側面に対するものであるテーブルのセットを有することになる。テーブルは、本質的に、ビジーな出口ポートを有する宛先経路におけるfノードに対応するシングルビットメモリセルからなるマップとすることができる。これらのテーブルの更新は、近傍fノードにおけるそれぞれのポートの状態の変化を反映する優先順位パケットによって行われる。
受信側fノードにおける所与の入口ポートは、送信側fノードの対応する出口ポートがビジーである場合にのみビジーであり、よって、入口ポートに対するテーブル及び方策を提供する必要がない点に留意されたい。
修正されたClosルーティング
修正されたClosネットワークは、全てのcノードが同じ側又は横列上にあり(図13を参照)、上述と同じ方式で大半が処理されるので、最初の2つのケースだけを示す。
ポッドベースのルーティング
ポッド内の各パケットフローノードがその出口ポートに対するテーブルを維持しなくてはならないので、ポッドの使用(前の段落において説明された)は、基本的には維持しなければならないポートマップの数を増加させる。この変更以外に、ローカルルーティング法は、Closファブリック下で上述されたものとほぼ同じである。
ツリー及びファットツリールーティング
Clos及びツリートポロジーの両方がマルチレベルシステムであるので、ツリー及びファットツリー構造におけるパケットフロールーティングの処理は、上記のClosの記載と同様である。主な違いは、当該方法が選択された場合の出口ポートステータステーブルの構成及び維持にある。他の場合には、優先順位フロー制御パケットは、様々なサブツリーを通って流れ、パケットが識別されたポートから離れるのを停止又は遅延させ、或いは、要求に応じて代替のポートの選択を強制する。
ブロードキャストルーティング及びパケット識別子
システム内で生成された各非優先順位パケットに対して連続して又は単調に増加する識別子(ID)の生成にcノードタスクを専用にすることによって、fノードの固有のブロードキャスト機能に基づくルーティングシステムが可能である。確かに、このような方法の最良の用途は、ネットワークトラフィックが飽和ポイントにプッシュされないケースになるが、その実施構成は直接的であり、データベースアクセス及び維持並びに通信ネットワークにおけるルーティングなど、大きなクラスの問題を潜在的に解決する。
ID生成器は、送信のためのパケットをファブリックにアセンブリするプロセスにおいて何れかのcノードからの優先順位パケットを介して新しいIDに対する要求を受信する。パケット送信は、新しいIDが生成器によって(一般的にはカウンタを増分することによって)コンピュータ計算されて別の優先順位メッセージを介して要求側タスクによって受信されるまで遅延されることになる。この場合も同様に、優先順位メッセージは小さく且つ速く、この方法を可能性のある魅力的な代替策にする。
異なる開始番号又は特定の生成器によるIDへのインジケータビット接頭辞を有する異なるカウンタを使用して、複数の生成器が実施可能である。従って、特定のcノードは、これらのクエリをその固有の生成器に配向し、単一の生成器の過負荷を低減する。代替として、ID生成器は、分散サービスとしてファブリックに内蔵することができる。
ブロードキャストルーティングの理想は、直接的であり、fノード上の出口ポートの各々から受信したパケットを単にブロードキャストする(当該fノード専用でない限り、当然ながらこの場合には、宛先cノードに配信される)。同様の方法は、「フラッデイング」として文献において見つけることができ、一般的にはルーティングと対比される[参照16を参照]。
パケットがその宛先にて受信されると、当該IDはIDバッファに配置され、これによって後続のパケットをチェックし、これらが以前に見たことがある場合には廃棄することができる。パケットが受信されたときのIDバッファの検索は、前の段落で説明されたフィルタリングプロセスの一部である。IDバッファは、ファブリックサイズに応じて特定の事前設定された長さを有し、IDは、新しいIDが到着した時に外される。このようにして、IDは、遅延を生じるパケットをフィルタリングできるようにする特定の有限永続性を有する。
複製パケットの不可避の増大を低減するために、各ブロードキャストは、宛先アドレスによって決定された「前方」方向及びブロードキャスティングfノードのファブリック内アドレスでのみ送信しなくてはならない。
要約
本開示のこの部分は、直接ブロードキャスト光学モジュールに基づく大型コンピュータ相互接続における新しい概念を提示している。相互接続ファブリックにおけるノードとして使用するために修正されたこのノードは、宛先仕様に基づくパケットのためのフィルタリング論理を提供する電気光学セクションと共に、32又は72の何れか(本実施構成では)の双方向及び独立ポートを有する。序文の段落は、Lightfleet相互接続の短い背景を提示し、将来の必要性を満足させるために今日のデータセンタを拡張する場合の主な問題点を論じている。今日の解決策に関する短い論評は、トポロジー及び特定のパケットフローモジュールにおける以下の段落に対する段階を設定する。要約すると、今日の解決策は、以下の3つの領域で不十分である。
増大する複雑さ及び高コストのスイッチの階層を備えた異種ハードウエア
ポートコンテンションに加えてスイッチイン(階層化スイッチ)の各レベルでの輻輳
及び、
有用な性能を獲得するためのスパニングツリーアルゴリズム及び動的ルーティングソフトウエアに対する必要性
大きなスケールの相互接続において提案されるパケットフローモジュールの使用に対する背景を提供するために、最大数百万のエンドポイント及びそれ以上に対応する幾つかのネットワークトポロジーについて論じた。ネットワークトポロジーの段落で提示された様々なトポロジーの特性の詳細な開発は、設計又は比較ツールに対する基礎として(例えば、スプレッドシート形式で又は小さな独立アプリケーションとして)使用することができる。このようなツールは、データセンタの設計及びハードウエアの選択を実質的にサポートすることができる。この段落の結論は、ファブリックは、同じ単純な相互接続モジュールがファブリック全体を通して使用される場合に極めて大きなデータセンタに対応するよう容易にスケーリングできることである。
パケットフローファブリックにおける第3の段落は、オリジナルのLightfleet相互接続に対する修正を提示しており、何れかの通信ファブリックにおけるノードとして対応するのに理想的な最適分散モジュールにどのようにしてなったかを示している。パケットフロー概念の特定の利点が詳細に論じられ、スイッチベースのファブリックに優る主な利点が強調されている。これらの利点は、均一な、大量生産のスイッチレスブロードキャストモジュール、ローカルトラフィック制御のための優先順位パケットの使用、ファブリック帯域幅のフルの潜在的利用、スイッチによって提供されるものに優る改善されたレイテンシー及び少ないスキュー、ローカルレベルでのファブリックトラフィック管理(マネージャが要求されない)を含む。
ノード障害の回復(自己回復作用)
この第3の段落の最後の小段落は、第2段落で論じられた幾つのトポロジーに対して最適化された高レベルのアルゴリズムを提示している。これらのアルゴリズムは、パケットが、宛先仕様を取得するためにヘッダを復号するためのわずかな遅延でファブリックを「流れる」ことを可能にする。ファブリック輻輳及びポートコンテンションの問題は、短い優先順位パケットを用いてローカルのファブリックノードレベルで効果的に且つ迅速に管理される。この結果、グローバルルーティングテーブル及びスパニングツリーアルゴリズムを必要とすることなく、極めて大きなファブリックをローカルで管理することができることになる。パケットフローファブリックのこの後者の特性は、ファブリック管理を大きなシステムにスケーリングすることに伴う今日の問題が、本開示のこの部分で提案されるファブリックにおいては問題にならないことを意味する。
ファットツリーアルゴリズム
表9及び10の様々な特性に値を割り当てるためのアルゴリズムは、1を除いて降順にpの素因数(基本モジュールにおけるポートの数)を順序付けることから始まる。レベルの数lは、素因数のリストの長さである。素因数を次式とする。
式(13)
ルートノードは、第1素因数p1に等しいブランチの数を有し、lレベルが存在する。ツリーにおける各ノードへの接続数は、合計してpにならなくてはならず、よって、p1ブランチの各々はp/p1接続を保持する。次のレベルでは、p1ノードが存在し、各ノードは各ブランチにおけるp/p1/p2接続を有するp1p2−p2ブランチを有する。積と差分のこのシステムは、ノードの下部列からcノードのリーフまでの各ブランチにおけるp/(p1...pl)=1接続でエッジが達するまで続く。具体的には、以下の式になる。
式(14)
k番目のレベルからのブランチ、ここでk=2,...,l及び、
式(15)
k番目のレベルと次の下部レベルとの間の接続。k=1はルートレベルを表し、c1=p/p1の場合にb1=p1であり、また、チェックとして、ブランチの数×ブランチ当たりの接続の数+ノードから次の高レベルまでのブランチ当たりの接続の数は、ポートの数に等しい、すなわち、
式(16)
である。
cノードの数は、次式のようにブランチ値の全ての積である。
式(17)
また、fノードの数は、次式のように部分ブランチにわたる総和である。
式(18)
同じサブツリーにはない何れかの2つのcノード間の経路の数は、ツリーを昇って横断する可能性のある経路の数とツリーを下る数との積であり、すなわち次式となる。
式(19)
また、バイセクション帯域幅はわずかp/2である。
例えば、図10のようにp=12である場合、素因数のリストは{3,2,2}であり、ルートノードから3つのブランチが存在し、各ブランチは、12/3又は4の接続を包含する。ブランチのリストは、ルートレベルから始まり、次に{3,4,10}であり、各レベルからのブランチにおける接続の数は{4,2,1}である。cノードの数は、3x4x10、すなわち120であり、fノードの数は、1+3+12、すなわち16である。経路の数は(4x2x1)2すなわち64であり、バイセクション帯域幅は12/2、すなわち6である。
pが2の累乗である場合に、接続の数は各レベルで2倍になる点に留意されたい。任意のpに対して、接続は、式15に示されるように素因数の部分積に応じて増加する。
記載された実施形態及び実施例は、単に例証の目的のものであり、限定を意図するものではない。本開示の実施形態は別々に実施することができるが、本開示の実施形態を関連付けられるシステムに統合することもできる。本明細書で開示された本開示の実施形態の全ては、本開示の観点から過度の実験を行うことなく実施及び使用することができる。本開示の実施形態は、本明細書に記載された理論的な記載(あるとすれば)によって限定されない。本開示の実施形態の個々の段階は、開示の方法で実行する必要はなく、又は開示される順序で結合される必要はないが、何れか及び全ての方法で実行できる及び/又は何れか及び全ての順序で結合することができる。本開示の実施形態の個々の構成要素は、開示される構成に結合する必要はないが、何れか及び全ての構成に結合することができる。本開示の実施形態の特徴の様々な置換、変更、追加及び/又は再構成は、ベースとなる本発明の概念の範囲から逸脱することなく行い得る。開示される要素及び各開示される実施形態の特徴の全てを、このような要素又は特徴が相互に排他的である場合を除いて、開示される要素及びあらゆる他の開示される実施形態の特徴に結合することができ、又はこれに置き換えることができる。添付の請求項及びその等価物によって定義されるベースとなる本発明の概念の範囲は、全てのこのような置換、変更、追加及び/又は再構成を網羅する。
添付の請求項は、ミーンズプラスファンクションの限定が、「のための手段」「のための機構」及び/又は「のための段階」という表現を使用して所与の請求項に明示的に記載されない限り、このような限定を含むものと解釈すべきではない。本発明の下位の実施形態は、添付の独立請求項及びその等価物によって正確に説明される。本発明の特定の実施形態は、添付の従属請求項及びその等価物によって区別される。
参照
1.Mohammad Al−Fares、Alexander Loukissas、及びAmin Vahdat、「スケーラブルコモディティデータセンタニューヨークアーキテクチャ」、SIGCOMM´08、2008年8月17日−22日、米国合衆国、ワシントン、シアトル。
2.例えば、http://www.theregister.co.uk/2010/05/25/cray_xe6_baker_gemini/を参照のこと。
3.Yuichiro Ajima、Shinji Sumimoto、Toshiyuki Shimizu、「Tofu:エグザスケールコンピュータのためのA6D メッシュ/トーラス相互接続」コンピュータ、vol42、no.11、36−40ページ、2009年11月、doi:10.1109/MC.2009.370。
4.Changhoon Kim、Matthew Caesar、Jennifer Rexford、「シアトルにおけるフラッドレス:大企業のためのスケーラブルイーサネットアーキテクチャ」SIGCOMM´08、2008年8月17日−22日、米国合衆国、ワシントン、シアトル。
5.Radia Perlman及びDonald Easterlake、「TRILLの紹介」インターネットプロトコルジャーナル、14(3)、2011年、pp.2、Ai20。
6.例として、http://en.wikipedia.org/wiki/Network_topologyを参照のこと。
7.例として、http://en.wikipedia.org/wiki/Clos_networkを参照のこと。
8.例として、http://en.wikipedia.org/wiki/Ethernet_switchを参照のこと。
9.例として、http://en.wikipedia.org/wiki/InfiniBand を参照のこと。
10.Charles E. Leiserson、「ファットツリー、ハードウエア有効スーパーコンピューティングのためのユニバーサルネットワーク」IEEE Trans. Comp、Vc−34、N10、892−901ページ、1985年10月。
11.Stefan Goedecker及びAdolfy Hoisie、数字的に集中したコードの性能最適化、工業及び応用数学学会、フィラデルフィア、2001年(グーグルブックから利用可能)。
12.Radhika Niranjan Mysore、Adreeas Pamboris、Nathan Farrington、Nelson Haung、Pardis Mirim、Sivasankar Radhakrishnan、Virkran Subramanya、及びAmin Vahdat、「ポートランド:スケーラブルフォルト−耐性層2データセンタニューヨークファブリック」SIGCOMM´09、2009年8月17日―21日、スペイン、バルセロナ。
1710 光学又はDBOIモジュール
1720 シングルモードファイバ入力
1730 EONICモジュール
1740 シングルモード出力ファイバ

Claims (18)

  1. 双方向及び論理的に独立した通信チャネルの少なくとも1つのペアを各々が有する複数のポートを備えたパケットフローモジュールを動作させる段階を含む方法。
  2. 前記パケットフローモジュールを動作させる段階が、直接ブロードキャスト光学相互接続を動作させる段階と、前記直接ブロードキャスト光学相互接続に結合された電気−光学ネットワークインタフェースコントローラを動作させる段階と、を含む、請求項1に記載の方法。
  3. 前記電気−光学ネットワークインタフェースコントローラを動作させる段階が、複数の光学入力を介してデータを受信する段階と、複数の光学出力を介してデータを送信する段階と、を含む、請求項2に記載の方法。
  4. 前記複数の光学入力の各々を介して送信する段階が、シングルモード光ファイバを介して送信する段階を含む、請求項3に記載の方法。
  5. 前記複数の光学出力の各々を介して受信する段階が、シングルモード光ファイバを介して受信する段階を含む、請求項3に記載の方法。
  6. 前記パケットフローモジュールとfノードとの間でデータを転送する段階を更に含む、請求項1に記載の方法。
  7. 前記パケットフローモジュールとcノードとの間でデータを転送する段階を更に含む、請求項1に記載の方法。
  8. 複数のポートを含むパケットフローモジュールであって、前記複数のポートの各々が双方向及び論理的に独立した通信チャネルの少なくとも1つのペアを含む、パケットフローモジュールを備えた装置。
  9. 前記パケットフローモジュールが、直接ブロードキャスト光学相互接続と、前記直接ブロードキャスト光学相互接続に結合された電気−光学ネットワークインタフェースコントローラとを含む、請求項8に記載の装置。
  10. 前記電気−光学ネットワークインタフェースが、複数の光学入力及び複数の光学出力を含む、請求項9に記載の装置。
  11. i)前記複数の光学入力の各々及びii)前記複数の光学出力の各々が、シングルモード光ファイバを含む、請求項10に記載の方法。
  12. 前記パケットフローモジュールに結合されたfノードを更に備える、請求項8に記載の装置。
  13. 前記パケットフローモジュールに結合されたcノードを更に備える、請求項8に記載の装置。
  14. 請求項8の複数の装置を備えたパケットフローポッド。
  15. 請求項14の複数のパケットフローポッドを含む通信ネットワーク相互接続ファブリック。
  16. 本明細書に実質的に記載されている装置/方法。
  17. パケットフローモジュールを動作させる段階を含む方法。
  18. パケットフローモジュールを含む装置。
JP2015501921A 2012-03-21 2013-03-21 パケットフロー相互接続ファブリック Pending JP2015512584A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261685657P 2012-03-21 2012-03-21
US61/685,657 2012-03-21
US201261622093P 2012-04-10 2012-04-10
US61/622,093 2012-04-10
PCT/US2013/033390 WO2013142742A1 (en) 2012-03-21 2013-03-21 A packet-flow interconnect fabric

Publications (1)

Publication Number Publication Date
JP2015512584A true JP2015512584A (ja) 2015-04-27

Family

ID=48083637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015501921A Pending JP2015512584A (ja) 2012-03-21 2013-03-21 パケットフロー相互接続ファブリック

Country Status (6)

Country Link
US (1) US9674116B2 (ja)
EP (1) EP2829078A1 (ja)
JP (1) JP2015512584A (ja)
KR (1) KR20140139032A (ja)
CN (1) CN104185999A (ja)
WO (1) WO2013142742A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9253248B2 (en) * 2010-11-15 2016-02-02 Interactic Holdings, Llc Parallel information system utilizing flow control and virtual channels
US8804523B2 (en) * 2012-06-21 2014-08-12 Microsoft Corporation Ensuring predictable and quantifiable networking performance
US9344383B2 (en) 2012-11-07 2016-05-17 Dell Products L.P. Event driven network system
JP6191401B2 (ja) * 2013-11-01 2017-09-06 富士通株式会社 並列計算機システム、制御装置、並列計算機システムの制御方法及び制御装置の制御プログラム
WO2015080749A1 (en) * 2013-11-29 2015-06-04 New Jersey Institute Of Technology Management of bandwidth efficiency and fairness in cloud computing
US10334018B2 (en) * 2014-01-15 2019-06-25 Telefonaktiebolaget Lm Ericsson (Publ) Processing of data files
US9674118B2 (en) * 2014-03-19 2017-06-06 xCelor LLC System and method for low-latency network data switching
US9813301B2 (en) * 2014-08-20 2017-11-07 Nec Corporation Optimization framework for multi-tenant data centers
US10348428B2 (en) 2014-12-23 2019-07-09 Intel Corporation Techniques for synchronized execution of a command at network fabric nodes
US10027510B2 (en) * 2015-03-12 2018-07-17 Maged E. Beshai Large-scale data center based on a contiguous network
US20160342887A1 (en) * 2015-05-21 2016-11-24 minds.ai inc. Scalable neural network system
US11343197B2 (en) * 2015-09-10 2022-05-24 Lightfleet Corporation Packet-flow message-distribution system
US11184290B2 (en) * 2015-09-10 2021-11-23 Lightfleet Corporation Priority-based arbitration for parallel multicast routing with self-directed data packets
US10284465B2 (en) 2015-12-28 2019-05-07 Mellanox Technologies Tlv Ltd. Efficient algorithmic forwarding in fat-tree networks
CN105634953B (zh) * 2015-12-30 2017-09-12 中国人民解放军国防科学技术大学 一种基于可见光通信的混合数据中心组网与路由方法
US9893950B2 (en) * 2016-01-27 2018-02-13 International Business Machines Corporation Switch-connected HyperX network
US20180284735A1 (en) 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment
US11774944B2 (en) 2016-05-09 2023-10-03 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
US11327475B2 (en) 2016-05-09 2022-05-10 Strong Force Iot Portfolio 2016, Llc Methods and systems for intelligent collection and analysis of vehicle data
US10983507B2 (en) 2016-05-09 2021-04-20 Strong Force Iot Portfolio 2016, Llc Method for data collection and frequency analysis with self-organization functionality
CN109478057B (zh) 2016-05-09 2022-02-25 强力物联网投资组合2016有限公司 用于工业物联网的方法和***
US11237546B2 (en) 2016-06-15 2022-02-01 Strong Force loT Portfolio 2016, LLC Method and system of modifying a data collection trajectory for vehicles
US11252488B2 (en) * 2017-10-09 2022-02-15 Telescent Inc. Incrementally scalable, two-tier system of robotic, fiber optic interconnect units enabling any-to-any connectivity
WO2018071341A2 (en) 2016-10-10 2018-04-19 Telescent Inc. System of large scale robotic fiber cross-connects using multi-fiber trunk reservation
CN108234310B (zh) * 2016-12-12 2021-06-15 清华大学 多层次互连网络、自适应路由方法及路由设备
US10862755B2 (en) * 2017-06-30 2020-12-08 Oracle International Corporation High-performance data repartitioning for cloud-scale clusters
CN109327409B (zh) * 2017-07-31 2020-09-18 华为技术有限公司 数据中心网络dcn、dcn中传输流量的方法和交换机
JP2020530159A (ja) 2017-08-02 2020-10-15 ストロング フォース アイオーティ ポートフォリオ 2016,エルエルシー 大量のデータセットを使用する産業用のモノのインターネットのデータ収集環境における検出のための方法及びシステム
US10678233B2 (en) 2017-08-02 2020-06-09 Strong Force Iot Portfolio 2016, Llc Systems and methods for data collection and data sharing in an industrial environment
US10587997B2 (en) 2017-12-01 2020-03-10 At&T Intellectual Property I, L.P. Facilitating wireless machine to machine communication solutions in 5G or other next generation networks
CN112039786B (zh) * 2019-06-04 2021-11-19 清华大学 基于Torus网络的广播方法
US11431773B2 (en) * 2019-06-13 2022-08-30 Caffeine Inc. Multicast broadcast network architcture
US11531621B2 (en) 2020-01-30 2022-12-20 Microsoft Technology Licensing, Llc Selective endpoint isolation for self-healing in a cache and memory coherent system
US11698878B1 (en) * 2020-04-12 2023-07-11 Peraton Labs Inc. Highspeed shared-memory optical network interfaces and topology
CN111555830B (zh) * 2020-04-30 2022-03-04 江苏中协智能科技有限公司 一种网络广播***多音源组网方法
US11455575B1 (en) * 2020-04-30 2022-09-27 Marvell Asia Pte Ltd System and methods for mesh architecture for high bandwidth multicast and broadcast network
RU2753147C1 (ru) * 2020-11-20 2021-08-12 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Способ организации оптимальных отказоустойчивых многомерных торов на основе малопортовых маршрутизаторов и разветвителей дуплексных каналов

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020006110A1 (en) * 2000-06-20 2002-01-17 International Business Machines Corporation System and method for enabling a full flow control down to the sub-ports of a switch fabric
US20080008471A1 (en) * 2002-11-05 2008-01-10 Dress William B N-way serial-channel interconnect
US20100020806A1 (en) * 2008-07-22 2010-01-28 Amin Vahdat Scalable Commodity Data Center Network Architecture
US20110044693A1 (en) * 2008-01-04 2011-02-24 Bradley George Kelly System and apparatus for providing a high quality of service network connection via plastic optical fiber

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5898801A (en) * 1998-01-29 1999-04-27 Lockheed Martin Corporation Optical transport system
US5901260A (en) * 1997-04-01 1999-05-04 Lockheed Martin Corporation Optical interface device
US6728486B1 (en) * 1999-06-09 2004-04-27 Alcatel Communications, Inc. Communication system and method with optical management bus
US6735393B1 (en) * 1999-09-24 2004-05-11 Telenor, As All-optical network with passive wavelength routers
EP1102428A1 (en) * 1999-11-19 2001-05-23 BRITISH TELECOMMUNICATIONS public limited company Optical communications system
EP1137306A1 (en) * 2000-03-24 2001-09-26 BRITISH TELECOMMUNICATIONS public limited company Optical signalling system
US6631019B1 (en) * 2000-07-05 2003-10-07 Sri International Reconfigurable multichannel transmitter for dense wavelength division multiplexing (DWDM) optical communication
US6763191B1 (en) * 2000-07-25 2004-07-13 Eci Telecom Ltd. Optical switching apparatus and methods
US6665495B1 (en) 2000-10-27 2003-12-16 Yotta Networks, Inc. Non-blocking, scalable optical router architecture and method for routing optical traffic
CA2329098A1 (en) * 2000-12-20 2002-06-20 Nortel Networks Limited Apparatus and method for control messaging in an optical network
US6567576B2 (en) * 2001-02-05 2003-05-20 Jds Uniphase Inc. Optical switch matrix with failure protection
US6594045B2 (en) * 2001-05-23 2003-07-15 Tropic Networks, Inc. Flexible optical network architecture and optical add/drop multiplexer/demultiplexer therefor
US7162155B2 (en) * 2001-09-04 2007-01-09 Doron Handelman Optical packet switching apparatus and methods
US7236704B1 (en) * 2001-11-14 2007-06-26 Avanex Corporation Optical add/drop multiplexer utilizing variable optical attenuator
US7411980B2 (en) * 2001-12-14 2008-08-12 Broadcom Corporation Filtering and forwarding frames within an optical network
US7126970B2 (en) * 2001-12-20 2006-10-24 Tropic Networks Inc. Communication system with balanced transmission bandwidth
JP3788945B2 (ja) * 2002-02-28 2006-06-21 株式会社東芝 多重化光伝送装置
US7099587B2 (en) * 2002-05-22 2006-08-29 Doron Handelman Apparatus and method for delaying optical signals for optical buffering and optical storage applications
US7200342B2 (en) * 2002-06-06 2007-04-03 The Aerospace Corporation Direct-sequence spread-spectrum optical-frequency-shift-keying code-division-multiple-access communication system
US7796885B2 (en) * 2002-11-05 2010-09-14 Lightfleet Corporation Distribution optical elements and compound collecting lenses for broadcast optical interconnect
AU2003291293A1 (en) 2002-11-05 2004-06-07 Lightfleet Corporation Optical fan-out and broadcast interconnect
US7349629B1 (en) * 2002-11-26 2008-03-25 Lockheed Martin Corporation Methods and systems for creating a digital interconnect fabric
US20050084267A1 (en) * 2003-09-09 2005-04-21 Arizona Board of Regents, a body corporate of the state of Arizona, acting for and on behalf of Performance enhanced single-hop WDM network with heterogeneous protection
US20060171386A1 (en) * 2004-09-01 2006-08-03 Interactic Holdings, Llc Means and apparatus for a scaleable congestion free switching system with intelligent control III
US7724733B2 (en) * 2005-03-31 2010-05-25 International Business Machines Corporation Interconnecting network for switching data packets and method for switching data packets
US7751714B2 (en) * 2006-04-20 2010-07-06 Nec Laboratories America, Inc. Centralized resource management in wavelength selective switch based wavelength cross connect systems
DE102007008904A1 (de) 2006-05-08 2007-11-15 Abb Technology Ag System und Verfahren zur automatisierten und strukturierten Übernahme von technischen Dokumenten und die Verwaltung der übernommenen Dokumente in einer Datenbank
US7773539B2 (en) * 2006-06-01 2010-08-10 Cisco Technology, Inc. Method for separation of IP+optical management domains
US8849110B2 (en) * 2007-05-10 2014-09-30 Telefonaktiebolaget Lm Ericsson Optical node
US8649370B2 (en) * 2007-05-17 2014-02-11 Ciena Corporation Systems and methods for programming connections through a multi-stage switch fabric with blocking recovery, background rebalancing, and rollback
US8842688B2 (en) 2009-01-20 2014-09-23 The Regents Of The University Of California Reducing cabling complexity in large-scale networks
US8327187B1 (en) * 2009-09-21 2012-12-04 Tilera Corporation Low-overhead operating systems
JP5588374B2 (ja) * 2011-02-08 2014-09-10 富士通テレコムネットワークス株式会社 光パケット交換システム、光パケット交換装置、および光パケット送信装置
JP5439408B2 (ja) * 2011-02-09 2014-03-12 富士通テレコムネットワークス株式会社 光パケット交換システムおよび光パケット送信装置
US8891963B2 (en) * 2011-09-09 2014-11-18 Evertz Microsystems Ltd. Hybrid signal router
WO2014143822A1 (en) * 2013-03-15 2014-09-18 Plexxi Inc. System and method for data center optical connection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020006110A1 (en) * 2000-06-20 2002-01-17 International Business Machines Corporation System and method for enabling a full flow control down to the sub-ports of a switch fabric
US20080008471A1 (en) * 2002-11-05 2008-01-10 Dress William B N-way serial-channel interconnect
US20110044693A1 (en) * 2008-01-04 2011-02-24 Bradley George Kelly System and apparatus for providing a high quality of service network connection via plastic optical fiber
US20100020806A1 (en) * 2008-07-22 2010-01-28 Amin Vahdat Scalable Commodity Data Center Network Architecture

Also Published As

Publication number Publication date
EP2829078A1 (en) 2015-01-28
WO2013142742A1 (en) 2013-09-26
US20140314099A1 (en) 2014-10-23
CN104185999A (zh) 2014-12-03
US9674116B2 (en) 2017-06-06
KR20140139032A (ko) 2014-12-04

Similar Documents

Publication Publication Date Title
JP2015512584A (ja) パケットフロー相互接続ファブリック
US11362934B2 (en) Method to route packets in a distributed direct interconnect network
US11509538B2 (en) Network interconnect as a switch
Xia et al. A tale of two topologies: Exploring convertible data center network architectures with flat-tree
Al-Fares et al. A scalable, commodity data center network architecture
US9825844B2 (en) Network topology of hierarchical ring with recursive shortcuts
US10477288B2 (en) Data center interconnect as a switch
US20150117224A1 (en) Network Topology of Hierarchical Ring with Gray Code and Binary Code
US11924005B2 (en) Dedicated network gateway device
Bogdanski Optimized routing for fat-tree topologies
Wang et al. CLOT: a cost-effective low-latency overlaid torus-based network architecture for data centers
Wang et al. A cost-effective low-latency overlaid torus-based data center network architecture
Wang et al. JieLin: A scalable and fault tolerant server-centric data center network architecture
Guo State-of-the-Art DCN Topologies
Birk et al. Switch Radix Reduction and Support for Concurrent Bidirectional Traffic in RotorNets
Dress Optical interconnect for large-scale systems

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161003