JP2022511581A

JP2022511581A - フレキシブルケーブル接続に基づく分散型ａｉトレーニングトポロジー

Info

Publication number: JP2022511581A
Application number: JP2020536942A
Authority: JP
Inventors: ホァフェイヂュ，; ジェンオウヤン，; ヂービャオヂャオ，; シャオヂャンゴン，; チンシュチェン，
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2022-02-01
Also published as: US20210174174A1; EP3841530A4; EP3841530B1; KR20210061304A; WO2021092890A1; KR102525329B1; CN113424198B; CN113424198A; EP3841530A1; US11615295B2

Abstract

【課題】フレキシブルケーブル接続に基づく分散型ＡＩトレーニングトポロジーの提供。【解決手段】データ処理システムは、ＣＰＵと、バスを介して前記ＣＰＵに接続された複数のアクセラレータカードと、を備え、複数のアクセラレータカードのそれぞれが、前記ＣＰＵからＤＰタスクを受信して実行するデータ処理用のＤＰアクセラレータを複数有する。複数のアクセラレータカードのうちの少なくとも２つの間は、カード間接続を介して接続され、複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続される。ＣＰＵから受信した要求に応じて、ＣＰＵから受信した何れか一つの前記ＤＰタスクを処理するために、何れか一つの前記アクセラレータカード、又は、何れか一つの前記アクセラレータカードにおける何れか一つの前記ＤＰアクセラレータを、有効化または無効化するように、カード間接続及び前記チップ間接続は、それぞれ、動的に起動又は停止可能とされる。【選択図】図８

Description

本開示の実施形態は、概して機械学習に関する。より具体的には、本開示の実施形態は、人工知能（ＡＩ）アクセラレータチップトポロジーに関する。

分散型ＡＩトレーニングは、トレーニングプロセス全体を加速し、トレーニング時間を短縮するために、複数のＡＩアクセラレータチップが同時に動作することを必要とする。したがって、複数のチップを協働させるためにＡＩアクセラレータチップのトポロジーが必要である。このようなトポロジーは、トレーニングのニーズに応じて、数個のＡＩアクセラレータチップから数千個のＡＩアクセラレータチップまでの様々なサイズがある。一般に、小さなトポロジーは、基板上のプリント回路基板（ＰＣＢ）配線を使用して生成することができる一方、大きなトポロジーは、異なる基板を接続するためにイーサネットを使用して生成することができる。しかし、どちらの方法も、不器用であるか、または多数のハードウェアオーバーヘッドを必要とするため、実施可能ではない。

第１の態様において、本開示の幾つかの実施例は、データ処理システムであって、ＣＰＵと、バスを介して前記ＣＰＵに接続された複数のアクセラレータカードと、を備え、複数のアクセラレータカードのそれぞれが、前記ＣＰＵからＤＰタスクを受信して実行するデータ処理用のＤＰアクセラレータを複数有し、前記複数のアクセラレータカードのうちの少なくとも２つの間は、カード間接続を介して接続され、前記複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続され、前記ＣＰＵから受信した要求に応じて、前記ＣＰＵから受信した何れか一つの前記ＤＰタスクを処理するために、何れか一つの前記アクセラレータカード、又は、何れか一つの前記アクセラレータカードにおける何れか一つの前記ＤＰアクセラレータを、有効化または無効化するように、前記カード間接続及び前記チップ間接続は、それぞれ、動的に起動又は停止可能とされる、データ処理システムを提供する。

第２の態様において、本開示のいくつかの実施例は、アクセラレータカードであって、バスを介してＣＰＵに接続されたホストインターフェースと、前記ＣＰＵからＤＰタスクを受信して実行する複数のデータ処理ＤＰアクセラレータと、を備え、前記複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続され、前記ＣＰＵから受信した要求に応じて、前記ＣＰＵから受信した何れか一つの前記ＤＰタスクを処理するために、何れか一つの前記ＤＰアクセラレータを、有効化または無効化するように、前記チップ間接続は、動的に起動又は停止可能とされる、アクセラレータカードを提供する。

図面は、本発明の実施形態を例示的に示しているが、本発明の実施形態を限定するものではない。図面において、類似の要素に同じ符号が付けられている。

本願実施形態に係る、ＡＩモデルのトレーニング用のシステムの一例を示す図である。本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的な処理を示す図である。本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的な処理を示す図である。本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的な処理を示す図である。本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的な処理を示す図である。本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的な処理を示す図である。本願実施形態に係るＡＩモデルのトレーニングにおけるデータ転送の例示的な処理を示す図である。本願実施形態に係る、ＡＩチップトポロジーを生成するための例示的なシステムを示す図である。本願実施形態に係る例示的なＡＩチップを示す図である。本願実施形態に係る例示的なＰＣＢ基板を示す図である。本願実施形態に係る例示的なＡＩチップトポロジー６００を示す図である。本願実施形態に係るＡＩモデルのトレーニングの例示的なプロセスを示す。本願実施形態に係るＡＩチップトポロジーを生成するための例示的なプロセスを示す図である。

以下、本発明の実施の形態について図面を参照して説明する。以下の説明及び図面は本開示の説明であり、本開示を限定するものと解釈されるべきではない。本開示の様々な実施形態の完全な理解を提供するために、多くの特定の詳細が記載されている。しかしながら、いくつかの場合において、本開示の実施形態の簡潔な説明を提供するために、周知または従来の詳細は記載されていない。

本明細書において「一実施形態」または「実施形態」という言及は、実施形態を用いて説明された特定の特徴、構造、または特徴が、本開示の少なくとも１つの実施形態に含まれてもよいことを意味する。明細書の様々な箇所に現れる「一実施形態において」という語句は、必ずしも同じ実施形態を指すものではない。

本開示において、ＡＩアクセラレータ、ＡＩアクセラレータチップ、チップ等の用語は互換的に使用することができ、それらの各々は、汎用処理ユニット（ＧＰＵ）の一例であり、汎用処理ユニット（ＧＰＵ）は、データ処理（ＤＰ）アクセラレータの一例である。

一実施態様において、データ処理システムは、中央処理ユニット（ＣＰＵ）と、バスを介して前記ＣＰＵに接続された複数のアクセラレータカードと、を備え、複数のアクセラレータカードのそれぞれが、ＣＰＵからＤＰタスクを受信して実行するデータ処理用のＤＰアクセラレータを複数有する。複数のアクセラレータカードのうちの少なくとも２つの間は、カード間接続を介して接続され、複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続される。ＣＰＵから受信した要求に応じて、ＣＰＵから受信した何れか一つのＤＰタスクを処理するために、何れか一つのアクセラレータカード、又は、何れか一つのアクセラレータカードにおける何れか一つの前記ＤＰアクセラレータを、有効化または無効化するように、カード間接続及び前記チップ間接続は、それぞれ、動的に起動又は停止可能とされる。

別の実施態様において、アクセラレータカードは、バスを介してＣＰＵに接続されたホストインターフェースと、ＣＰＵからＤＰタスクを受信して実行する複数のデータ処理ＤＰアクセラレータと、を備える。複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続され、ＣＰＵから受信した要求に応じて、ＣＰＵから受信した何れか一つの前記ＤＰタスクを処理するために、何れか一つのＤＰアクセラレータを、有効化または無効化するように、チップ間接続は、動的に起動又は停止可能とされる。

様々な実施形態によれば、ＡＩチップトポロジーを動的に生成するためのシステムおよび方法が記載される。ＡＩアクセラレータチップクラスタ内の基板（アクセラレータカードまたはアクセラレータモジュールとも呼ばれる）間のケーブル接続（チップ間接続またはプロセッサ間接続とも呼ばれる）を動的に起動または停止することによって、異なるサイズのＡＩトポロジーを生成することができる。チップクラスタは、異なる基板上に設けられた多数のＡＩチップを含むことができる。各基板は、等しい数のＡＩチップを含むことができ、ここで、ＡＩチップは、プリント回路基板（ＰＣＢ）配線または電気配線を介して相互接続される。

例示的な方法において、チップクラスタ内のチップトポロジーを生成するための要求であって、当該チップトポロジーを構成するチップの数を指定する要求を受信する。チップクラスタは、ケーブル接続を介して互いに接続された複数の基板を含み、それぞれの基板に一セットのチップが配置される。当該要求に応じて、チップトポロジーのために指定された、チップの数と各基板上のチップセットの数とに基づいて、チップトポロジーに使用される一セットの基板セットを決定する。基板のセットが決定されると、基板のセット間のケーブル接続をチェックして、ケーブル接続が非アクティブ化されているかどうかを判断する。次に、非アクティブ化されているケーブル接続をアクティブ化して、要求されたチップトポロジーを生成する。

一実施形態において、各チップは、チップとのチップ間接続をアクティブ化または非アクティブ化するように、１つまたは複数のプログラム命令（コマンドまたは信号）を実行するように構成することができる。一実施形態では、それぞれのチップは、ＡＩアクセラレータチップとされる。各基板上のチップセットは、それぞれ等しい数のチップを含む複数の列に配置され、それぞれのチップは、双方向プリント回路基板（ＰＣＢ）配線を介してその隣接のチップと接続される。

一実施形態において、チップトポロジーは、複数の行および複数の列のチップを含み、各行または各列のチップは、デイジーチェーン方式で接続されることにより双方向の物理的ループを形成する。それぞれの物理的リングにおいて、毎行または毎列の両端のチップは、ケーブル接続を介して互いに接続される。ケーブル接続は、アクセラレータ用のキャッシュコヒーレントインタコネクト（ＣＣＩＸ）接続であってもよい。

一実施形態では、それぞれの基板に、２行に配置された偶数個のチップを含むことができる。各行の端部上のチップは、２つ以上のチップ間ケーブルインターフェースを有することができ、他のチップは、１つ以上のチップ間ケーブルインターフェースを有することができる。各チップは、チップの両側に、それぞれ少なくとも１つのチップ間ケーブルまたはＰＣＢ配線インターフェースを有する。

図１は、一実施形態による、ＡＩモデルのトレーニング用のシステムの一例を示す図である。図１に示すように、システムは、複数のサーバ（例えば、サーバＡ１０３およびサーバＢ１０５）に分散された汎用処理ユニット（ＧＰＵ）クラスタ１０１を含み、各サーバは、１つまたは複数のＣＰＵを含み、各ＣＰＵは、ＧＰＵなどの１つまたは複数のデータ処理（ＤＰ）アクセラレータと関連付けられている。

サーバは、イーサネット接続１１１を介して互いに通信するＣＰＵ１０７およびＣＰＵ１０９を含むことができる。図１に示すシステム例では、各ＣＰＵは、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＤｅｖｉｃｅＩｎｔｅｒｃｏｎｎｅｃｔｉｏｎＨｉｇｈＳｐｅｅｄ）スイッチを介してＣＰＵに接続された複数のＧＰＵを有することができる。例えば、サーバＡ１０３において、ＧＰＵ１１７、ＧＰＵ１１９およびＧＰＵ１２１は、ＰＣＩｅスイッチＡ１１３を介してＣＰＵＡ１０７に接続される。サーバＢ１０５において、ＧＰＵ１２３、ＧＰＵ１２５およびＧＰＵ１２７は、ＰＣＩｅＢ１１５を介してＣＰＵＢ１０９に接続される。

ＣＰＵ１０７およびＣＰＵ１０９は、ニューラルネットワークをトレーニングするためのタスクを協働させるために、イーサネット接続１１１などのプロセッサ間リンクを介して互いに通信することができる。例えば、ジョブコマンドは、イーサネット接続１１１を介して各サーバに配信することができる。次に、ジョブコマンドを、サーバ内のＣＰＵから当該ＣＰＵに接続されたＧＰＵに配信することができる。ジョブコマンドが配信されると、システム内のＧＰＵ間には、対応するチップ間リンク１２２を介してデータを転送可能とされる。チップ間リンク１２２には、例えば、アクセラレータ用のキャッシュコヒーレントインタコネクト（ＣＣＩＸ）リンクなど、様々なチップ間相互接続のソリューションが採用できる。図１に示すように、一方向リングトポロジーを使用することができるが、システム内のＧＰＵは、双方向リングトポロジーに配置される。

ＣＣＩＸは、ＣＣＩＸアライアンスによって開発されたオープンキャッシュコヒーレンス相互接続アーキテクチャである。ＣＣＩＸは、標準的なＰＣＩｅのキャッシュコヒーレンシを拡張することによって、システム内のＣＰＵなどの中央プロセッサとＧＰＵなどの様々なアクセラレータとの間の通信を簡略化するように設計されている。ＣＣＩＸは、異種システムアーキテクチャのためのキャッシュコヒーレンスフレームワークを提供する高性能チップ間相互接続アーキテクチャである。システム内の中央処理装置と様々な他のアクセラレータとの間のキャッシュコヒーレンシは常に自動的に維持される。ＣＣＩＸをサポートする各装置は、少なくとも１つのＣＣＩＸポートを含み、ＣＣＩＸポートは、ＣＣＩＸの起用されたあらゆる他のデバイスとは、ピン互換性がある。ＣＣＩＸは、チップ・トゥ・チップ、チップ・トゥ・スイッチ・トゥ・チップ、グリッド、デイジーチェーン、およびリングなどの様々なトポロジーをサポートする。

一実施形態では、ＧＰＵは、それぞれのＣＰＵから配信されたデータブロックに対して、パイプライン方式でＡＩトレーニング動作を実行するように構成される。それぞれのＧＰＵは、さらに、プロセッサ間リンクを介して互いに通信する。ＧＰＵは、さらなるデータ処理のために、上流のＧＰＵからの処理結果を受信するように環状に構成されてもよい。それぞれのＧＰＵは、処理結果をその対応する下流の、さらなる処理を実行するためのＧＰＵにさらに送信することができる。したがって、それぞれのＧＰＵは、並列して、配信されたＤＰオペレーションを実行し、そのＤＰ結果をダウンストリームＧＰＵに送信する。且つ、各ＧＰＵは、その上流のＧＰＵから処理結果を受信して、さらなる処理を実行する。

図２Ａ～図２Ｆは、一実施形態によるＡＩモデルのトレーニングにおけるデータ転送の例示的なプロセスを示す図である。ここでは、ＧＰＵ２０３、２０５、および２０７の３つのＧＰＵが示されているが、例示的なプロセスは、トレーニングされるニューラルネットワークの複雑さ、トレーニング用データのサイズ、およびユーザが所望するトレーニングの速度などの複数の要因に応じて、できる限り多くのＧＰＵ（例えば、数千個のＧＰＵ）を使用することができる。

例示的なシステム上でトレーニングされたニューラルネットワークの例は、結合されるニューロンの集合を含む多層パーセプトロン（ＭＬＰ）ニューラルネットワークを含む。ＭＬＰニューラルネットワーク内のニューロンは、１つの層内の各ニューロンが後続の層内の各ニューロンにパラメータ（例えば、重みおよびバイアス）で結合されると、完全に結合され得る。

ニューラルネットワークモデルのトレーニング中、勾配降下（すなわち、逆伝達）を使用して、ニューラルネットワークモデルの期待値と実際の出力との間の差を最小化するためのパラメータのセットを決定することができる。勾配降下は、損失／誤差関数の勾配を計算するステップと、勾配に応答して既存のパラメータを更新するステップとを含む。このサイクルは、損失関数の極小値に達するまで繰り返される。

一実施形態では、ニューラルネットワークモデルのトレーニング用データセットは、複数のサブセットに分割され、各サブセットは、ニューラルネットワークのトレーニングが複数のＧＰＵによって並行して行われるように、１つのＧＰＵ上でニューラルネットワークモデルをトレーニングするために使用される。各ＧＰＵは、ニューラルネットワークモデルの完全なコピーを有することができる。

トレーニング用データセットの各サブセットは、複数の等しいサイズのデータブロックに論理的に分割することができる。例示的なプロセスでは、ブロックの数は、ＧＰＵの数に等しい。ニューラルネットワークモデルの並列的なトレーニングは、勾配降下の複数の反復を必要とする。毎回の反復に、各ＧＰＵは、ネットワークパラメータに対する損失の勾配を計算するために、ＧＰＵ上のデータに対してニューラルネットワークモデルの順方向伝達を実行し、続いて誤差の逆伝達を実行する。次に、ＧＰＵは、互いに通信して、勾配の統計量（例えば、平均値、最大値、または最小値）を計算し、そして、統計量（例えば、平均勾配）を利用して、更新されたパラメータを得ることができる。ニューラルネットワークモデルは、多数のパラメータ（例えば、数十億のパラメータ）を有し、各パラメータは、それぞれ勾配値に関連付けられるようにすることができる。このように、ニューラルネットワークにとって、勾配の大きさは非常に大きく、ＧＰＵ間で勾配を転送することは、かなり帯域幅を占有する。

再び図２Ａ～図２Ｆを参照すると、例示的なプロセスは、ＧＰＵ間のデータ転送による要求の帯域幅を低減するためのアルゴリズムを示す。一実施形態では、本開示で使用される帯域幅とは、所与のネットワーク接続における最大データ転送レートである。当該アルゴリズムは、２つのプロセスを含むことができる。第１のプロセスは、分散規約（Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ）プロセスであり、第２のプロセスは、全凝集（Ａｌｌｇａｔｈｅｒ）プロセスである。Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセス中において、ＧＰＵは、各ＧＰＵが多数の最終結果ブロックで終了するようにデータを交換することができる。Ａｌｌｇａｔｈｅｒプロセス中において、ＧＰＵは、すべてのＧＰＵが完全な最終結果で終わるように、これらの結果ブロックを交換することができる。

各ＧＰＵは、ＧＰＵ上のトレーニング用データセットのサブセットを等しいサイズのデータブロックに分割するように構成された１つ以上のアプリケーションを含むことができる。例示的なシステムでは、各ＧＰＵ上のデータブロックの数は、ＧＰＵの数である。ニューラルネットワークモデルのトレーニング中において、各データブロックに対しては、それ自体の勾配のセットを生成することができる。

この例では、上述したように、システム内に３つのＧＰＵが存在するので、それぞれのＧＰＵ上のデータブロックの数は３である。ＧＰＵ＃０２０３上のトレーニング用データのサブセットから、３組の勾配ａ_０２１５、ｂ_０２３１、ｃ_０２３７を生成することができ、ＧＰＵ＃１２０５上のトレーニング用データのサブセットから、さらに３組の勾配ａ_１２１７、ｂ_１２２３、ｃ_１２３９を生成することができる。同様に、ＧＰＵ＃２２０７上のトレーニング用データのサブセットから、３組の勾配ａ_２２１９、ｂ_２２３５、ｃ_２２４１が生成される。一実施形態では、各ＧＰＵ上の異なる勾配セットは、アレイまたは別のデータ構造で記憶されてもよい。

一例として、当該アルゴリズムは、トレーニング用データセットの各サブセットによって生成された勾配を合計するように設計されても良い。これにより、アルゴリズムが完了すると、各ＧＰＵは、トレーニング用データセットから生成された勾配の合計を有することになる。

例示的なプロセスにおけるＧＰＵは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセス中にＮ－１回の反復を有することができ、ここで、Ｎは、システム内のＧＰＵの総数である。このように、例示的なシステムにおけるＧＰＵは、２つの反復を有することができる。毎回の反復時、各ＧＰＵは、ＧＰＵ上の１組の勾配をその右隣に送信するとともに、その左隣から１組の勾配を受信して、当該２組の勾配を加算して１組の新しい勾配とすることができる。各ＧＰＵによって送信または受信される勾配の組は、毎回の反復で異なる。ｎ番目のＧＰＵは、ｎ番目の勾配の組が送信されたことによって開始するとともに、（ｎ－１）番目の勾配の組を受信するように、処理を逆行する。

図２Ａ～図２Ｃは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ処理を示す図である。図２Ａは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第１回の反復におけるデータ伝送を示す。第１の送信および第１の受信が完了した後、各ＧＰＵは、２つの異なるＧＰＵ上の２組の勾配の合計を表す値を有するアレイ要素を有する。例えば、ＧＰＵ２０５における第１の要素ａ１は、第２のＧＰＵ２０５および第１のＧＰＵ２０３からの勾配の組の合計を含むことができる。図２Ｂは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第２回の反復におけるデータ転送を示しており、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの第１回の反復の完了後の中間和も示す。第２回の反復では、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスが続き、そして、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅプロセスの終了時に（すなわち、この例では第２回の反復の後に）、各ＧＰＵは、すべてのＧＰＵに亘る、対応するアレイ要素のすべての勾配の合計を含む一つのアレイ要素を有する。図２Ｃは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅ処理終了時の最終状態を示している。

図２Ｄ～図２Ｆは、Ａｌｌｇａｔｈｅｒプロセスを示す。当該プロセスは、Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅと同様に行われ、且つ、Ｎ－１回の反復を有する。Ｓｃａｔｔｅｒ－Ｒｅｄｕｃｅと比べ、受信された勾配が、ＧＰＵによって受信された勾配に累積することの代わりに、受信ＧＰＵ上の対応するアレイ要素内の勾配をカバーするという点で相違する。図２Ｄは、Ａｌｌｇａｔｈｅｒプロセスの第１回の反復におけるデータ転送を示す。図２Ｅに示すように、第１回の反復が完了した後、各ＧＰＵは、すべてのＧＰＵに亘る対応するアレイ要素内のすべての勾配の合計をそれぞれ含む２つのアレイ要素を有する。図２Ｅは、第２回の反復におけるＡｌｌｇａｔｈｅｒプロセス、すなわち例示的プロセスにおける最終回の反復を示す。図２Ｆに示すように、Ａｌｌｇａｔｈｅｒプロセスの終了時に、ＧＰＵは、トレーニング用データセット全体からの完全に蓄積された勾配を有する。例示的なプロセスは、すべてのデータ転送が、離散の反復において同期して起こるので、帯域幅が最適となる。

図３は、一実施形態による、ＡＩチップトポロジーを生成するための例示的なシステムを示す図である。図１に示すように、ＡＩアクセラレータチップクラスタ３０２は、クラウド環境３１０内に設けることができる。ＡＩアクセラレータチップクラスタ３０２は、例えば、基板Ａ３０４、基板Ｂ３０５、基板Ｃ３０８、および基板Ｎ３３５など、多数のＰＣＢ基板を含むことができる。図面に４つしかの基板が示されていないが、ＡＩアクセラレータチップクラスタ３０２は、任意の数のＰＣＢ基板を含むことができる。

チップクラスタ３０２内のＰＣＢ基板の各々は、同じ数のＡＩチップを含む。この図は、各基板上のＡＩチップの例を示しており、例えば、基板Ａ３０４上のＡＩチップＡ３０３、基板Ｂ３０５上のＡＩチップＢ３１１、基板Ｃ３０８上のＡＩチップＣ３２５、基板Ｎ３３５上のＡＩチップＮ３２９がある。各ＰＣＢ基板において、同じようにチップがレイアウトされ、各チップがＰＣＢ配線３０７、３０９、３１３、３１５、３２１、３２３、３３１、３３３を用いて互いに接続されている。

例えば、各ＰＣＢ基板は、２行に配列された偶数個（例えば、８個）のＡＩチップを含むことができる。各行のＡＩチップは、ＰＣＢ配線を用いて順次接続され、１行における各ＡＩチップは、他行の対応するＡＩチップに接続される。

ＡＩアクセラレータチップクラスタ３０２内のＰＣＢ基板は、ケーブル接続を介して互いに接続することができ、ケーブル接続は、最初は非アクティブの状態とすることができる。各ケーブルの接続される終点は、対応する基板自体ではなく、対応するＰＣＢ基板上のＡＩチップである。各ＡＩチップは、ケーブル接続用またはＰＣＢ配線接続用の相互接続インターフェースを複数有することができる。しかし、各ＡＩチップは、別のＰＣＢ基板上のＡＩチップに接続するために用いられる少なくとも１つのケーブル接続用の相互接続インターフェースを有することができる。

一実施形態では、互いに水平となる任意の２つのＰＣＢ基板間のケーブル接続３３３、３３５、３３７、および３３９の数は、ＰＣＢ基板上のＡＩチップの行数と同じであり、互いに垂直となる任意の２つのＰＣＢ基板間のケーブル接続３４１、３４５、３４７、３４９、３５１、および３５５の数は、ＰＣＢ基板上のＡＩチップの列数と等しい。

ＡＩチップ間の各ＰＣＢ配線はハードワイヤードであり、動的に遮断可能ではない。しかし、ＰＣＢ基板間の各ケーブル接続（例えば、ＣＣＩＸ接続）は、プログラムで遮断または再接続することができる。ケーブル接続の遮断または再接続は、ケーブル接続に関連する１つまたは複数のＰＣＢ基板上で実行される１つまたは複数のプログラム命令によって実行することができる。

図３において、ユーザ３０１は、所定の数のＡＩチップを有するＡＩチップトポロジーの生成要求をＡＩアクセラレータチップクラスタ３０２に送信することができる。クラウド環境３１０をプラットフォーム、即ちサービス（ＰａａＳ）として、複数のテナントに提供することができる。ユーザ３０１は、テナントの一つであってもよい。

この要求は、１つまたは複数のクラウドサーバ上で実行されるトポロジー生成ソフトウェアプログラム３１２によって受信される。トポロジー生成ロジック３１２は、要求に含まれる情報を、ＡＩアクセラレータチップクラスタ３０２内の１つまたは複数のＰＣＢ基板によって実行されるプログラム命令のセットに変換するための、所定のアルゴリズムを実現することができる。トポロジー作成ソフトウェアプログラム３１２は、ＡＩアクセラレータチップクラスタ３０２内の各ＰＣＢ基板の状態を追跡することができ、ＰＣＢ基板の状態は、ＰＣＢ基板がアイドルであるかビジーであるかである。ＰＣＢ基板がアイドル状態にあるとは、ＰＣＢ基板がテナントに使用されていないことである。トポロジー作成ロジック３１２は、さらに、受信したトポロジー作成要求を達成するために、１つまたは複数のＰＣＢ基板をどのように選択するかを決定するための一セットのルールを実現することができる。

例えば、トポロジー生成ソフトウェアプログラム３１２は、ＡＩアクセラレータチップクラスタ３０２を走査し、要求されたＡＩチップトポロジーを生成するために使用される任意の空きＰＣＢ基板にマークを付けることができる。選択的には、ＰＣＢ基板の利用可能な残りの時間が所定の範囲内にあり、且つ、当該ＰＣＢ基板が、要求されたトポロジーを生成するために選択されたＰＣＢ基板により近い位置にある場合、トポロジー生成ソフトウェアプログラム３１２は、１つまたは複数のＰＣＢ基板上で待機してもよい。

説明的な例として、ユーザ３０１が３２－チップトポロジーを有するトポロジーの作成を要求した場合、トポロジー作成ソフトウェアプログラム３１２は、種々の異なる方法でトポロジーを作成することができる。トポロジーは、基板Ａ３０４及び基板Ｂ３０５、基板Ｃ３０８及び基板Ｎ３３５、基板Ａ３０４及び基板Ｃ３０８、基板Ｂ３０５及び基板Ｎ３３５を含むことができる。要求されたトポロジーを生成する際にＰＣＢ基板を選択するために使用される所定のアルゴリズムおよび／またはルールに応じて、トポロジー生成ソフトウェアプログラム３１２は、４つの選択肢のいずれかを選択することができる。

図４は、本実施形態に係るＡＩチップの一例を示す図である。図４に示すように、ＡＩチップ４０１は、４つのチップ間相互接続インターフェース４０２、４０３、４０５、４０７を含むことができる。一実施形態では、ＡＩチップ４０１は、４つ以上の相互接続インターフェースを有することができる。

各チップ間相互接続インターフェースは、ＰＣＩｅ、ＣＣＩＸ、またはＩｎｔｅｒｌａｋｅｎなどの任意の業界規格のインターフェースとすることができる。相互接続バス４１１、４１５、４１３、または４１７は、それぞれの相互接続インターフェースと共に使用することができる。各相互接続バスは、ケーブルまたはＰＣＢ配線であってもよく、各相互接続バス上のデータ転送は、一方向または双方向であってもよい。

図５は、実施形態による例示的なＰＣＢ基板を示す。図５に示すように、ＰＣＢ基板５０１は、偶数個のＡＩチップ（例えば、８個）５０１～５１５を含むことができ、それらは２行に配置され、各行は同じ数のＡＩチップを有する。一対のＡＩチップは、ＰＣＢ配線、ケーブル接続、またはこれら両方に介して接続することができる。例えば、ＡＩチップ５０１とＡＩチップ５０９は、ＰＣＢ配線とケーブル接続を介して接続される一方、ＡＩチップ５０３とＡＩチップ５０５は、ＰＣＢ配線のみを介して接続される。

一実施形態では、各行の両端のＡＩチップ（例えば、ＡＩチップ５０１、ＡＩチップ５０７、ＡＩチップ５０９、およびＡＩチップ５１５）は、それぞれ２つの相互接続ケーブルインターフェースを有し、残りのＡＩチップは、それぞれ１つの相互接続ケーブルインターフェースを有してもよい。

例示的なＰＣＢ基板５０１上のＡＩチップは、Ａｌｌ－ＲｅｄｕｃｅアルゴリズムにおけるＡＩモデルトレーニングにおけるデータ交換のための２つの双方向物理的リング５０３および５０５として構成することができる。各物理的リングは、双方向であるので、２つの物理的リングは、４つの論理リングとして動作することができる。

ＡＩモデルのトレーニングにおいて、特にいくつかのアルゴリズム（例えば、全減算アルゴリズム）において、多数のリング（物理的または論理的リング）は、多数のトレーニングプロセスが並行して実行可能であることを意味し、それにより、ＡＩモデルのトレーニングが加速され、トレーニングの所要の総時間が短縮されることになる。

ＰＣＢ基板５０１上のＡＩチップのレイアウト及びＰＣＢ配線とケーブル接続とを混用することで、複数のこのようなＰＣＢ基板によって作成されたＡＩチップトポロジーは、トポロジー上の物理的リングの数を最大化することができるとともに、異なるサイズのトポロジーを作成する柔軟性を維持することができ、過度のハードウェアオーバーヘッドを必要としない。

図６は、実施形態による例示的なＡＩチップトポロジー６００を示す図である。図示のように、１６－チップトポロジーは、２つのＰＣＢ基板６０２および６０４からなり、各ＰＣＢ基板は、２行に配列された８個のＡＩチップを含む。

一実施形態では、図５に示されるように、ＡＩチップトポロジーが単一のＰＣＢ基板を含む場合、図に示されるように、２つの双方向物理的リングが存在し得る。しかし、図６に示すように、１つ以上のそのようなＰＣＢ基板がＡＩチップトポロジーを生成するために使用される場合、ＡＩチップトポロジーにおける物理的リングの形成方法は異なることがある。

図６では、全体として見ると、トポロジー６００は、４列および４行を含むことができる。複数のＰＣＢ配線およびケーブル接続を使用して各行を接続して、双方向物理的リングを形成することができる。ケーブル接続は、行の端部にある２つのＡＩチップを接続するために使用される。リング６０１～６０７は、４行のＡＩチップによって作成された４つの物理的リングを示す。

トポロジー６００内の４列のＡＩチップは、さらに４つの別個の物理的リング６０９、６１１、６１３、６１５を形成する。しかし、各列について、物理的リングを形成するために複数のケーブル接続が必要とされる。例えば、物理的リング６０９の場合、第１のケーブル接続６１７を介して、ＡＩチップ６１８とＡＩチップ６１９が接続され、第２の接続６１６を介して、ＡＩチップの行端部に位置する２つのＡＩチップ６２０とＡＩチップ６２１とが接続される。

ケーブル接続とＰＣＢ配線の混用により作成可能な１６－チップトポロジー６００は、サーバラックの電源容量がサポートできる限り、１つのサーバラック内のより大きなトポロジー（例えば、６４チップ又は１２８チップ）に垂直に拡張することができる。単一のサーバラックがその全電源容量に達した後、１６－チップトポロジー６００は、サーバラック全体にわたって水平方向に拡張することができる。

図７は、実施形態によるＡＩチップトポロジー７００の別の例を示す図である。上述したように、ＡＩチップトポロジーのサイズは、単一のサーバラックの電源容量によって制限され得る。サーバラック内の電力制限を克服するために、図７は、ＡＩチップを複数のサーバラックにわたって水平に横断するトポロジーを示す。

ＡＩチップトポロジー７００は、異なるサーバラック内において４つのＰＣＢ基板７０１、７０３、７０５および７０７を含むことができる。例えば、ＰＣＢ基板７０１、７０５を第１のサーバラックに収容し、ＰＣＢ基板７０３、７０７を第２のサーバラックに収容してもよい。サーバラック内のＰＣＢ基板の数は、サーバラックの電源容量の限界まで増加させることができる。チップトポロジー７００は、より多くのサーバラックに接続されることによって、さらに水平に拡張することもできる。

図８は、一実施形態による、ＡＩチップトポロジーを作成する例示的なプロセス８００を示す。プロセス８００は、ソフトウェア、ハードウェア、またはそれらの組み合わせを含むことができる処理ロジックによって実行することができる。

図８を参照すると、動作８０１において、処理ロジックは、同じ数のチップを含む互いに接続された複数の基板を含むチップクラスタにおいて、指定された数のチップを有するチップトポロジーを生成するための要求を受信する。動作８０３において、当該要求に応答して、処理ロジックは、指定されたチップの数および各基板上のチップの数に基づいて、複数の基板からチップトポロジーを生成するための基板のセットを決定する。動作８０５において、処理ロジックは、基板のセットから、非アクティブ化されたケーブル接続を特定する。動作８０７において、処理ロジックは、要求されたチップトポロジーを生成するためにケーブル接続をアクティブ化する。

なお、上述した構成要素の一部または全部は、ソフトウェア、ハードウェア、またはそれらの組み合わせによって実現されてもよい。例えば、そのような構成要素は、永久記憶装置にインストールされて記憶されたソフトウェアとして実装することができ、このソフトウェアは、プロセッサ（図示せず）によってメモリにロードされて実行され、本明細書に記載のプロセスまたは動作全体を実施することができる。あるいは、そのようなコンポーネントは、集積回路（例えば、特定用途向けＩＣまたはＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの特定用途向けハードウェアにプログラムまたは組み込まれた実行可能コードとして実装することができ、実行可能コードは、対応するドライバおよび／またはオペレーティングシステムを介してアプリケーションからアクセスすることができる。さらに、そのようなコンポーネントは、１つまたは複数の特定の命令を介してソフトウェアコンポーネントによってアクセス可能な命令セットの一部として、プロセッサまたはプロセッサコア内の特定のハードウェアロジックとして実装することができる。

上述の詳細な説明の一部は、コンピュータメモリ内のデータビットの操作のアルゴリズムおよびシンボル表現に基づいて提示されている。これらのアルゴリズム記述および表現は、データ処理分野の当業者が、当業者に最も効率的にその作業内容を伝えるために使用する方法である。ここで、アルゴリズムは、一般に、所望の結果をもたらす自己適合性動作シーケンスであると考えられる。これらの操作は、物理量を物理的に操作する必要がある操作である。

これらの用語および類似の用語はすべて、適切な物理量と関連付けられ、これらの量に適用される便利なタグのみである。上述の議論から明らかなように、他に明示的に指摘されない限り、以下の特許請求の範囲に記載されているような用語を用いた説明は、コンピュータシステムのレジスタおよびメモリ内の物理的（電子的）量として表されているデータを、コンピュータシステムのメモリまたはレジスタまたは他のそのような情報記憶、送信または表示装置内の物理量として同様に表されている他のデータに変換する、コンピュータシステムまたは同様の電子計算装置の動作およびプロセスを、本明細書全体を通して意味することを理解されたい。

本開示の実施形態は、本明細書の動作を実行するための装置にも関する。このようなコンピュータプログラムは，非一時的なコンピュータ可読媒体に格納される。機械可読媒体は、機械（例えば、コンピュータ）によって読み取り可能な形態で情報を記憶するための任意の機構を含む。例えば、機械可読（例えば、コンピュータ可読）媒体は、機械可読記憶媒体、例えば、読み出し専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置を含む。

前の図に描かれたプロセスまたは方法は、ハードウェア（例えば、回路、専用ロジックなど）、ソフトウェア（例えば、非一時的なコンピュータ可読媒体上に含まれる）、または両方の組み合わせを含む処理ロジックによって実行されてもよい。プロセスまたは方法をいくつかのシーケンス動作に従って上述したが、説明したいくつかの動作は、異なるシーケンスで実行されてもよいことを理解されたい。さらに、いくつかの動作は、連続的ではなく並列に実行されてもよい。

本開示の実施形態は、特定のプログラミング言語を参照して記載されていない。本明細書に記載の本開示の実施形態の教示は、様々なプログラミング言語を使用して実施することができることを理解されたい。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。以下の特許請求の範囲に記載された本開示のより広い趣旨および範囲から逸脱することなく、様々な変更を加えることができることは明らかである。したがって、本明細書および図面は、限定的ではなく例示的なものと解釈されるべきである。

Claims

データ処理システムであって、
ＣＰＵと、
バスを介して前記ＣＰＵに接続された複数のアクセラレータカードと、を備え、
複数のアクセラレータカードのそれぞれが、前記ＣＰＵからＤＰタスクを受信して実行するデータ処理用のＤＰアクセラレータを複数有し、前記複数のアクセラレータカードのうちの少なくとも２つの間は、カード間接続を介して接続され、前記複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続され、
前記ＣＰＵから受信した要求に応じて、前記ＣＰＵから受信した何れか一つの前記ＤＰタスクを処理するために、何れか一つの前記アクセラレータカード、又は、何れか一つの前記アクセラレータカードにおける何れか一つの前記ＤＰアクセラレータを、有効化または無効化するように、前記カード間接続及び前記チップ間接続は、それぞれ、動的に起動又は停止可能とされる、
ことを特徴とするデータ処理システム。
各前記アクセラレータカードにおける各前記ＤＰアクセラレータは、それぞれのチップ間接続を介して前記アクセラレータカードにおける別のＤＰアクセラレータと相互接続するために利用可能なチップ間インターフェースを複数有する、
請求項１に記載のデータ処理システム。
各前記アクセラレータカードにおける各前記ＤＰアクセラレータは、それぞれのカード間接続を介して他のアクセラレータカードにおける別のＤＰアクセラレータと相互接続するために利用可能なチップ間インターフェースを複数有する、
請求項１に記載のデータ処理システム。
各前記アクセラレータカードにおいて、前記ＤＰアクセラレータが、１つ又は複数のチップ間接続を介して、互いに接続された複数の行および列として配置される、請求項１～３のいずれか一項に記載のデータ処理システム。
前記複数のアクセラレータカードのうちの第１のアクセラレータカードにおける各行のＤＰアクセラレータは、それぞれの水平チップ間接続を介して直列接続されることにより、水平アクセラレータリングを形成する、
請求項４に記載のデータ処理システム。
第１のアクセラレータカードにおける各列のＤＰアクセラレータは、一つ又は複数のカード間接続を介して、前記複数のアクセラレータカードのうちの第２のアクセラレータカードの対応する列に接続されることにより、垂直アクセラレータリングを形成する、
請求項５に記載のデータ処理システム。
前記第１のアクセラレータカードにおける各列のＤＰアクセラレータは、それぞれの垂直チップ間接続を介して直列接続されることにより、垂直アクセラレータリングを形成する、
請求項４に記載のデータ処理システム。
第１のアクセラレータカードにおける各行のＤＰアクセラレータは、それぞれのカード間接続を介して、前記アクセラレータカードのうちの第２のアクセラレータカードの対応する行に接続されることにより、水平アクセラレータリングを形成する、
請求項７に記載のデータ処理システム。
各前記ＤＰアクセラレータは、人工知能ＡＩアクセラレータチップを備える、請求項１～８のいずれか一項に記載のデータ処理システム。
前記バスは、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ）リンクまたはイーサネット接続を含み、前記チップ間接続またはカード間接続は、アクセラレータ用のキャッシュコヒーレントインタコネクト（ＣＣＩＸ）リンクを含む、
請求項１～９のいずれか一項に記載のデータ処理システム。
アクセラレータカードであって、
バスを介してＣＰＵに接続されたホストインターフェースと、
前記ＣＰＵからＤＰタスクを受信して実行する複数のデータ処理ＤＰアクセラレータと、を備え、
前記複数のＤＰアクセラレータのうちの少なくとも２つの間は、チップ間接続を介して接続され、
前記ＣＰＵから受信した要求に応じて、前記ＣＰＵから受信した何れか一つの前記ＤＰタスクを処理するために、何れか一つの前記ＤＰアクセラレータを、有効化または無効化するように、前記チップ間接続は、動的に起動又は停止可能とされる、
ことを特徴とするアクセラレータカード。
各前記ＤＰアクセラレータは、それぞれのチップ間接続を介して前記アクセラレータカードにおける別のＤＰアクセラレータと相互接続するために利用可能なチップ間インターフェースを複数有する、
請求項１１に記載のアクセラレータカード。
各前記ＤＰアクセラレータは、それぞれのカード間接続を介して他のアクセラレータカードにおける別のＤＰアクセラレータと相互接続するために利用可能なチップ間インターフェースを複数有する、
請求項１１に記載のアクセラレータカード。
前記ＤＰアクセラレータは、１つ又は複数のチップ間接続を介して、互いに接続された複数の行および列として配置される、
請求項１１～１３のいずれか一項に記載のアクセラレータカード。
各行のＤＰアクセラレータは、それぞれの水平チップ間接続を介して直列接続されることにより、水平アクセラレータリングを形成する、
請求項１４に記載のアクセラレータカード。
各列のＤＰアクセラレータは、一つ又は複数のカード間接続を介して、複数のアクセラレータカードのうちの第２のアクセラレータカードの対応する列に接続されることにより、垂直アクセラレータリングを形成する、
請求項１５に記載のアクセラレータカード。
各列のＤＰアクセラレータは、それぞれの垂直チップ間接続を介して直列接続されることにより、垂直アクセラレータリングを形成する、
請求項１４に記載のアクセラレータカード。
各行のＤＰアクセラレータは、それぞれのカード間接続を介して、複数のアクセラレータカードのうちの第２のアクセラレータカードの対応する行に接続されることにより、水平アクセラレータリングを形成する、
請求項１７に記載のアクセラレータカード。
各前記ＤＰアクセラレータは、人工知能ＡＩアクセラレータチップを備える、
請求項１１～１８のいずれか一項に記載のアクセラレータカード。
前記バスは、ペリフェラル・コンポーネント・インターコネクト・エクスプレスＰＣＩｅリンクまたはイーサネット接続を含み、前記チップ間接続またはカード間接続は、アクセラレータ用のキャッシュコヒーレントインタコネクト（ＣＣＩＸ）リンクを含む、請求項１１～１９のいずれか一項に記載のアクセラレータカード。