JP2022008781A

JP2022008781A - 分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラム

Info

Publication number: JP2022008781A
Application number: JP2020192957A
Authority: JP
Inventors: ドン，ダシャン; Daxiang Dong; ゴン，ウェイバオ; Weibao Gong; リウ，イ; Yi Liu; ユ，ディアンハイ; Dianhai Yu; マ，ヤンジュン; Yanjun Ma; ワン，ハイフェン; Haifeng Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-11-20
Publication date: 2022-01-14
Anticipated expiration: 2040-11-20
Also published as: US20210406767A1; JP7138150B2; CN111753997A; EP3929825A1; KR20220001008A; CN111753997B

Abstract

【課題】人工知能技術分野、特にディープランニング及びクラウドコンピューティング技術を用いた分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラムを提供する。
【解決手段】分散型トレーニング方法は、タスク情報サーバが、複数のデータサーバのうち少なくとも第１データサーバに、第１トレーニングリクエスト及び利用可能な第１コンピューティングサーバの情報を送信することと、第１データサーバが、第１バッチトレーニングデータを第１コンピューティングサーバに送信することと、第１コンピューティングサーバが、モデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを第１データサーバに送信して保存するとともに、第１バッチトレーニングデータの識別情報をタスク情報サーバに送信して記録することと、を含む。
【選択図】図１

Description

本発明は、人工知能技術分野に関し、特にディープランニング及びクラウドコンピューティング技術分野に関し、さらに具体的に、分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラムに関する。

通常、ビッグデータのもとにおいて、ディープランニングモデルのトレーニングは、分散型トレーニングの方式を用いることができ、トレーニング速度を向上することができ、既存の数多くのディープラーニングフレームワークは、決められたクラスタリソースを用いて、モデルが収束するまで並列トレーニングを行う。しかし、クラウドにおけるトレーニングのもとでは、トレーニングリソースの割当は通常、クラスタ全体のスケジューリングのために動的に変化し、従来のディープラーニングフレームワークはリソースを動的に計算する条件の下で正常のトレーニングができず、トレーニング効率を引き下げる。

本発明は、分散型トレーニング方法、システム、デバイス、及び記憶媒体を提供する。

本発明の第１態様に基づくと、分散型トレーニング方法を提供している。当該方法は、トレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムに基づく分散型トレーニング方法であって、前記分散型トレーニングシステムは、タスク情報サーバと、データサーバと、コンピューティングサーバと、を備え、前記データサーバの数は複数であり、前記コンピューティングサーバの数は可変であり、前記分散型トレーニング方法は、前記タスク情報サーバが、複数のデータサーバのうち少なくとも第１データサーバに、第１トレーニングリクエスト及び利用可能な第１コンピューティングサーバの情報を送信することと、前記第１データサーバが、前記第１トレーニングリクエストに従って、第１バッチトレーニングデータを前記第１コンピューティングサーバに送信することと、前記第１コンピューティングサーバが、前記第１バッチトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記第１データサーバに送信して保存するとともに、前記第１バッチトレーニングデータの識別情報を前記タスク情報サーバに送信して記録することと、を含み、各コンピューティングサーバには、モデルパラメーターが保存されていない。

本発明の第２態様に基づくと、分散型トレーニングシステムを提供している。当該分散型トレーニングシステムは、タスク情報サーバと、データサーバと、コンピューティングサーバと、を備え、前記データサーバの数は複数であり、前記コンピューティングサーバの数は可変であり、前記タスク情報サーバは、前記各データサーバにトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信することに用いられ、前記データサーバは、受信されたトレーニングリクエストに従って、トレーニングデータを利用可能なコンピューティングサーバに送信することに用いられ、前記コンピューティングサーバは、受信されたトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記データサーバに送信して保存するとともに、トレーニングが完了した前記トレーニングデータの識別情報を前記タスク情報サーバに送信して記録することに用いられ、各コンピューティングサーバには、モデルパラメーターが保存されていない。

本発明の第３態様に基づくと、電子デバイスを提供する。当該電子デバイスは、１つ又は複数のプロセッサと、１つ又は複数のプロセッサに通信接続されるメモリとを含み、メモリには、前記１つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、１つ又は複数のプロセッサは、１つ又は複数のコマンドを実行する場合、上記に記載の分散型トレーニング方法を実行させる。

本発明の第４態様に基づくと、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供し、コンピュータコマンドが上記に記載の分散型トレーニング方法を実行させる。

本発明の実施形態が提供する分散型トレーニングシステムは、タスク情報サーバ、データサーバ、及びコンピューティングサーバのそれぞれの機能を合理的に設定することにより、それらの相互間の組み合わせ方法を合理的に設計し、弾力的な分散型トレーニング方法の計算ノードに対する適時かつ迅速な伸縮調整を実現し、システム全体の計算力を最適にすることができる。

本明細書に記載された内容は、本発明の実施形態のキーポイント又は重要な特徴を識別することを意図せず、また、本発明の範囲を制限することにも用いられないことを理解すべきである。本発明の他の特徴については、下記の明細書を通して説明を促す。

添付図面は、本開示の理解を促すためのものであり、いかなる限定をも目的としない。
本発明の実施形態による分散型トレーニング方法のフローチャートである。本発明の実施形態による分散型トレーニングシステムの構成のブロック図である。本発明の他の実施形態による分散型トレーニングシステムの構成図である。本発明の実施形態による柔軟な分散型トレーニング方法を実現するための電子デバイスのブロック図である。

以下、図面を参照しながら本発明の例示的な実施形態を説明するが、本発明の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示と考えられるべきである。したがって、当業者は、本発明の範囲及び旨から逸脱することなく、本発明明細書に記載された実施形態に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能及び構造についての説明は、明瞭かつ簡明のために省略される。

図１は、本発明の実施形態による分散型トレーニング方法のフローチャートであり、当該方法はトレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムに基づく分散型トレーニング方法であって、当該分散型トレーニングシステムは、タスク情報サーバと、データサーバと、コンピューティングサーバと、を備え、そのうち、当該データサーバの数は複数であり、当該コンピューティングサーバの数は可変であり、当該分散型トレーニング方法は、Ｓ１０１において、当該タスク情報サーバが、複数のデータサーバのうち少なくとも第１データサーバに、第１トレーニングリクエスト及び利用可能な第１コンピューティングサーバの情報を送信する。

Ｓ１０２において、当該第１データサーバが、当該第１トレーニングリクエストに従って、第１バッチトレーニングデータを当該第１コンピューティングサーバに送信する。

Ｓ１０３において、当該第１コンピューティングサーバが、当該第１バッチトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを当該第１データサーバに送信して保存するとともに、当該第１バッチトレーニングデータの識別情報を当該タスク情報サーバに送信して記録する。

そのうち、各コンピューティングサーバには、モデルパラメーターが保存されていない。

本発明の実施形態に基づくと、タスク情報サーバは、データサーバにトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信し、例えば、コンピューティングサーバのインターネット・プロトコルＩＰアドレス、及び／又はポート情報を用いることができ、データサーバは、コンピューティングサーバにトレーニングデータを送信し、コンピューティングサーバによりトレーニング過程を完了させ、かつ各コンピューティングサーバには、モデルパラメーターが記憶されておらず、モデルパラメーターをデータサーバに送信して保存することで、計算ノードをできるだけ軽量化し、システムを入退出する時システム全体への影響が比較的少なく、かつ各コンピューティングサーバにモデルパラメーターを保存しないことで、リソースの占有が少なく、計算リソースをモデルのトレーニングに用いることを可能にし、計算リソースの計算力を向上させ、更に、コンピューティングサーバは、トレーニングデータの識別情報をタスク情報サーバに送信して記録する、即ち、タスク情報サーバによりトレーニングの進捗を記録することで、システムにおける各計算ノードにトレーニングタスクを配置でき、分散型トレーニングシステム全体的の効率的な運用を実現する。

本発明の実施形態に提供される分散型トレーニングシステムは、タスク情報サーバ、データサーバ、及びコンピューティングサーバのそれぞれの処理、及びそれらの相互間の組み合わせ方法を合理的に設計することで、分散型トレーニングの過程における計算ノードの迅速な調整を実現し、システムの計算力をモデルのトレーニングに集中させ、システム全体のトレーニング効率を最適にすることができる。

図２は、本発明の実施形態による分散型トレーニングシステムの構成のブロック図であり、タスク情報サーバ１００と、データサーバ２００と、コンピューティングサーバ３００と、を備え、そのうち、データサーバ２００の数は複数であり、コンピューティングサーバ３００の数は可変であり、当該分散型トレーニングシステムは、トレーニングデータによってモデルをトレーニングし、当該タスク情報サーバ１００は、各データサーバ２００にトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信することに用いられる。

当該データサーバ２００は、受信されたトレーニングリクエストに従って、トレーニングデータを利用可能なコンピューティングサーバ３００に送信することに用いられる。

当該コンピューティングサーバ３００は、受信されたトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを当該データサーバ２００に送信して保存するとともに、トレーニング後の当該トレーニングデータの識別情報を当該タスク情報サーバ１００に送信して記録することに用いられる。

そのうち、各コンピューティングサーバ３００には、モデルパラメーターを保存しない。

本発明の実施形態の分散型トレーニングシステムにおいて、タスク情報サーバ、データサーバ、及びコンピューティングサーバはそれぞれの機能を合理的に設定し、それらの相互間の組み合わせ方法を合理的に設計することで、分散型トレーニングの過程における計算ノードに対する迅速な調整を実現し、システムの計算力を最適にすることができる。

図３は、本発明の具体的な実施形態による分散型トレーニングシステムの構成図であり、同図において、タスク情報サーバ、データサーバ及びコンピューティングサーバ等の論理接続関係を例示的に説明している。

図３は３つの静的ノードを含み、各静的ノードはデータサーバとパラメーターサーバとを含み、図３はさらに４つの弾力的なノードを含み、計算ノード（すなわち、コンピューティングサーバ）に対応する。

以下、それぞれの図を結び付けて、本発明の様々な実施形態について詳細に説明する。

本発明の実施形態において、レーニングを開始する前に、各データサーバが、分散型ファイルシステムからトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードする。

このような処理のメリットは、データサーバによりトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードして保存することで、コンピューティングサーバがトレーニングデータを保存することを免れ、コンピューティングサーバはデータサーバからトレーニングに必要なデータだけを受け取ってトレーニング行い、トレーニング完了後にモデルパラメーターをデータサーバに送り返して保存することで、モデルパラメーターの更新を維持することができ、また、計算ノードの入退出時にシステムへの影響を低減することができる。

本発明の実施形態において、当該データサーバは、パラメーターサーバを含み、当該分散型トレーニング方法は、当該第１コンピューティングサーバがトレーニング後のモデルパラメーターを当該第１データサーバに送信した後に、当該トレーニング後のモデルパラメーターを当該第１データサーバのうちの第１パラメーターサーバに保存する。

すなわち、トレーニング後のモデルパラメーターをパラメーターサーバに保存し、データサーバがトレーニングデータの送信とトレーニング結果の回収を担当し、処理が効率的である。

本発明の実施形態において、当該タスク情報サーバは、システム内の各コンピューティングサーバに対して死活チェックを行い、システム内の利用可能なコンピューティングサーバの数が変化しない場合に、各データサーバ内のパラメーターサーバに最新のモデルパラメーターを保存させる。

タスク情報サーバの死活監視により、システム内の利用可能なノードの数について死活チェック及び更新ができるだけでなく、死活チェック時に現在のシステムのモデルパラメーターがすべての計算ノードに有効かどうかを判定することもでき、そのうち、ノードの数に変化が生じていない場合、システムは安定したトレーニングを継続できるということであり、このとき、現在の最新のモデルパラメーターをパラメーターサーバに保存し、後続のシステムのノード変化時に、ロールバックの基礎を提供することができる。

本発明の実施形態において、当該タスク情報サーバは、システム内の各コンピューティングサーバに対して死活チェックを行い、システム内の利用可能なコンピューティングサーバの数が変化すると、利用可能なコンピューティングサーバのリストを更新し、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせる。

タスク情報サーバの死活チェックを通して、ノードの数が変化した場合、死活チェック以前のシステムデータ情報は既に失効しているということであり、このとき、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせる、つまり、前回の死活チェック時のデータバージョンに戻り、トレーニング過程に間違いがないようにする。

本発明の実施形態において、当該タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、死活チェックが完了した後に、当該タスク情報サーバが現在のモデルパラメーター及び記録されたトレーニングが完了したトレーニングデータの識別情報に基づいて、各データサーバに新たなトレーニングリクエストを送信する。

タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、モデルパラメーターの更新が完了するのを待った後に、新たなトレーニングタスクを続けることで、トレーニング過程の安定さ、かつ、迅速さを確保する。

本発明の実施形態において、各コンピューティングサーバ間にて情報のやり取りは存在せず、各計算ノードはいずれもパラメーターサーバからトレーニングデータを取得し、計算リソースにおいてモデルのトレーニングを最大限に利用することができる。

本発明の実施形態において、当該タスク情報サーバは、静的ノードである。

タスク情報サーバは、システム内の計算ノードの定期的な死活チェックを担当するため、利用可能なコンピューティングサーバのリストを維持し、かつ、パラメーターサーバ内のモデルパラメーターを有効に維持することができ、そのため、タスク情報サーバは、分散型システムの中央ノードであり、静止ノードであるべきであり、終了させられる、又は失効させられることのできない計算ノード上にあると解釈でき、タスク情報サーバに高い利用可能性を備えさせ、システムの安定さを確保する。

本発明の実施形態の柔軟な分散型トレーニング方法は、各種の機械学習モデルのトレーニング学習過程に用いることができ、例えば、ニューラルネットワークのディープラーニングフレームワークに対して、リソースが弾力的に変化するクラウドにおいて効率的にトレーニングを行うことができ、コンピューティングサーバの軽量化を確保し、迅速かつ動的に調整できる能力を備え、重要な応用意義と価値を有する。

以上、複数の実施形態を通して異なる角度から本発明の実施形態の具体的な設定及び実現形態について述べた。本発明の実施形態の柔軟な分散型トレーニング方法は、前述の分散型システムに基づき、当該方法の処理過程は、前述の実施形態における対応する説明を参照できるため、ここでは説明を省略する。

本発明の実施形態において、本発明は、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。

図４に示すよう、本発明の実施形態による柔軟な分散型トレーニング方法を実現する電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、及びその他の類似のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は例示的なものに過ぎず、本発明で説明されたもの及び／又は要求される本発明の実施を制限することは意図されない。

図４に示すよう、当該電子デバイスは、１つ又は複数のプロセッサ１００１と、メモリ１００２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ，ＧＵＩ）を表示するための、メモリ又はメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、又はマルチプロセッサシステムとして）を提供する。図４においてプロセッサ１００１を例とする。

メモリ１００２は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される柔軟な分散型トレーニング方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された柔軟な分散型トレーニング方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ１００２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本発明の実施形態における柔軟な分散型トレーニング方法に対応するプログラム命令／モジュールのようなものである。プロセッサ１００１は、メモリ１００２に記憶されている非一過性のソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち上述した方法に関する実施形態に係る柔軟な分散型トレーニング方法を実行する。

メモリ１００２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、柔軟な分散型トレーニング方法に係る電子デバイスの使用によって生成されたデータ等を記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ１００２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ１００２はオプションとして、プロセッサ１００１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して柔軟な分散型トレーニング方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワーク及びその組み合わせを含むが、これらに限定されない。

本発明の実施形態の柔軟な分散型トレーニング方法に対応する電子デバイスは、入力装置１００３と出力装置１００４とをさらに含むことができる。プロセッサ１００１、メモリ１００２、入力装置１００３、及び出力装置１００４は、バス又は他の方法で接続されてもよく、図４ではバスを介して接続されている。

入力装置１００３は、入力された数字又は文字を受信し、柔軟な分散型トレーニング方法に係る電子デバイスのユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つ又は複数のマウスボタン、トラックボール、ジョイスティック等を含むことができる。出力装置１００４は、表示装置、補助照明装置（例えばＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）等を含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本発明におけるシステム及び技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実装されてもよく、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、及び／又は解釈されてもよく、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードともいう）は、プログラマブルプロセッサのマシン命令を含み、プロセス指向及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、又は触覚入力を含む）で受信されてもよい。

本発明で説明されているシステム及び技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、又は中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、又は、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェース又はネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェース又はネットワークブラウザを介して本発明で説明されたシステム及び技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、又は、このようなバックグラウンド構成要素、中間部構成要素、又はフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ，ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。

上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。

上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

トレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムに基づく分散型トレーニング方法であって、
前記分散型トレーニングシステムは、
タスク情報サーバと、
データサーバと、
コンピューティングサーバと、を備え、
前記データサーバの数は複数であり、
前記コンピューティングサーバの数は可変であり、
前記分散型トレーニング方法は、
前記タスク情報サーバが、複数のデータサーバのうち少なくとも第１データサーバに、第１トレーニングリクエスト及び利用可能な第１コンピューティングサーバの情報を送信することと、
前記第１データサーバが、前記第１トレーニングリクエストに従って、第１バッチトレーニングデータを前記第１コンピューティングサーバに送信することと、
前記第１コンピューティングサーバが、前記第１バッチトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記第１データサーバに送信して保存するとともに、前記第１バッチトレーニングデータの識別情報を前記タスク情報サーバに送信して記録することと、を含み、
各コンピューティングサーバには、モデルパラメーターが保存されていない、
ことを特徴とする分散型トレーニング方法。
前記分散型トレーニング方法は、
トレーニングを開始する前に、各データサーバが、分散型ファイルシステムからトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードすること、をさらに含む、
ことを特徴とする請求項１に記載の分散型トレーニング方法。
前記各データサーバは、パラメーターサーバを含み、
前記分散型トレーニング方法は、
前記第１コンピューティングサーバがトレーニング後のモデルパラメーターを前記第１データサーバに送信した後に、前記トレーニング後のモデルパラメーターを前記第１データサーバのうちの第１パラメーターサーバに保存すること、をさらに含む、
ことを特徴とする請求項１に記載の分散型トレーニング方法。
前記タスク情報サーバは、
システム内の各コンピューティングサーバに対して死活チェックを行い、
システム内の利用可能なコンピューティングサーバの数が変化しない場合に、各データサーバ内のパラメーターサーバに最新のモデルパラメーターを保存させること、をさらに含む、
ことを特徴とする請求項１に記載の分散型トレーニング方法。
前記タスク情報サーバは、
システム内の各コンピューティングサーバに対して死活チェックを行い、
システム内の利用可能なコンピューティングサーバの数が変化すると、利用可能なコンピューティングサーバのリストを更新し、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせること、をさらに含む、
ことを特徴とする請求項１に記載の分散型トレーニング方法。
前記分散型トレーニングシステムは、
前記タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、
前記タスク情報サーバは、
死活チェックが完了した後に、現在のモデルパラメーター及び記録されたトレーニングが完了したトレーニングデータの識別情報に基づいて、各データサーバに新たなトレーニングリクエストを送信すること、をさらに含む、
ことを特徴とする請求項４又は５に記載の分散型トレーニング方法。
前記各コンピューティングサーバ間にて情報のやり取りは行わない、
ことを特徴とする請求項１に記載の分散型トレーニング方法。
前記タスク情報サーバは、静的ノードである、
ことを特徴とする請求項１に記載の分散型トレーニング方法。
トレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムであって、
タスク情報サーバと、
データサーバと、
コンピューティングサーバと、を備え、
前記データサーバの数は複数であり、
前記コンピューティングサーバの数は可変であり、
前記タスク情報サーバは、
前記各データサーバにトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信することに用いられ、
前記データサーバは、
受信されたトレーニングリクエストに従って、トレーニングデータを利用可能なコンピューティングサーバに送信することに用いられ、
前記コンピューティングサーバは、
受信されたトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記データサーバに送信して保存するとともに、トレーニングが完了したトレーニングデータの識別情報を前記タスク情報サーバに送信して記録することに用いられ、
各コンピューティングサーバには、モデルパラメーターが保存されていない、
ことを特徴とする分散型トレーニングシステム。
前記各データサーバは、
トレーニングを開始する前に、分散型ファイルシステムからトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードすることにさらに用いられる、
ことを特徴とする請求項９に記載の分散型トレーニングシステム。
前記各データサーバは、
トレーニング後のモデルパラメーターを保存するためのパラメーターサーバを含む、
ことを特徴とする請求項９に記載の分散型トレーニングシステム。
前記タスク情報サーバは、
システム内の各コンピューティングサーバに対して死活チェックを行い、
システム内の利用可能なコンピューティングサーバの数が変化しない場合に、各データサーバ内のパラメーターサーバに最新のモデルパラメーターを保存させることにさらに用いられる、
ことを特徴とする請求項９に記載の分散型トレーニングシステム。
前記タスク情報サーバは、
システム内の各コンピューティングサーバに対して死活チェックを行い、
システム内の利用可能な計算サーバの数が変化すると、利用可能なコンピューティングサーバのリストを更新し、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせることにさらに用いられる、
ことを特徴とする請求項９に記載の分散型トレーニングシステム。
前記分散型トレーニングシステムは、
前記タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、
前記タスク情報サーバは、
死活チェックが完了した後に、現在のモデルパラメーター及び記録されたトレーニングが完了したトレーニングデータの識別情報に基づいて、各データサーバに新たなトレーニングリクエストを送信することにさらに用いられる、
ことを特徴とする請求項１２又は１３に記載の分散型トレーニングシステム。
前記各コンピューティングサーバ間にて情報のやり取りは行わない、
ことを特徴とする請求項９に記載の分散型トレーニングシステム。
前記タスク情報サーバは、静的ノードである、
ことを特徴とする請求項９に記載の分散型トレーニングシステム。
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサに通信接続するメモリと、を備え、
前記メモリは、前記少なくとも１つのプロセッサに実行される命令を記憶し、上記命令は、前記少なくとも１つのプロセッサに実行される場合、前記少なくとも１つのプロセッサに請求項１～８のいずれか一項に記載の分散型トレーニング方法を実行させる、
ことを特徴とする電子デバイス。
コンピュータ命令を記憶している非一過性のコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～８のいずれか一項に記載の分散型トレーニング方法を実行させる、
ことを特徴とする非一過性のコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～８のいずれか一項に記載の分散型トレーニング方法を実現することを特徴とするプログラム。