JP2022008781A - 分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラム - Google Patents

分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP2022008781A
JP2022008781A JP2020192957A JP2020192957A JP2022008781A JP 2022008781 A JP2022008781 A JP 2022008781A JP 2020192957 A JP2020192957 A JP 2020192957A JP 2020192957 A JP2020192957 A JP 2020192957A JP 2022008781 A JP2022008781 A JP 2022008781A
Authority
JP
Japan
Prior art keywords
training
server
data
computing
servers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020192957A
Other languages
English (en)
Other versions
JP7138150B2 (ja
Inventor
ドン,ダシャン
Daxiang Dong
ゴン,ウェイバオ
Weibao Gong
リウ,イ
Yi Liu
ユ,ディアンハイ
Dianhai Yu
マ,ヤンジュン
Yanjun Ma
ワン,ハイフェン
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022008781A publication Critical patent/JP2022008781A/ja
Application granted granted Critical
Publication of JP7138150B2 publication Critical patent/JP7138150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

Figure 2022008781000001
【課題】人工知能技術分野、特にディープランニング及びクラウドコンピューティング技術を用いた分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラムを提供する。
【解決手段】分散型トレーニング方法は、タスク情報サーバが、複数のデータサーバのうち少なくとも第1データサーバに、第1トレーニングリクエスト及び利用可能な第1コンピューティングサーバの情報を送信することと、第1データサーバが、第1バッチトレーニングデータを第1コンピューティングサーバに送信することと、第1コンピューティングサーバが、モデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを第1データサーバに送信して保存するとともに、第1バッチトレーニングデータの識別情報をタスク情報サーバに送信して記録することと、を含む。
【選択図】図1

Description

本発明は、人工知能技術分野に関し、特にディープランニング及びクラウドコンピューティング技術分野に関し、さらに具体的に、分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラムに関する。
通常、ビッグデータのもとにおいて、ディープランニングモデルのトレーニングは、分散型トレーニングの方式を用いることができ、トレーニング速度を向上することができ、既存の数多くのディープラーニングフレームワークは、決められたクラスタリソースを用いて、モデルが収束するまで並列トレーニングを行う。しかし、クラウドにおけるトレーニングのもとでは、トレーニングリソースの割当は通常、クラスタ全体のスケジューリングのために動的に変化し、従来のディープラーニングフレームワークはリソースを動的に計算する条件の下で正常のトレーニングができず、トレーニング効率を引き下げる。
本発明は、分散型トレーニング方法、システム、デバイス、及び記憶媒体を提供する。
本発明の第1態様に基づくと、分散型トレーニング方法を提供している。当該方法は、トレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムに基づく分散型トレーニング方法であって、前記分散型トレーニングシステムは、タスク情報サーバと、データサーバと、コンピューティングサーバと、を備え、前記データサーバの数は複数であり、前記コンピューティングサーバの数は可変であり、前記分散型トレーニング方法は、前記タスク情報サーバが、複数のデータサーバのうち少なくとも第1データサーバに、第1トレーニングリクエスト及び利用可能な第1コンピューティングサーバの情報を送信することと、前記第1データサーバが、前記第1トレーニングリクエストに従って、第1バッチトレーニングデータを前記第1コンピューティングサーバに送信することと、前記第1コンピューティングサーバが、前記第1バッチトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記第1データサーバに送信して保存するとともに、前記第1バッチトレーニングデータの識別情報を前記タスク情報サーバに送信して記録することと、を含み、各コンピューティングサーバには、モデルパラメーターが保存されていない。
本発明の第2態様に基づくと、分散型トレーニングシステムを提供している。当該分散型トレーニングシステムは、タスク情報サーバと、データサーバと、コンピューティングサーバと、を備え、前記データサーバの数は複数であり、前記コンピューティングサーバの数は可変であり、前記タスク情報サーバは、前記各データサーバにトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信することに用いられ、前記データサーバは、受信されたトレーニングリクエストに従って、トレーニングデータを利用可能なコンピューティングサーバに送信することに用いられ、前記コンピューティングサーバは、受信されたトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記データサーバに送信して保存するとともに、トレーニングが完了した前記トレーニングデータの識別情報を前記タスク情報サーバに送信して記録することに用いられ、各コンピューティングサーバには、モデルパラメーターが保存されていない。
本発明の第3態様に基づくと、電子デバイスを提供する。当該電子デバイスは、1つ又は複数のプロセッサと、1つ又は複数のプロセッサに通信接続されるメモリとを含み、メモリには、前記1つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、1つ又は複数のプロセッサは、1つ又は複数のコマンドを実行する場合、上記に記載の分散型トレーニング方法を実行させる。
本発明の第4態様に基づくと、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供し、コンピュータコマンドが上記に記載の分散型トレーニング方法を実行させる。
本発明の実施形態が提供する分散型トレーニングシステムは、タスク情報サーバ、データサーバ、及びコンピューティングサーバのそれぞれの機能を合理的に設定することにより、それらの相互間の組み合わせ方法を合理的に設計し、弾力的な分散型トレーニング方法の計算ノードに対する適時かつ迅速な伸縮調整を実現し、システム全体の計算力を最適にすることができる。
本明細書に記載された内容は、本発明の実施形態のキーポイント又は重要な特徴を識別することを意図せず、また、本発明の範囲を制限することにも用いられないことを理解すべきである。本発明の他の特徴については、下記の明細書を通して説明を促す。
添付図面は、本開示の理解を促すためのものであり、いかなる限定をも目的としない。
本発明の実施形態による分散型トレーニング方法のフローチャートである。 本発明の実施形態による分散型トレーニングシステムの構成のブロック図である。 本発明の他の実施形態による分散型トレーニングシステムの構成図である。 本発明の実施形態による柔軟な分散型トレーニング方法を実現するための電子デバイスのブロック図である。
以下、図面を参照しながら本発明の例示的な実施形態を説明するが、本発明の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示と考えられるべきである。したがって、当業者は、本発明の範囲及び旨から逸脱することなく、本発明明細書に記載された実施形態に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能及び構造についての説明は、明瞭かつ簡明のために省略される。
図1は、本発明の実施形態による分散型トレーニング方法のフローチャートであり、当該方法はトレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムに基づく分散型トレーニング方法であって、当該分散型トレーニングシステムは、タスク情報サーバと、データサーバと、コンピューティングサーバと、を備え、そのうち、当該データサーバの数は複数であり、当該コンピューティングサーバの数は可変であり、当該分散型トレーニング方法は、S101において、当該タスク情報サーバが、複数のデータサーバのうち少なくとも第1データサーバに、第1トレーニングリクエスト及び利用可能な第1コンピューティングサーバの情報を送信する。
S102において、当該第1データサーバが、当該第1トレーニングリクエストに従って、第1バッチトレーニングデータを当該第1コンピューティングサーバに送信する。
S103において、当該第1コンピューティングサーバが、当該第1バッチトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを当該第1データサーバに送信して保存するとともに、当該第1バッチトレーニングデータの識別情報を当該タスク情報サーバに送信して記録する。
そのうち、各コンピューティングサーバには、モデルパラメーターが保存されていない。
本発明の実施形態に基づくと、タスク情報サーバは、データサーバにトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信し、例えば、コンピューティングサーバのインターネット・プロトコルIPアドレス、及び/又はポート情報を用いることができ、データサーバは、コンピューティングサーバにトレーニングデータを送信し、コンピューティングサーバによりトレーニング過程を完了させ、かつ各コンピューティングサーバには、モデルパラメーターが記憶されておらず、モデルパラメーターをデータサーバに送信して保存することで、計算ノードをできるだけ軽量化し、システムを入退出する時システム全体への影響が比較的少なく、かつ各コンピューティングサーバにモデルパラメーターを保存しないことで、リソースの占有が少なく、計算リソースをモデルのトレーニングに用いることを可能にし、計算リソースの計算力を向上させ、更に、コンピューティングサーバは、トレーニングデータの識別情報をタスク情報サーバに送信して記録する、即ち、タスク情報サーバによりトレーニングの進捗を記録することで、システムにおける各計算ノードにトレーニングタスクを配置でき、分散型トレーニングシステム全体的の効率的な運用を実現する。
本発明の実施形態に提供される分散型トレーニングシステムは、タスク情報サーバ、データサーバ、及びコンピューティングサーバのそれぞれの処理、及びそれらの相互間の組み合わせ方法を合理的に設計することで、分散型トレーニングの過程における計算ノードの迅速な調整を実現し、システムの計算力をモデルのトレーニングに集中させ、システム全体のトレーニング効率を最適にすることができる。
図2は、本発明の実施形態による分散型トレーニングシステムの構成のブロック図であり、タスク情報サーバ100と、データサーバ200と、コンピューティングサーバ300と、を備え、そのうち、データサーバ200の数は複数であり、コンピューティングサーバ300の数は可変であり、当該分散型トレーニングシステムは、トレーニングデータによってモデルをトレーニングし、当該タスク情報サーバ100は、各データサーバ200にトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信することに用いられる。
当該データサーバ200は、受信されたトレーニングリクエストに従って、トレーニングデータを利用可能なコンピューティングサーバ300に送信することに用いられる。
当該コンピューティングサーバ300は、受信されたトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを当該データサーバ200に送信して保存するとともに、トレーニング後の当該トレーニングデータの識別情報を当該タスク情報サーバ100に送信して記録することに用いられる。
そのうち、各コンピューティングサーバ300には、モデルパラメーターを保存しない。
本発明の実施形態の分散型トレーニングシステムにおいて、タスク情報サーバ、データサーバ、及びコンピューティングサーバはそれぞれの機能を合理的に設定し、それらの相互間の組み合わせ方法を合理的に設計することで、分散型トレーニングの過程における計算ノードに対する迅速な調整を実現し、システムの計算力を最適にすることができる。
図3は、本発明の具体的な実施形態による分散型トレーニングシステムの構成図であり、同図において、タスク情報サーバ、データサーバ及びコンピューティングサーバ等の論理接続関係を例示的に説明している。
図3は3つの静的ノードを含み、各静的ノードはデータサーバとパラメーターサーバとを含み、図3はさらに4つの弾力的なノードを含み、計算ノード(すなわち、コンピューティングサーバ)に対応する。
以下、それぞれの図を結び付けて、本発明の様々な実施形態について詳細に説明する。
本発明の実施形態において、レーニングを開始する前に、各データサーバが、分散型ファイルシステムからトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードする。
このような処理のメリットは、データサーバによりトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードして保存することで、コンピューティングサーバがトレーニングデータを保存することを免れ、コンピューティングサーバはデータサーバからトレーニングに必要なデータだけを受け取ってトレーニング行い、トレーニング完了後にモデルパラメーターをデータサーバに送り返して保存することで、モデルパラメーターの更新を維持することができ、また、計算ノードの入退出時にシステムへの影響を低減することができる。
本発明の実施形態において、当該データサーバは、パラメーターサーバを含み、当該分散型トレーニング方法は、当該第1コンピューティングサーバがトレーニング後のモデルパラメーターを当該第1データサーバに送信した後に、当該トレーニング後のモデルパラメーターを当該第1データサーバのうちの第1パラメーターサーバに保存する。
すなわち、トレーニング後のモデルパラメーターをパラメーターサーバに保存し、データサーバがトレーニングデータの送信とトレーニング結果の回収を担当し、処理が効率的である。
本発明の実施形態において、当該タスク情報サーバは、システム内の各コンピューティングサーバに対して死活チェックを行い、システム内の利用可能なコンピューティングサーバの数が変化しない場合に、各データサーバ内のパラメーターサーバに最新のモデルパラメーターを保存させる。
タスク情報サーバの死活監視により、システム内の利用可能なノードの数について死活チェック及び更新ができるだけでなく、死活チェック時に現在のシステムのモデルパラメーターがすべての計算ノードに有効かどうかを判定することもでき、そのうち、ノードの数に変化が生じていない場合、システムは安定したトレーニングを継続できるということであり、このとき、現在の最新のモデルパラメーターをパラメーターサーバに保存し、後続のシステムのノード変化時に、ロールバックの基礎を提供することができる。
本発明の実施形態において、当該タスク情報サーバは、システム内の各コンピューティングサーバに対して死活チェックを行い、システム内の利用可能なコンピューティングサーバの数が変化すると、利用可能なコンピューティングサーバのリストを更新し、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせる。
タスク情報サーバの死活チェックを通して、ノードの数が変化した場合、死活チェック以前のシステムデータ情報は既に失効しているということであり、このとき、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせる、つまり、前回の死活チェック時のデータバージョンに戻り、トレーニング過程に間違いがないようにする。
本発明の実施形態において、当該タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、死活チェックが完了した後に、当該タスク情報サーバが現在のモデルパラメーター及び記録されたトレーニングが完了したトレーニングデータの識別情報に基づいて、各データサーバに新たなトレーニングリクエストを送信する。
タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、モデルパラメーターの更新が完了するのを待った後に、新たなトレーニングタスクを続けることで、トレーニング過程の安定さ、かつ、迅速さを確保する。
本発明の実施形態において、各コンピューティングサーバ間にて情報のやり取りは存在せず、各計算ノードはいずれもパラメーターサーバからトレーニングデータを取得し、計算リソースにおいてモデルのトレーニングを最大限に利用することができる。
本発明の実施形態において、当該タスク情報サーバは、静的ノードである。
タスク情報サーバは、システム内の計算ノードの定期的な死活チェックを担当するため、利用可能なコンピューティングサーバのリストを維持し、かつ、パラメーターサーバ内のモデルパラメーターを有効に維持することができ、そのため、タスク情報サーバは、分散型システムの中央ノードであり、静止ノードであるべきであり、終了させられる、又は失効させられることのできない計算ノード上にあると解釈でき、タスク情報サーバに高い利用可能性を備えさせ、システムの安定さを確保する。
本発明の実施形態の柔軟な分散型トレーニング方法は、各種の機械学習モデルのトレーニング学習過程に用いることができ、例えば、ニューラルネットワークのディープラーニングフレームワークに対して、リソースが弾力的に変化するクラウドにおいて効率的にトレーニングを行うことができ、コンピューティングサーバの軽量化を確保し、迅速かつ動的に調整できる能力を備え、重要な応用意義と価値を有する。
以上、複数の実施形態を通して異なる角度から本発明の実施形態の具体的な設定及び実現形態について述べた。本発明の実施形態の柔軟な分散型トレーニング方法は、前述の分散型システムに基づき、当該方法の処理過程は、前述の実施形態における対応する説明を参照できるため、ここでは説明を省略する。
本発明の実施形態において、本発明は、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。
図4に示すよう、本発明の実施形態による柔軟な分散型トレーニング方法を実現する電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、及びその他の類似のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は例示的なものに過ぎず、本発明で説明されたもの及び/又は要求される本発明の実施を制限することは意図されない。
図4に示すよう、当該電子デバイスは、1つ又は複数のプロセッサ1001と、メモリ1002と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphical User Interface,GUI)を表示するための、メモリ又はメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、又はマルチプロセッサシステムとして)を提供する。図4においてプロセッサ1001を例とする。
メモリ1002は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される柔軟な分散型トレーニング方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された柔軟な分散型トレーニング方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ1002は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本発明の実施形態における柔軟な分散型トレーニング方法に対応するプログラム命令/モジュールのようなものである。プロセッサ1001は、メモリ1002に記憶されている非一過性のソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち上述した方法に関する実施形態に係る柔軟な分散型トレーニング方法を実行する。
メモリ1002は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、柔軟な分散型トレーニング方法に係る電子デバイスの使用によって生成されたデータ等を記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ1002は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ1002はオプションとして、プロセッサ1001に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して柔軟な分散型トレーニング方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワーク及びその組み合わせを含むが、これらに限定されない。
本発明の実施形態の柔軟な分散型トレーニング方法に対応する電子デバイスは、入力装置1003と出力装置1004とをさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方法で接続されてもよく、図4ではバスを介して接続されている。
入力装置1003は、入力された数字又は文字を受信し、柔軟な分散型トレーニング方法に係る電子デバイスのユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等を含むことができる。出力装置1004は、表示装置、補助照明装置(例えばLED)、及び触覚フィードバック装置(例えば、振動モータ)等を含むことができる。この表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本発明におけるシステム及び技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実装されてもよく、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、及び/又は解釈されてもよく、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置より、データと命令を受信し、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に、データと命令を送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードともいう)は、プログラマブルプロセッサのマシン命令を含み、プロセス指向及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス(programmable logic device、PLD)を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、入力をコンピュータに提供するためのキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音響入力、音声入力、又は触覚入力を含む)で受信されてもよい。
本発明で説明されているシステム及び技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、又は中間部構成要素を含む計算システム(例えば、アプリケーションサーバ)、又は、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインタフェース又はネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェース又はネットワークブラウザを介して本発明で説明されたシステム及び技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ)に実行されてもよく、又は、このようなバックグラウンド構成要素、中間部構成要素、又はフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク(Local Area Network,LAN)、広域ネットワーク(Wide Area Network,WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims (19)

  1. トレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムに基づく分散型トレーニング方法であって、
    前記分散型トレーニングシステムは、
    タスク情報サーバと、
    データサーバと、
    コンピューティングサーバと、を備え、
    前記データサーバの数は複数であり、
    前記コンピューティングサーバの数は可変であり、
    前記分散型トレーニング方法は、
    前記タスク情報サーバが、複数のデータサーバのうち少なくとも第1データサーバに、第1トレーニングリクエスト及び利用可能な第1コンピューティングサーバの情報を送信することと、
    前記第1データサーバが、前記第1トレーニングリクエストに従って、第1バッチトレーニングデータを前記第1コンピューティングサーバに送信することと、
    前記第1コンピューティングサーバが、前記第1バッチトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記第1データサーバに送信して保存するとともに、前記第1バッチトレーニングデータの識別情報を前記タスク情報サーバに送信して記録することと、を含み、
    各コンピューティングサーバには、モデルパラメーターが保存されていない、
    ことを特徴とする分散型トレーニング方法。
  2. 前記分散型トレーニング方法は、
    トレーニングを開始する前に、各データサーバが、分散型ファイルシステムからトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードすること、をさらに含む、
    ことを特徴とする請求項1に記載の分散型トレーニング方法。
  3. 前記各データサーバは、パラメーターサーバを含み、
    前記分散型トレーニング方法は、
    前記第1コンピューティングサーバがトレーニング後のモデルパラメーターを前記第1データサーバに送信した後に、前記トレーニング後のモデルパラメーターを前記第1データサーバのうちの第1パラメーターサーバに保存すること、をさらに含む、
    ことを特徴とする請求項1に記載の分散型トレーニング方法。
  4. 前記タスク情報サーバは、
    システム内の各コンピューティングサーバに対して死活チェックを行い、
    システム内の利用可能なコンピューティングサーバの数が変化しない場合に、各データサーバ内のパラメーターサーバに最新のモデルパラメーターを保存させること、をさらに含む、
    ことを特徴とする請求項1に記載の分散型トレーニング方法。
  5. 前記タスク情報サーバは、
    システム内の各コンピューティングサーバに対して死活チェックを行い、
    システム内の利用可能なコンピューティングサーバの数が変化すると、利用可能なコンピューティングサーバのリストを更新し、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせること、をさらに含む、
    ことを特徴とする請求項1に記載の分散型トレーニング方法。
  6. 前記分散型トレーニングシステムは、
    前記タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、
    前記タスク情報サーバは、
    死活チェックが完了した後に、現在のモデルパラメーター及び記録されたトレーニングが完了したトレーニングデータの識別情報に基づいて、各データサーバに新たなトレーニングリクエストを送信すること、をさらに含む、
    ことを特徴とする請求項4又は5に記載の分散型トレーニング方法。
  7. 前記各コンピューティングサーバ間にて情報のやり取りは行わない、
    ことを特徴とする請求項1に記載の分散型トレーニング方法。
  8. 前記タスク情報サーバは、静的ノードである、
    ことを特徴とする請求項1に記載の分散型トレーニング方法。
  9. トレーニングデータによってモデルをトレーニングするための分散型トレーニングシステムであって、
    タスク情報サーバと、
    データサーバと、
    コンピューティングサーバと、を備え、
    前記データサーバの数は複数であり、
    前記コンピューティングサーバの数は可変であり、
    前記タスク情報サーバは、
    前記各データサーバにトレーニングリクエスト及び利用可能なコンピューティングサーバの情報を送信することに用いられ、
    前記データサーバは、
    受信されたトレーニングリクエストに従って、トレーニングデータを利用可能なコンピューティングサーバに送信することに用いられ、
    前記コンピューティングサーバは、
    受信されたトレーニングデータによってモデルをトレーニングし、トレーニングが完了した後にモデルパラメーターを前記データサーバに送信して保存するとともに、トレーニングが完了したトレーニングデータの識別情報を前記タスク情報サーバに送信して記録することに用いられ、
    各コンピューティングサーバには、モデルパラメーターが保存されていない、
    ことを特徴とする分散型トレーニングシステム。
  10. 前記各データサーバは、
    トレーニングを開始する前に、分散型ファイルシステムからトレーニングデータ及びトレーニングされるべきモデルの情報をダウンロードすることにさらに用いられる、
    ことを特徴とする請求項9に記載の分散型トレーニングシステム。
  11. 前記各データサーバは、
    トレーニング後のモデルパラメーターを保存するためのパラメーターサーバを含む、
    ことを特徴とする請求項9に記載の分散型トレーニングシステム。
  12. 前記タスク情報サーバは、
    システム内の各コンピューティングサーバに対して死活チェックを行い、
    システム内の利用可能なコンピューティングサーバの数が変化しない場合に、各データサーバ内のパラメーターサーバに最新のモデルパラメーターを保存させることにさらに用いられる、
    ことを特徴とする請求項9に記載の分散型トレーニングシステム。
  13. 前記タスク情報サーバは、
    システム内の各コンピューティングサーバに対して死活チェックを行い、
    システム内の利用可能な計算サーバの数が変化すると、利用可能なコンピューティングサーバのリストを更新し、各データサーバ内のパラメーターサーバに前回の死活チェック時のモデルパラメーターを再ロードさせることにさらに用いられる、
    ことを特徴とする請求項9に記載の分散型トレーニングシステム。
  14. 前記分散型トレーニングシステムは、
    前記タスク情報サーバが死活チェックを行う際に、トレーニング処理を一時停止し、
    前記タスク情報サーバは、
    死活チェックが完了した後に、現在のモデルパラメーター及び記録されたトレーニングが完了したトレーニングデータの識別情報に基づいて、各データサーバに新たなトレーニングリクエストを送信することにさらに用いられる、
    ことを特徴とする請求項12又は13に記載の分散型トレーニングシステム。
  15. 前記各コンピューティングサーバ間にて情報のやり取りは行わない、
    ことを特徴とする請求項9に記載の分散型トレーニングシステム。
  16. 前記タスク情報サーバは、静的ノードである、
    ことを特徴とする請求項9に記載の分散型トレーニングシステム。
  17. 少なくとも1つのプロセッサと、
    少なくとも1つのプロセッサに通信接続するメモリと、を備え、
    前記メモリは、前記少なくとも1つのプロセッサに実行される命令を記憶し、上記命令は、前記少なくとも1つのプロセッサに実行される場合、前記少なくとも1つのプロセッサに請求項1~8のいずれか一項に記載の分散型トレーニング方法を実行させる、
    ことを特徴とする電子デバイス。
  18. コンピュータ命令を記憶している非一過性のコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~8のいずれか一項に記載の分散型トレーニング方法を実行させる、
    ことを特徴とする非一過性のコンピュータ可読記憶媒体。
  19. コンピュータにおいて、プロセッサにより実行される場合、請求項1~8のいずれか一項に記載の分散型トレーニング方法を実現することを特徴とするプログラム。
JP2020192957A 2020-06-28 2020-11-20 分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラム Active JP7138150B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010599075.1 2020-06-28
CN202010599075.1A CN111753997B (zh) 2020-06-28 2020-06-28 分布式训练方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022008781A true JP2022008781A (ja) 2022-01-14
JP7138150B2 JP7138150B2 (ja) 2022-09-15

Family

ID=72677681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020192957A Active JP7138150B2 (ja) 2020-06-28 2020-11-20 分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US20210406767A1 (ja)
EP (1) EP3929825A1 (ja)
JP (1) JP7138150B2 (ja)
KR (1) KR20220001008A (ja)
CN (1) CN111753997B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461290B (zh) * 2020-03-11 2023-09-22 北京百度网讯科技有限公司 模型参数更新方法及装置
CN112434337A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 分布式训练生成模型的方法、***及介质
CN112508191A (zh) * 2020-12-14 2021-03-16 北京地平线信息技术有限公司 训练深度学习模型的方法及装置、电子设备及存储介质
CN112561078B (zh) * 2020-12-18 2021-12-28 北京百度网讯科技有限公司 分布式的模型训练方法及相关装置
CN112598135A (zh) * 2020-12-24 2021-04-02 深圳壹账通智能科技有限公司 模型训练处理方法、装置、计算机设备及介质
CN112615937A (zh) * 2020-12-28 2021-04-06 南方电网深圳数字电网研究院有限公司 数据传输、数据训练方法、服务器、电子设备及存储介质
CN113485784A (zh) * 2021-06-08 2021-10-08 中国联合网络通信集团有限公司 一种模型训练方法及装置
CN113448730A (zh) * 2021-06-29 2021-09-28 京东科技控股股份有限公司 服务的处理方法、装置、计算机设备及存储介质
CN114338398B (zh) * 2021-12-30 2024-06-07 北京市商汤科技开发有限公司 数据传输方法、装置、电子设备及存储介质
CN114493919A (zh) * 2022-01-18 2022-05-13 杭州安脉盛智能技术有限公司 储能电站运行监测模型的训练方法及储能电站的监控***
CN114723045B (zh) * 2022-04-06 2022-12-20 北京百度网讯科技有限公司 模型训练方法、装置、***、设备、介质及程序产品
CN114792125B (zh) * 2022-04-15 2023-06-23 北京百度网讯科技有限公司 基于分布式训练的数据处理方法、装置、电子设备和介质
CN114979141B (zh) * 2022-05-13 2024-04-26 北京百度网讯科技有限公司 一种任务处理方法、装置、设备以及存储介质
CN114862655B (zh) * 2022-05-18 2023-03-10 北京百度网讯科技有限公司 用于模型训练的运行控制方法、装置和电子设备
CN114860346B (zh) * 2022-06-02 2024-06-04 北京百度网讯科技有限公司 建模任务的管理方法和建模任务的运行方法
CN117744826A (zh) * 2022-09-14 2024-03-22 抖音视界有限公司 模型训练方法、装置以及***和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022558A (ja) * 2010-07-15 2012-02-02 Hitachi Ltd 分散計算システム
CN106529682A (zh) * 2016-10-28 2017-03-22 北京奇虎科技有限公司 一种在大数据集群中处理深度学习任务的方法和装置
JP2020513615A (ja) * 2016-11-23 2020-05-14 ヴァイタル イメージズ,インコーポレイテッド 深層学習ニューラルネットワークの分散化された診断ワークフロー訓練
US20200174840A1 (en) * 2018-11-30 2020-06-04 EMC IP Holding Company LLC Dynamic composition of data pipeline in accelerator-as-a-service computing environment

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462612A (zh) * 2014-07-01 2017-02-22 萨思学会有限公司 用于容错通信的***和方法
CN105760240A (zh) * 2014-12-16 2016-07-13 航天信息股份有限公司 分布式任务处理方法及装置
CN107025205B (zh) * 2016-01-30 2021-06-22 华为技术有限公司 一种分布式***中的训练模型的方法及设备
CN105956021B (zh) * 2016-04-22 2019-05-21 华中科技大学 一种适用于分布式机器学习的自动化任务并行的方法及其***
CN106022521B (zh) * 2016-05-19 2020-05-19 四川大学 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN106169094A (zh) * 2016-07-07 2016-11-30 江苏大学 一种基于分布式神经元的rnnlm***及其设计方法
CN106529673B (zh) * 2016-11-17 2019-05-03 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN106708624B (zh) * 2016-11-25 2020-08-11 国电南瑞科技股份有限公司 一种多工作域计算资源的自适应调整方法
US10649806B2 (en) * 2017-04-12 2020-05-12 Petuum, Inc. Elastic management of machine learning computing
CN108734293B (zh) * 2017-04-13 2023-05-02 北京京东尚科信息技术有限公司 任务管理***、方法和装置
CN107609652B (zh) * 2017-08-30 2019-10-25 第四范式(北京)技术有限公司 执行机器学习的分布式***及其方法
CN107733977B (zh) * 2017-08-31 2020-11-03 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN107885762B (zh) * 2017-09-19 2021-06-11 北京百度网讯科技有限公司 智能大数据***、提供智能大数据服务的方法和设备
CN107578094A (zh) * 2017-10-25 2018-01-12 济南浪潮高新科技投资发展有限公司 基于参数服务器和fpga实现神经网络分布式训练的方法
CN109815002A (zh) * 2017-11-21 2019-05-28 中国电力科学研究院有限公司 一种基于在线仿真的分布式并行计算平台及其方法
US10140184B1 (en) * 2018-03-14 2018-11-27 Capital One Services, Llc Node recovery in static distributed networks
CN108763299A (zh) * 2018-04-19 2018-11-06 贵州师范大学 一种大规模数据处理计算加速***
CN108681777B (zh) * 2018-05-07 2021-07-20 北京京东尚科信息技术有限公司 一种基于分布式***的机器学习程序运行的方法和装置
CN108880928A (zh) * 2018-05-22 2018-11-23 国网山东省电力公司电力科学研究院 基于网格计算的分布式输电线路监控图像识别方法与***
CN109102075A (zh) * 2018-07-26 2018-12-28 联想(北京)有限公司 一种分布式训练中的梯度更新方法及相关设备
CN109062700A (zh) * 2018-08-21 2018-12-21 郑州云海信息技术有限公司 一种基于分布式***的资源管理方法及服务器
US11625640B2 (en) * 2018-10-05 2023-04-11 Cisco Technology, Inc. Distributed random forest training with a predictor trained to balance tasks
CN110033095A (zh) * 2019-03-04 2019-07-19 北京大学 一种高可用分布式机器学习计算框架的容错方法和***
CN110704630A (zh) * 2019-04-15 2020-01-17 中国石油大学(华东) 一种标识化关联图谱自优化机制
CN110221913A (zh) * 2019-04-26 2019-09-10 深圳市致宸信息科技有限公司 监控服务器的云算力的方法、终端、设备及存储介质
CN110457176B (zh) * 2019-07-12 2022-09-27 平安普惠企业管理有限公司 用于分布式***的监控方法、装置、存储介质及电子设备
CN110619388B (zh) * 2019-09-20 2024-04-02 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN110850956B (zh) * 2019-10-28 2021-11-19 西安交通大学 一种基于数据覆盖集的分布式运算集群动态能耗管理方法
CN111147541B (zh) * 2019-11-18 2022-11-15 广州文远知行科技有限公司 基于参数服务器的节点处理方法、装置、设备及存储介质
CN111027708A (zh) * 2019-11-29 2020-04-17 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种面向分布式机器学习的参数通信优化方法
CN111079921A (zh) * 2019-11-29 2020-04-28 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种基于异构分布式***的高效神经网络训练调度方法
CN110928689B (zh) * 2019-12-05 2020-08-25 中国人民解放军军事科学院国防科技创新研究院 面向分布式强化学习训练的自适应资源管理方法及装置
CN111030861B (zh) * 2019-12-11 2022-05-31 中移物联网有限公司 一种边缘计算分布式模型训练方法、终端和网络侧设备
CN111221646A (zh) * 2019-12-16 2020-06-02 清华大学 分布式机器学习的参数同步方法及装置
CN111160531B (zh) * 2019-12-30 2023-09-22 北京迈格威科技有限公司 神经网络模型的分布式训练方法、装置及电子设备
CN111126604B (zh) * 2019-12-31 2024-02-02 北京奇艺世纪科技有限公司 模型训练方法、装置、服务器及存储介质
CN111240901B (zh) * 2020-01-13 2023-01-10 苏州浪潮智能科技有限公司 分布式块存储***的节点动态扩展***、方法及设备
CN111259917B (zh) * 2020-02-20 2022-06-07 西北工业大学 一种基于局部近邻成分分析的图像特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022558A (ja) * 2010-07-15 2012-02-02 Hitachi Ltd 分散計算システム
CN106529682A (zh) * 2016-10-28 2017-03-22 北京奇虎科技有限公司 一种在大数据集群中处理深度学习任务的方法和装置
JP2020513615A (ja) * 2016-11-23 2020-05-14 ヴァイタル イメージズ,インコーポレイテッド 深層学習ニューラルネットワークの分散化された診断ワークフロー訓練
US20200174840A1 (en) * 2018-11-30 2020-06-04 EMC IP Holding Company LLC Dynamic composition of data pipeline in accelerator-as-a-service computing environment

Also Published As

Publication number Publication date
US20210406767A1 (en) 2021-12-30
JP7138150B2 (ja) 2022-09-15
CN111753997A (zh) 2020-10-09
EP3929825A1 (en) 2021-12-29
KR20220001008A (ko) 2022-01-04
CN111753997B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
JP2022008781A (ja) 分散型トレーニング方法、システム、デバイス、記憶媒体、及びプログラム
US10956148B2 (en) Concurrent I/O enclosure firmware/field-programmable gate array (FPGA) update in a multi-node environment
US10387179B1 (en) Environment aware scheduling
US9880827B2 (en) Managing software version upgrades in a multiple computer system environment
US20180349128A1 (en) Containerized upgrade in operating system level virtualization
CN110795503A (zh) 分布式存储***的多集群数据同步方法及相关装置
US10725890B1 (en) Program testing service
US10341181B2 (en) Method and apparatus to allow dynamic changes of a replica network configuration in distributed systems
CN112559143A (zh) 任务调度方法、***及计算设备
US8977752B2 (en) Event-based dynamic resource provisioning
JP2022117451A (ja) 変更タスクを実行する方法、装置、電子機器、及び読み取り可能な記憶媒体
US20150067097A1 (en) Managing data distribution to networked client computing devices
EP3479256B1 (en) Fabric encapsulated resilient storage
JP2021119461A (ja) バックアップ管理方法、システム、電子機器、及び媒体
US9557984B2 (en) Performing code load operations on managed components in a system
US11422842B2 (en) Virtual machine operation management in computing devices
US9836315B1 (en) De-referenced package execution
US11190565B2 (en) Operator to processing element assignment in an active stream processing job
CN112527368B (zh) 集群内核版本更新方法、装置、电子设备和存储介质
US10884832B2 (en) Aggregation messaging within an integration environment
US20230195534A1 (en) Snapshot based pool of virtual resources for efficient development and test of hyper-converged infrastructure environments
WO2021002970A1 (en) Distributed system that promotes task-machine affinity
Dumitru et al. AUTOMATED FPGA FIRMWARE MANAGEMENT IN HPC CLUSTERS.
CN117742891A (zh) 带vDPA设备的虚拟机的创建方法、装置、设备及存储介质
WO2021191655A1 (en) Grouping together multiple functions accessing the same data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R150 Certificate of patent or registration of utility model

Ref document number: 7138150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150