JP7087079B2 - 深層学習アプリケーションのための堅牢な勾配重み圧縮方式 - Google Patents
深層学習アプリケーションのための堅牢な勾配重み圧縮方式 Download PDFInfo
- Publication number
- JP7087079B2 JP7087079B2 JP2020529245A JP2020529245A JP7087079B2 JP 7087079 B2 JP7087079 B2 JP 7087079B2 JP 2020529245 A JP2020529245 A JP 2020529245A JP 2020529245 A JP2020529245 A JP 2020529245A JP 7087079 B2 JP7087079 B2 JP 7087079B2
- Authority
- JP
- Japan
- Prior art keywords
- gradient
- residual
- vector
- current
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
オンデマンド・セルフ・サービス:クラウド利用者は、サービスの提供者との人的対話を必要とせず自動的に必要に応じて、サーバ時刻およびネットワーク・ストレージなどのコンピューティング能力を一方的に提供することができる。
ブロード・ネットワーク・アクセス:能力は、ネットワーク上で利用可能であり、ヘテロジニアスなシンまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を推進する標準機構を通じてアクセスされる。
リソース・プーリング:提供者のコンピューティング・リソースは、マルチ・テナント・モデルを使用して複数の利用者に供給するためにプールされ、種々の物理リソースおよび仮想リソースは、需要に応じて動的に割当ておよび再割当てが行われる。利用者は一般に、提供されたリソースの正確な位置に対する制御権または知識がないが、抽象化のより高いレベル(例えば、国、州、またはデータセンタ)において位置を特定できる可能性があるということに位置独立の意味がある。
迅速な伸縮性(Rapid elasticity):能力は、素早くスケール・アウトするように迅速かつ伸縮自在に、場合によっては自動的に提供され、素早くスケール・インするように迅速に解放される。利用者に対して、提供するのに利用可能な能力は、無制限のように見えることが多く、いつでも任意の量で購入されることが可能である。
サービス測定(Measured service):クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)にふさわしい抽象化のいくつかのレベルでメータリング能力を活用することによって、リソース使用を自動的に制御および最適化する。リソース利用率は、監視、制御、およびレポートされることが可能であり、利用されるサービスの提供者と利用者の両者に透明性をもたらす。
サービスとしてのソフトウェア(SaaS):利用者に提供される能力は、クラウド・インフラストラクチャ上で動く提供者のアプリケーションを使用するためのものである。アプリケーションは、ウェブ・ブラウザ(例えば、ウェブベースの電子メール)などのシン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。利用者は、限定されたユーザ固有アプリケーションの構成設定を例外とする可能性はあるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個人のアプリケーション能力さえも含む、基礎となるクラウド・インフラストラクチャを管理することも制御することもない。
サービスとしてのプラットフォーム(PaaS):利用者に提供される能力は、提供者によってサポートされるプログラミング言語およびツールを使用して作り出された、利用者が作り出したか獲得したアプリケーションを、クラウド・インフラストラクチャ上に配置するためのものである。利用者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎となるクラウド・インフラストラクチャを管理することも制御することもないが、配置されたアプリケーション、および場合によっては、環境構成をホストするアプリケーションに対する制御権がある。
サービスとしてのインフラストラクチャ(IaaS):利用者に提供される能力は、処理、ストレージ、ネットワーク、ならびに、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアを利用者が配置すること、および動かすことができる他の基本的なコンピューティング・リソース、を提供するためのものである。利用者は、基礎となるクラウド・インフラストラクチャを管理することも制御することもないが、オペレーティング・システム、ストレージ、配置されたアプリケーションに対する制御権、および場合によっては、ネットワーク構成要素(例えば、ホスト・ファイアウォール)を選択する限定的な制御権がある。
プライベート・クラウド:クラウド・インフラストラクチャは、組織のために単に運用される。クラウド・インフラストラクチャは、組織またはサード・パーティによって管理されることが可能であり、敷地内または敷地外にあることが可能である。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有された懸念(例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンスの考慮)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、組織またはサード・パーティによって管理されることが可能であり、敷地内または敷地にあることが可能である。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大きい業界団体に対して利用可能にされ、クラウド・サービスを売る組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションに可搬性(例えば、クラウド間の負荷分散のためのクラウド・バースティング)を与える標準化技術または独自の技術によって互いに結び付けられる2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の構成である。
Claims (9)
- 深層学習ニューラル・ネットワーク(DNN)の訓練に適応性のある残差勾配圧縮のためのコンピュータ実装方法であって、
複数の学習器のうちの第1の学習器のプロセッサによって、前記DNNのニューラル・ネットワーク層のための現在の勾配ベクトルを取得することであって、前記現在の勾配ベクトルが、訓練データのミニ・バッチから計算される前記ニューラル・ネットワーク層のパラメータの勾配重みを含む、前記現在の勾配ベクトルを取得することと、
前記プロセッサによって、前記ミニ・バッチのための残差勾配重みを含む現在の残差ベクトルを生成することであって、以前の残差ベクトルと前記現在の勾配ベクトルを合計することを含む、前記現在の残差ベクトルを生成することと、
前記プロセッサによって、前記現在の残差ベクトルの前記残差勾配重みを一様な大きさの複数のビンに分割すること、および前記複数のビンのうちの1つまたは複数のビンの前記残差勾配重みのサブセットを量子化することに少なくとも部分的に基づいて、圧縮された現在の残差ベクトルを生成することであって、前記残差勾配重みの前記サブセットを量子化することが、前記ミニ・バッチのためのスケーリング・パラメータを計算すること、および各ビンの極大値を計算することに少なくとも部分的に基づき、前記ビンの前記一様な大きさが、前記DNNのハイパー・パラメータである、前記圧縮された現在の残差ベクトルを生成することと、
前記プロセッサによって、前記圧縮された現在の残差ベクトルを前記複数の学習器のうちの第2の学習器に伝送することと
を含む、コンピュータ実装方法。 - 前記圧縮された現在の残差ベクトルを生成することが、
前記プロセッサによって、前記ミニ・バッチのためのスケーリングされた残差勾配重みを含むスケーリングされた現在の残差ベクトルを生成することであって、前記現在の勾配ベクトルに前記スケーリング・パラメータを乗じること、および前記乗じた勾配ベクトルと前記以前の残差ベクトルを合計することを含む、前記スケーリングされた現在の残差ベクトルを生成することと、
前記現在の残差ベクトルの前記残差勾配重みを前記一様な大きさの前記複数のビンに分割することと、
前記複数のビンの各ビンについて、前記ビンの前記残差勾配重みの絶対値の極大値を識別することと、
各ビンの各残差勾配重みについて、前記スケーリングされた残差ベクトルの対応するスケーリングされた残差勾配重みが前記ビンの前記極大値を超過することを判定することと、
各ビンの各残差勾配重みについて、前記スケーリングされた残差ベクトルの前記対応するスケーリングされた残差勾配重みが前記ビンの前記極大値を超過することを識別すると、所与の残差勾配重みに対する量子化値を生成し、前記現在の残差ベクトルの前記残差勾配重みを前記量子化値で置換することによって前記現在の残差ベクトルを更新することと
を含む、請求項1に記載のコンピュータ実装方法。 - 前記スケーリング・パラメータが、L2正規化に従って量子化誤差を最小化することによって計算される、請求項2に記載のコンピュータ実装方法。
- 前記DNNが、1つまたは複数の畳み込みネットワーク層を含み、
前記複数のビンの前記大きさが、前記1つまたは複数の畳み込み層に対して50にセットされる、
請求項2に記載のコンピュータ実装方法。 - 前記DNNが、少なくとも1つまたは複数の完全に接続された層を含み、
前記ビンの前記大きさが、前記1つまたは複数の完全に接続された層に対して500にセットされる、
請求項2に記載のコンピュータ実装方法。 - 深層学習ニューラル・ネットワーク(DNN)の訓練に適応性のある残差勾配圧縮のためのシステムであって、複数の学習器を備え、前記複数の学習器のうちの少なくとも1つの学習器が、
前記DNNのニューラル・ネットワーク層のための現在の勾配ベクトルを取得することであって、前記現在の勾配ベクトルが、訓練データのミニ・バッチから計算される前記ニューラル・ネットワーク層のパラメータの勾配重みを含む、前記現在の勾配ベクトルを取得することと、
前記ミニ・バッチのための残差勾配重みを含む現在の残差ベクトルを生成することであって、以前の残差ベクトルと前記現在の勾配ベクトルを合計することを含む、前記現在の残差ベクトルを生成することと、
前記現在の残差ベクトルの前記残差勾配重みを一様な大きさの複数のビンに分割すること、および前記複数のビンのうちの1つまたは複数のビンの前記残差勾配重みのサブセットを量子化することに少なくとも部分的に基づいて、圧縮された現在の残差ベクトルを生成することであって、前記残差勾配重みの前記サブセットを量子化することが、前記ミニ・バッチのためのスケーリング・パラメータを計算すること、および各ビンの極大値を計算することに少なくとも部分的に基づき、前記ビンの前記一様な大きさが、前記DNNのハイパー・パラメータである、前記圧縮された現在の残差ベクトルを生成することと、
前記圧縮された現在の残差ベクトルを前記複数の学習器のうちの第2の学習器に伝送することと
を含む方法を行うように構成される、システム。 - 深層学習ニューラル・ネットワーク(DNN)の訓練に適応性のある残差勾配圧縮のためのコンピュータ・プログラムであって、複数の学習器のうちの少なくとも第1の学習器のプロセッサに、
前記DNNのニューラル・ネットワーク層のための現在の勾配ベクトルを取得することであって、前記現在の勾配ベクトルが、訓練データのミニ・バッチから計算される前記ニューラル・ネットワーク層のパラメータの勾配重みを含む、前記現在の勾配ベクトルを取得することと、
前記ミニ・バッチのための残差勾配重みを含む現在の残差ベクトルを生成することであって、以前の残差ベクトルと前記現在の勾配ベクトルを合計することを含む、前記現在の残差ベクトルを生成することと、
前記現在の残差ベクトルの前記残差勾配重みを一様な大きさの複数のビンに分割すること、および前記複数のビンのうちの1つまたは複数のビンの前記残差勾配重みのサブセットを量子化することに少なくとも部分的に基づいて、圧縮された現在の残差ベクトルを生成することであって、前記残差勾配重みの前記サブセットを量子化することが、前記ミニ・バッチのためのスケーリング・パラメータを計算すること、および各ビンの極大値を計算することに少なくとも部分的に基づき、前記ビンの前記一様な大きさが、前記DNNのハイパー・パラメータである、前記圧縮された現在の残差ベクトルを生成することと、
前記圧縮された現在の残差ベクトルを前記複数の学習器のうちの第2の学習器に伝送することと
を実行させるためのコンピュータ・プログラム。 - 適応性のある残差勾配圧縮を介して深層学習ニューラル・ネットワーク(DNN)を訓練するためのコンピュータ実装方法であって、
複数の学習器を備えるシステムによって、1つまたは複数のニューラル・ネットワーク層を使用して前記DNNの訓練のための訓練データを受信することと、
前記複数の学習器のうちの各学習器において、前記訓練データのミニ・バッチからニューラル・ネットワーク層のための現在の勾配ベクトルを生成することであって、前記現在の勾配ベクトルが、前記ニューラル・ネットワーク層のパラメータの勾配重みを含む、前記現在の勾配ベクトルを生成することと、
前記複数の学習器のうちの各学習器において、前記ミニ・バッチのための残差勾配重みを含む現在の残差ベクトルを生成することであって、以前の残差ベクトルと前記現在の勾配ベクトルを合計することを含む、前記現在の残差ベクトルを生成することと、
前記現在の残差ベクトルの前記残差勾配重みを一様な大きさの複数のビンに分割すること、および前記複数のビンのうちの1つまたは複数のビンの前記残差勾配重みのサブセットを量子化することに少なくとも部分的に基づいて、前記複数の学習器のうちの各学習器において、圧縮された現在の残差ベクトルを生成することであって、前記残差勾配重みの前記サブセットを量子化することが、前記ミニ・バッチのためのスケーリング・パラメータを計算すること、および各ビンの極大値を計算することに少なくとも部分的に基づき、前記ビンの前記一様な大きさが、前記DNNのハイパー・パラメータである、前記圧縮された現在の残差ベクトルを生成することと
前記複数の学習器の間で、前記圧縮された現在の残差ベクトルを交換することと、
前記複数の学習器のそれぞれにおいて、前記圧縮された現在の残差ベクトルを解凍することと、
前記複数の学習器のそれぞれにおいて、前記ニューラル・ネットワーク層の前記パラメータの前記勾配重みを更新することと
を含む、コンピュータ実装方法。 - 適応性のある残差勾配圧縮を介して深層学習ニューラル・ネットワーク(DNN)を訓練するためのシステムであって、複数の学習器を備え、
1つまたは複数のニューラル・ネットワーク層を使用して前記DNNの訓練のための訓練データを受信することと、
前記複数の学習器のうちの各学習器において、前記訓練データのミニ・バッチからニューラル・ネットワーク層のための現在の勾配ベクトルを生成することであって、前記現在の勾配ベクトルが、前記ニューラル・ネットワーク層のパラメータの勾配重みを含む、前記現在の勾配ベクトルを生成することと、
前記複数の学習器のうちの各学習器において、前記ミニ・バッチのための残差勾配重みを含む現在の残差ベクトルを生成することであって、以前の残差ベクトルと前記現在の勾配ベクトルを合計することを含む、前記現在の残差ベクトルを生成することと、
前記現在の残差ベクトルの前記残差勾配重みを一様な大きさの複数のビンに分割すること、および前記複数のビンのうちの1つまたは複数のビンの前記残差勾配重みのサブセットを量子化することに少なくとも部分的に基づいて、前記複数の学習器のうちの各学習器において、圧縮された現在の残差ベクトルを生成することであって、前記残差勾配重みの前記サブセットを量子化することが、前記ミニ・バッチのためのスケーリング・パラメータを計算すること、および各ビンの極大値を計算することに少なくとも部分的に基づき、前記ビンの前記一様な大きさが、前記DNNのハイパー・パラメータである、前記圧縮された現在の残差ベクトルを生成することと、
前記複数の学習器の間で、前記圧縮された現在の残差ベクトルを交換することと、
前記複数の学習器のそれぞれにおいて、前記圧縮された現在の残差ベクトルを解凍することと、
前記複数の学習器のそれぞれにおいて、前記ニューラル・ネットワーク層の前記パラメータの前記勾配重みを更新することと
を含む方法を行うように構成される、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/830,170 | 2017-12-04 | ||
US15/830,170 US11295208B2 (en) | 2017-12-04 | 2017-12-04 | Robust gradient weight compression schemes for deep learning applications |
PCT/IB2018/059516 WO2019111118A1 (en) | 2017-12-04 | 2018-11-30 | Robust gradient weight compression schemes for deep learning applications |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021505993A JP2021505993A (ja) | 2021-02-18 |
JP2021505993A5 JP2021505993A5 (ja) | 2021-04-01 |
JP7087079B2 true JP7087079B2 (ja) | 2022-06-20 |
Family
ID=66659264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020529245A Active JP7087079B2 (ja) | 2017-12-04 | 2018-11-30 | 深層学習アプリケーションのための堅牢な勾配重み圧縮方式 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11295208B2 (ja) |
JP (1) | JP7087079B2 (ja) |
DE (1) | DE112018006189T5 (ja) |
GB (1) | GB2582232A (ja) |
WO (1) | WO2019111118A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195096B2 (en) * | 2017-10-24 | 2021-12-07 | International Business Machines Corporation | Facilitating neural network efficiency |
US11216719B2 (en) * | 2017-12-12 | 2022-01-04 | Intel Corporation | Methods and arrangements to quantize a neural network with machine learning |
US11961000B2 (en) * | 2018-01-22 | 2024-04-16 | Qualcomm Incorporated | Lossy layer compression for dynamic scaling of deep neural network processing |
US10698766B2 (en) * | 2018-04-18 | 2020-06-30 | EMC IP Holding Company LLC | Optimization of checkpoint operations for deep learning computing |
CN108665067B (zh) * | 2018-05-29 | 2020-05-29 | 北京大学 | 用于深度神经网络频繁传输的压缩方法及*** |
CN112149706B (zh) * | 2019-06-28 | 2024-03-15 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备和介质 |
US11402233B2 (en) * | 2019-07-23 | 2022-08-02 | Mapsted Corp. | Maintaining a trained neural network in magnetic fingerprint based indoor navigation |
GB2581546B (en) * | 2019-08-22 | 2021-03-31 | Imagination Tech Ltd | Methods and systems for converting weights of a deep neural network from a first number format to a second number format |
CN110659725B (zh) * | 2019-09-20 | 2023-03-31 | 字节跳动有限公司 | 神经网络模型的压缩与加速方法、数据处理方法及装置 |
US11461645B2 (en) * | 2019-12-02 | 2022-10-04 | International Business Machines Corporation | Initialization of memory networks |
CN110995488B (zh) * | 2019-12-03 | 2020-11-03 | 电子科技大学 | 一种基于分层参数服务器的多机构协同学习***及方法 |
KR20210076687A (ko) * | 2019-12-16 | 2021-06-24 | 삼성전자주식회사 | 뉴럴 프로세싱 장치 및 뉴럴 프로세싱 장치에서 뉴럴 네트워크를 처리하는 방법 |
CN113297128B (zh) * | 2020-02-24 | 2023-10-31 | 中科寒武纪科技股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
US11875256B2 (en) | 2020-07-09 | 2024-01-16 | International Business Machines Corporation | Dynamic computation in decentralized distributed deep learning training |
US11886969B2 (en) * | 2020-07-09 | 2024-01-30 | International Business Machines Corporation | Dynamic network bandwidth in distributed deep learning training |
US11977986B2 (en) | 2020-07-09 | 2024-05-07 | International Business Machines Corporation | Dynamic computation rates for distributed deep learning |
US11900640B2 (en) | 2020-07-15 | 2024-02-13 | Tencent America LLC | Method and apparatus for substitutional neural residual compression |
CN116711249A (zh) * | 2020-12-29 | 2023-09-05 | 高通股份有限公司 | 用于无线通信***中的联合学习的梯度向量的信令 |
CN113193999B (zh) * | 2021-04-29 | 2023-12-26 | 东北大学 | 一种基于深度确定性策略梯度的虚拟网络映射方法 |
CN113780461B (zh) * | 2021-09-23 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于特征匹配的鲁棒神经网络训练方法 |
US20240104346A1 (en) * | 2022-09-15 | 2024-03-28 | Huawei Technologies Co., Ltd. | Method and device for compressing generative pre-trained language models via quantization |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598972A (zh) | 2015-01-22 | 2015-05-06 | 清华大学 | 一种大规模数据回归神经网络快速训练方法 |
US20170098171A1 (en) | 2015-10-02 | 2017-04-06 | International Business Machines Corporation | Asynchronous stochastic gradient descent |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926804A (en) | 1994-07-01 | 1999-07-20 | The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations | Discriminant neural networks |
KR100364753B1 (ko) * | 1999-11-19 | 2002-12-16 | 엘지전자 주식회사 | 칼라 히스토그램의 빈값 양자화 방법 |
US9235799B2 (en) | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
US9483728B2 (en) | 2013-12-06 | 2016-11-01 | International Business Machines Corporation | Systems and methods for combining stochastic average gradient and hessian-free optimization for sequence training of deep neural networks |
US20180075347A1 (en) * | 2016-09-15 | 2018-03-15 | Microsoft Technology Licensing, Llc | Efficient training of neural networks |
US20180107926A1 (en) * | 2016-10-19 | 2018-04-19 | Samsung Electronics Co., Ltd. | Method and apparatus for neural network quantization |
US10685285B2 (en) * | 2016-11-23 | 2020-06-16 | Microsoft Technology Licensing, Llc | Mirror deep neural networks that regularize to linear networks |
US11062215B2 (en) * | 2017-03-17 | 2021-07-13 | Microsoft Technology Licensing, Llc | Using different data sources for a predictive model |
-
2017
- 2017-12-04 US US15/830,170 patent/US11295208B2/en active Active
-
2018
- 2018-11-30 GB GB2009717.6A patent/GB2582232A/en not_active Withdrawn
- 2018-11-30 WO PCT/IB2018/059516 patent/WO2019111118A1/en active Application Filing
- 2018-11-30 JP JP2020529245A patent/JP7087079B2/ja active Active
- 2018-11-30 DE DE112018006189.2T patent/DE112018006189T5/de active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598972A (zh) | 2015-01-22 | 2015-05-06 | 清华大学 | 一种大规模数据回归神经网络快速训练方法 |
US20170098171A1 (en) | 2015-10-02 | 2017-04-06 | International Business Machines Corporation | Asynchronous stochastic gradient descent |
Non-Patent Citations (1)
Title |
---|
CHEN Chia-Yu et al.,AdaComp : Adaptive Residual Gradient Compression for Data-Parallel Distributed Training,arXiv.org [online],2017年12月07日,[2022年5月25日検索], インターネット<URL : https://arxiv.org/abs/1712.02679v1> |
Also Published As
Publication number | Publication date |
---|---|
US20190171935A1 (en) | 2019-06-06 |
DE112018006189T5 (de) | 2020-09-03 |
US11295208B2 (en) | 2022-04-05 |
GB202009717D0 (en) | 2020-08-12 |
JP2021505993A (ja) | 2021-02-18 |
WO2019111118A1 (en) | 2019-06-13 |
GB2582232A (en) | 2020-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7087079B2 (ja) | 深層学習アプリケーションのための堅牢な勾配重み圧縮方式 | |
US20180240062A1 (en) | Collaborative algorithm development, deployment, and tuning platform | |
US11263052B2 (en) | Determining optimal compute resources for distributed batch based optimization applications | |
CN110580197A (zh) | 大型模型深度学习的分布式计算架构 | |
US11681914B2 (en) | Determining multivariate time series data dependencies | |
US11429434B2 (en) | Elastic execution of machine learning workloads using application based profiling | |
JP7398482B2 (ja) | ニューラル・ネットワークのデータセット依存の低ランク分解 | |
US20230359899A1 (en) | Transfer learning based on cross-domain homophily influences | |
WO2020148588A1 (en) | Machine learning framework for finding materials with desired properties | |
US11915121B2 (en) | Simulator-assisted training for interpretable generative models | |
CN112446498A (zh) | 在线部分奖励学习 | |
WO2022022571A1 (en) | Resource allocation for tuning hyperparameters of large-scale deep learning workloads | |
JP2023540879A (ja) | ゼロショット言語間転移学習 | |
WO2024002753A1 (en) | Thermal and performance management | |
US20220366230A1 (en) | Markov processes using analog crossbar arrays | |
AU2021271202B2 (en) | Matrix sketching using analog crossbar architectures | |
JP2022181195A (ja) | 方法、連合学習システム、およびコンピュータプログラム(圧縮埋め込みを用いた垂直連合学習) | |
US11574196B2 (en) | Dynamic management of weight update bit length | |
JP2023545299A (ja) | ゲート・リカレント・ニューラル・ネットワークのためのゲート・ユニット | |
WO2019136178A1 (en) | Collaborative algorithm development, deployment, and tuning platform | |
US20220398452A1 (en) | Supervised similarity learning for covariate matching and treatment effect estimation via self-organizing maps | |
US20230385599A1 (en) | Parallel and distributed processing of propositional logical neural networks | |
US20230214705A1 (en) | Model-agnostic input transformation for neural networks | |
US20240020528A1 (en) | Training a neural network using an accelerated gradient with shuffling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210128 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210423 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7087079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |