JP6635265B2

JP6635265B2 - 予測装置、予測方法および予測プログラム

Info

Publication number: JP6635265B2
Application number: JP2016150221A
Authority: JP
Inventors: 洋介大山; 育郎佐藤; 裕紀西村; 哲弘野村; 松岡　聡; 聡松岡
Original assignee: Denso Corp; Tokyo Institute of Technology NUC; Denso IT Laboratory Inc
Current assignee: Denso Corp; Tokyo Institute of Technology NUC; Denso IT Laboratory Inc
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2020-01-22
Anticipated expiration: 2036-07-29
Also published as: US20180032865A1; JP2018018422A

Description

本発明は、畳み込みニューラルネットワークシステムの重みを更新する学習システムにおける学習時間および／または平均ミニバッチサイズを予測する予測装置、予測方法および予測プログラムに関する。

画像認識の分野において、一般物体認識と呼ばれる問題がある。これは、画像の中に存在する鳥や車といった物体の種別（クラス）を推定する問題である。近年、一般物体認識問題の認識性能の改善が目覚ましい。これは、とりわけ層数の多い、畳み込みニューラルネットワーク（例えば、非特許文献１）によるところが大きい。

画像認識の分野では、過去様々な認識アルゴリズムが提案されてきたが、学習データが膨大になるにつれ、畳み込みニューラルネットワークが他のアルゴリズムの認識性能を上回る傾向となっている。畳み込みニューラルネットワークは、モデルの表現能力が高い反面、学習データの特徴に過度に特化してしまう「過学習」と呼ばれる問題があることが従来指摘されてきた。しかしながら、近年の学習データ量が、過学習の問題の回避を可能にするレベルにまで増大しつつあることが背景にある。

畳み込みニューラルネットワークは認識性能において大きな利点があるが、学習時間が長大であるという弱点を併せ持っている。学習とは、ニューラルネットワークにおける重みやバイアスといったパラメータを最適化する処理である。ソーシャルネットワークに関するデータや、自動運転に関係するデータなどは、今後とも増加の一途をたどるものの一例であるが、いつか学習時間が膨大になりすぎて、実質的な時間内に学習が終了しない可能性も充分に考えられる。場合によっては、学習に年単位の時間を要することも考えられる。こうなった場合、製品化は現実的ではなく、認識性能で劣る畳み込みニューラルネットワーク以外のアルゴリズムの使用を余儀なくされることにもなり兼ねない。すなわち、ニューラルネットワーク学習の抜本的高速化は、産業応用にとって極めて重要な課題である。

上記の課題に対応すべく、ＣＰＵやＧＰＵを備えた複数の計算機（ノードとも呼ばれる）を通信路で接続した計算機クラスタを利用して学習システムを構築し、学習を分散処理させることで、学習時間を大幅に短縮する検討が試みられている（例えば、非特許文献１〜５）。適切な学習システムを構築するためには、学習システムの構成と学習時間との関係を予測できるのが望ましい。

また、学習手法の１つとして勾配法が知られているが、その際に全学習データを用いるのではなく、一部の学習データのみを用いるミニバッチ確率的勾配法（以下、単にミニバッチ学習という）が近年では広く使われている。ミニバッチとは、１回の重み更新に使用される学習データの集合を指し、ミニバッチサイズとはミニバッチを構成するデータの個数を指す。

ミニバッチサイズには適正な範囲があり、これを逸脱すると、学習の収束が遅くなることや、認識精度が悪くなることなどの問題が生じる可能性が高まることが知られている（例えば、非特許文献２、３、５）。そのため、計算機クラスタを用いてミニバッチ学習を行う際には、学習システムの構成と、ミニバッチサイズとの関係を予測できるのが望ましい。

Ren Wu, Shengen Yan, Yi Shan, Qingqing Dang, and Gang Sun, "Deep Image: Scaling up Image Recognition", arXiv:1501.02876, 2015. D. Amodei, et. al, "Deep Speech 2: End-to-End Speech Recognition in English and Mandarin", arXiv:1512.02595, 2015. S. Zhang, C. Zhang, Z. You, R. Zheng, and B. Xu, "Asynchronous stochastic gradient descent for dnn training", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 6660.6663, May 2013. Forrest N. Iandola, Khalid Ashraf, Mattthew W. Moskewicz, Kurt Keutzer, "FireCaffe: near-linear acceleration of deep neural network training on compute clusters", arXiv:1511.00175, 2015. S. Gupta, W. Zhang, and J. Milthorpe, "Model Accuracy and Runtime Tradeo in Distributed Deep Learning", arXiv:1509.04210, 2015.

本発明はこのような問題点に鑑みてなされたものであり、本発明の課題は、複数のノードを用いて畳み込みニューラルネットワークシステム用の重みを学習する学習システムの学習時間および／またはミニバッチサイズを予測する予測装置、予測方法および予測プログラムを提供することである。

本発明の一態様によれば、それぞれがＣＰＵおよびＧＰＵを有する複数のノードから構成され、前記ＣＰＵが前記ＧＰＵを用いて複数の学習データに基づく畳み込みニューラルネットワーク用の重み更新量を算出するとともに、ノード間で前記重み更新量を通信して重みを更新する学習システムにおける学習時間および／または１回の重み更新に用いられる平均学習データ数である平均ミニバッチサイズを予測する予測装置であって、畳み込みニューラルネットワーク構造を示すパラメータと、ノード台数と、各ＧＰＵに一括処理させる学習データ数であるサブバッチ数と、に基づいて、前記学習時間および／または前記平均ミニバッチサイズを予測する予測部を備える予測装置が提供される。

前記予測部は、下記（１）式に基づいて前記学習時間を予測してもよい。
Ｔ_Epoch＝（Ｎ_File×Ｔ_GPU）／（Ｎ_Node×Ｎ_GPU×Ｎ_Subbatch）・・・（１）
ここで、Ｔ_Epochは前記学習時間、Ｎ_Nodeは前記ノード台数、Ｎ_Subbatchは前記サブバッチ数、Ｎ_Fileは総学習データ数、Ｎ_GPUは各ノードが有するＧＰＵ数、Ｔ_GPUは各ＧＰＵが１回の重み更新量を算出するのに要する時間である。

前記予測部は、下記（２）式に基づいて平均ミニバッチサイズを予測してもよい。
Ｎ_Batch＝（Ｎ_Node×Ｎ_GPU×Ｎ_Subbatch×Ｔ_Allreduce）／Ｔ_GPU・・・（２）
ここで、Ｎ_Batchは前記平均ミニバッチサイズ、Ｎ_Nodeは前記ノード台数、Ｎ_Subbatchは前記サブバッチ数、Ｎ_GPUは各ノードが有するＧＰＵ数、Ｔ_GPUは各ＧＰＵが１回の重み更新量を算出するのに要する時間、Ｔ_Allreduceは前記ＣＰＵが通信を行って重みを更新するのに要する時間である。

前記Ｔ_Allreduceは、前記ＣＰＵが通信を行って重みを更新するのに必要な各処理に要する時間の総和であってもよい。
前記Ｔ_GPUは、前記ＣＰＵが重み更新量を算出するのに必要な各処理に要する時間の総和であってもよい。

前記各処理に要する時間は、前記サブバッチ数についての一次関数で与えられてもよい。
この場合、複数の前記サブバッチ数について、前記各処理に要する時間を計測してフィッティングを行うことにより、前記一次関数を定める定数を算出するパラメータ算出部を備えるのが望ましい。

前記予測部によって予測された前記平均ミニバッチサイズが予め定めた範囲に収まるか否かを判定する判定部を備えてもよい。
この場合、前記判定部は、前記平均ミニバッチサイズが予め定めた範囲に収まる前記ノード台数および前記サブバッチ数の組のうち、前記学習時間が最小となる組を特定してもよい。
あるいは、前記判定部は、前記平均ミニバッチサイズが予め定めた範囲に収まる前記ノード台数および前記サブバッチ数の組のうち、前記ノード台数が最小となる組を特定してもよい。
また、前記判定部は、前記平均ミニバッチサイズが予め定めた範囲に収まる前記ノード台数および前記サブバッチ数の組のうち、前記ノード台数と前記学習時間との積が最小となる組を特定してもよい。

本発明の別の態様によれば、それぞれがＣＰＵおよびＧＰＵを有する複数のノードから構成され、前記ＣＰＵが前記ＧＰＵを用いて複数の学習データに基づく畳み込みニューラルネットワーク用の重み更新量を算出するとともに、ノード間で前記重み更新量を通信して重みを更新する学習システムにおける学習時間および／または１回の重み更新に用いられる平均学習データ数である平均ミニバッチサイズを予測する予測方法であって、畳み込みニューラルネットワーク構造を示すパラメータと、ノード台数と、各ＧＰＵに一括処理させる学習データ数であるサブバッチ数と、に基づいて、前記学習時間および／または前記平均ミニバッチサイズを予測する予測方法が提供される。

本発明の別の態様によれば、それぞれがＣＰＵおよびＧＰＵを有する複数のノードから構成され、前記ＣＰＵが前記ＧＰＵを用いて複数の学習データに基づく畳み込みニューラルネットワーク用の重み更新量を算出するとともに、ノード間で前記重み更新量を通信して重みを更新する学習システムにおける学習時間および／または１回の重み更新に用いられる平均学習データ数である平均ミニバッチサイズを予測する予測プログラムであって、コンピュータを、畳み込みニューラルネットワーク構造を示すパラメータと、ノード台数と、各ＧＰＵに一括処理させる学習データ数であるサブバッチ数と、に基づいて、前記学習時間および／または前記平均ミニバッチサイズを予測する予測手段として機能させる予測プログラムが提供される。

学習システムの学習時間および／またはミニバッチサイズを予測できる。

畳み込みニューラルネットワークの構造の一例を模式的に示す図。ミニバッチ学習を行う学習システムのハードウェア構成の一例を示すブロック図。図２の学習システムにおける学習スレッドおよびＡＲスレッドの処理動作の詳細を例示するフロー図。学習スレッドの詳細アルゴリズムを示す擬似プログラム。ＡＲスレッドの詳細アルゴリズムを示す擬似プログラム。学習スレッドおよびＡＲスレッドの処理タイミングを模式的に説明する図。予測装置の概略構成を示すブロック図。予測部３１の構成例を示すブロック図。ＣＮＮの詳細アルゴリズムを示す擬似プログラム。

以下、本発明に係る実施形態について、図面を参照しながら具体的に説明する。
まずは、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）および重みの学習について説明する。次いで、複数のノード（計算機クラスタ）を用いてミニバッチ学習を行う学習システムを説明する。その上で、学習時間やミニバッチサイズを予測する手法を詳しく説明する。

図１は、畳み込みニューラルネットワークの構造の一例を模式的に示す図である。ＣＮＮは、１または複数の畳み込み部２１およびプーリング部２２の組と、多層ニューラルネットワーク構造２３とを備えている。初段の畳み込み部２１に認識対象の画像が入力される。そして、多層ニューラルネットワーク構造２３から認識結果が出力される。

畳み込み部２１は、入力される画像信号（初段の畳み込み部２１にあっては認識（あるいは学習）対象の画像、２段目以降の畳み込み部２１にあっては後述する特徴マップ）に対してフィルタ２１ａを適用して畳み込みを行い、次いで非線形写像を行う。フィルタ２１ａは複数ピクセルの要素を持つ重みであり、各重みはバイアスを含んでいてもよい。

プーリング部２２は、畳み込み部２１からの画像信号の解像度を下げるプーリング操作を行い、特徴マップを生成する。

多層ニューラルネットワーク構造２３は、入力層２３１と、１または複数の隠れ層２３２と、出力層２３３とを有する。入力層２３１には最終段のプーリング部２２からの特徴マップが入力される。隠れ層２３２は重みを用いて積和演算を行う。出力層２３３はＣＮＮ処理の最終結果を出力する。

畳み込み部２１におけるフィルタ２１ａの重みや、隠れ層２３２における重みがニューラルネットワーク用のパラメータである。本実施形態では、これらの重みＷを短時間で学習することを目的としている。学習とは、認識対象の画像が入力されたときにＣＮＮが理想の出力を返すよう、重みを更新することをいう。

学習には、認識の対象となる画像と、それに対する理想的な出力値の組である学習データが用いられる。学習に先立ち、ＣＮＮの出力がどの程度理想的な出力値から離れているかを定量化した関数（例えば二乗誤差やクロスエントロピー）を定義し、全学習データ分だけ足し合わせたコスト関数Ｅ（Ｗ）を用意する。コスト関数Ｅ（Ｗ）は重みＷの関数であり、コスト関数Ｅ（Ｗ）が小さいほどよいＣＮＮであるといえる。学習とは、重みＷを更新することで、コスト関数Ｅ（Ｗ）を小さくする処理とも言える。

本実施形態では、コスト関数Ｅ（Ｗ）を最小化する手法として、誤差逆伝搬法と呼ばれる勾配法の一種を使用する。誤差逆伝搬法は重みの更新を多数回繰り返すものであり、一回の更新は下記（１）式で表される。
Ｗ←Ｗ−ｒ＊ｄＷ・・・（１）
ｒは学習係数と呼ばれるスカラ量であり、更新の度に小さな値にしてもよいし、常に一定の値であってもよい。ｄＷはコスト関数の重みに対する微分を表したものである。すなわち、重みの更新には、現時点での重みＷと、微分値ｄＷとが用いられる。

ここで、一回の重み更新において、全学習データを用いて算出された微分値ｄＷを用いる方法を「バッチ学習」といい、一部の学習データを用いて算出された微分値ｄＷの近似値を用いる方法を「ミニバッチ学習」という。近年では、ミニバッチ学習を採用することが一般的である。その理由は、ミニバッチ学習は、バッチ学習と比較して、多くの場合収束速度が速く、さらには汎化性能（学習データに含まれない画像に対する識別性能）が高いためである。

通常、ミニバッチ学習を採用する場合、ミニバッチサイズをあらかじめ決定しておく必要がある。ミニバッチサイズとは、１回の重み更新（微分値ｄＷの算出）に使用する学習データの個数を指す。適切なミニバッチサイズは、問題依存ではあるが、少ない時で１、多い時でおよそ１０００、といった事例がある。経験的に、ミニバッチサイズには適切な値があり、このサイズを大きく超えると、収束が遅くなったり、汎化性能が劣化したりするデメリットがあることが知られている。すなわち、必ずしもミニバッチサイズを大きくすればよい、というわけではない。また、適切なミニバッチサイズは、全学習データの数を遥かに下回ることもまたよく知られている。

図２は、ミニバッチ学習を行う学習システムのハードウェア構成の一例を示すブロック図である。学習システムはインターコネクトによって接続されたＮ_Node個のノード１から構成される。そして、任意のノード１間でデータ通信が可能である。

ノード１はハードウェアとしての単位であり、例えば１台の計算機である。また、ノード１は複数のプロセス（プログラム）を並列に処理できる。具体的には、ノード１は、１つのＣＰＵ（Central Processing Unit）１１と、Ｎ_GPU個（同図では２つ）のＧＰＵ（Graphics Processing Unit）１２と、ＳＳＤ（Solid State Drive）などのストレージ１３とを有する。なお、１つのノード１が有するＧＰＵ１２の個数Ｎ_GPUは全ノード１で共通とする。

ＣＰＵ１１は、ＡＲスレッドと、Ｎ_GPU個の学習スレッドを実行する。学習スレッドは、ＧＰＵ１２を用い、他のＧＰＵ１２とは非同期で、重み更新量（上記（１）式の微分値ｄＷに対応）を算出する処理である。重み更新量の算出には、自学習スレッドのみが使用する学習データ（ストレージ１３に格納されている）を用いてＧＰＵ１２での学習を繰り返し、学習結果である重み更新量をホストメモリ上のバッファＧｒａｄＢｕｆに積算する。なお、バッファＧｒａｄＢｕｆは学習スレッドごと（言い換えるとＧＰＵ１２ごと）に設けられる。

また、ＡＲスレッドは、各ＧＰＵ１２によって算出された重み更新量を他のノード１と通信することにより、重みを更新するとともに他のノード１と重みを同期させる処理である。より具体的には、ＡＲスレッドは、学習スレッドとは非同期に、各バッファＧｒａｄＢｕｆの値を用いて加算Ａｌｌｒｅｄｕｃｅ通信を行い、重みを更新してホストメモリ上のバッファＡＲＲｅｓｕｌｔＢｕｆに格納する。なお、バッファＡＲＲｅｓｕｌｔＢｕｆはＡＲスレッドごと（言い換えるとノード１ごと）に設けられる。

学習スレッドは学習の度にバッファＡＲＲｅｓｕｌｔＢｕｆが更新されているか確認し、更新されている場合はその値を最新の重みとして使用する。

ここで、各ＧＰＵ１２（言い換えると、各学習スレッド）に一括処理させる学習データの数をサブバッチ数Ｎ_Subbatchとする。全学習データは学習開始前に各ノード１のストレージ１３に分割して格納しておくこととする。具体的には、ストレージ１３には、アクセスされるＧＰＵ１２によって学習処理に用いられる学習データが格納されている。

なお、図２はあくまで一例にすぎず、例えばノード１内のＣＰＵ１１やＧＰＵ１２の数は任意である。また、ストレージ１３は各ノード１に対して外付けであってもよいし、全ノード１からアクセス可能な１つのストレージ１３に全学習データが格納されていてもよく、いずれにしても、各ノード１は学習データを高速に扱うことができる。

図３は、図２の学習システムにおける学習スレッドおよびＡＲスレッドの処理動作の詳細を例示するフロー図である。同図では、１つのノード１が３つのＧＰＵ１２を有する例を示している。また、図４Ａおよび図４Ｂは、それぞれ学習スレッドおよびＡＲスレッドの詳細アルゴリズムを示す擬似プログラムである。

学習スレッドは次の各処理を他の学習スレッドとは非同期で繰り返し行う（図３および図４Ａ参照）。

［Ｓ１：ＬｏｃｋＡＲＲｅｓｕｌｔ＿ＧＰＵ］
バッファＡＲＲｅｓｕｌｔＢｕｆの排他制御を獲得するまで待機する。なお、本処理に要する時間をＴ_{LockARResult_GPU}と表記し、他の処理も同様とする。

［Ｓ２：ＦｅｔｃｈＡＲＲｅｓｕｌｔ］
前回のＦｅｔｃｈＡＲＲｅｓｕｌｔの後に、バッファＡＲＲｅｓｕｌｔＢｕｆが更新されている場合、パラメータＷｅｉｇｈｔｓにバッファＡＲＲｅｓｕｌｔＢｕｆの値をコピーする。

［Ｓ３：ＬｏａｄＩｍａｇｅ］
ストレージ１３からサブバッチ数Ｎ_Subbatch個の学習データを読み込む。

［Ｓ４：ＤｅｆｏｒｍＩｍａｇｅ］
読み込んだ学習データの画像に対して、透視投影変換、射影変換、弾性ひずみ（Elastic distortion）、レンズ効果、クロッピング、左右反転、ＲＧＢ値に対する乱数乗算などの変形を加える。

［Ｓ５：ＣＮＮ］
変形後の学習データに対して、畳み込み演算および逆拡散計算を行う。本処理の詳細は後述する。

［Ｓ６：ＣｏｍｐｕｔｅＵｐｄａｔｅＶａｌ］
上記のパラメータＷｅｉｇｈｔｓおよび逆拡散計算による勾配に基づいて、微分値すなわち重み更新量Ｇｒａｄを計算する。

［Ｓ７：ＬｏｃｋＧｒａｄｉｅｎｔ＿ＧＰＵ］
バッファＧｒａｄＢｕｆの排他制御を獲得するまで待機する。

［Ｓ８：ＵｐｄａｔｅＧｒａｄｉｅｎｔ］
前回のＵｐｄａｔｅＧｒａｄｉｅｎｔの後に、バッファＧｒａｄＢｕｆが更新されている場合、ＣｏｍｐｕｔｅＵｐｄａｔｅＶａｌで得られた重み更新量ＧｒａｄをバッファＧｒａｄＢｕｆにコピーし、更新されていない場合、バッファＧｒａｄＢｕｆに加算する。

以上説明した学習スレッドが１回の学習処理（つまり重み更新量Ｇｒａｄの算出）を行うのに要する時間Ｔ_GPUは上記Ｓ１〜Ｓ８に示す各処理に要する時間の総和であり、下記（２）式で表される。
Ｔ_GPU＝
Ｔ_{LockARResult_GPU} ＋
＋Ｔ_{FetchARResult} ＋
Ｔ_LoadImage ＋
Ｔ_DeformImage ＋
Ｔ_CNN ＋
Ｔ_{ComputeUpdateVal} ＋
Ｔ_{LockGradient_GPU} ＋
Ｔ_{UpdateGradient} ・・・（２）

一方、ＡＲスレッドは次の各処理を学習スレッドとは非同期で繰り返し行う（図３および図４Ｂ参照）。

［Ｓ１１：ＬｏｃｋＧｒａｄｉｅｎｔ＿ＡＲ］
バッファＧｒａｄＢｕｆの排他制御を獲得するまで待機する。

［Ｓ１２：ＳｕｍＧｒａｄｉｅｎｔ］
学習スレッドによって格納されたバッファＧｒａｄＢｕｆが更新されている場合、その総和をパラメータＳｅｎｄＢｕｆに代入する。

［Ｓ１３：ＵｐｄａｔｅＯｌｄＷｅｉｇｈｔｓ］
ＭＰＩランクをｎ（ｎ＝０〜Ｎ_Node−１）としたとき、バッファＡＲＲｅｓｕｌｔＢｕｆに格納された最新の値の｛Ｎ_Param×ｎ／Ｎ_Node｝〜｛Ｎ_Param×（ｎ＋１）／Ｎ_Node｝番目の要素をバッファＯｌｄＷｅｉｇｈｔｓにコピーする。ここで、Ｎ_Paramは学習すべき全重み数である。

［Ｓ１４：ＡｄｄＭｏｍｅｎｔｕｍ］
バッファＳｅｎｄＢｕｆに、パラメータＯｌｄＷｅｉｇｈｔｓと、前回の重み更新量との差分に関するパラメータＤｅｌｔａＷｅｉｇｈｔｓを加算する。

［Ｓ１５：ＭＰＩ＿Ａｌｌｒｅｄｕｃｅ］
Ａｌｌｒｅｄｕｃｅ命令を発行してバッファＳｅｎｄＢｕｆを全ノードで加算し、その結果をバッファＲｅｃｖＢｕｆに代入する。この時点で、バッファＲｅｃｖＢｕｆには更新された重みが格納される。

［Ｓ１６：ＵｐｄａｔｅＭｏｍｅｎｔｕｍ］
バッファＲｅｃｖＢｕｆおよびパラメータＯｌｄＷｅｉｇｈｔｓを用いて、重み更新前後の差分をパラメータＤｅｌｔａＷｅｉｇｈｔｓに代入する。

［Ｓ１７：ＬｏｃｋＡＲＲｅｓｕｌｔ＿ＡＲ］
バッファＡＲＲｅｓｕｌｔＢｕｆの排他制御を獲得するまで待機する。

［Ｓ１８：ＵｐｄａｔｅＡＲＲｅｓｕｌｔ］
バッファＲｅｃｖＢｕｆをバッファＡＲＲｅｓｕｌｔＢｕｆにコピーする。

以上説明したＡＲスレッドがＡｌｌｒｅｄｕｃｅ命令を発行して重み更新を１回行うのに要する時間Ｔ_Allreduceは上記Ｓ１１〜Ｓ１８の各時間の総和であり、下記（３）式で表される。
Ｔ_Allreduce＝
Ｔ_{LockGradient_AR} ＋
Ｔ_SumGradient ＋
Ｔ_{UpdateOldWeights} ＋
Ｔ_AddMomentum ＋
Ｔ_{MPI_Allreduce} ＋
Ｔ_{UpdateMomentum} ＋
Ｔ_{LockARResult_AR} ＋
Ｔ_{UpdateARResult} ・・・（３）

図５は、学習スレッドおよびＡＲスレッドの処理タイミングを模式的に説明する図である。説明を簡略化するために、ノードが２つ（Ｎ_Node＝２）あり、そのそれぞれが３つのＧＰＵを有する（Ｎ_GPU＝３）こととしている。

各四角が各学習スレッドにおいて行われる１回の学習処理を示しており、図３および図４ＡのステップＳ１〜Ｓ８の処理に対応している。各学習処理に要する時間は上記（２）式に示すＴ_GPUである。一方、一点鎖線の枠がＡＲスレッドにおいて行われる１回の通信処理を示しており、図３および図４ＢのステップＳ１１〜Ｓ１８の処理に対応している。各通信処理に要する時間は上記（３）式に示すＴ_Allreduceである。

図５では、Ｔ_Allreduce：Ｔ_GPU＝３：１としている。そのため、例えば、符号５１で示す通信処理では、符号５２，５３で示す２つの学習処理によって得られた学習結果を用いて重みが更新される。他の通信処理でも、いずれか２つの学習スレッドによって得られた学習結果が用いられる。

より一般的には、ＧＰＵ１２の総数がＮ_Node×Ｎ_GPU個であることを考慮し、１回の通信処理では下記（４）式に示す数の学習スレッドによって得られた学習結果が用いられる。
Ｎ_Node×Ｎ_GPU×Ｔ_Allreduce／Ｔ_GPU ・・・（４）

したがって、各学習スレッドに一括処理させる学習データ数すなわちサブバッチ数をＮ_Subbatchとすると、１回の重み更新に用いられる学習データ数すなわち平均ミニバッチサイズＮ_Batchは下記（５）式で表される。
Ｎ_Batch＝（Ｎ_Node×Ｎ_GPU×Ｎ_Subbatch×Ｔ_Allreduce）／Ｔ_GPU ・・・（５）

また、総数Ｎ_Fileの全学習データを処理するのに要する学習時間Ｔ_Epochは、ミニバッチサイズＮ_Batchの学習データを処理するのに要する時間がＴ_Allreduceであることから、下記（６）式で表される。
Ｔ_Epoch＝Ｎ_File×Ｔ_Allreduce／Ｎ_Batch
＝（Ｎ_File×Ｔ_GPU）／（Ｎ_Node×Ｎ_GPU×Ｎ_Subbatch）・・・（６）

なお、学習時間Ｔ_Epochは「エポック時間」で表される。エポックとは、学習に使用したデータ量に関する単位である。１エポックとは総数Ｎ_Fileの全学習データ１回分の学習処理を行うことを意味し、ｎエポックとは全学習データｎ回分の学習処理を行うことを意味する。そして、「１エポック時間」を１エポックの学習処理に必要な時間と定義する。なお、通常は、目的関数の収束までに、多数のエポック、例えば１００エポック程度を要する。

以上を踏まえ、本実施形態では、上記（５），（６）式に基づき、ノード台数Ｎ_Node、サブバッチ数Ｎ_Subbatchから学習時間Ｔ_Epochおよび／または平均ミニバッチサイズＮ_Batchを予測するものとする。

図６は、予測装置の概略構成を示すブロック図である。この予測装置は、ハードウェアで構成されてもよいし、コンピュータが所定のプログラムを実行することによって実現されてもよい。

予測装置は予測部３１を備えている。予測部３１には、ＮＮ構造を示すパラメータ、ノード台数Ｎ_Node、および、各ＧＰＵに一括処理させる学習データ数すなわちサブバッチ数Ｎ_Subbatchが入力変数として入力される。

そして、予測部３１は、予測モデル式を用い、入力変数に基づいて学習時間Ｔ_Epochおよび平均ミニバッチサイズＮ_Batchを予測し、出力変数として出力する。なお、予測部３１は学習時間Ｔ_Epochおよび平均ミニバッチサイズＮ_Batchの一方を予測してもよいが、以下では両方を予測するものとする。

予測装置はパラメータ算出部３２を備えていてもよい。パラメータ算出部３２は、学習システムの構成から、上記のＴ_GPUおよびＴ_Allreduceを算出に必要なパラメータα，βを算出する。その詳細はＴ_GPUおよびＴ_Allreduceの算出と合わせて後述する。

さらに、予測装置は判定部３３を備えていてもよい。判定部３３は、算出された平均ミニバッチサイズＮ_Batchが適切か否か、より具体的には、平均ミニバッチサイズＮ_Batchが予め定められた適切な範囲に収まっているか否かを判定する。

また、判定部３３は、与えられたＮＮ構造に対して、平均ミニバッチサイズＮ_Batchが適切となるノード台数Ｎ_Nodeおよびサブバッチ数Ｎ_Subbatchの適切な組（望ましくはすべての組）を特定してもよい。

そのような適切な組の中で、判定部３３は学習時間Ｔ_Epochが最適（最小）となる組を特定してもよい。これにより、最速で適切な重みを学習できる。

また、そのような適切な組の中で、判定部３３はノード台数Ｎ_Nodeが最小となる組を特定してもよい。これにより、最小のノード台数で適切な重みを学習できる。

あるいは、そのような適切な組の中で、判定部３３はノード時間（ノード台数Ｎ_Nodeと学習時間Ｔ_Epochとの積）が最小となる組を特定してもよい。これにより、ノード時間すなわちリソース占有時間を抑えて、適切な重みを学習できる。

図７は、予測部３１の構成例を示すブロック図である。予測部３１は、Ｎ_Param算出部４１と、Ｔ_GPU・Ｔ_Allreduce算出部４２と、Ｔ_Epoch算出部４３と、Ｎ_Batch算出部４４とを有する。Ｔ_Epoch算出部４３は上記（６）式に基づいて学習時間Ｔ_Epochを算出する。Ｎ_Batch算出部４４は上記（５）式に基づいて平均ミニバッチサイズＮ_Batchを算出する。以下、Ｎ_Param算出部４１およびＴ_GPU・Ｔ_Allreduce算出部４２について主に説明する。

Ｔ_Allreduce，Ｔ_GPUは学習すべき総重み数Ｎ_Paramに依存する。そこで、Ｎ_Param算出部４１は総重み数Ｎ_Paramを算出する。総重み数Ｎ_ParamはＮＮ構造によって定まり、例えば以下の（７）式に基づいて算出できる。
ここで、Ｌｃは畳み込みレイヤ数、ｍｌはｌ層目のマップ数（但しｍ０は入力層のマップ数）、ｃは畳み込みフィルタサイズ、Ｌは総レイヤ数、ｘｌはｌ層目のマップサイズであり（図１参照）、これらが予測部３１にＮＮ構造を示すパラメータとして入力される。言い換えると、ＮＮ構造を示すパラメータとは、総重み数Ｎ_Paramを定めるためのパラメータである。

Ｔ_GPU・Ｔ_Allreduce算出部４２は、総重み数Ｎ_Paramおよび上記（２），（３）式に基づいてＴ_GPUおよびＴ_Allreduceを算出する。
まずは、上記（２）式に基づくＴ_GPUの算出について説明する。

［Ｔ_{LockARResult_GPU}］
Ｔ_{LockARResult_GPU}は各学習スレッドのロック時間の総和であり、下記（２Ａ）式で表される。
なお、Ｔ_{FetchARResult}は次の（２Ｂ）式で表され、Ｔ_{UpdateARResult}は後述する（３Ｅ）式で表される。

［Ｔ_{FetchARResult}］
Ｔ_{FetchARResult}は前回のＦｅｔｃｈＡＲＲｅｓｕｌｔの後に、バッファＡＲＲｅｓｕｌｔＢｕｆが更新されているか否かに依存する。更新されている確率は、Ｔ_Allreduce＞Ｔ_GPUであればＴ_GPU／Ｔ_Allreduceであり、Ｔ_Allreduce＜Ｔ_GPUであれば１と仮定できる。よって、Ｔ_{FetchARResult}は下記（２Ｂ）式で表される。
Ｔ_{FetchARResult} ＝ α１×Ｎ_Param×ｍｉｎ（Ｔ_GPU／Ｔ_Allreduce，１）
・・・（２Ｂ）
ここで、α１は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_LoadImage］
Ｔ_LoadImageはストレージ１３からサブバッチ数Ｎ_Subbatch個の学習データを読み込むのに要する時間であり、下記（２Ｃ）式で表される。
Ｔ_LoadImage ＝ α２×Ｎ_Subbatch＋β２・・・（２Ｃ）
ここで、α２，β２は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_DeformImage］
Ｔ_DeformImageはサブバッチ数Ｎ_Subbatch個の学習データに変形を加えるのに要する時間であり、下記（２Ｄ）式で表される。
Ｔ_DeformImage ＝ α３×Ｎ_Subbatch＋β３・・・（２Ｄ）
ここで、α３，β３は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_CNN］
Ｔ_CNNは畳み込み演算および逆拡散計算、具体的には図８に示すアルゴリズムを実行するのに要する時間である。

［Ｓ２１：ｉｍ２ｃｏｌ］
画像を列ベクトルに変換する。ｌ層目におけるこの処理に要する時間は、上記ｌ層目のマップサイズｘ_lおよびマップ数ｍ_lならびに畳み込みフィルタサイズｃを用いて下記（２Ｅ１’）式で表される。
Ｔ_{im2col_l}＝α１１_l×ｘ_l×ｃ²×ｍ_l-1×Ｎ_Subbatch＋β１１_l
・・・（２Ｅ１’）
ここで、α１１_l，β１１_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１）式で表される。

［Ｓ２２：ｃｏｎｖｏｌｕｔｉｏｎ］
列ベクトルに対して畳み込みを行う。ｌ層目におけるこの処理に要する時間は下記（２Ｅ２’）式で表される。
Ｔ_{convolution_l}＝α１２_l×ｘ_l ²×Ｎ_Subbatch×ｍ_l×ｃ²×ｍ_l-1＋β１２_l
・・・（２Ｅ２’）
ここで、α１２_l，β１２_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ２）式で表される。

［Ｓ２３：ｆｃ］
全結合処理を行う。より詳しくは、特徴マップの全要素を使った線形結合と活性化処理であり、全結合層が複数層連続する場合には、線形結合と活性化処理とが繰り返される。ｌ層目におけるこの処理に要する時間は下記（２Ｅ３’）式で表される。
Ｔ_{fc_l}＝α１３_l×Ｎ_Subbatch×ｍ_l×ｘ_l-1 ²×ｍ_l-1＋β１３_l ・・・（２Ｅ３’）
ここで、α１３_l，β１３_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ３）式で表される。

［Ｓ２４：ａｃｔｉｖａｔｉｏｎ］
バイアスの加算および活性化処理であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ４’）式で表される。
Ｔ_{activation_l}＝α１４_l×ｘ_l ²×ｍ_l×Ｎ_Subbatch＋β１４_l ・・・（２Ｅ４’）
ここで、α１４_l，β１４_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ４）式で表される。

［Ｓ２５：ｐｏｏｌｉｎｇ］
プーリング処理であり、ｌ層目におけるこの処理に要する時間は、ｌ層目のプーリンググリッドサイズｐｌを用いて下記（２Ｅ５’）式で表される。
Ｔ_{pooling_l}＝α１５_l×ｐ_l ²×ｘ_l ²×ｍ_l×Ｎ_Subbatch＋β１５_l
・・・（２Ｅ５’）
ここで、α１５_l，β１５_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ５）式で表される。

［Ｓ２６：ｃ２ｆ］
列ベクトル画像に再変換する。この処理に要する時間は下記（２Ｅ６）式で表される。
Ｔ_c2f＝α１６×ｘ_l ²×ｍ_l×Ｎ_Subbatch＋β１６・・・（２Ｅ６）
ここで、α１６，β１６は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｓ２７：ｂｉａｓ］
バイアスの加算であり、この処理に要する時間は下記（２Ｅ７）式で表される。
Ｔ_bias＝α１７×ｍ_L×Ｎ_Subbatch＋β１７・・・（２Ｅ７）
ここで、α１７，β１７は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｓ２８：ｓｏｆｔｍａｘ］
ソフトマックス処理であり、この処理に要する時間は下記（２Ｅ８）式で表される。
Ｔ_softmax＝α１８×ｍ_L×Ｎ_Subbatch ・・・（２Ｅ８）
ここで、α１８は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｓ２９：ｓｏｆｔｍａｘ＿Ｂ］
コスト関数の、ソフトマックス関数の入力に対する微分計算であり、この処理に要する時間は下記（２Ｅ９）式で表される。
Ｔ_{softmax_B}＝α１９×ｍ_L×Ｎ_Subbatch ・・・（２Ｅ９）
ここで、α１９は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｓ３０：ｄｅｄｘ＿ｆｃ］
将来のベクトルに対する逆拡散処理であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１０’）式で表される。
Ｔ_{dedx_fc_l}＝α２０_l×Ｎ_Subbatch×ｘ_l ²×ｍ_l×ｍ_l+1＋β２０_l
・・・（２Ｅ１０’）
ここで、α２０_l，β２０_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１０）式で表される。

［Ｓ３１：ｄｅｄｘ＿ｃｏｎｖ］
将来のベクトルに対する逆拡散処理であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１１’）式で表される。
Ｔ_{dedx_conv}＝α２１_l×ｘ_l+1 ²×Ｎ_Subbatch×ｃ²×ｍ_l×ｍ_l+1＋β２１_l
・・・（２Ｅ１１’）
ここで、α２１_l，β２１_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１１）式で表される。

［Ｓ３２：ｃ２ｆ＿Ｂ］
ｃ２ｆの逆演算であり、この処理に要する時間は下記（２Ｅ１２）式で表される。
Ｔ_{c2f_B}＝α２２×ｘ_l ²×ｍ_l×Ｎ_Subbatch＋β２２・・・（２Ｅ１２）
ここで、α２２，β２２は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｓ３３：ｉｍ２ｃｏｌ＿Ｂ］
ｉｍ２ｃｏｌの逆演算であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１３’）式で表される。
Ｔ_{im2col_B_l}＝α２３_l×ｘ_l ²×ｃ²×ｍ_l×Ｎ_Subbtach＋β２３_l
・・・（２Ｅ１３’）
ここで、α２３_l，β２３_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１３）式で表される。

［Ｓ３４：ｐｏｏｌｉｎｇ＿Ｂ］
プーリングの逆演算であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１４’）式で表される。
Ｔ_{pooling_B}＝α２４_l×ｘ_l ²×ｍ_l×Ｎ_Subbatch＋β２４_l ・・・（２Ｅ１４’）
ここで、α２４_l，β２４_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１４）式で表される。

［Ｓ３５：ａｃｔｉｖａｔｉｏｎ＿Ｂ］
コスト関数の、活性化関数の入力に対する微分計算であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１５’）式で表される。
Ｔ_{activation_B}＝α２５_l×ｘ_l ²×ｍ_l×Ｎ_Subbatch＋β２５_l
・・・（２Ｅ１５’）
ここで、α２５_l，β２５_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１５）式で表される。

［Ｓ３６：ｄｅｄｗ］
コスト関数の、重みに対する微分計算であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１６’）式で表される。
Ｔ_{dedw_l}＝α２６_l×ｃ_l-1 ²×ｍ_l-1×ｍ_l×ｘ_l ²×Ｎ_Subbatch
＋β２６_l ・・・（２Ｅ１６’）
ここで、α２６_l，β２６_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１６）式で表される。

［Ｓ３７：ｄｅｄｂ］
コスト関数の、バイアスに対する微分計算であり、ｌ層目におけるこの処理に要する時間は下記（２Ｅ１７’）式で表される。
Ｔ_{dedb_l}＝α２７_l×ｍ_l×ｘ_l ²×Ｎ_Subbatch＋β２７_l ・・・（２Ｅ１７’）
ここで、α２７_l，β２７_lは学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
そして、本処理に要する合計時間は下記（２Ｅ１７）式で表される。

以上から、ＴＮＮは上記（２Ｅ１）〜（２Ｅ１７）式の総和であり、下記（２Ｅ）式で表される。
Ｔ_CNN＝
Ｔ_im2col ＋
Ｔ_convolution ＋
Ｔ_fc ＋
Ｔ_activation ＋
Ｔ_pooling ＋
Ｔ_c2f ＋
Ｔ_bias ＋
Ｔ_softmax ＋
Ｔ_{softmax_B} ＋
Ｔ_{dedx_fc} ＋
Ｔ_{dedx_conv} ＋
Ｔ_{c2f_B} ＋
Ｔ_{im2col_B} ＋
Ｔ_{pooling_B} ＋
Ｔ_{activation_B} ＋
Ｔ_dedw ＋
Ｔ_dedb ・・・（２Ｅ）

上記（２）式に戻って説明を続ける。
［Ｔ_{ComputeUpdateVal}］
Ｔ_{ComputeUpdateVal}は長さＮ_Paramのベクトル同士の演算に要する時間であり、下記（２Ｆ）式で表される。
Ｔ_{ComputeUpdateVal}＝α４×Ｎ_Param ・・・（２Ｆ）
ここで、α４は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_{LockGradient_GPU}］
Ｔ_{LockGradient_GPU}は下記（２Ｇ）式で表される。
Ｔ_{LockGradient_GPU}＝（Ｔ_SumGradient／Ｎ_GPU）²／（２×Ｔ_Allreduce）
・・・（２Ｇ）
なお、Ｔ_SumGradientは後述する（３Ｂ）式で表される。

［Ｔ_{UpdateGradient}］
Ｔ_{UpdateGradient}は主にホストメモリへの転送時間であり、下記（２Ｈ）式で表される。
Ｔ_{UpdateGradient}＝α５×Ｎ_Param ・・・（２Ｈ）
ここで、α５は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。
続いて、上記（３）式に基づくＴ_Allreduceの算出について説明する。

［Ｔ_{LockGradient_AR}］
Ｔ_{LockGradient_AR}はＴ_{LockARResult_GPU}と同様に下記（３Ａ）式で表される。
Ｔ_{LockTrResutl_A}＝Ｎ_GPU×Ｔ_{UpdateGradient} ²／（２×Ｔ_GPU）
・・・（３Ａ）

［Ｔ_SumGradient］
Ｔ_SumGradientはＴ_{FetchARResult}と同様に考えることができ、下記（３Ｂ）式で表される。
Ｔ_SumGradient＝α３１×Ｎ_GPU×Ｎ_Param×ｍｉｎ（Ｔ_Allreduce/Ｔ_GPU，１）
・・・（３Ｂ）
ここで、α３１は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_{UpdateOldWeights}］
Ｔ_{UpdateOldWeights}はＮ_Nodeに反比例した長さのベクトル計算を行うため、下記（３Ｃ）式で表される。
Ｔ_SumGradient＝α３２×Ｎ_Param／Ｎ_Node ・・・（３Ｃ）
ここで、α３２は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_AddMomentum］
Ｔ_AddMomentumはＮ_Nodeに反比例した長さのベクトル計算を行うため、下記（３Ｄ）式で表される。
Ｔ_AddMomentum＝α３３×Ｎ_Param／Ｎ_Node ・・・（３Ｄ）
ここで、α３３は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_{MPI_Allreduce}］
Ｔ_{MPI_Allreduce}はＡｌｌｒｅｄｕｃｅによる足し合わせを２ノードずつ行うとして、下記（３Ｅ）式で表される。
Ｔ_{MPI_Allreduce}＝（α３４×ｌｏｇ₂Ｎ_Node＋β３４）×Ｎ_Param
・・・（３Ｅ）
ここで、α３４，β３４は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_{UpdateMomentum}］
Ｔ_{UpdateMomentum}はＮ_Nodeに反比例した長さのベクトル計算を行うため、下記（３Ｆ）式で表される。
Ｔ_{UpdateMomentum}＝α３５×Ｎ_Param／Ｎ_Node ・・・（３Ｆ）
ここで、α３５は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

［Ｔ_{LockARResult_AR}］
Ｔ_{LockARResult_AR}はＴ_{LockGradient_AR}と同様に下記（３Ｇ）式で表される。
Ｔ_{LockARResult_AR}＝Ｎ_GPU×Ｔ_{FetchARResult} ²／（２×Ｔ_GPU）
・・・（３Ｇ）

［Ｔ_{UpdateARResult}］
Ｔ_{UpdateARResult}は長さＮ_Paramの配列のメモリコピーであるから、下記（３Ｅ）式で表される。
Ｔ_{UpdateARResult}＝α３６×Ｎ_Param ・・・（３Ｅ）
ここで、α３６は学習システムに応じた固定パラメータであり、パラメータ算出部３２によって予め算出されている。

以上の数式の各α，β（添え字は省略）が確定していれば、上記（２），（２Ａ）〜（２Ｈ），（３），（３Ａ）〜（３Ｅ）式を連立させることでＴ_GPU，Ｔ_Allreduceが算出される。例えば、Ｔ_GPU，Ｔ_Allreduceに任意の初期値を入れて反復的に更新し、更新差分が十分に小さくなるまで更新を続けることで、Ｔ_GPU，Ｔ_Allreduceが得られる。あるいは、別の数値解法を用いてＴ_GPU，Ｔ_Allreduceを得てもよい。

続いて、パラメータ算出部３２によるα，βの算出法を説明する。添え字に関わらずα，βの算出法は共通するので、上記（２Ｅ６）式におけるＴｃ２ｆ用のα１６，β１６を代表して説明する。

上記（２Ｅ６）式において、Ｔ_c2fはＮ_Subbatchについての一次関数で与えられる。そこで、少なくとも２通りのＮ_Subbatchを指定して所与の学習システムによりｃ２ｆを実行し、その所要時間Ｔ_c2fを計測する。そして、線形回帰を行うことで、α１６，β１６を算出できる。なお、β１６は理想的には０であるが、関数の呼び出しなどのオーバーヘッドがあることも考慮して設定される定数である。

他のα，βについてもＮ_Subbatchについての一次関数となっているから、同様にして算出可能である。

α，βは学習システム（計算機クラスタ）の性能を表現しており、学習システムが変わらなければ一定値である。よって、同じ学習システムを使い続ける限り、予めα，βを算出しておけばよく、平均ミニバッチサイズＮ_Batchや学習時間Ｔ_Epochを算出する度に算出する必要はない。逆に言うと、学習システムが変わった場合には、α，βを算出し直す必要がある。

以上のようにして、予めパラメータ算出部３２によって算出されたα，βから、Ｔ_GPU・Ｔ_Allreduce算出部４２（図６）はＴ_GPU，Ｔ_Allreduceを算出できる。そして、Ｔ_Epoch算出部４３およびＮ_Batch算出部４４は、それぞれ上記（６），（５）式に基づいて、学習時間Ｔ_Epochおよび平均ミニバッチサイズＮ_Batchを算出できる。

このように、本実施形態では、予測モデル式に所与のＣＮＮ構造を入力することで、平均ミニバッチサイズＮ_Batchや学習時間ＴＥｐｏｃｈを予測できる。そのため、適正なミニバッチサイズや学習時間が得られる学習システム、より具体的には、ノード台数やサブバッチ数を設計できる。

上述した実施形態は、本発明が属する技術分野における通常の知識を有する者が本発明を実施できることを目的として記載されたものである。上記実施形態の種々の変形例は、当業者であれば当然になしうることであり、本発明の技術的思想は他の実施形態にも適用しうることである。したがって、本発明は、記載された実施形態に限定されることはなく、特許請求の範囲によって定義される技術的思想に従った最も広い範囲とすべきである。

１ノード
１１ＣＰＵ
１２ＧＰＵ
１３ストレージ
２１畳み込み層
２２プーリング部
２３多層ニューラルネットワーク構造
３１予測部
３２パラメータ算出部
４１Ｎ_Param算出部
４２Ｔ_GPU・Ｔ_Allreduce算出部
４３Ｔ_Epoch算出部
４４ＮＢａｔｃｃｈ算出部

Claims

それぞれがＣＰＵおよびＧＰＵを有する複数のノードから構成され、前記ＣＰＵが前記ＧＰＵを用いて複数の学習データに基づく畳み込みニューラルネットワーク用の重み更新量を算出するとともに、ノード間で前記重み更新量を通信して重みを更新する学習システムにおける学習時間および／または１回の重み更新に用いられる平均学習データ数である平均ミニバッチサイズを予測する予測装置であって、
畳み込みニューラルネットワーク構造を示すパラメータと、ノード台数と、各ＧＰＵに一括処理させる学習データ数であるサブバッチ数と、に基づいて、前記学習時間および／または前記平均ミニバッチサイズを予測する予測部を備える予測装置。
前記予測部は、下記（１）式に基づいて前記学習時間を予測する、請求項１に記載の予測装置。
Ｔ_Epoch＝（Ｎ_File×Ｔ_GPU）／（Ｎ_Node×Ｎ_GPU×Ｎ_Subbatch）・・・（１）
ここで、Ｔ_Epochは前記学習時間、Ｎ_Nodeは前記ノード台数、Ｎ_Subbatchは前記サブバッチ数、Ｎ_Fileは総学習データ数、Ｎ_GPUは各ノードが有するＧＰＵ数、Ｔ_GPUは各ＧＰＵが１回の重み更新量を算出するのに要する時間。
前記予測部は、下記（２）式に基づいて平均ミニバッチサイズを予測する、請求項１または２に記載の予測装置。
Ｎ_Batch＝（Ｎ_Node×Ｎ_GPU×Ｎ_Subbatch×Ｔ_Allreduce）／Ｔ_GPU・・・（２）
ここで、Ｎ_Batchは前記平均ミニバッチサイズ、Ｎ_Nodeは前記ノード台数、Ｎ_Subbatchは前記サブバッチ数、Ｎ_GPUは各ノードが有するＧＰＵ数、Ｔ_GPUは各ＧＰＵが１回の重み更新量を算出するのに要する時間、Ｔ_Allreduceは前記ＣＰＵが通信を行って重みを更新するのに要する時間。
前記Ｔ_Allreduceは、前記ＣＰＵが通信を行って重みを更新するのに必要な各処理に要する時間の総和である、請求項３に記載の予測装置。
前記Ｔ_GPUは、前記ＣＰＵが重み更新量を算出するのに必要な各処理に要する時間の総和である、請求項２乃至４のいずれかに記載の予測装置。
前記各処理に要する時間は、前記サブバッチ数についての一次関数で与えられる、請求項４または５に記載の予測装置。
複数の前記サブバッチ数について、前記各処理に要する時間を計測してフィッティングを行うことにより、前記一次関数を定める定数を算出するパラメータ算出部を備える、請求項６に記載の予測装置。
前記予測部によって予測された前記平均ミニバッチサイズが予め定めた範囲に収まるか否かを判定する判定部を備える請求項１乃至７のいずれかに記載の予測装置。
前記判定部は、前記平均ミニバッチサイズが予め定めた範囲に収まる前記ノード台数および前記サブバッチ数の組のうち、前記学習時間が最小となる組を特定する、請求項８に記載の予測装置。
前記判定部は、前記平均ミニバッチサイズが予め定めた範囲に収まる前記ノード台数および前記サブバッチ数の組のうち、前記ノード台数が最小となる組を特定する、請求項８に記載の予測装置。
前記判定部は、前記平均ミニバッチサイズが予め定めた範囲に収まる前記ノード台数および前記サブバッチ数の組のうち、前記ノード台数と前記学習時間との積が最小となる組を特定する、請求項８に記載の予測装置。
それぞれがＣＰＵおよびＧＰＵを有する複数のノードから構成され、前記ＣＰＵが前記ＧＰＵを用いて複数の学習データに基づく畳み込みニューラルネットワーク用の重み更新量を算出するとともに、ノード間で前記重み更新量を通信して重みを更新する学習システムにおける学習時間および／または１回の重み更新に用いられる平均学習データ数である平均ミニバッチサイズを予測する予測方法であって、
畳み込みニューラルネットワーク構造を示すパラメータと、ノード台数と、各ＧＰＵに一括処理させる学習データ数であるサブバッチ数と、に基づいて、前記学習時間および／または前記平均ミニバッチサイズを予測する予測方法。
それぞれがＣＰＵおよびＧＰＵを有する複数のノードから構成され、前記ＣＰＵが前記ＧＰＵを用いて複数の学習データに基づく畳み込みニューラルネットワーク用の重み更新量を算出するとともに、ノード間で前記重み更新量を通信して重みを更新する学習システムにおける学習時間および／または１回の重み更新に用いられる平均学習データ数である平均ミニバッチサイズを予測する予測プログラムであって、コンピュータを、
畳み込みニューラルネットワーク構造を示すパラメータと、ノード台数と、各ＧＰＵに一括処理させる学習データ数であるサブバッチ数と、に基づいて、前記学習時間および／または前記平均ミニバッチサイズを予測する予測手段として機能させる予測プログラム。