JP7251416B2

JP7251416B2 - 情報処理プログラムおよび情報処理方法

Info

Publication number: JP7251416B2
Application number: JP2019162722A
Authority: JP
Inventors: 久典飯島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-04-04
Anticipated expiration: 2039-09-06
Also published as: JP2021043495A

Description

本発明は、情報処理プログラムおよび情報処理方法に関する。

ディープラーニングでは、数十万から数百万以上の学習データを使用して、ディープニューラルネットワークの各層のパラメータを適切な値に変更していく。ディープラーニングの計算では、積和演算が多用されるため、積和演算の実行効率を向上することでディープラーニングの計算時間は早くなる。

このため、ＣＰＵ（Central Processing Unit）に比べて積和演算の実行効率が高いＧＰＵ（Graphics Processing Unit）が、ディープラーニングに広く使われている。また、ディープラーニングの産業利用が広まるにつれて、ディープラーニングの演算に特化したディープラーニング用の専用プロセッサが開発されている。

例えば、ディープラーニングに使用されるプロセッサは、演算器を含む複数の演算コアと、各演算コアで使用される固有メモリと、所定数の演算コアで共有される共有メモリと、演算コアによる演算の実行を制御する制御部とを有し、メインメモリに接続される。そして、各演算コアは、制御部による制御に基づいて、メインメモリから固有メモリまたは共有メモリに転送されるデータの演算を実行する。

例えば、プロセッサで処理するデータブロックには、データブロックの分割に関する割当属性と、データブロックを分割したサブブロックとともに転送する周辺データを示す余白属性と、サブブロック間の依存関係を示す依存属性とが設定される。そして、制御部は、演算コアで順次実行されるプログラムである第１および第２のカーネルの割当属性が一致する場合、第１のカーネルの実行結果をローカルメモリからグローバルメモリに転送せずに第２のカーネルで使用させることで、処理効率を向上させる。この際、制御部は、第１のカーネルで使用するデータブロックの余白属性および依存属性に、第２のカーネルで使用するデータブロックに設定された余白属性および依存属性をそれぞれ論理和加算する（例えば、特許文献１参照）。

また、固有メモリに対応して設けられるメモリ制御回路に、共有メモリ間でのデータの転送機能を設けることで、演算コアで共通に使用される画像データをメインメモリにアクセスすることなく読み出せるため、処理効率が向上する（例えば、特許文献２参照）。

特開２０１５－１４９０３８号公報国際公開第２００８／１３９２６５号

例えば、ディープニューラルネットワークに含まれる層は、畳み込み層、プーリング層、全結合層または出力層等があり、層の種類は限られており、各層での処理内容とは限られている。このため、各層の処理内容に応じて演算器が実行する演算命令を組み合わせた処理命令が用意される場合がある。

また、ディープラーニングでは、バッチに含まれる学習データを複数に分割してミニバッチを作成し、ミニバッチ単位で学習を実行することが多い。このため、ディープニューラルネットワークに学習データを与える回数であるバッチサイズを特定した複数の処理命令を用意することで、ディープラーニングの演算効率は向上する。

しかしながら、この場合、処理命令で指定されるバッチサイズ以外のバッチサイズをユーザが指定した場合、エラーが発生して処理命令が実行されない不具合が発生する。処理命令で指定されるバッチサイズをユーザに公開する場合、エラーの発生は抑止できるが、ユーザは任意のバッチサイズを選択できないため、学習の自由度が狭まってしまう。一方、ユーザが指定可能な全てのバッチサイズに対応する多数の処理命令を用意することは現実的でない。

１つの側面では、本発明は、任意のバッチサイズを指定してニューラルネットワークの学習を実行することを目的とする。

一つの観点によれば、情報処理プログラムは、演算器と該演算器で使用するデータを保持するメモリとを含む１以上の演算部を有するプロセッサが実行する複数の層を含むニューラルネットワークの学習を制御する情報処理プログラムであって、学習対象の層の学習に使用する学習データのサイズと入力されたバッチサイズとに基づいて、処理するバッチサイズが異なる複数の処理命令の中から前記プロセッサに実行させる処理命令を選択し、前記学習データのサイズと選択した処理命令で指定されるバッチサイズとに基づいて、学習対象の層の学習に使用するメモリサイズを算出し、前記学習データを保持する前記メモリの第１のメモリ領域のメモリサイズが、算出したメモリサイズと一致しない場合、前記算出したメモリサイズを有する第２のメモリ領域を前記メモリに確保して前記学習データを転送し、前記第２のメモリ領域に転送した前記学習データを使用して、前記選択した処理命令を前記プロセッサに実行させる、処理を情報処理装置に実行させる。

１つの側面では、本発明は、任意のバッチサイズを指定してニューラルネットワークの学習を実行することができる。

一実施形態における情報処理装置の一例を示すブロック図である。図１の情報処理装置がニューラルネットワークの学習を実行する場合の動作の一例を示すフロー図である。別の実施形態における情報処理装置の一例を示すブロック図である。ディープニューラルネットワークの概要を示す説明図である。図３の演算コアが実行可能な処理命令の仕様情報の一例を示す説明図である。図３の情報処理装置において、ニューラルネットワークの各層の学習に使用される入出力データのデータ構造と、処理命令に関係するデータ構造との一例を示す説明図である。図６の配置パターンの一例を示す説明図である。図３の情報処理装置がニューラルネットワークの学習を実行する場合の動作の一例を示すフロー図である。図３の情報処理装置において、ニューラルネットワークの学習対象の層における学習時の動作の一例を示す説明図である。図３の情報処理装置において、ニューラルネットワークの学習対象の層における学習時の動作の別の例を示す説明図である。別の実施形態における情報処理装置の一例を示すブロック図である。図１１のホストＣＰＵがホストプログラムを実行することで実現される機能の一例を示す説明図である。メモリに確保したメモリ領域のメモリサイズおよび配置パターンと、学習対象の層の学習で使用する処理命令に対応するメモリサイズおよび配置パターンとの関係を示す説明図である。図１１の情報処理装置がニューラルネットワークの学習を実行する場合の動作の一例を示すフロー図である。別の実施形態における情報処理装置において、処理命令を実行する一例を示す説明図である。さらなる別の実施形態における情報処理装置において、処理命令を実行する一例を示す説明図である。

以下、図面を用いて実施形態が説明される。

図１は、一実施形態における情報処理装置の一例を示す。図１に示す情報処理装置１００は、例えば、サーバであり、ホストＣＰＵ２００、ホストメモリ３００、Ｉ／Ｏ（Input/Output）コントローラ２２０およびディープラーニング（ＤＬ）用のプロセッサ５００を有する。ホストＣＰＵ２００は、バスを介してホストメモリ３００に接続され、Ｉ／Ｏコントローラ２２０を介してプロセッサ５００に接続される。例えば、ホストＣＰＵ２００、ホストメモリ３００、Ｉ／Ｏコントローラ２２０およびプロセッサ５００は、システム基板に搭載される。例えば、ホストメモリ３００は、システム基板に搭載されるメモリモジュールである。

ホストＣＰＵ２００は、ホストメモリ３００に格納された各種プログラムを実行することで、情報処理装置１００の全体の動作を制御するとともに、プロセッサ５００の動作を制御し、学習データを用いてニューラルネットワークの学習を実行する。各種プログラムにはオペレーティングシステムも含まれる。

なお、情報処理装置１００は、システム基板に接続される図示しない入力装置（キーボードやマウス）、出力装置（モニタやプリンタ）および外部記憶装置（ＨＤＤ（Hard Disk Drive）やＳＤＤ（Solid State Drive））を有してもよい。また、情報処理装置１００Ａは、イントラネットやインターネット等のネットワークに接続されてもよく、ネットワークを介して複数の情報処理装置１００Ａが相互に接続されてもよい。

ホストメモリ３００には、ユーザ定義ファイル３１０と、ニューラルネットワーク（ＮＮ）に演算を実行させるためのホストプログラム４００とが格納される。ユーザ定義ファイル３１０は、ニューラルネットワークを定義した構成情報を含むファイル３１１と、学習データのファイル３１２とを含む。ファイル３１１、３１２は、ユーザにより準備される。以下では、ファイル３１１に含まれるニューラルネットワークの構成情報をニューラルネットワーク３１１とも称し、ファイル３１２に含まれる学習データを学習データ３１２とも称する。特に断らない限り、学習データ３１２は、ニューラルネットワークに含まれる複数の層のうち、学習対象の層の学習に使用される学習データを示す。

ホストプログラム４００は、ホストＣＰＵ２００に実行されることで、選択部４０１、算出部４０２、判定部４０３、転送部４０４および処理命令実行部４０５として機能する。ホストプログラム４００に含まれる処理命令のファイル４０６は、プロセッサ５００が実行する複数の処理命令を含んでおり、ニューラルネットワーク３１１の学習の実行時にプロセッサ５００に転送され、プロセッサ５００により実行される。例えば、処理命令は、ニューラルネットワークに含まれる畳み込み層の演算を実行する畳み込み演算用の処理命令、プーリング層の演算を実行するプーリング演算用の処理命令、加算命令および行列積演算命令等を含む。

プロセッサ５００は、複数の演算器５２０とメモリ５３０とを各々含む複数の演算コア５１０を有する。メモリ５３０は、メモリ５３０とともに演算コア５１０に搭載される演算器５２０のみに使用される。演算コア５１０は、演算部の一例である。演算コア５１０は、ホストＣＰＵ２００からの指示に基づいて、処理命令を並列に実行する。なお、各メモリ５３０は、各演算コア５１０に専用に使用されるメモリとして、各演算コア５１０の外部に設けられてもよい。複数の演算器５２０は、積和演算器、加算器または行列積演算器等である。

ホストＣＰＵ２００が、ホストプログラム４００を実行してニューラルネットワークの学習を実行する場合、選択部４０１、算出部４０２、判定部４０３、転送部４０４および処理命令実行部４０５は、次のように機能する。以下では、ニューラルネットワークの層毎の学習について説明するが、各層の学習を順次実行することで、ニューラルネットワークの学習を実行することができる。また、ニューラルネットワークの入力側の層から学習を順次実行することで、順伝播処理を実行することができ、ニューラルネットワークの出力側の層から学習を順次実行することで、逆伝播処理を実行することができる。

選択部４０１は、ニューラルネットワークにおいて、学習対象の層の学習に使用する学習データのサイズをユーザ定義ファイル３１０から取得する。選択部４０１は、取得した学習データのサイズと、情報処理装置１００に入力されたバッチサイズとに基づいて、ファイル４０６内の複数の処理命令の中からプロセッサ５００に実行させる処理命令を選択する。図５で説明するように、バッチサイズが異なる複数の処理命令が、演算の種類（畳み込み演算やプーリング演算等）毎に用意され、ファイル４０６に予め格納される。例えば、情報処理装置１００に入力されるバッチサイズは、ユーザにより指定される任意のバッチサイズである。

算出部４０２は、選択部４０１が取得した学習対象の層の学習データのサイズと、選択部４０１が選択した処理命令で指定されるバッチサイズとに基づいて、学習対象の層の学習に使用するメモリ５３０のメモリサイズを算出する。ここで、処理命令で指定されるバッチサイズは、処理命令毎に処理する固定のバッチサイズであり、情報処理装置１００に入力されたユーザ指定のバッチサイズが、処理命令で指定されるバッチサイズと一致するとは限らない。

学習対象の層の学習を開始する前に、演算コア５１０のメモリ５３０には、層への入力データおよび層からの出力データを格納するメモリ領域（第１のメモリ領域）が割り当てられる。また、入力データ用のメモリ領域には、学習に使用する入力データ（学習デーが）が格納される。なお、２層目以降の層では、１つ前の層の演算により出力された出力データが学習対象の層の入力データとしてメモリ領域（第１のメモリ領域）に保持される。

判定部４０３は、学習データを保持するメモリ５３０の第１のメモリ領域のメモリサイズが、算出部４０２が算出したメモリサイズと一致するか否かを判定する。すなわち、判定部４０３は、学習データのサイズとユーザ指定のバッチサイズとにから求まるメモリサイズと、学習データのサイズと処理命令に依存するバッチサイズとから求まるメモリサイズとの一致／不一致を判定する。

メモリサイズが一致する場合、第１のメモリ領域に保持された学習データ（入力データ）を使用して学習を実行できるが、メモリサイズが一致しない場合、演算実行時にエラーが発生するため、学習を実行できない。なお、判定部４０３は、ニューラルネットワークの各層に対して入力または出力されるテンソルデータ毎にメモリサイズの一致／不一致を判定する。

転送部４０４は、判定部４０３がメモリサイズの不一致を判定した場合、不一致を判定したテンソルデータに対応して算出部４０２が算出したメモリサイズのメモリ領域（第２のメモリ領域）をメモリ５３０に新たに確保する。転送部４０４は、新たに確保した第２のメモリ領域に、学習対象の層で学習する学習データ（入力データ）を転送する。新たに確保した第２のメモリ領域に学習データが転送された場合、第１のメモリ領域に保持された学習データは、使用禁止または無効にされ、あるいは破棄される。

そして、処理命令実行部４０５は、有効なメモリ領域（第１のメモリ領域または第２のメモリ領域）に保持された学習データを使用して、選択部４０１が選択した処理命令をプロセッサ５００に実行させることで、ニューラルネットワークの学習を実行する。

この実施形態では、情報処理装置１００に入力されたバッチサイズが、学習を実行する処理命令で指定されるバッチサイズと異なる場合にも、処理命令の実行に使用するメモリサイズに合わせてメモリ領域を確保することができる。この結果、任意のバッチサイズが情報処理装置１００に入力された場合にも、エラーを発生させることなく学習を実行することができる。

図２は、図１の情報処理装置１００がニューラルネットワークの学習を実行する場合の動作の一例を示す。図２に示す動作は、ホストＣＰＵ２００がホストプログラム４００を実行することにより実現される。すなわち、図２は、情報処理プログラムおよび情報処理方法の一例を示す。

例えば、図２に示す動作は、ニューラルネットワークの学習を実行する指示を情報処理装置１００が受けたことに基づいて開始される。なお、図２に示す動作は、順伝播処理および逆伝播処理において、ニューラルネットワークに含まれる複数の層の各々に対応して実行される。

まず、ステップＳ１において、選択部４０１は、学習データのサイズと、情報処理装置１００に入力されたバッチサイズとに基づいて、複数の処理命令の中からプロセッサ５００に実行させる処理命令を選択する。

次に、ステップＳ２において、算出部４０２は、学習データのサイズと、選択部４０１が選択した処理命令で指定されるバッチサイズとに基づいて、学習に使用するメモリ５３０のメモリサイズを算出する。

次に、ステップＳ３において、判定部４０３は、学習データを保持するメモリ５３０の第１のメモリ領域のメモリサイズが、算出部４０２が算出したメモリサイズと一致するか否かを判定する。メモリサイズが一致する場合、処理はステップＳ５に移行され、メモリサイズが一致しない場合、処理はステップＳ４に移行される。

ステップＳ４において、転送部４０４は、算出部４０２が算出したメモリサイズのメモリ領域（第２のメモリ領域）をメモリ５３０に新たに確保し、確保した第２のメモリ領域に、学習データを転送し、処理をステップＳ５に移行する。

ステップＳ５において、処理命令実行部４０５は、有効なメモリ領域（第１のメモリ領域または第２のメモリ領域）に保持された学習データを使用して、選択部４０１が選択した処理命令をプロセッサ５００に実行させる。そして、プロセッサ５００が処理命令で指示される演算を実行することで、ニューラルネットワークにおける学習対象の層の学習が実行される。

以上、図１および図２に示す実施形態では、情報処理装置１００に入力されたバッチサイズが、学習を実行する処理命令で指定されるバッチサイズと異なる場合にも、処理命令の実行に使用するメモリサイズに合わせてメモリ領域を確保することができる。この結果、任意のバッチサイズが指定された場合にも、エラーを発生させることなく学習を実行することができる。

図３は、別の実施形態における情報処理装置の一例を示す。図１と同様の要素については、同じ符号を付し、詳細な説明は省略する。図３に示す情報処理装置１００Ａは、例えば、サーバであり、図１の情報処理装置１００と同様の構成を有する。

ホストメモリ３００には、ユーザ定義ファイル３１０と、ニューラルネットワーク（ＮＮ）に演算を実行させるためのホストプログラム４００Ａが格納される。ユーザ定義ファイル３１０は、図１と同様に、ニューラルネットワークを定義した構成情報を含むファイル３１１と、学習データのファイル３１２とを含む。

ホストプログラム４００Ａは、ホストＣＰＵ２００に実行されることで、演算種決定部４１１、データサイズ変更部４１２、変換／転送指示部４１４、情報管理部４２１および処理命令実行部４３２として機能する。演算種決定部４１１、データサイズ変更部４１２、変換／転送指示部４１４、情報管理部４２１および処理命令実行部４３２の機能については、図８に示す動作フローで説明する。

例えば、ホストプログラム４００Ａに含まれる処理命令のファイル４２３は、プロセッサ５００が実行する複数の処理命令を含んでおり、ニューラルネットワーク３１１の学習の実行時にプロセッサ５００に転送され、プロセッサ５００により実行される。各処理命令は、プロセッサ５００の演算器５２０が実行する演算命令列を含む。処理命令の種類については、図５で説明する。

図４は、ディープニューラルネットワークの概要を示す。図４に示すディープニューラルネットワークは、複数組の畳み込み層／プーリング層と、全結合層とを隠れ層に含むが、他の層を含んでもよい。

情報処理装置１００Ａは、例えば、ミニバッチに含まれる複数の学習データ（入力データ）の各々を入力層に入力し、畳み込み層、プーリング層等の演算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝える順伝播処理を実行する。なお、例えば、畳み込み層は、前の層からのデータ（出力データ）と、学習データとして予め準備された重みデータとが畳み込み演算され、演算により得られた出力データが次の層の入力データとして出力される。

ミニバッチによる順伝播処理の実行後、出力データと正解データとの差分（例えば、誤差の二乗和）を小さくするための逆伝播処理が実行される。そして、逆伝播処理の実行に基づいて重み等のパラメータが更新される。複数のミニバッチにおいて、順伝播処理、逆伝播処理およびパラメータの更新処理を実行することで、徐々に正解率が上がっていき、ディープニューラルネットワークが最適化される。順伝播処理および逆伝播処理における各層の演算は、演算コア５１０が処理命令を実行することで行われる。

図５は、図３の演算コア５１０が実行可能な処理命令の仕様情報の一例を示す。この実施形態では、演算の種類毎に１つまたは複数の処理命令が予め準備され、処理命令としてホストメモリ３００のファイル４２３に保持される。なお、図５では、入力データは２つあり（入力１と入力２）、出力データは１つあるとする（出力１）が、入力データと出力データの数は、図５に示す例に限定されない。また、プロセッサ５００が実行可能な処理の種類と処理命令の数は、図５に限定されない。

順伝播処理では、各層において、入力層側から入力データが与えられ、出力層側から演算結果が出力される。逆伝播処理では、出力層側（順伝播処理での出力側）から入力が与えられ、入力層側（順伝播処理での入力側）から演算結果が出力される。

例えば、畳み込み演算では、４種類の処理命令Ｃｏｎｖ１、Ｃｏｎｖ２、Ｃｏｎｖ３、Ｃｏｎｖ４が使用可能である。処理命令Ｃｏｎｖ１－Ｃｏｎｖ４は、対応バッチ数と、入力１、入力２、出力１の配置パターン（分散型またはコピー型）とにより使い分けられる。

要素毎の加算では、１種類の処理命令Ａｄｄ１が使用可能である。処理命令Ａｄｄ１は、任意のバッチ数で使用可能であり、入力１、入力２、出力１のデータ配置は、全て分散型である。

行列積では、２種類の処理命令Ｇｅｍｍ１、Ｇｅｍｍ２が使用可能である。処理命令Ｇｅｍｍ１、Ｇｅｍｍ２は、任意のバッチ数で使用可能であり、入力１／入力２の一方が分散型、入力１／入力２の他方がコピー型であり、出力１は分散型である。

図６は、図３の情報処理装置において、ニューラルネットワークの各層の学習に使用される入出力データのデータ構造と、処理命令に関係するデータ構造との一例を示す説明図である。図６は、入力テンソルデータが２つで、出力テンソルデータが１つの層の入出力データのデータ構造を示す。

入出力データのデータ構造は、ニューラルネットワークの各層に対して入力または出力されるテンソルデータ毎に定められる。各テンソルデータは、各層に対して入力または出力される入出力データ以外に、各次元の要素数と、メモリサイズと、配置パターンとの情報を有する。例えば、画像認識用のニューラルネットワークの学習において、入力画像データの次元は、バッチサイズＮ、色Ｃ、横の画素数Ｗ、縦の画素数Ｈの４つであり、次元毎に要素数が設定される。一例として、各次元の要素数が、バッチサイズＮ＝３２、色Ｃ＝３（カラー画像）、画素数Ｗ＝１０、画素数Ｈ＝１０であり、データが単精度（４バイト）の浮動小数点数であるとする。

この場合、テンソルデータサイズは、３８４００バイトとなり、テンソルデータを格納するメモリ５３０のメモリ領域のメモリサイズは３８４００バイト以上に設定される。各テンソルデータサイズは、各次元の要素数の積と１データ当たりのバイト数とを乗じることで算出される。配置パターンは、各テンソルデータを複数のメモリ５３０に分散して格納する分散型と、各テンソルデータを複数のメモリ５３０にそれぞれ格納するコピー型とのいずれかである。配置パターンの例は、図７で説明する。

入力テンソルデータの数および出力テンソルデータの数は、演算の種類によって決まる。処理命令に関するデータ構造は、処理命令で使用するメモリサイズと、処理命令で使用する配置パターンとを有する。処理命令で使用するメモリサイズは、処理命令で指定されるバッチサイズと、学習対象の層の学習に使用するデータのサイズとに基づいて設定される。なお、処理命令による処理では、１つ以上のテンソルデータが入力されると、１つ以上のテンソルデータが出力される。

図７は、図６の配置パターンの一例を示す。説明を分かりやすくするため、図７に示す例では、テンソルデータがデータＤ１、Ｄ２、Ｄ３、Ｄ４を含むものとする。配置パターンが分散型の場合、データＤ１－Ｄ４は、各演算コア５１０のメモリ５３０に分散して配置される。一方、配置パターンがコピー型の場合、データＤ１－Ｄ４が各演算コア５１０のメモリ５３０にそれぞれ配置される。コピー型は、重複型の一例である。

図８は、図３の情報処理装置１００Ａがニューラルネットワークの学習を実行する場合の動作の一例を示す。図６に示す動作は、図３のホストＣＰＵ２００がホストプログラム４００Ａを実行することにより実現される。すなわち、図６は、情報処理プログラムおよび情報処理方法の一例を示す。

例えば、図８に示す動作は、ニューラルネットワークの学習を実行する指示を情報処理装置１００Ａが受けたことに基づいて開始される。なお、図８に示す動作は、順伝播処理および逆伝播処理において、ニューラルネットワークに含まれる複数の層の各々に対応して実行される。

まず、ステップＳ１０において、図３の演算種決定部４１１は、ユーザ定義ファイル３１０中のニューラルネットワークにおける学習対象の層の構成情報等の仕様に基づいて、演算種を決定する。例えば、学習対象の層が畳み込み層の場合、"畳み込み"が演算種に決定される。演算種は、学習対象の層の学習に使用する演算方式の一例である。

次に、ステップＳ１２において、変換／転送指示部４１４は、ユーザにより指定されたバッチサイズと、ニューラルネットワークにおける学習対象の層の仕様と、学習データとに基づいて、各メモリ５３０において、演算に使用するメモリ領域を確保する。ここで、学習対象の層の仕様と学習データとして、入出力データの配置パターン（分散型／コピー型）と、演算に使用するデータサイズとが使用され、メモリ領域（第１のメモリ領域）が確保される。そして、変換／転送指示部４１４は、配置パターンにしたがって、各メモリ５３０に確保したメモリ領域に、演算に使用する学習データ（ユーザにより指定されたバッチサイズ分のデータ）を転送する。

なお、ニューラルネットワークの学習（順伝播処理または逆伝播処理のいずれか）において、２層目以降の処理では、前の層の演算により得られた出力データが入力データとして使用される。また、前の層の演算により得られた出力データの配置パターンが、演算対象の層の入力データの配置パターンとして使用される。このため、２層目以降の各層の学習では、ステップＳ１２によるメモリ領域の確保とデータ転送は実行されなくてもよい。

次に、ステップＳ１４において、情報管理部４２１は、ステップＳ１０で決定した演算種と、ユーザにより指定されたバッチサイズと、演算に使用する学習データのサイズとに基づいて、演算対象の層で実行するための処理命令を選択する。ここで、２層目以降の各層の処理では、前の層の演算により得られた出力データのサイズを含めたメモリサイズに基づいて、処理命令が選択される。

次に、ステップＳ１６において、情報管理部４２１は、例えば、図５に示した情報に基づいて、ステップＳ１４で選択した処理命令に対応するデータの配置パターンを求める。また、情報管理部４２１は、ステップＳ１４で選択した処理命令で指定される処理命令固有のバッチサイズおよび配置パターンと、学習データのサイズとに基づいて、選択した処理命令で使用するメモリサイズとを算出する。

次に、ステップＳ２０において、データサイズ変更部４１２は、ステップＳ１６で算出したメモリサイズ（選択した処理命令で指定されるバッチサイズに依存する）と、ステップＳ１２で確保したメモリ領域のメモリサイズとの一致／不一致を判定する。なお、２層目以降の処理では、前の層の演算により得られた出力データのサイズを含めたメモリサイズが、ステップＳ１６で算出したメモリサイズと比較される。メモリサイズが一致する場合、処理はステップＳ２４に移行し、メモリサイズが不一致の場合、処理はステップＳ２２に移行する。

ステップＳ２２において、データサイズ変更部４１２は、ステップＳ１２で確保したメモリ領域（第１のメモリ領域）に代えて、ステップＳ１６で算出したメモリサイズに対応するメモリ領域（第２のメモリ領域）を各メモリ５３０に新たに確保する。すなわち、データサイズ変更部４１２は、ステップＳ１２で確保した入出力データのメモリサイズを、処理命令の仕様であるメモリサイズに変更する。データサイズ変更部４１２は、新たに確保したメモリ領域に、演算に使用する学習データ（ユーザにより指定されたバッチサイズ分のデータ）を転送し、処理をステップＳ２４に移行する。

なお、新たに確保したメモリ領域のサイズが、演算に使用する学習データのサイズより大きい場合、データサイズ変更部４１２は、空きのメモリ領域に処理命令による演算の実行に影響を与えないダミーデータを格納してもよい。なお、ステップＳ１２で確保したメモリ領域に保持されているデータは、使用禁止または無効にされ、あるいは破棄される。

ステップＳ２４において、変換／転送指示部４１４は、ステップＳ１２で使用したデータの配置パターンと、ステップＳ１６で求めたデータの配置パターンとの一致／不一致を判定する。ここで、配置パターンの一致／不一致は、データの種類毎（図５の入力１、入力２、出力１）に判定される。すなわち、ステップＳ２４、Ｓ２６は、データの種類毎に判定される。配置パターンが一致する場合、処理はステップＳ２８に移行し、配置パターンが不一致の場合、処理はステップＳ２６に移行する。なお、２層目以降の処理では、前の層の演算により得られた出力データの配置パターンを含めた配置パターンが、ステップＳ１６で求めたデータの配置パターンと比較される。

ステップＳ２６において、変換／転送指示部４１４は、ステップＳ１２で確保したメモリ領域（第１のメモリ領域）に代えて、ステップＳ１６で算出したメモリサイズに対応するメモリ領域（第３のメモリ領域）を各メモリ５３０に新たに確保する。すなわち、変換／転送指示部４１４は、ステップＳ１２で確保したメモリ領域に対応する配置パターンを処理命令の仕様である配置パターンに変更する。変換／転送指示部４１４は、新たに確保したメモリ領域に、演算に使用する学習データ（ユーザにより指定されたバッチサイズ分のデータ）を、ステップＳ１６で求めたデータの配置パターンにしたがって転送し、処理をステップＳ２８に移行する。

なお、ステップＳ２２、Ｓ２６の処理は、同時に実行されてもよい。すなわち、メモリサイズが不一致で、配置パターンも不一致の場合、メモリ領域の確保とデータの転送とは、一度に実行される。

ステップＳ２８において、処理命令実行部４３２は、ステップＳ１４で選択された処理命令を各演算コア５１０に転送し、各演算コア５１０に処理命令を実行させ、図６に示す処理を終了する。これにより、ニューラルネットワークの１つの層の学習処理が実行される。

図９は、図３の情報処理装置において、ニューラルネットワークの学習対象の層における学習時の動作の一例を示す。例えば、図９は、画像を認識するニューラルネットワークの学習時の動作の一例を示し、各次元の要素数が、バッチサイズＮ＝３２、色Ｃ＝３、画素数Ｗ＝１０、画素数Ｈ＝１０、データが単精度浮動小数点数（４バイト）であるとする。学習対象の層に入力される入力データ（入力テンソルデータ）のサイズは３８４００バイトであるとする。また、学習対象の層と、学習対象の層の１つ前の層とにおいて、データの配置パターンは、分散型であるとする。以下では、学習対象の層を対象層とも称し、学習対象の層の１つ前の層を前層とも称する。

図９（ａ）では、前の層の出力データ（出力テンソルデータ）は、３８４００バイト（９６００×４）であるため、プロセッサ５００は、演算結果である出力データを、９６００バイトずつ４つのメモリ５３０に分散して格納する。

対象層において、図８のステップＳ１６で算出されたメモリサイズは３８４００バイトであり、配置パターンは分散型である。このため、図８のステップＳ２０、Ｓ２４の判定において、メモリサイズ、配置パターンとも一致し、メモリサイズおよび配置パターンの変更は行われない。

そして、プロセッサ５００は、メモリ５３０に格納された前層の演算結果を入力データとして、対象層の学習を実行する。このように、対象層の学習に使用するデータを保持するメモリ領域のメモリサイズと、対象層の学習に使用する処理命令で指定されるバッチサイズに基づき算出されたメモリサイズとが一致する場合、メモリ領域をそのまま使用して処理命令を実行することができる。前層の演算後、対象層の演算を実行するまでにメモリ領域を確保するなどの前処理がないため、学習効率を低下させずに、対象層の学習において処理命令の演算を実行することができる。

図９（ｂ）では、前の層の出力データ（出力テンソルデータ）用のメモリ領域のメモリサイズは、メモリ５３０毎に８４００バイトであり、プロセッサ５００は、演算結果である出力データを、８４００バイトずつ４つのメモリ５３０に分散して格納する。一方、対象層において、図８のステップＳ１６で算出されたメモリサイズは３８４００バイト（９６００×４）であり、配置パターンは分散型である。対象層の演算を実行する処理命令で使用するメモリ５３０毎のメモリサイズは９６００バイトとなり、図８のステップＳ２０、Ｓ２４の判定において、配置パターンは一致するが、メモリサイズは不一致となる。

したがって、図８のステップＳ２２において、データサイズ変更部４１２は、前層の出力データを保持している第１のメモリ領域に代えて、処理命令の仕様であるメモリサイズに対応する第２のメモリ領域を各メモリ５３０に新たに確保する。そして、データサイズ変更部４１２は、新たに確保した第２のメモリ領域に、前層の出力データを転送する。

これにより、対象層での学習において、入力データが格納されているメモリ領域のメモリサイズと、処理命令に対応するメモリサイズとを一致させることができ、プロセッサ５００による対象層の学習を正常に実行することができる。

なお、データの配置パターンがコピー型であり、前層の演算結果である出力データを格納する各メモリ５３０のメモリ領域のメモリサイズが３８４００バイトより少ない場合にも、図９（ｂ）と同様の処理が行われる。すなわち、データサイズ変更部４１２は、前層の出力データを保持しているメモリ領域に代えて、処理命令の仕様であるメモリサイズ（３８４００バイト）に対応するメモリ領域を各メモリ５３０に新たに確保する。そして、データサイズ変更部４１２は、新たに確保したメモリ領域に、前層の出力データ（コピー型）を転送する。

これにより、対象層での学習において、入力データが格納されているメモリ領域のメモリサイズと、処理命令の仕様であるメモリサイズとが一致させることができ、プロセッサ５００による対象層の学習を正常に実行することができる。

なお、入力データを保持しているメモリ領域のメモリサイズと、対象層の演算の実行する処理命令の仕様であるメモリサイズとが一致しない場合で、新たなメモリ領域を確保しない場合、対象層の演算の実行時にエラーが発生する。このため、ニューラルネットワークの学習の実行が困難になる。

図１０は、図３の情報処理装置において、ニューラルネットワークの学習対象の層における学習時の動作の別の例を示す。図９と同様の動作については、詳細な説明は省略する。図１０は、図９と同様に、画像を認識するニューラルネットワークの学習時の動作の一例を示し、各次元の要素数が、バッチサイズＮ＝３２、色Ｃ＝３、画素数Ｗ＝１０、画素数Ｈ＝１０、データが単精度浮動小数点数であるとする。

対象層のデータの配置パターンは、コピー型であり、対象層に入力される入力データ（テンソルデータ）のサイズは３８４００バイト（９６００×４）であるとする。また、図１０（ａ）では、前層のデータの配置パターンは、コピー型であり、図１０（ｂ）では、前層のデータの配置パターンは分散型であるとする。

図１０（ａ）では、前層の出力データ（テンソルデータ）は、３８４００バイト（９６００×４）であるため、プロセッサ５００は、演算結果である３８４００バイトの出力データを４つのメモリ５３０のそれぞれに格納する。対象層において、図８のステップＳ１６で算出されたメモリサイズは３８４００バイトであり、配置パターンはコピー型である。このため、図８のステップＳ２０、Ｓ２４の判定において、メモリサイズ、配置パターンとも一致し、メモリサイズおよび配置パターンの変更は行われない。

そして、プロセッサ５００は、メモリ５３０に格納された前層の演算結果を入力データとして、対象層の学習を実行する。このように、対象層の学習に使用するデータを配置パターンと、対象層の学習に使用する処理命令で指定される配置パターンとが一致し、メモリサイズが一致する場合、メモリ領域をそのまま使用して処理命令を実行することができる。図９（ａ）と同様に、前層の演算後、対象層の演算を実行するまでにメモリ領域を確保するなどの前処理がないため、学習効率を低下させずに、対象層の学習において処理命令の演算を実行することができる。

図１０（ｂ）では、前の層の出力データ（テンソルデータ）用のメモリ領域は分散型として確保されており、メモリサイズは、メモリ５３０毎に９６００バイトである。プロセッサ５００は、前の層の出力データ（９６００バイト）を、各メモリ５３０に分散して格納する。このため、図８のステップＳ２０、Ｓ２４の判定において、メモリサイズおよび配置パターンとも一致しない。

このため、図８のステップＳ２２、Ｓ２６において、処理命令の仕様であるメモリサイズと配置パターン（コピー型）に対応するメモリ領域（第３のメモリ領域）が各メモリ５３０に新たに確保される。そして、新たに確保した第３のメモリ領域に、前層の出力データがコピー型で転送される。

これにより、対象層での学習で、入力データが格納されているメモリ領域のメモリサイズ／配置パターンと、処理命令に対応するメモリサイズ／配置パターンとをそれぞれ一致させることができ、プロセッサ５００による対象層の学習を正常に実行することができる。なお、前層の出力データがコピー型であり、処理命令の仕様が分散型の場合にも、分散型に対応するメモリサイズの第３のメモリ領域を新たに確保し、データを分散型として転送することで、図１０（ｂ）と同様の処理を実施することができる。

なお、例えば、前層の出力データの配置パターンが分散型であり、対象層の入力データの配置パターンがコピー型である場合、各演算コア５１０での演算に使用するデータが不足するため、対象層の演算の実行時にエラーが発生する。このため、ニューラルネットワークの学習の実行が困難になる。

以上、図３から図１０に示す実施形態においても、図１および図２に示す実施形態と同様の効果を得ることができる。例えば、学習データを保持するメモリ領域のメモリサイズと、処理命令で指定されるバッチサイズに基づき算出されるメモリサイズとが不一致の場合、処理命令に対応するメモリサイズの新たなメモリ領域を確保して学習データを転送する。これにより、入力データが格納されているメモリ領域のメモリサイズと、処理命令に対応するメモリサイズとを一致させることができ、任意のバッチサイズが指定された場合にも、エラーを発生させることなく学習を実行することができる。

さらに、図３から図１０に示す実施形態では、学習データと処理命令との配置パターンが不一致の場合に、新たなメモリ領域を確保して学習データを処理命令で指定される配置パターンに合わせて新たなメモリ領域に転送する。これにより、入力データが格納されているメモリ領域のメモリサイズ／配置パターンと、処理命令の仕様であるメモリサイズ／配置パターンとをそれぞれ一致させることができ、プロセッサ５００による対象層の学習を正常に実行することができる。

対象層の学習に使用するデータを保持するメモリ領域のメモリサイズと、対象層の学習に使用する処理命令で指定されるバッチサイズに基づいて算出されたメモリサイズとが一致する場合、メモリ領域をそのまま使用して処理命令を実行することができる。また、対象層の学習に使用するデータを配置パターンと、対象層の学習に使用する処理命令で指定される配置パターンとが一致し、メモリサイズが一致する場合、メモリ領域をそのまま使用して処理命令を実行することができる。これらの場合、前層の演算後、対象層の演算を実行するまでにメモリ領域を確保するなどの前処理がないため、学習効率を低下させずに、対象層の学習において処理命令の演算を実行することができる。

この結果、任意のバッチサイズが指定された場合にも、エラーを発生させることなく学習を実行することができる。

図１１は、別の実施形態における情報処理装置の一例を示す。図１および図３と同様の要素については、詳細な説明は省略する。図１１に示す情報処理装置１００Ｂは、例えば、サーバであり、図１と同様に、ホストＣＰＵ２００、ホストメモリ３００、Ｉ／Ｏコントローラ２２０およびプロセッサ５００を有する。ホストＣＰＵ２００は、ホストメモリ３００に格納された各種プログラムを実行することで、情報処理装置１００Ｂの全体の動作を制御するとともに、プロセッサ５００の動作を制御し、学習データを用いてニューラルネットワークの学習を実行する。なお、図１１のホストメモリ３００には、図３のホストプログラム４００Ａの代わりにホストプログラム４００Ｂが格納される。

ニューラルネットワークに演算を実行させるためのホストプログラム４００Ｂは、ディープラーニング（ＤＬ）用のフレームワーク４１０、ディープニューラルネットワーク（ＤＮＮ）のライブラリ４２０およびランタイムライブラリ４３０を有する。

ＤＬフレームワーク４１０は、演算種決定部４１１、データサイズ変更部４１２、問い合わせ部４１３、変換／転送指示部４１４および実行指示部４１５を有する。演算種決定部４１１、データサイズ変更部４１２および変換／転送指示部４１４の機能は、図３に示した演算種決定部４１１、データサイズ変更部４１２および変換／転送指示部４１４の機能とそれぞれ同様である。問い合わせ部４１３および実行指示部４１５の機能は、図１２で説明する。

ＤＮＮライブラリ４２０は、情報管理部４２１、演算処理予測部４２２および処理命令が格納されたファイル４２３を有する。情報管理部４２１の機能は、図３に示した情報管理部４２１の機能と同様である。演算処理予測部４２２の機能は、図１２および図１３で説明する。

ランタイムライブラリ４３０は、変換／転送実行部４３１および処理命令実行部４３２を有する。ランタイムライブラリ４３０は、プロセッサ５００に演算を実行させるためのインタフェースであり、プロセッサ５００の仕様に合わせて設計され、例えば、複数の演算コア５１０に演算を並列に実行させる制御を実行する。変換／転送実行部４３１および処理命令実行部４３２の機能は、図１２で説明する。

図１２は、図１１のホストＣＰＵ２００がホストプログラム４００Ｂを実行することで実現される機能の一例を示す。以下では、複数の層を有するディープニューラルネットワークにおいて、学習対象の層である対象層の学習を実行する場合の動作について説明する。なお、上述した実施形態で説明した機能および動作と同様の機能および動作については、詳細な説明は省略する。

ＤＬフレームワーク４１０は、対象層の学習を実行する指示を受けた場合、演算種決定部４１１に演算種を決定させる。この後、変換／転送指示部４１４は、ユーザにより指定されたバッチサイズと、入出力データのサイズおよび配置パターン等に基づいて、演算に使用するメモリ領域を各メモリ５３０に確保する指示をランタイムライブラリ４３０に発行する。入出力データのサイズおよび配置パターン等は、ユーザ定義ファイル３１０に格納されたニューラルネットワークの仕様と学習データとに基づいて求められる。

また、変換／転送指示部４１４は、各メモリ５３０に確保したメモリ領域に、演算に使用する学習データを転送する指示をランタイムライブラリ４３０に発行する。なお、上述した実施形態と同様に、対象層の前の層である前層の出力データが対象層の入力データとしてメモリ５３０に保持されている場合、変換／転送指示部４１４は、メモリ領域の確保と学習データの転送指示を発行せず、データの転送指示を発行しない。

ランタイムライブラリ４３０の変換／転送実行部４３１は、変換／転送指示部４１４からのメモリ領域の確保の指示に基づいて、メモリ５３０のメモリ領域を確保し、完了通知をＤＬフレームワーク４１０に発行する。また、変換／転送実行部４３１は、変換／転送指示部４１４からのデータ転送指示に基づいて、確保したメモリ領域に学習データを転送し、完了通知をＤＬフレームワーク４１０に発行する。

問い合わせ部４１３は、ＤＮＮライブラリ４２０の情報管理部４２１に、演算種とユーザにより指定されたバッチサイズとを通知し、対象層の学習に使用する処理命令を問い合わせる。また、問い合わせ部４１３は、情報管理部４２１に各次元の要素数を通知し、対象層の学習に使用する処理命令で使用するメモリサイズを問い合わせる。さらに、問い合わせ部４１３は、ランタイムライブラリ４３０に確保させたメモリ領域のメモリサイズと配置パターンとを演算処理予測部４２２に通知し、演算をより高速に実行できる演算方法を問い合わせる。

情報管理部４２１は、図５に示した各処理命令の仕様情報を保持しており、対象層の学習に適した処理命令を検索して問い合わせ部４１３に応答する。この際、情報管理部４２１は、検索で見つけた処理命令の対応バッチ数とテンソルデータ毎のデータの配置パターンを問い合わせ部４１３に通知する。また、情報管理部４２１は、問い合わせ部４１３から通知されたバッチサイズと各次元の要素数とに基づいて、検索で見つけた処理命令による対象層の学習（演算）の実行に使用するメモリサイズを算出する。そして、情報管理部４２１は、算出したメモリサイズを問い合わせ部４１３に通知する。

演算処理予測部４２２は、問い合わせ部４１３からの問い合わせに基づいて、演算をより高速に実行できる演算方法を問い合わせ部４１３に通知する。演算処理予測部４２２は、メモリサイズと配置パターンとを変更せずに処理命令を実行する場合と、メモリサイズおよび配置パターンの一方または両方を変更して処理命令を実行する場合のいずれが、演算効率が高いかを問い合わせ部４１３に通知する。演算処理予測部４２２の機能については、図１３で説明する。

問い合わせ部４１３は、情報管理部４２１から通知された処理命令を保持する。また、問い合わせ部４１３は、メモリサイズまたは配置パターンを変更したほうが、演算効率が高いことを演算処理予測部４２２から通知された場合、メモリサイズまたは配置パターンの変更を実行する。すなわち、処理命令に対応するメモリサイズとメモリ領域のメモリサイズとの一致／不一致を判定し、処理命令で指定される配置パターンとメモリ領域に保持されたデータの配置パターンとの一致／不一致とを判定し、判定結果に応じた処理を実行する。

一方、問い合わせ部４１３は、メモリサイズまたは配置パターンを変更しないほうが、演算効率が高いことを演算処理予測部４２２から通知された場合、メモリサイズの一致／不一致の判定および配置パターンの一致／不一致の判定を実行しない。この場合、ＤＬフレームワーク４１０は、現在のメモリ領域に保持されたデータを使用して、演算コア５１０に処理命令の演算を実行させる。

問い合わせ部４１３は、情報管理部４２１から通知されたメモリサイズが、各メモリ５３０に確保されているメモリ領域のメモリサイズと一致するか否かを、配置パターンを考慮して判定する。問い合わせ部４１３は、メモリサイズが不一致の場合、メモリサイズの変更をデータサイズ変更部４１２に指示する。

また、問い合わせ部４１３は、情報管理部４２１から通知された配置パターンが、メモリ領域への学習データの転送時に使用した配置パターンと一致するか否かを判定する。問い合わせ部４１３は、配置パターンが不一致の場合、情報管理部４２１から通知された配置パターンでメモリ領域を新たに確保する指示をデータサイズ変更部４１２に発行する。さらに、問い合わせ部４１３は、メモリサイズが不一致の場合、または、配置パターンが不一致の場合、新たに確保したメモリ領域に対象層の学習で使用する学習データを転送する指示を変換／転送指示部４１４に発行する。

データサイズ変更部４１２は、問い合わせ部４１３からの指示に基づいて、情報管理部４２１から通知されたメモリサイズのメモリ領域を各メモリ５３０に確保する指示をランタイムライブラリ４３０に発行する。ランタイムライブラリ４３０は、データサイズ変更部４１２からの指示に基づいて、各メモリ５３０に新たなメモリ領域を確保し、完了通知をデータサイズ変更部４１２に発行する。

変換／転送指示部４１４は、問い合わせ部４１３からの指示に基づいて、対象層の学習で使用する学習データを新たに確保したメモリ領域に転送する指示をランタイムライブラリ４３０の変換／転送実行部４３１に発行する。変換／転送実行部４３１は、変換／転送指示部４１４からの指示に基づいて、ユーザ定義ファイル３１０から新たに確保したメモリ領域に学習データを転送し、完了通知を変換／転送指示部４１４に発行する。

対象層の学習に使用する学習データが配置パターンにしたがってメモリ５３０に保持されている場合、ＤＬフレームワーク４１０の実行指示部４１５は、処理命令を指定して、処理命令の実行をＤＮＮライブラリ４２０に指示する。ＤＮＮライブラリ４２０は、実行指示部４１５からの指示に基づいて、ランタイムライブラリ４３０の処理命令実行部４３２に処理命令の実行を指示する。そして、処理命令実行部４３２は、対象層の学習用の演算を実行させる演算コア５１０のメモリ５３０に処理命令を転送し、演算コア５１０に処理命令を実行させる。これにより、対象層の学習が実行される。

図１３は、メモリ５３０に確保したメモリ領域のメモリサイズおよび配置パターンと、学習対象の層の学習で使用する処理命令に対応するメモリサイズおよび配置パターンとの関係を示す。図１１および図１２の演算処理予測部４２２は、図１３に示す関係に基づいて、メモリサイズおよび配置パターンを変更せずに処理命令を実行可能か判断し、演算効率がより高い演算方法を決定する。

対象層の学習で使用する処理命令は、ＤＬフレームワーク４１０からの問い合わせに基づいて、ＤＮＮライブラリ４２０の情報管理部４２１が選択した処理命令である。メモリ５３０に確保したメモリ領域は、ユーザ定義ファイル３１０に格納されたニューラルネットワークの仕様と学習データとに基づいて、配置パターンを考慮して算出されたメモリサイズを有する。なお、対象層が２層目以降の場合、メモリ領域のメモリサイズと配置パターンとは、前層の学習により得られた出力データを保持するメモリ領域のメモリサイズと配置パターンでもよい。

メモリサイズおよび配置パターンの両方が、既に確保されているメモリ領域と、処理命令に対応するメモリサイズおよび配置パターンとで一致する場合、メモリサイズおよび配置パターンを変更することなく演算が可能である（演算可能なパターン１、２）。

メモリ領域のメモリサイズが処理命令に対応するメモリサイズより大きい場合、処理命令を複数回実行することで、確保したメモリ領域のメモリサイズを変更することなく演算の実行が可能である（演算可能なパターン４、５、６）。但し、処理命令を複数回実行するため、演算時間は、処理命令の実行回数に依存して増加する。この際、メモリ領域のうち、学習に使用する有効なデータを保持していない領域のデータは、意味のないデータであるため、演算結果である出力データは次の学習に使用されない。

なお、メモリ領域のメモリサイズが処理命令に対応するメモリサイズより大きい場合、メモリ領域のメモリサイズを処理命令に対応するメモリサイズに合わせて再確保し、再確保したメモリ領域にデータを転送した後、演算が実行されてもよい。但し、この場合、メモリ領域を再確保する時間と、再確保したメモリ領域にデータを転送する時間が、処理命令の実行時間とは別に掛かる。

メモリ領域の配置パターンがコピー型で、処理命令で指定される配置パターンが分散型の場合、分散型での処理命令の演算を複数回実行することで、配置パターンを変更することなく演算の実行が可能である（演算可能なパターン３、６）。例えば、図７に示したように、４つの演算コア５１０で４つのデータＤ１－Ｄ４を演算する場合、コピー型で配置したデータを分散型の処理命令で実行する場合、演算時間は４倍掛かる。

既に確保されているメモリ領域と、処理命令で指定される配置パターンとが互いに異なる場合、処理命令で指定される配置パターンに合わせたメモリサイズのメモリ領域を再確保し、再確保したメモリ領域にデータを転送した後、演算が実行されてもよい。但し、この場合、メモリ領域を再確保する時間と、再確保したメモリ領域にデータを転送する時間が、処理命令の実行時間とは別に掛かる。

なお、既に確保されているメモリ領域のメモリサイズが処理命令に対応するメモリサイズより小さい場合、処理命令の実行によりエラーが発生するため、処理命令に対応するメモリサイズに合わせたメモリ領域が再確保される。また、既に確保されたメモリ領域が保持する学習データの配置パターンが分散型で、処理命令で指定される配置パターンがコピー型の場合、演算が正しく実行されないため、処理命令で指定される配置パターンに合わせたメモリサイズのメモリ領域が再確保される。

以上より、演算効率を向上するため、演算可能なパターン３－６については、処理命令を複数回実行する場合の演算時間と、メモリ領域を再確保してデータを転送した後、処理命令を実行する場合の演算時間とのどちらが早いかが判定される。例えば、判定には式（１）に示す条件が使用される。
（メモリサイズを変更しない場合の演算時間）＜（メモリサイズの変更とデータの転送とに掛かる時間）＋（演算時間） ‥（１）
例えば、演算処理予測部４２２は、式（１）に示す条件を満足する場合、メモリサイズおよび配置パターンを変更せずに演算を実行するほうが、メモリサイズおよび配置パターンを変更して演算を実行するよりも演算効率が高いと判断する。また、演算処理予測部４２２は、式（１）に示す条件を満足しない場合、メモリサイズおよび配置パターンを変更して演算を実行するほうが、メモリサイズおよび配置パターンを変更せずに演算を実行するよりも演算効率が高いと判断する。

図１４は、図１１の情報処理装置１００Ｂがニューラルネットワークの学習を実行する場合の動作の一例を示す。図１４に示す動作は、ホストＣＰＵ２００がホストプログラム４００Ｂを実行することにより実現される。すなわち、図１４は、情報処理プログラムおよび情報処理方法の一例を示す。図８と同様の動作および図１２で説明した動作については、詳細な説明は省略する。

図１４では、図８のステップＳ１６とステップＳ２０の間にステップＳ１７およびステップＳ１８が挿入される。ステップＳ１０、Ｓ１２、Ｓ１４、Ｓ１６、Ｓ２０、Ｓ２２、Ｓ２４、Ｓ２６、Ｓ２８の動作は、図８と同様である。

ステップＳ１７において、演算処理予測部４２２は、ステップＳ１６で選択された処理命令に対応するメモリサイズおよび配置パターンと、ステップＳ１２で確保されたメモリサイズおよび配置パターンとを比較する。そして、演算処理予測部４２２は、メモリサイズおよび配置パターンが図１３に示した演算可能なパターンであるか否かを判定する。メモリサイズおよび配置パターンを変更せずに演算可能な場合、処理はステップＳ１８に移行される。メモリサイズおよび配置パターンを変更せずに演算可能でない場合、演算処理予測部４２２は、メモリ領域を再確保して再確保したメモリ領域に学習データを転送するほうが、演算効率が高い旨を問い合わせ部４１３に通知する。そして、処理はステップＳ２０に移行される。

ステップＳ１８において、演算処理予測部４２２は、メモリ領域のメモリサイズと配置パターンを変更する場合と変更しない場合との演算効率を、例えば、式（１）の条件を用いて比較する。演算処理予測部４２２は、式（１）の条件を満足する場合、メモリサイズ（配置パターン）を変更しないほうが、演算効率が高いと判断し、処理をステップＳ２８に移行する。演算処理予測部４２２は、式（１）の条件を満足しない場合、メモリサイズ（配置パターン）を変更するほうが、演算効率が高いと判断し、処理をステップＳ２０に移行する。

このように、メモリサイズまたは配置パターンが一致しない場合にも、メモリサイズを変更せずに演算を実行でき、かつ、メモリサイズを変更するよりも演算効率が高い場合、メモリサイズを変更せずに演算を実行することで、学習時間を短縮することができる。また、式（１）を用いて、演算効率が高い演算方法を容易に判定することができる。

以上、図１１から図１４に示す実施形態においても、図１から図１０に示す実施形態と同様の効果を得ることができる。例えば、学習データを保持するメモリ領域のメモリサイズと、処理命令に対応して算出されるメモリサイズとが不一致の場合、処理命令に合わせて新たなメモリ領域を確保することで、プロセッサ５００による対象層の学習を正常に実行することができる。また、学習データと処理命令との配置パターンが不一致の場合、処理命令の配置パターンに合わせて新たなメモリ領域を確保することで、プロセッサ５００による対象層の学習を正常に実行することができる。これにより、任意のバッチサイズが指定された場合にも、エラーを発生させることなく学習を実行することができる。

さらに、図１１から図１４に示す実施形態では、予め確保されたメモリ領域のメモリサイズと、処理命令に対応するメモリサイズとが異なる場合、メモリサイズを変更せずに演算可能を判定する。そして、メモリサイズを変更せずに演算可能な場合、演算効率が高い演算方法を判定し、判定結果に基づいて演算を実行する。また、予め確保されたメモリ領域が保持する学習データの配置パターンと、処理命令で指定される配置パターンとが異なる場合、メモリサイズおよび配置パターンを変更せずに演算可能を判定する。そして、メモリサイズおよび配置パターンを変更せずに演算可能な場合、演算効率が高い演算方法を判定し、判定結果に基づいて演算を実行する。これにより、演算効率が高い演算方法で学習を実行することができ、ニューラルネットワークの学習時間を短縮することができる。

図１５は、別の実施形態における情報処理装置において、処理命令を実行する一例を示す。図１５に示す情報処理装置１００Ｃの構成は、図１１に示す情報処理装置１００Ｂの構成と同様である。

図１５では、ユーザ定義ファイル３１０に格納されるニューラルネットワークの規模と学習データ量とが、図１１に示す情報処理装置１００Ｂにより学習するニューラルネットワークの規模と学習データ量よりもいずれも小さい。このため、１つの演算コア５１０によりニューラルネットワークの学習が実行可能である。この場合、複数の演算コア５１０による並列演算を実行しないことで、複数の演算コア５１０を動作させる場合に比べて、プロセッサ５００の消費電力を削減することができる。

情報処理装置１００Ｃによるニューラルネットワークの学習は、図１４と同様に実行される。但し、１つの演算コア５１０により学習を実行する場合、学習に使用する全てのデータは１つのメモリ５３０に格納されるため、配置パターンを考慮しなくてよい。このため、情報処理装置１００Ｃでは図１４のステップＳ２４、Ｓ２６の処理は省略され、図１４のステップＳ１７では、メモリ領域のメモリサイズが処理命令に対応するメモリサイズ以上の場合、演算可能と判定される。

なお、図１に示す情報処理装置１００または図３に示す情報処理装置１００Ａにおいて、情報処理装置１００Ｃと同様に、１つの演算コア５１０によりニューラルネットワークの学習を実行してもよい。この場合、情報処理装置１００、１００Ａは、１つの演算コア５１０を演算対象として、図２に示す動作または図８に示す動作を実行する。但し、１つの演算コア５１０により学習を実行する場合、配置パターンを考慮しなくてよいため、図８のステップＳ２４、Ｓ２６の処理は省略される。

以上、この実施形態においても、図１から図１４に示す実施形態と同様の効果を得ることができる。

図１６は、さらなる別の実施形態における情報処理装置において、処理命令を実行する一例を示す。図１５に示す情報処理装置１００Ｄの構成は、図１１に示す情報処理装置１００Ｂの構成と同様である。

図１６では、複数のユーザ定義ファイル３１０（１、２、３）に構成情報が格納される複数のニューラルネットワークの学習が並列して実行される。すなわち、各ユーザ定義ファイル３１０に格納されるニューラルネットワークの規模と学習データ量とは、図１１に示す情報処理装置１００Ｂにより学習するニューラルネットワークの規模と学習データ量よりもいずれも小さい。

ユーザ定義ファイル１のニューラルネットワークの学習は、２つの演算コア５１０により、図１４と同様に実行される。ユーザ定義ファイル２、３のニューラルネットワークの各々の学習は、１つの演算コア５１０により、図１５に示した実施形態と同様に実行される。例えば、ＤＬフレームワーク４１０、ＤＮＮライブラリ４２０およびランタイムライブラリ４３０を含む４００Ｂ（図１１）は、ユーザ毎に設けられる。

なお、図１に示す情報処理装置１００または図３に示す情報処理装置１００Ａにおいて、情報処理装置１００Ｄと同様に、複数のユーザのニューラルネットワークの学習を並列に実行してもよい。この場合、情報処理装置１００、１００Ａは、ユーザ毎に図２に示す動作または図８に示す動作を実行する。但し、１つの演算コア５１０により学習を実行する場合、配置パターンを考慮しなくてよいため、図８のステップＳ２４、Ｓ２６の処理は省略される。

以上、この実施形態において、図１から図１４に示す実施形態と同様の効果を得ることができる。

以上の図１から図１６に示す実施形態に関し、さらに以下の付記を開示する。
（付記１）
演算器と該演算器で使用するデータを保持するメモリとを含む１以上の演算部を有するプロセッサが実行する複数の層を含むニューラルネットワークの学習を制御する情報処理プログラムであって、
学習対象の層の学習に使用する学習データのサイズと入力されたバッチサイズとに基づいて、処理するバッチサイズが異なる複数の処理命令の中から前記プロセッサに実行させる処理命令を選択し、
前記学習データのサイズと選択した処理命令で指定されるバッチサイズとに基づいて、学習対象の層の学習に使用するメモリサイズを算出し、
前記学習データを保持する前記メモリの第１のメモリ領域のメモリサイズが、算出したメモリサイズと一致しない場合、前記算出したメモリサイズを有する第２のメモリ領域を前記メモリに確保して前記学習データを転送し、前記第２のメモリ領域に転送した前記学習データを使用して、前記選択した処理命令を前記プロセッサに実行させる、処理を情報処理装置に実行させる情報処理プログラム。
（付記２）
前記学習データを前記メモリに配置する配置パターンとして、前記学習データを複数の前記演算部の前記メモリに分散して配置する分散型と、前記学習データを複数の前記演算部の前記メモリに重複して配置する重複型とを有し、
前記第１のメモリ領域に保持された前記学習データの配置パターンが、前記選択した処理命令で使用する配置パターンと一致しない場合、第３のメモリ領域を前記メモリに確保し、前記選択した処理命令で使用する配置パターンで前記第３のメモリ領域に前記学習データを転送し、前記第３のメモリ領域に転送した前記学習データを使用して前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる、付記１に記載の情報処理プログラム。
（付記３）
前記第１のメモリ領域のメモリサイズが、前記算出したメモリサイズと一致する場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる付記１または付記２に記載の情報処理プログラム。
（付記４）
前記第１のメモリ領域に保持された前記学習データの配置パターンが、前記選択した処理命令で使用する配置パターンと一致し、かつ、前記第１のメモリ領域のメモリサイズが、前記算出したメモリサイズと一致する場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる付記１または付記２に記載の情報処理プログラム。
（付記５）
前記第１のメモリ領域のメモリサイズが、前記算出したメモリサイズより大きい場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合と、前記第２のメモリ領域を確保し前記学習データを転送して前記選択した処理命令を実行する場合との演算効率を算出し、
演算効率が高い方で、前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる、付記１ないし付記４のいずれか１項に記載の情報処理プログラム。
（付記６）
前記第１のメモリ領域に前記重複型で前記学習データが保持され、前記選択した処理命令のデータの配置パターンが前記分散型である場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合と、前記第３のメモリ領域を確保して前記分散型で前記学習データを転送して前記選択した処理命令を実行する場合との演算効率を算出し、
演算効率の高い方で、前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる、付記２に記載の情報処理プログラム。
（付記７）
前記演算効率は、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合の演算時間、または、新たにメモリ領域を確保して前記学習データを転送する時間と、新たに確保したメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合の演算時間との和で示される、付記５または付記６に記載の情報処理プログラム。
（付記８）
メモリサイズの一致／不一致を、学習対象の層に入力される入力テンソルデータと学習対象の層から出力される出力テンソルデータ毎に判定する、付記１ないし付記７のいずれか１項に記載の情報処理プログラム。
（付記９）
配置パターンの一致／不一致を、学習対象の層に入力される入力テンソルデータと学習対象の層から出力される出力テンソルデータ毎に判定する、付記２ないし付記８のいずれか１項に記載の情報処理プログラム。
（付記１０）
前記ニューラルネットワークの構成情報に基づいて、学習対象の層の学習に使用する演算方式を選択し、
前記プロセッサに実行させる処理命令を、決定した演算方式に対応する前記複数の処理命令の中から選択する、付記１ないし付記９のいずれか１項に記載の情報処理プログラム。
（付記１１）
演算器と該演算器で使用するデータを保持するメモリとを含む１以上の演算部を有するプロセッサが実行する複数の層を含むニューラルネットワークの学習を制御する情報処理方法であって、
学習対象の層の学習に使用する学習データのサイズと入力されたバッチサイズとに基づいて、処理するバッチサイズが異なる複数の処理命令の中から前記プロセッサに実行させる処理命令を選択し、
前記学習データのサイズと選択した処理命令で指定されるバッチサイズとに基づいて、学習対象の層の学習に使用するメモリサイズを算出し、
前記学習データを保持する前記メモリの第１のメモリ領域のメモリサイズが、算出したメモリサイズと一致しない場合、前記算出したメモリサイズを有する第２のメモリ領域を前記メモリに確保して前記学習データを転送し、前記第２のメモリ領域に転送した前記学習データを使用して、前記選択した処理命令を前記プロセッサに実行させる、処理を情報処理装置に実行させる情報処理方法。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１００、１００Ａ、１００Ｂ、１００Ｃ、１００Ｄ情報処理装置
２００ホストＣＰＵ
２２０Ｉ／Ｏコントローラ
３００ホストメモリ
３１０ユーザ定義ファイル
３１１ニューラルネットワーク
３１２学習データ
４００、４００Ａ、４００Ｂホストプログラム
４１０ＤＬフレームワーク
４１１演算種決定部
４１２データサイズ変更部
４１３問い合わせ部
４１４変換／転送指示部
４１５実行指示部
４２０ＤＮＮライブラリ
４２１情報管理部
４２２演算処理予測部
４２３処理命令
４３０ランタイムライブラリ
４３１変換／転送実行部
４３２処理命令実行部
５００プロセッサ
５１０演算コア
５２０演算器
５３０メモリ

Claims

演算器と該演算器で使用するデータを保持するメモリとを含む１以上の演算部を有するプロセッサが実行する複数の層を含むニューラルネットワークの学習を制御する情報処理プログラムであって、
学習対象の層の学習に使用する学習データのサイズと入力されたバッチサイズとに基づいて、処理するバッチサイズが異なる複数の処理命令の中から前記プロセッサに実行させる処理命令を選択し、
前記学習データのサイズと選択した処理命令で指定されるバッチサイズとに基づいて、学習対象の層の学習に使用するメモリサイズを算出し、
前記学習データを保持する前記メモリの第１のメモリ領域のメモリサイズが、算出したメモリサイズと一致しない場合、前記算出したメモリサイズを有する第２のメモリ領域を前記メモリに確保して前記学習データを転送し、前記第２のメモリ領域に転送した前記学習データを使用して、前記選択した処理命令を前記プロセッサに実行させる、処理を情報処理装置に実行させる情報処理プログラム。
前記学習データを前記メモリに配置する配置パターンとして、前記学習データを複数の前記演算部の前記メモリに分散して配置する分散型と、前記学習データを複数の前記演算部の前記メモリに重複して配置する重複型とを有し、
前記第１のメモリ領域に保持された前記学習データの配置パターンが、前記選択した処理命令で使用する配置パターンと一致しない場合、第３のメモリ領域を前記メモリに確保し、前記選択した処理命令で使用する配置パターンで前記第３のメモリ領域に前記学習データを転送し、前記第３のメモリ領域に転送した前記学習データを使用して前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる、請求項１に記載の情報処理プログラム。
前記第１のメモリ領域のメモリサイズが、前記算出したメモリサイズと一致する場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる請求項１または請求項２に記載の情報処理プログラム。
前記第１のメモリ領域に保持された前記学習データの配置パターンが、前記選択した処理命令で使用する配置パターンと一致し、かつ、前記第１のメモリ領域のメモリサイズが、前記算出したメモリサイズと一致する場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる請求項１または請求項２に記載の情報処理プログラム。
前記第１のメモリ領域のメモリサイズが、前記算出したメモリサイズより大きい場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合と、前記第２のメモリ領域を確保し前記学習データを転送して前記選択した処理命令を実行する場合との演算効率を算出し、
演算効率が高い方で、前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる、請求項１ないし請求項４のいずれか１項に記載の情報処理プログラム。
前記第１のメモリ領域に前記重複型で前記学習データが保持され、前記選択した処理命令のデータの配置パターンが前記分散型である場合、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合と、前記第３のメモリ領域を確保して前記分散型で前記学習データを転送して前記選択した処理命令を実行する場合との演算効率を算出し、
演算効率の高い方で、前記選択した処理命令を前記プロセッサに実行させる処理を情報処理装置に実行させる、請求項２に記載の情報処理プログラム。
前記演算効率は、前記第１のメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合の演算時間、または、新たにメモリ領域を確保して前記学習データを転送する時間と、新たに確保したメモリ領域に保持された前記学習データを使用して前記選択した処理命令を実行する場合の演算時間との和で示される、請求項５または請求項６に記載の情報処理プログラム。
演算器と該演算器で使用するデータを保持するメモリとを含む１以上の演算部を有するプロセッサが実行する複数の層を含むニューラルネットワークの学習を制御する情報処理方法であって、
学習対象の層の学習に使用する学習データのサイズと入力されたバッチサイズとに基づいて、処理するバッチサイズが異なる複数の処理命令の中から前記プロセッサに実行させる処理命令を選択し、
前記学習データのサイズと選択した処理命令で指定されるバッチサイズとに基づいて、学習対象の層の学習に使用するメモリサイズを算出し、
前記学習データを保持する前記メモリの第１のメモリ領域のメモリサイズが、算出したメモリサイズと一致しない場合、前記算出したメモリサイズを有する第２のメモリ領域を前記メモリに確保して前記学習データを転送し、前記第２のメモリ領域に転送した前記学習データを使用して、前記選択した処理命令を前記プロセッサに実行させる、処理を情報処理装置に実行させる情報処理方法。