JP2022074442A

JP2022074442A - 演算装置および演算方法

Info

Publication number: JP2022074442A
Application number: JP2020184482A
Authority: JP
Inventors: 耕一郎坂; Koichiro Saka
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-05-18
Also published as: US20220138282A1

Abstract

【課題】行列演算を効率的に実行する。【解決手段】演算装置は、行列積演算部と累積加算部とシフト加算部とベクトル演算部と制御部とを備える。行列積演算部は、Ｍ×Ｐ次元の第１入力行列と、Ｐ×Ｋ次元の第２入力行列と、の積であるＭ×Ｋ次元の第１出力行列を演算する。累積加算部は、第１出力行列と、Ｍ×Ｋ次元の行列とを加算したＭ×Ｋ次元の累積加算行列を計算して累積レジスタに記憶する。シフト加算部は、累積加算行列に含まれるＭ次元の累積加算ベクトルと、Ｍ次元の一時ベクトルと、を加算した加算ベクトルを計算してベクトルレジスタに記憶し、Ｍ番目のベクトルレジスタに記憶された一時ベクトルを出力する。ベクトル演算部は、一時ベクトルに対してベクトル演算を実行して出力ベクトルを出力する。制御部は、各演算の指示を制御する。【選択図】図１

Description

本発明の実施形態は、演算装置および演算方法に関する。

ニューラルネットワークの演算に含まれる行列演算処理を実行する演算装置が知られている。例えば、シストリックアレイを用いて行列乗算を実行し、演算のレイテンシを低減する技術が提案されている。

特表２０２０－５１６９９１号公報

しかしながら、従来技術では、行列演算を効率的に実行できない場合があった。例えば上記のようにシストリックアレイを用いる技術では、シストリックアレイに重みをロードするためのオーバーヘッド、または、重みのロード時間を短縮するための余分なレジスタおよびデータパスが必要となる問題があった。

実施形態の演算装置は、行列積演算部と累積加算部とシフト加算部とベクトル演算部と制御部とを備える。行列積演算部は、Ｍ×Ｐ次元の第１入力行列と、Ｐ×Ｋ次元の第２入力行列と、の積であるＭ×Ｋ次元の第１出力行列を演算する。累積加算部は、第１出力行列と、Ｍ×Ｋ次元の行列とを加算したＭ×Ｋ次元の累積加算行列を計算して累積レジスタに記憶する。シフト加算部は、累積加算行列に含まれるＭ次元の累積加算ベクトルと、Ｍ次元の一時ベクトルと、を加算した加算ベクトルを計算してベクトルレジスタに記憶し、Ｍ番目のベクトルレジスタに記憶された一時ベクトルを出力する。ベクトル演算部は、一時ベクトルに対してベクトル演算を実行して出力ベクトルを出力する。制御部は、各演算の指示を制御する。

実施形態にかかる演算装置のブロック図。行列積演算部の処理の例を示す図。内積演算部のブロック図。累積加算部の処理の例を示す図。シフト加算部のブロック図。ベクトル演算部のブロック図。演算装置による畳み込み演算の例を示す図。演算方法の疑似プログラミングコードの例を示す図。演算装置による演算スケジューリングの例を示す図。演算装置による演算スケジューリングの例を示す図。重みカーネルからサブカーネルへの分割方法を説明する図。データの並び替え処理の一例を示す図。シフト加算部での畳み込み演算の一例を示す図。記憶部のデータ配置の構成例を示す図。記憶部のデータ配置の構成例を示す図。ニューラルネットワークのグラフの一例を示す図。レイヤＬ１～Ｌ３の演算処理のフローチャート。レイヤＬ４の演算処理のフローチャート。

以下に添付図面を参照して、この発明にかかる演算装置の好適な実施形態を詳細に説明する。

上記のように、シストリックアレイを用いる従来技術では、重みをシストリックアレイにロードするためのオーバーヘッドなどが生じ、行列演算を効率的に実行できない場合があった。また、シストリックアレイによる一度の行列演算処理では、ニューラルネットワークの畳み込み演算などの出力データを完成できない場合が多い。このため、部分和を記憶するための余分なメモリが必要となる場合があった。

以下の実施形態にかかる演算装置は、行列演算処理の効率（動作率）を低下させずに高速に実行可能とする。実施形態の演算装置に適用可能な行列演算処理はどのような処理であってもよい。例えば実施形態の演算装置は、ニューラルネットワークの演算に含まれる行列演算処理を実行するように構成することができる。

図１は、本実施形態にかかる演算装置１０の構成例を示すブロック図である。図１に示すように、演算装置１０は、制御部１１と、転送部１２と、記憶部１３と、演算部３１と、を備えている。

記憶部１３は、演算で用いられる各種データを記憶する。記憶部１３は、フラッシュメモリ、および、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

転送部１２は、演算装置１０と外部との間のデータ転送を行う。演算部３１は、行列演算を含む演算処理を行う。制御部１１は、各部（記憶部１３、転送部１２、および、演算部３１）のパラメータ設定および制御を行う。

制御部１１は、例えば、転送部１２および演算部３１に対する専用の命令セットを備えるセントラルプロセッサユニット（ＣＰＵ）として実現できる。転送部１２および演算部３１は、それぞれ独立の、または、一体化したハードウェア回路などにより実現できる。制御部１１、転送部１２、および、演算部３１の一部または全部を、物理的に一体化したハードウェア回路により実現してもよい。

演算部３１は、行列積演算部１００と、累積加算部２００と、シフト加算部３００と、ベクトル演算部４００と、を備えている。

行列積演算部１００は、制御部１１の指示に従い、行列積の演算を実行する。例えば行列積演算部１００は、Ｍ（Ｍは２以上の整数）×Ｐ（Ｐは２以上の整数）次元の行列（第１入力行列）と、Ｐ×Ｋ（Ｋは２以上の整数）次元の行列（第２入力行列）と、の積であるＭ×Ｋ次元の行列（第１出力行列）を演算して出力する。

入力される行列はどのような行列であってもよい。本実施形態では、以下のような行列を用いる例を主に説明する。
・第１入力行列：垂直方向、水平方向、および、チャネル方向の３次元の座標値ごとの特徴を要素とする特徴マップデータ（入力特徴データの一例）から得られる行列。以下では、このような行列を特徴マップ行列という場合がある。
・第２入力行列：垂直方向、水平方向、チャネル方向、カーネル方向（出力チャネル方向）の４次元の座標値ごとの重みを要素として含む重みデータから得られる行列。例えば第２入力行列は、重みデータのうち、水平方向の１個の座標、垂直方向の１個の座標、チャネル方向のＰ個の座標、および、カーネル方向にＫ個の座標に対応する要素を含む行列。以下では、このような行列を、重み行列という場合がある。

図２は、行列積演算部１００の処理の例を示す図である。行列積演算部１００は、制御部１１から指示された読み出し命令に従って記憶部１３から読み出された特徴マップ行列と重み行列との行列積を計算し、計算結果である行列積出力行列（第１出力行列）を出力する。

特徴マップ行列のサイズはＭ×Ｐ、重み行列のサイズはＰ×Ｋ、行列積出力行列のサイズはＭ×Ｋである。特徴マップ行列は、Ｍ個のサイズＰの特徴マップベクトル２１－１～２１－Ｍを含む。重み行列は、Ｋ個のサイズＰの重みベクトル２２－１～２２－Ｋを含む。行列積出力行列は、Ｍ個のサイズＫの行列積出力ベクトル２３－１～２３－Ｍを含む。

Ｐ＝Ｋの場合には、これらのベクトルのサイズがすべて同じになる。このため、以下では説明を明確化するためにＰ＝Ｋとして説明するが、本実施形態の一般性が失われるわけではない。また、行列およびベクトルのサイズは、行列およびベクトルの要素数を意味し、各要素のビット幅を意味するものではない。行列積演算部１００の演算処理は、図２に示すように、Ｍ個の特徴マップベクトルとＫ個の重みベクトルとの合計Ｍ×Ｋ個の内積演算として表現することができる。すなわち、行列積演算部１００は、Ｍ×Ｋ個の内積演算部１１０を備えるように構成することができる。

図３は、行列積演算部１００に含まれる内積演算部１１０の構成例を示すブロック図である。内積演算部１１０は、内積乗算部１１１と、指数加算部１１２と、ビットシフト部１１３と、を備える。

なお、内積演算部１１０には、特徴マップベクトル、重みベクトル、特徴マップ指数、および、重み指数が入力される。特徴マップベクトルそれぞれ、および、重みベクトルそれぞれは、同一ベクトル内の全Ｋ個の要素は共通した固定小数点フォーマットで符号化されており、その小数点の位置を示す指数データを伴っている。すなわち、各ベクトルに対して１つの指数データが定められており、各ベクトルは独立に定められた固定小数点フォーマット（同じフォーマットとなる場合と、異なるフォーマットとなる場合がある）で符号化されている。特徴マップベクトルに対する指数データが特徴マップ指数である。重みベクトルに対する指数データが重み指数である。

Ｍ×Ｋ個の内積演算部１１０のそれぞれは、ｍ（１≦ｍ≦Ｍ）およびｋ（１≦ｋ≦Ｋ）の組み合わせが相互に異なるｍ番目の特徴マップベクトル（第１入力ベクトルの一例）と、ｋ番目の重みベクトルと、に対応する。例えば、ｍ番目の特徴マップベクトルと、ｋ番目の重みベクトルとに対応する内積演算部１１０に含まれる内積乗算部１１１、指数加算部１１２、および、ビットシフト部１１３は、以下のような演算を実行する。

内積乗算部１１１は、ｍ番目の特徴マップベクトルと、ｋ番目の重みベクトル（第２入力ベクトルの一例）との内積を計算する。内積は、整数演算（固定小数点演算）での乗算と加算で構成されるため、浮動小数点演算と比べて回路規模を非常に小さくすることができる。

指数加算部１１２は、ｍ番目の特徴マップベクトルの特徴マップ指数（第１指数値の一例）と、ｋ番目の重みベクトルの重み指数（第２指数値の一例）と、を加算した指数値を計算する。

ビットシフト部１１３は、内積乗算部１１１により計算された内積（スカラ値）を、指数加算部１１２により計算された指数値に応じてビットシフトする。ビットシフト処理によって、Ｍ×Ｋ個の内積演算部１１０の出力の固定小数点フォーマットの小数点の位置を揃えることが可能になる。また、Ｋ個の要素に対して定められる指数データは１つである。このため、オーバーヘッドは小さいが、浮動小数点フォーマットのように広いダイナミックレンジでの数値表現が可能になる。この結果、回路規模も大幅に削減することが可能になる。

図１に戻り、累積加算部２００は、行列の累積加算処理を実行する。例えば累積加算部２００は、制御部１１による累積加算の指示（累積加算命令）に応じて、行列積出力行列と、累積レジスタに記憶されたＭ×Ｋ次元の行列とを加算した行列を表すＭ×Ｋ次元の累積加算行列を計算し、計算した累積加算行列を累積レジスタに記憶する。累積レジスタは、例えば、累積加算部２００内、または、演算部３１内に備えられるレジスタである。

図４は、累積加算部２００の処理の例を示す図である。累積加算部２００は、制御部１１からの累積加算命令に従って、行列積演算部１００から出力された行列積出力行列と、累積レジスタに記憶された累積加算行列と、の累積加算処理を実行し、累積レジスタに記憶された値を出力値とする。累積レジスタに値が記憶されていない場合には、累積加算部２００は、行列積出力行列を累積レジスタへ代入する処理を行ってもよい。累積加算部２００に入力される行列（行列積出力行列）と、累積加算部２００から出力される行列（累積加算行列）とは同一サイズ（Ｍ×Ｋ）である。

図１に戻り、シフト加算部３００は、累積加算部２００の出力に対するシフト加算を行う。例えばシフト加算部３００は、制御部１１からのベクトル加算の指示（加算命令）に応じて、累積加算行列に含まれるＭ次元の累積加算ベクトルそれぞれと、Ｍ個のベクトルレジスタそれぞれに記憶されたＭ次元の一時ベクトルと、を加算した加算ベクトルを計算し、計算した加算ベクトルをベクトルレジスタに記憶する。また、シフト加算部３００は、制御部１１からのシフトの指示（シフト命令）に応じて、ベクトルレジスタに記憶された一時ベクトルを出力する。

図５は、シフト加算部３００の構成例を示すブロック図である。シフト加算部３００は、加算セレクタ３０１－１～３０１－Ｍと、シフトセレクタ３０２－１～３０２－Ｍと、ベクトル加算器３０３－１～３０３－Ｍと、ベクトルレジスタ３０４－１～３０４－Ｍと、を備えている。

加算セレクタ３０１－１～３０１－Ｍ、および、シフトセレクタ３０２－１～３０２－Ｍは、ベクトル加算器３０３－１～３０３－Ｍへの入力信号を切り替える。ベクトル加算器３０３－１～３０３－Ｍは、ベクトル同士の加算を行う。ベクトルレジスタ３０４－１～３０４－Ｍは、それぞれベクトルを記憶する。

シフト加算部３００は、制御部１１からの加算命令に従って、累積加算部２００から出力される累積加算行列に含まれるベクトル（累積加算ベクトル）とベクトルレジスタ３０４－１～３０４－Ｍの各ベクトルとの加算処理を行う。またシフト加算部３００は、制御部１１からのシフト命令に従って、ベクトルレジスタ３０４－１～３０４－Ｍのシフト処理を行う。シフト処理では、端部のベクトルレジスタ３０４－１に記憶されているベクトルが、シフト加算部３００の出力ベクトルとして出力される。

加算セレクタ３０１－ｍ（ｍ＝１～Ｍ）は、加算命令が有効な場合には、累積加算ベクトル４２－ｍを出力し、それ以外は０ベクトルを出力する。

シフトセレクタ３０２－ｍ（ｍ＝１～Ｍ－１）は、シフト命令が有効な場合には、ベクトルレジスタ３０４－（ｍ＋１）の値を出力し、それ以外はベクトルレジスタ３０４－ｍの値を出力する。シフトセレクタ３０２－Ｍは、シフト命令が有効な場合には、０ベクトルを出力し、それ以外はベクトルレジスタ３０４－Ｍの値を出力する。すなわち、シフト命令が有効な場合には、ベクトルレジスタ３０４－１～３０４－Ｍの値がシフトすることを意味する。

加算命令とシフト命令は、独立してクロックサイクル単位で変更可能な制御信号である。シフト命令が有効な場合には、ベクトルレジスタ３０４－１の値が、シフト加算処理の結果を表す出力ベクトルとしてシフト加算部３００から出力される。

図１に戻り、ベクトル演算部４００は、ベクトル単位での処理を行う。例えばベクトル演算部４００は、シフト加算部３００から出力されたベクトル（一時ベクトル）に対して、制御部１１により指示されたベクトル演算を実行し、ベクトル演算の実行結果である出力ベクトルを出力する。

図６は、ベクトル演算部４００の構成の一例を示すブロック図である。ベクトル演算部４００は、一時記憶部４２１と、バイアス加算部４０１と、活性化関数部４０２と、プーリング部４０３と、並び替え部４０４と、ソフトマックス部４０５と、要素加算部４０６と、転置部４０７と、信頼度比較部４０８と、量子化部４０９と、データパッキング部４１０と、を備えている。

バイアス加算部４０１は、畳み込み演算およびバッチ正規化処理等で用いられる、固定のバイアス値の加算処理を実行する。バイアス加算部４０１は、例えば、一時記憶部４２１、記憶部１３またはレジスタ（図示せず）に記憶されたバイアス値を加算に用いる。

活性化関数部４０２は、例えばＲｅＬＵ関数のような非線形関数処理を実行する。

プーリング部４０３は、例えば最大プーリング（MaxPooling）処理のようなプーリング処理を実行する。プーリング処理は、一般的には２次元プーリング処理である。このため、プーリング部４０３は、連続的に入力される入力ベクトルを用いて行単位の１次元プーリング処理を行い、その結果を一時記憶部４２１等に記憶する。そしてプーリング部４０３は、次の行に対する１次元プーリング処理の計算結果と一時記憶部４２１に記憶された値とを使って２次元プーリング処理を行い、その計算結果を、一時記憶部４２１に記憶する、または、プーリング部４０３から出力する、または、一時記憶部４２１に記憶しつつプーリング部４０３から出力する。プーリング部４０３は、このような処理を行ごとに逐次的に実行することで、任意のサイズの２次元プーリング処理を完成させる。

並び替え部４０４は、データの並び替えを行う。データの並び替えは、例えば、逆畳み込み演算（Deconvolution、Transposed Convolution）を行う場合に、入力データの順序が特徴マップデータの水平座標に対して連続的ではなくブロックインターリーブされたような順序になる場合に、一時記憶部４２１を使って連続的な順序に戻す処理である。

ソフトマックス部４０５は、連続する入力ベクトルに対してＫカーネル並列して特徴マップデータの水平方向に１次元的なソフトマックス処理を行う。ソフトマックス処理では、演算精度を確保するために、最大値を計算する場合が多いが、事前に最大値を知ることはできない。また、ソフトマックス処理の分母の計算も同様に事前に計算することはできない。そこで、ソフトマックス部４０５は、以下のような処理を３回繰り返すように構成してもよい。ソフトマックス部４０５の前までの処理は、同じ処理が繰り返される。ソフトマックス部４０５は、３回の処理のうち、一巡目で最大値を求め、二巡目で分母を計算し、三巡目で最大値と分母を使ってソフトマックス値を計算する。
一巡目：ｘ_ｍａｘ＝ｍａｘ（ｘ_ｍａｘ、ｘ_ｉｎ）
二巡目：ｘ_ｔｍｐ＝ｅｘｐ（ｘ_ｉｎ－ｘ_ｍａｘ）、ｘ_ｓｕｍ＝ｘ_ｓｕｍ＋ｘ_ｔｍｐ
三巡目：ソフトマックス値＝ｘ_ｔｍｐ／ｘ_ｓｕｍ

要素加算部４０６は、入力ベクトルと記憶部１３に記憶された特徴マップデータとの加算処理を行う。要素加算部４０６の処理は、例えば、ＲｅｓＮｅｔ（Residual Network）のようなニューラルネットワークにおける分岐パスの加算処理に対応する。

転置部４０７は、入力ベクトルの転置処理を行う。例えば転置部４０７は、連続するＫ個のサイズＫのベクトルを記憶するレジスタを用意し、Ｋ×Ｋのレジスタすべてに値を書き込んでから、転置した方向にサイズＫのベクトル単位で値を読み出す。

量子化部４０９は、データフォーマットの変換を行う。例えば量子化部４０９は、同一ベクトル内のＫ個の要素のフォーマットを、ビット数を削減したＫ個の固定小数点フォーマットデータと１個の指数データとに変換する。例えば、変換前のＫ個の要素がＢビットの固定小数点フォーマットであるとした場合、量子化部４０９は、まず、これらを符号付きマグニチュード（Signed Magnitude）形式に変換し、Ｋ個のＢ－１ビットの振幅値（Magnitude）を得る。

次に量子化部４０９は、Ｋ個の振幅値の対応するビットのＯＲを計算し、Ｂ－１ビットのＯＲデータを得る。量子化部４０９は、ＯＲデータを上位ビット側から見て最初に１になるビットの位置を求める。量子化部４０９は、求めた位置を最上位ビット（ＭＳＢ、Most Significant Bit）としてＣ－１ビットを切り出して量子化後の振幅値を求める。量子化部４０９は、振幅値の計算の際に切り捨てるビットのＭＳＢの四捨五入により、Ｃ－１ビットを切り出すＭＳＢの値を求めてもよい。符号（Ｓｉｇｎ）ビットは変換の前後で不変である。

また、指数データは、最初に１となるＭＳＢビットの位置のインデックス（またはその負数）に固定値を加算したＤビットのスカラである。このような量子化処理を行うことで、記憶部１３の使用量が削減される共に、行列積演算部１００の回路規模を削減することが可能となる。例えば、Ｋ＝１６、Ｂ＝１６、Ｃ＝８、Ｄ＝５とすれば、量子化によって、演算に用いるベクトルを記憶するために必要なメモリサイズが、Ｋ×Ｂ＝２５６ビットから、Ｋ×Ｃ＋Ｄ＝１３３ビットへ、約４８％削減される。

データパッキング部４１０は、入力されるベクトルを記憶部１３の形式に合わせてから、記憶部１３に書き込む処理を行う。例えばデータパッキング部４１０は、サイズＫのベクトルをＭ個合わせて、サイズＭ×Ｋ（＝Ｍ×Ｐ）の特徴マップ行列の形式にして、記憶部１３に書き込む。記憶部１３に対する書き込み形式と読み出し形式とを揃えることができるため、例えばニューラルネットワークの複数のレイヤ処理を連続的に実行することが容易になる。

信頼度比較部４０８は、演算処理で得られる信頼度を比較する。例えば本実施形態の演算処理を、ニューラルネットワークを用いた物体検出に適用する場合、信頼度比較部４０８は、特徴マップデータの座標値ごとに、物体検出の検出対象の信頼度と、検出対象以外の対象の信頼度との差分を、閾値と比較する。信頼度比較部４０８は、差分が閾値より大きい座標値についてのみ、検出対象の検出結果を示す情報を出力する。信頼度比較部４０８は、差分が閾値より大きい座標値を示す位置情報を含む出力ベクトルを出力してもよい。信頼度比較部４０８の出力は、例えば記憶部１３または一時記憶部４２１に記憶される。

ベクトル演算部４００の各構成要素（バイアス加算部４０１、活性化関数部４０２、プーリング部４０３、並び替え部４０４、ソフトマックス部４０５、要素加算部４０６、転置部４０７、信頼度比較部４０８、量子化部４０９、データパッキング部４１０）は、制御部１１によって必要に応じて機能をオフにすることができる。ベクトル演算部４００の各構成要素のうち少なくとも一部を備えないように構成してもよい。

また、ベクトル演算部４００の各構成要素の処理順序は限定されない。実現する演算処理に必要な構成要素が必要な順序で実行されるように、制御部１１が各構成要素を制御するように構成すればよい。また、各構成要素は、それぞれ複数備えられてもよい。例えば複数の活性化関数部４０２がベクトル演算部４００の構成要素として含まれてもよい。

制御部１１が各部（記憶部１３、転送部１２、および、演算部３１）のパラメータ設定および制御を行うことにより、様々な演算処理を実現することができる。以下では、本実施形態で実現できる演算処理の例について説明する。

図７は、演算装置１０による畳み込み演算の例を示す図である。図７において（ｘ、ｙ、ｚ）の３次元は、特徴マップデータおよび重みデータの（水平方向、垂直方向、チャネル方向）を意味する。本実施形態において、水平方向（ｘ軸）および垂直方向（ｙ軸）は、相互に入れ替え可能である。

図７では、入力される特徴マップデータは入力特徴マップとして表されている。入力特徴マップのｘ軸、ｙ軸およびｚ軸方向のサイズは、それぞれＷｉｎ、ＨｉｎおよびＣｉｎである。以下では、ｘ軸、ｙ軸およびｚ軸方向のサイズを、サイズ（Ｗｉｎ、Ｈｉｎ、Ｃｉｎ）のように表す場合がある。重みデータは、ｘ軸、ｙ軸およびｚ軸方向のサイズが（Ｒ、Ｓ、Ｃｉｎ）であるＣｏｕｔ個の重みカーネル７０１－１～７０１－Ｃｏｕｔで構成される。重みデータから、重みカーネルがＫ個選択され、演算処理に用いられる。

演算部３１が一度に連続して計算して出力する特徴マップデータである出力特徴マップの処理単位は、図７の網掛け部分で示すような１行Ｋチャネルである。すなわち、制御部１１は、１行Ｋチャネルを計算するように、必要な重み行列と特徴マップ行列を連続的に読み出して演算部３１へと入力する。

Ｈは、出力特徴マップの１行の計算に必要な入力特徴マップの行数（ｙ軸サイズ）を意味する。Ｈは、重みカーネルのサイズ（カーネルサイズ）が１より大きく、パディング処理がある場合の出力特徴マップの上下の端部を除けば、重みカーネルのｙ軸サイズであるＳに等しい。

図２のＫ個の重みベクトル２２－１～２２－Ｋは、図７のＫ個の重みカーネル（例えば重みカーネル７０１－１～７０１－Ｋ）の、それぞれ同一の（ｘ、ｙ、ｚ）座標から切り出したサイズ（１、１、Ｋ）のベクトルに相当する。

図２の特徴マップ行列は、図７のサイズ（Ｍ、１、Ｋ）の１ブロック、または、サイズ（２Ｍ、１、Ｋ）の２ブロックの中のｘ軸が偶数（または奇数）であるサイズ（Ｍ、１、Ｋ）のデータに相当する。後者は、例えば畳み込み演算の水平方向のストライドが偶数（例えば２）の場合の処理に対応する。

図８は、演算部３１による演算方法の疑似プログラミングコードの例を示す図である。図８に示すように、演算部３１の処理は、５次元の処理ループ構造になる。５次元の処理ループとは、繰り返し処理が５回入れ子（ネスト）となった処理である。内側から外側に向けて１次元から５次元の処理であるとすると、以下のような処理の単純な繰り返しになるように構成できるためである。
１次元：ｚ軸、すなわち、チャネル方向（特徴マップと重みで共通）のループ
２次元：ｙ軸およびｓ軸、すなわち、垂直方向（ｙ軸：特徴マップ、ｓ軸：重み）のループ
３次元：ｒ軸、すなわち、重みの水平方向のループ
４次元：ｘ軸、すなわち、特徴マップの水平方向のループ
５次元：ｄ軸、すなわち、ソフトマックス処理用のループ、または、逆畳み込み演算のサブカーネル選択のループ

なお、１次元（ｚ軸）の処理、および、２次元（ｙ軸、ｓ軸）の処理の順序は交換可能である。逆畳み込み演算の詳細は後述する。

重みデータの処理の分解という観点では、まず行列積演算部１００が、重みカーネルのｚ軸の一部（サイズ（１、１、Ｋ））を処理する。次に、累積加算部２００は、重みカーネルのｚ軸方向とｙ軸（ｓ軸）方向の処理を行う。そして、シフト加算部３００は、重みカーネルのｘ軸方向（ｒ軸）の処理を行う。これらを組み合わせて重みカーネル全体の処理が完成する。これらの処理を特徴マップのｘ軸方向に連続的に処理することで、１行Ｋチャネルの出力特徴マップを完成させることができる。出力特徴マップは、ｘ軸方向にＭ要素が並列に演算される。カーネルサイズがＲ×Ｓ＝１×１の場合を除けば、ｘ軸ループ内でＭ要素がすべて完成するわけではない。シフト加算部３００のベクトルレジスタ３０４－１～３０４－Ｍの値を初期値として引き継ぐことで、ｘ軸ループの次の処理において残りが出力される。

図８内の「ｄｏｔ」は、行列積演算部１００の演算結果を表す行列である。「ａｃｍ」は、累積加算部２００の演算結果を表す行列である。「ｓｈｉｆｔ＿ａｄｄ（）」は、シフト加算部３００による演算を表す関数である。「ｏｆｍａｐ」は、シフト加算部３００またはベクトル演算部４００による演算結果を表す出力特徴マップである。

制御部１１は、図８に記載された以下のようなパラメータの設定を調整することにより、様々な演算処理を実行する。
・ｘｒａｎｇｅ、ｙｒａｎｇｅ：特徴マップのｘ軸、ｙ軸の処理範囲
・ｒｒａｎｇｅ、ｓｒａｎｇｅ：重みカーネルのｘ軸、ｙ軸の処理範囲（逆畳み込み処理では、ｒｒａｎｇｅはｄの関数となる）
・ｚｒａｎｇｅ：特徴マップ、重みのｚ軸の処理範囲
・ｄｒａｎｇｅ：逆畳み込み演算、ソフトマックス処理用のループ

なお、図７の畳み込み演算の例については、各パラメータを以下のように設定することができる。
・ｘｒａｎｇｅ＝Ｗｉｎ／Ｍ
・ｙｒａｎｇｅ＝Ｈ
・ｒｒａｎｇｅ＝Ｒ
・ｓｒａｎｇｅ＝Ｓ
・ｚｒａｎｇｅ＝Ｃｉｎ／Ｋ

制御部１１は、以上のように演算処理を行うことで、中間メモリ（部分和を記憶するためのメモリなど）を使わずに、１行Ｋチャネル分の畳み込み演算、逆畳み込み演算、および、行列演算処理などの演算処理を連続的に実行することができる。

図９および図１０は、演算装置１０による演算スケジューリングの例を示す図である。図９および図１０は、それぞれ第１の演算スケジューリングの例、および、第２の演算スケジューリングの例を示す。第１の演算スケジューリングは、１行Ｋチャネルを処理単位として、チャネル方向に次の処理を進めて１行を完成させる。第２の演算スケジューリングは、１行Ｋチャネルを処理単位として、行方向に次の処理を進めてＫチャネルを完成させる。

演算装置１０は、これらの２つのスケジューリング方法を、処理する特徴マップおよび重みの形状に応じて選択することができる。記憶部１３における特徴マップの配置は、２つの演算スケジューリングに対応した２種類の並び順が存在する。データの最小単位をサイズ（Ｍ、１、Ｋ）として、これをｘ軸、ｚ軸、ｙ軸の順番に並べた場合が図９に対応する。データの最小単位をｘ軸、ｙ軸、ｚ軸の順番に並べた場合が図１０に対応する。このように記憶部１３内での特徴マップのデータの並び順が決定されていることにより、制御部１１は、あらゆる座標の特徴マップのアドレスを容易に計算して読み出すことができる。

次に、逆畳み込み演算について説明する。図１１は、逆畳み込み演算における重みカーネルからサブカーネルへの分割方法を説明する図である。重みカーネルをサブカーネルに変換することで、逆畳み込み演算は複数の畳み込み演算に分解することが可能となる。演算装置１０は、逆畳み込み演算を複数のサブカーネルへ分解して畳み込み演算するように演算を行う。図１１では、ｘ軸とｙ軸での分解の例のみを示し、ｚ軸（チャネル方向の軸）での分解は省略している。図１１の例では、ｘ軸およびｙ軸方向のサイズが（４、４）であり、ｘ軸およびｙ軸方向のストライドが（２、２）であるカーネルが、ｘ軸およびｙ軸方向のサイズが（２、２）である４個のサブカーネルに分割される。これらのサブカーネルのｘ軸およびｙ軸方向のストライドは（１、１）である。

サブカーネルへの変換では、まず、逆畳み込み演算の重みカーネルに対して、ｘ軸とｙ軸のそれぞれで座標（並び）が反転される。次に、ｘ軸とｙ軸のそれぞれに対してストライドごとの要素を選択することで、重みカーネルがサブカーネルに分割される。例えば、サイズ（８、８）、ストライド（４、４）であれば、サイズ（２、２）の１６個のサブカーネルに分割される。

図８に示したｄ軸の処理ループは、逆畳み込み演算の場合は、ｘ軸方向のサブカーネルのいずれかを選択するループになる。すなわち、図１１の例では、ｄ軸の処理ループは、サブカーネルＡ１かサブカーネルＢ１（または、サブカーネルＡ２かサブカーネルＢ２）のうち１つを選択するループである。ｄｒａｎｇｅのサイズは、ｘ軸のストライドサイズに等しい。サブカーネルのサイズは、元のカーネルサイズをストライドサイズで除算した値となる。サブカーネルＡ１とＢ１のセットを使うか、サブカーネルＡ２とＢ２のセットを使うかは、計算する出力特徴マップの行番号によって決まり、行ごとに順番に使用される。

逆畳み込み演算では、図８のｄ軸の処理ループより内側の処理ループは、選択したサブカーネルを使って通常の畳み込み演算と同様に処理される。ただし、図７に示したように、１行Ｋ列の出力特徴マップをｘ座標の順番にするために、並び替え部４０４が、サブカーネルごとに計算した出力特徴マップを並び替える必要がある。

図１２は、並び替え部４０４による、逆畳み込み演算におけるデータの並び替え処理の一例を示す図である。図１２は、ｄｒａｎｇｅのサイズが２で、１マスがサイズ（１、１、Ｋ）である特徴マップベクトルの並び替えの例に相当する。図１２の１行が逆畳み込み演算の１サブカーネルを処理した結果である。Ｗｓｕｂは、サブカーネルで計算した出力特徴マップのｘ軸のサイズ（Ｗｓｕｂ＝Ｗｏｕｔ／ｄｒａｎｇｅのサイズ）を表す。図１２に示すように、行ごとに書き込みを行い、列ごとに読み出すような並び替えを行う。このような並び替え処理を行うことで、逆畳み込み演算においても、記憶部１３に書き込まれる出力特徴マップのデータの並び順をｘ座標の順番にすることが可能となる。

図１３は、シフト加算部３００での畳み込み演算の一例を示す図である。図１３は、入力特徴マップと出力特徴マップのｘ軸およびｙ軸方向のサイズは等しく、カーネルのｘ軸およびｙ軸方向のサイズ（Ｒ、Ｓ）は（３、３）、ｘ軸およびｙ軸方向のストライドは（１、１）、ｘ軸およびｙ軸方向のパディングは（１、１）である畳み込み演算を実行する場合の例である。

図１３において、Ｗ（ｎ）（ｎ＝１～３）は、ｘ座標がｎで、サイズ（１、Ｓ、Ｃｉｎ）であるカーネルの範囲を意味する。同様に、Ｆ（ｎ）は、ｘ座標がｎ（ｎ＝１～Ｗｉｎ）で、サイズ（１、Ｓ、Ｃｉｎ）である特徴マップの範囲を意味する。また、Ｊ（ｎ）（ｎ＝１～Ｗｏｕｔ）は、ｘ座標がｎで、サイズ（１、１、１）である出力特徴マップを意味する。実際には、このような処理がＫ個のカーネルに対して並列して実行されるが、説明の簡素化のため、図１３では、出力チャネルが１として説明する。

出力特徴マップＪ（ｎ）は、Ｗ（ｎ）とＦ（ｎ）から以下の（１）式で表すことができる。

ただし、Ｆ（ｎ）＝０（ｎ＜０またはｎ＞Ｗｉｎ）、ｏｆｆｓｅｔ＝２、＜Ｆ（ｎ）、Ｗ（Ｍ）＞は、Ｆ（ｎ）とＷ（Ｍ）の要素積をすべて加算した値である。＜Ｆ（ｎ）、Ｗ（Ｍ）＞は、シフト加算部３００への入力に対応する。カーネルのｘ軸は、右から左の順番で処理される。

まず、加算命令が有効な状態で、＜Ｆ（１）、Ｗ（３）＞～＜Ｆ（Ｍ）、Ｗ（３）＞がシフト加算部３００へ入力されず、ベクトルレジスタ３０４－１～３０４－Ｍにそれぞれ代入される。ただし、ベクトルレジスタ３０４－１～３０４－Ｍの初期値は０である。次に、加算命令とシフト命令の両方が有効な状態で、＜Ｆ（１）、Ｗ（２）＞～＜Ｆ（Ｍ）、Ｗ（２）＞がシフト加算部３００に入力される。最後に、加算命令とシフト命令の両方が有効な状態で、＜Ｆ（１）、Ｗ（１）＞～＜Ｆ（Ｍ）、Ｗ（１）＞がシフト加算部３００に入力される。その後のベクトルレジスタ３０４－１～３０４－Ｍ－１の値は、出力特徴マップＪ（１）～Ｊ（Ｍ－１）が完成した状態である。しかし、Ｊ（Ｍ）の完成にはＦ（Ｍ＋１）が必要であるため、ベクトルレジスタ３０４－ＭではＪ（Ｍ）は未完成の状態となっている。

次に、（Ｍ－１）回のシフト命令によって出力特徴マップＪ（１）～Ｊ（Ｍ－１）がシフト加算部３００から出力されると同時に、ベクトルレジスタ３０４－Ｍの値がベクトルレジスタ３０４－１に移動され、それ以外のベクトルレジスタ３０４－１～３０４－Ｍ－１の値が０に初期化される。

同様の処理が、次のＭ個の入力特徴マップ（Ｆ（Ｍ＋１）～Ｆ（２Ｍ））に対して実行される。加算命令が有効な状態で、＜Ｆ（Ｍ＋１）、Ｗ（３）＞～＜Ｆ（２Ｍ）、Ｗ（３）＞がシフト加算部３００のベクトルレジスタ３０４－１～３０４－Ｍと加算される。その結果、ベクトルレジスタ３０４－１では出力特徴マップＪ（Ｍ）が完成する。

以上の処理を繰り返すことで、図７に示したような１行Ｋチャネル分の出力特徴マップを完成することができる。

次に、記憶部１３のデータ配置の例について説明する。図１４および図１５は、記憶部１３のデータ配置の第１の構成例および第２の構成例をそれぞれ示す図である。各図のそれぞれ１マスがサイズ（１、１、Ｋ）の特徴マップである。１ワードはサイズ（Ｍ、１、Ｋ）であり、Ｍ＝８の場合を図示している。また、マス内の数値はｘ軸の値を意味する。

記憶部１３の内部は２つのバンク（メモリバンク）で構成されており、各バンクは独立した読み書きも可能である。第１の構成例（図１４）では、記憶部１３は、バンクＢＫ１およびＢＫ２を含む。第２の構成例（図１５）では、記憶部１３は、バンクＢＫ１およびＢＫ２－２を含む。第１の構成例および第２の構成例のいずれ場合も、２つのバンクそれぞれの同一アドレス内のｘ軸の値は、奇数または偶数のいずれかのみで構成される。

第１の構成例および第２の構成例は、バンクＢＫ２およびバンクＢＫ２－２の間で、偶数アドレスと奇数アドレスのデータが入れ替わっている点が異なる。いずれの場合も、２つのバンクが独立にアクセスできる点で共通する。

このようなデータ配置にすることにより、畳み込み演算のストライドが偶数（特に２）の場合において、ｘ軸の座標が偶数のみ（または奇数のみ）の値を持つサイズＭ×Ｐの特徴マップ行列に相当するデータを、１サイクルで読み出すことが可能となる。

例えば第１の構成例では、ストライド１の畳み込み演算であれば、バンクＢＫ１とバンクＢＫ２ともに同じアドレスでデータが読み出される。ストライド２の畳み込み演算で偶数データを読み出す場合には、バンクＢＫ１は偶数アドレスとなり、バンクＢＫ２はバンクＢＫ１のアドレスのＬＳＢ（Least Significant Bit）を反転した奇数アドレスとなる。同様に、奇数データを読み出す場合には、バンクＢＫ１は奇数アドレスとなり、バンクＢＫ２はバンクＢＫ１アドレスのＬＳＢを反転した偶数アドレスとなる。

このような構成によって、ストライドが１および２のいずれであっても、演算部３１へ入力するサイズの特徴マップ行列を毎サイクル読み出すことが可能となり、効率的な処理が実現できる。

これまで説明した演算処理は、複数（Ｑ個、Ｑは２以上の整数）のレイヤの処理にそれぞれ含まれるように構成することができる。レイヤとは、畳み込み演算といった単独の演算処理ではなく、畳み込み演算（または逆畳み込み演算、または行列乗算処理）、および、それに続くプーリング処理など、本実施形態のベクトル演算部４００における処理も含めた一連の処理である。

以下では、複数のレイヤで構成される処理の例について説明する。複数のレイヤで構成される処理は、例えば、ニューラルネットワークを用いた処理である。図１６は、４つのレイヤで構成されるニューラルネットワークのグラフの一例を示す図である。

複数のレイヤは、例えば以下のように構成される。
・第１レイヤ：入力特徴マップ（第１入力特徴データ）を用いる演算を行い出力特徴マップ（第１出力特徴データ）を出力する。
・第ｑレイヤ（２≦ｑ≦Ｑ、Ｑは２以上の整数）：第（ｑ－１）レイヤが出力する出力特徴マップ（第（ｑ－１）出力特徴データ）を入力特徴マップ（第ｑ入力特徴データ）として用いる演算を行い出力特徴マップ（第ｑ出力特徴データ）を出力する。

制御部１１は、上記のような複数のレイヤの処理を、以下のように制御することができる。すなわち、制御部１１は、第ｑ出力特徴データの一部である部分データの演算に必要な、第（ｑ－１）出力特徴データの一部または全部が得られたときに、この部分データの演算を開始するように、５次元の処理ループを制御する。以下、このような制御の例について説明する。

制御部１１は、ニューラルネットワークのグラフにおいてレイヤ処理のループの開始点と終了点とをそれぞれ定義し、レイヤ処理のループ単位（レイヤ処理ループという）で演算処理のフローを定義する。

図１６の例では、レイヤＬ１～Ｌ３が１つのレイヤ処理ループにまとめて処理する対象となる。レイヤＬ４が単独で処理するもう１つのレイヤ処理ループである。また、レイヤＬ１～Ｌ３が、上述の第１の演算スケジューリングに従い、出力特徴マップの行ごとに処理を進めるレイヤである。レイヤＬ４が第２の演算スケジューリングに従い、カーネル単位で処理を進めるレイヤである。一般的に、第１の演算スケジューリングを用いて複数レイヤを纏めて処理することで、出力特徴マップのサイズがより小さくなるレイヤまで処理を一括で連続的に進めることができる。このため、レイヤごとに処理を進める場合と比較して、記憶部１３のメモリ使用量、および、外部メモリとの間のデータ転送を削減することができる。外部メモリとは、演算装置１０の外部に備えられる記憶装置である。

図１７は、演算装置１０による図１６のレイヤＬ１～Ｌ３の演算処理の一例を示すフローチャートである。図１７は、まとめて処理するレイヤの個数が３個（Ｌ＝３）の例であるが、２個または４個以上の場合も同様の手順を適用できる。

まず制御部１１は、レイヤＬ１～Ｌ３の重みおよびバイアス値を外部メモリから演算装置１０へ転送する（ステップＳ１０１）。例えば制御部１１は、転送部１２へデータ転送命令を送ることでデータ転送を実行する。

次に、制御部１１は、レイヤＬ１の入力特徴マップが外部メモリに記憶されているか否かを判定する（ステップＳ１０２）。外部メモリに記憶されている場合（ステップＳ１０２：Ｙｅｓ）、制御部１１は、外部メモリから演算装置１０へ入力特徴マップのデータ転送を開始する（ステップＳ１０３）。

レイヤＬ１の入力特徴マップの転送を開始後、または、外部メモリに記憶されていない場合、すなわち、レイヤＬ１の入力特徴マップが記憶部１３に記憶されている場合は（ステップＳ１０２：Ｎｏ）、ステップＳ１０４に遷移する。

なお、制御部１１は、レイヤＬ１の入力特徴マップに割り当てられた記憶部１３の記憶領域、データ転送の進捗、および、演算処理の進捗から、使用予定の入力特徴マップが上書き消去されないように、データ転送を一時的に中断する機能を有する。例えばＡＸＩ（Advanced eXtensible Interface）バスが用いられる場合は、制御部１１は、ＲＲＥＡＤＹ信号をデアサートすることで、転送の中断機能をサイクル単位で容易に実現できる。

ステップＳ１０４では、制御部１１は、レイヤＬ１の次の１行の出力特徴マップを計算するために必要な入力特徴マップと重みが揃っているか否かを判定する（ステップＳ１０４）。揃っている場合（ステップＳ１０４：Ｙｅｓ）、制御部１１は、レイヤＬ１の演算処理を実行する（ステップＳ１０５）。揃っていない場合（ステップＳ１０４：Ｎｏ）、必要なデータが揃って演算を実行可能になるまで待つ。

次の行の出力特徴マップを計算するために必要なデータ（入力特徴マップ、重み）が、部分データの一例である。以下の処理も同様である。

次に、制御部１１は、レイヤＬ２の次の１行の出力特徴マップを計算するために必要なレイヤＬ２の入力特徴マップ（＝レイヤＬ１の出力特徴マップ）が揃っているか否かを判定する（ステップＳ１０６）。揃っている場合（ステップＳ１０６：Ｙｅｓ）、制御部１１は、レイヤＬ２の演算処理を実行する（ステップＳ１０７）。揃っていない場合（ステップＳ１０６：Ｎｏ）、レイヤＬ２の演算処理は実行せずに、ステップＳ１０８に進む。

同様に、制御部１１は、レイヤＬ３の次の１行の出力特徴マップを計算するために必要なレイヤＬ３の入力特徴マップ（＝レイヤＬ２の出力特徴マップ）が揃っているか否かを判定する（ステップＳ１０８）。揃っている場合（ステップＳ１０８：Ｙｅｓ）、制御部１１は、レイヤＬ３の演算処理を実行する（ステップＳ１０９）。揃っていない場合（ステップＳ１０８：Ｎｏ）、レイヤＬ３の演算処理は実行せずに、ステップＳ１１２に進む。

レイヤＬ３の演算処理を実行した場合には、制御部１１は、レイヤＬ３の出力特徴マップを外部メモリに記憶するか否かを判定する（ステップＳ１１０）。記憶する場合（ステップＳ１１０：Ｙｅｓ）、制御部１１は、計算したレイヤＬ３の出力特徴マップ１行を外部メモリに転送する（ステップＳ１１１）。転送後、または、レイヤＬ３の出力特徴マップを外部メモリに記憶しない場合（ステップＳ１１０：Ｎｏ）、ステップＳ１１２に進む。

ステップＳ１１２では、制御部１１は、レイヤＬ３の演算処理が終了したか、すなわち、レイヤＬ３の出力特徴マップがすべて完成したか否かを判定する（ステップＳ１１２）。完成していない場合（ステップＳ１１２：Ｎｏ）、ステップＳ１０４に戻り、次の行から処理が繰り返される。完成した場合（ステップＳ１１２：Ｙｅｓ）、レイヤＬ１～Ｌ３の演算処理は終了する。

図１８は、演算装置１０による図１８のレイヤＬ４の演算処理の一例を示すフローチャートである。

まず、制御部１１は、レイヤＬ４の入力特徴マップが外部メモリに記憶されているか否かを判定する（ステップＳ２０１）。外部メモリに記憶されている場合（ステップＳ２０１：Ｙｅｓ）、制御部１１は、外部メモリから演算装置１０へ入力特徴マップのデータ転送を開始する（ステップＳ２０２）。

レイヤＬ４の入力特徴マップを転送後、または、外部メモリに記憶されていない場合（ステップＳ２０１：Ｎｏ）、すなわち、レイヤＬ４の入力特徴マップが記憶部１３に記憶されている場合は、ステップＳ２０３に遷移する。

次に、制御部１１は、外部メモリから演算装置１０へレイヤＬ４の重みおよびバイアス値のデータ転送を開始する（ステップＳ２０３）。

制御部１１は、レイヤＬ４の重みに割り当てられた記憶部１３の記憶領域、データ転送の進捗、および、演算処理の進捗から、使用予定の重みが上書き消去されないように、必要に応じてデータ転送を一時的に中断する機能を有する。

制御部１１は、レイヤＬ４の次のＫカーネルの出力特徴マップを計算するために必要な重みが揃っているか否かを判定する（ステップＳ２０４）。揃っている場合（ステップＳ２０４：Ｙｅｓ）、制御部１１は、レイヤＬ４の演算処理を実行する（ステップＳ２０５）。揃っていない場合（ステップＳ２０４：Ｎｏ）、ステップＳ２０４の判定に戻り、揃うまで待機する。

次に、制御部１１は、レイヤＬ４の出力特徴マップを外部メモリに記憶するか否かを判定する（ステップＳ２０６）。記憶する場合（ステップＳ２０６：Ｙｅｓ）、制御部１１は、計算したレイヤＬ４の出力特徴マップを外部メモリに転送する（ステップＳ２０７）。転送後、または、レイヤＬ４の出力特徴マップを外部メモリに記憶しない場合（ステップＳ２０６：Ｎｏ）、ステップＳ２０８に進む。

制御部１１は、レイヤＬ４の演算処理が終了したか、すなわち、レイヤＬ４の出力特徴マップがすべて完成したか否かを判定する（ステップＳ２０８）。完成していない場合（ステップＳ２０８：Ｎｏ）、ステップＳ２０４に戻り、次のカーネルから処理が繰り返される。完成した場合（ステップＳ２０８：Ｙｅｓ）、レイヤＬ４の演算処理は終了する。

このように、本実施形態にかかる演算装置は、制御部１１が、行列積演算部１００、累積加算部２００、シフト加算部３００、および、ベクトル演算部４００を、５次元の処理ループによって制御して、畳み込み演算等の演算処理を行う。これにより、ニューラルネットワークなどの演算処理を高効率に並列実行することが可能となる。

本実施形態にかかる演算装置で実行されるプログラムは、記憶部１３等に予め組み込まれて提供される。

本実施形態にかかる演算装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、本実施形態にかかる演算装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる演算装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施形態にかかる演算装置で実行されるプログラムは、コンピュータを上述した演算装置の各部として機能させうる。このコンピュータは、制御部１１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０演算装置
１１制御部
１２転送部
１３記憶部
３１演算部
１００行列積演算部
１１０内積演算部
１１１内積乗算部
１１２指数加算部
１１３ビットシフト部
２００累積加算部
３００シフト加算部
３０１－１～３０１－Ｍ加算セレクタ
３０２－１～３０２－Ｍシフトセレクタ
３０３－１～３０３－Ｍベクトル加算器
３０４－１～３０４－Ｍベクトルレジスタ
４００ベクトル演算部
４０１バイアス加算部
４０２活性化関数部
４０３プーリング部
４０４並び替え部
４０５ソフトマックス部
４０６要素加算部
４０７転置部
４０８信頼度比較部
４０９量子化部
４１０データパッキング部
４２１一時記憶部

Claims

行列積演算の指示に応じて、Ｍ（Ｍは２以上の整数）×Ｐ（Ｐは２以上の整数）次元の第１入力行列と、Ｐ×Ｋ（Ｋは２以上の整数）次元の第２入力行列と、の積であるＭ×Ｋ次元の第１出力行列を演算する行列積演算部と、
累積加算の指示に応じて、前記第１出力行列と、累積レジスタに記憶されたＭ×Ｋ次元の行列とを加算した行列を表すＭ×Ｋ次元の累積加算行列を計算し、計算した前記累積加算行列を前記累積レジスタに記憶する累積加算部と、
ベクトル加算の指示に応じて、前記累積加算行列に含まれるＭ次元の累積加算ベクトルそれぞれと、Ｍ個のベクトルレジスタそれぞれに記憶されたＭ次元の一時ベクトルと、を加算した加算ベクトルを計算し、計算した前記加算ベクトルを前記ベクトルレジスタに記憶し、シフトの指示に応じて、Ｍ番目の前記ベクトルレジスタに記憶された前記一時ベクトルを出力するシフト加算部と、
出力された前記一時ベクトルに対して、指示されたベクトル演算を実行し、前記ベクトル演算の実行結果である出力ベクトルを出力するベクトル演算部と、
前記行列積演算の指示、前記累積加算の指示、前記ベクトル加算の指示、前記シフトの指示、および、前記ベクトル演算の指示を制御する制御部と、
を備える演算装置。
前記第１入力行列は、Ｍ個のＰ次元の第１入力ベクトルを含み、
前記第２入力行列は、Ｋ個のＰ次元の第２入力ベクトルを含み、
前記第１入力ベクトルに含まれる各要素は、第１指数値により指数の位置が指定された固定小数点で符号化され、
前記第２入力ベクトルに含まれる各要素は、第２指数値により指数の位置が指定された固定小数点で符号化され、
前記行列積演算部は、組み合わせが相互に異なるｍ番目（１≦ｍ≦Ｍ）の前記第１入力ベクトルとｋ番目（１≦ｋ≦Ｋ）の前記第２入力ベクトルとに対応するＭ×Ｋ個の内積乗算部、指数加算部、および、ビットシフト部をそれぞれ含み、
前記内積乗算部のそれぞれは、対応するｍ番目の前記第１入力ベクトルと、ｋ番目の前記第２入力ベクトルとの内積を計算し、
前記指数加算部のそれぞれは、対応するｍ番目の前記第１入力ベクトルの前記第１指数値と、ｋ番目の前記第２入力ベクトルの前記第２指数値と、を加算した指数値を計算し、
前記ビットシフト部のそれぞれは、対応する前記指数加算部により計算された指数値に応じて、対応する前記内積乗算部により計算された前記内積をビットシフトする、
請求項１に記載の演算装置。
前記第１入力行列は、垂直方向、水平方向、および、チャネル方向の３次元の座標値ごとの特徴を要素として含む入力特徴データのうち、前記水平方向のＭ個の座標、前記垂直方向の１個の座標、および、前記チャネル方向のＰ個の座標に対応する要素を含む行列であり、
前記第２入力行列は、垂直方向、水平方向、チャネル方向、および、カーネル方向の４次元の座標値ごとの重みを要素として含む重みデータのうち、前記水平方向のＰ個の座標、前記垂直方向の１個の座標、および、前記チャネル方向のＫ個の座標に対応する要素を含む行列であり、
前記制御部は、内側から第１処理ループ、第２処理ループ、第３処理ループ、第４処理ループ、および、第５処理ループの順の５次元の処理ループで演算を制御し、
前記チャネル方向で前記行列積演算部の演算を繰り返す処理、および、前記垂直方向で前記累積加算部の処理を繰り返す処理のうち、一方が前記第１処理ループであり、他方が前記第２処理ループであり、
前記第３処理ループは、前記行列積演算部、前記累積加算部、前記シフト加算部、および、前記ベクトル演算部の処理を、前記重みデータの前記水平方向に繰り返す処理であり、
前記第４処理ループは、前記第３処理ループに含まれる処理を、前記入力特徴データの前記水平方向に繰り返す処理であり、
前記第５処理ループは、前記第４処理ループに含まれる処理を、予め定められた回数分、繰り返す処理である、
請求項１に記載の演算装置。
前記制御部は、
第１入力特徴データを用いる演算を行い第１出力特徴データを出力する第１レイヤと、第（ｑ－１）レイヤ（２≦ｑ≦Ｑ、Ｑは２以上の整数）が出力する第（ｑ－１）出力特徴データを第ｑ入力特徴データとして用いる演算を行い第ｑ出力特徴データを出力する第ｑレイヤと、を含む複数のレイヤの演算処理を制御し、
前記第ｑ出力特徴データの一部である部分データの演算に必要な、前記第（ｑ－１）出力特徴データの一部または全部が得られたときに、前記部分データの演算を開始するように、前記５次元の処理ループを制御する、
請求項３に記載の演算装置。
垂直方向、水平方向、および、チャネル方向の３次元の座標値ごとの特徴を要素として含む入力特徴データを記憶する記憶部をさらに備え、
前記記憶部は、少なくとも２つのメモリバンクを含み、
前記入力特徴データのうち、前記水平方向の座標値が偶数および奇数の一方であるデータが、前記メモリバンクの偶数番目のアドレスで指定される領域に記憶され、他方が、前記メモリバンクの奇数番目のアドレスで指定される領域に記憶される、
請求項１に記載の演算装置。
前記ベクトル演算は、一時記憶部を用いたベクトル単位のプーリング処理、および、前記一時記憶部を用いたベクトル単位の並び替え処理を含む、
請求項１に記載の演算装置。
前記第１入力行列は、垂直方向、水平方向、および、チャネル方向の３次元の座標値ごとの特徴を要素として含む入力特徴データのうち、前記水平方向のＭ個の座標、前記垂直方向の１個の座標、および、前記チャネル方向のＰ個の座標に対応する要素を含む行列であり、
前記ベクトル演算は、前記座標値ごとに、前記入力特徴データから計算される、検出対象の信頼度と検出対象以外の対象の信頼度との差分を、閾値と比較し、前記差分が前記閾値より大きい前記座標値を示す位置情報を含む前記出力ベクトルを出力する処理を含む、
請求項１に記載の演算装置。
前記第１入力行列は、垂直方向、水平方向、および、チャネル方向の３次元の座標値ごとの特徴を要素として含む入力特徴データのうち、前記水平方向のＭ個の座標、前記垂直方向の１個の座標、および、前記チャネル方向のＰ個の座標に対応する要素を含む行列であり、
前記ベクトル演算は、前記座標値ごとに、前記入力特徴データから計算される、検出対象の信頼度と検出対象以外の対象の信頼度との差分を、閾値と比較し、前記差分が前記閾値より大きい前記座標値に対してのみ、前記検出対象の検出結果を示す情報を含む前記出力ベクトルを出力する処理を含む、
請求項１に記載の演算装置。
行列積演算の指示に応じて、Ｍ（Ｍは２以上の整数）×Ｐ（Ｐは２以上の整数）次元の第１入力行列と、Ｐ×Ｋ（Ｋは２以上の整数）次元の第２入力行列と、の積であるＭ×Ｋ次元の第１出力行列を演算する行列積演算ステップと、
累積加算の指示に応じて、前記第１出力行列と、累積レジスタに記憶されたＭ×Ｋ次元の行列とを加算した行列を表すＭ×Ｋ次元の累積加算行列を計算し、計算した前記累積加算行列を前記累積レジスタに記憶する累積加算ステップと、
ベクトル加算の指示に応じて、前記累積加算行列に含まれるＭ次元の累積加算ベクトルそれぞれと、Ｍ個のベクトルレジスタそれぞれに記憶されたＭ次元の一時ベクトルと、を加算した加算ベクトルを計算し、計算した前記加算ベクトルを前記ベクトルレジスタに記憶し、シフトの指示に応じて、Ｍ番目の前記ベクトルレジスタに記憶された前記一時ベクトルを出力するシフト加算ステップと、
出力された前記一時ベクトルに対して、指示されたベクトル演算を実行し、前記ベクトル演算の実行結果である出力ベクトルを出力するベクトル演算ステップと、
前記行列積演算の指示、前記累積加算の指示、前記ベクトル加算の指示、前記シフトの指示、および、前記ベクトル演算の指示を制御する制御ステップと、
を含む演算方法。