JP2022152208A

JP2022152208A - 畳み込み演算を行なう演算処理装置および演算処理方法

Info

Publication number: JP2022152208A
Application number: JP2021054895A
Authority: JP
Inventors: 政一礒村; Masaichi Isomura
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-10-12

Abstract

【課題】コンボリューション演算において、複数の特徴量を並列的に計算する構成を採用する際、演算部の処理性能に見合った記憶部の構成を提案する。【解決手段】コンボリューション演算の対象となる入力データ及びコンボリューション演算のための重み付け係数を外部記憶装置に記憶し、コンボリューション演算の際に、入力データ及び重み付け係数の少なくとも一方を、外部記憶装置から、コンボリューション演算を行なうプロセッサが外部記憶装置より高速にアクセス可能な内部記憶部にロードし、コンボリューション演算を複数の処理単位に分けて行なう。その際、処理単位毎のコンボリューション演算を複数のステージに分け、各ステージにおいて、入力データ及び重み付け係数の少なくとも一方を内部記憶部から読み出して、Ｎより少ない個数のニューロンによりコンボリューション演算の一部を行ない、各ステージでの演算結果を合計して、特徴毎の演算結果とする。【選択図】図１

Description

本開示は、畳み込み演算を行なう演算技術に関する。

近年、画像認識などのパターン認識、各種予想・制御システムの分野で、ニューラルネットワークを用いた処理装置が用いられている。ニューラルネットワークでは、少なくとも入力層、中間層、出力層の三層の処理ユニットを備え、各ユニットの各層間を接続するニューロンを備える。層間の各ニューロンは、所定の重み係数でフィードフォワード結合される。

入力層から入力された信号は、この重み付け係数を介して次の層に伝達され、出力層の出力を決定する。こうした階層結合型ニューラルネットワークでは、バックプロパゲーションなどの学習により、この層間の重み付け係数を定めることで、例えば画像などの情報に対応する信号が入力層に入力されると、これに対する有意の出力、例えば画像に含まれるモノや意味、予測や判断結果などに対応する信号を出力することができる。この層間の重み付け係数を用いた演算は、基本的に網羅的なので、各層の基本ユニットの数の積和に対応する回数の演算と、その演算結果を保存可能な容量のメモリーが必要になる。例えば、層間の数が２、各層に含まれる基本ユニットの数がＮ個であれば、２×Ｎ^２の個数のメモリー領域が必要になる。

このような階層結合型ニューラルネットワークを、組み込み機器等へ、高性能のまま安価に実装する事を目的として、アナログハードウェアやディジタルハードウェアで階層結合型ニューラルネットワークを実現する各種手法が提案されている（例えば下記特許文献１、２参照）。

こうしたニューラルネットワークの中でも、Convolutional Neural Networks（以下ＣＮＮと略記する）は、前段のデータにコンボリューションフィルターの重み係数を演算するコンボリューション演算を行ない、その結果を非線形変換することで特徴量を求めると言う処理を層間で繰り返すことで、識別対象の変動に対して頑健なパターン認識を可能にする手法として知られている。例えば、特許文献３及び特許文献４では、画像中の対象物の識別や検出に適用した例が提案されている。

特開平２－６４７８７号公報特開平３－５５６５８号公報特開平１０－０２１４０６号公報特開２００２－３５８５００号公報

こうしたＣＮＮでは、コンボリューションフィルターの大きさや係数は、特徴毎に相違するから、層数が増えるだけでなく、抽出する特徴量が増えると、層間では特徴量毎の重み付き演算を行ない、更にそれらを非線形変換する処理が必要になる。この結果、ＣＮＮでは、演算のために記憶しておくべきコンボリューションフィルターの重み係数の容量が増大してしまうという問題があった。実際、重み係数は量子化により８ビット程度の整数値とした場合であっても、ＣＮＮ全体では、数十メガバイトから数百メガバイトに達することがある。重み係数を記憶する記憶部を、ＣＮＮとして動作するチップの内部メモリーに確保することは、チップ面積の増大を招き、装置コストの上昇を招いてしまう。かといって、重み係数を、チップの外に設けられた外部メモリーに配置すると、メモリーアクセスの帯域幅が動作速度のボトルネックとなってしまう。コンボリューション演算を高速化するために、重み係数をベクトル化し、一度に複数の特徴量を並列的に計算する構成を採用しても、メモリーの帯域幅が演算部の処理性能に見合っていないと、結局、演算が頻繁にウェイトし、システム全体の実行効率は低下してしまう。

本開示は、以下の形態又は適用例として実現することが可能である。第１の態様は、複数の処理ノードが階層的に接続されたニューラルネットワークを用いて演算処理を行なう演算処理装置としての態様である。この演算処理装置は、ニューラルネットワークの各処理ノードにおけるＮ個のニューロンからなるコンボリューション演算を、複数の処理単位に分けて行なうコンボリューション演算部と、コンボリューション演算部に外部バスを介して接続され、コンボリューション演算のための入力データ、コンボリューション演算のための重み付け係数、およびコンボリューション演算後の出力データを記憶する外部記憶装置と、コンボリューション演算部が外部バスを介することなく直接アクセスできる内部記憶部と、入力データと重み付け係数との少なくとも一方を、コンボリューション演算部によるコンボリューション演算の開始前に内部記憶部に準備し、コンボリューション演算部による演算結果を出力データとして内部記憶部から外部記憶装置に出力する演算制御部と、を備え、コンボリューション演算部は、処理単位毎に行なわれるコンボリューション演算を、複数のステージに分け、各ステージにおいて、入力データと重み付け係数との少なくとも一方を内部記憶部から読み出して、Ｎより少ない個数のニューロンによりコンボリューション演算の一部を行ない、複数のステージでの演算結果を合計して、処理単位毎の出力データとして、内部記憶部に記憶する。

また、第２の態様は、複数の処理ノードが階層的に接続されたニューラルネットワークを用いて演算処理を行なう演算処理方法としての態様である。この塩酸処理方法は、ニューラルネットワークの各処理ノードにおけるＮ個のニューロンからなるコンボリューション演算の対象となる入力データおよびコンボリューション演算のための重み付け係数を外部記憶装置に記憶し、コンボリューション演算の際に、入力データおよび重み付け係数の少なくとも一方を、外部記憶装置から、コンボリューション演算を行なうプロセッサが外部記憶装置より高速にアクセス可能な内部記憶部にロードし、コンボリューション演算を複数の処理単位に分けて行ない、処理単位に毎のコンボリューション演算を複数のステージに分け、各ステージにおいて、入力データおよび重み付け係数の少なくとも一方を内部記憶部から読み出して、Ｎより少ない個数のニューロンによりコンボリューション演算の一部を行ない、各ステージでの演算結果を合計して、特徴毎の演算結果として、内部記憶部に出力し、特徴毎の演算結果を、次の階層の処理ノードの入力データとして、内部記憶部から外部記憶装置を介して伝達する。

実施形態の演算処理装置を示す概略構成図。演算処理装置の要部である階層結合型ニューラルネットワークとコンボリューションフィルターの構成を模式的に示す説明図。コンボリューション演算の演算部の構成例を示す説明図。ＣＮＮ演算における図形の特徴抽出の様子を模式的に示す説明図。演算処理装置の内部構成を示すブロック図。演算処理装置の演算部の構成を例示するブロック図。各ステージにおいて並列演算を行なう並列演算器の概略構成図。コンボリューション演算を複数のステージに分けて実行する場合の１回目と２回目の演算処理を模式的に示す説明図。コンボリューション演算を複数のステージに分けて実行する場合の３回目と４回目の演算処理を模式的に示す説明図。コンボリューション演算を複数のステージに分けて実行する場合の５回目と６回目の演算処理を模式的に示す説明図。コンボリューション演算を複数のステージに分けて実行する場合の７回目と８回目の演算処理を模式的に示す説明図。コンボリューション演算を４つのステージに分割した場合の演算の様子を模式的に示す説明図。コンボリューション演算を分割して行なう各ステージとそのステージで行なわれる演算処理との関係を模式的に示す説明図。コンボリューション演算を８つのステージに分割した場合の第１ステージから第４ステージの処理の様子を模式的に示す説明図。コンボリューション演算を８つのステージに分割した場合の第５ステージから第８ステージの処理の様子を模式的に示す説明図。重み付け係数の先読みを行なう重み付け係数キャッシュ部の構成を例示するブロック図。重み付け係数の先読みの様子の一部を示す説明図。重み付け係数の先読みの様子の他の一部を示す説明図。入力データの先読みを行なう入力データキャッシュ部の構成を例示するブロック図。入力データキャッシュ部に用意された入力データキャッシュメモリーの初期化の様子を示す説明図。入力データの先読みの様子を示す説明図。外部メモリーから内部メモリー部であるリングバッファーメモリーへのデータの転送の他の構成例を示す説明図。

Ａ．第１実施形態：
（Ａ１）ＣＮＮのハードウェア構成：
第１実施形態の演算処理装置１００は、図１に示すように、特徴抽出の対象ＯＪである２次元形状の画像をスキャンして画素単位の色彩や階調値からなる入力データとして入力する入力装置１１と、抽出した結果ＣＨを出力するディスプレイ等の出力装置１２とに接続されている。この演算処理装置１００は、記憶容量の大きな外部記憶装置２０、コンボリューション演算（畳み込み演算）を行なうコンボリューション演算部３０、コンボリューション演算部３０から高速で読み書き可能な内部記憶部４０、演算制御部５０などを備える。演算処理装置１００は、階層化された複数の処理ノードを備えるのニューラルネットワークを形成しており、各処理ノードにおけるＮ個のニューロンからなるコンボリューション演算を行ない、かつその演算結果を階層的に積み上げて、所望の特徴抽出を行なう。この実施例では、画像に含まれる特徴を抽出するものとしたが、処理対象は画像に限らず、テキストや音声、その他のパラメーターなど、どのようなものであっても差し支えない。

外部記憶装置２０は、対象ＯＪを入力装置１１により読み取った入力データやコンボリューション演算における重み付け係数、更にはコンボリューション演算の演算結果などを記憶する。外部記憶装置２０は、ＤＲＡＭなどから構成された大容量の記憶装置である。コンボリューション演算部３０は、後述するコンボリューション演算（畳み込み演算）を行なう専用の演算装置である。コンボリューション演算部３０は、一度に多桁の積和演算を高速に実行する。内部記憶部４０は、このコンボリューション演算部３０から外部バスを経由することなく直接かつ高速にアクセス可能な半導体メモリーであり、内部に入力データを記憶する第１記憶領域と、重み付け係数を記憶する第２記憶領域と、出力データを記憶する第３記憶領域とを有する。演算制御部５０は、この内部記憶部４０に、コンボリューション演算部３０が行なう演算のために必要なデータを準備し、あるいは内部記憶部４０に書き込まれた出力データを、外部記憶装置２０に書き出すなど、コンボリューション演算部３０による演算に必要な制御を行なう。なお、演算処理装置１００のうち、外部記憶装置２０を除いた、コンボリューション演算に関わる部分は、本実施形態では、１チップ化されている。

コンボリューション演算部３０により演算の様子を模式的に図２に示した。図は、３層の処理ノードからなる３階層ＣＮＮの構成例を示しており、対象画像ＯＪの参照画像領域ＣＨ０を対象として、第１階層である第１処理ノードＰＮ１が扱う特徴数が３、第２階層である第２処理ノードＰＮ２が扱うの特徴数が２、第３階層である第３ノードＰＮ３が扱う特徴数が１、としている。対象画像ＯＪは、ラスタースキャンされた画像データである。対象画像ＯＪの画像データが、第１処理ノードＰＮ１への入力データである。符号ＣＨ１１からＣＨ１３は、第１階層の第１処理ノードＰＮ１が扱う特徴面を示す。特徴面とは、所定の特徴抽出フィルターを用いて前階層のデータを走査しながら演算して得られた処理結果を示す。特徴面はラスタースキャンされた画像データに対する検出結果であるため、検出結果もここでは画像データとして表される。特徴数は、チャンネル数ともいい、以下の説明では、前階層の特徴数をチャンネル数Ｃｉとして表わし、処理された特徴面の数をチャンネル数Ｃｏとして表わすことがある。

特徴面ＣＨ１１～ＣＨ１３は、画像データＯＪから夫々対応する特徴抽出フィルターＣＦ１１～ＣＦ１３により生成される。特徴フィルターは、コンボリューション演算の累積和及び非線形処理を意味する。例えば、特徴面ＣＨ１１～ＣＨ１３は、２次元のコンボリューションフィルターＣＦ１１～ＣＦ１３の演算結果を非線形変換することにより生成される。例えば、特徴フィルターのカーネルサイズ（水平方向の画素数と垂直方向の画素数）が１１×１１のコンボリューションフィルター演算は、次式（１）に示すような積和演算として行なわれる。

なお、ここで、
input(x,y)：座標(ｘ、ｙ)での参照画素の階調値、
output(x,y)：座標(ｘ、ｙ)での演算結果、
weight(column,row)：座標(ｘ+column、ｙ+row)での重み付け係数、
columnSize=11, rowSize=11：フィルターカーネルサイズ（フィルタータップ数）である。

コンボリューションフィルターＣＦ１１～ＣＦ１３の係数は、それぞれ異なる。また、特徴面によってコンボリューションカーネルのサイズも異なる。ＣＮＮ演算では複数のフィルターカーネルを画素単位で走査しながら積和演算を繰り返し、式（１）に示した積和演算の結果を非線形変換する事で特徴面が生成される。特徴面ＣＨ１１を算出する場合は前階層（ここでは対象画像ＯＪ）との結合数が１であるため、フィルターカーネルとして一つのコンボリューションフィルターＣＦ１１のみを用いて演算がなされる。一方、次の第２処理ノードＰＮ２で特徴面ＣＨ２１，ＣＨ２２を求める場合、前階層との結合数は３であるため、コンボリューションフィルターＣＦ２１～ＣＦ２３およびＣＦ３１～ＣＦ３３に相当する３つのコンボリューションフィルターカーネルによる演算結果が、累積加算される。つまり、特徴面ＣＨ２１であれば、コンボリューションフィルターＣＦ２１～ＣＦ２３の出力を累積加算し、最後に非線形変換処理する。非線形処理としては、積和演算の結果を、ロジスティック関数や双曲正接関数（tanh関数）等により変換する処理が用いられる。もとより、これら以外の非線形変換であってもよい。

ここで、コンボリューションフィルターＣＦ２１～ＣＦ３３は、何れも異なるフィルター係数を備えるコンボリューションカーネルである。またコンボリューションフィルターＣＦ２１～ＣＦ２３とコンボリューションフィルターＣＦ３１～ＣＦ３３は、カーネルサイズは同一ではなく、処理すべき座標サイズにより、そのサイズは決定される。各コンボリューションフィルターの累積加算は、式（１）に従い行なわれる。これは、第３階層である第３ノードＰＮ３のコンボリューションフィルターＣＦ４２，ＣＦ４３でも同様である。特徴面ＣＨ２１，ＣＨ２２の場合、複数の前階層特徴面ＣＨ１１～ＣＨ１３と結合される。この場合、複数のコンボリューションフィルターＣＦ２１～ＣＦ３３を用いた演算の結果は、更に累積加算される。同様に、第３階層の特徴面ＣＨ５は、複数の前階層特徴面ＣＨ２１、ＣＨ２２と結合され、複数のコンボリューションフィルターＣＦ４２，ＣＦ４３を用いた演算の結果は、更に累積加算器される。従って、各特徴面を演算する際のニューロンの総結合数は、コンボリューションカーネルサイズ×前階層の特徴数に相当する。特徴数は、以下の説明では、チャンネル数とも呼ぶ。

一つの特徴面が複数の前階層特徴面と結合されている場合、式（１）に示した積和演算を一つの演算器で実行するためには、コンボリューションフィルターの重み付け係数weight(column,row)を、結合されている前階層特徴面毎に切り替える必要がある。図３に、この重み付け係数の切換を伴う積和演算を行なう構成を示した。こうした積和演算は、処理ノードＰＮを構成する各ニューロン毎に行なわれる。各ニューロンは、積算器ＭＰＸと加算器ＳＵＭと非線形変換処理部ＮＬＰとを備え、更に、各ニューロンの積算器ＭＰＸで用いられる重み付け係数ｗを切り替える係数選択部ＳＥＬが設けられている。

ニューロンの積算器ＭＰＸには、対象画像ＯＪからの入力値または前階層特徴面からの出力された入力値ＮＵ１～ＮＵｎが入力データとして入力され、学習済みの重み付け係数ｗ１１～ｗ１ｎとの積算が行なわれる。コンボリューションフィルターごとに、予め重み付け係数のセットＷ１～Ｗｎが用意されている。コンボリューションフィルターのいずれかのカーネルの選択信号が係数選択部ＳＥＬに入力されると、これらの重み付け係数のセットＷ１～Ｗｎのいずれかひとつが選択される。例えば、重み付け係数のセットＷ１が選択されると、このセットＷ１に含まれる重み付け係数ｗ１１～ｗ１ｎが、積算器ＭＰＸに出力され、入力値ＮＵ１～ＮＵｎとの積算に供される。重み付け係数の各セットに含まれる重み付け係数、例えば重み付け係数ｗ１１～ｗ１ｎは、一般的に知られているバックプロパゲーション等の学習アルゴリズムを使用して、検出する対象物毎に決定されている。この結果、コンボリューション演算を行なう各ニューロンでは、上述した式（１）に従い、入力データと重み付け係数Ｗとが積算器ＭＰＸにより積算され、さらにその結果が加算器ＳＵＭにより合算される。その結果を、非線形変換処理部ＮＬＰにより非線形演算することにより、特徴データが生成される。非線形変換処理部ＮＬＰは、ロジスティック関数や双曲正接関数（tanh関数）等による非線形変換を行なう。

こうした階層化されたコンボリューション演算による特徴データの生成の様子を、図４に模式的に例示した。第１処理ノードＰＮ１では、３種類の特徴ＣＨ１１～ＣＨ１３が抽出され、これらを用いて、第２処理ノードＰＮ２では、前階層で抽出された特徴を含む２種類の特徴ＣＨ２１，ＣＨ２２が抽出される。そして、第３ノードＰＮ３では、これらの特徴を含む特徴ＣＨ５が最終的に抽出される。

以上説明したコンボリューション演算を本実施形態では、演算処理装置１００により実行する。以下、演算処理装置１００が行なうコンボリューション演算について詳しく説明する。図５は、演算処理装置１００の内部構成を示すブロック図である。図示するように、この演算処理装置１００の外部記憶装置２０は、入力データ，重み付け係数、出力データを記憶する。このうち、入力データは、外部から入力されるものであり、本実施形態では、対象画像ＯＪの画像データである。画像データには、画素の座標値と各画素の階調値とが含まれる。重み付け係数は、上述したコンボリューションフィルターにおける演算に用いられる係数である。重み付け係数は、各特徴面を求めるコンボリューションフィルターに応じて用意され、予め外部記憶装置２０に読み込まれる。出力データは、コンボリューション演算部３０によるコンボリューション演算の結果として得られた特徴を表わすデータである。コンボリューション演算部３０による演算は、内部記憶部４０に記憶されたデータを用いて行なわれ、コンボリューションフィルターによる演算の結果は内部記憶部４０に一時的に記憶されるが、最終的に得られた特徴を示す出力データは、外部記憶装置２０に記憶され、出力装置１２に出力される。内部メモリー４３は、このほか、コンボリューション演算部３０の作業領域としても使用される。

内部記憶部４０は、記憶領域としては、図１に示したように、入力データを記憶する第１記憶領域、重み付け係数を記憶する第２記憶領域、出力データを記憶する第３記憶領域、に分かれる。このうち、第１記憶領域は入力データを記憶する入力データキャッシュ部４１として，第２記憶領域は重み付け係数を記憶する重み付け係数キャッシュ部４２として、それぞれ構成されている。第３記憶領域は、特にキャッシュ部としては構成されず、内部メモリー４３の内部に確保される。このキャッシュ部４１，４２および内部メモリー４３は、コンボリューション演算部３０からみれば、直接アクセスでき、外部記憶装置２０のように、メモリー制御部２２を介してアクセスする必要がない。このため、コンボリューション演算を高速に行なうために、コンボリューション演算部３０による演算は、入力データキャッシュ部４１と重み付け係数キャッシュ部４２に入力データおよび重み付け係数を予め読み込んでおいて行なう。

入力データキャッシュ部４１への入力データの読み込みや重み付き係数キャッシュ部４２への重み付け係数の読み込みは、演算制御部５０が行なう。また、演算制御部５０は、内部メモリー４３に特徴の出力データが保存されると、これを読み出し、外部記憶装置２０に出力する。なお、演算制御部５０は、これら以外にも、バッチ正規化や活性化関数の演算など、コンボリューション演算以外の処理を行なう。演算処理装置１００による各階層毎のコンボリューション演算は、複数の処理単位に分割して行なわれる。この処理単位の設定は種々可能である。ある階層のニューロンの形状の高さをＨｏ、幅をＷｏ、チャンネル数をＣｏとしたとき、例えば、ｈ×Ｗｏ×Ｃｏ（ここでｈは、ｈ＜Ｈｏである自然数）を処理単位とすることができる。もとより、この処理単位は、Ｈｏ×ｗ×Ｃｏ（ここでｗは、ｗ＜Ｗｏである自然数）としてもよい、Ｈｏ×Ｗｏ×ｃ（ここで、ｃはｃ＜Ｃｏである自然数）などとすることができる。このように、コンボリューション演算を複数の処理単位に分割することにより、内部メモリー４３のサイズを削減できる。以下の実施例では、説明を簡明なものとするために、ｈ＝１、すなわち処理単位をＷｏ×Ｃｏとして説明する。また、ｈは、内部記憶部４０の記憶容量に応じて設定してもよい。内部記憶部４０の容量が大きければ、ｈを大きくできる。

コンボリューション演算部３０による演算の様子について説明する。既に式（１）を用いて説明したように、コンボリューション演算部３０は、入力データと重み付け係数との積和演算を行なう。このとき、コンボリューション演算を行なおうとする階層の処理ノードＰＮが、高さＨｉ、幅Ｗｉ、チャンネル数Ｃｉであるとし、コンボリューション演算の結果、高さＨｏ、幅Ｗｏ、チャンネル数Ｃｏの形状のデータを得るものとする。以下、説明の簡略化を図って、コンボリューションフィルターカーネルが１×１で、間引きなし、つまり高さ方向および幅方向の畳み込みを行なわないものとする。この場合、Ｈｉ＝Ｈｏ、Ｗｉ＝Ｗｏとなる。コンボリューション演算部３０が、例えば入力チャンネルＣｉが８、出力チャンネルＣｏが３２のコンボリューション演算を行なう場合を想定する。このコンボリューション演算を処理単位毎に一度に行なおうとすると、コンボリューション演算部３０の演算器やそのためのレジスターとして、８×３２の演算を行ない得るものが必要になる。これに対して、本実施形態のコンボリューション演算部３０は、４入力×８出力の構成を有し、必要なコンボリューション演算を８回に分けて行なう。

このコンボリューション演算を行なうコンボリューション演算部３０の構成について説明する。図６は、コンボリューション演算部３０の概要を例示するブロック図である。図示するように、コンボリューション演算部３０は、入力データレジスター３１，重み付け係数レジスター３２，並列演算器３３、加算器３５に加えて、アキュムレーター入力レジスター３４，アキュムレーターレジスター３６，アキュムレーター出力レジスター３７等を備える。入力データレジスター３１は、入力データキャッシュ部４１から、コンボリューション演算に必要な入力データの一部（ｍ個）をラッチする。重み付け係数レジスター３２は、重み付け係数キャッシュ部４２から、コンボリューション演算に必要な重み付け係数の一部（ｎ個）をラッチする。並列演算器３３は、ｍ入力×ｎ出力のコンボリューション演算を行なうことができるように構成される。

並列演算器３３の構成例を、図７に示した。並列演算器３３は、ｍ入力×ｎ出力（ｍ，ｎは２以上の整数）の構成を持ちうるが、説明の都合上、ここでは、４入力×８出力の構成を示す。またこれに合わせて、以下の説明でも、４入力×８出力の並列演算器３３を例にとって処理について説明する。並列演算器３３は、４つの積算器ＭＰＸ０～ＭＰＸ３と８つの加算器ＳＵＭ０～ＳＵＭ７とを備える。積算器ＭＰＸ０～ＭＰＸ３は、スカラー量である入力データＤp ～Ｄp+3 のうちの一つとベクトル量である４つの重み付け係数Ｗｔq [0-7] ～Ｗｔq+3 [0-7] の内の一つとの積算を並列に行なう。加算器ＳＵＭ０～ＳＵＭ７は、積算器ＭＰＸ０～ＭＰＸ３のそれぞれからの８つの出力を加算する。８つの加算器ＳＵＭ０～ＳＵＭ７は、それぞれ出力データＲr ～Ｒr+7 を出力する。

図７に示した構成では、並列演算器３３の入力・出力であるｍ×ｎは、コンボリューション演算を行なおうとする入力チャンネル数Ｍ、出力チャンネル数Ｎより小さい。例えば、入力８チャンネル、出力３２チャンネルのコンボリューション演算を、入出力が４×８の並列演算器３３では、一度に処理できない。そこで、コンボリューション演算を、複数のステージに時分割して行なう。このために、コンボリューション演算部３０は、図６に示した各種アキュムレーターレジスターを有する。アキュムレーター入力レジスター３４は、先行して行なった４つの入力データに対する積和演算の結果を内部メモリー４３から読み出して、これに、後続する演算の結果を継ぎ足していくために準備する。この継ぎ足し演算を、以下累和演算という。この累和演算を行なうのが、アキュムレーターレジスター３６である。アキュムレーターレジスター３６による累和演算の結果は、アキュムレーター出力レジスター３７に一旦ラッチされ、その後、内部メモリー４３に保存されて、次の累和演算に備える。つまり、コンボリューション演算部３０では、複数のステージに分けて進行するコンボリューション演算において、内部メモリー４３に格納されている途中までの積和演算の結果を、アキュムレーター入力レジスター３４を介して、アキュムレーターレジスター３６に再度セットできる。また、アキュムレーターレジスター３６での累和演算の途中結果あるいは最終結果を、アキュムレーター出力レジスター３７を介して、内部メモリー４３に保存する。

時分割して行なわれるコンボリューション演算について説明する。例えば、８個のチャンネル入力Ｃｉから、３２個のチャンネル出力Ｃｏを出力する場合の第１ステージから第４ステージまでのコンボリューション演算を行なう場合、図７に示した並列演算器３３では、添え字ｐ，ｑ，ｒは、ステージの番号Ｓおよび演算の番号Ｔに対して、以下の関係をとる。
ＳＴ p～p+m-1 q～q+m-1 r～r+n-1
１１０～３０～３０～７
２４～７４～７０～７
２３０～３８～１１８～１５
４４～７１２～１５８～１５
３５０～３１６～１９１６～２３
６４～７２０～２３１６～２３
４７０～３２４～２７２４～３１
８４～７２８～３１２４～３１
ステージ番号Ｓ、演算番号Ｔを用いれば、ｑ，ｒは、以下の通りである。
ｑ＝（Ｔ－１）×ｍ、ｒ＝（Ｓ－１）×ｎ

４つのステージ、８回の演算に分けて行なわれる積和演算の様子を、図８から図１１に例示する。ここで演算は、並列演算器３３による１回の積和演算を意味魅し、ステージは、入力チャンネル全体、ここでは０～７の入力チャンネルについての積和演算の完了を意味する。図８は、１回目の演算と２回目の演算の様子を示す。両方の演算が第１ステージの演算に相当する。１回目の演算では、図８の上段に示したように、８つの入力データＤ０～Ｄ７のうち、入力データＤ０～Ｄ３と、重み付け係数Ｗｔ０～Ｗｔ３との積和演算が行なわれ、出力データＲ０～Ｒ７が出力される。この出力データＲ０～Ｒ７は、アキュムレーターレジスター３６にラッチされる。次に、処理は２回目の演算に移行し、図８の下段に示したように、８つの入力データＤ０～Ｄ７のうち、入力データＤ４～Ｄ７と、重み付け係数Ｗｔ４～Ｗｔ７との積和演算が行なわれ、出力データＲ０～Ｒ７が出力される。この出力データＲ０～Ｒ７と、アキュムレーターレジスター３６にラッチされていた前回の出力データＲ０～Ｒ７とは、加算器３５により加算される。加算された結果は、アキュムレーターレジスター３６からアキュムレーター出力レジスター３７を介して、内部メモリー４３の作業領域の所定のアドレスに保存される。以上で、一つの特徴面についての第１ステージの処理が完了する。

その後、処理は、３回目の演算に移行し、図９の上段に示したように、８つの入力データＤ０～Ｄ７のうち、入力データＤ０～Ｄ３と、重み付け係数Ｗｔ８～Ｗｔ１１との積和演算が行なわれ、出力データＲ８～Ｒ１５が出力される。この出力データＲ８～Ｒ１５は、アキュムレーターレジスター３６にラッチされる。次に、処理は４回目の演算に移行し、図９の下段に示したように、８つの入力データＤ０～Ｄ７のうち、入力データＤ４～Ｄ７と、重み付け係数Ｗｔ１２～Ｗｔ１５との積和演算が行なわれ、出力データＲ８～Ｒ１５が出力される。この出力データＲ８～Ｒ１５と、アキュムレーターレジスター３６にラッチされていた前回の出力データＲ８～Ｒ１５とは、加算器３５により加算される。加算された結果は、アキュムレーターレジスター３６からアキュムレーター出力レジスター３７を介して、内部メモリー４３の作業領域の所定のアドレスに保存される。以上で、一つの特徴面についての第２ステージの処理が完了する。

同様の処理が、５回目の演算から８回目の演算まで繰り返され、図１０の上下段，図１１の上下段に示したように、入力データＤ０～Ｄ３，Ｄ４～Ｄ７と重み付け係数Ｗｔ１６～１９，Ｗｔ２０～２３との積和演算および累和演算、入力データＤ０～Ｄ３，Ｄ４～Ｄ７と重み付け係数Ｗｔ２４～７，Ｗｔ２８～３１との積和演算および累和演算が行なわれ、出力データＲ１６～Ｒ３１が出力される。この出力データは、アキュムレーターレジスター３６からアキュムレーター出力レジスター３７を介して、内部メモリー４３の作業領域の所定のアドレスに保存される。これらが、第３ステージおよび第４ステージの処理に相当する。

以上、第１～第４ステージの処理により、内部メモリー４３には、最終的な出力データＲ０～Ｒ３１が保存されるので、演算制御部５０は、これを内部メモリー４３の所定のアドレスから読み出し、外部記憶装置２０に出力する。

以上、並列演算器３３の動作について説明したが、コンボリューション演算は、ここでは、ｈ＝１としているので、Ｗｏ×Ｃｏを処理単位として、並列演算器３３を用いて、以下のように行なわれる。チャンネル方向のコンボリューション演算（各図には図示の都合上「畳み込み」として表記した）は、複数のステージに分けて行なわれ、このチャンネル方向の処理が、幅方向にＷｏ個のニューロンについて実施される。この様子を、図１２Ａ，図１２Ｂに示す。図１２Ａの上段に示したように、１回目の演算と２回目の演算により、第１ステージでは、Ｍ個（０～７の８つ）の入力チャンネルＣｉから、Ｎ個（０～３１の３２個）の出力チャンネルＣｏを出力するコンボリューション演算の一部（１／４）が実行される。１回目の演算と２回目の演算とを、合わせて図１２Ａの下段のように示すものとする。図１２Ａにおいて、入力チャンネルを示す一つの矩形は、並列演算器３３による処理が可能なｍチャンネル分（ここではｍ＝４、したがってｐ～ｐ＋３）を示し、出力チャンネルを示す矩形の一つは、並列演算器３３により処理されたｎチャンネル分（ここではｎ＝８、したがってｒ～ｒ＋７）を示す。また、図中の矢印は、ｍ入力×ｎ出力の並列演算器３３による演算を示している。これは、他の図１２Ｂ、図１３、図１４においても同様である。

この図１２Ａ下段の表示と同様にして、第１～第４ステージの処理を、図１２Ｂに示した。図示するように、コンボリューションフィルターのカーネルが１×１という条件、つまりＷｉ＝Ｗｏという条件の下で、４つのステージに分けてコンボリューション演算を行ない、第１～第４ステージを行なうことで、Ｍ個（０～７の８つ）の入力チャンネルＣｉから、Ｎ個（０～３１の３２個）の出力チャンネルＣｏを出力するコンボリューション演算が完了する。第１ステージでは、出力のチャンネルの１／４を計算する。第２ステージの処理が完了すれば、出力チャンネルの２／４の演算が、第３ステージの処理が完了すれば、出力チャンネルの３／４の演算が、そして第４ステージの処理が完了すれば、チャンネル方向についての全て演算が完了する。同様のコンボリューション演算が、幅方向にＷｏ個のニューロンについて繰り返される。各ステージのコンボリューション演算は共通の重み付け係数を用いるので、各ステージではその１／４の重み付け係数を重み付け係数キャッシュ部４２に格納できればコンボリューション演算を行なうことができる。したがって、外部記憶装置２０からロードする重み付け係数の読み込みは、各ステージの処理において１回だけにでき、外部記憶装置２０のメモリー帯域を節約できる。１つのステージの畳み込みに必要な重み係数のサイズは、Ｍ×ｎで与えられる。したがって、重み付け係数キャッシュ部４２のサイズは、次のステージのための先読み領域含めて、少なくともＭ×ｎの２倍あればよい。重み付け係数の先読みについて、後で詳しく説明する。

ステージの分割数は、並列演算器３３の大きさｍ×ｎと、特徴面の大きさＭ×Ｎとの関係により定まる。上述した例では、Ｍ／ｍ＝２、Ｎ／ｎ＝２なので、必要なステージ数は、２×２＝４であった。同じ並列演算器３３、つまり４入力×８出力の積和演算が可能な並列演算器３３を用いて、１６個の入力チャンネルＣｉから、３２個の出力チャンネルＣｏを出力する場合には、Ｍ／ｍ＝８／４＝２、Ｎ／ｎ＝３２／８＝４、であり、必要なステージ数は、２×４＝８である。この場合の第１ステージから第８ステージまでのコンボリューション演算を、図１３および図１４に示した。この場合、図７に示した並列演算器３３では、添え字ｐ，ｑ，ｒは、ステージの番号Ｓに対して、以下の関係をとる。
Ｓ p～p+m-1，p+m～p+2m-1 q～q+m-1，q+m～q+2m-1 r～r+n-1
１０～３，４～７０～３，４～７０～７
２８～１１，１２～１５８～１１，１２～１５０～７
３０～３，４～７１６～１９，２０～２３８～１５
４８～１１，１２～１５２４～２７，２８～３１８～１５
５０～３，４～７０～３，４～７１６～２３
６８～１１，１２～１５８～１１，１２～１５１６～２３
７０～３，４～７１６～１９，２０～２３２４～３１
８８～１１，１２～１５２４～２７，２８～３１２４～３１

特徴面の入力チャンネルＣｉの数Ｍと出力チャンネルＣｏの数Ｎとが、並列演算器３３が一度に処理できる入力チャンネル数ｍ、出力チャンネル数ｎを上回っていれば、同様に、複数のステージに分けて、処理を行なえばよい。

以上、各ステージでのコンボリューション演算処理について説明したが、本実施形態では、こうした複数のステージに分割してコンボリューション演算を行なう際に、演算に用いられる入力データや重み付け係数を、外部記憶装置２０から、コンボリューション演算部３０がメモリー制御部２２を用いることなくアクセスできる入力データキャッシュ部４１や重み付け係数キャッシュ部４２に読み込んで、コンボリューション演算を行なっている。このため、複数のステージに分割して、何度も入力データや重み付け係数をレジスターに読み込んでも、その都度、外部記憶装置２０へのアクセスが生じる訳ではないので、並列演算器３３を用いた処理を高速に実施することができる。しかも本実施形態では、これらの入力データや重み付け係数の入力データキャッシュ部４１や重み付け係数キャッシュ部４２への読み込みを、いわゆる先読みしており、コンボリューション演算部３０が入力データや重み付け係数が必要になったときには、入力データキャッシュ部４１や重み付け係数キャッシュ部４２に準備されているように制御している。

こうした重み付け係数の先読みを行なう回路例を、図１５に例示する。図示するように、重み付け係数キャッシュ部４２は、コンボリューション演算部３０からの重み付け係数を読み出すアドレス信号（リードＡｄと略記）を受けて、アドレスを変換するアドレス変換部１２１、演算制御部５０からの各種アドレス信号を受けて重み付け係数の転送（ロード）を行なうロード制御部１２３、アドレス変換部１２１およびロード制御部１２３からのアドレス信号を調停する調停部１２５、重み付け係数を記憶する重み付け係数キャッシュメモリー１２７を備える。

アドレス変換部１２１は、コンボリューション演算部３０から重み付け係数を読み出すためのアドレス信号であるリードＡｄを入力し、これを重み付け係数キャッシュメモリー１２７の読出アドレスＲＡｄに変換する。この変換を行なう際に、アドレス変換部１２１は、重み付け係数キャッシュメモリー１２７のどの領域ｇへのアクセスＡＣｇであるかを示す示す信号ＡＡＣと先読みのリクエスト信号ＲＱＴを出力する。ロード制御部１２３は、求められた領域の先読みが完了したことを示す結果信号ＲＥＳをアドレス変換部１２１に出力する。

他方、ロード制御部１２３は、演算制御部５０から、重み付け係数が外部記憶装置２０に記憶されている先頭アドレス（先頭Ａｄ）と、その終端のアドレス（終端Ａｄ）および／または重み付け係数の大きさＭ×ｎとを、初期化の処理において受け取る。ロード制御部１２３はこれらのアドレスやサイズを、内部レジスターに保存する。ロード制御部１２３、アドレス変換部１２１からのアクセス信号ＡＡＣと先読のリクエストＲＱＴを受け取ると、図１６および図１７に示すように、外部記憶装置２０の先頭アドレスから順に配列された各領域ｇに記憶された重み付け係数を読み出し、係数キャッシュメモリー１２７のブロックＡまたはＢに書き込む。ブロックＡ，Ｂの大きさは、上述した様に、少なくともＭ×ｎあればよい。両ブロック合わせて、少なくとも２×Ｍ×ｎあればれよい。各ブロックへの囲みの際、ロード制御部１２３は係数キャッシュメモリー１２７の保存先アドレスである転送アドレスＡＡｄを出力する。調停部１２５は、ロード制御部１２３からの転送アドレスＡＡｄと、アドレス変換部１２１からの読出アドレスＲＡｄとが競合しないように、アドレスバスの競合を調停する。一般には、演算速度を高めるために、調停部１２５は、バスの競合が起きた場合には、読出アドレスＲＡｄを優先する。図１５を用いて説明した重み付け係数キャッシュ部４２により、図１６および図１７に示した外部記憶装置２０から重み付け係数キャッシュ部４２の係数キャッシュメモリー１２７への重み付け係数の先読みが実現される。

この先読み処理について、図１６および図１７を用いて説明する。まず、重み付け係数がキャッシュ部に対してどのように先読みされるかを説明する。図１６に示すように、重み付け係数キャッシュ部４２は、内部がブロックＡとブロックＢに分かれているものとする。他方、外部記憶装置２０には、コンボリューション演算部３０が用いる重み付け係数が、先頭アドレスから順に、記憶されているものとする。重み付け係数は、第１ステージで用いられる重み付け係数が領域１に、第２ステージで用いられる重み付け係数が第２領域に、というように、先頭アドレスから順に配列されて、外部記憶装置２０に記憶されている。

この重み付け係数キャッシュ部４２は、各階層、つまり処理ノードＰＮ毎のコンボリューション演算が行なわれる際、初期化の処理を行なう。初期化の処理は上述したように、その階層で用いる重み付け係数が保存されている先頭アドレス（先頭Ａｄ）などを、演算制御部５０が、重み付け係数キャッシュ部４２のロード制御部１２３に出力し、ロード制御部１２３がこれらを内部のレジスーに保存する処理である。この初期化の処理がなされると、コンボリューション演算部３０が直接アクセスできる重み付け係数キャッシュメモリー１２７のブロックＡに、最初に用いられる重み付け係数、つまり外部記憶装置２０の領域１に保存されている重み付け係数が、転送される（図示ＬＤ０）。続いて、コンボリューション演算部３０が、重み付け係数キャッシュメモリー１２７の領域１に対して、第１ステージで用いる重み付け係数を読み出す最初のアクセスＡＣ１を行なうと、このアクセスＡＣ１のためのリードＡｄを受け取ったアドレス変換部１２１は、これに対応するアクセス信号ＡＡＣとリクエストＲＱＴとをロード制御部１２３に出力する。これをトリガーとして、ロード制御部１２３が、外部記憶装置２０の領域２に記憶した重み付け係数を読み出し、これを重み付け係数キャッシュメモリー１２７のブロックＢに転送ＬＤ１する。以下、この処理を繰り返し、領域ｇに対するアクセスＡＣｇが行なわれると、外部記憶装置２０の領域g+1 からのデータ転送ＬＤg が行なわれる。転送先の重み付け係数キャッシュメモリー１２７のブロックＡ，Ｂは、交互に転送先となることで、先に転送された重み付け係数が、上書きされて消去されることはない。

こうした処理が繰り返されて、図１７に示すように、外部記憶装置２０に用意された最後の領域（ここでは領域５）からの重み付け係数キャッシュメモリー１２７への転送ＬＤ４が行なわれ、次にコンボリューション演算部３０からの重み付け係数キャッシュメモリー１２７の領域５へのアクセスＡＣ５が行なわれると、変数ｇはリセットされ、外部記憶装置２０の領域１の重み付け係数の、重み付け係数キャッシュメモリー１２７への転送ＬＤ０が行なわれる。以下は、同様に、重み付け係数キャッシュメモリー１２７の領域ｇへのコンボリューション演算部３０からのアクセスＡＣｇがある度に、外部記憶装置２０の領域g+1 から、重み付け係数の転送ＬＤg が行なわれる。一つの処理ノードＰＮについてのコンボリューション演算が全て完了すると、次の階層の処理ノードＰＮのコンボリューション演算が行なうため、重み付け係数の先頭アドレスなどは、コンボリューション演算が行なわれる階層に合わせて初期化される。

次に、入力データの先読みについて説明する。図１８は、入力データキャッシュ部４１の構成を示すブロック図である。入力データキャッシュ部４１は、重み付け係数キャッシュ部４２と同様、アドレス変換部１１１、ロード制御部１１３、調停部１１５、入力データキャッシュメモリー１１７を備える。各部の入出力信号も、ロード制御部１１３を除いて、重み付け係数キャッシュ部４２とほぼ同一なので、詳細な説明は省略する。ロード制御部１１３は、ロード制御部１２３が演算制御部５０から、重み付け係数の大きさを示すＭ×ｎの信号を受け取っていたのに対して、コンボリューション演算を行なおうとする階層の処理ノードＰＮの高さＨｉ、幅Ｗｉ、チャンネル数Ｃｉを受け取っている点で相違する。また、入力データキャッシュメモリー１１７の内部のブロック数なども相違している。

この入力データキャッシュ部４１の動作について、図１９および図２０を用いて説明する。図１９は、入力データキャッシュ部４１の内部に用意された入力データキャッシュメモリーの初期化の様子を示す説明図である。入力データキャッシュメモリーのブロックサイズは、処理単位に基づき階層毎に設定する。例えば、処理単位が、出力幅Ｗｏ×出力チャンネル数Ｃｏであれば、ブロックスサイズは入力する階層の処理ノードＰＮの幅Ｗｉ×入力チャンネル数Ｃｉであり、ブロックの数Ｂｎは、キャッシュメモリーに物理的に割り当てられたメモリーサイズをＭｓとすると、Ｂｎ＝Ｍｓ／（Ｗｉ×Ｃｉ）として与えられる。

理解の便を図って、以下、このブロック数Ｂｎ＝４として説明する。まず、入力データが入力データキャッシュメモリー１１７に対してどのように先読みされるかを説明する。図２０に示すように、入力データキャッシュ部４１の入力データキャッシュメモリー１１７は、内部がブロック１～４の４つのブロックに分かれているものとする。他方、外部記憶装置２０には、コンボリューション演算部３０が用いる入力データが、先頭アドレスから順に、記憶されているものとする。入力データは、第１ステージで用いられる入力データ領域１に、第２ステージで用いられる入力データが第２領域に、というように、先頭アドレスから順に配列されて、外部記憶装置２０に記憶されている。

この入力データキャッシュ部４１は、各階層、つまり処理ノードＰＮ毎のコンボリューション演算が行なわれる際、初期化の処理を行なう。初期化の処理は上述したように、その階層で用いる入力データが保存されている先頭アドレス（先頭Ａｄ）などを、演算制御部５０が、入力データキャッシュ部４１のロード制御部１１３に出力し、ロード制御部１１３がこれらを内部のレジスターに保存する処理である。この初期化の処理がなされると、コンボリューション演算部３０が直接アクセスできる入力データキャッシュメモリー１１７のブロック１に、最初に用いられる入力データ、つまり外部記憶装置２０の領域１に保存されている入力データが、転送される（図示ＬＥ０）。続いて、コンボリューション演算部３０が、入力データキャッシュメモリー１１７の領域１に対して、第１ステージで用いる入力データを読み出す最初のアクセスＡＤ１を行なうと、このアクセスＡＤ１のためのリードＡｄを受け取ったアドレス変換部１１１は、これに対応するアクセス信号ＡＡＣとリクエストＲＱＴとをロード制御部１１３に出力する。これをトリガーとして、ロード制御部１１３が、外部記憶装置２０の領域２に記憶した入力データを読み出し、これを入力データキャッシュメモリー１１７のブロック２に転送ＬＥ１する。図２０では、この関係を、○矢印付きの破線で示している。以下、この処理を繰り返し、領域ｇに対するアクセスＡＤｇが行なわれると、外部記憶装置２０の領域g+1 からのデータ転送ＬＥg が行なわれる。転送先の入力データキャッシュメモリー１１７のブロック１～４は、この順に繰り返し転送先となることで、先に転送された入力データが、上書きされて消去されることはない。

こうした処理が繰り返されて、図２０に示すように、外部記憶装置２０に用意された最後の領域（ここでは領域Ｐ）からの入力データキャッシュメモリー１１７への転送ＬＥｐが行なわれ、次にコンボリューション演算部３０からの入力データキャッシュメモリー１１７の領域ＰへのアクセスＡＤｐが行なわれると、入力データの読み込みは完了する。本実施形態での複数のステージへの分割の場合、一つの階層におけるコンボリューション演算が完了すれば、入力データが再度読み込まれることはない。一つの階層に対応した処理ノードＰＮについてのコンボリューション演算が全て完了すると、次の階層の処理ノードＰＮのコンボリューション演算を行なうため、入力データの先頭アドレスなどは、コンボリューション演算が行なわれる階層に合わせて初期化される。

以上説明した本実施形態の演算処理装置１００によれば、コンボリューション演算部３０は、コンボリューション演算を、複数のステージに分け、各ステージにおいて、入力データと重み付け係数とを、入力データキャッシュメモリー１１７や重み付け係数キャッシュメモリー１２７から読み出して、Ｎより少ない個数のニューロンによりコンボリューション演算の一部を行ない、第１～第４（または第８）ステージまでの演算結果を合計して、特徴毎の出力データとして、内部メモリー４３に記憶する。したがって、入力データキャッシュ部４１および重み付け係数キャッシュ部４２を含む内部記憶部４０の容量の増大を招くことなく、コンボリューション演算部３０の稼働率を高めることができ、結果的に、コンボリューション演算の高速化を図ることができる。これは、以下の理由による。

外部記憶装置２０は、通常のバス幅が３２ビット程度であり、また汎用化のためにメモリー制御部２２を介してアクセスするため、コンボリューション演算部３０から見て、高速なアクセスができない。そこで、上記実施形態では、コンボリューション演算部３０の稼働率を低下させない十分なデータを供給するために、内部記憶部４０を設け、コンボリューション演算部３０から見たデータアクセスの高速化を図っている。とはいえ、入力データキャッシュ部４１や重み付けキャッシュ部４２のメモリー容量が小さいと外部記憶装置２０とのデータのやり取りが頻発し、結果的に、コンボリューション演算部３０の要求に対するデータ供給が滞り、演算速度の低下を招来する。これを防ぐために、徒にキャッシュメモリーの容量を大きくすると、１チップ上の内部記憶部４０の面積が大きくなり、演算用チップの製造の難易度が上がり、チップコストも増大する。本実施形態では、畳み込み演算処理を複数のステージに分割することによって、内部記憶部４０のメモリーサイズの徒な増加を招くことなく並列演算器３３の稼働値を高くすることができる。また、この結果、外部記憶装置２０と間のデータのやり取りが減少して、演算処理装置１００に要求される処理速度を実現するのに必要な外部記憶装置２０のアクセス速度を低くでき、装置構成の省資源やコスト低減に寄与する。更に、低速でも電力消費の少ないメモリーを利用できる可能性が生じ、演算処理装置１００全体の省電力化を図ることも可能になる。

具体的には、コンボリューション演算部３０は、コンボリューション演算に用いる入力データおよび重み付け係数を、入力データキャッシュ部４１の入力データキャッシュメモリー１１７や重み付け係数キャッシュ部４２の重み付け係数キャッシュメモリー１２７から読み出して、コンボリューション演算を行なうことができる。このため、入力データや重み付け係数を用いるのに、いちいちメモリー制御部２２や外部バスを介する必要がなく、コンボリューション演算を高速に実行できる。しかも、コンボリューション演算を複数のステージに分け、各ステージにおいて、コンボリューション演算の一部を行ない、複数のステージでの演算結果を合計して、特徴毎の出力データとして、内部メモリー４３に記憶する。したがって、コンボリューション演算における積和演算器の入出力数を、特徴面大きさの数分の１程度に小さくでき、結果的に上述した様に、内部記憶部４０の容量を小さくすることが可能となる。更に、コンボリューション演算を行なっている間に、入力データや重み付け係数をそれぞれのキャッシュに読み込むので、並列演算器３３の稼働率を高めることもできる。

このように、コンボリューション演算を複数のステージに分けることで、並列演算器３３の入出力を小さくでき、演算器の構成を簡略化できるだけでなく、演算時に必要となるキャッシュメモリーのサイズも小さくできる。並列演算器３３の入力数ｍと入力チャンネルの数Ｍとが等しいと、係数キャッシュメモリー１２７のサイズは小さくできるが、内部メモリー４３のメモリー帯域を占有してしまうので、入力チャンネルの数Ｍは、並列演算器３３の入力数ｍより何倍か、例えば４倍程度大きくしておくことが望ましい。並列演算器３３が、Ｍ×Ｎのコンボリューション演算を１サイクルで実行できるようにした場合、１サイクル毎に、アキュムレーター出力レジスター３７の内容を、内部メモリー４３に退避することになり、演算制御部５０がコンボリューション演算の結果を取得しようとするアクセスと競合する。結果的に、並列演算器３３を待たせることになれば、演算の効率が低下する。そこで、入力チャンネルの数Ｍに対して、並列演算器３３の入力数ｍを、１／４程度にし、アキュムレーター出力レジスター３７の内容を内部メモリー４３に格納するインターバルを確保することが望ましい。また、そうすることで、複数のステージに分割することによる上記メリットと、内部メモリー４３への競合を回避して効率よく出力データを取り出すというメリットとを両立できる。

上記実施形態では、ニューラルネットワークの階層は、第１処理ノードＰＮ１～第３処理ノードＰＮ３の３層としたが、４層以上でも差し支えない。また、並列演算器３３としては、４入力×８出力のものを例示したが、入出力数は更に大きなものであってよい。ステージ数も、４や８に限らず、いくつであっても差し支えない。コンボリューション演算の処理単位は、本実施形態では、ｈ×Ｗｏ×Ｃｏとし、更にｈ＝１としたが、ｈは、Ｈｏ未満であれば、２以上であっても差し支えない。

上記実施形態では、入力データや重み付け係数の先読みは、演算制御部５０のＣＰＵによるプログラムによる実施したが、他の手法によってもよい。例えば、図２１に示すようなＤＭＡ転送によってもよい。この場合、重み付け係数キャッシュ部４２および入力データキャッシュ部４１は、図示するように、ダイレクトメモリーアクセスコントローラ（ＤＭＡＣ）６２と、リングバッファーメモリー６３と、それらを制御するマイクロコントローラー６１とを備える。図２１では、マイクロコントローラー６１は演算制御部５０とは別に設け、演算制御部５０から制御パラメーターやコマンドを受けて、ＤＭＡＣ６２に先頭アドレスや終端アドレスなどを出力するものとしたが、マイクロコントローラー６１と演算制御部５０とを一体にしても差し支えない。

ＤＭＡＣ６２は、コンボリューション演算に先立って、入力データや重み付け係数の先頭アドレスや終端アドレスなどの設定を受けると、ダイレクトメモリーアクセスにより、外部記憶装置２０からメモリー制御部２２を介して、入力データや重み付け係数を、リングバッファーメモリー６３に転送する。コンボリューション演算部３０は、リングバッファーメモリー６３に対してリードアドレスを出力し、リングバッファーメモリー６３によるデータ出力として、入力データや重み付け係数を読み込んで、上述したコンボリューション演算を行なう。この構成例では、リングバッファーメモリー６３が内部記憶部に相当するが、リングバッファーメモリーとしているのは、入力データや重み付け係数が、先読みされ利用された後に更新されるので、その記憶容量を小さくして、リングバッファーメモリーとすることで、効率的にメモリーを利用できるからである。

Ｂ．他の態様：
（１）上記以外にも、複数の処理ノードが階層的に接続されたニューラルネットワークを用いて演算処理を行なう演算処理装置は、様々な態様で実施できる。例えば、演算処理装置は、ニューラルネットワークの各処理ノードにおけるＮ個（Ｎは２以上の整数）のニューロンからなるコンボリューション演算を、複数の処理単位に分けて行なうコンボリューション演算部と、コンボリューション演算部に外部バスを介して接続され、コンボリューション演算のための入力データ、コンボリューション演算のための重み付け係数、およびコンボリューション演算後の出力データを記憶する外部記憶装置と、コンボリューション演算部が外部バスを介することなく直接アクセスできる内部記憶部と、入力データと重み付け係数との少なくとも一方を、コンボリューション演算部によるコンボリューション演算の開始前に内部記憶部に準備し、コンボリューション演算部による演算結果を出力データとして内部記憶部から外部記憶装置に出力する演算制御部と、を備える構成を採用できる。

この構成において、コンボリューション演算部は、処理単位毎に行なわれるコンボリューション演算を、複数のステージに分け、各ステージにおいて、入力データと重み付け係数との少なくとも一方を内部記憶部から読み出して、Ｎより少ない個数のニューロンによりコンボリューション演算の一部を行ない、複数のステージでの演算結果を合計して、処理単位毎の出力データとして、内部記憶部に記憶するものとしてよい。こうすれば、コンボリューション演算部は、コンボリューション演算に用いる入力データおよび重み付け係数の少なくとも一方を、外部バスを介すること無く直接アクセスできる内部記憶部から読み出して、コンボリューション演算を行なうことができ、コンボリューション演算を高速に実行できる。しかも、Ｎ個のニューロンからなるコンボリューション演算を複数のステージに分け、各ステージにおいてＮより少ない個数のニューロンによりコンボリューション演算の一部を行ない、複数のステージでの演算結果を合計して、処理単位毎の出力データとして、内部記憶部に記憶する。したがって、コンボリューション演算において一度に積和演算を行なう演算器の入出力数を、コンボリューション演算に必要な全入出力数より小さくすることもできる。

ここで、内部記憶部は、入力データを記憶する第１記憶領域と、重み付け係数を記憶する第２記憶領域と、出力データを記憶する第３記憶領域とを有するものとしてもよい。この場合、入力データおよび重み付け係数の両方が、内部記憶部に記憶される。したがって、コンボリューション演算部の演算速度を、入力データおよび重み付け係数の一方が内部記憶部に記憶されている場合より、一層高速化できる。また、第１～第３記憶領域は、物理的に分離されていてもよいし、論理的に分離されていてもよい。

（２）こうした構成において、前記コンボリューション演算を行なう際のニューロンの数Ｎが、Ｈｏ，Ｗｏを、演算対象の２次元の各サイズ、Ｃｏをチャンネル数として、Ｎ＝Ｈｏ×Ｗｏ×Ｃｏ、であるとき、前記処理単位を、ｈ×Ｗｏ×Ｃｏ（但し、ｈ＜Ｈｏの自然数）としてもよい。こうすれば、コンボリューション演算を複数のステージに分けやすい。

（３）こうした構成において、ｈは、内部記憶部の容量に応じて設定されるものとしてよい。こうすれば、コンボリューション演算部において利用できる内部記憶部の容量に適したステージに分割でき、内部記憶部を効率的に利用できる。

（４）こうした構成において、演算制御部は、複数のステージに分割して実行するコンボリューション演算のうち、先に実行されるステージでのコンボリューション演算の実行中に、後に実行されるステージでのコンボリューション演算に用いられる入力データの少なくとも一部を、外部記憶装置から第１記憶領域へロードする第１先読処理を行なうものとしてよい。こうすれば、コンボリューション演算に用いる際には、必要な入力データが、内部記憶部の第１記憶領域に用意されていることになり、内部記憶部の容量を増加することなく、コンボリューション演算の速度を高めることができる。

（５）こうした構成において、演算処理の対象のデータを入力する処理ノードにおけるコンボリューション演算を行なう際のニューロンの数Ｎが、Ｈｉ，Ｗｉを、演算対象の２次元の各サイズ、Ｃｉをチャンネル数として、Ｎ＝Ｈｉ×Ｗｉ×Ｃｉ、であるとき、入力データを第１記憶領域へロードする転送単位を、Ｗｉ×Ｃｉとしてよい。この場合も、コンボリューション演算を複数のステージに分けやすい。

（６）こうした構成において、演算制御部は、演算部が、先に実行されるステージのための入力データを、内部記憶部の第１記憶領域から、少なくとも１回読み取ったとき、第１先読処理を実行するものとしてよい。こうすれば、次のステージのコンボリューション演算で必要になる入力データを、簡易な構成で、内部記憶部の第１記憶領域に確実に用意できる。

（７）こうした構成において演算制御部は、第１先読処理における入力データのロードが、コンボリューション演算を行なっている処理ノードで用いる入力データの終端に達したとき、第１先読処理を終了するものとしてよい。こうすれば、先読処理の制御が簡略化できる。

（８）こうした構成において、演算制御部は、複数のステージに分割して実行するコンボリューション演算のうち、先に実行されるステージでのコンボリューション演算の実行中に、後に実行されるステージでのコンボリューション演算に用いる重み付け係数の少なくとも一部を、外部記憶装置から第２領域へロードする第２先読処理を行なうものとしてよい。こうすれば、コンボリューション演算を行なう際には、必要な重み付け係数が、内部記憶部の第２記憶領域に用意されていることになり、内部記憶部の容量を増加することなく、コンボリューション演算の速度を高めることができる。

（９）こうした構成において、演算制御部は、演算部が、先に実行されるステージのための重み付け係数を、内部記憶部の第２記憶領域から、少なくとも１回読み取ったとき、第２先読処理を実行するものとしてよい。こうすれば、次のステージのコンボリューション演算で必要になる重み付け係数を、簡易な構成で、内部記憶部の第２記憶領域に確実に用意できる。

（１０）こうした構成において、演算制御部が、複数のステージのうちの最後のステージについてのコンボリューション演算が実行中に、第２先読処理として、最初のステージについての重み付け係数のロードを行なうものとしてよい。こうすれば、重み付け係数が繰り返し用いられる場合に容易に対応できる。

（１１）こうした構成において、複数の処理ノードが階層的に接続されたニューラルネットワークを用いて演算処理を行なう演算処理方法であって、ニューラルネットワークの各処理ノードにおけるＮ個のニューロンからなるコンボリューション演算の対象となる入力データおよびコンボリューション演算のための重み付け係数を外部記憶装置に記憶し、コンボリューション演算の際に、入力データおよび重み付け係数の少なくとも一方を、外部記憶装置から、コンボリューション演算を行なうプロセッサが外部記憶装置より高速にアクセス可能な内部記憶部にロードし、コンボリューション演算を複数の処理単位に分けて行ない、処理単位毎のコンボリューション演算を複数のステージに分け、各ステージにおいて、入力データおよび重み付け係数の少なくとも一方を内部記憶部から読み出して、Ｎより少ない個数のニューロンによりコンボリューション演算の一部を行ない、各ステージでの演算結果を合計して、特徴毎の演算結果として、内部記憶部に出力し、特徴毎の演算結果を、次の階層の処理ノードの入力データとして、内部記憶部から外部記憶装置を介して伝達する。

こうすれば、コンボリューション演算部は、コンボリューション演算に用いる入力データおよび重み付け係数の少なくとも一方を、外部バスを介すること無く直接アクセスできる内部記憶部から読み出して、コンボリューション演算を行なうことができ、コンボリューション演算を高速に実行できる。しかも、Ｎ個のニューロンからなるコンボリューション演算を複数のステージに分け、各ステージにおいてＮより少ない個数のニューロンによりコンボリューション演算の一部を行ない、複数のステージでの演算結果を合計して、特徴毎の出力データとして、内部記憶部に記憶出力し、特徴毎の演算結果を、次の階層の処理ノードの入力データとして、内部記憶部から外部記憶装置を介して伝達できる。したがって、コンボリューション演算における積和演算器の入出力数を小さくすることもできる。

（１２）上記各実施形態において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよい。ソフトウェアによって実現されていた構成の少なくとも一部は、ディスクリートな回路構成により実現することも可能である。また、本開示の機能の一部または全部がソフトウェアで実現される場合には、そのソフトウェア（コンピュータープログラム）は、コンピューター読み取り可能な非一時的な記録媒体に格納された形で提供することができる。「コンピューター読み取り可能な非一時的な記録媒体」とは、フレキシブルディスクやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種のＲＡＭやＲＯＭ等のコンピューター内の内部記憶装置や、ハードディスク等のコンピューターに固定されている外部記憶装置も含んでいる。すなわち、「コンピューター読み取り可能な非一時的な記録媒体」とは、データパケットを一時的ではなく固定可能な任意の記録媒体を含む広い意味を有している。

本開示は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述の課題の一部又は全部を解決するために、あるいは、上述の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

１１…入力装置、１２…出力装置、２０…外部記憶装置、２２…メモリー制御部、３０…コンボリューション演算部、３１…入力データレジスター、３２…重み付け係数レジスター、３３…並列演算器、３４…アキュムレーター入力レジスター、３５…加算器、３６…アキュムレーターレジスター、３７…アキュムレーター出力レジスター、４０…内部記憶部、４１…入力データキャッシュ部、４２…重み付け係数キャッシュ部、４３…内部メモリー、５０…演算制御部、６１…マイクロコントローラー、６３…リングバッファーメモリー、１００…演算処理装置、１１１…アドレス変換部、１１３…ロード制御部、１１５…調停部、１１７…入力データキャッシュメモリー、１２１…アドレス変換部、１２３…ロード制御部、１２５…調停部、１２７…係数キャッシュメモリー、ＭＰＸ…積算器、ＮＬＰ…非線形変換処理部、ＳＥＬ…係数選択部、ＳＵＭ…加算器

Claims

複数の処理ノードが階層的に接続されたニューラルネットワークを用いて演算処理を行なう演算処理装置であって、
前記ニューラルネットワークの各処理ノードにおけるＮ個（Ｎは２以上の整数）のニューロンからなるコンボリューション演算を、複数の処理単位に分けて行なうコンボリューション演算部と、
前記コンボリューション演算部に外部バスを介して接続され、前記コンボリューション演算のための入力データ、前記コンボリューション演算のための重み付け係数、および前記コンボリューション演算後の出力データを記憶する外部記憶装置と、
前記コンボリューション演算部が前記外部バスを介することなく直接アクセスできる内部記憶部と、
前記入力データと前記重み付け係数との少なくとも一方を、前記コンボリューション演算部による前記コンボリューション演算の開始前に前記内部記憶部に準備し、前記コンボリューション演算部による演算結果を前記出力データとして前記内部記憶部から前記外部記憶装置に出力する演算制御部と、
を備え、
前記コンボリューション演算部は、
前記処理単位毎に行なわれる前記コンボリューション演算を、複数のステージに分け、各ステージにおいて、前記入力データと前記重み付け係数との少なくとも一方を前記内部記憶部から読み出して、前記Ｎより少ない個数のニューロンにより前記コンボリューション演算の一部を行ない、
前記複数のステージでの演算結果を合計して、前記処理単位毎の出力データとして、前記内部記憶部に記憶する、
演算処理装置。
前記内部記憶部は、前記入力データを記憶する第１記憶領域と、前記重み付け係数を記憶する第２記憶領域と、前記出力データを記憶する第３記憶領域とを有する、請求項１記載の演算処理装置。
前記コンボリューション演算を行なう際のニューロンの数Ｎが、Ｈｏ，Ｗｏを、演算対象を処理した２次元形状の各サイズ、Ｃｏを出力チャンネル数として、
Ｎ＝Ｈｏ×Ｗｏ×Ｃｏ
であるとき、
前記処理単位が、ｈ×Ｗｏ×Ｃｏ（但し、ｈ＜Ｈｏの自然数）である、
請求項２に記載の演算処理装置。
前記ｈが、前記内部記憶部の容量に応じて設定される、請求項３に記載の演算処理装置。
前記演算制御部は、前記複数のステージに分割して実行する前記コンボリューション演算のうち、先に実行されるステージでのコンボリューション演算の実行中に、後に実行されるステージでの前記コンボリューション演算に用いられる前記入力データの少なくとも一部を、前記外部記憶装置から前記内部記憶部の前記第１記憶領域にロードする第１先読処理を行なう、請求項２から請求項４のいずれか一項に記載の演算処理装置。
演算処理の対象のデータを入力する処理ノードにおける前記コンボリューション演算を行なう際のニューロンの数Ｎが、Ｈｉ，Ｗｉを、演算対象の２次元の各サイズ、Ｃｉを入力チャンネル数として、
Ｎ＝Ｈｉ×Ｗｉ×Ｃｉ
であるとき、
前記入力データを前記内部記憶部の前記第１記憶領域にロードする転送単位が、Ｗｉ×Ｃｉである、請求項５に記載の演算処理装置。
前記演算制御部は、前記コンボリューション演算部が、先に実行されるステージのための前記入力データを、前記内部記憶部の前記第１記憶領域から、少なくとも１回読み取ったとき、前記第１先読処理を実行する、請求項５または請求項６に記載の演算処理装置。
前記演算制御部は、前記第１先読処理における前記入力データの前記ロードが、前記コンボリューション演算を行なっている前記処理ノードで用いる入力データの終端に達したとき、前記第１先読処理を終了する、請求項７に記載の演算処理装置。
前記演算制御部は、前記複数のステージに分割して実行する前記コンボリューション演算のうち、先に実行されるステージでのコンボリューション演算の実行中に、後に実行されるステージでの前記コンボリューション演算に用いる前記重み付け係数の少なくとも一部を、前記外部記憶装置から前記第２記憶領域へロードする第２先読処理を行なう、請求項２から請求項８のいずれか一項に記載の演算処理装置。
前記演算制御部は、前記コンボリューション演算部が、先に実行されるステージのための前記重み付け係数を、前記内部記憶部の前記第２記憶領域から、少なくとも１回読み取ったとき、前記第２先読処理を実行する、請求項９に記載の演算処理装置。
前記演算制御部が、前記複数のステージのうちの最後のステージについての前記コンボリューション演算が実行中に、前記第２先読処理として、最初のステージについての重み付け係数のロードを行なう、請求項９または請求項１０に記載の演算処理装置。
複数の処理ノードが階層的に接続されたニューラルネットワークを用いて演算処理を行なう演算処理方法であって、
前記ニューラルネットワークの各処理ノードにおけるＮ個のニューロンからなるコンボリューション演算の対象となる入力データおよび前記コンボリューション演算のための重み付け係数を外部記憶装置に記憶し、
前記コンボリューション演算の際に、前記入力データおよび前記重み付け係数の少なくとも一方を、前記外部記憶装置から、前記コンボリューション演算を行なうプロセッサが前記外部記憶装置より高速にアクセス可能な内部記憶部にロードし、
前記コンボリューション演算を複数の処理単位に分けて行ない、
前記処理単位毎のコンボリューション演算を複数のステージに分け、各ステージにおいて、前記入力データおよび前記重み付け係数の少なくとも一方を前記内部記憶部から読み出して、前記Ｎより少ない個数のニューロンにより前記コンボリューション演算の一部を行ない、
前記各ステージでの演算結果を合計して、前記処理単位毎の演算結果として、前記内部記憶部に出力し、
前記特徴毎の演算結果を、次の階層の処理ノードの入力データとして、前記内部記憶部から前記外部記憶装置を介して伝達する
演算処理方法。