JP7410961B2

JP7410961B2 - 演算処理装置

Info

Publication number: JP7410961B2
Application number: JP2021551021A
Authority: JP
Inventors: 英明古川
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2024-01-10
Anticipated expiration: 2039-10-09
Also published as: WO2021070303A1; US20220113944A1; JPWO2021070303A1

Description

本発明は、演算処理装置、より詳しくは、畳み込みニューラルネットワークを用いたディープラーニングを行う演算処理装置の回路構成に関する。

従来、複数の処理層が階層的に接続されたニューラルネットワークを用いて演算を実行する演算処理装置がある。特に画像認識を行う演算処理装置では、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、以下ＣＮＮという）を用いたディープラーニングが広く行われている。

図２８は、ＣＮＮを用いたディープラーニングによる画像認識の処理の流れを示す図である。ＣＮＮを用いたディープラーニングによる画像認識では、入力された画像データ（ピクセルデータ）に対して、ＣＮＮの複数の処理層における処理が順次施されることにより、画像に含まれる対象物が認識された最終的な演算結果データが得られる。

ＣＮＮの処理層は、畳み込み演算処理、非線形処理、縮小処理（プーリング処理）等を含むＣｏｎｖｏｌｕｔｉｏｎ処理を行うＣｏｎｖｏｌｕｔｉｏｎ層と、全ての入力データ（ピクセルデータ）にフィルタ係数を乗じて累積加算するＦｕｌｌＣｏｎｎｅｃｔ処理を行うＦｕｌｌＣｏｎｎｅｃｔ層（全結合層）とに大きく分類される。ただし、ＦｕｌｌＣｏｎｎｅｃｔ層がない畳み込みニューラルネットワークも存在する。

ＣＮＮを用いたディープラーニングによる画像認識は以下のようにして行われる。まず、画像データに対して、ある領域を抽出してフィルタ係数の異なる複数のフィルタを乗じて特徴量マップ（ＦｅａｔｕｒｅＭａｐ、ＦＭ）を作成する畳み込み演算処理と、特徴量マップの一部領域を縮小する縮小処理（プーリング処理）の組合せを１つの処理層として、これを複数回（複数の処理層において）行う。これらの処理が、Ｃｏｎｖｏｌｕｔｉｏｎ層の処理である。

プーリング処理は、近傍４ピクセルの最大値を抽出して１／２×１／２に縮小するｍａｘｐｏｏｌｉｎｇの他、近傍４ピクセルの平均値を求める（抽出ではない）ａｖｅｒａｇｅｐｏｏｌｉｎｇなどのバリエーションがある。

図２９は、Ｃｏｎｖｏｌｕｔｉｏｎ処理の流れを示す図である。最初に、画像データから１ピクセルおよびその近傍のピクセル（図２９の例では近傍８ピクセル）を抽出して、夫々にフィルタ係数の異なるフィルタ処理を行い（畳み込み演算処理）、これらを全て累積加算することにより、１ピクセルに対応するデータができる。作成されたデータに対し、非線形変換および縮小処理（プーリング処理）を行い、以上の処理を画像データの全ピクセルに対して行うことで、出力特徴量マップ（ｏＦＭ）が１面分生成される。これを複数回繰り返すことでｏＦＭを複数面生成する。実際の回路では上記全てがパイプライン処理される。

生成された出力特徴量マップ（ｏＦＭ）を、次のＣｏｎｖｏｌｕｔｉｏｎ処理の入力特徴量マップ（ｉＦＭ）として、さらにフィルタ係数の異なるフィルタ処理を行うことにより、Ｃｏｎｖｏｌｕｔｉｏｎ処理を繰り返す。このようにして複数回のＣｏｎｖｏｌｕｔｉｏｎ処理を行い、出力特徴量マップ（ｏＦＭ）を得る。

Ｃｏｎｖｏｌｕｔｉｏｎ処理が進み、特徴量マップ（ＦＭ）をある程度まで小さくしたところで、画像データを１次元のデータ列と読み変える。この１次元のデータ列の各データに対して、各々異なる係数を乗じて累積加算を行うＦｕｌｌＣｏｎｎｅｃｔ処理を複数回（複数の処理層において）行う。これらの処理が、全結合層（ＦｕｌｌＣｏｎｎｅｃｔ層）の処理である。

そして、ＦｕｌｌＣｏｎｎｅｃｔ処理の後、最終的な演算結果である被写体推定結果として、画像に含まれる対象物が検出された確率（被写体検出の確率）が出力される。図２８の例では、最終的な演算結果データとして、犬が検出された確率は０．０１（１％）、猫が検出された確率は０．０４（４％）、ボートが検出された確率は０．９４（９４％）、鳥が検出された確率は０．０２（２％）である。

このようにして、ＣＮＮを用いたディープラーニングによる画像認識は、高い認識率を実現できる。しかし、検出する被写体の種類を増やしたり、被写体検出精度を上げるためには、ネットワークを大きくする必要がある。そうするとデータ格納バッファやフィルタ係数格納バッファが必然的に大容量になるが、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）にはあまり大容量のメモリを搭載できない。

また、画像認識処理におけるディープラーニングでは、（Ｋ－１）層目とＫ層目におけるＦＭ（ＦｅａｔｕｒｅＭａｐ）サイズとＦＭ数（ＦＭの面数）の関係は次式のような関係になる場合が多く、回路としてメモリサイズを決定する際には最適化が困難である。

ＦＭサイズ［Ｋ］＝１／４×ＦＭサイズ［Ｋ－１］
ＦＭ数［Ｋ］＝２×ＦＭ数［Ｋ－１］

例えば、ＣＮＮのバリエーションの１つであるＹｏｌｏ＿ｖ２に対応可能な回路のメモリのサイズを考える場合、ＦＭサイズとＦＭ数の最大値だけで決定しようとすると１ＧＢ程度必要となる。実際には、ＦＭ数とＦＭサイズは反比例的関係があるため、計算上メモリは３ＭＢ程度あれば十分ではあるが、電池駆動のモバイル機器に搭載するＡＳＩＣとしては、できるだけ消費電力やチップコストを小さくしたいニーズがあるため、メモリを極力小さくする工夫が必要となってくる。

このような問題があることから、ＣＮＮは一般的には高性能ＰＣやＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を用いたソフトウエア処理で実装される。しかし、ＣＮＮの高速処理を実現するためには処理の重い部分をハードウェアで構成する必要がある。このようなハードウェア実装の例が、非特許文献１に記載されている。非特許文献１は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）プラットフォームをベースとしたディープＣＮＮ用のアクセラレータを開示している。

ＯｐｔｉｍｉｚｉｎｇＦＰＧＡ－ｂａｓｅｄＡｃｃｅｌｅｒａｔｏｒＤｅｓｉｇｎＦＯＲＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ, ＰｒｏｃｅｅｄｉｎｇｓＯＦｔｈｅ２０１５ＡＣＭ/ＳＩＧＤＡＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＦｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ

ＣＮＮの浅い層では、ｉＦＭ数（ｉＦＭの面数）が回路の入力並列度Ｎより極端に少なくなることがある。この場合、使わない回路が動作しないように電源遮断するなどで消費電力を削減することも考えられる。しかし、ＤｅｅｐＬｅａｒｎｉｎｇは大変重い処理であるから、搭載されている回路をできるだけ活用して処理時間を短くする方がより有効である。

非特許文献１では、１層目のｉＦＭ数が３個であるのに対しＦＰＧＡのコンフィギュレーションは７個である例が記載されている。非特許文献１では、具体的にどのように動作させるかについての言及がないが、仮に７個のコンフィギュレーションのうちの３個しか使用していないとすると、搭載されている回路の半分以上が動作していないことになる。

出力側についても、非特許文献１では、２層目のｏＦＭ数が２０であるのに対しＦＰＧＡのコンフィギュレーションは６４である例が記載されている。具体的にどのように動作させるかについての言及はないが、仮に６４のうち２０しか使っていないとすると、搭載されている回路の２／３以上が動作していないことになる。

また、プーリング処理では、例えば２×２の最大値プーリング処理の場合、入力された４個のデータから最大値を１個だけ抽出する。これによりデータレートは１／４となり、処理後のＦＭサイズは縦・横半分のサイズになる。しかし設定によっては、同じ位置データを重複処理して、結果的にデータレートが変化せず、ＦＭのサイズが変化しないことがある。これを他の層と同じように画一的に処理すると、演算部での処理時間が４倍に増えることになり、動画対応のような高速処理をする上で問題となる。非特許文献１では、このような速度低下への対策について言及していない。

上述の事情を踏まえ、本発明は、畳み込みニューラルネットワークを用いたディープラーニングを行う演算処理装置において、プーリング処理の実行に必要なデータを並列処理で実行できるようにすることで、処理時間を短縮する演算処理装置を提供することを目的とする。

本発明の第一の態様は、Ｃｏｎｖｏｌｕｔｉｏｎ処理とＦｕｌｌＣｏｎｎｅｃｔ処理を行うディープラーニング用の演算処理装置であって、入力特徴量マップデータを格納するデータ格納メモリと、前記データ格納メモリを管理および制御するデータ格納メモリ制御部とを有するデータ格納メモリ管理部と；フィルタ係数を格納するフィルタ係数格納メモリと、前記フィルタ係数格納メモリを管理および制御するフィルタ係数格納メモリ制御部とを有するフィルタ係数格納メモリ管理部と；前記入力特徴量マップデータおよび出力特徴量マップデータを格納する外部メモリと；前記外部メモリから、前記入力特徴量マップデータを取得するデータ入力部と；前記外部メモリから、前記フィルタ係数を取得するフィルタ係数入力部と；入力Ｎ並列、出力Ｍ並列の構成（Ｎ、Ｍ≧１の正数）で、前記データ格納メモリから前記入力特徴量マップデータを取得し、前記フィルタ係数格納メモリから前記フィルタ係数を取得して、フィルタ処理、累積加算処理、非線形演算処理およびプーリング処理を行う演算部と；前記演算部から出力されるＭ並列のデータを連結して、出力特徴量マップデータとして前記外部メモリに出力するデータ出力部と；前記演算処理装置内を制御するコントローラと；を有し、前記演算部は、Ｎ並列でフィルタ処理を実行するフィルタ演算部と、前記フィルタ演算部のＮ／ｋ個の演算結果を累積加算するｋ個の第１加算器と、前記第１加算器の後段に設けられ、前記第１加算器の出力を分岐して、第１処理側と第２処理側とで切り替えるセレクタと、前記セレクタが前記第１処理側に分岐した場合に、ｋ個の前記第１加算器の累積加算処理の結果を累積加算する第２加算器と、前記第２加算器の累積加算処理の結果を後段で累積加算する第３加算器と、前記第３加算器の累積加算処理の結果に対して非線形演算処理を行う第１非線形変換部と、前記第１非線形変換部の処理結果に対してプーリング処理を行う第１プーリング処理部と、前記セレクタが前記第２処理側に分岐した場合に、前記第１加算器の累積加算処理の結果に対して非線形演算処理を行う第２非線形変換部と、前記第２非線形変換部で非線形処理された、ｋ個の前記第１加算器の累積加算処理の結果が入力され、同時に入力されたデータに対してプーリング処理を行う第２プーリング処理部と、前記演算部内を制御する演算制御部と、を有し、前記データ格納メモリ管理部は、前記演算部に入力される前記入力特徴量マップデータの数≦Ｎ／ｋの時に、ｋ個の異なるデータ格納メモリに同じデータを書き込み、前記演算制御部は、前記入力特徴量マップデータの数≦Ｎ／ｋの時は、前記セレクタが前記第２処理側に分岐するよう制御する演算処理装置である。

前記データ格納メモリ制御部は、第１モードにおいて、前記データ格納メモリへの書き込み時に、ｋ個の異なるデータ格納メモリの同一アドレスに同一のデータを書き込むよう制御し、前記データ格納メモリをＮ／ｋ個ずつｋ個のグループに分類し、前記データ格納メモリからの読み出し時に、各グループでアドレスを変えて、互いに縦および／または横に数画素ずれたアドレスにアクセスするよう制御してもよい。

前記データ格納メモリ制御部は、第２モードにおいて、前記データ格納メモリへの書き込み時に、ｋ個の異なるデータ格納メモリにおいて、同一データを、縦および／または横に数画素ずれたアドレスに書き込むように制御し、前記データ格納メモリからの読み出し時に、同一アドレスで全ての前記データ格納メモリにアクセスしてもよい。

本発明の第一の態様は、Ｃｏｎｖｏｌｕｔｉｏｎ処理とＦｕｌｌＣｏｎｎｅｃｔ処理を行うディープラーニング用の演算処理装置であって、入力特徴量マップデータを格納するデータ格納メモリと、前記データ格納メモリを管理および制御するデータ格納メモリ制御部とを有するデータ格納メモリ管理部と；フィルタ係数を格納するフィルタ係数格納メモリと、前記フィルタ係数格納メモリを管理および制御するフィルタ係数格納メモリ制御部とを有するフィルタ係数格納メモリ管理部と；前記入力特徴量マップデータおよび出力特徴量マップデータを格納する外部メモリと；前記外部メモリから、前記入力特徴量マップデータを取得するデータ入力部と；前記外部メモリから、前記フィルタ係数を取得するフィルタ係数入力部と；入力Ｎ並列、出力Ｍ並列の構成（Ｎ、Ｍ≧１の正数）で、前記データ格納メモリから前記入力特徴量マップデータを取得し、前記フィルタ係数格納メモリから前記フィルタ係数を取得して、フィルタ処理、累積加算処理、非線形演算処理およびプーリング処理を行う演算部と；前記演算部から出力されるＭ並列のデータを連結して、出力特徴量マップデータとして前記外部メモリに出力するデータ出力部と；前記演算処理装置内を制御するコントローラと；を有し、前記演算部は、Ｎ並列でフィルタ処理を実行するフィルタ演算部と、前記フィルタ演算部のＮ／ｋ個の演算結果を累積加算するｋ個の第１加算器と、前記第１加算器の後段に設けられ、前記第１加算器の出力を分岐して、第１処理側と第２処理側とで切り替えるセレクタと、前記セレクタが前記第１処理側に分岐した場合に、ｋ個の前記第１加算器の累積加算処理の結果を累積加算する第２加算器と、前記第２加算器の累積加算処理の結果を後段で累積加算する第３加算器と、前記第３加算器の累積加算処理の結果に対して非線形演算処理を行う第１非線形変換部と、前記第１非線形変換部の処理結果に対してプーリング処理を行う第１プーリング処理部と、前記セレクタが前記第２処理側に分岐した場合に、前記第１加算器の累積加算処理の結果に対してプーリング処理を行う第２プーリング処理部と、前記第２プーリング処理部の後段に設けられ、前記第２プーリング処理部でプーリング処理された前記第１加算器の累積加算処理の結果に対して非線演算処理を行う第２線形変換部と、前記演算部内を制御する演算制御部と、を有し、前記データ格納メモリ管理部は、前記演算部に入力される前記入力特徴量マップデータの数≦Ｎ／ｋの時に、ｋ個の異なるデータ格納メモリに同じデータを書き込み、前記演算制御部は、前記入力特徴量マップデータの数≦Ｎ／ｋの時は、前記セレクタが前記第２処理側に分岐するよう制御する演算処理装置である。
前記第１非線形変換部と前記第２線形変換部は同一の構成であってもよく、前記第１処理側と前記第２処理側で共用されていてもよい。

前記第２プーリング処理部は、走査方向に対して垂直方向と水平方向とで別々に、プーリング処理を行い、前記垂直方向のプーリング処理および前記水平方向のプーリング処理は、各々、トリガ信号が入力されるタイミングで実行され、前記演算制御部は、予め設定したタイミングで、前記トリガ信号を出力してもよい。

本発明の各態様によれば、畳み込みニューラルネットワークを用いたディープラーニングを行う演算処理装置において、プーリング処理の実行に必要なデータを並列処理で実行できるようにすることで、処理時間を短縮することができる。

Ｃｏｎｖｏｌｕｔｉｏｎ処理によって、入力特徴量マップ（ｉＦＭ）から出力特徴量マップ（ｏＦＭ）を得るイメージ図である。本発明の実施形態に係る演算処理装置の全体構成を示すブロック図である。本発明の第１実施形態に係る演算処理装置の演算部の構成を示す図である。プーリング処理のイメージを示す図である。本発明の第１実施形態の変形例に係る演算処理装置の演算部の構成を示す図である。本発明の第１実施形態に係る演算処理装置のＩＢＵＦ（データ格納メモリ）管理部の構成を示す図である。本発明の第１実施形態に係る演算処理装置のＩＢＵＦ管理部のｗｅ生成部分を詳細に示した図である。非線形変換が単調増加関数である場合の、非線形変換部の入力と出力の関係を示す図である。本発明の第１実施形態の変形例に係る演算処理装置の演算部の構成を示す図である。本発明の第１実施形態の変形例に係る演算処理装置の演算部の構成を示す図である。本発明の第１実施形態の変形例に係る演算処理装置の演算部の第１プーリング処理部の構成を示す図である。本発明の第１実施形態の変形例に係る演算処理装置のＩＢＵＦ管理部のｗｅ生成部分を詳細に示した図である。通常のプーリング処理における、ｉＦＭの処理過程を示す図である。Ｙｏｌｏ_ｔｉｎｙ_ｖ２の６層目のプーリング処理における、ｉＦＭの処理過程を示す図である。本実施形態の第２実施形態に係る演算処理装置の第１プーリング処理部の構成を示す図である。非線形変換処理後のＦＭのピクセルイメージを示す図である。通常のプーリング処理で、操作方向を水平方向とした場合の、第１プーリング処理部の実行波形を示す図である。ｓｔｒｉｄｅ＝１時の、操作方向を水平方向とした場合の、第２プーリング処理部の実行波形を示す図である。本実施形態の第２実施形態に係る演算処理装置の、第１プーリング処理部の実行波形を示す図である。本実施形態の第３実施形態に係る演算処理装置において、２個の出力チャネルグループで分担して、１個のｏＦＭを作成するイメージ図である。本実施形態の第３実施形態に係る演算処理装置のＩＢＵＦ管理部の出力側の構成を示す図である。本実施形態の第３実施形態に係る演算処理装置のＩＢＵＦ管理部の、ＤＢＵＦｏｄｄ、ＤＢＵＦｅｖｅｎにおけるデータの格納イメージを示す図である。本実施形態の第３実施形態に係る演算処理装置において、２個の出力チャネルグループで処理するｉＦＭ上の位置の違いのイメージを示す図である。通常処理時の、演算部から出力されるｏＦＭデータのイメージ図である。１個のｏＦＭを２個の出力チャネルグループでライン分担して処理した場合の、演算部から出力されるｏＦＭデータのイメージ図である。通常処理時の、ｋ層目の処理から（ｋ＋１）層目の処理への流れを示す図である。ライン分担処理時の、ｋ層目の処理から（ｋ＋１）層目の処理への流れを示す図である。ライン分担処理時の、ＩＢＵＦへの具体的なデータの書き込みイメージを示す図である。領域分担処理時の、ＩＢＵＦへの具体的なデータの書き込みイメージを示す図である。本実施形態の第３実施形態に係る演算処理装置のＩＢＵＦ管理部の全体構成を示す図である。ＣＮＮを用いたディープラーニングによる画像認識の処理の流れを示す図である。従来技術に係るＣｏｎｖｏｌｕｔｉｏｎ処理の流れを示す図である。

本発明の実施形態について、図面を用いて説明する。まず、本発明の実施形態の構成を採用する背景について説明する。

図１は、Ｃｏｎｖｏｌｕｔｉｏｎ処理によって、入力特徴量マップ（ｉＦＭ）から出力特徴量マップ（ｏＦＭ）を得るイメージ図である。Ｃｏｎｖｏｌｕｔｉｏｎ処理は、入力される全てのｉＦＭデータに異なるフィルタ係数をかけ（フィルタ処理）、それらを全て累積加算し、非線形変換、プーリング（縮小処理）などの処理を施すことにより、ｏＦＭデータを得る。ｏＦＭデータの１ピクセル（１画素）を計算するのに必要な情報として、出力（ｏＦＭの１ピクセル）に対応するｉＦＭデータの座標の近傍にある全てのピクセルの情報（ｉＦＭデータおよびフィルタ係数）が必要である。

Ｃｏｎｖｏｌｕｔｉｏｎ処理は、入力Ｎ並列（Ｎは１以上の正数）、すなわちｉＦＭ数（ｉＦＭの面数）＝Ｎであり、Ｎ次元の入力データが並列して処理される（入力Ｎ並列）。また、出力Ｍ並列（Ｍは１以上の正数）、すなわちｏＦＭ数（ｏＦＭの面数）＝Ｍであり、Ｍ次元のデータが並列して出力される（出力Ｍ並列）。

（第１実施形態）
次に、本発明の第１実施形態について、図面を用いて説明する。図２は、本実施形態に係る演算処理装置の全体構成を示すブロック図である。演算処理装置１は、コントローラ２と、データ入力部３と、フィルタ係数入力部４と、ＩＢＵＦ（データ格納メモリ）管理部５と、ＷＢＵＦ（フィルタ係数格納メモリ）管理部６と、演算部（演算ブロック）７と、データ出力部８を備える。データ入力部３と、フィルタ係数入力部４と、データ出力部８は、バス１０を介して、ＤＲＡＭ（外部メモリ）９と接続されている。演算処理装置１は、入力特徴量マップ（ｉＦＭ）から出力特徴量マップ（ｏＦＭ）を生成する。

ＩＢＵＦ管理部５は、入力特徴量マップ（ｉＦＭ）データ格納用のメモリ（データ格納メモリ、ＩＢＵＦ）と、データ格納メモリの管理・制御回路（データ格納メモリ制御部）を有する。ＩＢＵＦは、それぞれが複数のＳＲＡＭから構成される。

ＩＢＵＦ管理部５は、入力データ（ｉＦＭデータ）中の有効データ数をカウントして座標に変換し、さらにそれをＩＢＵＦアドレス（ＩＢＵＦにおけるアドレス）に変換し、データをＩＢＵＦに格納するとともに、所定の方法でｉＦＭデータをＩＢＵＦから取り出す。

ＷＢＵＦ管理部６は、フィルタ係数格納用のメモリ（フィルタ係数格納メモリ、ＷＢＵＦ）と、フィルタ係数格納メモリの管理・制御回路（フィルタ係数格納メモリ制御部）を有する。ＷＢＵＦ管理部６は、ＩＢＵＦ管理部５のステータスを参照して、ＩＢＵＦ管理部５から取り出すデータに対応するフィルタ係数をＷＢＵＦから取り出す。

ＤＲＡＭ９は、ｉＦＭデータ、ｏＦＭデータおよびフィルタ係数を格納する。データ入力部３は、ＤＲＡＭ９から所定の方法で、入力特徴量マップ（ｉＦＭ）を取得し、ＩＢＵＦ（データ格納メモリ）管理部５に渡す。データ出力部８は、ＤＲＡＭ９に所定の方法で、出力特徴量マップ（ｏＦＭ）データを書き出す。具体的には、データ出力部８は、演算部７から出力されたＭ並列のデータを連結してＤＲＡＭ９に出力する。フィルタ係数入力部４は、ＤＲＡＭ９から所定の方法で、フィルタ係数を取得し、ＷＢＵＦ（フィルタ係数格納メモリ）管理部６に渡す。

演算部７は、ＩＢＵＦ（データ格納メモリ）管理部５からデータ、ＷＢＵＦ（フィルタ係数格納メモリ）管理部６からフィルタ係数を取得して、フィルタ処理・累積加算・非線形演算・プーリング処理等のデータ処理を行う。演算部７がデータ処理を施したデータ（累積加算結果）は、データ出力部８を介して、ＤＲＡＭ９に格納される。コントローラ２は、回路全体の制御を行う。

ＣＮＮでは、複数の処理層において、必要な層数分の処理が繰り返し実行される。そして、演算処理装置１は最終出力データとして被写体推定結果を出力し、この最終出力データを、プロセッサ（回路でもよい）を用いて処理することにより被写体推定結果を得る。

図３は、本実施形態に係る演算処理装置の演算部７の構成を示す図である。演算部７の入力チャネル数はＮ（Ｎは１以上の正数）であり、Ｎ次元の入力データが並列して処理される（入力Ｎ並列）。演算部７の出力チャネル数はＭ（Ｍは１以上の正数）であり、Ｍ次元のデータが並列して出力される（出力Ｍ並列）。

１つの層（面）において、ｉＦＭデータ（ｄ＿０～ｄ＿１５）とフィルタ係数（ｋ＿０～ｋ＿１５）が入力され、１個のｏＦＭデータを出力する。この処理がＭ層（Ｍ面）、並行して行われ、Ｍ個のｏＦＭデータ（ｏＣｈ＿０～ｏＣｈ＿Ｍ－１）が出力される。

このように、演算部７は、入力チャネル数をＮ、出力チャネル数をＭとして、並列度がＮ×Ｍとなる構成を取る。入力チャネル数Ｎおよび出力チャネル数Ｍの大きさは、ＣＮＮの大きさに応じて設定（変更）することができるので、処理性能や回路規模を勘案して適切に設定する。

本実施形態は、演算部７が演算可能な入力チャネル数Ｎよりも、実際に演算部７に入力されるｉＦＭ数が少ない場合に、未稼働回路を活用することで演算処理の高速化を図ったものである。なお、分かりやすくするため、以下の条件で説明する。
・入力並列度Ｎ＝１６
・出力並列度Ｍ＝１６
・ｉＦＭ数＝３（ＲＧＢの３面）
・ｏＦＭ数＝16
・フィルタサイズ３×３
・プーリング実行単位（プーリングサイズ）ｋ＝２×２

この場合、１つのチャネルグループで１つのｉＦＭを処理しようとすると、入力１６チャネルのうち１３チャネルが未稼働となってしまう。そこで、未稼働回路を有効活用する。

演算部７は、演算部内各部の制御を行う演算制御部７１を備える。また、演算部７は、各層（面）ごとに、フィルタ演算部７２と、ｋ個の第１加算器８１と、セレクタ８２と、第２加算器８３と、第３加算器７４と、ＦＦ（フリップフロップ）７５と、第１非線形変換部７６と、第１プーリング処理部７７と、第２非線形変換部８６と、第２プーリング処理部８７とを備える。各層（面）ごとに同じ回路が存在し、このような各（面）がＭ個ある。

演算制御部７１が、演算部７の前段に対してリクエストを発行することにより、所定のデータがフィルタ演算部７２に入力される。フィルタ演算部７２は、内部で乗算器と加算器がＮ並列で同時に実行できるように構成されており、入力データのフィルタ処理を行い、フィルタ処理の結果をＮ並列で出力する。

第１加算器８１の各々は、フィルタ演算部７２におけるＮ／ｋ個のフィルタ処理結果を累積加算する。図３の例では、Ｎ＝１６、ｋ＝４なので、第１加算器８１の各々は、１６／４＝４個のフィルタ処理結果を累積加算している。

第１加算器８１の後段にはセレクタ８２が設けられ、第１加算器８１の出力を分岐して切り替える。切り替えの条件は、演算部７に入力されるｉＦＭ数とＮ／ｋのどちらが大きいかによる。なお、図３の例では、セレクタ８２は各第１加算器８１に対応してｋ個あるが、第１加算器８１の出力を１つのセレクタ８２で共通に切り替えるように構成してもよい。

ｉＦＭ数＞Ｎ／ｋの場合、演算制御部７１は、通常処理（第１処理）を行うようにセレクタ８２を切り替える設定・制御を行う。具体的には、第１加算器８１の出力が、第２加算器８３に入力されるようにセレクタ８２が切り替えられる。第２加算器８３は、入力されたｋ個の第１加算器８１の累積加算処理の結果を累積加算する。すなわち、通常処理時には、第１加算器８１が、Ｎ個（図３では１６個）の入力チャネルをｋ個ずつ（図３では４個ずつ）に分けて１回目の加算を行い、第２加算器８３が２回目の加算で全入力分の加算を行う。

第３加算器７４は、時分割で入力される第２加算器８３の累積加算処理の結果を後段で累積加算する。第３加算器７４の後段には、累積加算の結果を保持するためのＦＦ７５が設けられている。

第１非線形変換部７６は、第３加算器７４およびＦＦ７５での累積加算の結果に対して、Ａｃｔｉｖａｔｅ関数などによる非線形演算処理を行う。具体的な実装は特に規定しないが、例えば折れ線近似により非線形演算処理を行う。

第１プーリング処理部７７は、第１非線形変換部７６から入力された複数のデータの中から最大値を選択出力（最大値プーリング）する、平均値を算出（平均値プーリング）する、などのプーリング処理を行う。なお、第１非線形変換部７６と第１プーリング処理部７７における処理は、演算制御部７１により省略することができる。

ｉＦＭ数≦Ｎ／ｋの場合、演算制御部７１は、並列処理（第２処理）を行うようにセレクタ８２を切り替える設定・制御を行う。ここで、並列処理とは、未稼働回路を活用することで、プーリング処理の実行に必要なデータを通常処理と並列で実行する処理のことを言う。これにより、処理時間を短縮し、演算処理の高速化を図ることができる。並列処理を行うことが選択された場合、第１加算器８１の出力が、第２非線形変換部８６に入力されるようにセレクタ８２が切り替えられる。

第２非線形変換部８６は、ｋ個の第１加算器８１の累積加算処理の結果に対してＡｃｔｉｖａｔｅ関数などの非線形変換（非線形処理）を行う。第２プーリング処理部８７は、第２非線形変換部８６で非線形処理された、ｋ個の第１加算器８１の累積加算処理の結果が入力され、同時に入力されたデータに対してプーリング処理を行う。

すなわち、ｉＦＭ数が少ない時は、第１加算器８１の出力が並列処理側に送られて、個別に非線形変換が施された後、ｋ個（図３では４個）のデータ同時入力のプーリング処理が実行される。プーリング処理は、平均値プーリングの場合は加算してｋ（図３では４）で割り（２ビットシフト）、ｍａｘプーリングの場合は最大値を取得する。

図４は、プーリング処理のイメージを示す図である。入力データが４×４ピクセル、フィルタサイズが３×３ピクセルの場合、フィルタ処理によって、３×３ピクセルのデータが４個作られる。プーリング実行単位ｋ＝２×２の場合、フィルタ処理後の４個のデータが揃ってプーリング処理が１回実行される。従って、４個（一般的にはｋ個）のデータを同時に演算できれば、処理時間を短縮し、演算処理の高速化を図ることができる。上述の図３の構成によれば、第２非線形変換部８６が４個（一般的にはｋ個）あるので、プーリング処理の実行に必要なデータを通常処理と並列で実行することができる。したがって、入力チャネルが空いている時、通常処理と並列してプーリングに必要なデータ生成を一度に実行することができる。

（変形例）
なお、図３の上側（並列処理側）と下側（通常処理側）は排他利用されるので、セレクタ８２で切り替えることにより、第１非線形変換部７６を第２非線形変換部８６として利用できる構成にしてもよい。図５はこのような演算部７の構成を示す図である。

４個あるセレクタ８２のうちの１個（セレクタ８２´）は、セレクタ８４を介して第１非線形変換部７６の入力に接続している。そして第１非線形変換部７６の出力はセレクタ８５に接続し、出力先を第１プーリング処理部７７と第２プーリング処理部８７とから選択できるようにしている。

ｉＦＭ数＞Ｎ／ｋの場合、演算制御部７１は、通常処理（第１処理）を行うようにセレクタ８２を切り替える設定・制御を行う。すなわち、第１加算器８１の出力が、第２加算器８３に入力されるようにセレクタ８２が切り替えられる。第２加算器８３は、入力されたｋ個の第１加算器８１の累積加算処理の結果を累積加算し、第３加算器７４は、時分割で入力される第２加算器８３の累積加算処理の結果を後段で累積加算する。第３加算器７４の後段には、累積加算の結果を保持するためのＦＦ７５が設けられている。

ＦＦ７５と第１非線形変換部７６の間にはセレクタ８４が設けられており、第１非線形変換部７６の入力を、通常処理側と並列処理側とで切り替えることができる。通常処理の場合は、第１非線形変換部７６は、第３加算器７４およびＦＦ７５での累積加算の結果に対して、Ａｃｔｉｖａｔｅ関数などによる非線形演算処理を行う。

第１非線形変換部７６の後段にはセレクタ８５が設けられており、第１非線形変換部７６の出力を、通常処理側と並列処理側とで切り替えることができる。通常処理の場合は、第１非線形変換部７６によって処理されたデータは第１プーリング処理部７７に入力される。第１プーリング処理部７７は、第１非線形変換部７６から入力された複数のデータの中から最大値を選択出力（最大値プーリング）する、平均値を算出（平均値プーリング）する、などのプーリング処理を行う。

ｉＦＭ数≦Ｎ／ｋの場合、演算制御部７１は、並列処理（第２処理）を行うようにセレクタ８２を切り替える設定・制御を行う。すなわち、第１加算器８１の出力が、第２非線形変換部８６に入力されるようにセレクタ８２が切り替えられる。このとき、４個あるセレクタ８２のうちの１個（セレクタ８２´）は、セレクタ８４を介して第１非線形変換部７６の入力に接続している。すなわち４個ある第１加算器８１のうちの１個（第１加算器８１´）の出力は、第１非線形変換部７６に入力される。

第２非線形変換部８６は、（ｋ－１）個（図５では３個）の第１加算器８１の累積加算処理の結果に対してＡｃｔｉｖａｔｅ関数などの非線形変換（非線形処理）を行う。同時に、第１非線形変換部７６は、第１加算器８１´の累積加算処理の結果に対してＡｃｔｉｖａｔｅ関数などの非線形変換（非線形処理）を行う。そして、第１非線形変換部７６の出力が、第２プーリング処理部８７に入力されるようにセレクタ８５が切り替えられる。

第２プーリング処理部８７は、第２非線形変換部８６および第１非線形変換部７６で非線形処理された、ｋ個（図５では４個）の第１加算器８１（第１加算器８１´を含む）の累積加算処理の結果が入力され、同時に入力されたデータに対してプーリング処理を行う。このような構成により、第２非線形変換部８６の数を１個減らすことができ、回路構成を小さくすることができる。

（ＩＢＵＦへのデータの格納・読み出し方法）
次に、本実施形態におけるＩＢＵＦ（データ格納メモリ）へのデータの格納・読み出し方法について説明する。図６は、本実施形態のＩＢＵＦ（データ格納メモリ）管理部５の構成を示す図である。

ＩＢＵＦ管理部５は、ＩＢＵＦ（データ格納メモリ）にデータを格納するＩＢＵＦ格納部５１と、複数のＩＢＵＦが配置されているＩＢＵＦアレイ５２と、ＩＢＵＦからデータを読み出すＩＢＵＦ読み出し部５３とを備える。ＩＢＵＦ格納部５１とＩＢＵＦ読み出し部５３は、前述のデータ格納メモリ制御部に含まれる。入力Ｎ並列の場合、Ｎ個のＩＢＵＦを使用する。例えば、図６に示すように、入力並列度Ｎ＝１６の場合、１６個のＩＢＵＦ（ＩＢＵＦ０～ＩＢＵＦ１５）を使用する。

ＩＢＵＦ格納部５１は、ｉＦＭデータが入力されると、入力データ中の有効データ数をカウントして座標に変換し（座標生成）、さらにそれをＩＢＵＦアドレスに変換し（アドレス変換）、ｉＦＭデータ（ｄａｔａ）とともにＩＢＵＦに格納する。

ＩＢＵＦ管理部５のデータ格納メモリ制御部は、ＩＢＵＦへの書き込みおよびＩＢＵＦからの読み出しの制御を行うが、この制御にはいくつかのモードがある。以下は、１つのモード（第1モード）の場合の制御である。ＩＢＵＦ格納部５１は、ｉＦＭ数≦Ｎ／ｋの場合、ＩＢＵＦをＮ／ｋ個ずつｋ個のグループに分類し、ＩＢＵＦへの書き込み時に、別々のグループに属するｋ個の異なるＩＢＵＦの同一アドレスに同一のデータを書き込む。

例えば、Ｎ＝１６、ｋ＝４の場合、ＩＢＵＦ格納部５１は、ＩＢＵＦ（ＩＢＵＦ０～ＩＢＵＦ１５）を以下の４グループに分ける。
・ＩＢＵＦ０～３
・ＩＢＵＦ４～７
・ＩＢＵＦ８～１１
・ＩＢＵＦ１２～１５

そして、ＩＢＵＦ格納部５１は、ＩＢＵＦへの書き込み時に、別々のグループに属する４個のＩＢＵＦ（例えばＩＢＵＦ０、ＩＢＵＦ４、ＩＢＵＦ８、ＩＢＵＦ１２）の同一アドレスに同一のデータを書き込む。書き込みは、ｍｏｄｅ信号によりｗｅの生成を切り替えることで実現できる。図７は、図６のＩＢＵＦ格納部５１のｗｅ生成部分を詳細に示した図である。これにより、ＩＢＵＦ０～３と同じデータがＩＢＵＦ４～７、ＩＢＵＦ８～１１、ＩＢＵＦ１２～１５に複製される。

ＩＢＵＦ読み出し部５３は、ＩＢＵＦからの読み出し時に、縦および／または横に１画素（または数画素）ずれた部分を読み出す。これは、データアクセスの際に、各グループでアドレッシングを変えて、互いに縦および／または横に数画素ずれたアドレスにアクセスすることで実現できる。例えば、ＩＢＵＦ０～３、ＩＢＵＦ４～７、ＩＢＵＦ８～１１、ＩＢＵＦ１２～１５のそれぞれに１本ずつアドレスを生成することで、図４の左のように縦および／または横に１画素ずれた位置からデータを読み出すことができる。

（ＩＢＵＦへのデータの格納・読み出し方法の変形例）
ＩＢＵＦへのデータの格納・読み出し方法の別の例について説明する。本例は、上述の第1モードとは別のモード（第２モード）の場合の制御である。ＩＢＵＦ格納部５１は、ｉＦＭ数≦Ｎ／ｋの場合、ＩＢＵＦをＮ／ｋ個ずつｋ個のグループに分類する。そして、ＩＢＵＦ格納部５１は、ＩＢＵＦへの書き込み時に、別々のグループに属するｋ個の異なるＩＢＵＦにおいて、同一のデータを、縦および／または横に数画素（例えば１画素）ずれたアドレスに書き込む。すなわち、各グループの同一アドレスに数画素（例えば１画素）ずれたデータが格納されるように書き込む。

ＩＢＵＦ読み出し部５３は、ＩＢＵＦからの読み出し時に、アクセスするアドレスを変えることはせず、全てのＩＢＵＦに同一アドレスでアクセスする。同一アドレスから読み出すことができるので、読み出しが楽になる。

書き込み時のｗｅ生成については上述の例と同様であり、書き込むアドレスをＩＢＵＦ０～３、ＩＢＵＦ４～７、ＩＢＵＦ８～１１、ＩＢＵＦ１２～１５で１画素ずれるように生成する。このようにすることで、読み出し時のアドレスは共通化できる。

以上は入力１６並列の場合で説明したが、それ以上の入力並列度である場合、例えば入力３２並列で構成されていた場合は、プーリング処理を一度に実行できる３ｃｈ×４並列を２セット持つことができるので、さらに倍速で演算可能となる。あるいは、プーリングサイズが３×３になっても、３ｃｈ×９並列の構成として９並列で３×３プーリングを一度に実施するようにも構成することができる。

（非線形処理の変形例）
非線形処理は、通常、Ｓｉｇｍｏｉｄ／ＲｅＬＵ／Ｔａｎｈなどの活性化関数の処理部であるが、これらはほぼ単調増加関数である。図８は、非線形変換ｆ（ｘ）が単調増加関数である場合の、非線形変換部の入力（ｘ１～ｘ４）と出力（ｆ（ｘ１）～ｆ（ｘ４））の関係を示す図である。

プーリング処理が最大値プーリングである場合を考える。この場合、非線形処理後の結果（ｆ（ｘ１）～ｆ（ｘ４））に対してプーリング処理する場合、ｆ（ｘ１）～ｆ（ｘ４）のうちから最大のｆ（ｘ４）を出力する。一方、先にプーリング処理してから非線形処理する場合は、ｘ１～ｘ４のうちの最大のｘ４に対して非線形処理を行うのでｆ（ｘ４）を出力する。すなわち、以下の式が成立し、結果は変わらない。
ｍａｘ（ｆ（ｘ１），ｆ（ｘ２），ｆ（ｘ３），ｆ（ｘ４））＝ｆ（ｍａｘ（ｘ１，ｘ２，ｘ３，ｘ４））

すなわち、非線形変換ｆが単調増加関数であれば、最大値プーリング処理と非線形変換ｆを入れ替え可能である。従って、非線形変換特性が単調増加関数で、かつプーリング処理が最大値プーリング処理のみである、という条件が満たされていれば、非線形処理はプーリング処理後の１つのデータに対して行えば良いので、回路規模がさらに削減できる。

図９および図１０は、このように、非線形処理とプーリング処理の順序を入れ替えた、演算部７の構成を示す図である。図９では、並列処理側パスのプーリング処理（第２プーリング処理部８７）と非線形変換の順序を入れ替え、さらに並列処理側パスと通常処理側パスが排他動作することを利用して、通常処理側の非線形変換部７６を、並列処理と通常処理とで共用している。具体的には、並列処理側の第２プーリング処理部８７の出力と通常処理側のＦＦ７５の出力とが、セレクタ８８で切り替えられて、非線形変換部７６に入力される。このような構成にすることで、最大値抽出回路が１個増えるだけで、処理が４倍速となる。

非線形変換部７６を共用しない場合は、例えば図３において、第２非線形変換部８６と第２プーリング処理部８７の順序を入れ替え、図１０に示すように、第２プーリング処理部８７の後段に第２非線形変換部８６が設けられるようにすればよい。

（プーリング処理の変形例）
以上述べてきた方法は、「入力並列度Ｎ≧ｉＦＭ数×プーリングサイズ」を満たすので並列実行可能である。しかし、ｉＦＭ数がもう少し増えて、「入力並列度Ｎ＜ｉＦＭ数×プーリングサイズ」となった場合は、対応できない。例えば、Ｎ＝１６、ｉＦＭ数＝８（プーリングサイズは２×２）の場合、１６＜８×２×２＝３２となり、以上述べてきた方法では対応できず、並列実行は不可能である。しかし、プーリング処理を１度に行うのでなく、垂直方向・水平方向に分けて数サイクルで実行することで、「入力並列度Ｎ＜ｉＦＭ数×プーリングサイズ」の場合も並列実行可能となる。

図１１は、走査方向に対して垂直方向・水平方向に別々にプーリング処理する場合の、第２プーリング処理部８７の構成を示す図である。なお、演算部７全体の構成は図９に示すものであるとする。

ｉＦＭ数≦４（一般的にはプーリングサイズｋ）の場合、プーリング処理は、図１１に示す第２プーリング処理部８７内の上側のパスを通り、以上述べてきた方法と同じプーリング処理がなされる。

４＜ｉＦＭ数≦８の場合、プーリング処理は、図１１の第２プーリング処理部８７内の下側のパスを通る。すなわち、走査方向に対して垂直方向・水平方向に別々にプーリング処理がなされる。なお、同時入力されるデータは垂直方向・水平方向のどちらか１方向のみであり、数サイクルかけてプーリング処理に必要なデータが全て入力される。前記垂直方向のプーリング処理および前記水平方向のプーリング処理は、各々、トリガ信号が入力されるタイミングで実行される。演算制御部７１は、予め設定したタイミングで、垂直プーリング処理および水平プーリング処理を実行するトリガ信号を出力する。

第２プーリング処理部８７の４個の入力ポートはそれぞれＦＭ４面分の加算結果であり、このうちの２本ずつを加算するので、垂直プーリング処理直前の２つのポートはＦＭ８面分の加算結果となる。このような構成で垂直方向・水平方向にプーリング処理することで、最大８面までのＦＭに対して２並列で実行可能となる。

なお、４＜ｉＦＭ数≦８の場合は、ＩＢＵＦ０～７のデータがＩＢＵＦ８～１５に複製されることになるので、ＩＢＵＦ管理部５にも少々構造の追加が必要となる。図１２は、このようなＩＢＵＦ管理部５のｗｅ生成部分を詳細に示した図である。

図１１において、プーリング処理が最大値プーリングの場合は、垂直プーリング処理部／水平プーリング処理部の両方で最大値を抽出する。プーリング処理が平均値プーリングの場合は、垂直プーリング処理部／水平プーリング処理部では２つの加算結果を出すが、水平プーリング処理部は最後に４で除する（２ビットシフト）することで平均値を取得できる。

（第２実施形態）
本発明の第２実施形態について説明する。第１実施形態では、回路として使われない部分を有効活用することによってＣＮＮの処理速度を上げる提案をした。第２実施形態では、ＣＮＮのバリエーションの１つであるＹｏｌｏ_ｔｉｎｙ_ｖ２の６層目で発生する冗長な処理を回避して処理時間を短縮する。第２実施形態では、第２プーリング処理部８７における処理が第１実施形態と異なるだけであり、それ以外の基本構成は第１実施形態と同じである。そこで、以下、第２プーリング処理部８７における処理だけを説明する。

図１３Ａおよび図１３Ｂは、フィルタ処理のカーネルサイズが３×３、プーリング処理単位が２×２の場合の、ｉＦＭの処理過程を示す図である。図１３Ａは通常のプーリング処理を示し、重心移動量が２（ｓｔｒｉｄｅ＝２）である。図１３ＢはＹｏｌｏ_ｔｉｎｙ_ｖ２の６層目におけるプーリング処理を示し、重心移動量が１（ｓｔｒｉｄｅ＝１）である。

通常は図１３Ａに示すように、ｉＦＭは、フィルタ処理後の結果で見た時に、オーバーラップしないように処理される。プーリング処理単位が２×２であるので、プーリング処理によってｉＦＭは縦横半分のサイズとなって出力される。これは、プーリング処理時のピクセル重心が、プーリング処理単位と同じ２ピクセル単位で動く事を前提とした時の動きである。重心移動量はｓｔｒｉｄｅと言うパラメータで設定され、この例の場合はｓｔｒｉｄｅ＝２である。

問題となるのは、設定上、ｓｔｒｉｄｅ＝１があり得ることで、実際、Ｙｏｌｏ_ｔｉｎｙ_ｖ２では６層目でｓｔｒｉｄｅ＝１となる。ｓｔｒｉｄｅ＝１時の動作は図１３Ｂのようになり、フィルタ処理後の結果でオーバーラップが発生する。そのため、フィルタ処理自体は同じデータに対して数度実行することになり、処理時間の低下に繋がる。

本実施形態ではこれを解決するために、プーリング処理を垂直方向・水平方向に分けて、別々に実行パルスを与える事で対応する。図１４は、本実施形態の第２プーリング処理部８７の構成を示す図である。処理の走査方向に対して垂直方向と水平方向とで別々に、それぞれが演算制御部からの実行パルスを受けて、プーリング処理を実行するように動作する。すなわち、垂直方向のプーリング処理を行う垂直プーリング処理部と、水平方向のプーリング処理を行う水平プーリング処理部の各々は、トリガ（実行パルス）が入力されるタイミングでプーリング処理を行う。演算制御部７１は、予め設定したタイミングで、水平プーリング処理および垂直プーリング処理を実行するトリガ信号を出力する。

具体的には、以下のようにプーリング処理が行われる。図１５は、非線形変換後（フィルタ処理後）のＦＭのピクセルイメージを示す図である。図１６は、通常のプーリング処理（ｓｔｒｉｄｅ＝２）で、操作方向を水平方向とした場合の、第２プーリング処理部８７の実行波形を示す図である。図１５に示すｉＦＭデータが図１６に示すように第２プーリング処理部８７に順次入力され、順次プーリング処理が実行される。

プーリング処理は、最大値プーリングの場合は最大値をとっていき、平均値プーリングの場合は加算して全部終わったら画素数で割る。例えば、図１６において、垂直プーリングの結果ｐ１は、最大値プーリングの場合Ｄ１１とＤ２１のうち大きい方を選択し、平均値プーリングの場合Ｄ１１＋Ｄ２１を計算する。水平プーリングの結果ｏ１は、最大値プーリングの場合ｐ１とｐ２のうち大きい方を選択し、平均値プーリングの場合（ｐ１＋ｐ２）÷４を計算する

図１７は、ｓｔｒｉｄｅ＝１時の、操作方向を水平方向とした場合の、第２プーリング処理部８７の実行波形を示す図である。図１６と比較して、水平プーリングの実行パルス間隔が半分になっている。

このようにして、ｓｔｒｉｄｅ＝１であってもパイプライン処理的にプーリングを実行することができる。また、垂直方向・水平方向のプーリング処理を分けることで一度に処理するデータ数が減るので、待ち合わせ用のＦＦの数が削減でき、最大値算出（もしくは全加算）回路も小さくなり、回路規模を小さくできる。

また、このようにプーリング処理を制御するようにしておくと、例えばプーリングサイズが３×３でｓｔｒｉｄｅ＝２のような複雑な設定でも、待ち合わせのＦＦ等を追加する必要があるが、容易に対応できる。図１８は、プーリングサイズが３×３でｓｔｒｉｄｅ＝２の場合の、第２プーリング処理部８７の実行波形を示す図である。

ｓｔｒｉｄｅ＝１時、縦方向のオーバーラップを避けるためにラインメモリを設置して垂直プーリング結果を保持しておくことも可能であるが、１ライン分のメモリが必要となる。ラインメモリはＦＭサイズの上限を規定してしまうため、本明細書では今後考案される新規ネットワークへの対応も勘案して搭載していないが、問題がなければそのような改良も可能である。この場合、ラインメモリとその制御が追加されるだけなので図示は省略する。

（第３実施形態）
本発明の第３実施形態について説明する。第１実施形態では、演算部の入力側に未使用の回路がある場合に、未使用部分を有効活用する方法を提案したが、第３実施形態は、演算部の出力側に未使用の回路がある場合に、未使用部分を有効活用する方法に関する。

演算部の基本的な動きとしては、全てのｉＦＭを入力として１個のｏＦＭを生成するが、複数の出力チャネルグループで分担して１個のｏＦＭを作成してもよい。出力並列度をＭとして、例えば、ｏＦＭ数＝Ｍ／２の場合、１個のｏＦＭを２個の出力チャネルグループで分担して作成することができる。

図１９は、２個の出力チャネルグループ（出力チャネルＡと出力チャネルＢ）で分担して、１個のｏＦＭを作成するイメージ図である。２個の出力チャネルグループによる分担の方法として、図１９の左の図は、ｏＦＭをライン単位（奇数ラインと偶数ライン）で分担する例（ライン分担）を示し、図１９の右の図は、ｏＦＭを左右の領域に分割して分担する例（領域分担）を示す。同様に、出力並列度をＭとして、ｏＦＭ数≦Ｍ／２の場合、１個のｏＦＭを複数の領域に分割し、各領域を複数の出力チャネルグループで分担して処理することができる。

このような処理を実行するには、ＩＢＵＦ読み出し部５３でのデータの読み出しアドレスを適切に設定することで容易に対応できる。ただし、異なる２個の出力チャネルグループからの出力を合わせて１個のｏＦＭデータが出力される。そのため、次の層での入力時には１個のＦＭデータとなるように、異なる２個の出力チャネルグループからの出力を統合できるフォーマットを定義する必要がある。

以降の説明は、図１９の左の図のように、２個の出力チャネルグループでｏＦＭの奇数ラインと偶数ラインを分担して処理する場合を例に行う。ただし、１個のｏＦＭを分担する出力チャネルグループの数は２個に限定されず、３個や４個の出力チャネルグループで分担してもよい。

図２０は、本実施形態のＩＢＵＦ（データ格納メモリ）管理部５の出力側の構成を示す図である。ＩＢＵＦ読み出し部５３において、ＩＢＵＦからデータをリードする時に、奇数ライン用のデータと偶数ライン用のデータを別個に用意する必要がある。そこで、データをいったん保存するためのＤＢＵＦ５７（第２のデータ格納メモリ）を用意し、まずはＩＢＵＦからＤＢＵＦにデータを転送する。ＤＢＵＦ５７の前段の第１制御部５６は、ｏＦＭを複数の領域に分割し、それぞれの領域を処理するために必要なデータを取り出してＤＢＵＦ５７に書き込む。奇数ライン用のデータはＤＢＵＦｏｄｄに保存され、偶数ライン用のデータはＤＢＵＦｅｖｅｎに保存される。

ここで、出力並列度をＭとして、Ｍ個の出力チャネルｏＣｈ．０～ｏＣｈ．（Ｍ－１）のうち、出力チャネルｏＣｈ．０～ｏＣｈ．（２／Ｍ－１）が前半の出力チャネルグループに属し、出力チャネルｏＣｈ．（２／Ｍ－１）～ｏＣｈ．（Ｍ－１）が後半の出力チャネルグループに属するとする。そして、前半の出力チャネルグループがｏＦＭの奇数ラインを処理し、後半の出力チャネルグループがｏＦＭの偶数ラインを処理するとする。

ＩＢＵＦ読み出し部５３は、ＤＢＵＦｏｄｄに保存されたデータを、前半の出力チャネルグループに、奇数ライン処理に必要なデータ（ｄａｔａ_ｏｄｄ）として、転送する。同様に、ＩＢＵＦ読み出し部５３は、ＤＢＵＦｅｖｅｎに保存されたデータを、後半の出力チャネルグループに、偶数ライン処理に必要なデータ（ｄａｔａ_ｅｖｅｎ）として、転送する。

図２１は、ＤＢＵＦｏｄｄ、ＤＢＵＦｅｖｅｎにおけるデータの格納イメージを示す図である。ｏＦＭの第１ライン目を生成するために必要なｉＦＭは、ｉＦＭ上で第１ラインと第２ラインの領域であり、ｏＦＭの第２ライン目を生成するために必要なｉＦＭは、ｉＦＭ上で第２ラインと第３ラインの領域である。すなわち、ｉＦＭ上にオーバーラップする領域があるので、その部分はＤＢＵＦｏｄｄとＤＢＵＦｅｖｅｎの両方に格納される。

各ＤＢＵＦ５７の後段（図２０の第２制御部５８）では、ＤＢＵＦ５７に格納されたデータから、ｏＦＭ１画素の生成に必要なデータを順次リードする。第２制御部５８は、ＤＢＵＦ５７から所定の方法でデータを取得する制御を行う。この読み出し制御により、前半の出力チャネルグループにはｄａｔａ_ｏｄｄが、後半の出力チャネルグループにはｄａｔａ_ｅｖｅｎが供給される。

図２２は、２個の出力チャネルグループで処理するｉＦＭ上の位置の違いのイメージを示す図である。図２２の左側は前半の出力チャネルグループで処理する位置を示し、図２２の右側は後半の出力チャネルグループで処理する位置を示す。図２２に示すように、前半の出力チャネルグループと後半の出力チャネルグループで１ラインずれた領域の処理を同時に行うことができる。

次に、上述のような処理で演算部を経由して出力されるｏＦＭデータについて説明する。図２３Ａおよび図２３Ｂは、演算部から出力されるｏＦＭデータのイメージ図である。図２３Ａは、通常処理時、すなわち、１個のｏＦＭを１個の出力チャネルグループで処理する場合を示す。出力並列度をＭとして、１個のｏＦＭはＭ枚のＦＭ（ｏＦＭ０、ｏＦＭ１、ｏＦＭ２、…）からなり、Ｍ個の出力チャネル（ｏＣｈ．０、ｏＣｈ．１、ｏＣｈ．２、…）から各ＦＭの同じ位置のデータが出力される。

図２３Ｂは、１個のｏＦＭを２個の出力チャネルグループでライン分担して処理した場合を示す。図２３Ｂに示すように、前半の出力チャネルグループの出力チャネル（ｏＣｈ．０、ｏＣｈ．１、ｏＣｈ．２、…、ｏＣｈ．Ｍ／２－１）は各ＦＭの同じ位置のデータを出力し、後半の出力チャネルグループの出力チャネル（ｏＣｈ．Ｍ／２、ｏＣｈ．Ｍ／２＋１、ｏＣｈ．Ｍ／２＋２、…、ｏＣｈ．Ｍ－１）は各ＦＭの１ラインずれた位置のデータを出力する。このように、ライン分担で処理した場合、前半の出力チャネルグループと後半の出力チャネルグループが、同じｏＦＭ上の１ラインずれた位置のデータを出力していることになる。

このように異なる２個の出力チャネルグループから出力されたｏＦＭデータのフォーマットを、次の層（（ｋ＋１）層目）で1個のｉＦＭとして入力するため、（ｋ＋１）層目処理時に、データ入力部３に動作選択信号（ｍｏｄｅ）を入力して制御を切り替える。

以降の説明では、さらに簡単化するために、入力並列度Ｎ＝１６、出力並列度Ｍ＝１６、ｏＦＭ数＝Ｍ／２＝８とする。また、Ｄ（ｋ）をｏＣｈ．ｋから出力されるデータと定義し、Ｄ０＿１６を全てのｏＣｈ．から出力されるデータ（Ｄ（０）～Ｄ（１６－１））を連結したものと定義する。

最初に、通常処理、すなわち、分担処理をしない場合について説明する。図２４は、通常処理時の、ｋ層目の処理から（ｋ＋１）層目の処理への流れを示す図である。図２４では、ｋ層目の演算部の出力は、Ｄ０＿１６の前半部分だけが有効で、Ｄ０＿１６の後半部分は未使用の状態となっている。（ｋ＋１）層目に、この状態のＤ０＿１６を入力することになる。Ｄ０＿１６を一度のバースト転送で取得できる場合は、未使用データを入力する事になるので転送効率が悪い。

次に、ライン分担処理時について説明する。図２５は、ライン分担処理時の、ｋ層目の処理から（ｋ＋１）層目の処理への流れを示す図である。（ｋ＋１）層目に入力されるＤ０＿１６Ｎでは、通常処理時に未使用であった後半部分にも前半部分と同じｉＦＭデータ（１ライン下にずれた位置のデータ）がある。ＩＢＵＦ格納部に格納されたＤ０＿１６Ｎは、２つのデータに分けられて、別々にＩＢＵＦに出力される。

図２６Ａおよび図２６Ｂは、ＩＢＵＦへの具体的なデータの書き込みイメージを示す図である。図２６Ａはライン分担処理時を示し、図２６Ｂは領域分担処理時を示す。図２６Ａに示すように、ライン分担処理時は、１画素下方向にずれるようにアドレッシングされる。図２６Ｂに示すように、領域分担処理時は、１ラインの半分だけずれた位置関係なので、アドレッシングも半ライン分ずれることになる。

図２７は、本実施形態のＩＢＵＦ管理部５の全体構成を示す図である。上述の処理を実現するために、ＩＢＵＦ格納部５１は、モード判定して制御を変える制御部５４とデータ保持・セレクタ部５５を有する。制御部５４は、同一サイクルで入力されるｉＦＭを保持し、数サイクルに分けて同一ＩＢＵＦに書き込むように制御するモードを持つ。これにより、ｏＦＭ数≦Ｍ／２の時に処理を並列化して実行時間を短縮することができる。それ以外のＩＢＵＦ格納部５１内の構成は、図６と同じである。また、ＩＢＵＦ読出部５３において、通常処理時はＤＢＵＦ５７を経由せず、ＩＢＵＦデータを直接取り出すパス（ｄａｔａ２、ｒｅｑ２）を使用する。

このような構成により、１個のＦＭを複数の出力チャネルグループで同時処理し、次の層への入力時にそれらのデータを復元処理することが可能となり、処理時間が高速化できる。

以上、本発明の実施形態について説明したが、本発明の技術範囲は上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において構成要素の組み合わせを変えたり、各構成要素に種々の変更を加えたり、削除したりすることができる。

各構成要素は、それぞれの構成要素に係る機能や処理を説明するためのものである。複数の構成要素に係る機能や処理を、１つの構成（回路）が同時に実現してもよい。

各構成要素は、それぞれもしくは全体として、１個又は複数のプロセッサ、論理回路、メモリ、入出力インタフェース及びコンピュータ読み取り可能な記録媒体などからなるコンピュータで実現するようにしてもよい。その場合、各構成要素もしくは全体の機能を実現するためのプログラムを記録媒体に記録しておき、記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって、上述した種々の機能や処理を実現してもよい。

この場合、例えば、プロセッサは、ＣＰＵ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、およびＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の少なくとも１つである。例えば、論理回路は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）およびＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）の少なくとも１つである。

また、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリなどの書き込み可能な不揮発性メモリ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置をいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体をいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

本発明は、畳み込みニューラルネットワークを用いたディープラーニングを行う演算処理装置に広く適用できる。

１演算処理装置
２コントローラ
３データ入力部
４フィルタ係数入力部
５ＩＢＵＦ管理部（データ格納メモリ管理部）
６ＷＢＵＦ管理部（フィルタ係数格納メモリ管理部）
７演算部
８データ出力部
９ＤＲＡＭ（外部メモリ）
１０バス
５１ＩＢＵＦ格納部（データ格納メモリ制御部）
５２ＩＢＵＦアレイ（データ格納メモリ）
５３ＩＢＵＦ読み出し部（データ格納メモリ制御部）
５４制御部
５５データ保持・セレクタ部
５６第１制御部
５７ＤＢＵＦ（第２のデータ格納メモリ）
５８第２制御部
７１演算制御部
７２フィルタ演算部
７４第３加算器
７５ＦＦ（フリップフロップ）
７６第１非線形変換部
７７第１プーリング処理部
８１、８１´ 第１加算器
８２、８２´ セレクタ
８３第２加算器
８４セレクタ
８５セレクタ
８６第２非線形変換部
８７第２プーリング処理部
８８セレクタ

Claims

Ｃｏｎｖｏｌｕｔｉｏｎ処理とＦｕｌｌＣｏｎｎｅｃｔ処理を行うディープラーニング用の演算処理装置であって、
入力特徴量マップデータを格納するデータ格納メモリと、前記データ格納メモリを管理および制御するデータ格納メモリ制御部とを有するデータ格納メモリ管理部と；
フィルタ係数を格納するフィルタ係数格納メモリと、前記フィルタ係数格納メモリを管理および制御するフィルタ係数格納メモリ制御部とを有するフィルタ係数格納メモリ管理部と；
前記入力特徴量マップデータおよび出力特徴量マップデータを格納する外部メモリと；
前記外部メモリから、前記入力特徴量マップデータを取得するデータ入力部と；
前記外部メモリから、前記フィルタ係数を取得するフィルタ係数入力部と；
入力Ｎ並列、出力Ｍ並列の構成（Ｎ、Ｍ≧１の正数）で、前記データ格納メモリから前記入力特徴量マップデータを取得し、前記フィルタ係数格納メモリから前記フィルタ係数を取得して、フィルタ処理、累積加算処理、非線形演算処理およびプーリング処理を行う演算部と；
前記演算部から出力されるＭ並列のデータを連結して、出力特徴量マップデータとして前記外部メモリに出力するデータ出力部と；
前記演算処理装置内を制御するコントローラと；
を有し、
前記演算部は、
Ｎ並列でフィルタ処理を実行するフィルタ演算部と、
前記フィルタ演算部のＮ／ｋ個の演算結果を累積加算するｋ個の第１加算器と、
前記第１加算器の後段に設けられ、前記第１加算器の出力を分岐して、第１処理側と第２処理側とで切り替えるセレクタと、
前記セレクタが前記第１処理側に分岐した場合に、ｋ個の前記第１加算器の累積加算処理の結果を累積加算する第２加算器と、
前記第２加算器の累積加算処理の結果を後段で累積加算する第３加算器と、
前記第３加算器の累積加算処理の結果に対して非線形演算処理を行う第１非線形変換部と、
前記第１非線形変換部の処理結果に対してプーリング処理を行う第１プーリング処理部と、
前記セレクタが前記第２処理側に分岐した場合に、前記第１加算器の累積加算処理の結果に対して非線形演算処理を行う第２非線形変換部と、
前記第２非線形変換部で非線形処理された、ｋ個の前記第１加算器の累積加算処理の結果が入力され、同時に入力されたデータに対してプーリング処理を行う第２プーリング処理部と、
前記演算部内を制御する演算制御部と、
を有し、
前記データ格納メモリ管理部は、前記演算部に入力される前記入力特徴量マップデータの数≦Ｎ／ｋの時に、ｋ個の異なるデータ格納メモリに同じデータを書き込み、
前記演算制御部は、前記入力特徴量マップデータの数≦Ｎ／ｋの時は、前記セレクタが前記第２処理側に分岐するよう制御する演算処理装置。
前記データ格納メモリ制御部は、第１モードにおいて、
前記データ格納メモリへの書き込み時に、ｋ個の異なるデータ格納メモリの同一アドレスに同一のデータを書き込むよう制御し、
前記データ格納メモリをＮ／ｋ個ずつｋ個のグループに分類し、前記データ格納メモリからの読み出し時に、各グループでアドレスを変えて、互いに縦および／または横に数画素ずれたアドレスにアクセスするよう制御する
請求項１に記載の演算処理装置。
前記データ格納メモリ制御部は、第２モードにおいて、
前記データ格納メモリへの書き込み時に、ｋ個の異なるデータ格納メモリにおいて、同一データを、縦および／または横に数画素ずれたアドレスに書き込むように制御し、
前記データ格納メモリからの読み出し時に、同一アドレスで全ての前記データ格納メモリにアクセスする
請求項１に記載の演算処理装置。
Ｃｏｎｖｏｌｕｔｉｏｎ処理とＦｕｌｌＣｏｎｎｅｃｔ処理を行うディープラーニング用の演算処理装置であって、
入力特徴量マップデータを格納するデータ格納メモリと、前記データ格納メモリを管理および制御するデータ格納メモリ制御部とを有するデータ格納メモリ管理部と；
フィルタ係数を格納するフィルタ係数格納メモリと、前記フィルタ係数格納メモリを管理および制御するフィルタ係数格納メモリ制御部とを有するフィルタ係数格納メモリ管理部と；
前記入力特徴量マップデータおよび出力特徴量マップデータを格納する外部メモリと；
前記外部メモリから、前記入力特徴量マップデータを取得するデータ入力部と；
前記外部メモリから、前記フィルタ係数を取得するフィルタ係数入力部と；
入力Ｎ並列、出力Ｍ並列の構成（Ｎ、Ｍ≧１の正数）で、前記データ格納メモリから前記入力特徴量マップデータを取得し、前記フィルタ係数格納メモリから前記フィルタ係数を取得して、フィルタ処理、累積加算処理、非線形演算処理およびプーリング処理を行う演算部と；
前記演算部から出力されるＭ並列のデータを連結して、出力特徴量マップデータとして前記外部メモリに出力するデータ出力部と；
前記演算処理装置内を制御するコントローラと；
を有し、
前記演算部は、
Ｎ並列でフィルタ処理を実行するフィルタ演算部と、
前記フィルタ演算部のＮ／ｋ個の演算結果を累積加算するｋ個の第１加算器と、
前記第１加算器の後段に設けられ、前記第１加算器の出力を分岐して、第１処理側と第２処理側とで切り替えるセレクタと、
前記セレクタが前記第１処理側に分岐した場合に、ｋ個の前記第１加算器の累積加算処理の結果を累積加算する第２加算器と、
前記第２加算器の累積加算処理の結果を後段で累積加算する第３加算器と、
前記第３加算器の累積加算処理の結果に対して非線形演算処理を行う第１非線形変換部と、
前記第１非線形変換部の処理結果に対してプーリング処理を行う第１プーリング処理部と、
前記セレクタが前記第２処理側に分岐した場合に、前記第１加算器の累積加算処理の結果に対してプーリング処理を行う第２プーリング処理部と、
前記第２プーリング処理部の後段に設けられ、前記第２プーリング処理部でプーリング処理された前記第１加算器の累積加算処理の結果に対して非線演算処理を行う第２線形変換部と、
前記演算部内を制御する演算制御部と、
を有し、
前記データ格納メモリ管理部は、前記演算部に入力される前記入力特徴量マップデータの数≦Ｎ／ｋの時に、ｋ個の異なるデータ格納メモリに同じデータを書き込み、
前記演算制御部は、前記入力特徴量マップデータの数≦Ｎ／ｋの時は、前記セレクタが前記第２処理側に分岐するよう制御する演算処理装置。
前記第１非線形変換部と前記第２線形変換部は同一の構成であり、前記第１処理側と前記第２処理側で共用されている、請求項４に記載の演算処理装置。
前記第２プーリング処理部は、走査方向に対して垂直方向と水平方向とで別々に、プーリング処理を行い、
前記垂直方向のプーリング処理および前記水平方向のプーリング処理は、各々、トリガ信号が入力されるタイミングで実行され、
前記演算制御部は、予め設定したタイミングで、前記トリガ信号を出力する請求項１に記載の演算処理装置。