WO2023243040A1

WO2023243040A1 - 画像処理装置、画像処理方法、及び画像処理プログラム

Info

Publication number: WO2023243040A1
Application number: PCT/JP2022/024149
Authority: WO
Inventors: 健中村; 優也大森; 寛之鵜澤; 大祐小林; 彩希八田; 周平吉田; 宥光飯沼
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-12-21

Abstract

画像処理装置は、処理対象である動画像を取得する取得部と、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定する差分判定部と、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定するブロック設定部と、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記更新ブロックについて前記ニューラルネットワークを用いた処理を行い、保存されている出力特徴マップを上書きする処理部と、を含み、前記ブロック設定部は、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する。

Description

画像処理装置、画像処理方法、及び画像処理プログラム

　本開示の技術は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。

　ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた物体検出、姿勢推定、及びセグメンテーションなどの推論処理は基本的に１枚の画像データを対象とする処理であり、映像の各フレームにその処理を適用する場合、フレーム数に比例した演算量が必要になる。

　一方、映像シーン理解や、物体追跡など、映像データを対象とする推論処理では、前述の画像データに対する推論処理を利用しつつ適用フレームを限定し、より少ない演算量で導出可能な他の情報を併用することで演算量を抑えている。しかし、フレーム毎の変化の激しい映像では、より多くのフレーム画像に対する推論処理を行うことが望ましい。

　この場合の演算量削減手法として、映像の部分領域毎にフレーム間の変化を判定し、変化のある部分領域に対してのみＣＮＮ推論処理を行う手法があるが、部分領域を跨る推論が困難であるという問題がある。

　また非特許文献１では毎層毎画素毎にフレーム間差分を取って畳み込み演算をすることで演算量を削減する方法が提案されている。

Z,Yuan, et al.精華大, "A 65nm 24.7μJ/Frame 12.3mW Activation-Similarity-Aware Convolutional Neural Network Video Processor Using Hybrid Precision, Inter-Frame Data Reuse and Mixed-Bit-Width Difference-Frame Data Codec," ISSCC 2020

　上記非特許文献１に記載の技術では、複雑な演算制御機構が必要となる問題がある。

　開示の技術は、上記の点に鑑みてなされたものであり、簡易な構成で、畳み込み処理を含むニューラルネットワークを用いた処理の演算量を抑制することができる画像処理装置、画像処理方法、及び画像処理プログラムを提供することを目的とする。

　本開示の第１態様は、複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、処理対象である動画像を取得する取得部と、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定する差分判定部と、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定するブロック設定部と、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記更新ブロックについて保存されている出力特徴マップを上書きする処理部と、を含み、前記ブロック設定部は、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する。

　本開示の第２態様は、複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、処理対象である動画像を取得する取得部と、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定する差分判定部と、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、前記複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定するブロック設定部と、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記保存層の各々の出力特徴マップを保存し、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記複数の層の各々に対し、前記処理対象ブロックについて前記ニューラルネットワークを用いた処理を行い、前記保存層の各々に対し、保存されている出力特徴マップの前記更新ブロックを上書きする処理部と、を含み、前記ブロック設定部は、前記保存層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する。

　本開示の第３態様は、複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、取得部が、処理対象である動画像を取得し、差分判定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、ブロック設定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、処理部が、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記更新ブロックについて保存されている出力特徴マップを上書きすることを含み、前記ブロック設定部が設定することでは、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する。

　本開示の第４態様は、複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、取得部が、処理対象である動画像を取得し、差分判定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、ブロック設定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、前記複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定し、処理部が、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記保存層の各々の出力特徴マップを保存し、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記複数の層の各々に対し、前記処理対象ブロックについて前記ニューラルネットワークを用いた処理を行い、前記保存層の各々に対し、保存されている出力特徴マップの前記更新ブロックを上書きすることを含み、前記ブロック設定部が設定することでは、前記保存層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する。

　本開示の第５態様は、第１態様又は第２態様の画像処理装置としてコンピュータを機能させるための画像処理プログラムである。

　開示の技術によれば、簡易な構成で、畳み込み処理を含むニューラルネットワークを用いた処理の演算量を抑制することができる。

第１実施形態及び第２実施形態の画像処理装置として機能するコンピュータの一例の概略ブロック図である。第１実施形態及び第２実施形態の画像処理装置の機能構成を表すブロック図である。第１実施形態及び第２実施形態の画像処理装置の学習部の機能構成を表すブロック図である。第１実施形態及び第２実施形態の画像処理装置の推論部の機能構成を表すブロック図である。層毎に設定される差分領域のイメージ図である。差分領域、更新領域、及び更新ブロックを説明するための図である。層毎に設定される差分領域のイメージ図である。第１実施形態及び第２実施形態の学習処理の流れを表すフローチャートである。第１実施形態及び第２実施形態の画像処理の流れを表すフローチャートである。第１実施形態の画像処理における畳み込み処理の流れを表すフローチャートである。第１実施形態の更新ブロックを設定する処理の流れを表すフローチャートである。層毎に設定される差分領域、及び保存層毎に設定される更新ブロックのイメージ図である。差分領域、更新領域、更新ブロック、処理対象領域、及び処理対象ブロックを説明するための図である。第２実施形態の画像処理における畳み込み処理の流れを表すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

＜開示の技術の実施形態の概要＞
　開示の技術では、以下の手順により映像の各フレームに対するＣＮＮ推論処理の演算量を削減する。

　まず、数画素×数画素のブロック単位で過去フレームと現フレームの入力画像の差分の有無を判定し、差分領域を含むブロックに対しては通常のＣＮＮ処理を１層分行い初層の処理結果とする。それ以外の差分領域を含まないブロックに対しては過去フレームの初層の処理結果を読み込んで初層の処理結果とする。それ以降の層では差分領域を初層の差分領域からの影響を受ける範囲に拡大し、拡大した差分領域を含むブロックに対しては通常のＣＮＮ処理を行い、差分領域を含まないブロックではＣＮＮ処理をスキップし過去フレームの同一層の処理結果を読み込んでその層の処理結果とする。この際に、差分領域を、３ｘ３画素カーネルを用いた層では周辺に１画素ずつ拡大し、１ｘ１画素カーネルを用いた層では拡大しない、等の基準で更新する。またＣＮＮ処理を行うかスキップするかはあらかじめ決められたブロック単位で判断することで効率的な実装が可能となる。

　上記に関して以下の手法を併用することができる。

　１つ目の手法としては、過去フレームの出力特徴マップの保存を、畳み込み処理を行う複数の層のうち、数層に１層に限定する。これによりデータ転送帯域やメモリ容量の削減効果が得られる保存層以外では、差分領域の外側の特徴マップが存在せず、畳み込み処理によって周囲から無効データの影響を受けるため、その分広い範囲で通常のＣＮＮ処理を行う。また、無効データの影響を受けた処理結果は廃棄し、影響を受けていない領域の処理結果のみを過去フレーム結果に対して上書きする。具体的には保存層ごとに次の保存層までに差分領域の影響が拡大する画素幅Ｎを求め、差分領域をＮ画素幅拡大した更新領域の少なくとも一部を含むブロックを更新ブロックとし、更新ブロックについてのみ過去フレームの特徴マップを上書きする。さらにその更新領域をＮ画素幅拡大した処理対象領域の少なくとも一部を含むブロックを処理対象ブロックとし、処理対象ブロックについてＣＮＮ処理を行う。

　もう１つの手法としては、初層の差分領域の影響を最終推論結果が受ける範囲を、縮小画像や過去フレームの推論結果などから事前に判断し、その範囲を超えて差分領域を拡大しないようにすることにより、その範囲外ではＣＮＮ処理をスキップし過去フレームの処理結果を読み込む。この方法ではＣＮＮ処理を行う領域を効果的に制限することで演算量削減効果が得られる。

［第１実施形態］
＜第１実施形態に係る画像処理装置の構成＞
　図１は、第１実施形態の画像処理装置１０のハードウェア構成を示すブロック図である。

　図１に示すように、画像処理装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ１３、ストレージ１４、入力部１５、表示部１６、及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、ニューラルネットワークの学習処理を行うための学習処理プログラム及びニューラルネットワークを用いた画像処理を行うための画像処理プログラムが格納されている。学習処理プログラム及び画像処理プログラムは、１つのプログラムであっても良いし、複数のプログラム又はモジュールで構成されるプログラム群であっても良い。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　入力部１５は、ニューラルネットワークを学習するための学習用データを、入力として受け付ける。例えば、入力部１５は、処理対象となる動画像と、予め求められた動画像に対する処理結果とを含む学習用データを、入力として受け付ける。

　また、入力部１５は、処理対象となる動画像を、入力として受け付ける。

　表示部１６は、例えば、液晶ディスプレイであり、処理結果を含む各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能しても良い。

　通信インタフェース１７は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、画像処理装置１０の機能構成について説明する。図２は、画像処理装置１０の機能構成の例を示すブロック図である。

　画像処理装置１０は、機能的には、図２に示すように、学習部２０及び推論部２２を備えている。

　学習部２０は、図３に示すように、取得部３０、処理部３８、及び更新部４０を備えている。

　取得部３０は、入力された学習用データの動画像及び処理結果を取得する。

　処理部３８は、動画像の各フレームについて畳み込み処理を含むニューラルネットワークを用いて処理する。

　更新部４０は、動画像に対してニューラルネットワークを用いて処理した結果と、予め求められた処理結果とが一致するように、ニューラルネットワークのパラメータを更新する。

　予め定められた反復終了条件を満たすまで、処理部３８及び更新部４０の各処理が繰り返し行われる。これにより、ニューラルネットワークが学習される。

　推論部２２は、図４に示すように、取得部５０、全体制御部５２、差分判定部５４、ブロック設定部５６、及び処理部５８を備えている。

　取得部５０は、入力された処理対象である動画像を取得する。

　全体制御部５２は、処理対象である動画像の複数のフレームの各々について、キーフレームであるか否かを判定する。ここで、複数のフレームから、予め定められた周期でキーフレームとして指定されているものとする。なお、差分領域の割合が閾値以上となるフレームをキーフレームと判定するようにしてもよい。

　差分判定部５４は、複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定する。

　ブロック設定部５６は、複数のフレームのうちのキーフレーム以外のフレームについて、ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、差分領域に応じた更新領域の少なくとも一部を含む更新ブロックを設定する。このとき、ブロック設定部５６は、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より差分領域を周囲に拡大するように、差分領域を設定し（図５参照）、差分領域に応じた更新領域の少なくとも一部を含む更新ブロックを設定する（図６参照）。図５は、初層の差分領域に比べて、層が深くなるごとに差分領域が拡大し、通常のＣＮＮ処理を行う範囲が拡大し、過去フレームの処理結果を読み込む処理スキップを行う範囲が縮小する例を示している。また、図６は、差分領域（点線の矩形）を周囲に拡大した更新領域（実線の矩形）を少なくとも一部含む４つのブロック（破線の矩形）が更新ブロックとして設定される例を示している。

　また、ブロック設定部５６は、事前に指定した領域より拡大しないように差分領域を設定することが好ましい（図７参照）。また、ブロック設定部５６は、事前に指定した層より後の層で、差分領域を拡大しないように差分領域を設定することが好ましい。図７は、初層の差分領域に比べて、層が深くなるごとに、事前に指定した領域を上限として差分領域が拡大し、事前に指定した領域に到達した層より後では、通常のＣＮＮ処理を行う範囲が拡大しない例を示している。

　処理部５８は、複数のフレームのうちのキーフレームについて、ニューラルネットワークを用いてフレームを処理する通常のＣＮＮ推論処理を行い、各層の出力特徴マップを保存する。

　ここでいう通常のＣＮＮ推論処理とは、初層から最終層までの各層において、入力特徴マップを入力し畳み込み処理と活性化関数処理、ダウンサンプル処理、アップサンプル処理、他層の出力特徴マップとの合算・連結処理等を行い、出力特徴マップを出力することを指す。また、初層の入力特徴マップは、ＲＧＢの３チャネル等からなる画像データであり、最終層の出力特徴マップは推論結果に関する情報が各チャネルに格納されたデータであるものとする。また、以下では便宜上、畳み込みに用いるカーネルサイズは１×１画素か３×３画素のどちらかであるものとするが、それに限るものではない。

　また、処理部５８は、複数のフレームのうちのキーフレーム以外のフレームについて、差分領域を含むブロックについてニューラルネットワークを用いた処理を行い、保存されている出力特徴マップを上書きする。

　動画像に対してニューラルネットワークを用いて処理した結果が、表示部１６により表示される。

＜第１実施形態に係る画像処理装置の作用＞
　次に、第１実施形態に係る画像処理装置１０の作用について説明する。

　図８は、画像処理装置１０による学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、学習処理が行なわれる。また、画像処理装置１０に、学習用データが入力される。

　ステップＳ１００で、ＣＰＵ１１は、取得部３０として、入力された学習用データの動画像及び処理結果を取得する。

　ステップＳ１０２で、ＣＰＵ１１は、処理部３８として、畳み込み処理を含むニューラルネットワークを用いて、学習用データの動画像を処理する。

　ステップＳ１０４で、ＣＰＵ１１は、更新部４０として、学習用データの動画像に対してニューラルネットワークを用いて処理した結果と、予め求められた処理結果とが一致するように、ニューラルネットワークのパラメータを更新する。

　ステップＳ１０６で、ＣＰＵ１１は、予め定められた反復終了条件を満たしたか否かを判定する。反復終了条件を満たしていない場合には、上記ステップＳ１０２へ戻り、処理部３８、及び更新部４０の各処理が繰り返し行われる。これにより、ニューラルネットワークが学習される。

　図９は、画像処理装置１０による画像処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から画像処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、画像処理が行なわれる。また、画像処理装置１０に、処理対象となる動画像が入力される。

　ステップＳ１０７で、ＣＰＵ１１は、取得部５０として、入力された動画像を取得する。

　ステップＳ１０９で、ＣＰＵ１１は、上述した学習処理により学習されたニューラルネットワークを用いて、動画像を処理する。そして、動画像に対してニューラルネットワークを用いて処理した結果が、表示部１６により表示される。

　上記ステップＳ１０９は、図１０に示す処理ルーチンによって実現される。ここで、動画像の各フレームを、順番に現フレームとする。

　まず、ステップＳ１１０で、ＣＰＵ１１は、全体制御部５２として、現フレームがキーフレームであるか否かを判定する。現フレームがキーフレームであると判定された場合には、ステップＳ１１２へ移行する。一方、現フレームがキーフレームでないと判定された場合には、ステップＳ１１４へ移行する。

　ステップＳ１１２において、ＣＰＵ１１は、処理部５８として、現フレームに対して通常のＣＮＮ推論処理を行い、各層の出力特徴マップを全てＲＡＭ１３に保存する。また、推論結果は処理部５８から表示部１６に出力される。

　ステップＳ１１４において、ＣＰＵ１１は、差分判定部５４として、現フレームの画像と累積更新画像との間で画素差分を取り差分領域の判定を行う。ここで累積更新画像とはキーフレームの画像に対して、それ以降の各フレームで差分があると判定された領域をそのフレームの入力画像で置き換えていった画像である。差分領域の判定においては両画像の画素差分値の閾値処理や周辺画素との比較処理等によってノイズの影響を除去し、視覚的に有意な差がある領域のみを差分領域として画素単位で判定する。

　ステップＳ１１６において、ＣＰＵ１１は、ブロック設定部５６として、当該層について、畳み込み処理のパラメータに応じて、前の層より差分領域を周囲に拡大するように、差分領域を設定し、マージンとして差分領域を１画素幅もしくは数画素幅分拡大して更新領域を設定し、数画素四方のブロック単位で更新領域の少なくとも一部を含むか否かを判定し、更新領域の少なくとも一部を含むブロックを更新ブロックとして設定し、更新ブロック情報としてＲＡＭ１３に保存する。

　ステップＳ１１８、Ｓ１２０において、ＣＰＵ１１は、処理部５８として、ＲＡＭ１３から読み込んだ更新ブロック情報に基づいて１層分の処理を行う。具体的には、ステップＳ１１８において、ＣＰＵ１１は、処理部５８として、当該ブロックが更新ブロックであるか否かを判定する。当該ブロックが更新ブロックでない場合には処理を行わずにステップＳ１２４へ移行する。これにより、当該ブロックについて、過去フレームの出力特徴マップをそのまま現フレームの出力特徴マップとする。

　一方、当該ブロックが更新ブロックである場合にはステップＳ１２０へ移行する。ステップＳ１２０では、ＣＰＵ１１は、処理部５８として、更新ブロックに対して、畳み込み処理に必要な周辺画素を含めて入力特徴マップを読み込み、通常のＣＮＮ推論処理と同様に畳み込み処理やその結果に対する活性化関数処理等を行う。

　ステップＳ１２２では、ＣＰＵ１１は、処理部５８として、更新ブロックに対して、出力特徴マップをＲＡＭ１３上の過去フレームの同層同位置の出力特徴マップに上書きする。

　ステップＳ１２４において、ＣＰＵ１１は、全ブロックについて、上記ステップＳ１１８～Ｓ１２２の処理を完了したか否かを判定する。上記ステップＳ１１８～Ｓ１２２の処理を行っていないブロックが存在する場合には、上記ステップＳ１１８へ戻り、当該ブロックについて、上記ステップＳ１１８～Ｓ１２２の処理を行う。

　ステップＳ１２６において、ＣＰＵ１１は、全ての層について、上記ステップＳ１１６～Ｓ１２４の処理を完了したか否かを判定する。全ての層について、上記ステップＳ１１６～Ｓ１２４の処理を完了していない場合には、上記ステップＳ１１６へ戻り、次の層の処理を行う。一方、全ての層について、上記ステップＳ１１６～Ｓ１２４の処理を完了した場合には、ステップＳ１２８へ移行する。

　ステップＳ１２８において、ＣＰＵ１１は、全てのフレームについて、上記ステップＳ１１０～Ｓ１２６の処理を完了したか否かを判定する。全てのフレームについて、上記ステップＳ１１０～Ｓ１２６の処理を完了していない場合には、上記ステップＳ１１０へ戻り、次のフレームを現フレームとして処理を行う。一方、全てのフレームについて、上記ステップＳ１１０～Ｓ１２６の処理を完了した場合には、当該処理ルーチンを終了する。

　上記ステップＳ１１６は、図１１に示す処理ルーチンにより実現される。

　まず、ステップＳ１３０において、ＣＰＵ１１は、ブロック設定部５６として、上記ステップＳ１１４での差分領域の判定結果を示す情報を取得する。

　ステップＳ１３２において、ＣＰＵ１１は、ブロック設定部５６として、一つ前の層のカーネルサイズが１×１であるか否かを判定する。一つ前の層のカーネルサイズが１×１である場合には、ステップＳ１４０へ移行する。一方、一つ前の層のカーネルサイズが１×１ではなく、３×３である場合には、ステップＳ１３４へ移行する。

　ステップＳ１３４において、ＣＰＵ１１は、ブロック設定部５６として、当該層が、事前に指定した層より後であるか否かを判定する。当該層が、事前に指定した層より後である場合には、ステップＳ１４０へ移行する。一方、当該層が、事前に指定した層以前である場合には、ステップＳ１３６へ移行する。

　ステップＳ１３６において、ＣＰＵ１１は、ブロック設定部５６として、当該層について、畳み込み処理のパラメータに応じて、前の層より差分領域を周囲に拡大した場合に、事前に指定した領域を超えるか否かを判定する。前の層より差分領域を周囲に拡大した場合に、事前に指定した領域を超えると判定された場合には、ステップＳ１４０へ移行する。一方、前の層より差分領域を周囲に拡大した場合に、事前に指定した領域を超えないと判定された場合には、ステップＳ１３８へ移行する。

　上記ステップＳ１３４の判定により、事前に指定した層より後の層では差分領域を周辺に拡大することを行わない。また、指定した層以前であっても、上記ステップＳ１３６の判定により、事前に指定した領域より外側には差分領域を拡大しない。これにより更新ブロックが特徴マップ全体に広がることを防ぎ、演算量を削減することができる。

　なお、これは画像内の局所的な変化がより広い範囲の推論結果に影響を及ぼさないことが事前に分かっている場合、たとえば画像内にある程度小さな物体しか映っていないことがあらかじめ分かっている場合や、指定した領域の外側で推論結果の変化がないことが、他の推論結果などの情報から事前に判断できる場合に有効である。

　ステップＳ１３８において、ＣＰＵ１１は、ブロック設定部５６として、差分領域を周辺に１画素拡大する。これは、直前層の畳み込み処理のカーネルサイズが１×１画素より大きい場合は差分領域の影響が周辺に拡大するためである。

　ステップＳ１４０において、ＣＰＵ１１は、ブロック設定部５６として、一つ前の層が１／２のダウンサンプルを伴うか否かを判定する。一つ前の層が１／２のダウンサンプルを伴わない場合には、ステップＳ１４４へ移行する。一方、一つ前の層が１／２のダウンサンプルを伴う場合には、ステップＳ１４２へ移行する。

　ステップＳ１４２において、ＣＰＵ１１は、ブロック設定部５６として、差分領域を画素単位で１／２にダウンサンプルする。この際に２×２画素中に１画素以上差分領域があれば差分領域とする。

　ステップＳ１４４において、ＣＰＵ１１は、ブロック設定部５６として、一つ前の層がアップサンプルを伴うか否かを判定する。一つ前の層がアップサンプルを伴わない場合には、ステップＳ１４８へ移行する。一方、一つ前の層がアップサンプルを伴う場合には、ステップＳ１４６へ移行する。

　ステップＳ１４６において、ＣＰＵ１１は、ブロック設定部５６として、差分領域を画素単位でアップサンプルする。

　ステップＳ１４８において、ＣＰＵ１１は、ブロック設定部５６として、マージンとして差分領域を１画素幅もしくは数画素幅分拡大して更新領域を設定し、数画素四方のブロック単位で更新領域の少なくとも一部を含むか否かを判定し、更新領域の少なくとも一部を含むブロックを更新ブロックとして設定し、更新ブロック情報としてＲＡＭ１３に保存する。更新した差分領域情報についてもＲＡＭ１３に出力する。差分領域情報については画素単位の情報としてもよいし、ブロック単位の情報とそこから拡大した画素幅の情報の組み合わせとしてもよい。

　以上説明したように、第１実施形態に係る画像処理装置は、キーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、畳み込み処理を行う複数の層の各々に対し、差分領域に応じた更新領域を含む更新ブロックを設定し、更新ブロックについて保存されている出力特徴マップを上書きする。また、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する。これにより、簡易な構成で、畳み込み処理を含むニューラルネットワークを用いた処理の演算量を抑制することができる。

　なお、上記実施形態では、差分判定を直前フレームでなく累積更新画像に対して行う場合を例に説明したが、これは、差分なしの判定が同一領域で複数フレーム連続した場合に微小な差分が累積して精度が低下することを回避するためである。そのため、差分判定を直前フレームに対して行い、代わりにキーフレームをより頻繁に挿入するようにしてもよい。また、差分判定を、演算量削減とノイズ影響低減のため入力画像の縮小画像で行うようにしてもよい。

［第２実施形態］
　次に、第２実施形態について説明する。なお、第２実施形態に係る画像処理装置は、第１実施形態と同様の構成であるため、同一符号を付して説明を省略する。

　第１実施形態では、過去フレームの全層の出力特徴マップをＲＡＭに保存し上書き更新していたが、第２実施形態では、メモリ容量や帯域を削減するためにＲＡＭに出力特徴マップを保存する層を限定する点が、第１実施形態と異なっている。

＜第２実施形態に係る画像処理装置の構成＞
　第２実施形態に係る画像処理装置１０のブロック設定部５６は、複数のフレームのうちのキーフレーム以外のフレームについて、ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、差分領域に応じた更新領域を含む更新ブロックを設定する。このとき、ブロック設定部５６は、予め定められた保存層毎に、畳み込み処理のパラメータに応じて、前の層より差分領域を周囲に拡大するように、差分領域を設定し（図１２）、差分領域に応じた更新領域を含む更新ブロックを設定する（図１３）。また、ブロック設定部５６は、畳み込み処理を行う層毎に、差分領域に応じた処理対象領域を含む処理対象ブロックを設定する（図１３）。

　図１２は、初層の差分領域に比べて、層が深くなるごとに差分領域が拡大し、通常のＣＮＮ処理を行う範囲が拡大し、過去フレームの処理結果を読み込む処理スキップを行う範囲が縮小する例を示している。また、保存層毎に、特徴マップを書き出して上書きする更新ブロックが設定される例を示している。また、無効データの影響部分を考慮して差分領域を拡大して、特徴マップを読み込む部分である処理対象ブロックが設定される例を示している。

　また、図１３は、差分領域（点線の矩形）を周囲に拡大した更新領域（一番内側の実線の矩形）を少なくとも一部含む４つのブロック（破線の矩形）が更新ブロックとして設定される例を示している。また、差分領域を更に周囲に拡大した処理対象領域（外側の実線の矩形）を少なくとも一部含む６つのブロック（破線の矩形）が処理対象ブロックとして設定される例を示している。

　また、ブロック設定部５６は、事前に指定した領域より拡大しないように差分領域を設定することが好ましい。また、ブロック設定部５６は、事前に指定した層より後の層で、差分領域を拡大しないように差分領域を設定することが好ましい。

　処理部５８は、複数のフレームのうちのキーフレームについて、ニューラルネットワークを用いてフレームを処理する通常のＣＮＮ推論処理を行い、各保存層の出力特徴マップを保存する。

　また、処理部５８は、複数のフレームのうちのキーフレーム以外のフレームについて、畳み込み処理を行う複数の層の各々に対し、処理対象ブロックについてニューラルネットワークを用いた処理を行い、保存層の各々に対し、保存されている出力特徴マップの更新ブロックを上書きする。

＜第２実施形態に係る画像処理装置の作用＞
　次に、第２実施形態に係る画像処理装置１０の作用について説明する。なお、第１実施形態と同様の処理については、同一符号を付して説明を省略する。

　画像処理装置１０において、上記図８に示す学習処理が行われる。また、画像処理装置１０において、上記図９に示す画像処理が行われる。このとき、上記ステップＳ１０９は、図１４に示す処理ルーチンによって実現される。ここで、動画像の各フレームを、順番に現フレームとする。

　まず、ステップＳ１１０で、ＣＰＵ１１は、全体制御部５２として、現フレームがキーフレームであるか否かを判定する。現フレームがキーフレームであると判定された場合には、ステップＳ２００へ移行する。一方、現フレームがキーフレームでないと判定された場合には、ステップＳ１１４へ移行する。

　ステップＳ２００において、ＣＰＵ１１は、処理部５８として、現フレームに対して通常のＣＮＮ推論処理を行い、各保存層の出力特徴マップを全てＲＡＭ１３に保存する。また、推論結果は処理部５８から表示部１６に出力される。

　ステップＳ１１４において、ＣＰＵ１１は、差分判定部５４として、現フレームの画像と累積更新画像との間で画素差分を取り差分領域の判定を行う。

　ステップＳ２０１において、ＣＰＵ１１は、当該層が初層であるか、又は前の層が保存層であるか否かを判定する。当該層が初層であるか、又は前の層が保存層である場合には、ステップＳ２０２へ移行する。一方、当該層が初層ではなく、かつ、前の層が保存層でない場合には、ステップＳ２０４へ移行する。

　ステップＳ２０２において、ＣＰＵ１１は、ブロック設定部５６として、次の保存層までの各層について、畳み込み処理のパラメータに応じて、前の層より差分領域を周囲に拡大するように、差分領域を設定し、次の保存層について、マージンとして差分領域を１画素幅もしくは数画素幅分拡大して更新領域を設定し、数画素四方のブロック単位で更新領域の少なくとも一部を含むか否かを判定し、更新領域の少なくとも一部を含むブロックを更新ブロックとして設定し、更新ブロック情報としてＲＡＭ１３に保存する。また、次の保存層までの各層について、差分領域を更に拡大して処理対象領域を設定し、ブロック単位で処理対象領域の少なくとも一部を含むか否かを判定し、処理対象領域の少なくとも一部を含むブロックを処理対象ブロックとして設定し、処理対象ブロック情報としてＲＡＭ１３に保存する。

　例えば、次の保存層までのカーネルサイズが３×３画素の層の数Ｎを取得し、差分領域をＮ画素幅分拡大した領域を、次の保存層での差分領域として設定し、マージンとして差分領域を１画素幅もしくは数画素幅分拡大して更新領域を設定し、更新領域の少なくとも一部を含むブロックを更新ブロックとして設定する。また、次の保存層までの各層について、差分領域を更に拡大した処理対象領域を設定し、処理対象領域の少なくとも一部を含むブロックを処理対象ブロックとして設定する。

　なお、これは、保存層以外では、更新ブロックの外側の入力特徴マップが存在せず無効なデータを参照することになり、周囲からＮ画素幅分無効なデータの影響が浸食するためその分広い範囲を処理する必要があるためである。

　また、次の保存層までの間にダウンサンプルやアップサンプルを含む場合は差分領域の拡大と併せて差分領域のダウンサンプルやアップサンプルを行い更新ブロックや処理対象ブロックの範囲を算出する。

　ステップＳ２０４において、処理部５８として、当該ブロックが処理対象ブロックであるか否かを判定する。当該ブロックが処理対象ブロックである場合には、ステップＳ２０６へ移行する。一方、当該ブロックが処理対象ブロックでない場合には、ステップＳ１２４へ移行する。

　ステップＳ２０６において、ＣＰＵ１１は、処理部５８として、ＲＡＭ１３から、畳み込み処理に必要な周辺画素を含めて入力特徴マップを読み込み、通常のＣＮＮ推論処理と同様に入力特徴マップの畳み込み処理やその結果に対する活性化関数処理等を行う。それ以外のブロックについては何も処理をしない。ここで、処理対象ブロックの周辺画素データがメモリに保存されていない場合は無効データを読み込む。

　ステップＳ２０８において、ＣＰＵ１１は、処理部５８として、当該層が保存層であるか否かを判定する。当該層が保存層でない場合には、ステップＳ２１０へ移行する。一方、当該層が保存層である場合には、ステップＳ２１２へ移行する。

　ステップＳ２１０では、処理対象ブロックの出力特徴マップをＲＡＭ１３に一時保存する。この処理対象ブロックの出力特徴マップは、次の層の処理まで保存される。

　ステップＳ２１２において、ＣＰＵ１１は、処理部５８として、当該ブロックが、保存層の更新ブロックであるか否かを判定する。当該ブロックが保存層の更新ブロックでない場合には処理を行わずにステップＳ１２４へ移行する。これにより、当該ブロックについて、過去フレームの出力特徴マップをそのまま現フレームの出力特徴マップとする。一方、当該ブロックが更新ブロックである場合にはステップＳ２１４へ移行する。

　ステップＳ２１４では、ＣＰＵ１１は、処理部５８として、保存層の更新ブロックに対して、出力特徴マップをＲＡＭ１３上の過去フレームの同層同位置の出力特徴マップに上書きする。

　ステップＳ１２４において、ＣＰＵ１１は、全ブロックについて、上記ステップＳ２０４～Ｓ２１４の処理を完了したか否かを判定する。上記ステップＳ２０４～Ｓ２１４の処理を行っていないブロックが存在する場合には、上記ステップＳ２０４へ戻り、当該ブロックについて、上記ステップＳ２０４～Ｓ２１４の処理を行う。

　ステップＳ１２６において、ＣＰＵ１１は、全ての層について、上記ステップＳ２０１～Ｓ２１４、Ｓ１２４の処理を完了したか否かを判定する。全ての層について、上記ステップＳ２０１～Ｓ２１４、Ｓ１２４の処理を完了していない場合には、上記ステップＳ２０１へ戻り、次の層の処理を行う。一方、全ての層について、上記ステップＳ２０１～Ｓ２１４、Ｓ１２４の処理を完了した場合には、ステップＳ１２８へ移行する。

　ステップＳ１２８において、ＣＰＵ１１は、全てのフレームについて、上記ステップＳ１１０～１２６の処理を完了したか否かを判定する。全てのフレームについて、上記ステップＳ１１０～Ｓ１２６の処理を完了していない場合には、上記ステップＳ１１０へ戻り、次のフレームを現フレームとして処理を行う。一方、全てのフレームについて、上記ステップＳ１１０～Ｓ１２６の処理を完了した場合には、当該処理ルーチンを終了する。

　上記ステップＳ２０２は、次の保存層までの各層について、図１１に示す処理ルーチンと同様の処理ルーチンによって実現される。ただし、ステップＳ１４８において、ＣＰＵ１１は、ブロック設定部５６として、マージンとして差分領域を１画素幅もしくは数画素幅分拡大して更新領域を設定し、数画素四方のブロック単位で更新領域の少なくとも一部を含むか否かを判定し、更新領域の少なくとも一部を含むブロックを更新ブロックとして設定し、更新ブロック情報としてＲＡＭ１３に保存する。また、ＣＰＵ１１は、ブロック設定部５６として、差分領域を、更新領域より更に拡大して処理対象領域を設定し、ブロック単位で処理対象領域の少なくとも一部を含むか否かを判定し、処理対象領域の少なくとも一部を含むブロックを処理対象ブロックとして設定し、処理対象ブロック情報としてＲＡＭ１３に保存する。

　なお、第２実施形態に係る画像処理装置の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

　以上説明したように、第２実施形態に係る画像処理装置は、キーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、予め定められた保存層の各々に対し、差分領域に応じた更新領域を含む更新ブロックを設定し、複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定し、複数の層の各々に対し、処理対象ブロックについてニューラルネットワークを用いた処理を行い、保存層の各々に対し、保存されている出力特徴マップの更新ブロックを上書きする。また、保存層毎に、畳み込み処理のパラメータに応じて、前の層より差分領域を周囲に拡大するように、差分領域を設定し、差分領域に応じた更新領域を含む更新ブロックを設定する。これにより、簡易な構成で、畳み込み処理を含むニューラルネットワークを用いた処理の演算量を抑制することができる。

　なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、畳み込みに用いるカーネルサイズは１×１画素か３×３画素のどちらかである場合を例に説明したが、これに限定されるものではない。これら以外のカーネルサイズを用いてもよい。例えば、畳み込みに用いるカーネルサイズが５×５画素や７×７画素であってもよい。この場合、前の層で用いたカーネルサイズが５×５画素であれば、差分領域を周辺に２画素ずつ拡大し、前の層で用いたカーネルサイズが７×７画素であれば、差分領域を周辺に３画素ずつ拡大すればよい。

　また、画像処理装置が、学習部と推論部とを備えている場合を例に説明したが、これに限定されるものではない。学習部を備えた装置と、推論部を備えた装置とを別の装置として構成してもよい。電力やサイズ等のハードウェアの制約が大きい場合に、学習部を備えた装置と、推論部を備えた装置とを別の装置として構成する方が好ましい。

　また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した各種処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び画像処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、学習処理プログラム及び画像処理プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　処理対象である動画像を取得し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、
　前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記更新ブロックについて保存されている出力特徴マップを上書きする
　ように構成され、
　前記更新ブロックを設定することでは、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　画像処理装置。

　（付記項２）
　画像処理を実行するように、複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記画像処理は、
　処理対象である動画像を取得し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、
　前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記更新ブロックについて保存されている出力特徴マップを上書きする
　ように構成され、
　前記更新ブロックを設定することでは、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　非一時的記憶媒体。

　（付記項３）
　複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　処理対象である動画像を取得し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、前記複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定し、
　前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記保存層の各々の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記複数の層の各々に対し、前記処理対象ブロックについて前記ニューラルネットワークを用いた処理を行い、前記保存層の各々に対し、保存されている出力特徴マップの前記更新ブロックを上書きする
　ように構成され、
　前記更新ブロックを設定することでは、前記保存層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　画像処理装置。

　（付記項４）
　画像処理を実行するように、複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記画像処理は、
　処理対象である動画像を取得し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、前記複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定し、
　前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記保存層の各々の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記複数の層の各々に対し、前記処理対象ブロックについて前記ニューラルネットワークを用いた処理を行い、前記保存層の各々に対し、保存されている出力特徴マップの前記更新ブロックを上書きする
　ように構成され、
　前記更新ブロックを設定することでは、前記保存層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　非一時的記憶媒体。

１０   画像処理装置
１１   ＣＰＵ
１３   ＲＡＭ
１４   ストレージ
１５   入力部
１６   表示部
２０   学習部
２２   推論部
３０   取得部
３８   処理部
４０   更新部
５０   取得部
５２   全体制御部
５４   差分判定部
５６   ブロック設定部
５８   処理部

Claims

　複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　処理対象である動画像を取得する取得部と、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定する差分判定部と、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定するブロック設定部と、
　前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記更新ブロックについて保存されている出力特徴マップを上書きする処理部と、
　を含み、
　前記ブロック設定部は、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　画像処理装置。
　複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　処理対象である動画像を取得する取得部と、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定する差分判定部と、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、前記複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定するブロック設定部と、
　前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記保存層の各々の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記複数の層の各々に対し、前記処理対象ブロックについて前記ニューラルネットワークを用いた処理を行い、前記保存層の各々に対し、保存されている出力特徴マップの前記更新ブロックを上書きする処理部と、
　を含み、
　前記ブロック設定部は、前記保存層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　画像処理装置。
　前記ブロック設定部は、事前に指定した領域より拡大しないように前記差分領域を設定する、請求項１記載の画像処理装置。
　前記ブロック設定部は、事前に指定した領域より拡大しないように前記差分領域を設定する、請求項２記載の画像処理装置。
　前記ブロック設定部は、事前に指定した層より後の層で、前記差分領域を拡大しないように前記差分領域を設定する、請求項１記載の画像処理装置。
　複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、
　取得部が、処理対象である動画像を取得し、
　差分判定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、
　ブロック設定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、
　処理部が、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、各層の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記更新ブロックについて保存されている出力特徴マップを上書きする
　ことを含み、
　前記ブロック設定部が設定することでは、畳み込み処理を行う層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　画像処理方法。
　複数のフレームを含む動画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、
　取得部が、処理対象である動画像を取得し、
　差分判定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、過去フレームとの差分領域を判定し、
　ブロック設定部が、前記複数のフレームのうちのキーフレーム以外のフレームについて、前記ニューラルネットワークの畳み込み処理を行う複数の層のうちの予め定められた保存層の各々に対し、出力特徴マップを分割した複数のブロックのうち、前記差分領域に応じた更新領域を含む更新ブロックを設定し、前記複数の層の各々に対し、前記差分領域に応じた処理対象領域を含む処理対象ブロックを設定し、
　処理部が、前記複数のフレームのうちのキーフレームについて、前記ニューラルネットワークを用いて前記フレームを処理して、前記保存層の各々の出力特徴マップを保存し、
　前記複数のフレームのうちのキーフレーム以外のフレームについて、前記複数の層の各々に対し、前記処理対象ブロックについて前記ニューラルネットワークを用いた処理を行い、前記保存層の各々に対し、保存されている出力特徴マップの前記更新ブロックを上書きする
　ことを含み、
　前記ブロック設定部が設定することでは、前記保存層毎に、畳み込み処理のパラメータに応じて、前の層より前記差分領域を周囲に拡大するように、前記差分領域を設定し、前記差分領域に応じた更新領域を含む更新ブロックを設定する
　画像処理方法。
　請求項１～請求項５の何れか１項記載の画像処理装置としてコンピュータを機能させるための画像処理プログラム。