JP7461081B2

JP7461081B2 - 畳み込みハードウェアによる特徴データに対する逆畳み込み処理方法及び装置

Info

Publication number: JP7461081B2
Application number: JP2022558105A
Authority: JP
Inventors: チャオ、ヂュオラン; ユー、カイ; ファン、チャン; ワン、ジェンジャン; リー、ジェンジュン; リー、デーリン; ジャン、イーナン
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2021-03-18
Filing date: 2022-02-10
Publication date: 2024-04-03
Anticipated expiration: 2042-02-10
Also published as: CN112686377B; CN112686377A; EP4120141A4; US20230409886A1; EP4120141A1; WO2022193877A1; JP2023521303A

Description

関連出願の相互参照
本願は、２０２１年３月１８日に中国国家知識産権局に提出された、出願番号が２０２１１０２８８７５５．６であり、発明の名称が「畳み込みハードウェアによる特徴データに対する逆畳み込み処理方法及び装置」である中国特許出願の優先権を主張し、その全ての内容が参照により本願に組み込まれる。

本開示は、人工知能の技術分野に関し、特に、専用の畳み込みハードウェアによる特徴データに対する逆畳み込み処理方法、装置、機器及び記憶媒体に関する。

畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）アルゴリズムは、その優れるデータセットフィッティング能力と一般化能力により、現実世界における視覚、音声、センサーの知覚情報及び高レベルのセマンティック情報を分析するためにますます多用されるようになる。逆畳み込みは画像又は特徴データ（「特徴マップともいう」）に内挿又はアップサンプリングを行う操作であり、深層学習の理論更新と用途の開発に伴い、様々な新規の畳み込みニューラルネットワークシステムにおいて、低解像度の画像を高解像度の画像に復元し、又は高次元の特徴マップに基づいて低次元の特徴マップを生成するためにますます多用されるようになる。逆畳み込み処理は、画風変換（ｓｔｙｌｅｔｒａｎｓｆｅｒ）、超高解像度、オブジェクト検出、セマンティック・セグメンテーション、インスタンス・セグメンテーション、キーポイント（人間骨格のキーポイントを含むが、これに限定されない）検出、深度推定などの分野で幅広く利用されることが予想される。

中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）やグラフィックス処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）などの汎用プロセッサは、特徴マップに対して逆畳み込み処理を行うことができ、カラム対画像（ｃｏｌｕｍｎ－ｔｏ－ｉｍａｇｅ、ｃｏｌ２ｉｍ）変換方法を用いることができ、当該方法の例は、図１に示されている。図１を参照すると、当該例では、逆畳み込みカーネルＫは、３×３行列であり、入力特徴マップＸは、２×２行列であり、両者はそれぞれ一次元行列Ａ、Ｂとして展開されることができる。当該一次元行列Ａを転置し別の一次元行列Ｂと乗算して、９×４の行列Ｃを得ることができる。次に、カラム対画像により、行列Ｃの各列を３×３行列で表す二次元画像に変換し、且つ各行列を幅方向の所定のステップサイズｓ_ｗ及び高さ方向の所定のステップサイズｓ_ｈでスプライシングし、オーバーラップ部分を重ね合わせて、出力特徴マップを得る。当該例では、スプライシングするステップサイズｓ_ｗ、ステップサイズｓ_ｈは、いずれも２であり、理解の便利上、行列Ｃにおいて同じ下付き文字でスプライシング時に互いに重ね合わせる各画素を指示し、得られた出力特徴マップは、５×５行列である。最後に、高さ（ｈ）と幅（ｗ）方向のゼロ埋めパラメーターｐ_ｈ、ｐ_ｗと、出力ゼロ埋めパラメーターｏｐ_ｈ、ｏｐ_ｗとに基づいて、出力特徴マップをトリミングし、上側でｐ_ｗ行の画素をトリミングし、左側でｐ_ｈ列の画素をトリミングし、下側で（ｐ_ｗ－ｏｐ_ｗ）行の画素をトリミングし、右側で（ｐ_ｈ－ｏｐ_ｈ）列の画素をトリミングすることにより、最終的な逆畳み込み出力特徴マップを得る。

図１の方法は、汎用プロセッサを利用して実行することができるが、汎用プロセッサのハードウェアのアーキテクチャ設計が、ニューラルネットワークモデルに含まれている畳み込み、プーリング、逆畳み込みなどの大型の処理に適さないため、動作効率が非常に低い。

本開示は、下記のような技術的課題（１）～（３）に鑑みなされたものであり、専用の畳み込みハードウェアによる特徴データに対する逆畳み込み処理方法、装置、機器及び記憶媒体を提供することを目的とする。
（１）汎用プロセッサのハードウェアアーキテクチャ設計は、ニューラルネットワークモデルに含まれる畳み込み、プーリング、逆畳み込み等の多くの処理に適合しないため、動作効率が非常に低い。
（２）専用のハードウェア加速器を使用してニューラルネットワークモデルを実行する場合、効率は大幅に向上されるが、一般に特定の処理について特定のハードウェアを設計する必要があるため、例えば、畳み込み処理と逆畳み込み処理とに対してそれぞれ個別に畳み込みモジュールと逆畳み込みモジュールとを設計する必要があるため、ハードウェアの複雑さが増加し、チップの面積オーバーヘッドと電力消費オーバーヘッドとが増加されてしまう。
（３）現在、畳み込みハードウェアを使用して逆畳み込み処理を実行する方法が提案されているが、無効な演算が多く含まれているため、ハードウェア加速器の遅延とエネルギー消費とがいずれも大きく、オンチップキャッシュスペースが増加しててしまうため、ハードウェアの高度化が求められる。

本開示は、上記の技術的課題（１）～（３）を解決するために、下記のような技術的解決手段を提供する。
本開示の第１態様に係る特徴マップに対する逆畳み込み処理方法は、逆畳み込みカーネルを複数の畳み込みカーネルに分割し、畳み込みカーネルに対して最適化を行ってその中の無効な重みの行及び／又は列を除去する。最適化後の複数の畳み込みカーネル及び対応する特徴マップを用いて畳み込み演算を行い、得られた複数の畳み込み出力特徴マップをインターリーブし、組み合わせ及びトリミングすることにより、逆畳み込み出力結果を得る。本開示の技術的構成は、畳み込みハードウェアを利用して実行することができ、専用の逆畳み込みハードウェアを必要でないため、ハードウェアの複雑さを低減して、チップの面積オーバーヘッド及び電力消費オーバーヘッドを節約することができる。また、本開示の方法は、最適化処理ステップにより大量の無効な重みを除去するため、関連のハードウェアの動作効率を大幅向上させることができ、これによりハードウェアの遅延性能及びエネルギー消費特性を改善することができる。

本開示の一態様に係る専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法において、前記専用の畳み込みハードウェアは、乗算加算アレイとオンチップメモリとを含む。

前記方法は、特徴マップ及び逆畳み込みカーネルをオンチップメモリに読み込み、前記特徴マップにゼロ埋め処理を行うステップと、前記逆畳み込みカーネルに基づいて複数の畳み込みカーネルを決定するステップと、各畳み込みカーネルから全要素が無効な重みである行及び／又は列を削除して最適化畳み込みカーネルを得、ゼロ埋め後の特徴マップから対応する行及び／又は列を削除して各最適化畳み込みカーネルに対応する最適化特徴マップを得るステップであって、前記無効な重みは、各畳み込みカーネルを決定するときに挿入されたゼロ値の重みであるステップと、前記乗算加算アレイを利用して各最適化畳み込みカーネル及び対応する最適化特徴マップに対して畳み込み処理を行って、複数の畳み込み出力を得るステップと、前記複数の畳み込み出力に対してインターリーブ合成処理を行って、前記特徴マップ及び前記逆畳み込みカーネルに対応する逆畳み込み出力を含むインターリーブ合成出力を得るステップと、を含む。

本開示の第２態様に係る専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理装置において、前記専用の畳み込みハードウェアは、乗算加算アレイとオンチップメモリとを含む。

前記装置は、特徴マップ及び逆畳み込みカーネルをオンチップメモリに読み込むために用いられる読み取りモジュールと、前記特徴マップにゼロ埋め処理を行うために用いられるゼロ埋めモジュールと、前記逆畳み込みカーネルに基づいて複数の畳み込みカーネルを生成するために用いられる畳み込みカーネル生成モジュールと、各畳み込みカーネルから全要素が無効な重みである行及び／又は列を削除して最適化畳み込みカーネルを得、ゼロ埋め後の特徴マップから対応する行及び／又は列を削除して各最適化畳み込みカーネルに対応する最適化特徴マップを得るために用いられる最適化モジュールであって、前記無効な重みは、各畳み込みカーネルを決定するときに挿入されたゼロ値の重みである最適化モジュールと、前記乗算加算アレイを利用して各最適化畳み込みカーネル及び対応する最適化特徴マップに対して畳み込み処理を行って、複数の畳み込み出力を得るために用いられる畳み込みモジュールと、前記複数の畳み込み出力に対してインターリーブ合成処理を行って、前記特徴マップ及び前記逆畳み込みカーネルに対応する逆畳み込み出力を含むインターリーブ合成出力を得るために用いられるインターリーブ合成モジュールと、を含む。

本開示の第３態様に係る電子機器は、乗算加算アレイとオンチップメモリとを含む専用の畳み込みハードウェアと、命令が記憶される少なくとも１つのオフチップメモリと、少なくとも１つのプロセッサと、を含み、前記命令が前記プロセッサによって実行されると、前記電子機器は上記した方法を実行する。

本開示の別の態様は、コンピュータプログラム命令が記憶されるコンピュータ可読記憶媒体を提供する。前記コンピュータプログラム命令が電子機器のプロセッサによって実行されると、前記電子機器は上記した方法を実行する。

前記電子機器は、乗算加算アレイとオンチップメモリとを有する専用の畳み込みハードウェアをさらに含む。

本開示の方法は、専用の逆畳み込みハードウェアの実施を必要とせず、畳み込みハードウェアを利用して実行することができるため、ハードウェアの複雑さが低減され、チップの面積オーバーヘッドと電力消費オーバーヘッドとが節約される。しかも、本開示の方法では、最適化処理により大量の無効な演算を減少させて、ハードウェア加速器の動作効率をより一層向上させ、遅延とエネルギー消費特性とを改善し、オンチップキャッシュスペースに対する要求を低下させるため、ハードウェア費用の低減に有利である。

以下、図面を参照して本開示の実施例を詳細に説明し、本開示の上記及び他の目的、特徴や利点が一層明瞭になるだろう。図面は、本開示の実施例の更なる理解のためのものであり、明細書を構成する部分として、本開示の実施例と共に本開示の解釈に用いられ、本開示への限定を構成するものではない。図面では、同じ符号が一般に同じ部品又はステップを表す。

汎用ハードウェアを使用した特徴マップに対する逆畳み込み処理に適合する方法の概略図を示す。逆畳み込みハードウェアを使用した特徴マップに対する逆畳み込み処理に適合する方法の概略図を示す。畳み込みハードウェアを使用した特徴マップに対する逆畳み込み処理に適合する方法の概略図を示す。例示的な一実施例に係る畳み込みハードウェアによる特徴マップに逆畳み込み処理方法のフローチャートを示す。図４に示す方法に基づいて特徴マップに対して逆畳み込み処理を行うことの概略図を示す。例示的な一実施例に係る特徴マップに対して逆畳み込み処理を行うための装置の機能ブロック図を示す。例示的な一実施例に係る電子機器の構造ブロック図を示す。例示的な一実施例に係る図７の電子機器に用いられる畳み込みハードウェア加速器の構造ブロック図を示す。

以下、図面を参照しながら本開示に係る例示的な実施例を詳細に説明する。勿論、説明される実施例は、本開示の実施例の全てではなく、本開示の実施例の一部に過ぎない。なお、本開示は、ここで説明される例示的な実施例に限定されない。

出願の概要
プロセッサの処理性能を向上させるために、一般に汎用プロセッサが高計算能力、大容量のキャッシュとメモリを有することが求められ、その結果、非常に高いエネルギー消費とハードウェア費用が必要となるため、汎用プロセッサは端末機器に適用されることができない。汎用プロセッサのこれらの欠点を克服するために、スライディング・ウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）により畳み込み、プーリング、逆畳み込み等の処理を実行することに適合するとともに、動作効率が高く、電力消費が非常に低い専用のハードウェア加速器が開発された。

図２は、専用のハードウェア加速器を使用して実行することに適合する、特徴マップに対する逆畳み込み処理方法を示す。図２の例では、特徴マップと逆畳み込みカーネルとは、いずれも３×３行列であり、当該方法は、特徴マップにおける各数値をそれぞれ逆畳み込みカーネルと乗算して、サイズ（ｋ_ｈ，ｋ_ｗ）の複数の出力行列を得ることを含み、ここで、ｋ_ｈは、逆畳み込みカーネルの高さサイズであり、ｋ_ｗは、逆畳み込みカーネルの幅サイズである。次に、得られた複数の出力行列を高さ方向のステップサイズｓ_ｈと幅方向のステップサイズｓ_ｗとでスプライシングし、当該例では、ステップサイズｓ_ｈとｓ_ｗとは、いずれも２であり、オーバーラップ部分を累積して、サイズ７×７の組み合わせ特徴マップを得る。

例えば、図２の例では、特徴マップの１行目１列目の数値「７」と逆畳み込みカーネルの１行目３列目の重み値「３」との積と、特徴マップの１行目２列目の数値「３」と逆畳み込みカーネルの１行目１列目の重み値「－１」との積が、ステップサイズｓ_ｈ＝２、ｓ_ｗ＝２でスプライシングする時に累積されて、組み合わせ特徴マップの１行目３列目の数値「１８」を得る。特徴マップの１行目１列目の数値「７」と逆畳み込みカーネルの３行目３列目の重み値「１」との積と、特徴マップの１行目２列目の数値「３」と逆畳み込みカーネルの３行目１列目の重み値「１」との積と、特徴マップの２行目１列目の数値「１」と逆畳み込みカーネルの１行目３列目の重み値「３」との積と、特徴マップの２行目２列目の数値「０」と逆畳み込みカーネルの１行目１列目の重み値「－１」との積とが、ステップサイズｓ_ｈ＝２、ｓ_ｗ＝２でスプライシングする時に累積されて、組み合わせ特徴マップの３行目３列目の数値「１３」を得る。特徴マップにおける他の数値については類似の手順で逆畳み込みカーネルと乗算計算しスプライシングすることができるので、ここではその説明を省略する。

次に、高さと幅方向のゼロ埋めパラメーターｐ_ｈ、ｐ_ｗと出力ゼロ埋めパラメーターｏｐ_ｈ、ｏｐ_ｗとに基づいて、組み合わせ特徴マップをトリミングして、最終的な逆畳み込み出力特徴マップを得る。当該例では、ゼロ埋めパラメーターｐ_ｈ、ｐ_ｗと出力ゼロ埋めパラメーターｏｐ_ｈ、ｏｐ_ｗとはいずれも１であるため、上側でｐ_ｗ＝１行の画素をトリミングし、左側でｐ_ｈ＝１行の画素をトリミングし、下側で（ｐ_ｗ－ｏｐ_ｗ）＝０行の画素をトリミングし、右側で（ｐ_ｈ－ｏｐ_ｈ）＝０行の画素をトリミングして、逆畳み込み出力特徴マップとしてサイズ６×６の行列を得る。

図２に示す方法は、専用のハードウェア加速器を使用して実行することができる。しかし、専用のハードウェア加速器は、一般に特定の計算過程に対して設計したものである。図２に示す逆畳み込み処理が通常の畳み込み処理とは異なるため、専用のハードウェア加速器を用いて図２の方法を実行する場合には、畳み込みハードウェアとは異なる専用の逆畳み込みハードウェアを設計する必要があり、乗算器と加算器とによって構成されるアレイ（一般には、乗算加算アレイＭＡＣという）と、当該アレイに用いられるオンチップキャッシュ（一般には、スタティックランダムアクセスメモリＳＲＡＭ）とは、図２を参照して説明される上記の処理過程に適合するように設計される必要がある。つまり、専用のハードウェア加速器において個別の畳み込みモジュール及び個別の逆畳み込みモジュールを設計する必要があり、これにより、ハードウェアの複雑さが増加し、チップの面積オーバーヘッドと電力消費オーバーヘッドが増加されてしまう。

したがって、簡単なハードウェアを使用して畳み込み演算と逆畳み込み演算とを処理することが期待される。図３は、スライディング・ウィンドウ畳み込み演算により逆畳み込み処理を実現する方法を示し、当該逆畳み込み処理方法が畳み込み演算のみに関与するため、専用の畳み込みハードウェアを使用して実行することができ、専用の逆畳み込みハードウェア又はモジュールは必要でない。図３の方法では、例として、特徴マップサイズｈ×ｗは、３×３行列であり、畳み込みカーネルサイズｋ_ｈ×ｋ_ｗは、３×３行列であり、スライディングステップサイズｓ_ｈとｓ_ｗとは、いずれも２であり、埋めるゼロの数ｐ_ｈとｐ_ｗとは、いずれも１であり、出力ゼロ埋めｏｐ_ｈとｏｐ_ｗとは、いずれも１である。

図３を参照すると、最初に、特徴マップは、スパース化処理される。具体的には、特徴マップの行の間に（ｓ_ｈ－１）＝１行のゼロ画素を追加し、列の間に（ｓ_ｗ－１）＝１列のゼロ画素を追加し、上側で（ｋ_ｈ－１－ｐ_ｈ）＝１行のゼロ画素を追加し、左側で（ｋ_ｗ－１－ｐ_ｗ）＝１列のゼロ画素を追加し、下側で（ｋ_ｈ－１－ｐ_ｈ＋ｏｐ_ｈ）＝２行のゼロ画素を追加し、右側で（ｋ_ｗ－１－ｐ_ｗ＋ｏｐ_ｗ）＝２列のゼロ画素を追加することができる。そして、逆畳み込みカーネルにおける重み値が転倒され、すなわち、中心の画素を中心として、対称的な位置の重み値を交換する。次に、転倒された逆畳み込みカーネルを利用して、スパース化した特徴マップにステップサイズ（１，１）の畳み込み演算を行い、その出力結果が逆畳み込み計算結果となる。

図３の逆畳み込み処理方法は、専用の逆畳み込み加速モジュールを必要とせず、畳み込みハードウェアを使用して実行することができるが、スパース化処理において多くのゼロ値の画素が挿入されるため、計算の約１／（ｓ_ｈ＊ｓ_ｗ）のみが有効であり、計算の約（ｓ_ｈ＊ｓ_ｗ－１）／（ｓ_ｈ＊ｓ_ｗ）は無効である。ｓ_ｈ＝ｓ_ｗ＝２を例とすると、計算の約７５％が無効であり、これにより、ハードウェア加速器の遅延とエネルギー消費とが非常に大きい。また、図３の方法では、少なくとも特徴マップサイズの（ｓ_ｈ＊ｓ_ｗ）倍以上のオンチップキャッシュＳＲＡＭスペースが必要であるため、ハードウェアの高度化が求められる。

したがって、専用の逆畳み込みハードウェアを必要とせず、畳み込みハードウェアにより実施することができるとともに、関連のハードウェアの動作効率をより一層向上することができる、改良の逆畳み込み処理方法が期待される。

汎用プロセッサのハードウェアアーキテクチャ設計は、ニューラルネットワークモデルに含まれる畳み込み、プーリング、逆畳み込み等の多くの処理に適合しないため、動作効率が非常に低い。

また、専用のハードウェア加速器を使用してニューラルネットワークモデルを実行する場合、効率は大幅に向上されるが、一般に特定の処理について特定のハードウェアを設計する必要があるため、例えば、畳み込み処理と逆畳み込み処理とに対してそれぞれ個別に畳み込みモジュールと逆畳み込みモジュールとを設計する必要があるため、ハードウェアの複雑さが増加し、チップの面積オーバーヘッドと電力消費オーバーヘッドとが増加されてしまう。

現在、畳み込みハードウェアを使用して逆畳み込み処理を実行する方法が提案されているが、無効な演算が多く含まれているため、ハードウェア加速器の遅延とエネルギー消費とがいずれも大きく、オンチップキャッシュスペースが増加しててしまうため、ハードウェアの高度化が求められる。

本開示は、上記の技術的課題を解決することを目的として、特徴マップに対する逆畳み込み処理方法を提供する。本開示の実施例において、逆畳み込みカーネルを複数の畳み込みカーネルに分割し、各畳み込みカーネルに最適化処理を行ってその中の無効な重みを除去して、最適化畳み込みカーネルを得ることができる。

また、本方法では、特徴マップに対して相応の最適化を行って、各最適化畳み込みカーネルに対応する最適化特徴マップを得る。各最適化畳み込みカーネル及び特徴マップを利用して畳み込み演算を行って、複数の畳み込み出力を得る。複数の畳み込み出力にインターリーブ合成を行うことができ、選択的には、トリミングをさらに行うと、所望のサイズの逆畳み込み出力特徴マップを得ることができる。

例示的な方法
図４は、本開示の例示的な一実施例に係る畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法１００のフローチャートを示し、図５は、図４に示す方法１００に基づいて特徴マップに対して逆畳み込み処理を行うことの概略図を示す。畳み込みハードウェアは、乗算加算アレイ（ＭｕｌｔｉｐｌｙＡｎｄＡｃｃｕｍｕｌａｔｅ、ＭＡＣ）と、例えばスタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭ）のようなオンチップメモリと、を含むことができる。

本開示では、説明の便宜上、予め入力特徴マップサイズ（ｈ，ｗ）と逆畳み込みカーネルサイズ（ｋ_ｈ，ｋ_ｗ）とスライディングステップサイズ（ｓ_ｈ，ｓ_ｗ）とゼロ埋め（ｐ_ｈ，ｐ_ｗ）と出力ゼロ埋め（ｏｐ_ｈ，ｏｐ_ｗ）とを含む、当該逆畳み込み演算に関連するパラメーターを定義しておき、ここで、ｈは、特徴マップの高さ寸法を示し、ｗは、特徴マップの幅寸法を示す。

図４を参照すると、方法１００は、特徴マップ及び逆畳み込みカーネルをオンチップメモリに読み込んで、特徴マップに対してゼロ埋め処理を行うステップＳ１１０を含む。図５の例では、特徴マップは、３×３行列として示され、逆畳み込みカーネルも、３×３行列として示されるが、当然ながらこれは例示的なサイズであり、本開示は、これに限定されない。

また、様々な能動的な形式で特徴マップに対してゼロ埋め処理を行うことができ、例えば、特徴マップをオンチップメモリに読み込むと同時にゼロ埋めを行うか、又は、特徴マップをオンチップメモリに読み込んでからゼロ埋めを行うか、又は、オンチップメモリから特徴マップを読み出して例えば畳み込み演算若しくは他の処理に用いる時にゼロ埋めを行うことができる。

例示的な一実施例において、通常の対称的なゼロ埋めとは異なり、４つの方向において特徴マップに対してゼロ埋めをそれぞれ行ってもよい。具体的には、逆畳み込みカーネルの高さサイズと、逆畳み込み演算に用いられる高さ方向のステップサイズ及び高さ方向のゼロ埋めパラメーターと、に基づいて、特徴マップの上側のゼロ埋めの数ｐ′_ｈｔと下側のゼロ埋めの数ｐ′_ｈｂとを決定することができ、下側のゼロ埋めの数ｐ′_ｈｂは、上側のゼロ埋めの数ｐ′_ｈｔより１行多い。

同様に、逆畳み込みカーネルの幅サイズと、逆畳み込み演算に用いられる幅方向のステップサイズ及び幅方向のゼロ埋めパラメーターと、に基づいて、特徴マップの左側のゼロ埋めの数ｐ′_ｗｌと右側のゼロ埋めの数ｐ′_ｗｒとを決定することができ、右側のゼロ埋めの数ｐ′_ｗｒは、左側のゼロ埋めの数ｐ′_ｗｌより１列多い。例えば、下記の式１～式４に基づいて、特徴マップの上側のゼロ埋めの数ｐ′_ｈｔ、左側のゼロ埋めの数ｐ′_ｗｌ、下側のゼロ埋めの数ｐ′_ｈｂ、右側のゼロ埋めの数ｐ′_ｗｒをそれぞれ計算することができる。ｆｌｏｏｒは、ラウンドダウン関数であり、ｃｅｉｌは、ラウンドアップ関数であり、ｋ_ｈ及びｋ_ｗは、それぞれ逆畳み込みカーネルの高さサイズ、幅サイズであり、ｓ_ｈ及びｓ_ｗは、それぞれ逆畳み込み演算に用いられる高さ方向のステップサイズ、幅方向のステップサイズであり、ｐ_ｈ及びｐ_ｗは、それぞれ逆畳み込み演算に用いられる高さのゼロ埋めパラメーター、幅のゼロ埋めパラメーターである。関係式は、具体的に次のとおりである。
ｐ′_ｈｔ＝ｆｌｏｏｒ（（ｋ_ｈ－１－ｐ_ｈ）／ｓ_ｈ）（式１）
ｐ′_ｗｌ＝ｆｌｏｏｒ（（ｋ_ｗ－１－ｐ_ｗ）／ｓ_ｗ）（式２）
ｐ′_ｈｂ＝ｃｅｉｌ（（ｋ_ｈ－１－ｐ_ｈ）／ｓ_ｈ）（式３）
ｐ′_ｗｒ＝ｃｅｉｌ（（ｋ_ｗ－１－ｐ_ｗ）／ｓ_ｗ）（式４）

図５の例では、関連パラメーターの値は、それぞれｈ＝ｗ＝３、ｋ_ｈ＝ｋ_ｗ＝３、ｓ_ｈ＝ｓ_ｗ＝２、ｐ_ｈ＝ｐ_ｗ＝１、ｏｐ_ｈ＝ｏｐ_ｗ＝０である。上記の式１～式４の計算によれば、上側と左側とのゼロ埋めの数はゼロであり、すなわち、ゼロ埋めの必要がなく、下側と右側とのゼロ埋めの数は１であると決定することができる。したがって、ゼロ埋め後の特徴マップは、図５に示すように、４×４行列となる。

ステップＳ１２０では、逆畳み込みカーネルに基づいて複数の畳み込みカーネルを決定する。

最初に、逆畳み込みカーネルに対応する畳み込みカーネルの数及びサイズを決定することができる。具体的には、畳み込みカーネルの数は、逆畳み込み演算に用いられる高さ方向のステップサイズｓ_ｈと幅方向のステップサイズｓ_ｗとの積ｓ_ｈ×ｓ_ｗとして決定されることができ、各畳み込みカーネルに高さ方向及び幅方向の二次元インデックス（ｉｓ_ｈ，ｉｓ_ｗ）を割り当てることができる。図５の例では、ｓ_ｈ＝ｓ_ｗ＝２であるため、逆畳み込みカーネルに対応する畳み込みカーネルの数は４であると決定されることができ、この４つの畳み込みカーネルには、それぞれ二次元インデックス（０，０）、（０，１）、（１，０）、（１，１）が割り当てられることができる。

各畳み込みカーネルの高さ方向のサイズｋ′_ｈは、逆畳み込みカーネルの高さサイズｋ_ｈと、逆畳み込み演算に用いられる高さ方向のステップサイズｓ_ｈ及び高さ方向のゼロ埋めパラメーターｐ_ｈと、に基づいて、決定されることができる。同様に、各畳み込みカーネルの幅方向のサイズｋ′_ｗは、逆畳み込みカーネルの幅サイズｋ_ｗと、逆畳み込み演算に用いられる幅方向のステップサイズｓ_ｗ及び幅方向のゼロ埋めパラメーターｐ_ｗと、に基づいて、決定されることができる。例えば、各畳み込みカーネルの高さ及び幅サイズ（ｋ′_ｈ，ｋ′_ｗ）は、下記の式５、式６によって決定され、ｃｅｉｌは、ラウンドアップ関数であり、％は、剰余演算子である。図５の例では、上記で定義したパラメーターの値を利用して計算して各畳み込みカーネルのサイズをｋ′_ｈ＝２、ｋ′_ｗ＝２と決定することができる。
ｋ′_ｈ＝ｃｅｉｌ（（ｋ_ｈ＋ｐ_ｈ％ｓ_ｈ）／ｓ_ｈ）（式５）
ｋ′_ｗ＝ｃｅｉｌ（（ｋ_ｗ＋ｐ_ｗ％ｓ_ｗ）／ｓ_ｗ）（式６）

ステップＳ１２０では、畳み込みカーネルの数及びサイズを決定した後、各畳み込みカーネルにおける重み値を決定する。

具体的には、可能な一実現形態は、各畳み込みカーネルの各位置について、当該畳み込みカーネルの高さ及び幅方向の二次元インデックスと、畳み込みカーネルの高さ及び幅のサイズと、当該位置の二次元座標値と、逆畳み込み演算に用いられる高さ及び幅方向のステップサイズ、高さ及び幅方向のゼロ埋めパラメーターと、に基づいて、逆畳み込みカーネルの対応する位置の二次元座標値を決定し、当該対応する位置の重み値を畳み込みカーネルの当該位置の重み値とすることを含むことができる。例えば、各畳み込みカーネル（ｉｓ_ｈ，ｉｓ_ｗ）の各位置（ｉｋ′_ｈ，ｉｋ′_ｗ）について、下記の式７、式８によって逆畳み込みカーネルの対応する位置（ｉｋ_ｈ，ｉｋ_ｗ）を決定し、当該位置の重み値を畳み込みカーネルの位置（ｉｋ′_ｈ，ｉｋ′_ｗ）における重み値とすることができる。ｉｓ_ｈ及びｉｓ_ｗは、それぞれ各畳み込みカーネルの高さ及び幅方向のインデックスであり、ｉｋ′_ｈ及びｉｋ′_ｗは、それぞれ畳み込みカーネルの高さ方向の位置座標、幅方向の位置座標であり、ｉｋ_ｈ及びｉｋ_ｗは、それぞれ逆畳み込みカーネルの高さ方向の位置座標、幅方向の位置座標である。

ここで、決定された逆畳み込みカーネルの対応する位置（ｉｋ_ｈ，ｉｋ_ｗ）が逆畳み込みカーネルにおける位置座標範囲を超える場合、畳み込みカーネルの位置（ｉｋ′_ｈ，ｉｋ′_ｗ）にゼロ値を挿入し、すなわち、当該位置の重みは、ゼロ値の無効な重みであることができる。
ｉｋ_ｈ＝（ｋ′_ｈ－１－ｉｋ′_ｈ）×ｓ_ｈ＋ｉｓ_ｈ－ｐ_ｈ％ｓ_ｈ（式７）
ｉｋ_ｗ＝（ｋ′_ｗ－１－ｉｋ′_ｗ）×ｓ_ｗ＋ｉｓ_ｗ－ｐ_ｗ％ｓ_ｗ（式８）

例えば、図５の例を参照すると、畳み込みカーネル（ｉｓ_ｈ＝０，ｉｓ_ｗ＝０）における重み値を計算する時に、位置（ｉｋ′_ｈ＝０，ｉｋ′_ｗ＝０）について、関連パラメーターｉｓ_ｈ＝ｉｓ_ｗ＝０、ｉｋ′_ｈ＝ｉｋ′_ｗ＝０、ｋ′_ｈ＝ｋ′_ｗ＝２、ｓ_ｈ＝ｓ_ｗ＝２、ｐ_ｈ＝ｐ_ｗ＝１を上記の式７と式８に代入して、逆畳み込みカーネルの対応する位置を（ｉｋ_ｈ＝１，ｉｋ_ｗ＝１）と算出することができ、当該位置における重み値が「２」であるので、畳み込みカーネル（０，０）の位置（０，０）における重み値が「２」である。

位置（ｉｋ′_ｈ＝０，ｉｋ′_ｗ＝１）については、関連パラメーターｉｓ_ｈ＝ｉｓ_ｗ＝０、ｉｋ′_ｈ＝０、ｉｋ′_ｗ＝１、ｋ′_ｈ＝ｋ′_ｗ＝２、ｓ_ｈ＝ｓ_ｗ＝２、ｐ_ｈ＝ｐ_ｗ＝１を上記の式７と式８に代入して、逆畳み込みカーネルの対応する位置を（ｉｋ_ｈ＝１，ｉｋ_ｗ＝－１）と算出することができ、当該座標値が逆畳み込みカーネルの座標範囲を超えるため（図５の例では、行座標範囲は０～２であり、列座標範囲は０～２である）、当該位置にゼロ値の無効な重みを挿入する。

同様に、位置（ｉｋ′_ｈ＝１，ｉｋ′_ｗ＝０）及び（ｉｋ′_ｈ＝１，ｉｋ′_ｗ＝１）において、算出した逆畳み込みカーネルにおける対応する座標位置は、それぞれ（ｉｋ_ｈ＝－１，ｉｋ_ｗ＝１）及び（ｉｋ_ｈ＝－１，ｉｋ_ｗ＝－１）であり、いずれも逆畳み込みカーネルの座標範囲を超えるため、これらの位置にもゼロ値の無効な重みを挿入し、これにより図５に示される畳み込みカーネル（０，０）のそれぞれの重み値を得る。

同様に、畳み込みカーネル（ｉｓ_ｈ＝０，ｉｓ_ｗ＝１）では、位置（ｉｋ′_ｈ＝０，ｉｋ′_ｗ＝０）について、式７、式８によって算出された逆畳み込みカーネルの対応する位置は（ｉｋ_ｈ＝１，ｉｋ_ｗ＝２）であり、当該位置の重み値は「－５」である。位置（ｉｋ′_ｈ＝０，ｉｋ′_ｗ＝１）については、算出された逆畳み込みカーネルの対応する位置は（ｉｋ_ｈ＝１，ｉｋ_ｗ＝０）であり、当該位置の重み値は「０」である。位置（ｉｋ′_ｈ＝１，ｉｋ′_ｗ＝０）と（ｉｋ′_ｈ＝１，ｉｋ′_ｗ＝１）については、算出された逆畳み込みカーネルにおける対応する座標位置はそれぞれ（ｉｋ_ｈ＝－１，ｉｋ_ｗ＝２）及び（ｉｋ_ｈ＝－１，ｉｋ_ｗ＝０）であり、いずれも逆畳み込みカーネルの座標範囲を超えるため、これらの位置にゼロ値の無効な重みを挿入し、これにより図５に示される畳み込みカーネル（０，１）のそれぞれの重み値を得る。同様に、畳み込みカーネル（ｉｓ_ｈ＝１，ｉｓ_ｗ＝０）において、１列目の２つの重み値「－３，０」は、上記の計算で逆畳み込みカーネルの対応する位置により決定される重み値であり、２列目の２つの重み値は、算出された座標値が逆畳み込みカーネルの座標範囲を超えるため挿入されたゼロ値の無効な重みである。

畳み込みカーネル（ｉｓ_ｈ＝１，ｉｓ_ｗ＝１）において、４つの重み値「１，１，３，－１」は、いずれも上記の計算で逆畳み込みカーネルの対応する位置により決定された重み値であり、ゼロ値の無効な重みは挿入されていない。なお、逆畳み込みカーネルにより決定されたゼロ値の重み（即ち、逆畳み込みカーネル自体に含まれるゼロ値の重み）は有効な重みであり、算出された位置座標が範囲外であるため挿入されたゼロ値の重みは無効な重みである。

いくつかの実施例において、挿入されたゼロ値の無効な重みと逆畳み込みカーネルに最初に含まれているゼロ値の有効な重みとを区別するために、挿入されたゼロ値の無効な重みにマークを付けて、無効な重みであることを指示することができる。又は、畳み込みカーネルにおけるそれぞれの重み値にマークを付けて、有効な重みか、無効な重みであるかを指示することもできる。例として、当該マークは１ビットであることができ、その値「０」は、対応する重みが無効な重みであることを指示し、値「１」は、対応する重みが有効な重みであること指示し、又は逆でも構わない。当該指示ビットは、対応する重み値と共に記憶されることができ、例えば、重み値に付けた最下位のビット若しくは最上位のビットとして記憶されることができ、又は、ビットマップ（ｂｉｔｍａｐ）を形成して当該畳み込みカーネルとは別途に記憶されることができる。

ここで、逆畳み込みカーネルに基づいて、複数の畳み込みカーネルを決定する。なお、逆畳み込みカーネルにバイアス値が含まれている場合に、それに基づいて決定される複数の畳み込みカーネルは同じバイアス値を有してもよい。

上記のように決定された複数の畳み込みカーネルには、大量の無効な重みが含まれている可能性があるため、ステップＳ１３０では、さらに各畳み込みカーネルに最適化を行って、各畳み込みカーネルから全要素が無効な重みである行及び／又は列を除去して最適化畳み込みカーネルを得、これに対応してゼロ埋め処理した後の特徴マップから対応する行及び／又は列を除去して各最適化畳み込みカーネルに対応する最適化特徴マップを得る。

例えば、上記のように畳み込みカーネルにおける各ゼロ値の重みに指示ビットを設定した場合、まず畳み込みカーネルの１行又は１列の重み値の全てがゼロ値であるかを判断する。１行又は１列が少なくとも１つの非ゼロの重み値を含んでいる場合、当該行又は列は最適化により除去されることはできない。１行又は１列における重み値の全てがゼロである場合、当該ゼロ値に関連する指示マークに基づいて有効なゼロ値であるか、無効なゼロ値であるかを決定することができる。１行又は１列における重みの全てが無効なゼロ値である場合にのみ、最適化により当該行又は列を除去することができる。

別のいくつかの実施例において、畳み込みカーネルにおける各重み（ゼロ値の重みと非ゼロ値の重みとを含む）のいずれもに対して有効な重みであるかどうかを指示する指示ビットを設定した場合、直接これらの指示ビットに基づいて畳み込みカーネルの１行又は１列の重みの全てが無効な重みであるかを判断することができる。畳み込みカーネルの１行又は１列の重みの全てが無効な重みである場合、最適化により当該行又は列を除去することができる。

以上によれば、ステップＳ１３０では、各最適化畳み込みカーネルについて決定された最適化特徴マップが互いに異なる可能性がある。例えば、図５の例を参照すると、畳み込みカーネル（０，０）について、その右側の１列と下側の１行とは、いずれもゼロ値の無効な重みであり、最適化により除去され、１つの有効な重み値として「２」のみが残る。これに対応し、ゼロ埋め後の特徴マップの右側の１列と下側の１行とが最適化により除去され、畳み込みカーネル（０，０）に用いられる最適化特徴マップ（０，０）として３×３行列が得られる。畳み込みカーネル（０，１）について、その下側の１行がゼロ値の無効な重みのみを含んでいるため、最適化により除去され、２つの有効な重み値として１行目の「－５，０」だけが残る。これに対応し、ゼロ埋め後の特徴マップの下側の１行が最適化により除去され、畳み込みカーネル（０，１）に用いられる最適化特徴マップ（０，１）として３×４行列が得られる。

同様に、畳み込みカーネル（１，０）について、その右側の１列がゼロ値の無効な重みのみを含んでいるため、最適化により除去され、２つの有効な重み値として１列目の「－３，０」のみが残る。これに対応し、ゼロ埋め後の特徴マップの右側の１列が最適化により除去され、畳み込みカーネル（１，０）に用いられる最適化特徴マップ（１，０）として４×３行列が得られる。畳み込みカーネル（１，１）について、ゼロ値の無効な重みを一切含まないため、最適化により除去される行又は列はなく、対応する特徴マップ（１，１）も行又は列は除去されないため、ゼロ埋め後の特徴マップであり、４×４行列である。

以上によれば、ステップＳ１３０の最適化処理により、逆畳み込み処理から無効な演算をほぼ完全に解消することができ、これにより関連ハードウェアの動作効率を向上させ、遅延とエネルギー消費を改善することができる。

次に、ステップＳ１４０では、畳み込みハードウェアの乗算加算アレイにより各最適化畳み込みカーネル及び対応する最適化特徴マップに畳み込み演算を行って、対応の各畳み込み出力を得ることができる。例えば、後続の図８を参照して具体的に説明するように、畳み込みカーネルにおける各重み値と、それに対応する特徴マップにおける特徴データと、が乗算加算アレイの乗算器に提供され、乗算器で乗算演算が完了した後、その結果が加算器に出力され、他の乗算器の出力と累積される。

選択的には、累積により得られた結果は、当該畳み込みカーネルのバイアス値によって線形調整されることができ、得られた調整後の値は、畳み込み演算の出力値としてオンチップメモリＳＲＡＭに記憶されることができる。いくつかの実施例において、スライディング・ウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）法に基づいて、畳み込みカーネルを順次、特徴マップの対応するウィンドウにおける特徴データと畳み込みを行って、出力特徴マップにおける各特徴データを算出することができる。

ステップＳ１４０では、選択的には、畳み込みハードウェアの乗算加算アレイにおける乗算器の数は、各最適化畳み込みカーネルに含まれる重み値の数以上であり、これにより１つのスライディング・ウィンドウの畳み込み演算が一度に完了されて、高い計算効率が保証されることができる。

なお、乗算加算アレイにおける乗算器の数は、逆畳み込みカーネルにおける重み値の数より小さくてもよく、つまり、本実施例では、比較的少ないハードウェアリソースを利用して比較的大型の逆畳み込み処理を実現することができる。例えば、図５に示される例では、逆畳み込みカーネルは、９つの重み値を含み、対応する畳み込みカーネルは、最大４つの重み値を含むため、乗算器の数は、４つ又はより多くてもよい。引き続き図５の例を参照すると、ステップＳ１４０の畳み込み演算により４つの出力特徴マップ（０，０）～（１，１）を得ることができ、各特徴マップはいずれも３×３行列である。なお、各最適化畳み込みカーネルが異なるサイズを有する可能性があるが、対応する特徴マップも適宜最適化されるため、各最適化畳み込みカーネルに対応する畳み込み出力特徴マップは最適化前と同じであり、各畳み込み出力特徴マップは同じサイズを有するということは理解できる。

ステップＳ１５０では、各畳み込み出力特徴マップに対してインターリーブ合成処理を行って、インターリーブ合成出力を得る。インターリーブ合成処理は、逆畳み込み演算に用いられる高さ方向のステップサイズ及び幅方向のステップサイズをパディングステップサイズとし、畳み込みカーネルの高さ及び幅方向の二次元インデックスをパディングオフセットとして、各畳み込み出力の各要素を合成行列にパディングすることを含み、下記の式９、式１０で表すことができ、ｉｈ_ｆｏ及びｉｗ_ｆｏは、それぞれ合成行列における高さ座標、幅座標であり、ｉｓ_ｈ及びｉｓ_ｗは、畳み込み出力特徴マップの二次元インデックスであり、即ち対応する畳み込みカーネルの二次元インデックスであり、ｉ_ｈ及びｉ_ｗは、それぞれ畳み込み出力特徴マップにおける高さ座標、幅座標であり、ｓ_ｈ及びｓ_ｗは、それぞれ高さ方向と幅方向のパディングステップサイズである。
ｉｈ_ｆｏ＝ｉ_ｈ×ｓ_ｈ＋ｉｓ_ｈ（式９）
ｉｗ_ｆｏ＝ｉ_ｗ×ｓ_ｗ＋ｉｓ_ｗ（式１０）

式９、式１０を利用して各畳み込み出力特徴マップにおける位置座標を合成行列における位置座標に変換することにより、各畳み込み出力特徴マップにおけるデータを合成行列にパディングして、インターリーブ合成処理を完了することができる。例えば、図５に示す例を参照すると、畳み込み出力特徴マップ（０，０）における各特徴データは、高さパディングステップサイズｓ_ｈ＝２、幅パディングステップサイズｓ_ｗ＝２であり、高さ及び幅方向上のオフセットがいずれもゼロであることで、合成行列にパディングされる。

図５に示すように、畳み込み出力特徴マップ（０，０）の１行目の３つの位置（０，０）、（０，１）、（０，２）における特徴データ「１４、６、８」は、それぞれ、上記の式９、式１０の計算によって決定された合成行列の位置（０，０）、（０，２）、（０，４）にパディングされ、３行目の３つの位置（２，０）、（２，１）、（２，２）における特徴データ「－４、２、２」は、それぞれ、計算によって決定された合成行列の位置（４，０）、（４，２）、（４，４）にパディングされる。畳み込み出力特徴マップ（０，１）の各特徴データも同様に高さステップサイズｓ_ｈ＝２、幅ステップサイズｓ_ｗ＝２で合成行列にパディングされるが、畳み込み出力特徴マップ（０，０）に対し、高さ方向のオフセットがゼロであり、幅方向のオフセットが１である。

図５に示すように、畳み込み出力特徴マップ（０，１）の１行目の３つの位置（０，０）、（０，１）、（０，２）における特徴データ「－３５、－１５、－２０」は、それぞれ、上記の式９、式１０の計算によって決定された合成行列の位置（０，１）、（０，３）、（０，５）にパディングされ、３行目の３つの位置（２，０）、（２，１）、（２，２）における特徴データ「１０、－５、－５」は、それぞれ、計算によって決定された合成行列の位置（４，１）、（４，３）、（４，５）にパディングされる。畳み込み出力特徴マップ（１，０）の各特徴データも同様に高さステップサイズｓ_ｈ＝２、幅ステップサイズｓ_ｗ＝２で合成行列にパディングされるが、畳み込み出力特徴マップ（０，０）に対し、高さ方向のオフセットが１であり、幅方向のオフセットが０である。

図５に示すように、畳み込み出力特徴マップ（１，０）の１行目の３つの位置（０，０）、（０，１）、（０，２）における特徴データ「－２１、－９、－１２」は、それぞれ、上記の式９、式１０の計算によって決定された合成行列の位置（１，０）、（１，２）、（１，４）にパディングされ、３行目の３つの位置（２，０）、（２，１）、（２，２）における特徴データ「６、－３、－３」は、それぞれ、計算によって決定された合成行列の位置（５，０）、（５，２）、（５，４）にパディングされる。畳み込み出力特徴マップ（１，１）の各特徴データは、高さステップサイズｓ_ｈ＝２、幅ステップサイズｓ_ｗ＝２で、高さ方向のオフセットが１、幅方向のオフセットが１であることで、合成行列にパディングされる。

図５に示すように、畳み込み出力特徴マップ（１，１）の１行目の３つの位置（０，０）、（０，１）、（０，２）における特徴データ「１３、９、－２」は、それぞれ、上記の式９、式１０の計算によって決定された合成行列の位置（１，１）、（１，３）、（１，５）にパディングされ、３行目の３つの位置（２，０）、（２，１）、（２，２）における特徴データ「－１、２、１」は、それぞれ、計算によって決定された合成行列の位置（５，１）、（５，３）、（５，５）にパディングされる。これにより、図５に示すように、４つの３×３行列で表される畳み込み出力特徴マップをインターリーブして６×６行列のインターリーブ合成特徴マップを得ることができる。

ステップＳ１５０で得られたインターリーブ合成出力は、少なくとも、最初に提供された逆畳み込みカーネル及び特徴マップに対応する逆畳み込み出力を含むことができる。例えば、いくつかの実施例において、ステップＳ１５０で得られたインターリーブ合成出力は、最初に提供された逆畳み込みカーネル及び特徴マップの逆畳み込み出力である。別のいくつかの実施例において、インターリーブ合成をトリミングして、逆畳み込み出力を得ることもできる。したがって、本実施例に係る方法１００は、ステップＳ１６０をさらに含むことができる。

Ｓ１６０では、インターリーブ出力をトリミングして、逆畳み込みカーネル及び最初の入力特徴マップに対応する逆畳み込み出力を得る。

具体的には、ステップＳ１６０では、トリミング後のサイズが逆畳み込み出力のサイズに対応するまで、インターリーブ合成出力の右側及び下側に対してトリミングすることができる。例えば、下記の式１１、式１２の計算によって逆畳み込み出力のサイズｈ_ｏとｗ_ｏを決定することができる。
ｈ_ｏ＝（ｈ－１）×ｓ_ｈ－２×ｐ_ｈ＋ｋ_ｈ＋ｏｐ_ｈ（式１１）
ｗ_ｏ＝（ｗ－１）×ｓ_ｗ－２×ｐ_ｗ＋ｋ_ｗ＋ｏｐ_ｗ（式１２）

そして、式１３～式１６の計算によってインターリーブ合成出力のサイズｈ_ｆｏとｗ_ｆｏを決定することができ、ｈ′_ｏとｗ′_ｏは、各最適化畳み込みカーネルの畳み込み出力のサイズである。
ｈ_ｆｏ＝ｓ_ｈ×ｈ′_ｏ（式１３）
ｗ_ｆｏ＝ｓ_ｗ×ｗ′_ｏ（式１４）
ｈ′_ｏ＝ｈ＋ｐ′_ｈｔ＋ｐ′_ｈｂ－ｋ′_ｈ＋１（式１５）
ｗ′_ｏ＝ｗ＋ｐ′_ｗｌ＋ｐ′_ｗｒ－ｋ′_ｗ＋１（式１６）

したがって、ステップＳ１６０では、インターリーブ出力の右側で（ｗ_ｆｏ－ｗ_ｏ）列をトリミングし、下側で（ｈ_ｆｏ－ｈ_ｏ）行をトリミングして、サイズ（ｈ_ｏ，ｗ_ｏ）の逆畳み込み出力を得ることができる。

図５の例では、上記の式によって算出された畳み込み出力のサイズが３×３であり、インターリーブ合成出力のサイズが６×６であり、逆畳み込み出力のサイズが５×５であるため、トリミングステップＳ１６０では、インターリーブ合成出力の右側の１列の画素と下側の１行の画素とを除去して逆畳み込み出力を得る。なお、いくつかの実施例において、計算によって逆畳み込み出力のサイズと等しいインターリーブ出力のサイズを得た場合、トリミングステップＳ１６０を省略してもよいということは理解できる。

上記の図４及び図５を参照した上記の説明によれば、上記の実施例の方法を利用すると、専用の逆畳み込みハードウェアを提供することなく、畳み込みハードウェアを使用して特徴マップに対して逆畳み込み処理を実行することができるため、ハードウェアの複雑さを低減し、チップの面積オーバーヘッドと電力消費オーバーヘッドを節約することができる。

そして、当該方法は入力特徴マップに対してスパース化処理を行う必要がなく、最適化処理によりゼロ値の無効な重みを多く除去するため、無効な演算を大幅に減少させて、ハードウェアの動作効率を向上させることができ、関連ハードウェアの遅延とエネルギー消費特性を改善し、オンチップキャッシュスペースに対する要求を減少させるため、ハードウェア費用のより一層の低減に有利である。

例示的な装置
図６は、例示的な一実施例に係る特徴マップに対して逆畳み込み処理を行うための装置２００の機能ブロック図を示す。なお、装置２００の各機能モジュールは、上記での図４と図５を参照して説明した方法１００の各ステップを実行するために用いられるため、以下、各モジュールを簡潔に説明し、詳細については上記した方法１００を参照することができる。

図６に示すように、装置２００は、読み取りモジュール２１０と、ゼロ埋めモジュール２２０と、畳み込みカーネル生成モジュール２３０と、最適化モジュール２４０と、畳み込みモジュール２５０と、インターリーブ合成モジュール２６０と、を含むことができる。

読み取りモジュール２１０は、上記のステップＳ１１０で説明したように、特徴マップ及び逆畳み込みカーネルを畳み込みハードウェアの例えばダイナミックランダムアクセスメモリＳＲＡＭのようなオンチップメモリに読み込むために用いられることができる。畳み込みハードウェアは、畳み込み処理を実行するために用いられる専用のハードウェア加速器であることができ、乗算器と加算器とによって構成される乗算加算アレイと、オンチップメモリと、を含むことができる。特徴マップ及び逆畳み込みカーネルは、例えば、メモリとして用いられるダイナミックランダムアクセスメモリＤＲＡＭ、フラッシュメモリ若しくは電気的消去可能プログラマブル読み取り専用メモリＥＥＰＲＯＭなどの不揮発性メモリから畳み込みハードウェアのオンチップメモリに読み込まれることができる。

ゼロ埋めモジュール２２０は、上記のステップＳ１１０で説明したように、特徴マップにゼロ埋め処理を行うために用いられることができる。いくつかの実施例において、様々な能動的な形式で特徴マップにゼロ埋め処理を行うことができ、例えば、特徴マップをオンチップメモリに読み込むと同時にゼロ埋めを行うか、又は、特徴マップをオンチップメモリに読み込んでからゼロ埋めを行うか、又は、オンチップメモリから特徴マップを読み出して例えば畳み込み演算若しくは他の処理に用いる時にゼロ埋めを行うことができる。

畳み込みカーネル生成モジュール２３０は、上記のステップＳ１２０で説明したように、逆畳み込みカーネルに基づいて複数の畳み込みカーネルを生成するために用いることができる。例えば、畳み込みカーネル生成モジュール２３０は、逆畳み込みカーネルに対応する畳み込みカーネルの数及びサイズを決定し、各畳み込みカーネルの各位置の重み値を決定することができる。

具体的には、畳み込みカーネル生成モジュール２３０は、各畳み込みカーネルの各位置について、当該畳み込みカーネルの高さ及び幅方向の二次元インデックスと、畳み込みカーネルの高さ及び幅のサイズと、当該位置の二次元座標値と、逆畳み込み演算に用いられる高さ及び幅方向のステップサイズ、高さ及び幅方向のゼロ埋めパラメーターと、に基づいて、逆畳み込みカーネルの対応する位置の二次元座標値を決定し、当該対応する位置の重み値を畳み込みカーネルの当該位置の重み値とすることができる。畳み込みカーネル生成モジュール２３０は、決定された逆畳み込みカーネルの対応する位置が逆畳み込みカーネルの位置座標範囲を超える場合、畳み込みカーネルの当該位置にゼロ値を挿入することができ、すなわち、当該位置の重みは、ゼロ値の無効な重みであることができる。

いくつかの実施例において、挿入されたゼロ値の無効な重みと逆畳み込みカーネルに最初に含まれているゼロ値の有効な重みとを区別するために、畳み込みカーネル生成モジュール２３０は挿入されたゼロ値の無効な重みにマークを付けて、無効な重みであることを指示することができる。

最適化モジュール２４０は、上記のステップＳ１３０で詳細に説明したように、各畳み込みカーネルから全要素が無効な重みである行及び／又は列を除去して最適化畳み込みカーネルを得、これに対応してゼロ埋め処理した後の特徴マップから対応する行及び／又は列を除去して各最適化畳み込みカーネルに対応する最適化特徴マップを得るために用いられることができる。また、各最適化畳み込みカーネルについて最適化モジュール２４０が決定した最適化特徴マップは、互いに異なることができる。

畳み込みモジュール２５０は、上記のステップＳ１４０で説明したように、畳み込みハードウェアの乗算加算アレイを利用して各最適化畳み込みカーネル及び対応する最適化特徴マップに畳み込み演算を行って、対応の各畳み込み出力を得ることができる。例えば、畳み込みモジュール２５０は、スライディング・ウィンドウにより、畳み込みカーネルにおけるそれぞれの重み値及び対応する特徴マップの特徴データを乗算器に提供することができ、乗算器で乗算演算が完了した後、その結果が加算器に出力され、他の乗算器の出力と累積され、得られた和は、オンチップメモリＳＲＡＭに記憶されることができる。

インターリーブ合成モジュール２６０は、上記のステップＳ１５０で説明したように、畳み込みモジュール２５０によって生成された複数の畳み込み出力特徴マップに対してインターリーブ合成処理を行って、インターリーブ合成出力を得ることができる。

例えば、インターリーブ合成モジュール２６０は、逆畳み込み演算に用いられる高さ方向のステップサイズ及び幅方向のステップサイズをパディングステップサイズとし、畳み込みカーネルの高さ及び幅方向の二次元インデックスをパディングオフセットとして、各畳み込み出力の各要素を合成行列にパディングし、このように生成されたインターリーブ合成出力は、少なくとも、最初に提供された逆畳み込みカーネル及び特徴マップに対応する逆畳み込み出力を含むことができる。

もう一例として、いくつかの実施例において、インターリーブ合成モジュール２６０によって得られたインターリーブ合成出力は、即ち最初に提供された逆畳み込みカーネル及び特徴マップの逆畳み込み出力である。

いくつかの実施例において、選択的には、装置２００は、上記のステップＳ１６０で説明したように、インターリーブ合成モジュール２６０によって生成されたインターリーブ合成出力特徴マップをトリミングして、逆畳み込み出力を得るトリミングモジュール２７０をさらに含むことができる。具体的には、トリミングモジュール２７０は、トリミング後のサイズが逆畳み込み出力のサイズに対応するまで、インターリーブ合成出力の右側及び下側に対してトリミングすることができる。

例示的な電子機器
図７は、例示的な一実施例に係る電子機器３００の構造のブロック図を示し、電子機器３００は、上記で図４～図６を参照して説明した、畳み込み操作により逆畳み込み処理を実施する方法を実行ために用いられることができる。

図７に示すように、電子機器３００は、１つ又は複数のプロセッサ３１０と、１つ又は複数のメモリ３２０と、畳み込みハードウェア加速器３３０と、１つ又は複数の入力出力（Ｉ／Ｏ）インタフェース３４０と、を含み、それらはバスシステム３５０によって互いに接続されることができる。

プロセッサ３１０は、データ処理能力及び／又は命令実行能力を有する任意の形態の処理ユニットであることができ、その例としては、中央処理装置（ＣＰＵ）、ＡＲＭプロセッサ、マイクロコントローラユニット（ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ、ＭＣＵ）、汎用プロセッサ、コントローラ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓ、ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）若しくは他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部品、又はそれらの任意の組み合わせがあるが、それらに限定されない。プロセッサ３１０は、それに関連するメモリ３２０内の命令を実行すること及び／又はそれとデータを交換することにより、バスシステム３５０によって結合された他の部品を制御して協働させて、上記した方法、ステップ又は機能を実行することができる。

メモリ３２０は、様々な形態の例えば揮発性メモリ及び／又は不揮発性メモリのようなコンピュータ読み書き可能記憶媒体を含むことができる。前記揮発性メモリは、例えばダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＲＡＭ）及び／又はキャッシュ（ｃａｃｈｅ）等を含むことができる。前記不揮発性メモリは、例えば電気的消去可能プログラマブル読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＥＰＲＯＭ）、ハードディスク、フラッシュメモリ等を含むことができる。読み書き可能記憶媒体は、例えば電気、磁気、光学、電磁気、赤外線、半導体のシステム、装置若しくはデバイス、又はこれらの任意の組み合わせを含むことができるが、それらに限定されない。

また、メモリ３２０には、コンピュータ実行可能命令が記憶されることができ、前記命令は、プロセッサ３１０によって実行されることにより、バスシステム３５０によって結合された他の部品を制御して協働させて、上記した方法、ステップ又は機能を実行することができる。

畳み込みハードウェア加速器３３０は、畳み込みニューラルネットワークハードウェア加速器又は専用の畳み込みハードウェアとも呼ばれ、畳み込み関連処理を実行するように設計された専用のハードウェアであることができる。図７に示すように、畳み込みハードウェア加速器３３０は、乗算加算アレイ３３２とオンチップメモリ３３４とを含むことができる。なお、オンチップメモリ３３４とは対照的に、上記したメモリ３２０は、オフチップメモリとも呼ばれることができる。乗算加算アレイ３３２は、複数の乗算器と複数の加算器とによって構成されるアレイを含むことができ、特徴マップ及び畳み込みカーネルに対して畳み込み処理を実行するために用いられる。オンチップメモリ３３４は、例えば、スタティックランダムアクセスメモリＳＲＡＭを含むことができ、畳み込み演算を行うために乗算加算アレイ３３２に提供されるデータ及び乗算加算アレイ３３２によって生成されるデータをキャッシュするために用いられる。

Ｉ／Ｏインタフェース３４０は、様々な入出力装置に接続される、例えばカメラインタフェース、レーダーインタフェース、タッチパネルインタフェース、ネットワークインタフェース、特定の通信プロトコルに対応するコントローラインタフェース等のような通信インタフェースを含むことができる。なお、実際の用途に応じて様々なＩ／Ｏインタフェース３４０を提供することができる。

バスシステム３５０は、電子機器３００の各部品を接続させ、それら間の通信をサポートする任意のバスシステムであることができ、その例としては、ＣＡＮ（エリアネットワークコントローラ）バス、ＩＳＡ（業界標準アーキテクチャ）バス、ＰＩＣ（ペリフェラル・コンポーネント・インターコネクト）又はＰＣＩ－Ｅ（ペリフェラル・コンポーネント・インターコネクト・エクスプレス）バス、Ｉ２Ｃ（集積回路間通信）バス、ＳＰＩ（シリアル・ペリフェラル・インタフェース）バス、ＵＡＲＴ（ユニバーサル非同期シリアルポート）バス等を含むことができるが、それらに限定されない。

当然ながら、図７では、簡素化のために、本開示に関連する電子機器３００の構成要素の一部のみを示し、他の多くの構成要素は省略している。なお、図７に示される電子機器３００の構成要素及び構造は、例示的なものに過ぎず、限定的なものではなく、要求により、電子機器３００は、他の構成要素及び構造を有してもよい。

図８は、例示的な一実施例に係る畳み込みハードウェア加速器４００の構造のブロック図を示し、図８に示される畳み込みハードウェア加速器４００は、例えば、図７の電子機器３００の畳み込みハードウェア加速器３３０として用いられることができる。図８に示すように、畳み込みハードウェア加速器４００は、インタフェースユニット４１０と、特徴マップキャッシュユニット４２０と、畳み込みカーネルキャッシュユニット４３０と、乗算器アレイ４４０と、加算ツリーユニット４５０と、バイアスユニット４６０と、出力キャッシュユニット４７０と、を含むことができる。特徴マップキャッシュユニット４２０と畳み込みカーネルキャッシュユニット４３０と出力キャッシュユニット４７０とをオンチップキャッシュと併称し、乗算器アレイ４４０と加算ツリーユニット４５０とを乗算加算アレイと併称することができる。

図８を参照すると、インタフェースユニット４１０は、外部から入力されるデータ（例えば、特徴マップデータ及び畳み込みカーネルデータ）を受信、又は、外部に出力データ（例えば、特徴マップに畳み込み演算を行って得た出力データ）を提供するように、外部と通信接続される様々なインタフェースを含むことができる。いくつかの実施例において、インタフェースユニット４１０は、ネットワークオンチップ（ＮｅｔｗｏｒｋｏｎＣｈｉｐ、ＮｏＣ）として実施されることができ、拡張性が優れ、電力消費が低く、通信効率及び信頼性が高い等の利点を有するため、ニューラルネットワーク加速器に特に適合する。当然ながら、インタフェースユニット４１０は、例えば、図７に示されるバスシステム３５０と通信接続されることに適合する他のインタフェースを含むこともできる。

特徴マップキャッシュユニット４２０は、インタフェースユニット４１０を介して特徴マップデータを受信して記憶することができる。ここで、特徴マップは、カメラで撮影し、例えばトリミング、サンプリング等の処理のような前処理を経由した最小に入力される入力特徴マップであってもよいし、ニューラルネットワークにおける上の層から出力される特徴マップであってもよく、一般に行列の形態で表現される。

畳み込みカーネルキャッシュユニット４３０は、インタフェースユニット４１０を介して畳み込みカーネル又は逆畳み込みカーネルデータを受信して記憶することができる。例えば、畳み込みハードウェア加速器４００は、畳み込みカーネルを受信して通常の畳み込み処理を実行することもできるし、逆畳み込みカーネルを受信し、上記で図４～図６を参照して説明した方法に従って畳み込み演算により逆畳み込み処理を実行することもできる。当該方法では、逆畳み込みカーネルは、図４に示されるステップＳ１２０を参照して詳細に説明したように、複数の畳み込みカーネルに分割されることができる。畳み込みカーネル及び逆畳み込みカーネルは、１つ又は複数の重み値を含むことができ、一般に二次元行列の形態で表現され、選択的には、畳み込み演算の出力値の線形調整のためにバイアス値を含むことができる。

なお、特徴マップキャッシュユニット４２０と畳み込みカーネルキャッシュユニット４３０と後述する出力キャッシュユニット４７０とは、個別のキャッシュデバイスであってもよいし、１つのキャッシュデバイスにおける異なる記憶領域であってもよい。例として、特徴マップキャッシュユニット４２０、畳み込みカーネルキャッシュユニット４３０及び出力キャッシュユニット４７０は、所定のビット幅を有するスタティックランダムアクセスメモリＳＲＡＭとして実施されることができる。

乗算器アレイ４４０は、複数の乗算器４４１を含むことができ、各乗算器４４１は、特徴マップキャッシュユニット４２０から特徴データを受信し、畳み込みカーネルキャッシュユニット４３０から畳み込みカーネルの重み値を受信し、当該特徴データと重み値とを乗算演算して、両者の積を出力することができる。

加算ツリーユニット４５０は、ツリー状の構造に配置された複数の加算器４５１を含むことができる。加算ツリーユニット４５０は、乗算器アレイ４４０から各乗算器４４１の出力値を受信し、これらの出力値を累積して和の値を得て出力することができる。

バイアスユニット４６０は、畳み込みカーネルキャッシュユニット４３０からバイアス値を受信し、加算ツリーユニット４５０からその出力値を受信し、当該バイアス値を利用して加算ツリーユニット４５０の出力値の線形調整を行い、調整後の値を出力することができる。バイアスユニット４６０から出力される値は、畳み込み演算の出力値として出力キャッシュユニット４７０に記憶されることができる。スライディング・ウィンドウにより上記のステップを繰り返すことで、入力特徴マップ全体及び対応する畳み込みカーネルの畳み込み演算結果である出力特徴マップを得ることができ、後続の処理に提供するために出力キャッシュユニット４７０に記憶しておくことができる。

なお、図８では、簡素化のために、本開示に関連する畳み込みハードウェア加速器４００の構成要素の一部のみを示し、他の多くの構成要素は省略する。例えば、畳み込みハードウェア加速器４００は、畳み込み演算を制御するために用いられる畳み込み制御ユニット及びデータを輸送するために用いられるデータ制御ユニット等をさらに含んでもよく、これらのユニットの機能及び原理等は、本分野で周知のことであるため、説明を省略する。なお、図８に示される畳み込みハードウェア加速器４００の構成要素及び構造は、例示的なものに過ぎず、限定的なものではなく、上記した方法のステップによれば、畳み込みハードウェア加速器４００は、他の構成要素及び構造を有してもよい。

上記では専用の加速器を中心に、畳み込み演算による逆畳み込み処理方法を説明したが、本開示の原理は、例えばＣＰＵやＧＰＵのような汎用ハードウェアを利用して実現して、類似の技術的効果を実現することもできる。例えば、スパース化処理を避けることにより、チップの面積オーバーヘッド及び電力消費オーバーヘッドを削減することができ、最適化処理により、無効な演算を大幅減少してハードウェアの動作効率をより一層向上させ、遅延及びエネルギー消費特性を改善し、汎用プロセッサに対するオンチップキャッシュスペースの要求低減させ、ハードウェア費用の低減に有利である。

例示的なコンピュータプログラム製品およびコンピュータ可読記憶媒体
上記の方法及び機器に加えて、本開示の実施例は、コンピュータプログラム命令を含むコンピュータプログラム製品であることもでき、前記コンピュータプログラム命令がプロセッサによって実行されると、畳み込みニューラルネットワーク加速器を制御して本明細書の上記の「例示的な方法」の部分で説明した本開示の各実施例に係る特徴マップに対する逆畳み込み処理方法を実行させることができる。

前記コンピュータプログラム製品は、１種又は複数種のプログラミング言語の任意の組み合わせで本開示の実施例の操作を実行するためのプログラムコードを作成することができ、前記プログラミング言語は、例えば、Ｊａｖａ（登録商標）、Ｃ＋＋、ｐｈｙｏｎ等のオブジェクト指向プログラミング言語を含み、例えば、「Ｃ」言語又は類似のプログラミング言語などの通常の手続き型プログラミング言語をさらに含む。プログラムコードは、下記のように実行されることができ、すなわち、ユーザーの計算機器上で全体的に実行される、ユーザー機器上で部分的に実行される、個別のソフトウェアパッケージとして実行される、一部はユーザーの計算機器上で実行され、別の一部は遠隔の計算機器上で実行される、又は、遠隔の計算機器若しくはサーバー上で全体的に実行されることができる。

さらに、本開示の実施例は、コンピュータプログラム命令が記憶されるコンピュータ可読記憶媒体であることができ、前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサに、本明細書の上記の「例示的な方法」の部分で説明した本開示の様々な実施例に係る逆畳み込み処理方法を実行させる。

前記コンピュータ可読記憶媒体は、１つ又は複数の可読媒体の任意の組み合わせを用いることができる。可読媒体は、可読信号媒体であってもよいし、可読記憶媒体であってもよい。可読記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、半導体のシステム、装置若しくはデバイス、又はこれらの任意の組み合わせを含み得るが、それらに限定されない。可読記憶媒体のより具体的な例（非網羅的なリスト）は、１つ又は複数の導線を有する電気的接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ若しくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、又はこれらの任意の適切な組み合わせを含む。

上記では特定の実施例を参照しながら本開示の基本的原理を説明してきたが、本開示に言及される利点、優位性、効果等は、限定されず、例示的なものに過ぎず、これらの利点、優位性、効果等は、本開示の各実施例が備えなければならないというわけではない。また、上記の開示の詳細な内容は、限定するためのものではなく、例を挙げて理解しやすくするためのものに過ぎず、上記の詳細な内容は、本開示が上記の詳細で実現しなければならないと限定するものではない。当業者であれば、本開示から教示を受けて、他の多くの形態や詳細な内容の変更に想到することができ、これらの変更も本開示の特許請求の範囲に属する。

本開示に係るデバイス、装置、機器、システムのブロック図は、単なる例示的な例にすぎず、ブロック図に示される形態で接続、配置、構成されなければならないと要求や示唆することを意図しない。当業者が理解できるように、任意の形態でこれらのデバイス、装置、機器、システムを接続、配置、構成してもよい。「含む」、「備える」、「有する」等のような用語は、「…を含むがこれに限定されない」を指す開放的な表現であり、互いに置き換えて使用され得る。本明細書で使用される「又は」及び「及び」との用語は、「及び／又は」との用語を指し、そのようではないと明記しない限り、互いに置き換えて使用され得る。ここで使用される「例えば」との用語は、表現「例えば、であるが、それらに限定されない」との連語を指し、互いに置き換えて使用され得る。

なお、本開示の装置、機器、方法において、各部品又は各ステップを分解及び／又は再度組み合わせされることができる。これらの分解及び／又は再度組み合わせを本開示の同等な形態と見なされるべきである。

本開示の各態様の上記説明は、当業者が本開示を作成又は使用することを可能にために提供される。これらの態様の様々な修正は、当業者にとって非常に自明なものであり、本明細書で定義される一般的な原理は、本開示の範囲を逸脱することなく他の態様に適用されることができる。したがって、本開示は、本明細書に示された態様に限定されることを意図せず、本明細書に開示された原理及び新規な特徴と一致する最大の範囲となる。

上記の説明は、例示及び説明のために提供される。さらに、この説明は、本開示の実施例を本明細書に開示された形態に限定することを意図しない。上記で例示的な態様及び実施例をいくつか説明したが、当業者であれば、いくつかの変形、修正、変更、追加、部分的な組み合わせに想到できる。

Claims

乗算加算アレイとオンチップメモリとを含む専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法であって、
特徴マップ及び逆畳み込みカーネルを前記オンチップメモリに読み込み、前記特徴マップにゼロ埋め処理を行うステップと、
前記逆畳み込みカーネルに基づいて複数の畳み込みカーネルを決定するステップと、
各畳み込みカーネルから全要素が無効な重みである行及び／又は列を削除して最適化畳み込みカーネルを得、ゼロ埋め後の特徴マップから対応する行及び／又は列を削除して各最適化畳み込みカーネルに対応する最適化特徴マップを得るステップであって、前記無効な重みは、各畳み込みカーネルを決定するときに挿入されたゼロ値の重みであるステップと、
前記乗算加算アレイを利用して各最適化畳み込みカーネル及び対応する最適化特徴マップに対して畳み込み処理を行って、複数の畳み込み出力を得るステップと、
前記複数の畳み込み出力に対してインターリーブ合成処理を行って、前記特徴マップ及び前記逆畳み込みカーネルに対応する逆畳み込み出力を含むインターリーブ合成出力を得るステップと、を含む、
ことを特徴とする専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
前記乗算加算アレイに含まれる乗算器の数は、各最適化畳み込みカーネルに含まれる重み値の数以上である、
ことを特徴とする請求項１に記載の専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
前記特徴マップに対してゼロ埋め処理を行うステップは、
前記逆畳み込みカーネルの高さサイズと、逆畳み込み演算に用いられる高さ方向のステップサイズ及び高さ方向のゼロ埋めパラメーターと、に基づいて、前記特徴マップの上側でのゼロ埋めの数及び下側でのゼロ埋めの数を決定するステップと、
前記逆畳み込みカーネルの幅サイズと、逆畳み込み演算に用いられる幅方向のステップサイズ及び幅方向のゼロ埋めパラメーターと、に基づいて、前記特徴マップの左側でのゼロ埋めの数及び右側でのゼロ埋めの数を決定するステップと、を含み、
前記下側でのゼロ埋めの数は、前記上側でのゼロ埋めの数より１行多く、
前記右側でのゼロ埋めの数は、前記左側でのゼロ埋めの数より１列多い、
ことを特徴とする請求項１に記載の専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
前記逆畳み込みカーネルに基づいて複数の畳み込みカーネルを決定するステップは、
前記逆畳み込みカーネルに対応する畳み込みカーネルの数とサイズを決定するステップであって、前記畳み込みカーネルの数は、逆畳み込み演算に用いられる高さ方向のステップサイズと幅方向のステップサイズとの積と等しく、前記畳み込みカーネルの高さサイズは、前記逆畳み込みカーネルの高さサイズと、逆畳み込み演算に用いられる高さ方向のステップサイズ及び高さ方向のゼロ埋めパラメーターとの関数であり、畳み込みカーネルの幅サイズは、前記逆畳み込みカーネルの幅サイズと、逆畳み込み演算に用いられる幅方向のステップサイズ及び幅方向のゼロ埋めパラメーターとの関数であるステップと、
各畳み込みカーネルの各位置について、当該畳み込みカーネルの高さ及び幅方向の二次元インデックスと、当該畳み込みカーネルの高さサイズ及び幅サイズと、当該位置の二次元座標値と、逆畳み込み演算に用いられる高さ方向のステップサイズ及び幅方向のステップサイズと、高さ方向のゼロ埋めパラメーター及び幅方向のゼロ埋めパラメーターと、に基づいて、前記逆畳み込みカーネルの対応する位置の二次元座標値を決定し、前記対応する位置の重み値を前記畳み込みカーネルにおける当該位置の重み値とするステップと、を含み、
決定された前記逆畳み込みカーネルの対応する位置の二次元座標値が前記逆畳み込みカーネルの位置座標範囲を超える場合、前記畳み込みカーネルの当該位置の重みは、ゼロ値を有する無効な重みであると決定する、
ことを特徴とする請求項１に記載の専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
前記複数の畳み込み出力に対してインターリーブ合成処理を行うステップは、
逆畳み込み演算に用いられる高さ方向のステップサイズ及び幅方向のステップサイズをパディングステップサイズとし、畳み込みカーネルの高さ及び幅方向の二次元インデックスをパディングオフセットとして、各畳み込み出力の各要素を合成行列にパディングするステップを含む、
ことを特徴とする請求項４に記載の専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
前記複数の畳み込み出力に対してインターリーブ合成処理を行ってインターリーブ合成出力を得た後に、
前記インターリーブ合成出力に不要な部分が含まれている場合、前記インターリーブ合成出力をトリミングして前記不要な部分を切り取ることにより、前記特徴マップ及び前記逆畳み込みカーネルに対応する逆畳み込み出力を得るステップをさらに含む、
ことを特徴とする請求項１に記載の専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
前記インターリーブ合成出力をトリミングするステップは、
トリミング後のサイズが前記特徴マップ及び前記逆畳み込みカーネルの逆畳み込み出力のサイズに対応するまで、前記インターリーブ合成出力をトリミングして前記インターリーブ合成出力の右側及び下側を切り取るステップを含む、
ことを特徴とする請求項６に記載の専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理方法。
乗算加算アレイとオンチップメモリとを含む専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理装置であって、
特徴マップ及び逆畳み込みカーネルを前記オンチップメモリに読み込むために用いられる読み取りモジュールと、
前記特徴マップに対してゼロ埋め処理を行うために用いられるゼロ埋めモジュールと、
前記逆畳み込みカーネルに基づいて、複数の畳み込みカーネルを生成するために用いられる畳み込みカーネル生成モジュールと、
各畳み込みカーネルから全要素が無効な重みである行及び／又は列を削除して最適化畳み込みカーネルを得、ゼロ埋め後の特徴マップから対応する行及び／又は列を削除して各最適化畳み込みカーネルに対応する最適化特徴マップを得るために用いられる最適化モジュールであって、前記無効な重みは、各畳み込みカーネルを決定するときに挿入されたゼロ値の重みである最適化モジュールと、
前記乗算加算アレイを利用して各最適化畳み込みカーネル及び対応する最適化特徴マップに対して畳み込み処理を行って、複数の畳み込み出力を得るために用いられる畳み込みモジュールと、
前記複数の畳み込み出力に対してインターリーブ合成処理を行って、前記特徴マップ及び前記逆畳み込みカーネルに対応する逆畳み込み出力を含むインターリーブ合成出力を得るために用いられるインターリーブ合成モジュールとを含む、
ことを特徴とする専用の畳み込みハードウェアによる特徴マップに対する逆畳み込み処理装置。
乗算加算アレイとオンチップメモリとを含む専用の畳み込みハードウェアと、
命令が記憶される少なくとも１つのオフチップメモリと、
少なくとも１つのプロセッサと、を含み、
前記命令が前記プロセッサによって実行されると、請求項１～７のいずれか１項に記載の方法を実行する、
ことを特徴とする電子機器。
コンピュータプログラム命令が記憶され、
前記コンピュータプログラム命令が電子機器のプロセッサによって実行されると、前記電子機器は請求項１～７のいずれか１項に記載の方法を実行し、
前記電子機器は、乗算加算アレイとオンチップメモリとを有する専用の畳み込みハードウェアをさらに含む、
ことを特徴とするコンピュータ可読記憶媒体。