JP6727642B2

JP6727642B2 - 学習型アルゴリズムによるフォーカス補正処理方法

Info

Publication number: JP6727642B2
Application number: JP2016090290A
Authority: JP
Inventors: 力松永
Original assignee: KABUSHIKI KAISYA HOUEI
Current assignee: KABUSHIKI KAISYA HOUEI
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2020-07-22
Anticipated expiration: 2036-04-28
Also published as: JP2017199235A

Description

本発明は、学習型アルゴリズムによるフォーカス補正処理方法に関する。

映像確認のための低解像度なビューファインダー映像の視認性を向上させるために、フォーカス調整を補助する信号を多重することによって、低解像度なビューファインダーでスーパーハイビジョン映像におけるフォーカス調整を可能とする方法が、下記非特許文献１に提案されている。

また、画像処理によるフォーカス補正は、様々な分野領域における画像復元処理として歴史が古く、多くの研究がある。天体画像に関しては、下記非特許文献２に詳しく開示されている。

船津良平、山下誉行、三谷公二、野尻裕司、スーパーハイビジョンカメラ用フォーカス補助信号、映像情報メディア学会誌、 65-4 (2011年4月), 531-539. J.-L.Starck, and F. Murtagh, Astronomical Image and Data Analysis, Springer, 2006. W. H. Richardson, Bayesian-based iterative method of image restoration, Journal of the Optical Society of America, 62-1, pp. 55-59(1972) L. B. Lucy, An iterative technique for the rectification of observed distributions, Astronomical Journal, 79-6, pp. 745-754(1974)

特開２０１０−０６１５４１号公報特開２０１４−０９９０４８号公報

フォーカス調整を補助する信号を映像に多重する方法を用いたとしても、目視である以上、十分なフォーカス調整が可能になるとは限らない。画像処理における方法の多くは、再構成型の処理であり、それらは、反復によるものである。代表的な方法としては、 Richardson-Lucyアルゴリズムによる方法が知られているが、反復による復元処理は膨大な処理コストが掛かる。反復回数を減らしたり、固定回数で行う等の工夫も行われているが、それでも、リアルタイムに高精細な映像を処理することは、不可能である。

最小二乗の意味で最適なデフラー復元を行うフィルタとして、ウィーナーフィルタが知られているが、最適な復元を行うためには、真の画像とノイズ成分のパワースペクトルが必要になる。真の画像を復元する処理のために、真の画像の情報が必要になるということは、卵と鶏の問題になる。そのような画像やノイズ成分に関する情報が近似的に得られる場合もあるが、通常は経験的な調整パラメータになる。処理には、画像全体の画素を用いるため、フレームメモリが必要になる。また、周波数領域での処理になるため、処理コストも大きい。本発明は、上述の問題点に鑑み為されたものであり、リアルタイムに高精細な映像を処理する学習型アルゴリズムによるフォーカス補正処理方法を提案することを目的とする。

本発明は、学習型アルゴリズムである畳み込みニューラルネットワークをデブラー復元処理に用いる。真の画像(出力期待画像)から、フォーカスずれを想定した平滑化入力画像を生成する。予め、そのような入出力画像を学習用データとして、平滑化入力画像をネットワークにより処理した結果の復元画像と真の画像の差分二乗和が最小になるようにネットワークのパラメータを推定(学習)する。学習パラメータは、学習用画像とは異なる別の評価用画像におけるデブラー復元結果の平均ISNRが最大となるように決定する。そのようにして、決定された学習済みパラメータによる畳み込みニューラルネットワークを用いて、フォーカス補正処理を行う。

本発明により、リアルタイムに高精細な映像を処理する学習型アルゴリズムによるフォーカス補正処理方法を提案できる。

畳み込みニューラルネットワークのブロック図を説明する図であり、フォーカス補正のためのデブラー復元処理を行う畳み込みニューラルネットワークのブロック図である。１パスビデオ超解像における非線形エンハンサ処理を説明するブロック図である。ウィーナーフィルタを説明するための画像（映像）の劣化過程を説明するブロック図である。非線形エンハンサ処理の動作を示す図である。フォーカス補正のためのデブラー処理を行う畳み込みニューラルネットワークのブロツク図である。学習に用いたKodakカラー評価画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）を示す。 (a)は、学習曲線（右上の全体の様子を拡大して表示）を示し、（b）は反復回数に対する学習用画像(training)、および評価用画像(test)の復元結果の平均ISNR［dB］を説明する図である。学習パラメータによる評価用画像のデブラー処理結果の例を説明する図であり、左からガウシアン平滑化入力画像(σ=1.0)、デブラー処理による復元画像、真の画像(出力期待画像)である。 (ａ)は学習パラメータにおける特徴マップのひとつの入力畳み込み重みパラメータを画像として可視化したものであり、いずれの特徴マップにおけるパラメータ画像もほぼ同じであるが、実際の大きさはそれぞれ異なっており(特徴マップ毎にパラメータの最大値最小値により正規化すると同じように見える)、(b)は、その２次元周波数特性を３次元プロットしたものである(パラメータの総和で正規化した結果から計算した)。ガウシアン平滑化（σ＝0.8〜1.2)に対する評価用画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）18枚の復元結果の平均ISNR［dB］であり、画素値に加えた正規ノイズレベルσ_Ｎが0.5，1.0の結果も示している。ＲｅＬＵ活性化関数（参考文献［5,14］）により半波整流された正弦波を説明する図である。

（発明の概要１）
４Ｋ／８Ｋ(スーパーハイビジョン)超高精細映像におけるフォーカスずれを補正することを目的として、学習型アルゴリズムである畳み込みニューラルネットワークによるデブラー処理を行う。真の画像(出力期待画像)から、フォーカスずれを想定した平滑化入力画像を生成する。予め、そのような入出力画像を学習用データとして、平滑化入力画像をネットワークにより処理した結果の復元画像と真の画像の差分二乗和が最小になるようにネットワークのパラメータを推定(学習)する。学習結果のパラメータを用いた畳み込みニューラルネットワークによる処理は、ＣＰＵ、ＧＰＵ、ＦＰＧＡによる実装が可能であり、従来法と比較して、少ない処理コスト、局所領域処理による低フレーム遅延、高いデブラー性能、ノイズ耐性を実現する。

上述のように、畳み込みニューラルネットワークによるデブラー復元処理は、学習用画像における最小二乗の意味で最適な非線形エンハンサであり、ウィーナーフィルタに匹敵するデブラー復元精度を実現する。局所領域処理であるにも関わらず、ウィーナーフィルタの良い近似であり、画像(映像)に含まれるノイズに対する耐性もウィーナーフィルタよりもロバストな方法である。畳み込みニューラルネットワークは、ＣＰＵ、ＧＰＵ、ＦＰＧＡにより実現することが可能であり、高精細映像におけるリアルタイム処理を行うための有効な方法である。

（発明の概要２）
本発明は、学習型アルゴリズムである畳み込みニューラルネットワークにより画像(映像)復元処理を行う。また、事前の学習により、期待する出力画像を生成するためのネットワークパラメータを学習する。パラメータの決定には、学習用画像とは異なる別の評価用画像における平均ISNRが最大となるパラメータとする。また、このような学習用画像とは異なる評価用画像を用いることにより、学習用画像に過剰に適合するパラメータの過学習を防ぎ、学習用画像以外の画像(映像)においても、高いデブラー復元性能を実現する汎化能力を得ることが可能となる。

また、畳み込みニューラルネットワークを構成する入力畳み込み層(特徴マップ)や、畳み込みニューラルネットワークを構成する入力畳み込み層(特徴マップ)に続く非線形活性化関数や、畳み込みニューラルネットワークを構成する入力畳み込み層(特徴マップ)及び非線形活性化関数の結果を統合する出力層を備え、さらに、畳み込みニューラルネットワークの各層のパラメータを推定するための学習用データとしての画像および学習方法とする。また、畳み込みニューラルネットワークの各層のパラメータを決定するための学習用画像とは異なる別の評価用画像における平均ISNRが最大になるようにパラメータを決定する方法とする。

実現方法としては、ベースバンドビデオ信号を処理するハードウェア装置により実現することも可能であるし、ＭＸＦファイルを処理するソフトウェアおよびそれを実行するコンピュータをベースとした装置により実現することも可能であるし、ＭＸＦファイルをベースバンドビデオ信号に変換、あるいは逆変換する装置を用いれば、いかなる構成による実現も可能である。カメラ映像を動画像圧縮したもの、あるいはＭＸＦファイルをＩＰ(インターネット・プロトコル)伝送して、クラウド上で処理を行うことも可能である。ＩＰ伝送された圧縮映像をベースバンドビデオ信号に復号して、フォーカス補正処理を行った結果を再び圧縮してストリーム配信する等様々なシステム形態が考えられる。

畳み込みニューラルネットワークにおける入力畳み込み層(特徴マップ)の数や、入力畳み込み層と出力層の間に、さらに各層を接続する複数の隠れ層、非線形活性化関数を追加して、ネットワーク構造を多層化することにより、デブラー復元精度の向上が期待される。学習用画像として、画像(映像)に含まれると想定されるノイズを付加したものを用意することによって、ノイズ除去能力も同時に有することが期待される。

図１は、畳み込みニューラルネットワークのブロック図を説明する図であり、フォーカス補正のためのデブラー復元処理を行う畳み込みニューラルネットワークのブロック図である。入力画像ｇ_i,jを(2L＋1)×(2L＋1)画素ブロックサイズのカーネルにより、畳み込み処理を行う。そのような、Ｍ組の入力畳み込み層(特徴マップ)の結果をそれぞれ非線形活性化関数により非線形レベル操作を行う。非線形活性化関数の結果を重み付け加算した出力層の結果を出力クリップ関数処理したものを、最終的な出力画像

とする。

畳み込みニューラルネットワークによるデブラー復元処理の比較として、１パスビデオ超解像に用いた非線形エンハンサ処理、および最小二乗の意味で最適な復元フィルタとして知られているウィーナーフィルタについて、以下に示す。

図２は、１パスビデオ超解像における非線形エンハンサ処理を説明するブロック図である。１次元の場合で説明する。入力信号をＤｏＧ(Difference of Gaussian)フィルタによりエッジ成分を検出し、それをレベルに関する非線形操作により高調波成分を復元して、入力信号に加算する。過剰な強調を抑制するために、入力近傍領域における画素の最大最小値を探索して、クリップレベルとする適応クリップ処理を併用する。また、図３は、ウィーナーフィルタを説明するための画像（映像）の劣化過程を説明するブロック図である。

となるような，

を求めるフィルタ。周波数領域で考えると、

ここで、

は、

の複素共役であり、調整関数に関しては、

である。
また、

は、それぞれノイズ成分、真の画像のパワースペクトル密度である。

（詳細な説明：超高精細映像のための畳み込みニューラルネットワークによるフォーカス補正について）

（Abstract）
4K/8K (スーパーハイビジョン（参考文献［15］））超高精細映像におけるフォーカスずれを補正することを目的として、畳み込みニューラルネットワークによるデブラー処理を行う。畳み込みニューラルネットワークによるデブラー処理の復元性能、ノイズ耐性を評価する。さらに、１パスビデオ超解像（参考文献［12］）における非線形エンハンサ処理、真の画像との二乗誤差を最小化するウィーナーフィルタ（参考文献［21］）による結果と比較する。

（１はじめに）
次世代テレビ放送としての4Kの試験放送が2014年６月２日より、CS(Communication Satellite)、およびケーブルテレビにて開始された（次世代放送推進フォーラム（ＮｅｘＴＶ-Ｆ），http://www.nextv-f.jP/）。8K(スーパーハイビジョン（参考文献［15］）も含め、2018年(可能な限り早期に)の実用放送開始へ向けて加速している（総務省「4K・8Kロードマップに関するフォローアップ会合（第６回会合）配布資料」，平成２７年７月、http://www.soumu.go.jp/main_sosiki/kenkyu/4k8kroadmap/02ryutsu11_03000046.html）。

4K/8K放送におけるＨＤコンテンツのリパーパス(repurpose)のためには、解像度変換が必要になる。近年、超解像技術が盛んに研究されている（参考文献［16］）。その処理の多くは反復によるものであるが、本発明者は画像の局所的な時間空間方向による補間の重み付け平均とマルチスケール化した非線形エンハンサによる１パスビデオ超解像を提案した（参考文献［12］）。趙・松永（参考文献［23］）は１パスビデオ超解像処理をＧＰＵにより高速化した。

4K/8K超高精細映像の撮影には、フォーカスの調整が厳格に求められるが、映像の高解像度化により、光学サイズは大きく、撮像素子の画素サイズは小さくなり、被写界深度が浅くなると、フォーカス調整は格段に難しくなっている。撮影後にフォーカスずれが確認されることも少なくない。

船津ら（参考文献［6］）は、映像確認のための低解像度なビューファインダー映像の視認性を向上させるために、フォーカス調整を補助する信号を多重することによって、低解像度なビューファインダーでスーパーハイビジョン映像におけるフォーカス調整を可能とする方法を提案した。

本発明では、4K/8K超高精細映像におけるフォーカスずれを補正することを目的として、畳み込みニューラルネットワークによるデブラー処理を行う。畳み込みニューラルネットワークによるデブラー処理と１パスビデオ超解像における非線形エンハンサ処理との類似性を指摘するとともに、畳み込みニューラルネットワークにおけるレベルに関する非線形操作を行うReLU(Rectified Linear Unit)活性化関数（参考文献［5，14］）による処理結果をフーリエ級数展開することにより、高調波成分が発生していることを明らかにする。そして、畳み込みニューラルネットワークによるデブラー処理の復元性能、ノイズ耐性を評価する。さらに、１パスビデオ超解像（参考文献［12］）における非線形エンハンサ処理、真の画像との二乗誤差を最小化するウィーナーフィルタ（参考文献［21］）による結果と比較する。

近年、畳み込みニューラルネットワーク（参考文献［5，10］）は、深層学習(deep learning)として、再び注目が集まっているが、脳神経系における情報処理のモデルとしてのニューラルネットワークの歴史は古く、McCullochとPittsによる形式ニューロン（参考文献［13］）、Rosenblattによるパーセプトロン(preceptron)（参考文献［18］）まで遡ることができる。Rumelhurtら（参考文献［19］）が多層パーセプトロンの学習則として、誤差逆伝播法(バックプロパゲーション)を再発見したことから、1980年代に爆発的に広まった（甘利によって隠れ層を持つパーセプトロンの学習則が既に提案されていた（参考文献［1］）。深層学習による画像認識（参考文献［9］）において標準的に用いられている畳み込みニューラルネットワークも、当時ＮＨＫ放送科学基礎研究所(現ＮＨＫ放送技術研究所)に在籍していた福島によるネオコグニトロン（参考文献［5］）そのものである。シグモイド関数と比較して学習が高速に行われるとするReLU活性化関数（参考文献［14］）も既に用いられていた(ＲｅＬＵとは呼んでいない)。LeCunら（参考文献［10］）は，手書きの郵便番号を認識するために、畳み込みニューラルネットワークを誤差逆伝播法(バックプロパゲーション)により学習させた。ニューラルネットワークの初期の研究において日本人研究者の寄与があったことは、もっと認識されるべきだと思われる。）。

畳み込みニューラルネットワークによる深層学習は、画像認識を目的とした研究（参考文献［9］）が盛んであるが、デノイジングやデブラー、超解像といった画像処理にも用いられている（参考文献［7、4、3、22］）。デブラー処理も、様々な分野領域における画像復元処理（天体画像に関しては（参考文献［20］）が詳しい）として歴史が古く、多くの研究があるが、再構成型の処理は反復によるものである（参考文献［2］）。

本発明の説明構成は、２章で、１パスビデオ超解像における非線形エンハンサ処理、３章で、畳み込みニューラルネットワークの構成と学習方法について、それぞれ説明し、４章で、画像シミュレーションによる結果を示し、５章で纏める。

（２１パスビデオ超解像における非線形エンハンサ）
本発明者は、１パスビデオ超解像として、フレーム内空間方向性補間による解像度変換処理の結果の後処理として、画像のエッジ情報に基づいた非線形エンハンサ処理を行うことにより、さらなる解像度の向上を図った（参考文献［12］）。図４に非線形エンハンサ処理の動作を示す。

エッジの検出にはガウシアン差分（Difference of Gaussian、ＤｏＧ)フィルタを用いる。ガウシアン差分を計算するためのガウシアン平滑化フィルタの処理カーネルを、

とすると、画像I（ｘ）のＤｏＧフィルタは、

である(ただし、１次元の場合)。ここで、＊は畳み込み演算であり、σ１＜σ２である（σ１→０とすると、

となり、式（2）の結果を適当にゲインしたものを原信号に加算するのが、所謂“アンャープ・マスキング(Unsharp Masking)”に相当する。）。ＤｏＧフィルタはガウシアン平滑化フィルタの２次微分であるラプラシアン(Laplacian of Gaussian，ＬｏＧ)フィルタの良い近似であり、計算効率も高い。画像の場合には、水平垂直方向に分離して処理を行うことができる。ラプラシアンフィルタ同様、方向によらないエッジ検出が可能である。

ＤｏＧフィルタにより検出されたエッジ成分をレベルに関する非線形操作により高周波成分を拡張して、原画像に加えるが、ここで、非線形操作による過剰な強調を抑制するために、注目画素近傍における入力画素値の最大値最小値を探索して、それらの値による適応的なクリップ処理を行う。レベルに関する非線形操作としては、例えば、

ここで、sgn(・)は符号関数であり、ｒは２以上の定数である。本発明者は、さらに、このような非線形エンハンサをマルチスケール拡張している（参考文献［12］）(詳細省略)。

（３畳み込みニューラルネットワーク）
図５はフォーカス補正のためのデブラー処理を行う畳み込みニューラルネットワークのブロツク図である。畳み込みニューラルネットワークは最小構成の２層とする。畳み込みニューラルネットワークの各層は次のようになる。

ここで、

は、それぞれ入出力画像の画素値であり、活性化関数

は次のようになる。

上記式（８）のＸmaxは、最大値を表す。そして、次の目的関数Ｊを最小化する各層のパラメータを推定する。

ここで、

は、出力画像として期待する真の画像における画素値である。各層のパラメータのＪに関する勾配、および活性化関数の微分を付録Ａに示す。

活性化関数φ(ｘ)は、 ReLUとして知られているものであるが（参考文献［5、14］）、非線形エンハンサ同様、レベルに関する非線形操作が高周波成分の復元に重要な役割を果たす。負の成分をクリップするReLU活性化関数は”半波整流器(ダイオード)”に相当するものであり、半波整流された正弦波には、高調波成分が発生していることがわかる(付録Ｂ参照)。

値を定めるべきパラメータすべてに通し番号を付けて(2L＋1)(2L＋1)M十M＋1次元ベクトル

を次のように定義する。

ある初期値ｕ^(o)を定め、次の確率的勾配降下法（参考文献［11］）によってｕを定める。

ここにλは微小な学習係数である。これを

となるまで反復する。Ｌ=3， M=8とすると、すべてのパラメータ数は、７×７×８＋８＋1＝401になる。学習用画像には、真の画像を出力期待画像として、フォーカスずれに相当するガウシアン平滑化したものを入力画像とする。実際の学習では、反復毎に入出力画像間で同じ位置の部分画像をランダムに適当な枚数を抽出して用いる(ミニバッチ学習（参考文献［11］）。

パラメータ更新を加速させるためには、次のようなモーメンタム法（参考文献［19，11］）を用いるとよい。

モーメンタム係数μは、０≦μ＜１に設定する。これは、パラメータに対する巡回型フィルタと見なすことができる。

学習を安定化させるためには、学習係数λを反復回数により指数関数的に減少させるとよい。例えば、反復回数100回以上の場合、初期学習係数λ_０の1/10として、さらに、反復回数１万回以上の場合、初期学習係数λ_０の1/10を反復回数により指数関数的に減少させて、反復回数10万回でλ_０/lOOとするためには、

として、

とすればよい。

（４画像シミュレーション）
ガウシアン平滑化入力画像を畳み込みニューラルネットワークによりデブラー復元する画像シミュレーションを行う。真の画像を出力期待画像として、σ=1.0のガウシアンフイルタにより平滑化したものを入力画像とする。反復毎に入出力画像間で同じ位置の部分画像（33×33画素サイズ）を画像毎にランダムに256枚抽出して、学習に用いた(ミニバッチ学習（参考文献［11］）。図６に、学習に用いたKodakカラー評価画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）を示す。実験には、Ｇ（グリーン）画像のみを用いている。畳み込みニューラルネットワークの構成は、特徴マップ数M=8、入力畳み込みカーネルサイズは７×７画素サイズ（L＝3）とした。学習のためのパラメータ初期値は、入力畳み込み重みパラメータ

は、平均O、標準偏差0.01の正規乱数、特徴マップ重みパラメータ

は、［0.0，0.1）の一様乱数、バイアス項ｂ＝0.0とした。初期学習係数λ₀=8 ×10^-6、モーメンタム係数μ＝0.9として、学習係数λは、式(14)の反復回数による制御を行った。

また、上述のように、図６は、学習用画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）。真の画像を出力期待画像として、a=1.0のガウシアンフィルタにより平滑化したものを入力画像とする。反復毎に入出力画像間で同じ位置の部分画像（33×33画素サイズ）を画像毎にランダムに256枚抽出して、学習に用いた（ミニバッチ学習（参考文献［11］））。実験には、Ｇ（グリーン）画像のみを用いている。画像中枠は学習に用いた部分画像のサイズを表している。

また、図７(a)は、学習曲線（右上の全体の様子を拡大して表示）を示し、（b）は反復回数に対する学習用画像(training)、および評価用画像(test)の復元結果の平均ISNR［dB］を説明する図である。いずれも横軸は反復回数であり、対数目盛である。エラーバーは標準偏差である。反復回数98,500回で評価用画像の復元結果の平均ISNRが最大であった。

上述のように、図７(a)は、反復回数に対する学習用画像の残差Ｊ(式(10))をプロットしたものである(学習曲線)。そして、同図(b)は、反復回数に対する学習パラメータにより、学習用画像(training)、および学習用画像とは別の評価用画像(test)の復元結果と真の画像との間のISNR (Improvement in ＳＮＲ)の平均をプロットしたものである。評価用画像には、Kodakカラー評価画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）24枚のうちの学習用画像６枚とは別の18枚を用いた。ISNRは、復元処理によるSN比の改善度を測るものであり、次のように計算される（参考文献［2］）。

ここで、

は真の画像、

はガウシアン平滑化入力画像、

はデブラー復元画像である。

学習用画像、および評価用画像の平均ISNRは、いずれも、学習が進むに連れて、徐々に増加しているが、評価用画像の平均ISNRは、その後、減少に転じている。学習用画像の残差は減少しているため、これは、“過学習”が生じているものと思われる。そこで、評価用画像における平均ISNRが最大となるパラメータを最終的な学習結果とする。図７(b)では、反復回数98,500回で評価用画像の復元結果の平均ISNRが最大であった。図８は、そのような学習パラメータによる評価用画像のデブラー処理結果の例である。それぞれ、左からガウシアン平滑化入力画像(σ=1.0)、デブラー処理による復元画像、真の画像(出力期待画像)である。デブラー復元画像のISNRは5.33/5.54［dB］であった。同図下段は、それらのＦＦＴ処理による周波数成分の２値化画像である(しきい値100)。高周波成分が制限されたガウシアン平滑化入力画像に対して、畳み込みニューラルネットワークによるデブラー処理の結果は、高周波成分が復元されていることがわかる。

図９(a)は、学習パラメータにおける特徴マップのひとつの入力畳み込み重みパラメータ

を画像として可視化したものである。いずれの特徴マップにおける

パラメータ画像もほぼ同じであるが、実際の大きさはそれぞれ異なっている(特徴マップ毎にパラメータの最大値最小値により正規化すると同じように見える)。同図(b)は、その２次元周波数特性を３次元プロットしたものである(パラメータの総和で正規化した結果から計算した)。周波数特性から高域強調フィルタであることがわかるが、それぞれの高域強調ゲインが異なる。それぞれの特徴マップで高域が強調された結果が、ReLU活性化関数により、負の成分がクリップされて、それらの重み付け加算の結果が出力クリップされて最終的な出力となる。複数の異なるゲインによる高域強調のクリップ処理結果が統合されて、高周波成分が復元されていると考えられる。学習結果によっては、特徴マップにおける入力畳み込み重みパラメータ

特徴マップ重みパラメータ

で、ほぼ０のものが存在していた。パラメータ初期値は乱数により生成され、学習用画像は反復毎にランダムに抽出されるため、正しい学習がなされなかったものと思われる。

次に、学習されたパラメータにおける畳み込みニューラルネットワークのデブラー処理の復元性能と、ノイズ耐性を評価する。σ=1.0のガウシアンフィルタによる平滑化画像を学習した畳み込みニューラルネットワークに対して、σを、0.8から1.2まで、0.1刻みで変化させたガウシアン平滑化画像の復元結果を評価する。さらに、学習には、ノイズが含まれていない平滑化画像を用いたが、実際の画像には、圧縮ノイズや撮像ノイズが含まれているのが普通である。そこで、画素値に正規ノイズを加えた場合の復元精度も評価する。正規ノイズは平均０、標準偏差σ_Ｎを、0.5，1.0とした。１パスビデオ超解像における非線形エンハンサ（参考文献［12］）、およびウィーナーフィルタ（参考文献［21］）による復元処理も行う。ウィーナーフィルタに関しては、付録Ｃに示す。

非線形エンハンサは、エッジ検出のためのＤｏＧフィルタをσ=0として、レベルに関する非線形操作には、３乗関数を用いた。適応クリップは用いずに、クリップレベルを調整パラメータとして、エンハンサゲインγ、ＤｏＧフィルタσ_２とともに、学習用画像における平均ISNRが最大となるように最適化した。最適化には、滑降シンプレックス法(Nelder-Mead法)（参考文献［17］）を用いた。ウィーナーフィルタも、点拡がり関数をσ=1.0のガウシアン平滑化フィルタとして、学習用画像における平均ISNRが最大となるように真の画像とノイズ成分のパワースペクトルの強度比パラメータを決定した。表１は、ガウシアン平滑化画像(σ=1.0)に加えた正規ノイズσ_Ｎに対する復元結果であり、評価用画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）18枚の平均ISNR［dB］になる(括弧内は標準偏差)。

ウィーナーフィルタは、最小二乗の意味で最適であり、点拡がり関数が真であり、かつノイズのない場合に厳密に復元がなされるが、実際には、量子化ノイズであっても、復元結果に影響する。図１０は、ガウシアン平滑化（σ＝0.8〜1.2)に対する評価用画像（Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/）18枚の復元結果の平均ISNR［dB］である。画素値に加えた正規ノイズレベルσ_Ｎが0.5，1.0の結果も示している。エラーバーは標準偏差である。σ_Ｎ=0.0、かつガウシアン平滑化σ=1.0のとき、同図(ｃ)のウィーナーフィルタによる復元精度は最大となるが、ガウシアン平滑化σが変化すると、復元精度は低下する。ノイズレベルσ_Ｎが0.5，1.0と大きくなるに従い、復元精度が低下する。復元結果の変動も大きく、フラー、およびノイズに対する耐性は低いことがわかる。

同図(ａ)の畳み込みニューラルネットワークによる結果もσ_Ｎ=0.0、かつガウシアン平滑化σ=1.0のときに復元精度が最大となる。ブラー、およびノイズに対する結果もウィーナーフィルタとほぼ同様の傾向を示すが、ウィーナーフィルタと比較すると、耐性があり、変動も少ないことがわかる。一方、同図(b)の非線形エンハンサの結果は、十分な復元精度があるとは言い難い。しかし、復元精度は低いものの、ブラー、およびノイズに対する耐性は最も高いことがうかがえる。

畳み込みニューラルネットワークによるデブラー処理は、ウィーナーフィルタに匹敵する復元精度を有し、局所領域処理であるにも関わらず、ウィーナーフィルタの良い近似であり、フラー、およびノイズに対しては、よりロバストである。

（５まとめ）
4K/8K超高精細映像におけるフォーカスずれを補正することを目的として、畳込みニューラルネットワークによるデブラー処理を行った。畳み込みニューラルネットワークによるデブラー処理と１パスビデオ超解像における非線形エンハンサ処理との類似性を指摘するとともに、畳み込みニューラルネットッワークにおけるレベルに関する非線形操作を行うReLU活性化関数の処理結果をフーリエ級数展開することにより、高調波成分が発生していることを明らかにした。そして、畳み込みニューラルネットワークによるデブラー処理の復元性能、ノイズ耐性を評価した。さらに、１パスビデオ超解像における非線形エンハンサ処理、最小二乗の意味において最適なウィーナーフィルタによる結果と比較した。

畳み込みニューラルネットワークによるデブラー処理は、１パスビデオ超解像における非線形エンハンサ処理同様、入力畳み込みフィルタにより検出されたエッジ成分をReLU活性化関数によるレベルに関する非線形操作を行うことから、高周波成分を復元するものであり、学習用画像における最小二乗の意味で最適な非線形エンハンサと言えるだろう。

今後の課題としては、ネットワーク構成の最適化や深層化による復元性能やノイズ耐性の向上、学習を高速化させるためのＧＰＵ利用、そして、FPGA実装による4K/8K映像のリアルタイム処理が挙げられる。畳み込みニューラルネットワークは、4K/8K超高精細映像において、事前の学習による最適化の結果をリアルタイム処理するための、現在最も有効な手法であろう。

（参考文献）
［1］ S. Amari, A theory of adaptive pattern classifiers, IEEE Transactions on Electronic Computers, EC-16-3 (June 1967), 299-307.
［2］ J. Biemond, R. L. Lagendijk, and R. M.Mersereau, Iterative methods for image deblurring, Proceedings of the IEEE, 78-5 (May 1990), 856-883.
［3］ C. Dong, C.-C. Loy, K. He, and X. Tang, Learning a deep convolutional network for image superresolution, Proceedings of 13th European Conference on Computer Vision (ECCV2014), Part IV, Zurich, Switzerland, pp. 184-199 (September 2014).
［4］ D. Eigen, D. Krishnan, and R. Fergus, Restoring an image taken through a window covered with dirt or rain, IEEE International Conference on Computer Vision (ICCV2013), Sydney, Australia, pp. 633-640 (December 2013).
［5］ K. Fukushima, Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position, Biological Cybernetics, 36-4 (April 1980), 193-202.
［6］船津良平,山下誉行,三谷公二,野尻裕司，スーパーハイビジョンカメラ用フォーカス補助信号,映像情報メディア学会誌, 65-4 (2011年4月), 531-539
［7］ V. Jain and H. S. Seung, Natural image denoising with convolutional networks, Proceedings of Advances in Neural Information Processing Systems 21 (NIPS2008), pp. 769-776 (2008).
［8］金谷健一，「これなら分かる応用数学教室：最小二乗法からウェーブレットまで」，共立出版, 2003年6月．
［9］ A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet classification with deep convolutional neural networks, Proceedings of Advances in Neural Information Processing Systems 25 (NIPS2012), pp. 1106-1114 (2012).
［10］ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, Backpropagation applied to handwritten zip code recognition, Neural Computation, 1-4 (December 1989), 541-551.
［11］ Y. LeCun, L. Bottou, G. Orr, and K. Miiller, Efficient BackProp, In G. Orr and K. Miiller (Eds), Neural Networks: Tricks of the trade, Springer, 1998.
［12］松永力，時間空間方向性補間とマルチスケール非線形エンハンサによる１パスビデオ超解像,第20回画像センシングシンポジウム(SSII2014)講演論文集,横浜(パシフィコ横浜), 2014年６月．
［13］ W. S. McCulloch and W. Pitts, A logical calculus of the ideas immanent in nervous activity, The bulletin of mathematical biophysics, 5-4 (December 1943), 115-133.
［14］ V. Nair and G. E. Hinton, Rectified linear units improve restricted Boltzmann machines, Proceedings of the 27th International Conference on Machine Learning (ICML10), Haifa, Israel, pp. 807-814 (June 2010).
［15］日本放送協会, 「スーパーハイビジョン映像技術」特集号, ＮＨＫ技研Ｒ＆Ｄ,No.137,2013年１月
［16］ S. C. Park, M. K. Park, and M. G. Kang, Super-resolution image reconstruction: A technical overview, IEEE Signal Processing Magazine, 20-3 (May 2003), 21-36.
［17］ W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical Recipes 3rd Edition: The Art of Scientific Computing, Cambridge University Press, September 2007.
［18］ F. Rosenblatt, The Perceptron: A probabilistic model for information storage and organization in the brain, Psychological Review, 65-6 (1958), 386-408.
［19］ D. E. Rumelhart, J. L. McClelland, and CORPORATE PDP Research Group, Parallel Distributed Processing: Explorations in the Micro structure of Cognition, Vol. 1: Foundations, Vol. 2: Psychological and Biological Models, MIT Press, Cambridge, MA, USA, July 1986, July 1987. 甘利俊一（監訳），「ＰＤＰモデル−認知科学とニューロン回路網の探索」，産業図書，1989年３月
［20］ J. -L. Starck, and F. Murtagh, Astronomical Image and Data Analysis, Springer, 2006.
［21］ N. Wiener, Extrapolation, interpolation, and smoothing of stationary time series: with engineering applications, John Wiley & Sons. Inc., New York, 1949.
［22］ L. Xu, J. S. Ren, C. Liu, and J. Jia, Deep convolutional neural network for image deconvolution, Proceedings of Advances in Neural Information Processing Systems 27 (NIPS2014), pp. 1790-1798 (2014).
［23］趙延軍,松永力, MXFファイルに対応した１パスビデオ超解像アップ変換のＧＰＵによる高速化，ＧＰＵテクノロジ・カンファレンス(ＧＴＣ Japan 2014), 2014-8008,東京(東京ミッドタウンホール＆カンファレンス), 2014年７月．

（付録Ａ畳み込みニューラルネットワークの勾配）
畳み込みニューラルネットワークの各層のパラメータの式（10）の目的関数Ｊに関する勾配は次のようになる。

ここで、活性化関数

の微分は次のようになる．

（付録ＢＲｅＬＵ活性化関数処理結果のフーリエ級数展開）
周期Ｔで繰り返される周期関数ｆ（ｔ）は、次の三角関数によるフーリエ級数に展開できる（参考文献［8］）。

ここで、角周波数ω＝２π／Ｔであり、右辺の係数ａ_ｋ，ｂ_ｋは次のようになる。

ReLU活性化関数（参考文献［5,14］）により半波整流された正弦波は、

であり、そのフーリエ係数を求めると、

ここで、図８は、ＲｅＬＵ活性化関数（参考文献［5,14］）により半波整流された正弦波を説明する図である。ＲｅＬＵ活性化関数により半波整流された正弦波には、偶数次の高調波成分が発生していることがわかる。

（付録Ｃウィーナーフィルタ）
観測画像g（x,y）は、真の画像

が点拡がり関数h（x,y）により劣化したものに、ノイズ成分n（x,y）が加わったものとして、次のように表される。

ここで、*は畳み込み演算である。フォーカスずれの場合、h（x,y）は２次元ガウシアン関数により近似する。
周波数領域では、

であり、観測画像G（u,v）から，真の画像

を

のように推定するウィーナーフィルタW（u,v）は、

である。ここで、Ｈ^＊は、Ｈの複素共役を表す。

であり、Ｓ_ｎ, Ｓ_ｆはそれぞれノイズ成分、真の画像のパワースペクトル密度である。
Ｋ（u,v)は、真の画像とノイズ成分から決まるものであり、近似的なものが既知の場合もあるが、通常は経験的な定数として指定する調整パラメータである。Ｋ＝０とすると、W（u,v)=１／H（u,v）であり、逆フィルタになる。大きなu，vに対して、

とすると、高周波成分が抑制される。ウィーナーフィルタは、真の画像との二乗誤差

を最小にするフィルタである（参考文献［21］）。

本発明は、４Ｋ／８Ｋ（スーパーハイビジョン）超高精細映像にも好適である。

Claims

学習型アルゴリズムによるフォーカス補正処理方法において、
前記学習型アルゴリズムである畳み込みニューラルネットワークをデブラー復元処理に用いるために、
真の画像から、フォーカスずれを想定した平滑化入力画像を生成するように、そのような入出力画像を学習用データとして、平滑化入力画像をネットワークにより処理した結果の復元画像と真の画像の差分二乗和が最小になるようにネットワークのパラメータを推定する工程であって、前記学習パラメータは、学習用画像とは異なる別の評価用画像におけるデブラー復元結果の平均ISNRが最大となるように決定される、工程と、
決定された学習済みパラメータによる前記畳み込みニューラルネットワークを用いて、フォーカス補正処理を行う工程と、を有する
ことを特徴とする学習型アルゴリズムによるフォーカス補正処理方法。