JP6727642B2 - 学習型アルゴリズムによるフォーカス補正処理方法 - Google Patents

学習型アルゴリズムによるフォーカス補正処理方法 Download PDF

Info

Publication number
JP6727642B2
JP6727642B2 JP2016090290A JP2016090290A JP6727642B2 JP 6727642 B2 JP6727642 B2 JP 6727642B2 JP 2016090290 A JP2016090290 A JP 2016090290A JP 2016090290 A JP2016090290 A JP 2016090290A JP 6727642 B2 JP6727642 B2 JP 6727642B2
Authority
JP
Japan
Prior art keywords
image
learning
processing
convolutional neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016090290A
Other languages
English (en)
Other versions
JP2017199235A (ja
Inventor
力 松永
力 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KABUSHIKI KAISYA HOUEI
Original Assignee
KABUSHIKI KAISYA HOUEI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KABUSHIKI KAISYA HOUEI filed Critical KABUSHIKI KAISYA HOUEI
Priority to JP2016090290A priority Critical patent/JP6727642B2/ja
Publication of JP2017199235A publication Critical patent/JP2017199235A/ja
Application granted granted Critical
Publication of JP6727642B2 publication Critical patent/JP6727642B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)

Description

本発明は、学習型アルゴリズムによるフォーカス補正処理方法に関する。
映像確認のための低解像度なビューファインダー映像の視認性を向上させるために、フォーカス調整を補助する信号を多重することによって、低解像度なビューファインダーでスーパーハイビジョン映像におけるフォーカス調整を可能とする方法が、下記非特許文献1に提案されている。
また、画像処理によるフォーカス補正は、様々な分野領域における画像復元処理として歴史が古く、多くの研究がある。天体画像に関しては、下記非特許文献2に詳しく開示されている。
船津良平、山下誉行、三谷公二、野尻裕司、スーパーハイビジョンカメラ用フォーカス補助信号、映像情報メディア学会誌、 65-4 (2011年4月), 531-539. J.-L.Starck, and F. Murtagh, Astronomical Image and Data Analysis, Springer, 2006. W. H. Richardson, Bayesian-based iterative method of image restoration, Journal of the Optical Society of America, 62-1, pp. 55-59(1972) L. B. Lucy, An iterative technique for the rectification of observed distributions, Astronomical Journal, 79-6, pp. 745-754(1974)
特開2010−061541号公報 特開2014−099048号公報
フォーカス調整を補助する信号を映像に多重する方法を用いたとしても、目視である以上、十分なフォーカス調整が可能になるとは限らない。画像処理における方法の多くは、再構成型の処理であり、それらは、反復によるものである。代表的な方法としては、 Richardson-Lucyアルゴリズムによる方法が知られているが、反復による復元処理は膨大な処理コストが掛かる。反復回数を減らしたり、固定回数で行う等の工夫も行われているが、それでも、リアルタイムに高精細な映像を処理することは、不可能である。
最小二乗の意味で最適なデフラー復元を行うフィルタとして、ウィーナーフィルタが知られているが、最適な復元を行うためには、真の画像とノイズ成分のパワースペクトルが必要になる。真の画像を復元する処理のために、真の画像の情報が必要になるということは、卵と鶏の問題になる。そのような画像やノイズ成分に関する情報が近似的に得られる場合もあるが、通常は経験的な調整パラメータになる。処理には、画像全体の画素を用いるため、フレームメモリが必要になる。また、周波数領域での処理になるため、処理コストも大きい。本発明は、上述の問題点に鑑み為されたものであり、リアルタイムに高精細な映像を処理する学習型アルゴリズムによるフォーカス補正処理方法を提案することを目的とする。
本発明は、学習型アルゴリズムである畳み込みニューラルネットワークをデブラー復元処理に用いる。真の画像(出力期待画像)から、フォーカスずれを想定した平滑化入力画像を生成する。予め、そのような入出力画像を学習用データとして、平滑化入力画像をネットワークにより処理した結果の復元画像と真の画像の差分二乗和が最小になるようにネットワークのパラメータを推定(学習)する。学習パラメータは、学習用画像とは異なる別の評価用画像におけるデブラー復元結果の平均ISNRが最大となるように決定する。そのようにして、決定された学習済みパラメータによる畳み込みニューラルネットワークを用いて、フォーカス補正処理を行う。
本発明により、リアルタイムに高精細な映像を処理する学習型アルゴリズムによるフォーカス補正処理方法を提案できる。
畳み込みニューラルネットワークのブロック図を説明する図であり、フォーカス補正のためのデブラー復元処理を行う畳み込みニューラルネットワークのブロック図である。 1パスビデオ超解像における非線形エンハンサ処理を説明するブロック図である。 ウィーナーフィルタを説明するための画像(映像)の劣化過程を説明するブロック図である。 非線形エンハンサ処理の動作を示す図である。 フォーカス補正のためのデブラー処理を行う畳み込みニューラルネットワークのブロツク図である。 学習に用いたKodakカラー評価画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)を示す。 (a)は、学習曲線(右上の全体の様子を拡大して表示)を示し、(b)は反復回数に対する学習用画像(training)、および評価用画像(test)の復元結果の平均ISNR[dB]を説明する図である。 学習パラメータによる評価用画像のデブラー処理結果の例を説明する図であり、左からガウシアン平滑化入力画像(σ=1.0)、デブラー処理による復元画像、真の画像(出力期待画像)である。 (a)は学習パラメータにおける特徴マップのひとつの入力畳み込み重みパラメータを画像として可視化したものであり、いずれの特徴マップにおけるパラメータ画像もほぼ同じであるが、実際の大きさはそれぞれ異なっており(特徴マップ毎にパラメータの最大値最小値により正規化すると同じように見える)、(b)は、その2次元周波数特性を3次元プロットしたものである(パラメータの総和で正規化した結果から計算した)。 ガウシアン平滑化(σ=0.8〜1.2)に対する評価用画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)18枚の復元結果の平均ISNR[dB]であり、画素値に加えた正規ノイズレベルσが0.5,1.0の結果も示している。 ReLU活性化関数(参考文献[5,14])により半波整流された正弦波を説明する図である。
(発明の概要1)
4K/8K(スーパーハイビジョン)超高精細映像におけるフォーカスずれを補正することを目的として、学習型アルゴリズムである畳み込みニューラルネットワークによるデブラー処理を行う。真の画像(出力期待画像)から、フォーカスずれを想定した平滑化入力画像を生成する。予め、そのような入出力画像を学習用データとして、平滑化入力画像をネットワークにより処理した結果の復元画像と真の画像の差分二乗和が最小になるようにネットワークのパラメータを推定(学習)する。学習結果のパラメータを用いた畳み込みニューラルネットワークによる処理は、CPU、GPU、FPGAによる実装が可能であり、従来法と比較して、少ない処理コスト、局所領域処理による低フレーム遅延、高いデブラー性能、ノイズ耐性を実現する。
上述のように、畳み込みニューラルネットワークによるデブラー復元処理は、学習用画像における最小二乗の意味で最適な非線形エンハンサであり、ウィーナーフィルタに匹敵するデブラー復元精度を実現する。局所領域処理であるにも関わらず、ウィーナーフィルタの良い近似であり、画像(映像)に含まれるノイズに対する耐性もウィーナーフィルタよりもロバストな方法である。畳み込みニューラルネットワークは、CPU、GPU、FPGAにより実現することが可能であり、高精細映像におけるリアルタイム処理を行うための有効な方法である。
(発明の概要2)
本発明は、学習型アルゴリズムである畳み込みニューラルネットワークにより画像(映像)復元処理を行う。また、事前の学習により、期待する出力画像を生成するためのネットワークパラメータを学習する。パラメータの決定には、学習用画像とは異なる別の評価用画像における平均ISNRが最大となるパラメータとする。また、このような学習用画像とは異なる評価用画像を用いることにより、学習用画像に過剰に適合するパラメータの過学習を防ぎ、学習用画像以外の画像(映像)においても、高いデブラー復元性能を実現する汎化能力を得ることが可能となる。
また、畳み込みニューラルネットワークを構成する入力畳み込み層(特徴マップ)や、畳み込みニューラルネットワークを構成する入力畳み込み層(特徴マップ)に続く非線形活性化関数や、畳み込みニューラルネットワークを構成する入力畳み込み層(特徴マップ)及び非線形活性化関数の結果を統合する出力層を備え、さらに、畳み込みニューラルネットワークの各層のパラメータを推定するための学習用データとしての画像および学習方法とする。また、畳み込みニューラルネットワークの各層のパラメータを決定するための学習用画像とは異なる別の評価用画像における平均ISNRが最大になるようにパラメータを決定する方法とする。
実現方法としては、ベースバンドビデオ信号を処理するハードウェア装置により実現することも可能であるし、MXFファイルを処理するソフトウェアおよびそれを実行するコンピュータをベースとした装置により実現することも可能であるし、MXFファイルをベースバンドビデオ信号に変換、あるいは逆変換する装置を用いれば、いかなる構成による実現も可能である。カメラ映像を動画像圧縮したもの、あるいはMXFファイルをIP(インターネット・プロトコル)伝送して、クラウド上で処理を行うことも可能である。IP伝送された圧縮映像をベースバンドビデオ信号に復号して、フォーカス補正処理を行った結果を再び圧縮してストリーム配信する等様々なシステム形態が考えられる。
畳み込みニューラルネットワークにおける入力畳み込み層(特徴マップ)の数や、入力畳み込み層と出力層の間に、さらに各層を接続する複数の隠れ層、非線形活性化関数を追加して、ネットワーク構造を多層化することにより、デブラー復元精度の向上が期待される。学習用画像として、画像(映像)に含まれると想定されるノイズを付加したものを用意することによって、ノイズ除去能力も同時に有することが期待される。
図1は、畳み込みニューラルネットワークのブロック図を説明する図であり、フォーカス補正のためのデブラー復元処理を行う畳み込みニューラルネットワークのブロック図である。入力画像gi,jを(2L+1)×(2L+1)画素ブロックサイズのカーネルにより、畳み込み処理を行う。そのような、M組の入力畳み込み層(特徴マップ)の結果をそれぞれ非線形活性化関数により非線形レベル操作を行う。非線形活性化関数の結果を重み付け加算した出力層の結果を出力クリップ関数処理したものを、最終的な出力画像
とする。
畳み込みニューラルネットワークによるデブラー復元処理の比較として、1パスビデオ超解像に用いた非線形エンハンサ処理、および最小二乗の意味で最適な復元フィルタとして知られているウィーナーフィルタについて、以下に示す。
図2は、1パスビデオ超解像における非線形エンハンサ処理を説明するブロック図である。1次元の場合で説明する。入力信号をDoG(Difference of Gaussian)フィルタによりエッジ成分を検出し、それをレベルに関する非線形操作により高調波成分を復元して、入力信号に加算する。過剰な強調を抑制するために、入力近傍領域における画素の最大最小値を探索して、クリップレベルとする適応クリップ処理を併用する。また、図3は、ウィーナーフィルタを説明するための画像(映像)の劣化過程を説明するブロック図である。
となるような,
を求めるフィルタ。周波数領域で考えると、
ここで、
は、
の複素共役であり、調整関数に関しては、
である。
また、
は、それぞれノイズ成分、真の画像のパワースペクトル密度である。
(詳細な説明:超高精細映像のための畳み込みニューラルネットワークによるフォーカス補正について)
(Abstract)
4K/8K (スーパーハイビジョン(参考文献[15]))超高精細映像におけるフォーカスずれを補正することを目的として、畳み込みニューラルネットワークによるデブラー処理を行う。畳み込みニューラルネットワークによるデブラー処理の復元性能、ノイズ耐性を評価する。さらに、1パスビデオ超解像(参考文献[12])における非線形エンハンサ処理、真の画像との二乗誤差を最小化するウィーナーフィルタ(参考文献[21])による結果と比較する。
(1 はじめに)
次世代テレビ放送としての4Kの試験放送が2014年6月2日より、CS(Communication Satellite)、およびケーブルテレビにて開始された(次世代放送推進フォーラム(NexTV-F),http://www.nextv-f.jP/)。8K(スーパーハイビジョン(参考文献[15])も含め、2018年(可能な限り早期に)の実用放送開始へ向けて加速している(総務省「4K・8Kロードマップに関するフォローアップ会合(第6回会合)配布資料」,平成27年7月、http://www.soumu.go.jp/main_sosiki/kenkyu/4k8kroadmap/02ryutsu11_03000046.html)。
4K/8K放送におけるHDコンテンツのリパーパス(repurpose)のためには、解像度変換が必要になる。近年、超解像技術が盛んに研究されている(参考文献[16])。その処理の多くは反復によるものであるが、本発明者は画像の局所的な時間空間方向による補間の重み付け平均とマルチスケール化した非線形エンハンサによる1パスビデオ超解像を提案した(参考文献[12])。趙・松永(参考文献[23])は1パスビデオ超解像処理をGPUにより高速化した。
4K/8K超高精細映像の撮影には、フォーカスの調整が厳格に求められるが、映像の高解像度化により、光学サイズは大きく、撮像素子の画素サイズは小さくなり、被写界深度が浅くなると、フォーカス調整は格段に難しくなっている。撮影後にフォーカスずれが確認されることも少なくない。
船津ら(参考文献[6])は、映像確認のための低解像度なビューファインダー映像の視認性を向上させるために、フォーカス調整を補助する信号を多重することによって、低解像度なビューファインダーでスーパーハイビジョン映像におけるフォーカス調整を可能とする方法を提案した。
本発明では、4K/8K超高精細映像におけるフォーカスずれを補正することを目的として、畳み込みニューラルネットワークによるデブラー処理を行う。畳み込みニューラルネットワークによるデブラー処理と1パスビデオ超解像における非線形エンハンサ処理との類似性を指摘するとともに、畳み込みニューラルネットワークにおけるレベルに関する非線形操作を行うReLU(Rectified Linear Unit)活性化関数(参考文献[5,14])による処理結果をフーリエ級数展開することにより、高調波成分が発生していることを明らかにする。そして、畳み込みニューラルネットワークによるデブラー処理の復元性能、ノイズ耐性を評価する。さらに、1パスビデオ超解像(参考文献[12])における非線形エンハンサ処理、真の画像との二乗誤差を最小化するウィーナーフィルタ(参考文献[21])による結果と比較する。
近年、畳み込みニューラルネットワーク(参考文献[5,10])は、深層学習(deep learning)として、再び注目が集まっているが、脳神経系における情報処理のモデルとしてのニューラルネットワークの歴史は古く、McCullochとPittsによる形式ニューロン(参考文献[13])、Rosenblattによるパーセプトロン(preceptron)(参考文献[18])まで遡ることができる。Rumelhurtら(参考文献[19])が多層パーセプトロンの学習則として、誤差逆伝播法(バックプロパゲーション)を再発見したことから、1980年代に爆発的に広まった(甘利によって隠れ層を持つパーセプトロンの学習則が既に提案されていた(参考文献[1])。深層学習による画像認識(参考文献[9])において標準的に用いられている畳み込みニューラルネットワークも、当時NHK放送科学基礎研究所(現NHK放送技術研究所)に在籍していた福島によるネオコグニトロン(参考文献[5])そのものである。シグモイド関数と比較して学習が高速に行われるとするReLU活性化関数(参考文献[14])も既に用いられていた(ReLUとは呼んでいない)。LeCunら(参考文献[10])は,手書きの郵便番号を認識するために、畳み込みニューラルネットワークを誤差逆伝播法(バックプロパゲーション)により学習させた。ニューラルネットワークの初期の研究において日本人研究者の寄与があったことは、もっと認識されるべきだと思われる。)。
畳み込みニューラルネットワークによる深層学習は、画像認識を目的とした研究(参考文献[9])が盛んであるが、デノイジングやデブラー、超解像といった画像処理にも用いられている(参考文献[7、4、3、22])。デブラー処理も、様々な分野領域における画像復元処理(天体画像に関しては(参考文献[20])が詳しい)として歴史が古く、多くの研究があるが、再構成型の処理は反復によるものである(参考文献[2])。
本発明の説明構成は、2章で、1パスビデオ超解像における非線形エンハンサ処理、3章で、畳み込みニューラルネットワークの構成と学習方法について、それぞれ説明し、4章で、画像シミュレーションによる結果を示し、5章で纏める。
(2 1パスビデオ超解像における非線形エンハンサ)
本発明者は、1パスビデオ超解像として、フレーム内空間方向性補間による解像度変換処理の結果の後処理として、画像のエッジ情報に基づいた非線形エンハンサ処理を行うことにより、さらなる解像度の向上を図った(参考文献[12])。図4に非線形エンハンサ処理の動作を示す。
エッジの検出にはガウシアン差分(Difference of Gaussian、 DoG)フィルタを用いる。ガウシアン差分を計算するためのガウシアン平滑化フィルタの処理カーネルを、
とすると、画像I(x)のDoGフィルタは、
である(ただし、1次元の場合)。ここで、*は畳み込み演算であり、σ1<σ2である(σ1→0とすると、
となり、式(2)の結果を適当にゲインしたものを原信号に加算するのが、所謂“アンャープ・マスキング(Unsharp Masking)”に相当する。)。DoGフィルタはガウシアン平滑化フィルタの2次微分であるラプラシアン(Laplacian of Gaussian,LoG)フィルタの良い近似であり、計算効率も高い。画像の場合には、水平垂直方向に分離して処理を行うことができる。ラプラシアンフィルタ同様、方向によらないエッジ検出が可能である。
DoGフィルタにより検出されたエッジ成分をレベルに関する非線形操作により高周波成分を拡張して、原画像に加えるが、ここで、非線形操作による過剰な強調を抑制するために、注目画素近傍における入力画素値の最大値最小値を探索して、それらの値による適応的なクリップ処理を行う。レベルに関する非線形操作としては、例えば、
ここで、sgn(・)は符号関数であり、rは2以上の定数である。本発明者は、さらに、このような非線形エンハンサをマルチスケール拡張している(参考文献[12])(詳細省略)。
(3 畳み込みニューラルネットワーク)
図5はフォーカス補正のためのデブラー処理を行う畳み込みニューラルネットワークのブロツク図である。畳み込みニューラルネットワークは最小構成の2層とする。畳み込みニューラルネットワークの各層は次のようになる。
ここで、

は、それぞれ入出力画像の画素値であり、活性化関数
は次のようになる。
上記式(8)のXmaxは、最大値を表す。そして、次の目的関数Jを最小化する各層のパラメータを推定する。
ここで、
は、出力画像として期待する真の画像における画素値である。各層のパラメータのJに関する勾配、および活性化関数の微分を付録Aに示す。
活性化関数φ(x)は、 ReLUとして知られているものであるが(参考文献[5、14])、非線形エンハンサ同様、レベルに関する非線形操作が高周波成分の復元に重要な役割を果たす。負の成分をクリップするReLU活性化関数は”半波整流器(ダイオード)”に相当するものであり、半波整流された正弦波には、高調波成分が発生していることがわかる(付録B参照)。
値を定めるべきパラメータすべてに通し番号を付けて(2L+1)(2L+1)M十M+1次元ベクトル
を次のように定義する。
ある初期値u(o)を定め、次の確率的勾配降下法(参考文献[11])によってuを定める。
ここにλは微小な学習係数である。これを
となるまで反復する。L=3, M=8とすると、すべてのパラメータ数は、7×7×8+8+1=401になる。学習用画像には、真の画像を出力期待画像として、フォーカスずれに相当するガウシアン平滑化したものを入力画像とする。実際の学習では、反復毎に入出力画像間で同じ位置の部分画像をランダムに適当な枚数を抽出して用いる(ミニバッチ学習(参考文献[11])。
パラメータ更新を加速させるためには、次のようなモーメンタム法(参考文献[19,11])を用いるとよい。
モーメンタム係数μは、0≦μ<1に設定する。これは、パラメータに対する巡回型フィルタと見なすことができる。
学習を安定化させるためには、学習係数λを反復回数により指数関数的に減少させるとよい。例えば、反復回数100回以上の場合、初期学習係数λの1/10として、さらに、反復回数1万回以上の場合、初期学習係数λの1/10を反復回数により指数関数的に減少させて、反復回数10万回でλ/lOOとするためには、
として、
とすればよい。
(4 画像シミュレーション)
ガウシアン平滑化入力画像を畳み込みニューラルネットワークによりデブラー復元する画像シミュレーションを行う。真の画像を出力期待画像として、σ=1.0のガウシアンフイルタにより平滑化したものを入力画像とする。反復毎に入出力画像間で同じ位置の部分画像(33×33画素サイズ)を画像毎にランダムに256枚抽出して、学習に用いた(ミニバッチ学習(参考文献[11])。図6に、学習に用いたKodakカラー評価画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)を示す。実験には、G(グリーン)画像のみを用いている。畳み込みニューラルネットワークの構成は、特徴マップ数M=8、入力畳み込みカーネルサイズは7×7画素サイズ(L=3)とした。学習のためのパラメータ初期値は、入力畳み込み重みパラメータ
は、平均O、標準偏差0.01の正規乱数、特徴マップ重みパラメータ
は、[0.0,0.1)の一様乱数、バイアス項b=0.0とした。初期学習係数λ0=8 ×10-6、モーメンタム係数μ=0.9として、学習係数λは、式(14)の反復回数による制御を行った。
また、上述のように、図6は、学習用画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)。真の画像を出力期待画像として、a=1.0のガウシアンフィルタにより平滑化したものを入力画像とする。反復毎に入出力画像間で同じ位置の部分画像(33×33画素サイズ)を画像毎にランダムに256枚抽出して、学習に用いた(ミニバッチ学習(参考文献[11]))。実験には、G(グリーン)画像のみを用いている。画像中枠は学習に用いた部分画像のサイズを表している。
また、図7(a)は、学習曲線(右上の全体の様子を拡大して表示)を示し、(b)は反復回数に対する学習用画像(training)、および評価用画像(test)の復元結果の平均ISNR[dB]を説明する図である。いずれも横軸は反復回数であり、対数目盛である。エラーバーは標準偏差である。反復回数98,500回で評価用画像の復元結果の平均ISNRが最大であった。
上述のように、図7(a)は、反復回数に対する学習用画像の残差J(式(10))をプロットしたものである(学習曲線)。そして、同図(b)は、反復回数に対する学習パラメータにより、学習用画像(training)、および学習用画像とは別の評価用画像(test)の復元結果と真の画像との間のISNR (Improvement in SNR)の平均をプロットしたものである。評価用画像には、Kodakカラー評価画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)24枚のうちの学習用画像6枚とは別の18枚を用いた。ISNRは、復元処理によるSN比の改善度を測るものであり、次のように計算される(参考文献[2])。
ここで、
は真の画像、
はガウシアン平滑化入力画像、
はデブラー復元画像である。
学習用画像、および評価用画像の平均ISNRは、いずれも、学習が進むに連れて、徐々に増加しているが、評価用画像の平均ISNRは、その後、減少に転じている。学習用画像の残差は減少しているため、これは、“過学習”が生じているものと思われる。そこで、評価用画像における平均ISNRが最大となるパラメータを最終的な学習結果とする。図7(b)では、反復回数98,500回で評価用画像の復元結果の平均ISNRが最大であった。図8は、そのような学習パラメータによる評価用画像のデブラー処理結果の例である。それぞれ、左からガウシアン平滑化入力画像(σ=1.0)、デブラー処理による復元画像、真の画像(出力期待画像)である。デブラー復元画像のISNRは5.33/5.54[dB]であった。同図下段は、それらのFFT処理による周波数成分の2値化画像である(しきい値100)。高周波成分が制限されたガウシアン平滑化入力画像に対して、畳み込みニューラルネットワークによるデブラー処理の結果は、高周波成分が復元されていることがわかる。
図9(a)は、学習パラメータにおける特徴マップのひとつの入力畳み込み重みパラメータ
を画像として可視化したものである。いずれの特徴マップにおける
パラメータ画像もほぼ同じであるが、実際の大きさはそれぞれ異なっている(特徴マップ毎にパラメータの最大値最小値により正規化すると同じように見える)。同図(b)は、その2次元周波数特性を3次元プロットしたものである(パラメータの総和で正規化した結果から計算した)。周波数特性から高域強調フィルタであることがわかるが、それぞれの高域強調ゲインが異なる。それぞれの特徴マップで高域が強調された結果が、ReLU活性化関数により、負の成分がクリップされて、それらの重み付け加算の結果が出力クリップされて最終的な出力となる。複数の異なるゲインによる高域強調のクリップ処理結果が統合されて、高周波成分が復元されていると考えられる。学習結果によっては、特徴マップにおける入力畳み込み重みパラメータ
特徴マップ重みパラメータ
で、ほぼ0のものが存在していた。パラメータ初期値は乱数により生成され、学習用画像は反復毎にランダムに抽出されるため、正しい学習がなされなかったものと思われる。
次に、学習されたパラメータにおける畳み込みニューラルネットワークのデブラー処理の復元性能と、ノイズ耐性を評価する。σ=1.0のガウシアンフィルタによる平滑化画像を学習した畳み込みニューラルネットワークに対して、σを、0.8から1.2まで、0.1刻みで変化させたガウシアン平滑化画像の復元結果を評価する。さらに、学習には、ノイズが含まれていない平滑化画像を用いたが、実際の画像には、圧縮ノイズや撮像ノイズが含まれているのが普通である。そこで、画素値に正規ノイズを加えた場合の復元精度も評価する。正規ノイズは平均0、標準偏差σを、0.5,1.0とした。1パスビデオ超解像における非線形エンハンサ(参考文献[12])、およびウィーナーフィルタ(参考文献[21])による復元処理も行う。ウィーナーフィルタに関しては、付録Cに示す。
非線形エンハンサは、エッジ検出のためのDoGフィルタをσ=0として、レベルに関する非線形操作には、3乗関数を用いた。適応クリップは用いずに、クリップレベルを調整パラメータとして、エンハンサゲインγ、DoGフィルタσとともに、学習用画像における平均ISNRが最大となるように最適化した。最適化には、滑降シンプレックス法(Nelder-Mead法)(参考文献[17])を用いた。ウィーナーフィルタも、点拡がり関数をσ=1.0のガウシアン平滑化フィルタとして、学習用画像における平均ISNRが最大となるように真の画像とノイズ成分のパワースペクトルの強度比パラメータを決定した。表1は、ガウシアン平滑化画像(σ=1.0)に加えた正規ノイズσに対する復元結果であり、評価用画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)18枚の平均ISNR[dB]になる(括弧内は標準偏差)。
ウィーナーフィルタは、最小二乗の意味で最適であり、点拡がり関数が真であり、かつノイズのない場合に厳密に復元がなされるが、実際には、量子化ノイズであっても、復元結果に影響する。図10は、ガウシアン平滑化(σ=0.8〜1.2)に対する評価用画像(Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/)18枚の復元結果の平均ISNR[dB]である。画素値に加えた正規ノイズレベルσが0.5,1.0の結果も示している。エラーバーは標準偏差である。σ=0.0、かつガウシアン平滑化σ=1.0のとき、同図(c)のウィーナーフィルタによる復元精度は最大となるが、ガウシアン平滑化σが変化すると、復元精度は低下する。ノイズレベルσが0.5,1.0と大きくなるに従い、復元精度が低下する。復元結果の変動も大きく、フラー、およびノイズに対する耐性は低いことがわかる。
同図(a)の畳み込みニューラルネットワークによる結果もσ=0.0、かつガウシアン平滑化σ=1.0のときに復元精度が最大となる。ブラー、およびノイズに対する結果もウィーナーフィルタとほぼ同様の傾向を示すが、ウィーナーフィルタと比較すると、耐性があり、変動も少ないことがわかる。一方、同図(b)の非線形エンハンサの結果は、十分な復元精度があるとは言い難い。しかし、復元精度は低いものの、ブラー、およびノイズに対する耐性は最も高いことがうかがえる。
畳み込みニューラルネットワークによるデブラー処理は、ウィーナーフィルタに匹敵する復元精度を有し、局所領域処理であるにも関わらず、ウィーナーフィルタの良い近似であり、フラー、およびノイズに対しては、よりロバストである。
(5 まとめ)
4K/8K超高精細映像におけるフォーカスずれを補正することを目的として、畳込みニューラルネットワークによるデブラー処理を行った。畳み込みニューラルネットワークによるデブラー処理と1パスビデオ超解像における非線形エンハンサ処理との類似性を指摘するとともに、畳み込みニューラルネットッワークにおけるレベルに関する非線形操作を行うReLU活性化関数の処理結果をフーリエ級数展開することにより、高調波成分が発生していることを明らかにした。そして、畳み込みニューラルネットワークによるデブラー処理の復元性能、ノイズ耐性を評価した。さらに、1パスビデオ超解像における非線形エンハンサ処理、最小二乗の意味において最適なウィーナーフィルタによる結果と比較した。
畳み込みニューラルネットワークによるデブラー処理は、1パスビデオ超解像における非線形エンハンサ処理同様、入力畳み込みフィルタにより検出されたエッジ成分をReLU活性化関数によるレベルに関する非線形操作を行うことから、高周波成分を復元するものであり、学習用画像における最小二乗の意味で最適な非線形エンハンサと言えるだろう。
今後の課題としては、ネットワーク構成の最適化や深層化による復元性能やノイズ耐性の向上、学習を高速化させるためのGPU利用、そして、FPGA実装による4K/8K映像のリアルタイム処理が挙げられる。畳み込みニューラルネットワークは、4K/8K超高精細映像において、事前の学習による最適化の結果をリアルタイム処理するための、現在最も有効な手法であろう。
(参考文献)
[1] S. Amari, A theory of adaptive pattern classifiers, IEEE Transactions on Electronic Computers, EC-16-3 (June 1967), 299-307.
[2] J. Biemond, R. L. Lagendijk, and R. M.Mersereau, Iterative methods for image deblurring, Proceedings of the IEEE, 78-5 (May 1990), 856-883.
[3] C. Dong, C.-C. Loy, K. He, and X. Tang, Learning a deep convolutional network for image superresolution, Proceedings of 13th European Conference on Computer Vision (ECCV2014), Part IV, Zurich, Switzerland, pp. 184-199 (September 2014).
[4] D. Eigen, D. Krishnan, and R. Fergus, Restoring an image taken through a window covered with dirt or rain, IEEE International Conference on Computer Vision (ICCV2013), Sydney, Australia, pp. 633-640 (December 2013).
[5] K. Fukushima, Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position, Biological Cybernetics, 36-4 (April 1980), 193-202.
[6] 船津 良平,山下 誉行,三谷 公二,野尻 裕司,スーパーハイビジョンカメラ用フォーカス補助信号,映像情報メディア学会誌, 65-4 (2011年4月), 531-539
[7] V. Jain and H. S. Seung, Natural image denoising with convolutional networks, Proceedings of Advances in Neural Information Processing Systems 21 (NIPS2008), pp. 769-776 (2008).
[8]金谷 健一,「これなら分かる応用数学教室:最小二乗法からウェーブレットまで」,共立出版, 2003年6月.
[9] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet classification with deep convolutional neural networks, Proceedings of Advances in Neural Information Processing Systems 25 (NIPS2012), pp. 1106-1114 (2012).
[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, Backpropagation applied to handwritten zip code recognition, Neural Computation, 1-4 (December 1989), 541-551.
[11] Y. LeCun, L. Bottou, G. Orr, and K. Miiller, Efficient BackProp, In G. Orr and K. Miiller (Eds), Neural Networks: Tricks of the trade, Springer, 1998.
[12]松永 力,時間空間方向性補間とマルチスケール非線形エンハンサによる1パスビデオ超解像,第20回画像センシングシンポジウム(SSII2014)講演論文集,横浜(パシフィコ横浜), 2014年6月.
[13] W. S. McCulloch and W. Pitts, A logical calculus of the ideas immanent in nervous activity, The bulletin of mathematical biophysics, 5-4 (December 1943), 115-133.
[14] V. Nair and G. E. Hinton, Rectified linear units improve restricted Boltzmann machines, Proceedings of the 27th International Conference on Machine Learning (ICML10), Haifa, Israel, pp. 807-814 (June 2010).
[15] 日本放送協会, 「スーパーハイビジョン映像技術」特集号, NHK技研R&D,No.137,2013年1月
[16] S. C. Park, M. K. Park, and M. G. Kang, Super-resolution image reconstruction: A technical overview, IEEE Signal Processing Magazine, 20-3 (May 2003), 21-36.
[17] W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical Recipes 3rd Edition: The Art of Scientific Computing, Cambridge University Press, September 2007.
[18] F. Rosenblatt, The Perceptron: A probabilistic model for information storage and organization in the brain, Psychological Review, 65-6 (1958), 386-408.
[19] D. E. Rumelhart, J. L. McClelland, and CORPORATE PDP Research Group, Parallel Distributed Processing: Explorations in the Micro structure of Cognition, Vol. 1: Foundations, Vol. 2: Psychological and Biological Models, MIT Press, Cambridge, MA, USA, July 1986, July 1987. 甘利 俊一(監訳),「PDPモデル−認知科学とニューロン回路網の探索」,産業図書,1989年3月
[20] J. -L. Starck, and F. Murtagh, Astronomical Image and Data Analysis, Springer, 2006.
[21] N. Wiener, Extrapolation, interpolation, and smoothing of stationary time series: with engineering applications, John Wiley & Sons. Inc., New York, 1949.
[22] L. Xu, J. S. Ren, C. Liu, and J. Jia, Deep convolutional neural network for image deconvolution, Proceedings of Advances in Neural Information Processing Systems 27 (NIPS2014), pp. 1790-1798 (2014).
[23]趙 延軍,松永 力, MXFファイルに対応した1パスビデオ超解像アップ変換のGPUによる高速化,GPUテクノロジ・カンファレンス(GTC Japan 2014), 2014-8008,東京(東京ミッドタウンホール&カンファレンス), 2014年7月.
(付録A 畳み込みニューラルネットワークの勾配)
畳み込みニューラルネットワークの各層のパラメータの式(10)の目的関数Jに関する勾配は次のようになる。
ここで、活性化関数



の微分は次のようになる.
(付録B ReLU活性化関数処理結果のフーリエ級数展開)
周期Tで繰り返される周期関数f(t)は、次の三角関数によるフーリエ級数に展開できる(参考文献[8])。
ここで、角周波数ω=2π/Tであり、右辺の係数a,bは次のようになる。
ReLU活性化関数(参考文献[5,14])により半波整流された正弦波は、
であり、そのフーリエ係数を求めると、






































ここで、図8は、ReLU活性化関数(参考文献[5,14])により半波整流された正弦波を説明する図である。ReLU活性化関数により半波整流された正弦波には、偶数次の高調波成分が発生していることがわかる。
(付録C ウィーナーフィルタ)
観測画像g(x,y)は、真の画像




が点拡がり関数h(x,y)により劣化したものに、ノイズ成分n(x,y)が加わったものとして、次のように表される。
ここで、*は畳み込み演算である。フォーカスずれの場合、h(x,y)は2次元ガウシアン関数により近似する。
周波数領域では、
であり、観測画像G(u,v)から,真の画像



のように推定するウィーナーフィルタW(u,v)は、
である。ここで、Hは、Hの複素共役を表す。
であり、S, Sはそれぞれノイズ成分、真の画像のパワースペクトル密度である。
K(u,v)は、真の画像とノイズ成分から決まるものであり、近似的なものが既知の場合もあるが、通常は経験的な定数として指定する調整パラメータである。K=0とすると、W(u,v)=1/H(u,v)であり、逆フィルタになる。大きなu,vに対して、



とすると、高周波成分が抑制される。ウィーナーフィルタは、真の画像との二乗誤差
を最小にするフィルタである(参考文献[21])。
本発明は、4K/8K(スーパーハイビジョン)超高精細映像にも好適である。

Claims (1)

  1. 学習型アルゴリズムによるフォーカス補正処理方法において、
    前記学習型アルゴリズムである畳み込みニューラルネットワークをデブラー復元処理に用いるために、
    真の画像から、フォーカスずれを想定した平滑化入力画像を生成するように、そのような入出力画像を学習用データとして、平滑化入力画像をネットワークにより処理した結果の復元画像と真の画像の差分二乗和が最小になるようにネットワークのパラメータを推定する工程であって、前記学習パラメータは、学習用画像とは異なる別の評価用画像におけるデブラー復元結果の平均ISNRが最大となるように決定される、工程と、
    決定された学習済みパラメータによる前記畳み込みニューラルネットワークを用いて、フォーカス補正処理を行う工程と、を有する
    ことを特徴とする学習型アルゴリズムによるフォーカス補正処理方法。
JP2016090290A 2016-04-28 2016-04-28 学習型アルゴリズムによるフォーカス補正処理方法 Expired - Fee Related JP6727642B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016090290A JP6727642B2 (ja) 2016-04-28 2016-04-28 学習型アルゴリズムによるフォーカス補正処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016090290A JP6727642B2 (ja) 2016-04-28 2016-04-28 学習型アルゴリズムによるフォーカス補正処理方法

Publications (2)

Publication Number Publication Date
JP2017199235A JP2017199235A (ja) 2017-11-02
JP6727642B2 true JP6727642B2 (ja) 2020-07-22

Family

ID=60237945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016090290A Expired - Fee Related JP6727642B2 (ja) 2016-04-28 2016-04-28 学習型アルゴリズムによるフォーカス補正処理方法

Country Status (1)

Country Link
JP (1) JP6727642B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111602146B (zh) * 2018-01-16 2024-05-10 奥林巴斯株式会社 数据处理***、数据处理方法和记录介质
JP6476531B1 (ja) * 2018-03-06 2019-03-06 株式会社ツバサファクトリー 処理装置、処理方法、コンピュータプログラム及び処理システム
CN108830809B (zh) * 2018-06-05 2022-05-03 陕西师范大学 一种基于膨胀卷积图像去噪方法
CN108959732B (zh) * 2018-06-15 2019-09-27 西安科技大学 一种基于卷积神经网络的输电线路故障类型识别方法
JP7362284B2 (ja) * 2019-03-29 2023-10-17 キヤノン株式会社 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法
JP7016835B2 (ja) 2019-06-06 2022-02-07 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、学習済みウエイトの製造方法、および、プログラム
CN110378854B (zh) * 2019-07-17 2021-10-26 上海商汤智能科技有限公司 机器人图像增强方法及装置
CN112001956B (zh) * 2020-07-30 2024-04-09 中国科学院西安光学精密机械研究所 基于cnn的纹影法强激光远场焦斑测量图像去噪方法
KR20230006106A (ko) * 2021-07-02 2023-01-10 주식회사 뷰웍스 스테레오 영상을 이용한 고심도 영상 생성 방법 및 장치, 고심도 영상 생성 모델 학습 장치
WO2023095212A1 (ja) * 2021-11-24 2023-06-01 日本電信電話株式会社 多視点画像生成装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2017199235A (ja) 2017-11-02

Similar Documents

Publication Publication Date Title
JP6727642B2 (ja) 学習型アルゴリズムによるフォーカス補正処理方法
Protter et al. Image sequence denoising via sparse and redundant representations
CN110766632A (zh) 基于通道注意力机制和特征金字塔的图像去噪方法
CN104091314B (zh) 基于边缘预测和稀疏比值正则约束的湍流退化图像盲复原方法
US20150254814A1 (en) Globally dominant point spread function estimation
Teng et al. Modified pyramid dual tree direction filter‐based image denoising via curvature scale and nonlocal mean multigrade remnant filter
Lau et al. Variational models for joint subsampling and reconstruction of turbulence-degraded images
US9508134B2 (en) Apparatus, system, and method for enhancing image data
Alam et al. Space-variant blur kernel estimation and image deblurring through kernel clustering
Zhao et al. Motion-blurred image restoration framework based on parameter estimation and fuzzy radial basis function neural networks
Shukla et al. Image restoration using modified binary particle Swarm Optimization Richardson-Lucy (MBSO-RL) algorithm
CN103337055B (zh) 一种基于梯度拟合的文本图像去模糊方法
Lavatelli et al. A motion blur compensation algorithm for 2D DIC measurements of deformable bodies
Cao et al. Dark channel inspired deblurring method for remote sensing image
Chen et al. Blind restoration for nonuniform aerial images using nonlocal Retinex model and shearlet-based higher-order regularization
Carbajal et al. Single image non-uniform blur kernel estimation via adaptive basis decomposition
Mastriani Denoising based on wavelets and deblurring via self-organizing map for Synthetic Aperture Radar images
Singh et al. Comparative analysis of image deblurring techniques
Wong et al. Regularization-based modulation transfer function compensation for optical satellite image restoration using joint statistical model in curvelet domain
CN110517196B (zh) 一种sar图像降噪方法及***
Deshpande et al. Gaussian Process Regression based iris polar image super resolution
Conti et al. A regularized deep learning approach for image de-blurring
CN112464780A (zh) 基于最大熵准则的椭圆物体特征提取方法
Dash et al. Particle swarm optimization based support vector regression for blind image restoration
Karaca et al. Image denoising with CNN-based attention

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200626

R150 Certificate of patent or registration of utility model

Ref document number: 6727642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees