JP2018084982A

JP2018084982A - 画像処理装置、情報処理方法及びプログラム

Info

Publication number: JP2018084982A
Application number: JP2016228042A
Authority: JP
Inventors: 俊太舘; Shunta Tachi; 優和真継; Masakazu Matsugi; 小森　康弘; Yasuhiro Komori; 康弘小森; 裕輔御手洗; Hirosuke Mitarai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2018-05-31
Anticipated expiration: 2036-11-24
Also published as: JP6929047B2; US10762606B2; US20180144447A1

Abstract

【課題】複数の画像からより高画質な画像を得る画像処理装置、情報処理方法及びプログラムを提供する。
【解決手段】画像処理装置は、複数の画像を取得する取得手段１０１ａ〜１０１ｃと、ニューラルネットワークを用いて複数の画像を特徴量に変換する変換手段１０２ａ〜１０２ｃと、特徴量を統合する統合手段１０３と、統合した特徴量から複数の画像より高画質の画像を生成する生成手段１０４と、を有する。取得手段は、少なくとも一つの画像の属性が他の画像の属性とは異なる複数の画像を取得し、さらに、取得手段は他の画像の属性とは異なる画像として、赤外画像、輝度画像、奥行き画像の何れかを取得する。
【選択図】図２

Description

本発明は、画像処理装置、情報処理方法及びプログラムに関する。

複数の画像から高画質な画像を生成する特許文献１のような手法が存在する。従来手法では仮想視点の画像に一致するように多視点の画像一枚一枚を射影変換し、重なった画像を平均して高画質な画像を得る。

特許第４９４２２２１号公報

ＣｈａｏＤｏｎｇ，ＣｈｅｎＣｈａｎｇｅＬｏｙ，ＫａｉｍｉｎｇＨｅ，ＸｉａｏｏｕＴａｎｇ．ＬｅａｒｎｉｎｇａＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｆｏｒＩｍａｇｅＳｕｐｅｒ−Ｒｅｓｏｌｕｔｉｏｎ，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ），２０１４ＱｉｏｎｇＹａｎ，ＸｉａｏｙｏｎｇＳｈｅｎ，ＬｉＸｕ，ＳｈａｏｊｉｅＺｈｕｏ，ＸｉａｏｐｅｎｇＺｈａｎｇ，ＬｉａｎｇＳｈｅｎ，ＪｉａｙａＪｉａ，Ｃｒｏｓｓ−ＦｉｅｌｄＪｏｉｎｔＩｍａｇｅＲｅｓｔｏｒａｔｉｏｎｖｉｓＳｃａｌｅＭａｐ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），２０１３ＡｌｅｘｅｙＤｏｓｏｖｉｔｓｋｉｙ，ＪｏｓｔＴｏｂｉａｓＳｐｒｉｎｇｅｎｂｅｒｇ，ＴｈｏｍａｓＢｒｏｘ，ＬｅａｒｎｉｎｇｔｏＧｅｎｅｒａｔｅＣｈａｉｒｓｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２８ｔｈＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１５Ｌｅｖｉｎ，Ａ．，Ｆｅｒｇｕｓ，Ｒ．，Ｄｕｒａｎｄ，Ｆ．，ａｎｄＦｒｅｅｍａｎ，Ｗ．Ｔ．Ｉｍａｇｅａｎｄｄｅｐｔｈｆｒｏｍａｃｏｎｖｅｎｔｉｏｎａｌｃａｍｅｒａｗｉｔｈａｃｏｄｅｄａｐｅｒｔｕｒｅ．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．２６，３（２００７），７０．ＤｅｎｇｙｕＬｉｕ，ＪｉｎｗｅｉＧｕ，ＹａｓｕｎｏｂｕＨｉｔｏｍｉ，ＭｏｈｉｔＧｕｐｔａ，ＴｏｍｏｏＭｉｔｓｕｎａｇａ，ＳｈｒｅｅＫ．Ｎａｙａｒ：ＥｆｆｉｃｉｅｎｔＳｐａｃｅ−ＴｉｍｅＳａｍｐｌｉｎｇｗｉｔｈＰｉｘｅｌ−ＷｉｓｅＣｏｄｅｄＥｘｐｏｓｕｒｅｆｏｒＨｉｇｈ−ＳｐｅｅｄＩｍａｇｉｎｇ．ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．Ｍａｃｈ．Ｉｎｔｅｌｌ．３６（２）：２４８−２６０（２０１４）Ｊ．ＺｂｏｎｔａｒａｎｄＹ．ＬｅＣｕｎ，ＣｏｍｐｕｔｉｎｇｔｈｅＳｔｅｒｅｏＭａｔｃｈｉｎｇＣｏｓｔｗｉｔｈａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２８ｔｈＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１５

従来方法では画像同士が略画素のレベルで重なるように適切な射影変換のパラメーターで画像を変形する必要がある。また被写体に奥行きがある場合は視差を考慮して領域別に変形する必要がある。また従来方法の高画質化は画像の平均化処理に基づくため、色収差や球面収差といった画像間に共通する系統的な劣化要因は改善しにくい。

本発明は、複数の画像を取得する取得手段と、ニューラルネットワークを用いて前記複数の画像を特徴量に変換する変換手段と、前記特徴量を統合する統合手段と、前記統合した特徴量から前記複数の画像より高画質の画像を生成する生成手段と、を有する。

本発明によれば、複数の画像からより高画質な画像を得ることができる。

画像処理装置のハードウェア構成の一例を示す図である。実施形態１の画像処理装置の機能構成の一例を示す図（その１）である。畳み込みニューラルネットワークの一例を示す図である。実施形態１の処理を示す模式図である。実施形態１の画像処理装置の情報処理の一例を示すフローチャートである。逆畳み込み演算の一例を示す図である。実施形態１の画像処理装置の機能構成の一例を示す図（その２）である。実施形態１の学習処理の一例を示すフローチャートである。高画質化の機序について説明するための図である。実施形態１の変形例を説明するための図である。撮像部の一例を示す図である。実施形態２の学習処理の一例を示すフローチャートである。実施形態３の画像処理装置の機能構成の一例を示す図である。実施形態３の情報処理を説明するための図である。実施形態３の画像処理装置の情報処理の一例を示すフローチャートである。実施形態３の変形例の一例を示す図である。エピ極線拘束を説明するための図である。実施形態４のニューラルネットワークの模式図である。実施形態５のニューラルネットワークの模式図である。アレイ状の多眼カメラに適用した一例を示す図である。段階的な学習の一例を示す図である。段階的な学習処理の一例を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。

図１は、画像処理装置１０のハードウェア構成の一例を示す図である。画像処理装置１０は、ハードウェア構成として、ＣＰＵ１１と、メモリ１２と、ネットワークＩ／Ｆ１３と、出力Ｉ／Ｆ１４と、を有している。ＣＰＵ１１は、画像処理装置１０の全体を制御する。メモリ１２は、画像やプログラム、ＣＰＵ１１が処理を実行する際に使用するデータ等を記憶する。ネットワークＩ／Ｆ１３は、画像処理装置１０を有線、又は無線を介してネットワークに接続するインタフェースである。出力Ｉ／Ｆ１４は、例えば、ディスプレイ等と接続され、ＣＰＵ１１による処理結果等をディスプレイ等に出力する。図１に示したハードウェア構成は一例である。画像処理装置１０は、複数のＣＰＵを有していてもよいし、ディスプレイ等の出力部自体を有していてもよいし、撮像部、操作部等とのインタフェースを有していてもよいし、撮像部、操作部自体を有していてもよい。
ＣＰＵ１１がメモリ１２に記憶されているプログラムに基づき処理を実行することにより、画像処理装置１０の後述する図２、図７、図１３に示される機能構成、図５、図８、図１２、図１５、図２２のフローチャートの処理が実現される。

＜実施形態１＞
実施形態１の画像処理装置１０の目的は、簡易な構成の撮像装置（以下、低画質画像の撮像装置ともいう）による複数の低画質な画像から、高精度な構成の撮像装置で得られるような高画質な画像を生成することである。高画質化は解像度の向上、ノイズ削減、色調補正、鮮鋭化、被写界深度の変更等、様々考えられるが、本実施形態における高画質化は高解像化のこととする。
本実施形態においては各低画質の画像はカラー画像、赤外画像、フラッシュ撮像した画像のように画像の属性が相異なるものであるとする。各低画質の画像及び生成される高画質な画像の視点位置は同一であるとする。ここで視点の一致した複数の異種属性の画像を得るためには以下のような方法がある。（１）低画質画像の撮像装置の内部でハーフミラーを使って光線を分割する（２）属性の異なる受光素子を撮像デバイスに混合して配列させる。画像処理装置１０が取得する低画質画像は上記のような工夫を備えた低画質画像の撮像装置により撮像されたものであるとする。
本実施形態に係る画像処理装置１０を、図面を参照しながら説明する。なお、図面間で符号の同じものは同じ動作をするものとして重ねての説明を省く。

まず図２の機能構成の図を参照して本実施形態の画像処理装置１０の概要を説明する。画像処理装置１０は、機能構成として、画像処理を行う対象の複数の低画質画像を取得するための画像取得部１０１ａ〜１０１ｃ、取得された低画質画像をニューラルネットワーク（以下、ＮＮと略す）によって特徴量に変換する特徴変換部１０２ａ〜１０２ｃを含む。また、画像処理装置１０は、機能構成として、ＮＮの特徴量を統合する特徴量統合部１０３、前記統合された特徴量に基づいて高解像な画像を生成する高画質化変換部１０４、生成された高画質画像を出力する画像出力部１０５を含む。更に、画像処理装置１０は、機能構成として、特徴変換のための各種パラメーターの保持及び供給を行う変換パラメーター保持部１０６を含む。

次に本実施形態を適用して得られる手法と従来手法との差異を明確にするため従来手法である非特許文献１を概説する。非特許文献１は１枚の画像より高解像化した画像を生成する手法である。同手法は図３に示すように畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、以下、ＣＮＮと略す）を用いる。同手法は大まかには（１）拡大した低画質画像２０２をＮＮの特徴量２０３に変換する特徴変換処理２１０及び（２）ＮＮの特徴量２０３から高画質な画像２０５を生成する高画質化変換処理２１３の二つの構成から成ると見ることができる。
以上の従来法に対比して本実施形態を説明する。図４に模式図を示すように、複数の低画質画像３０１ａ〜３０１ｃを入力としている。ここでは低画質画像はＲＧＢカラー画像、赤外画像、フラッシュ撮像画像のようにそれぞれ属性の異なる画像とする。なお図４には３枚の低画質画像が示されているが、低画質画像の構成枚数は２枚以上の任意の数が可能である。
これら複数の属性の画像を用いて補完的に高画質画像を生成する点が、従来法である非特許文献１と本実施形態の処理との違いである。また統合の際に画像の画素ではなく、特徴量を用いて統合する点が、特許文献１のような画像平均化をベースとする従来方法と本実施形態の処理とが異なる点である。また各複数の属性画像は統合に至るまでに、各個それぞれのＮＮで特徴変換され、統合に適切な抽象度の特徴量に変換される点が更に他の従来法と本実施形態の処理との差異である。本実施形態の処理では画像の統合の一つの実現形態として特徴量の連結を示しているが、後の実施形態に示すように、統合の方法は特徴量の連結には限らない。
本実施形態の画像処理装置１０は、各低画質画像３０１ａ〜３０１ｃをＣＮＮの特徴量３０３ａ〜３０３ｃへ変換する特徴変換３０８ａ〜３０８ｃを行う。特徴変換３０８ａ〜３０８ｃはここではそれぞれ二段階の畳み込み処理から成るとしている。
次に画像処理装置１０が従来手法と異なるのは、特徴量統合３０９の処理を備える点である。特徴量統合３０９の処理は低画質画像のＣＮＮの特徴量３０３ａ〜３０３ｃを連結して一つのＣＮＮの特徴量３０４を得る。特徴量が一つに統合された後は、画像処理装置１０は、特徴量３０４に高画質化変換３１５の処理を行って高画質画像の結果を得て最終出力とする。

次に図５のフローチャートを用いて画像処理装置１０の動作を詳細に述べる。動作が開始されると、Ｓ１０１において、画像取得部１０１ａ〜１０１ｃは、低画質画像３０１ａ〜３０１ｃを取得する。取得された画像は特徴変換部１０２ａ〜１０２ｃにそれぞれ送られる。次にＳ１０２において、特徴変換部１０２ａ〜１０２ｃ、及び高画質化変換部１０４は、変換処理を行うための変換パラメーターを変換パラメーター保持部１０６から読み出す。
Ｓ１０３からＳ１０７までは低画質画像３０１ａ〜３０１ｃごとに以下の処理を行うループの処理である。まずＳ１０４において、特徴変換部１０２は、低画質画像の撮像装置の光学構成等に由来する画像の歪みを補正する。更にＳ１０５において、特徴変換部１０２は、各画像のサイズ及び縦横比が一致するようにサイズやアスペクトを調整する。特徴変換部１０２は、これらの補正処理を、光学系や低画質画像の撮像装置の設計値を用いて行ってよい。又は予め撮像した校正用のパターン等からカメラの内部パラメーターを推定して補正してもよい。
次にＳ１０６において、特徴変換部１０２は、低画質画像３０１ａ〜３０１ｃをＣＮＮの特徴量３０３ａ〜３０３ｃに変換する。これは本実施形態では下式の畳み込みの演算と活性化関数の演算からなる。

ｆ_i+1＝θ（ｆ'_i+1），
θ（ｘ）＝Ｍａｘ（０，ｘ），
ｆ'_i+1（ｘ，ｙ，ｄ_i+1）＝Σ_diΣ_ΔxΣ_Δyｆ_i（ｘ，ｙ，ｄ_i）ｗ_i（ｘ＋Δｘ，ｙ＋Δｙ，ｄ_i，ｄ_i+1）＋ｂ_i（ｄ_i）
但し、ｆ_i，ｆ_i+1は変換前と変換後の特徴量である。ｆ（ｘ，ｙ，ｄ）は画素（ｘ，ｙ）に関する多次元特徴量ｆのｄ番目の値である。θは半波整流の活性化関数である。ΔｘとΔｙとはサイズＳ×Ｓの画像パッチの各画素の座標であり、Δｘ，Δｙ∈｛−Ｓ／２，…，０，…，Ｓ／２｝である。またｗは４次のテンソルの変換パラメーターである。ｂはバイアス項である。なお、ここで画像外の領域は０の値で充填されており、畳み込み演算の変換前後で画像のサイズは変えないとする。
この畳み込み演算のパラメーターｗ及びｂは後で示す事例学習の方法で事前に獲得される。本畳み込み演算は定性的には、低画質な画像を、変換後の目標である高画質画像に対応づけるための局所パッチの符合化処理と見なすことができる。

より具体的に説明する。画像を小さな局所パッチの集合として考える。画像は空間的な連続性を持ち、空や壁等同一の被写体には繰り返しのパターンや類似パターンがある。そのた各パッチは、有限個のパターンのコードブックの組み合わせによって効率よく近似することが可能である。これがコードブックベースの画像圧縮である。画像の各パッチはコードブックとその係数とに圧縮され（符合化）、係数とコードブックとの積和から画像を生成することができる（復号化）。
本実施形態の画像処理装置１０も部分的に上記と同様の処理を行う。異なるのは、複合化の目標となる画像が入力画像そのものではなく、高画質画像であることである。またそのため中間段階のコードブックの情報表現は、高精細な情報を十分表現し、かつ、ノイズ等にロバストであることが求められる。
非特許文献１は、ＮＮの特徴表現がこれに適うことを実証したものである。畳み込み演算を複数回繰り返すＣＮＮの各層には、色の組み合わせや物体形状等、様々な情報が異なる階層で表現される。また学習したタスクに応じて必要なタイプの表現が発見的に獲得される。以上がＮＮの畳み込み演算が高画質化のための特徴表現（符合化）を実現する背景の説明である。
図４では特徴変換３０８ａ〜３０８ｃの各処理として上記の畳み込み演算を二段階行う形態を示している。但し、ここで何段階の畳み込み演算を行うか、そのときの畳み込みのカーネルのサイズ、変換後の特徴量の次元数等は特定の形態に限定されない。また特徴変換３０８ａ〜３０８ｃの変換パラメーターはそれぞれ異なっていてよい。

次にＳ１０８において、特徴量統合部１０３は、前段までに得られたＣＮＮの特徴量３０３ａ〜３０３ｃを統合して統合後の特徴量３０４を生成する。本実施形態における統合処理とは下式のような特徴量の連結処理である。
ｆ₃（ｘ，ｙ）＝［ｆ_2a（ｘ，ｙ）^T，ｆ_2b（ｘ，ｙ）^T，ｆ_2c（ｘ，ｙ）^T］^T
ここでｆ_2a（ｘ，ｙ），ｆ_2b（ｘ，ｙ），ｆ_2c（ｘ，ｙ）はそれぞれＣＮＮの特徴量３０３ａ〜３０３ｃの画素（ｘ，ｙ）に関する特徴ベクトルである。Ｔは転置である。

Ｓ１０９において、高画質化変換部１０４は、統合後の特徴量３０４に対して逆畳み込み３１０の処理を行う。この結果、各画素の１×１×Ｄ₃次元の特徴量がＳ×Ｓ×Ｄ₄次元の特徴量に変換される。この演算は下式のようになる。
ｆ_i+1＝θ（ｆ'_i+1），
ｆ'_i+1（Ｓｘ＋Δｘ，Ｓｙ＋Δｙ，ｄ_i+1）＝Σ_di ｗ'_i（Δｘ，Δｙ，ｄ_i，ｄ_i+1）ｆ_i（ｘ，ｙ，ｄ_i）＋ｂ'_i（Δｘ，Δｙ，ｄ_i+1））
但しｗ'は変換パラメーターである。ｂ'はバイアス項である。Δｘ，Δｙは各画素を変換して得られる画像パッチの座標の要素である。上式の変換により低画質の画像の特徴量３０４はＳ倍の解像度を持つ特徴量３０５に変換される。なお図６（Ａ）は変換後の画像パッチサイズがＳに等しい場合を示す模式図である。一方で図６（Ｂ）は変換後の各画像パッチがＳより大きいケースを示す。後者のケースでは、変換後の画像パッチ間で重なる領域が存在する。重なった領域では変換後の各画素の値を総和して特徴量とする。
なお従来法の非特許文献１では逆畳み込み演算は行わず、入力画像をバイキュービック法で機械的に拡大している。それに対して本実施形態の画像処理装置１０は、後述するように事例学習に基づき解像度の向上を行い、その重みはＮＮの層全体を通じて最適化される。

次にＳ１１０において、高画質化変換部１０４は、図４の高画質な特徴量３０５に対して畳み込み３１１の処理及び畳み込み３１２の処理を行って３チャンネルのカラー画像３０７を得る。Ｓ１１１において、画像出力部１０５は、結果の高画質画像を出力する。そして、画像出力部１０５は、図５に示すフローチャートの処理を終了する。
本実施形態の一連の変換に関するパラメーターは予め画像及び特徴量の変換前後の適切な関係を多数の事例画像から学習することで獲得される。学習時の動作については後述する。なおＮＮの各段階にはここで述べた畳み込みや活性化関数の演算に加えて、特徴量の値を正規化する処理を組み合わせてもよい。このような細かな処理のバリエーションの内容は、本実施形態にとって本質的な要素ではないのでここでは詳述しない。

（学習処理）
次に本実施形態のＮＮの重み、即ち適切な変換パラメーターを学習で獲得するための詳細な処理の流れを説明する。学習に係る画像処理装置１０の機能構成図は図７のようになる。これは図２に新たに高画質画像取得部１０７、画像比較部１０８及び学習事例画像保持部１０９が加わったものである。学習処理のフローチャートを、図８を用いて説明する。
まず学習に用いる事例画像のセットは事前に様々な被写体を撮像し、学習事例画像保持部１０９に保存されているとする。ここで事例画像とは画像取得部１０１ａ〜１０１ｃで撮像した低画質の画像群と、それらから最終的に生成したい目標となる高画質画像と、である。高画質画像は、低画質画像の撮像装置群とは別の撮像装置を用意して撮像が行われる。ここで高画質画像は低画質画像群と視点と焦点面が同一になるように撮像装置の位置が調整され、撮像が行われているものとする。
画像処理装置１０の学習処理が開始すると、まずＳ２０１において、変換パラメーター保持部１０６は、全パラメーター｛ｗ_i，ｂ_i，ｗ'_i，ｂ'_i｝を乱数で初期化する。次にＳ２０２及びＳ２０３において、画像取得部１０１ａ〜ｃは、学習事例画像保持部１０９から各撮像系の低画質画像を読み出し、各画像の歪みやサイズ、アスペクトの補正を行って各低画質画像上の被写体が概ね一致するように変換を行う。ここで決定した画像補正の変換のパラメーターは変換パラメーター保持部１０６に保存され、認識時にも同じ値が利用される。画像取得部１０１ａ〜ｃは、補正後の画像を、学習事例画像保持部１０９に戻して保存する。

なお低画質画像を平均して最終結果とする特許文献１と異なり、この画像補正は必ずしも画素レベルまで厳密に一致させる必要はない。例えば画像間に位置ずれがある場合でも、サイズとアスペクトとが同じならばずれ方は系統的になる。即ち、低画質画像間の同一のエッジは常に同じ変位量だけずれる。この場合、図４における低画質画像の特徴変換３０８ａ〜３０８ｃには、受容野の中心がずれたフィルタがそれぞれ学習される。各画像のエッジやテクスチャ等は上記の変換でそれぞれ位置ずれが吸収され、その後、特徴量統合３０９で統合され、高画質画像に対応づけるために更に高層のニューロンへ送られる。
またもし特定の低画質画像が歪んでいたり、アスペクトやサイズが少しずつ異なっていたりするような場合は、位置ずれは非系統的に生じる。このような場合、特徴変換３０８ａ〜３０８ｃには受容野の中心のぼけたフィルタが学習される。このぼけの大きさは、低画質画像間の非系統的な位置ずれ量の標準偏差に比例する。このように低画質画像間の位置ずれはＮＮのフィルタによってロバストに吸収されることになる。

次のＳ２０４からＳ２１０までの処理は変換結果が目標の画像に近づくように誤差を減らすパラメーターの更新のループである。ループは所定の回数繰り返される。まずＳ２０５において、画像取得部１０１ａ〜ｃは、低画質画像のセットをｎ個選択する。次にＳ２０６において、高画質画像取得部１０７は、低画質画像の各セットに対応する同一視点・同一焦点面の高画質画像をｎ枚取得する。
次にＳ２０７において、その時点までに得られている変換用のパラメーターの値を用いて特徴変換部１０２ａ〜１０２ｃ、特徴量統合部１０３、高画質化変換部１０４がそれぞれ所定の順番で変換処理を行う。これによりｎ個の低画質画像のセットよりｎ枚の高画質画像が生成される。次にＳ２０８において、画像比較部１０８は、生成されたｎ枚の高画質画像と目標のｎ枚の高画質画像とを比較して誤差の量を算出する。画像間の総誤差量は下記の二乗誤差で定義される。
Ｌ＝１／ｎΣ_j１／ｍ_jΣ_cΣ_xΣ_y｜｜Ｉ^* _jc（ｘ，ｙ）−Ｉ^{^} _jc（ｘ，ｙ）｜｜²
但しＩ^* _jはｎ個のデータセットのうちのｊ番目の高画質画像の真値である。Ｉ^{^} _jはｊ番目の低画質画像セットから生成された高画質画像である。ｍ_jはｊ番目の画像の全画素数である。ｃはＲＧＢの３チャンネルを表す要素である。

Ｓ２０９において、画像比較部１０８は、特徴変換部１０２ａ〜１０２ｃ、高画質化変換部１０４に誤差の値を送り、それぞれ誤差の値が最小化するように、各パラメーター｛ｗ_i，ｂ_i，ｗ'_i，ｂ'_i｝を下式で変更する。
Ｗ（ｔ＋１）＝Ｗ（ｔ）−η∂Ｌ／∂Ｗ（ｔ）
但しＷは何れかのパラメーターを表す。ηは学習係数である。誤差の勾配の項∂Ｌ／∂Ｗは誤差逆伝搬の手法を用いて最終層から順に算出される。ある層のニューロンｉとその上位の層のニューロンｊの間に結合があるとき、結合の重みのパラメーターＷ_ijの誤差の勾配は以下の式で求められる。
∂Ｌ／∂Ｗ_ij＝（∂Ｌ／∂Ｚ_j）（∂Ｚ_j／∂Ｗ_ij）
但しＺ_jはニューロンｊの出力値である。
以上の更新処理を所定回数繰り返したら、Ｓ２１１において、特徴変換部１０２ａ〜１０２ｃ、特徴量統合部１０３、高画質化変換部１０４は、変換パラメーター保持部１０６にネットワークの全パラメーターを保存して処理を終了する。なお上記の学習更新式には慣性項や重みの減衰項と呼ばれる項を加えたタイプ等派生の形態も様々に存在する。以上で学習時の処理についての説明を終える。

次に、本実施形態の高画質化の機序について定性的な説明を行う。図９（Ａ）の模式図では赤外画像、輝度画像、奥行き画像という属性の相異なる低画質な画像５０１ａ〜５０１ｃが撮像され入力されている。個々の画像は輝度画像５０１ｂのように解像度が低かったり、ノイズを伴っていたり、赤外画像５０１ａに二重線として表現されるように、色収差による境界の滲みを伴っていたり、奥行き画像５０１ｃのように全体がぼやけた画像であるとする。
画像処理装置１０は、ＮＮで各画像を特徴量に変換する。各画像の領域は輪郭の形状や表面のテクスチャといった、被写体の見えに関する抽象的で高次元の特徴量に分解される。次に画像処理装置１０は、複数の画像の特徴量５０２ａ〜５０２ｃを連結してまとめる。すると、異なる属性の画像が特徴量のレベルで集約される。次に事例ベースの学習により、上記の高次元特徴ベクトルと、変換先の目標である高画質画像５０３の局所領域のパターン５０４とが対応付けて記憶される。更にＮＮの各層の変換パラメーターは学習を通じて全体が最適化される。このような機序により、本実施形態の画像処理装置１０は、属性の異なる低画質の画像群を利用して高画質画像５０３を生成することができる。

本実施形態の機序を更に明確にするためにここで従来の高画質化の方法と比較する。異種属性画像を補完的に利用する従来の方法には非特許文献２のような方法がある。同方法では赤外フラッシュで撮像した赤外画像からエッジを抽出し、同エッジを利用して可視光画像のエッジ保存平滑化を行う。このような方法ではエッジの位置を合わせたり、赤外画像のエッジの欠けや疑似エッジといったノイズに対する個別的な工夫としたりする必要がある。
対して本実施形態において、低画質画像間にエッジの食い違いや収差による色の滲みのような食い違いがある場合を考える。低画質画像の局所パッチには様々な被写体の部分領域が含まれる。空や壁等同一被写体からは同じような輪郭やテクスチャのパッチが多く抽出される。ここである二つの異種画像間の食い違いが系統的で、常に同じ方向に同じ量だけ輪郭がずれると仮定する。すると輪郭のずれ方の類似したパッチが数多く存在することになる。ＮＮが局所パッチを特徴量化（符号化）する際は、これらの位置ずれもパターンの一部として畳み込み演算の重みを学習する。そのため画像の食い違いはＮＮの特徴量変換によって吸収されることになる。
更にここで異種画像間のずれ方の方向や量が一定ではなく、画像中の位置や被写体の距離等によって異なる方向に異なる量ずれると仮定する。この場合、一つの畳み込み演算で食い違いを吸収することは難しい。但し、複数の階層のＮＮの特徴変換を経ることにより、上記のようなずれ方の複数のバリエーションを個別に学習し、正しく輪郭として符号化できる可能性がある。
以上説明したように、本実施形態では学習によって異種画像の食い違いを吸収して各画像を補完的に用いることができる。非特許文献２のように、ユーザーが異種画像間の食い違いに対して個別的な工夫を施す必要がない。

また更に特許文献１のような従来の方法と比較する。特許文献１では合成したい画像の仮想的な焦点面の値をユーザーが与え、これに応じて画像群の位置をずらして重ねたのちに画像を平均化していた。対して本実施形態では、前述のような処理を行わない。本実施形態の画像処理装置１０は、同じ被写体であっても焦点面が異なる画像は別の学習事例として扱う。学習では焦点面が異なる事例ごとに低画質画像の特徴量と高画質画像の局所領域との対応関係を記憶する。そのため、ある焦点面で撮像した低画質画像群を入力として与えると、画像処理装置１０は、これに対応する焦点面で撮像した高画質画像を再現するように画像の変換を行う。
このように画像処理装置１０は、事例ベースで高画質化処理を行っている。そのため高画質化処理の種類は高解像化に限らず様々な形態が実現可能である。暗電流ノイズの抑制、色調補正、鮮鋭化、被写界深度の変更、ボケの除去、霧や霞みの除去、等様々な種類の高画質化処理の実現が可能である。
但しこれらを精度よく行うためには、信号とノイズとを見分けるだけの必要な情報が低画質画像に乗っていることと、事例を学習するための豊富な事例を用意することとが必要である。例えば霧や霞みを除去するには、霧に隠れた被写体をある程度捉えられる赤外のようなマルチバンドの画像があることが望ましい。また暗電流ノイズを抑制するためには、暗電流と通常の模様との違いが学習できるだけの豊富な事例セットが必要となる。

（変形例）
ここで実施形態１の変形例として画像処理装置１０を図１０（Ａ）のような構成としてもよい。本変形例の画像処理装置１０は、先に説明した実施形態１とは異なり、低画質画像の特徴量９０３ａ〜９０３ｂに対して先に逆畳み込みによる高画質化の処理を行い、高画質の特徴量９０４ａ〜９０４ｂを生成する。画像処理装置１０は、その後に特徴量連結の処理を行う。このように各処理の順番が前後したり、複数段階に分けて実行されたりする形態が有り得る。また逆畳み込みの高解像変換を複数回に分けて少しずつ高解像な特徴量に変換するようにしてもよい。
また実施形態１では高画質な特徴量を得るために学習に基づく逆畳み込み演算を用いた。しかし、図１０（Ｂ）に示すように、画像処理装置１０は、低画質画像９１１ａ〜９１１ｂをまずバイキュービック補完等の一般的な画像処理手法でアップサンプリングし、ついでＮＮの特徴量へと変換するようにしてもよい。また更に別の変形例として、画像処理装置１０は、逆畳み込み演算の代わりに、非特許文献３で示されているような逆プーリング（ｕｎｐｏｏｌｉｎｇ）と呼ばれる特徴量の拡大コピー、及び畳み込み演算からなる二段階の変換を用いてもよい。
また別の変形例として、図１０（Ｃ）に示すように、画像処理装置１０は、一段階目に逆畳み込み演算による高解像化を兼ねた特徴変換を行い、その後に特徴量統合と高画質化を行うような形態でもよい。

また別の変形例として、画像処理装置１０は、画像そのものを特徴量と見なして一段階目で異種属性画像のチャンネルを全て連結し、次いで畳み込みによる高画質化変換を行うような形態でもよい。
また別の変形例として、画像処理装置１０は、プーリング処理を組み合わせてもよい。プーリングは複数の画素の特徴量を集約して一つの画素の特徴量とする処理であり、パターンの変形や位置ずれに対してニューロンの反応がロバストになる効果がある。但し特徴の空間解像度は低下する。これを補うため、画像処理装置１０は、プーリング後に特徴を線形補完等で再拡大したり、逆畳み込み演算によって解像度を復元したりしてもよい。本変形例の部分的な一例を図１０（Ｄ）に示す。ここでは畳み込み演算の後にプーリングを行い、次いで異属性間の特徴量を連結し、逆畳み込み演算で再び解像度を拡大する、といった構成を示している。
また本実施形態では、畳み込み及び逆畳み込みの変換のパラメーターは画像上の位置に寄らず一定であったが、これを画像上の位置によって異なるパラメーターを用いるようにしてもよい。この変形例では画像の端に出やすい特定の収差や周辺光量落ち等の劣化要因を効果的に学習して除去することが期待できる。

また別の変形例として、画像処理装置１０は、低画質画像として符号化撮像や圧縮センシング等と呼ばれる特殊な撮像技法による画像データを用いてもよい。例えば非特許文献４では符号化絞りと呼ばれる特殊なマスクパターンの絞りを使って撮像した画像を用いると被写体の奥行きの推定が容易になる例が示されている。画像取得部１０１が取得する低画質画像の実現例として、非特許文献４のような画像データを用いてもよい。このような画像データを通常の輝度画像と組み合わせると、性質の異なる画像を補完的に用いることができるため精度の向上が期待できる。
また同様に例えば非特許文献５には撮像装置ごとに個別に撮像タイミングを制御してｎ回の撮像を行い、バリエーションの異なるｎフレームの動画像を得る技術が示されている。このような画像をｎチャンネルの画像データとして本実施形態の低画質画像の一つとして入力するような形態でもよい。
また本実施形態では低画質画像の焦点面を調整して撮像することを想定していた。ここで変形例として、何れか一つの低画質画像を基準画像として焦点面を操作して撮像し、残りの低画質画像は常に焦点面を固定するようにしてもよい。基準画像以外は深い被写界深度で撮像した画像（いわゆるパンフォーカス）としておく。この変形例では基準となる画像からは焦点面の情報を手掛かりにし、残りの画像については見えの情報のみを用いる。これによりこれまでの形態と同様、入力画像の焦点面に対応した焦点面で撮像したような高画質画像が生成される。

＜実施形態２＞
実施形態１では、画像処理装置１０の画像取得部が得る各低画質画像と、低画質画像を変換して得られる高画質画像との視点位置が同一である構成について述べた。実施形態２では、各低画質画像と高画質画像との各々の視点位置が異なる構成について述べる。本実施形態は実施形態１と異なり光線の分割等が不要のためより簡素な構成となる。その一方で、実施形態１では存在しなかった視差が画像間に生じるため、より複雑な画像変換のパラメーターの学習を行う必要がある。
本実施形態の画像処理装置１０は、ハードウェア構成として、撮像部１０００を有するものとする。撮像部１０００の外観の例を図１１（Ａ）に示す。ここでは撮像部１０００の筺体に二つの低画質画像の撮像装置１０１１ａと低画質画像の撮像装置１０１１ｂとが備わる例を示している。二つの低画質画像の撮像装置で撮像した低画質画像から、仮想の視点位置１０１２で高画質なカメラで撮像したような画像を生成することが本実施形態の処理の目的である。なおここで図１１（Ｂ）に示すように低画質画像のｉ番目の撮像装置の視点位置と仮想的な高画質画像の視点位置との変位量をρｉとする。本実施形態の機能構成は実施形態１の図２と同様である。

次に本実施形態の学習時の情報処理を、図１２を用いて説明する。学習時の機能構成図は実施形態１の図７と同様である。まず学習処理の準備として高画質な学習画像データを撮像するための高画質撮像装置を別に用意する。高画質撮像装置と低画質画像の撮像装置１０１１ａ、１００１ｂとはそれぞれ自由に視点を移動させながら撮像できる機構が備わっているとする。
まず学習処理が開始されると、Ｓ３０１において、学習事例画像保持部１０９が高画質撮像装置を用いて学習用の被写体を撮像し、画像を保存する。ついでＳ３０２において、学習事例画像保持部１０９が二つの低画質画像の撮像装置１０１１ａ、１００１ｂを用いて同一の被写体を撮像して保存する。このとき、学習事例画像保持部１０９は、低画質画像の撮像装置１０１１ａ、１００１ｂの視点の位置を水平方向に所定の変位量だけずらしながら複数回の撮像を行う。これにより学習事例画像保持部１０９に様々な被写体について高画質の画像、及び同一の被写体を異なる視差で撮像した複数の低画質画像が保存されることになる。
次にＳ３０３〜Ｓ３０７は、各変換パラメーターの学習更新を行うループである。ループ中では変数αが０から１まで０．１ずつ増加する。Ｓ３０４において、高画質画像取得部１０７は、学習事例画像保持部１０９よりｎ枚の高画質画像を選択して取得する。次にＳ３０５において、画像取得部１０１ａと画像取得部１０１ｂとが、高画質画像に対応するｎ枚の画像を学習事例画像保持部１０９よりそれぞれ選択して取得する。このとき、画像取得部１０１ａと画像取得部１０１ｂとは、図１１（Ｃ）に示すように、αの値に応じて変位量αρ_iの位置で撮像した画像をそれぞれ選択する。
これにより、学習の初期では同一の視点位置の画像が学習画像として与えられ、学習が進むと漸次、真の視点位置で撮像した画像が与えられることになる。このようにすることで学習を平易にし、局所解等に陥るのを防ぐ。Ｓ３０６において、特徴変換部１０２ａ、１０２ｂ及び高画質化変換部１０４は、変換パラメーターの更新を行う。本ステップは、Ｓ３０６ａ〜Ｓ３０６ｃで構成され、この処理は実施形態１で述べた学習時の処理動作（図７のＳ２０７〜Ｓ２０９）と同一であるため、詳細な説明は省略する。
これにより、学習の初期では同一の視点一の画像が学習画像として与えられ、学習が進むと漸次、画像処理装置１０の撮像部１０００の真の視点位置で撮像した画像が与えられることになる。このようにすることで学習を平易にし、局所解等に陥るのを防ぐことができる。α＝１．０での学習が終わったらＳ３０９において、特徴変換部１０２ａ、１０２ｂ及び高画質化変換部１０４は、変換パラメーター保持部１０６にＮＮの変換パラメーターを保存する。そして、例えば、特徴変換部１０２ａ、１０２ｂ及び高画質化変換部１０４は、図８に示すフローチャートの処理を終了する。

次に、本実施形態の高画質化の機序について定性的な説明を行う。視点位置の異なる複数の低画質画像の撮像装置で撮像すると図９（Ｂ）及び図９（Ｃ）に示すように、被写体までの距離に応じて画像群５１１及び画像群５２１には視差が生じる。但し画像間のずれは不規則に生じる訳ではなく、被写体までの距離の変化に応じてそれぞれエピ極線上を移動する（エピ極線については実施形態４で詳述する）。
画像群５１１の各画像を特徴変換して得られる特徴表現のパターンをＰ_L，Ｑ，Ｒ_Rとする。被写体に近づいて撮像すると図９（Ｃ）に示すように更にずれたパターンＰ_LL，Ｑ，Ｒ_RRが得られる。ここでパターンＰ（図９（Ａ）に記号を付して示す）、Ｐ_L及びＰ_LLは形状がほぼ同一ながら位置の異なるパターンである。ＣＮＮの上層のニューロンは多様な形状に選択的に反応するのみならず、パターンの位置ずれに対しても選択性を持つことが知られている。Ｐ，Ｐ_L，Ｐ_LLを表現するニューロンの反応のベクトルの集合は類似しつつ互いに少しずつ異なっている。即ち、画像パターンの位置ずれに関しての１次元の多様体を構成している。

学習の際に、特徴量表現のベクトル（Ｐ_L，Ｑ，Ｒ_R）は高画質画像５１３の局所領域の見え５０４に対応付けて記憶される。特徴量表現のベクトル（Ｐ_LL，Ｑ，Ｒ_RR）は同一の局所領域を近くで撮像したときの見え５０５に対応づけされる。このように各パターンを高画質画像に対応付けて記憶して行く。
ニューロンの特徴表現のベクトル（Ｐ，Ｑ，Ｒ），（Ｐ_L，Ｑ，Ｒ_R），（Ｐ_LL，Ｑ，Ｒ_RR），…，がそれぞれ異なる反応のパターンを示す場合、有限個のニューロンであらゆる低画質画像と高画質画像とを対応付けて記憶してゆくのは困難である。
しかしパターンの集合｛Ｐ，Ｐ_L，Ｐ_LL｝及び｛Ｒ，Ｒ_R，Ｒ_RR｝に対するニューロンの反応のベクトルは１次元の多様体である。これらのベクトルの組の集合｛（Ｐ，Ｑ，Ｒ），（Ｐ_L，Ｑ，Ｒ_R），（Ｐ_LL，Ｑ，Ｒ_RR）｝も１次元の多様体である。ニューロンの反応パターンは位置ずれ以外に、形状についてのバリエーションも持つ高次元の多様体だがここでは簡単のために位置ずれにのみ話を限定する。
ＮＮは多様体のパターンを効率よく学習できる手法として公知であり、特に多様体のパターンを次元圧縮するオートエンコーダーが広く知られている。本実施形態の画像処理装置１０は、高次元の入力画像パターンをＮＮの特徴量へと次元削減し、出力画像パターンへと紐付け、再び画像へと復号化する。これは入出力データが低画質と高画質とで非対称なオートエンコーダーの一種と見なすことができる。
以上の結果、各画像上の被写体が図９（Ｂ）及び（Ｃ）のように視差によってずれている場合も、これらを効率的に高画質画像の領域と対応付けて記憶することができる。その結果、様々な低画質画像から高画質画像を生成することが可能となる。以上が本実施形態の機序の説明である。

＜実施形態３＞
実施形態２では各低画質画像及び高画質画像の視点位置が同一でない形態について述べた。上記実施形態では視点位置が離れていてニューロンの受容野の大きさを超えるほどの視差が生じる場合、画像間を対応づけることができないため精度が下がる問題がある。ＣＮＮをより多数の層で構成すれば高層のニューロンの受容野を大きくすることができるが、多数層のＮＮは学習が困難である。そこで本実施形態ではこのような問題を解決する処理等について開示する。またその際、本実施形態における特徴量の統合部が特徴量の連結操作に限らず様々な形態を取り得ることを示す。
本実施形態の画像処理装置１０は実施形態２と同様に視点位置の異なる低画質画像を取得する複数の画像取得部を備える。画像処理装置１０の処理の目的は取得した複数の低画質画像から大口径のレンズで撮像したような被写界深度の浅い鑑賞性の高い画像を作成することとする。本実施形態では物理的なサイズが小さい又は構成が簡易な光学系からでもこのような高画質な画像を得ることができる。

画像処理装置１０の機能構成は図１３（Ａ）のようになる。図１３（Ａ）がこれまでの実施形態と異なるのは、一つは被写体距離取得部１００７を備える点である。また更に異なる一つはパターンの視差に対応したＭ個の特徴変換部１００２ｘ〜ｚを備える点である。
画像処理装置１０の情報処理を図１４（Ａ）、１５（Ａ）及び図１５（Ｂ）を用いて説明する。画像処理装置１０が動作を開始すると、Ｓ４０１〜Ｓ４０６で上述の実施形態と同様の処理が行われる。即ち、低画質の画像取得部１００１ａ〜ｃがＮ枚の画像を取得してそれぞれに歪みやサイズの画像補正を施す。なお、Ｓ４０４の歪み補正の際に、低画質画像の撮像装置と高画質画像の仮想視点位置との光軸が並行でない場合、画像処理装置１０は、低画質画像と高画質画像との像面が並行になるように併せて射影変換による補正を行う。
続いてＳ４０７〜Ｓ４１０は前段で得られた低画質画像のセットにＭ個の異なる特徴変換を施す処理のループである。ここでＭ個の特徴変換はそれぞれＭ段階の異なる視差のケースに対応している。Ｓ４０８において、特徴変換部１００２ｘ〜１００２ｚは、それぞれ距離ｄ_jの焦点面に被写体があると想定して、全画像の位置が焦点面で一致するように各画像を所定の方向及び所定量ずらして重ねる。この重ねられたＮ枚の画像を図１４（Ａ）に記号Ｉ^(j)で表す。なお画像処理時には被写体がどの距離にあるかに関わらず、特徴変換部１００２ｘ〜１００２ｚは、一律に上記処理を行う。

図１４（Ａ）ではｄ₁＝無限遠、ｄ₂＝１０ｍ、ｄ_M＝０．５ｍの３つの視差のパターンについて図示している。ここでＮ枚の低画質画像のうち簡単のため２枚のみ破線で示している。なお画像を台形で示しているのは射影変換後の画像であることを示している。
次にＳ４０９において、特徴変換部１００２が備える畳み込み演算部によって画像Ｉ^(j)に畳み込み演算を行ってＮＮの特徴量ｆ₁ ^(j)を得る。次にＳ４１１において、特徴量統合部１００３は、被写体距離取得部１００７から距離マップＤ^*を得る。この距離マップはアクティブパターン照射法等の何らかの手段で撮影と同時に各画素の距離の値を別途得るものとする。被写体距離取得部１００７の実現手段はここでは問わない。
次にＳ４１２において、特徴量統合部１００３は、距離マップの値ｄ^*（ｘ，ｙ）∈Ｄ^*に基づいて、各画素についてＭ種類の特徴量ｆ₁ ^(j)（ｘ，ｙ）を何れか一つ選択して特徴量ｆ₂（ｘ，ｙ）とする。より具体的に説明すると、ｄ^*（ｘ，ｙ）に最も近い距離ｄ_jに対応する特徴量ｆ₁ ^(j)（ｘ，ｙ）をｆ₂（ｘ，ｙ）の特徴量とする。数式で表すと下式のようになる。
ｆ₂（ｘ，ｙ）＝ｆ₁ ^{(j^)}（ｘ，ｙ），
ｊ＾＝ａｒｇｍｉｎ_j｜ｄ^*（ｘ，ｙ）−ｄ_j｜

次にＳ４１３において、高画質化変換部１００４は、特徴量ｆ₂に畳み込み演算を行って高画質画像を生成する。最後にＳ４１４において、画像出力部１００５は、生成された画像を出力する。そして、画像出力部１００５は、図１５（Ａ）及び（Ｂ）のフローチャートの処理を終える。以上が本実施形態の画像処理装置１０の情報処理である。
なお本実施形態は実施形態１及び２と異なり逆畳み込み演算を用いない。これは本実施形態の目的が画像解像度向上でなく、大口径のレンズで撮像したような鑑賞性の高い高画質画像を得ることであるからである。

なお、本実施形態では被写体までの距離が画素ベースで得られているとしたが、一般に被写体までの距離を正確に測定するのは困難である。そのため次に変形例として被写体の距離推定を必要としない形態について開示する。図１３（Ｂ）に本実施形態の変形例の機能構成図を示す。図１４（Ｂ）に模式図を示す。また、本変形例の情報処理を図１５（Ｃ）に示す。本変形例の画像処理装置１０は、被写体距離取得部１００７に代えて対応点判定部１００８を備えている。本変形例の画像処理装置１０が動作を開始すると、Ｍ段階の異なる視差についてそれぞれ特徴量変換を行う。ここまでは先ほどと同様である。同時に、Ｓ４２１において、パターンの対応点判定部１００８は、Ｎ枚の画像セットＩ^(j)の各画素が所定の距離上の対応点であるか否かを判定して出力する。対応点の判定の方法は後述する。ここで対応点判定部１００８は、上述の判定を、想定する各Ｍ段階の距離ｄ_jごとに行う。判定結果の尤度が得られたら、Ｓ４２２において、特徴量統合部１００３が下式に基づいて各画素のＭパターンの特徴量ｆ₁を重み付和して１つの特徴量ｆ₂に統合する。
ｆ₂（ｘ，ｙ）＝（１／Ｚ）Σ_jｌ_COR ^(j)（ｘ，ｙ）ｆ₁ ^(j)（ｘ，ｙ），
Ｚ＝Σ_jｌ_COR ^(j)（ｘ，ｙ）
但し、ここでｌ_COR ^(j)は画像セットＩ^(j)が距離ｄ_jにある被写体の同一の点を写しているか否かの尤度である。
Ｓ４２３及びＳ４２４の処理は、Ｓ４１３及びＳ４１４の処理と同様である。

次にｌ_COR ^(j)を求める対応点判定部１００８の動作について詳細に述べる。これは非特許文献６の方法を多眼ステレオ形式に拡張したものである。図１４（Ｃ）の模式図にあるように、対応点判定部１００８は、畳み込み演算と全結合とのネットワークで構成されたＮＮである。ＮＮは入力画像パッチ群に変換処理を行い、最終出力として１変数の対応点の尤度１００９を出力する。対応点の尤度１００９は画像パッチ群の中心に被写体の同じ位置が写っているか否かを判定したスコアである。適切に尤度スコアが出力できるよう、予め学習用の事例画像を用いてＮＮの各層の重みは学習されている。
またここで対応点尤度の判定が常に成功するとは限らないことを考慮し、尤度そのものではなく、一つ前段の層（図１４（Ｃ）にＬ５という記号で示す）の出力を特徴量として利用してもよい。これを対応点特徴１０１０と呼ぶ。この変形例の場合、特徴量統合部１００３は、Ｍパターンの対応点特徴１０１０とＭパターンのＮＮの特徴量ｆ₁ ^(j)とを受け取り、これを連結して高次元の特徴量ｆ₂とする。この高次の特徴量ｆ₂を入力として後段のＮＮの学習を行えば、対応点判定が失敗するようなケースでも破綻することなく高画質化を行える。

ここで更にいくつかのその他の変形例について述べる。ここでは実施形態３の形態が様々な目的に適応可能であることを示す。
その他の変形例として図１６（Ａ）のような構成の撮像部を用いる画像処理装置１０を開示する。本変形例の目的は非特許文献２と同様である。即ち赤外画像を補助的に用いてノイズを低減した高画質なカラー画像を得ることである。模式図を図１６（Ｂ）に示す。
本実施形態の撮像部はＲＧＢ画像を撮像する撮像装置１０３０ａ、赤外画像を撮像する撮像装置１０３０ｂ、赤外フラッシュ１０２０からなる。変換後の高画質画像の仮想視点位置１０３０は撮像装置１０３０ａの視点位置と同一である。本実施形態は撮像時に赤外フラッシュを投射し、撮像装置１０３０ａでＲＧＢカラー画像を、撮像装置１０３０ｂで赤外画像を同時に撮像するものとする。これらを低画質画像とする。更に学習用の高画質画像は同じ被写体を撮像装置１０３０ａで長時間露光してノイズの少ない画像を得たものとする。この後の高画質化処理の動作及び学習動作については実施形態３と共通であるので詳細を省く。以上、実施形態３の形態が他の目的の高画質化処理に応用できることを示した。この他にも様々な形態としてもよい。
例えば更に他の変形例として、図１６（Ｃ）に模式図を示すように、逆光で撮像した人物のＲＧＢカラー画像と赤外フラッシュを使用して撮像した赤外画像とから順光で撮像したようなＲＧＢカラー画像が得られるように変換するようにしてもよい。

低画質画像は高画質化の目的と合致していれば以下のように様々な属性の画像が利用できる。
例えば更に他の変形例として、図１６（Ｄ）に模式図を示すように露光時間の異なる複数の視点の低画質画像の撮像装置で撮像した低画質画像群から輝度のダイナミックレンジの広い画像（ＨＤＲ画像）を生成するようにしてもよい。
更に他の変形例として、図１６（Ｅ）に模式図を示すように磁力線強度が低出力のＭＲＩ装置で撮像した画像と、同じ被写体を撮像した超音波画像又はＸ線画像等の異なる属性の画像とを組み合わせる。このことで、高出力なＭＲＩ装置で撮像した画像のように高精細な画像又はボクセルデータを得るようにしてもよい。画像の組み合わせを適切に選ぶことにより低侵襲、かつ、高画質な医用画像を得ることができる。また更に例えば複数の超音波画像を入力とし、Ｘ線画像を目標画像とする等、画像の属性を変換するようにしてもよい。
更に他の変形例として、複数の結果を同時に出力するようにしてもよい。例えば図１６（Ｆ）に模式図を示すように複数偏光方向の異なるフィルタを備えた複数の低画質画像の撮像装置から、被写体の表面の法線方向のマップ、及び奥行き画像（２．５次元画像）を同時に生成するようにしてもよい。目的の異なる複数の変換を行う場合、関連するタスクであればＮＮの層を途中まで共通して用い、画像生成の高層のＮＮの層のみタスクごとに別途用意して学習するようにしてもよい。異なる画像処理装置１０のＮＮを二つ用意するよりも規模の面で有利である。
以上のように本実施形態では視点位置の異なる低画質画像を統合して高画質画像を生成する形態について述べた。更に特徴量統合部１０３の形態として実施形態１で示した特徴量の連結以外に、画素ごとの選択、画素ごとの重み付和（重み付平均）が有り得ることを示した。このように特徴量統合部１０３の形態は様々に考えられ、特定の形態に限定されない。

＜実施形態４＞
本実施形態では低画質画像の撮像装置の幾何的な位置関係に基づいてＮＮの結合関係を決定する形態について述べる。機能構成図は実施形態３で用いた図１３（Ｂ）と同一である。但し実施形態３と異なり対応点判定部１００８は本実施形態では必要ない。
複数視点の画像の間には図１７（Ａ）に示すエピ極線拘束と呼ばれる幾何的な関係性が存在する。これを前提として本実施形態の情報処理等について説明する。本実施形態の画像処理装置１０の撮像部は図１７（Ｂ）に示すように光軸の並行な４つの低画質画像の撮像装置（カメラ１〜４）を備える。図１７（Ｂ）には破線の丸で高画質画像の仮想の視点位置を示す。
ここで撮像部の正面に被写体である物体ａ〜ｃが並んでいると仮定する。このとき、図７（Ｂ）に示すようにエピ極線拘束により低画質画像中の物体ａ〜ｃは直線上に並ぶ。この幾何的な関係性により、各低画質画像間で同一の点が写る可能性のある領域はエピ極線上に限られることが判る。より具体的には図１７（Ｃ）に示すように、カメラ１の画像のエピ極線１−１上の領域に対応関係が有り得るのはカメラ２の画像ではエピ極線２−１上の何れかの領域に限られる。図１７（Ｃ）では対応関係の一部のみに破線を引いて示している。

本実施形態の画像処理装置１０では、上記の画像領域間の対応関係を用いてＮＮの各層の結合関係を以下のように設計する。図１８（Ａ）に示すように、Ｎ＝４枚の低画質画像があるとする。説明の簡単のために低画質画像及び高画質画像は１チャンネルの輝度画像とする。第１層のニューロンの層１８００は目標となる高画質画像Ｉ^*（ｘ，ｙ）の画素ｘ，ｙごとにニューロンが一つ存在する。各ニューロンはＮ個の特徴チャンネルを持っている。これを記号ｆ₁（ｘ，ｙ）∈Ｒ^Nで表す。更にこのようなニューロン層をＭ段階の視差（奥行き）に対応させてＭ個用意する。ｊを視差の番号としてニューロンの特徴量を記号ｆ₁ ^(j)（ｘ，ｙ）∈Ｒ^Nと表す。
各低画質画像の画素（ｘ'，ｙ'）と、ニューロン（ｘ，ｙ）との間の結合関係を設定する。より具体的な例を図１８（Ａ）に示す。小さな視差（ｊ＝１）については、特徴量ｆ₁ ⁽¹⁾（ｘ，ｙ）の中心の画素１８０５に、カメラ１の画像の画素１８０１、カメラ２の画像の画素１８０２が対応している。ｊ＝Ｍの大きな視差については、特徴量ｆ₁ ^(M)（ｘ，ｙ）の中心の画素１８０６に、カメラ１の画像の画素１８０３、カメラ２の画像の画素１８０４が対応している。ｉ番目の画像の画素の値は、各ニューロンのｉ番目のチャンネルに入力されるようにする。入力の結合重みは１、即ち恒等写像とする。
以上のようにエピ極線拘束と視差とによって各ニューロンと画像との入力関係を一意に決定することができるが、実際に対応関係を正確に求めるには下記のようにホモグラフィ行列を求めることになる。ホモグラフィ行列は図１７（Ａ）に示すように点Ｘπと、点Ｘπを通る平面πを想定するときに、片方の画像から平面π上の点Ｘπを見たときの位置ｘを他方の画像上の位置ｘ'に写す３×３行列の変換行列である。ホモグラフィ行列Ｈは下式で表される。
ｘ＝Ｈ₁Ｘπ_,
ｘ' ＝Ｈ₂Ｘπ_,
ｘ' ＝Ｈ₂Ｘπ＝Ｈ₂Ｈ₁ ^-1ｘ＝Ｈｘ
２枚の画像間で対応する点を４組以上求めるとホモグラフィ行列Ｈが求まることが知られている。そこで校正用ボード等を視差１〜Ｍのそれぞれの位置に光軸に垂直に提示し、各画像間で対応点を４点以上抽出して画像間の行列Ｈを求める。この結果、複数視点の低画質画像の各画素を、Ｍ段階の視差の特徴量ｆ₁ ⁽¹⁾〜ｆ₁ ^(M)の各画素へと対応づけるＮＮの結合関係が決定される。

本実施形態の画像処理装置１０が動作を開始するとＮ枚の低画質画像を取得し、特徴変換部１〜ＭがＮ枚の低画質画像をそれぞれＮＮの特徴量ｆ₁ ⁽¹⁾〜ｆ₁ ^(M)へと変換する。更に特徴変換部１〜Ｍは、特徴量ｆ₁ ⁽¹⁾〜ｆ₁ ^(M)それぞれについて畳み込みの演算を施してＮＮの特徴量ｆ₂ ⁽¹⁾〜ｆ₂ ^(M)を得る。ｆ₂ ⁽¹⁾〜ｆ₂ ^(M)は空間を遠近でＭ段階に分けたときにそれぞれの位置にどのようなエッジやテクスチャ等の見えのパターンが存在するかを表現する特徴である。
更に図１３（Ｂ）の特徴量統合部１００３が特徴量ｆ₂ ⁽¹⁾〜ｆ₂ ^(M)を連結して特徴量ｆ₃を得る。特徴量ｆ₃に高画質化変換部１００４が畳み込みを行って高画質な画像Ｉ^*を生成する。高画質化の変換では、遠近の位置で分かれていた高次元の特徴を統合し、高画質画像の局所領域と対応付けして変換する処理が行われる。なお各層の変換パラメーターの学習の方法はこれまでと同様である。

上記のように画像間の幾何的な拘束条件に基づいて低画質画像と第１層のＮＮの層との間の結合関係を決定した。一方でこのような結合関係を自動的に獲得するようにしてもよい。一つの例を以下にあげる。（１）まず画像処理装置１０は、入力画像の全画素と第１層のＮＮのニューロンとが全結合した重みを用意し、乱数で初期化する。（２）画像処理装置１０は、図１８（Ｂ）に例を示すような校正用パターンを様々な位置に提示し、第１層のＮＮの層で同じパターンが生成できるように誤差逆伝搬の方法で重みの学習を行う。校正用パターンは図１８（Ｂ）に示すように中心付近にのみ輝点、特定方向の格子、及びランダムドットといったパターンを備えるものが結合関係の学習を容易にするため好適である。（３）画像処理装置１０は、学習を進め、０に近づいた重みは対応点と無関係として除去して残った結合を採用する。なお学習の際は第１のＮＮの層１８００は視差ごとに個別に学習する。その際、学習画像としては対応する視差で撮像した校正用パターンを与える。以上が各画素と第１層のＮＮの結合関係を自動的に獲得する仕組みである。この方法の場合、歪み補正の前処理をすることなく撮像画像をそのまま入力にできる利点がある。
また更に変形例として、画像処理装置１０は、上記のＮＮの結合関係の獲得後、学習画像に基づいて最終出力層から入力層までの全層の重みを、誤差逆伝搬法で更に調整してもよい。このように本実施形態の画像処理装置１０の情報処理は、撮像装置の幾何的な位置関係によってＮＮの結合関係を決定すること、また各結合の重みを事例画像で学習すること、を示すものである。

＜実施形態５＞
実施形態５では、多数の低画質画像の撮像装置から取得した画像を段階的に統合する形態について述べる。画像処理装置１０の目的は実施形態３と同様の高画質化であるとする。ここでの高画質化の対象は実施形態３と同様多岐に渡って適用が可能である。本実施形態の画像処理装置は図１９（Ａ）のような多眼カメラの撮像部の外観を有する。これに対応する高画質化の処理の模式図は図１９（Ｂ）になる。画像処理装置１０は、図１９でＡ〜Ｈの記号を付した低画質画像の撮像装置のうち、視点位置が互いに近い低画質画像の撮像装置で撮像された低画質画像から順に特徴量の統合を行う。画像処理装置１０は、図１９（Ｂ）に示すようにこのような統合を３段階に分けて繰り返し、最終的な高画質画像の変換結果を得る。本実施形態のように近接した撮像系から順次統合を行う利点として、各統合の段階では視差による画像間の位置ずれが少ない点が挙げられる。そのため畳み込み演算他による特徴量の変換で視差に由来する見えのずれを容易に吸収して統合することができる。
本実施形態での学習は、これまでの学習と同様に仮想の視点位置で撮像した高画質画像を目標画像として与え、低画質画像から目標の画像が生成されるように全段階の変換パラメーターを学習する。これは誤差逆伝搬の方法で全３段階の最終層から最初の層まで誤差を伝搬させながら学習を行えばよい。

本実施形態の変形例として図２０（Ａ）のようなアレイ状の撮像装置の画像について段階的な統合を行う形態について述べる。本実施形態では、画像処理装置１０は、まず１段階目の統合として図２０（Ｂ）に示すように、近傍の２×２個の撮像装置の取得画像を統合する。画像処理装置１０は、１段階目の統合処理の結果４個の統合された特徴量が得られるので、２段階目の統合処理の段階でこれを更に連結して１つの特徴量とし、高画質画像の生成を行う。
更にアレイ状の撮像装置の画像について段階的な統合を行う２つ目の派生形態を説明する。ここでは学習を一段階ずつ行って積み上げて行く形態を示す。以下では図２１（Ａ）及び（Ｂ）の模式図を用いて説明する。
画像を統合する１段階分のＮＮの構成はこれまでの実施の例と同様である。図２１（Ｂ）に示すように１段階分のＮＮは特徴変換（畳み込み演算２１０１）、統合（連結処理２１０２）、画像生成（畳み込み演算３０００）の３層から成る。画像の統合は２×２の近傍の範囲の低画質画像の撮像装置の画像に対して行う。統合する範囲の例を図２１（Ａ）に統合範囲１と統合範囲２としてそれぞれ黒枠及び灰色の枠で囲んで示す。図２１（Ａ）のように統合の範囲は互いにオーバーラップしている。ＮＮの変換パラメーターの学習は統合範囲ごとに独立に行われる。
なお図２１（Ｂ）には統合を行う柱状の３層のＮＮのうち各段階で一個しか示していないが、実際にはこのような柱状の３層のＮＮが１段階目に３×３個、２段階目に２×２個、３段階目に１×１個存在する。画像処理装置１０は、１段階目の統合の結果、３×３個の統合された特徴量が得られる。画像処理装置１０は、この３×３個の特徴量に対して逐次２段階目と３段階目との統合を行ってそれぞれ２×２個、１×１個の特徴量を得る。画像処理装置１０は、１×１個に統合された特徴量から最終的に高画質画像を生成して動作を終了する。

またここで更に別の変形例を述べる。ここで述べるのは高画質画像の仮想の視点位置を、図２０（Ｃ）に示すように複数箇所設定することができる変形例である。この変形例では事前に設定された各視点位置で高画質画像を撮像し、視点ごとにＮＮの変換パラメーターを学習してそれぞれ保存しておく。画像処理時には別途設けた仮想視点位置入力部によってユーザーに仮想視点位置を入力させ、対応する変換パラメーターを読み出して高画質化変換処理を行う。なお高画質画像の仮想視点位置は低画質画像のセットの中心に近い方が変換結果の精度が高いが、図２０（Ｃ）に仮想視点位置１として示すように撮像部の外側に仮想視点位置を設定することもできる。また同様に仮想視点位置が各撮像装置の同一平面にない形態としてもよい。

またここで更に別の変形例として、撮像時の遮蔽について対策を加えた構成について開示する。ここでは図２０（Ｄ）に示すように、アレイ状の撮像装置のうち、撮像者の指でいくつかのカメラが遮蔽されたような状況でも高画質画像をロバストに得るための工夫について述べる。
例えばその形態の一つとしては、遮蔽された画像であるかどうかの判定を行う遮蔽画像判定部を画像処理装置１０に別途備える。そして特徴量統合部１０３による統合の際には、遮蔽ありと判定された画像の特徴量を除去して統合する。このときの特徴量の統合の演算は、次元ごとに値を平均化する操作とする。またもし遮蔽画像判定部が遮蔽についての尤度値を出力するなら、特徴量統合部１０３は、平均化ではなく下式のように重み付和で特徴量を統合してもよい。
ｆ_i+1 ^(k)（ｘ，ｙ，ｄ）＝（１／Σ_j∈Nkｌ_{OCC i} ^(j)）Σ_j∈Nkｌ_OCCi ^(j)ｆ_i ^(j)（ｘ，ｙ，ｄ），
ｌ_{OCC i+1} ^(k)＝Σ_j∈Nkｌ_{OCC i} ^(j)
但しｆ_i ^(j)はｉ段階目のｊ番目の特徴量である。Ｎ_kは各段階でｋ番目の特徴量に統合される特徴量の集合である。ｌ_{OCC 1} ^(j)は画像特徴ｊが遮蔽された画像か否かの尤度値である。
ここで遮蔽画像判定部の実現形態としては、例えば各画像のＮＮの特徴量を用いてサポートベクトルマシン等の判別器で学習判別させればよい。又は、全撮像画像を平均した平均画像と各画像とを正規化相関で比較し、平均画像と類似性の低い画像を遮蔽ありと判定してもよい。

また更に別の変形例として遮蔽状態の判定部を設けない構成としてもよい。例えば、画像処理装置１０は、撮影者の指によって遮蔽された低画質画像を多数撮像させる。そして、画像処理装置１０は、このような事例データを十分に与えて学習する。この結果、遮蔽画像から得られるような特徴量には反応せず、遮蔽されてない画像から得られる特徴量に反応して各段階の変換を行うような変換のパラメーターが得られる。
以上、多数の低画質画像の撮像装置を備える本実施形態の画像処理装置１０において、段階的に各撮像装置の取得画像を統合する実施形態について述べた。本実施形態で示される要諦は以下である。（１）ＮＮの結合関係を低画質画像の撮像装置の光学的な配置関係に基づき決定する。（２）決定した結合の変換パラメーターを事例学習によって学習して調整する。以上の構成は従来の画像高画質化の画像処理装置１０にはない新規な構成である。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。例えば、上述した画像処理装置１０の機能構成のすべて、又は一部は、画像処理装置１０にハードウェア構成として実装してもよい。また、上述した各実施形態、実施形態の変形例を適宜組み合わせて実施するようにしてもよい。

以上、上述した各実施形態の処理によれば、画像から形状やテクスチャといった抽象的な表現の特徴量が抽出される。また従来の方法と異なり、特徴量のレベルで複数の視点又は複数の属性の画像情報が統合される。更に事例学習の方法に基づき、統合された特徴量から高画質化された結果の画像が推定及び合成される。その結果、従来の方法と比べて以下の効果がある。（１）画像中の被写体を略画素レベルで一致させる変形や位置合わせを必要としない。（２）赤外画像や奥行き画像等、特性の異なる画像を補完的に用いることができる。（３）画像の平均化では除去しにくかった系統的なノイズも除去できる。（４）目的に応じた学習画像を用意して事例学習することで、高解像化に留まらず様々なタイプの高画質化処理を実現することができる。
よって、複数の画像からより高画質な画像を得ることができる。

１０画像処理装置
１１ＣＰＵ
１２メモリ

Claims

複数の画像を取得する取得手段と、
ニューラルネットワークを用いて前記複数の画像を特徴量に変換する変換手段と、
前記特徴量を統合する統合手段と、
前記統合した特徴量から前記複数の画像より高画質の画像を生成する生成手段と、
を有する画像処理装置。
前記取得手段は、少なくとも一つの画像の属性が他の画像の属性とは異なる、前記複数の画像を取得する請求項１記載の画像処理装置。
前記取得手段は、前記他の画像の属性とは異なる画像として、赤外画像、輝度画像、奥行き画像の何れかを取得する請求項２記載の画像処理装置。
前記変換手段は、前記画像の属性ごとに個別のニューラルネットワークを有し、
前記統合手段は、前記個別のニューラルネットワークを用いて変換した特徴量を統合する請求項２又は３記載の画像処理装置。
前記取得手段は、少なくとも一つの画像に関する視点位置が他の画像に関する視点位置とは異なる、前記複数の画像を取得する請求項１記載の画像処理装置。
前記変換手段は、前記画像の視点位置、又は視差ごとに個別のニューラルネットワークを有し、
前記統合手段は、前記個別のニューラルネットワークを用いて変換した特徴量を統合する請求項５記載の画像処理装置。
前記統合手段は、前記複数の画像の視点位置と前記高画質の画像の仮想視点位置との幾何的な位置関係に基づいて前記個別のニューラルネットワークの結合関係を決定し、前記特徴量を統合する請求項６記載の画像処理装置。
前記統合手段は、学習用の事例画像に基づいて前記個別のニューラルネットワークの結合関係を決定し、前記特徴量を統合する請求項６記載の画像処理装置。
前記統合手段は、複数の段階で前記特徴量を統合し、前記統合の順番を前記特徴量に対応する前記画像の視点位置の近さに基づき決定する請求項６乃至８何れか１項記載の画像処理装置。
前記ニューラルネットワークは前記高画質の画像の仮想視点位置を段階的に変えながらパラメーターを学習する請求項１乃至９何れか１項記載の画像処理装置。
前記取得手段により取得された画像が遮蔽画像であるか否かを判定する第１の判定手段を更に有し、
前記統合手段は、前記第１の判定手段による判定の結果に基づき前記ニューラルネットワークを用いて変換した特徴量を統合する請求項１乃至１０何れか１項記載の画像処理装置。
前記取得手段により取得された画像の各画素が所定の距離上の対応点であるか否かを判定する第２の判定手段を更に有し、
前記統合手段は、前記第２の判定手段による判定の結果に基づき前記ニューラルネットワークを用いて変換した特徴量を統合する請求項１乃至１０何れか１項記載の画像処理装置。
画像処理装置が実行する情報処理方法であって、
複数の画像を取得する取得工程と、
ニューラルネットワークを用いて前記複数の画像を特徴量に変換する変換工程と、
前記特徴量を統合する統合工程と、
前記統合した特徴量から前記複数の画像より高画質の画像を生成する生成工程と、
を含む情報処理方法。
コンピュータを、請求項１乃至１２何れか１項記載の画像処理装置の各手段として機能させるためのプログラム。