JP2014082540A

JP2014082540A - 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造

Info

Publication number: JP2014082540A
Application number: JP2012227261A
Authority: JP
Inventors: Tehrani Mehrdad Panahpour; テヘラニメヒルダドパナヒプル; Akio Ishikawa; 彰夫石川; Masahiro Kawakita; 真宏河北; Naoki Inoue; 直己井ノ上; Toshiaki Fujii; 俊彰藤井
Original assignee: Nagoya University NUC; National Institute of Information and Communications Technology
Current assignee: Nagoya University NUC; National Institute of Information and Communications Technology
Priority date: 2012-10-12
Filing date: 2012-10-12
Publication date: 2014-05-08
Also published as: US20150271522A1; EP2908531A1; EP2908531A4; EP2908531A8; CN104718755A; WO2014057988A1; KR20150072421A

Abstract

【課題】互いに類似した情報を含む複数画像のデータサイズをより効率的に低減する方法、プログラムおよび装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造を提供する。
【解決手段】互いに類似した情報を含む複数画像のデータサイズを低減する方法が提供される。本方法は、第１の参照画像および第２の参照画像に基づいて、対象画像に対応する合成画像を生成するステップと、第１の参照画像および第２の参照画像から合成画像の対象画像に対する潜在的誤差を示すマスク画像を生成するステップと、対象画像と合成画像との差に応じた残差画像を生成するステップと、マスク画像に基づいて、潜在的誤差が相対的に大きい領域に残差画像の対応する領域の情報を割当てることで、対象画像に対応する変換後画像を生成するステップと、対象画像、第１の参照画像、および第２の参照画像を表現する情報として、第１の参照画像、第２の参照画像、および変換後画像を出力するステップとを含む。
【選択図】図６

Description

本発明は、互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造に関する。

現在、超臨場感コミュニケーションを実現する各種の技術について研究が進められている。このような技術の一つとして、多視点画像を用いて高精細な立体映像を提供する三次元映像技術がある。このような立体映像は、非常に多数の視点（例えば、２００視点）から被写体を撮像して得られる視差画像によって実現される。

このような立体映像を実用化するための一つの課題として、多視点画像のデータサイズの低減化がある。多視点画像は、多数の視点から被写体をそれぞれ観察した情報を含むので、データサイズが大きくなる。このような課題に対して、各種の提案がなされている。

例えば、非特許文献１は、多視点画像の適応型分散コーディングと称される方法を開示する。より具体的には、この方法は、モジュロ演算器に基づくものであり、それぞれの視点で得られた画像を、互いの情報を交換することなくエンコードするとともに、デコードする際には、視点間での情報交換を許容する。

非特許文献２および非特許文献３は、いずれも画像間の残差(residual)および距離(depths)に基づく方法を開示する。これらの方法では、１つ以上のオリジナル画像、およびそのオリジナル画像を変形した画像(warped view)と隣接画像(neighbor views)との間の差を用いる。この変形した画像は、隣接画像から生成される、オリジナル画像に対応する仮想的な画像である。

Mehrdad Panahpour Tehrani, Toshiaki Fujii, Masayuki Tanimoto, "The Adaptive Distributed Source Coding of Multi-View Images in Camera Sensor Networks", IEICE Trans, E88-A(10), 2835-2843, (2005) K. Mueller, A. Smolic, K. Dix, P. Merkle, P. Kauff T. Wiegand, "Reliability-based generation and view synthesis in layered depth video", in Proc. IEEE Intl Conf on MMSP, 34-39 (Oct.2008) M. Tanimoto, M. Wildeboer, "Frameworks for FTV coding", in Proc. PCS, 1-4 (May 2009) R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov, A. Agarwala, M.Tappen and C. Rother, "A comparative study of energy minimization methods for Markov random fields with smoothness-based priors," IEEE Trans. Pattern Anal. Machine Intell., 30(6), 1068-1080, (2008) Y. Boykov, O. Veksler and R. Zabih, "Fast approximate energy minimization via graph cuts," IEEE Trans. Pattern Anal. Machine Intell., 23, 1222-1239, (Nov. 2001) Y. Mori, N. Fukushima, T. Yendo, T. Fujii and M. Tanimoto, "View generation with 3D warping using depth information for FTV," Signal Process.: Image Commun., 24, 65-72, (Jan. 2009) L. Yang, T. Yendo, M. Panahpour Tehrani, T. Fujii and M. Tanimoto, "Probabilistic reliability based view synthesis for FTV", in Proc. ICIP, 1785-1788, (Sep. 2010) N. Fukushima, T. Fujii, Y. Ishibashi, T. Yendo, and M. Tanimoto, "Real-time free viewpoint image rendering by using fast multi-pass dynamic programming," in Proc. 3DTV-CON, (June 2010) A. Smolic, P. Kauff, S. Knorr, A. Hornung, M. Kunter, M. Muller, and M. Lang, "Three-Dimensional Video Postproduction and Processing", in Proc. IEEE, 99(4), 607-625, (Apr. 2011) Y. Mori, N. Fukushima, T. Fujii, and M. Tanimoto, "View generation with 3D warping using depth information for FTV," Image Communication., Vol. 24, No. 1-2 (2009)

上述の非特許文献１に開示の方法は、主として、分散ソースコーディングや分散映像フレームコーディングなどへの応用を想定しているため、エンコード処理において、視点間の連携は考慮されていない。また、非特許文献１に開示の方法は、エンコード処理およびデコード処理において、サイド情報(side information)を利用するが、オリジナル画像の値との差が大きい領域では、サイド情報の精度がそれほど高くないので、デコード後の画像品質が低下する場合がある。逆に、非特許文献２および３に開示の方法は、サイド情報に含まれるオリジナル画像に対する差が小さい領域については、それに含まれる情報を適切に復元できない。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、互いに類似した情報を含む複数画像のデータサイズをより効率的に低減する方法、プログラムおよび装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造を提供することである。

本発明のある局面に従えば、互いに類似した情報を含む複数画像のデータサイズを低減する方法が提供される。本方法は、複数画像を取得するとともに、複数画像のうち対象画像ならびに対象画像に類似した第１の参照画像および第２の参照画像を選択するステップと、第１の参照画像および第２の参照画像に基づいて、対象画像に対応する合成画像を生成するステップと、第１の参照画像および第２の参照画像から生成される合成画像の対象画像に対する潜在的誤差を示すマスク画像を生成するステップと、対象画像と合成画像との差に応じた残差画像を生成するステップと、マスク画像に基づいて、潜在的誤差が相対的に大きい領域に残差画像の対応する領域の情報を割当てることで、対象画像に対応する変換後画像を生成するステップと、対象画像、第１の参照画像、および第２の参照画像を表現する情報として、第１の参照画像、第２の参照画像、および変換後画像を出力するステップとを含む。

好ましくは、本方法は、対象画像の各画素位置の輝度値に対してモジュロ演算を行なうことで算出される各画素位置の剰余からなる剰余画像を生成するステップをさらに含み、変換後画像を生成するステップは、マスク画像に基づいて、潜在的誤差が相対的に小さい領域に剰余画像の対応する領域の情報を割当てるステップを含む。

好ましくは、変換後画像を生成するステップは、マスク画像の各画素位置の値を予め定められたしきい値と比較することで、潜在的誤差が相対的に大きい領域と、潜在的誤差が相対的に小さい領域とを区別するステップを含む。

好ましくは、残差画像を生成するステップは、対象画像と合成画像との差から生成される画像に対してビットプレーン変換を行なうステップを含む。

好ましくは、本方法は、出力された第１の参照画像、第２の参照画像、および変換後画像を取得するステップと、取得された第１の参照画像および第２の参照画像に基づいて、対象画像に対応する合成画像を生成するステップと、取得された第１の参照画像および第２の参照画像からマスク画像を生成するステップと、マスク画像に基づいて変換後画像のうち潜在的誤差が相対的に大きい領域の情報を抽出するとともに、当該抽出した情報と合成画像とに基づいて、対象画像の対応する画素位置の輝度値を決定するステップとをさらに含む。

さらに好ましくは、本方法は、マスク画像に基づいて、変換後画像のうち、潜在的誤差が相対的に小さい領域の情報に対して逆モジュロ演算を行なうことで、対象画像の対応する画素位置の輝度値を決定するステップをさらに含む。

さらに好ましくは、輝度値を決定するステップは、変換後画像のうち潜在的誤差が相対的に大きい領域の情報に対してビットプレーン変換を行なうとともに、当該ビットプレーン変換によりビット数が増大した画像と合成画像とを加算することで輝度値を決定する。

さらに好ましくは、出力するステップは、対象画像の縮小画像を出力するステップを含み、方法は、決定された輝度値によって再構成された対象画像のうち縮小画像をアップサンプリングして得られる拡大画像との差が相対的に大きな領域について、拡大画像の対応する値に置換するステップをさらに含む。

好ましくは、選択するステップは、複数画像が多視点画像である場合に、ベースライン距離に基づいて、対象画像ならびに第１の参照画像および第２の参照画像を選択するステップと、複数画像が映像フレーム列である場合に、フレームレートに基づいて、対象画像ならびに第１の参照画像および第２の参照画像を選択するステップとを含む。

本発明の別の局面に従えば、互いに類似した情報を含む複数画像のデータサイズを低減するプログラムが提供される。当該プログラムは、コンピュータに、複数画像を取得するとともに、複数画像のうち対象画像ならびに対象画像に類似した第１の参照画像および第２の参照画像を選択するステップと、第１の参照画像および第２の参照画像に基づいて、対象画像に対応する合成画像を生成するステップと、第１の参照画像および第２の参照画像から生成される合成画像の対象画像に対する潜在的誤差を示すマスク画像を生成するステップと、対象画像と合成画像との差に応じた残差画像を生成するステップと、マスク画像に基づいて、潜在的誤差が相対的に大きい領域に残差画像の対応する領域の情報を割当てることで、対象画像に対応する変換後画像を生成するステップと、対象画像、第１の参照画像、および第２の参照画像を表現する情報として、第１の参照画像、第２の参照画像、および変換後画像を出力するステップとを実行させる。

本発明のさらに別の局面に従えば、互いに類似した情報を含む複数画像のデータサイズを低減する装置が提供される。本装置は、複数画像を取得するとともに、複数画像のうち対象画像ならびに対象画像に類似した第１の参照画像および第２の参照画像を選択する手段と、第１の参照画像および第２の参照画像に基づいて、対象画像に対応する合成画像を生成する手段と、第１の参照画像および第２の参照画像から生成される合成画像の対象画像に対する潜在的誤差を示すマスク画像を生成する手段と、対象画像と合成画像との差に応じた残差画像を生成する手段と、マスク画像に基づいて、潜在的誤差が相対的に大きい領域に残差画像の対応する領域の情報を割当てることで、対象画像に対応する変換後画像を生成する手段と、対象画像、第１の参照画像、および第２の参照画像を表現する情報として、第１の参照画像、第２の参照画像、および変換後画像を出力する手段とを含む。

本発明のさらに別の局面に従えば、互いに類似した情報を含む複数画像を表現するデータ構造が提供される。本データ構造は、複数画像に含まれる対象画像に対応する変換後画像と、対象画像に類似した第１の参照画像および第２の参照画像とを含む。変換後画像は、第１の参照画像および第２の参照画像から生成される合成画像の対象画像に対する潜在的誤差が相対的に大きい領域に、対象画像と合成画像との差に応じた残差画像の対応する領域の情報を割当てたものである。

本発明によれば、互いに類似した情報を含む複数画像のデータサイズをより効率的に低減できる。

本実施の形態に係るデータサイズ低減方法が応用される立体映像再生システム１を示す図である。本実施の形態に係る互いに類似した情報を含む複数画像（多視点画像）の一例を示す模式図である。本実施の形態に係る互いに類似した情報を含む複数画像（映像フレーム列）の一例を示す模式図である。図１に示すエンコーダーとして機能する情報処理装置のハードウェア構成を示す模式図である。図１に示すデコーダーとして機能する情報処理装置のハードウェア構成を示す模式図である。本実施の形態に係るデータサイズ低減方法の全体処理手順を示すフローチャートである。本実施の形態に係るデータサイズ低減方法のエンコード処理に係る機能構成を示すブロック図である。本実施の形態に係るデータサイズ低減方法における合成画像の生成処理の結果を示す図である。本実施の形態に係るデータサイズ低減方法におけるマスク画像の生成処理を説明するための模式図である。本実施の形態に係るデータサイズ低減方法におけるマスク画像の生成処理の結果を示す図である。本実施の形態に係るデータサイズ低減方法における残差画像の生成処理を説明するための模式図である。本実施の形態に係るデータサイズ低減方法における残差画像の生成処理の結果を示す図である。図７に示す剰余画像生成部のより詳細な機能構成を示すブロック図である。本実施の形態に係るデータサイズ低減方法においてサイド情報選択に用いられる誤差分布の算出処理を説明するための模式図である。本実施の形態に係る剰余画像の生成に用いられるＬｏｏｋｕｐテーブルの一例を示す図である。本実施の形態に係る剰余画像の生成処理の結果を示す図である。本実施の形態に係るハイブリッド画像の生成処理の結果を示す図である。本実施の形態に係るハイブリッド画像の生成処理の結果を示す図である。本実施の形態に係るデータサイズ低減方法のデコード処理に入力された対象画像の一例である。図１９に示す対象画像から生成された残差画像の一例である。図１９に示す対象画像から生成された剰余画像の一例である。図１９に示す対象画像から生成されたマスク画像の一例である。図１９に示す対象画像から生成されたハイブリッド画像の一例である。本実施の形態に係るデータサイズ低減方法のデコード処理に係る機能構成を示すブロック図である。本実施の形態に係るデータサイズ低減方法のデコード処理の概要を説明するための模式図である。本実施の形態に係るデータサイズ低減方法における再構成画像の生成処理を説明するための模式図である。図２４に示す剰余画像生成部のより詳細な機能構成を示すブロック図である。本実施の形態の変形例３に係るデータサイズ低減方法により生成される剰余画像の一例である。本実施の形態の変形例４に係るデータサイズ低減方法により生成される残差画像の一例である。

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。

［Ａ．応用例］
まず、本実施の形態に係るデータサイズ低減方法について理解を容易にするため、典型的な応用例について説明する。なお、本実施の形態に係るデータサイズ低減方法の応用範囲は、以下に示す構成に限定されるものではなく、任意の構成に応用できる。

図１は、本実施の形態に係るデータサイズ低減方法が応用される立体映像再生システム１を示す図である。図１を参照して、立体映像再生システム１では、複数のカメラ１０（カメラアレイ）を用いて互いに異なる複数の視点で被写体２を撮像することで多視点画像を生成し、この生成した多視点画像を用いて立体表示装置３００で立体映像を表示する。

より具体的には、立体映像再生システム１は、複数のカメラ１０からそれぞれの画像（視差画像）が入力されるエンコーダーとして機能する情報処理装置１００と、情報処理装置１００から伝送されるデータをデコードして多視点画像を立体表示装置３００へ出力するデコーダーとして機能する情報処理装置２００とを含む。情報処理装置１００は、エンコード処理とともに、後述するようなデータ圧縮処理を行なうことで、保存および／または伝送に適したデータを生成する。一例として、情報処理装置１００は、接続された無線伝送装置１０２を用いて、生成した多視点画像の情報を含むデータ（圧縮データ）を無線伝送する。この無線伝送されたデータは、無線基地局４００などを介して、情報処理装置２００に接続された無線伝送装置２０２で受信される。

立体表示装置３００は、主として拡散フィルム３０６および集光レンズ３０８で構成される表示スクリーンと、表示スクリーンに多視点画像を投影するプロジェクタアレイ３０４と、プロジェクタアレイ３０４の各プロジェクタによる投影画像を制御するためのコントローラ３０２とを含む。コントローラ３０２は、情報処理装置２００から出力される多視点画像に含まれる各視差画像を対応するプロジェクタに投影させる。

このような装置構成によって、表示スクリーンの前にいる観察者には被写体２の再生立体像が提供される。このとき、表示スクリーンと観察者との相対的な位置に応じて、観察者の視野に入る視差画像が変化するようになっており、観察者は、あたかも被写体２の前にいるような体験が得られる。

このような立体映像再生システム１は、一般用途としては、映画館やアミューズメント施設などで利用され、産業用途としては、遠隔医療システム、工業デザイン設計システム、パブリックビューイング等の電子広告システムとして利用されることが期待されている。

［Ｂ．概要］
図１に示すようなカメラアレイで被写体２を撮像することで生成される多視点画像や動画などを考えると、それを構成する画像間は冗長な情報を含み得る。本実施の形態に係るデータサイズ低減方法は、このような冗長な情報を考慮して、それを排除したデータを生成する。すなわち、本実施の形態に係るデータサイズ低減方法およびそれに用いられるデータ構造は、互いに類似した情報を含む複数画像のデータサイズを低減しようとするものである。

本実施の形態に係るデータサイズ低減方法およびそれに用いられるデータ構造は、上述したような多視点データ表現(multi-view data representation)に応用できるとともに、分散ソースコーディング(distributed source coding)にも応用できる。あるいは、本実施の形態に係るデータサイズ低減方法およびそれに用いられるデータ構造は、映像フレーム表現(video frames representation)に応用できるとともに、分散映像フレームコーディング(distributed video frames coding)にも応用できる。なお、本実施の形態に係るデータサイズ低減方法は、それ単体でも利用されるし、データ伝送前の前処理の一部として利用されることもある。

図１に示すようなカメラアレイで撮像された多視点画像を想定すると、そのうちいくつかの画像については元のまま維持されるとともに、他のいくつかの画像はエンコーダーにより冗長な情報が除かれた画像（後述する、ハイブリッド画像）へと変換される。撮像されたすべての画像を用いる場合には、元のまま維持される画像についての距離画像が取得（推定）される。

元のまま維持される画像および距離画像を用いて、ハイブリッド画像に変換される画像の位置における仮想的な視野が合成（推定）される。距離画像は、デコード処理（変換された画像を逆変換する処理／本来の画像形式に戻す処理）においても利用可能である。元のまま維持される画像についての距離画像は、逆変換処理において、その元のまま維持される画像を用いて再構成されてもよい。

変換後画像は、元のまま維持される画像および距離画像から合成される画像の変換対象の画像に対する潜在的誤差を示すマスク画像に基づいて、残差画像(residual image)の対応する領域の情報を割当てることで生成される。より具体的には、変換後画像は、当該合成画像の対象画像に対する潜在的誤差が相対的に大きい領域に、残差画像の対応する領域の情報を割当てたものである。典型的には、マスク画像は、画像変換前に生成される。

さらに、変換後画像では、残差画像が割当てられていない領域に対して、剰余画像(remainder image)の対応する領域の情報が割当てられてもよい。すなわち、変換後画像は、マスク画像に従って剰余画像の輝度値と残差画像の輝度値とを組み合わせることで生成してもよい。

このように、本実施の形態に係る変換後画像は、複数の情報を組み合わせることで構成される場合もあるので、以下の説明では、便宜上「ハイブリッド画像」と称す。

残差画像は、対象の画像と仮想画像とに基づいて生成される。
剰余画像は、変換の対象となる画像の位置における仮想的な視野の情報であるサイド情報を用いて生成される。入力される画像が多視点画像である場合には、合成された仮想画像（仮想的な視野）がサイド情報として用いられる。あるいは、元のまま維持される画像および距離画像を用いて仮想画像を合成し、この合成した画像をサイド情報として用いてもよい。サイド情報から剰余画像を生成する際には、勾配強度画像(gradient image)が生成される。それぞれの勾配強度の値は整数値になっており、この整数値を用いて、モジュロ演算または逆モジュロ演算が実行される。

なお、ハイブリッド画像へ変換されることになっている対象の画像そのものをサイド情報として用いてもよい。この場合には、デコード処理において対象の画像をそのまま利用することができないので、合成した仮想画像および／または対象の画像を縮小した画像をサイド情報として用いることになる。

一方、入力される画像が映像フレーム列である場合には、フレーム同士を内挿または外挿したフレームをサイド情報として用いることができる。

図２および図３は、本実施の形態に係る互いに類似した情報を含む複数画像の一例を示す模式図である。図２（ａ）を参照して、例えば、図１に示すように互いに近接配置された複数のカメラ（カメラアレイ）を用いて被写体を撮像することで、対応するカメラ位置に応じた視差を有する視差画像群が生成される。これらの視差画像群のうち、ある対象画像１７０に着目すると、その視野(target view)は、近接したカメラ位置にあるカメラを用いて撮像された他の画像（以下「参照画像」とも称す。）の視野(reference view(s))と少なくとも部分的には重複している場合が多く、このような視野の重複によって、対象画像１７０および参照画像１７２，１８２の間では冗長な情報が存在する。逆に言えば、このような状況下においては、参照画像１７２，１８２が有する情報と何らかの付加情報とから、対象画像１７０に含まれる情報を再構成できる。

本実施の形態に係るデータサイズ低減方法は、対象画像１７０の情報を近接する参照画像１７２，１８２の情報から再構成できるようなハイブリッド画像１９０を生成し、対象画像１７０に代えてこのハイブリッド画像１９０を出力する。基本的に、ハイブリッド画像１９０は、対象画像１７０の有する情報のうち、参照画像１７２，１８２が含む情報では不足する情報を補間するものであり、対象画像１７０をそのまま出力する場合に比較して冗長性を排除できる。そのため、対象画像１７０および参照画像１７２，１８２をそのまま出力する場合に比較して、データサイズを低減できる。

後述するように対象画像１７０および参照画像１７２，１８２は、互いに類似した情報を含む限り、任意の間隔で選択することができ、例えば、図２（ｂ）に示すように、同一の参照画像１７２および１８２に対して、対象画像１７０−１，１７０−２，１７０−３の各々についてハイブリッド画像１９０−１，１９０−２，１９０−３を生成してもよい。すなわち、一対の参照画像について、１または複数の対象画像をハイブリッド画像に変換することができる。

また、図３（ａ）に示すように、映像フレーム列についても同様のロジックを適用できる。すなわち、通常の動画像のフレーム周期は十分に短いので、近接するフレームを適切に選択すれば、それに含まれる情報の一部が互いに重複し得る。そこで、あるフレームの画像を対象画像１７０とし、近接するフレームにある参照画像１７２，１８２を参照してハイブリッド画像１９０を生成することで、データサイズを低減できる。

映像フレーム列についても同様に、対象画像１７０および参照画像１７２，１８２は、互いに類似した情報を含む限り、任意のフレーム間隔で選択することができ、例えば、図３（ｂ）に示すように、同一の参照画像１７２および１８２に対して、対象画像１７０−１，１７０−２，１７０−３の各々についてハイブリッド画像１９０−１，１９０−２，１９０−３を生成してもよい。すなわち、一対の参照画像について、１または複数の対象画像をハイブリッド画像に変換することができる。

本実施の形態に係るデータサイズ低減方法は、それ単体でも利用されるし、データ伝送前の前処理の一部として用いられることもある。

なお、本明細書において、「撮像」は、現実のカメラを用いて被写体の画像を取得する処理に加えて、例えば、コンピュータグラフィックスのように、仮想空間上に何らかオブジェクトを配置し、この配置されたオブジェクトに対して任意に設定された視点から画像をレンダリングする処理（すなわち、仮想空間上での仮想的な撮像）を含み得る。

本実施の形態において、被写体を撮像するカメラアレイにおいてカメラは任意に配置できる。例えば、１次元配列（カメラを直線上に配置）、２次元配列（カメラを行列状に配置）、円状配列（カメラを円周の全部または一部に沿って配置）、らせん配列（カメラをらせん状に配置）、ランダム配置（何らの規則なくカメラを配置）といった任意の配置を採用できる。

［Ｃ．ハードウェア構成］
次に、本実施の形態に係るデータサイズ低減方法を実現するためのハードウェアの構成例について説明する。図４は、図１に示すエンコーダーとして機能する情報処理装置１００のハードウェア構成を示す模式図である。図５は、図１に示すデコーダーとして機能する情報処理装置２００のハードウェア構成を示す模式図である。

図４を参照して、情報処理装置１００は、プロセッサ１０４と、メモリ１０６と、カメラインターフェイス１０８と、ハードディスク１１０と、入力部１１６と、表示部１１８と、通信インターフェイス１２０とを含む。これらの各コンポーネントは、バス１２２を介して互いにデータ通信可能に構成されている。

プロセッサ１０４は、ハードディスク１１０などに格納されているプログラムを読出してメモリ１０６に展開して実行することで、本実施の形態に係るエンコード処理を実現する。メモリ１０６は、プロセッサ１０４が処理を実行するためのワーキングメモリとして機能する。

カメラインターフェイス１０８は、複数のカメラ１０と接続され、それぞれのカメラ１０が撮像した画像を取得する。取得された画像は、ハードディスク１１０やメモリ１０６に格納されてもよい。ハードディスク１１０は、取得された画像を含む画像データ１１２と、エンコード処理およびデータ圧縮処理を実現するためのエンコードプログラム１１４とを不揮発的に保持している。エンコードプログラム１１４がプロセッサ１０４により読み出されて実行されることで、後述するエンコード処理が実現される。

入力部１１６は、典型的には、マウスやキーボードなどを含み、ユーザからの操作を受付ける。表示部１１８は、処理結果などをユーザへ通知する。

通信インターフェイス１２０は、無線伝送装置１０２などと接続され、プロセッサ１０４による処理の結果出力されるデータを無線伝送装置１０２へ出力する。

図５を参照して、情報処理装置２００は、プロセッサ２０４と、メモリ２０６と、プロジェクタインターフェイス２０８と、ハードディスク２１０と、入力部２１６と、表示部２１８と、通信インターフェイス２２０とを含む。これらの各コンポーネントは、バス２２２を介して互いにデータ通信可能に構成されている。

プロセッサ２０４、メモリ２０６と、入力部２１６、および、表示部２１８は、図４に示すプロセッサ１０４、メモリ１０６と、入力部１１６、および、表示部１１８とそれぞれ同様であるので、詳細な説明は繰返さない。

プロジェクタインターフェイス２０８は、立体表示装置３００と接続され、プロセッサ２０４によってデコードされた多視点画像を立体表示装置３００へ出力する。

通信インターフェイス２２０は、無線伝送装置２０２などと接続され、情報処理装置１００から送信される画像データを受信し、プロセッサ２０４へ出力する。

ハードディスク２１０は、デコードされた画像を含む画像データ２１２と、デコード処理を実現するためのデコードプログラム２１４とを不揮発的に保持している。デコードプログラム２１４がプロセッサ２０４により読み出されて実行されることで、後述するデコード処理が実現される。

図４および図５に示す情報処理装置１００および２００のハードウェア自体およびその動作原理は一般的なものであり、本実施の形態に係るエンコード処理／デコード処理を実現するための本質的な部分は、ハードディスクなどの記憶媒体に格納されたエンコードプログラム１１４やデコードプログラム２１４などのソフトウェア（命令コード）である。エンコードプログラム１１４および／またはデコードプログラム２１４は、ＯＳ(Operating System)が提供するモジュールを用いて処理を実行するように構成してもよい。この場合には、エンコードプログラム１１４および／またはデコードプログラム２１４は、一部のモジュールを含まないことになるが、このような場合であっても、本願発明の技術的範囲に含まれる。

情報処理装置１００および／または情報処理装置２００の全部または一部の機能をＡＳＩＣ(Application Specific Integrated Circuit)などの専用の集積回路を用いて実現してもよいし、ＦＰＧＡ（Field-Programmable Gate Array）やＤＳＰ(Digital Signal Processor)などのプログラム可能なハードウェアを用いて実現してもよい。

また、後述するように、画像を管理するデータサーバなどにおいては、エンコード処理およびデコード処理を単一の情報処理装置が実行することになる。

［Ｄ．全体処理手順］
次に、本実施の形態に係るデータサイズ低減方法の全体処理手順について説明する。図６は、本実施の形態に係るデータサイズ低減方法の全体処理手順を示すフローチャートである。図６に示すデータサイズ低減方法は、主としてエンコード処理からなるが、実用的には、エンコードされたデータから元の画像を再構成するためのデコード処理を含む。図１に示すような立体映像再生システム１では、エンコード処理およびデコード処理はそれぞれ異なる情報処理装置によって実行される。一方、画像を格納するためのサーバシステムなどでは、単一の情報処理装置がエンコード処理およびデコード処理を実行することになる。すなわち、データ格納前の前処理としてエンコード処理が実行され、データ再構成時にデコード処理が実行される。いずれの場合であっても、典型的には、プロセッサがプログラムを実行することで、各ステップの処理が実現される。

図６を参照して、エンコード処理として、ステップＳ１００〜Ｓ１１２の処理が実行される。具体的には、プロセッサ１０４は、互いに類似した情報を含む複数の画像を取得し、その取得した画像を所定の記憶領域に格納するとともに、取得した複数の画像のうち１つの画像を対象画像に設定し、当該対象画像に類似する少なくとも２つの画像を参照画像に設定する（ステップＳ１００）。すなわち、プロセッサ１０４は、互いに類似した情報を含む複数画像を取得するとともに、複数画像のうち、対象画像および対象画像に類似した２つの参照画像を選択する。

続いて、プロセッサ１０４は、設定した２つの参照画像に基づいて対象画像に対応する合成画像を生成する（ステップＳ１０２）とともに、２つの参照画像およびそれぞれの距離画像からマスク画像を生成する（ステップＳ１０４）。このマスク画像は、２つの参照画像から生成される合成画像の対象画像に対する潜在的誤差を示す。

続いて、プロセッサ１０４は、対象画像および合成画像から残差画像を生成する（ステップＳ１０６）。残差画像は、対象画像と合成画像との差に応じた画像である。

また、プロセッサ１０４は、対象画像および合成画像などから剰余画像を生成する（ステップＳ１０８）。より具体的には、ステップＳ１０８の剰余画像を生成する処理において、プロセッサ１０４は、対象画像および合成画像の一部または全部に基づいて、サイド情報を生成する（ステップＳ１０８１）。サイド情報は、対象画像の位置における仮想的な視野の情報であり、剰余画像および参照画像から対象画像を再構成するために必要な情報を含む。続いて、プロセッサ１０４は、生成したサイド情報から勾配強度画像を生成する（ステップＳ１０８２）。そして、プロセッサ１０４は、生成した勾配強度画像から各画素位置の剰余を算出する（ステップＳ１０８３）。

続いて、プロセッサ１０４は、マスク画像、残差画像および剰余画像から、ハイブリッド画像を生成する（ステップＳ１１０）。最終的に、プロセッサ１０４は、対象画像および参照画像に対応する情報として、少なくとも、ハイブリッド画像および参照画像を出力する（ステップＳ１１２）。すなわち、プロセッサ１０４は、対象画像および２つの参照画像を表現する情報として、２つの参照画像およびハイブリッド画像を出力する。

デコード処理として、ステップＳ２００〜Ｓ２１４の処理が実行される。具体的には、プロセッサ２０４は、エンコード処理の結果出力される情報を取得する（ステップＳ２００）。すなわち、プロセッサ２０４は、少なくとも出力された２つの参照画像およびハイブリッド画像を取得する。

続いて、プロセッサ２０４は、取得した情報に含まれる参照画像に基づいて対象画像に対応する合成画像を生成する（ステップＳ２０２）とともに、２つの参照画像およびそれぞれの距離画像からマスク画像を生成する（ステップＳ２０４）。

続いて、プロセッサ２０４は、生成したマスク画像に基づいて、ハイブリッド画像を、残差画像領域と剰余画像領域とに分離する（ステップＳ２０６）。そして、プロセッサ２０４は、合成画像および分離した残差画像領域から、対象画像の対応する領域を再構成する（ステップＳ２０８）とともに、合成画像および分離した剰余画像領域から、対象画像の対応する領域を再構成する（ステップＳ２１０）。

より具体的には、ステップＳ２１０の剰余画像に対応する領域を再構成する処理において、プロセッサ２０４は、取得した情報からサイド情報を生成する（ステップＳ２１０１）。続いて、プロセッサ２０４は、生成したサイド情報から勾配強度画像を生成する（ステップＳ２１０２）。そして、プロセッサ２０４は、サイド情報、勾配強度画像、および剰余画像から対象画像の各画素位置における輝度値を決定する（ステップＳ２１０３）。

最終的に、プロセッサ２０４は、残差画像に対応する再構成された領域と剰余画像に対応する再構成された領域とを組み合わせて対象画像を再構成する（ステップＳ２１２）とともに、再構成した対象画像および参照画像を出力する（ステップＳ２１４）。

［Ｅ．エンコード処理］
次に、本実施の形態に係るデータサイズ低減方法のエンコード処理（図６のステップＳ１００〜Ｓ１１２）の詳細について説明する。

《ｅ１：機能構成》
図７は、本実施の形態に係るデータサイズ低減方法のエンコード処理に係る機能構成を示すブロック図である。図７を参照して、情報処理装置１００は、その機能構成として、入力画像バッファ１５０と、距離情報推定部１５２と、距離情報バッファ１５４と、画像合成部１５８と、マスク推定部１６０と、残差画像生成部１６２と、剰余画像生成部１６４と、サブサンプリング部１６６と、画像結合部１６８とを含む。

《ｅ２：入力画像および距離画像の取得》
図６のステップＳ１００に示す画像取得処理は、図７の入力画像バッファ１５０、距離情報推定部１５２、および距離情報バッファ１５４によって実現される。具体的には、情報処理装置１００は、複数のカメラ１０（カメラアレイ）によって撮像された複数の視差画像からなる多視点画像を受信し、入力画像バッファ１５０に格納する。あるいは、情報処理装置１００は、フレーム順に配置された画像からなる一連の映像を受信し、入力画像バッファ１５０に格納してもよい。これらの入力画像が処理対象になる。説明の簡略化のため、１つの対象画像１７０と２つの参照画像１７２，１８２とのセットに着目して説明するが、要求されるデータサイズの低減率や情報処理装置１００の処理能力などに応じて、任意の数のセットに対して、本実施の形態に係るデータサイズ低減方法を適用すればよい。

また、対象画像１７０および参照画像１７２，１８２は、互いに類似した情報を含んでいなければならないので、多視点画像については、対象画像１７０および参照画像１７２，１８２は、そのベースライン距離に基づいて選択されることが好ましい。すなわち、その間に生じる視差に応じて、対象画像１７０および参照画像１７２，１８２が選択される。また、映像フレーム列（動画像）については、フレームレートに基づいて、対象となるフレームが選択される。すなわち、図６のステップＳ１００の処理は、複数画像が多視点画像である場合（図２参照）に、ベースライン距離に基づいて、対象画像１７０および参照画像１７２，１８２を選択する処理と、複数画像が映像フレーム列である場合（図３参照）に、フレームレートに基づいて、対象画像１７０および参照画像１７２，１８２を選択する処理とを含む。

図７において、対象画像１７０については、対象画像１７０が表現する対象視野(target view for representation)を意味する「ＶＴ」と表し、対象画像１７０の右側に位置する参照画像１７２については、対象画像１７０の右側にあるオリジナル視野(original view at the right side of VT)を意味する「ＶＲ」と表し、対象画像１７０の左側に位置する参照画像１８２については、対象画像１７０の左側にあるオリジナル視野(original view at the left side of VT)を意味する「ＶＬ」と表す。なお、右側および左側という表現は、説明の便宜上のものであり、現実のカメラ配置とは必ずしも一致しない場合もある。

本実施の形態に係るデータサイズ低減方法では、後述するように、参照画像１７２および１８２の距離画像を利用して、対象画像に対応する合成画像１７６を生成する場合もある。そのため、任意の方法を用いて、参照画像１７２の距離画像１７４および参照画像１８２の距離画像１８４が取得または推定される。

例えば、図１に示すようなカメラアレイを用いる場合には、被写体を示す画像の取得に加えて、距離画像を同時に取得できる場合がある。エンコード処理における対象画像１７０の再構成処理を考慮すると、参照画像と対応する距離画像との間で視野が不変であることが好ましい。そのため、可能であれば、このようなカメラアレイを用いてそれぞれの距離画像を取得することが好ましい。この場合、参照画像および対応する距離画像が同時に情報処理装置へ入力される。そのため、参照画像に対応する距離画像を取得できる場合には、図７に示す距離情報推定部１５２を必ずしも実装する必要はない。

図７において、参照画像１７２に対応する距離画像１７４については、その位置における距離画像(depth map at the location of VR)を意味する「ＤＲ」と表し、参照画像１８２に対応する距離画像１８４については、その位置における距離画像(depth map at the location of VL)を意味する「ＤＬ」と表す。

入力される複数画像が多視点画像である場合であって、視野についての距離画像を利用できないときや、距離カメラを利用できないときには、距離情報推定部１５２が参照画像１７２および１８２にそれぞれ対応する距離画像１７４および１８４を生成する。距離情報推定部１５２による距離画像の推定方法としては、非特許文献４に開示されるようなエネルギー最適化を併用した、ステレオマッチングに基づく各種の方法を採用できる。例えば、非特許文献５に開示されるようなグラフカットを用いて最適化することもできる。

距離情報推定部１５２によって生成された距離画像１７４および１８４は、距離情報バッファ１５４に格納される。

なお、入力される複数画像が映像フレーム列（動画像）である場合には、必ずしも距離画像を取得する必要はない。

以下の説明では、典型例として、入力データの一つのセットが対象画像１７０、参照画像１７２および対応する距離画像１７４、ならびに参照画像１８２および対応する距離画像１８４を含む場合について主として説明する。

《ｅ３：合成画像の生成》
図６のステップＳ１０２に示す合成画像の生成処理は、図７の画像合成部１５８によって実現される。より具体的には、画像合成部１５８は、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４を用いて、対象画像１７０の位置における仮想的な視野を示す合成画像１７６を生成する。図７において、この合成画像１７６については、対象視野の仮想視野を意味する「VT(virtual)」と表す。このような画像合成としては、例えば、非特許文献６および非特許文献７に開示されるような方法を採用できる。また、距離画像の精度が低い場合には、非特許文献８および非特許文献９に開示されるような、内挿処理を用いることで、合成画像１７６を生成できる。

図８は、本実施の形態に係るデータサイズ低減方法における合成画像の生成処理の結果を示す図である。図８に示すように、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４から、対象画像１７０に対応する合成画像１７６が生成される。

また、入力される複数画像が映像フレーム列（動画像）である場合には、２つの参照画像１７２および１８２に対応するフレームの情報から内挿処理または外挿処理を行なうことで、対象画像１７０に対応するフレームの情報を生成し、合成画像１７６として使用できる。

《ｅ４：マスク画像生成》
図６のステップＳ１０４に示すマスク画像の生成処理は、図７のマスク推定部１６０によって実現される。より具体的には、マスク推定部１６０は、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４を用いて、合成画像１７６の対象画像１７０に対する潜在的誤差(potential error)を示すマスク画像１８０を生成する。マスク画像１８０は、２つの領域からなり、これらの領域は、誤差が相対的に大きい領域および誤差が相対的に小さい領域の２つにそれぞれ対応する。

図９は、本実施の形態に係るデータサイズ低減方法におけるマスク画像１８０の生成処理を説明するための模式図である。図９を参照して、マスク推定部１６０は、対象画像１７０の右側に位置する参照画像１７２および対象画像１７０の左側に位置する参照画像１８２を、それぞれの距離画像１７４および１８４を用いて、他方の画像の位置に３Ｄワーピングさせることで、それぞれの変形画像を生成する。３Ｄワーピングの詳細については、非特許文献９などを参照のこと。すなわち、マスク推定部１６０は、参照画像１７２をその距離画像１７４を用いて３Ｄワーピングすることで、参照画像１８２の仮想的な視野に対応する変形画像１８３（「ＶＬ’」と表す）を生成する。また、マスク推定部１６０は、参照画像１８２をその距離画像１８４を用いて３Ｄワーピングすることで、参照画像１７２の仮想的な視野に対応する変形画像１７３（「ＶＲ’」と表す）を生成する。

続いて、マスク推定部１６０は、変形画像の投影された画素位置と対応する参照画像の画素位置との間で、輝度差（絶対値）を算出する。すなわち、マスク推定部１６０は、変形画像１７３と参照画像１７２との間で、対応する画素位置の各々について輝度差（絶対値）を算出することで、誤差画像１７５（「ｅＲ」と表す）を生成する。同様に、マスク推定部１６０は、変形画像１８３と参照画像１８２との間で、対応する画素位置の各々について輝度差（絶対値）を算出することで、誤差画像１８５（「ｅＬ」と表す）を生成する。誤差画像１７５および１８５は、右側および左側の参照画像（参照画像１７２および１８４）についての誤差の推定値をそれぞれ示す。

続いて、誤差画像１７５および１８５に対して、２値化処理が実行される。すなわち、マスク推定部１６０は、誤差画像１７５および１８５の各画素位置の輝度値としきい値とを比較して、その輝度値が予め設定したしきい値より低い領域と高い領域とを区別する。この結果、誤差画像１７５および１８５からは、しきい値より低い領域の画素を「０」とし、それ以外の整数値（典型的には、「１」）とのいずれかを有する２値化誤差画像１７７および１８７が生成される。

さらに、マスク推定部１６０は、２値化誤差画像１７７および１８７をそれぞれ対応する距離画像１７４および１８４を用いて、対象画像１７０の位置に３Ｄワーピングさせることで、２値化誤差変形画像１７９および１８９を生成する。最終的には、マスク推定部１６０は、２値化誤差変形画像１７９と２値化誤差変形画像１８９とが一体化され、対象画像１７０に対する誤差の推定値であるマスク画像１８０を生成する。より具体的には、マスク推定部１６０は、２値化誤差変形画像１７９と２値化誤差変形画像１８９との間で、各画素位置について論理積をとることでマスク画像１８０を算出する。

なお、算出されたマスク画像１８０に対してフィルタリング処理を行なってもよい。フィルタリング処理によって、算出されたマスク画像に含まれるノイズ成分を低減できる。このようなフィルタリング処理としては、ガウシアン(Gaussian)、メディアン(Median)、モルフォロジカル(morphological)操作（例えば、膨脹(dilation)処理や収縮(erosion)処理など）といった各種方法を採用できる。

このマスク画像１８０においては、参照画像間の誤差が小さい領域は「０」で示され、参照画像間の誤差が大きい領域はそれ以外の整数値（例えば、「１」）で示される。このように、図６のステップＳ１０４に示すマスク画像の生成処理は、マスク画像１８０の各画素位置の値を予め定められたしきい値と比較することで、潜在的誤差が相対的に大きい領域と、潜在的誤差が相対的に小さい領域とを区別する処理を含む。

図１０は、本実施の形態に係るデータサイズ低減方法におけるマスク画像１８０の生成処理の結果を示す図である。図１０に示すように、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４から、対象画像１７０に対応するマスク画像１８０が生成される。

なお、図９に示すマスク画像１８０の生成処理では、誤差画像１７５および１８５に対してしきい値処理を行なうことで、２値化誤差画像１７７および１８７を生成する処理例を示すが、このしきい値処理をマスク画像１８０の生成直前に行なうようにしてもよい。すなわち、誤差画像１７５および１８５をそれぞれ距離画像１７４および１８４を用いて３Ｄワーピングし、３Ｄワーピングした画像同士を結合して得られる画像に対して、しきい値処理を行なうことで、マスク画像１８０を生成してもよい。

《ｅ５：残差画像生成》
図６のステップＳ１０６に示す残差画像の生成処理は、図７の残差画像生成部１６２によって実現される。より具体的には、残差画像生成部１６２は、対象画像１７０と合成画像１７６との間で対応する画素同士の輝度値の差を算出することで残差画像１８６を生成する。残差画像１８６は、合成画像１７６が対象画像１７０に対してどれだけ誤差を有するのかという合成誤差情報を含む。残差画像１８６については、残差を意味する「VT(residual)」と表す。

図１１は、本実施の形態に係るデータサイズ低減方法における残差画像１８６の生成処理を説明するための模式図である。図１１を参照して、残差画像生成部１６２は、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４から生成された合成画像１７６と対象画像１７０との間で、輝度値の差分を算出することで、差分画像１８６Ａを算出する。

合成画像１７６および対象画像１７０の各画素位置の輝度値がｎビット（例えば、８ビット）で表現されていれば、各画素位置の輝度値は０〜２^ｎの範囲をとるので、差分計算によって、差分画像１８６Ａの各画素位置の輝度値は−２^ｎ〜２^ｎの範囲をとることになる。すなわち、差分画像１８６Ａの各画素位置の輝度値は（ｎ＋１）ビットで表現されることになる。しかしながら、各画素位置の輝度値は、通常ｎビット（０〜２^ｎの範囲）で表現されるので、残差画像生成部１６２は、（ｎ＋１）ビットで表現される差分画像１８６Ａをｎビット表現に変換することで、残差画像１８６を生成する。すなわち、残差画像生成部１６２は、対象画像１７０と合成画像１７６との差から生成される差分画像１８６Ａに対して、ビットプレーン変換を実行して、より少ないビット数の画像を生成する。このビットプレーン変換は、任意の方法を採用できるが、典型的には最下位ビットを削除する処理を含む。

図１２は、本実施の形態に係るデータサイズ低減方法における残差画像１８６の生成処理の結果を示す図である。図１２に示すように、対象画像１７０ならびに参照画像１７２および１８２から、対象画像１７０に対応する残差画像１８６が生成される。

《ｅ６：剰余画像生成》
図６のステップＳ１０８に示す剰余画像の生成処理は、図７の剰余画像生成部１６４およびサブサンプリング部１６６によって実現される。より具体的には、図６のステップＳ１０８１〜Ｓ１０８３の各々に示す処理に従って、サイド情報および勾配強度画像から各画素位置の剰余が算出される。すなわち、図６のステップＳ１０８に示す剰余画像の生成処理は、対象画像１７０の各画素位置の輝度値に対してモジュロ演算を行なうことで算出される各画素位置の剰余からなる剰余画像１８８を生成する処理を含む。剰余画像１８８については、剰余を意味する「VT(remainder)」と表す。

図１３は、図７に示す剰余画像生成部１６４のより詳細な機能構成を示すブロック図である。図１３を参照して、剰余画像生成部１６４は、サイド情報選択部１６４１と、勾配強度画像生成部１６４２と、係数選択部１６４３と、Ｌｏｏｋｕｐテーブル１６４４と、モジュロ演算部１６４５とを含む。

《ｅ６−１：サイド情報の生成》
図６のステップＳ１０１８に示すサイド情報の生成処理は、図７のサブサンプリング部１６６および図１３のサイド情報選択部１６４１によって実現される。サイド情報は、対象画像１７０の位置における仮想的な視野の情報であり、対象画像１７０、対象画像１７０の縮小画像、合成画像１７６、および、対象画像１７０の縮小画像と合成画像１７６とを組み合せた画像などを用いて生成される。サイド情報選択部１６４１は、入力される情報（画像）を適宜選択してサイド情報１９２を出力する。図１３において、サイド情報１９２を「VT(side information)」と表す。

サブサンプリング部１６６は、対象画像１７０から縮小画像１７８を生成する。図７において、この縮小画像１７８については、対象画像１７０をサブサンプリングして得られたことを意味する「VT(sub-sampled)」と表す。

サブサンプリング部１６６における縮小画像１７８の生成処理は、任意の方法を採用できる。例えば、対象画像１７０から所定領域毎に当該所定領域に含まれる１つの画素情報を抽出することで、縮小画像１７８として出力することができる。

あるいは、任意のフィルタリング処理（例えば、最近傍法、内挿法、バイキュービック法、バイラテラルフィルタを用いて縮小画像１７８を生成してもよい。例えば、対象画像１７０を所定サイズの領域（例えば、２×２画素、３×３画素など）に分割し、各領域において、その領域に含まれる複数の画素の情報に対して線形または非線型の補間処理をすることで、任意のサイズの縮小画像１７８を生成できる。

サイド情報１９２を生成する方法としては、典型的には、以下に示す（ａ）−（ｄ）の４つの方法の中から任意に選択できる。

（ａ）サイド情報１９２として対象画像１７０そのものが用いられる場合：
サイド情報選択部１６４１は、入力された対象画像１７０をそのままサイド情報１９２として出力する。また、デコード処理において対象画像１７０そのものを利用できないので、参照画像から生成される合成画像がサイド情報として用いられる。

（ｂ）サイド情報１９２として対象画像１７０の縮小画像１７８が用いられる場合：
サイド情報選択部１６４１は、サブサンプリング部１６６により生成された縮小画像１７８をそのままサイド情報１９２として出力する。

（ｃ）サイド情報１９２として合成画像１７６が用いられる場合：
サイド情報選択部１６４１は、画像合成部１５８により生成された合成画像１７６をそのままサイド情報１９２として出力する。

（ｄ）サイド情報１９２として縮小画像１７８と合成画像１７６との組合せが用いられる場合：
サイド情報選択部１６４１は、後述するような方法に従って、サイド情報１９２を生成する。この場合には、図６のステップＳ１０１８に示すサイド情報の生成処理は、対象画像１７０の縮小画像１７８と合成画像１７６とを組み合わせてサイド情報１９２を生成する処理を含む。

より具体的には、サイド情報選択部１６４１は、まず、組合せに用いる重み係数を算出する。この重み係数は、対象画像１７０の縮小画像１７８に対する合成画像１７６の信頼度分布に関連付けられる。すなわち、合成画像１７６と縮小画像１７８（対象画像１７０）との間の誤差（あるいは、両者の一致度合い）に基づいて、重み係数が決定される。算出される誤差分布は、信頼度分布を反転させたものに相当し、誤差が小さいほど信頼度が高いと考えることができる。すなわち、誤差が大きい領域ほど、合成画像１７６の信頼性が低いと考えられるので、このような領域については、縮小画像１７８（対象画像１７０）の情報がより多く割当てられる。一方、誤差が小さい領域ほど、合成画像１７６の信頼性が高いと考えられるので、より誤差の小さい合成画像１７６の情報がより多く割当てられる。

図１４は、本実施の形態に係るデータサイズ低減方法においてサイド情報選択に用いられる誤差分布の算出処理を説明するための模式図である。図１４を参照して、サイド情報選択部１６４１は、対象画像１７０の縮小画像１７８(VT(sub-sampled))をアップサンプリングして得られる拡大画像１９８と、合成画像１７６(VT(virtual))との間で、対応する画素間で輝度値の絶対値の差分をとることで、誤差分布Ｒを決定する。縮小画像１７８をアップサンプリングするのは、合成画像１７６とサイズを一致させるため、および対象画像１７０を再構成する処理における処理を想定して誤差を算出するためである。縮小画像１７８をアップサンプリングする方法としては、公知の方法を採用できる。例えば、最近傍法、内挿法、バイキュービック法、バイラテラルフィルタなどの任意のフィルタリング処理を採用できる。

このように、サイド情報選択部１６４１は、（ｄ）の方式を選んだ場合には、縮小画像１７８をアップサンプリングして得られる拡大画像１９８と合成画像１７６との差に基づいて誤差分布を決定する。サイド情報選択部１６４１は、決定した誤差分布Ｒに基づいて、縮小画像１７８（あるいは、拡大画像１９８）と合成画像１７６とを組み合わせてサイド情報１９２を生成する。算出された誤差分布Ｒを用いてサイド情報１９２を生成する方法としては、種々の方法が考えられるが、例えば、以下のような処理例を採用できる。

（ｉ）処理例１：２値化重み付け組合せ法(binary weighted combination)
本処理例においては、算出された誤差分布Ｒを任意のしきい値を用いて２つの領域に分類する。典型的には、その誤差がしきい値より高い領域をＨｉ領域とし、その誤差がしきい値より低い領域をＬｏ領域とする。そして、サイド情報１９２の各画素には、誤差分布ＲのＨｉ領域およびＬｏ領域に対応して、縮小画像１７８（実質的には、拡大画像１９８）または合成画像１７６の情報が割当てられる。より具体的には、誤差分布ＲのＨｉ領域に対応するサイド情報１９２の画素位置には、縮小画像１７８をアップサンプリングして得られる拡大画像１９８の対応する画素位置の値が割当てられ、誤差分布ＲのＬｏ領域に対応する画素位置には、合成画像１７６の対応する画素位置の値が割当てられる。

すなわち、拡大画像１９８（縮小画像１７８をアップサンプリングした画像）をＳＳ、合成画像１７６をＳＹと表せば、サイド情報１９２（「ＳＩ」と表す）の画素位置（ｘ，ｙ）における値は、所定のしきい値ＴＨを用いて、以下のようになる。

ＳＩ（ｘ，ｙ）＝ＳＳ（ｘ，ｙ）｛ｉｆＲ（ｘ，ｙ）≧ＴＨ｝
＝ＳＹ（ｘ，ｙ）｛ｉｆＲ（ｘ，ｙ）＜ＴＨ｝
このように、本処理例において、サイド情報選択部１６４１は、誤差が相対的に高い領域に縮小画像１７８をアップサンプリングして得られる拡大画像１９８の情報を割当てるとともに、誤差が相対的に低い領域に合成画像１７６の情報を割当てる。

（ｉｉ）処理例２：離散化重み付け組合せ法(discrete weighted combination)
本処理例においては、算出された誤差分布Ｒを（ｎ−１）個のしきい値を用いて、ｎ種類の領域に分類する。分類された領域の番号ｋを誤差が低い方から１，２，…，ｎとすると、サイド情報１９２（ＳＩ）の画素位置（ｘ，ｙ）における値は、分類された領域の番号ｋを用いて、以下のようになる。

ＳＩ（ｘ，ｙ）＝（ｋ／ｎ）×ＳＹ（ｘ，ｙ）＋（１−ｋ／ｎ）×ＳＳ（ｘ，ｙ）
このように、本処理例において、サイド情報選択部１６４１は、誤差が相対的に高い領域に縮小画像１７８をアップサンプリングして得られる拡大画像１９８の情報を割当てるとともに、誤差が相対的に低い領域に合成画像１７６の情報を割当てる。

（ｉｉｉ）処理例３：連続重み付け組合せ法(continuous weighted combination)
本処理例においては、画素位置の誤差の逆数を重み付け係数とみなし、これを用いて、サイド情報１９２を算出する。具体的には、サイド情報１９２の画素位置（ｘ，ｙ）における値ＳＩ（ｘ，ｙ）は以下のようになる。

ＳＩ（ｘ，ｙ）＝（１／Ｒ（ｘ，ｙ））×ＳＹ（ｘ，ｙ）＋（１−１／Ｒ（ｘ，ｙ））×ＳＳ（ｘ，ｙ）
このように、本処理例において、サイド情報選択部１６４１は、誤差が相対的に高い領域に縮小画像１７８をアップサンプリングして得られる拡大画像１９８の情報を割当てるとともに、誤差が相対的に低い領域に合成画像１７６の情報を割当てる。本処理例においては、誤差が高いほど拡大画像１９８（縮小画像１７８）が優位になり、誤差が低いほど合成画像１７６が優位になる。

《ｅ６−２：勾配強度画像の生成》
図６のステップＳ１０８２に示す勾配強度画像の生成処理は、図１３の勾配強度画像生成部１６４２によって実現される。より具体的には、勾配強度画像生成部１６４２は、サイド情報１９２から画像空間上の変化を示す勾配強度画像１９６を生成する。勾配強度画像１９６は、サイド情報１９２内のテクスチャー変化がより大きい領域ほどより大きい輝度をもつような画像を意味する。図１３において、勾配強度画像１９６を「VT(gradient)」と表す。勾配強度画像１９６の生成処理としては、任意のフィルタリング処理を用いることができる。また、勾配強度画像１９６の各画素の値は所定範囲内（例えば、０〜２５５）のいずれかの整数値をとるように正規化される。

典型的には、以下のような処理手順で勾配強度画像１９６が生成される。
（ａ）サイド情報１９２を出力される剰余画像の画像サイズにリサイズする。

（ｂ）リサイズ後のサイド情報に対してノイズ除去のためにガウシアンフィルタを適用する（ガウシアンスムージング処理）。

（ｃ）フィルタ後のサイド情報をカラーコンポーネント別に分離する（すなわち、カラーコンポーネントの別にグレイスケール画像を生成する）。

（ｄ）各カラーコンポーネントのグレイスケール画像について、（ｄ１）〜（ｄ４）の処理を実行する。

（ｄ１）エッジ検出処理
（ｄ２）（１回以上の）ガウシアンスムージング処理（あるいは、メディアンフィルタ処理）
（ｄ３）一連のモルフォロジカル処理（例えば、（１回以上の）膨脹処理、（１回以上の）収縮処理、（１回以上の）膨脹処理）
（ｄ４）（１回以上の）ガウシアンスムージング処理
以上のような処理によって、サイド情報１９２を構成するカラーコンポーネント別に勾配強度画像が生成される。すなわち、図６のＳ１０８２に示す勾配強度画像１９６の生成処理は、サイド情報１９２を構成する各カラーコンポーネントのグレイスケール画像に対して、エッジ検出処理、スムージング処理、一連のモルフォロジカル処理、および、スムージング処理を順に適用する処理を含む。このような処理によって、サイド情報１９２に含まれるカラーコンポーネントの数だけグレイスケール画像が生成され、それぞれのグレイスケール画像について勾配強度画像が生成される。

ここに示した処理手順は一例であって、ガウシアンスムージング処理やモルフォロジカル処理の処理内容や処理手順などは適宜設計できる。

さらに、疑似的な勾配強度画像を生成する処理を採用してもよい。すなわち、サイド情報１９２内のテクスチャー変化がより大きい領域がより大きい輝度をもつような画像を生成できれば、どのようなフィルタリング処理を採用してもよい。

《ｅ６−３：剰余の算出》
図６のステップＳ１０８３に示す剰余の算出処理は、図１３の係数選択部１６４３、Ｌｏｏｋｕｐテーブル１６４４、およびモジュロ演算部１６４５によって実現される。剰余画像１８８は、勾配強度画像１９６の各画素位置における値をモジュロ演算して得られる剰余を示す。このモジュロ演算にあたって、勾配強度画像１９６の各画素位置の値に応じて、法となる係数Ｄが選択される。係数選択部１６４３は、勾配強度画像１９６の各画素位置の値に応じて係数Ｄを選択する。

このように、図６のステップＳ１０８３に示す剰余の算出処理は、勾配強度画像１９６の各画素位置について勾配強度に応じた係数Ｄを決定するとともに、対象画像１７０の各画素位置の輝度値に対して対応する係数Ｄを法とするモジュロ演算を行なうことで、モジュロ演算によって算出される各画素位置の剰余からなる剰余画像１８８を生成する処理を含む。

係数Ｄの選択方法としては任意の方法を採用できる。例えば、勾配強度画像１９６の値そのものを係数Ｄとして選択してもよい。但し、デコード後の画像品質を向上させるために、本実施の形態においては、勾配強度画像１９６に対して非線形に係数Ｄを決定する。具体的には、Ｌｏｏｋｕｐテーブル１６４４を参照して、勾配強度画像１９６の各画素位置に対応する係数Ｄを選択する。ここで、係数Ｄは、勾配強度画像１９６に含まれる各カラーコンポーネントの各画素位置について決定される。

このように図６のステップＳ１０８３に示す剰余の算出処理は、予め定められた対応関係を参照して、勾配強度に対応する係数Ｄを選択する処理を含む。このとき、勾配強度画像１９６の各画素位置について、カラーコンポーネント別に係数Ｄが決定される。

図１５は、本実施の形態に係る剰余画像の生成に用いられるＬｏｏｋｕｐテーブル１６４４の一例を示す図である。図１５（ａ）に示すように、複数の段階に離散化されており、勾配強度画像１９６の各画素位置の値に対応する係数Ｄが選択される。図１５（ａ）に示すＬｏｏｋｕｐテーブル１６４４では、モジュロ演算の法となる値が２のべき乗になるように設計される。このように係数Ｄの割当てを行なうことで、モジュロ演算を高速化できる。Ｌｏｏｋｕｐテーブル１６４４は、任意に設計でき、例えば、図１５（ｂ）に示すような、段階数をより少なくしたＬｏｏｋｕｐテーブル１６４４を採用してもよい。さらに、Ｌｏｏｋｕｐテーブルを必ずしも使用する必要はなく、予め定められた関数などを用いて、係数Ｄを決定してもよい。

図１３に戻って、係数選択部１６４３は、勾配強度画像１９６の各画素位置について、カラーコンポーネント別に係数Ｄを選択する。勾配強度画像１９６に応じて決定される係数Ｄを用いて、モジュロ演算部１６４５は、対象画像１７０に対してモジュロ演算を行って剰余を算出する。

モジュロ演算部１６４５は、対応する係数Ｄを法として各画素位置の輝度値に対するモジュロ演算を行なう。より具体的には、各画素位置の輝度値Ｐ＝ｑ×Ｄ＋ｍ（但し、ｑ≧０，Ｄ＞０）が成立する最小のｍが決定される。ここで、ｑは商であり、ｍは剰余である。

後述する対象画像１７０の再構成処理（デコード処理）では、「輝度値Ｐ＝ｑ’×Ｄ＋ｍ」が算出されるので、各画素位置において算出されるカラーコンポーネント別の剰余ｍが剰余画像１８８として保存される。すなわち、各画素位置の剰余ｍが剰余画像１８８を構成する。

剰余画像１８８は、公知のダウンサンプリング方法またはアップサンプリング方法を用いて、任意の大きさにリサイズされてもよい。

図１６は、本実施の形態に係る剰余画像の生成処理の結果を示す図である。図１６に示すように、参照画像１７２および１８２から対象画像１７０についての剰余画像１８８が生成される。

《ｅ７：ハイブリッド画像生成》
図６のステップＳ１１０に示すハイブリッド画像の生成処理およびステップＳ１１２に示す処理結果の出力処理は、図７の画像結合部１６８によって実現される。画像結合部１６８は、マスク画像１８０に従って、残差画像１８６および剰余画像１８８を結合し、ハイブリッド画像１９０を生成する。ハイブリッド画像１９０については、「VT(hybrid)」と表す。

より具体的には、図６のステップＳ１１０に示すハイブリッド画像の生成処理は、マスク画像１８０に基づいて、潜在的誤差が相対的に大きい領域に残差画像１８６の対応する領域の情報を割当てることで、対象画像１７０に対応する変換後画像（ハイブリッド画像１９０）を生成する処理を含む。さらに、図６のステップＳ１１０に示すハイブリッド画像の生成処理は、マスク画像１８０に基づいて、潜在的誤差が相対的に小さい領域に剰余画像１８８の対応する領域の情報を割当てる処理を含む。

画像結合部１６８は、マスク画像１８０の各画素位置の値に応じて、残差画像１８６および剰余画像１８８の一方を選択し、その対応する画素位置の値をハイブリッド画像１９０の対応する画素位置の輝度値として出力する。より具体的には、画像結合部１６８は、マスク画像１８０の値が「０」であれば、剰余画像１８８の対応する画素位置の値を採用し、マスク画像１８０の値が「０」以外であれば、残差画像１８６の対応する画素位置の値を採用する。すなわち、マスク画像１８０の各画素位置の値は、参照画像間の誤差の大きさを示し、その値が「０」である場合（誤差が相対的に小さい場合）には、再構成された画像品質がより高い剰余画像１８８が選択され、その値が「０」以外である場合（誤差が相対的に大きい場合）には、より情報量の少ない残差画像１８６が選択される。このように、ハイブリッド画像１９０は、マスク画像１８０に含まれる２つの領域に応じて、残差画像１８６と剰余画像１８８とが選択的に結合されることで生成される。

このように、互いに類似した情報を含む複数画像を表現するためのハイブリッド画像１９０は、参照画像１７２および１８２から生成される合成画像１７６の対象画像１７０に対する潜在的誤差が相対的に大きい領域に、対象画像１７０と合成画像１７６との差に応じた残差画像１８６の対応する領域の情報を割当てたものである。

上述のように、残差画像１８６および剰余画像１８８を適切に組み合わせてハイブリッド画像１９０を生成することで、データサイズを低減できるとともに、再構成された画像品質をより適切なレベルに保つことができる。

図１７および図１８は、本実施の形態に係るハイブリッド画像の生成処理の結果を示す図である。図１７に示すように、マスク画像１８０に基づいて、残差画像１８６および剰余画像１８８を適切に組み合わせることで、ハイブリッド画像１９０が生成される。これにより、図１８に示すように、参照画像１７２および１８２から対象画像１７０についてのハイブリッド画像１９０が生成される。

本実施の形態に係るデータサイズ低減方法のエンコード処理の最終出力として、少なくとも、入力されたままの参照画像１７２および１８２と、処理結果であるハイブリッド画像１９０とが保存される。オプションとして、参照画像１７２の距離画像１７４、および参照画像１８２の距離画像１８４が出力されてもよい。また、オプションとして、剰余画像１８８とともに縮小画像１７８が出力されてもよい。これらのオプションとして付加される情報（画像）は、デコード処理における処理内容に応じて適宜選択される。

上述の説明においては、１つの対象画像１７０と２つの参照画像１７２，１８２とのセットに着目して説明したが、入力される複数の画像（多視点画像または映像フレーム列）に対して設定されるすべての対象画像およびにそれぞれ対応する参照画像に対して、同様の処理が実行される。

《ｅ８：処理例》
以下、本実施の形態に係るデータサイズ低減方法のデコード処理の処理例を示す。

図１９は、本実施の形態に係るデータサイズ低減方法のデコード処理に入力された対象画像１７０の一例である。図２０は、図１９に示す対象画像１７０から生成された残差画像１８６の一例である。図２１は、図１９に示す対象画像１７０から生成された剰余画像１８８の一例である。図２２は、図１９に示す対象画像１７０から生成されたマスク画像１８０の一例である。図２３は、図１９に示す対象画像１７０から生成されたハイブリッド画像１９０の一例である。

図１９に示すような高精細な対象画像１７０であっても、図２０に示す残差画像１８６では、その画像内の変化量はそれほど大きくなく、十分にデータサイズを低減できていることがわかる。また、図２１に示す剰余画像１８８についても、多くの部分が黒色になっており、データサイズを低減できていることがわかる。

さらに、図２２に示すマスク画像の白色部分に残差画像１８６の成分が割当てられ、黒色部分に剰余画像１８８の成分が割当てられることで、図２３に示すようなハイブリッド画像１９０が生成される。

［Ｆ．デコード処理］
次に、本実施の形態に係るデータサイズ低減方法のデコード処理（図６のステップＳ２００〜Ｓ２１４）の詳細について説明する。基本的には、エンコード処理の逆処理であるので、同様の処理についての詳細な説明は繰返さない。

《ｆ１：機能構成》
図２４は、本実施の形態に係るデータサイズ低減方法のデコード処理に係る機能構成を示すブロック図である。図２５は、本実施の形態に係るデータサイズ低減方法のデコード処理の概要を説明するための模式図である。図２４における表記は、図７における表記に準じている。

図２４を参照して、情報処理装置２００は、その機能構成として、入力データバッファ２５０と、距離情報推定部２５２と、距離情報バッファ２５４と、画像合成部２５８と、マスク推定部２６０と、残差画像生成部２６２と、剰余画像生成部２６４と、アップサンプリング部２６６と、領域分離部２６８と、要素結合部２７４とを含む。

情報処理装置２００は、エンコード処理された情報（参照画像１７２および１８２、ならびにハイブリッド画像１９０）を用いて、元の対象画像１７０を再構成する。例えば、図２５に示すように、参照画像１７２，１８２とハイブリッド画像１９０とが交互が配置されており、情報処理装置２００は、ハイブリッド画像１９０の各々に対して、対応する参照画像１７２，１８２を用いてデコード処理を行なうことで、元の対象画像１７０に対応する再構成画像２７０を復元する。図２５に示すように、１つの参照画像が複数の対象画像に関連付けられる場合もある。

《ｆ２：入力データおよび距離画像の取得》
図６のステップＳ２００に示すエンコード処理の取得処理は、図２４の入力データバッファ２５０と、距離情報推定部２５２と、距離情報バッファ２５４によって実現される。具体的には、情報処理装置２００は、上述のデコード処理によって生成された、参照画像１７２および１８２ならびにハイブリッド画像１９０を少なくとも受信する。上述したように、参照画像１７２および１８２にそれぞれ対応する距離画像１７４および１８４が併せて送信される場合には、これらの距離画像もデコード処理に用いられる。

一方、距離画像１７４および１８４が入力されない場合には、距離情報推定部２５２が参照画像１７２および１８２にそれぞれ対応する距離画像１７４および１８４を生成する。距離情報推定部２５２における距離画像の推定方法は、上述した距離情報推定部１５２（図７）における距離画像の推定方法と同様であるので、詳細な説明は繰返さない。距離情報推定部２５２によって生成された距離画像１７４および１８４は、距離情報バッファ２５４に格納される。

《ｆ３：合成画像の生成》
図６のステップＳ２０２に示す合成画像の生成処理は、図２４の画像合成部２５８によって実現される。より具体的には、画像合成部２５８は、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４を用いて、対象画像１７０の位置における仮想的な視野を示す合成画像２７６を生成する。画像合成部２５８における合成画像の生成方法は、上述した画像合成部１５８（図７）における合成画像の生成方法と同様であるので、詳細な説明は繰返さない。なお、受信された複数画像が映像フレーム列（動画像）である場合には、２つの参照画像１７２および１８２に対応するフレームの情報から内挿処理または外挿処理を行なうことで、対象画像１７０に対応するフレームの情報を生成できる。

《ｆ４：マスク画像生成および領域分離》
図６のステップＳ２０４に示すマスク画像の生成処理は、図２４のマスク推定部２６０によって実現され、ステップＳ２０６に示す残差画像領域と剰余画像領域との分離処理は、図２４の領域分離部２６８によって実現される。

マスク推定部２６０は、参照画像１７２および対応する距離画像１７４、ならびに、参照画像１８２および対応する距離画像１８４を用いて、参照画像間の誤差の大きさを示すマスク画像２８０を生成する。マスク推定部２６０におけるマスク画像の生成方法は、上述したマスク推定部１６０（図７）におけるマスク画像の生成方法と同様であるので、詳細な説明は繰返さない。

領域分離部２６８は、マスク画像２８０とハイブリッド画像１９０とから、残差画像領域２８６と剰余画像領域２８８とに分離する。図２４において、残差画像領域２８６を「VT(residual part)」と表し、剰余画像領域２８８を「VT(modulo part)」と表す。このように、図６のステップＳ２０４に示すマスク画像の生成処理は、マスク画像２８０の各画素位置の値を予め定められたしきい値と比較することで、潜在的誤差が相対的に大きい領域と、潜在的誤差が相対的に小さい領域とを区別する処理を含む。

具体的には、領域分離部２６８は、マスク画像２８０の値が「０」であれば、ハイブリッド画像１９０の対応する画素位置の値を剰余画像領域２８８の値として出力し、マスク画像２８０の値が「０」以外であれば、ハイブリッド画像１９０の対応する画素位置の値を残差画像領域２８６の値として出力する。このように、マスク画像２８０に基づいて、ハイブリッド画像１９０が２つの独立した画像に分離される。剰余画像領域２８８および残差画像領域２８６は、ハイブリッド画像１９０に含まれるカラーコンポーネント毎に生成される。

《ｆ５：残差画像領域の再構成》
図６のステップＳ２０８に示す残差画像領域の再構成処理は、図２４の残差画像生成部２６２によって実現される。より具体的には、残差画像生成部２６２は、合成画像２７６と残差画像領域２８６との間で対応する画素同士の輝度値を加算することで、残差画像領域２８６の再構成画像２８７を生成する。すなわち、図６のステップＳ２０８に示す残差画像領域の再構成処理は、マスク画像２８０に基づいてハイブリッド画像１９０のうち潜在的誤差が相対的に大きい領域の情報を抽出するとともに、当該抽出した情報と合成画像２７６とに基づいて、対象画像１７０の対応する画素位置の輝度値を決定する処理を含む。再構成画像２８７については、残差画像領域２８６を復元したという意味で「VT(inverse residual part)」と表す。

図２６は、本実施の形態に係るデータサイズ低減方法における再構成画像２８７の生成処理を説明するための模式図である。図２６を参照して、残差画像生成部２６２は、合成画像２７６と残差画像領域２８６との間で輝度値を加算することで、再構成画像２８７の対応する輝度値を算出する。

図１１を参照して説明したように、ハイブリッド画像１９０に含まれる残差画像は、（ｎ＋１）ビット表現をｎビット表現に変換したものであり、残差画像領域を再構成するにあたって、このビット変換の逆変換を行なう必要がある。残差画像生成部２６２は、ｎビット（例えば、８ビット）で表現される残差画像領域２８６を（ｎ＋１）ビット表現（例えば、９ビット表現）の差分画像２８６Ａへ変換する。すなわち、残差画像生成部２６２は、ハイブリッド画像１９０のうち潜在的誤差が相対的に大きい領域の情報に対してビットプレーン変換を行なう。その上で、残差画像生成部２６２は、当該ビットプレーン変換によりビット数が増大した差分画像２８６Ａと合成画像２７６とを加算することで輝度値を決定する。すなわち、残差画像生成部２６２は、差分画像２８６Ａと合成画像２７６との間で対応する画素位置の値同士を加算して、再構成画像２８７を生成する。

《ｆ６：剰余画像領域の再構成》
図６のステップＳ２１０に示す剰余画像領域の再構成処理は、図２４の剰余画像生成部２６４およびアップサンプリング部２６６によって実現される。図６のステップＳ２１０１〜Ｓ２１０３の各々に示す処理に従って、サイド情報および勾配強度画像から各画素位置の剰余を算出することで、剰余画像領域２８８の再構成画像２８９が生成される。すなわち、図６のステップＳ２１０に示す剰余画像領域の再構成処理は、マスク画像２８０に基づいて、ハイブリッド画像１９０のうち、潜在的誤差が相対的に小さい領域の情報に対して逆モジュロ演算を行なうことで、対象画像１７０の対応する画素位置の輝度値を決定する処理を含む。再構成画像２８９については、剰余画像領域２８８を復元したという意味で「VT(inverse remainder part)」と表す。

図２７は、図２４に示す剰余画像生成部２６４のより詳細な機能構成を示すブロック図である。図２７を参照して、剰余画像生成部２６４は、サイド情報選択部２６４１と、勾配強度画像生成部２６４２と、係数選択部２６４３と、Ｌｏｏｋｕｐテーブル２６４４と、逆モジュロ演算部２６４５とを含む。

《ｆ６−１：サイド情報の生成》
図６のステップＳ２１０１に示すサイド情報の生成処理は、図２７のサイド情報選択部２６４１によって実現される。より具体的には、サイド情報選択部２６４１は、縮小画像１７８をアップサンプリングして得られる拡大画像２７２（縮小画像１７８が入力データに含まれている場合）、合成画像２７６、およびこれらの組合せに基づいて、サイド情報２９２を生成する。

上述したように、入力データに縮小画像１７８が含まれない場合もあり、この場合には、サイド情報選択部２６４１は、画像合成部２５８により生成された合成画像２７６に基づいてサイド情報２９２を生成する。

一方、入力データに縮小画像１７８が含まれている場合には、サイド情報選択部２６４１は、縮小画像１７８をアップサンプリングして得られる拡大画像２７２をサイド情報２９２として用いてもよいし、拡大画像２７２と合成画像２７６との組合せによってサイド情報を生成してもよい。

図２４に示すアップサンプリング部２６６は、入力データに含まれている縮小画像１７８をアップサンプリングして拡大画像２７２を生成する。縮小画像１７８をアップサンプリングする方法としては、公知の方法を採用できる。例えば、最近傍法、内挿法、バイキュービック法、バイラテラルフィルタなどの任意のフィルタリング処理を採用できる。

このような拡大画像２７２と合成画像２７６との組合せによるサイド情報の生成処理としては、上述したような誤差分布を用いて、２値化重み付け組合せ法、離散化重み付け組合せ法、および連続重み付け組合せ法などを採用できる。これらの処理については、上述したので、詳細な説明は繰返さない。

《ｆ６−２：勾配強度画像の生成》
図６のステップＳ２１０２に示す勾配強度画像の生成処理は、図２７の勾配強度画像生成部２６４２によって実現される。より具体的には、勾配強度画像生成部２６４２は、サイド情報２９２から画像空間上の変化を示す勾配強度画像２９６を生成する。勾配強度画像生成部２６４２における勾配強度画像の生成方法は、上述した勾配強度画像生成部１６４２（図１３）における勾配強度画像の生成方法と同様であるので、詳細な説明は繰返さない。

《ｆ６−３：輝度値の決定》
図６のステップＳ２１０３に示す対象画像の各画素位置における輝度値の決定処理は、図２７の係数選択部２６４３、Ｌｏｏｋｕｐテーブル２６４４、および逆モジュロ演算部２６４５によって実現される。対象画像の各画素位置の輝度値は、ハイブリッド画像１９０から分離された剰余画像領域２８８の対応する画素位置の値（剰余ｍ）と、ハイブリッド画像１９０を構成する剰余画像１８８を生成する際に用いられた係数Ｄとから、逆モジュロ演算によって推定される。

この逆モジュロ演算にあたって、エンコード処理においてハイブリッド画像１９０（剰余画像１８８）を生成する際に用いられた係数Ｄが、勾配強度画像２９６に基づいて推定（選択）される。すなわち、係数選択部２６４３は、勾配強度画像２９６の各画素位置の値に応じて係数Ｄを選択する。この係数Ｄの選択方法としては任意の方法を採用できるが、本実施の形態においては、Ｌｏｏｋｕｐテーブル２６４４を参照して、各画素位置の係数Ｄを選択する。Ｌｏｏｋｕｐテーブル２６４４は、エンコード処理において用いられるＬｏｏｋｕｐテーブル１６４４（図１５）と同様である。係数選択部２６４３は、Ｌｏｏｋｕｐテーブル２６４４を参照して、勾配強度画像２９６の各画素位置について、カラーコンポーネント別に係数Ｄを選択する。

逆モジュロ演算部２６４５は、各画素位置についての選択された係数Ｄおよび剰余ｍ、ならびにサイド情報２９２の対応する値ＳＩを用いて、逆モジュロ演算を行なう。より具体的には、逆モジュロ演算部２６４５は、再構成画像２８９の輝度値についての候補値Ｃ（ｑ’）のリストをＣ（ｑ’）＝ｑ’×Ｄ＋ｍ（但し、ｑ’≧０，Ｃ（ｑ’）＜２５６）に従って算出し、この算出された候補値Ｃ（ｑ’）のうち、サイド情報２９２の対応する値ＳＩに対する差（絶対値）が最も小さいものが、再構成画像２８９の対応する輝度値として決定される。

例えば、係数Ｄ＝８、剰余ｍ＝３、サイド情報２９２の対応する値ＳＩ＝８の場合を考えると、候補値Ｃ（ｑ’）としては、以下のようになる。

候補値Ｃ（０）＝０×８＋３＝３（ＳＩとの差＝５）
候補値Ｃ（１）＝１×８＋３＝１１（ＳＩとの差＝３）
候補値Ｃ（２）＝２×８＋３＝１９（ＳＩとの差＝１１）
…
これらの候補値Ｃ（ｑ’）のうち、サイド情報２９２の対応する値ＳＩとの差が最も小さくなる候補値Ｃ（１）が選択され、再構成画像２８９の対応する輝度値は「１１」に決定される。このようにして、再構成画像２８９の各画素位置の輝度値がカラーコンポーネント別にそれぞれ決定される。

このように図６のステップＳ２１０に示す剰余画像領域を再構成する処理は、勾配強度画像２９６の各画素位置について勾配強度に応じた係数Ｄを決定するとともに、決定した係数Ｄを法とし、剰余画像領域２８８の対応する画素位置の値を剰余ｍとする逆モジュロ演算により算出される候補値Ｃ（ｑ’）のうち、サイド情報２９２の対応する画素位置の値に対する差が最も小さいものを、再構成画像２８９の対応する画素位置の輝度値として決定する処理を含む。

《ｆ７：結合》
図６のステップＳ２１２に示す対象画像の再構成処理およびステップＳ２１４に示す出力処理は、図２４の要素結合部２７４によって実現される。より具体的には、要素結合部２７４は、残差画像領域に対応する再構成画像２８７と剰余画像領域に対応する再構成画像２８９とを結合し、再構成画像２７０を生成する。後述するように、縮小画像１７８をアップサンプリングして得られる拡大画像２７２を、再構成画像２７０の生成に用いてもよい。

残差画像領域および剰余画像領域はハイブリッド画像１９０から分離されたものであるので、基本的には、残差画像領域に対応する再構成画像２８７と剰余画像領域に対応する再構成画像２８９とを単純に結合することで、再構成画像２７０を生成できる。すなわち、各画素位置についてみれば、再構成画像２８７および再構成画像２８９のいずれか一方に復元された輝度値の情報があり、他方の情報は無効である。そのため、再構成画像２８７と再構成画像２８９との間で、各画素位置について両者の値を結合（加算）することで、再構成画像２７０を生成できる。

本実施の形態に係るデコード処理の最終出力として、少なくとも、処理の結果得られた再構成画像２７０と、入力されたままの参照画像１７２および１８２とが出力および／または保存される。オプションとして、参照画像１７２の距離画像１７４、および参照画像１８２の距離画像１８４が出力されてもよい。さらに、再構成画像２７０は、元の対象画像１７０および／または２つの参照画像１７２，１８２との大きさの違いに応じて、任意の大きさにリサイズされてもよい。

［Ｇ．変形例］
上述した実施の形態に係るデータサイズ低減方法を以下のように変形してもよい。

《ｇ１：変形例１》
上述した実施の形態に係るデータサイズ低減方法のデコード処理においては、残差画像領域に対応する再構成画像２８７と剰余画像領域に対応する再構成画像２８９とを結合することで、再構成画像２７０を生成する。しかしながら、何らかの誤差によって画像内に局所的なノイズが生じる場合がある。このような場合には、要素結合部２７４（図２４）において、生成された再構成画像と拡大画像２７２とを比較し、その輝度値の差が相対的に大きい領域については、拡大画像２７２の情報を用いて補正するようにしてもよい。

より具体的には、要素結合部２７４は、再構成画像２８７と再構成画像２８９とを結合して得られた再構成画像と、縮小画像１７８をアップサンプリングして得られる拡大画像２７２との間で、対応する画素位置同士の輝度差（絶対値）を算出する。要素結合部２７４は、この算出された輝度差が予め定められたしきい値を超える画素があれば、生成された再構成画像のその画素に対応する値を、縮小画像１７８の対応する画素の値に置換する。そして、置換後の再構成画像が最終的に出力される。すなわち、本変形例に係る方法は、復元された輝度値によって再構成された対象画像のうち縮小画像１７８をアップサンプリングして得られる拡大画像２７２との差が相対的に大きな領域について、拡大画像２７２の対応する値に置換する処理を含む。

このように拡大画像２７２を用いて補正（輝度値の置換）を行なうことで、再構成画像２７０に生じ得る局所的なノイズなどを低減できる。

《ｇ２：変形例２》
上述の実施の形態においては、剰余画像の生成において、複数の候補から係数Ｄを選択する処理について例示したが、係数Ｄの選択処理をより簡素化してもよい。例えば、各グレイスケール画像についての勾配強度画像を生成し、この勾配強度画像に対するしきい値を２レベル化してもよい。例えば、８ビットの画像の場合には、勾配強度画像に対するしきい値を「４」，「１」，「０」にそれぞれ設定し、勾配強度の値が「４」以上であれば係数Ｄとして「３２」を選択し、勾配強度の値が「１」以上であれば係数Ｄとして「１２８」を選択し、勾配強度の値が「０」であれば係数Ｄとして「２５６」を選択するようにしてもよい。

勾配強度画像に対するしきい値と対応する係数Ｄとの組合せについては、ユーザが任意に設定することができる。

《ｇ３：変形例３》
上述の実施の形態においては、選択された係数Ｄに応じて画素毎に算出される剰余を含む剰余画像が生成されるが、剰余をレベル化してもよい。例えば、ある係数Ｄを用いてモジュロ演算を行なって得られる剰余の各々がいずれの範囲に含まれるかに応じて、予め定められた剰余のセットのうち対応する値を選択するようにしてもよい。例えば、係数Ｄが「６４」の場合、剰余に対するしきい値を「１６」に設定し、算出された剰余が「１６」以上であれば最終的な剰余として「３２」を出力し、「１６」未満であれば最終的な剰余として「０」を出力するようにしてもよい。図２８には、本実施の形態の変形例３に係るデータサイズ低減方法により生成される剰余画像の一例を示す。

しきい値および出力される剰余については、３つ以上のレベルを設けてもよい。このような剰余画像を用いることで、より情報量を低減できる。

《ｇ４：変形例４》
上述の実施の形態においては、ｎビットの階調値を有する残差画像が生成されるが、残差をレベル化してもよい。例えば、算出された残差が相対的に大きい場合には、再構成された画像品質を維持するために、算出された残差そのものを用いる一方で、算出された残差が相対的に小さい場合には、画像の再構成処理に与える影響は小さいので、予め定められた値を設定するようにしてもよい。

例えば、算出された残差が予め定められたしきい値以上である場合には、当該算出された残差そのものを用いるとともに、しきい値未満である場合には、予め定められた値（例えば、１２８）を用いるようにしてもよい。

図２９には、本実施の形態の変形例４に係るデータサイズ低減方法により生成される残差画像の一例を示す。図２９（ａ）には、本実施の形態の変形例４に係る方法で生成された残差画像を示し、図２９（ｂ）には、視覚化のため、図２９（ａ）に対して画像処理し、灰色からの差を大きくしたものを示す。

《ｇ５：変形例５》
上述の実施の形態においては、残差画像と剰余画像とからハイブリッド画像を生成し、対象画像をこのハイブリッド画像に変換する処理例について説明した。剰余画像は、参照画像間の誤差が小さい領域を再構成するために用いられるが、このような領域については、サイド情報で補間することも可能である。そのため、剰余画像を含まないようなハイブリッド画像を採用してもよい。

このようなハイブリッド画像は、残差画像領域についてのみ有効な情報（残差画像１８６）を含んでおり、剰余画像領域についての情報（剰余画像１８８）は含んでいない。対象画像を再構成する際には、残差画像領域については、ハイブリッド画像から再構成し、剰余画像領域については、サイド情報から再構成する。このサイド情報は、ハイブリッド画像と併せて出力される、参照画像１７２および１８２や、対象画像１７０の縮小画像１７８などから生成される。

このようなハイブリッド画像を採用することで、よりデータサイズを低減できる。
［Ｈ．利点］
本実施の形態によれば、残差画像のみ、または、剰余画像のみを用いたエンコーディング処理に比較して、より高い画像品質へ再構成できる。併せて、残差画像のみ、または、剰余画像のみを用いたエンコーディング処理に比較して、データサイズをより低減できる。

本実施の形態は、多視点画像のデータ表現、画像圧縮前の新たなデータフォーマットといった、画像処理システムの様々なアプリケーションへ応用できる。

本実施の形態によれば、大規模な多視点画像のための、剰余ベースのデータフォーマットを用いることで、より効率的な表現が可能になる。また、変換されたデータフォーマットは、モバイル機器のような電力容量の小さい装置に対して用いることができる。そのため、本実施の形態によれば、モバイル機器や低消費電力の機器上で三次元像をより簡単に提供する可能性を高めることができる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１立体映像再生システム、２被写体、１０カメラ、１００，２００情報処理装置、１０２，２０２無線伝送装置、１０４，２０４プロセッサ、１０６，２０６メモリ、１０８カメラインターフェイス、１１０，２１０ハードディスク、１１２，２１２画像データ、１１４エンコードプログラム、１１６，２１６入力部、１１８，２１８表示部、１２０，２２０通信インターフェイス、１２２，２２２バス、１５０入力画像バッファ、１５２，２５２距離情報推定部、１５４，２５４距離情報バッファ、１５８，２５８画像合成部、１６０，２６０マスク推定部、１６２，２６２残差画像生成部、１６４，２６４剰余画像生成部、１６６サブサンプリング部、１６８画像結合部、１７０対象画像、１７２，１８２参照画像、１７３，１８３変形画像、１７４，１８４距離画像、１７５，１８５誤差画像、１７６，２７６合成画像、１７７２値化誤差画像、１７８縮小画像、１７９，１８９２値化誤差変形画像、１８０，２８０マスク画像、１８６残差画像、１８６Ａ，２８６Ａ差分画像、１８８剰余画像、１９０ハイブリッド画像、１９２，２９２サイド情報、１９６，２９６勾配強度画像、１９８，２７２拡大画像、２０８プロジェクタインターフェイス、２１４デコードプログラム、２５０入力データバッファ、２６６アップサンプリング部、２６８領域分離部、２７０，２８７，２８９再構成画像、２７４要素結合部、２８６残差画像領域、２８８剰余画像領域、３００立体表示装置、３０２コントローラ、３０４プロジェクタアレイ、３０６拡散フィルム、３０８集光レンズ、４００無線基地局、１６４１，２６４１サイド情報選択部、１６４２，２６４２勾配強度画像生成部、１６４３，２６４３係数選択部、１６４４，２６４４Ｌｏｏｋｕｐテーブル、１６４５モジュロ演算部、２６４５逆モジュロ演算部。

Claims

互いに類似した情報を含む複数画像のデータサイズを低減する方法であって、
前記複数画像を取得するとともに、前記複数画像のうち対象画像ならびに前記対象画像に類似した第１の参照画像および第２の参照画像を選択するステップと、
前記第１の参照画像および前記第２の参照画像に基づいて、前記対象画像に対応する合成画像を生成するステップと、
前記第１の参照画像および前記第２の参照画像から生成される前記合成画像の前記対象画像に対する潜在的誤差を示すマスク画像を生成するステップと、
前記対象画像と前記合成画像との差に応じた残差画像を生成するステップと、
前記マスク画像に基づいて、前記潜在的誤差が相対的に大きい領域に前記残差画像の対応する領域の情報を割当てることで、前記対象画像に対応する変換後画像を生成するステップと、
前記対象画像、前記第１の参照画像、および前記第２の参照画像を表現する情報として、前記第１の参照画像、前記第２の参照画像、および前記変換後画像を出力するステップとを備える、方法。
前記対象画像の各画素位置の輝度値に対してモジュロ演算を行なうことで算出される各画素位置の剰余からなる剰余画像を生成するステップをさらに備え、
前記変換後画像を生成するステップは、前記マスク画像に基づいて、前記潜在的誤差が相対的に小さい領域に前記剰余画像の対応する領域の情報を割当てるステップを含む、請求項１に記載の方法。
前記変換後画像を生成するステップは、前記マスク画像の各画素位置の値を予め定められたしきい値と比較することで、前記潜在的誤差が相対的に大きい領域と、前記潜在的誤差が相対的に小さい領域とを区別するステップを含む、請求項１または２に記載の方法。
出力された前記第１の参照画像、前記第２の参照画像、および前記変換後画像を取得するステップと、
取得された第１の参照画像および第２の参照画像に基づいて、前記対象画像に対応する合成画像を生成するステップと、
取得された第１の参照画像および第２の参照画像からマスク画像を生成するステップと、
前記マスク画像に基づいて前記変換後画像のうち前記潜在的誤差が相対的に大きい領域の情報を抽出するとともに、当該抽出した情報と前記合成画像とに基づいて、前記対象画像の対応する画素位置の輝度値を決定するステップとをさらに備える、請求項１〜３のいずれか１項に記載の方法。
前記選択するステップは、
前記複数画像が多視点画像である場合に、ベースライン距離に基づいて、前記対象画像ならびに前記第１の参照画像および第２の参照画像を選択するステップと、
前記複数画像が映像フレーム列である場合に、フレームレートに基づいて、前記対象画像ならびに前記第１の参照画像および第２の参照画像を選択するステップとを含む、請求項１〜４のいずれか１項に記載の方法。
互いに類似した情報を含む複数画像のデータサイズを低減するプログラムであって、当該プログラムは、コンピュータに、
前記複数画像を取得するとともに、前記複数画像のうち対象画像ならびに前記対象画像に類似した第１の参照画像および第２の参照画像を選択するステップと、
前記第１の参照画像および前記第２の参照画像に基づいて、前記対象画像に対応する合成画像を生成するステップと、
前記第１の参照画像および前記第２の参照画像から生成される前記合成画像の前記対象画像に対する潜在的誤差を示すマスク画像を生成するステップと、
前記対象画像と前記合成画像との差に応じた残差画像を生成するステップと、
前記マスク画像に基づいて、前記潜在的誤差が相対的に大きい領域に前記残差画像の対応する領域の情報を割当てることで、前記対象画像に対応する変換後画像を生成するステップと、
前記対象画像、前記第１の参照画像、および前記第２の参照画像を表現する情報として、前記第１の参照画像、前記第２の参照画像、および前記変換後画像を出力するステップとを実行させる、プログラム。
互いに類似した情報を含む複数画像のデータサイズを低減する装置であって、
前記複数画像を取得するとともに、前記複数画像のうち対象画像ならびに前記対象画像に類似した第１の参照画像および第２の参照画像を選択する手段と、
前記第１の参照画像および前記第２の参照画像に基づいて、前記対象画像に対応する合成画像を生成する手段と、
前記第１の参照画像および前記第２の参照画像から生成される前記合成画像の前記対象画像に対する潜在的誤差を示すマスク画像を生成する手段と、
前記対象画像と前記合成画像との差に応じた残差画像を生成する手段と、
前記マスク画像に基づいて、前記潜在的誤差が相対的に大きい領域に前記残差画像の対応する領域の情報を割当てることで、前記対象画像に対応する変換後画像を生成する手段と、
前記対象画像、前記第１の参照画像、および前記第２の参照画像を表現する情報として、前記第１の参照画像、前記第２の参照画像、および前記変換後画像を出力する手段とを備える、装置。
互いに類似した情報を含む複数画像を表現するデータ構造であって、
前記複数画像に含まれる対象画像に対応する変換後画像と、
前記対象画像に類似した第１の参照画像および第２の参照画像とを備え、
前記変換後画像は、前記第１の参照画像および前記第２の参照画像から生成される合成画像の前記対象画像に対する潜在的誤差が相対的に大きい領域に、前記対象画像と前記合成画像との差に応じた残差画像の対応する領域の情報を割当てたものである、データ構造。