JP5243612B2

JP5243612B2 - 中間画像合成およびマルチビューデータ信号抽出

Info

Publication number: JP5243612B2
Application number: JP2011529470A
Authority: JP
Inventors: アリョーシャスモリック; カルステンミューラー; クリスティーナディクス
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-10-02
Filing date: 2009-09-28
Publication date: 2013-07-24
Anticipated expiration: 2029-09-28
Also published as: US20110261050A1; CN102239506A; EP2327059B1; EP2327059A1; US9214040B2; JP2012504805A; KR101468267B1; CN102239506B; WO2010037512A1; KR20110059803A

Description

本発明は中間画像合成およびマルチビューデータ信号抽出／創出に関する。

３Ｄビデオ（３ＤＶ）は、視聴者に観察されたシーンの奥行知覚を提供する。これはステレオとも呼ばれるが、２つの映像を使用する古典的技術に制限される用語である。近年では、３ＤＶは、携帯電話から３Ｄシネマまでシステムおよび応用にわたって急速に注目を増加させている（参考文献２５）。技術は、カメラシステムから３Ｄディスプレイまでの全ての処理連鎖をカバーするように成熟している。意識および関心は、コンテンツ・プロバイダ、機材製造者および販売業者を含む事業側と同様に幅のある視覚を経験したいと思っている消費者側にも増大している。

３Ｄ奥行き印象をつくるには、３Ｄディスプレイを見ている視聴者がそれぞれの目で異なる画像を見ることが必要である。これらの画像は、人間の目の間隔を有する異なる視点からとられるイメージに対応しなければならない。換言すれば、ユーザに観察された風景の自然な奥行き感覚を提供するには、それぞれの目が同時に与えられるステレオ対のうちの１つの画像を見るだけであるような特別の３Ｄ視覚技術が必要である（参考文献１７）。過去において、ユーザは、特定の眼鏡（アナグリフ、偏光、シャッタ）をかけなければならなかった。限られた視覚品質と共に、これは家庭のユーザ環境の３ＤＶシステムの広い成功のための主障壁と考えられており、その一方で、３Ｄシネマのような他のタイプの応用はそれらの高い視覚品質のため年を追って急速に成長していると思われる。より正確には、３Ｄディスプレイは、同時に２つ以上の画像を放射して、視聴者が一定の視点から常にこの種のステレオ対を見ることを確実にする（参考文献１７）。アナグリフ、偏光またはシャッタ技術に基づく特定の眼鏡は、従来これを達成するのに必要だったが、今日でも広範囲にわたる応用に適当である。例えば、（例えば、ＩＭＡＸ（商標）シアターのような）眼鏡に基づく３Ｄシネマの応用は確立されている。映画館において、ユーザは、移動する可能性の少ない椅子に座り、通常ほぼ完全に上映されている映画に注意を払っている。眼鏡をかけることはこのようなシナリオにおいて広く受け入れられており、運動視差は大きい問題でない。眼鏡に基づくディスプレイ技術を有する３Ｄ映画は、年を追って標準規格になることを期待している。この市場は更に成長すると思われ、ますます多くの映画が３Ｄの可能な劇場のための３Ｄバージョンと同様に古典的映画館のための２Ｄにおいても製作される。これがユーザの認識を広げ、受け入れて、家庭の３ＤＶ応用のための需要を引き起こすことが期待される。

しかしながら、リビングルーム環境において、ユーザの期待は非常に異なる。眼鏡をかける必要は、家庭のユーザ環境における３Ｄビデオの成功のための主障壁と思われる。現在、これは、マルチビュー自動立体ディスプレイによって克服されている（参考文献１７）。いくつかの画像が同時に放射されるが、技術は、確実にユーザが一定の視点からステレオ対を見るだけであることを確実にしている。３Ｄディスプレイは今日市場におかれ、同時に９つ以上の異なる画像を示すことができ、その中のたった１つのステレオ対が一定の視点から見える。このマルチ・ユーザを相手にして、眼鏡のない３Ｄ知覚が、例えばリビングルームにおいて可能になる。一群の人々は、我々が慣れている全ての社会的な相互関係で、普通のソファー−ＴＶ環境において、眼鏡なして３Ｄ映画を享受することができる。歩き回るときに、連続的な画像がステレオ対として適切に配置される場合、自然な運動視差印象はサポートされることができる。

しかしながら、わずかに異なる視点からの同じ３Ｄシーンの９つ以上の画像を家庭ユーザに送信することは極めて非効率的である。伝送コストは、さらなる価値を正当化できないだろう。幸いにも、他の３Ｄビデオ形式は、著しく生のデータレートを低下させることを可能にする。マルチビュービデオおよび深度（ＭＶＤ）フォーマットを使用するとき、Ｎ個のディスプレイ画像のサブセットＭだけが送信される。それらのＭ個のビデオストリームのために、付加的なピクセルごとの深度データが、補足説明として送信される。受信器において、レンダリングに基づく深度画像（ＤＩＢＲ）は、送信されたＭＶＤデータからの全てのＮ個のディスプレイ画像を補間するために適用される（参考文献１５）。

このように、マルチビュービデオおよび深度（ＭＶＤ）フォーマットは、大幅に３ＤＶシステムのための未加工のデータレートを低下させることを可能にする。Ｎ個のディスプレイ画像のサブセットＭだけが送信される。さらに、深度データは、サブセットＭのために送信される。送信されなかった画像は、送信データが与えられるレシーバで、中間画像補間によって生成されることができる（参考文献１７）。

３ＤＶシステムは、同時に多重画像を表示することによって、頭の運動視差をもって見ることをサポートすることができる。特に、例えば、傾斜したレンズ技術および９つの同時画像を有する高解像度の液晶画面は、フィリップスから市販されている（参考文献２８）。３Ｄディスプレイでサポートされる頭の運動視差の原理は、図２０において例示される。位置１のユーザは、それぞれ右および左の目で画像１および２だけを見る。位置３の他のユーザは画像６および７を見る。それゆえに、マルチ・ユーザが３Ｄで見ることがサポートされる。

ユーザが位置１から位置２へ移動すると仮定する。現在、画像２および３は、それぞれ右および左の目によって見える。Ｖ１およびＶ２が適当な人間の目の間隔の基準でのステレオ対であり、Ｖ２およびＶ３等もそうであれば、この種の３Ｄディスプレイシステムの前で移動するユーザは、それらの深度に応じた場面においてオブジェクトの開放および閉鎖をもって３Ｄ印象を把握するであろう。この運動視差印象は均一なものではなく、異なる位置の数はＮ−１に制限される。

より正確には、マルチビュー自動立体ディスプレイは、わずかに異なる視点から同じ３Ｄシーンを示しているＮ個の同期ビデオ信号を処理する。通常の２Ｄビデオと比較して、これは、未加工のデータレートの相当な増加である。隣接する視点から得られるビデオ信号の映像間予測を含む特定のマルチビュー映像符号化（ＭＶＣ）が、すべてのビデオ信号（同時放送）の独立した符号化と比較して、全体のビットレートを２０％低下させることができることが示された（参考文献２０）。これは、１つのビデオビットレートの２０％の減少がＮ倍になることを意味する。したがって、９画像ディスプレイに対して、ＭＶＣは、対応する１つのビデオビットレートの７．２倍を必要とする。このような増加は、３ＤＶ応用の成功に対して明らかに否定的である。さらに、ＭＶＣの全ビットレートがＮとともに直線的に増加することが、参考文献２０に示されている。したがって、もっと多くの映像を有するディスプレイは、より高い全ビットレートを必要とするであろう。最後に、ＭＶＣによって実行されるような伝送フォーマットにおいて画像の数を固定することは、現在および将来のいかなるタイプの３Ｄディスプレイのサポートに対して十分な柔軟性を提供しない。

A. Smolic, K. Muller, P. Merkle, C. Fehn, P. Kauff, P. Eisert, and T. Wiegand, "3D Video and Free Viewpoint Video - Technologies, Applications and MPEG Standards", ICME 2006, IEEE International Conference on Multimedia and Expo, Toronto, Ontario, Canada, July 2006. R. Koch, M. Pollefeys and L. Van Gool, "Multi Viewpoint Stereo from Uncalibrated Video Sequences", Proc. European Conference on Computer Vision, ECCV'98, LNCS, Springer-Verlag, Freiburg, 1998. P. Kauff, N. Atzpadin, C. Fehn, M. Muller, O. Schreer, A. Smolic, and R. Tanger, "Depth Map Creation and Image Based Rendering for Advanced 3DTV Services Providing Interoperability and Scalability", Signal Processing: Image Communication. Special Issue on 3DTV, February 2007. HYPERLINK "http://www.philips.com/3Dsolutions" www.philips.com/3Dsolutions. - last visited 31/03/2008 P. Merkle, A. Smolic, K. Mueller, and T. Wiegand, "Efficient Prediction Structures for Multiview Video Coding", invited paper, Proc. IEEE Trans. on Circuits and Systems for Video Technology, Vol. 17, No. 11, November 2007.

２画像ディスプレイ（または、少数の画像ディスプレイ）に対して、拡張機能性とともに高い圧縮効率の両方を提供するために、異なるアプローチが示された。ステレオ映像対を送信する代わりに、１つの映像および関連するピクセルごとの深度マップが用いられる。深度マップは、映像信号のそれぞれのピクセルにシーン深度値を割り当て、それにより、３Ｄシーン記述を提供する。深度マップは、単色の映像信号として扱われ、利用できるビデオ・コーデックを用いて符号化されることができる。このように、映像および深度（Ｖ＋Ｄ）は、３ＤＶデータフォーマットとして定義される（参考文献７）。ＭＰＥＧ−Ｃパート３として公知の対応する基準は、最近ＭＰＥＧによって公開された（参考文献１１、１２）。復号化Ｖ＋Ｄから、レシーバは、ＤＩＢＲによってステレオ対として第２の画像を生成することができる。実験は、深度データがほとんどの場合非常に能率的に圧縮されることができることを示した。対応するカラー映像のために必要なビットレートのわずか１０〜２０％くらいが、十分な品質で深度を圧縮するのに必要である。これは、あたかも２つの画像信号がその代わりに送信されるかのように、この復号化深度を用いてレンダリングされた最終的なステレオ対が同じ視覚品質のものであることを意味している。しかしながら、ＤＩＢＲはアーチファクトを導くことが知られている。仮想画像を生成することは、イメージコンテンツのいくらかの外挿を必要とする。仮想視点から、３Ｄの部分が見えるようになり、それは利用できるオリジナルの映像におけるフォアグラウンドオブジェクトの後ろにふさがれる。仮想視点が最初のカメラ位置に近い場合（例えば図２０のＶ１およびＶ２に対応する）、カバーされていないイメージ領域のマスキングは限られたアーチファクトで功を奏する。したがって、Ｖ＋Ｄは、少数の画像を有する３Ｄディスプレイのための優れたコンセプトである。しかしながら、仮想視点の間隔の増加と共に、外挿アーチファクトは増加する。したがって、Ｖ＋Ｄのコンセプトは、多数の画像を備える３ＤＶシステムおよび広範囲にわたる運動視差サポートに適していない。

その結果、ＭＶＣもＶ＋Ｄも、多数の画像を備える高度な三次元ディスプレイ・システムに役立たない。解決策は、図２０に示したように、ＭＶＤに対する拡張および組合せである。９画像Ｖ１−Ｖ９が示される。ＭＶＣによる直接の符号化は、非常に非効率的である。例えばＶ５＋Ｄ５のような深度マップを有する１つの画像だけを送信することは、外観の容認できない品質をもたらす結果となる。ＭＶＤフォーマットを用いて、深度マップを有するＭ＝３の画像のサブセットは、レシーバに対して発信される。中間画像Ｖ２−Ｖ４およびＶ６−Ｖ８は、ＤＩＢＲによって生成される。それらは、外挿エラーを最小化するために、利用できるオリジナルの図に十分に近い。さらに、それらは、２つの方向（左右の隣接する画像）から補間されることができ、そのため、カバーされないことの問題は大きく最小化されることができる。たとえば、左の画像においてふさがれる仮想画像のために生成される領域は、右の画像において見える可能性が高い。しかしながら、パーツが両方のオリジナルの画像においてふさがれて、最後に外挿される可能性がまだある。

この進歩的な３ＤＶシステムのコンセプトは、部分的に未解決で、研究を必要とする多くの高度な処理ステップを含む。マルチカメラシステム、おそらく深度キャプチャ装置、他のタイプのサポートするセンサおよび構造光のような情報源を含む捕捉システムはまだ開発および最適化されなければならない（参考文献８、２２）。発信者側信号処理は、例えばカメラ較正、色補正、調整、区分、深度推定または生成などの多くの高度なアルゴリズムを含む。深度推定のいかなるエラーもレンダリングされた出力画像の品質を減じることになるため、後者はＤＩＢＲのために重要である。それはコンピュータービジョンの文献において広く研究される主題であり、それは半自動の処理を含む（参考文献１６、１８、２６、２９）。深度および設定／間隔を有する送信された画像の数を含む一般的な３ＤＶフォーマットの最適パラメータ化はまだ研究される必要がある。ＭＶＤデータの最も効果的な圧縮はまだ分かっておらず、特に深度の最適処置はそうである。通常通り、伝送問題は、異なるチャネルのために考慮されなければならない。最後に、復号化の後、Ｎ個の出力画像が、復号化ＭＶＤデータの中からレンダリングされる。ここで、ほとんどアーチファクトのない高品質は、全てのコンセプトの成功のために不可欠である。

最後に、最小限の目立つアーチファクトしかない高品質の画像の補間は、３ＤＶシステムの成功のための重要な偏見である。補間アーチファクトは、特に深度不連続性を有するオブジェクト境界に沿って発生する。したがって、このようなエッジに沿ったアーチファクトを回避することができる補間コンセプトを有することが好ましい。さらに、得られる３ＤＶ結果を著しく減少させたり維持したりすることなく、３ＤＶのためのデータを格納するための圧縮比が低減できれば好ましい。

第１に、本発明の目的は、アーチファクトの減少および／またはマルチビューデータを提供するための高圧縮率を可能にする中間画像合成およびマルチビューデータ信号抽出のコンセプトを提供することである。

この目的は、請求項１および２２のうちの１つに記載の装置、請求項３５に記載のマルチビューデータ信号、および請求項３６または請求項３７に記載の方法によって達成される。

本発明の基礎をなしている基本概念は、非境界部と関連して従属するフォアグランド／バックグラウンド境界領域を扱うことが、異なる画像のイメージを投影し結合するときに、アーチファクトを回避するかまたは減らすのを助けるということであり、この知識が品質を保存している方法におけるマルチビューデータ信号から重要でない情報を削除するために用いることもできるということである。

このように、本発明の第１の態様によれば、第１の画像に対応する第１のイメージおよび第１の画像と異なる第２の画像に対応する第２のイメージから中間画像のイメージを合成するための中間画像合成は、その深度情報に基づいて第２のイメージのフォアグランド／バックグラウンド境界領域を検出することによって実行され、それに沿って拡張している領域としてフォアグランド／バックグラウンド境界領域を決定し、単に第１のイメージの少なくとも一部とともに第２のイメージの残りの部分を投影して結合することによって得られる予備中間画像のイメージにおけるホールを埋めるためだけにこの領域を使用する。この計測によって、それぞれのフォアグランド／バックグラウンド境界領域は、単に第２のイメージの残りの部分と関連して従属方法で使われ、従って、投影および結合の結果に負の影響を与えず、他方で、さもなければ発生しているホールを埋めることに貢献する。

本願の第２の態様によれば、第１の画像に対応する第１のイメージおよび第１の画像とは異なる第２の画像に対応する第２のイメージを含むマルチビュー表現からマルチビューデータ信号を抽出するためのマルチビューデータ信号抽出は、第２のイメージにおけるフォアグラウンド／バックグラウンド境界を検出することにより、フォアグラウンド／バックグラウンド境界に沿って延びるような第２のイメージの離れた部分を決定し、離れた境界部分のない第２のイメージの境界部分を第１のイメージに投影し、それによって、非閉塞領域を有する第２のイメージの投影バージョンを得ている。それから、第１のイメージの部分とともに第２のイメージはマルチビューデータ信号に挿入され、第１のイメージの部分の挿入は第２のイメージの投影バージョンの中の非閉塞領域の部分に対応している。たとえば、マルチビューデータ信号に挿入される第１のイメージの部分は、第２のイメージの投影バージョンの中の非閉塞領域の位置から決定される。

本発明の実施例によれば、フォアグラウンド／バックグラウンド境界領域は、その周囲のｎ−サンプルの広域を決定し、この領域を一方でフォアグラウンド境界部に、他方でバックグラウンド境界部に分割するフォアグランド／バックグラウンド境界を検出することによって得られ、バックグラウンド境界部は上述の離れた境界部を示し、上述のバックグラウンド境界部は単に予備中間画像のイメージにおいてホールを満たすために用いられる。
本発明の好ましい実施例は、図面を参照して下で説明される。

図１ａは、本発明の一実施例による中間画像合成装置のブロック図である。図１ｂは、本発明の他の実施例による中間画像合成装置のブロック図である。図１ｃは、本発明の一実施例によるマルチビューデータ信号抽出装置を示す図である。図２は、本発明の一実施例によるフォアグラウンド部（黒）、バックグラウンド部（白）および非境界領域（グレー値）への図示イメージのレイヤー割当てを示す図である。図３は、実施例による２つの異なる映像の２つの非境界領域を投影して合成することにより得られる中間画像を示す図である。図４は、実施例に従ってフィルタリングおよび／またはホール充填によってバックグラウンド境界部およびその除去後の外観を用いた投影−および−充填ステップの後に（左から右に）起こる異なるアーチファクトを示す図である。図５は、実施例に従ってアーチファクト除去後の中間画像のイメージを示す図である。図６は、９画像自動立体ディスプレイのためのステレオ対距離の５つの画像、すなわち、オリジナルのカメラ位置（左端および右端）の２つの画像および実施例によるバレエ（上部）およびブレイクダンサーのシーケンス（下部）を示す図である。図７は、実施例による中間画像合成法の一連の方法ステップのシーケンスの図解図である。図８ａは、実施例に従って、２つの異なる画像の非境界部を投影し合成して得られる中間画像を示す図である。図８ｂは、実施例に従って、フォアグランド／バックグラウンド境界領域の従属画像を示す図である。図９は、本発明の一実施例により一方では単純に結合することおよび他方では中間画像合成による中間画像合成から得られる中間画像の詳細部分を示す図である。図１０は、本発明の一実施例によるＬＤＶベースの３ＤＴＶコンセプトを示す図解図である。図１１は、一方では離れた境界部（白）および他方では残りの部分（灰色）にイメージを再分割した結果を示す図である。図１２は、離れた境界部を省略した２つの側面画像に中心画像イメージを投影して得られるイメージを示す図である。図１３は、実施例に従って、非閉塞領域を得るためにフィルタリングによって図１２のイメージから１ピクセル幅の好ましくない深度値を除去することにより得られる２つのイメージを示す図である。図１４は、実施例に従って側面画像と図１３の投影された中心画像との差を除去した結果を示す図である。図１５は、実施例による異なる残りのデータを示す図である。図１６は、実施例に従って、２つの側面画像の投影から得られる他の中間画像を示す図である。図１７は、実施例に従って、フィルタリング後の最終画像合成イメージ、すなわち、中心画像と左側の左残余データおよび中心画像と右側の右残余データとを加えた図である。図１８は、一方では単純に結合することによる中間画像合成および本発明の実施例による中間画像合成から得られる中間画像の詳細部分を示す図である。図１９は、ＬＤＶおよびＭＶＤのための中間画像合成イメージの間の比較を示す図である。図２０は、ＭＶＤに基づく進歩的な３ＤＴＶコンセプトを示す図解図である。

図１ａは、第１の画像Ｖ１に対応する第１のイメージ１４および第１の画像Ｖ１と異なる第２の画像Ｖ２に対応する第２のイメージ１６から中間画像イメージ１２を合成するための中間画像合成装置１０を示し、第１および第２のイメージは深度情報Ｄ１およびＤ２を含む。第１および第２のイメージ１４および１６は、深度情報Ｄ１およびＤ２に関連したモノクロまたは色情報Ｖ１およびＶ２を有する。特に、深度情報も色情報も両方とも、１ピクセルあたりのサンプル値を含むが、両方の空間分解能が異なってもよい。

第２のイメージ１６は、図１ａにおいて白部分として示される非境界部１６ａおよび図１ａにおいて斜線で示されるフォアグラウンド／バックグラウンド境界領域に分割され、中間画像合成装置は、中間画像イメージ１２を得るために第１のイメージ１４および第２のイメージ１６を投影して合成し、非境界部１６ａと関連して従属するフォアグランド／バックグラウンド境界領域１６ｂを処理するように構成される。

以下に記載されている実施例によれば、中間画像合成装置１０は、中間画像１２に投影され合成されるために、さもなければ中間画像イメージ１２に起こっているホールをフォアグランド／バックグラウンド境界領域１６ｂの一部に対して共通の要素をもたない第２の画像１６の共通の要素をもたない部分を用いて満たすためだけにフォアグラウンド／バックグラウンド境界領域１６ｂの少なくとも一部を使用するように構成される。

図１ｂによれば、中間画像合成１０の更なる実施例が更に詳細に記載されている。この実施例によれば、第２のイメージ１６のフォアグランド／バックグラウンド境界領域１６ｂは、フォアグラウンド境界部およびバックグラウンド境界部に分割され、バックグラウンド境界領域はホールを満たすために使用される前述の一部を形成する。このように、前述の部分は、バックグラウンド境界領域に対応することができる。

図１ｂの中間画像合成装置１０は、第２のイメージ１６のフォアグランド／バックグラウンド境界領域１６ｂを検出するための手段としてのフォアグランド／バックグラウンド境界検出器１８、および第２のイメージのフォアグラウンド／バックグラウンド境界領域１６ｂをフォアグラウンド境界部１６ｂ１およびバックグラウンド境界部１６ｂ２に分割するための手段としてのフォアグラウンド／バックグラウンド再分割器２０を含み、第２のイメージ１６が非境界部１６ａ、フォアグラウンド境界部１６ｂ１およびバックグラウンド境界部１６ｂ２に分割される。さらに、中間画像合成装置１０は、矢印２４で示される予備中間画像イメージを得るために、少なくとも第１のイメージ１４の一部とともに、第２のイメージ１６の非境界部１６ａおよびフォアグラウンド境界部１６ｂ１を中間画像に投影して合成するための投影および合成ステージ２２を含む。

投影および充填ステージ２６は、第２のイメージ１６のバックグラウンド境界部１６ｂ２を中間画像に投影して、第２のイメージの投影されたバックグラウンド境界部によって予備中間画像イメージ２４におけるホールを満たし、それにより中間画像イメージ１２を得ることができるようにしている。

図１ａおよび１ｂの実施例を比較すると、図１ａの実施例においては、境界領域検出および分割がすでに実行され、それに関する情報は例えば副情報の形で第２のイメージ１６ｂに関連するものとみなされるのに対して、図１ｂの場合には、境界領域検出および分割が装置において実行されることは明らかである。したがって、更なる実施例によれば、中間画像合成装置１０は、マルチビューデータ信号から第２の画像の非境界部１６ａ、フォアグラウンド境界部１６ｂ１およびバックグラウンド境界部１６ｂ２を区別するレイヤー情報を得るための手段を含むことができ、後の手段は図１ｂにおけるブロック１８および２０を置き換える。

点線によって図１ｂにおいて更に示されているように、中間画像合成装置１０はおそらくまた、第１のイメージ１４のフォアグランド／バックグラウンド境界領域を検出するための手段としてのフォアグランド／バックグラウンド境界検出器１８´、および第１のイメージのフォアグラウンド／バックグラウンド境界領域をフォアグラウンド境界部およびバックグラウンド境界部に分割するための手段としてのフォアグランド／バックグラウンド再分割器２０´を含む。換言すれば、中間画像合成装置１０において、検出するための手段１８は、第１のイメージ１４のフォアグランド／バックグラウンド境界領域を検出するように構成されることができ、手段２０は、第１のイメージ１４のフォアグラウンド／バックグラウンド境界領域をフォアグラウンド境界部およびバックグラウンド境界部に分割するように構成されることができ、それにより、第１のイメージ１４は非境界部、フォアグラウンド境界部およびバックグラウンド境界部に分割される。この場合、投影および結合ステージ２２は、予備中間画像イメージ２４を得るために、第１および第２のイメージ１４および１６の非境界部およびフォアグラウンド境界部を中間画像に投影し合成するように構成されることができ、投影および結合ステージ２６は、第１および第２のイメージ１４および１６の投影されたバックグラウンド境界部分によって、第１および第２のイメージ１４および１６のバックグラウンド境界部を予備中間画像イメージ２４に投影し、予備中間画像イメージ２４のホールを満たすように構成されることができる。

別の実施例による中間画像合成装置１０において、マルチビューデータ信号からレイヤー情報を得るための手段は、マルチビューデータ信号から、少なくとも第１のイメージの非境界部およびバックグラウンド境界部を区別するレイヤー情報を得ることができる。検出器１８´および再分割器２０´は不要である。中間画像合成装置１０は、その代わりにちょうど言及された獲得者を含む。しかしながら、投影し合成するための手段２２は、予備中間画像イメージ２４を得るために、第２のイメージ１２の非境界部１６ａおよびフォアグラウンド境界部１６ｂ１および第１のイメージ１４の非境界部を中間画像に投影して合成するように構成され、投影し満たすための手段２６は、第１および第２のイメージ１４および１６のバックグラウンド境界部を予備中間画像イメージ２４のホールに投影し、第１および第２のイメージ１４および１６の投影されたバックグラウンド境界部によって予備中間画像イメージのホールを満たすように構成される。

あるいは、マルチビューデータ信号は、例えば、副情報として、第１のイメージ１４の非境界部、フォアグラウンド境界部およびバックグラウンド境界部を区別するレイヤー情報を含むことができる。この実施例による中間画像合成装置１０は、第１のイメージ１４の非境界部、フォアグラウンド境界部およびバックグラウンド境界部を区別するこのレイヤー情報を得るための手段を含み、投影し合成するための手段２２は、予備中間画像イメージ２４を得るために、第１および第２のイメージ１４および１６の非境界部およびフォアグラウンド境界部を中間画像に投影して合成するように構成され、投影して満たすための手段２６は、第１および第２の画像１４および１６のバックグラウンド境界部を予備中間画像シメージ２４のホールに投影し、第１および第２のイメージ１４および１６の投影されたバックグラウンド境界部によって、予備中間画像イメージ２４のホールを満たすように構成される。

検出器１８は、例えば、フォアグランド／バックグラウンド境界領域１６ｂ２を表すエッジ周辺のｎ−サンプル広域部を有する深度情報Ｄ２においてエッジを検出するためのエッジ検出器を含む。再分割器２０は、次に、このｎ−サンプル広域部をフォアグラウンド境界部およびバックグラウンド境界部に分割するように構成される。ｎは、例えば、３以上で、２１以下とすることができる。例えば、再分割器２０は、サンプル／ピクセルがフォアグラウンド境界部１６ｂ１またはバックグラウンド境界部１６ｂ２のどちらに帰属するかについて決定するために、フォアグランド／バックグラウンド境界領域１６ｂのサンプル／ピクセルでの深度情報Ｄ２の深度を比較することによって分割を実行するように構成される。この点に関して、再分割器は、深度情報Ｄ２の深度値のうち、平均値または中央値のような中心傾向を計算することによって閾値を引き出すように構成される。特に、再分割器は、例えばフォアグランド／バックグラウンド境界領域１６ｂに属しそれぞれのサンプル／ピクセルに隣接するような隣接するサンプル／ピクセルに基づいて、それぞれのサンプル／ピクセルに隣接するサンプル／ピクセルでの深度情報Ｄ２の深度値からフォアグランド／バックグラウンド境界領域１６ｂのそれぞれのサンプル／ピクセルのための中心傾向を計算することによって、局所的に閾値を引き出すように構成される。

第１および第２のイメージ１４および１６が非境界領域および境界領域に分割される上述の実施例において、投影および結合ステージ２２は、第１および第２のイメージ１４および１６の間の平均化を含む非境界部の結合をともなう非境界中間画像イメージを得るために、第１および第２のイメージ１４および１６の非境界部を中間画像に投影し結合するように構成され、非境界中間画像イメージ２４のサンプルと、平均よりもむしろ第１および第２のイメージ１４および１６のフォアグラウンド境界部の投影によって得られる同一場所に存在するサンプルとの間の選択を含むフォアグラウンド境界部の結合をともなう非境界中間画像イメージ２４に第１および第２のイメージ１４および１６のフォアグラウンド境界部を投影し結合するように構成される。

投影機構に関する限り、投影および結合ステージ２２と投影および充填ステージ２６とは、それぞれ、３Ｄ世界点を取得し、３Ｄ世界点を中間画像に投影するために、対応する深度情報Ｄ１およびＤ２を用いて２Ｄから３Ｄまでサンプルを投影することにより、中間画像にそれぞれの投影を実行するように構成される。特に、投影および結合ステージ２２と投影および充填ステージ２６とは、第１の画像および第２の画像の投影マトリクス間の補間によって投影マトリクスを計算し、投影マトリクスを用いて３Ｄ世界点の投影を実行するように構成される。事実上、投影および結合ステージ２２と投影および充填ステージ２６とは、二次元的に−またはピクセル空間において−サンプル位置を中間画像からの偏差に応じた量だけ変位することにより、中間画像にそれぞれの投影を実行するように構成される。もちろん、例えば、すべての画像が縦方向において互いに登録されたピクセルラインをもって、同じ倍率、解像度その他を用いて同時に記録されるため、面内変位は、例えば行／線方向に沿うような、一次元に沿って変位することに制限されてもよい。以下において、一般用語である面内または二次元変位が用いられ、それは一次元的に変位するように制限するという概説された可能性を含む。更なる二次元的な補間は、投影された位置／ピクセルを目標画像、すなわち中間画像のピクセルの規則的なグリッドにマッピングするために用いられる。結合は、単に目標画像イメージを得るために第１の画像の投影ピクセルおよび第２の画像の投影ピクセルの両方を使用することにより実行される。また、補間は、目標画像の１つの規則的なピクセルグリッドにこの投影ピクセルを結合させるために用いられる。

さらに、任意に、中間画像イメージ２４の残りのホールへのフィルタリングおよび／または外挿によって中間画像イメージ２４を向上させるためのエンハンサ２８がありえる点に留意する必要がある。このようなエンハンサ２８は、中間画像イメージ２４のフォアグランド／バックグラウンド境界領域を検出し、中景画像２４のフォアグランド／バックグラウンド境界領域の中でローパスフィルタリングを実行することによって、中間画像イメージを向上させることができる。

以下に、前述の実施例が説明され、ここで、第１および第２のイメージがＭＶＤまたはＬＤＶビデオの一部であり、いくつかの実施例において、中間画像合成装置は３ＤＴＶディスプレイシステムの一部である。しかしながら、その前に、能率的に多重画像を符号化するのに適する他の実施例が記載されている。

図１ｃは、第１の画像に対応する第１のイメージ３４および第１の画像と異なる第２の画像に対応する第２のイメージ３６を含むマルチビュー表現から矢印３２で示されているようなマルチビューデータ信号を抽出するためのマルチビューデータ信号抽出器３０を示し、第１および第２のイメージ３４および３６はそれぞれ深度情報Ｄ１およびＤ２を有している。マルチビューデータ信号抽出器３０は、第２のイメージ３６のフォアグランド／バックグラウンド境界４０を検出するためのフォアグランド／バックグラウンド境界検出器３８およびフォアグランド／バックグラウンド境界４０に沿って第２のイメージ３６の離れた境界部４４を決定するための離れた境界部検出器４２を含む。プロジェクタ４６は、投影により非閉塞領域５０を有する第２のイメージの投影バージョン４８を得るために、バックグラウンドの離れた部分４４のない第２のイメージ３６を第１の画像に投影するために設けられる。インサータ５２は、第２のイメージの投影バージョンの中の非閉塞領域の位置に応じて、第１のイメージ３４の部分とともに第２のイメージをマルチビューデータ信号３２に挿入するために、第２のイメージの投影バージョン４８の中の非閉塞領域５０の位置に対応する。

特に、マルチビューデータ信号抽出器３０は、第２のイメージの投影バージョン４８の範囲内の非閉塞領域５０の位置からマルチビューデータ信号３２に挿入される第１のイメージ３４の部分を決定するための決定器５４を含む。すなわち、決定器５４は、第２のイメージの投影バージョン内で非閉塞領域５０が広がり、または領域５０によってふさがれている第１のイメージ３４の領域としてマルチビューデータ信号３２に挿入される第１のイメージ３４の部分を決定する。

プロジェクタ４６は、離れた境界部４４のない第２のイメージ３６を図１ｃに示されていない第３の画像に投影するが、第２の画像が第１および第３の画像の間にあるように選択されるように構成される。このようにして、非閉塞領域を有する第２のイメージの更なる投影バージョンが得られ、インサータ５２は、第２のイメージの更なる投影バージョン内の非閉塞領域の位置に応じて、第２のイメージ３６、第１のイメージ３４の部分および第３のイメージの部分をマルチビューデータ信号３２に挿入するように構成することができる。

インサータは、マルチビューデータ信号３２に例えば副情報の形でレイヤー情報を挿入するように構成され、レイヤー情報は、少なくとも、非境界部５６および第２のイメージ３６のはなれた境界部４４を区別する。

さらに、任意に、第２のイメージの投影および／または第２のイメージの投影バージョン４８のフィルタリングから投影４８によって得られる小さいホールを充填するためのステージ５８は、プロジェクタ４６およびインサータ５２の間に効果的に接続される。

インサータ５２は、例えば、第２のイメージの投影バージョン４８の非閉塞領域５０の位置に応じて決定器５４によって選択された部分と共通の要素を持たない第１のイメージ３４の残りの部分を破棄し、例えば、それぞれのピクセル値をデフォルト値にセットすることによって、マルチビューデータ信号３２における破棄を示すように構成される。

検出器３８は、フォアグランド／バックグラウンド境界検出器１８の一部として前述したのと同様に、深度情報におけるエッジを検出するためのエッジ検出器を用いて、フォアグランド／バックグラウンド境界４０を検出するように構成される。上述の離れた部分４４を定めているバックグラウンド境界部については、検出器４８は、フォアグラウンド境界部およびバックグラウンド境界部にエッジ周辺のｎ−サンプル広域部を分割するように構成される。フォアグラウンド部は、ここでは関係がなく、したがって、図１ｃに示されていない。このように、検出器４８は図１ｂの再分割器２０のように働き、スプリッティングと類似の検出器４８は、サンプルがフォアクグラウンド境界部かバックグラウンド境界部に属するかどうかに関して決定するために、分割はｎ−サンプル広域部における深度情報と閾値とを比較して行われ、閾値は、上述のように、サンプル等に隣接するｎ−サンプル広域部のサンプルにおける深度情報の深度値の中心傾向を計算することによって得られる。図１ｂとの更なる対応において、プロジェクタ４８は、３Ｄ世界点を取得し、３Ｄ世界点を中間画像に投影するために、関連する深度情報を用いて２Ｄから３Ｄにサンプルを投影することによって第１の画像にそれぞれの投影を実行するように構成される。特に、プロジェクタ４６は、第１の画像および第２の画像の投影マトリクスの間を補間することによって投影マトリクスを計算し、投影マトリクスを用いて３Ｄ世界点の投影を実行するように構成される。通常、プロジェクタ４６は、第１の画像から第２の画像の偏差に応じた量で二次元的にサンプル位置を変位させることによって中間の画像にそれぞれの投影を実行するように構成される。

装置３０によって得られるマルチビューデータ信号３２は、通常、第１の画像に対応する第１のイメージ３４および第１の画像と異なる第２の画像に対応する第２のイメージ３６を含み、第１および第２のイメージ３４および３６は深度情報Ｄ１およびＤ２を含む。しかしながら、単に第１のイメージ３４の一部だけがマルチビューデータ信号３２に含まれ、それと共通の要素をもたない部分がマルチビューデータ信号３２において廃棄される。含まれる部分は、第２のイメージ３６のフォアグランド／バックグラウンド境界４０に沿って延びる離れた境界部４４のない第２のイメージ３６を第１の画像に投影することにより得られる第２のイメージ３６の投影バージョン４８の範囲内の非閉塞領域５０の位置によって決まる。第１の画像３４のちょうど言及された部分だけが挿入されるこのマルチビューデータ信号３２は、図１ａおよび１ｂに関して前述したような第１のイメージ１４の一部であってもよく、第２のイメージの投影バージョンは結合される。

以下に示される高度な３ＤＶシステムの解決法は、明細書の導入部分にて説明したように、ＭＶＤに対する拡張および組合せである。ＭＶＤに基づく高度な３ＤＴＶコンセプトを示す図２０の実施例（Ｐｏｓ：視点、Ｒ：右目、Ｌ：左目、Ｖ：画像／イメージ、Ｄ：深度）において、Ｍ＝３画像のサブセットだけがレシーバに伝送される。図解として役立つこれらの画像のために、サンプルの正確な深度マップは、発信者側で生成されるべきであり、映像信号と共に伝達されなければならない。このシナリオにおいて、各深度値は、オリジナルの映像の各サンプルに割り当てられる。深度マップは、図２に図示したように、グレースケールイメージとして取り扱われる。表示される他の全ての画像は、レシーバでＤＩＢＲによって生成される。

ＭＶＤフォーマットに基づくこのような３ＤＶシステムの設計は、まだ研究を必要とする多くの困難で部分的に未解決の問題を含む。これは、マルチビューキャプチャ、深度推定／生成、（入力画像の数のような）システムのパラメータ化、深度データの効果的な圧縮、伝送およびレンダリングを含む。以下の実施例において、目標とするレシーバ側レンダリングが、実施例に従って説明される。

導入部分において示される３ＤＶコンセプトは、レシーバでの高品質の中間画像の補間アルゴリズムの利用可能性に依存する。補間アーチファクトは、容認できない品質という結果になる。図２０における例えば位置２からの実施例において、仮想の画像だけが見える。ステレオセットアップにおける典型的カメラ間隔は５ｃｍである。これは、オリジナルの画像Ｖ１およびＶ５は、ＤＩＢＲによって扱うのが困難である間隔である２０ｃｍにわたることを意味する。深刻なアーチファクトは、大きい深度不連続性を有するオブジェクト境界に沿って特に生成されることは知られている。一方では、滑らかな深度変化を有する領域は、仮想の中間画像に確実に投影されることができる。これは、深度不連続性および滑らかな深度領域を別々に処理することを意味する。深度不連続性は、エッジ検出アルゴリズムを用いて深度イメージの範囲内で容易に見つけることができる。

それ故、以下に示される補間プロセスは、レイヤー抽出（エッジ検出および信頼性が高い領域および境界領域への分離）、レイヤー投影（領域および融合の別れたＤＩＢＲ）およびホール充填およびフィルタリング（修正、クリーンアップおよびフィルタリング）の３つの部分から構成される。階層化アプローチされたものと連動する考えは、自由視点ナビゲーションの応用に関する〔参考文献３０〕においてすでに研究されており、そこにおいて、大きな深度不連続性に沿った特定の幅の境界レイヤーが抽出されている。以下の方法において、この考えは更に改良される。さらに、〔参考文献３０〕の方法がレンダリングのための単純な幾何プリミティブ（三角形）とともに作動し、以下の実施例は単に画像ベースの３Ｄワープとともに働く。このように、３Ｄグラフィックスのサポートおよび形状モデリングは要求されない。下側に、若干の投影アーチファクトが導かれ、それは、以下に説明するように取り除かれる。

換言すれば、以下で、マルチスコープの三次元ディスプレイ上の映像のためのシステムが与えられ、そこにおいて、データ表現がマルチビュー映像プラスシーン深度で構成される。最高でも、３つのマルチビュー映像信号が伝送され、レシーバで中間画像を生成するために深度データと共に用いられる。信頼性の高いイメージ領域から深度不連続性に沿った信頼できないイメージ領域を分離する中間画像の補間などへのアプローチが与えられる。これらのイメージ領域は異なるアルゴリズムによって処理され、最終的に補間された画像を得るために融合させられる。以前の階層化アプローチと対照的に、２つの境界レイヤーおよび１つの信頼性の高いレイヤーが用いられる。さらに、提示された技術は、３Ｄグラフィック・サポートに依存せず、その代わりにイメージベースの３Ｄワープを使用している。向上した品質の中間画像の生成のために、ホール充填およびフィルタリング方法が記載されている。その結果、既存の９−画像自動立体視覚ディスプレイに対する高品質の中間画像が示され、それは向上した３Ｄ画像（３ＤＶ）システムのためのアプローチの適合性を証明している。

レンダリングアプローチの第１部において、レイヤー抽出、オリジナルの画像の信頼性の高いおよび信頼できない深度領域は区別される。原則として、レイヤー抽出は、図１ｂのモジュール１８および２０の機能に対応する。境界のサンプルは通常混合されたフォアグラウンド／バックグラウンドの色を有し、新規な画像への投影の後にアーチファクトを生成することができるため、オブジェクト境界に沿った領域は信頼できないとみなされる。さらに、深度推定からのエラーは、主にオブジェクト境界を歪める。したがって、〔参考文献３０〕と同様に、重要な深度不連続性は、主および境界レイヤーをつくるために検出される。このために、深度画像上で作動するＣａｎｎｙのエッジ検出器［参考文献２］および検出されたエッジに沿った信頼できないものとして７−サンプル広域部をマークすることが使用される。〔参考文献３０〕と対照的に、次のサブセクションに示すように、異なる処理を可能にするために、それぞれ白黒の領域として図２に示すように、この領域は、フォアグラウンドおよびバックグラウンド境界レイヤーに分割される。換言すれば、図２は、重要な深さ不連続性に沿ったレイヤー指定を示し、それは、フォアグラウンド境界レイヤー（黒）、バックグラウンド境界レイヤー（白）および主レイヤー（濃淡値）である。

この第２の部分、レイヤー投影は、画像補間アルゴリズムのメインブロックであって、図１ｂのステージ２２および２４の機能性に対応する。入力は、図２に示すような左および右側のオリジナルイメージ、関連する深度マップ、関連するカメラ較正情報、関連する分類情報である。両方の入力画像から異なって分類された領域は、別に仮想視覚位置に投影され、その結果は以下の信頼性基準に結合される。

中間画像の投影は、古典的イメージベースの３Ｄワープである。第１に、オリジナルの２Ｄ画像のサンプルは、関連する深度値およびカメラ較正情報を用いて３Ｄ空間に投影される。第２に、結果として得られる３Ｄ世界点は、生成される中間画像に前方投影される。仮想光景位置を定める第２のステップのための投影マトリクスは、位置に依存するパラメータλ∈［０・・・１］を用いて、関係する２つのオリジナル画像から補間され、ここで、例えばλ＝０．５は中央位置を定める。これは、オリジナルのカメラの間の線形経路のいかなる位置に対しても、球面一次補間［参考文献２４］によって処置される。

このアプローチに続いて、両方の主レイヤー（すなわち、図１ａ−ｃに関して使用される言い回しによる「非境界部」）は、共通の主レイヤーｌ_cが以下の通りにつくられる対応する浮動小数点深度データｄ₁およびｄ₂を有する別々のカラー・バッファｌ₁およびｌ₂に投影される。

ここにおいて、λは前述の位置依存パラメータを示し、εは実験のために１．０に設定された重要値を示す。この方法は、同じ深度値を有する場合、それぞれの画像からの最前面のサンプルのいずれかが用いられ、または、両方のサンプルがλ補間されることを保証する。１つのオリジナルのカメラの画像から別のものに進むとき、補間はオリジナル画像の間の可能な照明の差を減らして、滑らかな移行を提供する。投影の後に得られる共通の主レイヤーは、図３に示される。（１）からの補間プロセスも、共通の浮動小数点深度バッファをつくる。

次のステップにおいて、フォアグラウンド境界レイヤー、すなわち図１ａ−ｃの言い回しの「フォアグラウンド境界部」は投影され、色および浮動小数点深度のための共通レイヤーは、上述のように、主レイヤー方法と類似した方法でつくられる。それから、共通の主およびフォアグラウンド境界レイヤーは結合される。ここで、単純な深度試験が用いられる。いずれのレイヤーからも最前面のサンプルがとられ、それは大部分はフォアグラウンド境界サンプルである。これまで、機能性は、ステージ２２の機能に対応した。

投影プロセスの最終工程において、バックグラウンド境界レイヤー、すなわち図１ａ−ｃのバックグラウンド部は、投影されている。この情報は、中間画像の残りのホールを埋めるために用いられるだけである。これは、図１０におけるステージ２４の機能に対応する。共通の主レイヤーがフォアグラウンドオブジェクトの周辺ですでに大部分のサンプルをカバーするので、図３において分かるように、ほんのわずかのバックグラウンド境界サンプルしか使われず、オリジナル画像からのオブジェクト境界における色歪みのサンプルは省略される。それらは単純な３Ｄワープアルゴリズムを使用してバックグラウンド領域の中でコロナ状のアーチファクトを作成することは公知であり、それは２種類の異なる境界レイヤーを有する階層化アプローチによって回避される。

アルゴリズムの最後の部分、ホール充填及びフィルタリングは、修正、クリーンアップおよびフィルタリング処理である。それは、図１ｂのエンハンサ２８の機能性に対応する。２種類のホールは、このステージでレンダリングされた画像において起こることがあり、それは小さいクラックおよびより大きな欠落領域である。ホールの第１のタイプは小さいクラックであり、それは全てのイメージ領域で起こることができ、イメージベースの３Ｄワープの前方へのマッピング性質によって導かれる。オリジナルのイメージからの各位置は別に中間画像に投影され、一般に浮動小数点座標上に落ちる。この位置は、整数サンプルラスターの最近接位置に量子化される。残念なことに、量子化は、図３において細い黒い線として見える若干のサンプルを満たされていない状態のままにする。場合によっては、フォアグラウンド領域のこの種のクラックは、他のオリジナルのイメージからのバックグラウンド情報によって満たされる。これは、図４の左のアーチファクトという結果となり、そこにおいて、バックグラウンドサンプルは、フォアグラウンドオブジェクトを通して光る。図４において、上の列は異なるアーチファクトを示し、下の列はアーチファクト除去後の同じ部分を示し、特に、クラックサンプル除去（左）、領域充填（中央）およびエッジ平滑化（右）を示す。

このようなアーチファクトは、横、縦、斜め方向の２つの隣接した値と著しく異なる深度値を見つけることによって検出される。それから、それらは満たされた中央値フィルタリングであり、すなわち隣接する色値の中央値を計算することにより、それらが割り当てられる正しい深度値を有すると仮定している。このようなアーチファクトの修正は、図４の左にも示される。

ホールの第２のタイプは、より大きな欠落領域を含む。それらは誤った深度値のため発生するか、または両方のオリジナル画像においてはふさがれているが、中間画像において見えるようになる領域である。図４の中央に示されるように、このような大きなホールは、隣接する利用できるバックグラウンド情報で埋められる。ここで、ホール境界に沿った対応する深度値は、ホール領域に外挿されるバックグラウンド色サンプルを見出すために分析される。このアプローチは深度エラーによる欠落領域に対して良い充填結果につながる一方、非閉塞部分に対する充填は時々フォアグラウンド情報から誤ってとられて、このように間違った色を呈する。

最後に、フォアグラウンドオブジェクトは、図４の右に示すように、自然な外観を提供するためにエッジに沿ってローパスフィルタリングされる。オリジナル画像において、オブジェクト境界サンプルは、イメージキャプチャリングの間の最初のサンプリングおよびフィルタリングによるフォアグラウンド−バックグラウンドの混色である。我々のレイヤーアプローチのレンダリングされた中間画像において、バックグラウンドにおけるコロナ状のアーチファクトを回避するために、これらの混合色サンプルは、しばしば除外される。したがって、あたかもフォアグラウンドオブジェクトが場面に人為的に挿入されるたかのように、若干のフォアグラウンド−バックグラウンド境界は異常に鋭く見える。したがって、上述のＣａｎｎｙのエッジ検出フィルタはエッジを確認するために最終的な深度情報に適用され、平均化ローパスフィルタはより自然な外観を提供するために対応する色サンプルに適用される。さらに、フィルタリングは、深度不連続性に沿って残留するアーチファクトを減らす助けとなる。

すべての処理ステップの後の結果として生じる中間画像は図５に示され、それはフィルタリング後の最終的な中間画像の補間を示し、図１ｂの中間画像イメージ１２のための実施例である。ここで、２つのオリジナルのカメラの間の中間の画像は合成され、すなわちλ＝０．５であり、それは、この場合両方のオリジナルのカメラに対する１０ｃｍの物理的距離に対応する。仮想画像は、可視アーチファクトのない優れた品質のものである。

画像補間器の目的は、Ｍ個の画像プラスＭＶＤ表現の深度から３ＤＶシステムに対するＮ個の入力画像をつくることである。１つの実施例は、フィリップス自動立体ディスプレイであり、目の間隔（ほぼ５ｃｍ）を有する９つの画像が入力として必要である。図２０に示すようなこの種のセットアップに対して、結果として生じる９つの画像のうちの５つが、バレーおよびブレイクダンスの踊り手のデータセットのために図で６に示される。これらのデータセットのカメラ間隔は、２０ｃｍである。λ＝｛１／４，１／２，３／４｝を有する中間画像は、２つのオリジナルのカメラの間で作成された。図６の左端および右端のイメージは、オリジナル画像である。中間の３つのイメージは、いかなるアーチファクトも呈していない仮想画像である。一組の立体的な画像が運動視差および３Ｄ深度印象をサポートするために利用できる。換言すれば、図６は、９−画像自動立体ディスプレイのための立体の一組の距離における５つの画像を示し、オリジナルのカメラ位置（左端および右端）における２つの画像およびバレー（上側）およびブレイクダンスの踊り手（下側）の列である。

前記実施例を要約すると、マルチビュープラス深度（ＭＶＤ）表現に基づく３Ｄ映像（３ＤＶ）システムのためのコンセプトを示す。それは、データレート、品質および機能性に関してＭＶＣまたはＭＰＥＧ−Ｃパート３に基づく他のコンセプトに勝るはっきりした効果がある。特に、高品質の中間画像補間アルゴリズムの利用可能性は、このコンセプトを可能にする重要な偏見である。レンダリングされた画像のアーチファクトを最小化する適切な方法は上で提示された。それは、単にイメージベースの３Ｄワープに基づいて、３Ｄグラフィック・サポートを必要としない。このちょうど記載されている実施例は、深度不連続性に沿った信頼できないイメージ領域のための別々のフォアグラウンドおよびバックグラウンド境界レイヤーを導く。境界および信頼性の高いレイヤーは別に処理され、出力は以下の信頼性基準に融合される。さらに、ホール充填アルゴリズムは、中間画像の失った色情報を生成するために行われた。重要な深度不連続性に沿った色サンプルの最終的なローパスフィルタリングは、より自然な外観を提供することができて、エッジに沿って残留するアーチファクトを減らす。画像補間は位置依存パラメータによって制御され、それはオリジナル画像の照明の差から影響を減らす。それについては、ＭＶＤに基づく３ＤＶコンセプトのために必要に応じてレンダリングされる高品質の中間画像が示された。

以下の部分は、第１の実施例と比べて、より詳細に記載される本発明の第２実施例を示す。また、この実施例は、３Ｄ画像アプリケーションにおける発達する関心および技術が成熟すると共に急速に成長しているシステムに集中する。マルチビュー自動立体ディスプレイは、マルチ・ユーザ３Ｄ知覚および運動視差印象をサポートするため、家庭のユーザ環境において重要な役割を果たすことが期待される。多大なデータレートは、表現およびＭＶＣまたはＭＰＥＧ−Ｃパート３などの符号化フォーマットによって能率的に取り扱われることができない。マルチビュー映像プラス深度は能率的にこのような高度な３ＤＶシステムをサポートする新規なフォーマットであるが、これは高品質の中間画像合成を必要とする。このため、下で提示される方法は信頼性の高いイメージ領域から深度不連続性に沿って信頼できないイメージ領域を切り離し、それらは別に処理されて、最終的な補間された画像に融合される。以前の階層化アプローチと対照的に、以下のアルゴリズムは、２つの境界レイヤーおよび１つの信頼性の高いレイヤーを用いて、イメージベースの３Ｄワープだけを実行して、３Ｄグラフィック・サポートに依存しない。さらに、異なるホール充填およびフィルタリング方法は、高品質の中間画像を提供するために加えられる。その結果、既存の９−画像自動立体ディスプレイに対する高品質の中間画像が示され、それは高度な３ＤＶシステムのためのアプローチの適合性を証明する。コンセプトは、高品質の中間画像の合成アルゴリズムに依存する。このようなＤＩＢＲまたは３Ｄワープの一般的定式化は下記で与えられる。ＤＩＢＲは、特に深度不連続性を有するオブジェクト境界に沿って発生する目立つアーチファクトを生じることで知られている。したがって、以下の実施例は、深度不連続性が信頼性の高いおよび信頼できない領域として特徴付けられるイメージ領域を有する階層化アプローチで処理される新規なＤＩＢＲアルゴリズムを導く。標準３Ｄワープを上回る結果および改良はそれから提示される。最後に、第２実施例が要約される。

第１に、深度ベースの中間画像の合成が公式化される。３ＤＶフレームワークの範囲内で、オリジナルの画像ｋごとに色データｌ_k、深度データｄ_kおよびカメラパラメータの形で与えられる入力データを仮定する。このデータは、ｌ_kのキャプチャリングプロセスおよび関連する深度カメラまたはｄ_kの深度推定プロセスによって与えられる。例えば、進歩的な３ＤＴＶコンセプトに対するオジナル画像は、ｋ∈｛１、５、９｝に対する図２０下部に示される。各オリジナル画像ｋに関するカメラパラメータは、固有のマトリックスＫ_kにおける固有のパラメータ（焦点距離、センサスケーリング、主点）および回転マトリックスＲ_kおよび変換ベクトルｔ_kを有する付帯マトリクス［Ｒ_k｜ｔ_k］における付帯パラメータ（回転、変換）の形で与えられる。それらは、古典的カメラ較正アルゴリズムによって得られることができる［参考文献２７］［参考文献６］［参考文献９］。通常、付帯的なおよび固有のマトリクスは投影マトリクスＰ_k＝Ｋ_k［Ｒ_k｜ｔ_k］を得るために乗算され、それは３Ｄ世界点をオリジナルのカメラ画像ｋのイメージ平面に投影する。このように、オリジナル画像は、各ピクセル位置（ｕ_k，ｖ_k）において、以下によって与えられる。

以下の考慮すべき事項は、その計算が画像ｎに対しても同様であるため、画像ｋだけのために実施される。画像ｋのために、関連するピクセル位置（ｕ_k，ｖ_k）が、逆投影マトリクスＰ_k ^-1を用いて、最初に３Ｄ空間に投影される。カメラ平面からの単一の２Ｄピクセル位置はカメラ焦点およびピクセル位置点による直線上に投影されるため、この投影は曖昧である。したがって、深度データｄ_k（ｕ_k，ｖ_k）は、正確な３Ｄ位置を決定することを必要とする。しばしば、深度データはスケーリングされ量子化された形で与えられ、真値ｚ_k（ｕ_k，ｖ_k）は最初に得られることを必要とする。典型的スケーリングは、以下の関数による逆深度スケーリングである［参考文献１０］。
ここで、深度データｄ_k（ｕ_k，ｖ_k）は独自に範囲［０・・・１］に正規化され、ｚ_k,nearおよびｚ_k,farはそれぞれ３Ｄシーンの最小および最大深度値である。

次のステップにおいて、３Ｄ位置は、中間画像に前方投影される。両方の投影を結合して、２点間相同関係は、次のように記載することができる。

カラー投影のために、オリジナルの画像における関連する位置（ｕ_k,min，ｖ_k,min）が必要である。

両方の光景における貢献を組み合わせて、オリジナル画像ｋおよびｎ間の一般的な中間画像の補間が公式化されることができる。

図１ａ−ｃに関して上述した全ての投影のための実施例となる上記の一般の投影プロセスを特定した後に、真のデータへの適応、すなわち階層化の中間画像の合成の実行はここに記載されている。前に示された３ＤＶコンセプトは、レシーバで高品質の中間画像の合成アルゴリズムを利用する可能性に依存する。画像合成における以前の方法は、適切な閉塞処理のない単純なコンセプトに集中しているか〔参考文献１４〕〔参考文献５〕［参考文献２１］［参考文献１３］、または複合の位置ベースの表現を生成している［参考文献４］。しかしながら、補間アーチファクトが容認できない品質という結果をもたらす。例えば図２０の実施例において、位置２から仮想画像だけが見える。立体セットアップにおける典型的カメラ間隔は、５ｃｍである。これは、オリジナル画像Ｖ１およびＶ５間が２０ｃｍにおよび、この間隔はＤＩＢＲによって扱うのが困難であることを意味する。難しいアーチファクトは、特に大きい深度不連続性を有するオブジェクト境界に沿って発生することは知られている。一方では、滑らかな深度変化を有する領域は、仮想の中間画像に非常に確実に投影されることができる。これは、深度不連続性および滑らかな深度領域の別々の処理を暗示している。深度不連続性は、エッジ検出アルゴリズムを用いて深度イメージの範囲内で容易に見つけることができる。

それ故、次の画像合成プロセスは、レイヤー抽出（エッジ検出および信頼性の高いおよび境界領域への分離）、レイヤー投影（領域のＤＩＢＲの分離および融合）および中間画像の向上（修正、クリーンアップおよびフィルタリング）の３つの部分から構成される。プロセスの概要は、このように合成方法の構造概要を示す図７に示される。この方法のための入力データは、図１ｂとの対応を明らかにするためにＶ１、Ｖ２、Ｄ１およびＤ２でマークされる２つの側部画像のためのオリジナルの色およびピクセルごとの深度データである。実線の矢印は色処理を表し、その一方で、破線の矢印は投影またはエッジ検出目的のための深度処理または深度データの使用を示す。深度情報から、レイヤーは重要な深度不連続性に従って抽出７０され、この抽出は図１ｂにおけるブロック１８、１８´、２０および２０´の機能に対応する。図７の次のステージにおいて、マークされた色バッファからの全てのレイヤーは、中間画像のための別々のレイヤーバッファ７４ａ−ｄに投影７２される。中間画像は、最初に、２つの投影された主レイヤー７４ｃおよび７４ｄを結合７６することによって作成される。その後、更に後述するように、フォアグラウンドおよびバックグラウンド境界レイヤーが加えられる。最後に、画像の向上７８、例えばホール充填およびエッジ平滑化などの画像の向上が、最終的な中間画像を作成するために適用される。

階層化アプローチと連携する考えは、自由視点ナビゲーションの応用のために〔参考文献３０〕においてすでに研究されており、そこにおいて、大きい深度不連続性に沿った特定の幅の境界レイヤーが抽出された。このアプローチは、ここで更に改善される。さらに、〔参考文献３０〕におけるアプローチがレンダリングのための単純な幾何プリミティブ（三角形）によって動作すると共に、図７の実施例は単にイメージベースの３Ｄワープと連携する。このように、３Ｄ図形処理および形状モデリングは必要とされない。下側に、図７のアプローチが若干の投影アーチファクトを取り込んでいるが、それは、更に後述するように、取り除かれることができる。

レイヤー抽出７０は、モジュール１８、１８´、２０、２０´の機能に対応する。レンダリングアプローチのこの第１の部分において、オリジナル画像の信頼性の高いおよび信頼できない深度領域が区別される。境界サンプルは通常混合されたフォアグラウンド／バッククグラウンド色を有し、新規な画像への投影の後、アーチファクトを作成するため、オブジェクト境界に沿った領域は信頼できないとみなされる。さらに、深度推定からのエラーは、主にオブジェクト境界を歪める。したがって、〔参考文献３０〕と同様に、大きい深度不連続性が、主および境界レイヤーをつくるために検出される。このため、深度イメージに作用する内容に適応する重要性閾値（我々の実験の１１０）を有するＣａｎｎｙのエッジ検出器［参考文献２］が用いられる。７−サンプル広域部は、検出エッジに沿って信頼できないとしてマークされる。〔参考文献３０〕とは対照的に、この領域は、次のサブセクションに示すように、それぞれ異なる処理をすることができる白黒の領域として図２に示すように、フォアグラウンドおよびバックグラウンド境界レイヤーに分割される。

レイヤー投影７２は、図１ｂのモジュール２２および２６の機能性に対応する。レイヤー投影７２は、上で示される深度ベースの中間画像合成の一般的公式化を拡張する。処理チェーンのこの第２の部分は、画像合成アルゴリズムの重要なブロックである。入力は、全て上に示されている、左および右側のオリジナル画像、関連する深度マップ、関連するカメラ較正情報、補間パラメータλ∈［０・・・１］であり、図２に示すように関連するラベル情報である。両方の入力イメージから異なって分類された領域は、別々に仮想画像位置に投影され、結果は以下の深度順序付けおよび信頼性基準に続いて融合される。

中間画像の向上７８は、図１ｂのモジュール２８の機能性に対応する。アルゴリズムのこの最後の部分は、レイヤー投影の後の後処理を提供し、修正、クリーンアップおよびフィルタリング処理を含む。２種類のホールが、現段階でレンダリングされた画像においてまだ起こることがあり、それは小さいクラックおよびより大きな欠落領域である。ホールの第１のタイプは小さいクラックであり、それは全ての画像領域で起こることができ、イメージベースの３Ｄワープの前方マッピングの性質によって導入される。オリジナルイメージからの各位置は別々に中間画像に投影され、一般に浮動小数点座標上に落ちる。この位置は、整数サンプルラスターの最近接位置に量子化される。残念なことに、量子化は、若干のサンプルを満たされていないままにすることがあり、図８ａおよび図８ｂの細い黒い線として見える。場合によっては、フォアグラウンド領域におけるこのようなクラックは、他のオリジナルイメージからのバックグラウンド情報によって満たされる。これは、図３の左に示すアーチファクトという結果になり、バックグラウンドサンプルは、フォアグラウンドオブジェクトを通して輝く。

このようなアーチファクトは、横であるか、垂直であるか、斜めの方向の両方の隣接した値より著しく大きい深度値を見つけることによって検出される。

これは、フォアグラウンド領域の中のバックグラウンドピクセルを参照する。方向重要性値から、最大値ｇ_maxが計算される。

ホールの第２のタイプは、より大きな欠落領域を含む。それらは誤った深度値のため発生するか、または両方のオリジナル画像においてふさがれるものの、中間画像において見えるようになる領域である。図３の中央に示すように、このようなより大きなホールは、現在、隣接した利用できるバックグラウンド情報によって線的に埋められる。ここで、２つのホール境界ピクセルの２つの対応する深度値は、ホール領域に外挿するバックグラウンド色サンプルを見つけるために分析される。バックグラウンドピクセルのこの単一の一定色の外挿は、両方の値の間の無拘束の線形補間より良い結果につながる。しばしば、ホール境界ピクセルのうちの１つはフォアグラウンドオブジェクトに帰属し、その色値はホールへの色のにじみに至る。このアプローチは、深度エラーによる欠落領域に対する良い充填結果につながる。非閉塞部のための充填の場合には、時々、両方のホール境界ピクセルはフォアグラウンドピクセルであり、フォアグラウンド色がバックグラウンドホールに誤って外挿される。

ここで、まばらな画像からの画像補間の基本問題のうちの１つが発生し、それは中間画像における非閉塞であり、そこにおいて、オリジナルの情報はいかなる画像においても利用できない。このため、一般解が存在しない。場合によっては、フォアグラウンドオブジェクトが必要なバックグラウンド情報を明らかにするために十分に移動した場合、ホール充填アルゴリズムは以前のまたは将来のフレームにおける追加データを期待する時間次元に至ることができる。しかしながら、運動の程度が予測できないので、このアプローチは限界を有し、我々の行う方法として考慮されなかった。

画像合成の実施例は、次に示される。フィルタリングおよびすべての処理ステップの後の結果として生じる中間画像または最終的な中間画像の合成は、それぞれ、図５に示される。ここで、２つのオリジナルのカメラ間の中間の画像は合成される、すなわちλ＝０．５であり、この場合、それは両方のオリジナルのカメラに対して１０ｃｍの物理的距離に対応する。仮想画像は、可視アーチファクトのない優れた品質のものである。

レンダリングされた画像の詳細は、このように、単純な合成および我々の提案した方法に関する中間画像の詳細を示す図９に示される。最上列は、セクション０において導入される特定の処理段階のない標準３Ｄワープの実施例を示す。コロナアーチファクトは、フォアグランド／バックグラウンド境界で発生する。若干暗いフォアグラウンドピクセルはより明るいバックグラウンド領域に誤って加えられ、オブジェクト周辺の典型的コロナタイプのさらなる輪郭という結果になる。さらに、クラックは、フォアグラウンドオブジェクトの範囲内で見える。これらのクラックは、誤ってフォアグラウンドの前方マッピング処理において開いたままにされ、それから誤ってバックグラウンド情報で満たされた。このようなアーチファクトは通常静止していなくて、時間とともに変化し、レンダリングされた映像の範囲内において非常にうっとうしい効果という結果になる。これは、３ＤＶの全部のコンセプトを容認できなくすることができる。セクション０において導入されるように、図９の下の列は、３Ｄワーププロセスに対して我々の改良を用いた対応するレンダリングの詳細を示す。コロナアーチファクトおよびクラックは、広く取り除かれる。深度不連続性に沿ったローパスフィルタリングは、一般的なのイメージの印象を滑らかにして向上させるのを助ける。個々の画像の最小限のアーチファクトについては、画像品質は著しく増加し、我々の画像合成アルゴリズムは、ＭＶＤに基づく進歩的な３ＤＶコンセプトの基礎を形成することができる。

画像補間器の目的は、Ｍ個の画像プラスＭＶＤ表現の深度から３ＤＶシステムに対するＮ個の入力画像をつくることである。１つの例は、フィリップス自動立体ディスプレイであり、目の間隔（ほぼ５ｃｍ）を有する９つの画像が、入力として必要である。図２０に示されているようなセットアップのために、結果として生じる９つの画像のうちの５つが、バレーおよびブレイクダンスの踊り手のデータセットに関する図６に示される。これらのデータセットのカメラ間隔は、２０ｃｍである。λ＝｛１／４，１／２，３／４｝を有する３つの中間画像が、２つのオリジナルのカメラの間につくられた。図６の左端および右端の画像は、オリジナル画像である。その間の３つの画像は、いかなるアーチファクトも示されていない仮想の画像である。対になった立体的な画像が運動視差および３Ｄ深度印象をサポートするために利用することができる。

結びとして、ＭＶＤに基づく３ＤＶの高度なシステムが上に示されている。それは、能率的にマルチビュー立体ディスプレイをサポートする。運動視差印象および最大限の社会的交互作用について以外、このタイプの３Ｄディスプレイは、眼鏡をかける必要性なしに、リビングルーム環境におけるマルチ・ユーザ３ＤＶ感覚を可能にする。それがデータレート、品質および機能性に関してＭＶＣまたはＭＰＥＧ−Ｃパート３に基づく他のコンセプトに勝るはっきりした効果があるので、ＭＶＤはこのコンセプトの３ＤＶのための一般的なフォーマットとして役立つことができる。しかしながら、このコンセプトは、部分的にまだ研究を必要とする多くの高度な処理ステップを統合する。それらの中で、高品質の中間画像の合成は、このコンセプトを実現可能にするために重要である。この種のアルゴリズムが深度不連続性に沿って面倒なアーチファクトを導入することが知られている。したがって、ここで提示されるアプローチは深度画像のエッジ検出に基づいて入力イメージを信頼性の高いおよび信頼できない領域に切り離す。その理由は、これらのエッジが深度不連続性に対応するからである。信頼性が高いおよび信頼できない領域は別々に処理され、結果は信頼性基準に応じて結合される。特定の後処理アルゴリズムは、更にレンダリングされた画像の品質を強化するために導入される。これは、残りのアーチファクトを減らすために、レンダリングされた画像における深度不連続性に沿った最終的な平滑フィルタと同様に異なるホール充填アプローチを含む。位置に依存する混合ファクタは、異なる入力イメージからの貢献を重み付けするために用いられる。与えられた結果は、深度不連続性に沿った信頼性情報を得たレイヤーの処理が著しくレンダリングアーチファクトを減らすことを示している。標準３Ｄワープによってしばしば発生するコロナアーチファクトは、広く除去される。高品質の中間画像は、与えられたアルゴリズムによって生成される。これについては、ＭＶＤのための進歩的な３ＤＶコンセプトの範囲内の重要な構成要素が利用できることを示す。更なる最適化の他に、我々の将来の仕事は、最終的なシステム集積と同様に、例えば取得、深度推定、符号化および送信などの他の全ての構成要素の開発を含む。

以下の部分は、本発明の第３の実施例を示す。特に、マルチスコープの３Ｄディスプレイ上の画像レンダリングのシステムは、データがレイヤー深度画像（ＬＤＶ）として表現される以下において考慮される。この表現は関連するピクセルごとの深度を有する１つの完全または中心画像と、さらなる残りのレイヤーとを含む。このように、付加的な残りのデータを有する１つの全景だけは、送信されることを必要とする。ディスプレイに対するすべての中間画像を生成するために、ＬＤＶデータがレシーバで使われる。シーン信頼性駆動アプローチを用いて、画像合成と同様にＬＤＶレイヤー抽出が与えられる。ここで、信頼できないイメージ領域が検出され、以前のアプローチとは対照的に、残りのデータはレンダリング中の信頼できない領域におけるアーチファクトを減らすために増大される。最大のデータ範囲を提供するために、残りのデータは、そのオリジナルの位置に残って、中心画像に向かって投影されない。画像合成プロセスも、以前のアプローチより高品質の中間画像を提供するために、この信頼性解析を使用する。最終結果として、既存の９−画像自動立体ディスプレイに対する高品質の中間画像は与えられ、それは高度な３Ｄ画像（３ＤＶ）システムのためのＬＤＶアプローチの適合性を証明する。

すでに明細書の導入部分に記載されているように、３Ｄ画像における増加した関心は、キャプチャリングからフォーマット表現および符号化を介して表示およびレンダリングまでの３Ｄ処理チェーンのすべてのステージのための改良された技術につながった。特に記録された自然の場面のための３Ｄ内容ディスプレイのための最も一般のアプローチのうちの１つは、ユーザに自然の深度印象［参考文献１７］を提供するイメージステレオ対の同時提示である。制限されたユーザに見て回る知覚を有するナビゲーションを示すために、この生成されたステレオ対はユーザの頭の動きによって変化しなければならない。このため、マルチビュー自動立体ディスプレイはすでに利用可能であり、ユーザがディスプレイの前で視点に応じて２つの立体画像を見ると共に、同時に多くの画像（今日のディスプレイにおいては９個以上）を提供する。

それは巨大なデータレートが必要である。全部を送信されなければならないか、または、画像の二次サンプリングおよび中間画像の合成を有する高度な方法が用いられるかのように、すべての光景はディスプレイにおいて利用できなければならない。後のアプローチの１つの候補は、大幅に３ＤＶシステムのための生のデータレートを低下させることを可能にする階層化深度映像（ＬＤＶ）である。Ｎ個のディスプレイの画像のサブセットＭからの１つの中心画像および残りの情報だけが送信される。さらに、深度データが、中心画像および残りのサブセットＭのために送信される。送信されていない画像は、送信データを与えられるレシーバで、中間画像の補間によって生成されることができる［参考文献１５］。

ＬＤＶの起源は、階層化深度イメージ（ＬＤＩ）から来ており、その方法は、複合のシーンの配置を有する３Ｄオブジェクトをレンダリングする一般のアプローチとして確認された［参考文献３３］。ＬＤＩにおいて、カメラのイメージの各ピクセルは、ピクセルの視線に沿って色値および深度値を有する複数のピクセルを含むことができる。ＬＤＩの生成は、まずステレオ記録〔参考文献３３〕のために、次にマルチビュー設定［参考文献３２］のために研究された。階層的なＬＤＩアプローチは、進歩的な画像依存のレンダリングの改良［参考文献３１］を有する仮想シーンのナビゲーションにも適用された。オリジナルの視点をナビゲートするときに、これらのアプローチは限られた閉塞および非閉塞を提供するが、まばらなマルチビューデータにおける画像の合成のための課題、すなわち、ホール重点および異なる深度のオブジェクト間の境界に沿ったコロナアーチファクトを示す。したがって、我々は、このようなアーチファクトを減らすためにＬＤＶデータ作成のための信頼性解析を提案する。

以下において、まず、高度な３ＤＶシステムのためのコンセプトが示される。それから、最適化された残りの表現の形を有するレイヤーベースのＬＤＶデータ抽出プロセスが示される。次に、合成プロセスが示され、そこにおいて、高品質の中間画像を提供するために目立つアーチファクトを最小化するために、レイヤーベースのアプローチが再び用いられる。最後に、３ＤＶ設定に対するレンダリング結果が示される。

さらに、すでに上述したように、３ＤＶシステムは同時に多重画像を表示することによって頭の動きの視差ビューイングをサポートすることができる。とりわけ、１つの具体例は傾斜したレンズ状のレンズ技術および９つの同時画像を有する高解像度のＬＣＤ画面であり、フィリップス［ｗｗｗ．ｐｈｉｌｉｐｓ．ｃｏｍ／３Ｄｓｏｌｕｔｉｏｎｓ．２００８年４月１７日最終訪問］から市販されている。３Ｄディスプレイでの頭の運動視差サポートのための原理は、図１０において示される。位置１のユーザは、それぞれ左右の目で画像１および２を見るだけである。位置３の他のユーザは画像６および７を見る。それゆえに、マルチ・ユーザ３Ｄビューイングはサポートされる。

ユーザが位置１から位置２に移動することを仮定する。現在、画像２および３が、それぞれ左右の目によって見ることができる。Ｖ１およびＶ２が適当な人間の目の間隔の基準を有するステレオ対である場合、Ｖ２およびＶ３も同様であり、このような３Ｄディスプレイシステムの前で移動しているユーザは、それらの深度に応じてシーンにおけるオブジェクトの非閉塞および閉塞を有する３Ｄ印象を認める。この運動視差印象は途切れがないわけではなく、異なる位置の数はＮ−１に制限される。

すべての画像が独立して取り扱われる場合、拡張機能性は一方ではデータレートの相当な増加、すなわち２Ｄ映像と比較して圧縮伝送のためのビットレートのＮ倍という結果になる。画像間予測を含むマルチビュー画像符号化（ＭＶＣ）は全体のビットレートを２０％低下させ［参考文献２０］、それは大部分のアプリケーション・シナリオのためにあまりに高く見える。

立体画像（すなわち２つの画像）のための効率的なアプローチは、データフォーマットとして画像プラス深度（Ｖ＋Ｄ）を使用することである［参考文献７］。ＭＰＥＧは、最近、ＭＰＥＧ−Ｃパート３として知られる対応する基準をリリースした。レシーバは、第２の画像の深度イメージベースのレンダリング（ＤＩＢＲ）によって、Ｖ＋Ｄから立体画像を再生することができる。この場合、深度データが非常に効率的に圧縮されることができることが示された。Ｖ＋Ｄの結果として生じるビットレートは対応する立体画像のためのビットレートより非常に小さく、その一方で、同じ視覚の品質を提供する。利用できる画像の近くにある１つの仮想画像が（例えば、図１のＶ１およびＶ２に対応する）Ｖ＋Ｄデータからレンダリングされることを必要とする場合、このコンセプトはよく働く。外挿アーチファクトは、間隔または仮想画像によって増加する。したがって、Ｖ＋Ｄは、多数の画像を備える３ＤＶシステムに適していない。

圧縮ポテンシャルに関するより効率的な解決案は、マルチビュー＋深度（ＭＶＤ）であり［参考文献３４］、ここにおいて、深度を有する画像のサブセットだけが送信され、中間画像はレシーバ側で合成される。さらにより少ないデータレートを必要とする他の解決案は、ここで発表される階層化深度画像（ＬＤＶ）を使用することである。ＬＤＶにおいて、中心画像（図１０のＶ５）および側部画像のための関連する残りの画像だけが送信される。このように、図１は、進歩的なＬＤＶベースの３ＤＴＶコンセプトを示す（Ｐｏｓ：視点、Ｒ：右目、Ｌ：左目、Ｖ：画像／イメージ、Ｄ：深度、ＲＶ：残りの画像レイヤー、ＲＤ：残りの深度レイヤー）。

残りのレイヤーは、側部画像（Ｖ１およびＶ９）から抽出される。中心および側部画像のために、サンプルの正確な深度マップは、発信者側で生成されなければならず、画像信号と共に伝達されなければならない。中心画像および側部画像から、後述するように、残りの情報は色および深度のために生成される。表示される他の全ての画像は、レシーバでＤＩＢＲによって生成される。ＬＤＶのための残りのレイヤー抽出および画像合成は、以下に記載されている。

Ｎ個の画像を有するマルチビューアプリケーションにおいて、中間画像は、すべての画像における利用可能な情報を使用して合成されることができる。ＬＤＶシナリオにおいて、１つの画像だけが、他の画像からの付加情報の若干の断片と共に利用できる。直接のＬＤＶ抽出アプローチにおいて、１つのカメラの画像は他の画像に投影される。

３つの直線状の並列カメラを有するカメラシステムを仮定すると、中心画像は両方の側部画像に投影される。そして、オリジナルおよび投影された画像の違いは、非閉塞情報からなり、従って、主に両方の側部画像のイメージ境界データと同様にフォアグラウンドオブジェクトの深度不連続性に沿って集中される残りの情報を得ることに専念される。以下の画像合成ステージは、中心画像および深度データの完全情報と残りの情報とを使用する。しかしながら、この処理は、すべての合成された中間画像のコロナアーチファクトにつながる。このような可視アーチファクトを回避するために、我々の抽出アルゴリズムは、〔参考文献３０〕の完全な中間画像の合成のために導入され、マルチビュービデオ＋深度データのための〔参考文献３４〕において改良される階層化アプローチを使用する。レイヤーは、深度バッファにおいて抽出されて、信頼性の高いおよび信頼できないデータを示す。後者は、深度不連続性で発生する。レイヤーは、Ｃａｎｎｙのエッジ検出フィルタを用いて抽出され［参考文献２］、深度不連続性に沿って７ピクセル広域部をマークする。この領域は、フォアグラウンドおよびバックグラウンド境界情報を含む。

〔参考文献３４〕とは対照的に、１つのフォアグラウンドオブジェクトだけが中心画像において残り、別のフォアグラウンド境界レイヤーはＬＤＶデータ抽出のために必要とされないため、バックグラウンド境界レイヤーだけはＬＤＶのために必要である。バックグラウンド境界レイヤーのマーキングは、図１１に緑で示される。このように、図１１は、中心画像の重要な深度不連続性に沿った、バックグラウンドレイヤー配置（白）を示す。

次のステップにおいて、色および深度を有する中心画像は両方の側部画像に投影され、両方の側部画像への中心画像の投影を示す図１２に示すように、バックグラウンド境界レイヤーを省略する。これは、図１ｃのブロック４６に対応する。

このように、（図１２のフォアグラウンドオブジェクトおよびイメージ境界に沿って白色に示され、図１ｃの５０に対応する）非閉塞領域はより大きくなり、最後に側部画像においてより大きな残りの領域に至る。前方投影プロセスのため、小さいカバーされていない領域も見えるようになり、それはクラック除去フィルタリング（フォアグラウンド領域の異常バックグラウンド深度値に作用するメジアンフィルタ、図１ｃのブロック５８と比較）によって除去される。このため、有効なものによって囲まれる１ピクセル幅非割り当て深度値が確認される。色および深度値は、これらの隣接する有効値から補間される。この充填の後、このように、投影された中心画像におけるデータ充填を示す図１３に示すように、真の非閉塞領域（図１ｃの５０に対応）だけが残る。

この情報は、側部画像から要求される残りの情報を抽出する（または、図１ｃのブロック５４におけるように、決定する）ために用いられる。ここで、両方の側部画像の残りのデータを示す図１４に示されるように、側部画像および投影された中心画像の間の除外の差がこの情報を得るために利用される。換言すれば、図１３の非閉塞領域がこれらの側部画像を覆う側部画像の領域は、信号３２に挿入されるために選択される。

つまり、残りのデータが存在し、そこにおいて、投影され補間された主画像は、有効な情報を有しない（図１３の白い領域）。この残りの情報は、中心画像におけるバックグラウンド境界レイヤーの前述の減算による純粋な非閉塞領域よりわずかに大きい。このように、付加情報は、オブジェクト境界に沿ったカラー・アーチファクトの減少のための残りのデータにおいて利用できる。また、この残りのデータ抽出は、色および深度データに適用される。

これはＬＤＶ抽出工程を終えて、図１ｃの信号３２のための実施例として、伝送目的のために使われる最終的なＬＤＶデータフォーマットを与える。そして、それは次のものを含む。
− 色および深度における完全な中心画像
− 色および深度における残りの側部画像
− カメラパラメータおよび実在の深度範囲パラメータなどのさらなる形状パラメータ

ＭＶＤ表現の場合について考えると、対応する深度マップを有する３つの画像は、このＬＤＶ表現によって提供されるのと同じ機能性をサポートするために伝送されなければならない。ＬＤＶのために、側部画像は図１４に示すように残差に減少し、それは著しく低下するデータレートという結果になる。このさらなる圧縮能力の具体的な研究は、しかしながら、我々の将来の研究に属する。データレートのわずかな増加は、領域がコロナアーチファクトを回避するためにわずかに重複しているため、階層化アプローチによって予想される。ビットレートの増加に関する具体的なコストは、まだ研究されることを必要とする。

データ範囲および可能な圧縮目的に関して最適な残りのデータの表現を見つけるために、２つの変形が研究された。それは、１つのバッファへの残りのデータの結合および中心画像への残りのデータの投影である。第１の変形は、図１５の左上に示される。ここで、両方の側部画像からの残りのデータは、図１５の右上の赤い領域によって示されるように、無作為に重なる。これは側部画像における異なる色または照明のため歪曲に至り、それは合成された画像においても見える。換言すれば、図１５は、残りのデータの変形を示し、それは、残りの色データ（上部）対結合された投影された色（下部）および重なっている領域の対応するマーキング（下部）である。

第２の変形において、残りの情報は、よりよく両方の側部画像の残りのデータを調整するために、中心画像に投影された。しかしながら、ここで、投影による相当な情報消失は、図１５の左下に示すように、結合されたバッファバージョンにおけるのと同様に１つの残りのバッファにおいて起こる。ここで、全境界データは、図１５の上部と比較して消失した。このアプローチが続く場合、このデータは画像合成の間、外挿されなければならなかったか、または、より大きい残りのバッファがスペースをすべての情報に提供することを必要とする。また、データ重なりは、合成プロセスにおいてより見えるアーチファクトを示すこの変形においてさらなる情報が重複することを示すためにマークされた。

ＬＤＶデータを受信した後に、画像合成アルゴリズムは、中間画像を生成するために適用される。
画像合成は、［参考文献３４］と同様に、３つの部分から成り、それは、レイヤー抽出（エッジ検出および信頼性の高いおよび境界領域への分離）、レイヤー投影（領域および融合の個々のＤＩＢＲ）および中間画像の向上（修正、クリーンアップおよびフィルタリング）である。これらのステップは、完全なマルチビュー＋深度中間画像合成と類似しているが、その実施においてＬＤＶに適合していることを必要とする。

また、レイヤー抽出は、最初に実行される。階層化アプローチと連携する考えは、自由視点ナビゲーションの応用のために〔参考文献３０〕においてすでに研究されており、そこにおいて、検出されたエッジに沿って信頼できないとして、７−サンプル広域部の境界レイヤーがマークされる。〔参考文献３０〕とは対照的に、次のサブセクションに示すように、異なる処理を可能にするために、青および緑の領域として図２に示すように、この領域は、フォアグラウンドおよびバックグラウンド境界レイヤーに分離される。

それから、レイヤー投影は実行される。中心画像および残りの情報は、合成される中間画像に投影される。

中間画像の投影は、古典的イメージベースの３Ｄワープとして行われる。第１に、オリジナルの２Ｄ画像のサンプルは、カメラ較正および真の深度情報を有する関連する深度値を用いて、３Ｄ空間に投影される。第２に、結果として得られる３Ｄ世界点は、生成される中間画像に前方投影される。仮想観察位置を定める第２ステップのための投影マトリクスは、位置依存パラメータλ∈［０・・・１］、ここでは例えば中央位置を定めるλ＝０．５を用いて、関係する２つのオリジナルの画像のマトリクスから補間される。これは、回転パラメータを除くすべてのカメラパラメータのための線形補間を用いてなされ、それは、回転マトリックス正規直交性を維持するために球面一次補間［参考文献２４］を必要としている。

このアプローチに続いて、我々は、中心画像と各側部画像との間に別に画像を補間する。レイヤー投影は、中心画像の主レイヤーを中間のカラーバッファｌ_iおよび対応する浮動小数点深度データｄ_iに投影することによって始まる。その後、適当な側部画像からの残りのデータは、中間画像にも投影されて、ｌ_iおよびｄ_iの非閉塞領域を満たすために用いられる。結果として生じる共通の主レイヤーｌ_iは、図１６に示される。

次のステップにおいて、中心画像からのフォアグラウンド境界レイヤーは投影されて、共通の主レイヤーと結合される。これは、色および浮動小数点深度にも適用される。結合のために、簡単な深度試験が使われる。主としてフォアグラウンド境界サンプルである、いずれのレイヤーからも最前面のサンプルが得られる。換言すれば、図１６は、投影の後の共通の主レイヤーを示す。

最終ステップにおいて、バックグラウンド境界レイヤーが投影される。この情報は、中間画像の残りのホールを埋めるために用いられるだけである。フォアグラウンドレイヤーとともに共通の主レイヤーがすでに大部分のサンプルをカバーするので、図１６において分かるように、ほんのわずかのバックグラウンド境界サンプルだけが用いられる。このように、バックグラウンド領域の中でコロナのようなアーチファクトが生じる原因となるオリジナル画像からのオブジェクト境界における色の歪んだサンプルは省略される。我々のＬＤＶデータ抽出アルゴリズムにおいて、残りの情報は増大されて、場合により歪んだバックグラウンド境界レイヤーが投影される前に、すでにこれらの重要部位をカバーしている。

最後に中間画像の向上が実行される。アルゴリズムのこの最後の部分は、〔参考文献３４〕と類似していて、合成された画像の修正、クリーンアップおよびフィルタリングを適用する。ここで、２種類のホールが発生し、それは小さいクラックおよびより大きい欠落領域である。クラックは、投影の前方ワープの性質によって生じる。それらは、隣接する深度値と比較してかなり異なる値を有する深度バッファにおける細線として、深度バッファにおいて検出される。検出の後、クラックは、隣接する値から色バッファにおいて満たされる。

第２のタイプのホールは、より大きな欠落領域を含む。それらは誤った深度値のため発生するか、または中間画像において見えるようになった領域であり、その一方で、両方のオリジナルの画像においてふさがれる。この種のより大きなホールは、隣接する利用できるバックグラウンド情報で埋められる。ここで、ホール境界に沿った対応する深度値は、ホール領域に外挿されるバックグラウンド色サンプルを見つけるために分析される。このアプローチが深度エラーによる欠落領域に対する良い充填結果につながる一方、非閉塞に対する充填は時々フォアグラウンド情報から誤ってとられて、間違った色を呈する。

最後に、フォアグラウンドオブジェクトは、自然な外観を提供するためにエッジに沿ってローパスフィルタリングされる。オリジナルの画像において、オブジェクト境界サンプルは、最初のサンプリングおよびイメージキャプチャリングの間のフィルタリングによるフォアグラウンドおよびバックグラウンドオブジェクトの混色である。我々の階層化アプローチのレンダリングされた中間画像において、バックグラウンドでのコロナアーチファクトを回避するために、これらの混合色サンプルは、しばしば除外される。したがって、あたかもフォアグラウンドオブジェクトが場面に人工的に挿入されたかのように、若干のフォアグラウンド−バックグラウンド境界は異常に鋭く見える。したがって、上述のＣａｎｎｙのエッジ検出フィルタ［参考文献２］はエッジを確認するために最終的な深度情報に適用され、平均化ローパスフィルタはより自然な外観を提供するために対応する色サンプルに適用される。さらに、フィルタリングは、深度不連続性に沿って残留するアーチファクトを減らすのを助ける。

中心画像および残りの側部画像のデータからのＬＤＶデータを用いて再現された側部画像が図１７に示される。換言すれば、図１７は、中心画像＋左の残りのデータ（左）および中心＋右の残りのデータ（右）を有するフィルタリング後の最終的な画像合成を示す。

再現された側部画像は上質であって、コロナアーチファクトのような強く見える歪みを有しない。これらのアーチファクトは、提案されたＬＤＶ抽出プロセスによって抑制され、残りのレイヤーは拡大される。この方法の効果は、拡大された領域に関する図１８に示され、そこにおいて、拡張されていない残りのデータを有する古典的な直接前方ＬＤＶアプローチが我々のアプローチに対して比較される。換言すれば、図１８は、古典的なＬＤＶ（左）および残りのレイヤー拡大を有する我々のＬＤＶ（右）の間の比較を示す。

しかしながら、側部画像からの残りのデータと共に１つの中心画像を使用するだけであるＬＤＶデータの限られた性質のため、若干の色差が見える。ＬＤＶのための画像合成および完全なマルチビュー画像プラス深度（ＭＶＤ）の直接比較が図１９に示される。換言すれば、図１９は、ＬＤＶ（左）およびＭＶＤ（右）のための中間画像の合成の間の比較を示す。

ＬＤＶに対する中間画像が若干の色の相違、例えば図１９の左におけるバレエ・ダンサーの左に対する影のような領域を示す一方、ＭＶＤの中間画像はこの種のアーチファクトを示さない。

画像補間器の目的は、Ｍ個の画像プラスＭＶＤ表現の深度から３ＤＶシステムに対するＮ個の入力画像をつくることである。１つの例は、フィリップスの自動立体ディスプレイであり、目の間隔（ほぼ５ｃｍ）を有する９つの画像が入力として必要である。このようなセットアップのために、結果として生じる９つの画像のうちの５つは、バレーおよびブレイクダンスの踊り手のデータセットに関する図６に示される。ここで、それぞれの第２の画像が示され、それは合成された側部画像および中間画像と同様に中心画像を含む。全９つの画像については、ペアになった立体的な画像は、運動視差および３Ｄ深度印象をサポートするために利用できる。

第３実施例を要約すると、高度な３Ｄ映像（３ＤＶ）システムのための階層化深度映像（ＬＤＶ）表現フォーマットが与えられた。３Ｄ映像システムのコンセプトを示した後に、ＬＤＶデータの作成は３倍のカメラの設定のために説明され、中心カメラの完全なイメージデータが、２台の横のカメラからの残りの情報と共に使われる。オブジェクト境界に沿った視覚のアーチファクトを最小化するために、レイヤーベースのアプローチは、このような境界に沿った信頼できない領域における付加的な残りの情報を得るために用いられる。投影された中心画像および側部画像の間に単なる非閉塞差が発生するより、残りのデータはわずかにより多くのピクセルをカバーする。

３Ｄディスプレイでの画像合成のために、レイヤーベースのアプローチは、可視アーチファクトを減らすために用いられる。第１に、中心画像の信頼性の高い情報は所望の中間画像に投影され、後に主レイヤーをつくるために関連する側部画像の残りの情報が続く。その後、中心画像の残りの信頼できない情報は、フォアグラウンドおよびバックグラウンド境界レイヤーとして投影されて、視覚のアーチファクトを減らすために、主レイヤーに別に結合される。最後に、ホール充填および著しく異なる深度値のオブジェクト境界に沿ったローパスフィルタリングの形での画像向上は、中間画像の外観を改良するために適用される。

導入された方法については、ＬＤＶに基づく記載されている３Ｄ画像コンセプトのための上質の中間画像の合成が示される。ＭＶＤに対する比較は、ＬＤＶアプローチのための非閉塞領域における異なる色の照明に関して軽微な低下だけを示した。
将来の仕事は、与えられたＬＤＶフォーマットのための効率的な符号化方法を含む。

このように、前記実施例は、とりわけ、深度不連続性の特定の処理を使用するイメージベースのレンダリング（ＩＢＲ）の状況における品質拡張のためのアルゴリズム、ホール充填および非閉塞処理を形成する。これらの実施例のいくつかが、高度な３Ｄ映像アプリケーションで使われることができる。このようなアプリケーションは、例えば、同時に９つ以上の画像、および広範囲の自由視点ナビゲーションを有する広範囲自動立体ディスプレイのサポートを含む。後のものの両方とも、複数の画像および関連するピクセルごとの深度データを結合するデータフォーマットに依存する。マルチビュー画像プラス深度（ＭＶＤ）フォーマットにおいて、完全な画像および完全な深度マップ画像が用いられる。階層化深度映像（ＬＤＶ）フォーマットにおいて、単に１つの完全な画像だけおよび関連する完全な深度マップ画像およびバックグラウンドレイヤー深度マップ画像を有するさらなるバックグラウンドレイヤー画像が用いられる。特に、上述の実施例は、深度に基づく中間画像、すなわちイメージベースのレンダリング（ＩＢＲ）または深度イメージベースのレンダリング（ＤＩＢＲ）に役立つ。このように、それらは、想定されたアプリケーションをサポートするために任意の画像を生成するために用いられる。しかしながら、上記した実施例は、ＭＶＤであれＬＤＶであれ、そのようなＤＩＢＲアルゴリズムの問題を解決し、能率的に必要性に対処することを可能にする。これらの問題および必要性は、異なる理由のため深度不連続性に沿って現れるアーチファクト、レンダリングのための前方マッピングアプローチのためにホール充填を実行する必要性、および最後に入力データから利用可能でない非閉塞領域の処理／充填を含む。上述の実施例は、さまざまな方法でこれらの課題に対処する。例えば、アーチファクトを減らすために、特定の境界処理が深度不連続性のために使われる。深度不連続性は、エッジ検出によって深度イメージにおいて検出される。イメージは、それらの深度不連続性に沿っていない信頼性の高い領域、およびそれらの検出された深度不連続性に沿った信頼できない領域に分割される。特定の／異なる処理が信頼できない領域のために使われるのに対して、信頼性の高い領域はＤＩＢＲを使用して処理される。フォアグラウンドの信頼できない領域およびバックグラウンドの信頼できない領域への更なる分割は、更に良質な結果を増加させる。すべての領域は、別に、そして、異なって処理される。最後に、すべての異なる処理されたイメージ領域を最終的な出力画像に結合する方法が与えられた。さらに、前方マッピング課題に対処する特定のホール充填アルゴリズムが記載された。最後に、非閉塞領域の充填のための効率的なアルゴリズムは上に示された。

いくつかの変更が前記実施例になされることができる点に留意する必要がある。例えば、Ｖ１およびＶ９のために送信される情報が非境界、バックグラウンド境界領域およびフォアグラウンド境界領域への分割を示すように、第２実施例の範囲内で示されるＬＤＶ抽出プロセスは実行されることができる。さらに、Ｖ５のために送信される情報が、非境界、バックグラウンド境界領域およびフォアグラウンド境界領域への分割を示し、それにより、エッジ検出およびバックグラウンドおよびフォアグラウンドへの分割に関する限り、それぞれのレイヤー抽出プロセスが再び実行される必要がないように、ＬＤＶ抽出プロセスは実施されることもできる。上述のＭＶＤ実施例にも、同じことがあてはまる。さらに、上述の強化、修正、クリーンアップおよびフィルタリングプロセスは、それぞれのアプリケーションに応じて、離れたままにてしておくことができる。投影は、例えばクラックが発生しないように、他の方法で実行されることができる。特に、投影は、より複雑でないように実行されることができる。これは、特に、例えば、画像が線形に、そして平行軸に配置される場合に真である。例えば、投影は、基線に沿って中間イメージにピクセルを移すだけで実行されることができる。シフトの量は、中間画像および深度／視差からの偏差に依存する。このように、投影は、例えば、３Ｄ投影のための投影マトリクスを用いて、または、特定の平行したカメラ配置に対する単純なピクセルシフトにより実行されることができる。さらに、フォアグラウンドおよびバックグラウンド境界部への分離は、全体としての境界領域、またはフォアグラウンドおよびバックグラウンドに沿った境界の他の部分が、バックグラウンド領域に関して上述したように扱われることができるより簡単なアプローチによって代用されることができる。

さらに、前記実施例において、例えばタイムオブライトカメラなどで与えられるように、深度情報が、中間画像合成装置、すなわちレシーバ側、およびマルチビューデータ信号抽出装置、すなわち送信側に与えられているが、これらの装置が画像、すなわちそれ自体明度および／または彩度情報を表すピクセルサンプルから深度情報を推定するように構成されることができる。これは、特にレシーバ側で真である。深度情報は、マルチビュー信号からこの情報を得るよりもむしろレシーバで生成されることができる。後者は、次に、深度情報がなくてもよい。

若干の態様が装置の文脈において記載されているが、これらの態様も対応する方法の説明を表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈に記載されている態様も、対応する装置の対応するブロックまたは項目または特徴の説明を表す。

この発明の符合化されたオーディオ信号は、デジタル記憶媒体に格納されることができ、またはインターネットなどのような無線伝送媒体または有線伝送媒体のような伝送媒体上に送信されることができる。

特定の実現要求に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアで実施されることができる。実現は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）ように、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフレキシブルディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリーなどを使用して実行されることができる。したがって、デジタル記憶媒体は、コンピュータ可読のものである。

本発明によるいくつかの実施例は、本願明細書において記載されている方法のうちの１つが実行されるように、それはプログラム可能なコンピュータシステムと協働することができる、電子的に読み込み可能な制御信号を有するデータキャリアを含む。

通常、本発明の実施例は、コンピュータ・プログラム製品がコンピュータで動くときに、プログラムコードが方法のうちの１つを実行するプログラムコードを有するコンピュータ・プログラム製品として実施されることができる。プログラムコードは、例えば、機械可読キャリアに格納される。

他の実施例は、ここに記載され、機械可読キャリアに格納される方法のうちの１つを実行するためのコンピュータ・プログラムを含む。

換言すれば、発明の方法の実施例は、コンピュータ・プログラムがコンピュータで動くときに、ここに記載されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータ・プログラムである。

発明の方法の更なる実施例は、その上に記録されて、ここに記載されている方法のうちの１つを実行するためのコンピュータ・プログラムを含むデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

発明の方法の更なる実施例は、ここに記載されている方法のうちの１つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号のシーケンスは、データ通信コネクションを介して、例えばインターネットで伝送されるように構成されることができる。

更なる実施例は、処理手段、例えばここに記載された方法の１つを実行するように適応されるコンピュータまたはプログラマブルロジックデバイスを含む。

更なる実施例は、ここに記載されている方法のうちの１つを実行するためのコンピュータ・プログラムがインストールされたコンピュータを含む。

いくつかの実施形態において、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）は、ここに記載されている方法の機能性のいくつかまたは全てを実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、ここに記載されている方法のうちの１つを実行するために、マイクロプロセッサと協働することができる。通常、方法は、いかなるハードウェア装置によっても好ましくは実行される。

本発明がいくつかの好ましい実施例に関して記載されたが、変更、置換および本発明の範囲内になる等価物がある。また、本発明の方法および構成を実行する多くの別な方法があることは注意すべきである。したがって、以下の添付の請求の範囲が本発明の真の趣旨および範囲の中ですべてのこの種の変更、置換および等価物を含むことと解釈されることが意図される。

（参考文献）
[1]S. Avidan, A. Shashua, "Novel view synthesis in tensor space". In Confer ence on Computer Vision and Pattern Recognition, pp 1034-1040, San Ju an, Puerto Rico, 1997.
[2]J. F. Canny, "A computational approach to edge detection", IEEE Trans. Pa ttern Analysis and Machine Intelligence, Vol. 8 , No. 6, pp. 679-698, N ovember 1986.
[3]G.-C. Chang and W.-N. Lie, "Multi-view image compression and intermediate vie w synthesis for stereoscopic applications", IEEE International Symposium on Circuits and Systems, ISCAS 2000, pp. 277-280, 2000.
[4]N. L. Chang, A. Zakhor, "A multivalued representation for view synthesis", Proc. IEEE International Conference on Image Processing (ICIP'99), pp. 505-509, Oct. 1999.
[5]S. Chen, L. Williams, "View interpolation for image synthesis", Computer Graphics (SIGGRAPH'93), pp. 279-288, 1993.
[6]O. Faugeras, "Three-dimensional computer vision: A geometric viewpoint", MIT Press, Cambridge, Massachusetts, 1993.
[7]C. Fehn, P. Kauff, M. Op de Beeck, F. Ernst, W. Ijsselsteijn, M. Pollefeys, L . Vangool, E. Ofek, and I. Sexton, "An Evolutionary and Optimised Approach o n 3D-TV", IBC 2002, Int. Broadcast Convention, Amsterdam, Netherlan ds, Sept. 2002.
[8]F. Forsters, M. Lang, and B. Radig, "Real-time Range Imaging for Dynamic Scen es using colour-edge based Structured Light", in Proc. Int. Conf. Patte rn Recognition, vol. 3, pp. 645-628, 2002.
[9]R. Hartley, A. Zisserman, "Multiple View Geometry in Computer Vision", Ca mbridge University Press, 2003
[10]ISO/IEC JTC1/SC29/WG11 "Description of Exploration Experiments in 3D Video", Doc. N9596, Antalya, Turkey, Jan. 2008.
[11]ISO/IEC JTC1/SC29/WG11, "Text of ISO/IEC FDIS 23002-3 Representation of Auxi liary Video and Supplemental Information", Doc. N8768, Marrakech, Morocco, J anuary 2007.
[12]ISO/IEC JTC1/SC29/WG11, "Text of ISO/IEC 13818-1:2003/FDAM2 Carriage of Auxi liary Data", Doc. N8799, Marrakech, Morocco, January 2007.
[13]Jong Dae Oh; Siwei Ma; Kuo, C.-C.J., "Disparity Estimation and Virtual View Synthesis from Stereo Video", IEEE International Symposium on Circuits and S ystems, ISCAS 2007, pp. 993 - 996, May 2007.
[14]A. Katayama, K. Tanaka, T. Oshino, and H. Tamura, "A viewpoint dependent ste reoscopic display using interpolation of multi-viewpoint images", S. Fis her, J. Merritt, and B. Bolas, editors, Stereoscopic Displays and Virtual Re ality Systems II, Proc. SPIE, vol. 2409, pp. 11-20, 1995.
[15]P. Kauff, N. Atzpadin, C. Fehn, M. Muller, O. Schreer, A. Smolic, and R. Tan ger, "Depth Map Creation and Image Based Rendering for Advanced 3DTV Service s Providing Interoperability and Scalability", Signal Processing: Image Communication. Special Issue on 3DTV, February 2007.
[16]R. Koch, M. Pollefeys and L. Van Gool, "Multi Viewpoint Stereo from Uncalibr ated Video Sequences", Proc. European Conference on Computer Vision, EC CV'98, LNCS, Springer-Verlag, Freiburg, 1998.
[17]J. Konrad and M. Halle, "3-D Displays and Signal Processing - An Answer to 3-D Ills?", IEEE Signal Processing Magazine, Vol. 24, No. 6, Novemb er 2007.
[18]Y. Li, C.-K. Tang, and H.-Y. Shum, "Efficient dense depth estimation from de nse multiperspective panoramas," in Proc. International Conference on Co mputer Vision (ICCV), Vancouver, B.C., Canada, Jul. 2001, pp. 119-126.
[19]J.S. McVeigh, M. Siegel, and A. Jordan, "Intermediate view synthesis conside ring occluded and ambiguously referenced image regions", Signal Process ing: Image Communication, vol. 9, pp. 21 - 28, 1996.
[20]P. Merkle, A. Smolic, K. Mueller, and T. Wiegand, "Efficient Prediction Stru ctures for Multiview Video Coding", invited paper, Proc. IEEE Trans. on Circuits and Systems for Video Technology, Vol. 17, No. 11, November 20 07.
[21]M. Morimoto, K. Fujii, "A view synthesis method based on object coding and s imple disparity model", IEEE International Symposium on Communications and I nformation Technology, ISCIT 2004, vol. 2, pp. 853 - 856, Oct. 2004.
[22]J. Salvi, J. Pages, and J. Battle, "Patter Codification Strategies in Struct ured Light Systems", Pattern Recognition, vol. 37, no. 4, pp. 827- 849, 2004.
[23]D. Scharstein, "Stereo vision for view synthesis", IEEE Computer Societ y Conference on Computer Vision and Pattern Recognition (CVPR'96), pp. 852-857, San Francisco, California, 1996.
[24]K. Shoemake, "Animating Rotation with Quaternion Curves", ACM SIGGRAPH , San Francisco, USA, July, 1985.
[25]A. Smolic, K. Muller, P. Merkle, C. Fehn, P. Kauff, P. Eisert, and T. Wiegan d, "3D Video and Free Viewpoint Video - Technologies, Applications and MPEG Standards", ICME 2006, IEEE International Conference on Multimedia and Expo, Toronto, Ontario, Canada, July 2006.
[26]C. Strecha, T. Tuytelaars, and L. van Gool, "Dense Matching of Multiple wide -baseline Views, " In Proc. 9th IEEE International Conference on Comput er Vision, pp. 1194-1201, 2003.
[27]R.Y. Tsai, "A versatile camera calibration technique for high-accuracy 3D ma chine vision metrology using off-the-shelf TV camera and lenses", IEEE J ournal of Robotics and Automation, vol. RA-3, no. 4, 1987.
[28] HYPERLINK "http://www.philips.com/3Dsolutions" www.philips.com/3Dsolutions . - last visited 31/03/2008
[29]J. Woetzel and R. Koch, "Real-time multi-stereo depth estimation on GPU with approximative discontinuity handling", 1st European Conference on Visua l Media Production (CVMP 2004), London, United Kingdom, March 2004
[30]C. L. Zitnick, S. B. Kang, M. Uyttendaele, S. Winder, and R. Szeliski, "High -Quality Video View Interpolation Using a Layered Representation", ACM SIGGRAPH and ACM Trans. on Graphics, Los Angeles, CA, USA, August 2004.
[31]C. Chang, G. Bishop, and A. Lastra, "LDI tree: A hierarchical representation for image-based rendering," in Proceedings of ACM SIGGRAPH'99, Los Angeles, CA USA, 1999, pp. 291-298.
[32]X. Cheng, L. Sun, S. Yang, "Generation of Layered Depth Images from Multi-View Video", Proc. IEEE International Conference on Image Processing (ICIP'07), San Antonio, TX, USA, vol. 5, pp: 225-228, Sept. 2007.
[33]J. Shade, S. Gortler, L. Hey, and R. Szeliski, "Layered depth images", in Proceedings of ACM SIGGRAPH'98, Orlando, Florida, 1998, pp. 231-242.
[34]A. Smolic, K. Muller, K. Dix, P. Merkle, P. Kauff, and T. Wiegand, "Intermediate View Interpolation based on Multi-View Video plus Depth for Advanced 3D Video Systems", to be published in Proc. IEEE International Conference on Image Processing (ICIP'08), San Diego, CA, USA, Oct. 2008.

Claims

第１の画像に対応する第１のイメージ（１４）および前記第１の画像と異なる第２の画像に対応する第２のイメージ（１６）から中間画像イメージ（１２）を合成するための中間画像合成装置（１０）であって、前記第１および第２のイメージは深度情報を含み、前記第２のイメージ（１６）は非境界部（１６ａ）およびフォアグランド／バックグラウンド境界領域（１６ｂ）に分割され、前記第２のイメージ（１６）のフォアグラウンド／バックグラウンド境界領域（１６ｂ）はフォアグラウンド境界部（１６ｂ１）および前記フォアグラウンド境界部（１６ｂ１）と共通の要素をもたないバックグラウンド境界部（１６ｂ２）を含み、さもなければ前記中間画像イメージ（１２）に表れるホールを満たすためだけに前記フォアグラウンド／バックグラウンド境界領域（１６ｂ）の前記バックグラウンド境界部（１６ｂ２）を用い、前記中間画像に投影し結合するために前記フォアグラウンド／バックグラウンド境界領域（１６ｂ）のフォアグラウンド境界部（１６ｂ１）を用いて、中間画像イメージ（１２）を得るために前記第１のイメージ（１４）および前記第２のイメージ（１６）を前記中間画像に投影し結合するように構成され、前記中間画像合成装置は、
予備の中間画像イメージ（２４）を得るために前記中間画像に前記第１のイメージ（１４）の少なくとも１部とともに前記第２のイメージの非境界部（１６ａ）および前記フォアグラウンド境界部（１６ｂ１）を投影して結合するための手段（２２）、および
前記第２のイメージ（１６）の投影されたバックグラウンド境界部によって前記予備の中間画像イメージ（２４）に前記第２のイメージ（１６）の前記バックグラウンド境界部（１６ｂ２）を投影し、前記予備の中間画像イメージ（２４）における前記ホールを満たすための手段（２６）を含む、中間画像合成装置。
さらに、前記第２のイメージ（１６）における前記フォアグランド／バックグラウンド境界領域（１６ｂ）を検出するための手段（１８）、および
前記第２のイメージ（１６）が前記非境界部（１６ａ）、前記フォアグラウンド境界部（１６ｂ１）および前記バックグラウンド境界部（１６ｂ２）に分割されるように、前記第２のイメージ（１６）の前記フォアグラウンド／バックグラウンド境界部（１６）を前記フォアグラウンド境界部（１６ｂ１）および前記バックグラウンド境界部（１６ｂ２）に分割するための手段（２０）を含む、請求項１に記載の中間画像合成装置。
前記中間画像合成装置は、マルチビューデータ信号（３２）から前記第２のイメージ（１６）の前記非境界部（１６）、前記フォアグラウンド境界部（１６ｂ１）および前記バックグラウンド境界部（１６ｂ２）を区別するレイヤー情報を得るように構成される、請求項１または請求項２に記載の中間画像合成装置。
前記検出するための手段（１８）は前記第１のイメージ（１４）におけるフォアグランド／バックグラウンド境界領域を検出するように構成され、前記第１のイメージ（１４）が非境界部、フォアグラウンド境界部およびバックグラウンド境界部に分割されるように、前記分割するための手段（２０）は前記第１のイメージ（１４）の前記フォアグラウンド／バックグラウンド境界領域をフォアグラウンド境界部およびバックグラウンド境界部に分割するように構成され、前記予備的な中間画像イメージ（２４）を得るために、前記投影し結合するための手段（２２）は前記第１および第２のイメージ（１４、１６）の前記非境界部および前記フォアグラウンド境界部を前記中間画像に投影して結合するように構成され、投影された前記第１および第２のイメージ（１４、１６）のバックグラウンド境界部により、前記投影し満たすための手段（２６）は前記第１および第２のイメージ（１４、１６）の前記バックグラウンド境界部を前記予備的な中間画像イメージ（２４）に投影し、前記予備的な中間画像イメージ（２４）におけるホールを満たすように構成される、請求項２に記載の中間画像合成装置。
前記中間画像合成装置はマルチビューデータ信号から前記第１のイメージ（１４）の少なくとも非境界部およびバックグラウンド境界部を区別するレイヤー情報を得るように構成され、前記予備的な中間画像イメージ（２４）を得るために、前記投影し結合する手段（２２）は前記第２のイメージ（１６）の前記非境界部（１６ａ）と前記フォアグラウンド境界部（１６ｂ１）および前記第１のイメージ（１４）の前記非境界部を前記中間画像に投影して結合するように構成され、前記第１および第２のイメージ（１４、１６）の投影されたバックグラウンド境界部により、前記投影して満たすための手段（２６）は前記第１および第２のイメージ（１４、１６）の前記バックグラウンド境界部を前記予備的な中間画像イメージ（２４）に投影し、前記予備的な中間画像イメージ（２４）におけるホールを満たすように構成される、請求項１または請求項２に記載の中間画像合成装置。
前記中間画像合成装置は、前記第１のイメージ（１４）の非境界部、フォアグラウンド境界部およびバックグラウンド境界部を区別するレイヤー情報を得るように構成され、前記予備的な中間画像イメージ（２４）を得るために、前記投影し結合するための手段（２２）は前記第１および第２のイメージ（１４、１６）の前記非境界部および前記フォアグラウンド境界部を前記中間画像に投影して結合するように構成され、前記第１および第２のイメージ（１４、１６）の投影されたバックグラウンド境界部により、前記投影し満たすための手段（２６）は前記第１および第２のイメージ（１４、１６）の前記バックグラウンド境界部を前記予備的な中間画像イメージ（２４）に投影し、前記予備的な中間画像イメージ（２４）におけるホールを満たすように構成される、請求項１ないし請求項３のいずれかに記載の中間画像合成装置。
前記フォアグラウンド／バックグラウンド境界領域を検出するための手段（１８）は、深度情報におけるエッジを検出するためのエッジ検出器を含む、請求項２または請求項４に記載の中間画像合成装置。
前記分割するための手段（２０）は、フォアグランド／バックグラウンド境界領域（１６ｂ）として前記エッジの周辺のｎサンプル広域部を前記フォアグラウンド境界部（１６ｂ１）および前記バックグラウンド境界部（１６ｂ２）に分割するように構成される、請求項２、請求項４または請求項７に記載の中間画像合成装置。
サンプルが前記フォアグラウンド境界部（１６ｂ１）または前記バッククグラウンド境界部（１６ｂ２）のどちらに帰属するかに関して決めるために、前記分割するための手段（２０）は前記フォアグランド／バックグラウンド境界領域（１６ｂ）のサンプルでの深度情報の深度と閾値とを比較することにより分割を実行するように構成される、請求項２、請求項４、請求項７または請求項８に記載の中間画像合成装置。
前記分割するための手段（２０）は、前記サンプルに隣接する前記フォアグランド／バックグラウンド境界領域（１６ｂ）のサンプルでの深度情報の深度値の中心傾向を計算することにより前記閾値を引き出すように構成される、請求項９に記載の中間画像合成装置。
非境界中間画像イメージを得るために、前記投影して結合するための手段（２２）は前記第１および第２のイメージ（１４、１６）の非境界部を前記中間画像に投影して結合し、前記非境界部の結合は前記第１および第２のイメージ（１４、１６）の間の平均化を含み、前記第１および第２のイメージ画像（１４、１６）の前記フォアグラウンド境界部を前記非境界中間画像イメージに投影して結合し、前記フォアグラウンド境界部の結合は前記非境界中間画像イメージのサンプルとそれ自身の平均化よりもむしろ前記第１および第２のイメージ（１４、１６）の前記フォアグラウンド境界部の投影から得られる同一場所に配置されたサンプルとの間の選択を含むように構成される、請求項４に記載の中間画像合成装置。
３Ｄ世界点を取得し、前記３Ｄ世界点を前記中間画像に投影するために、前記投影して結合するための手段（２２）および前記投影して満たすための手段（２６）は、関連する深度情報の使用による２Ｄから３Ｄへのサンプルの投影により前記中間画像へのそれぞれの投影を実行するように構成される、請求項１ないし請求項１１のいずれかに記載の中間画像合成装置。
前記投影して結合するための手段（２２）および前記投影して満たすための手段（２６）は、前記第１の画像および前記第２の画像の投影マトリクスの間の補間により投影マトリクスを計算し、前記投影マトリクスの使用により前記３Ｄ世界点の投影を実行するように構成される、請求項１２に記載の中間画像合成装置。
前記投影して結合するための手段（２２）および前記投影して満たすための手段（２６）は、前記中間画像からの偏差に応じた量でサンプル位置をピクセル平面内でシフトすることにより前記中間画像へのそれぞれの投影を実行するように構成される、請求項１ないし請求項１３のいずれかに記載の中間画像合成装置。
前記中間画像合成装置は、マルチビューデータ信号から前記第１の画像に対応する前記第１のイメージ（１４）および前記第２の画像に対応する前記第２のイメージ（１６）を抽出し、前記第１および第２のイメージの深度情報を含むように構成され、前記第１のイメージ（１４）の一部分のみが前記マルチビューデータ信号に含まれ、それと共通の要素をもたない部分は前記マルチビューデータ信号において破棄され、前記第２のイメージ（１６）の投影バージョン（４８）の中の非閉塞領域（５０）の位置に応じた前記第１のイメージ（１４）の部分は、バックグラウンド境界部（１６６２）のない前記第２のイメージ（１６）を前記第１の画像に投影することにより得られる、請求項１ないし請求項１４に記載の中間画像合成装置。
さらに、前記中間画像イメージの残りのホールへのフィルタリングおよび／または外挿によって前記中間画像イメージを向上させるための手段（２８）を含む、請求項１ないし請求項１５のいずれかに記載の中間画像合成装置。
さらに、前記中間画像イメージのフォアグラウンド／バックグラウンド境界領域を検出し、前記中間画像イメージの前記フォアグラウンド／バックグラウンド境界領域の中でローパスフィルタリングすることにより前記中間画像イメージを向上させるための手段（２８）を含む、請求項１ないし請求項１６のいずれかに記載の中間画像合成装置。
前記第１および第２のイメージ（１４、１６）はＭＶＤまたはＬＤＶ映像の一部である、請求項１ないし請求項１７のいずれかに記載の中間画像合成装置。
前記第１および第２の画像（１４、１６）は深度情報に関連する色情報を有する、請求項１ないし請求項１８のいずれかに記載の中間画像合成装置。
前記中間画像合成装置は３ＤＴＶディスプレイシステムの一部である、請求項１ないし請求項１９のいずれかに記載の中間画像合成装置。
第１の画像に対応する第１のイメージ（３４）および前記第１の画像と異なる第２の画像に対応する第２のイメージ（３６）からマルチビューデータ信号（３２）を抽出するためのマルチビューデータ信号抽出装置であって、前記第１および第２のイメージは深度情報を含み、
前記第２のイメージにおけるフォアグランド／バックグラウンド境界（４０）を検出するための手段（３８）、
前記フォアグランド／バックグラウンド境界（４０）に沿って前記第２のイメージのバックグラウンド境界部（４４）を決定するための手段（４２）、
非閉塞領域（５０）を有する前記第２のイメージ（３６）の投影バージョン（４８）を得るために前記バックグラウンド境界部（４４）のない前記第２のイメージ（３６）を前記第１のイメージに投影するための手段（４６）、および
前記第２のイメージ（３６）の投影バージョン（４８）の中の前記非閉塞領域（５０）の位置に応じて、前記第１のイメージ（３４）の一部とともに前記第２のイメージ（３６）を前記マルチビューデータ信号（３２）に挿入するための手段（５２）を含む、マルチビューデータ信号抽出装置。
さらに、前記第２のイメージの投影バージョンの中の前記非閉塞領域（５０）が及ぶ前記第１のイメージ（３４）の領域として前記マルチビューデータ信号（３２）に挿入される前記第１のイメージ（３４）の一部を決定するための手段（５４）を含む、請求項２１に記載のマルチビューデータ信号抽出装置。
非閉塞部を有する前記第２のイメージのさらなる投影バージョンを得るために、前記投影するための手段（４８）は、前記バックグラウンド境界部のない前記第２のイメージを第３の画像に投影するように構成され、前記挿入するための手段は、前記第２のイメージのさらなる投影バージョンの中の前記非閉塞領域の位置に応じて、前記第２のイメージ、前記第１のイメージの一部および第３のイメージの一部を前記マルチビューデータ信号に挿入するように構成され、前記第２の画像は前記第１および第３の画像の間に配置される、請求項２１または請求項２２に記載のマルチビューデータ信号抽出装置。
前記挿入するための手段（５２）は、レイヤー情報を前記マルチビューデータ信号（３２）に挿入し、前記レイヤー情報は、少なくとも前記非境界部（５６）および前記第２のイメージの前記バックグラウンド境界部（４４）を区別するように構成される、請求項２３に記載のマルチビューデータ信号抽出装置。
さらに、前記第２のイメージの投影および／または前記第２のイメージの投影バージョンのフィルタリングから生じている小さいホールを満たすための手段（５８）を含む、請求項２１ないし請求項２４のいずれかに記載のマルチビューデータ信号抽出装置。
前記挿入するための手段（５２）は、前記第２のイメージの投影バージョンの中の前記非閉塞領域（５０）の位置に応じた部分と共通の要素をもたない前記第１のイメージの残りの部分を廃棄し、前記マルチビューデータ信号（３２）における破棄を示すように構成される、請求項２１ないし請求項２５のいずれかに記載のマルチビューデータ信号抽出装置。
フォアグランド／バックグラウンド境界（４０）を検出するための手段（３８）は、深度情報におけるエッジを検出するためのエッジ検出器を含む、請求項２１ないし請求項２６のいずれかに記載のマルチビューデータ信号抽出装置。
前記決定するための手段（４２）は、エッジの周辺のｎ−サンプル広域部をフォアグラウンド境界部および前記バックグラウンド境界部に分割するように構成される、請求項２７に記載のマルチビューデータ信号抽出装置。
前記決定するための手段（４２）は、サンプルが前記フォアグラウンド境界部に属するか前記バックグラウンド境界部に属するかに関して決定するために、ｎ−サンプル広域部のサンプルでの深度情報の深度と閾値とを比較することにより分割を実行するように構成される、請求項２８に記載のマルチビューデータ信号抽出装置。
前記決定するための手段（４２）は、サンプルに隣接するｎサンプル広域部のサンプルでの深度情報の深度値の中心傾向を計算することにより閾値を引き出すように構成される、請求項２９に記載のマルチビューデータ信号抽出装置。
３Ｄ世界点を取得し、前記３Ｄ世界点を前記中間画像に投影するために、前記投影するための手段（４６）は、関連する深度情報の使用により２Ｄから３Ｄにサンプルを投影することによって前記第１の画像へのそれぞれの投影を実行するように構成される、請求項２１ないし請求項３０のいずれかに記載のマルチビューデータ信号抽出装置。
前記投影するための手段（４６）は、前記第１の画像および前記第２の画像の間の補間により投影マトリクスを計算し、前記投影マトリクスを用いて３Ｄ世界点の投影を実行するように構成される、請求項３１に記載のマルチビューデータ信号抽出装置。
前記投影するための手段（４２）は、前記中間画像からの偏差に応じた量でサンプル位置をピクセル平面内でシフトすることにより前記中間画像へのそれぞれの投影を実行するように構成される、請求項２１ないし請求項３２のいずれかに記載のマルチビューデータ信号抽出装置。
第１の画像に対応する第１のイメージおよび前記第１の画像と異なる第２の画像に対応する第２のイメージから中間画像イメージを合成するための中間画像合成方法であって、前記第１および第２のイメージは深度情報を含み、前記第２のイメージは非境界部およびフォアグランド／バックグラウンド境界領域に分割され、前記第２のイメージ（１６）のフォアグラウンド／バックグラウンド境界領域（１６ｂ）はフォアグラウンド境界部（１６ｂ１）および前記フォアグラウンド境界部（１６ｂ１）と共通の要素をもたないバックグラウンド境界部（１６ｂ２）を含み、前記中間画像合成方法は、
予備の中間画像イメージ（２４）を得るために前記中間画像に前記第１のイメージ（１４）の少なくとも１部とともに前記第２のイメージの非境界部（１６ａ）および前記フォアグラウンド境界部（１６ｂ１）を投影して結合するステップ、および
前記第２のイメージ（１６）の投影されたバックグラウンド境界部によって前記予備の中間画像イメージ（２４）に前記第２のイメージ（１６）の前記バックグラウンド境界部（１６ｂ２）を投影し、前記予備の中間画像イメージ（２４）における前記ホールを満たすステップを含む、中間画像合成方法。
第１の画像に対応する第１のイメージおよび前記第１の画像と異なる第２の画像に対応する第２のイメージを含むマルチビュー表現からマルチビューデータ信号を抽出するためのマルチビューデータ信号抽出方法であって、前記第１および第２のイメージは深度情報を含み、
前記第２のイメージにおけるフォアグランド／バックグラウンド境界を検出するステップ、
前記フォアグランド／バックグラウンド境界に沿ってバックグラウンド境界部を決定するステップ、
非閉塞領域を有する前記第２のイメージの投影バージョンを得るために前記バックグラウンド境界部のない前記第２のイメージを前記第１の画像に投影するステップ、および
前記第２のイメージの投影バージョンの中の前記非閉塞領域の位置に応じて、前記第１のイメージの一部とともに前記第２のイメージを前記マルチビューデータ信号に挿入するステップを含む、マルチビューデータ信号抽出方法。
コンピュータ上で動作するときに、請求項３４または請求項３５に記載の方法を実行するための命令を有する、コンピュータ・プログラム。