JP2006024206A

JP2006024206A - シーンの２レイヤ３ｄ表現を生成するシステムおよび処理

Info

Publication number: JP2006024206A
Application number: JP2005179123A
Authority: JP
Inventors: Charles Zitnick Iii; ジトニックザサードチャールズ; Matthew Uyttendaele; ウィッテンダールマシュー; Richard Szeliski; スゼリスキリチャード; Simon Winder; ウィンダーシモン; Sing Bing Kang; ビンカンシング
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-06-28
Filing date: 2005-06-20
Publication date: 2006-01-26
Anticipated expiration: 2025-06-20
Also published as: US7206000B2; KR20060046514A; KR100888537B1; KR100971862B1; CN100568272C; US20060114253A1; ATE393939T1; DE602005006347T2; JP3996933B2; CN1716311A; US20050285874A1; US7015926B2; KR20090007271A; EP1612738A2; EP1612738A3; DE602005006347D1; EP1612738B1

Abstract

【課題】イメージおよびイメージのピクセル視差マップからディジタルイメージまたはディジタル化されたイメージの２レイヤ３Ｄ表現を生成するシステムおよび処理を提示する。
【解決手段】２レイヤ表現に、イメージの深さ不連続領域の対応する位置のピクセルに関連するバックグランドカラーおよびバックグラウンド視差を示すピクセルならびに深さ不連続領域内にないイメージの対応する位置のピクセルに関連するカラーおよび視差を示すピクセルを有するメインレイヤが含まれる。他方のレイヤは、深さ不連続領域の対応する位置のピクセルに関連するフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値を示すピクセルから構成される境界レイヤである。深さ不連続領域は、イメージの視差マップを使用してイメージ内で発見される深さ不連続を囲む指定されたサイズの領域に対応する。
【選択図】図３Ａ

Description

本発明は、ディジタルイメージまたはディジタル化されたイメージのレイヤ表現に関し、具体的には、シーンの２レイヤ３Ｄ表現を生成するシステムおよび処理に関する。

最近数年間、ＴＶコマーシャルおよび長編映画を観る人は、時間を止め、カメラ視点を移動するという幻想を作成するのに使用される「静止画」効果を見てきた。最も早期のコマーシャルは、時間の凍結されたスライスを通って移動するという幻想を与えるためにレールに沿って配列された異なる静止画カメラの間で素早くジャンプする、フィルムベースのシステムを使用して作成された。

はじめて現れた時に、その効果は、新鮮で華々しく見えたが、ほどなく、多数の作品でエミュレートされ、そのうちで最も有名なものが、多分、「マトリックス」という題名の映画で見られる「バレットタイム（ｂａｌｌｅｔｔｉｍｅ）」効果である。残念ながら、この効果は、１回限りの事前に計画された仕事である。視点の軌跡が、事前に計画され、多数の人月（ｍａｎｈｏｕｒｓ）が、所望の補間されたビューを作ることに費やされる。より新しいシステムは、ビデオカメラアレイに基づくが、それでも、ソフトウェアビュー補間を避けるために多数のカメラを有することに頼る。

したがって、既存のシステムは、ユーザが、動的なイメージベースのシーンを見ながら、任意の所望の視点に対話式に変更することを受け入れない。過去のイメージベースレンダリング（ＩＢＲ）に関する作業のほとんどが、静的なシーンのレンダリングを伴い、最もよく知られた技法の２つが、ライトフィールドレンダリング（ＬｉｇｈｔＦｉｅｌｄＲｅｎｄｅｒｉｎｇ）［１１］およびルミグラフ（Ｌｕｍｉｇｒａｐｈ）［７］である。高品質レンダリングでのこれらの成功は、多数のサンプリングされたイメージの使用に由来し、この分野での多数の仕事を示唆した。この画期的な仕事の刺激的な潜在的拡張の１つに、ビデオを見ながら視点を対話式に制御することが含まれる。ユーザがビデオの視点を対話式に制御する能力は、見る経験をかなり高め、新しい視点のインスタント再生、ドラマでの視点の変更、および意のままの「静止画」視覚効果の作成などの別個の応用例が可能になる。

しかし、多数のカメラを同期させることならびにイメージの獲得および記憶の難しさ（およびコスト）のゆえに、動的シーンへのＩＢＲの拡張は、自明ではない。複数の視点からの動的シーンのキャプチャ、表現、およびレンダリングでの克服すべき大きな障害があるだけではなく、これを対話式に行うことを可能にすることが、さらなる大きな複雑化をもたらす。現在まで、この目標を達成する試みは、非常に不満足なものである。

対話型視点ビデオシステムのビデオベースレンダリング態様に関して、動的シーンのキャプチャおよびレンダリングの最も初期の試みの１つが、カナデ（Ｋａｎａｄｅ）他のＶｉｒｔｕａｌｉｚｅｄＲｅａｌｉｔｙシステム［１０］であり、これには、５ｍのジオデシックドームの周囲に配置された５１台のカメラが用いられた。各カメラの解像度は、５１２×５１２であり、キャプチャレートは、３０ｆｐｓである。これらのカメラは、シーンフロー式［１７］に基づくボクセルカラーリング［１４］を使用して、各タイムフレームにグローバルサーフェス表現を抽出する。残念ながら、その結果は、低い解像度、マッチングエラー、およびオブジェクト境界の不適切なハンドリングのゆえに、非現実的に見える。

カレンザ他［３］は、３Ｄの人間の動きをキャプチャするために、部屋の中心を見る、部屋の回りに分散した７台の同期化されたカメラを使用した。各カメラは、ＣＩＦ解像度（３２０×２４０）であり、１５ｆｐｓでキャプチャする。彼らは、修道院長として３Ｄ人間モデルを使用して、各タイムフレームに３Ｄ形状を計算した。

ヤン（Ｙａｎｇ）他［１８］は、動的シーンをキャプチャするためにカメラ（各３２０×２４０）の８×８グリッドを設計した。データを記憶し、レンダリングするのではなく、これらは、所望の仮想ビューを構成するのに必要な光線だけを送信する。このシステムでは、カメラがゲンロック（ｇｅｎｌｏｃｋ）されず、６台のＰＣにまたがって内部クロックに頼る。カメラキャプチャレートは、１５ｆｐｓであり、対話型ビューイングレートは、１８ｆｐｓである。

前述のシステムに共通しているのが、シーンジオメトリが、未知であるか、おおまかにのみ既知であるのいずれかであることに部分的に起因して、現実的なレンダリングに大量のイメージが必要であることである。ジオメトリが正確に既知の場合には、イメージの要件を大幅に減らすことが可能である［７］。シーンジオメトリを抽出する１つの実用的な形が、立体視を介するものであり、多数の立体視アルゴリズムが、静的シーンについて提案されてきた［１３］。しかし、動的シーンに立体視技法を使用する試みはほとんど行われてこなかった。ＶｉｒｔｕａｌｉｚｅｄＲｅａｌｉｔｙ作業［１０］の一部として、ベデュラ（Ｖｅｄｕｌａ）他［１７］は、２Ｄオプティカルフローおよび３Ｄシーン形状を使用して３Ｄ動きを抽出する（たとえば、経時的なシーン形状の間の対応）アルゴリズムを提案した。この手法では、ボクセルカラーリング［１４］に似た投票方式（ｖｏｔｉｎｇｓｃｈｅｍｅ）が使用され、使用される測定は、仮定されたボクセル位置が３Ｄフロー式にどれほどよくあてはまるかである。

ザングおよびカムバメツ（ＺｈａｎｇａｎｄＫａｍｂｈａｍｅｔｔｕ）［１９］は、３シーンフローおよび構造をフレームワークに統合した。彼らの３Ｄアフィン動きモデルは、空間正則化（ｓｐａｔｉａｌｒｅｇｕｌａｒｉｚａｔｉｏｎ）と共にローカルに使用され、不連続性が、カラーセグメント化を使用して保存される。タオ（Ｔａｏ）他［１６］は、シーンが区分的に平面であると仮定した。彼らは、動的深さマップ推定を制約するために、平面パッチごとに一定の速度を仮定した。

より野心的な努力で、カーセロニおよびクツラコス（ＣａｒｃｅｒｏｎｉａｎｄＫｕｔｕｌａｋｏｓ）［２］は、既知の照明位置を伴う非剛体運動の下で区分的に連続なジオメトリおよび反射率（フォンモデル）を回復した。彼らは、空間をサーフェス要素（「サーフェル（ｓｕｒｆｅｌ）」）に離散化し、位置、方位、および反射率パラメータに対する検索を実行して、観察されたイメージとの一致を最大にする。

普通のローカルウィンドウマッチングに対する興味深い別の手法で、ザング他［２０］は、空間と時間にまたがるマッチングウィンドウを使用した。この方法の利益は、経時的な明るさの定常性に対する依存が少ないことである。

アクティブレンジファインディング（ａｃｔｉｖｅｒａｎｇｅｆｉｎｄｉｎｇ）技法も、移動するシーンに適用されてきた。ホールホルトおよびラシンキウィッツ（Ｈａｌｌ−ＨｏｌｔａｎｄＲｕｓｉｎｋｉｅｗｉｃｚ）［８］は、経時的に変化する射影された境界コーディングされたストライプパターンを使用した。市場に、イスラエルの３ＤＶＳｙｓｔｅｍｓ社が製造するＺＣａｍ（商標）と称する市販システムもあり、これは、放送ビデオカメラと一緒に使用されるレンジセンシングビデオカメラアドオンである。しかし、これは、高価なシステムであり、単一の視点深さだけを提供し、これによって、複数視点ビデオに適しなくなっている。

しかし、立体視およびイメージベースレンダリングのすべての進展にかかわらず、動的シーンの高品質高解像度ビューをレンダリングすることは、まだ非常に困難である。ライトフィールドレンダリング論文［１１］で提案されているように、１つの手法は、入力カメラおよび仮想カメラの相対位置だけに基づいて単純に光線を再サンプリングすることである。ルミグラフ［７］および後続の研究で実証されているように、シーンジオメトリに３Ｄインポスタ（ｉｍｐｏｓｔｏｒ）またはプロキシを使用することによって、補間されたビューの品質を大きく高めることができる。もう１つの手法は、単純なテクスチャマッピングされた３Ｄモデル［１０］を作成することであるが、これは、一般に、複数の基準ビューの使用より劣る結果を作る。もう１つの手法が、３Ｄプロキシを必要とする、ジオメトリによって援助されたイメージベースレンダリング手法を使用することである。１つの可能性は、ＬｕｍｉｇｒａｐｈａｎｄＵｎｓｔｒｕｃｔｕｒｅｄＬｕｍｉｇｒａｐｈ論文［１］のように単一のグローバル多面体モデルを使用することである。もう１つの可能性は、ＬａｙｅｒｅｄＤｅｐｔｈＩｍａｇｅｓ［１５］のようにピクセルごとの深さ、オフセット深さマップＦａｃａｄｅ［５］のように、または深さ付きスプライト［１５］を使用することである。一般に、基準ビュー［１２、６、９］ごとに異なるローカル幾何プロキシを使用することによって、より高い品質の結果が作られる。

しかし、複数の深さマップさえも、新しいビューを生成する時にレンダリングアーティファクトすなわち、フォアグラウンドからバックグラウンドへの推移の急激な性質に起因するエイリアス（ジャギー）と、新規の背景またはオブジェクトの上に合成する時に可視になる、混合されたピクセルに起因する汚染されたカラーを示す。

この問題は、本発明で、入力イメージの独自の２レイヤ３Ｄ表現を介して対処される。この２レイヤ３Ｄ表現は、対話型視点ビデオシステムで新規のビューをレンダリングすることに関する前述のエイリアス問題を解決するのに使用できるだけではなく、他のコンテキストでも有利に使用することができることに留意されたい。一般に、ディジタルイメージまたはディジタル化されたイメージは、この２レイヤ３Ｄ表現を使用して表すことができる。

前の段落および本明細書の残りの説明で、大括弧の対に挟まれた数値指定子によって識別されるさまざまな個々の刊行物に言及することに留意されたい。たとえば、そのような参考文献は、「参考文献［１］」または単に「［１］」と引用することによって識別することができる。複数の参照は、複数の指定子を含む大括弧の対、たとえば［２、３］によって識別される。各指定子に対応する刊行物を含む参照のリストを、詳細な説明のセクションの末尾に示す。

本発明は、ディジタルイメージまたはディジタル化されたイメージの２レイヤ表現を生成するシステムおよび方法を対象とする。一般に、２つのレイヤに、イメージの深さ不連続領域（ｄｅｐｔｈｄｉｓｃｏｎｔｉｎｕｉｔｙａｒｅａｓ）の対応する位置のピクセルに関連するバックグラウンドカラーおよびバックグラウンド視差を示すピクセル、ならびにこれらの深さ不連続領域で見つからないイメージの対応する位置のピクセルに関連するカラーおよび視差を示すピクセルを有するメインレイヤが含まれる。もう一方のレイヤは、深さ不連続領域の対応する位置のピクセルに関連するフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値を示すピクセルから構成された境界レイヤである。深さ不連続領域は、イメージ内で見つかる深さ不連続を囲む指定されたサイズの領域に対応する。

この２レイヤ表現は、まず、イメージの視差マップを使用して、検討中のイメージ内の深さ不連続の位置を識別することによって生成される。深さ不連続は、隣接ピクセル間の視差値の相違が、指定されたレベルの数を超える位置で発生する。次に、深さ不連続を囲む指定されたサイズの領域内で見つかるイメージのピクセルが、識別される。次に、フォアグラウンドアルファ値と共に、フォアグラウンドカラーおよびバックグラウンドカラーが、マッティング技法を使用して、これらの深さ不連続領域内のピクセルごとに推定される。さらに、フォアグラウンド視差値およびバックグラウンド視差値が、イメージのフォアグラウンド部分とバックグラウンド部分の近傍視差のアルファ加重平均を使用して、深さ不連続領域内のピクセルごとに推定される。次に、深さ不連続領域のピクセルに対応する各位置のピクセルを含むイメージの境界レイヤを確立する。深さ不連続領域の対応するピクセルに関連するフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値が、各境界レイヤピクセルに割り当てられる。さらに、イメージのメインレイヤが確立される。このメインレイヤには、深さ不連続領域のピクセルに対応する各位置のピクセル、ならびに深さ不連続領域のピクセルに対応しないイメージの各ピクセル位置のピクセルが含まれる。深さ不連続領域の対応するピクセルに関連するバックグラウンドカラーおよびバックグラウンド視差値は、メインレイヤの対応する位置のピクセルのそれぞれに割り当てられ、深さ不連続領域内にないイメージのピクセルに関連するカラーおよび視差値は、メインレイヤの対応する位置のピクセルのそれぞれに割り当てられる。フォアグラウンドカラー、フォアグラウンド視差、およびアルファ値が、深さ不連続領域の各ピクセルについて確立されたならば、レイヤからのイメージのレンダリング中に割れ目（ｃｒａｃｋ）が見えないようにするために、普通の膨張（ｄｉｌａｔｉｏｎ）技法を使用して、所定の量だけこれらの領域のサイズを増やすことができることに留意されたい。

上で説明した利益のほかの、本発明の他の利益は、添付図面と共に解釈される時の下の詳細な説明から明白になる。

本発明の特定の特徴、態様、および長所は、次の説明、請求項、および添付図面に関してよりよく理解されよう。

図４Ｃ〜４Ｅのイメージが、反転して示され、その結果、透明／空のピクセルが白く見えていることに留意されたい。

本発明の好ましい実施形態の次の説明では、添付図面を参照するが、この添付図面は、本明細書の一部を形成し、本発明を実施できる特定の実施形態を図によって示すものである。本発明の範囲から逸脱することなく、他の実施形態を使用することができ、構造的変更を行うことができることを理解されたい。

１．０コンピューティング環境
本発明の好ましい実施形態の説明を提供する前に、本発明を実施できる適切なコンピューティング環境の簡単な全般的な説明を説明する。図１に、適切なコンピューティングシステム環境１００の例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の１例にすぎず、本発明の使用または機能の範囲に関するいかなる限定を示唆することを意図するものではない。コンピューティング環境１００を、例示的なオペレーティング環境１００に図示されたコンポーネントのいずれかまたはその組合せに対する依存性または要件を有するものと解釈してもならない。

本発明は、多数の汎用のまたは専用のコンピューティングシステム環境またはコンピューティングシステム構成と共に動作する。本発明と共に使用するのに適し得る周知のコンピューティングシステム、コンピューティング環境、および／またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイス、ラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルな家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれるが、これに限定するものではない。

本発明を、プログラムモジュールなど、コンピュータによって実行される、コンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含む、ローカルとリモートの両方のコンピュータ記憶媒体に配置することができる。

図１を参照すると、本発明を実施する例示的システムに、コンピュータ１１０の形の汎用コンピューティングデバイスが含まれる。コンピュータ１１０のコンポーネントに、処理装置１２０、システムメモリ１３０、およびシステムメモリを含むさまざまなシステムコンポーネントを処理装置１２０に結合するシステムバス１２１が含まれる。システムバス１２１は、メモリバス、メモリコントローラ、周辺バス、およびさまざまなバスアーキテクチャのいずれかを使用するローカルバスを含む複数のタイプのバス構造のいずれかとすることができる。限定ではなく例として、そのようなアーキテクチャに、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、ＥｎｈａｎｃｅｄＩＳＡ（ＥＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカルバス、およびメザニンバスとも称するＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）バスが含まれる。

コンピュータ１１０には、通常は、さまざまなコンピュータ可読媒体が含まれる。コンピュータ可読媒体は、コンピュータ１１０によってアクセスでき、揮発性媒体および不揮発性媒体、取外し可能媒体および取り外し不能媒体の両方を含む使用可能な媒体のいずれかとすることができる。限定ではなく例として、コンピュータ可読媒体に、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶する任意の方法または技術で実施された、揮発性および不揮発性、取外し可能および取り外し不能の両方の媒体が含まれる。コンピュータ記憶媒体に、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、および他のメモリ技術、ＣＤ−ＲＯＭ、ディジタル多用途ディスク（ＤＶＤ）、または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、または他の磁気記憶装置、あるいは所望の情報の格納に使用でき、コンピュータ１１０によってアクセスできる他のすべての媒体が含まれるが、これに制限はされない。通信媒体は、通常は、搬送波または他のトランスポート機構などの変調されたデータ信号中にコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを具現化するものであり、任意の情報伝達媒体が含まれる。用語「変調されたデータ信号」は、信号内で情報をエンコードする形でその特性の１つまたは複数を設定または変更された信号を意味する。限定ではなく例として、通信媒体に、有線ネットワークまたは直接配線接続などの有線媒体と、音響、ＲＦ、赤外線、および他の無線媒体などの無線媒体が含まれる。上記のいずれかの組合せも、コンピュータ可読媒体の範囲に含めるべきである。

システムメモリ１３０に、読み出し専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性メモリおよび／または不揮発性メモリの形のコンピュータ記憶媒体が含まれる。起動中などにコンピュータ１１０内の要素の間での情報の転送を助ける基本ルーチンを含む基本入出力システム１３３（ＢＩＯＳ）が、通常はＲＯＭ１３１に格納される。ＲＡＭ１３２には、通常は、処理装置１２０から即座にアクセス可能、かつ／または処理装置１２０によって現在操作中のデータおよび／またはプログラムモジュールが含まれる。限定ではなく例として、図１に、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０に、他の取外し可能／取外し不能、揮発性／不揮発性のコンピュータ記憶媒体も含めることができる。例としてのみ、図１に、取外し不能不揮発性磁気媒体から読み取るかこれに書き込むハードディスクドライブ１４１、取外し可能不揮発性磁気ディスク１５２から読み取るかこれに書き込む磁気ディスクドライブ１５１、ＣＤ−ＲＯＭまたは他の光媒体などの取外し可能不揮発性光ディスク１５６から読み取るかこれに書き込む光ディスクドライブ１５５を示す。例示的なオペレーティング環境で使用できる他の取外し可能／取外し不能、揮発性／不揮発性のコンピュータ記憶媒体に、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれるが、これに限定するものではない。ハードディスクドライブ１４１は、通常は、インターフェース１４０などの取外し不能メモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通常、インターフェース１５０などの取外し可能メモリインターフェースによってシステムバス１２１に接続される。

上で説明し、図１に示したドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ１１０のコンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶を提供する。図１では、たとえば、ハードドライブ１４１が、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するものとして図示されている。これらのコンポーネントを、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同一のまたは異なるもののいずれかとすることができることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７は、最低限でも異なるコピーであることを示すために、異なる符号を与えられている。ユーザは、キーボード１６２および、一般にマウス、トラックボール、またはタッチパッドと称するポインティングデバイス１６１などの入力デバイスを介してコンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）に、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどを含めることができる。上記および他の入力デバイスは、しばしば、システムバス１２１に結合されたユーザ入力インターフェース１６０を介して処理装置１２０に接続されるが、パラレルポート、ゲームポート、またはｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ（ＵＳＢ）などの他のインターフェースおよびバス構造によって接続することができる。モニタ１９１または他の種類のディスプレイデバイスも、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタのほかに、コンピュータに、スピーカ１９７およびプリンタ１９６など、出力周辺装置インターフェース１９５を介して接続できる他の周辺出力デバイスも含めることができる。イメージ１９３のシーケンスをキャプチャできるカメラ１９２（ディジタル／電子静止画カメラまたはビデオカメラ、あるいはフィルム／写真スキャナ）も、入力デバイスとしてパーソナルコンピュータ１１０に含めることができる。さらに、１つのカメラだけが図示されているが、複数のカメラを、入力デバイスとしてパーソナルコンピュータ１１０に含めることができる。１つまたは複数のカメラからのイメージ１９３が、適当なカメラインターフェース１９４を介してパーソナルコンピュータ１１０に入力される。このインターフェース１９４は、システムバス１２１に接続され、これによって、ＲＡＭ１３２またはコンピュータ１１０に関連する他のデータ記憶装置にイメージをルーティングし、格納することができるようになる。しかし、イメージデータを、カメラ１９２の使用を必要とせずに、前述のコンピュータ可読媒体のいずれかを使用してコンピュータ１１０に入力することもできることに留意されたい。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードとすることができ、通常は、上でコンピュータ１１０に関して説明した要素の多くまたはすべてが含まれるが、図１には、メモリ記憶装置１８１だけを示した。図１に示された論理接続に、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３が含まれるが、他のネットワークも含めることができる。そのようなネットワーキング環境は、オフィス、会社全体のコンピュータネットワーク、イントラネット、およびインターネットでごく一般的なものである。

ＬＡＮネットワーキング環境で使用される時に、コンピュータ１１０は、ネットワークインターフェースまたはネットワークアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用される時に、コンピュータ１１０に、通常は、インターネットなどのＷＡＮ１７３を介する通信を確立する、モデム１７２または他の手段が含まれる。モデム１７２は、内蔵または外付けとすることができるが、ユーザ入力インターフェース１６０または他の適当な手段を介してシステムバス１２１に接続することができる。ネットワーク化された環境では、コンピュータ１１０に関して図示されたプログラムモジュールまたはその一部を、リモートメモリ記憶装置に保管することができる。限定ではなく例として、図１に、メモリデバイス１８１に常駐するものとしてリモートアプリケーションプログラム１８５を示す。図示のネットワーク接続が例示的であり、コンピュータの間の通信リンクを確立する他の手段を使用できることを理解されたい。

２．０２レイヤイメージ表現
例示的なオペレーティング環境を述べたので、この説明セクションの残りは、本発明を実施するプログラムモジュールの説明に捧げられる。一般に、本発明に、イメージの圧縮、転送、および記憶を容易にする、独自の２レイヤ３Ｄ表現の生成が含まれる。この表現は、イメージが動的シーンのビデオのフレームであり、フレームデータがリアルタイムレンダリングのためにエンコードされる時に、特に有用である。この表現には、ピクセル視差情報または深さ情報も含まれ、したがって、表現の３Ｄ態様が提供される。イメージまたはフレームは、ディジタルカメラによってキャプチャされたか、そうでない場合にさらなる処理を実行する前にディジタル化されたのいずれかであるディジタルイメージである。ディジタルイメージデータを、カメラを使用してシーンの実際のイメージをキャプチャすることによって入手されたイメージベースのものまたは合成されたイメージデータとすることができることにも留意されたい。

２レイヤ表現は、まず、検討中のイメージまたはフレームの視差マップの深さ不連続を突き止めることによって生成される。これらの深さ不連続は、指定された数の視差レベル（たとえば、本発明のテストされた実施形態では４レベル）を超えるジャンプと定義される。検討中のイメージの視差マップは、普通の形で入手することができる。しかし、本発明のテストされた実施形態では、共通の譲受人に譲渡された、本出願の発明者による「Color Segmentation-Based Stereo Reconstruction System And Process」という名称の同時係属出願の主題である新しい手法を使用する。

次に、検討中のイメージで見つかった深さ不連続の近傍で、小さい領域を識別する。この小さい領域は、深さ不連続の位置から３ピクセル以内のすべてのピクセルを含むものとして定義される。これを、図２のグラフに示すが、図２では、ピクセルの行の視差値が、ピクセル位置に対してプロットされている。視差値の急激なステップは、それが指定された視差レベルの数より大きいと仮定して、深さ不連続を表す。前述の小さい領域は、深さ不連続領域と称するが、不連続性の周囲で確立される。図２のグラフで表されたプロファイルビューでは、この領域が、イメージ内の深さ視差の位置にまたがる、ある幅を有する。通常そうであるように、深さ不連続がイメージ内の物体の輪郭に追随する（ｆｏｌｌｏｗ）場合に、深さ不連続領域は、この輪郭に追随するストリップを形成するためにマージされる。

物体の境界に沿った一部のピクセルは、バックグラウンド領域とフォアグラウンド領域の両方からの寄与を受け取る。しかし、オリジナルの混合されたピクセルカラーがレンダリング中に使用される場合に、可視のアーティファクトが生じる可能性がある。したがって、この２つの寄与を分離することが重要である。したがって、次に、深さ不連続領域内の各ピクセルのフォアグラウンドカラーとバックグラウンドカラーが、確立され、ピクセルの不透明度（アルファ値の形）も確立される。これは、マッティング技法を使用して達成される。一般に、マッティング（ｍａｔｔｉｎｇ）技法には、各ピクセルのフォアグラウンド要素とバックグラウンド要素に由来するカラーおよび不透明度を推定することによって、イメージのフォアグラウンド要素とバックグラウンド要素を抽出することが含まれる。ピクセルの不透明度は、０と１の間の範囲を有するアルファ値によって定義される。事実上、アルファ値は、ピクセルのカラーのうちでフォアグラウンド要素に寄与するパーセンテージを定義する。通常のマッティング動作の正味の結果は、検討されるピクセルごとにフォアグラウンドカラー、バックグラウンドカラー、およびアルファ値を識別することである。本発明と共に、どのマッティング手順でも使用することができるが、テストされた実施形態では、参考文献［４］で説明したベイジアンイメージマッティング技法を使用した。参考文献［４］に、多数の他の既存のマッティング技法の説明も含まれることに留意されたい。

前に説明したように、本発明の主な応用例に、シーンの２つの実際のイメージに関連する視点の中間の視点からのシーンの仮想イメージをレンダリングすることが含まれる。これを達成する方法の詳細は、本発明の範囲に含まれないが、この処理に、通常、各ピクセルに関連する深さを知ることが含まれることに留意されたい。このために、本発明によるイメージ表現に、ピクセル深さ（または、簡単に深さ値に変換できる視差値）が含まれる。これらの値は、前述の視差マップからほとんどのピクセルについて入手可能であるが、深さ不連続に隣接して見つかる混合されたピクセルに関連する２つの深さすなわち、フォアグラウンド要素に関連する深さおよびバックグラウンド要素に関連する深さがあることに留意されたい。したがって、これらのフォアグラウンド深さおよびバックグラウンド深さ（または視差）値が、次に、深さ不連続領域内のピクセルごとに推定される。一般に、これは、それぞれイメージのフォアグラウンド部分およびバックグラウンド部分の近傍深さのアルファ加重平均を使用することによって達成される。具体的に言うと、フォアグラウンド視差は、深さ不連続領域のオリジナルフォアグラウンド領域内のピクセルからの視差値のウィンドウ（たとえば、７×７ピクセル）内のアルファ加重平均を使用することによって見つかる。図２では、オリジナルフォアグラウンド領域が、視差不連続性の左側のピクセルを指す。バックグラウンド視差は、深さ不連続領域のオリジナルバックグラウンド領域内の視差値のウィンドウ内の加重平均によって見つかる。バックグラウンド視差の平均をとるのに使用される重みは、１からアルファ値を引いたものと等しくなるように設定される。

深さ不連続領域ピクセルのカラー、視差、および不透明度が確立されたならば、イメージ表現の２つのレイヤが形成される。具体的に言うと、深さ不連続領域内で見つかった各めいめいのピクセルに関連する前に計算されたフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値が、イメージの境界レイヤの対応する位置のピクセルに割り当てられる。同様に、深さ不連続領域内の各めいめいのピクセルに関連する前に計算されたバックグラウンドカラーおよびバックグラウンド視差値が、深さ不連続領域内にないイメージ内のすべてのピクセルのカラー値および視差値（イメージおよびその視差マップからとられる）と共に、イメージのメインレイヤの対応する位置のピクセルに割り当てられる。

したがって、結果の２レイヤイメージ表現に、そのレイヤの各ピクセルのフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値を識別する境界レイヤが含まれる。さらに、この表現に、深さ不連続領域に関連する、そのレイヤ内のピクセルのバックグラウンドカラーおよびバックグラウンド深さと、そのレイヤの他のピクセルのそれぞれのカラーおよび視差値を識別するメインレイヤが含まれる。これを与えられれば、メインレイヤに、イメージ内のすべてのピクセルに関するピクセル情報が含まれるが、このデータは、シーンの１つのイメージと次のイメージの間で、比較的類似するであろう。これは、イメージがビデオフレームである場合に時間的にそうであり、同一シーンの複数のイメージが送信または記憶される場合に空間的にそうである。これによって、メインレイヤが、標準的なイメージ圧縮方法を使用してかなり圧縮可能になる。さらに、通常、イメージのピクセルの総数のうちの小さい比率だけが、境界レイヤに含まれるので、境界レイヤには、比較的少ないデータが含まれる。したがって、このデータは、動的シーンのあるイメージから次のイメージへ、経時的に大きく変化する可能性が高いが、送信または記憶する必要があるデータは、多くない。このゆえに、圧縮しなくても、このデータをすぐに送信または記憶することができる。適当な圧縮方式を使用すると、データの量およびこれを転送できる速度を、さらに減らすことができる。この形で、前述の２レイヤイメージ表現は、データ転送および記憶の望ましい容易化を提供し、リアルタイムレンダリングを実現可能にする。

前述の２レイヤイメージ表現生成処理の概要を、図３Ａ〜Ｂに示された流れ図を参照して示す。まず、表現されるディジタルイメージまたはディジタル化されたイメージとその視差マップを入力する（処理アクション３００）。次に、視差マップを使用して、イメージ内で深さ不連続の位置を識別する（処理アクション３０２）。次に、深さ不連続を囲む指定されたサイズの領域内で見つかるピクセルを、識別し、イメージの深さ不連続領域内にあるものとして指定する（処理アクション３０４）。マッティング技法を使用して、深さ不連続領域内の各ピクセルのフォアグラウンドカラーおよびバックグラウンドカラーを、そのアルファ値と共に確立する（処理アクション３０６）。さらに、処理アクション３０８で、深さ不連続領域内のピクセルのそれぞれについて、フォアグラウンド視差値およびバックグラウンド視差値を確立する。次に、深さ不連続領域のピクセルに対応するピクセルを有する境界レイヤを確立する（処理アクション３１０）。深さ不連続領域内で見つかる各めいめいのピクセルに関連するフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値を、境界レイヤの対応するピクセルに割り当てる（処理アクション３１２）。イメージのすべてのピクセルに対応するピクセルを有するメインレイヤも確立する（処理アクション３１４）。この場合に、深さ不連続領域のピクセルに関連するバックグラウンドカラーおよびバックグラウンド視差を、メインレイヤの対応するピクセルに割り当て、深さ不連続領域にないイメージピクセルに関連するカラーおよび視差を、メインレイヤの対応するピクセルに割り当てる（処理アクション３１６）。

本発明による２レイヤイメージ表現を生成する前述の処理に組み込むことができる改善の１つに、イメージ表現の境界レイヤおよびメインレイヤを形成する前の深さ不連続領域のフォアグラウンドマットの膨張が含まれる。これは、この処理の不正確さに起因して発生する可能性がある、レイヤからのイメージのレンダリング中に割れ目が見えることをなくすという長所を有する。具体的に言うと、フォアグラウンドカラー、フォアグラウンド視差、およびアルファ値が、深さ不連続領域のピクセルごとに確立されたならば、この領域のサイズを、指定された量（たとえば１ピクセル）だけ増やす。膨張中に境界レイヤに追加される新しいピクセルは、メインレイヤの対応するピクセルと同一のカラー値および視差値と１のアルファ値を割り当てられる。

図４Ａ〜４Ｅに、ブレークダンサー（ｂｒｅａｋｄａｎｃｅｒｓ）のグループのイメージに本発明の２レイヤイメージ表現生成処理を適用した結果を示す。図４Ａは、メインレイヤカラー推定値を示し、図４Ｂは、メインレイヤ視差推定値を表す。同様に、図４Ｃは、境界レイヤカラー推定値を示し、図４Ｄは、境界レイヤ視差推定値を示す。最後に、図４Ｅは、境界レイヤアルファ推定値を示す。図４Ｃ〜４Ｅのイメージが、反転して示され、その結果、透明／空のピクセルが白く見えていることに留意されたい。ソフトオブジェクト境界を考慮に入れるために送信する必要がある情報の量がどれほど少ないかということと、境界レイヤの不透明度および両方のレイヤのカラーがどれほどきれいに回復されているかということに留意されたい。

前述の説明を介して、イメージピクセルの視差値が使用されたことに留意されたい。しかし、生成処理のある点で、これらの値を、標準的な方法を使用して深さ値に変換することができる。その場合に、メインレイヤおよび境界レイヤに、それに含まれるピクセルの、視差値ではなく深さ値が含まれる。

３．０参考文献

本発明を実施する例示的なシステムを構成する汎用コンピューティングデバイスを示す図である。視差値の急激なステップが深さ不連続性を表す、ピクセル位置に対するピクセルの行の視差値をプロットしたグラフである。本発明によるディジタルイメージまたはディジタル化されたイメージの２レイヤ表現を生成する処理を示す流れ図である。本発明によるディジタルイメージまたはディジタル化されたイメージの２レイヤ表現を生成する処理を示す流れ図である。ブレークダンサのグループのイメージに図３Ａ〜Ｂの２レイヤイメージ表現生成処理を適用した結果を示すイメージであり、メインレイヤカラー推定値を示す図である。ブレークダンサのグループのイメージに図３Ａ〜Ｂの２レイヤイメージ表現生成処理を適用した結果を示すイメージであり、メインレイヤ視差推定値を表す図である。ブレークダンサのグループのイメージに図３Ａ〜Ｂの２レイヤイメージ表現生成処理を適用した結果を示すイメージであり、境界レイヤカラー推定値を示す図である。ブレークダンサのグループのイメージに図３Ａ〜Ｂの２レイヤイメージ表現生成処理を適用した結果を示すイメージであり、境界レイヤ視差推定値を示す図である。ブレークダンサのグループのイメージに図３Ａ〜Ｂの２レイヤイメージ表現生成処理を適用した結果を示すイメージであり、境界レイヤアルファ推定値を示す図である。

符号の説明

１３０システムメモリ
１３１ＲＯＭ
１３３ＢＩＯＳ
１３２ＲＡＭ
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６他のプログラムモジュール
１３７プログラムデータ
１２０処理装置
１９４カメラインターフェース
１９０ビデオインターフェース
１９５出力周辺装置インターフェース
１９２カメラ
１９１モニタ
１９６プリンタ
１９７スピーカ
１２１システムバス
１４０取り外し不能不揮発性メモリインターフェース
１５０取り外し可能不揮発性メモリインターフェース
１６０ユーザ入力インターフェース
１７０ネットワークインターフェース
１７１ローカルエリアネットワーク
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６他のプログラムモジュール
１４７プログラムデータ
１６１マウス
１６２キーボード
１７２モデム
１７３広域ネットワーク
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム

Claims

イメージおよび前記イメージの視差マップからディジタルイメージまたはディジタル化された前記イメージの２レイヤ表現を生成するコンピュータ実施される処理であって、前記イメージの視差マップを使用して、前記イメージ内の深さ不連続の位置を識別する処理アクションと、
前記深さ不連続を囲む指定されたサイズの領域内で見つかる前記イメージのピクセルを識別し、これらのピクセルを、前記イメージの深さ不連続領域内にあるものとして指定する処理アクションと、
前記深さ不連続領域内のピクセルごとに、フォアグラウンドカラー、バックグラウンドカラー、およびアルファ値を推定する処理アクションと、
前記深さ不連続領域内のピクセルごとに、フォアグラウンド視差値およびバックグラウンド視差値を推定する処理アクションと、
前記深さ不連続領域のピクセルに対応する各めいめいの位置にあるピクセルを含む前記イメージの境界レイヤを確立する処理アクションであって、各境界レイヤピクセルは、前記深さ不連続領域の対応するピクセルに関連する前記フォアグラウンドカラー、前記フォアグラウンド視差、および前記アルファ値を割り当てられる、処理アクションと、
前記イメージのメインレイヤを確立する処理アクションであって、前記メインレイヤは、
前記深さ不連続領域のピクセルに対応する各めいめいの位置のピクセルであって、前記ピクセルのそれぞれは、前記深さ不連続領域の対応するピクセルに関連する前記バックグラウンドカラーおよび前記バックグラウンド視差値を割り当てられる、ピクセルと、
前記深さ不連続領域のピクセルに対応しない各位置のピクセルであって、前記ピクセルのそれぞれは、前記イメージの対応するピクセルに関連する前記カラーおよび前記視差値を割り当てられる、ピクセルと
を含む、処理アクションと
をコンピュータを使用して実行することを備えることを特徴とするコンピュータ実施される処理。
前記イメージ内の深さ不連続の位置を識別する前記処理アクションは、視差レベルの指定された数を超える、隣接ピクセルの間の視差値の差を示す任意の位置を深さ不連続として識別するアクションを含むことを特徴とする請求項１に記載の処理。
視差レベルの前記指定された数が、４であることを特徴とする請求項２に記載の処理。
前記深さ不連続を囲む前記指定されたサイズの領域は、識別された深さ不連続位置から各方向に３ピクセル拡張した領域として定義されることを特徴とする請求項１に記載の処理。
前記深さ不連続領域内のピクセルごとにフォアグラウンドカラー、バックグラウンドカラー、およびアルファ値を推定する前記処理アクションは、前記カラーおよびアルファ値を推定するのにマッティング技法を使用するアクションを含むことを特徴とする請求項１に記載の処理。
前記深さ不連続領域内のピクセルごとにフォアグラウンドおよびバックグラウンド視差値を推定する前記処理アクションは、前記フォアグラウンド視差値および前記バックグラウンド視差値を推定するのに前記イメージのフォアグラウンド部分およびバックグラウンド部分の近傍視差のアルファ加重平均を使用するアクションを含むことを特徴とする請求項１に記載の処理。
前記フォアグラウンド視差値および前記バックグラウンド視差値を推定するのに前記イメージのフォアグラウンド部分およびバックグラウンド部分の近傍視差のアルファ加重平均を使用する処理アクションは、
検討中のピクセルに隣接する前記イメージのフォアグラウンド部分内の指定されたサイズのウィンドウ内の各ピクセルにそのアルファ値をそれぞれ乗じ、結果の積の平均をとることによって、各深さ不連続領域内の各ピクセルの前記フォアグラウンド視差値を計算するアクションと、
検討中のピクセルに隣接する前記イメージのバックグラウンド部分内の指定されたサイズのウィンドウ内の各ピクセルに１からそのアルファ値を減じたものをそれぞれ乗じ、結果の積の平均をとることによって、各深さ不連続領域内の各ピクセルの前記バックグラウンド視差値を計算するアクションと
を含むことを特徴とする請求項６に記載の処理。
前記境界レイヤピクセルに対応する領域を指定された量だけ膨張させ、各追加されたピクセルに前記メインレイヤ内の対応するピクセルと同一のカラーおよび視差値と、１のアルファ値とを割り当てる処理アクションをさらに含むことを特徴とする請求項１に記載の処理。
前記指定された膨張量は、１ピクセルであることを特徴とする請求項８に記載の処理。
前記イメージおよび前記イメージのピクセル深さマップからのディジタルイメージまたはディジタル化されたイメージの２レイヤ表現を生成するシステムであって、
汎用コンピューティングデバイスと、
前記コンピューティングデバイスによって実行可能なプログラムモジュールを含むコンピュータプログラムと
を備え、前記コンピューティングデバイスは、前記コンピュータプログラムの前記プログラムモジュールによって、
前記イメージの深さマップを使用して、前記イメージ内の深さ不連続の位置を識別し、
前記深さ不連続を囲む指定されたサイズの領域内で見つかる前記イメージのピクセルを識別し、これらのピクセルを、前記イメージの深さ不連続領域内にあるものとして指定し、
前記深さ不連続領域内のピクセルごとに、フォアグラウンドカラー、バックグラウンドカラー、およびアルファ値を推定し、
前記深さ不連続領域内のピクセルごとに、フォアグラウンド深さ値およびバックグラウンド深さ値を推定し、
前記深さ不連続領域の対応する位置のピクセルに関連する前記バックグラウンドカラーおよび前記バックグラウンド深さを示すピクセルと前記深さ不連続領域内にない前記イメージの対応する位置のピクセルに関連する前記カラーおよび前記深さを示すピクセルとを含む前記イメージのメインレイヤ、ならびに前記深さ不連続領域の対応する位置のピクセルに関連する前記フォアグラウンドカラー、前記フォアグラウンド深さ、および前記アルファ値を示すピクセルを含む前記イメージの境界レイヤを生成する
ように指示されることを特徴とするシステム。
前記イメージの深さ不連続の前記位置を識別する前記プログラムモジュールは、指定された量を超える、隣接ピクセルの間の深さ値の差を示すすべての位置を深さ不連続として識別するサブモジュールを含むことを特徴とする請求項１０に記載のシステム。
イメージおよび前記イメージのピクセル視差マップからディジタルイメージまたはディジタル化された前記イメージの２レイヤ表現を生成するコンピュータ実行可能命令を有するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
前記イメージの視差マップを使用して、前記イメージ内の深さ不連続の位置を識別することと、
前記識別された深さ不連続を囲む指定されたサイズの深さ不連続領域を確立することと、
前記深さ不連続領域内のピクセルごとに、フォアグラウンドカラー、バックグラウンドカラー、およびアルファ値を推定することと、
前記深さ不連続領域内のピクセルごとに、フォアグラウンド視差値およびバックグラウンド視差値を推定することと、
前記深さ不連続領域の対応する位置のピクセルに関連する前記バックグラウンドカラーおよび前記バックグラウンド視差を示すピクセルと前記深さ不連続領域内にない前記イメージの対応する位置のピクセルに関連する前記カラーおよび前記視差を示すピクセルとを含む前記イメージのメインレイヤ、ならびに前記深さ不連続領域の対応する位置のピクセルに関連する前記フォアグラウンドカラー、前記フォアグラウンド視差、および前記アルファ値を示すピクセルを含む前記イメージの境界レイヤを生成することと
を含むことを特徴とするコンピュータ可読媒体。
ディジタルイメージまたはディジタル化されたイメージの２レイヤ表現であって、
深さ不連続領域の対応する位置のピクセルに関連するバックグラウンドカラーおよびバックグラウンド視差を示すピクセルと、前記深さ不連続領域内にない前記イメージの対応する位置のピクセルに関連するカラーおよび視差を示すピクセルとを含むメインレイヤと、
前記深さ不連続領域の対応する位置のピクセルに関連するフォアグラウンドカラー、フォアグラウンド視差、およびアルファ値を示すピクセルを含む境界レイヤとを備え、
前記深さ不連続領域が、前記イメージの視差マップを使用して前記イメージ内で見つかる深さ不連続を囲む指定されたサイズの領域に対応する
ことを特徴とする２レイヤ表現。