JP5160643B2

JP5160643B2 - ２次元画像からの３次元オブジェクト認識システム及び方法

Info

Publication number: JP5160643B2
Application number: JP2010516014A
Authority: JP
Inventors: アイザット，アイザット，エイチ; ザン，ドン−チン; ベニテス，アナ，ビー
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2007-07-12
Filing date: 2007-07-12
Publication date: 2013-03-13
Anticipated expiration: 2027-07-12
Also published as: EP2168096A1; US20100182406A1; CN101785025A; CA2693666A1; CN101785025B; JP2010533338A; WO2009008864A1

Description

本発明は３次元オブジェクトモデリングに関し、より具体的には、リアルワールドのシーンの３次元情報を正確に復元するために、複数の３次元捕捉機能（function）を合成する、２次元画像からの３次元情報捕捉システム及び方法に関する。

シーンを撮影して得られるビデオシーケンスには、そのシーンの３次元ジオメトリに関する暗黙的な情報が含まれる。人間の知覚にとってはこの暗黙的な情報で十分であるが、多くのアプリケーションにとっては３次元シーンの正確なジオメトリが必要である。こうしたアプリケーションのカテゴリーとしては、例えば、そのシーンの新しいビューの生成や、産業上の検査アプリケーションにおける３次元ジオメトリの再構成における高度なデータ処理技術の利用が挙げられる。

単一または複数の画像からの３次元モデルの復元プロセスは、映画のポストプロダクションアプリケーションでも重要である。３次元情報の再生はここしばらくの間は活発に研究されてきた。例えば、レーザレンジファインダを用いて３次元情報を直接捕捉し、またはステレオやストラクチャ・フロム・モーション法等の単一または複数の２次元画像から３次元情報を復元する多数の技術が文献に記載されている。一般的に、３次元捕捉方法はアクティブアプローチとパッシブアプローチ、シングルビューアプローチとマルチビューアプローチ、ジオメトリック法とフォトメトリック法に分類できる。

パッシブアプローチは規則的な照明状態の下で撮った画像やビデオから３次元ジオメトリを捕捉するものである。画像及びビデオから取り出したジオメトリックまたはフォトメトリックな特徴を用いて３次元ジオメトリを計算する。アクティブアプローチはレーザや構造光や赤外光などの特殊な光源を用いるものである。アクティブアプローチは、オブジェクトの表面やシーンに投射した特殊な光に対するそのオブジェクトやシーンからの応答に基づきジオメトリを計算する。

シングルビューアプローチは単一のカメラ視点から取った複数の画像を用いて３次元ジオメトリを復元するものである。例えば、ストラクチャ・フロム・モーションやデプス・フロム・デフォーカスがある。

マルチビューアプローチは、複数のカメラ視点やオブジェクトの動きの結果や光源位置を変えた結果撮った複数の画像から３次元ジオメトリを復元する。ステレオマッチングは、ステレオペアの左画像のピクセルと右画像のピクセルをマッチングしてそのピクセルの奥行き情報を取得することによるマルチビュー３次元復元の一例である。

ジオメトリック法は、単一または複数の画像中の角、縁、線、輪郭などのジオメトリックな特徴を検出することにより３次元ジオメトリを復元する。取り出した角、縁、線、輪郭の間の空間的な関係を用いて、画像中のピクセルの３次元座標を推測する。ストラクチャ・フロム・モーション（ＳＦＭ）は、カメラをシーン内で動かして撮ったり、動いているオブジェクトを静止したカメラで撮ったりした一連の画像から、そのシーンの３次元構造を再構成する方法である。多数の見解によればＳＦＭは基本的に非線形問題であるが、その問題を直接解く方法だけでなく、数学的にエレガントな方法で線形表現しようとする試みもなされている。一方、非線形法には繰り返しの最適化が必要であり、局所的最小値に取り組まねばならない。しかし、これらの方法を用いることにより数値的な正確さと柔軟性が得られる。ステレオマッチング法に対するＳＦＭの利点は、カメラが１つでよいことである。特徴によるアプローチ（feature based approaches）は、トラッキング法により有効性を高められる。トラッキング法は特徴の動きに関する履歴を用いて次のフレームの差異を予測するものである。第２に、連続する２つのフレーム間の空間的及び時間的な差異は小さいので、対応問題は画像の輝度パターンの明らかな動き（オプティカルフローと呼ぶ）を推定する問題でもある。ＳＦＭを用いるアルゴリズムは複数ある。ほとんどのものは２次元画像からの３次元ジオメトリの再構成に基づく。一部のものは対応値が既知であることを仮定しており、その他のものは対応関係を用いずに再構成するために統計的なアプローチを用いる。

フォトメトリック法は、シーン表面の方向に起因する画像パッチのシェーディングまたは影に基づき３次元ジオメトリを復元する。

上記の方法は何十年にもわたって詳しく研究されてきた。しかし、すべての場合にうまくいく単一の方法は無く、従来のほとんどの方法は、再構成が比較的容易となる実験室の状況における３次元再構成にフォーカスしている。リアルワールドのシーンの場合、対象は動いており、照明は複雑であり、奥行きレンジは大きい。これらのリアルワールドの状況を上記の方法で処理することは困難である。例えば、前景と背景のオブジェクト間の奥行きの差異が大きければ、ステレオマッチングのサーチレンジは大幅に増大し、計算コストが許容できなくなり、奥行きの推定誤差が大きくなる。

２次元画像を用いて３次元捕捉とシーンのモデル化をするシステムと方法を提供する。本開示は考えている捕捉環境と条件に最もよく合う３次元捕捉方法を選択して組み合わせて、より正確な３次元モデルを生成するシステムと方法を提供する。利用する方法は考慮中のシーンに依存する。例えば、屋外シーンでは、ストラクチャ・フロム・モーション法と組み合わせてパッシブ法を用いる。その他の場合には、アクティブ法の方が適切であるかも知れない。複数の３次元捕捉機能を合成することにより、１つの方法または機能のみを用いる場合よりも正確性が向上する。複数の３次元捕捉機能の結果を合成して、完全な３次元モデルの生成に用いられる差異または奥行きマップを求める。本開示が目標とするアプリケーションは映画の３次元再構成である。得られる３次元モデルは、映画撮影やポストプロダクションの際の可視化に利用できる。本アプローチは、ゲームや、２次元プラス奥行きフォーマットを用いる３次元テレビなどを含むがこれらに限定されないその他のアプリケーションにも利用できる。

本開示の一態様では、３次元捕捉方法を提供する。該方法は、シーンの少なくとも２つの２次元画像を捕捉する段階と、前記少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用する段階と、前記少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用する段階と、前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と合成する段階と、合成した前記第１と第２の奥行き捕捉機能の出力から差異マップを生成する段階とを有する。

他の態様では、本方法は、前記差異マップから奥行きマップを生成する段階をさらに含む。

さらに別の態様では、本方法は、生成した差異または奥行きマップから、前記シーンの３次元モデルを再構成する段階を含む。

本開示の他の態様による、２次元画像から３次元情報を補足するシステムは、シーンの少なくとも２つの２次元画像を捕捉する手段と、前記少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用し、前記少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用し、前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と合成する３次元捕捉モジュールとを有する。前記３次元捕捉モジュールは、合成した前記第１と第２の奥行き捕捉機能の出力から差異マップを生成するようにさらに構成される。

本開示のさらに別の態様により、機械により読み取り可能であり、２次元画像から３次元情報を補足する方法ステップを実行する、前記機械により実行可能な命令のプログラムを化体したプログラム記憶デバイスを提供する。前記方法は、シーンの少なくとも２つの２次元画像を捕捉する段階と、前記少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用する段階と、前記少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用する段階と、前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と合成する段階と、合成した前記第１と第２の奥行き捕捉機能の出力から差異マップを生成する段階とを有する。

本開示の上記その他の態様、特徴、及び利点は、添付した図面を参照して読むと、好ましい実施形態の詳細な説明から明らかとなるであろう。

図中、同じ要素には同じ参照数字を付した。
本開示の一態様による３次元奥行き情報捕捉システムを示す図である。本開示の一態様による２次元画像から３次元オブジェクトまたはシーンを再構成する方法を示すフロー図である。本開示の一態様による３次元奥行き情報捕捉するツーパス方法を示すフロー図である。２入力ステレオ画像を示す図である。２入力構造光画像を示す図である。図４Ｂに示したステレオ画像から生成した差異マップを示す図である。図４Ａに示した構造光画像から生成した差異マップを示す図である。単純平均合成法を用いて図５Ａと図５Ｂに示した差異マップの合成から得られる差異マップを示す図である。重み付け平均合成法を用いて図５Ａと図５Ｂに示した差異マップの合成から得られる差異マップを示す図である。言うまでもなく、図面は本発明のコンセプトを例示することを目的としたものであり、本発明を例示する構成は必ずしもこれだけではない。

言うまでもなく、図に示した要素はハードウェア、ソフトウェア、またはこれらの組み合わせでの様々な形態で実施できる。好ましくは、これらの要素を、適切にプログラムした汎用デバイス上のハードウェアとソフトウェアの組み合わせで実施する。汎用デバイスはプロセッサ、メモリ、及び入出力インタフェースなどである。

ここで本開示の原理を説明する。言うまでもなく、当業者は、ここには明示的に説明や図示はしていないが、本開示の原理を化体し、その精神と範囲内に含まれる様々な構成を工夫することができる。

ここに記載したすべての例と条件付きの言葉は、発明者が技術発展に対してなした本開示の原理とコンセプトとを、読者が理解しやすいようにするためのものであり、その解釈は具体的に記載した実施例や条件に限定されるべきではない。

さらに、本開示の原理、態様、実施形態、及びその実施例のすべての記載は、その構成的等価物及び機能的等価物の両方を含むものである。また、かかる等価物は、現在知られている等価物及び将来開発される等価物を含み、すなわち、構成にかかわらず同じ機能を発揮する開発されるすべての要素を含む。

よって、例えば、当業者には言うまでもなく、ここに説明したブロック図は本開示の原理を化体する回路を概念的に示すものである。同様に、言うまでもなく、フローチャート、フロー図、状態遷移図、擬似コード等は、様々な方法（processes）を表し、これらの方法をコンピュータ読み取り可能媒体に実質的に表しても、（明示的に示していようがいまいが）コンピュータやプロセッサで実行してもよい。

図示した様々な要素の機能は、専用ハードウェアを用いても、ソフトウェアを実行可能なハードウェアと適当なソフトウェアとを組み合わせても提供できる。プロセッサを設けるとき、機能を単一の専用プロセッサで提供してもよいし、共有された単一のプロセッサで提供してもよいし、一部が共有された複数の個別プロセッサで提供してもよい。さらに、「プロセッサ」または「コントローラ」という用語を明示的に使用した場合、ソフトウェアを実行できるハードウェアのみをいうと解釈してはならず、限定はされないが、デジタルシグナルプロセッサ（ＤＳＰ）、ソフトウェアを記憶するＲＯＭ、ＲＡＭ、不揮発性記憶装置を黙示的に含んでもよい。

その他のハードウェアを従来のものでもカスタムのものであっても含んでもよい。同様に、図面に示したスイッチは概念的なものである。スイッチの機能は、プログラムロジックの動作、専用ロジックの動作、プログラム制御や専用ロジックのインターラクション、またはマニュアルで実行されてもよく、具体的な方法は実施者が文脈から判断して選択できる。

請求項において、特定の機能を実行する手段として表した要素は、その機能を実行するいかなる方法も含み、例えば、ａ）その機能を実行する回路要素の組合せと、ｂ）ファームウェアやマイクロコード等を含む任意の形式のソフトウェア及びそれと組み合わせたその機能を実行する適当な回路とを含む。請求項に記載した開示は、記載した様々な手段が提供する機能を、請求項に記載したように組み合わせることにある。よって、これらの機能を提供できる手段はどれでも、ここに示したものと等化であると見なせる。

本開示において開示した方法は、オブジェクト及びシーンの３次元ジオメトリを復元する問題を取り扱う。リアルワールドシーンのジオメトリの復元は対象の動き、前景と背景との間の大きな奥行き差異、及び複雑な照明状態により難しい問題である。１つの方法を用いてシーンのジオメトリを完全に復元することは計算費用がかかり、信頼性も高くない。レーザスキャンなどの正確な３次元捕捉技術は、人的対象がいるために多くの場合には許容できない。本開示は考えている捕捉環境と条件に最もよく合う３次元捕捉方法を選択して組み合わせて、より正確な３次元モデルを生成するシステムと方法を提供する。

リアルワールドシーンに関する３次元情報を正確に復元するために複数の３次元捕捉方法を組み合わせるシステム及び方法を提供する。複数の方法を組み合わせる動機付けは、リアルかつ大きな環境の３次元情報を信頼性高く捕捉できる単一の方法がないことによる。一部の方法は室内でうまくいくが室外ではうまくいかず、他の方法はシーンが静的であることを要する。方法によって計算の複雑さや正確さも大幅に異なる。本開示のシステムと方法は、最良の３次元情報を求めるために利用できる方法の強さを利用する、３次元情報の補足フレームワークを規定する。本開示のシステムと方法は、シーンの少なくとも２つの２次元画像を捕捉し、少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用し、少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用し、第１の奥行き捕捉機能の出力を第２の奥行き捕捉機能の出力と合成し、合成した第１と第２の奥行き捕捉機能の出力から差異マップを生成する。差異情報は奥行きにスケーリング係数をかけたものに反比例するので、合成した出力から生成した差異マップまたは奥行きマップを用いて３次元オブジェクトまたはシーンを再構成する。

ここで図面を参照するに、本開示の一実施形態によるシステムコンポーネントを図１に示した。スキャン装置１０３を設け、カメラで撮ったフィルムネガなどのフィルムプリント１０４をスキャンして、シネオン（Cineon）フォーマットや映画テレビ技術者協会（ＳＭＰＴＥ）デジタルピクチャエクスチェンジ（ＤＰＸ）ファイルにする。スキャン装置１０３は、例えば、テレシネや、ビデオ出力を有し、Am LocPro（商標）などのフィルムからビデオ出力を生成する任意の装置を含む。デジタル画像やデジタルビデオファイルは、デジタルビデオカメラ１０５でビデオ画像の時間的シーケンスをキャプチャすることにより得られる。あるいは、ポストプロダクションプロセスから得られたファイルやデジタルシネマ１０６（例えば、コンピュータ読み取り可能形式のファイル）を直接使うこともできる。コンピュータ読み取り可能ファイルの潜在的ソースは、例えばＡＶＩＤ（商標）エディタ、ＤＰＸファイル、Ｄ５テープなどである。

スキャンしたフィルムプリントはポストプロセッシング装置１０２（例えば、コンピュータ）に入力される。コンピュータは、中央演算装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）やリードオンリメモリ（ＲＯＭ）などのメモリ１１０、キーボードやカーソル制御装置（例えば、マウスやジョイスティック）などの入出力（Ｉ／Ｏ）ユーザインタフェース１１２、ディスプレイ装置などのハードウェアを有する既知の任意のコンピュータプラットフォームに実装できる。コンピュータプラットフォームはオペレーティングシステムとマイクロ命令コードも含む。ここに説明した様々なプロセスや機能は、マイクロ命令コードの一部や、オペレーティングシステムにより実行できるソフトウェアアプリケーションプログラムの一部（またはこれらの組み合わせ）であってもよい。一実施形態では、ソフトウェアアプリケーションプログラムは、プログラム記憶デバイス上に化体したものであり、ポストプロセッシング装置１０２などの適切なマシンにアップロードして実行できる。また、その他の様々な周辺装置を、パラレルポートやシリアルポートやユニバーサルシリアルバス（ＵＳＢ）などの様々なインタフェースやバスによりコンピュータプラットフォームに接続できる。他の周辺装置には例えば追加的な記憶装置１２４やプリンタ１２８がある。以下に説明する方法の結果として３次元モデル化オブジェクトを用いてシーンを変更または置換して、フィルム１２６を修正したものを、プリンタ１２８を利用して印刷できる。

あるいは、すでにコンピュータ読み取り可能形式になっているファイルやフィルムプリント１０６（例えば、外部ハードディスクドライブ１２４に記憶されたデジタルシネマ）をコンピュータ１０２に直接入力できる。ここで、「フィルム」とはフィルムプリントまたはデジタルシネマを指す。

ソフトウェアプログラムには、メモリ１１０に記憶された３次元再構成モジュール１１４を含む。３次元再構成モジュール１１４は、画像から３次元情報を捕捉する３次元捕捉モジュール１１６を含む。３次元捕捉モジュール１１６は、ステレオマッチング機能、構造光機能、ストラクチャ・フロム・モーション機能などを含むがこれらに限定されない３次元捕捉機能１１６−１．．．１１６−ｎを含む。

奥行き調整器１１７を設け、異なる捕捉方法で求めた差異または奥行きマップの奥行きスケールを調整する。奥行き調整器１１７は、各方法について、差異または奥行きマップ中のピクセルの奥行き値を０−２５５にスケールする。

信頼性推定器１１８を設け、画像ピクセルの奥行き値の信頼性を推定するように構成する。信頼性推定器１１８は各方法の奥行き値を比較する。いろいろな機能や方法で求めた値が近いか所定範囲内にあれば、その奥行き値は信頼できると考えられる。そうでなければ奥行き値は信頼できない。

３次元再構成モジュール１１４は、画像中の特徴点を検出する特徴点検出器１１９も含む。特徴点検出器１１９は、差異マップをレジスタ（register）するために用いる特徴点を検出または選択する少なくとも１つの特徴点検出機能（例えば、アルゴリズム）を含む。合成した奥行き情報から奥行きマップを生成する奥行きマップ生成器１２０も設けられる。

図２は、本開示の一態様による２次元画像から３次元オブジェクトを再構成する方法を示すフロー図である。

図２を参照するに、最初に、ステップ２０２において、ポストプロセッシング装置１０２はコンピュータ読み取り可能フォーマットのデジタルマスタビデオファイルを取得する。デジタルビデオファイルは、デジタルビデオカメラ１０５でビデオ画像の時間的シーケンスをキャプチャすることにより得られる。あるいは、従来のフィルム式カメラでビデオシーケンスをキャプチャしてもよい。この場合、そのフィルムをスキャン装置１０３でスキャンして、ステップ２０４に進む。カメラは、オブジェクトがシーン中を動いているか、カメラ自体が動きながら、２次元画像を捕捉する。カメラはシーンを複数の視点から撮影してもよい。

言うまでもなく、フィルムがすでにスキャンされていようと、デジタルフォーマットであろうと、そのフィルムのデジタルファイルはフレームの位置に関する表示または情報（すなわち、タイムコード）であるフレームナンバーやフィルムの開始からの経過時間などを含む。デジタルビデオファイルの各フレームは１つの画像、例えば、Ｉ１，Ｉ２，．．．Ｉｎを含む。

複数の方法を組み合わせることにより、各方法の出力を共通の座標系にレジスタする新しい方法が必要になる。レジストレーションプロセスにより組み合わせプロセスが大幅に複雑化する。本開示の方法では、ステップ２０４において、入力画像ソース情報を各方法に対して同時に集める。こうすることにより、レジストレーションが簡単になる。ステップ２０６のカメラ位置と、ステップ２０８のカメラパラメータは全ての方法に対して同じだからである。しかし、入力画像ソースは各３次元キャプチャ方法によって異なってもよい。例えば、ステレオマッチングを用いる場合、入力画像ソースは適当な距離だけ離れた２つのカメラである。他の例では、構造光を用いる場合、入力画像ソースは構造光を照射したシーンの画像である。好ましくは、機能の出力のレジストレーションが単純明快であるように、各機能への入力画像ソースは位置合わせせる。そうでない場合は、ステップ２１０において、手作業または自動のレジストレーション方法を実施して、入力画像ソースを位置合わせする。

ステップ２１２において、オペレータはユーザインタフェース１１２を介して少なくとも２つの３次元捕捉機能を選択する。利用する３次元捕捉機能は考慮中のシーンに依る。例えば、屋外シーンでは、ストラクチャ・フロム・モーション法と組み合わせてパッシブ法を用いてもよい。その他の場合には、アクティブ法の方が適切であるかも知れない。他の例では、静的なシーンに対して、構造光機能をレーザレンジファインダ機能と組み合わせる。第３の例では、屋内のシーンにおいて、シルエット機能から得られる形状と、ステレオマッチング機能とを組み合わせることにより、３台以上のカメラを用いてもよい。

ステップ２１４において、画像に第１の３次元捕捉機能を適用し、ステップ２１６において、画像の第１の奥行きデータを生成する。ステップ２１８において、画像に第２の３次元捕捉機能を適用し、ステップ２２０において、画像の第２の奥行きデータを生成する。言うまでもなく、ステップ２１４及び２１６を、ステップ２１８及び２２０と並行してすなわち同時に実行してもよい。あるいは、各３次元捕捉機能を別々に実行して、メモリに記憶し、合成のために後で読み出してもよい。これについては後で説明する。

ステップ２２２において、各３次元奥行き捕捉機能の出力をレジスタして合成する。画像ソースが適切に位置合わせされていれば、レジストレーションは必要なく、奥行き値を効率的に合成できる。画像ソースが位置合わせされていなければ、求めた差異マップを適切に位置合わせする必要がある。これは手作業でもできるし、特徴点検出器１１９により画像ごとの特徴（例えば、マーカ、角、縁）を一致させ、差異マップを適宜ずらすことにより行うこともできる。特徴点は画像の顕著な特徴であり、例えば角、縁、線などであり、画像強度のコントラストが大きいところである。特徴点検出器１１９には、本技術分野で周知のように、キッチン−ローゼンフェルトコーナー検出演算子Ｃを用いてもよい。この演算子を用いて、任意のピクセル位置における画像の「コーナー性」の程度を評価する。「角（コーナー）」は、一般的に、例えば９０度の角度をなす２方向の画像強度の傾斜の最大値の交点により特徴付けられる画像の特徴である。特徴点を抽出するため、画像Ｉ１の各有効ピクセル位置にキッチン−ローゼンフェルト演算子を作用させる。あるピクセルにおける演算子Ｃの値が高ければ高いほど、そのピクセルの「コーナー性」の程度が高い。画像Ｉｉのピクセル位置（ｘ，ｙ）における演算子Ｃの値がその近傍のピクセル位置での値より大きければ、そのピクセル位置（ｘ，ｙ）は特徴点である。近傍は、例えば、ピクセル位置（ｘ，ｙ）を中心とした５×５マトリックスである。ロバスト性を確保するため、選択する特徴点はコーナー性の程度が閾値（例えば、Ｔｃ＝１０）より高いようにする。特徴点検出器１１８からの出力は、画像Ｉ１における一組の特徴点｛Ｆ１｝である。各Ｆ１は画像Ｉ１の「特徴」ピクセル位置に対応している。その他多数の特徴点検出器を利用できる。これにはスケール不変特徴変換（ＳＩＦＴ）、Smallest Univalue Segment Assimilating Nucleus（ＳＵＳＡＮ）、ハフ変換、ソーベルエッジオペレータ、キャニーエッジ検出器などがあるが、これらに限定されない。検出した特徴点を選択した後、特徴点検出器１１９で第２の画像Ｉ２を処理し、第１の画像Ｉ１で見つかった特徴を検出し、その特徴を一致させて、画像を位置合わせする。

まだ残っているレジストレーション問題の１つは、異なる３次元捕捉方法で生成した差異マップの奥行きスケールの調節である。これは、シーン中の同じピクセルや点の奥行きデータに合わせて一定の乗算係数をフィッティングしてやればよいので、自動的に行える。例えば、各方法で出力される最小値を０にスケーリングし、各方法で出力される最大値を２５５にスケーリングする。

様々な３次元捕捉機能の結果の合成は多くの要因に依存している。例えば、機能やアルゴリズムによっては、奥行きデータが粗く、多くのピクセルが奥行き情報を有していない。そのため、機能合成はその他の機能に依存する。複数の機能が、あるピクセルに対して奥行きデータを生成した場合、推定された奥行きデータの平均を取ることによりデータを合成できる。単純な合成方法では、各ピクセルに対する２つの差異マップの差異値を平均することにより、その２つの差異マップを合成する。

例えば、キャプチャ条件（例えば、屋内、屋外、照明状態など）に基づき、またはピクセルの局所的な視覚的特徴に基づき、結果を合成する前に、機能結果に対するオペレータの信頼度に基づき、各機能に重みを割り当てることができる。例えば、一般的に、ステレオベースのアプローチはテクスチャがない領域では不正確であり、一方、構造光ベースの方法は非常によく機能する。そのため、局所的領域のテクスチャ的特徴を検出することにより、構造光ベースの方法により大きな重みを割り当てることができる。他の例では、暗い領域では構造光法は通常あまり性能がよくなく、一方、ステレオマッチングの性能はまあまあである。そのため、この例では、ステレオマッチング法に対して、より大きな重みを割り当てることができる。

重み付け合成法により、２つの差異マップの差異値の重み付け平均を計算する。重みは、左目画像と右目画像の対応するピクセルペア（例えば、ステレオスコープペア）のうち、左目画像の対応ピクセルの強度値により決定する。強度値が大きい場合、構造光差異マップには大きな重みを割り当てる。強度値が大きくなければ、ステレオ差異マップに大きな重みを割り当てる。数学的に言うと、得られる差異値は、
ここで、Ｄｌは構造光による差異マップであり、Ｄｓはステレオによる差異マップであり、Ｄは合成差異マップであり、ｇ（ｘ，ｙ）は左目画像のピクセル（ｘ，ｙ）における強度値であり、Ｃは重みを０から１の範囲に規格化する規格化係数である。例えば、８ビット長の奥行き（８ bit color depth）の場合、Ｃは２５５である。

本開示のシステムと方法を用いて、シーン中の同じピクセルまたは点に対して、奥行きに関する複数の推定（用いる３次元捕捉方法ごとに１つ）を求めることができる。そのため、本システムと方法は画像ピクセルの奥行き値の信頼性も推定できる。例えば、あるピクセルに対してすべての３次元捕捉方法が非常に近い（例えば、所定範囲内の）奥行き値を出力すれば、その奥行き値は信頼性が非常に高いと考えられる。３次元捕捉方法が異なれば得られる奥行き値が大きく異なる場合には、その逆となる。

次に、ステップ２２４において、合成した際マップを奥行きマップに変換する。差異は奥行きに反比例しており、スケーリング係数はカメラの較正パラメータに関係している。カメラ較正パラメータを求め、奥行きジェネレータ１２２により利用して、２つの画像のオブジェクトまたはシーンの奥行きマップを生成する。カメラパラメータは、カメラの焦点距離と、２つのカメラショットの間の距離とを含むがこれらに限定されない。カメラパラメータは、ユーザインタフェースを介してシステム１００に手作業で入力してもよいし、カメラ較正アルゴリズムまたは機能により推定してもよい。カメラパラメータを用いて、複数の３次元捕捉機能の合成出力から奥行きマップを生成する。奥行きマップは空間内の面を数学的に表す２次元に配列された値である。この配列の行と列はその面のｘ位置及びｙ位置の情報に対応する。配列の要素はある点またはカメラ位置からその面までの奥行きまたは距離である。奥行きマップは、オブジェクト表面の各点において強度情報すなわちピクセルを奥行き情報で置き換えた、そのオブジェクトのグレースケール画像と考えることもできる。したがって、３次元グラフィカル構成技術においては表面上の点をピクセルと呼ぶ。本開示においてはこれら２つの用語を交換可能なものとして用いる。差異情報は、奥行きにスケーリング係数をかけたものに反比例するので、ほとんどのアプリケーションにおいて３次元シーンモデルの構築に直接使うことができる。これにより、カメラパラメータの計算が不要になるため、計算が単純になる。

オブジェクトまたはシーンの完全な３次元モデルを差異マップまたは奥行きマップから再構成できる。３次元モデルは、ポストプロダクションアプリケーションや、２次元コンテンツから３次元コンテンツの生成などのアプリケーションに使える。求めた合成画像は、従来からある可視化ツール（例えば、カリフォルニア州スタンフォードにあるスタンフォード大学で開発されたＳｃａｎＡｌｙｚｅソフトウェア）を用いて可視化できる。

オブジェクトまたはシーンの再構成３次元モデルは、ディスプレイ装置で見るようにレンダリングしてもよいし、画像を含むファイルとは別のデジタルファイル１３０に保存してもよい。３次元再構成１３０のデジタルファイルは、後で読み出せるように記憶装置１２４に記憶してもよい。例えば、映画の編集段階において読み出して、モデル化したオブジェクトを、そのオブジェクトが無いシーンに挿入することができる。

他の従来のシステムは、静的な背景と動的な前景のジオメトリを別々に復元するためにツーパスアプローチを用いる。背景ジオメトリ（例えば静的ソース）を捕捉し、それをアプリオリ情報として用いて、動く対象（例えば動的ソース）の３次元ジオメトリを捕捉する。従来からあるこの方法は、関心領域における計算を制限することにより計算コストを低減し、再構成の正確さを向上することができる。しかし、各パスにおいて３次元情報を復元する１つ１つの方法が十分に利用できていないことが分かった。そのため、他の実施形態では、複数の奥行き推定方法を利用する本開示の方法をツーパスアプローチの各パスにおいて用いる。図３は、ステレオの結果と構造光の結果とを合成して静的シーン（例えば背景シーン）のジオメトリを復元し、動的シーン（例えば前景シーン）の動きから２次元−３次元変換及び構成を復元する方法を示す。図３に示したステップは図２を参照して説明したステップと同様であり、同じ参照数字を有している。「−１」のステップ（例えば３０４−１）は第１のパスにおけるステップを表し、「−２」のステップ（例えば３０４−２）は第２のパスにおけるステップを表す。例えば、ステップ３０４−１において静的入力ソースを供給する。ステップ３１４−１において第１の３次元捕捉機能を実行し、ステップ３１６−１において奥行きデータを生成する。ステップ３１８−１において第２の３次元捕捉機能を実行し、ステップ３２０−１において奥行きデータを生成し、ステップ３２２−１において２つの３次元捕捉機能により得られた奥行きデータを合成し、ステップ３２４−１において静的な差異マップまたは奥行きマップを生成する。同様に、ステップ３０４−２ないし３２２−２において、動的な差異マップすなわち奥行きマップを生成する。ステップ３２６において、第１のパスにより求めた静的な差異マップすなわち奥行きマップと、第２のパスにより求めた動的な差異マップすなわち奥行きマップとから、合成差異マップすなわち奥行きマップを生成する。言うまでもなく、図３は一例であって、必要に応じてその他のアルゴリズムや機能を用いたり組み合わせたりしてもよい。

本開示のシステムと方法により処理した画像を図４Ａと図４Ｂに示した。図４Ａは２入力ステレオ画像を示し、図４Ｂは２入力構造光画像を示す。画像の収集において各方法の要件は異なる。例えば、構造光はステレオと比較して部屋を暗くする設定を要する。各方法に対して異なるカメラモードを用いた。左右の画像でカメラの条件が同じになるように、一つのカメラ（例えば、コンシューマグレードのデジタルカメラ）を用いて、そのカメラをスライダーで動かすことにより左右のステレオ画像をキャプチャした。構造光の場合には、構造光の色の歪みを最小限にするよう、夜景露出を用いた。ステレオマッチングの場合、通常の自動露出を用いた。自動露出は照明環境の設定に対する感度が下がるからである。構造光はデジタルプロジェクタで発生させた。構造光画像は、プロジェクタ以外のすべての照明を消して、部屋を暗くして撮った。ステレオ画像は通常の照明状態で撮った。キャプチャの際、構造光とステレオマッチングとで左目カメラを厳密に同じ位置において（右目カメラの位置は可変とした）、合成時に構造光差異マップとステレオ差異マップの位置合わせに同じ参照画像を用いた。

図５Ａは図４Ａに示したステレオ画像から生成した差異マップであり、図５Ｂは図４Ｂに示した構造光画像から生成した差異マップである。図５Ｃは単純平均合成法を用いて図５Ａと図５Ｂに示した差異マップの合成から得られる差異マップを示す図である。図５Ｄは重み付け平均合成法を用いて図５Ａと図５Ｂに示した差異マップの合成から得られる差異マップを示す図である。図５Ａにおいて、右側の箱について、ステレオ機能では奥行きマップ推定がうまくできないことが分かる。一方、図５Ｂに示した構造光では、黒いイスを識別するのが難しい。図５Ｃのように単純合成法により少し改善されるが、イスの輪郭がよくキャプチャできなかった。図５Ｄに示したように、重み付け合成法により、主要なオブジェクト（すなわち、イスと箱）がはっきりと識別できる、最もよい奥行きマップが得られた。

本開示の教示を組み込んだ実施形態を図示して詳細に説明したが、当業者は依然としてこれらの教示を組み込んだその他多くの変形した実施形態を容易に工夫することができる。シーンの３次元捕捉とモデリングのためのシステムと方法の好ましい実施形態（これらは例示であって限定ではない）を説明したが、当業者は上記の教示を考慮して修正や変形をすることができることに留意すべきである。それため、当然のことながら、添付した請求項により規定される本開示の範囲において、本開示の実施形態を変更することができる。

Claims

３次元捕捉方法であって、
シーンの少なくとも２つの２次元画像を捕捉するステップと、
前記少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用するステップと、
前記少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用するステップと、
前記少なくとも２つの２次元画像のピクセルの局所的な視覚的特徴に基づき、前記第１の奥行き捕捉機能の出力に第１の重み値を適用し、前記第２の重み捕捉機能の出力に第２の重み値を適用するステップと、
前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と合成するステップと、
合成した前記第１と第２の奥行き捕捉機能の出力から差異マップを生成するステップとを有する、方法。
前記差異マップから奥行きマップを生成するステップをさらに有する、
請求項１に記載の方法。
前記合成するステップは、前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力にレジスタするステップを含む、
請求項１に記載の方法。
前記レジスタするステップは、前記第１の奥行き捕捉機能の出力と前記第２の奥行き捕捉機能の出力の奥行きスケールを調整するステップを含む、
請求項３に記載の方法。
前記合成するステップは、前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と平均するステップを含む、
請求項１に記載の方法。
前記少なくとも２つの２次元画像は立体視ペアの左目ビューと右目ビューとを含み、前記左目画像と右目画像の対応するピクセルペアの左目画像のピクセルの強度により前記第１の重み値を決める、
請求項１に記載の方法。
生成した前記最マップから前記シーンの３次元モデルを再構成するステップをさらに有する、
請求項１に記載の方法。
前記少なくとも２つの２次元画像を位置合わせするステップをさらに有する、
請求項１に記載の方法。
前記位置合わせするステップは、前記少なくとも２つの２次元画像の特徴をマッチさせるステップをさらに含む、
請求項８に記載の方法。
前記少なくとも２つの２次元画像に少なくとも第３の奥行き捕捉機能を適用するステップと、
前記少なくとも２つの２次元画像に少なくとも第４の奥行き捕捉機能を適用するステップと、
前記第３の奥行き捕捉機能の出力を前記第４の奥行き捕捉機能の出力と合成するステップと、
合成した前記第３と第４の奥行き捕捉機能の出力から第２の差異マップを生成するステップと、
合成した前記第１と第２の奥行き捕捉機能の出力から生成した前記差異マップを、合成した前記第３と第４の奥行き捕捉機能の出力から生成した前記第２の差異マップと合成するステップとをさらに有する、
請求項１に記載の方法。
２次元画像から３次元情報を捕捉するシステムであって、
シーンの少なくとも２つの２次元画像を捕捉する手段と、
前記少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用し、前記少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用し、前記少なくとも２つの２次元画像のピクセルの局所的な視覚的特徴に基づき、前記第１の奥行き捕捉機能の出力に第１の重み値を適用し、前記第２の奥行き捕捉機能の出力に第２の重み値を適用し、前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と合成する３次元捕捉モジュールとを有する、システム。
合成した前記第１と第２の奥行き捕捉機能の出力から奥行きマップを生成するように構成された奥行きマップ生成器をさらに有する、
請求項１１に記載のシステム。
前記３次元捕捉モジュールは、合成した前記第１と第２の奥行き捕捉機能の出力から差異マップを生成するようにさらに構成された、
請求項１１に記載のシステム。
前記３次元捕捉モジュールは前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力にレジスタするようにさらに構成された、
請求項１１に記載のシステム。
前記第１の奥行き捕捉機能の出力と前記第２の奥行き捕捉機能の出力の奥行きスケールを調整するように構成された奥行き調整器をさらに有する、
請求項１４に記載のシステム。
前記３次元捕捉モジュールは前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と平均するようにさらに構成された、
請求項１１に記載のシステム。
前記少なくとも２つの２次元画像は立体視ペアの左目ビューと右目ビューとを含み、前記左目画像と右目画像の対応するピクセルペアの左目画像のピクセルの強度により前記第１の重み値を決める、
請求項１１に記載のシステム。
生成した前記奥行きマップから前記シーンの３次元モデルを再構成するように構成された３次元再構成モジュールをさらに有する、
請求項１３に記載のシステム。
前記３次元捕捉モジュールは前記少なくとも２つの２次元画像を位置合わせするようにさらに構成された、
請求項１１に記載のシステム。
前記少なくとも２つの２次元画像の特徴をマッチさせるように構成された特徴点検出器をさらに有する、
請求項１９に記載のシステム。
前記３次元捕捉モジュールは、
前記少なくとも２つの２次元画像に少なくとも第３の奥行き捕捉機能を適用し、
前記少なくとも２つの２次元画像に少なくとも第３の奥行き捕捉機能を適用し、
第３の奥行き捕捉機能の出力を第４の奥行き捕捉機能の出力と合成し、
合成した前記第１と第２の奥行き捕捉機能の出力を、合成した前記第３と第４の奥行き捕捉機能の出力と合成する、
請求項１１に記載のシステム。
機械により読み取り可能であり、２次元画像から３次元情報を捕捉する方法ステップを実行する、前記機械により実行可能な命令のプログラムを化体したプログラム記憶デバイスであって、前記方法は、
シーンの少なくとも２つの２次元画像を捕捉するステップと、
前記少なくとも２つの２次元画像に第１の奥行き捕捉機能を適用するステップと、
前記少なくとも２つの２次元画像に第２の奥行き捕捉機能を適用するステップと、
前記少なくとも２つの２次元画像のピクセルの局所的な視覚的特徴に基づき、前記第１の奥行き捕捉機能の出力に第１の重み値を適用し、前記第２の奥行き捕捉機能の出力に第２の重み値を適用するステップと、
前記第１の奥行き捕捉機能の出力を前記第２の奥行き捕捉機能の出力と合成するステップと、
合成した前記第１と第２の奥行き捕捉機能の出力から差異マップを生成するステップとを有する、プログラム記憶デバイス。